CN108197118A

CN108197118A - 一种利用计算机系统进行自动标引及检索的方法

Info

Publication number: CN108197118A
Application number: CN201810110713.1A
Authority: CN
Inventors: 席素梅
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2018-06-22

Abstract

本发明公开了一种利用计算机系统进行自动标引及检索的方法，包括输入系统，其特征在于，所述输入系统输入以确定标引源。本发明词汇链构建方法以全文为处理单位，首先要对文本进行预处理，包括文本分词、低频词过滤、词性标注和语义标注等活动；接着对经过语义标注的名词进行处理，计算词语间的语义相关度，将语义相关度值满足条件的词语作为候选词，并对其进行同义词合并等操作，然后过滤掉对文献的意义贡献不大的词语，把语义上相关的词语聚合在一起作为词汇链。有效减少自动标引系统的工作量，词义标注和词性标注为人工输入计算机系统批量标注，较人工一一标注提高效率，有良好的经济效益和社会效益，适合推广使用。

Description

一种利用计算机系统进行自动标引及检索的方法

技术领域

本发明涉及一种标引方法，特别涉及一种利用计算机系统进行自动标引及检索的方法，属于计算机系统应用技术领域。

背景技术

关键词自动标引的任务是根据文档的主题内容,借助计算机处理技术,自动从文档中直接抽取关键词作为标引词。因此有人也把关键词自动标引称作关键词抽取技术。关键词自动标引,可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。自动标引方法主要有三类:统计标引方法、机器学习标引方法、语言学标引方法。统计标引方法利用词语的统计特征,如字同现、词共现、逆文档词频、互信息等实现自动标引。抽取关键词的准确率低,标引效果不是太好，且目前词义标注的效率还不是很高。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种利用计算机系统进行自动标引及检索的方法，使用方便，节约了大量的成本。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明提供一种利用计算机系统进行自动标引及检索的方法，包括输入系统，其特征在于，所述输入系统输入以确定标引源，所述输入系统后进行预处理系统、词汇链构建系统和关键词选择系统进行运行，所述预处理系统内包含文本分词、词频过滤、词义标注和词性标注系统运行，所述词汇链构建系统内包含计算相关度、选择候选词、候选词清洗和构建词汇链系统运行，所述关键词选择系统内包含候选词打分和选择关键词系统运行，所述关键词选择系统完成后输出关键词。

作为本发明的一种优选技术方案，所述候选词打分公式采用ｓｃｏｒｅ（ｗｉ）＝ａ×ｆｒｅｉ＋ｂ×ｌｏｃｉ＋ｃ×ｖａｌｕｅｉ＋ｄ×｜Ｃｈａｉｎｉ｜公式，所述ｓｃｏｒｅ（ｗｉ）表示词语ｗｉ的分值，ｆｒｅｉ表示词语ｗｉ在文章中出现的次数，ｌｏｃｉ表示词语ｗｉ在文章中的位置。

作为本发明的一种优选技术方案，所述当词语ｗｉ出现在标题中时ｌｏｃｉ＝3，出现在摘要中ｌｏｃｉ＝1，出现在正文中时ｌｏｃｉ＝0。ｖａｌｕｅｉ表示词语ｗｉ的价值，由词语ｗｉ的在《ＨｏｗＮｅｔ》中概念的首义原在义原树中的深度衡量。｜Ｃｈａｉｎｉ｜表示词语ｗｉ所在词汇链包含的词语的个数。ａ、ｂ、ｃ、ｄ分别是ｆｒｅｉ、ｌｏｃｉ、ｖａｌｕｅｉ、｜ｃｈａｉｎｉ｜的加权系数。根据公式为每个词语打分，按照词语的分值进行降序排序，选择前ｍ个词语作为文章的关键词，其中ｍ是所需要的关键词的个数。

作为本发明的一种优选技术方案，所述词义标注和词性标注为人工输入计算机系统批量标注。

本发明所达到的有益效果是：本发明词汇链构建方法以全文为处理单位，首先要对文本进行预处理，包括文本分词、低频词过滤、词性标注和语义标注等活动；接着对经过语义标注的名词进行处理，计算词语间的语义相关度，将语义相关度值满足条件的词语作为候选词，并对其进行同义词合并等操作，然后过滤掉对文献的意义贡献不大的词语，把语义上相关的词语聚合在一起作为词汇链。有效减少自动标引系统的工作量，有的自动标引系统在经过文本分词后，会先过滤掉那些词频很低的词语，然后再进行语义标注和词性标注，词义标注和词性标注为人工输入计算机系统批量标注，较人工一一标注提高效率，有良好的经济效益和社会效益，适合推广使用。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的整体结构示意图；

图2是本发明的分系统结构示意图；

图中：1、输入系统；2、预处理系统；3、词汇链构建系统；4、关键词选择系统；5、确定标引源；6、文本分词；7、词频过滤；8、词义标注；9、词性标注；10、计算相关度；11、选择候选词；12、候选词清洗；13、构建词汇链；14、候选词打分；15、选择关键词；16、输出关键词。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1-2所示，本发明提供一种利用计算机系统进行自动标引及检索的方法，包括输入系统1，其特征在于，所述输入系统1输入以确定标引源5，所述输入系统1后进行预处理系统2、词汇链构建系统3和关键词选择系统4进行运行，所述预处理系统2内包含文本分词6、词频过滤7、词义标注8和词性标注9系统运行，所述词汇链构建系统3内包含计算相关度10、选择候选词11、候选词清洗12和构建词汇链13系统运行，所述关键词选择系统4内包含候选词打分14和选择关键词15系统运行，所述关键词选择系统4完成后输出关键词16。

为了使该种利用计算机系统进行自动标引及检索的方法，使用方便，工作效率高，所述候选词打分14公式采用ｓｃｏｒｅ（ｗｉ）＝ａ×ｆｒｅｉ＋ｂ×ｌｏｃｉ＋ｃ×ｖａｌｕｅｉ＋ｄ×｜Ｃｈａｉｎｉ｜公式，所述ｓｃｏｒｅ（ｗｉ）表示词语ｗｉ的分值，ｆｒｅｉ表示词语ｗｉ在文章中出现的次数，ｌｏｃｉ表示词语ｗｉ在文章中的位置。所述当词语ｗｉ出现在标题中时ｌｏｃｉ＝3，出现在摘要中ｌｏｃｉ＝1，出现在正文中时ｌｏｃｉ＝0。ｖａｌｕｅｉ表示词语ｗｉ的价值，由词语ｗｉ的在《ＨｏｗＮｅｔ》中概念的首义原在义原树中的深度衡量。｜Ｃｈａｉｎｉ｜表示词语ｗｉ所在词汇链包含的词语的个数。ａ、ｂ、ｃ、ｄ分别是ｆｒｅｉ、ｌｏｃｉ、ｖａｌｕｅｉ、｜ｃｈａｉｎｉ｜的加权系数。根据公式为每个词语打分，按照词语的分值进行降序排序，选择前ｍ个词语作为文章的关键词，其中ｍ是所需要的关键词的个数。所述词义标注8和词性标注9为人工输入计算机系统批量标注。

本发明在使用时，首先对文本进行分词、词频过滤、词性标注和词义标注，然后设定词语语义相关度阈值ｓ，接着以句子为单位，计算句子中词语之间的语义相关度值，将相关度值大于ｓ的词语加入候选词汇集Ｈ，Ｈ的最终结果为｛ｗ１，ｗ２，……，ｗｎ｝，从Ｈ中选择ｗ１作为初始词汇链Ｌ的第一个元素，并将ｗ１从Ｈ中删除，从Ｈ的剩余词语中，选取与Ｌ中的词语语义相关度大于ｓ的词语，将其加入词汇链Ｌ，同时将这些词从Ｈ中删除。重复此步直到Ｌ中没有新的词语加入，Ｌ就是一条词汇链，重复构建其它词汇链，直到Ｈ中不存在词语。关键词自动标引的流程为第一步是确定标引源，即关键词自动标引的输入数据，根据具体的情况，可以是标题、摘要、小标题和全文等的组合。第二步是预处理，主要是将输入的文本变为规模更小的经过语义标注的词语集合。包括文本分词、低频词过滤、词义标注和词性标注。第三步是构建词汇链的过程，计算词语间的语义相关度，选择语义相关度值大于阈值的词语作为候选词，并对同义词、别名、低频词等情况进行处理，再根据词汇链构建算法构建词汇链。词频和词语位置是主要因素，其中又以词语的位置最为重要，词语的价值和词汇链的长度可以在前两个因素计算结果相同的情况下，对词语的重要性进行细分，采用公式ｓｃｏｒｅ（ｗｉ）＝ａ×ｆｒｅｉ＋ｂ×ｌｏｃｉ＋ｃ×ｖａｌｕｅｉ＋ｄ×｜Ｃｈａｉｎｉ｜对候选词进行打分，其中ｓｃｏｒｅ（ｗｉ）表示词语ｗｉ的分值。ｆｒｅｉ表示词语ｗｉ在文章中出现的次数。ｌｏｃｉ表示词语ｗｉ在文章中的位置，当词语ｗｉ出现在标题中时ｌｏｃｉ＝3，出现在摘要中ｌｏｃｉ＝1，出现在正文中时ｌｏｃｉ＝0。ｖａｌｕｅｉ表示词语ｗｉ的价值，由词语ｗｉ的在《ＨｏｗＮｅｔ》中概念的首义原在义原树中的深度衡量。｜Ｃｈａｉｎｉ｜表示词语ｗｉ所在词汇链包含的词语的个数。ａ、ｂ、ｃ、ｄ分别是ｆｒｅｉ、ｌｏｃｉ、ｖａｌｕｅｉ、｜ｃｈａｉｎｉ｜的加权系数。根据公式为每个词语打分，按照词语的分值进行降序排序，选择前ｍ个词语作为文章的关键词，其中ｍ是所需要的关键词的个数，第四步是关键词标引，具体任务是对候选词进行打分，根据分值的大小抽取具体的关键词。最后，输出关键词。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种利用计算机系统进行自动标引及检索的方法，包括输入系统（1），其特征在于，所述输入系统（1）输入以确定标引源（5），所述输入系统（1）后进行预处理系统（2）、词汇链构建系统（3）和关键词选择系统（4）进行运行，所述预处理系统（2）内包含文本分词（6）、词频过滤（7）、词义标注（8）和词性标注（9）系统运行，所述词汇链构建系统（3）内包含计算相关度（10）、选择候选词（11）、候选词清洗（12）和构建词汇链（13）系统运行，所述关键词选择系统（4）内包含候选词打分（14）和选择关键词（15）系统运行，所述关键词选择系统（4）完成后输出关键词（16）。

2.根据权利要求1所述的一种利用计算机系统进行自动标引及检索的方法，其特征在于，所述候选词打分（14）公式采用ｓｃｏｒｅ（ｗｉ）＝ａ×ｆｒｅｉ＋ｂ×ｌｏｃｉ＋ｃ×ｖａｌｕｅｉ＋ｄ×｜Ｃｈａｉｎｉ｜公式，所述ｓｃｏｒｅ（ｗｉ）表示词语ｗｉ的分值，ｆｒｅｉ表示词语ｗｉ在文章中出现的次数，ｌｏｃｉ表示词语ｗｉ在文章中的位置。

3.根据权利要求1所述的一种利用计算机系统进行自动标引及检索的方法，其特征在于，所述当词语ｗｉ出现在标题中时ｌｏｃｉ＝3，出现在摘要中ｌｏｃｉ＝1，出现在正文中时ｌｏｃｉ＝0。ｖａｌｕｅｉ表示词语ｗｉ的价值，由词语ｗｉ的在《ＨｏｗＮｅｔ》中概念的首义原在义原树中的深度衡量。｜Ｃｈａｉｎｉ｜表示词语ｗｉ所在词汇链包含的词语的个数。ａ、ｂ、ｃ、ｄ分别是ｆｒｅｉ、ｌｏｃｉ、ｖａｌｕｅｉ、｜ｃｈａｉｎｉ｜的加权系数。根据公式（1）为每个词语打分，按照词语的分值进行降序排序，选择前ｍ个词语作为文章的关键词，其中ｍ是所需要的关键词的个数。

4.根据权利要求1所述的一种利用计算机系统进行自动标引及检索的方法，其特征在于，所述词义标注（8）和词性标注（9）为人工输入计算机系统批量标注。