CN106970922A

CN106970922A - 基于多字段关键词的索引建立方法、检索方法及索引系统

Info

Publication number: CN106970922A
Application number: CN201610023977.4A
Authority: CN
Inventors: 高维国
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2017-07-21

Abstract

本发明涉及一种基于多字段关键字的索引建立方法、检索方法及索引系统，该索引建立方法包括：对接收的文本进行多字段关键词抽取，并对抽取的关键词进行打分；将带分数的关键词形成索引项，并加入到索引库中；其中，所述进行多字段关键词抽取，包括对所述文本的所有内容进行关键词抽取。本发明将分词和检索的分离、减少了检索系统的硬件投入、加快检索系统的检索效率、提升系统的并发能力、更好的维护分词和检索服务。

Description

基于多字段关键词的索引建立方法、检索方法及索引系统

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种基于多字段关键词的索引建立方法、检索方法及索引系统。

背景技术

目前文献检索任务主要采取TF-IDF方式进行全文检索。一般包括以下步骤：1)根据文章的属性，创建schema文件，属性和字段一一对应；2)遇到需要进行分词的字段，找一种中文分词器，配置进来；3)文章从数据库导入到全文检索系统，开源技术基于lucene比较多；4)用户使用tf-idf算法计算相似度，获取相似文章。

上述的检索方法中，每个需要分词的字段，都需要原文导入。而文章内容是比较长的，会占用很大的存储空间。并且分词器往往决定了分词的准确性和效率。这种方式往往是分词和检索在一起，耦合度比较高。此外，分词器无法提供单独的服务，只能在检索系统内部使用。多个检索系统无法共享分词服务。进一步地，上述检索方法的内容噪音比较大，每个字段产生的term比较多，而很多的term是可以忽略的。另外，由于检索的索引量比较大，导致在导入和检索的时候，速度会比较慢，有时候会非常消耗内存及cpu，导致并发量不够，响应不及时等。

发明内容

针对上述问题，本发明提供一种基于多字段关键词抽取的文献检索方法及系统，可以实现分词和检索的分离、减少检索系统的硬件投入、加快检索系统的检索效率、提升系统的并发能力、更好的维护分词和检索服务。

基于上述目的，本发明的一个方面提出了一种基于多字段关键字的文献索引建立方法，其特征在于，包括：

对接收的文本进行多字段关键词抽取，并对抽取的关键词进行打分；

将带分数的关键词形成索引项，并加入到索引库中；

其中，所述进行多字段关键词抽取，包括对所述文本的所有内容进行关键词抽取。

其中，所述对文本的所有内容进行关键词抽取，具体包括：

对所述文本的摘要、标题和正文内容进行关键词抽取。

其中，使用NLP自然语言处理工具进行关键词抽取。

其中，所述对接收的文本进行多字段的关键词抽取之前，还包括：

对所述接收的文本的所有内容进行分词；

所述对接收的文本进行多字段的关键词抽取，具体包括：

从分词后的字段中抽取关键词。

其中，对抽取的关键词进行打分，具体包括：

根据抽取的关键词在所述文本中的重要性，对所述关键词打分。

根据本发明的另一个方面，提供一种基于多字段关键字的文献检索方法，其特征在于，包括：

在接收到待检索的文本时，对所述待检索文本进行多字段检索关键词的抽取，并对所述检索关键词打分；

根据带分数的检索关键词在索引库中进行检索；

其中，抽取所述待检索文本的多字段检索关键词，包括对所述带检索文本的所有内容进行检索关键词抽取。

其中，所述对待检索文本进行多字段检索关键词抽取之前，还包括：

对所述待检索文本的所有内容进行分词；

所述对待检索文本进行多字段检索关键词的抽取，具体包括：

从分词后的字段中抽取所述检索关键词。

其中，所述对待检索文本进行多字段检索关键词的抽取，具体包括：

对所述待检索文本的摘要、标题和正文内容进行检索关键词抽取。

根据本发明的又一个方面，提供一种基于多字段关键字抽取的文献索引系统，其特征在于，包括：

关键词抽取模块，用于对接收的文本进行多字段关键词抽取，并对抽取的关键词进行打分；

索引项形成模块，用于将带分数的关键词形成索引项，并加入到索引库中；

其中，所述系统还包括：

检索关键词抽取模块，用于在接收到待检索的文本时，对所述待检索文本进行多字段检索关键词的抽取，并对所述检索关键词打分；

检索模块，用于根据带分数的检索关键词在索引库中进行检索；其中，抽取所述待检索文本的多字段检索关键词，包括对所述带检索文本的所有内容进行检索关键词抽取。

本发明的基于多字段关键词的文献索引建立方法、检索方法及索引系统，在读取数据源之后直接进行关键词抽取，将关键词写入索引库，需要进行检索的时候，只需要对文本进行关键词抽取，用抽取得关键词进行检索即可实现。同时，本发明将检索系统最大的性能瓶颈分词功能抽取出来，能更大程度的发挥检索系统的性能，并且可以实现分词和检索的分离、减少检索系统的硬件投入、加快检索系统的检索效率、提升系统的并发能力、更好的维护分词和检索服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中一种基于多字段关键词的索引建立方法的流程图；

图2是本发明一个实施例中一种基于多字段关键词的检索方法的流程图；

图3是本发明一个实施例的基于多字段关键词的索引系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例中一种基于多字段关键词的索引建立方法的流程图。

基于上述目的，本发明的一个实施例提出的基于多字段关键字的索引建立方法，具体包括：

S11、对接收的文本进行多字段关键词抽取，并对抽取的关键词进行打分；

具体地，进行多字段关键词抽取，包括对文本的所有内容进行关键词抽取，如可以从文本的标题、摘要以及正文文本中抽取关键词。

并且本实施的关键词抽取方法可以使用现有的任意一种方法，如可以使用NLP自然语言处理工具进行关键词抽取。

另外，对关键词的抽取，还可以为，对接收的文本的所有内容进行分词；然后从分词后的字段中抽取关键词。此外，对文本的分词，可以使用现有的大部分全文检索系统使用的空格分词来进行，在此不做限定。

进一步地，在抽取关键词的同时对关键词进行打分，本发明的实施例中对关键词的打分，是根据抽取的关键词在文本中的重要性来决定的，即将关键词的分数设置为payload负载值。

S12、将带分数的关键词形成索引项，并加入到索引库中。

在此过程中，将带分数的关键词形成索引项，并且根据每个关键词的分数，对文本的关键词进行排序，从而可以在进行检索的时候，根据关键词的分数即可得到该文本与检索文本的相似度。

进一步地，在建立的索引库中，由于每一个文本都具有相同的基于多字段关键词的检索方式，因此，当进行文献检索时，根据检索关键词在每个文本中的分数，即可得到该文献与检索文本的相似度，从而可以得到检索文献的相似度的排序。

参照图2，本发明的一个实施例的基于多字段关键字的检索方法，是在通过上述方法建立的索引库的基础上进行的，其具体包括：

S21、在接收到待检索的文本时，对所述待检索文本进行多字段检索关键词的抽取，并对所述检索关键词打分；

具体地，抽取所述待检索文本的多字段检索关键词，包括对所述带检索文本的所有内容进行检索关键词抽取，如可以对待检索文本的摘要、标题和正文内容进行检索关键词抽取。

进一步地，在抽取检索关键词之前，可以对待检索文本进行分词，然后从分词后的字段中抽取检索关键词。

进一步地，在抽取检索关键词的同时对检索关键词进行打分，根据该检索关键词在待检索文本中的重要性对检索关键词进行打分，从而在检索时，当根据分数高的检索关键词检索到文献时，其相关度就性对较高。

S22、根据带分数的检索关键词在索引库中进行检索。

进一步地，在上述检索过程中，也可以将待检索文本先写入到索引库中，然后在检索时，直接通过该待检索文本在索引库中的ID，就可以找到该文本的带分数的检索关键词，然后进行检索，从而可以提高检索效率。

以下通过具体实施例详细描述本发明的检索方法。

实施例一

本实施例中，当通过文本直接进行文献检索时，过程如下：

1)输入文本，根据文本内容抽取关键词，并对关键词进行打分；

2)将抽取的关键词和分数组合形成检索语句，使用多字段检索语句进行检索；

3)检索完成，返回检索的文献列表。

本实施的检索方法，使用多字段检索效率，跟基于TF-IDF方式相比效率高很多，一般的TF-IDF只能对标题和摘要进行检索，而使用关键词抽取却可以使用内容字段进行检索，而且效率远远高于TF-IDF方式。

实施例二

本实施例中，当带检索本文为文章时，从数据库中查找相似的文章，具体过程为：

1)输入检索文章id，用id从数据库中查找该检索文章的出多字段的关键词；

2)用多字段的关键词分别匹配相应的字段，组合检索语句，使用多字段检索；

3)检索完成，返回相似文章的列表。

上述实施例中，使用文章在数据库中的Id，查找相应的检索关键词，然后检索相似文章，其性能消耗很低。而基于TF-IDF的检索方法，如果通过文章id读取文章内容然后检索的话，只适用于短文本文章。另外，有些检索工具提供MoreLikeThis工具，但是其性能相当的低，对于使用者来说成本也比较高。

参照图3，在本发明的另一个实施例中，提供一种基于多字段关键字的索引系统，其特征在于，包括：

关键词抽取模块10，用于对接收的文本进行多字段关键词抽取，并对抽取的关键词进行打分；

索引项形成模块20，用于将带分数的关键词形成索引项，并加入到索引库中；

进一步地，所述系统还包括：

检索关键词抽取模块30，用于在接收到待检索的文本时，对所述待检索文本进行多字段检索关键词的抽取，并对所述检索关键词打分；

检索模块40，用于根据带分数的检索关键词在索引库中进行检索；

更进一步，使用关键词抽取和检索分离，不仅可以提高检索性能和并发能力，还能将关键词抽取作为服务，不停的完善，而并不会影响检索服务的正常运行。

本实施例为本发明的系统的实施例，由于与方法的实施例基本相似，所以描述的比较简单，相关之处请参见方法实施例部分的说明。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在于该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是互相排斥之处，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于多字段关键字的索引建立方法，其特征在于，包括：

将带分数的关键词形成索引项，并加入到索引库中；

2.根据权利要求1所述的索引建立方法，其特征在于，所述对文本的所有内容进行关键词抽取，具体包括：

对所述文本的摘要、标题和正文内容进行关键词抽取。

3.根据权利要求1所述的索引建立方法，其特征在于，使用NLP自然语言处理工具进行关键词抽取。

4.根据权利要求1所述的索引建立方法，其特征在于，所述对接收的文本进行多字段的关键词抽取之前，还包括：

对所述接收的文本的所有内容进行分词；

所述对接收的文本进行多字段的关键词抽取，具体包括：

从分词后的字段中抽取关键词。

5.根据权利要求1所述的索引建立方法，其特征在于，对抽取的关键词进行打分，具体包括：

6.一种基于多字段关键字的检索方法，其特征在于，包括：

根据带分数的检索关键词在索引库中进行检索；

7.根据权利要求6所述的检索方法，其特征在于，所述对待检索文本进行多字段检索关键词抽取之前，还包括：

对所述待检索文本的所有内容进行分词；

从分词后的字段中抽取所述检索关键词。

8.根据权利要求6所述的检索方法，其特征在于，所述对待检索文本进行多字段检索关键词的抽取，具体包括：

9.一种基于多字段关键字的索引系统，其特征在于，包括：

10.根据权利要求9所述的索引系统，其特征在于，所述系统还包括：

检索模块，用于根据带分数的检索关键词在索引库中进行检索；