CN110019669B

CN110019669B - 一种文本检索方法及装置

Info

Publication number: CN110019669B
Application number: CN201711044415.9A
Authority: CN
Inventors: 戴威
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2021-06-29
Anticipated expiration: 2037-10-31
Also published as: CN110019669A

Abstract

本发明提供一种文本检索方法及装置，可以对搜索内容进行分词，得到搜索内容对应的至少一个关键词，并对至少一个关键词进行扩词，得到至少一个关键词各自对应的至少一个扩展词，从而得到搜索内容对应的搜索词语集合，以增加用于检索且与搜索内容相关的词语数量。对搜索词语集合和至少一个待检索文本各自对应的文本词语集合来说，确定这两个集合中词语的词向量，并根据这两个集合中词语的词向量对至少一个待检索文本进行排序输出。由于本发明使用词向量表示各词语与词语间的关系，所以本发明可以根据各词语与词语间的关系对待检索文本进行排序输出，使得排序输出的待检索文本与搜索内容相关，从而提高检索的准确度。

Description

一种文本检索方法及装置

技术领域

本发明涉及文本检索技术领域，更具体的说，尤其涉及一种文本检索方法及装置。

背景技术

文本检索顾名思义是指根据用户输入的搜索内容(简称query)，输出与query相关的文本，例如输出与“老板不发工资”这一搜索内容相关的裁判文书。

目前文本检索方法在对用户输入的搜索内容进行分词得到至少一个关键词后，获取每个关键词在待检索文本中的词频，从而得到待检索文本中出现关键词的词频总和，并根据待检索文本中出现关键词的词频总和对待检索文本进行排序输出。

虽然目前的文本检索方法可输出包含有关键词的待检索文本，但是并未考虑关键词与待检索文本的相关程度，从而降低检索的准确度。如待检索文本中出现query中的某个关键词，但是该关键词并未体现裁判文书的核心内容，例如query为“老板不还钱”，其对应的关键词包括：“老板”、“不”和“还钱”，用户希望输出的待检索文本为与劳动合同纠纷类的裁判文书，但是由于卖淫类案件的裁判文书中经常出现大量的“老板”和“不”一词，因此使得卖淫类案件的裁判文书排列在劳动合同纠纷类的裁判文书之前，降低检索的准确度。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本检索方法及装置，用于提高检索的准确度。技术方案如下：

本发明提供一种文本检索方法，所述方法包括：

对搜索内容进行分词，得到所述搜索内容对应的至少一个关键词；

对所述至少一个关键词进行扩词，得到所述至少一个关键词各自对应的至少一个扩展词；

将所述至少一个关键词和所述至少一个关键词各自对应的至少一个扩展词存储在所述搜索内容对应的搜索词语集合中；

确定所述搜索词语集合中每个词语的词向量；

获取至少一个待检索文本各自对应的文本词语集合，并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量；

根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量，对所述至少一个待检索文本进行排序输出。

优选地，所述根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量，对所述至少一个待检索文本进行排序输出包括：

对所述至少一个待检索文本中的每个待检索文本：计算所述搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度，从所述搜索词语集合中每个词语各自对应的向量相似度中，获取所述搜索词语集合中每个词语各自对应的最大向量相似度，从所述搜索词语中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分；

根据待检索文本的排序得分，对所述至少一个待检索文本进行排序输出。

优选地，所述方法还包括：获取所述搜索内容对应的至少一个关键词的关键词数量；

在所述关键词数量小于或等于预设数量的情况下，执行对所述至少一个关键词进行扩词，得到所述至少一个关键词各自对应的至少一个扩展词的步骤。

优选地，所述对所述至少一个关键词进行扩词，得到所述至少一个关键词各自对应的至少一个扩展词包括：

对所述至少一个关键词中的每个关键词：获取该关键词的编码符号，根据该关键词的编码符号，查找该关键词对应的至少一个扩展词。

优选地，对任一待检索文本：获取该待检索文本的文本词语集合的过程包括：

对该待检索文本进行分词，得到多个词语；

从所述多个词语中去除重复词语和停用词，获得第一词语集合；

计算所述第一词语集合中每个词语的重要度；

根据所述第一词语集合中每个词语的重要度，从所述第一词语集合中确定出所述文本词语集合。

优选地，所述计算所述第一词语集合中每个词语的重要度包括：

对所述第一词语集合中的每个词语：确定该词语的左侧熵值和该词语的右侧熵值的熵值和，将所述熵值和确定为该词语的重要度；

或者

对所述第一词语集合中的每个词语：利用TextRank算法计算该词语的重要度。

本发明还提供一种文本检索装置，所述装置包括：

分词单元，用于对搜索内容进行分词，得到所述搜索内容对应的至少一个关键词；

扩词单元，用于对所述至少一个关键词进行扩词，得到所述至少一个关键词各自对应的至少一个扩展词；

存储单元，用于将所述至少一个关键词和所述至少一个关键词各自对应的至少一个扩展词存储在所述搜索内容对应的搜索词语集合中；

获取单元，用于获取至少一个待检索文本各自对应的文本词语集合；

确定单元，用于确定所述搜索词语集合中每个词语的词向量，以及确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量；

排序输出单元，用于根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量，对所述至少一个待检索文本进行排序输出。

优选地，所述排序输出单元包括：

计算子单元，用于对所述至少一个待检索文本中的每个待检索文本：计算所述搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度，从所述搜索词语集合中每个词语各自对应的向量相似度中，获取所述搜索词语集合中每个词语各自对应的最大向量相似度，从所述搜索词语中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分；

输出子单元，用于根据待检索文本的排序得分，对所述至少一个待检索文本进行排序输出。

优选地，所述获取单元，还用于获取所述搜索内容对应的至少一个关键词的关键词数量，并在所述关键词数量小于或等于预设数量的情况下，触发所述扩词单元对所述至少一个关键词进行扩词。

优选地，所述扩词单元，具体用于对所述至少一个关键词中的每个关键词：获取该关键词的编码符号，根据该关键词的编码符号，查找该关键词对应的至少一个扩展词。

优选地，所述获取单元，具体用于对任一待检索文本：对该待检索文本进行分词，得到多个词语，从所述多个词语中去除重复词语和停用词，获得第一词语集合，计算所述第一词语集合中每个词语的重要度，并根据所述第一词语集合中每个词语的重要度，从所述第一词语集合中确定出所述文本词语集合。

优选地，对所述第一词语集合中每个词语：该词语的重要度为该词语的熵值和，或者为利用TextRank算法计算出的该词语的重要度。

本发明还提供一种存储介质，所述存储介质上存储有程序，所述程序执行时实现上述文本检索方法。

本发明还提供一种处理器，所述处理器用于运行程序，其中所述程序运行时执行上述文本检索方法。

借由上述技术方案，本发明提供的文本检索方法及装置，可以对搜索内容进行分词，得到搜索内容对应的至少一个关键词，并对至少一个关键词进行扩词，得到至少一个关键词各自对应的至少一个扩展词，从而得到搜索内容对应的搜索词语集合，以增加用于检索且与搜索内容相关的词语数量。对搜索词语集合和至少一个待检索文本各自对应的文本词语集合来说，确定这两个集合中词语的词向量，并根据这两个集合中词语的词向量对至少一个待检索文本进行排序输出。由于本发明使用词向量表示各词语与词语间的关系，所以本发明可以根据各词语与词语间的关系对待检索文本进行排序输出，使得排序输出的待检索文本与搜索内容相关，从而提高检索的准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本公开的示例性实施例提供的一种文本检索方法的流程图；

图2示出了本公开的示例性实施例提供的确定文本词语集合的流程图；

图3示出了本公开的示例性实施例提供的另一种文本检索方法的流程图；

图4示出了本公开的示例性实施例提供的文本检索装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

请参阅图1，其示出了本公开的示例性实施例提供的一种文本检索方法的流程图，用于提高检索的准确度，其中所述文本检索方法可以包括以下步骤：

101：对搜索内容进行分词，得到搜索内容对应的至少一个关键词。所谓分词是指：将连续的字序列(搜索内容可以视为一个连续的字序列)按照一定规范拆分成多个独立的用于检索的关键词，如搜索内容为“老板不还钱”，对该搜索内容进行分词得到的关键词包括：“老板”、“不”和“还钱”。

在本示例性实施例中，可通过基于词库匹配的分词方法、基于词频度统计的分词方法、基于知识理解的分词方法和LTP(Language Technology Platform，语言技术平台)分词工具等中的至少一种对搜索内容进行分词，具体过程本示例性实施例不再详述。

102：对至少一个关键词进行扩词，得到至少一个关键词各自对应的至少一个扩展词。

可以理解的是：中文中存在同义词和相关词，这些同义词和相关词可以采用不同描述表示同一个含义或相似含义，如“大豆”、“毛豆”和“黄豆”表示相似含义，均表示豆类，“西红柿”和“番茄”表示同一个含义，均表示一种蔬菜“西红柿”，这就使得不同用户会根据自身用语习惯在文本中写入表示同一个含义或相似含义的不同词语，因此本示例性实施例需要对关键词进行扩词，以得到与关键词表示同一个含义或相似含义的至少一个扩展词，这样可以增加用于检索且与搜索内容相关的词语数量。并且文本中的词语和用于检索的词语在表示同一个含义或相似含义但两者采用不同描述的情况下，若仅通过关键词则会丢弃这些采用不同描述的文本，若通过关键词的扩展词则可以确定出采用不同描述的文本与搜索内容相关，提高检索的准确度和全面性。

在本示例性实施例中，关键词对应的扩展词可以是关键词的同义词和相关词中的至少一种，其中同义词是指与关键词表示同一个含义或相似含义的词，而相关词是指与关键词的相关性在预设相关性范围内的词，在相关词与关键词的相关性在预设相关性范围内时，表明相关词与关键词可以表示同一个含义或相似含义，预设相关性范围可以根据实际应用而定，对此本实施例不再阐述。

而对关键词进行扩词以得到关键词的至少一个扩展词的方式是：获取该关键词的编码符号，根据该关键词的编码符号，查找该关键词对应的至少一个扩展词。具体的，在本示例性实施例中可以预先构建词语到符号的第一映射算法以及符号到词语的第二映射算法，这样在得到一个关键词后，可以将该关键词写入到第一映射算法中，得到该关键词的编码符号；然后将该关键词的编码符号写入到第二映射算法中，得到该关键词对应的至少一个扩展词。由于本示例性实施例可以通过第二映射算法直接得到扩展词，使得本示例性实施例无需对存储有扩展词的列表进行遍历，所以本示例性实施例的时间复杂度为O(1)，降低时间复杂度。

以同义词词林为例，申请人通过对同义词词林中的词语和词语对应的编码符号的分析，得到第一映射算法和第二映射算法。首先将关键词写入到第一映射算法中，得到表1所示结构的编码符号，如关键词的编码符号为Ba01A02＝，其中表1为哈工大同义词林的树形结构。

表1哈工大同义词林的树形结构

从编码符号的第8位可知，“＝”代表“相等”、“同义”，说明该编码符号对应的词语为同义词；“#”代表“不等”、“同类”，说明该编码符号对应的词语为相关词；“@”代表“自我封闭”、“独立”，说明该编码符号下仅有一个词语，基于此得到的第二映射算法规定：在编码符号的第8位为#或者＝的情况下，将编码符号的第1位至第8位完全相同的各个词语互作为扩展词；在编码符号的第8位为@的情况下，将与该编码符号的第1位至第7位完全相同的各个词语作为该编码符号的词语的扩展词。

如编码符号为Da15B02#，则第二映射算法规定编码符号同样是Da15B02#的词为该编码符号的词语的扩展词；若编码符号为Da15B02@，则找到编码符号为Da15B02的词作为该编码符号的词的扩展词。

在本示例性实施例中，编码符号和扩展词以键值对的形式存储在列表中，这样在将关键词的编码符号写入到第二映射算法后，可以直接从列表中查找到编码符号对应的扩展词，使得本实施例的时间复杂度为O(1)，降低时间复杂度。

这里需要说明的一点是：本实施例可以对搜索内容对应的所有关键词进行扩展，或者仅对所有关键词中的第一数量的关键词进行扩展，其中第一数量可以根据实际应用而定，对此本实施例不再阐述

103：将至少一个关键词和至少一个关键词各自对应的至少一个扩展词存储在搜索内容对应的搜索词语集合中。

104：确定搜索词语集合中每个词语的词向量。

在本示例性实施例中，可以使用至少一种词向量模型确定词语的词向量，如使用：word2vector模型、LSA(Latent Semantic Analysis，潜在语义分析)矩阵分解模型、PLSA(Probability Latent Semantic Analysis，概率潜语义分析)模型和LDA(LatentDirichlet Allocation，潜在狄利克雷分布)模型(通称为文档主题生成模型)等中的至少一种词向量模型。

在实际应用中，可以预先对词向量模型进行训练，例如通过一定数量的文本对词向量模型进行训练。如在实际应用中，可以利用10万级的裁判文书对word2vector模型进行训练，并通过训练好的word2vector模型获得搜索词语集合中的每个词语的词向量，其中每个词语的词向量可以表示各词语与词语间的关系(如相似性)，并且词向量的维度可以在预设维度之间，如在50到300维，具体数目根据实际应用确定。

105：获取至少一个待检索文本各自对应的文本词语集合，并确定至少一个待检索文本各自对应的文本词语集合中每个词语的词向量。

其中，获取的待检索文本的数量可以不低于第一数量，例如第一数量可以是10万级，且待检索文本可以为至少一种类型的文本，如学术论文、专利、裁判文书等中的至少一种。

在本示例性实施例中，待检索文本可以至少包括：题目和正文。可以理解的是，题目中包含的词语对于待检索文本而言十分重要，因此本示例性实施例可以获取待检索文本的题目和正文对应的文本词语集合，使得文本词语集合中的词语更加全面和准确。其中，对任一待检索文本来说，确定文本词语集合的过程可以如图2所示，包括以下步骤：

201：对该待检索文本进行分词，得到多个词语，其中，对待检索文本进行分词的方式可以与对搜索内容进行分词的方式相同，对此本示例性实施例不再阐述。

202：从多个词语中去除重复词语和停用词，获得第一词语集合。

可以理解的是，从多个词语中去除重复词语的过程即为去重处理的过程，当多个词语中包括N个词语A时，可以将多个词语中的N-1个词语A删除，使得多个词语中仅包括一个词语A，其中，N≥2。

相对应的，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为StopWords(停用词)。停用词可以分为两类，一类是功能词，这些功能词极其普遍，比如“网”一词在每个网站上均会出现，对这样的词搜索引擎无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率；另一类为没有明确含义的词语，如语气助词、副词、介词、连接词等，因此对于这些停用词需要去除。

203：计算第一词语集合中每个词语的重要度。在本示例性实施例中，计算词语的重要度的方式包括但不限于下述方式：

一种方式：确定该词语的左侧熵值和该词语的右侧熵值的熵值和，将所述熵值和确定为该词语的重要度。其中词语的左侧熵值为该词语在待检测文本中的各出现位置的左侧相邻词语构成的集合的熵值，相应的，词语的右侧熵值为该词语在待检测文本中的各出现位置的右侧相邻词语构成的集合的熵值。

另一种方式：利用TextRank算法计算该词语的重要度，其中TextRank算法是一种用于文本的基于图的排序算法，对于利用TextRank算法计算该词语的重要度的过程不再详述。

204：根据第一词语集合中每个词语的重要度，从第一词语集合中确定出文本词语集合。具体的，可以根据第一词语集合中每个词语的重要度，对第一词语集合中的词语进行排序，选取出排序在前M位的词语，即从排序为第一位开始至排序为第M位的词语，由这M个词语组成文本词语集合，其中M的取值可以根据实际应用而定，对此本实施例不进行限定。

在确定待检索文本对应的文本词语集合后，可以采用确定搜索词语集合中词语的词向量的方式，确定文本词语集合中词语的词向量，对此不再详述。

106：根据搜索词语集合中每个词语的词向量和至少一个待检索文本各自对应的文本词语集合中每个词语的词向量，对至少一个待检索文本进行排序输出。

在本示例性实施例中，对至少一个待检索文本进行排序输出的可行方式如下：

对至少一个待检索文本中的每个待检索文本：计算搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度，从搜索词语集合中每个词语各自对应的向量相似度中，获取搜索词语集合中每个词语各自对应的最大向量相似度，从搜索词语集合中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分，并根据待检索文本的排序得分，对至少一个待检索文本进行排序输出。

其中向量相似度可以是余弦相似度、正弦相似度和距离相似度等中的任意一种，如余弦相似度为：a*b/|a|*|b|，其中a和b表示两个词向量，|a|表示a的长度，a*b表示a、b两个向量的点乘求和，而最大向量相似度则是向量相似度中取值最大的向量相似度。

下面进行举例说明，如搜索词语集合包括：A1和A2两个词语，某个待检索文本中确定的文本词语集合包括：B1和B2两个词语，搜索词语集合中每个词语和该待检索文本对应的文本词语集合中每个词语的词向量的词向量之间的向量相似度分别为：

A1与B1相似度为23％；

A1与B2相似度为50％；

A2与B1相似度为76％；

A2与B2相似度为15％。

则对于A1来说，可以确定A1对应的两个向量相似度中的最大向量相似度为50％，即：A1与文本词语集合中的B2最相似。同时，对于A2来说，可以确定A2对应的两个向量相似度中的最大向量相似度为76％，即：A2与文本词语集合中的B1最相似。然后，对于包括A1和A2这两个词语的搜索词语集合而言，可以将两个最大向量相似度中的最小的最大向量相似度，即50％作为该待检索文本的排序得分。

可以理解的是，上述最大向量相似度表示搜索词语集合中的词语与待检索文本中的某个词语高度相关，而取各最大向量相似度中的最小的最大向量相似度(即最大向量相似度中取值最小的最大向量相似度)作为待检索文本的排序得分是为了使得搜索词语集合中的每个词语都体现在从待检索文本中确定的文本词语集合的向量相似度中。比如搜索词语集合包括：“老板”和“还钱”，如果一个待检索文本的文本词语集合中有“老板”和“老板”的同义词和/或相关词，但没有“还钱”和“还钱”的同义词和/或相关词，那么取各最大向量相似度中最小的最大向量相似度后，该待检索文本的排序得分就很低，排名就会靠后，而这也符合实际情况，因此根据向量相似度可以提高检索的准确度。

从上述技术方案可知，在对搜索内容进行分词，得到搜索内容对应的至少一个关键词后，可以对至少一个关键词进行扩词，得到至少一个关键词各自对应的至少一个扩展词，从而得到搜索内容对应的搜索词语集合，以增加用于检索且与搜索内容相关的词语数量。对搜索词语集合和至少一个待检索文本各自对应的文本词语集合来说，确定这两个集合中词语的词向量，并根据这两个集合中词语的词向量对至少一个待检索文本进行排序输出。由于本发明使用词向量表示各词语与词语间的关系，所以本发明可以根据各词语与词语间的关系对待检索文本进行排序输出，使得排序输出的待检索文本与搜索内容相关，从而提高检索的准确度。

请参阅图3，其示出了本公开的示例性实施例提供的另一种文本检索方法的流程图，可以包括以下步骤：

301：对搜索内容进行分词，得到搜索内容对应的至少一个关键词。

302：获取搜索内容对应的至少一个关键词的关键词数量。

303：在关键词数量小于或等于预设数量的情况下，对至少一个关键词进行扩词，得到至少一个关键词各自对应的至少一个扩展词。

也就是说，在关键词数量小于或等于预设数量的情况下，才对关键词进行扩词，即在关键词数量大于预设数量的情况下，则认为关键词可以满足文本检索的要求，而在关键词数量小于或等于预设数量的情况下，则认为关键词不满足文本检索的要求，此时则需要对其进行扩词，具体扩展方式请参阅步骤102的说明。

如在关键词数量小于或等于3个的情况下，对关键词进行扩词，以增加用于检索且与搜索内容相关的扩展词，其中本实施例不限定预设数量的取值。

304：将至少一个关键词和至少一个关键词各自对应的至少一个扩展词存储在搜索内容对应的搜索词语集合中。

305：确定搜索词语集合中每个词语的词向量。

306：获取至少一个待检索文本各自对应的文本词语集合，并确定至少一个待检索文本各自对应的文本词语集合中每个词语的词向量。

307：根据搜索词语集合中每个词语的词向量和至少一个待检索文本各自对应的文本词语集合中每个词语的词向量，对至少一个待检索文本进行排序输出。

对于本实施例来说，步骤301、304至307的实施过程可以参阅图1所示实施例中的相关说明，对此本实施例不再阐述。

与上述方法实施例相对应，本公开的示例性实施例还提供一种文本检索装置，其结构示意图如图4所示，可以包括：分词单元11、扩词单元12、存储单元13、获取单元14、确定单元15和排序输出单元16。

分词单元11，用于对搜索内容进行分词，得到搜索内容对应的至少一个关键词。所谓分词是指：将连续的字序列(搜索内容可以视为一个连续的字序列)按照一定规范拆分成多个独立的用于检索的关键词，分词单元11可通过基于词库匹配的分词方法、基于词频度统计的分词方法、基于知识理解的分词方法和LTP分词工具等中的至少一种对搜索内容进行分词，具体过程本示例性实施例不再详述。

扩词单元12，用于对至少一个关键词进行扩词，得到至少一个关键词各自对应的至少一个扩展词。

可以理解的是：中文中存在同义词和相关词，这些同义词和相关词可以采用不同描述表示同一个含义或相似含义，如“大豆”、“毛豆”和“黄豆”表示相似含义，均表示豆类，“西红柿”和“番茄”表示同一个含义，均表示一种蔬菜“西红柿”，这就使得不同用户会根据自身用语习惯在文本中写入表示同一个含义或相似含义的不同词语，因此本示例性实施例扩词单元12需要对关键词进行扩词，以得到与关键词表示同一个含义或相似含义的至少一个扩展词，这样可以增加用于检索且与搜索内容相关的词语数量。并且文本中的词语和用于检索的词语在表示同一个含义或相似含义但两者采用不同描述的情况下，若仅通过关键词则会丢弃这些采用不同描述的文本，若通过关键词的扩展词则可以确定出采用不同描述的文本与搜索内容相关，提高检索的准确度和全面性。

而扩词单元12对关键词进行扩词以得到关键词的至少一个扩展词的方式是：获取该关键词的编码符号，根据该关键词的编码符号，查找该关键词对应的至少一个扩展词，具体请参阅方法实施例中的相关说明，对此本实施例不再阐述。

存储单元13，用于将至少一个关键词和至少一个关键词各自对应的至少一个扩展词存储在搜索内容对应的搜索词语集合中。

获取单元14，用于获取至少一个待检索文本各自对应的文本词语集合。其中，获取的待检索文本的数量可以不低于第一数量，例如第一数量可以是10万级，且待检索文本可以为至少一种类型的文本，如学术论文、专利、裁判文书等中的至少一种。

在本示例性实施例中，待检索文本可以至少包括：题目和正文。可以理解的是，题目中包含的词语对于待检索文本而言十分重要，因此本示例性实施例可以获取待检索文本的题目和正文对应的文本词语集合，使得文本词语集合中的词语更加全面和准确。其中获取单元14对任一待检索文本：获取该待检索文本对应的文本词语集合的过程如下：

对该待检索文本进行分词，得到多个词语，从多个词语中去除重复词语和停用词，获得第一词语集合，计算第一词语集合中每个词语的重要度，并根据第一词语集合中每个词语的重要度，从第一词语集合中确定出文本词语集合，具体说明请参阅方法实施例中的现骨干说明。其中，对第一词语集合中每个词语：该词语的重要度为该词语的熵值和，或者为利用TextRank算法计算出的该词语的重要度，该词语的熵值和为该词语的左侧熵值和该词语的右侧熵值的和，该词语的左侧熵值为该词语在待检测文本中的各出现位置的左侧相邻词语构成的集合的熵值，相应的，该词语的右侧熵值为该词语在待检测文本中的各出现位置的右侧相邻词语构成的集合的熵值。

确定单元15，用于确定搜索词语集合中每个词语的词向量，以及确定至少一个待检索文本各自对应的文本词语集合中每个词语的词向量。

在本示例性实施例中，确定单元15可以使用至少一种词向量模型确定词语的词向量，如使用：word2vector模型、LSA矩阵分解模型、PLSA模型和LDA模型等中的至少一种词向量模型。

排序输出单元16，用于根据搜索词语集合中每个词语的词向量和至少一个待检索文本各自对应的文本词语集合中每个词语的词向量，对至少一个待检索文本进行排序输出。

在本示例性实施例中，排序输出单元包括：计算子单元和输出子单元，其中，计算子单元，用于对至少一个待检索文本中的每个待检索文本：计算搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度，从搜索词语集合中每个词语各自对应的向量相似度中，获取搜索词语集合中每个词语各自对应的最大向量相似度，从搜索词语集合中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分，并根据待检索文本的排序得分，对至少一个待检索文本进行排序输出；输出子单元，用于根据待检索文本的排序得分，对至少一个待检索文本进行排序输出。而对于排序输出单元16以从搜索词语集合中每个词语各自对应的最大向量相似度中的取值最小的最大向量相似度最为该待检索文本的排序得分的理由请参阅方法实施例中的相关说明，对此不再举例说明。

所述文本检索装置包括处理器和存储器，上述分词单元11、扩词单元12、存储单元13、获取单元14、确定单元15和排序输出单元16等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高检索的准确度。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述文本检索方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述文本检索方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

确定所述搜索词语集合中每个词语的词向量；

优选地，处理器执行程序时还实现以下步骤：

获取所述搜索内容对应的至少一个关键词的关键词数量；

对该待检索文本进行分词，得到多个词语；

计算所述第一词语集合中每个词语的重要度；

或者

本文中的设备可以是服务器、PC、PAD、手机等。

本发明还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

确定所述搜索词语集合中每个词语的词向量；

优选地，当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：

获取所述搜索内容对应的至少一个关键词的关键词数量；

对该待检索文本进行分词，得到多个词语；

计算所述第一词语集合中每个词语的重要度；

或者

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本检索方法，其特征在于，所述方法包括：

对所述关键词进行扩词以得到所述关键词的至少一个扩展词的方式是：获取该关键词的编码符号，根据该关键词的编码符号，查找该关键词对应的至少一个扩展词；

确定所述搜索词语集合中每个词语的词向量，其中，每个词语的词向量表征词语与词语间的关系，并且词向量的维度在预设维度之间；

获取至少一个待检索文本各自对应的文本词语集合，并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量，所述待检索文本为至少一种类型的文本；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述搜索内容对应的至少一个关键词的关键词数量；

3.根据权利要求1所述的方法，其特征在于，对任一待检索文本：获取该待检索文本的文本词语集合的过程包括：

对该待检索文本进行分词，得到多个词语；

计算所述第一词语集合中每个词语的重要度；

4.根据权利要求3所述的方法，其特征在于，所述计算所述第一词语集合中每个词语的重要度包括：

或者

5.一种文本检索装置，其特征在于，所述装置包括：

确定单元，用于确定所述搜索词语集合中每个词语的词向量，其中，每个词语的词向量表征词语与词语间的关系，并且词向量的维度在预设维度之间，以及确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量，所述待检索文本为至少一种类型的文本；

排序输出单元，用于根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量，对所述至少一个待检索文本进行排序输出；

所述扩词单元，具体用于对所述关键词进行扩词以得到所述关键词的至少一个扩展词的方式是：获取该关键词的编码符号，根据该关键词的编码符号，查找该关键词对应的至少一个扩展词；

所述排序输出单元包括：计算子单元和输出子单元；

所述计算子单元用于对所述至少一个待检索文本中的每个待检索文本：计算所述搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度，从所述搜索词语集合中每个词语各自对应的向量相似度中，获取所述搜索词语集合中每个词语各自对应的最大向量相似度，从所述搜索词语中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分；

所述输出子单元用于根据待检索文本的排序得分，对所述至少一个待检索文本进行排序输出。

6.根据权利要求5所述的装置，其特征在于，所述获取单元，还用于获取所述搜索内容对应的至少一个关键词的关键词数量，并在所述关键词数量小于或等于预设数量的情况下，触发所述扩词单元对所述至少一个关键词进行扩词。

7.一种存储介质，其特征在于，所述存储介质上存储有程序，所述程序执行时实现权利要求1至4任意一项所述的文本检索方法。

8.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1至4任意一项所述的文本检索方法。