CN105631009A

CN105631009A - 基于词向量相似度的检索方法和系统

Info

Publication number: CN105631009A
Application number: CN201511003865.4A
Authority: CN
Inventors: 李贤�
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2016-06-01
Also published as: WO2017107566A1

Abstract

本发明涉及一种基于词向量相似度的检索方法和系统。所述方法包括：对检索库进行词向量训练，建立所述检索库对应的训练模型；接收输入的检索关键词，通过所述训练模型得到所述检索关键词的相关词，以及各相关词与所述检索关键词的相似度；用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值；根据所述匹配分值由高到低对所述检索库中的文件进行排序，根据排序结果输出检索结果。通过本发明，能够结合各检索库中的用词特点，增强对相关词的检索匹配能力，从而提高检索准确率和鲁棒性。

Description

基于词向量相似度的检索方法和系统

技术领域

本发明涉及信息检索技术领域，特别是涉及基于词向量相似度的检索方法和基于词向量相似度的检索系统。

背景技术

现有的对简历搜索匹配过程的技术，通常是通过多个关键词进行检索。通过用户提供一组关键词在检索库中进行检索，以匹配词命中的数量作为匹配分值，根据匹配分值由高到低的排列输出检索结果，默认排在前的结果更符合用户要求。然而，这种检索方式存在以下缺点：

(1)没能考虑到不同检索库的用词特点，例如英文的大小写，字符的全角半角等；

(2)不能考虑到词与词之间的关系，导致检索过程中，对与关键词存在很强联系的其它词缺乏信息匹配能力；例如关键词设为“程序”，却无法对检索库中“软件”的信息进行检索匹配；

(3)对关键词选取的要求高，检索鲁棒性差；如果关键词遗漏或者输错，对最终检索结果会产生很大影响。

综上所述，现有的基于关键词的检索方法，其检索召回率和检索结果准确率都不够理想，同时存在鲁棒性和适应性较差的问题。

发明内容

基于此，本发明提供一种基于词向量相似度的检索方法和系统，能够提高检索准确率和鲁棒性。

本发明一方面提供一种基于词向量相似度的检索方法，包括：

对检索库进行词向量训练，建立所述检索库对应的训练模型；

接收输入的检索关键词，通过所述训练模型得到所述检索关键词的相关词，以及各相关词与所述检索关键词的相似度；

用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值；

根据所述匹配分值由高到低对所述检索库中的文件进行排序，根据排序结果输出检索结果。

优选的，所述对检索库进行词向量训练，之前包括：

对检索库中各文件分别进行预处理，将各文件预处理后的数据存储到一对应的训练样本文件中；所述预处理包括数据清洗和提取数据描述；

所述对检索库进行词向量训练包括：

基于所述训练样本文件对所述检索库进行词向量训练。

优选的，所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种；

所述提取数据描述包括通过添加用户词典进行分词。

优选的，所述对检索库进行词向量训练包括：

通过word2vec对所述训练样本文件进行词向量训练。

优选的，用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值，包括：

用所述相关词分别对所述检索库中各文件进行检索匹配，得到各文件与所述相关词的匹配结果；

将各相关词对应的相似度作为累加权值，结合所述匹配结果分别得出各文件与所述相关词的匹配分值。

本发明另一方面提供一种基于词向量相似度的检索系统，包括：

模型训练单元，用于对检索库进行词向量训练，建立所述检索库对应的训练模型；

生成相关词单元，用于接收输入的检索关键词，通过所述训练模型得到所述检索关键词的相关词，以及各相关词与所述检索关键词的相似度；

检索匹配单元，用于用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值；

结果输出单元，用于根据所述匹配分值由高到低对所述检索库中的文件进行排序，根据排序结果输出检索结果。

优选的，所述模型训练单元，还用于对检索库进行词向量训练之前，对检索库中各文件分别进行预处理，将各文件预处理后的数据存储到一对应的训练样本文件中；所述预处理包括数据清洗和提取数据描述；

所述对检索库进行词向量训练包括：

基于所述训练样本文件对所述检索库进行词向量训练。

所述提取数据描述包括通过添加用户词典进行分词。

优选的，所述对检索库进行词向量训练包括：

通过word2vec对所述训练样本文件进行词向量训练。

优选的，所述检索匹配单元包括：

匹配模块，用于用所述相关词分别对所述检索库中各文件进行检索匹配，得到各文件与所述相关词的匹配结果；

统计模块，用于将各相关词对应的相似度作为累加权值，结合所述匹配结果分别得出各文件与所述相关词的匹配分值。

上述技术方案的基于词向量相似度的检索方法和系统，通过对检索库进行词向量训练，建立所述检索库对应的训练模型；接收输入的检索关键词，通过所述训练模型得到所述检索关键词的相关词，以及各相关词与所述检索关键词的相似度；用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值；根据所述匹配分值由高到低对所述检索库中的文件进行排序，根据排序结果输出检索结果。首先由于训练模型是基于检索库训练得到的，因此能很好反映检索库的用词特点，有利于提高检索准确率；其次将关键词以词向量的形式进行表示，检索时根据关键词的相关词进行检索匹配，增加了对相关词的检索匹配能力，从而提高了检索鲁棒性。

附图说明

图1为本发明实施例的基于词向量相似度的检索方法的示意性流程图；

图2为本发明实施例的基于词向量相似度的检索系统的示意性结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的实施例包括基于词向量相似度的检索方法实施例，还包括相应的基于词向量相似度的检索系统实施例。以下分别进行详细说明。

图1为本发明实施例的基于词向量相似度的检索方法的示意性流程图；如图1所示，本实施例的基于词向量相似度的检索方法包括如下步骤S1至S4，各步骤详述如下：

S1，对检索库进行词向量训练，建立所述检索库对应的训练模型；

自然语言理解的问题要转化为机器学习的问题，第一步需要找一种方法把这些符号数学化，例如把每个词都表示为一个特有的向量。词向量是“WordRepresentation”或“WordEmbedding”的中文俗称。

本实施例中的词向量应当具有的特点包括：让相关或者相似的词，在距离上更接近，例如“麦克”和“话筒”的距离会远小于“麦克”和“天气”的距离。向量的距离可以用传统的欧氏距离来衡量，也可以用cos夹角来衡量。

优选的，所述词向量可为用DistributedRepresentation表示的词向量。DistributedRepresentation表示的词向量为一种低维实数向量，这种向量一般形式为[0.792,-0.177,-0.107,0.109,-0.542,…]，维度以50维和100维比较常见。

作为一优选实施方式，在对检索库进行词向量训练之前，还可对检索库中各文件分别进行预处理，将各文件预处理后的数据存储到一对应的训练样本文件中。

优选的，其中所述预处理包括数据清洗和提取数据描述。其中数据清洗主要用于实现检索库中数据的一致性，具体可包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种；所述提取数据描述包括通过添加用户词典进行分词，具体可为添加用户词典并通过NLPIR(又名ICTCLAS2013，汉语分词系统)进行分词。

进一步的，基于所述训练样本文件对所述检索库进行词向量训练，以建立所述检索库对应的训练模型。具体方式可为：通过word2vec对所述训练样本文件进行词向量训练，训练设置如下：

./word2vec-trainresult_cropus.txt-outputvectors.bin-cbow0-size50-window5-negative0-hs1-sample1e-3-threads4-binary1-min_count3；

其中，各参数的含义为：

-train后面表示参与训练的训练样本文件名，

-cbow表示采用跳空词袋模型，

-size表示词向量采用的维度，

-window表示上下文窗口长度，

-negative表示是否采用负采样方法，0表示不使用，1表示使用，

-hs表示是否使用HS方法，0表示不使用，1表示使用，

-samplele-3表示采样的阈值为10^-3，如果一个词在训练样本中出现的频

率越大，那么就越会被采样；

-thread表示开启线程数，

-binary表示输出是否为二进制文件，0表示不使用，1表示使用，

-min_count表示设置的最低频率，默认为5，如果一个词语在文档中出现的次数小于该阈值，那么该词就会被舍弃。

至此，可得到与所述检索库对应的训练模型。

S2，接收输入的检索关键词，通过所述训练模型得到所述检索关键词的相关词，以及各相关词与所述检索关键词的相似度；

本实施例中，两个词向量的相似度指的是余弦相似度，最高可为1，最低可为0。由于训练模型是基于检索库训练得到的，因此基于该训练模型得到的相关词能很好反映检索库的用词特点。具体可通过./distancevectors.bin命令产生相关词及相似度，并通过sh脚本和expect脚本自动生成。

例如：需要在简历库中检索C++软件开发工程师，输入关键词为C++、软件、MFC、数据结构，基于该简历库的训练模型可以得到以下相关词词表和相似度，详见下表：

S3，用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值；

本实施例中，用上述步骤得出的相关词分别对所述检索库中各文件进行检索匹配，得到各文件与所述相关词的匹配结果；将各相关词对应的相似度作为累加权值，结合所述匹配结果分别可得出各文件与所述相关词的匹配分值。

S4，根据所述匹配分值由高到低对所述检索库中的文件进行排序，根据排序结果输出检索结果。

优选的，可设定分值门限，仅对匹配分值高于所述分值门限的检索结果进行排序，并按照匹配分值由高到低的排序输出。通过设定分值门限对检索结果进一步筛选，有利于用户查阅检索结果。

通过上述实施例的基于词向量相似度的检索方法，通过对检索库进行词向量训练，建立所述检索库对应的训练模型；接收输入的检索关键词，通过所述训练模型得到所述检索关键词的相关词，以及各相关词与所述检索关键词的相似度；用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值；根据所述匹配分值由高到低对所述检索库中的文件进行排序，根据排序结果输出检索结果。首先由于训练模型是基于检索库训练得到的，因此能很好反映检索库的用词特点，有利于提高检索准确率；其次将关键词以词向量的形式进行表示，检索时根据关键词的相关词进行检索匹配，增加了对相关词的检索匹配能力，从而提高了检索鲁棒性。

需要说明的是，对于前述的方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

以下对可用于执行上述基于词向量相似度的检索方法的基于词向量相似度的检索系统实施例进行说明。为了便于说明，基于词向量相似度的检索系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图中示出的系统结构并不构成对系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

图2为本发明实施例的基于词向量相似度的检索系统的示意性结构图；如图2所示，本实施例的基于词向量相似度的检索系统包括：模型训练单元210、生成相关词单元220、检索匹配单元230以及结果输出单元240，各单元详述如下：

所述模型训练单元210，用于对检索库进行词向量训练，建立所述检索库对应的训练模型；

作为一优选实施方式，所述模型训练单元210，还用于对检索库进行词向量训练之前，对检索库中各文件分别进行预处理，将各文件预处理后的数据存储到一对应的训练样本文件中，以基于所述训练样本文件对所述检索库进行词向量训练。其中，所述预处理包括数据清洗和提取数据描述。所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种；所述提取数据描述包括通过添加用户词典进行分词，具体方式可为添加用户词典并通过NLPIR(又名ICTCLAS2013，汉语分词系统)进行分词。

优选的，可通过word2vec对所述训练样本文件进行词向量训练，训练设置如下：

其中，各参数的含义为：

-train后面表示参与训练的训练样本文件名，

-cbow表示采用跳空词袋模型，

-size表示词向量采用的维度，

-window表示上下文窗口长度，

-hs表示是否使用HS方法，0表示不使用，1表示使用，

-samplele-3表示采样的阈值为10^-3，

-thread表示开启线程数，

-min_count表示设置的最低频率，默认为5。

进一步的，所述生成相关词单元220，用于接收输入的检索关键词，通过所述训练模型得到所述检索关键词的相关词，以及各相关词与所述检索关键词的相似度；

本实施例中，两个词向量的相似度指的是余弦相似度，最高可为1，最低可为0。由于训练模型是基于检索库训练得到的，因此基于该训练模型得到的相关词能很好反映检索库的用词特点。

所述检索匹配单元230，用于用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值；

优选的，所述检索匹配单元230可具体包括：匹配模块，用于用所述相关词分别对所述检索库中各文件进行检索匹配，得到各文件与所述相关词的匹配结果；统计模块，用于将各相关词对应的相似度作为累加权值，结合所述匹配结果分别得出各文件与所述相关词的匹配分值。

所述结果输出单元240，用于根据所述匹配分值由高到低对所述检索库中的文件进行排序，根据排序结果输出检索结果。

本实施例中，还可设定一个分值门限，仅对匹配分值高于所述分值门限的检索结果进行排序，并按照匹配分值由高到低的排序输出。通过设定分值门限对检索结果进一步筛选，有利于用户查阅检索结果。

需要说明的是，上述示例的基于词向量相似度的检索系统的实施方式中，各模块/单元之间的信息交互、执行过程等内容，由于与本发明前述方法实施例基于同一构思，其带来的技术效果与本发明前述方法实施例相同，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

此外，上述示例的基于词向量相似度的检索系统的实施方式中，各功能模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的功能模块完成，即将所述基于词向量相似度的检索系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述示例的基于词向量相似度的检索系统的实施方式中，各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。本领域普通技术人员可以理解本发明的任意实施例指定的方法的全部或部分步骤是可以通过程序来指令相关的硬件(个人计算机、服务器、或者网络设备等)来完成。该程序可以存储于一计算机可读存储介质中。该程序在执行时，可执行上述任意实施例指定的方法的全部或部分步骤。前述存储介质可以包括任何可以存储程序代码的介质，例如只读存储器(Read-OnlyMemory，ROM)、随机存取器(RandomAccessMemory，RAM)、磁盘或光盘等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上所述实施例仅表达了本发明的几种实施方式，不能理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于词向量相似度的检索方法，其特征在于，包括：

2.根据权利要求1所述的基于词向量相似度的检索方法，其特征在于，所述对检索库进行词向量训练之前包括：

所述对检索库进行词向量训练包括：

基于所述训练样本文件对所述检索库进行词向量训练。

3.根据权利要求2所述的基于词向量相似度的检索方法，其特征在于，所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种；

所述提取数据描述包括通过添加用户词典进行分词。

4.根据权利要求2所述的基于词向量相似度的检索方法，其特征在于，所述对检索库进行词向量训练包括：

通过word2vec对所述训练样本文件进行词向量训练。

5.根据权利要求1所述的基于词向量相似度的检索方法，其特征在于，用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值包括：

6.一种基于词向量相似度的检索系统，其特征在于，包括：

7.根据权利要求6所述的基于词向量相似度的检索系统，其特征在于，所述模型训练单元，还用于对检索库进行词向量训练之前，对检索库中各文件分别进行预处理，将各文件预处理后的数据存储到一对应的训练样本文件中；所述预处理包括数据清洗和提取数据描述；

所述对检索库进行词向量训练包括：

基于所述训练样本文件对所述检索库进行词向量训练。

8.根据权利要求7所述的基于词向量相似度的检索系统，其特征在于，所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种；

所述提取数据描述包括通过添加用户词典进行分词。

9.根据权利要求7所述的基于词向量相似度的检索系统，其特征在于，所述对检索库进行词向量训练包括：

通过word2vec对所述训练样本文件进行词向量训练。

10.根据权利要求6所述的基于词向量相似度的检索系统，其特征在于，所述检索匹配单元包括：