CN109165291A

CN109165291A - 一种文本匹配方法及电子设备

Info

Publication number: CN109165291A
Application number: CN201810698874.7A
Authority: CN
Inventors: 邹辉; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2019-01-08
Anticipated expiration: 2038-06-29
Also published as: CN109165291B

Abstract

本发明涉及自然语言处理技术领域，提供了一种文本匹配方法，所述方法包含步骤：对待匹配文本进行预处理，其中所述预处理包含对所述待匹配文本进行分词处理；将可合并的分词拼接成短语；基于第一相似算法计算所述待匹配文本与文本库中的预存文本的相似度，并选取预设数量个符合预设条件的所述预存文本，作为第一相似文本；基于第二相似算法计算所述待匹配文本与所述第一相似文本的相似度；从所述第一相似文本中选取相似度满足预设条件的预存文本，确定为匹配文本。通过本发明所提供的文本匹配方法可提升文本匹配的准确度。

Description

一种文本匹配方法及电子设备

技术领域

本发明涉及自然语言处理技术，尤其是关于一种文本匹配方法及电子设备。

背景技术

在文本分析领域中，文本匹配在很多实际场景中都扮演着重要角色。比如，在搜索场景中，用户输入一条待匹配文本，系统需要去语料库中寻找与该待匹配文本尽可能相似的内容，并将匹配结果返回给用户；再比如，在常见问答(Frequently Asked Questions，FAQ)系统中，用户提出一个问题，系统需要根据用户提出的问题在FAQ库中找到最相似的问题，并返回该相似问题对应的答案。在这些场景中，文本匹配的准确性直接影响用户体验效果，所以，在文本分析领域中，文本匹配具有非常重要的地位。

文本匹配过程一般是针对两条文本，通过算法计算这两条文本之间的相似度，通过相似度大小来判定这两条文本之间的匹配度。

现有文本匹配方法主要是将两条文本分别经分词后处理成一个向量，即，用一个向量来描述一条文本，再计算这两个向量之间的相似度，根据相似度结果确定这两条文本的匹配度，这里，将这种匹配方式定义为横向匹配。

举例来说，对于两条文本，分别为“黑色的猫坐在黄色的椅子上”和“黄色的猫坐在黑色的椅子上”，如果采用上述横向匹配方式计算这两条文本之间的相似度，由于这两条文本在分词的共现上完全一致，所以这两条文本的相似度为1，也就是认为这两条文本完全匹配，但很显然，这两条文本中的关键信息“黑色”和“黄色”在这两条文本中的出现位置不一致。

由此可见，现有的解决方案中，文本匹配的精准度不高，这将导致在实际应用中，无法正确理解用户输入文本的含义，从而无法提供真准确的回复，从导致用户体验度较差。

发明内容

本发明的实施例，提供了一种文本匹配方法，所述方法包含步骤：对待匹配文本进行预处理，其中所述预处理包含对所述待匹配文本进行分词处理；将可合并的分词拼接成短语；基于第一相似算法计算所述待匹配文本与文本库中的预存文本的相似度，并选取预设数量个符合预设条件的所述预存文本，作为第一相似文本；基于第二相似算法计算所述待匹配文本与所述第一相似文本的相似度；从所述第一相似文本中选取相似度满足预设条件的预存文本，确定为匹配文本。

在一实施中，所述对待匹配文本进行预处理，还包含对所述待匹配文本中的各分词进行多语义词识别，并对所述多语义词进行语义确认。

在一实施中，所述对所述待匹配文本中的各分词进行多语义词识别具体包含，基于所述各分词，匹配多语义词数据库，若匹配成功，则确定为多语义词；其中所述多语义词数据库通过对语料库的语义训练获得。

在一实施中，所述语料库的语义训练方法具体包含步骤：确定包含目标分词的训练语料；分别对所述训练语料进行分词处理，并基于第一预设算法确定各所述训练语料分词的第一词向量；基于第二预设算法确定各所述训练语料的句向量；基于所述第一词向量及各所述训练语料的所述句向量，计算获得各所述训练语料中所述目标分词对应的第二词向量；对所述目标分词对应的各所述第二词向量进行聚类，获得至少一个类别；基于所述至少一个类别确定所述目标分词对应的至少一个语义及语义向量。

在一实施中，所述将可合并的所述分词拼接成短语包含：基于所述分词的词性及预设合并规则，确定可合并的所述分词，并进行拼接。

在一实施中，所述将可合并的所述分词拼接成短语包含：匹配预设短语数据库，确认可合并的所述分词，并拼接成短语。

在一实施中，所述第一相似算法为WMD(Word Mover Distance)算法。

在一实施中，所述第二相似算法为RWMD(Relaxed Word Mover's Distance)算法；所述基于第二相似算法计算所述待匹配文本与所述第一相似文本的相似度包含，计算所述短语的相似度。

在一实施中，在计算所述待匹配文本与文本库中的预存文本的相似度之前更包含步骤：对所述文本库中的所述预存文本进行预处理，其中所述预处理包含对所述预存文本进行分词处理；将可合并的分词拼接成短语。

由此可见，本发明实施例所提供的文本匹配方法，在对待匹配文本进行分词处理后，将得到的可合并的各分词进行拼接，形成固定短语，预先进行歧义消除，并在后续计算相似度时，基于该固定短语的相似度来计算，以获得更准确的匹配结果。

更进一步的，在对待匹配文本进行分词处理后，还对多语义词进行了识别和语义确定，从而能更准确的获取待匹配文本所表达的真实含义，消除了歧义。

本发明实施例所提供的文本匹配方法中，先后使用了WMD算法和RWMD算法计算文本相似度，在WMD算法中，考虑了词语语义、位置信息以及词语权重，使得相似度计算更精确，且计算快速；在RWMD算法中，可预先离线学习好词向量与短语向量，预先计算所有短语向量间的距离，从而使得在计算时速度更快、性能更高。

此外，本发明还提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述文本匹配方法。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1绘示本发明一较佳实施例所提供的文本匹配方法流程图；

图2绘示图1所示实施例所提供的语义训练方法流程图；

图3绘示图2所示实施例中计算第二词向量的方法流程；

图4绘示本发明图1所示实施例中多语义词消歧方法流程；

图5绘示本发明一实施例所提供的电子设备结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

请参照图1，图1绘示本发明一较佳实施例所提供的文本匹配方法流程图。

如图1所示，所述文本匹配方法包含步骤：

步骤101，对待匹配文本进行预处理。

一般而言，待匹配文本为用户输入的自然语言，其中可能会包含停用词等无效的脏信息，故需要对待匹配文本先进行预处理，包含先对待匹配文本进行分词处理，在进行停用词过滤等。

更进一步的，通过语料库训练，获得各分词的词性、词义等标注信息。

待匹配文本的各分词中可能会存在多语义词，那么则需要进一步的确定该分词在待匹配文本中对应的语义，以更准确的理解待匹配文本。

也就是说，本发明的实施例中，在预处理过程中，可包含对待匹配文本中的各分词进行多语义词识别，并对所述多语义词进行语义确认。其中具体的实现方法可包含，基于各分词，匹配多语义词数据库，若匹配成功，则确定为多语义词，其中多语义词数据库是通过预先对语料库进行语义训练获得。

请参照图2，图2绘示图1所示实施例所提供的语义训练方法流程图。

如图2所示，语义训练方法包含以下步骤：

步骤201，确定包含目标分词的训练语料。

一般来说，语料库的收集会基于特定的应用场景，例如社交网络应用、金融客服系统、旅游信息服务等。

例如，可从维基百科的中文离线数据库，提取目标页面信息，并保存在文本中；或者人工编写爬虫程序，从目标网站上获取文本信息，也可以是直接从系统服务器数据库获取，本发明并不作限制。

在收集到原始语料之后，较佳的，可对获得的语料进行预处理，可采用开源的工具包中科院汉语词法分析系统ICTCLAS完成，包括分词、词性标注、去停用词和命名实体识别过程。

更进一步的，考虑到爬取到初始语料中存在一些重复、无效的噪音，例如网页标签、无效字符等。还可以通过过滤、去噪音等操作进行去噪，以保证语料的质量。

在完成语料库的构建后，需对语料库进行训练，以获得语料库中多语义词的多个语义。

其中目标分词可以是预先确定的可能包含多个语义的分词，也可以是语料库中的高频词汇，或者是预设的待确定分词。

在本实施例中，为了减少计算次数，在明确待训练的目标分词后，可先确定语料库中包含有目标分词的训练语料，再针对这些训练语料进行训练即可，其中训练语料可以短文本为单位。

在本发明的其他实施例中，也可以对整个语料库的语料进行训练，来获得目标分词的语义。

步骤202，分别对训练语料进行分词处理，并基于第一预设算法确定各训练语料分词的第一词向量。

具体的，可基于word2vec中的skip-gram模型算法对训练语料进行训练，得到各训练语料分词的第一词向量。

word2vec是一类神经网络模型，基于该模型可为语料库中的单个分词产生一个能表达语义的向量，即词向量。通过词向量可计算两个单词的语义相似性，或对某些监督型NLP任务如文本分类，语义分析构造特征。skip-gram模型是Word2vec中的一个模型。

步骤203，基于第二预设算法确定各训练语料的句向量。

具体的，可先基于textRank算法筛选出各训练语料的关键分词；再分别将各训练语料的各关键分词对应的第一词向量进行加权求和再平均，分别得到各所述训练语料的句向量。值得注意的是，在选取关键分词时，可选取权值最高的1-5个关键词用于计算。

步骤204，基于第一词向量及各训练语料的句向量，计算获得各训练语料中目标分词对应的第二词向量。

其中，具体的计算方法，可参照图3，图3绘示图2所示实施例中计算第二词向量的方法流程。

如图3所示，所述计算方法具体包含步骤：

步骤301，分别选取各训练语料中，位置前后邻近目标分词的5个邻近分词。

具体的，在选取邻近分词时，可基于同一训练语料中与目标分词位置距离最近的5个分词，可以理解的是，若当前训练语料中分词个数少于6个，那么可直接将除了目标分词之外的所有分词确定为邻近分词。

步骤302，分别对各训练语料中的邻近分词的词向量进行求和再平均，得到中间向量。

步骤303，分别将各中间向量与各训练语料的句向量进行拼接，得到目标分词分别在各训练语料中的第二词向量。

具体的，其中中间向量基于目标分词的邻近分词向量计算获得，可体现为目标分词所在训练语料的局部特征，或目标分词在训练语料中的关联特征，训练语料的句向量，可体现为整体特征，即包含目标分词的训练语料的全局特征，通过结合局部特征及整体特征来标识目标分词的词向量，可使得对目标分词的语义识别更贴合具体语境。

拼接两个向量的方法，可直接采取中间向量后直接拼接句向量的方式来获得第二词向量，例如，中间向量为：[1,4,7]，句向量为：[5,3,2]，拼接后得到第二词向量：[1,4,7,5,3,2]。

请再次回到图2。

步骤205，对所述目标分词对应的各所述第二词向量进行聚类，获得至少一个类别。

具体的，可基于K-means算法对目标分词对应的各第二词向量进行聚类，获得K个类别。其中K为可自定义预设的数值，即可根据实际需求，来设定K值，可以理解的是，K值越大，得到的类别越多，那么分类粒度就越细，K值越小，得到的类别越少，分类粒度就越大。K值的设定可先根据经验进行预设，也可以采取固定值的方式，本发明并不作限制。

步骤206，基于至少一个类别确定目标分词对应的至少一个语义及语义向量。

具体的，基于上述K-means算法，可获取所述K个类别的聚类中心，分别将各聚类中心对应的分词语义及词向量确定为目标分词的K个语义及语义向量。从而获得目标分词的多个语义及每个语义对应的语义向量。

上述语义训练方法，基于训练语料的第一词向量及句向量来计算生成目标分词的第二词向量，如此一来，在不同训练语料中的目标分词将会获得一个对应的第二词向量，并通过对目标分词对应的所有第二词向量进行聚类，已获得相应的分类，并基于聚类的结果，对应获取目标分词的不同语义。换言之，本发明所提供的实施例基于目标分词所在训练语料的局部特征及全局特征，获取一个统一的表现形式，并基于该些统一的表现形式进行聚类，已获得不同的分类，从而得到目标分词的不同语义，而该些局部特征、全局特征及统一的表现形式，都是通过向量计算获得，不仅易于实现，而且更加准确。

在确定待匹配文本中的某个分词为多语义词后，需进一步确认该分词在待匹配文本中的语义，以消除因多语义选取不当而引起的歧义。

具体的，可参照图4，图4绘示本发明图1所示实施例中多语义词消歧方法流程。

如图4所示，所述方法包含步骤：

步骤401，基于第三预设算法确定所述待匹配文本中各所述分词的词向量。

具体的，可基于word2vec中的skip-gram模型算法对训练语料进行训练，得到各分词的词向量。

步骤402，基于第四预设算法确定所述待匹配文本的句向量。

具体的，可先基于textRank算法筛选出待匹配文本的关键分词；再将各关键分词对应的词向量进行加权求和再平均，得到待匹配文本的句向量。值得注意的是，在选取关键分词时，可选取权值最高的1-5个关键词用于计算。

步骤403，基于各所述分词的词向量及所述句向量，计算获得所述多语义词的词向量。

其中，计算多语义词的词向量具体包含：

选取所述待匹配文本中，位置前后邻近所述多语义词的5个邻近分词。具体的，在选取邻近分词时，可基于与目标分词位置距离最近的5个分词，可以理解的是，若待匹配文本中所包含的分词个数少于6个，那么可直接将除了目标分词之外的所有分词确定为邻近分词。

对所述邻近分词的词向量进行求和再平均，得到中间向量；

将所述中间向量与所述待匹配文本的句向量进行拼接，得到所述多语义词的词向量。

具体的，其中中间向量基于目标分词的邻近分词向量计算获得，可体现为待匹配文本的局部特征，或多语义词在短文本中的关联特征；待匹配文本的句向量，可体现为整体特征，即待匹配文本的全局特征，通过结合局部特征及整体特征来标识多语义词的词向量。

步骤404，分别对比所述多语义词的词向量与预先得到的各所述语义向量，选取最接近的所述语义向量对应的语义确定为所述多语义词在所述待匹配文本所表达的语义。

根据上文说明可知，多语义词的词向量的获取方法与各语义对应的语义向量计算方法相同，如此一来，可通过查找距离最接近的语义向量，确定该多语义词在待匹配文本所表达的正确语义，从而完成多语义词的语义选择。

由此可见，基于上述方法可简单快速的识别出待匹配文本中的多语义词，并进行语义选择，以获取更贴近用户所要表达的语义，从而消除歧义。

请回到图1，在完成步骤101中对待匹配文本的预处理后，确定了待匹配文本中各分词的词性、语义等标注。

步骤102，将可合并的分词拼接成短语。

具体而言，将可合并的分词拼接成短语，是为了进一步对待匹配文本进行消歧。

举例而言，“优秀的学生有很多朋友”，“学生有很多优秀的朋友”两个句子，进行分词处理后，分别变成：“优秀的”、“学生”、“有”、“很多”和“朋友”，“学生”、“有”、“很多”、“优秀的”和“朋友”。如果只是考虑单个词语的语义，这两个原本差别很大的句子就会被判定为语义相近(如对比文章)。

在本实施例中，可先将可合并的邻近分词进行拼接，分别得到处理结果：“优秀的学生”“有”和“很多朋友”，“学生”、“有”、“很多”和“优秀的朋友”。

如此一来，“优秀的学生”、“很多朋友”和“学生”、“优秀的朋友”其语义明显会有区分，从而实现进一步的消歧。

在本发明的实施例中，可合并的邻近分词进行拼接可以是基于分词词性实现对可合并的分词进行确定，例如，形容词+名词，动词+名词的短语组合规则；也可以是基于预先短语数据库训练得到。

步骤103，基于第一预设算法计算所述待匹配文本与文本库中的预存文本的相似度，并选取预设数量个符合预设条件的所述预存文本，作为第一相似文本。

其中，在计算所述待匹配文本与文本库中的预存文本的相似度之前需对所述文本库中的所述预存文本进行预处理，其中所述预处理包含对所述预存文本进行分词处理，具体的预处理方法可参照图1所示步骤101及102中的说明。

较佳的，第一相似算法为WMD(Word Mover Distance)算法。在WMD算法中，考虑了词语语义、位置信息以及词语权重，使得相似度计算更精确，且计算快速。

基于计算得到的相似度结果，可选取相似度最高的150个预存文本分别确认为第一相似文本。可以理解的是，预设数量及预设条件可根据实际情况进行调整，本发明并不作特别限制。

步骤104，基于第二相似算法计算所述待匹配文本与所述第一相似文本的相似度。

较佳的，第二相似算法为RWMD(Relaxed Word Mover's Distance)算法。

在基于第二相似算法计算所述待匹配文本与所述第一相似文本的相似度时，包含了基于步骤102拼接得到的短语进行相似度的计算。

在RWMD算法中，可预先离线学习好词向量与短语向量，预先计算所有短语向量间的距离，从而使得在计算时速度更快、性能更高。

步骤105，从所述第一相似文本中选取相似度满足预设条件的预存文本，确定为匹配文本。

其中，预设条件可包含相似度超过预设阈值的所有预存文本，或相似度接近的预设数量个文本。

由此可见，本发明实施例所提供的文本匹配方法，先后经过多语义词和短语拼接的语义消歧，在选取特定的算法来计算待匹配文本与预存文本的相似度，可提升文本匹配的准确度。

基于同样的发明构思，本发明还提供了一种电子设备，请参照图5，图5绘示本发明一实施例所提供的电子设备结构示意图。

如图5所示，包括至少一个处理器501；以及，与所述至少一个处理器501通信连接的存储器502；其中，所述存储器502存储有可被所述至少一个处理器501执行的指令，所述指令被所述至少一个处理器501执行上述方法实施方式中的文本匹配方法。

其中，存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施方式，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种文本匹配方法，其特征在于，所述方法包含步骤：

对待匹配文本进行预处理，其中所述预处理包含对所述待匹配文本进行分词处理；

将可合并的分词拼接成短语；

基于第一相似算法计算所述待匹配文本与文本库中的预存文本的相似度，并选取预设数量个符合预设条件的所述预存文本，作为第一相似文本；

基于第二相似算法计算所述待匹配文本与所述第一相似文本的相似度；

从所述第一相似文本中选取相似度满足预设条件的预存文本，确定为匹配文本。

2.如权利要求1所述的文本匹配方法，其特征在于，所述对待匹配文本进行预处理，还包含对所述待匹配文本中的各分词进行多语义词识别，并对所述多语义词进行语义确认。

3.如权利要求2所述的文本匹配方法，其特征在于，所述对所述待匹配文本中的各分词进行多语义词识别具体包含，基于所述各分词，匹配多语义词数据库，若匹配成功，则确定为多语义词；

其中所述多语义词数据库通过对语料库的语义训练获得。

4.如权利要求3所述的文本匹配方法，其特征在于，所述语料库的语义训练方法具体包含步骤：

确定包含目标分词的训练语料；

分别对所述训练语料进行分词处理，并基于第一预设算法确定各所述训练语料分词的第一词向量；

基于第二预设算法确定各所述训练语料的句向量；

基于所述第一词向量及各所述训练语料的所述句向量，计算获得各所述训练语料中所述目标分词对应的第二词向量；

对所述目标分词对应的各所述第二词向量进行聚类，获得至少一个类别；

基于所述至少一个类别确定所述目标分词对应的至少一个语义及语义向量。

5.如权利要求1所述的文本匹配方法，其特征在于，所述将可合并的所述分词拼接成短语包含：

基于所述分词的词性及预设合并规则，确定可合并的所述分词，并进行拼接。

6.如权利要求1所述的文本匹配方法，其特征在于，所述将可合并的所述分词拼接成短语包含：

匹配预设短语数据库，确认可合并的所述分词，并拼接成短语。

7.如权利要求1所述的文本匹配方法，其特征在于，所述第一相似算法为WMD(WordMover Distance)算法。

8.如权利要求1所述的文本匹配方法，其特征在于，所述第二相似算法为RWMD(RelaxedWord Mover's Distance)算法；所述基于第二相似算法计算所述待匹配文本与所述第一相似文本的相似度包含，计算所述短语的相似度。

9.如权利要求1所述的文本匹配方法，其特征在于，在计算所述待匹配文本与文本库中的预存文本的相似度之前更包含步骤：

对所述文本库中的所述预存文本进行预处理，其中所述预处理包含对所述预存文本进行分词处理；

将可合并的分词拼接成短语。

10.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至9中任一所述的文本匹配方法。