CN111581347A

CN111581347A - 语句相似度匹配方法及装置

Info

Publication number: CN111581347A
Application number: CN202010347946.0A
Authority: CN
Inventors: 曹广溥; 吴江林; 王慎超; 李金泽
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-25
Anticipated expiration: 2040-04-28
Also published as: CN111581347B

Abstract

本申请实施例提供一种语句相似度匹配方法及装置，方法包括：获取经分词处理后的目标对象语句对应的目标句向量；基于倒排矩阵获取目标句向量中的一级词汇的句向量在历史数据集中对应的一级相似语句；应用历史数据集对应的相似词字典，确定目标句向量中的二级词汇的句向量、三级词汇的句向量和一级相似语句之间的相似度得分，并得到一级相似语句对应的二级相似语句以及目标对象语句与历史数据集间的相似度匹配分值。本申请能够快速且准确性地对目标对象语句与历史数据集进行相似度匹配，并能够有效提高相似度匹配过程的可靠性及效率，实现毫秒级从数百万数据中筛选出最相似的语句，进而能有效提高人工智能客服的实用性、准确性，增加了用户体验度。

Description

语句相似度匹配方法及装置

技术领域

本申请涉及数据处理技术领域，具体涉及语句相似度匹配方法及装置。

背景技术

在人工智能时代背景下，使用人工智能客服读取非结构化文本信息的需求也呈指数级增长，因此，从这些非结构化文本信息中快速找出需要的信息，并将其加以利用，对于提高人工智能客服的实用性以及增加用户体验度均具有重要意义。

目前，大多数企业都是通过简单的词语匹配来判断文本相似度，即根据两段文本中相似词的多少来计算相似度。这种方式，一方面精确度不高，没有考虑词语语义相近的情况；另一方面，对于动辄数十万上百万的数据量，这种逐句匹配的方法效率十分低下，无法满足智能客服实时性的需求。

发明内容

针对现有技术中的问题，本申请提供一种语句相似度匹配方法及装置，能够快速且准确性地对目标对象语句与历史数据集进行相似度匹配，并能够有效提高相似度匹配过程的可靠性及效率，实现毫秒级从数百万数据中筛选出最相似的语句，进而能有效提高人工智能客服的实用性、准确性，增加了用户体验度。

为解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种语句相似度匹配方法，包括：

获取经分词处理后的目标对象语句对应的目标句向量，其中，该目标句向量包括：一级词汇的句向量、二级词汇的句向量和三级词汇的句向量；

基于预设的历史数据集的倒排矩阵，获取所述目标句向量中的一级词汇的句向量在所述历史数据集中对应的一级相似语句；

应用所述历史数据集对应的相似词字典，确定所述目标句向量中的二级词汇的句向量、三级词汇的句向量和所述一级相似语句之间的相似度得分，并得到所述一级相似语句对应的二级相似语句；

对所述二级相似语句进行归一化处理，得到所述目标对象语句与所述历史数据集之间的相似度匹配分值。

进一步地，在所述获取经分词处理后的目标对象语句对应的目标句向量之前，还包括：

应用获取的历史数据集生成对应的相似词袋，并将其中的相似词语存储至预设的相似词字典；

基于所述相似词袋生成对应的词频排序词袋以及所述分词数据集的句向量矩阵；

获取所述句向量矩阵对应的排序句向量矩阵以及所述倒排矩阵。

进一步地，所述应用获取的历史数据集生成对应的相似词袋，并将其中的相似词语存储至预设的相似词字典，包括：

获取历史数据集；

对所述历史数据集进行分词处理，生成所述历史数据集对应的分词数据集；

生成所述分词数据集对应的词袋，其中，所述词袋用于存储按照预设词汇重要度规则划分的一级词汇、二级词汇和三级词汇；

基于预设的相似度模型对所述词袋进行相似度计算，得到对应的相似词袋，并将其中的相似词语存储至预设的相似词字典。

进一步地，所述词袋包括：一级词汇列表、二级词汇列表和三级词汇列表；

所述一级词汇列表用于存储各个所述一级词汇与各自对应的位置标签；

所述二级词汇列表用于存储各个所述一级词汇与各自对应的位置标签；

所述三级词汇列表用于存储各个所述一级词汇与各自对应的位置标签。

进一步地，所述基于所述相似词袋生成对应的词频排序词袋以及所述分词数据集的句向量矩阵，包括：

根据所述相似词袋中各个词汇出现的词频，对所述相似词袋进行排序处理，得到所述相似词袋对应的词频排序词袋，其中，所述词频排序词袋包括：按照词频正序排序后的一级词汇的词频排序词袋、二级词汇的词频排序词袋和三级词汇的词频排序词袋；

应用所述词频排序词袋获取所述分词数据集的句向量矩阵，其中，所述句向量矩阵包括：一级词汇的句向量矩阵、二级词汇的句向量矩阵和三级词汇的句向量矩阵。

进一步地，所述获取所述句向量矩阵对应的排序句向量矩阵以及所述倒排矩阵，包括：

基于所述句向量矩阵中的各句子中词汇的数量，确定各句子的句长；

根据各句子的句长对所述句向量矩阵进行排序处理，得到对应的排序句向量矩阵，其中，所述排序句向量矩阵包括：一级词汇的排序句向量矩阵、二级词汇的排序句向量矩阵和三级词汇的排序句向量矩阵；

应用所述一级词汇的排序句向量矩阵生成对应的倒排矩阵。

进一步地，所述获取经分词处理后的目标对象语句对应的目标句向量，包括：

接收目标对象语句；

对所述目标对象语句进行分词处理，得到对应的目标分词语句；

基于预设的所述词频排序词袋，生成所述目标分词语句对应的目标句向量。

进一步地，还包括：

将所述目标对象语句与所述历史数据集之间的相似度匹配分值发送至所述目标对象语句的发送方进行显示。

进一步地，所述目标对象语句用于表示用户向人工智能客服端发出的询问语句；

相对应的，所述目标对象语句的发送方为人工智能客服端。

进一步地，所述一级词汇包括词性为名词和动词的词汇，所述二级词汇包括词性为副词的词汇，所述三级词汇包括词性与语气词的词汇。

第二方面，本申请提供一种语句相似度匹配装置，包括：

目标句向量获取模块，用于获取经分词处理后的目标对象语句对应的目标句向量，其中，该目标句向量包括：一级词汇的句向量、二级词汇的句向量和三级词汇的句向量；

一级相似语句确定模块，用于基于预设的历史数据集的倒排矩阵，获取所述目标句向量中的一级词汇的句向量在所述历史数据集中对应的一级相似语句；

二级相似语句确定模块，用于应用所述历史数据集对应的相似词字典，确定所述目标句向量中的二级词汇的句向量、三级词汇的句向量和所述一级相似语句之间的相似度得分，并得到所述一级相似语句对应的二级相似语句；

相似度匹配分值生成模块，用于对所述二级相似语句进行归一化处理，得到所述目标对象语句与所述历史数据集之间的相似度匹配分值。

进一步地，还包括：

相似词袋生成模块，用于应用获取的历史数据集生成对应的相似词袋，并将其中的相似词语存储至预设的相似词字典；

句向量矩阵生成模块，用于基于所述相似词袋生成对应的词频排序词袋以及所述分词数据集的句向量矩阵；

倒排矩阵获取模块，用于获取所述句向量矩阵对应的排序句向量矩阵以及所述倒排矩阵。

进一步地，所述相似词袋生成模块具体用于执行下述内容：

获取历史数据集；

进一步地，所述句向量矩阵生成模块具体用于执行下述内容：

进一步地，所述倒排矩阵获取模块具体用于执行下述内容：

应用所述一级词汇的排序句向量矩阵生成对应的倒排矩阵。

进一步地，所述目标句向量获取模块具体用于执行下述内容：

接收目标对象语句；

进一步地，还包括：

相似度匹配分值输出模块，用于将所述目标对象语句与所述历史数据集之间的相似度匹配分值发送至所述目标对象语句的发送方进行显示。

相对应的，所述目标对象语句的发送方为人工智能客服端。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的语句相似度匹配方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的语句相似度匹配方法的步骤。

由上述技术方案可知，本申请提供的一种语句相似度匹配方法及装置，方法包括：获取经分词处理后的目标对象语句对应的目标句向量；基于倒排矩阵获取目标句向量中的一级词汇的句向量在历史数据集中对应的一级相似语句；应用历史数据集对应的相似词字典，确定目标句向量中的二级词汇的句向量、三级词汇的句向量和一级相似语句之间的相似度得分，并得到一级相似语句对应的二级相似语句以及目标对象语句与历史数据集间的相似度匹配分值，克服了现有相似度匹配方法面对大规模文本数据室，精确度不高，计算效率低下的缺陷，通过制作文本向量化、制作相似词袋、向量排序、粗细计算以及归一化等方法，基于历史数据集进行大规模相似度匹配，能够快速且准确性地对目标对象语句与历史数据集进行相似度匹配，并能够有效提高相似度匹配过程的可靠性及效率，实现毫秒级从数百万数据中筛选出最相似的语句，进而能有效提高人工智能客服的实用性、准确性，增加了用户体验度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的语句相似度匹配方法的流程示意图。

图2是本申请实施例中的语句相似度匹配方法中步骤010至步骤030的流程示意图。

图3是本申请实施例中的语句相似度匹配方法中步骤010的具体流程示意图。

图4是本申请实施例中的语句相似度匹配方法中步骤020的具体流程示意图。

图5是本申请实施例中的语句相似度匹配方法中步骤030的具体流程示意图。

图6是本申请实施例中的语句相似度匹配方法中步骤100的具体流程示意图。

图7是本申请实施例中的包含有步骤500的语句相似度匹配方法中的流程示意图。

图8是本申请实施例中的语句相似度匹配装置的第一种结构示意图。

图9是本申请实施例中的语句相似度匹配装置的第二种结构示意图。

图10是本申请实施例中的语句相似度匹配装置的第三种结构示意图。

图11是本申请应用实例中一种语句相似度匹配系统对应的算法结构图。

图12是本申请应用实例中的一种语句相似度匹配系统实现语句相似度匹配方法的流程图。

图13是本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供一种大规模数据的语句相似度匹配方法、语句相似度匹配装置、电子设备和计算机可读存储介质，通过获取经分词处理后的目标对象语句对应的目标句向量，其中，该目标句向量包括：一级词汇的句向量、二级词汇的句向量和三级词汇的句向量；基于预设的历史数据集的倒排矩阵，获取所述目标句向量中的一级词汇的句向量在所述历史数据集中对应的一级相似语句；应用所述历史数据集对应的相似词字典，确定所述目标句向量中的二级词汇的句向量、三级词汇的句向量和所述一级相似语句之间的相似度得分，并得到所述一级相似语句对应的二级相似语句；对所述二级相似语句进行归一化处理，得到所述目标对象语句与所述历史数据集之间的相似度匹配分值，克服了现有相似度匹配方法面对大规模文本数据室，精确度不高，计算效率低下的缺陷，通过制作文本向量化、制作相似词袋、向量排序、粗细计算以及归一化等方法，基于历史数据集进行大规模相似度匹配，能够快速且准确性地对目标对象语句与历史数据集进行相似度匹配，并能够有效提高相似度匹配过程的可靠性及效率，实现毫秒级从数百万数据中筛选出最相似的语句，进而能有效提高人工智能客服的实用性、准确性，增加了用户体验度。

为了能够快速且准确性地对目标对象语句与历史数据集进行相似度匹配，并能够有效提高相似度匹配过程的可靠性及效率，实现毫秒级从数百万数据中筛选出最相似的语句，进而能有效提高人工智能客服的实用性、准确性，增加了用户体验度，本申请提供一种语句相似度匹配方法的实施例，参见图1，所述语句相似度匹配方法具体包含有如下内容：

步骤100：获取经分词处理后的目标对象语句对应的目标句向量，其中，该目标句向量包括：一级词汇的句向量、二级词汇的句向量和三级词汇的句向量。

在本申请的一个或多个实施例中，所述一级词汇是指按照预设词汇重要度规则划分的重要词汇，如名词和动词等；所述二级词汇是指按照预设词汇重要度规则划分的重要程度次于一级词汇的非重要词汇，如副词等；所述三级词汇是指按照预设词汇重要度规则划分的重要程度也次于一级词汇的语气词汇，如语气助词等。

也即，在本申请的一个实施例中，所述一级词汇包括词性为名词和动词的词汇，所述二级词汇包括词性为副词的词汇，所述三级词汇包括词性与语气词的词汇。

步骤200：基于预设的历史数据集的倒排矩阵，获取所述目标句向量中的一级词汇的句向量在所述历史数据集中对应的一级相似语句。

步骤300：应用所述历史数据集对应的相似词字典，确定所述目标句向量中的二级词汇的句向量、三级词汇的句向量和所述一级相似语句之间的相似度得分，并得到所述一级相似语句对应的二级相似语句。

可以理解的是，一级相似语句是指粗相似语句，二级相似语句是指精确相似语句。

步骤400：对所述二级相似语句进行归一化处理，得到所述目标对象语句与所述历史数据集之间的相似度匹配分值。

在步骤100至步骤400中，所述目标对象语句可以为用于表示用户向人工智能客服端发出的询问语句；相对应的，所述目标对象语句的发送方为人工智能客服端，而步骤400之后，语句相似度匹配装置可以将所述目标对象语句与所述历史数据集之间的相似度匹配分值以及对应的二级相似语句均发送至所述人工智能客服端，以使该人工智能客服端根据接收的相似度匹配分值先判断对应的二级相似语句是否为可用相似语句，若是，则在预设的问答列表中查找到该可用相似语句对应的回答语句，并将该回答语句发送至用户终端，以使用户迅速获取询问语句对应的回答语句，进而能够有效提高人工智能客服端回复用户的效率及准确性。

为了有效提高获取经分词处理后的目标对象语句对应的目标句向量的可靠性及准确性，以进一步提高人工智能客服端回复用户的效率及准确性，在本申请的语句相似度匹配方法的一个实施例中，参见图2，所述语句相似度匹配方法的步骤100之前还具体包含有如下内容：

步骤010：应用获取的历史数据集生成对应的相似词袋，并将其中的相似词语存储至预设的相似词字典。

步骤020：基于所述相似词袋生成对应的词频排序词袋以及所述分词数据集的句向量矩阵。

步骤030：获取所述句向量矩阵对应的排序句向量矩阵以及所述倒排矩阵。

在步骤010的一种具体实施方式中，参见图3，所述步骤010具体包含有如下内容：

步骤011：获取历史数据集。

步骤012：对所述历史数据集进行分词处理，生成所述历史数据集对应的分词数据集。

步骤013：生成所述分词数据集对应的词袋，其中，所述词袋用于存储按照预设词汇重要度规则划分的一级词汇、二级词汇和三级词汇；

步骤014：基于预设的相似度模型对所述词袋进行相似度计算，得到对应的相似词袋，并将其中的相似词语存储至预设的相似词字典。

其中的所述词袋包括：一级词汇列表、二级词汇列表和三级词汇列表；

在步骤020的一种具体实施方式中，参见图4，所述步骤020具体包含有如下内容：

步骤021：根据所述相似词袋中各个词汇出现的词频，对所述相似词袋进行排序处理，得到所述相似词袋对应的词频排序词袋，其中，所述词频排序词袋包括：按照词频正序排序后的一级词汇的词频排序词袋、二级词汇的词频排序词袋和三级词汇的词频排序词袋。

步骤022：应用所述词频排序词袋获取所述分词数据集的句向量矩阵，其中，所述句向量矩阵包括：一级词汇的句向量矩阵、二级词汇的句向量矩阵和三级词汇的句向量矩阵。

在步骤030的一种具体实施方式中，参见图5，所述步骤030具体包含有如下内容：

步骤031：基于所述句向量矩阵中的各句子中词汇的数量，确定各句子的句长。

步骤032：根据各句子的句长对所述句向量矩阵进行排序处理，得到对应的排序句向量矩阵，其中，所述排序句向量矩阵包括：一级词汇的排序句向量矩阵、二级词汇的排序句向量矩阵和三级词汇的排序句向量矩阵。

步骤033：应用所述一级词汇的排序句向量矩阵生成对应的倒排矩阵。

为了有效提高获取经分词处理后的目标对象语句对应的目标句向量，以进一步提高人工智能客服端回复用户的效率及准确性，在本申请的语句相似度匹配方法的一个实施例中，参见图6，所述语句相似度匹配方法的步骤100具体包含有如下内容：

步骤11：接收目标对象语句。

步骤12：对所述目标对象语句进行分词处理，得到对应的目标分词语句。

步骤13：基于预设的所述词频排序词袋，生成所述目标分词语句对应的目标句向量。

为了进一步提高人工智能客服端回复用户的效率及准确性，在本申请的语句相似度匹配方法的一个实施例中，参见图7，所述语句相似度匹配方法的步骤400之后还具体包含有如下内容：

步骤500：将所述目标对象语句与所述历史数据集之间的相似度匹配分值发送至所述目标对象语句的发送方进行显示。

从软件层面来说，为了能够快速且准确性地对目标对象语句与历史数据集进行相似度匹配，并能够有效提高相似度匹配过程的可靠性及效率，实现毫秒级从数百万数据中筛选出最相似的语句，进而能有效提高人工智能客服的实用性、准确性，增加了用户体验度，本申请还提供一种用于实现所述语句相似度匹配方法中全部或分部内容的语句相似度匹配装置的实施例，参见图8，所述语句相似度匹配装置具体包含有如下内容：

目标句向量获取模块1，用于获取经分词处理后的目标对象语句对应的目标句向量，其中，该目标句向量包括：一级词汇的句向量、二级词汇的句向量和三级词汇的句向量。

一级相似语句确定模块2，用于基于预设的历史数据集的倒排矩阵，获取所述目标句向量中的一级词汇的句向量在所述历史数据集中对应的一级相似语句。

二级相似语句确定模块3，用于应用所述历史数据集对应的相似词字典，确定所述目标句向量中的二级词汇的句向量、三级词汇的句向量和所述一级相似语句之间的相似度得分，并得到所述一级相似语句对应的二级相似语句。

相似度匹配分值生成模块4，用于对所述二级相似语句进行归一化处理，得到所述目标对象语句与所述历史数据集之间的相似度匹配分值。

为了有效提高获取经分词处理后的目标对象语句对应的目标句向量的可靠性及准确性，以进一步提高人工智能客服端回复用户的效率及准确性，在本申请的语句相似度匹配装置的一个实施例中，参见图9，所述语句相似度匹配装置的还具体包含有如下内容：

相似词袋生成模块5，用于应用获取的历史数据集生成对应的相似词袋，并将其中的相似词语存储至预设的相似词字典。

句向量矩阵生成模块6，用于基于所述相似词袋生成对应的词频排序词袋以及所述分词数据集的句向量矩阵。

倒排矩阵获取模块7，用于获取所述句向量矩阵对应的排序句向量矩阵以及所述倒排矩阵。

其中的所述相似词袋生成模块5具体用于执行下述内容：

获取历史数据集；

所述词袋包括：一级词汇列表、二级词汇列表和三级词汇列表；

所述句向量矩阵生成模块6具体用于执行下述内容：

所述倒排矩阵获取模块7具体用于执行下述内容：

应用所述一级词汇的排序句向量矩阵生成对应的倒排矩阵。

为了有效提高获取经分词处理后的目标对象语句对应的目标句向量，以进一步提高人工智能客服端回复用户的效率及准确性，在本申请的语句相似度匹配装置的一个实施例中，所述语句相似度匹配装置的目标句向量获取模块具体用于执行下述内容：

接收目标对象语句；

为了进一步提高人工智能客服端回复用户的效率及准确性，在本申请的语句相似度匹配装置的一个实施例中，参见图10，所述语句相似度匹配装置的步骤还具体包含有如下内容：

相似度匹配分值输出模块8，用于将所述目标对象语句与所述历史数据集之间的相似度匹配分值发送至所述目标对象语句的发送方进行显示。

其中，所述目标对象语句用于表示用户向人工智能客服端发出的询问语句；相对应的，所述目标对象语句的发送方为人工智能客服端。

所述一级词汇包括词性为名词和动词的词汇，所述二级词汇包括词性为副词的词汇，所述三级词汇包括词性与语气词的词汇。

为了进一步说明本方案，本申请还提供一种应用语句相似度匹配系统实现语句相似度匹配方法的具体应用实例，具体包含有如下内容：

图11为本申请应用实例中一种语句相似度匹配系统对应的算法结构图，包括：分词单元101、词袋制作单元102、相似度计算单元103、词袋排序单元104、句向量生成单元105、句向量排序单元106、倒排单元107、粗计算单元108、精计算单元109和归一化单元110；数据集201、待计算语句202、分词后待计算语句203、分词数据集204、词袋(A,B,C)205、相似词袋(A,B,C)206、相似词字典(A,B,C)207、词频排序词袋(A,B,C)208、句向量矩阵(A,B,C)209、排序句向量矩阵(A,B,C)210、倒排矩阵211、待计算句向量(A,B,C)212、粗相似语句213、精确相似语句214和最终得分215。

它们之间的连接关系为分词单元101分别与词袋制作单元102、句向量生成单元105相连，将分词数据集204和分词后待计算语句203传入句向量生成单元105,将分词数据集203传入词袋制作单元102；词袋制作单元102与分词单元101、相似度计算103相连，接收分词单元101传入的分词数据集204，将词袋(A,B,C)205传入相似度计算单元103；相似度计算单元103分别与词袋排序单元104、精计算单元109相连，将相似词袋(A,B,C)206传入词袋排序单元104，将相似词字典(A,B,C)207传入精计算单元109；句向量生成单元105分别与分词单元101、词袋排序单元104、句向量排序单元106、粗计算单元108、精计算单元109相连，接收分词单元101生成的分词数据集204、分词后待计算语句203，接收词袋排序单元104生成的词频排序词袋(A,B,C)208,将句向量矩阵(A,B,C)209传入句向量排序单元106，将待计算句向量A212传入粗计算单元108，将待计算句向量(B,C)212传入精计算单元109；句向量排序单元106分别与句向量生成单元105、倒排单元107、精计算单元109相连，接收句向量生成单元105生成的句向量矩阵(A,B,C)209，将生成的排序句向量矩阵A210传入倒排单元107，将排序句向量矩阵(B,C)210传入精计算单元109；倒排单元107分别与句向量排序单元106、粗计算单元108相连，接收句向量排序单元106生成的排序句向量矩阵A210，将倒排矩阵211传入粗计算单元108，粗计算单元108分别与倒排单元107、句向量生成单元105、精计算单元109相连，接收倒排单元107生成的倒排矩阵211，接收句向量生成单元105生成的待计算句向量(A)212，将粗相似语句213传入精计算单元109；精计算单元109分别与相似度计算单元103、句向量生成单元105、句向量排序单元106、粗计算单元108、归一化单元110相连，接收相似度计算单元103生成的相似词字典(A,B,C)，接收句向量排序单元106生成的排序句向量矩阵(B,C)210，接收句向量生成单元105生成的待计算句向量(B,C)212，接收粗计算单元108生成的粗相似语句213，将精确相似语句214传入归一化单元110；归一化单元110与精计算单元109相连，接收精计算单元109的精确相似语句214，输出最终得分215。

分词单元101，负责对数据集、待计算语句进行分词，将分词数据集传入句向量生成单元、词袋制作单元，将分词后待计算语句传入句向量生成单元。所述数据集，是指已有的所有历史数据。所述待计算语句，是指新输入进入系统的语句，用于和数据集中语句匹配，筛选出数据集中与其最相似的语句。所述分词，是指使用HanLP工具分词，并使用词性分词模式。所述词性分词模式，是指分词带有词性，例如动词、名词等。

词袋制作单元102，负责按词性将分词数据集制作成词袋(A,B,C)。所述词性，如表三所示，是指按词性重要性把词语分为三类，分别为重点词性(主要由名词、动词组成)、非重点词性(主要由副词等组成)和语气词性(主要有语气词组成)，A表示重点词，B表示非重点词，C表示语气词。所述词袋是指，将所有非重复词语组成一个列表，不同词语的位置作为它在词袋中的标签。

相似度计算单元103，负责使用相似度模型将词袋(A,B,C)制作成相似词袋(A,B,C)，并将相似的词语保存在相似词字典中。所述相似度模型，是指以历史数据为基础制作的word2vec模型。相似词袋是指，使用相似度模型计算相似度在0.7以上的词语的位置在词袋中合并，即相似的词语的标签一样。所述相似词字典，是指将计算相似度在0.7以上的词语保存在一个字典中。

词袋排序单元104，负责将相似词袋(A,B,C)按词频排序成词频排序词袋(A,B,C)。所述词频，是指词袋中每个词在数据集中出现的频率。所述排序，是指使用快速排序算法对词袋进行正序排序。

句向量生成单元105，负责使用词频排序词袋(A,B,C)将分词数据集生成句向量矩阵(A,B,C)。所述句向量矩阵(A,B,C)，由重点词频排序词袋、非重点词频排序词袋、语气词频排序词袋制作成的重点句向量矩阵、非重点句向量矩阵和语气句向量矩阵。所述句向量矩阵，不同行代表数据集中的不同语句，不同列是指每个句子的不同词语的标签。

句向量排序单元106，负责通过句长对句向量矩阵(A,B,C)进行行排序。所述句长，是指句子中词语的数量。所述排序，是指使用快速排序算法对句向量矩阵进行正序行排序。

倒排单元107，负责将重点排序句向量矩阵进行倒排处理，生成倒排矩阵。所述倒排处理，对应的伪代码如下表1所示：

表1

其中，O为倒排矩阵；

I为重点词袋中每个词对应的列表，下标为该词语在词袋中的位置；

b为位置变量，用于标记光标移动到句向量中数字的位置；

i表示标记符，将句向量从后向前遍历；

t为阈值，用于表示倒排停止的位置。

所述倒排处理，用于将每个句向量的后t(0≤t≤1)位置的向量存入倒排矩阵中。

粗计算单元108，负责从倒排矩阵中粗计算出与待计算句向量较为相似的语句。所述粗计算，伪代码如表2所示：

表2

在表2中，A为空字典；

M为空集；

X为重点待计算句向量；

remscore为x长度；

min size是根据x长度计算的阈值；

i为x中的向量值；

y为倒排矩阵向量I中的语句标签。

所述粗计算，是指计算倒排矩阵中与重点待计算句向量相似的词语的数量，数量越多越相似。

另外，本申请实例中的词性分配表如表3所示：

表3

精计算单元109，负责计算粗相似语句、待计算句向量的非重点句向量、语气句向量的相似度，如果有相同词，相似得分加1，如果有相似词，相似得分加0.8。所述相同词、相似词是指，使用相似词字典查询，待计算句向量与粗相似语句向量中词语标签相同的词语是相似还是相同。

归一化单元110，是指对精计算得出的得分进行归一化。所述归一化，是指将得分计算成0到1之前的数字，计算方法如下：

score＝key_num×key_prescor+nkey_num×nkey_prescor+nnkey_num×nnkey_prescor

其中，tg1为非重点词参数，tg1越大，非重点词得分越低；

Tg2为语气词参数，tg2越大，语气词得分越低；

a1,a2,a3分别为排序句向量中重点词向量、非重点词向量、语气词向量长度

b1,b2,b3分别为待计算句向量中重点词向量、非重点词向量、语气词向量长度；

key_prescor,nkey_prescor,nnkey_prescor分别为重点词单个向量得分、非重点词单个向量得分、语气词单个向量得分；

key_num,nkey_num,nnkey_num为重点词相似个数、非重点词相似个数、语气词相似个数；

score为总得分。

参见图12，应用语句相似度匹配系统实现语句相似度匹配方法的具体流程如下：

步骤301：通过分词模块对数据集进行分词，制作成分词数据集，然后根据词性制作重点词袋、非重点词袋和语气词袋。

所述分词，是指使用HanLP工具分词，并使用词性分词模式。

所述词性分词模式，是指分词带有词性，例如动词、名词等。如表三所示，重点词性包括："a"(形容词),"ad"(副形词),"n"(名词),"s"(处所词)等；非重点词性："ag"(形容词性语素),"r"(代词),"tg"(时间词性语素)等；语气词性："u"(助词),"y"(语气词)等；这些分类由语言专家根据数据集进行经验分类。

步骤302：将三种词袋按词频排序，制作成按词频排序的词袋。

所述词频，是指词袋中每个词在数据集中出现的频率。所述排序，是指使用快速排序算法对词袋进行正序排序。

步骤303：分别对三种词袋进行词语相似度计算，将相似的词语制作成相似词词典。

所述词语相似度计算，是指使用以历史数据为基础制作的word2vec模型计算词语之间的相似度。所述相似词字典，是指将计算相似度在0.7以上的词语保存在一个字典中。

步骤304：通过三种词袋将分词数据集制作成句向量矩阵，并按词数对句向量矩阵进行行排列，制作成排序句向量矩阵。

所述句向量矩阵，不同行代表数据集中的不同语句，不同列是指每个句子的不同词语的标签。

步骤305：通过倒排模块对排序句向量矩阵进行倒排处理，制作成倒排矩阵。

步骤306：输入待计算语句。

步骤307：通过粗计算模块，筛选数据集中粗相似语句。

步骤308：通过精计算模块，筛选数据集中最相似的语句。

步骤309：通过归一化模块，得到待计算语句与最相似语句的相似度得分。

所述归一化，是指将得分计算成0到1之前的数字。

从硬件层面来说，为了能够快速且准确性地对目标对象语句与历史数据集进行相似度匹配，并能够有效提高相似度匹配过程的可靠性及效率，实现毫秒级从数百万数据中筛选出最相似的语句，进而能有效提高人工智能客服的实用性、准确性，增加了用户体验度，本申请提供一种用于实现所述语句相似度匹配方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现电子设备与用户终端以及相关数据库等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例中的语句相似度匹配方法的实施例，以及，语句相似度匹配装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图13为本申请实施例的电子设备9600的系统构成的示意框图。如图13所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图13是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在一实施例中，语句相似度匹配功能可以被集成到中央处理器中。其中，中央处理器可以被配置为进行如下控制：

从上述描述可知，本申请实施例提供的电子设备，克服了现有相似度匹配方法面对大规模文本数据室，精确度不高，计算效率低下的缺陷，通过制作文本向量化、制作相似词袋、向量排序、粗细计算以及归一化等方法，基于历史数据集进行大规模相似度匹配，能够快速且准确性地对目标对象语句与历史数据集进行相似度匹配，并能够有效提高相似度匹配过程的可靠性及效率，实现毫秒级从数百万数据中筛选出最相似的语句，进而能有效提高人工智能客服的实用性、准确性，增加了用户体验度。

在另一个实施方式中，语句相似度匹配装置可以与中央处理器9100分开配置，例如可以将语句相似度匹配装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现语句相似度匹配功能。

如图13所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图13中所示的所有部件；此外，电子设备9600还可以包括图13中没有示出的部件，可以参考现有技术。

如图13所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的语句相似度匹配方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的语句相似度匹配方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本申请实施例提供的计算机可读存储介质，克服了现有相似度匹配方法面对大规模文本数据室，精确度不高，计算效率低下的缺陷，通过制作文本向量化、制作相似词袋、向量排序、粗细计算以及归一化等方法，基于历史数据集进行大规模相似度匹配，能够快速且准确性地对目标对象语句与历史数据集进行相似度匹配，并能够有效提高相似度匹配过程的可靠性及效率，实现毫秒级从数百万数据中筛选出最相似的语句，进而能有效提高人工智能客服的实用性、准确性，增加了用户体验度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语句相似度匹配方法，其特征在于，包括：

2.根据权利要求1所述的语句相似度匹配方法，其特征在于，在所述获取经分词处理后的目标对象语句对应的目标句向量之前，还包括：

3.根据权利要求2所述的语句相似度匹配方法，其特征在于，所述应用获取的历史数据集生成对应的相似词袋，并将其中的相似词语存储至预设的相似词字典，包括：

获取历史数据集；

4.根据权利要求3所述的语句相似度匹配方法，其特征在于，所述词袋包括：一级词汇列表、二级词汇列表和三级词汇列表；

5.根据权利要求2所述的语句相似度匹配方法，其特征在于，所述基于所述相似词袋生成对应的词频排序词袋以及所述分词数据集的句向量矩阵，包括：

6.根据权利要求2所述的语句相似度匹配方法，其特征在于，所述获取所述句向量矩阵对应的排序句向量矩阵以及所述倒排矩阵，包括：

应用所述一级词汇的排序句向量矩阵生成对应的倒排矩阵。

7.根据权利要求2所述的语句相似度匹配方法，其特征在于，所述获取经分词处理后的目标对象语句对应的目标句向量，包括：

接收目标对象语句；

8.根据权利要求1所述的语句相似度匹配方法，其特征在于，还包括：

9.根据权利要求8所述的语句相似度匹配方法，其特征在于，所述目标对象语句用于表示用户向人工智能客服端发出的询问语句；

相对应的，所述目标对象语句的发送方为人工智能客服端。

10.根据权利要求1至9任一项所述的语句相似度匹配方法，其特征在于，所述一级词汇包括词性为名词和动词的词汇，所述二级词汇包括词性为副词的词汇，所述三级词汇包括词性与语气词的词汇。

11.一种语句相似度匹配装置，其特征在于，包括：

12.根据权利要求11所述的语句相似度匹配装置，其特征在于，还包括：

13.根据权利要求12所述的语句相似度匹配装置，其特征在于，所述相似词袋生成模块具体用于执行下述内容：

获取历史数据集；

14.根据权利要求13所述的语句相似度匹配装置，其特征在于，所述词袋包括：一级词汇列表、二级词汇列表和三级词汇列表；

15.根据权利要求12所述的语句相似度匹配装置，其特征在于，所述句向量矩阵生成模块具体用于执行下述内容：

16.根据权利要求12所述的语句相似度匹配装置，其特征在于，所述倒排矩阵获取模块具体用于执行下述内容：

应用所述一级词汇的排序句向量矩阵生成对应的倒排矩阵。

17.根据权利要求12所述的语句相似度匹配装置，其特征在于，所述目标句向量获取模块具体用于执行下述内容：

接收目标对象语句；

18.根据权利要求11所述的语句相似度匹配装置，其特征在于，还包括：

19.根据权利要求18所述的语句相似度匹配装置，其特征在于，所述目标对象语句用于表示用户向人工智能客服端发出的询问语句；

相对应的，所述目标对象语句的发送方为人工智能客服端。

20.根据权利要求11至19任一项所述的语句相似度匹配装置，其特征在于，所述一级词汇包括词性为名词和动词的词汇，所述二级词汇包括词性为副词的词汇，所述三级词汇包括词性与语气词的词汇。

21.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10任一项所述的语句相似度匹配方法的步骤。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10任一项所述的语句相似度匹配方法的步骤。