CN109284399B

CN109284399B - 相似度预测模型训练方法、设备及计算机可读存储介质

Info

Publication number: CN109284399B
Application number: CN201811187519.XA
Authority: CN
Inventors: 张超; 杨海军; 徐倩; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2022-03-15
Anticipated expiration: 2038-10-11
Also published as: CN109284399A

Abstract

本发明公开了一种相似度预测模型训练方法，包括：当监测到模型训练指令时，对第一样本数据库中的各组语句文本语料进行相似度标注，以获取语句文本标注语料集；对第一样本数据库中的各组语句文本语料进行句法语义分析，以将所述语句文本标注语料集转换为模式文本标注语料集；依据所述模式文本标注语料集，训练相似度预测模型，直至所述相似度预测模型收敛。本发明还公开了一种相似度预测模型训练设备及计算机可读存储介质。本发明能够有效提高相似度预测模型预测语句文本的相似度的准确性。

Description

相似度预测模型训练方法、设备及计算机可读存储介质

技术领域

本发明涉及文本匹配的技术领域，尤其涉及一种相似度预测模型训练方法、设备及计算机可读存储介质。

背景技术

文本匹配被广泛应用于搜索引擎、智能问答和广告推荐等领域，目前常用的文本匹配方案主要采用机器学习或深度学习方法，预测两个语句之间的相似度，在智能回答领域，现有预测模型的输入数据是两个语句的原始输入文本。

然而，由于相似度模型的输入数据是两个语句的原始输入文本，而原始输入文本由用户输入，且用户的输入具有多样性，导致原始输入文本为长尾数据，而机器学习或深度学习无法有效的处理长尾数据，利用长尾数据训练得到的相似度预测模型，无法准确的预测两个语句文本之间的相似度。

因此，如何提高相似度预测模型预测语句文本的相似度的准确性是目前亟待解决的问题。

发明内容

本发明的主要目的在于提供一种相似度预测模型训练方法、设备及计算机可读存储介质，旨在提高相似度预测模型预测语句文本的相似度的准确性。

为实现上述目的，本发明提供一种相似度预测模型训练方法，所述相似度预测模型训练方法包括以下步骤：

当监测到模型训练指令时，对第一样本数据库中的各组语句文本语料进行相似度标注，以获取语句文本标注语料集；

对第一样本数据库中的各组语句文本语料进行句法语义分析，以将所述语句文本标注语料集转换为模式文本标注语料集；

依据所述模式文本标注语料集，训练相似度预测模型，直至所述相似度预测模型收敛。

进一步地，所述对第一样本数据库中的各组语句文本语料进行相似度标注，以获取语句文本标注语料集的步骤包括：

将第一样本数据库中的各组语句文本语料内的第一语句文本和第二语句文本分别拆分为单个字符，并确定每个字符的字向量；

依据各组语句文本语料中第一语句文本内的每个字符的字向量和第二语句文本内的每个字符的字向量，确定各组语句文本语料的相似度；

依据各组语句文本语料的相似度，对各组语句文本语料进行标注，以获取语句文本标注语料集。

进一步地，所述依据各组语句文本语料中第一语句文本内的每个字符的字向量和第二语句文本内的每个字符的字向量，确定各组语句文本语料的相似度的步骤包括：

依据各组语句文本语料中第一语句文本内的每个字符的字向量和第二语句文本内的每个字符的字向量，确定各组语句文本语料中第一语句文本的文本向量和第二语句文本的文本向量；

计算各组语句文本语料中第一语句文本的文本向量与第二语句文本的文本向量之间的距离，并依据所述距离，确定各组语句文本语料的相似度。

进一步地，所述对第一样本数据库中的各组语句文本语料进行句法语义分析，以将所述语句文本标注语料集转换为模式文本标注语料集的步骤包括：

对第一样本数据库中的各组语句文本语料进行句法语义分析，并依据句法语义分析结果，将各组语句文本语料转换为模式文本语料集；

依据所述语句文本标注语料集，对所述模式文本语料集中的各组模式文本语料进行相似度标注，以获取模式文本标注语料集。

进一步地，依据所述模式文本标注语料集，训练相似度预测模型，直至所述相似度预测模型收敛的步骤之后，还包括：

当监测到相似度预测请求时，对所述相似度预测请求中的两个语句文本进行句法语义分析，以将所述两个语句文本转换为两个模式文本；

将所述两个模式文本输入所述相似度预测模型，获取所述两个语句文本的相似度。

进一步地，将所述两个模式文本输入所述相似度预测模型，获取所述语句文本的相似度的步骤之后，还包括：

依据所述相似度，对所述两个模式文本进行相似度标注，得到模式文本标注语料组，并将所述模式文本标注语料组存储至第二样本数据库中。

进一步地，将所述模式文本标注语料组存储至第二样本数据库中的步骤之后，还包括：

以间隔预设时间统计所述第二样本数据库中模式文本标注语料组的存储数量，并判断所述存储数量是否大于或等于预设阈值；

若所述存储数量大于或等于预设阈值，则依据所述第一样本数据库和所述第二样本数据库，执行相似度预测模型更新操作。

进一步地，依据所述第一样本数据库和所述第二样本数据库，执行相似度预测模型更新操作的步骤包括：

将所述第一样本数据库中的各组模式文本标注语料与所述第二样本数据库中的各组模式文本标注语料合并，形成模式文本标注语料集；

初始化所述相似度预测模型，并依据所述模式文本标注语料集，训练经初始化后的相似度预测模型，直至初始化后的相似度预测模型收敛。

此外，为实现上述目的，本发明还提供一种相似度预测模型训练设备，所述相似度预测模型训练设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的相似度预测模型训练程序，所述相似度预测模型训练程序被所述处理器执行时实现如上所述的相似度预测模型训练方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有相似度预测模型训练程序，所述相似度预测模型训练程序被处理器执行时实现如上所述的相似度预测模型训练方法的步骤。

本发明提供一种相似度预测模型训练方法、设备及计算机可读存储介质，本发明当监测到模型训练指令时，对样本数据库中的各组语句文本语料进行相似度标注，以获取语句文本标注语料集，并对样本数据库中的各组语句文本语料进行句法语义分析，以将所述语句文本标注语料集转换为模式文本标注语料集，然后依据该模式文本标注语料集，训练相似度预测模型，直至该相似度预测模型收敛，由于对语句文本进行句法语义分析，将多样化的语句文本转换为标准的模式文本，有效的减少长尾数据，然后以模式文本为样本，对相似度预测模型进行训练，直至相似度预测模型收敛，提高相似度预测模型的预测效果，有效的提高相似度预测模型预测语句文本的相似度的准确性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明相似度预测模型训练方法第一实施例的流程示意图；

图3为本发明第二实施例中步骤S101的细化流程示意图；

图4为本发明相似度预测模型训练方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例相似度预测模型训练设备可以是PC，也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该相似度预测模型训练设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的相似度预测模型训练设备结构并不构成对相似度预测模型训练设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及相似度预测模型训练程序。

在图1所示的相似度预测模型训练设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的相似度预测模型训练程序，并执行以下步骤：

进一步地，处理器1001可以用于调用存储器1005中存储的相似度预测模型训练程序，还执行以下步骤：

本发明相似度预测模型训练设备的具体实施例与下述相似度预测模型训练方法的各具体实施例基本相同，在此不作赘述。

参照图2，图2为本发明相似度预测模型训练方法第一实施例的流程示意图。

步骤S101，当监测到模型训练指令时，对第一样本数据库中的各组语句文本语料进行相似度标注，以获取语句文本标注语料集；

本实施例中，用户表述一件事情的语句表述模式是可以总结出来的，即在大量用户对于一件事情表述的语句文本中，可以总结出模式集，从而将语句文本模式化。例如，用户对客服机器人表示失望，会有如下表述的语句文本：“服务不好”、“服务差评”、“你好讨厌”、“你好傻”和“你真傻”等，将上述语句文本经过句法语义分析，抽象出对应的语句表述模式，如下所示：“服务[不好|差|差评]”和“你[|好|真|程度副词][讨厌|傻]”，上述语句表述模式中，符号“[]”框选的内容为必选部分，而由符号“|”隔开的内容为任选部分(为空表示可省略)，对于必选部分，可以通过同义词扩充，也可以通过词性或本体概念抽象出同类词，如“程度副词”可以是“好、真、及其、非常、特别和完全”等表示程度的副词。本实施例基于上述思想对语句文本进行处理之后，执行相似度预测模型的训练操作。

收集语句文本语料，并将收集到的语句文本语料作为一组样本存储至第一样本数据库中，且第一样本数据库存储在云端服务器，作为一组样本的语句文本语料包含两个语句文本，定时统计第一样本数据库中语句文本语料的存储数量，并判断该存储数量是否大于或等于预设数量，如果该存储数量大于或等于预设数量，则触发模型训练指令，如果该存储数量小于预设数量，则不触发模型训练指令。当监测到模型训练指令时，设备先对第一样本数据库中的各组语句文本语料进行相似度标注，即将语句文本语料中的两个语句文本拆分为单个字符，并将两个语句文本的各字符进行比较，确定两个语句文本的相似度，然后该相似度，对该语句文本语料进行标注，得到语句文本标注语料，相同的，对第一样本数据库中的其他语句文本语料执行相似度标注操作，从而得到语句文本标注语料集，其中，标注的相似度为0或1，相同字符的数量超过总字符的一半，则相似度为1，反之相同字符的数量不超过总字符的一半，则相似度为0。具体实施中，可以在收集语句文本语料的过程中，对语句文本语料执行相似度标注操作，得到语句文本标注语料，并将该语句文本标注语料作为一组样本存储至第一样本数据库中。

步骤S102，对第一样本数据库中的各组语句文本语料进行句法语义分析，以将所述语句文本标注语料集转换为模式文本标注语料集；

本实施例中，在获取到语句文本标注语料集之后，对第一样本数据库中的各组语句文本语料进行句法语义分析，以将该语句文本标注语料集转换为模式文本标注语料集，即对语句文本标注语料集中的语句文本标注语料进行模式表示。其中，语句文本标注语料集中的每组语句文本标注语料的数据格式为(A，B，L)，A和B均表示语句文本，L为相似度标签，其值为1或0，L为1，表示语句文本A和语句文本B的相似度为1.0，L为0，表示语句文本A和语句文本B的相似度为0.0，对语句文本A和语句文本B进行句法语义分析，得到语句文本A和语句文本B的模式表示，即模式文本pattern(A)和模式文本pattern(B)，则模式文本标注语料为的数据格式为(pattern(A)，pattern(B)，L)。

具体地，对第一样本数据库中的各组语句文本语料进行句法语义分析，并依据句法语义分析结果，将各组语句文本语料转换为模式文本语料集，即将各组语句文本语料转换为对应的模式文本语料，形成模式文本语料集，然后依据语句文本标注语料集，对模式文本语料集中的各组模式文本语料进行相似度标注，以获取模式文本标注语料集，即按照语句文本标注语料集中各组语句文本标注语料的相似度，给对应的模式文本标注语料进行相似度标注，例如，语句文本标注语料为(A1，B1，L)，则对应的模式文本标注语料为(pattern(A1)，pattern(B1)，L)。

步骤S103，依据模式文本标注语料集，训练相似度预测模型，直至相似度预测模型收敛。

本实施例中，在将语句文本标注语料集转换为模式文本标注语料集之后，设备依据模式文本标注语料集，训练相似度预测模型，直至相似度预测模型收敛。需要说明的是，相似度预测模型可以为神经网络模型，也可以为其他机器学习模型，本实施例对此不作具体限定。以下以神经网络模型为例，进行模型训练说明，将模式文本标注语料集中的各模式文本标注语料输入相似度预测模型，即神经网络模型，对相似度预测模型进行训练，直至相似度预测模型收敛，例如，将模式文本标注语料pattern(A)和pattern(B)输入，对pattern(A)和pattern(B)进行卷积(其卷积核filter的大小可以设为2或者3)，并在卷积之后，进行采样操作，从而得到pattern(A)和pattern(B)的表示向量，即representation(pattern(A))和representation(patern(B))，且两个向量的长度相等；初始化一个参数矩阵W，并计算representation(pattern(A))*W，得到一个向量V，然后计算V*representation(patern(B))得到一个实数值v，并将representation(pattern(A)),v,representation(patern(B))，拼接为一个向量，输入到多层感知机中做二分类，重复上述步骤，直至相似度预测模型收敛。

本实施例中，本发明当监测到模型训练指令时，对样本数据库中的各组语句文本语料进行相似度标注，以获取语句文本标注语料集，并对样本数据库中的各组语句文本语料进行句法语义分析，以将所述语句文本标注语料集转换为模式文本标注语料集，然后依据该模式文本标注语料集，训练相似度预测模型，直至该相似度预测模型收敛，由于对语句文本进行句法语义分析，将多样化的语句文本转换为标准的模式文本，有效的减少长尾数据，然后以模式文本为样本，对相似度预测模型进行训练，直至相似度预测模型收敛，提高相似度预测模型的预测效果，有效的提高相似度预测模型预测语句文本的相似度的准确性。

进一步地，参照图3，基于上述第一实施，提出了本发明相似度预测模型训练方法的第二实施例，与前述实施例的区别在于，步骤S101包括：

步骤S1011，将第一样本数据库中的各组语句文本语料内的第一语句文本和第二语句文件分别拆分为单个字符，并确定每个字符的字向量；

本实施例中，设备将第一样本数据库中的各组语句文本语料内的两个语句文本，即第一语句文本和第二语句文本分别拆分为单个字符，例如，某一组语句文本语料包含的两个语句文本为“服务不好”和“服务差评”，则将“服务不好”拆分为“服”、“务”、“不”和“好”，而将“服务不好”拆分为“服”、“务”、“差”和“评”；在执行语句文本的单字符拆分操作之后，确定每个字符的字向量。

步骤S1012，依据各组语句文本语料中第一语句文本内的每个字符的字向量和第二语句文本内的每个字符的字向量，确定各组语句文本语料的相似度；

本实施例中，在确定每个字符的字向量之后，依据各组语句文本语料中第一语句文本内的每个字符的字向量和第二语句文本内的每个字符的字向量，确定各组语句文本语料的相似度，以一组语句文本语料为例进行说明，获取第一语句文本内的每个字符的字向量，并依据第一语句文本内的每个字符的字向量计算第一平均字向量，以及获取第二语句文本内的每个字符的字向量，并依据第二语句文本内的每个字符的字向量计算第二平均字向量，然后计算第一平均字向量与第二平均字向量的距离，并依据该距离，确定相似度，即如果该距离小于或等于预设距离，则相似度为1，如果该距离大于预设距离，则相似度为0。需要说明的是，上述预设距离可由本领域技术人员基于实际情况进行设置，本实施例对此不作具体限定。

具体地，依据各组语句文本语料中第一语句文本内的每个字符的字向量和第二语句文本内的每个字符的字向量，确定各组语句文本语料中第一语句文本的文本向量和第二语句文本的文本向量，即将各组语句文本语料中第一语句文本的平均字向量确定为第一语句文本的文本向量，第二语句文本的平均字向量确定为第二语句文本的文本向量，计算各组语句文本语料中第一语句文本的文本向量与第二语句文本的文本向量之间的距离，并依据该距离，确定各组语句文本语料的相似度。

步骤S1013，依据各组语句文本语料的相似度，对各组语句文本语料进行标注，以获取语句文本标注语料集。

本实施例中，在确定各组语句文本语料的相似度之后，依据各组语句文本语料的相似度，对各组语句文本语料进行标注，以获取语句文本标注语料集。例如，一组语句文本语料的相似度为1，且语句文本语料为(A2，B2)，则对该语句文本语料进行相似度标注之后，得到的语句文本标注语料为(A2，B2，1)。

本实施例中，本发明通过将语句文本拆分为单个字符，并确定单个字符的字向量，由两个语句文本的各字向量确定两个语句文本的相似度，执行相似度标注，提高两个语句文本的相似度的准确性，从而提高相似度的标注准确性。

进一步地，参照图4，基于上述第一或第二实施例，提出了本发明相似度预测模型训练方法的第三实施例，与前述实施例的区别在于，步骤S103之后，还包括：

步骤S104，当监测到相似度预测请求时，对相似度预测请求中的两个语句文本进行句法语义分析，以将两个语句文本转换为两个模式文本；

本实施例中，在需要预测两个语句文本的相似度时，如知识问答场景和电话客服场景等，用户输入一语句文本，设备获取该语句文本的对应问题的语句文本，并生成包含该语句文本和对应问题的语句文本的相似度预测请求，然后当监测到相似度预测请求时，对相似度预测请求中的两个语句文本进行句法语义分析，以将两个语句文本转换为两个模式文本。

步骤S105，将两个模式文本输入相似度预测模型，获取两个语句文本的相似度。

本实施例中，将两个模式文本输入相似度预测模型，获取两个语句文本的相似度，将该相似度预测模型的输出作为两个语句文本的相似度。进一步地，依据该相似度，对该两个模式文本进行相似度标注，得到模式文本标注语料组，并将该模式文本标注语料组存储至第二样本数据库中。

进一步地，以间隔预设时间统计该第二样本数据库中模式文本标注语料组的存储数量，并判断该存储数量是否大于或等于预设阈值，如果该存储数量大于或等于预设阈值，则依据该第一样本数据库和第二样本数据库，执行相似度预测模型更新操作。具体地，将该第一样本数据库中的各组模式文本标注语料与该第二样本数据库中的各组模式文本标注语料合并，形成模式文本标注语料集，然后初始化该相似度预测模型，并依据该模式文本标注语料集，训练经初始化后的相似度预测模型，直至初始化后的相似度预测模型收敛。可以在预测语句文本相似度的同时，对相似度预测模型进行更新，提升相似度预测模型的对相似地的预测效果。

本实施例中，本发明在需要预测语句文本的相似度时，对语句文本进行模式表示，得到模式文本，并将模式文件输入至模型，得到相似度，极大的提高了相似度的准确性。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有相似度预测模型训练程序，所述相似度预测模型训练程序被处理器执行时，执行以下步骤：

进一步地，所述相似度预测模型训练程序被处理器执行时，还执行以下步骤：

本发明计算机可读存储介质的具体实施例与上述相似度预测模型训练方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种相似度预测模型训练方法，其特征在于，所述相似度预测模型训练方法包括以下步骤：

依据所述模式文本标注语料集，训练相似度预测模型，直至所述相似度预测模型收敛；

所述对第一样本数据库中的各组语句文本语料进行句法语义分析，以将所述语句文本标注语料集转换为模式文本标注语料集的步骤包括：

对第一样本数据库中的各组语句文本语料进行句法语义分析，抽象出各组语句文本语料对应的语句表述模式，语句表述模式中包括必选部分，所述必选部分中包括一个或多个任选部分，所述任选部分通过同义词扩充得到，或通过词性或本体概念抽象出同类词得到，将各组语句文本语料转换为对应的语句表述模式，形成模式文本语料集；

2.如权利要求1所述的相似度预测模型训练方法，其特征在于，所述对第一样本数据库中的各组语句文本语料进行相似度标注，以获取语句文本标注语料集的步骤包括：

3.如权利要求2所述的相似度预测模型训练方法，其特征在于，所述依据各组语句文本语料中第一语句文本内的每个字符的字向量和第二语句文本内的每个字符的字向量，确定各组语句文本语料的相似度的步骤包括：

4.如权利要求1-3中任一项所述的相似度预测模型训练方法，其特征在于，依据所述模式文本标注语料集，训练相似度预测模型，直至所述相似度预测模型收敛的步骤之后，还包括：

5.如权利要求4所述的相似度预测模型训练方法，其特征在于，将所述两个模式文本输入所述相似度预测模型，获取所述语句文本的相似度的步骤之后，还包括：

6.如权利要求5所述的相似度预测模型训练方法，其特征在于，将所述模式文本标注语料组存储至第二样本数据库中的步骤之后，还包括：

7.如权利要求6所述的相似度预测模型训练方法，其特征在于，依据所述第一样本数据库和所述第二样本数据库，执行相似度预测模型更新操作的步骤包括：

8.一种相似度预测模型训练设备，其特征在于，所述相似度预测模型训练设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的相似度预测模型训练程序，所述相似度预测模型训练程序被所述处理器执行时实现如权利要求1至7中任一项所述的相似度预测模型训练方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有相似度预测模型训练程序，所述相似度预测模型训练程序被处理器执行时实现如权利要求1至7中任一项所述的相似度预测模型训练方法的步骤。