CN110781277A

CN110781277A - 文本识别模型相似度训练方法、系统、识别方法及终端

Info

Publication number: CN110781277A
Application number: CN201910901703.4A
Authority: CN
Inventors: 詹威; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 王静
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-02-11

Abstract

本发明适用于文本识别技术领域，提供了一种文本识别模型相似度训练方法、系统、识别方法及终端，该方法包括：获取样本数据，分别对样本数据内的样本语句进行相似度计算，以获取多组相似语句组合；判断相似语句组合内的相似语句之间是否满足语义条件，根据判断结果对相似语句进行样本标记；根据样本标记的标记结果以构建训练数据集，根据训练数据集对文本识别模型进行模型训练。本发明通过对相似语句组合内的相似语句进行是否满足语义条件的判断的设计，以对应进行正样本标记或负样本标记，以达到将训练数据集中组词相同但语义不同的相似语句进行负标记的效果，进而防止了后续文本识别模型由于该组词相同但语义不同的相似语句所导致的答非所问。

Description

文本识别模型相似度训练方法、系统、识别方法及终端

技术领域

本发明属于文本识别技术领域，尤其涉及一种文本识别模型相似度训练方法、系统、识别方法及终端。

背景技术

随着人工智能的发展和普及，智能客服机器人在各个行业的应用也越来越多了，对于所有领域的智能客服机器人来说，常见问答库似乎是不可或缺的，常见问答库用于针对访客提出的问题进行回答，因此，如何准确有效的检索访客真正需要检索的问答对，以防止出现匹配错误出现答非所问现象已经成为了智能问答行业必须解决的底线问题。

现有的问答库使用过程中，均通过基于文本识别模型的方式进行访客问题的回答，但现有的文本识别模型使用过程中，均是通过采用无监督的方式进行文本相似度的训练，使得当两个语句中组成词相同，但语义不相同时，文本识别模型会出现检索错误，导致会误认为访客的问题和知识库里的问答对匹配成功，而返回了错误的答案，使得答非所问概率较高。

发明内容

本发明实施例的目的在于提供一种文本识别模型相似度训练方法、系统、识别方法及终端，旨在解决现有的文本识别模型训练方法中，由于采用无监督训练方式所导致的答非所问概率高的问题。

本发明实施例是这样实现的，一种文本识别模型相似度训练方法，所述方法包括：

获取样本数据，并分别对所述样本数据内的样本语句进行相似度计算，以获取多组相似语句组合；

判断所述相似语句组合内的相似语句之间是否满足语义条件，并根据判断结果对所述相似语句进行样本标记；

根据所述样本标记的标记结果以构建训练数据集，并根据所述训练数据集对文本识别模型进行模型训练。

更进一步的，所述分别对所述样本数据内的样本语句进行相似度计算的步骤包括：

分别对所述样本语句进行分词，以得到词语串，并将所述词语串转化为标识串，所述标识串为数字串或字母串；

将所述标识串进行向量映射，以得到词向量，并对所述词向量进行特征变换和特征提取，以得到特征向量；

根据所述特征向量，分别在所述样本数据中两两所述样本语句之间进行余弦计算，以得到余弦相似度。

更进一步的，所述分别对所述样本数据内的样本语句进行相似度计算的步骤还包括：

当判断到所述余弦相似度大于相似度阈值时，将所述余弦相似度对应的两个所述样本语句进行组合，以得到所述相似语句组合。

更进一步的，所述判断所述相似语句组合内的相似语句之间是否满足语义条件的步骤包括：

分别对所述相似语句进行特征提取，以得到语义特征；

判断所述语义特征之间是否属于相同语义类别；

若是，则判定所述相似语句之间满足所述语义条件；

若否，则判定所述相似语句之间未满足所述语义条件。

更进一步的，所述根据判断结果对所述相似语句进行样本标记的步骤包括：

当判断到所述相似语句之间满足所述语义条件时，对所述相似语句进行正样本标记；

当判断到所述相似语句之间未满足所述语义条件时，对所述相似语句进行样本负标记。

分别对所述样本语句进行分词，以得到词语串；

在所述样本数据中的所述词语串之间进行词语匹配，以得到多个重复词频；

当判断到所述重复词频大于词频阈值时，将对应的两个所述样本语句进行组合，以得到所述相似语句组合。

更进一步的，所述根据所述样本标记的标记结果以构建训练数据集的步骤之前，所述方法还包括：

将所述样本数据分别输入intention模型和ner模型，并获取相似度结果；

将所述相似度结果与所述标记结果进行融合。

本发明实施例的另一目的在于提供一种文本识别模型相似度训练系统，所述系统包括：

相似度计算模块，用于获取样本数据，并分别对所述样本数据内的样本语句进行相似度计算，以获取多组相似语句组合；

样本标记模块，用于判断所述相似语句组合内的相似语句之间是否满足语义条件，并根据判断结果对所述相似语句进行样本标记；

模型训练模块，用于根据所述样本标记的标记结果以构建训练数据集，并根据所述训练数据集对文本识别模型进行模型训练。

本发明实施例的另一目的在于提供一种文本识别模型相似度识别方法，所述方法包括：

根据上述的文本识别模型相似度训练方法对文本识别模型进行训练；

获取待识别语句，并控制所述文本识别模型将所述待识别语句与本地预存储的常见问答库进行相似度匹配，以获取目标疑问句和与所述目标疑问句对应的目标回复句；

根据所述目标回复句进行疑问回复。

本发明实施例的另一目的在于提供一种终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述终端执行上述的文本识别模型相似度训练方法。

本发明实施例，通过对所述相似语句组合内的相似语句进行是否满足语义条件的判断的设计，以对应进行正样本标记或负样本标记，以达到将训练数据集中组词相同但语义不同的相似语句进行负标记的效果，进而防止了后续文本识别模型由于该组词相同但语义不同的相似语句所导致的答非所问，降低了答非所问的概率。

附图说明

图1是本发明第一实施例提供的文本识别模型相似度训练方法的流程图；

图2是本发明第二实施例提供的文本识别模型相似度训练方法的流程图；

图3是本发明第三实施例提供的文本识别模型相似度训练方法的流程图；

图4是本发明第四实施例提供的文本识别模型相似度训练系统的结构示意图；

图5是本发明第五实施例提供的文本识别模型相似度识别方法的流程图；

图6是本发明第六实施例提供的终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

现有的文本识别模型使用过程中，当两个语句中组成词相同，但语义不相同时，文本识别模型会出现检索错误，使得出现答非所问现象，例如当访客的问题是“吸脂瘦腿一次需要做多久？”，则文本识别模型所识别检索后的回答是“用我院专用仪器吸脂大概只需要半个小时即可”，但当访客的问题是“吸脂瘦腿多久需要做一次？”时，现有的文本识别模型的识别检索结果任然相同，此时会导致答非所问现象发生，因此，本发明通过采用将模型的训练数据集中组词相同但语义不同的相似语句进行负标记的方式，以降低答非所问的概率。

实施例一

请参阅图1，是本发明第一实施例提供的文本识别模型相似度训练方法的流程图，包括步骤：

步骤S10，获取样本数据，并分别对所述样本数据内的样本语句进行相似度计算，以获取多组相似语句组合；

其中，该样本数据中存储有多个不同的样本语句，该样本语句为疑问句，该步骤对所述样本数据中的样本语句进行两两相似度计算，即分别计算所述样本数据中两两样本语句之间的相似度，并将满足相似度条件的两个样本语句对应进行存储，以获取所述相似语句组合；

具体的，该步骤中可以采用词向量法或词频法的方式进行两两疑问句之间的相似度计算，该词向量法用于将该样本语句转换为向量，并基于向量之间的矢量关系以判定样本语句之间是否为相似句；该词频法通过基于各个样本语句之间的重复词，以对应判定样本语句之间是否为相似句；该步骤中，通过进行相似度计算，以获取相似语句组合的设计，有效的方便了后续针对相似语句之间的样本标记；

步骤S20，判断所述相似语句组合内的相似语句之间是否满足语义条件，并根据判断结果对所述相似语句进行样本标记；

其中，该语义条件用于分别判断每组所述相似语句组合内的相似语句表达的是否是相同语义，例如当所述相似语句组合包括语句A和语句B时：

语句A：你们那脱毛需要多少次？

语句B：你们那脱毛需要多少钱？

则该步骤，用于判断语句A和语句B的表达含义是否相同，由于语句A是问次数，语句B是问金额，此时，判定语句A与语句B未满足语义条件，因此，分别对语句A和语句B进行负标记；

例如当所述相似语句组合包括语句C和语句D时：

语句C：为什么APP的安全没有验证成功？

语句D：APP的安全验证为什么没有成功？

由于语句C和语句D所表达的都是询问APP的验证为何没成功，因此，判定语句C与语句D满足语义条件，因此，分别对语句C和语句D进行负标记；

步骤S30，根据所述样本标记的标记结果以构建训练数据集，并根据所述训练数据集对文本识别模型进行模型训练；

其中，通过基于所述样本标记的标记结果，能有效的在所述训练数据集中构建有监督的训练集，使得能有效的对组词相似但语义不同的相似句进行权值惩罚，提高了文本识别模型的识别精准度；

本实施例，通过对所述相似语句组合内的相似语句进行是否满足语义条件的判断的设计，以对应进行正样本标记或负样本标记，以达到将训练数据集中组词相同但语义不同的相似语句进行负标记的效果，进而防止了后续文本识别模型由于该组词相同但语义不同的相似语句所导致的答非所问，降低了答非所问的概率。

实施例二

请参阅图2，是本发明第二实施例提供的文本识别模型相似度训练方法的流程图，包括步骤：

步骤S11，获取样本数据，并分别对所述样本语句进行分词，以得到词语串，并将所述词语串转化为标识串；

其中，所述标识串为数字串或字母串，具体的，该步骤中，通过将所述词语串与本地预存储的标识表进行匹配，以保障所述词语串与所述标识串之间转换的准确性，所述标识表中存储有多组不同词语与对应ID之间的对应关系；

优选的，该步骤中，可以通过依序判断所述样本语句中相邻文字之间是否满足关联关系的方式，以对应进行分词，即通过依序判断所述样本语句中相邻文字之间所组成的相邻词是否与本地预存储的关联词表匹配，当匹配成功时，将该相邻词进行分词，当匹配未成功时，针对相邻文字不进行组词；

进一步地，该步骤中，还可以通过预先设置的分词阈值对所述样本语句进行分词，例如当该分词阈值为2时，则依序将所述样本语句中的文字采用二进制选取框的方式进行分词操作，以得到所述词语串；

步骤S21，将所述标识串进行向量映射，以得到词向量，并对所述词向量进行特征变换和特征提取，以得到特征向量；

其中，通过采用word2vec模型得到词向量，并将句子的所有词向量求和取平均值即得到句子的向量，优选的，即通过采用CNN卷积神经网络、RNN循环神经网络等变换方式以进行特征变换和特征提取，得到每个句子的特征向量；

步骤S31，根据所述特征向量，分别在所述样本数据中两两所述样本语句之间进行余弦计算，以得到余弦相似度；

其中，通过对两个input句子的特征向量计算cos值，以得到其余弦相似度；

步骤S41，当判断到所述余弦相似度大于相似度阈值时，将所述余弦相似度对应的两个所述样本语句进行组合，以得到多个相似语句组合；

步骤S51，分别对所述相似语句进行特征提取，以得到语义特征；

其中，可以通过采用特征词的方式进行所述语音特征的提取，即通过将所述相似语句依序与本地预存储的特征词表进行匹配，以得到所述语音特征，所述特征词表中的特征词可以根据用户需求自主进行设置，例如该特征词可以设置为“次数”、“时间”等，优选的，该语义特征还可以为多个特征词的组合；

例如当所述相似语句组合包括语句A和语句B时：

语句A：你们那脱毛需要多少次？

语句B：你们那脱毛需要多少钱？

则针对语句A提取到的语义特征为“脱毛-次”，针对语句B提取到的语音特征为“脱毛-钱”；

步骤S61，判断所述语义特征之间是否属于相同语义类别；

其中，通过将“脱毛-次”与“脱毛-钱”与本地预存储的语义类别表进行匹配，以判定“脱毛-次”与“脱毛-钱”是否属于相同语义类别，优选的，该步骤中，还可以通过将所述语义特征的提取结果发送至用户，以使根据用户需求自主进行所述语义特征之间的类别判断；

当步骤S61判断到所述特征语音之间属于相同语义类别时，执行步骤S71；

步骤S71，判定对应所述相似语句之间满足语义条件，对所述相似语句进行正样本标记；

当步骤S61判断到所述特征语音之间不属于相同语义类别时，执行步骤S81；

步骤S81，判定所述相似语句之间未满足所述语义条件时，对所述相似语句进行样本负标记；

步骤S91，根据样本标记的标记结果以构建训练数据集，并根据所述训练数据集对文本识别模型进行模型训练；

实施例三

请参阅图3，是本发明第三实施例提供的文本识别模型相似度训练方法的流程图，包括步骤：

步骤S12，获取样本数据，并分别对所述样本语句进行分词，以得到词语串；

步骤S22，在所述样本数据中的所述词语串之间进行词语匹配，以得到多个重复词频；

步骤S32，当判断到所述重复词频大于词频阈值时，将对应的两个所述样本语句进行组合，以得到多个相似语句组合；

步骤S42，分别对所述相似语句进行特征提取，以得到语义特征；

步骤S52，判断所述语义特征之间是否属于相同语义类别；

当步骤S52判断到所述特征语音之间属于相同语义类别时，执行步骤S62；

步骤S62，判定对应所述相似语句之间满足语义条件，对所述相似语句进行正样本标记；

当步骤S52判断到所述特征语音之间不属于相同语义类别时，执行步骤S72；

步骤S72，判定所述相似语句之间未满足所述语义条件时，对所述相似语句进行样本负标记；

步骤S82，将所述样本数据分别输入intention模型和ner模型，并获取相似度结果，将所述相似度结果与所述标记结果进行融合；

其中，通过将句子分别输入intention和ner模块即可得到句子的意图和关键实体，具体的，当第一组相似语句组合包括语句Q1和语句Q2，第二组相似语句组合包括P1和P2时：

Q1:你们那丰胸用的是什么材料，对人体有害吗？

Q2:你们那丰臀用的是什么材料，对人体有害吗？

P1:你们那脱毛需要多少次？

P2：你们那脱毛需要多少钱？

可见Q1和Q2只有一个字不一样，语义就完全不一样，因此需要融合ner模型(Q1的ner项目为丰胸，Q2的ner项目为丰臀)；同样，P1和P2也是一字之差就导致语义完全不一样，因此需要融合intention模型(P1的Intention为咨询次数，P2的Intention为咨询价格)，可以采用项目替换、同义词替换等方式构造出更多此种类型句子作为反例，进行数据增强；

步骤S92，根据样本标记的标记结果以构建训练数据集，并根据所述训练数据集对文本识别模型进行模型训练；

实施例四

请参阅图4，是本发明第四实施例提供的文本识别模型相似度训练系统100的结构示意图，包括相似度计算模块10、样本标记模块11和模型训练模块12，其中：

相似度计算模块10，用于获取样本数据，并分别对所述样本数据内的样本语句进行相似度计算，以获取多组相似语句组合。

其中，所述相似度计算模块10还用于：分别对所述样本语句进行分词，以得到词语串，并将所述词语串转化为标识串，所述标识串为数字串或字母串；将所述标识串进行向量映射，以得到词向量，并对所述词向量进行特征变换和特征提取，以得到特征向量；根据所述特征向量，分别在所述样本数据中两两所述样本语句之间进行余弦计算，以得到余弦相似度。

优选的，所述相似度计算模块10还用于：当判断到所述余弦相似度大于相似度阈值时，将所述余弦相似度对应的两个所述样本语句进行组合，以得到所述相似语句组合。

进一步地，所述相似度计算模块10还用于：分别对所述样本语句进行分词，以得到词语串；在所述样本数据中的所述词语串之间进行词语匹配，以得到多个重复词频；当判断到所述重复词频大于词频阈值时，将对应的两个所述样本语句进行组合，以得到所述相似语句组合。

样本标记模块11，用于判断所述相似语句组合内的相似语句之间是否满足语义条件，并根据判断结果对所述相似语句进行样本标记。

其中，所述样本标记模块11还用于：分别对所述相似语句进行特征提取，以得到语义特征；判断所述语义特征之间是否属于相同语义类别；若是，则判定所述相似语句之间满足所述语义条件；若否，则判定所述相似语句之间未满足所述语义条件。

优选的，所述样本标记模块11还用于：当判断到所述相似语句之间满足所述语义条件时，对所述相似语句进行正样本标记；当判断到所述相似语句之间未满足所述语义条件时，对所述相似语句进行样本负标记。

模型训练模块12，用于根据所述样本标记的标记结果以构建训练数据集，并根据所述训练数据集对文本识别模型进行模型训练。

此外，所述模型训练模块12还用于：将所述样本数据分别输入intention模型和ner模型，并获取相似度结果；将所述相似度结果与所述标记结果进行融合。

实施例五

请参阅图5，是本发明第五实施例提供的文本识别模型相似度识别方法，所述方法包括以下步骤：

步骤S13，根据文本识别模型相似度训练方法对文本识别模型进行训练；

步骤S23，获取待识别语句，并控制所述文本识别模型将所述待识别语句与本地预存储的常见问答库进行相似度匹配，以获取目标疑问句和与所述目标疑问句对应的目标回复句；

步骤S33，根据所述目标回复句进行疑问回复；

本实施例，通过基于有监督的模型训练，以达到将训练数据集中组词相同但语义不同的相似语句进行负标记的效果，进而防止了后续文本识别模型由于该组词相同但语义不同的相似语句所导致的答非所问，降低了答非所问的概率。

实施例六

请参阅图6，是本发明第六实施例提供的终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述终端101执行上述的文本识别模型相似度训练方法。

本实施例还提供了一种存储介质，其上存储有上述终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

根据所述样本标记的标记结果以构建训练数据集，并根据所述训练数据集对文本识别模型进行模型训练。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图4中示出的组成结构并不构成对本发明的文本识别模型相似度训练系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-3中的文本识别模型相似度训练方法亦采用图4中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标文本识别模型相似度训练系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标文本识别模型相似度训练系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本识别模型相似度训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的文本识别模型相似度训练方法，其特征在于，所述分别对所述样本数据内的样本语句进行相似度计算的步骤包括：

3.如权利要求2所述的文本识别模型相似度训练方法，其特征在于，所述分别对所述样本数据内的样本语句进行相似度计算的步骤还包括：

4.如权利要求1所述的文本识别模型相似度训练方法，其特征在于，所述判断所述相似语句组合内的相似语句之间是否满足语义条件的步骤包括：

分别对所述相似语句进行特征提取，以得到语义特征；

判断所述语义特征之间是否属于相同语义类别；

若是，则判定所述相似语句之间满足所述语义条件；

若否，则判定所述相似语句之间未满足所述语义条件。

5.如权利要求1所述的文本识别模型相似度训练方法，其特征在于，所述根据判断结果对所述相似语句进行样本标记的步骤包括：

6.如权利要求1所述的文本识别模型相似度训练方法，其特征在于，所述分别对所述样本数据内的样本语句进行相似度计算的步骤包括：

分别对所述样本语句进行分词，以得到词语串；

7.如权利要求1所述的文本识别模型相似度训练方法，其特征在于，所述根据所述样本标记的标记结果以构建训练数据集的步骤之前，所述方法还包括：

将所述相似度结果与所述标记结果进行融合。

8.一种文本识别模型相似度训练系统，其特征在于，所述系统包括：

9.一种文本识别模型相似度识别方法，其特征在于，所述方法包括：

根据权利要求1至7任一项所述的文本识别模型相似度训练方法对文本识别模型进行训练；

根据所述目标回复句进行疑问回复。

10.一种终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述终端执行根据权利要求1至7任一项所述的文本识别模型相似度训练方法。