CN110825852B

CN110825852B - 面向长文本的语义匹配方法及系统

Info

Publication number: CN110825852B
Application number: CN201911082442.4A
Authority: CN
Inventors: 杨兰; 展华益; 孙锐; 周兴发; 饶璐; 谭斌
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2022-06-14
Anticipated expiration: 2039-11-07
Also published as: CN110825852A

Abstract

本发明涉及自然语言理解技术领域，公开了一种面向长文本的语义匹配方法及系统，用以解决现有技术中的文本语义理解方法的效果不理想的问题。本发明的方法包括：对输入文本进行数据处理，包括去掉特殊字符、分词和分字；将经过数据处理后的输入文本映射成为数值序列；将输入文本的数值序列输入至特征提取模型中，获取输入文本的特征向量；基于特征向量进行聚类；基于已聚类的数据库，从数据库中挑选出与输入文本最相似的TOP‑N类候选数据；将输入文本的特征向量与所述候选数据的特征向量进行相似性度量，从所述候选数据中选出与输入文本最相似的TOP‑K个数据。本发明适用于长文本的语义匹配。

Description

面向长文本的语义匹配方法及系统

技术领域

本发明涉及自然语言理解技术领域，特别涉及面向长文本的语义匹配方法及系统。

背景技术

作为人工智能领域中重要方向之一的自然语言理解技术，一直是相关领域研究人员研究的热点。特别是近年来，随着移动互联网技术的迅速发展，信息化程度日益提高，人们越发渴望能让机器理解自然语言，从而实现减少人工投入、海量数据共享等目标。

相关技术中，主流方法是基于循环神经网络的文本语义理解方法和基于卷积神经网络的文本语义理解方法。但是，通常的循环神经网络和卷积神经网络都难以优化，具体而言，如果不增加深度，文本语义理解效果较差，而如果增加深度，训练和优化的错误率就会增加，难以得到准确的训练模型，从而语义理解错误率也较高。因此，相关技术中的文本语义理解方法的效果并不理想。

发明内容

本发明要解决的技术问题是：提供一种面向长文本的语义匹配方法及系统，用以解决现有技术中的文本语义理解方法的效果不理想的问题。

为解决上述问题，本发明采用的技术方案是：面向长文本的语义匹配方法，包括：

步骤s1：对输入文本进行数据处理，包括去掉特殊字符、分词和分字；

步骤s2：将经过数据处理后的输入文本映射成为数值序列；

步骤s3：将输入文本的数值序列输入至特征提取模型中，获取输入文本的特征向量；

步骤s4：将数据库中的每条数据都经过步骤s1，步骤s2，步骤s3获取其各自的特征向量，并基于特征向量进行聚类；

步骤s5：基于已聚类的数据库，从数据库中挑选出与输入文本最相似的TOP-N类候选数据；

步骤s6：将输入文本的特征向量与所述候选数据的特征向量进行相似性度量，从所述候选数据中选出与输入文本最相似的TOP-K个数据。

进一步的，步骤s1具体可包括：去掉输入文本中的无效字符，接着将输入文本转换为以字为单位的文本序列，和以词单位的文本序列。

进一步的，步骤s2可包括：

步骤s21：基于数据库中的数据进行词向量训练，并产生字典，得到词向量模型；

步骤s22：基于词向量模型，将分词后的文本映射为以词为单位的数值序列；

步骤s23：基于字典，将分字后的文本映射为以字为单位的数值序列。

进一步的，所述特征提取模型可包含多个子特征提取模块，特征提取的输出结果是多个子特征提取模型输出结果的融合。

进一步的，步骤s5可基于已聚类的数据库，搜索输入文本的特征向量周围邻近群的数据，将这部分数据作为输入文本的相似候选集。

进一步的，步骤s6可将输入文本的特征向量与候选数据集的特征向量一一进行余弦距离计算，并对结果进行排序，挑选出输入文本最相似的TOP-K个相似数据集。

面向长文本的语义匹配系统，包括：

文本处理模块，用于对输入文本进行数据处理，包括去掉特殊字符、分词和分字；

数值序列生成模块，用于将经过数据处理后的输入文本映射成为数值序列；

特征向量提取模块，用于将输入文本的数值序列输入至特征提取模型中，获取输入文本的特征向量；

数据库处理模块，用于将数据库中的每条数据都经过文本处理模块、数值序列生成模块、特征向量提取模块，获取其各自的特征向量，并基于特征向量进行聚类；

候选集生成模块，用于基于已聚类的数据库，从数据库中挑选出与输入文本最相似的TOP-N类候选数据；

相似数据生成模块，用于将输入文本的特征向量与所述候选数据的特征向量进行相似性度量，从所述候选数据中选出与输入文本最相似的TOP-K个数据。

进一步的，文本处理模块对输入文本进行数据处理的步骤可包括：去掉输入文本中的无效字符，接着将输入文本转换为以字为单位的文本序列，和以词单位的文本序列。

进一步的，特征向量提取模块中可包含多个子特征提取模块，特征向量提取模块进行特征提取的输出结果是多个子特征提取模型输出结果的融合。

进一步的，相似数据生成模块可将输入文本的特征向量与候选数据集的特征向量一一进行余弦距离计算，并对结果进行排序，挑选出输入文本最相似的TOP-K个相似数据集。

本发明的有益效果：本发明利用特征提取模型抽取文本的深层语义特征，然后计算文本的深层语义特征之间的距离，从而选出与输入数据最相似的TOP-K个数据。其中，特征提取模型包含多个子模块，每个子模块均采用的神经网络结构，特征提取的结果就是多个子模块结果的融合，采用聚类的方法缩小相似候选集，可以有效提高搜索速度。

本发明允许用户使用自然语言进行查询，并理解查询内容的深层语义特点，从数据库中检索出与查询数据最相似的TOP-K个数据，然后返回给用户，且搜索速度快，优化了用户体验，可有效解决现有技术中的文本语义理解方法的效果不理想的问题。

附图说明

图1为面向长文本的语义匹配方法流程图；

图2为子特征提取模型1的模型架构图；

图3为子特征提取模型2的模型架构图。

具体实施方式

为了解决现有技术中的文本语义理解方法的效果不理想的问题，本发明提供了一种面向长文本的语义匹配方法及系统，允许用户使用自然语言进行查询，并理解查询内容的深层语义特点，从数据库中检索出与查询数据最相似的TOP-K个数据，然后返回给用户。

下面结合附图1-3对本发明进行详细描述。

实施例一

实施例一提供了一种面向长文本的语义匹配方法，主要应用于长文本的语义匹配领域，寻找与目标文本相似的TOPK个文本数据，如图1所示具体实施步骤如下：

步骤s1：对输入文本进行数据处理，包括去掉特殊字符，分词，分字，文本预处理等操作。

步骤s1实施数据处理过程中，可去掉输入文本中的无效字符，接着将输入文本转换为以字为单位的文本序列，和以词单位的文本序列。

步骤s2：将经过数据处理后的输入文本映射成为数值序列。具体可包括：

步骤s21：基于数据库中的数据进行词向量训练，并产生字典，得到词向量模型，不同的子特征提取模块有不同的词向量模型；

步骤s3：将输入文本的数值序列输入至特征提取模型中，获取输入文本的特征向量。

步骤s3中，所述特征提取模型可包含多个子特征提取模型，其中子特征提取模块1，可表示为m1，其模型架构见图2，子特征提取模块2，可表示为m2，其模型架构见图3。在训练阶段，子特征模块作为分类模型进行训练；测试阶段，子特征提取模型用于预测输入文本的特征向量，预测过程如下：

步骤s31：通过m1获取输入文本的特征向量f1；

步骤s32：通过m2获取输入文本的文本特征向量f2；

步骤s33：f＝f1+f2是经过模型融合后，得到的输入文本的特征向量。

进一步的，所述步骤s31的步骤包括：

步骤s311：子特征提取模块1(m1)的Embedding层采用的是字词混合的Embedding方式，输入以字为单位的文本序列，经过一个字Embedding层后得到字向量序列；然后将文本分词，通过一个预训练好的词向量模型来提取对应的词向量序列，为了得到跟字向量序列对齐的词向量序列，我们可以将每个词的词向量重复“词的字数”那么多次，得到对齐的词向量序列后，我们将词向量序列经过一个矩阵变换到跟字向量一样的维度，并将两者相加；

步骤s312：m1的Embedding层后接SpatialDropout1D层，SpatialDropout1D层后接GlobalAveragePooling1D层，标记为层L131，以及一层专门用于获取词向量在每一维上的max值的层L132，并顺序级联3个带有残差结构的卷积模块，将卷积模块的输出经过最大池化后，与层L131，层L132的输出结果进行拼接；

步骤s313：m1的损失函数采用的是Am-Softmax损失函数；

步骤s314：将训练数据中的相似数据划分为一个group，并打上类别标签，保证相似的数据为一个label，不相似的数据为不同的group，有不同的类别标签，采用Am-Softmax作为损失函数，保证一个group内的数据(相似数据)的特征表示尽量靠近，不同group的数据(非相似数据)的特征表示尽量远离；

步骤s315：基于训练数据，m1用作分类模型进行训练；

步骤s316：将输入文本数值序列化后，输入到m1网络中，提取输入文本的特征向量f1。

进一步的，所述步骤s32的步骤包括：

步骤s321：利用TF-IDF抓取数据集中的停用词，非关键词，制成停用词表，停用词表里的词参与词向量训练，但是，最终停用词表里的词的向量被固定为0，表示这类词不参与提取特征模型的训练；

步骤s322：对模型的输入文本内的词按照一定比列进行随机掩码，然后再输入到m2中；

步骤s323：m2的Embedding层采用的是词Embedding层，且m2的词向量模型与m1的词向量模型是不一样的，增加子模型之间的多样性，有助于后面模型的融合；

步骤s324：m2的Embedding层后接SpatialDropout1D层，SpatialDropout1D层后接GlobalAveragePooling1D层，标记为层L231，以及一层专门用于获取词向量在每一维上的max值的层L232，和BiLSTM层，将BiLSTM层的输出结果与层L231，层L232的输出结果进行拼接；

步骤s325：m2的损失函数采用的是Am-Softmax损失函数；

步骤s326：将训练数据中的相似数据划分为一个group，并打上类别标签，保证相似的数据为一个label，不相似的数据为不同的group，有不同的类别标签，采用Am-Softmax作为损失函数，保证一个group内的数据(相似数据)的特征表示尽量靠近，不同group的数据(非相似数据)的特征表示尽量远离；

步骤s327：基于训练数据，m2用作分类模型进行训练；

步骤s328：将输入文本数值序列化后，输入到m2网络中，提取输入文本的特征向量f2。

步骤s4：将数据库中的每条数据都经过步骤s1，步骤s2，步骤s3获取其各自的特征向量，并基于特征向量进行聚类。

步骤s5：基于已聚类的数据库，从数据库中挑选出与输入文本最相似的TOP-N类候选数据。

步骤s5在实施过程中，可基于已聚类的数据库，搜索输入文本的特征向量周围邻近群的数据，将这部分数据作为输入文本的相似候选集。

步骤s6：将输入文本的特征向量与所述候选数据的特征向量进行相似性度量，从所述候选数据中选出与输入文本最相似的TOP-K个数据；

步骤s61在实施过程中，可将输入文本的特征向量与候选数据集的特征向量一一进行余弦距离计算，并对结果进行排序，挑选出输入文本最相似的TOP-K个相似数据集。

实施例二

实施例二提供了一种面向长文本的语义匹配系统，包括：

文本处理模块，用于对输入文本进行数据处理，包括去掉特殊字符，分词，分字，文本预处理等操作；

数值序列生成模块，用于将经过数据处理后的输入文本映射成为以字为单位的数值序列和以词为单位的数值序列；

特征向量提取模块，用于将输入文本的数值序列输入至特征提取模型中，获取输入文本的特征向量，特征提取模块包含多个子特征提取模型，输入文本的特征向量是多个子特征模型输出结果的融合；

相似数据生成模块，用于将输入文本的特征向量与所述候选数据的特征向量进行相似性度量，从所述候选数据中选出与输入文本最相似的TOP-K个数据；

实施例二实施语义匹配流程与实施例一一致，具体可参考实施例一和附图1-3，这里不再赘述。

以上所述仅为本发明的实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.面向长文本的语义匹配方法，其特征在于，包括：

步骤s2：将经过数据处理后的输入文本映射成为数值序列；

步骤s3：将输入文本的数值序列输入至特征提取模型中，获取输入文本的特征向量；所述特征提取模型包括：子特征提取模块1，表示为m1；子特征提取模块2，表示为m2；获取输入文本的特征向量具体步骤为：

步骤s31：通过m1获取输入文本的特征向量f1；具体包括：

步骤s311：m1的Embedding层采用字词混合的Embedding方式，输入以字为单位的文本序列，经过一个字Embedding层后得到字向量序列；然后将文本分词，通过一个预训练好的词向量模型来提取对应的词向量序列，再者，将每个词的词向量重复，以使词向量序列与字向量序列对齐，得到对齐的词向量序列后，将词向量序列经过一个矩阵变换到跟字向量一样的维度，并将两者相加；

步骤s313：m1的损失函数采用的是Am-Softmax损失函数；

步骤s314：将训练数据中的相似数据划分为一个组，打上类别标签，并采用Am-Softmax作为损失函数；

步骤s315：基于训练数据，m1用作分类模型进行训练；

步骤s316：将输入文本数值序列化后，输入到m1网络中，提取输入文本的特征向量f1；

步骤s32：通过m2获取输入文本的文本特征向量f2；具体包括：

步骤s323：m2的Embedding层采用词Embedding层，且m2的词向量模型与m1的词向量模型不一样；

步骤s325：m2的损失函数采用的是Am-Softmax损失函数；

步骤s326：将训练数据中的相似数据划分为一个组，打上类别标签，并采用Am-Softmax作为损失函数；

步骤s327：基于训练数据，m2用作分类模型进行训练；

步骤s328：将输入文本数值序列化后，输入到m2网络中，提取输入文本的特征向量f2；

步骤s33：将f1与f2进行融合以得到输入文本的特征向量f，融合方式为：f=f1+f2；

2.如权利要求1所述的面向长文本的语义匹配方法，其特征在于，步骤s1具体包括：去掉输入文本中的无效字符，接着将输入文本转换为以字为单位的文本序列，和以词单位的文本序列。

3.如权利要求1所述的面向长文本的语义匹配方法，其特征在于，步骤s2包括：

4.如权利要求1所述的面向长文本的语义匹配方法，其特征在于，步骤s5基于已聚类的数据库，搜索输入文本的特征向量周围邻近群的数据，将这部分数据作为输入文本的相似候选集。

5.如权利要求1所述的面向长文本的语义匹配方法，其特征在于，步骤s6将输入文本的特征向量与候选数据集的特征向量一一进行余弦距离计算，并对结果进行排序，挑选出输入文本最相似的TOP-K个相似数据集。

6.面向长文本的语义匹配系统，其特征在于，包括：

特征向量提取模块，用于将输入文本的数值序列输入至特征提取模型中，获取输入文本的特征向量，所述特征提取模型包括：子特征提取模块1，表示为m1；子特征提取模块2，表示为m2；获取输入文本的特征向量具体步骤为：

通过m1获取输入文本的特征向量f1；具体包括：

m1的Embedding层采用字词混合的Embedding方式，输入以字为单位的文本序列，经过一个字Embedding层后得到字向量序列；然后将文本分词，通过一个预训练好的词向量模型来提取对应的词向量序列，再者，将每个词的词向量重复，以使词向量序列与字向量序列对齐，得到对齐的词向量序列后，将词向量序列经过一个矩阵变换到跟字向量一样的维度，并将两者相加；

m1的Embedding层后接SpatialDropout1D层，SpatialDropout1D层后接GlobalAveragePooling1D层，标记为层L131，以及一层专门用于获取词向量在每一维上的max值的层L132，并顺序级联3个带有残差结构的卷积模块，将卷积模块的输出经过最大池化后，与层L131，层L132的输出结果进行拼接；

m1的损失函数采用的是Am-Softmax损失函数；

将训练数据中的相似数据划分为一个组，打上类别标签，并采用Am-Softmax作为损失函数；

基于训练数据，m1用作分类模型进行训练；

将输入文本数值序列化后，输入到m1网络中，提取输入文本的特征向量f1；

通过m2获取输入文本的文本特征向量f2；具体包括：

利用TF-IDF抓取数据集中的停用词，非关键词，制成停用词表，停用词表里的词参与词向量训练，但是，最终停用词表里的词的向量被固定为0，表示这类词不参与提取特征模型的训练；

对模型的输入文本内的词按照一定比列进行随机掩码，然后再输入到m2中；

m2的Embedding层采用词Embedding层，且m2的词向量模型与m1的词向量模型不一样；

m2的Embedding层后接SpatialDropout1D层，SpatialDropout1D层后接GlobalAveragePooling1D层，标记为层L231，以及一层专门用于获取词向量在每一维上的max值的层L232，和BiLSTM层，将BiLSTM层的输出结果与层L231，层L232的输出结果进行拼接；

m2的损失函数采用的是Am-Softmax损失函数；

基于训练数据，m2用作分类模型进行训练；

将输入文本数值序列化后，输入到m2网络中，提取输入文本的特征向量f2；

将f1与f2进行融合以得到输入文本的特征向量f，融合方式为：f=f1+f2；

7.如权利要求6所述的面向长文本的语义匹配系统，其特征在于，文本处理模块对输入文本进行数据处理的步骤包括：去掉输入文本中的无效字符，接着将输入文本转换为以字为单位的文本序列，和以词单位的文本序列。

8.如权利要求6所述的面向长文本的语义匹配系统，其特征在于，相似数据生成模块将输入文本的特征向量与候选数据集的特征向量一一进行余弦距离计算，并对结果进行排序，挑选出输入文本最相似的TOP-K个相似数据集。