CN111310438B - 基于多粒度融合模型的中文句子语义智能匹配方法及装置 - Google Patents
基于多粒度融合模型的中文句子语义智能匹配方法及装置 Download PDFInfo
- Publication number
- CN111310438B CN111310438B CN202010103529.1A CN202010103529A CN111310438B CN 111310438 B CN111310438 B CN 111310438B CN 202010103529 A CN202010103529 A CN 202010103529A CN 111310438 B CN111310438 B CN 111310438B
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- character
- matching
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Abstract
本发明公开了一种基于多粒度融合模型的中文句子语义智能匹配方法及装置,属于人工智能领域和自然语言处理领域,本发明要解决的技术问题为单粒度模型语义分析不全面和句子匹配不精确,采用的技术方案为:该方法具体如下:S1、构建文本匹配知识库;S2、构建文本匹配模型的训练数据集;S3、构建多粒度融合模型;具体如下:S301、构建字符词语映射转换表;S302、构建输入层;S303、构建多粒度嵌入层;S304、构建多粒度融合编码层;S305、构建交互匹配层;S306、构建预测层;S4、训练多粒度融合模型。该装置包括文本匹配知识库构建单元、文本匹配模型的训练数据集构建单元、多粒度融合模型构建单元和多粒度融合模型训练单元。
Description
技术领域
本发明涉及人工智能领域和自然语言处理领域,具体地说是一种基于多粒度融合模型的中文句子语义智能匹配方法及装置。
背景技术
句子语义匹配在许多自然语言处理任务中扮演着关键角色,例如问答(QA)、自然语言推理(NLI)、机器翻译(MT)等。句子语义匹配的关键是计算给定句子对的语义之间的匹配程度。句子可以从不同的粒度上进行分割,例如字符、词语和短语等。当前,常用的文本分割粒度是词语,特别是在中文领域中更为普遍。
目前,中文句子语义匹配模型多数是面向词语粒度的,而忽略了其它分割粒度。这些模型无法完全捕获嵌入在句子中的语义特征,有时甚至会产生噪音,这会影响句子匹配的准确性。目前,该领域的研究人员逐渐倾向于从句子的多种不同角度或粒度考虑语义匹配,比较成功的模型方法有MultiGranCNN、MV-LSTM、MPCM、BiMPM、DIIN等。尽管这些模型在一定程度上缓解了词语粒度上建模的局限性,但仍无法彻底解决句子语义的精准匹配问题,这在具有丰富语义特征的中文上表现更为突出。
专利号为CN106569999A的专利文献公开了一种多粒度短文本语义相似度比较方法,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。但是该技术方案无法彻底解决句子语义的精准匹配问题。
发明内容
本发明的技术任务是提供一种基于多粒度融合模型的中文句子语义智能匹配方法及装置,来解决单粒度模型语义分析不全面和句子匹配不精确的问题。
本发明的技术任务是按以下方式实现的,基于多粒度融合模型的中文句子语义智能匹配方法,该方法具体如下:
S1、构建文本匹配知识库;
S2、构建文本匹配模型的训练数据集:对于每一个句子,在文本匹配知识库中都会有一个与之对应的标准的语义匹配的句子,此句子可与其组合用来构建训练正例;其他不匹配的句子可自由组合用来构建训练负例;用户可根据文本匹配知识库大小来设定负例的数量,从而构建训练数据集;
S3、构建多粒度融合模型;具体如下:
S301、构建字符词语映射转换表;
S302、构建输入层;
S303、构建多粒度嵌入层:对句子中的词语和字符进行向量映射,得到词语级句子向量和字符级句子向量;
S304、构建多粒度融合编码层:对词语级句子向量和字符级句子向量进行编码处理,得到句子语义特征向量;
S305、构建交互匹配层:对句子语义特征向量进行分层比较,得到句子对的匹配表征向量;
S306、构建预测层:经预测层的Sigmoid函数处理,判断句子对的语义匹配程度;
S4、训练多粒度融合模型。
作为优选,所述步骤S1中构建文本匹配知识库具体如下:
S101、使用爬虫获取原始数据:在互联网公共问答平台爬取问题集,得到原始相似句子知识库;或者使用网上公开的句子匹配数据集,作为原始相似句子知识库;
S102、预处理原始数据:预处理原始相似句子知识库中的相似文本,对每个句子进行分词和断字处理,得到文本匹配知识库;其中,分词处理是以中文里的每个词语作为基本单位,对每条数据进行分词操作;断字处理是以中文里的每个字作为基本单位,对每条数据进行断字操作;每个汉字和词语之间用空格进行切分,并保留每条数据中包括的数字、标点以及特殊字符在内的所有内容;
所述步骤S2中构建文本匹配模型的训练数据集具体如下:
S201、构建训练正例:将句子与其对应的语义匹配的句子进行组合,构建训练正例,形式化为:(Q1-char,Q1-word,Q2-char,Q2-word,1);
其中,Q1-char表示字符级粒度的句子1;Q1-word表示词语级粒度的句子1;Q2-char表示字符级粒度的句子2;Q2-word表示词语级粒度的句子2;1表示句子1和句子2这两个文本相匹配,是正例;
S202、构建训练负例:选中一个句子Q1,再从文本匹配知识库中随机选择一个与句子Q1不匹配的句子Q2,将Q1与Q2进行组合,构建负例,形式化为:(Q1-char,Q1-word,Q2-char,Q2-word,0);
其中,Q1-char表示字符级粒度的句子1;Q1-word表示词语级粒度的句子1;Q2-char表示字符级粒度的句子2;Q2-word表示词语级粒度的句子2;0表示句子Q1和句子Q2这两个文本不匹配,是负例;
S203、构建训练数据集:将经过步骤S201和步骤S202操作后所获得的全部的正例样本和负例样本进行组合,并打乱其顺序,构建最终的训练数据集;其中,无论是正例数据还是负例数据均包含五个维度,即Q1-char、Q1-word、Q2-char、Q2-word、0或1。
更优地,所述步骤S301中构建字符词语映射转换表具体如下:
S30101、字符词语表通过预处理后得到的文本匹配知识库来构建;
S30102、字符词语表构建完成后,表中每个字符和词语均被映射为唯一的数字标识,映射规则为:以数字1为起始,随后按照每个字符、词语被录入字符词语表的顺序依次递增排序,从而形成字符词语映射转换表;
S30103、使用Word2Vec训练字符词语向量模型,得到字符词语向量矩阵权重embedding_matrix;
所述步骤S302中构建输入层具体如下:
S30201、输入层包括四个输入,对两个待匹配的句子进行预处理分别获取Q1-char、Q1-word、Q2-char、Q2-word,将其形式化为:(Q1-char,Q1-word,Q2-char,Q2-word);
S30202、对于输入句子中的每个字符和词语均按照步骤S301中构建完成的字符词语映射转换表将其转化为相应的数字标识。
更优地,所述步骤S303中构建多粒度嵌入层具体如下:
S30301、通过加载步骤S301中训练所得的字符词语向量矩阵权重来初始化当前层的权重参数;
S30302、针对输入句子Q1和Q2,经过多粒度嵌入层处理后得到其词语级句子向量和字符级句子向量Q1-word Emd、Q1-char Emd、Q2-word Emd、Q2-char Emd;其中,文本匹配知识库中每一个句子均能通过字符词语向量映射的方式,将文本信息转化为向量形式;
所述步骤S304中构建多粒度融合编码层是将步骤S303中多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入,从两个角度获取文本语义特征,即字符级别语义特征提取和词语级别语义特征提取;再通过按位相加的形式,对两个角度的文本语义特征进行整合,得到最终的句子语义特征向量;对于句子Q1求取最终的句子语义特征向量具体如下:
S30401、针对字符级别语义特征提取,具体如下:
其中,i表示相应字符向量在句子中的相对位置,Qi为句子Q1中每个字符的相应向量表示;Q′i为经过初次LSTM编码后每个字符的相应向量表示;Q″i为经过第二次LSTM编码后每个字符的相应向量表示;
S30402、针对词语级别语义特征提取,具体如下:
其中,i'表示相应词语向量在句子中的相对位置;Qi,为句子Q1中每个词语的相应向量表示;Q′i,为经过初次LSTM编码后每个词语的相应向量表示;Q″i,为经过第二次LSTM编码后每个词语的相应向量表示;
更优地,所述步骤S305构建交互匹配层具体如下:
其中,点乘:也叫数量积,结果是一个向量在另一个向量方向上投影的长度,是一个标量;叉乘:也叫向量积,结果是一个和已有两个向量都垂直的向量;
其中,i表示相应语义特征在句子中的相对位置;Q1i为文本Q1经过步骤S304特征提取得到的中每个语义特征的相应向量表示;Q2i为文本Q2经过步骤S304特征提取得到的中每个语义特征的相应向量表示;为针对句子语义特征向量和使用Dense进一步提取,得到的特征向量;表示编码维度为300;
所述步骤S306中构建预测层具体如下:
S30601、预测层接收步骤S305输出的匹配表征向量,使用Sigmoid函数进行计算,得到处于[0,1]之间的匹配度表示ypred;
S30602、将ypred与设立的阈值进行比较来判别句子对的匹配程度,具体如下:
①、当ypred≥0.5时,表示句子Q1以及句子Q2相匹配;
②、当ypred<0.5时,表示句子Q1以及句子Q2不匹配。
作为优选,所述步骤S4中训练多粒度融合模型具体如下:
S401、构建损失函数:通过将均方误差(MSE)设置为交叉熵的平衡因子,设计出平衡交叉熵,其中,均方误差的公式如下:
其中,ytrue表示真实标签,即每条训练样例中表示匹配与否的0、1标志;ypred表示预测结果;
当分类边界模糊时,平衡交叉熵的使用能够自动平衡正负样本,并提高分类的准确性;其将交叉熵与均方误差融合,公式如下:
S402、优化训练模型:选择使用RMSprop优化函数作为本模型的优化函数,超参数均选择Keras中的默认值设置。
一种基于多粒度融合模型的中文句子语义智能匹配装置,该装置包括,
文本匹配知识库构建单元,用于使用爬虫程序,在互联网公共问答平台爬取问题集,或者使用网上公开的文本匹配数据集,作为原始相似句子知识库,再对原始相似句子知识库进行预处理,主要操作为对原始相似句子知识库中的每个句子进行断字处理和分词处理,从而构建用于模型训练的文本匹配知识库;
训练数据集生成单元,用于根据文本匹配知识库中的句子来构建训练正例数据和训练负例数据,并且基于正例数据与负例数据来构建最终的训练数据集;
多粒度融合模型构建单元,用于构建字符词语映射转换表,并同时构建输入层、多粒度嵌入层、多粒度融合编码层、交互匹配层、预测层;其中,多粒度融合模型构建单元包括,
字符词语映射转换表构建子单元,用于对文本匹配知识库中的每个句子按字符和词语进行切分,并将每个字符和词语依次存入一个列表中,从而得到一个字符词语表,随后以数字1为起始,按照每个字符和词语被录入字符词语表的顺序依次递增排序,从而形成本发明所需的字符词语映射转换表;字符词语映射转换表构建完成后,表中每个字符和词语均被映射为唯一的数字标识;其后,使用Word2Vec训练字符词语向量模型,得到字符词语向量矩阵权重;
输入层构建子单元,用于根据字符词语映射转换表,将输入句子中的每个字符和词语转化为相应的数字标识,从而完成数据的输入,具体来说就是分别获取q1与q2,将其形式化为:(q1-char,q1-word,q2-char,q2-word);
多粒度嵌入层构建子单元,用于加载预训练好的字符词语向量权重,将输入句子中的字符词语转换为字符词语向量形式,进而构成完整的句子向量表示;该操作根据字符词语的数字标识查找字符词语向量矩阵而完成;
多粒度融合编码层构建子单元,用于将多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入;先从两个角度来获取文本语义特征,即字符级别语义特征提取和词语级别语义特征提取;再通过按位相加的形式,对两个角度的文本语义特征进行整合,得到最终的句子语义特征向量;
交互匹配层构建子单元,用于将输入的两个句子语义特征向量,经过分层匹配计算,得到句子对的匹配表征向量;
预测层构建子单元,用于接收交互匹配层输出的匹配表征向量,使用Sigmoid函数进行计算,得到处于[0,1]之间的匹配度,最终通过与设立的阈值进行比较来判别句子对的匹配程度;
多粒度融合模型训练单元,用于构建模型训练过程中所需要的损失函数,并完成模型的优化训练。
作为优选,所述文本匹配知识库构建单元包括,
爬取原始数据子单元,用于在互联网公共问答平台爬取问题集,或者使用网上公开的文本匹配数据集,构建原始相似句子知识库;
原始数据处理子单元,用于将原始相似句子知识库中的句子进行断字处理和分词处理,从而构建用于模型训练的文本匹配知识库;
所述训练数据集生成单元包括,
训练正例数据构建子单元,用于将文本匹配知识库中语义匹配的句子进行组合,并对其添加匹配标签1,构建为训练正例数据;
训练负例数据构建子单元,用于先从文本匹配知识库中选取一个句子q1,再从文本匹配知识库中随机选择一个与句子q1语义不匹配的句子q2,将q1与q2进行组合,并对其添加匹配标签0,构建为训练负例数据;
训练数据集构建子单元,用于将所有的训练正例数据与训练负例数据组合在一起,并打乱其顺序,从而构建最终的训练数据集;
所述多粒度融合模型训练单元包括,
损失函数构建子单元,用于构建损失函数,计算句子1和句子2间文本匹配度的误差;
模型优化训练子单元,用于训练并调整模型训练中的参数,从而减小模型训练过程中预测的句子1与句子2间匹配度与真实匹配度之间的误差。
一种存储介质,其中存储有多条指令,所述指令由处理器加载,执行上述的基于多粒度融合模型的中文句子语义智能匹配方法的步骤。
一种电子设备,所述电子设备包括:
上述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
本发明的基于多粒度融合模型的中文句子语义智能匹配方法及装置具有以下优点:
(一)本发明将词语向量和字符向量整合在一起,从字符和词语两个粒度上,有效地提取中文句子的语义信息,进而提升中文句子编码的准确性;
(二)对于中文句子从字符和词语两个粒度建模,句子的语义特征分别从字符和词语的粒度获得,句子中关键的语义信息可以从两个粒度上分别提取并强化,可极大地改善句子关键语义信息的表征;
(三)在工程实践任务中,本发明能够精确地实现中文语句匹配的任务;
(四)本发明使用均方误差(MSE)作为平衡因子来改善交叉熵损失函数,从而设计出平衡交叉熵损失函数;该损失函数可解决过度拟合问题,并且在训练过程中将分类边界进行模糊化处理;同时,它能够缓解正负样本之间的类别不平衡问题;
(五)对于输入句子,多粒度融合模型使用不同的编码方法来生成字符级句子向量和词语级句子向量;针对词语级句子向量,用两个LSTM网络进行顺序编码,然后使用注意力机制进行深度特征提取;对于字符级句子向量,除了使用与词语级句子向量相同的处理方法以外,补充了一层LSTM网络和注意力机制进行编码;词语级句子向量和字符级句子向量的编码最终均被叠加在一起,作为句子的多粒度融合编码表示,可以使句子的编码表示更加精确和全面;
(六)本发明使用均方误差(MSE)作为平衡因子来改善交叉熵损失函数,在公开数据集(LCQMC)上所做的大量实验,可以证明本发明优于现有方法;
(七)本发明实现了多粒度融合模型,该模型同时考虑中文词语级粒度和字符级粒度,通过集成多粒度编码以更好地捕获语义特征。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于多粒度融合模型的中文句子语义智能匹配方法的流程框图;
附图2为构建文本匹配知识库的流程框图;
附图3为构建文本匹配模型的训练数据集的流程框图;
附图4为构建多粒度融合模型的流程框图;
附图5为训练多粒度融合模型的流程框图;
附图6为多粒度融合模型的示意图;
附图7为多粒度嵌入层的示意图;
附图8为多粒度融合编码层的示意图;
附图9为交互匹配层的示意图;
附图10为基于多粒度融合模型的中文句子语义智能匹配的装置的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于多粒度融合模型的中文句子语义智能匹配方法及装置作以下详细地说明。
实施例1:
如附图1所示,本发明的基于多粒度融合模型的中文句子语义智能匹配方法,该方法具体如下:
S1、构建文本匹配知识库;如附图2所示,具体如下:
S101、使用爬虫获取原始数据:在互联网公共问答平台爬取问题集,得到原始相似句子知识库;或者使用网上公开的句子匹配数据集,作为原始相似句子知识库;
互联网上的公共问答平台中有着大量的问答数据及相似问题的推荐,这些都是面向大众开放的。因此,可以根据问答平台的特点,设计相应的爬虫程序,以此来获取语义相似的文本句子集合,从而构建原始相似句子知识库。
举例:银行问答平台中的相似文本示例,如下表所示:
句子1 | 还款期限可以延后一天吗? |
句子2 | 是否可以申请延期一天还款? |
或者,使用网上公开的文本匹配数据集,作为原始知识库。比如LCQMC数据集【Liu,X.,Chen,Q.,Deng,C.,Zeng,H.,Chen,J.,Li,D.,Tang,B.:LCQMC:A large-scale Chinesequestion matching corpus.In:Proceedings of the 27th International Conferenceon Computational Linguistics.pp.1952-1962(2018)】,该数据集一共有260068对标注结果,分为三部分:238766训练集、8802验证集和12500测试集,是一种专门用于文本匹配任务的中文数据集。
S102、预处理原始数据:预处理原始相似句子知识库中的相似文本,对每个句子进行分词和断字处理,得到文本匹配知识库;
对步骤S101中获得的相似文本进行预处理,得到文本匹配知识库。在步骤S102中,为了避免语义信息的丢失,本发明保留了句子中的所有停用词。
其中,分词处理是以中文里的每个词语作为基本单位,对每条数据进行分词操作;举例,以步骤S101中展示的句子2“是否可以申请延期一天还款?”为例,对其进行分词处理后得到“是否可以申请延期一天还款?”。本发明将分词处理后的句子,记为词语级粒度的句子。
断字处理是以中文里的每个字作为基本单位,对每条数据进行断字操作;每个汉字之间用空格进行切分,并保留每条数据中包括的数字、标点以及特殊字符在内的所有内容;举例:以步骤S101中展示的句子2“是否可以申请延期一天还款?”为例,对其进行断字处理后得到“是否可以申请延期一天还款?”。本发明将断字处理后的句子,记为字符级粒度的句子。
S2、构建文本匹配模型的训练数据集:对于每一个句子,在文本匹配知识库中都会有一个与之对应的标准的语义匹配的句子,此句子可与其组合用来构建训练正例;其他不匹配的句子可自由组合用来构建训练负例;用户可根据文本匹配知识库大小来设定负例的数量,从而构建训练数据集;如附图3所示,具体如下:
S201、构建训练正例:将句子与其对应的语义匹配的句子进行组合,构建训练正例,形式化为:(Q1-char,Q1-word,Q2-char,Q2-word,1);
其中,Q1-char表示字符级粒度的句子1;Q1-word表示词语级粒度的句子1;Q2-char表示字符级粒度的句子2;Q2-word表示词语级粒度的句子2;1表示句子1和句子2这两个文本相匹配,是正例;
举例:对步骤S101中展示的句子1和句子2,经过步骤S102的预处理后,构建的正例为:
(“还款期限可以延后一天吗?”,“还款期限可以延后一天吗?”,“是否可以申请延期一天还款?”,“是否可以申请延期一天还款?”,1)。
S202、构建训练负例:选中一个句子Q1,再从文本匹配知识库中随机选择一个与句子Q1不匹配的句子Q2,将Q1与Q2进行组合,构建负例,形式化为:(Q1-char,Q1-word,Q2-char,Q2-word,0);
其中,Q1-char表示字符级粒度的句子1;Q1-word表示词语级粒度的句子1;Q2-char表示字符级粒度的句子2;Q2-word表示词语级粒度的句子2;0表示句子Q1和句子Q2这两个文本不匹配,是负例;
举例:根据步骤S201中的所展示的示例数据,本发明仍然使用原问句作为Q1,再从文本匹配知识库中随机选择一个与句子Q1语义不匹配的句子Q2,将Q1与Q2进行组合,经过步骤S102的预处理后,构建的负例为:
(“还款期限可以延后一天吗?”,“还款期限可以延后一天吗?”,“为什么银行客户端登陆出现网络错误?”,“为什么银行客户端登陆出现网络错误?”,0)。
S203、构建训练数据集:将经过步骤S201和步骤S202操作后所获得的全部的正例样本和负例样本进行组合,并打乱其顺序,构建最终的训练数据集;其中,无论是正例数据还是负例数据均包含五个维度,即Q1-char、Q1-word、Q2-char、Q2-word、0或1。
S3、构建多粒度融合模型:如附图6所示,本发明的核心为多粒度融合模型,主要可分为四个部分:多粒度嵌入层、多粒度融合编码层、交互匹配层、预测层;首先构建多粒度嵌入层,对句子中的词语和字符进行向量映射,得到词语级句子向量和字符级句子向量;再构建多粒度融合编码层,对词语级句子向量和字符级句子向量进行编码处理,得到句子语义特征向量;再构建交互匹配层,对句子语义特征向量进行分层比较,得到句子对的匹配表征向量;最后,经预测层的Sigmoid函数处理,判断句子对的语义匹配程度。如附图4所示,具体如下:
S301、构建字符词语映射转换表;具体如下:
S30101、字符词语表通过预处理后得到的文本匹配知识库来构建;
S30102、字符词语表构建完成后,表中每个字符、词语均被映射为唯一的数字标识,映射规则为:以数字1为起始,随后按照每个字符、词语被录入字符词语表的顺序依次递增排序,从而形成字符词语映射转换表;
举例:以步骤S102处理后的内容,“还款期限可以延后一天吗?”、“还款期限可以延后一天吗?”为例,对其构建字符词语表及字符词语映射转换表如下:
S30103、其后,使用Word2Vec训练字符词语向量模型,得到字符词语向量矩阵权重embedding_matrix;
举例说明:在Keras中,对于上面描述的代码实现如下所示:
w2v_model=genism.models.Word2Vec(w2v_corpus,size=embedding_dim,
window=5,min_count=1,sg=1,
workers=4,seed=1234,iter=25)
embedding_matrix=numpy.zeros([len(tokenizer.word_index)+1,embedding_dim])
tokenizer=keras.preprocessing.text.Tokenizer(num_words=len(word_set))
for word,idx in tokenizer.word_index.items():
embedding_matrix[idx,:]=w2v_model.wv[word]
其中,w2v_corpus为训练语料,即文本匹配知识库中的所有数据;embedding_dim为字符词语向量维度,在本发明中embedding_dim设置为300,word_set为字词表。
S302、构建输入层;具体如下:
S30201、输入层包括四个输入,对两个待匹配的句子进行预处理分别获取Q1-char、Q1-word、Q2-char、Q2-word,将其形式化为:(Q1-char,Q1-word,Q2-char,Q2-word);
S30202、对于输入句子中的每个字符和词语均按照步骤S301中构建完成的字符词语映射转换表将其转化为相应的数字标识。
举例说明:本发明使用步骤S201中展示的正例文本作为样例,以此组成一条输入数据。其结果如下所示:
(“还款期限可以延后一天吗?”,“还款期限可以延后一天吗?”,“是否可以申请延期一天还款?”,“是否可以申请延期一天还款?”)
根据字符词语表中的映射将上述的输入数据转换为数值表示(假定出现在句子2中但没有出现在句子1中的字符和词语的映射分别为“是”:18,“否”:19,“申”:20,“请”:21,“是否”:22,“申请”:23,“延期”:24),结果如下:
(“1,2,3,4,5,6,7,8,9,10,11,12”,“13,14,15,16,17,11,12”,“18,19,5,6,20,21,7,3,9,10,1,2,12”,“22,15,23,24,17,13,12”);
S303、构建多粒度嵌入层:对句子中的词语和字符进行向量映射,得到词语级句子向量和字符级句子向量;如附图7所示,具体如下:
S30301、通过加载步骤S301中训练所得的字符词语向量矩阵权重来初始化当前层的权重参数;
S30302、针对输入句子Q1和Q2,经过多粒度嵌入层处理后得到其词语级句子向量和字符级句子向量Q1-word Emd、Q1-char Emd、Q2-word Emd、Q2-char Emd;其中,文本匹配知识库中每一个句子均能通过字符词语向量映射的方式,将文本信息转化为向量形式;本发明中设置embedding_dim为300。
举例说明:在Keras中,对于上面描述的代码实现如下所示:
embedding_matrix=np.zeros([(char_sum+1),embedding_dim])
embedding_layer=Embedding(embedding_matrix.shape[0],
emb_dim,
weights=[embedding_matrix],
input_length=input_dim,
trainable=False)
其中,embedding_matrix是步骤S301中训练所得的字符词语向量矩阵权重,embedding_matrix.shape[0]是字符词语向量矩阵的字词表(词典)的大小,embedding_dim是输出的字符词语向量的维度,input_length是输入序列的长度。
相应的文本Q1和Q2,经过多粒度嵌入层处理后得到词语级句子向量和字符级句子向量Q1-word Emd、Q1-char Emd、Q2-word Emd、Q2-char Emd。
S304、构建多粒度融合编码层:如附图8所示,对词语级句子向量和字符级句子向量进行编码处理,得到句子语义特征向量;步骤S304中构建多粒度融合编码层是将步骤S303中多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入,从两个角度获取文本语义特征,即字符级别语义特征提取和词语级别语义特征提取;再通过按位相加的形式,对两个角度的文本语义特征进行整合,得到最终的句子语义特征向量;对于句子Q1求取最终的句子语义特征向量具体如下:
S30401、针对字符级别语义特征提取,具体如下:
其中,i表示相应字符向量在句子中的相对位置,Qi为句子Q1中每个字符的相应向量表示;Q′i为经过初次LSTM编码后每个字符的相应向量表示;Q″i为经过第二次LSTM编码后每个字符的相应向量表示;
S30402、针对词语级别语义特征提取,具体如下:
其中,i'表示相应词语向量在句子中的相对位置;Qi,为句子Q1中每个词语的相应向量表示;Q′i,为经过初次LSTM编码后每个词语的相应向量表示;Q″i,为经过第二次LSTM编码后每个词语的相应向量表示;
S30403、经过步骤S30401和步骤S30402得到相应字符级别的特征向量以及词语级别的特征向量在多粒度融合编码层中,本发明的编码维度统一设置为300,本发明将和按位相加,得到针对文本Q1的最终句子语义特征向量公式如下:
S305、构建交互匹配层:对句子语义特征向量进行分层比较,得到句子对的匹配表征向量;如附图9所示,具体如下:
其中,点乘:也叫数量积,结果是一个向量在另一个向量方向上投影的长度,是一个标量;叉乘:也叫向量积,结果是一个和已有两个向量都垂直的向量;
其中,i表示相应语义特征在句子中的相对位置;Q1i为文本Q1经过步骤S304特征提取得到的中每个语义特征的相应向量表示;Q2i为文本Q2经过步骤S304特征提取得到的中每个语义特征的相应向量表示;为针对句子语义特征向量和使用Dense进一步提取,得到的特征向量;表示编码维度为300;
S306、构建预测层:经预测层的Sigmoid函数处理,判断句子对的语义匹配程度;具体如下:
S30601、预测层接收步骤S305输出的匹配表征向量,使用Sigmoid函数进行计算,得到处于[0,1]之间的匹配度表示ypred;
S30602、将ypred与设立的阈值进行比较来判别句子对的匹配程度,具体如下:
①、当ypred≥0.5时,表示句子Q1以及句子Q2相匹配;
②、当ypred<0.5时,表示句子Q1以及句子Q2不匹配。
S4、训练多粒度融合模型;如附图5所示,具体如下:
S401、构建损失函数:通过将均方误差(MSE)设置为交叉熵的平衡因子,设计出平衡交叉熵,其中,均方误差的公式如下:
其中,ytrue表示真实标签,即每条训练样例中表示匹配与否的0、1标志;ypred表示预测结果;
当分类边界模糊时,平衡交叉熵的使用能够自动平衡正负样本,并提高分类的准确性;其将交叉熵与均方误差融合,公式如下:
本发明设计了交叉熵损失函数来防止过拟合问题。在大多数现有的深度学习应用程序中,交叉熵是训练模型的常用损失函数。但是,基于最大似然估计的方法会产生输入的噪声,此方法可能会把训练样本分为0或1,导致过度拟合的问题。并且,据调查所知,目前在设计新的损失函数方面所做的工作相对较少。本发明提出将均方误差(MSE)作为平衡参数,以平衡正样本和负样本,从而大大提高了模型的性能。
在大多数分类任务中,交叉熵损失函数如下所示,并且这种形式通常是第一选择。
S402、优化训练模型:选择使用RMSprop优化函数作为本模型的优化函数,超参数均选择Keras中的默认值设置。本模型在训练数据集上进行优化训练。
举例说明:上面描述的优化函数及其设置在Keras中使用代码表示为:
optim=keras.optimizers.RMSprop()
model=keras.models.Model([Q1-char,Q1-word,Q2-char,Q2-word],[ypred])
model.compile(loss=Lloss,optimizer=optim,metrics=['accuracy',precision,recall,f1_score]);
其中,损失函数loss选择本步骤S401中自定义Loss;优化算法optimizer选择前文定义好的optim;Q1-char,Q1-word,Q2-char,Q2-word作为模型输入,ypred为模型输出;评价指标metrics,本发明选取准确率accuracy,精确率precision,召回率recall,基于召回率和精确率计算的F1-score。
本发明的模型在LCQMC公开数据集上取得了优于当前模型的结果,实验结果的对比具体见下表:
其中,前十四行是现有技术的模型的实验结果【Liu,X.,Chen,Q.,Deng,C.,Zeng,H.,Chen,J.,Li,D.,Tang,B.,2018.Lcqmc:A large-scale chinese question matchingcorpus,in:Proceedings of the 27th International Conference on ComputationalLinguistics,pp.1952–1962】。本发明模型和现有模型进行了比较,可见本发明方法较其他方法其性能最优。
实施例2:
如附图10所示,本发明的基于多粒度融合模型的中文句子语义智能匹配装置,该装置包括,
文本匹配知识库构建单元,用于使用爬虫程序,在互联网公共问答平台爬取问题集,或者使用网上公开的文本匹配数据集,作为原始相似句子知识库,再对原始相似句子知识库进行预处理,主要操作为对原始相似句子知识库中的每个句子进行断字处理和分词处理,从而构建用于模型训练的文本匹配知识库;文本匹配知识库构建单元包括,
爬取原始数据子单元,用于在互联网公共问答平台爬取问题集,或者使用网上公开的文本匹配数据集,构建原始相似句子知识库;
原始数据处理子单元,用于将原始相似句子知识库中的句子进行断字处理和分词处理,从而构建用于模型训练的文本匹配知识库;
训练数据集生成单元,用于根据文本匹配知识库中的句子来构建训练正例数据和训练负例数据,并且基于正例数据与负例数据来构建最终的训练数据集;训练数据集生成单元包括,
训练正例数据构建子单元,用于将文本匹配知识库中语义匹配的句子进行组合,并对其添加匹配标签1,构建为训练正例数据;
训练负例数据构建子单元,用于先从文本匹配知识库中选取一个句子q1,再从文本匹配知识库中随机选择一个与句子q1语义不匹配的句子q2,将q1与q2进行组合,并对其添加匹配标签0,构建为训练负例数据;
训练数据集构建子单元,用于将所有的训练正例数据与训练负例数据组合在一起,并打乱其顺序,从而构建最终的训练数据集;
多粒度融合模型构建单元,用于构建字符词语映射转换表,并同时构建输入层、多粒度嵌入层、多粒度融合编码层、交互匹配层、预测层;其中,多粒度融合模型构建单元包括,
字符词语映射转换表构建子单元,用于对文本匹配知识库中的每个句子按字符和词语进行切分,并将每个字符和词语依次存入一个列表中,从而得到一个字符词语表,随后以数字1为起始,按照每个字符和词语被录入字符词语表的顺序依次递增排序,从而形成本发明所需的字符词语映射转换表;字符词语映射转换表构建完成后,表中每个字符和词语均被映射为唯一的数字标识;其后,使用Word2Vec训练字符词语向量模型,得到字符词语向量矩阵权重;
输入层构建子单元,用于根据字符词语映射转换表,将输入句子中的每个字符和词语转化为相应的数字标识,从而完成数据的输入,具体来说就是分别获取q1与q2,将其形式化为:(q1-char,q1-word,q2-char,q2-word);
多粒度嵌入层构建子单元,用于加载预训练好的字符词语向量权重,将输入句子中的字符词语转换为字符词语向量形式,进而构成完整的句子向量表示;该操作根据字符词语的数字标识查找字符词语向量矩阵而完成;
多粒度融合编码层构建子单元,用于将多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入;先从两个角度来获取文本语义特征,即字符级别语义特征提取和词语级别语义特征提取;再通过按位相加的形式,对两个角度的文本语义特征进行整合,得到最终的句子语义特征向量;
交互匹配层构建子单元,用于将输入的两个句子语义特征向量,经过分层匹配计算,得到句子对的匹配表征向量;
预测层构建子单元,用于接收交互匹配层输出的匹配表征向量,使用Sigmoid函数进行计算,得到处于[0,1]之间的匹配度,最终通过与设立的阈值进行比较来判别句子对的匹配程度;
多粒度融合模型训练单元,用于构建模型训练过程中所需要的损失函数,并完成模型的优化训练;多粒度融合模型训练单元包括,
损失函数构建子单元,用于构建损失函数,计算句子1和句子2间文本匹配度的误差;
模型优化训练子单元,用于训练并调整模型训练中的参数,从而减小模型训练过程中预测的句子1与句子2间匹配度与真实匹配度之间的误差。
可以将附图10所示的基于多粒度融合模型的中文句子语义智能匹配的装置集成部署到各种硬件设备中,例如:个人电脑、工作站、智能移动设备等。
实施例3:
基于实施例1的存储介质,其中存储有多条指令,指令由处理器加载,执行实施例1的基于多粒度融合模型的中文句子语义智能匹配方法的步骤。
实施例4:
基于实施例3的电子设备,电子设备包括:
实施例3的存储介质;以及
处理器,用于执行存储介质中的指令。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.基于多粒度融合模型的中文句子语义智能匹配方法,其特征在于,该方法具体步骤如下:
S1、构建文本匹配知识库;具体如下:
S101、使用爬虫获取原始数据:在互联网公共问答平台爬取问题集,得到原始相似句子知识库;或者使用网上公开的句子匹配数据集,作为原始相似句子知识库;
S102、预处理原始数据:预处理原始相似句子知识库中的相似文本,对每个句子进行分词和断字处理,得到文本匹配知识库;其中,分词处理是以中文里的每个词语作为基本单位,对每条数据进行分词操作;断字处理是以中文里的每个字作为基本单位,对每条数据进行断字操作;每个汉字或词语之间用空格进行切分,并保留每条数据中包括的数字、标点以及特殊字符在内的所有内容;
S2、构建文本匹配模型的训练数据集;具体如下:
S201、构建训练正例:将句子与其对应的语义匹配的句子进行组合,构建训练正例,形式化为:(Q1-char,Q1-word,Q2-char,Q2-word,1);
其中,Q1-char表示字符级粒度的句子1;Q1-word表示词语级粒度的句子1;Q2-char表示字符级粒度的句子2;Q2-word表示词语级粒度的句子2;1表示句子1和句子2这两个文本相匹配,是正例;
S202、构建训练负例:选中一个句子Q1,再从文本匹配知识库中随机选择一个与句子Q1不匹配的句子Q2,将Q1与Q2进行组合,构建负例,形式化为:(Q1-char,Q1-word,Q2-char,Q2-word,0);
其中,Q1-char表示字符级粒度的句子1;Q1-word表示词语级粒度的句子1;Q2-char表示字符级粒度的句子2;Q2-word表示词语级粒度的句子2;0表示句子Q1和句子Q2这两个文本不匹配,是负例;
S203、构建训练数据集:将经过步骤S201和步骤S202操作后所获得的全部的正例样本和负例样本进行组合,并打乱其顺序,构建最终的训练数据集;其中,无论是正例数据还是负例数据均包含五个维度,即Q1-char、Q1-word、Q2-char、Q2-word、0或1;
S3、构建多粒度融合模型;具体如下:
S301、构建字符词语映射转换表;
S302、构建输入层;
S303、构建多粒度嵌入层:对句子中的词语和字符进行向量映射,得到词语级句子向量和字符级句子向量;
S304、构建多粒度融合编码层:对词语级句子向量和字符级句子向量进行编码处理,得到句子语义特征向量;
S305、构建交互匹配层:对句子语义特征向量进行分层比较,得到句子对的匹配表征向量;
S306、构建预测层:经预测层的Sigmoid函数处理,判断句子对的语义匹配程度;
S4、训练多粒度融合模型。
2.根据权利要求1所述的基于多粒度融合模型的中文句子语义智能匹配方法,其特征在于,所述步骤S301中构建字符词语映射转换表具体如下:
S30101、字符词语表通过预处理后得到的文本匹配知识库来构建;
S30102、字符词语表构建完成后,表中每个字符、词语均被映射为唯一的数字标识,映射规则为:以数字1为起始,随后按照每个字符、词语被录入字符词语表的顺序依次递增排序,从而形成字符词语映射转换表;
S30103、使用Word2Vec训练字符词语向量模型,得到字符词语向量矩阵权重embedding_matrix;
所述步骤S302中构建输入层具体如下:
S30201、输入层包括四个输入,对两个待匹配的句子进行预处理分别获取Q1-char、Q1-word、Q2-char、Q2-word,将其形式化为:(Q1-char,Q1-word,Q2-char,Q2-word);
S30202、对于输入句子中的每个字符和词语均按照步骤S301中构建完成的字符词语映射转换表将其转化为相应的数字标识。
3.根据权利要求2所述的基于多粒度融合模型的中文句子语义智能匹配方法,其特征在于,所述步骤S303中构建多粒度嵌入层具体如下:
S30301、通过加载步骤S301中训练所得的字符词语向量矩阵权重来初始化当前层的权重参数;
S30302、针对输入句子Q1和Q2,经过多粒度嵌入层处理后得到其词语级句子向量和字符级句子向量Q1-word Emd、Q1-char Emd、Q2-word Emd、Q2-char Emd;其中,文本匹配知识库中每一个句子均能通过字符词语向量映射的方式,将文本信息转化为向量形式;
所述步骤S304中构建多粒度融合编码层是将步骤S303中多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入,从两个角度获取文本语义特征,即字符级别语义特征提取和词语级别语义特征提取;再通过按位相加的形式,对两个角度的文本语义特征进行整合,得到最终的句子语义特征向量;对于句子Q1求取最终的句子语义特征向量具体如下:
S30401、针对字符级别语义特征提取,具体如下:
其中,i表示相应字符向量在句子中的相对位置,Qi为句子Q1中每个字符的相应向量表示;Q′i为经过初次LSTM编码后每个字符的相应向量表示;Q″i为经过第二次LSTM编码后每个字符的相应向量表示;
S30402、针对词语级别语义特征提取,具体如下:
其中,i'表示相应词语向量在句子中的相对位置;Qi′为句子Q1中每个词语的相应向量表示;Q′i′为经过初次LSTM编码后每个词语的相应向量表示;Q″i′为经过第二次LSTM编码后每个词语的相应向量表示;
4.根据权利要求3所述的基于多粒度融合模型的中文句子语义智能匹配方法,其特征在于,所述步骤S305构建交互匹配层具体如下:
其中,i表示相应语义特征在句子中的相对位置;Q1i为文本Q1经过步骤S304特征提取得到的中每个语义特征的相应向量表示;Q2i为文本Q2经过步骤S304特征提取得到的中每个语义特征的相应向量表示;为针对句子语义特征向量和使用Dense进一步提取,得到的特征向量;表示编码维度为300;
所述步骤S306中构建预测层具体如下:
S30601、预测层接收步骤S305输出的匹配表征向量,使用Sigmoid函数进行计算,得到处于[0,1]之间的匹配度表示ypred;
S30602、将ypred与设立的阈值进行比较来判别句子对的匹配程度,具体如下:
①、当ypred≥0.5时,表示句子Q1以及句子Q2相匹配;
②、当ypred<0.5时,表示句子Q1以及句子Q2不匹配。
6.一种基于多粒度融合模型的中文句子语义智能匹配装置,其特征在于,该装置包括,
文本匹配知识库构建单元,用于使用爬虫程序,在互联网公共问答平台爬取问题集,或者使用网上公开的文本匹配数据集,作为原始相似句子知识库,再对原始相似句子知识库进行预处理,主要操作为对原始相似句子知识库中的每个句子进行断字处理和分词处理,从而构建用于模型训练的文本匹配知识库;
训练数据集生成单元,用于根据文本匹配知识库中的句子来构建训练正例数据和训练负例数据,并且基于正例数据与负例数据来构建最终的训练数据集;
多粒度融合模型构建单元,用于构建字符词语映射转换表,并同时构建输入层、多粒度嵌入层、多粒度融合编码层、交互匹配层、预测层;其中,多粒度融合模型构建单元包括,
字符词语映射转换表构建子单元,用于对文本匹配知识库中的每个句子按字符和词语进行切分,并将每个字符和词语依次存入一个列表中,从而得到一个字符词语表,随后以数字1为起始,按照每个字符和词语被录入字符词语表的顺序依次递增排序,从而形成所需的字符词语映射转换表;字符词语映射转换表构建完成后,表中每个字符和词语均被映射为唯一的数字标识;其后,使用Word2Vec训练字符词语向量模型,得到字符词语向量矩阵权重;
输入层构建子单元,用于根据字符词语映射转换表,将输入句子中的每个字符和词语转化为相应的数字标识,从而完成数据的输入,具体来说就是分别获取q1与q2,将其形式化为:(q1-char,q1-word,q2-char,q2-word);
多粒度嵌入层构建子单元,用于加载预训练好的字符词语向量权重,将输入句子中的字符词语转换为字符词语向量形式,进而构成完整的句子向量表示;字符词语向量形式是根据字符词语的数字标识查找字符词语向量矩阵而完成;
多粒度融合编码层构建子单元,用于将多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入;先从两个角度来获取文本语义特征,即字符级别语义特征提取和词语级别语义特征提取;再通过按位相加的形式,对两个角度的文本语义特征进行整合,得到最终的句子语义特征向量;
交互匹配层构建子单元,用于将输入的两个句子语义特征向量,经过分层匹配计算,得到句子对的匹配表征向量;
预测层构建子单元,用于接收交互匹配层输出的匹配表征向量,使用Sigmoid函数进行计算,得到处于[0,1]之间的匹配度,最终通过与设立的阈值进行比较来判别句子对的匹配程度;
多粒度融合模型训练单元,用于构建模型训练过程中所需要的损失函数,并完成模型的优化训练。
7.根据权利要求6所述的基于多粒度融合模型的中文句子语义智能匹配装置,其特征在于,所述文本匹配知识库构建单元包括,
爬取原始数据子单元,用于在互联网公共问答平台爬取问题集,或者使用网上公开的文本匹配数据集,构建原始相似句子知识库;
原始数据处理子单元,用于将原始相似句子知识库中的句子进行断字处理和分词处理,从而构建用于模型训练的文本匹配知识库;
所述训练数据集生成单元包括,
训练正例数据构建子单元,用于将文本匹配知识库中语义匹配的句子进行组合,并对其添加匹配标签1,构建为训练正例数据;
训练负例数据构建子单元,用于先从文本匹配知识库中选取一个句子q1,再从文本匹配知识库中随机选择一个与句子q1语义不匹配的句子q2,将q1与q2进行组合,并对其添加匹配标签0,构建为训练负例数据;
训练数据集构建子单元,用于将所有的训练正例数据与训练负例数据组合在一起,并打乱其顺序,从而构建最终的训练数据集;
所述多粒度融合模型训练单元包括,
损失函数构建子单元,用于构建损失函数,计算句子1和句子2间文本匹配度的误差;
模型优化训练子单元,用于训练并调整模型训练中的参数,从而减小模型训练过程中预测的句子1与句子2间匹配度与真实匹配度之间的误差。
8.一种存储介质,其中存储有多条指令,其特征在于,所述指令由处理器加载,执行权利要求1-5中任一所述的基于多粒度融合模型的中文句子语义智能匹配方法的步骤。
9.一种电子设备,其特征在于,所述电子设备包括:
权利要求8所述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103529.1A CN111310438B (zh) | 2020-02-20 | 2020-02-20 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
PCT/CN2020/104723 WO2021164199A1 (zh) | 2020-02-20 | 2020-07-27 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103529.1A CN111310438B (zh) | 2020-02-20 | 2020-02-20 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310438A CN111310438A (zh) | 2020-06-19 |
CN111310438B true CN111310438B (zh) | 2021-06-08 |
Family
ID=71151080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010103529.1A Active CN111310438B (zh) | 2020-02-20 | 2020-02-20 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111310438B (zh) |
WO (1) | WO2021164199A1 (zh) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310438B (zh) * | 2020-02-20 | 2021-06-08 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
CN111753524A (zh) * | 2020-07-01 | 2020-10-09 | 携程计算机技术(上海)有限公司 | 文本断句位置的识别方法及系统、电子设备及存储介质 |
CN111914551B (zh) * | 2020-07-29 | 2022-05-20 | 北京字节跳动网络技术有限公司 | 自然语言处理方法、装置、电子设备及存储介质 |
CN112149410A (zh) * | 2020-08-10 | 2020-12-29 | 招联消费金融有限公司 | 语义识别方法、装置、计算机设备和存储介质 |
CN112101030B (zh) * | 2020-08-24 | 2024-01-26 | 沈阳东软智能医疗科技研究院有限公司 | 建立术语映射模型、实现标准词映射的方法、装置及设备 |
CN112000772B (zh) * | 2020-08-24 | 2022-09-06 | 齐鲁工业大学 | 面向智能问答基于语义特征立方体的句子对语义匹配方法 |
CN112328890B (zh) * | 2020-11-23 | 2024-04-12 | 北京百度网讯科技有限公司 | 搜索地理位置点的方法、装置、设备及存储介质 |
CN112256841B (zh) * | 2020-11-26 | 2024-05-07 | 支付宝(杭州)信息技术有限公司 | 文本匹配和对抗文本识别方法、装置及设备 |
CN112463924B (zh) * | 2020-11-27 | 2022-07-05 | 齐鲁工业大学 | 面向智能问答基于内部相关性编码的文本意图匹配方法 |
CN112560502B (zh) * | 2020-12-28 | 2022-05-13 | 桂林电子科技大学 | 一种语义相似度匹配方法、装置及存储介质 |
CN112613282A (zh) * | 2020-12-31 | 2021-04-06 | 桂林电子科技大学 | 一种文本生成方法、装置及存储介质 |
CN112966524B (zh) * | 2021-03-26 | 2024-01-26 | 湖北工业大学 | 基于多粒度孪生网络的中文句子语义匹配方法及系统 |
CN113065358B (zh) * | 2021-04-07 | 2022-05-24 | 齐鲁工业大学 | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 |
CN113593709B (zh) * | 2021-07-30 | 2022-09-30 | 江先汉 | 一种疾病编码方法、系统、可读存储介质及装置 |
CN113569014B (zh) * | 2021-08-11 | 2024-03-19 | 国家电网有限公司 | 基于多粒度文本语义信息的运维项目管理方法 |
CN113705197B (zh) * | 2021-08-30 | 2024-04-02 | 北京工业大学 | 一种基于位置增强的细粒度情感分析方法 |
CN113780006B (zh) * | 2021-09-27 | 2024-04-09 | 广州金域医学检验中心有限公司 | 医学语义匹配模型的训练方法、医学知识匹配方法及装置 |
CN114090747A (zh) * | 2021-10-14 | 2022-02-25 | 特斯联科技集团有限公司 | 基于多重语义匹配的自动问答方法、装置、设备及介质 |
CN114153839A (zh) * | 2021-10-29 | 2022-03-08 | 杭州未名信科科技有限公司 | 多源异构数据的集成方法、装置、设备及存储介质 |
CN114218380B (zh) * | 2021-12-03 | 2022-07-29 | 淮阴工学院 | 基于多模态的冷链配载用户画像标签抽取方法及装置 |
CN114238563A (zh) * | 2021-12-08 | 2022-03-25 | 齐鲁工业大学 | 基于多角度交互的中文句子对语义智能匹配方法和装置 |
CN114357158B (zh) * | 2021-12-09 | 2024-04-09 | 南京中孚信息技术有限公司 | 基于句粒度语义和相对位置编码的长文本分类技术 |
CN114239566B (zh) * | 2021-12-14 | 2024-04-23 | 公安部第三研究所 | 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质 |
CN114492451B (zh) * | 2021-12-22 | 2023-10-24 | 马上消费金融股份有限公司 | 文本匹配方法、装置、电子设备及计算机可读存储介质 |
CN114297390B (zh) * | 2021-12-30 | 2024-04-02 | 江南大学 | 一种长尾分布场景下的方面类别识别方法及系统 |
CN114049884B (zh) * | 2022-01-11 | 2022-05-13 | 广州小鹏汽车科技有限公司 | 语音交互方法、车辆、计算机可读存储介质 |
CN114595306B (zh) * | 2022-01-26 | 2024-04-12 | 西北大学 | 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法 |
CN114357121B (zh) * | 2022-03-10 | 2022-07-15 | 四川大学 | 一种基于数据驱动的创新方案设计方法和系统 |
CN114547256B (zh) * | 2022-04-01 | 2024-03-15 | 齐鲁工业大学 | 面向消防安全知识智能问答的文本语义匹配方法和装置 |
CN115048944B (zh) * | 2022-08-16 | 2022-12-20 | 之江实验室 | 一种基于主题增强的开放域对话回复方法及系统 |
CN115600945B (zh) * | 2022-09-07 | 2023-06-30 | 淮阴工学院 | 基于多粒度的冷链配载用户画像构建方法及装置 |
CN115238684B (zh) * | 2022-09-19 | 2023-03-03 | 北京探境科技有限公司 | 一种文本采集方法、装置、计算机设备及可读存储介质 |
CN115422362B (zh) * | 2022-10-09 | 2023-10-31 | 郑州数智技术研究院有限公司 | 一种基于人工智能的文本匹配方法 |
CN115688796B (zh) * | 2022-10-21 | 2023-12-05 | 北京百度网讯科技有限公司 | 用于自然语言处理领域中预训练模型的训练方法及其装置 |
CN115438674B (zh) * | 2022-11-08 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 实体数据处理、实体链接方法、装置和计算机设备 |
CN115936014B (zh) * | 2022-11-08 | 2023-07-25 | 上海栈略数据技术有限公司 | 一种医学实体对码方法、系统、计算机设备、存储介质 |
CN116306558B (zh) * | 2022-11-23 | 2023-11-10 | 北京语言大学 | 一种计算机辅助中文文本改编的方法及装置 |
CN115910345B (zh) * | 2022-12-22 | 2023-06-27 | 广东数业智能科技有限公司 | 一种心理健康测评智能预警方法及存储介质 |
CN116071759B (zh) * | 2023-03-06 | 2023-07-18 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种融合gpt2预训练大模型的光学字符识别方法 |
CN116204642B (zh) * | 2023-03-06 | 2023-10-27 | 上海阅文信息技术有限公司 | 数字阅读中角色隐式属性智能识别分析方法、系统和应用 |
CN116304745B (zh) * | 2023-03-27 | 2024-04-12 | 济南大学 | 基于深层次语义信息的文本话题匹配方法及系统 |
CN117271438A (zh) * | 2023-07-17 | 2023-12-22 | 乾元云硕科技(深圳)有限公司 | 用于大数据的智能存储系统及其方法 |
CN116629275B (zh) * | 2023-07-21 | 2023-09-22 | 北京无极慧通科技有限公司 | 一种基于大数据的智能决策支持系统及方法 |
CN116680590B (zh) * | 2023-07-28 | 2023-10-20 | 中国人民解放军国防科技大学 | 基于工作说明书解析的岗位画像标签提取方法及装置 |
CN116822495B (zh) * | 2023-08-31 | 2023-11-03 | 小语智能信息科技(云南)有限公司 | 基于对比学习的汉-老、泰平行句对抽取方法及装置 |
CN117590944A (zh) * | 2023-11-28 | 2024-02-23 | 上海源庐加佳信息科技有限公司 | 实体人对象和数字虚拟人对象的绑定系统 |
CN117390141B (zh) * | 2023-12-11 | 2024-03-08 | 江西农业大学 | 一种农业社会化服务质量用户评价数据分析方法 |
CN117556027B (zh) * | 2024-01-12 | 2024-03-26 | 一站发展(北京)云计算科技有限公司 | 基于数字人技术的智能交互系统及方法 |
CN117633518B (zh) * | 2024-01-25 | 2024-04-26 | 北京大学 | 一种产业链构建方法及系统 |
CN117669593B (zh) * | 2024-01-31 | 2024-04-26 | 山东省计算中心(国家超级计算济南中心) | 基于等价语义的零样本关系抽取方法、系统、设备及介质 |
CN117744787B (zh) * | 2024-02-20 | 2024-05-07 | 中国电子科技集团公司第十研究所 | 一阶研判规则知识合理性的智能度量方法 |
CN117910460A (zh) * | 2024-03-18 | 2024-04-19 | 国网江苏省电力有限公司南通供电分公司 | 一种基于bge模型的电力科研知识关联性构建方法及系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408153B (zh) * | 2014-12-03 | 2018-07-31 | 中国科学院自动化研究所 | 一种基于多粒度主题模型的短文本哈希学习方法 |
US10643120B2 (en) * | 2016-11-15 | 2020-05-05 | International Business Machines Corporation | Joint learning of local and global features for entity linking via neural networks |
CN107315772B (zh) * | 2017-05-24 | 2019-08-16 | 北京邮电大学 | 基于深度学习的问题匹配方法以及装置 |
CN108268643A (zh) * | 2018-01-22 | 2018-07-10 | 北京邮电大学 | 一种基于多粒度lstm网络的深层语义匹配实体链接方法 |
CN108984532A (zh) * | 2018-07-27 | 2018-12-11 | 福州大学 | 基于层次嵌入的方面抽取方法 |
CN109299262B (zh) * | 2018-10-09 | 2022-04-15 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109408627B (zh) * | 2018-11-15 | 2021-03-02 | 众安信息技术服务有限公司 | 一种融合卷积神经网络和循环神经网络的问答方法及系统 |
CN110032639B (zh) * | 2018-12-27 | 2023-10-31 | 中国银联股份有限公司 | 将语义文本数据与标签匹配的方法、装置及存储介质 |
CN110083692B (zh) * | 2019-04-22 | 2023-01-24 | 齐鲁工业大学 | 一种金融知识问答的文本交互匹配方法及装置 |
CN110032635B (zh) * | 2019-04-22 | 2023-01-20 | 齐鲁工业大学 | 一种基于深度特征融合神经网络的问题对匹配方法和装置 |
CN110321419B (zh) * | 2019-06-28 | 2021-06-15 | 神思电子技术股份有限公司 | 一种融合深度表示与交互模型的问答匹配方法 |
CN110334184A (zh) * | 2019-07-04 | 2019-10-15 | 河海大学常州校区 | 基于机器阅读理解的智能问答系统 |
CN110502627A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种基于多层Transformer聚合编码器的答案生成方法 |
CN111310438B (zh) * | 2020-02-20 | 2021-06-08 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
-
2020
- 2020-02-20 CN CN202010103529.1A patent/CN111310438B/zh active Active
- 2020-07-27 WO PCT/CN2020/104723 patent/WO2021164199A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN111310438A (zh) | 2020-06-19 |
WO2021164199A1 (zh) | 2021-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN111325028B (zh) | 一种基于深度分层编码的智能语义匹配方法和装置 | |
CN111310439B (zh) | 一种基于深度特征变维机制的智能语义匹配方法和装置 | |
CN108628935B (zh) | 一种基于端到端记忆网络的问答方法 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN112000772B (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN113065358B (zh) | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 | |
CN111339249B (zh) | 一种联合多角度特征的深度智能文本匹配方法和装置 | |
CN112000771B (zh) | 一种面向司法公开服务的句子对智能语义匹配方法和装置 | |
CN109857457B (zh) | 一种在双曲空间中学习源代码中的函数层次嵌入表示方法 | |
CN112000770A (zh) | 面向智能问答的基于语义特征图的句子对语义匹配方法 | |
CN112380319A (zh) | 一种模型训练的方法及相关装置 | |
CN116719520B (zh) | 代码生成方法及装置 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
Balaji et al. | Text Summarization using NLP Technique | |
CN116342167B (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
CN111382333B (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 | |
WO2023130688A1 (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN113569578B (zh) | 一种用户意图识别方法、装置和计算机设备 | |
CN115238705A (zh) | 语义解析结果重排序方法及系统 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN112528003A (zh) | 一种基于语义排序和知识修正的多项选择问答方法 | |
CN115114915B (zh) | 短语识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |