CN113283245A - 基于双塔结构模型的文本匹配方法及装置 - Google Patents

基于双塔结构模型的文本匹配方法及装置 Download PDF

Info

Publication number
CN113283245A
CN113283245A CN202110340167.2A CN202110340167A CN113283245A CN 113283245 A CN113283245 A CN 113283245A CN 202110340167 A CN202110340167 A CN 202110340167A CN 113283245 A CN113283245 A CN 113283245A
Authority
CN
China
Prior art keywords
matched
file
semantic vector
text
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110340167.2A
Other languages
English (en)
Inventor
徐帆江
钟方洁
朱博
赵军锁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202110340167.2A priority Critical patent/CN113283245A/zh
Publication of CN113283245A publication Critical patent/CN113283245A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于双塔结构模型的文本匹配方法及装置,将待匹配文件与匹配文件输入改进后的双塔结构模型,得到匹配结果;其中改进后的双塔结构模型包括两个独立的语言模型,用以得到待匹配文件语义向量与匹配文本语义向量;两个CNN层,用以计算待匹配文件语义向量与匹配文本语义向量的相似度;根据相似性得到匹配结果。本发明利用语言模型,尤其是BERT算法在复杂语义处理上的优越性,在传统的双塔结构模型上改进,设计了适用于复杂语义文本的文本匹配方法,从而为信息检索、搜索引擎、客服机器人等众多综合下游任务提供准确的文本匹配结果。

Description

基于双塔结构模型的文本匹配方法及装置
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于双塔结构模型的文本匹配方法及装置。
背景技术
文本匹配是使用自然语言处理模型预测两份文本的语义相关性,可以应用于信息检索、问答系统、对话系统等技术领域,具有广泛的应用价值。近年来,人工智能与深度学习技术的兴起正在快速改变人类日常工作生活的固有习惯,基于深度学习的文本匹配方法也开始在文本匹配领域发挥其优势特长,具体来说,文本匹配有两种深度学习解决方案,一种是对目标文本与源文本的向量表示计算余弦相似度,另一种是融合目标文本与源文本的向量表示后,使用多层神经网络进行处理,将文本匹配变成分类问题来解决。双塔结构模型是第一种方法。
因为双塔结构模型的简便性,是使用深度学习方法解决文本匹配的主流方式。现有的双结构模型总体如图1,分为三个步骤:
Query与Title为文本匹配任务的两个输入,然后分别进入输入层,再分别接一个表示层进行特征提取,表示层输出特征提取后的特征向量,最后计算两个向量的相似度得到匹配得分。
输入层主要的作用就是把文本映射到低维向量空间转化成向量提供给深度学习网络,针对英文文本,一般使用n-gram方法,传统双塔结构模型一般使用3-gram方法;针对中文文本,因为中文的输入层处理方式与英文有很大不同,会在分词阶段引入误差,所以传统双塔结构模型采用字向量作为输入,向量空间约为1.5万维。
表示层为特征提取过程,使用卷积神经网络或者循环神经网络等特征提取模型输出特征向量。传统双塔模型使用两层300维度的隐藏层,最后统一输出128维度的向量。
匹配层计算Query和Title的语义相似性,使用两个语义向量(128维)的余弦距离来表示。最后根据匹配得分,判断Query与Title的语义相似性。
但是,传统的双塔结构模型在表示层中没有做到关注语序和上下文信息。然而,不考虑语序存在严重问题,因为语言作为连续性信息,其词语的前后顺序会显著影响语义,进而影响文本匹配的准确度。同时,没有考虑上下文信息,也会影响文本的整体语义理解,故而现有的文本匹配技术在使用中,尤其是针对复杂语义文本时,因为关注上下文信息与语序信息不足,文本匹配的效果不佳。
此外,中国专利申请CN110287494A公开了一种基于深度学习BERT算法的短文本相似匹配的方法,但该申请需对待匹配短文本进行分词处理,导致英文分词易存在冲突,中文的分词准确率不高,而且有时带来的偏差,对后续训练可能会产生影响。
发明内容
本发明目的是针对现有技术的缺陷,利用预处理语言模型,设计了一种基于双塔结构模型的文本匹配方法及装置,将现有双塔结构模型的输入层与表示层替换为预处理语言模型,实现效果更好的文本匹配技术。
为达到上述目的,本发明的技术方案包括:
一种基于双塔结构模型的文本匹配方法,其步骤包括:
1)将训练集中的一组待匹配文件与匹配文件,分别输入两个独立的预处理语言模型,得到待匹配文件语义向量与匹配文本语义向量;
2)将待匹配文件语义向量与匹配文本语义向量输入第一CNN层,进行降维,并利用第二CNN层,计算降维后的待匹配文件语义向量与匹配文本语义向量的相似度;
3)根据所述相似度,获取该组待匹配文件与匹配文件的匹配结果;
4)利用训练集中各组待匹配文件与匹配文件迭代训练第一CNN层与第二CNN层,并对预处理语言模型进行微调,得到改进后的双塔结构模型;
5)将待匹配文件与匹配文件输入改进后的双塔结构模型,得到匹配结果。
进一步地,语言模型包括:BERT模型、ELMO模型或GPT模型。
进一步地,待匹配文件语义向量与匹配文本语义向量的维度为256维。
进一步地,降维后的待匹配文件语义向量与匹配文本语义向量为128维。
进一步地,计算相似度的方法包括:计算降维后的待匹配文件语义向量与匹配文本语义向量的余弦距离。
进一步地,通过以下步骤获取该组待匹配文件与匹配文件的匹配结果:
1)利用多分类softmax函数,计算文本匹配概率;
2)根据文本匹配概率及一设定阈值,得到该组待匹配文件与匹配文件的匹配结果。
进一步地,文本匹配概率
Figure BDA0002999250140000021
其中Q为降维后的待匹配文件语义向量,D为降维后的匹配文件语义向量,D+为降维后的匹配文件语义向量在降维后的待匹配文件语义向量下的正样本,D′为降维后的匹配文件语义向量在降维后的待匹配文件语义向量下的整个样本空间,γ为softmax函数的平滑因子,R(·)为相似度。
进一步地,迭代训练第一CNN层与第二CNN层时,损失函数
Figure BDA0002999250140000031
其中∧为迭代次数,Q为降维后的待匹配文件语义向量,D+为降维后的匹配文件语义向量在降维后的待匹配文件语义向量下的正样本。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
本发明的有益效果:
本发明研究目标是针对现有文本匹配技术在特征提取过程中关注复杂语义的不足,利用语言模型,尤其是BERT算法在复杂语义处理上的优越性,在传统的双塔结构模型上改进,设计了适用于复杂语义文本的文本匹配方法,从而为信息检索、搜索引擎、客服机器人等众多综合下游任务提供准确的文本匹配结果。
附图说明
图1现有的双结构模型框图。
图2本发明的双结构模型框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的双结构模型框图如图2,其使用BERT层代替基本模型中的输入层和表示层,BERT模型Bidirectional Encoder Representation from Transformers,是近年来模型的主要创新点是其预训练方法,使用Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。BERT算法的优越性在于不需要分词,避免了传统双塔结构模型在分词上出现的如下问题:英文的降维方法n-gram分的词存在冲突,中文的分词准确率不高,而且有时带来的偏差,对后续训练可能会产生影响。同时,BERT擅长处理各种复杂语义,而且不仅考虑从左向右的句子信息,也考虑到从右向左的句子信息,捕捉了上下文的语义信息。
具体来说:
1)BERT层
将待匹配文本Query和匹配文本Title分别输入到两个不同的BERT层,即Bert1和Bert2,两个Bert层分别输出256维向量。
2)匹配层
匹配层包括两个CNN层。将两个BERT层分别输出的256维向量,共512维向量共同输入到第一个CNN层,第一个CNN层经过卷积输出两个128维语义向量,然后输入到第二个CNN层。
第二个CNN层计算两个语义向量(128维)的余弦距离来计算相似度:
Figure BDA0002999250140000041
其中,Q为Query的128维特征向量,D为Title的128维特征向量,yQ与yD为某一样本的相应特征向量
之后使用多分类softmax函数计算文本匹配对应的概率:
Figure BDA0002999250140000042
其中γ为softmax函数的平滑因子,D+为Query下的正样本,D′为Query下的整个样本空间。
文本匹配任务的损失函数:
Figure BDA0002999250140000043
其中,∧指迭代次数。损失函数即使得Query在正样本的情况,概率越大越好。
本发明将将训练样本输入到本发明的双结构模型中,Query输入待匹配文本,Title分别输入与待匹配同义语句和不同同义语句,使得同义语句,输出概率为1,不同语义语句,输出概率为0;迭代训练两个CNN层,并对两个Bert进行微调,直到神经网络模型收敛为止。
实验数据
本发明使用BQ Corpus(Bank Question Corpus),银行金融领域的问题匹配数据,包括了从一年的线上银行系统日志里抽取的问题pair对,是目前最大的银行领域问题匹配数据。将BQ Corpus数据集进行划分,包括训练集100000,验证集10000,测试集10000,分别对传统双塔模型,Bert,及本发明进行实验,正确率结果如下:
Figure BDA0002999250140000044
Figure BDA0002999250140000051
以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于双塔结构模型的文本匹配方法,其步骤包括:
1)将训练集中的一组待匹配文件与匹配文件,分别输入两个独立的预处理语言模型,得到待匹配文件语义向量与匹配文本语义向量;
2)将待匹配文件语义向量与匹配文本语义向量输入第一CNN层,进行降维,并利用第二CNN层,计算降维后的待匹配文件语义向量与匹配文本语义向量的相似度;
3)根据所述相似度,获取该组待匹配文件与匹配文件的匹配结果;
4)利用训练集中各组待匹配文件与匹配文件迭代训练第一CNN层与第二CNN层,并对预处理语言模型进行微调,得到改进后的双塔结构模型;
5)将待匹配文件与匹配文件输入改进后的双塔结构模型,得到匹配结果。
2.如权利要求1所述的方法,其特征在于,语言模型包括:BERT模型、ELMO模型或GPT模型。
3.如权利要求1所述的方法,其特征在于,待匹配文件语义向量与匹配文本语义向量的维度为256维。
4.如权利要求1所述的方法,其特征在于,降维后的待匹配文件语义向量与匹配文本语义向量为128维。
5.如权利要求1所述的方法,其特征在于,计算相似度的方法包括:计算降维后的待匹配文件语义向量与匹配文本语义向量的余弦距离。
6.如权利要求1所述的方法,其特征在于,通过以下步骤获取该组待匹配文件与匹配文件的匹配结果:
1)利用多分类softmax函数,计算文本匹配概率;
2)根据文本匹配概率及一设定阈值,得到该组待匹配文件与匹配文件的匹配结果。
7.如权利要求6所述的方法,其特征在于,文本匹配概率
Figure FDA0002999250130000011
其中Q为降维后的待匹配文件语义向量,D为降维后的匹配文件语义向量,D+为降维后的匹配文件语义向量在降维后的待匹配文件语义向量下的正样本,D′为降维后的匹配文件语义向量在降维后的待匹配文件语义向量下的整个样本空间,γ为softmax函数的平滑因子,R(·)为相似度。
8.如权利要求1所述的方法,其特征在于,迭代训练第一CNN层与第二CNN层时,损失函数
Figure FDA0002999250130000012
其中∧为迭代次数,Q为降维后的待匹配文件语义向量,D+为降维后的匹配文件语义向量在降维后的待匹配文件语义向量下的正样本。
9.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。
10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。
CN202110340167.2A 2021-03-30 2021-03-30 基于双塔结构模型的文本匹配方法及装置 Pending CN113283245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110340167.2A CN113283245A (zh) 2021-03-30 2021-03-30 基于双塔结构模型的文本匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110340167.2A CN113283245A (zh) 2021-03-30 2021-03-30 基于双塔结构模型的文本匹配方法及装置

Publications (1)

Publication Number Publication Date
CN113283245A true CN113283245A (zh) 2021-08-20

Family

ID=77276057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110340167.2A Pending CN113283245A (zh) 2021-03-30 2021-03-30 基于双塔结构模型的文本匹配方法及装置

Country Status (1)

Country Link
CN (1) CN113283245A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150074027A1 (en) * 2013-09-06 2015-03-12 Microsoft Corporation Deep Structured Semantic Model Produced Using Click-Through Data
CN111046155A (zh) * 2019-11-27 2020-04-21 中博信息技术研究院有限公司 一种基于fsm多轮问答的语义相似度计算方法
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150074027A1 (en) * 2013-09-06 2015-03-12 Microsoft Corporation Deep Structured Semantic Model Produced Using Click-Through Data
CN111046155A (zh) * 2019-11-27 2020-04-21 中博信息技术研究院有限公司 一种基于fsm多轮问答的语义相似度计算方法
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PO-SEN HUANG 等: "Learning Deep Structured Semantic Models for Web Search using Clickthrough Data", 《CIKM "13》 *

Similar Documents

Publication Publication Date Title
CN106484682B (zh) 基于统计的机器翻译方法、装置及电子设备
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
Wang et al. Common sense knowledge for handwritten chinese text recognition
CN105095204B (zh) 同义词的获取方法及装置
US20170242840A1 (en) Methods and systems for automated text correction
CN112989834A (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
CN105068997B (zh) 平行语料的构建方法及装置
US11170169B2 (en) System and method for language-independent contextual embedding
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
US20240111956A1 (en) Nested named entity recognition method based on part-of-speech awareness, device and storage medium therefor
Hamed et al. Deep learning approach for translating arabic holy quran into italian language
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111191464A (zh) 基于组合距离的语义相似度计算方法
CN114020906A (zh) 基于孪生神经网络的中文医疗文本信息匹配方法及系统
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN113221542A (zh) 一种基于多粒度融合与Bert筛选的中文文本自动校对方法
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
CN115238696A (zh) 中文命名实体识别方法、电子设备及存储介质
Hu et al. Retrieval-based language model adaptation for handwritten Chinese text recognition
CN114218921A (zh) 一种优化bert的问题语义匹配方法
CN114490937A (zh) 基于语义感知的评论分析方法及装置
CN117556789A (zh) 基于多层次语义挖掘的学生评语生成方法
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination