CN111310411A - 一种基于多样性模型的文本相关性判定方法、装置和设备 - Google Patents
一种基于多样性模型的文本相关性判定方法、装置和设备 Download PDFInfo
- Publication number
- CN111310411A CN111310411A CN202010155810.XA CN202010155810A CN111310411A CN 111310411 A CN111310411 A CN 111310411A CN 202010155810 A CN202010155810 A CN 202010155810A CN 111310411 A CN111310411 A CN 111310411A
- Authority
- CN
- China
- Prior art keywords
- document
- vectors
- vector
- model
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于多样性模型的文本相关性判定方法,包括:获取第一文档与第二文档,分别进行预处理,其中,所述预处理包括去除特殊符号和乱码;将预处理后的第一文档和第二文档合并转化为数字序列,输入至少两个预训练模型中;所述至少两个预训练模型分别获取合并后数字序列的向量,并加入噪声层分别获得对应的特征向量;将所述特征向量分别送入softmax函数,获得各自的相关性矩阵;将所述各自的相关性矩阵加权求和,获得相关性判断结果。本发明提高了判定文本相关性的有效性和准确性。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于多样性模型的文本相关性判定方法和设备。
背景技术
随着互联网技术的不断发展,网络上充斥着海量的数据,比如各种图片、文本等内容,丰富着人们的生活。但是,伴随这些信息的,还有各种无价值的垃圾信息,比如人们不想看到的广告、新闻等。如何从海量的数据中判定信息的相关性,获得用户所期望的信息,减少无价值信息的干扰就变得十分重要。
文本作为自然语言的载体,通常以一种非结构化或半结构化的形式存在,两个文本相关性的判定是自然语言处理中的文本语义匹配问题。例如,信息检索可以归结为查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配。针对不同的任务选取合适的匹配模型,提高匹配的准确率成为自然语言处理任务的重要挑战。
随着近年来深度学习在自然语言处理领域的发展,学者们逐渐将深度学习应用到文本相关度判定任务中。深度学习应用在文本相关性判定可以总结为以下四个阶段:1、单语义模型,单语义模型只是简单的用全连接网络、卷积神经网络或递归神经网络编码两个句子然后计算句子之间的匹配度,没有考虑到句子中短语的局部结构。2、多语义模型,多语义模型从多颗粒的角度解读句子,考虑到和句子的局部结构。3、匹配矩阵模型,匹配矩阵模型更多的考虑待匹配的句子间不同单词的交互,计算两两之间的匹配度,再用深度网络提取特征,更精细的处理句子中的联系。以及4、深层次的句子间模型。随着注意力机制(attention)等交互机制论文的发表,研究人员采用更精细的结构去挖掘句子内和句子间不同单词之间的联系,得到更好的效果。
本发明引入多样性的深度预训练模型,结合注意力机制判定文本相关性,能够有效提升判定结果的准确性。
发明内容
有鉴于此,本发明的目的在于提供一种自然语言处理方法,尤其涉及一种基于多样性模型的文本相关性判定方法、装置和设备,来提升判定结果的准确性。
为达到上述目的,本发明提供如下技术方案:
一种基于多样性模型的文本相关性判定方法,包括:获取第一文档与第二文档,分别进行预处理,其中,所述预处理包括去除特殊符号和乱码;将预处理后的第一文档和第二文档合并转化为数字序列,输入至少两个预训练模型;所述至少两个预训练模型分别获取合并后数字序列的向量,并加入噪声层分别获得对应的特征向量;将所述特征向量分别送入softmax函数,获得各自的相关性矩阵;将所述各自的相关性矩阵加权求和,获得相关性判断结果。
优选地,所述对第一文档和第二文档分别进行预处理还包括,分别根据所要输入的所述至少两个预训练模型的各自的要求,截取部分内容。
优选地,所述至少两个预训练模型包括BERT、BERT-wwm、RoBERTa-large和RoBERTa-large-wwm中的任意两个或多个。
优选地,所述至少两个预训练模型分别获取合并后数字序列的向量包括合并后数字序列的句向量和字向量。
优选地,所述加入噪声层分别获得一特征向量包括以下步骤:从合并后文档的向量中得到CLS位置的句向量H0,以及序列的隐藏向量H1,H2,...,HK,对序列的隐藏向量进行平均池化和最大池化操作,得到平均池化后的向量Have和最大池化后的向量Hmax;使用前馈神经网络和softmax函数求取隐藏向量H1,H2,...,HK的权重α1,α2,...αK,其中,所述gi=linear(Hi),linear为前馈神经网络;对各个隐藏向量加权求和将H0、Have、Hmax和Hatt拼接为一特征向量H=[H0,Have,Hmax,Hatt]。
优选地,所述相关性矩阵是四列概率矩阵,每列概率分别表示相关性大小。
本公开中的方法利用多个预训练模型结合噪声层的处理,有效地提升了文本相关性判断的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明提出的方法流程图;
图2为本发明实施例中的神经网络模型结构;
图3是本发明实施例提供的文本相关性判定装置。
具体实施方式
下面结合说明书附图对本发明进行进一步的说明。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
如图1所示,本发明的第一优选实施例中,包括以下步骤:步骤102中,对需要对比的文档D1和D2进行数据预处理。其中,预处理包括去除文档中存在的特殊符号,或者可能存在的乱码,以及一些可能无实际意义的字、词等。更进一步地,由于后续处理文档的数据模型所要求,只能输入限定范围内的字符,比如BERT模型允许最大的输入长度为512字,因此在文档长度超过限定时,需要进行截断处理。所谓截断处理是指,将文档D1和D2各自去掉开头和结尾的部分或全部,保留满足模型允许最大值的字符数的文档内容。在步骤104中,经过预处理后的文档D1’和D2’进行顺序拼接,形成合并文档,并进一步转化为数字序列。比如在BERT模型中,参考图2中所示出的例子,在202处,处理后的文档D1’和D2’拼接为[CLS,D1’,SEP,D2’,SEP]的自然语言文档,将其转化为数字序列,其中,D1’和D2’分别与图2中202处的Sentence 1或Sentence 2对应。随后,将数字序列输入至少两个预训练模型中。在步骤106,所述至少两个预训练模型分别获得数字序列在该模型内对应的向量,并加入噪声层获得对应的特征向量;进而在步骤108中,将所述特征向量分别送入softmax函数,获得各自的相关性多分类概率矩阵,矩阵中每列概率分别表示相关性大小;最后在步骤110中,将所述各自的相关性多分类概率矩阵加权求和,获得相关性判断结果,概率值最大的元素所对应的标签即为最终的相关性判断结果。
根据本发明的又一实施例,在图1中步骤104中,至少两个预训练模型包括了BERT模型、BERT-wwm模型、RoBERTa-large模型和RoBERTa-large-wwm模型。所述的至少两个预训练模型为其中的至少两个模型的组合。
根据本发明的又一实施例,在图1中步骤106中,至少两个预训练模型分别获得数字序列在该模型内对应的向量包括获取数字序列中对应的句向量和字向量。将数字序列输入到任一模型,参考图2,在204处,在CLS位置输出句向量H0,在其他位置输出序列的隐藏向量为字向量,H1,H2,...,HK。针对其中的隐藏向量,进行平均池化和最大池化操作,分别得到平均池化后的向量Have和最大池化后的向量Hmax。同时,引入前馈神经网络计算每个字的重要程度。前馈神经网络采用gi=linear(Hi)表示,并将字向量H1,H2,...,HK中的每一个字Hi对应的gi通过公式计算对应的重要性αi,再引入单词级别的注意力机制,对每个字的重要性参数加权求和,获得注意力特征向量最后,将句向量H0,平均池化后的向量Have,最大池化后的向量Hmax,以及注意力特征向量Hatt拼接,获得最终的特征向量H=[H0,Have,Hmax,Hatt]。
根据本发明的又一实施例,在步骤108中,将前述最终的特征向量输入softmax函数,取得各自的相关性多分类概率矩阵,所述多分类概率矩阵均为1×4的行矩阵,从左至右的元素列分别表示不相关、弱相关、较强相关和强相关。
根据本发明的又一实施例,在步骤110中,将所述各自的相关性多分类概率矩阵加权求和,获得相关性判断结果包括,使用各预训练模型的先验权值,与前述步骤108中获得的对应模型输出的概率矩阵进行加权求和。为便于说明,在此假定有N=4种预训练模型,经过前述步骤108,例如第一预训练模型的输出概率矩阵为S1=[0.1,0.2,0.3,0.4],第二预训练模型的输出概率矩阵为S2=[0.3,0.3,0.2,0.2],第三预训练模型的输出概率矩阵为S3=[0.2,0.2,0.2,0.4],第四预训练模型的输出概率矩阵为S4=[0.1,0.3,0.3,0.3],再假定各模型的先验权值分别为第一预训练模型w1=0.2,第二预训练模型w2=0.2,第三预训练模型w3=0.3,第四预训练模型w4=0.3,则取加权和为其中,wj为各预训练模型的先验权值。最后,得出假定条件的判定结果矩阵为[0.23,0.25,0.22,0.30]。根据前述多分类概率矩阵从左至右的元素列分别表示不相关、弱相关、较强相关和强相关,并且所得加权和S中0.30为最大概率值,其对应的标签是强相关,因此,所假设内容的判定为强相关。
在本发明的又一个实施例中,提供了一种基于多样性模型的文本相关性判定的装置,如图3所示,包括:数据预处理模块,用于对文档先进行数据预处理;序列转化模块,用于将合并文档转化为数字序列,并将序列送入预训练模型;预训练模块,用于获取数字序列中的向量,并加入噪声层获取对应的特征向量;分类模块,用于通过softmax函数获取相关性矩阵;模型加权融合模块,对相关性矩阵加权求和,获得相关性结果。
在本发明的又一个实施例中,还提供了一种基于多样性模型的文本相关性判定终端,包括处理器和存储器,所述存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时如上述的基于多样性模型的文本相关性判定方法,以及包括前述的装置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于多样性模型的文本相关性判定方法,其特征在于,包括:获取第一文档与第二文档,分别进行预处理,其中,所述预处理包括去除特殊符号和乱码;将预处理后的第一文档和第二文档合并转化为数字序列,输入至少两个预训练模型中;所述至少两个预训练模型分别获取合并后数字序列的向量,并加入噪声层分别获得对应的特征向量;将所述特征向量分别送入softmax函数,获得各自的相关性矩阵;将所述各自的相关性矩阵加权求和,获得相关性判断结果。
2.根据权利要求1所述的方法,其特征还在于,所述对第一文档和第二文档分别进行预处理还包括,分别根据所要输入的所述至少两个预训练模型的各自的要求,截取部分内容。
3.根据权利要求1所述的方法,其特征还在于,所述至少两个预训练模型包括BERT、BERT-wwm、RoBERTa-large和RoBERTa-large-wwm中的任意两个或多个。
4.根据权利要求1所述的方法,其特征还在于,所述至少两个预训练模型分别获取合并后数字序列的向量包括合并后数字序列的句向量和字向量。
6.根据权利要求1所述的方法,其特征还在于,所述相关性矩阵是四列概率矩阵,每列概率分别表示相关性大小。
8.一种基于多样性模型的文本相关性判定的装置,其特征在于,包括:数据预处理模块,用于对文档先进行数据预处理;序列转化模块,用于将合并文档转化为数字序列,并将序列送入预训练模型;预训练模块,用于获取数字序列中的向量,并加入噪声层获取对应的特征向量;分类模块,用于获取相关性矩阵;模型加权融合模块,对相关性矩阵加权求和,获得相关性结果。
9.一种基于多样性模型的文本相关性判定方法的终端,其特征在于,包含权利要求8中所述的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010155810.XA CN111310411B (zh) | 2020-03-09 | 2020-03-09 | 一种基于多样性模型的文本相关性判定方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010155810.XA CN111310411B (zh) | 2020-03-09 | 2020-03-09 | 一种基于多样性模型的文本相关性判定方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310411A true CN111310411A (zh) | 2020-06-19 |
CN111310411B CN111310411B (zh) | 2022-07-12 |
Family
ID=71160523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010155810.XA Active CN111310411B (zh) | 2020-03-09 | 2020-03-09 | 一种基于多样性模型的文本相关性判定方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310411B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052673A (zh) * | 2020-08-28 | 2020-12-08 | 丰图科技(深圳)有限公司 | 物流网点识别方法、装置、计算机设备和存储介质 |
CN112231448A (zh) * | 2020-12-09 | 2021-01-15 | 南京云问网络技术有限公司 | 一种文档智能问答方法和装置 |
CN112307212A (zh) * | 2020-11-11 | 2021-02-02 | 上海昌投网络科技有限公司 | 一种用于广告投放的投放舆情监测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180349477A1 (en) * | 2017-06-06 | 2018-12-06 | Facebook, Inc. | Tensor-Based Deep Relevance Model for Search on Online Social Networks |
CN110322962A (zh) * | 2019-07-03 | 2019-10-11 | 重庆邮电大学 | 一种自动生成诊断结果的方法、系统及计算机设备 |
CN110413988A (zh) * | 2019-06-17 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度量的方法、装置、服务器及存储介质 |
CN110598221A (zh) * | 2019-08-29 | 2019-12-20 | 内蒙古工业大学 | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 |
CN110647629A (zh) * | 2019-09-20 | 2020-01-03 | 北京理工大学 | 一种多粒度答案排序的多文档机器阅读理解方法 |
CN110781680A (zh) * | 2019-10-17 | 2020-02-11 | 江南大学 | 基于孪生网络和多头注意力机制的语义相似度匹配方法 |
-
2020
- 2020-03-09 CN CN202010155810.XA patent/CN111310411B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180349477A1 (en) * | 2017-06-06 | 2018-12-06 | Facebook, Inc. | Tensor-Based Deep Relevance Model for Search on Online Social Networks |
CN110413988A (zh) * | 2019-06-17 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度量的方法、装置、服务器及存储介质 |
CN110322962A (zh) * | 2019-07-03 | 2019-10-11 | 重庆邮电大学 | 一种自动生成诊断结果的方法、系统及计算机设备 |
CN110598221A (zh) * | 2019-08-29 | 2019-12-20 | 内蒙古工业大学 | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 |
CN110647629A (zh) * | 2019-09-20 | 2020-01-03 | 北京理工大学 | 一种多粒度答案排序的多文档机器阅读理解方法 |
CN110781680A (zh) * | 2019-10-17 | 2020-02-11 | 江南大学 | 基于孪生网络和多头注意力机制的语义相似度匹配方法 |
Non-Patent Citations (3)
Title |
---|
YINHAN LIU: "Roberta: a robustly optimized bert pretraining approach", 《HTTPS://ARXIV.ORG/PDF/1907.11692.PDF》 * |
ZHIMIN LIN: "Siamese BERT Model with Adversarial Training for Relation Classification", 《2020 IEEE INTERNATIONAL CONFERENCE ON KNOWLEDGE GRAPH(ICKG)》 * |
林智敏: "基于深度学习的法律判决文书问答系统研究", 《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅰ辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052673A (zh) * | 2020-08-28 | 2020-12-08 | 丰图科技(深圳)有限公司 | 物流网点识别方法、装置、计算机设备和存储介质 |
CN112307212A (zh) * | 2020-11-11 | 2021-02-02 | 上海昌投网络科技有限公司 | 一种用于广告投放的投放舆情监测方法 |
CN112231448A (zh) * | 2020-12-09 | 2021-01-15 | 南京云问网络技术有限公司 | 一种文档智能问答方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111310411B (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134771B (zh) | 一种基于多注意力机制融合网络问答系统的实现方法 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN111310411B (zh) | 一种基于多样性模型的文本相关性判定方法、装置和设备 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN111931513A (zh) | 一种文本的意图识别方法及装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111382565A (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN111709223B (zh) | 基于bert的句子向量生成方法、装置及电子设备 | |
CN113239169A (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN111008266A (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN110956038A (zh) | 图文内容重复判断方法及装置 | |
CN111597815A (zh) | 一种多嵌入命名实体识别方法、装置、设备及存储介质 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
JP2017010249A (ja) | パラメタ学習装置、文類似度算出装置、方法、及びプログラム | |
CN117332788B (zh) | 一种基于英语口语文本的语义分析方法 | |
CN110705315B (zh) | 一种基于通道和空间维度的词向量训练方法 | |
CN116226357B (zh) | 一种输入中包含错误信息场景下的文档检索方法 | |
Chowanda et al. | Generative Indonesian conversation model using recurrent neural network with attention mechanism | |
CN112632272A (zh) | 基于句法分析的微博情感分类方法和系统 | |
CN116432705A (zh) | 文本生成模型构建、文本生成方法和装置、设备及介质 | |
CN114386425B (zh) | 用于对自然语言文本内容进行处理的大数据体系建立方法 | |
Zhao et al. | Commented content classification with deep neural network based on attention mechanism | |
CN115759102A (zh) | 一种中国诗酒文化命名实体识别方法 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |