CN114065729A - 一种基于深度文本匹配模型的文本排序方法 - Google Patents
一种基于深度文本匹配模型的文本排序方法 Download PDFInfo
- Publication number
- CN114065729A CN114065729A CN202111358728.8A CN202111358728A CN114065729A CN 114065729 A CN114065729 A CN 114065729A CN 202111358728 A CN202111358728 A CN 202111358728A CN 114065729 A CN114065729 A CN 114065729A
- Authority
- CN
- China
- Prior art keywords
- sentence
- similarity
- matching model
- sequence
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012163 sequencing technique Methods 0.000 claims abstract description 10
- 230000004913 activation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于深度文本匹配模型的文本排序方法,本方法将句子对输入模型,直接由模型计算得出相似度。采用m表示相似度登记,可以表示等级更高的情况,这样可以更加充分利用句子之间相似程度信息。损失函数不仅考虑了整个句子序列与问题Q之间相似程度信息,还对排序靠前位置给与更高的权重,使得训练得到的模型在排序后靠前位置的准确度更高。综合而言,本方法更加充分利用句子之间相似程度信息,提高排序准确性。
Description
技术领域
本发明涉及自然语言处理领域,尤其是文本排序领域,具体是一种基于深度文本匹配模型的文本排序方法。
背景技术
现有的深度文本匹配模型进行训练大多采用句子对匹配的方法,即句子对(A, B)相似与否,而没有充分利用句子之间相似程度的信息,即对于句子序列(Q, A1,A2,..,An),所有句子Ai中哪一个与句子Q更加相似。此方法训练出来的深度文本匹配模型只能关注到句子对相似与否,不能充分利用句子之间相似程度的信息,对输入文本排序时,必然会造成排序不够准备的问题。
发明内容
本发明要解决的技术问题是提供一种基于深度文本匹配模型的文本排序方法,更加充分利用句子之间相似程度信息,提高排序准确性。
为了解决所述技术问题,本发明采用的技术方案是:一种基于深度文本匹配模型的文本排序方法,包括以下步骤:
S01)、模型训练,首先准备训练集,将单个样本组织为一个句子序列(Q,A1,A2,…,Ai,…, An),其中Q表示被对比句,A1至An表示n个要与Q进行对比的对比句,单个样本中句子对(Q,Ai)的真实相似度为r(i),对于其他样本进行相同操作,形成训练集;
将所有样本按照一定的batch_size输入深度文本匹配模型,batch_size表示训练过程每一步需要的样本数目;首先将句子序列中的问题Q分别与句子Ai组成句对(Q,Ai),然后分别将句对输入深度文本匹配模型进行计算,得到句对的预测相似度值si;
对于单个样本损失计算如下:其中si、sj分别表示由模型计算的句子对(Q,Ai)和(Q,Aj)的预测相似度, r(i)、r(j)分别表示句子对(Q,Ai)和(Q,Aj)的真实相似度,ΔNDCG表示交换位置i,j前后计算的NDCG的差值,用来表示排错的代价;σ表示σ激活函数;根据上述损失值调整深度文本匹配模型的参数,从而得出训练好的深度文本匹配模型;
S02)、利用步骤S01)训练好的深度文本匹配模型对输入的语句进行文本排序。
进一步的,计算ΔNDCG的过程为:
给定被对比句Q和对比句序列(A1,A2,…,Ai,…,An),r(i)表示Q与Ai之间的真实相似度,si表示模型预测的Q与Ai之间的预测相似度,将句子序列(A1, A2,..,Ai,..,An)按照r(i)由大到小进行排序,然后取每个句子对应的r(i) 得到最理想的相似度序列D1;将句子序列(A1,A2,..,Ai,..,An)按照si 由大到小进行排序,然后取每个句子对应的r(i)得到相似度序列D2,为了评估排序质量,规定:
则对于序列D1,其对应的score为:
对于序列D2,其对应的其对应的score为:
进一步的,句对的真实相似度采用m级表示,即m,m-1,..,1,m为不小于3 的正整数,m数值越大,相关度越高。
进一步的,真实相似度为整数,预测相似度为浮点数。
本发明的有益效果:本方法将句子对输入模型,直接由模型计算得出相似度。采用m表示相似度登记,可以表示等级更高的情况,这样可以更加充分利用句子之间相似程度信息。损失函数不仅考虑了整个句子序列与问题Q之间相似程度信息,还对排序靠前位置给与更高的权重,使得训练得到的模型在排序后靠前位置的准确度更高。
具体实施方式
下面结合具体实施例对本发明作进一步的说明。
实施例1
本实施例公开一种基于深度文本匹配模型的文本排序方法,本方法包括文本训练和文本排序两部分。
文本训练阶段先准备训练集,将单个样本组织为一个句子序列(Q,A1,A2,…,Ai,…,An),其中Q表示被对比句,A1至An表示n个要与Q进行对比的对比句,单个样本中句子对(Q,Ai)的真实相似度为r(i),对于其他样本进行相同操作,形成训练集。
将所有样本按照一定的batch_size输入深度文本匹配模型,batch_size表示训练过程每一步需要的样本数目;首先将句子序列中的问题Q分别与句子Ai组成句对(Q,Ai),然后分别将句对输入深度文本匹配模型进行计算,得到句对的预测相似度值si。
其中si、sj分别表示由模型计算的句子对(Q,Ai)和(Q,Aj)的预测相似度,r(i)、r(j)分别表示句子对(Q,Ai)和(Q,Aj)的真实相似度,ΔNDCG表示交换位置i,j前后计算的NDCG的差值,用来表示排错的代价;σ表示σ激活函数。
根据上述损失值调整深度文本匹配模型的参数,从而得出训练好的深度文本匹配模型。
文本排序利用上面训练好的深度文本匹配模型对输入的语句进行文本排序。
本实施例中,计算ΔNDCG的过程为:
给定被对比句Q和对比句序列(A1,A2,…,Ai,…,An),r(i)表示Q与 Ai之间的真实相似度,si表示模型预测的Q与Ai之间的预测相似度,将句子序列(A1,A2,..,Ai,..,An)按照r(i)由大到小进行排序,然后取每个句子对应的r(i)得到最理想的相似度序列D1;将句子序列(A1,A2,..,Ai,..,An) 按照si由大到小进行排序,然后取每个句子对应的r(i)得到相似度序列D2,为了评估排序质量,规定:
则对于序列D1,其对应的score为:
对于序列D2,其对应的其对应的score为:
本实施例中,句对的真实相似度采用m级表示,即m,m-1,..,1,m为不小于 3的正整数,m数值越大,相关度越高。
本实施例中,真实相似度为整数,预测相似度为浮点数。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。
Claims (4)
1.一种基于深度文本匹配模型的文本排序方法,其特征在于:包括以下步骤:
S01)、模型训练,
首先准备训练集,将单个样本组织为一个句子序列(Q,A1,A2,…,Ai,…,An),其中Q表示被对比句,A1至An表示n个要与Q进行对比的对比句,单个样本中句子对(Q,Ai)的真实相似度为r(i),对于其他样本进行相同操作,形成训练集;
将所有样本按照一定的batch_size输入深度文本匹配模型,batch_size表示训练过程每一步需要的样本数目;首先将句子序列中的问题Q分别与句子Ai组成句对(Q,Ai),然后分别将句对输入深度文本匹配模型进行计算,得到句对的预测相似度值si;
其中si、sj分别表示由模型计算的句子对(Q,Ai)和(Q,Aj)的预测相似度,r(i)、r(j)分别表示句子对(Q,Ai)和(Q,Aj)的真实相似度,ΔNDCG表示交换位置i,j前后计算的NDCG的差值,用来表示排错的代价;σ表示σ激活函数;根据上述损失值调整深度文本匹配模型的参数,从而得出训练好的深度文本匹配模型;
S02)、利用步骤S01)训练好的深度文本匹配模型对输入的语句进行文本排序。
2.根据权利要求1所述的基于深度文本匹配模型的文本排序方法,其特征在于:计算ΔNDCG的过程为:
给定被对比句Q和对比句序列(A1,A2,…,Ai,…,An),r(i)表示Q与Ai之间的真实相似度,si表示模型预测的Q与Ai之间的预测相似度,将句子序列(A1,A2,..,Ai,..,An)按照r(i)由大到小进行排序,然后取每个句子对应的r(i)得到最理想的相似度序列D1;将句子序列(A1,A2,..,Ai,..,An)按照si由大到小进行排序,然后取每个句子对应的r(i)得到相似度序列D2,为了评估排序质量,规定:
则对于序列D1,其对应的score为:
对于序列D2,其对应的其对应的score为:
交换句子i、j的位置,i=1,2,…,n,j=1,2,…,n,分别计算交换之后D1、D2对应的NDCG,ΔNDCG则表示交换位置i,j前后计算的NDCG的差值。
3.根据权利要求1所述的基于深度文本匹配模型的文本排序方法,其特征在于:句对的真实相似度采用m级表示,即m,m-1,..,1,m为不小于3的正整数,m数值越大,相关度越高。
4.根据权利要求1所述的基于深度文本匹配模型的文本排序方法,其特征在于:真实相似度为整数,预测相似度为浮点数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111358728.8A CN114065729A (zh) | 2021-11-16 | 2021-11-16 | 一种基于深度文本匹配模型的文本排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111358728.8A CN114065729A (zh) | 2021-11-16 | 2021-11-16 | 一种基于深度文本匹配模型的文本排序方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114065729A true CN114065729A (zh) | 2022-02-18 |
Family
ID=80272933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111358728.8A Pending CN114065729A (zh) | 2021-11-16 | 2021-11-16 | 一种基于深度文本匹配模型的文本排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114065729A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100179933A1 (en) * | 2009-01-12 | 2010-07-15 | Nec Laboratories America, Inc. | Supervised semantic indexing and its extensions |
CN110019685A (zh) * | 2019-04-10 | 2019-07-16 | 北京神州泰岳软件股份有限公司 | 基于排序学习的深度文本匹配方法及装置 |
CN110969006A (zh) * | 2019-12-02 | 2020-04-07 | 支付宝(杭州)信息技术有限公司 | 一种文本排序模型的训练方法和系统 |
CN112115253A (zh) * | 2020-08-17 | 2020-12-22 | 北京计算机技术及应用研究所 | 基于多视角注意力机制的深度文本排序方法 |
US20210026887A1 (en) * | 2019-07-26 | 2021-01-28 | Toyota Jidosha Kabushiki Kaisha | Retrieval device, training device, retrieval system, and recording medium |
US20210224286A1 (en) * | 2018-11-29 | 2021-07-22 | Tencent Technology (Shenzhen) Company Limited | Search result processing method and apparatus, and storage medium |
-
2021
- 2021-11-16 CN CN202111358728.8A patent/CN114065729A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100179933A1 (en) * | 2009-01-12 | 2010-07-15 | Nec Laboratories America, Inc. | Supervised semantic indexing and its extensions |
US20210224286A1 (en) * | 2018-11-29 | 2021-07-22 | Tencent Technology (Shenzhen) Company Limited | Search result processing method and apparatus, and storage medium |
CN110019685A (zh) * | 2019-04-10 | 2019-07-16 | 北京神州泰岳软件股份有限公司 | 基于排序学习的深度文本匹配方法及装置 |
US20210026887A1 (en) * | 2019-07-26 | 2021-01-28 | Toyota Jidosha Kabushiki Kaisha | Retrieval device, training device, retrieval system, and recording medium |
CN110969006A (zh) * | 2019-12-02 | 2020-04-07 | 支付宝(杭州)信息技术有限公司 | 一种文本排序模型的训练方法和系统 |
CN112115253A (zh) * | 2020-08-17 | 2020-12-22 | 北京计算机技术及应用研究所 | 基于多视角注意力机制的深度文本排序方法 |
Non-Patent Citations (2)
Title |
---|
王品;黄广君;: "信息检索中的句子相似度计算", 计算机工程, no. 12, 20 June 2011 (2011-06-20) * |
阿北: "LTR排序算法LambdaRank原理详解", pages 1 - 6, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/270608987?utm_id=0> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382580B (zh) | 一种面向神经机器翻译的编码器-解码器框架预训练方法 | |
CN109582949A (zh) | 事件元素抽取方法、装置、计算设备及存储介质 | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
CN107918656A (zh) | 基于视频标题的视频封面提取方法及装置 | |
CN110517664A (zh) | 多方言识别方法、装置、设备及可读存储介质 | |
CN108563791A (zh) | 一种建筑质量投诉文本分类的方法和系统 | |
CN111160027A (zh) | 基于语义注意力的循环神经网络事件时序关系识别方法 | |
CN112488147A (zh) | 一种基于对抗网络的冗余去除主动学习方法 | |
CN115409124A (zh) | 基于微调原型网络的小样本敏感信息识别方法 | |
CN114511739A (zh) | 一种基于元迁移学习的任务自适应的小样本图像分类方法 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
CN112989848B (zh) | 一种领域适应医学文献神经机器翻译模型的训练方法 | |
CN110309513A (zh) | 一种文本依存分析的方法和装置 | |
CN110708619B (zh) | 一种智能设备的词向量训练方法及装置 | |
CN111191027B (zh) | 一种基于高斯混合分布vae的广义零样本识别方法 | |
CN114065729A (zh) | 一种基于深度文本匹配模型的文本排序方法 | |
CN116611447A (zh) | 一种基于深度学习方法的信息抽取和语义匹配系统及方法 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN110443277A (zh) | 基于注意力模型的少量样本分类方法 | |
CN109255019A (zh) | 一种基于人工智能的在线题库及其应用方法 | |
CN108762523A (zh) | 基于capsule网络的输入法输出字符预测方法 | |
CN114912446A (zh) | 一种关键词抽取方法、装置及储存介质 | |
CN110162629B (zh) | 一种基于多基模型框架的文本分类方法 | |
CN113177119A (zh) | 文本分类模型训练、分类方法和系统及数据处理系统 | |
CN114676851B (zh) | 召回和排序模型的联合训练方法、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |