CN114065729A - 一种基于深度文本匹配模型的文本排序方法 - Google Patents

一种基于深度文本匹配模型的文本排序方法 Download PDF

Info

Publication number
CN114065729A
CN114065729A CN202111358728.8A CN202111358728A CN114065729A CN 114065729 A CN114065729 A CN 114065729A CN 202111358728 A CN202111358728 A CN 202111358728A CN 114065729 A CN114065729 A CN 114065729A
Authority
CN
China
Prior art keywords
sentence
similarity
matching model
sequence
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111358728.8A
Other languages
English (en)
Inventor
张琨
张传锋
朱锦雷
张汉同
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synthesis Electronic Technology Co Ltd
Original Assignee
Synthesis Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synthesis Electronic Technology Co Ltd filed Critical Synthesis Electronic Technology Co Ltd
Priority to CN202111358728.8A priority Critical patent/CN114065729A/zh
Publication of CN114065729A publication Critical patent/CN114065729A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于深度文本匹配模型的文本排序方法,本方法将句子对输入模型,直接由模型计算得出相似度。采用m表示相似度登记,可以表示等级更高的情况,这样可以更加充分利用句子之间相似程度信息。损失函数不仅考虑了整个句子序列与问题Q之间相似程度信息,还对排序靠前位置给与更高的权重,使得训练得到的模型在排序后靠前位置的准确度更高。综合而言,本方法更加充分利用句子之间相似程度信息,提高排序准确性。

Description

一种基于深度文本匹配模型的文本排序方法
技术领域
本发明涉及自然语言处理领域,尤其是文本排序领域,具体是一种基于深度文本匹配模型的文本排序方法。
背景技术
现有的深度文本匹配模型进行训练大多采用句子对匹配的方法,即句子对(A, B)相似与否,而没有充分利用句子之间相似程度的信息,即对于句子序列(Q, A1,A2,..,An),所有句子Ai中哪一个与句子Q更加相似。此方法训练出来的深度文本匹配模型只能关注到句子对相似与否,不能充分利用句子之间相似程度的信息,对输入文本排序时,必然会造成排序不够准备的问题。
发明内容
本发明要解决的技术问题是提供一种基于深度文本匹配模型的文本排序方法,更加充分利用句子之间相似程度信息,提高排序准确性。
为了解决所述技术问题,本发明采用的技术方案是:一种基于深度文本匹配模型的文本排序方法,包括以下步骤:
S01)、模型训练,首先准备训练集,将单个样本组织为一个句子序列(Q,A1,A2,…,Ai,…, An),其中Q表示被对比句,A1至An表示n个要与Q进行对比的对比句,单个样本中句子对(Q,Ai)的真实相似度为r(i),对于其他样本进行相同操作,形成训练集;
将所有样本按照一定的batch_size输入深度文本匹配模型,batch_size表示训练过程每一步需要的样本数目;首先将句子序列中的问题Q分别与句子Ai组成句对(Q,Ai),然后分别将句对输入深度文本匹配模型进行计算,得到句对的预测相似度值si;
对于单个样本损失计算如下:
Figure RE-GDA0003420423690000011
其中si、sj分别表示由模型计算的句子对(Q,Ai)和(Q,Aj)的预测相似度, r(i)、r(j)分别表示句子对(Q,Ai)和(Q,Aj)的真实相似度,ΔNDCG表示交换位置i,j前后计算的NDCG的差值,用来表示排错的代价;σ表示σ激活函数;根据上述损失值调整深度文本匹配模型的参数,从而得出训练好的深度文本匹配模型;
S02)、利用步骤S01)训练好的深度文本匹配模型对输入的语句进行文本排序。
进一步的,计算ΔNDCG的过程为:
给定被对比句Q和对比句序列(A1,A2,…,Ai,…,An),r(i)表示Q与Ai之间的真实相似度,si表示模型预测的Q与Ai之间的预测相似度,将句子序列(A1, A2,..,Ai,..,An)按照r(i)由大到小进行排序,然后取每个句子对应的r(i) 得到最理想的相似度序列D1;将句子序列(A1,A2,..,Ai,..,An)按照si 由大到小进行排序,然后取每个句子对应的r(i)得到相似度序列D2,为了评估排序质量,规定:
Figure RE-GDA0003420423690000021
则对于序列D1,其对应的score为:
Figure RE-GDA0003420423690000022
对于序列D2,其对应的其对应的score为:
Figure RE-GDA0003420423690000023
Figure RE-GDA0003420423690000024
交换句子i、j的位置,i=1,2,…,n,j=1,2,…,n,分别计算交换之后D1、D2 对应的NDCG,ΔNDCG则表示交换位置i,j前后计算的NDCG的差值。
进一步的,句对的真实相似度采用m级表示,即m,m-1,..,1,m为不小于3 的正整数,m数值越大,相关度越高。
进一步的,真实相似度为整数,预测相似度为浮点数。
本发明的有益效果:本方法将句子对输入模型,直接由模型计算得出相似度。采用m表示相似度登记,可以表示等级更高的情况,这样可以更加充分利用句子之间相似程度信息。损失函数不仅考虑了整个句子序列与问题Q之间相似程度信息,还对排序靠前位置给与更高的权重,使得训练得到的模型在排序后靠前位置的准确度更高。
具体实施方式
下面结合具体实施例对本发明作进一步的说明。
实施例1
本实施例公开一种基于深度文本匹配模型的文本排序方法,本方法包括文本训练和文本排序两部分。
文本训练阶段先准备训练集,将单个样本组织为一个句子序列(Q,A1,A2,…,Ai,…,An),其中Q表示被对比句,A1至An表示n个要与Q进行对比的对比句,单个样本中句子对(Q,Ai)的真实相似度为r(i),对于其他样本进行相同操作,形成训练集。
将所有样本按照一定的batch_size输入深度文本匹配模型,batch_size表示训练过程每一步需要的样本数目;首先将句子序列中的问题Q分别与句子Ai组成句对(Q,Ai),然后分别将句对输入深度文本匹配模型进行计算,得到句对的预测相似度值si。
对于单个样本损失计算如下:
Figure RE-GDA0003420423690000025
其中si、sj分别表示由模型计算的句子对(Q,Ai)和(Q,Aj)的预测相似度,r(i)、r(j)分别表示句子对(Q,Ai)和(Q,Aj)的真实相似度,ΔNDCG表示交换位置i,j前后计算的NDCG的差值,用来表示排错的代价;σ表示σ激活函数。
根据上述损失值调整深度文本匹配模型的参数,从而得出训练好的深度文本匹配模型。
文本排序利用上面训练好的深度文本匹配模型对输入的语句进行文本排序。
本实施例中,计算ΔNDCG的过程为:
给定被对比句Q和对比句序列(A1,A2,…,Ai,…,An),r(i)表示Q与 Ai之间的真实相似度,si表示模型预测的Q与Ai之间的预测相似度,将句子序列(A1,A2,..,Ai,..,An)按照r(i)由大到小进行排序,然后取每个句子对应的r(i)得到最理想的相似度序列D1;将句子序列(A1,A2,..,Ai,..,An) 按照si由大到小进行排序,然后取每个句子对应的r(i)得到相似度序列D2,为了评估排序质量,规定:
Figure RE-GDA0003420423690000031
则对于序列D1,其对应的score为:
Figure RE-GDA0003420423690000032
对于序列D2,其对应的其对应的score为:
Figure RE-GDA0003420423690000033
Figure RE-GDA0003420423690000034
交换句子i、j的位置,i=1,2,…,n,j=1,2,…,n,分别计算交换之后D1、D2 对应的NDCG,ΔNDCG则表示交换位置i,j前后计算的NDCG的差值。
本实施例中,句对的真实相似度采用m级表示,即m,m-1,..,1,m为不小于 3的正整数,m数值越大,相关度越高。
本实施例中,真实相似度为整数,预测相似度为浮点数。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。

Claims (4)

1.一种基于深度文本匹配模型的文本排序方法,其特征在于:包括以下步骤:
S01)、模型训练,
首先准备训练集,将单个样本组织为一个句子序列(Q,A1,A2,…,Ai,…,An),其中Q表示被对比句,A1至An表示n个要与Q进行对比的对比句,单个样本中句子对(Q,Ai)的真实相似度为r(i),对于其他样本进行相同操作,形成训练集;
将所有样本按照一定的batch_size输入深度文本匹配模型,batch_size表示训练过程每一步需要的样本数目;首先将句子序列中的问题Q分别与句子Ai组成句对(Q,Ai),然后分别将句对输入深度文本匹配模型进行计算,得到句对的预测相似度值si
对于单个样本损失计算如下:
Figure FDA0003356659270000011
其中si、sj分别表示由模型计算的句子对(Q,Ai)和(Q,Aj)的预测相似度,r(i)、r(j)分别表示句子对(Q,Ai)和(Q,Aj)的真实相似度,ΔNDCG表示交换位置i,j前后计算的NDCG的差值,用来表示排错的代价;σ表示σ激活函数;根据上述损失值调整深度文本匹配模型的参数,从而得出训练好的深度文本匹配模型;
S02)、利用步骤S01)训练好的深度文本匹配模型对输入的语句进行文本排序。
2.根据权利要求1所述的基于深度文本匹配模型的文本排序方法,其特征在于:计算ΔNDCG的过程为:
给定被对比句Q和对比句序列(A1,A2,…,Ai,…,An),r(i)表示Q与Ai之间的真实相似度,si表示模型预测的Q与Ai之间的预测相似度,将句子序列(A1,A2,..,Ai,..,An)按照r(i)由大到小进行排序,然后取每个句子对应的r(i)得到最理想的相似度序列D1;将句子序列(A1,A2,..,Ai,..,An)按照si由大到小进行排序,然后取每个句子对应的r(i)得到相似度序列D2,为了评估排序质量,规定:
Figure FDA0003356659270000012
则对于序列D1,其对应的score为:
Figure FDA0003356659270000013
对于序列D2,其对应的其对应的score为:
Figure FDA0003356659270000014
Figure FDA0003356659270000015
交换句子i、j的位置,i=1,2,…,n,j=1,2,…,n,分别计算交换之后D1、D2对应的NDCG,ΔNDCG则表示交换位置i,j前后计算的NDCG的差值。
3.根据权利要求1所述的基于深度文本匹配模型的文本排序方法,其特征在于:句对的真实相似度采用m级表示,即m,m-1,..,1,m为不小于3的正整数,m数值越大,相关度越高。
4.根据权利要求1所述的基于深度文本匹配模型的文本排序方法,其特征在于:真实相似度为整数,预测相似度为浮点数。
CN202111358728.8A 2021-11-16 2021-11-16 一种基于深度文本匹配模型的文本排序方法 Pending CN114065729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111358728.8A CN114065729A (zh) 2021-11-16 2021-11-16 一种基于深度文本匹配模型的文本排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111358728.8A CN114065729A (zh) 2021-11-16 2021-11-16 一种基于深度文本匹配模型的文本排序方法

Publications (1)

Publication Number Publication Date
CN114065729A true CN114065729A (zh) 2022-02-18

Family

ID=80272933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111358728.8A Pending CN114065729A (zh) 2021-11-16 2021-11-16 一种基于深度文本匹配模型的文本排序方法

Country Status (1)

Country Link
CN (1) CN114065729A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100179933A1 (en) * 2009-01-12 2010-07-15 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions
CN110019685A (zh) * 2019-04-10 2019-07-16 北京神州泰岳软件股份有限公司 基于排序学习的深度文本匹配方法及装置
CN110969006A (zh) * 2019-12-02 2020-04-07 支付宝(杭州)信息技术有限公司 一种文本排序模型的训练方法和系统
CN112115253A (zh) * 2020-08-17 2020-12-22 北京计算机技术及应用研究所 基于多视角注意力机制的深度文本排序方法
US20210026887A1 (en) * 2019-07-26 2021-01-28 Toyota Jidosha Kabushiki Kaisha Retrieval device, training device, retrieval system, and recording medium
US20210224286A1 (en) * 2018-11-29 2021-07-22 Tencent Technology (Shenzhen) Company Limited Search result processing method and apparatus, and storage medium

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100179933A1 (en) * 2009-01-12 2010-07-15 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions
US20210224286A1 (en) * 2018-11-29 2021-07-22 Tencent Technology (Shenzhen) Company Limited Search result processing method and apparatus, and storage medium
CN110019685A (zh) * 2019-04-10 2019-07-16 北京神州泰岳软件股份有限公司 基于排序学习的深度文本匹配方法及装置
US20210026887A1 (en) * 2019-07-26 2021-01-28 Toyota Jidosha Kabushiki Kaisha Retrieval device, training device, retrieval system, and recording medium
CN110969006A (zh) * 2019-12-02 2020-04-07 支付宝(杭州)信息技术有限公司 一种文本排序模型的训练方法和系统
CN112115253A (zh) * 2020-08-17 2020-12-22 北京计算机技术及应用研究所 基于多视角注意力机制的深度文本排序方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王品;黄广君;: "信息检索中的句子相似度计算", 计算机工程, no. 12, 20 June 2011 (2011-06-20) *
阿北: "LTR排序算法LambdaRank原理详解", pages 1 - 6, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/270608987?utm_id=0> *

Similar Documents

Publication Publication Date Title
CN111382580B (zh) 一种面向神经机器翻译的编码器-解码器框架预训练方法
CN109582949A (zh) 事件元素抽取方法、装置、计算设备及存储介质
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN107918656A (zh) 基于视频标题的视频封面提取方法及装置
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN108563791A (zh) 一种建筑质量投诉文本分类的方法和系统
CN111160027A (zh) 基于语义注意力的循环神经网络事件时序关系识别方法
CN112488147A (zh) 一种基于对抗网络的冗余去除主动学习方法
CN115409124A (zh) 基于微调原型网络的小样本敏感信息识别方法
CN114511739A (zh) 一种基于元迁移学习的任务自适应的小样本图像分类方法
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN112989848B (zh) 一种领域适应医学文献神经机器翻译模型的训练方法
CN110309513A (zh) 一种文本依存分析的方法和装置
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN111191027B (zh) 一种基于高斯混合分布vae的广义零样本识别方法
CN114065729A (zh) 一种基于深度文本匹配模型的文本排序方法
CN116611447A (zh) 一种基于深度学习方法的信息抽取和语义匹配系统及方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN110443277A (zh) 基于注意力模型的少量样本分类方法
CN109255019A (zh) 一种基于人工智能的在线题库及其应用方法
CN108762523A (zh) 基于capsule网络的输入法输出字符预测方法
CN114912446A (zh) 一种关键词抽取方法、装置及储存介质
CN110162629B (zh) 一种基于多基模型框架的文本分类方法
CN113177119A (zh) 文本分类模型训练、分类方法和系统及数据处理系统
CN114676851B (zh) 召回和排序模型的联合训练方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination