CN112580325A - 一种快速文本匹配方法及装置 - Google Patents

一种快速文本匹配方法及装置 Download PDF

Info

Publication number
CN112580325A
CN112580325A CN202011563343.0A CN202011563343A CN112580325A CN 112580325 A CN112580325 A CN 112580325A CN 202011563343 A CN202011563343 A CN 202011563343A CN 112580325 A CN112580325 A CN 112580325A
Authority
CN
China
Prior art keywords
vector
candidate
coding
similarity
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011563343.0A
Other languages
English (en)
Other versions
CN112580325B (zh
Inventor
庞帅
袁晟君
李宸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202011563343.0A priority Critical patent/CN112580325B/zh
Publication of CN112580325A publication Critical patent/CN112580325A/zh
Application granted granted Critical
Publication of CN112580325B publication Critical patent/CN112580325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种快速文本匹配方法及装置,包括:对问题编码向量和参考候选编码向量进行相似度计算,得到一参考相似度;根据每个其他候选编码向量,生成所述问题编码向量和每个其他候选编码向量的对比相似度;根据所述参考相似度以及每个所述对比相似度确定与所述问题文本匹配的候选文本。本发明采用这种用编码向量计算相似度的方法,不需要将问题文本和每个候选文本进行一一匹配计算,降低了文本匹配的计算代价,同时也提高了计算效率,尤其是多个问题文本进行匹配计算的时候,大大减少了计算时间。

Description

一种快速文本匹配方法及装置
技术领域
本发明涉及自然语言处理领域,更具体的,涉及一种快速文本的匹配方法及装置。
背景技术
神经语言程序学(NLP)中,文本匹配技术,通常以文本相似度计算、文本相关性计算的形式,在某应用系统中起核心支撑作用,比如搜索引擎、智能问答、知识检索、信息流推荐等。
传统文本匹配方案很多都是基于字面匹配做的,无法考虑到语义上的相似度。随着深度学习在NLP领域研究的日益深入,新的深度匹配模型方法不断涌现出来,其优势是可以很好的把握语义焦点,对上下文重要性合理建模,早期以DSSM、CDSMM和ARC-I等网络结构为代表。这些模型的核心问题是容易发生语义偏移,词的上下文重要性难以衡量。自从BERT、Roberta这类大规模预训练语言模型诞生以来,就以其优良的表现在文本匹配问题中取得极大学术研究关注。这类模型已经事先采用大量数据进行过训练,泛化能力极强,使用时只需要针对特定领域进行微调即可使用,而且transformer模型本身具有极强的上下文关联捕捉能力。目前各种论文实验表明此类方法在效果上优于之前的方法。但由于BERT、Roberta这类模型通常参数规模较大,计算代价本身极高,而且文本匹配问题,本身具有一定的冗余复杂性,比如问答系统中的FAQ任务,按BERT等模型的计算方法,需要将问题(query)和每个候选拼成一个sample作为输入,这样B条问题,N个候选就需要计算B×N次,目前在单块V100 GPU上base版BERT每秒中可以处理1000个sample,假设候选数N是100,那么每秒钟单块卡只能处理10条请求,计算效率极低。
发明内容
为了解决上述问题中的至少一个,本发明第一方面提供一种快速文本的匹配方法,包括:
对问题编码向量和参考候选编码向量进行相似度计算,得到一参考相似度,其中所述问题编码向量是对待匹配问题进行向量编码后得到,所述问题文本对应一候选文本集,所述参考候选编码向量是对所述候选文本集中的其中任意一个候选文本进行向量编码得到;
根据每个其他候选编码向量,生成所述问题编码向量和每个其他候选编码向量的对比相似度;
根据所述参考相似度以及每个所述对比相似度确定与所述问题文本匹配的候选文本。
在优选的实施方式中,所述匹配方法还包括:
获取待匹配问题文本;
根据所述问题文本确定所述候选文本集。
在优选的实施方式中,所述匹配方法还包括:对所述问题文本和/或多个候选文本进行编码得到所述问题编码向量和多个对应的候选编码向量;其中,所述多个对应的候选编码向量包括所述参考候选编码向量和其他候选编码向量。
在优选的实施方式中,所述根据每个其他候选编码向量,生成所述问题编码向量和每个其他候选编码向量的对比相似度,包括:
计算每个其他候选编码向量与所述参考候选编码向量之间的差向量;
根据所述差向量和所述参考相似度,计算得到所述问题编码向量和每个其他候选编码向量的对比相似度。
在优选的实施方式中,所述问题编码向量包括至少一个问题分词子向量,每个候选编码向量包括至少一个候选分词子向量;对问题编码向量和参考候选编码向量进行相似度计算,得到一参考相似度,包括:
根据所述问题编码向量和所述参考候选编码向,生成至少一个交互映射矩阵;
根据所述至少一个交互映射矩阵生成相似度分类矩阵;
根据所述相似度分类矩阵生成所述参考相似度。
在优选的实施方式中,所述至少一个交互映射矩阵包括第一交互映射矩阵,所述根据所述问题编码向量和所述参考候选编码向,生成至少一个交互映射矩阵,包括:
选取所述问题编码向量中的第一数量问题分词子向量以及所述参考候选编码向量中的第二数量候选分词子向量;
将所述第一数量问题分词子向量置于所述参考候选编码向量中,得到交互参考候选编码向量,将所述第二数量候选分词子向量置于所述问题编码向量中,得到交互问题编码向量;
对所述交互问题编码向量与所述交互问题编码向量中的首个分词子向量进行点乘操作,对所述交互参考候选编码向量与所述交互参考候选编码向量中的首个分词子向量进行点乘操作,并基于所述点乘操作结果分别得到填充问题编码向量和填充参考候选编码向量;
组合所述问题编码向量、所述参考候选编码向量、所述填充问题编码向量以及所述填充参考候选编码向量,生成第一交互映射矩阵。
在优选的实施方式中,所述至少一个交互映射矩阵包括第二交互映射矩阵,所述根据所述问题编码向量和所述参考候选编码向量,生成至少一个交互映射矩阵,包括:
根据所述问题编码向量和所述参考候选编码向量,生成多个交互向量;
根据一预设向量和所述多个交互向量,得到所述第二交互映射矩阵;其中所述预设向量通过大规模预训练模型训练得到。
在优选的实施方式中,所述至少一个交互映射矩阵包括第三交互映射矩阵,所述根据所述问题编码向量和所述参考候选编码向量,生成至少一个交互映射矩阵,包括:
对所述问题编码向量中的问题分词子向量和所述参考候选编码向量中的候选分词子向量进行点乘操作,得到词级别关联度矩阵;
基于神经网络模型执行交互编码操作,得到所述第三交互映射矩阵。
在优选的实施方式中,所述根据所述相似度分类矩阵生成所述参考相似度,包括:
使用二分类矩阵,对交互模型生成的向量完成分类,其中分类一表示所述问题与所述参考候选有关,分类二表示所述问题与所述参考候选无关,
用分类一的分数表示所述问题与所述参考候选的相似度。
本发明第二方面提供一种快速文本的匹配装置,包括:
参考相似度生成模块:对问题编码向量和参考候选编码向量进行相似度计算,得到一参考相似度,其中所述问题编码向量是对待匹配问题进行向量编码后得到,所述问题文本对应一候选文本集,所述参考候选编码向量是对所述候选文本集中的其中任意一个候选文本进行向量编码得到;
对比相似度生成模块:根据每个其他候选编码向量,生成所述问题编码向量和每个其他候选编码向量的对比相似度;
匹配单元:根据所述参考相似度以及每个所述对比相似度确定与所述问题文本匹配的候选文本。
在优选的实施方式中,所述的匹配装置,还包括:
获取模块:获取待匹配问题文本;
候选文本集模块:根据所述问题文本确定所述候选文本集。
在优选的实施方式中,所述的匹配装置,还包括:
文本编码模块:对所述问题文本和/或多个候选文本进行编码得到所述问题编码向量和多个对应的候选编码向量;其中,所述多个对应的候选编码向量包括所述参考候选编码向量和其他候选编码向量。
在优选的实施方式中,所述对比相似度生成模块,包括:
差向量计算单元:计算每个其他候选编码向量与所述参考候选编码向量之间的差向量;
对比相似度计算单元:根据所述差向量和所述参考相似度,计算得到所述问题编码向量和每个其他候选编码向量的对比相似度。
在优选的实施方式中,所述问题编码向量包括至少一个问题分词子向量,每个候选编码向量包括至少一个候选分词子向量;所述参考相似度生成模块,包括:
集成交互计算子模块:根据所述问题编码向量和所述参考候选编码向,生成至少一个交互映射矩阵;
相似度分类矩阵生成子模块:根据所述至少一个交互映射矩阵生成相似度分类矩阵;
参考相似度生成子模块:根据所述相似度分类矩阵生成所述参考相似度。
在优选的实施方式中,所述至少一个交互映射矩阵包括第一交互映射矩阵,所述集成交互计算子模块,包括:
词向量获取单元:选取所述问题编码向量中的第一数量问题分词子向量以及所述参考候选编码向量中的第二数量候选分词子向量;
交互问题编码向量单元:将所述第一数量问题分词子向量置于所述参考候选编码向量中,得到交互参考候选编码向量,将所述第二数量候选分词子向量置于所述问题编码向量中,得到交互问题编码向量;
词向量点乘操作单元:对所述交互问题编码向量与所述交互问题编码向量中的首个分词子向量进行点乘操作,对所述交互参考候选编码向量与所述交互参考候选编码向量中的首个分词子向量进行点乘操作,并基于所述点乘操作结果分别得到填充问题编码向量和填充参考候选编码向量;
第一交互映射矩阵生成单元:组合所述问题编码向量、所述参考候选编码向量、所述填充问题编码向量以及所述填充参考候选编码向量,生成第一交互映射矩阵。
在优选的实施方式中,所述至少一个交互映射矩阵包括第二交互映射矩阵,所述集成交互计算子模块,包括:
交互向量生成单元:根据所述问题编码向量和所述参考候选编码向量,生成多个交互向量;
第二交互映射矩阵生成单元:根据一预设向量和所述多个交互向量,得到所述第二交互映射矩阵;其中所述预设向量通过大规模预训练模型作为训练集训练得到。
在优选的实施方式中,所述至少一个交互映射矩阵包括第三交互映射矩阵,所述集成交互计算子模块,包括:
词级别关联度矩阵生成单元:对所述问题编码向量中的问题分词子向量和所述参考候选编码向量中的候选分词子向量进行点乘操作,得到词级别关联度矩阵;
第三交互映射矩阵生成单元:基于神经网络模型执行交互编码操作,得到所述第三交互映射矩阵。
在优选的实施方式中,所述参考相似度生成子模块具体用于使用二分类矩阵,对交互模型生成的向量完成分类,其中分类一表示所述问题与所述参考候选有关,分类二表示所述问题与所述参考候选无关,用分类一的分数表示所述问题与所述参考候选的相似度。
本发明第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的匹配方法的步骤。
本发明第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的匹配方法的步骤。
本发明的有益效果
本发明提供一种快速文本匹配方法,将问题文本的编码向量和参考候选文本的编码向量进行相似度计算,得出参考相似度,根据除参考候选编码向量之外的其他候选文本的编码向量,生成问题文本和其他候选文本的对比相似度,根据参考相似度和对比相似度,确定与问题文本匹配的候选文本,整个计算过程不需要将问题文本和每个候选文本进行一一匹配计算相似度,降低了文本匹配的计算代价,同时也提高了计算效率,尤其是多个问题文本进行匹配计算的时候,大大减少了计算时间。
附图说明
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施方式中一种快速文本的匹配方法的流程示意图;
图2为本发明实施方式中一种快速文本的匹配装置的结构示意图;
图3为本发明实施方式中一种快速文本的匹配装置的参考相似度生成模块的结构示意图;
图4为本发明实施方式中一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
目前,BERT、Roberta这类模型通常参数规模较大,计算代价本身极高,而且文本匹配问题,本身具有一定的冗余复杂性,比如问答系统中的FAQ任务,按BERT等模型的计算方法,需要将问题(query)和每个候选拼成一个sample作为输入,这样B条问题,N个候选就需要计算B×N次,目前在单块V100 GPU上base版BERT每秒中可以处理1000个sample,假设候选数N是100,那么每秒钟单块卡只能处理10条请求,计算效率极低。
基于此,本发明第一方面提供一种快速文本匹配方法,如图1所述,包括:
S01:对问题编码向量和参考候选编码向量进行相似度计算,得到一参考相似度,其中所述问题编码向量是对待匹配问题进行向量编码后得到,所述问题文本对应一候选文本集,所述参考候选编码向量是对所述候选文本集中的其中任意一个候选文本进行向量编码得到;
S02:根据每个其他候选编码向量,生成所述问题编码向量和每个其他候选编码向量的对比相似度;
S03:根据所述参考相似度以及每个所述对比相似度确定与所述问题文本匹配的候选文本。
本发明提供一种快速文本匹配方法,将问题文本的编码向量和参考候选文本的编码向量进行相似度计算,得出参考相似度,根据除参考候选编码向量之外的其他候选文本的编码向量,生成问题文本和其他候选文本的对比相似度,根据参考相似度和对比相似度,确定与问题文本匹配的候选文本,整个计算过程不需要将问题文本和每个候选文本进行一一匹配计算相似度,降低了文本匹配的计算代价,同时也提高了计算效率,尤其是多个问题文本进行匹配计算的时候,大大减少了计算时间。
可以理解,设有B条问题编码向量,每条问题编码向量都对应N条候选编码向量,将问题编码向量和对应的候选编码向量中的一个进行相似度计算,得到一个参考相似度,再输入其他候选编码向量进行计算,得到问题编码与每个其他候选编码向量的对比相似度,假设相似度的计算时间为Ti,那么B条问题编码向量对应的N条候选编码的相似度计算时间为:B×N×Ti。
在一些优选的实施方式中,所述匹配方法还包括:
获取待匹配问题文本;
根据所述问题文本确定所述候选文本集。
可以理解,每个问题文本都对应一个候选文本集,所述问题文本可以通过计算机键盘直接输入,也可以通过文字识别技术将问题图片转化问题文本,所述候选文本集中的候选文本可以从数据库中下载,也可以用户通过计算机键盘直接输入。
在一些具体实施方式中,所述匹配方法还包括:对所述问题文本和/或多个候选文本进行编码得到所述问题编码向量和多个对应的候选编码向量;其中,所述多个对应的候选编码向量包括所述参考候选编码向量和其他候选编码向量。
可以理解,基于BERT模型或者RoBERTa模型做为编码器(encoder),通过孪生神经网络(Siamese Network)结构对问题文件和候选文件进行单独编码,得到问题编码向量,BERT、Roberta这类模型通常参数规模较大,计算代价本身极高,而且文本匹配问题,本身具有一定的冗余复杂性,比如问答系统中的FAQ任务,按BERT等模型的计算方法,需要将问题(query)和每个候选拼成一个sample作为输入,这样B条问题文本,N个候选文本就需要计算B×N次BERT前向,目前在单块V100 GPU上base版BERT每秒中可以处理1000个sample,假设候选数N是100,那么每秒钟单块卡只能处理10条请求,计算效率极低,整个文本匹配过程最耗时的计算就是基于BERT的编码计算,而将候选文本的编码向量可以提前计算缓存,整个过程只需要在线计算一次BERT编码,而原始BERT方法需要计算十次。
假设有B条问题文本,N条候选文本,将问题文本和每个候选拼成一个sample,使用Siamese Network结构对问题文本和候选文本单独编码,候选的编码可以提前计算缓冲,在工业部署时只需要计算问题文本的编码,问题文本编码需要的时间为Te,则B条问题文本编码需要的时间为:B×Te,将计算得到的问题文本编码向量和缓存的候选编码作为输入,放到交互层做计算,而交互层的计算代价远小于BERT或Roberta等编码器,单个sample的encoder计算时间为Te,单个sample的交互层计算时间为Ti,所以传统BERT的计算时间为:
B×N×Te
而使用交互模型的计算时间为:
B×Te+B×N×Ti
计算时间比为:
Figure BDA0002859909070000081
当N较大时计算时间比约等于Te/Ti,其中Ti<<Te。具体来说,但候选数是100时,在V100显卡上,交互计算模型每秒可以处理580条请求,而同样条件下BERT等方法只能处理10条请求。
在一些其它实施方式中,所述根据每个其他候选编码向量,生成所述问题编码向量和每个其他候选编码向量的对比相似度,包括:
计算每个其他候选编码向量与所述参考候选编码向量之间的差向量;
根据所述差向量和所述参考相似度,计算得到所述问题编码向量和每个其他候选编码向量的对比相似度。
可以理解,每个候选编码向量之间都有差异,这些差异可以通过一些简单的差向量来表示,将这些差向量输入到孪生神经网络(Siamese Network)结构中,最后通过这些差向量以及来参考相似度拟合输出问题编码向量和每个其他候选编码向量的对比相似度。
在一些其它实施方式中,所述问题编码向量包括至少一个问题分词子向量,每个候选编码向量包括至少一个候选分词子向量;对问题编码向量和参考候选编码向量进行相似度计算,得到一参考相似度,包括:
根据所述问题编码向量和所述参考候选编码向,生成至少一个交互映射矩阵;
根据所述至少一个交互映射矩阵生成相似度分类矩阵;
根据所述相似度分类矩阵生成所述参考相似度。
可以理解,用query表示问题文本,使用encoder表示编码器,假设query为TA,候选文本为TB,则首先通过BERT或RoBERTa作为,得到TA的编码Va,然后TB从预先算好缓存的编码中取出对应数据,得到编码Vb,
Va=BERT_Encoder(TA)
Vb=Fetch_catch(TB)
采用集成交互的方式,计算Va和Vb的交互,即用三种简单交互模型,对Va和Vb进行交互,得到三个交互映射矩阵,将三个交互映射矩阵组合成为一个相似度分类矩阵,相似度分类矩阵可以生成参考相似度。三个交互计算单元互相验证交互计算结果,当其中一个计算结果与另外两个计算结果误差较大,或者三个计算结果均误差较大,会自动再次重新计算,直到三个计算结果误差处于正常范围为止。
在计算精度上,交互计算模型在ChineseGLUE几个公开数据集上,有如下结果:
Figure BDA0002859909070000091
从表中可以看出我们得方法基本保持BERT的精度。
在一些其它实施方式中,所述至少一个交互映射矩阵包括第一交互映射矩阵,所述根据所述问题编码向量和所述参考候选编码向,生成至少一个交互映射矩阵,包括:
选取所述问题编码向量中的第一数量问题分词子向量以及所述参考候选编码向量中的第二数量候选分词子向量;
将所述第一数量问题分词子向量置于所述参考候选编码向量中,得到交互参考候选编码向量,将所述第二数量候选分词子向量置于所述问题编码向量中,得到交互问题编码向量;
对所述交互问题编码向量与所述交互问题编码向量中的首个分词子向量进行点乘操作,对所述交互参考候选编码向量与所述交互参考候选编码向量中的首个分词子向量进行点乘操作,并基于所述点乘操作结果分别得到填充问题编码向量和填充参考候选编码向量;
组合所述问题编码向量、所述参考候选编码向量、所述填充问题编码向量以及所述填充参考候选编码向量,生成第一交互映射矩阵。
可以理解,问题编码向量Va和参考候选编码向量Vb采用注意力(attention)机制进行交互,主要分为三步,分别是interactive-attention、self-attention和交互表示生成。注意力机制是一种用于提升基于神经网络的编码器+解码器模型的机制。
每个问题文本由一个或多个问题分词组成,每个候选文本问题由一个或多个候选分词组成,则问题编码向量Va和参考候选编码向量Vb包含一个或多个分词子向量,在计算Va和Vb的交互时,第一步先提取Va和Vb中一定数量的分词子向量进行交互,分别使用对方向量重新编码自身得到表示交互问题编码向量A和交互参考候选编码向量B,这一操作是为了在问题和候选之间进行交互。公式中La和Lb分别表示问题和候选的句中词数:
Figure BDA0002859909070000101
Figure BDA0002859909070000102
Figure BDA0002859909070000103
第二步将向量A和B分别通过self-attention将句内每个词的信息编码到第一个词(在这里每句话第一个词使用CLS填充)中,作为这句话的编码,得到填充问题编码向量A′CLS和填充参考候选编码向量B′CLS
eAi=AcLS·Ai
(其中AcLS为A中第一个词对应向量)
eBj=BcLS·Bj
(其中BcLS为B中第一个词对应向量)
Figure BDA0002859909070000111
Figure BDA0002859909070000112
第三步将VaCLS,A′CLS,VbCLS,B′CLS拼接成一个向量,将拼接后的向量分别通过一个映射矩阵得到query和候选的交互表示第一交互映射矩阵
Figure BDA0002859909070000113
Figure BDA0002859909070000114
在一些其它实施方式中,所述至少一个交互映射矩阵包括第二交互映射矩阵,所述根据所述问题编码向量和所述参考候选编码向量,生成至少一个交互映射矩阵,包括:
根据所述问题编码向量和所述参考候选编码向量,生成多个交互向量;
根据一预设向量和所述多个交互向量,得到所述第二交互映射矩阵;其中所述预设向量通过大规模预训练模型(例如BERT、ROBERTa等)训练得到。
可以理解,使用Attention-pooling策略进一步对于问题文本和候选文本进行交互,其中使用一个训练得到的向量Kc与交互向量Pi做attention式融合得到交互表示第二交互映射矩阵
Figure BDA0002859909070000115
具体公式如下:
Va=Mean(a)
(取a中每个词向量的均值作为TA向量表示)
Vb=Mean(b)
(取b中每个词向量的均值作为TB向量表示)
P1=Va
P2=Vb
P3=element_wise_abs(Va-Vb)
P4=element_wise_max(Va,Vb)
P5=element_wise_dot(Va,Vb)
ei=Pi*KcT(Kc由训练得到)
Figure BDA0002859909070000121
在一些其它实施方式中,所述至少一个交互映射矩阵包括第三交互映射矩阵,所述根据所述问题编码向量和所述参考候选编码向量,生成至少一个交互映射矩阵,包括:
对所述问题编码向量中的问题分词子向量和所述参考候选编码向量中的候选分词子向量进行点乘操作,得到词级别关联度矩阵;
基于神经网络模型执行交互编码操作,得到所述第三交互映射矩阵。
可以理解,通过将问题文本和候选文本的每个词向量做点乘操作,得到一个词级别关联度矩阵,使用CNN模型做交互编码,得到交互表示第三交互映射矩阵
Figure BDA0002859909070000122
Figure BDA0002859909070000123
Figure BDA0002859909070000124
Figure BDA0002859909070000125
Figure BDA0002859909070000126
Figure BDA0002859909070000127
Figure BDA0002859909070000128
最终
Figure BDA0002859909070000129
连接起来成为一个向量Repab用于最终分类。
在一些其它实施方式中,所述根据所述相似度分类矩阵生成所述参考相似度,包括:
使用二分类矩阵,对交互模型生成的向量完成分类,其中分类一表示所述问题与所述参考候选有关,分类二表示所述问题与所述参考候选无关;
用分类一的分数表示所述问题与所述参考候选的相似度。
本发明第二方面提供一种快速文本的匹配装置,如图2所示,包括:
参考相似度生成模块01:对问题编码向量和参考候选编码向量进行相似度计算,得到一参考相似度,其中所述问题编码向量是对待匹配问题进行向量编码后得到,所述问题文本对应一候选文本集,所述参考候选编码向量是对所述候选文本集中的其中任意一个候选文本进行向量编码得到;
对比相似度生成模块02:根据每个其他候选编码向量,生成所述问题编码向量和每个其他候选编码向量的对比相似度;
匹配单元03:根据所述参考相似度以及每个所述对比相似度确定与所述问题文本匹配的候选文本。
可以理解,从候选编码向量中匹配与问题编码向量合适的候选编码向量,要先从候选编码向量中任选一个参考候选编码向量,将问题编码向量和参考候选编码向量输入到参考相似度生成模块01,生成出参考相似度,再将除参考候选编码向量之外的其他候选编码向量和参考相似度输入至对比相似度生成模块02,生成多个对比相似度,最后将参考相似度和多个对比相似度输入匹配单元03,将参考相似度和多个对比相似度进行比较,选出与问题编码向量最匹配的候选编码向量。
本发明提供一种快速文本匹配装置,将问题文本的编码向量和参考候选文本的编码向量进行相似度计算,得出参考相似度,根据除参考候选编码向量之外的其他候选文本的编码向量,生成问题文本和其他候选文本的对比相似度,根据参考相似度和对比相似度,确定与问题文本匹配的候选文本,整个计算过程不需要将问题文本和每个候选文本进行一一匹配计算相似度,降低了文本匹配的计算代价,同时也提高了计算效率,尤其是多个问题文本进行匹配计算的时候,大大减少了计算时间。
在一些其它实施方式中,所述的匹配装置,还包括:
获取模块04:获取待匹配问题文本;
候选模块05:根据所述问题文本确定所述候选文本集。
可以理解,获取模块04可以获取到待匹配问题文本,所述问题文本可以是一个也可以是多个,所述问题文本可以包括文字信息、图片信息、语音信息等,获取模块04可以将图片信息、语音信息转化为文本信息,候选模块05可以获取与问题文本对应的候选文本,一个问题文本对应多个候选文本,多个候选文本可以集成一个候选文本集,候选模块05可以直接从数据库中下载候选文本,也可以通过计算机输入候选文本。
在一些其它实施方式中,所述的匹配装置,还包括:
文本编码模块06:对所述问题文本和/或多个候选文本进行编码得到所述问题编码向量和多个对应的候选编码向量;其中,所述多个对应的候选编码向量包括所述参考候选编码向量和其他候选编码向量。
可以理解,文本编码模块06采用BERT或者Roberta作为编码器,BERT模型或者RoBERTa模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本语义表示,然后将文本语义表示输入到孪生神经网络(Siamese Network)结构中,将输入映射为一个特征向量,使用两个向量之间的“距离”来表示输入之间的差异。所述文本编码模块06还包括存储单元,存储有提前编码完成的候选文本信息,在进行相似度计算时,可以直接调取候选编码向量进行计算,将候选文本信息提前编码存储到文本编码模块06中,可以简化整个文本匹配过程,只需要在线计算一次问题文本的BERT编码。
在一些其它实施方式中,所述对比相似度生成模块02,包括:
差向量计算单元:计算每个其他候选编码向量与所述参考候选编码向量之间的差向量;
对比相似度计算单元:根据所述差向量和所述参考相似度,计算得到所述问题编码向量和每个其他候选编码向量的对比相似度。
可以理解,将文本编码模块06内的候选编码向量输入至差向量计算单元,每个候选编码向量之间都存在差异,差向量计算单元可以计算出每个候选编码向量之间的差异,这些差异可以通过一些简单的差向量来表示,对比相似度计算单元采用孪生神经网络结构,将这些差向量输入到孪生神经网络(Siamese Network)结构中,最后通过这些差向量以及来参考相似度拟合输出问题编码向量和每个其他候选编码向量的对比相似度。
在一些其它实施方式中,所述问题编码向量包括至少一个问题分词子向量,每个候选编码向量包括至少一个候选分词子向量;所述参考相似度生成模块,如图3所示,包括:
集成交互计算子模块09:根据所述问题编码向量和所述参考候选编码向量,生成至少一个交互映射矩阵;
相似度分类矩阵生成子模块10:根据所述至少一个交互映射矩阵生成相似度分类矩阵;
参考相似度生成子模块11:根据所述相似度分类矩阵生成所述参考相似度。
可以理解,将文本编码模块06输出的问题编码向量和参考候选编码向量输入至集成交互计算子模块09中,集成交互计算子模块09包括三个交互计算单元,三个交互计算单元互相验证交互计算结果,当其中一个计算结果与另外两个计算结果误差较大,或者三个计算结果均误差较大,会自动再次重新计算,直到三个计算结果误差处于正常范围为止,每个交互计算单元会生成一个交互映射矩阵,将至少一个交互映射矩阵输入至相似度分类矩阵生成子模块10,生成相似度分类矩阵,将相似度分类矩阵输入至参考相似度生成子模块11,生成参考相似度。
在一些其它实施方式中,所述至少一个交互映射矩阵包括第一交互映射矩阵,所述集成交互计算子模块09,包括:
词向量获取单元12:选取所述问题编码向量中的第一数量问题分词子向量以及所述参考候选编码向量中的第二数量候选分词子向量;
词向量交互单元13:将所述第一数量问题分词子向量置于所述参考候选编码向量中,得到交互参考候选编码向量,将所述第二数量候选分词子向量置于所述问题编码向量中,得到交互问题编码向量;
词向量点乘单元14:对所述交互问题编码向量与所述交互问题编码向量中的首个分词子向量进行点乘操作,对所述交互参考候选编码向量与所述交互参考候选编码向量中的首个分词子向量进行点乘操作,并基于所述点乘操作结果分别得到填充问题编码向量和填充参考候选编码向量;
第一交互映射矩阵生成单元15:组合所述问题编码向量、所述参考候选编码向量、所述填充问题编码向量以及所述填充参考候选编码向量,生成第一交互映射矩阵。
可以理解,每个问题文本由至少一个问题分词组成,每个问题分词可以编码成问题分词子向量,每个候选文本问题由至少一个候选分词组成,每个候选分词可以编码成候选分词子向量,将文本编码模块06中的问题编码向量和参考候选编码向量输入至词向量获取单元12,词向量获取单元12可以抽取问题编码向量和参考候选编码向量中一定数量的问题分词子向量和参考候选分词子向量,将一定数量的问题分词子向量和参考候选分词子向量输入至词向量交互单元13进行词向量交互,即分别使用对方向量重新编码自身,得到交互问题编码向量和交互参考候选编码向量,将交互问题编码向量和交互参考候选编码向量输入至词向量点乘单元14,交互问题编码向量和交互参考候选编码向量分别通过self-attention将句内每个词的信息编码到第一个词,得到填充问题编码向量和填充参考候选编码向量,最后将问题编码向量、参考候选编码向量、填充问题编码向量以及填充参考候选编码向量输入至第一交互映射矩阵生成单元15,将问题编码向量、参考候选编码向量、填充问题编码向量以及填充参考候选编码向量拼接成一个向量,将拼接后的向量分别通过一个映射矩阵得到第一交互映射矩阵。
在一些其它实施方式中,所述至少一个交互映射矩阵包括第二交互映射矩阵,所述集成交互计算子模块09,包括:
交互向量生成单元16:根据所述问题编码向量和所述参考候选编码向量,生成多个交互向量;
第二交互映射矩阵生成单元17:根据一预设向量和所述多个交互向量,得到所述第二交互映射矩阵;其中所述预设向量通过大规模预训练模型(例如BERT、ROBERTa等)训练得到。
可以理解,将文本编码模块06中的问题编码向量和参考候选编码向量输入至交互向量生成单元16,使用Attention-pooling策略进一步对于问题编码向量和参考候选编码向量进行交互,得到多个交互向量,将多个交互向量输入至第二交互映射矩阵生成单元17,使用一个训练得到的向量与交互向量做attention式融合,得到第二交互映射矩阵。
在一些其它实施方式中,所述至少一个交互映射矩阵包括第三交互映射矩阵,所述集成交互计算子模块09,包括:
词级别关联度矩阵生成单元18:对所述问题编码向量中的问题分词子向量和所述参考候选编码向量中的候选分词子向量进行点乘操作,得到词级别关联度矩阵;
第三交互映射矩阵生成单元19:基于神经网络模型执行交互编码操作,得到所述第三交互映射矩阵。
可以理解,将文本编码模块06中的问题编码向量和参考候选编码向量输入至词级别关联度矩阵生成单元18,得到一个词级别关联度矩阵,再将词级别关联度矩阵输入至第三交互映射矩阵生成单元19,使用神经网络模型做交互编码,得到第三交互映射矩阵。
在一些其它实施方式中,所述参考相似度生成子模块11具体用于使用二分类矩阵,对交互模型生成的向量完成分类,其中分类一表示所述问题与所述参考候选有关,分类二表示所述问题与所述参考候选无关,用分类一的分数表示所述问题与所述参考候选的相似度。
本发明第三方面提供一种电子设备,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于参考相似度生成模块、对比相似度生成模块、匹配模块、获取模块、候选模块以及文本编码模块等相关模块之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例中的文本匹配方法的实施例,以及,文本匹配装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图4为本申请实施例的电子设备9600的系统构成的示意框图。如图4所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图4是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,文本相似度计算匹配功能可以被集成到中央处理器9100中。例如,中央处理器9100可以被配置为进行如下控制:
S01:对问题编码向量和参考候选编码向量进行相似度计算,得到一参考相似度,其中所述问题编码向量是对待匹配问题进行向量编码后得到,所述问题文本对应一候选文本集,所述参考候选编码向量是对所述候选文本集中的其中任意一个候选文本进行向量编码得到;
S02:根据每个其他候选编码向量,生成所述问题编码向量和每个其他候选编码向量的对比相似度;
S03:根据所述参考相似度以及每个所述对比相似度确定与所述问题文本匹配的候选文本。
从上述描述可知,本申请的实施例提供的电子设备,将问题文本的编码向量和参考候选文本的编码向量进行相似度计算,得出参考相似度,根据除参考候选编码向量之外的其他候选文本的编码向量,生成问题文本和其他候选文本的对比相似度,根据参考相似度和对比相似度,确定与问题文本匹配的候选文本,整个计算过程不需要将问题文本和每个候选文本进行一一匹配计算相似度,降低了文本匹配的计算代价,同时也提高了计算效率,尤其是多个问题文本进行匹配计算的时候,大大减少了计算时间。
如图4所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图4中所示的所有部件;此外,电子设备9600还可以包括图4中没有示出的部件,可以参考现有技术。
如图4所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的文本匹配方法的全部步骤。
从上述描述可知,本申请的实施例提供的计算机可读存储介质,将问题文本的编码向量和参考候选文本的编码向量进行相似度计算,得出参考相似度,根据除参考候选编码向量之外的其他候选文本的编码向量,生成问题文本和其他候选文本的对比相似度,根据参考相似度和对比相似度,确定与问题文本匹配的候选文本,整个计算过程不需要将问题文本和每个候选文本进行一一匹配计算相似度,降低了文本匹配的计算代价,同时也提高了计算效率,尤其是多个问题文本进行匹配计算的时候,大大减少了计算时间。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种快速文本的匹配方法,其特征在于,包括:
对问题编码向量和参考候选编码向量进行相似度计算,得到一参考相似度,其中所述问题编码向量是对待匹配问题进行向量编码后得到,所述问题文本对应一候选文本集,所述参考候选编码向量是对所述候选文本集中的其中任意一个候选文本进行向量编码得到;
根据每个其他候选编码向量,生成所述问题编码向量和每个其他候选编码向量的对比相似度;
根据所述参考相似度以及每个所述对比相似度确定与所述问题文本匹配的候选文本。
2.根据权利要求1所述的匹配方法,其特征在于,所述匹配方法还包括:
获取待匹配问题文本;
根据所述问题文本确定所述候选文本集。
3.根据权利要求2所述的匹配方法,其特征在于,所述匹配方法还包括:
对所述问题文本和/或多个候选文本进行编码得到所述问题编码向量和多个对应的候选编码向量;其中,所述多个对应的候选编码向量包括所述参考候选编码向量和其他候选编码向量。
4.根据权利要求1所述的匹配方法,其特征在于,所述根据每个其他候选编码向量,生成所述问题编码向量和每个其他候选编码向量的对比相似度,包括:
计算每个其他候选编码向量与所述参考候选编码向量之间的差向量;
根据所述差向量和所述参考相似度,计算得到所述问题编码向量和每个其他候选编码向量的对比相似度。
5.根据权利要求1所述的匹配方法,其特征在于,所述问题编码向量包括至少一个问题分词子向量,每个候选编码向量包括至少一个候选分词子向量;对问题编码向量和参考候选编码向量进行相似度计算,得到一参考相似度,包括:
根据所述问题编码向量和所述参考候选编码向,生成至少一个交互映射矩阵;
根据所述至少一个交互映射矩阵生成相似度分类矩阵;
根据所述相似度分类矩阵生成所述参考相似度。
6.根据权利要求5所述的匹配方法,其特征在于,所述至少一个交互映射矩阵包括第一交互映射矩阵,所述根据所述问题编码向量和所述参考候选编码向,生成至少一个交互映射矩阵,包括:
选取所述问题编码向量中的第一数量问题分词子向量以及所述参考候选编码向量中的第二数量候选分词子向量;
将所述第一数量问题分词子向量置于所述参考候选编码向量中,得到交互参考候选编码向量,将所述第二数量候选分词子向量置于所述问题编码向量中,得到交互问题编码向量;
对所述交互问题编码向量与所述交互问题编码向量中的首个分词子向量进行点乘操作,对所述交互参考候选编码向量与所述交互参考候选编码向量中的首个分词子向量进行点乘操作,并基于所述点乘操作结果分别得到填充问题编码向量和填充参考候选编码向量;
组合所述问题编码向量、所述参考候选编码向量、所述填充问题编码向量以及所述填充参考候选编码向量,生成第一交互映射矩阵。
7.根据权利要求5所述的匹配方法,其特征在于,所述至少一个交互映射矩阵包括第二交互映射矩阵,所述根据所述问题编码向量和所述参考候选编码向量,生成至少一个交互映射矩阵,包括:
根据所述问题编码向量和所述参考候选编码向量,生成多个交互向量;
根据一预设向量和所述多个交互向量,得到所述第二交互映射矩阵;其中所述预设向量通过大规模预训练模型训练得到。
8.根据权利要求5所述的匹配方法,其特征在于,所述至少一个交互映射矩阵包括第三交互映射矩阵,所述根据所述问题编码向量和所述参考候选编码向量,生成至少一个交互映射矩阵,包括:
对所述问题编码向量中的问题分词子向量和所述参考候选编码向量中的候选分词子向量进行点乘操作,得到词级别关联度矩阵;
基于神经网络模型执行交互编码操作,得到所述第三交互映射矩阵。
9.根据权利要求5所述的匹配方法,其特征在于,所述根据所述相似度分类矩阵生成所述参考相似度,包括:
使用二分类矩阵,对交互模型生成的向量完成分类,其中分类一表示所述问题与所述参考候选有关,分类二表示所述问题与所述参考候选无关;
用分类一的分数表示所述问题与所述参考候选的相似度。
10.一种快速文本的匹配装置,其特征在于,包括:
参考相似度生成模块:对问题编码向量和参考候选编码向量进行相似度计算,得到一参考相似度,其中所述问题编码向量是对待匹配问题进行向量编码后得到,所述问题文本对应一候选文本集,所述参考候选编码向量是对所述候选文本集中的其中任意一个候选文本进行向量编码得到;
对比相似度生成模块:根据每个其他候选编码向量,生成所述问题编码向量和每个其他候选编码向量的对比相似度;
匹配单元:根据所述参考相似度以及每个所述对比相似度确定与所述问题文本匹配的候选文本。
11.根据权利要求10所述的匹配装置,其特征在于,还包括:
获取模块:获取待匹配问题文本;
候选模块:根据所述问题文本确定所述候选文本集。
12.根据权利要求10所述的匹配装置,其特征在于,还包括:
文本编码模块:对所述问题文本和/或多个候选文本进行编码得到所述问题编码向量和多个对应的候选编码向量;其中,所述多个对应的候选编码向量包括所述参考候选编码向量和其他候选编码向量。
13.根据权利要求10所述的匹配装置,其特征在于,所述对比相似度生成模块,包括:
差向量计算单元:计算每个其他候选编码向量与所述参考候选编码向量之间的差向量;
对比相似度计算单元:根据所述差向量和所述参考相似度,计算得到所述问题编码向量和每个其他候选编码向量的对比相似度。
14.根据权利要求10所述的匹配装置,其特征在于,所述问题编码向量包括至少一个问题分词子向量,每个候选编码向量包括至少一个候选分词子向量;所述参考相似度生成模块,包括:
集成交互计算子模块:根据所述问题编码向量和所述参考候选编码向,生成至少一个交互映射矩阵;
相似度分类矩阵生成子模块:根据所述至少一个交互映射矩阵生成相似度分类矩阵;
参考相似度生成子模块:根据所述相似度分类矩阵生成所述参考相似度。
15.根据权利要求14所述的匹配装置,其特征在于,所述至少一个交互映射矩阵包括第一交互映射矩阵,所述集成交互计算子模块,包括:
词向量获取单元:选取所述问题编码向量中的第一数量问题分词子向量以及所述参考候选编码向量中的第二数量候选分词子向量;
词向量交互单元:将所述第一数量问题分词子向量置于所述参考候选编码向量中,得到交互参考候选编码向量,将所述第二数量候选分词子向量置于所述问题编码向量中,得到交互问题编码向量;
词向量点乘单元:对所述交互问题编码向量与所述交互问题编码向量中的首个分词子向量进行点乘操作,对所述交互参考候选编码向量与所述交互参考候选编码向量中的首个分词子向量进行点乘操作,并基于所述点乘操作结果分别得到填充问题编码向量和填充参考候选编码向量;
第一交互映射矩阵生成单元:组合所述问题编码向量、所述参考候选编码向量、所述填充问题编码向量以及所述填充参考候选编码向量,生成第一交互映射矩阵。
16.根据权利要求14所述的匹配装置,其特征在于,所述至少一个交互映射矩阵包括第二交互映射矩阵,所述集成交互计算子模块,包括:
交互向量生成单元:根据所述问题编码向量和所述参考候选编码向量,生成多个交互向量;
第二交互映射矩阵生成单元:根据一预设向量和所述多个交互向量,得到所述第二交互映射矩阵;其中所述预设向量通过大规模预训练模型训练得到。
17.根据权利要求14所述的匹配装置,其特征在于,所述至少一个交互映射矩阵包括第三交互映射矩阵,所述集成交互计算子模块,包括:
词级别关联度矩阵生成单元:对所述问题编码向量中的问题分词子向量和所述参考候选编码向量中的候选分词子向量进行点乘操作,得到词级别关联度矩阵;
第三交互映射矩阵生成单元:基于神经网络模型执行交互编码操作,得到所述第三交互映射矩阵。
18.根据权利要求14所述的匹配装置,其特征在于,所述参考相似度生成子模块具体用于使用二分类矩阵,对交互模型生成的向量完成分类,其中分类一表示所述问题与所述参考候选有关,分类二表示所述问题与所述参考候选无关,用分类一的分数表示所述问题与所述参考候选的相似度。
19.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述匹配方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述文本匹配方法的步骤。
CN202011563343.0A 2020-12-25 2020-12-25 一种快速文本匹配方法及装置 Active CN112580325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011563343.0A CN112580325B (zh) 2020-12-25 2020-12-25 一种快速文本匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011563343.0A CN112580325B (zh) 2020-12-25 2020-12-25 一种快速文本匹配方法及装置

Publications (2)

Publication Number Publication Date
CN112580325A true CN112580325A (zh) 2021-03-30
CN112580325B CN112580325B (zh) 2023-04-07

Family

ID=75140245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011563343.0A Active CN112580325B (zh) 2020-12-25 2020-12-25 一种快速文本匹配方法及装置

Country Status (1)

Country Link
CN (1) CN112580325B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328908A (zh) * 2021-11-08 2022-04-12 腾讯科技(深圳)有限公司 一种问答语句质检方法、装置及相关产品
CN117892725A (zh) * 2024-03-18 2024-04-16 腾讯科技(深圳)有限公司 映射构建方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040503A1 (zh) * 2016-08-30 2018-03-08 北京百度网讯科技有限公司 获取搜索结果的方法和装置
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
US20190377797A1 (en) * 2017-08-11 2019-12-12 Tencent Technology (Shenzhen) Company Limited Mathematical processing method, apparatus and device for text problem, and storage medium
CN111382563A (zh) * 2020-03-20 2020-07-07 腾讯科技(深圳)有限公司 文本相关性的确定方法及装置
CN111581364A (zh) * 2020-05-06 2020-08-25 厦门理工学院 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN111859939A (zh) * 2020-07-29 2020-10-30 中国平安人寿保险股份有限公司 文本匹配方法、系统和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040503A1 (zh) * 2016-08-30 2018-03-08 北京百度网讯科技有限公司 获取搜索结果的方法和装置
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
US20190377797A1 (en) * 2017-08-11 2019-12-12 Tencent Technology (Shenzhen) Company Limited Mathematical processing method, apparatus and device for text problem, and storage medium
CN111382563A (zh) * 2020-03-20 2020-07-07 腾讯科技(深圳)有限公司 文本相关性的确定方法及装置
CN111581364A (zh) * 2020-05-06 2020-08-25 厦门理工学院 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN111859939A (zh) * 2020-07-29 2020-10-30 中国平安人寿保险股份有限公司 文本匹配方法、系统和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHUAI PANG,JIANQING MA,ZEYU YAN,YANG ZHANG,JIANPING SHEN: "Fastmatch:Accelerating the Inference of BERT-based Text Matching", 《PROCEEDINGS OF THE 28TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328908A (zh) * 2021-11-08 2022-04-12 腾讯科技(深圳)有限公司 一种问答语句质检方法、装置及相关产品
CN117892725A (zh) * 2024-03-18 2024-04-16 腾讯科技(深圳)有限公司 映射构建方法、装置及电子设备
CN117892725B (zh) * 2024-03-18 2024-05-10 腾讯科技(深圳)有限公司 映射构建方法、装置及电子设备

Also Published As

Publication number Publication date
CN112580325B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US11862142B2 (en) End-to-end text-to-speech conversion
CN107077841B (zh) 用于文本到语音的超结构循环神经网络
CN109478204B (zh) 非结构化文本的机器理解
CN109219812B (zh) 口语对话系统中的自然语言生成
CN110288980A (zh) 语音识别方法、模型的训练方法、装置、设备及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111949784A (zh) 基于意图识别的外呼方法及装置
CN112580325B (zh) 一种快速文本匹配方法及装置
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN114021582B (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
US8763905B2 (en) Data processing systems applying optical identification devices and related data processing and operation methods and computer program products thereof
Radzikowski et al. Dual supervised learning for non-native speech recognition
CN109637527A (zh) 对话语句的语义解析方法及系统
CN115394321A (zh) 音频情感识别方法、装置、设备、存储介质及产品
CN113450758B (zh) 语音合成方法、装置、设备及介质
CN112580669B (zh) 一种对语音信息的训练方法及装置
CN112735377A (zh) 语音合成方法、装置、终端设备及存储介质
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN116821324A (zh) 模型训练方法、装置、电子设备及存储介质
CN113314096A (zh) 语音合成方法、装置、设备和存储介质
JP2022121386A (ja) テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム
CN117456999B (zh) 音频识别方法、音频识别装置、车辆、计算机设备和介质
CN115081459B (zh) 口语文本生成方法、装置、设备及存储介质
CN117059077A (zh) 语音训练方法及计算机可读存储介质
CN117194644A (zh) 一种基于神经网络的说明书问答方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant