CN114398866A - 基于预测模型的文本匹配方法、装置、设备及存储介质 - Google Patents

基于预测模型的文本匹配方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114398866A
CN114398866A CN202210040367.0A CN202210040367A CN114398866A CN 114398866 A CN114398866 A CN 114398866A CN 202210040367 A CN202210040367 A CN 202210040367A CN 114398866 A CN114398866 A CN 114398866A
Authority
CN
China
Prior art keywords
text
matched
prediction
texts
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210040367.0A
Other languages
English (en)
Inventor
沈佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202210040367.0A priority Critical patent/CN114398866A/zh
Publication of CN114398866A publication Critical patent/CN114398866A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,具体公开了一种基于预测模型的文本匹配方法、装置、设备及存储介质。该方法包括:获取预训练样本;将预训练样本输入预构建好的预测模型中,得到各词语的语义向量,根据语义向量分别进行掩码标记预测以及文本样本的相似度预测,获得第一预测结果以及第二预测结果;根据第一预测结果和第二预测结果计算目标损失函数,采用目标损失函数对预测模型进行训练,得到目标预测模型;获取包含两个待匹配文本的待预测文本并输入目标预测模型中,获得两个待匹配文本的相似度预测结果,根据相似度预测结果确定两个待匹配文本是否匹配。通过上述方式,本发明能够提高模型的泛化能力、降低过拟合风险以及提高训练效率。

Description

基于预测模型的文本匹配方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,特别是涉及一种基于预测模型的文本匹配方法、装置、设备及存储介质。
背景技术
随着近几年电话场景下的智能客服越来越广泛的应用,人们在日常生活中与智能客服之间的交集越来越大。
智能对话中,识别客户意图的模型的发展也经过了好几轮的迭代,从最初的tf-idf,到词向量再到LSTM以及最近以bert为代表的预训练模型。在利用bert等预训练模型时,一般的做法是直接在当前的任务数据集上对其进行fine-tune。但是,这种方案的不足是,由于任务数据集一般数据量会比较小,经过几轮的训练之后,会产生比较严重的过拟合现象,影响模型的泛化能力。
发明内容
本发明提供一种基于预测模型的文本匹配方法、装置、设备及存储介质,能够解决传统的模型针对单项任务进行轮循训练,导致严重的过拟合现象以及训练效率低的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于预测模型的文本匹配方法,包括:
从训练数据集中随机获取包含有两个文本样本的训练样本,对两个所述文本样本进行预处理,获得包含有掩码标记以及头部标记的预训练样本;
将所述预训练样本输入预构建好的预测模型中,得到所述预训练样本中各个词语的语义向量,根据所述掩码标记对应的所述语义向量对所述掩码标记进行预测,获得第一预测结果,根据所述头部标记对应的所述语义向量对两个所述文本样本的相似度进行预测,获得第二预测结果;
根据所述第一预测结果和所述第二预测结果计算目标损失函数,采用所述目标损失函数对所述预测模型进行训练,基于反向传播算法调整训练后的所述预测模型的参数,得到目标预测模型;
获取两个待匹配文本,对两个所述待匹配文本进行预处理,获得待预测文本,将所述待预测文本输入所述目标预测模型中,获得两个所述待匹配文本的相似度预测结果,根据所述相似度预测结果确定两个所述待匹配文本是否匹配。
根据本发明的一个实施例,所述从训练数据集中随机获取包含有两个文本样本的训练样本,对两个所述文本样本进行预处理,获得包含有掩码标记以及头部标记的预训练样本包括:
从训练数据集中随机获取包含有两个文本样本的训练样本,分别对两个所述文本样本中的词进行掩码处理,获得含有掩码标记的两个所述文本样本并将所述文本样本进行拼接处理,得到拼接样本;
在所述拼接样本的头部进行标记处理,获得含有头部标记的预训练样本。
根据本发明的一个实施例,在所述从训练数据集中随机获取包含有两个文本样本的训练样本之前,还包括:
获取电话语音中的文本样本,将所述文本样本进行两两组合形成样本对,根据每个所述样本对中的两个所述文本样本的相似度对所述样本对进行标签标注处理,将包含有标签的所述样本对作为训练样本;
对所述训练样本进行预处理,将预处理后的所有所述训练样本形成训练数据集并存储于语料库中。
根据本发明的一个实施例,所述根据所述第一预测结果和所述第二预测结果计算目标损失函数包括:
根据所述第一预测结果计算第一损失函数,所述第一损失函数为所述第一预测结果的交叉熵;
根据所述第二预测结果计算所述第二损失函数,所述第二损失函数为所述第二预测结果的交叉熵;
根据所述第一损失函数和所述第二损失函数计算所述目标损失函数,所述目标损失函数为所述第一损失函数与所述第二损失函数之和。
根据本发明的一个实施例,所述获取两个待匹配文本,对两个所述待匹配文本进行预处理,获得待预测文本包括:
获取用户输入的第一待匹配文本,将所述第一待匹配文本与语料库中的所有第二待匹配文本进行一一配对,形成文本对;
将每个文本对中的所述第一待匹配文本和所述第二待匹配文本进行拼接处理,获得多个拼接样本,在各所述拼接样本的头部进行标记处理,获得含有头部标记的待预测文本。
根据本发明的一个实施例,所述将所述待预测文本输入所述目标预测模型中,获得两个所述待匹配文本的相似度预测结果,根据所述相似度预测结果确定两个所述待匹配文本是否匹配包括:
将所述待预测文本输入所述目标预测模型中,得到所述待预测文本中各个词语的语义向量,将所有所述头部标记对应的所述语义向量进行全连接处理并对两个所述待匹配文本的相似度进行预测,获得第一预测标签、第二预测标签、与所述第一预测标签对应的第一概率值以及与所述第二预测标签对应的第二概率值;
根据所述第一预测标签、所述第二预测标签、所述第一概率值以及所述第二概率值确定两个所述待匹配文本是否匹配。
根据本发明的一个实施例,所述根据所述第一预测标签、所述第二预测标签、所述第一概率值以及所述第二概率值确定两个所述待匹配文本是否匹配包括:
根据所述第一概率值和所述第二概率值中较大的一个概率值确定两个所述待匹配文本是否匹配;
若两个所述待匹配文本相匹配,则将所述概率值作为两个所述待匹配文本的相似度,并统计所有确定两个所述待匹配文本相匹配的相似度,选择最大的相似度对应的所述第二待匹配文本作为所述第一待匹配文本的目标匹配文本。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种基于预测模型的文本匹配装置,包括:
获取模块,用于从训练数据集中随机获取包含有两个文本样本的训练样本,对两个所述文本样本进行预处理,获得包含有掩码标记以及头部标记的预训练样本;
第一预测模块,用于将所述预训练样本输入预构建好的预测模型中,得到所述预训练样本中各个词语的语义向量,根据所述掩码标记对应的所述语义向量对所述掩码标记进行预测,获得第一预测结果,根据所述头部标记对应的所述语义向量对两个所述文本样本的相似度进行预测,获得第二预测结果;
训练模块,用于根据所述第一预测结果和所述第二预测结果计算目标损失函数,采用所述目标损失函数对所述预测模型进行训练,基于反向传播算法调整训练后的所述预测模型的参数,得到目标预测模型;
第二预测模块,用于获取两个待匹配文本,对两个所述待匹配文本进行预处理,获得待预测文本,将所述待预测文本输入所述目标预测模型中,获得两个所述待匹配文本的相似度预测结果,根据所述相似度预测结果确定两个所述待匹配文本是否匹配。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于预测模型的文本匹配方法。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于预测模型的文本匹配方法。
本发明的有益效果是:预测模型利用上下文语义信息预测被掩码的词以及预测两个文本样本之间的相似度,通过对两项任务进行同时训练,一方面增加了模型学习的难度,提高了模型的泛化能力,降低了过拟合的风险;另一方面大大减少训练时间,加快模型上线的速度,迭代效率更高,解决了传统的模型针对单项任务进行轮循训练,导致严重的过拟合现象以及训练效率低的问题。
附图说明
图1是本发明实施例的基于预测模型的文本匹配方法的流程示意图;
图2是本发明实施例的基于预测模型的文本匹配方法中步骤S101的流程示意图;
图3是本发明实施例的基于预测模型的文本匹配方法中步骤S102的流程示意图;
图4是本发明实施例的基于预测模型的文本匹配方法中步骤S104的流程示意图;
图5是本发明实施例的基于预测模型的文本匹配方法中步骤S401的流程示意图;
图6是本发明实施例的基于预测模型的文本匹配装置的结构示意图;
图7是本发明实施例的计算机设备的结构示意图;
图8是本发明实施例的计算机存储介质的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明实施例的基于预测模型的文本匹配方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:从训练数据集中随机获取包含有两个文本样本的训练样本,对两个文本样本进行预处理,获得包含有掩码标记以及头部标记的预训练样本。
在步骤S101中,训练数据集包括多个训练样本对,每个训练样本对包括两个文本样本,对两个文本样本进行预处理包括掩码处理和拼接处理。一实施例中,在步骤S101之前,还包括获取电话语音中的文本样本,将文本样本进行两两组合形成样本对,根据每个样本对中的两个文本样本的相似度对样本对进行标签标注处理,将包含有标签的样本对作为训练样本;对训练样本进行去停用词,文本纠错等预处理,提高文本匹配的准确度和匹配效率,将预处理后的所有训练样本形成训练数据集并存储于语料库中。本实施例采用人工的方式进行标注,两个文本样本的相似度可以通过包含相同的词数与总词数的比值进行计算,将相似度计算结果与预设值进行比较,若相似度计算结果大于预设值,则认为两个文本样本相似,对该训练样本标注为“YES”,若相似度计算结果小于或等于预设值,则认为两个文本样本不相似,对该训练样本标注为“NO”。
进一步地,请参见图2,步骤S101还包括以下步骤:
步骤S201:从训练数据集中随机获取包含有两个文本样本的训练样本,分别对两个文本样本中的词进行掩码处理,获得含有掩码标记的两个文本样本并将文本样本进行拼接处理,得到拼接样本。
本实施例从训练数据集中随机获取训练样本对后,分别对每个文本样本进行掩码处理,掩码处理可以将每个文本样本中部分词替换为[mask]字符,例如,将文本样本中15%的词替换为[mask]字符。又例如,训练样本对包括“利息多少”以及“天气不错”,将“息”字mask掉,将“错”字mask掉,变成“利[mask]多少”以及“天气不[mask]”。
步骤S202:在拼接样本的头部进行标记处理,获得含有头部标记的预训练样本。
在拼接样本的头部插入第一字符,在两个文本样本的连接处插入第二字符,形成预训练样本。例如,在拼接样本的句首即头部插入[CLS]字符,在两个文本样本的连接处插入[SEP]字符。在预训练样本中,将[CLS]字符映射为标签“YES”和标签“NO”,“YES”表示拼接样本中的两个文本样本相似,“NO”表示拼接样本中的两个文本样本不相似。
步骤S102:将预训练样本输入预构建好的预测模型中,得到预训练样本中各个词语的语义向量,根据掩码标记对应的语义向量对掩码标记进行预测,获得第一预测结果,根据头部标记对应的语义向量对两个文本样本的相似度进行预测,获得第二预测结果。
在步骤S102中,预测模型可以为Bert模型,具体包括多个依次连接Encoder层(本实施例有12层)、与各个Encoder层的输出连接的全连接层以及与全连接层连接的Embedding层,每个Encoder层包括Embedding模块,注意力模块以及全连接模块,本实施例在12个Encoder层里面,每个Encoder层的输出作为下一个Encoder层的输入。
第一个Encoder层的输入为预训练样本,每个Encoder层的输出为包含了上下文语义信息的语义向量,最后一个Encoder层的输出为融合了全文语义信息的语义向量。其中,每个Encoder层的Embedding模块用于对输入进行词嵌入、位置嵌入和段嵌入处理,获得每个词的词向量、位置向量以及文本向量,将每个词的词向量、位置向量以及文本向量进行加和计算,得到对应的样本序列并输入注意力模块,注意力模块对样本序列进行特征提取,全连接模块充分学习每个特征的上下文语义信息,最后一个Encoder层输出每个词融合了全文语义信息的语义向量以及对应的概率预测值,其中,掩码标记的概率预测值表示掩码位置为预测的掩码词的概率值。全连接层将每个Encoder层输出的头部标记对应的语义向量进行拼接,然后,经过Embedding层将拼接结果中的[CLS]字符映射成标签“YES”和标签“NO”,并输出标签“YES”对应的概率预测值和标签“NO”对应的概率预测值。因此,本实施例的第一预测结果包括掩码词以及对应的概率预测值,第二预测结果包括标签以及对应的概率预测值。
进一步地,请参见图3,步骤S102还包括以下步骤:
步骤S301:对预训练样本进行词嵌入、位置嵌入和段嵌入处理,获得每个词的词向量、位置向量以及文本向量,将每个词的词向量、位置向量以及文本向量进行加和计算,得到与预训练样本对应的样本序列;
步骤S302:基于注意力机制对样本序列进行特征提取,获得每个词的特征向量;
步骤S303:对各个特征向量进行上下文语义学习,获得每个词融合了全文语义信息的语义向量;
步骤S304:根据掩码标记对应的语义向量对掩码标记进行预测,获得掩码词以及对应的第一概率预测值,将头部标记对应的语义向量进行全连接处理以对两个文本样本的相似度进行预测,获得预训练样本的标签以及第二预测概率值。
在步骤S304中,根据掩码标记对应的语义向量对掩码标记进行预测,掩码标记可以预测出多个掩码词,每个掩码词都对应一个概率预测值,本实施例选择概率预测值最大的一个掩码词作为掩码标记的预测结果。本实施例的文本匹配模型中每一层Encoder层都会输出头部标记对应的语义向量,将所有Encoder层输出的头部标记对应的语义向量进行全连接处理,得到维度为2的语义向量,维度为2的语义向量分别用于表示两个文本样本的相似和不相似,将相似的样本序列的两个文本样本的头部标记[CLS]字符映射为标签“YES”,将不相似的样本序列的两个文本样本的头部标记[CLS]字符映射为标签“NO”,同时获得两个文本样本相似的概率预测值和不相似的概率预测值。根据两个文本样本相似的概率预测值和不相似的概率预测值,确定两个文本样本的语义相似度,具体地,判断相似的概率预测值是否大于不相似的概率预测值,若相似的概率预测值大于不相似的概率预测值,则确定两个文本样本相似,否则,确定两个文本样本不相似。
步骤S103:根据第一预测结果和第二预测结果计算目标损失函数,采用目标损失函数对预测模型进行训练,基于反向传播算法调整训练后的预测模型的参数,得到目标预测模型。
在步骤S103中,根据第一预测结果计算第一损失函数,第一损失函数为第一预测结果的交叉熵;根据第二预测结果计算第二损失函数,第二损失函数为第二预测结果的交叉熵;根据第一损失函数和第二损失函数计算目标损失函数,目标损失函数为第一损失函数与第二损失函数之和。具体地,第一预测结果包括掩码标记的预测词以及对应的概率值,第二预测结果包括头部标记的标签以及对应的概率值,将第一预测结果中的预测词与概率值之间的交叉熵作为第一损失函数,将第二预测结果中的标签与概率值之间的交叉熵作为第二损失函数。
步骤S104:获取两个待匹配文本,对两个待匹配文本进行预处理,获得待预测文本,将待预测文本输入目标预测模型中,获得两个待匹配文本的相似度预测结果,根据相似度预测结果确定两个待匹配文本是否匹配。
在步骤S104中,在一实施例中,两个待匹配文本可以是用户随机选取的,在其他实施例中,两个待匹配文本中的一个为用户随机选取的,另一个为语料库中的待匹配文本。则待预测文本可以按照如下方式生成:获取用户输入的第一待匹配文本,将第一待匹配文本与语料库中的所有第二待匹配文本进行一一配对,形成文本对;将每个文本对中的第一待匹配文本和第二待匹配文本进行拼接处理,获得多个拼接样本,在各拼接样本的头部进行标记处理,获得含有头部标记的待预测文本。
进一步地,请参见图4,将待预测文本输入目标预测模型中,获得两个待匹配文本的相似度预测结果,根据相似度预测结果确定两个待匹配文本是否匹配的步骤还包括:
步骤S401:将待预测文本输入目标预测模型中,得到待预测文本中各个词语的语义向量,将所有头部标记对应的语义向量进行全连接处理并对两个待匹配文本的相似度进行预测,获得第一预测标签、第二预测标签、与第一预测标签对应的第一概率值以及与第二预测标签对应的第二概率值。
本实施例的第一预测标签为“YES”,表示两个待匹配文本相似,第二预测标签为“NO”,表示两个待匹配文本不相似。目标文本匹配模型对于每个输入的待预测文本,均输出标签“YES”、标签“NO”、与“YES”的概率值以及“NO”概率值。
进一步地,请参见图5,步骤S401还包括以下步骤:
步骤S501:将待预测文本输入目标文本匹配模型中,对待预测文本进行词嵌入、位置嵌入和段嵌入处理,获得每个词的词向量、位置向量以及文本向量,将每个词的词向量、位置向量以及文本向量进行加和计算,得到与待预测文本对应的文本序列;
步骤S502:基于注意力机制对文本序列进行特征提取,获得每个词的特征向量,对各个特征向量进行上下文语义学习,获得每个词融合了全文语义信息的语义向量;
步骤S503:将头部标记对应的语义向量进行全连接处理,获得用于表示待预测文本中两个待匹配文本的相似度的第一预测标签、第二预测标签、与第一预测标签对应的概率值以及与第二预测标签对应的第二概率值。
步骤S402:根据第一预测标签、第二预测标签、第一概率值以及第二概率值确定两个待匹配文本是否匹配。
在步骤S402中,根据第一概率值和第二概率值中较大的一个概率值确定两个待匹配文本是否匹配;若两个待匹配文本相匹配,则将概率值作为两个待匹配文本的相似度,并统计所有确定两个待匹配文本相匹配的相似度,选择最大的相似度对应的第二待匹配文本作为第一待匹配文本的目标匹配文本。
在一实施例中,例如,一个待预测文本的预测结果为“YES”的概率值为90%,表示两个待匹配文本相似的概率为90%;“NO”的概率值为80%,表示两个待匹配文本不相似的概率为80%,则确定两个待匹配文本相匹配且相似度为90%,作为待预测文本的最终预测结果。
在一实施例中,若两个待匹配文本中的一个为用户随机选取的,另一个为语料库中的待匹配文本,则有多个待预测文本,针对每个待预测文本均有一个模型预测结果。在每个待预测文本的预测结果中仅保留较大的概率值作为该待预测文本的最终预测结果,故在所有确定为相似的待预测文本中,选择概率值最大的待预测文本中第二待匹配文本作为第一待匹配文本的目标匹配文本。例如,以待预测文本有5个为例进行说明,假如,第一待预测文本的最终预测结果为两个待匹配文本相似且相似度为90%,第二待预测文本的最终预测结果为两个待匹配文本相似且相似度为95%,第三待预测文本的最终预测结果为两个待匹配文本不相似且概率值为90%,第四待预测文本的最终预测结果为两个待匹配文本相似且相似度为98%,第五待预测文本的最终预测结果为两个待匹配文本不相似且概率值为99%;则确定为相似的待预测文本有第一待预测文本、第二待预测文本以及第四待预测文本,在这三个待预测文本中,第四待预测文本中两个待匹配文本的相似度最大,为98%,因此,将第四待预测文本中的第二待匹配文本作为第一待匹配文本的目标匹配文本。
本发明实施例的基于预测模型的文本匹配方法通过预测模型利用上下文语义信息预测被掩码的词以及预测两个文本样本之间的相似度,在训练预测模型时同时对两项任务进行训练,一方面增加了模型学习的难度,提高了模型的泛化能力,降低了过拟合的风险;另一方面大大减少训练时间,加快模型上线的速度,迭代效率更高,解决了传统的模型针对单项任务进行轮循训练,导致严重的过拟合现象以及训练效率低的问题。
图6是本发明实施例的基于预测模型的文本匹配装置的结构示意图。如图6所示,该装置60包括获取模块61、第一预测模块62、训练模块63以及第二预测模块64。
获取模块61用于从训练数据集中随机获取包含有两个文本样本的训练样本,对两个文本样本进行预处理,获得包含有掩码标记以及头部标记的预训练样本;
第一预测模块62用于将预训练样本输入预构建好的预测模型中,得到预训练样本中各个词语的语义向量,根据掩码标记对应的语义向量对掩码标记进行预测,获得第一预测结果,根据头部标记对应的语义向量对两个文本样本的相似度进行预测,获得第二预测结果;
训练模块63用于根据第一预测结果和第二预测结果计算目标损失函数,采用目标损失函数对预测模型进行训练,基于反向传播算法调整训练后的预测模型的参数,得到目标预测模型;
第二预测模块64用于获取两个待匹配文本,对两个待匹配文本进行预处理,获得待预测文本,将待预测文本输入目标预测模型中,获得两个待匹配文本的相似度预测结果,根据相似度预测结果确定两个待匹配文本是否匹配。
请参阅图7,图7为本发明实施例的计算机设备的结构示意图。如图7所示,该计算机设备70包括处理器71及和处理器71耦接的存储器72。
存储器72存储有用于实现上述任一实施例所述的基于预测模型的文本匹配方法的程序指令。
处理器71用于执行存储器72存储的程序指令以进行文本匹配。
其中,处理器71还可以称为CPU(Central Processing Unit,中央处理单元)。处理器71可能是一种集成电路芯片,具有信号的处理能力。处理器71还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图8,图8为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件81,其中,该程序文件81可以以软件产品的形式存储在上述计算机存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于预测模型的文本匹配方法,其特征在于,包括:
从训练数据集中随机获取包含有两个文本样本的训练样本,对两个所述文本样本进行预处理,获得包含有掩码标记以及头部标记的预训练样本;
将所述预训练样本输入预构建好的预测模型中,得到所述预训练样本中各个词语的语义向量,根据所述掩码标记对应的所述语义向量对所述掩码标记进行预测,获得第一预测结果,根据所述头部标记对应的所述语义向量对两个所述文本样本的相似度进行预测,获得第二预测结果;
根据所述第一预测结果和所述第二预测结果计算目标损失函数,采用所述目标损失函数对所述预测模型进行训练,基于反向传播算法调整训练后的所述预测模型的参数,得到目标预测模型;
获取两个待匹配文本,对两个所述待匹配文本进行预处理,获得待预测文本,将所述待预测文本输入所述目标预测模型中,获得两个所述待匹配文本的相似度预测结果,根据所述相似度预测结果确定两个所述待匹配文本是否匹配。
2.根据权利要求1所述的文本匹配方法,其特征在于,所述从训练数据集中随机获取包含有两个文本样本的训练样本,对两个所述文本样本进行预处理,获得包含有掩码标记以及头部标记的预训练样本包括:
从训练数据集中随机获取包含有两个文本样本的训练样本,分别对两个所述文本样本中的词进行掩码处理,获得含有掩码标记的两个所述文本样本并将所述文本样本进行拼接处理,得到拼接样本;
在所述拼接样本的头部进行标记处理,获得含有头部标记的预训练样本。
3.根据权利要求1所述的文本匹配方法,其特征在于,在所述从训练数据集中随机获取包含有两个文本样本的训练样本之前,还包括:
获取电话语音中的文本样本,将所述文本样本进行两两组合形成样本对,根据每个所述样本对中的两个所述文本样本的相似度对所述样本对进行标签标注处理,将包含有标签的所述样本对作为训练样本;
对所述训练样本进行预处理,将预处理后的所有所述训练样本形成训练数据集并存储于语料库中。
4.根据权利要求1所述的文本匹配方法,其特征在于,所述根据所述第一预测结果和所述第二预测结果计算目标损失函数包括:
根据所述第一预测结果计算第一损失函数,所述第一损失函数为所述第一预测结果的交叉熵;
根据所述第二预测结果计算所述第二损失函数,所述第二损失函数为所述第二预测结果的交叉熵;
根据所述第一损失函数和所述第二损失函数计算所述目标损失函数,所述目标损失函数为所述第一损失函数与所述第二损失函数之和。
5.根据权利要求1所述的文本匹配方法,其特征在于,所述获取两个待匹配文本,对两个所述待匹配文本进行预处理,获得待预测文本包括:
获取用户输入的第一待匹配文本,将所述第一待匹配文本与语料库中的所有第二待匹配文本进行一一配对,形成文本对;
将每个文本对中的所述第一待匹配文本和所述第二待匹配文本进行拼接处理,获得多个拼接样本,在各所述拼接样本的头部进行标记处理,获得含有头部标记的待预测文本。
6.根据权利要求5所述的文本匹配方法,其特征在于,所述将所述待预测文本输入所述目标预测模型中,获得两个所述待匹配文本的相似度预测结果,根据所述相似度预测结果确定两个所述待匹配文本是否匹配包括:
将所述待预测文本输入所述目标预测模型中,得到所述待预测文本中各个词语的语义向量,将所有所述头部标记对应的所述语义向量进行全连接处理并对两个所述待匹配文本的相似度进行预测,获得第一预测标签、第二预测标签、与所述第一预测标签对应的第一概率值以及与所述第二预测标签对应的第二概率值;
根据所述第一预测标签、所述第二预测标签、所述第一概率值以及所述第二概率值确定两个所述待匹配文本是否匹配。
7.根据权利要求6所述的文本匹配方法,其特征在于,所述根据所述第一预测标签、所述第二预测标签、所述第一概率值以及所述第二概率值确定两个所述待匹配文本是否匹配包括:
根据所述第一概率值和所述第二概率值中较大的一个概率值确定两个所述待匹配文本是否匹配;
若两个所述待匹配文本相匹配,则将所述概率值作为两个所述待匹配文本的相似度,并统计所有确定两个所述待匹配文本相匹配的相似度,选择最大的相似度对应的所述第二待匹配文本作为所述第一待匹配文本的目标匹配文本。
8.一种基于预测模型的文本匹配装置,其特征在于,包括:
获取模块,用于从训练数据集中随机获取包含有两个文本样本的训练样本,对两个所述文本样本进行预处理,获得包含有掩码标记以及头部标记的预训练样本;
第一预测模块,用于将所述预训练样本输入预构建好的预测模型中,得到所述预训练样本中各个词语的语义向量,根据所述掩码标记对应的所述语义向量对所述掩码标记进行预测,获得第一预测结果,根据所述头部标记对应的所述语义向量对两个所述文本样本的相似度进行预测,获得第二预测结果;
训练模块,用于根据所述第一预测结果和所述第二预测结果计算目标损失函数,采用所述目标损失函数对所述预测模型进行训练,基于反向传播算法调整训练后的所述预测模型的参数,得到目标预测模型;
第二预测模块,用于获取两个待匹配文本,对两个所述待匹配文本进行预处理,获得待预测文本,将所述待预测文本输入所述目标预测模型中,获得两个所述待匹配文本的相似度预测结果,根据所述相似度预测结果确定两个所述待匹配文本是否匹配。
9.一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于预测模型的文本匹配方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于预测模型的文本匹配方法。
CN202210040367.0A 2022-01-14 2022-01-14 基于预测模型的文本匹配方法、装置、设备及存储介质 Pending CN114398866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210040367.0A CN114398866A (zh) 2022-01-14 2022-01-14 基于预测模型的文本匹配方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210040367.0A CN114398866A (zh) 2022-01-14 2022-01-14 基于预测模型的文本匹配方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114398866A true CN114398866A (zh) 2022-04-26

Family

ID=81231383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210040367.0A Pending CN114398866A (zh) 2022-01-14 2022-01-14 基于预测模型的文本匹配方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114398866A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969257A (zh) * 2022-05-26 2022-08-30 平安普惠企业管理有限公司 标准语音识别数据库的构建方法、装置、计算机设备
CN116245197A (zh) * 2023-02-21 2023-06-09 北京数美时代科技有限公司 一种提升语言模型的训练速率的方法、系统、介质及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969257A (zh) * 2022-05-26 2022-08-30 平安普惠企业管理有限公司 标准语音识别数据库的构建方法、装置、计算机设备
CN116245197A (zh) * 2023-02-21 2023-06-09 北京数美时代科技有限公司 一种提升语言模型的训练速率的方法、系统、介质及设备
CN116245197B (zh) * 2023-02-21 2023-11-07 北京数美时代科技有限公司 一种提升语言模型的训练速率的方法、系统、介质及设备

Similar Documents

Publication Publication Date Title
CN111164601B (zh) 情感识别方法、智能装置和计算机可读存储介质
CN110413746B (zh) 对用户问题进行意图识别的方法及装置
CN111949802B (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN114398866A (zh) 基于预测模型的文本匹配方法、装置、设备及存储介质
CN111461301B (zh) 序列化数据处理方法和装置、文本处理方法和装置
US11232263B2 (en) Generating summary content using supervised sentential extractive summarization
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN110909549A (zh) 对古汉语进行断句的方法、装置以及存储介质
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
WO2023241410A1 (zh) 数据处理方法、装置、设备及计算机介质
CN112818995B (zh) 图像分类方法、装置、电子设备及存储介质
CN111291172A (zh) 用于处理文本的方法和装置
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN111104800B (zh) 一种实体识别方法、装置、设备、存储介质和程序产品
CN111966811A (zh) 意图识别和槽填充方法、装置、可读存储介质及终端设备
CN116186200B (zh) 模型训练方法、装置、电子设备和存储介质
CN115617975B (zh) 针对少样本多轮对话的意图识别方法及装置
CN111460113A (zh) 一种数据交互方法及相关设备
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN114092931B (zh) 场景文字识别方法、装置、电子设备及存储介质
CN113850383A (zh) 文本匹配模型训练方法、装置、电子设备及存储介质
CN110442767B (zh) 一种确定内容互动平台标签的方法、装置及可读存储介质
CN112287159A (zh) 检索方法、电子设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination