CN113569011A - 文本匹配模型的训练方法、装置、设备及存储介质 - Google Patents
文本匹配模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113569011A CN113569011A CN202110853320.1A CN202110853320A CN113569011A CN 113569011 A CN113569011 A CN 113569011A CN 202110853320 A CN202110853320 A CN 202110853320A CN 113569011 A CN113569011 A CN 113569011A
- Authority
- CN
- China
- Prior art keywords
- text
- texts
- text matching
- training
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文本匹配模型的训练方法、装置、设备及存储介质,该方法包括:获取多个第一样本对,每个第一样本对中包括两个文本和两个文本的匹配结果,对各第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对,基于第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型,获取预设业务场景对应的多个第三样本对,每个第三样本对中包括两个文本和两个文本的匹配结果,基于第三样本对,对预训练后的文本匹配模型进行迭代微调训练,获得预设业务场景对应的文本匹配模型。本申请能够更加准确地进行文本匹配。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本匹配模型的训练方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,智能对话系统可以对用户输入信息进行语义识别,确定用户的对话意图,在电商、智能设备等方面有着广泛的应用。常见问题解答(FrequentlyAsked Questions,FAQ)对话系统是智能客服中普遍使用的方法,客户在智能对话系统上输入要查询的问题后,智能对话系统会自动识别文本的语义信息,并返回答案。在这过程中,智能对话系统使用的文本匹配方法是影响整个对话系统准确率的关键部分。
目前,在智能对话系统中,通常使用的文本匹配方法为:通过传统机器学习中的词袋模型(Bag-of-words model)对文本进行向量表示,计算最佳匹配25(BM25)、词频-逆文本频率指数(Term Frequence-Inverse Document Frequence,TF-IDF)等余弦相关度,进行余弦相关度打分,从而确定匹配的文本。但是,上述方式通过计算文本的字面相关度进行文本匹配,因此,文本匹配效果差。
发明内容
本申请提供一种文本匹配模型的训练方法、装置、设备及存储介质,以更加准确地进行文本匹配,提升文本匹配的效果。
第一方面,本申请提供一种文本匹配模型的训练方法,包括:
获取多个第一样本对,每个第一样本对中包括两个文本和两个文本的匹配结果,匹配结果用于指示两个文本是否匹配;
对各第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对;
基于第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型;
获取预设业务场景对应的多个第三样本对,每个第三样本对中包括两个文本和两个文本的匹配结果,匹配结果用于指示两个文本是否匹配;
基于第三样本对,对预训练后的文本匹配模型进行迭代微调训练,获得预设业务场景对应的文本匹配模型。
第二方面,本申请提供一种文本匹配方法,应用于智能对话系统,该文本匹配方法包括:
获取待匹配文本以及待匹配文本的各候选文本匹配结果;
将待匹配文本以及各候选文本匹配结果输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的第一概率,文本匹配模型为采用如本申请第一方面所述的文本匹配模型;
根据每一候选文本匹配结果的第一概率,确定待匹配文本对应的目标文本匹配结果。
可选的,将待匹配文本以及各候选文本匹配结果输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的第一概率,包括:基于预设文本对格式将待匹配文本分别与各候选文本匹配结果进行文本拼接,获得拼接文本对;将拼接文本对输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的第一概率。
可选的,根据每一候选文本匹配结果的第一概率,确定待匹配文本对应的目标文本匹配结果,包括:确定对应第一概率最大的候选文本匹配结果为待匹配文本对应的目标文本匹配结果。
本申请提供的文本匹配方法,由于根据本申请第一方面所述的文本匹配模型输出的第一概率,确定待匹配文本对应的目标文本匹配结果,因此,能够更加准确地进行文本匹配,进而提升智能对话系统的用户体验。
第三方面,本申请提供一种文本匹配模型的训练装置,包括:
第一获取模块,用于获取多个第一样本对,每个第一样本对中包括两个文本和两个文本的匹配结果,匹配结果用于指示两个文本是否匹配;
处理模块,用于对各第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对;
预训练模块,用于基于第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型;
第二获取模块,用于获取预设业务场景对应的多个第三样本对,每个第三样本对中包括两个文本和两个文本的匹配结果,匹配结果用于指示两个文本是否匹配;
微调训练模块,用于基于第三样本对,对预训练后的文本匹配模型进行迭代微调训练,获得预设业务场景对应的文本匹配模型。
第四方面,本申请提供一种文本匹配装置,应用于智能对话系统,该文本匹配装置包括:
获取模块,用于获取待匹配文本以及待匹配文本的各候选文本匹配结果;
确定模块,用于将待匹配文本以及各候选文本匹配结果输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的第一概率,文本匹配模型为采用如本申请第一方面所述的文本匹配模型;
处理模块,用于根据每一候选文本匹配结果的第一概率,确定待匹配文本对应的目标文本匹配结果。
第五方面,本申请提供一种对话处理方法,应用于智能对话系统,包括:
获取用户对话文本;
根据用户对话文本以及预设文本匹配方法,确定用户对话文本对应的匹配文本,预设文本匹配方法为采用如本申请第二方面所述的文本匹配方法;
将匹配文本的预设应答文本确定为用户对话文本的目标应答文本;
将目标应答文本反馈给用户。
本申请提供的对话处理方法,由于根据本申请第二方面所述的文本匹配方法,确定用户对话文本对应的匹配文本,进而将对应的目标应答文本反馈给用户,因此,能够快速准确地匹配用户对话文本并进行反馈,提升用户体验。
第六方面,本申请提供一种对话处理装置,应用于智能对话系统,包括:
获取模块,用于获取用户对话文本;
第一确定模块,用于根据用户对话文本以及预设文本匹配方法,确定用户对话文本对应的匹配文本,预设文本匹配方法为采用如本申请第二方面所述的文本匹配方法;
第二确定模块,用于将匹配文本的预设应答文本确定为用户对话文本的目标应答文本;
反馈模块,用于将目标应答文本反馈给用户。
第七方面,本申请提供一种电子设备,包括:存储器和处理器;
存储器用于存储程序指令;
处理器用于调用存储器中的程序指令执行如本申请第一方面所述的文本匹配模型的训练方法。
第八方面,本申请提供一种电子设备,包括:存储器和处理器;
存储器用于存储程序指令;
处理器用于调用存储器中的程序指令执行如本申请第二方面所述的文本匹配方法。
第九方面,本申请提供一种电子设备,包括:存储器和处理器;
存储器用于存储程序指令;
处理器用于调用存储器中的程序指令执行如本申请第五方面所述的对话处理方法。
第十方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被执行时,实现如本申请第一方面所述的文本匹配模型的训练方法。
第十一方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被执行时,实现如本申请第二方面所述的文本匹配方法。
第十二方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被执行时,实现如本申请第五方面所述的对话处理方法。
第十三方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如本申请第一方面所述的文本匹配模型的训练方法。
第十四方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如本申请第二方面所述的文本匹配方法。
第十五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如本申请第五方面所述的对话处理方法。
本申请提供的文本匹配模型的训练方法、装置、设备及存储介质,通过获取多个第一样本对,每个第一样本对中包括两个文本和两个文本的匹配结果,对各第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对,基于第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型,获取预设业务场景对应的多个第三样本对,每个第三样本对中包括两个文本和两个文本的匹配结果,基于第三样本对,对预训练后的文本匹配模型进行迭代微调训练,获得预设业务场景对应的文本匹配模型。由于本申请对各第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对,基于第二样本对,对初始文本匹配模型进行迭代预训练,以使文本匹配模型更关注文本匹配中权重较高的实体名词和动词,从而提升文本匹配模型的上下文理解能力,因此,根据本申请实施例获得的文本匹配模型,能够更加准确地进行文本匹配,进而提升文本匹配的效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的应用场景示意图;
图2为本申请一实施例提供的文本匹配模型的训练方法的流程图;
图3为本申请另一实施例提供的文本匹配模型的训练方法的流程图;
图4为本申请一实施例提供的进行了掩码处理的第二样本对的示意图;
图5为本申请一实施例提供的文本匹配方法的流程图;
图6为本申请另一实施例提供的文本匹配方法的流程图;
图7为本申请一实施例提供的对话处理方法的流程图;
图8为本申请一实施例提供的文本匹配模型的训练装置的结构示意图;
图9为本申请一实施例提供的文本匹配装置的结构示意图;
图10为本申请一实施例提供的对话处理装置的结构示意图;
图11为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先,对本申请涉及的部分技术术语进行解释说明:
双向全序编码预测器(Bidirectional Encoder Representations fromTransformers,BERT)模型,即一种双向Transformer的编码器模型,在使用时通常分为两个阶段:(1)预训练阶段,即预训练语言模型;(2)微调阶段,即在预训练好的语言模型的基础上进行微调训练,使其适用于下游文本分类、序列标注等任务。
遮蔽语言模型(Masked Language Model,MLM),BERT预训练阶段中的学习任务之一,即随机选择输入的文本中的部分字,用[掩码]([Mask])代替,然后训练模型去正确预测被遮掩(Mask)的字。
预测句子对关系(Next Sentence Prediction,NSP)模型,BERT预训练阶段中的学习任务之一,即输入两个句子,判断句子B是否是句子A的下一句。
FAQ对话系统是智能客服中普遍使用的方法,客户在智能对话系统上输入要查询的问题后,智能对话系统会自动识别文本的语义信息,并返回答案。FAQ对话系统的算法逻辑通常是,首先收集业务数据和用户日志数据,维护一个FAQ问答库,形式是“问题-答案(question-answer)”的问答对;然后针对问答对中的标准问题进行扩充,扩展出多个相关问题,用于语义匹配;当客户在FAQ对话系统输入要查询的问题后,FAQ对话系统会先做粗召回,即在FAQ问答库中查找与要查询的问题文本匹配程度比较高的问题列表,再通过精度更高的模型对问题列表进行精排序,根据精排序后的结果(比如文本相关度大于设定阈值),确定与要查询的问题匹配的标准问题,并将该标准问题对应的答案显示给客户。其中,粗召回阶段通常使用分布式全文搜索引擎(ElasticSearch,ES),根据关键词的倒排索引表,召回FAQ知识库(FAQ知识库用于保存标准问法和相关问法,可看做意图识别数据集,即每类查询意图中对应有多种问法)中最相近的问法,精排序阶段使用文本匹配模型,对客户在FAQ对话系统输入的要查询的问题和粗召回阶段获得的最相近的问法进行相关度打分,而文本匹配模型的效果是影响客户问题匹配准确度的关键部分,进而能够影响整个FAQ对话系统准确率。示例性地,在购物场景中,客户通过购物产品的智能对话系统输入要查询的问题比如为:什么时候发货?智能对话系统在获取到该问题后,对该问题进行文本匹配,确定该问题匹配的标准问题,进而将该标准问题对应的答案显示给客户。在购物场景中,若将客户咨询的发货时间问题错误地匹配为客户咨询发货方式对应的标准问题,则会大大影响客户对购物产品的使用体验。常规的文本匹配方法有两种:(1)通过传统机器学习中的词袋模型对文本进行向量表示,计算BM25、TF-IDF等余弦相关度,进行余弦相关度打分,从而确定匹配的文本,但此方法通过计算文本的字面相关度进行文本匹配;(2)通过深度学习模型、预训练模型进行文本相似度训练,其中,预训练模型比如为长短期记忆网络(Long Short-TermMemory,LSTM)、BERT模型,使模型具有更深层的语义理解能力,但此方法仍然存在模型性能的瓶颈问题。另外,常规的构建文本匹配样本的方法为在FAQ知识库中随机抽样或借助人工辅助构造负样本,导致负样本难度过低以及人力的浪费。
基于上述问题,本申请提供一种文本匹配模型的训练方法、装置、设备及存储介质,通过对获取的多个样本对中文本包含的特定词性的词进行掩码处理,基于掩码处理后的多个样本对迭代预训练文本匹配模型,对预训练后的文本匹配模型进行迭代微调训练,获得目标文本匹配模型。通过上述方式获得的目标文本匹配模型能够更加准确地进行文本匹配。
以下,首先对本申请提供的方案的应用场景进行示例说明。
图1为本申请一实施例提供的应用场景示意图。如图1所示,本应用场景中,客户端101获取客户的问题,将客户的问题发送给服务器102,服务器102根据客户的问题进行文本匹配,确定匹配的目标问题,将匹配的目标问题对应的答案发送给客户端101,客户端101将该答案显示给客户。其中,服务器102根据客户的问题进行文本匹配,确定匹配的目标问题的具体实现过程可以参见下述各实施例的方案。
需要说明的是,图1仅是本申请实施例提供的一种应用场景的示意图,本申请实施例不对图1中包括的设备进行限定,也不对图1中设备之间的位置关系进行限定。例如,在图1所示的应用场景中,还可以包括数据存储设备,该数据存储设备相对客户端101或者服务器102可以是外部存储器,也可以是集成在客户端101或者服务器102中的内部存储器。
接下来,通过具体实施例介绍文本匹配方法。
图2为本申请一实施例提供的文本匹配模型的训练方法的流程图。本申请实施例的方法可以应用于电子设备中,该电子设备可以是服务器或服务器集群等。如图2所示,本申请实施例的方法包括:
S201、获取多个第一样本对,每个第一样本对中包括两个文本和两个文本的匹配结果。
其中,匹配结果用于指示两个文本是否匹配。
本申请实施例中,匹配结果比如为:0表示匹配,1表示不匹配。示例性地,一个第一样本对中包括两个文本,其中的一个文本比如为:你什么时候发货?,对应的意图为发货时间;其中的另一个文本比如为:你几号发货?,对应的意图为发货时间,这两个文本的意图相同,因此,确定该第一样本对中包括的两个文本的匹配结果为:匹配。示例性地,另一个第一样本对中包括两个文本,其中的一个文本比如为:你什么时候发货?,对应的意图为发货时间;其中的另一个文本比如为:你通过什么方式发货?,对应的意图为发货方式,这两个文本的意图不相同,因此,确定该第一样本对中包括的两个文本的匹配结果为:不匹配。对于如何获取多个第一样本对,可参考相关技术或者后续实施例,此处不再赘述。
S202、对各第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对。
该步骤中,在获取了多个第一样本对后,示例性地,若第一样本对中的文本包含实体名词和动词,则对该第一样本对中文本包含的实体名词和动词进行掩码处理,得到对应的第二样本对;若第一样本对中的文本包含实体名词、不包含动词,则对该第一样本对中文本包含的实体名词进行掩码处理,得到对应的第二样本对;若第一样本对中的文本包含动词、不包含实体名词,则对该第一样本对中文本包含的动词进行掩码处理,得到对应的第二样本对。对于如何对各第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对,可参考相关技术或者后续实施例,此处不再赘述。
S203、基于第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型。
示例性地,初始文本匹配模型比如为初始BERT模型。在获得了第二样本对后,可以基于第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型。对于如何基于第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型,可参考相关技术或者后续实施例,此处不再赘述。
S204、获取预设业务场景对应的多个第三样本对,每个第三样本对中包括两个文本和两个文本的匹配结果。
其中,匹配结果用于指示两个文本是否匹配。
示例性地,匹配结果比如为:0表示匹配,1表示不匹配,上述预设业务场景包括购物场景、业务推荐场景、业务咨询场景等,具体地,比如为购物场景,不同的购物问题对应不同的购物意图,例如,客户咨询发货时间或发货方式,则发货时间为一种购物意图,发货方式为另一种购物意图。可以根据预设业务场景获取预设业务场景对应的多个第三样本对。示例性地,一个第三样本对中包括两个文本,其中的一个文本比如为:大概什么时候发货?,对应的意图为发货时间;其中的另一个文本比如为:哪一天发货?,对应的意图为发货时间,这两个文本的意图相同,因此,确定该第三样本对中包括的两个文本的匹配结果为:匹配,可以理解,该第三样本对中包括的两个文本均为正样本。若第三样本对中包括的两个文本的意图不相同,则确定该第三样本对中包括的两个文本的匹配结果为:不匹配,可以理解,该第三样本对中包括的两个文本一个为正样本、一个为负样本。示例性地,第三样本对的格式比如为“[cls][句子1][sep][句子2]”文本对格式,其中,[cls]为分类起始符,表示特殊字符位置的输出,用于指示第三样本对中包括的两个文本的匹配结果(0表示匹配,1表示不匹配),即用于指示句子1和句子2是否匹配;[sep]为特殊分隔符,用于分隔句子1和句子2。示例性地,[sep]比如为符号“|”,第三样本对比如为“[cls]大概什么时候发货?|哪一天发货?”,由于第三样本对中包括的两个文本匹配,相应地,第三样本对比如为“0大概什么时候发货?|哪一天发货?”。
S205、基于第三样本对,对预训练后的文本匹配模型进行迭代微调训练,获得预设业务场景对应的文本匹配模型。
示例性地,预训练后的文本匹配模型比如为预训练后的BERT模型。在获得了预设业务场景对应的第三样本对后,可以基于第三样本对,对预训练后的BERT模型进行迭代微调训练,获得预设业务场景对应的文本匹配模型。对预训练后的BERT模型如何进行迭代微调训练,可参考目前的相关技术。示例性地,第三样本对的格式比如为“[cls][句子1][sep][句子2]”文本对格式,第三样本对的长度相同,均用L1表示,将第三样本对输入至预训练后的BERT模型进行迭代微调训练。具体地,第三样本对经过预训练后的BERT模型包含的12层的编码(encoder)网络,可以得到对应的向量(用Vec1表示),Vec1的维度为L1*768;将Vec1输入至注意力(attention)层,可以获的attention加权矩阵(用A1表示),A1的维度为L1*L1,即第三样本对中的每个字可以用其他的字进行加权表示。通过attention层的计算,能够提升BERT模型的语义理解能力,即通过attention层的交互计算,BERT模型既能够知道第三样本对中包括的两个文本是否相关,又能够知道具体相关在哪里。attention层的输出矩阵用U1表示,则U1=A1*Vec1,U1的维度为L1*768;对attention层的输出结果进行加权平均处理,获得第三样本对的整句文本的向量(用X1表示),X1的维度为1*768,将向量X1连接二分类全连接(Dense)层,输出第三样本对中包括的两个文本的相关概率、不相关概率,即第三样本对中包括的两个文本的相关度,根据该相关度,确定第三样本对中包括的两个文本的匹配结果。通过上述方式,对预训练后的BERT模型进行迭代微调训练,可以获得预设业务场景对应的BERT模型。
在获得了预设业务场景对应的文本匹配模型后,可以将该文本匹配模型应用于预设业务场景中,进行文本匹配。
本申请实施例提供的文本匹配模型的训练方法,通过获取多个第一样本对,每个第一样本对中包括两个文本和两个文本的匹配结果,对各第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对,基于第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型,获取预设业务场景对应的多个第三样本对,每个第三样本对中包括两个文本和两个文本的匹配结果,基于第三样本对,对预训练后的文本匹配模型进行迭代微调训练,获得预设业务场景对应的文本匹配模型。由于本申请实施例对各第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对,基于第二样本对,对初始文本匹配模型进行迭代预训练,以使文本匹配模型更关注文本匹配中权重较高的实体名词和动词,从而提升文本匹配模型的上下文理解能力,且本实施例为模型的多阶段学习,在预训练阶段和微调阶段都加入了文本匹配的相关任务,提升了模型多阶段学习的目标一致性,减小了模型学习的缺口,也提升了模型在专一场景的语义理解能力,降低了模型过拟合的风险。因此,根据本申请实施例获得的文本匹配模型,能够更加准确地进行文本匹配,进而提升文本匹配的效果。
图3为本申请另一实施例提供的文本匹配模型的训练方法的流程图。在上述实施例的基础上,本申请实施例对如何训练文本匹配模型进行进一步说明。如图3所示,本申请实施例的方法可以包括:
本申请实施例中,图2中S201步骤可以进一步细化为如下的S301和S302两个步骤:
S301、确定训练数据,训练数据包括多个文本。
本申请实施例中,训练数据用于训练文本匹配模型,训练数据包括多个文本。
可选的,训练数据包括正样本和负样本,其中,负样本包括预设比例的难负样本,难负样本用于表示字面较为相似但语义不相关的文本。
示例性地,比如,问题a为“还款了怎么还没入账?”,问题a的意图为“已还款/扣款显示未还款”,问题b为“已还款额度没恢复怎么办?”,问题b的意图为“已还款额度未恢复”,问题c为“如何销户?”,问题c的意图为“怎么注销账号”。问题a和问题b的字面较为相似但语义不相关,因此,将问题a和问题b组合成难负样本对,避免了所有样本对都是像将问题a和问题c组合的简单样本对,导致文本匹配任务过于简单。训练数据中的负样本包括预设比例的难负样本,具体可参考后续实施例,此处不再赘述。
相比目前通过随机抽样方式获得的训练数据,本申请实施例通过在训练数据的负样本中包括预设比例的难负样本,能够提升文本匹配模型的学习难度,进而能够提高文本匹配模型的文本匹配准确度。
一种可能的实施方式中,确定训练数据,包括:获取文本分类数据集,文本分类数据集中包括多个文本;对文本分类数据集中的文本进行向量化处理,获得文本分类数据集中各文本对应的向量;基于文本分类数据集中各文本对应的向量以及预设聚类方法,确定各文本所属的分类,分类用于指示相关度大于预设值的文本所属的类别;基于分类中的各文本以及各文本对应的标签,确定训练数据,标签用于指示文本的意图。
示例性地,可以根据业务场景中的客服坐席与客户的通话记录中获取文本分类数据集,获得的文本分类数据集比如可以作为FAQ知识库中意图识别数据集。示例性地,文本分类数据集中包括多个文本,对每个文本进行TF-IDF向量表示,即将每个句子表示成一个1*n的向量,其中,n为词汇表的大小,从而获得各文本对应的向量。具体地,TF-IDF由TF、IDF两部分组成,其中,TF表示词频,即一个文件中,词频越高的词权重越大;IDF表示逆文本频率指数,即一个词出现的文件数越多,这个词的权重越低;TF-IDF=TF*IDF。假如一个文件集包含两个文件,其中文件1中的文本为:小明很开心,因为是晴天,可以踢足球了;文件2中的文本为:小明很伤心,因为是雨天,不能踢足球了。针对这个文件集,首先获取词汇表,即将每个文件中包含的文本进行分词后,得到词汇表:[小明,很,开心,因为,是,晴天,可以,踢足球,了,伤心,雨天,不能];计算每个文件中每个词对应的TF-IDF,每个文件中的每个词的TF值为每个词的词频除以总词频,比如:文件1中“小明”这个词的词频是1,总词频是9,所以“小明”这个词的TF值为1/9,“小明”出现在了两个文件中,因此,“小明”这个词的IDF=log(2/(2+0.001))=-0.0005,其中0.001用于数据平滑处理。依此类推,如表1所示,可以分别获得文件1和文件2中每个词对应的TF-IDF:
表1
最后,使用TF-IDF表示两个文件中的文本,将每个文件中的文本表示成了一个1*12的向量,其中,12为词汇表的大小,从而获得文件1中的文本对应的向量vec1以及文件2中的文本对应的向量vec2。这个过程可以理解为填表的过程,即将词汇表中每个词对应的TF-IDF值作为词汇表的索引进行填充,如表2所示,词汇表中有的索引就用TF-IDF值填充,没有的就用0填充。
表2
示例性地,预设聚类方法比如为K均值聚类算法(K-means ClusteringAlgorithm,Kmeans)。在获得了文本分类数据集中各文本对应的TF-IDF向量后,根据Kmeans聚类算法,将K(即种类)比如设置为100,则将文本分类数据集中各文本聚成比如100个簇,每个簇内文本相关性较大。例如,文本分类数据集中的一个文本为问题1,对应的标签为A(即文本的意图分类,初始时可以为人工设置的标签),问题1属于Kmeans聚类获得的100个簇中的M簇,则问题1的负样本为属于M簇且标签不为A的文本(即聚到同一个簇中的标签不为A的其他标签对应的文本为负样本);则问题1的正样本为属于M簇且标签为A的文本。根据各正样本和负样本,确定训练数据。该确定训练数据的实施方式可以理解为基于聚类生成训练数据。
进一步地,基于文本分类数据集中各文本对应的向量以及预设聚类方法,确定各文本所属的分类,包括:对各文本对应的向量进行降维处理,获得降维处理后的各文本对应的向量;基于降维处理后的各文本对应的向量以及预设聚类方法,确定各文本所属的分类。
示例性地,通过奇异值分解(Singular Value Decomposition,SVD)对各文本对应的TF-IDF向量进行降维处理,将TF-IDF向量降维到比如1000,即将每个句子表示成一个1*1000的向量,以降低预设聚类方法的计算量。基于降维处理后的各文本对应的TF-IDF向量以及预设聚类方法,确定各文本所属的分类。对于如何通过SVD对各文本对应的TF-IDF向量进行降维处理,可参考目前的相关技术。
另一种可能的实施方式中,确定训练数据,包括:获取随机构建的文本匹配数据集,文本匹配数据集包含多个文本;将文本匹配数据集输入至预设相关度模型,获得文本匹配数据集中各文本之间的相关度;根据文本匹配数据集中各文本之间的相关度、各文本对应的标签以及预设相关度阈值,确定训练数据,标签用于指示文本的意图。
示例性地,预设相关度模型比如为LSTM序列分类模型(用模型T表示),预设相关度阈值比如为0.5。示例性地,首先通过随机构建的相关、不相关数据,获得随机构建的文本匹配数据集,文本匹配数据集包含多个文本;然后将文本匹配数据集输入至模型T,对模型T进行训练,获得文本匹配数据集中各文本之间的相关度;最后根据文本匹配数据集中各文本之间的相关度、各文本对应的标签以及预设相关度阈值0.5,确定训练数据。例如,文本匹配数据集中的三个文本,分别为问题2、问题3、问题4,问题2对应的标签为A,若问题3与问题2基于模型T获得的相关度大于0.5,且问题3的标签不为A,则问题3为问题2的负样本;若问题4与问题2基于模型T获得的相关度大于0.5,且问题4的标签为A,则问题4为问题2的正样本。根据各正样本和负样本,确定训练数据。该确定训练数据的方式可以理解为基于相关度生成训练数据。
又一种可能的实施方式中,确定训练数据,包括:获取随机生成的样本数据集,随机生成的样本数据集包含多个文本;基于随机生成的样本数据集以及随机生成的样本数据集包含的各文本的标签,确定训练数据,标签用于指示文本的意图。
示例性地,通过随机生成的相关、不相关数据,获得随机生成的样本数据集,随机生成的样本数据集包含多个文本,基于随机生成的样本数据集以及随机生成的样本数据集包含的各文本的标签,确定训练数据。例如,随机生成的样本数据集中的三个文本,分别为问题5、问题6、问题7,问题5对应的标签为A,若问题6的标签不为A,则问题6为问题5的负样本;若问题7的标签为A,则问题7为问题5的正样本。根据各正样本和负样本,确定训练数据。该确定训练数据的方式可以理解为基于随机方式生成训练数据。
在上述实施例的基础上,可选的,将基于聚类生成的训练数据、基于相关度生成的训练数据、基于随机方式生成的训练数据按照第一预设比例进行组合,确定训练数据;或者,基于聚类生成的训练数据、基于相关度生成的训练数据、基于随机方式生成的训练数据按照第二预设比例任意两两组合,确定训练数据。
示例性地,训练数据的负样本组成比例为:1/3基于聚类生成的训练数据,1/3基于相关度生成的训练数据,1/3基于随机方式生成的训练数据,训练数据中的正样本和负样本比例为1:1。其中,基于聚类生成的训练数据中的负样本和基于相关度生成的训练数据中的负样本可以理解为难负样本。
本申请实施例的训练数据至少包括基于聚类生成的训练数据、基于相关度生成的训练数据中的一种,相比目前通过随机抽样方式获得的训练数据,本申请实施例的训练数据能够增加文本匹配任务的复杂度,提升文本匹配模型的学习难度,进而能够提高文本匹配模型的文本匹配准确度。
S302、基于预设文本对格式对多个文本中任两个文本进行拼接,获得多个第一样本对。
示例性地,预设文本对格式比如为“[cls][句子1][sep][句子2]”文本对格式,其中的参数可以参考上述S205步骤中第三样本对的格式示例。在确定了训练数据后,基于预设文本对格式对训练数据包括的多个文本中任两个文本进行拼接,并叠加位置(position)向量(用于表征文本的相对位置),获得多个第一样本对。示例性地,对于BERT模型,叠加位置向量为BERT模型中使用位置编码表示序列的顺序的方式,是让BERT模型理解输入单词顺序的方法,其中,叠加即为每个词的词向量与每个词的位置向量的叠加。叠加位置向量有助于确定每个单词的位置,或确定序列中不同单词之间的距离,能够更好地表达词与词之间的距离,以更好地表达句子的语义。
本申请实施例中,图2中S202步骤可以进一步细化为如下的S303和S304两个步骤:
S303、对各第一样本对中文本包含的实体名词和/或动词进行标记处理,得到已标记词。
在获得了多个第一样本对后,可以对各第一样本对中文本包含的实体名词和/或动词进行标记处理,得到已标记词。
进一步地,对各第一样本对中文本包含的实体名词和/或动词进行标记处理,得到已标记词,包括:通过预设分词工具对各第一样本对中文本包含的实体名词和/或动词进行分词处理以及词性识别处理,得到已标记词。
示例性地,预设分词工具比如为Jieba分词工具。通过Jieba分词工具对各第一样本对中的文本分别进行分词标记和词性标记,其中,重点对各第一样本对中文本包含的实体名词和/或动词进行标记处理,获得各第一样本对中文本对应的已标记的实体名词和/或动词。
S304、将各第一样本对中预设比例的已标记词替换为预设信息,得到对应的第二样本对。
示例性地,预设比例比如为30%,预设信息比如为掩码信息,例如用[Mask]表示。随机选择第一样本对中30%的已标记的名词和/动词,用[Mask]代替,得到对应的第二样本对。示例性地,图4为本申请一实施例提供的进行了掩码处理的第二样本对的示意图,如图4所示,用[掩码](即[Mask])代替了句子1和句子2中的部分已标记词。
本申请实施例中,图2中S203步骤可以进一步细化为如下的S305至S307三个步骤:
S305、基于第二样本对,对初始文本匹配模型进行迭代预训练,预测第二样本对中进行了掩码处理的实体名词和/或动词,获得第一损失函数值。
示例性地,参考图4,初始文本匹配模型比如为初始BERT模型。在获得了第二样本对后,可以基于第二样本对,对初始BERT模型进行迭代预训练,预测第二样本对中进行了掩码处理的实体名词和/或动词,即预测和第二样本对中进行掩码处理前的实体名词和/或动词是否相同,获得第一损失函数值。该步骤可以理解为初始BERT模型预训练阶段的MLM任务。由于BERT模型预训练阶段的MLM任务中整体为交互式匹配结构,通过BERT模型中12层的BERT编码,以及模型输出层的attention计算,提升模型的语义理解能力,即利用模型输出层的attention交互计算,使模型既知道两句文本是否相似,又知道相似在哪里,实现了提高文本匹配模型的文本匹配准确度。
S306、在各第二样本对中包含的分类起始符向量后添加二分类全连接层,对初始文本匹配模型进行迭代预训练,预测各第二样本对的相关度,获得第二损失函数值。
其中,分类起始符用于指示第二样本对中包括的两个文本的匹配结果。
示例性地,参考图4,初始文本匹配模型比如为初始BERT模型,在执行步骤S305的同时,在各第二样本对中包含的分类起始符向量后添加二分类Dense层,对初始BERT模型进行迭代预训练,预测各第二样本对的相关度,即输出第二样本对中包括的两个文本的相关概率、不相关概率,以确定第二样本对中包括的两个文本的匹配结果,获得第二损失函数值。其中,第二样本对中包括的两个文本的相关概率比如为图4中柱状图401所示的概率值(比如为0.12),对应分类起始符为0(0表示匹配);第二样本对中包括的两个文本的不相关概率比如为图4中柱状图402所示的概率值(比如为0.88),对应分类起始符为1(1表示不匹配),第二样本对中包括的两个文本的相关概率和不相关概率的和为1。根据柱状图401所示的概率值和柱状图402所示的概率值,可以确定图4所示的句子1和句子2的匹配结果为:不匹配。该步骤可以理解为将初始BERT模型预训练阶段的NSP任务更改为了难度更大、与下游任务更相符的文本匹配任务,相比常规的NSP任务,本实施例中提供的文本匹配任务对于模型来说难度更大,也即,对于模型的学习能力提升更快,本发明在预训练阶段融入了文本匹配任务,并将Mask任务改为预测特定词性的词(实体名词和/或动词),使模型对相似度计算中权重较高的名词、动词有更好的理解。
S307、根据第一损失函数值和第二损失函数值,获得预训练后的文本匹配模型。
示例性地,融合步骤S305和S306两个预训练任务,在第一损失函数值和第二损失函数值的加和满足预设评估条件(比如可以根据经验获得)时,获得预训练后的文本匹配模型。
可选的,融合步骤S305和S306两个预训练任务,在迭代次数达到预设迭代次数时,获得预训练后的文本匹配模型。
S308、获取预设业务场景对应的多个第三样本对,每个第三样本对中包括两个文本和两个文本的匹配结果。
其中,匹配结果用于指示两个文本是否匹配。
该步骤的具体描述可以参见图2所示实施例中S204的相关描述,此处不再赘述。
S309、基于第三样本对,对预训练后的文本匹配模型进行迭代微调训练,获得预设业务场景对应的文本匹配模型。
该步骤的具体描述可以参见图2所示实施例中S205的相关描述,此处不再赘述。
本申请实施例提供的文本匹配模型的训练方法,通过确定训练数据,训练数据包括多个文本,基于预设文本对格式对多个文本中任两个文本进行拼接,获得多个第一样本对,对各第一样本对中文本包含的实体名词和/或动词进行标记处理,得到已标记词,将各第一样本对中预设比例的已标记词替换为预设信息,得到对应的第二样本对,基于第二样本对,对初始文本匹配模型进行迭代预训练,预测第二样本对中进行了掩码处理的实体名词和/或动词,获得第一损失函数值,在各第二样本对中包含的分类起始符向量后添加二分类全连接层,对初始文本匹配模型进行迭代预训练,预测各第二样本对的相关度,获得第二损失函数值,根据第一损失函数值和第二损失函数值,获得预训练后的文本匹配模型,获取预设业务场景对应的多个第三样本对,每个第三样本对中包括两个文本和两个文本的匹配结果,基于第三样本对,对预训练后的文本匹配模型进行迭代微调训练,获得预设业务场景对应的文本匹配模型。本申请实施例中基于聚类生成的训练数据、相关度生成的训练数据、随机方式生成的训练数据自动确定训练数据,通过组合多种算法保证了样本数据的难易均衡,提升了文本匹配模型的学习难度,提高了文本匹配模型的性能;通过对各第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对,基于第二样本对,对初始文本匹配模型进行迭代预训练,以使文本匹配模型更关注文本匹配中权重较高的实体名词和动词,从而提升了文本匹配模型的上下文理解能力,同时,在各第二样本对中包含的分类起始符向量后添加二分类全连接层,以更加贴合具体的业务场景来预测第二样本对中包括的两个文本是否匹配。因此,根据本申请实施例获得的文本匹配模型,能够更加准确地进行文本匹配,进而提升文本匹配的效果。
图5为本申请一实施例提供的文本匹配方法的流程图,应用于智能对话系统。如图5所示,本申请实施例的方法包括:
S501、获取待匹配文本以及待匹配文本的各候选文本匹配结果。
示例性地,待匹配文本可以是用户向执行本方法实施例的智能对话系统输入的,或者,是其它设备向执行本方法实施例的智能对话系统发送的。示例性地,根据待匹配文本,通过比如上述ES搜索引擎粗召回的输出,获得待匹配文本以及待匹配文本的各候选文本匹配结果。
S502、将待匹配文本以及各候选文本匹配结果输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的第一概率。
其中,文本匹配模型为采用如上述任一方法实施例获得的文本匹配模型。
该步骤中,示例性地,第一概率为相关概率。在获得了待匹配文本以及各候选文本匹配结果后,可以将待匹配文本以及各候选文本匹配结果输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的相关概率。比如,待匹配文本的候选文本匹配结果有3个,通过文本匹配模型,可以获得待匹配文本对应于这3个候选文本匹配结果的相关概率分别为0.65、0.85、0.95。
S503、根据每一候选文本匹配结果的第一概率,确定待匹配文本对应的目标文本匹配结果。
在获得了每一候选文本匹配结果的第一概率后,可以根据每一候选文本匹配结果的第一概率,确定待匹配文本对应的目标文本匹配结果。对于根据每一候选文本匹配结果的第一概率,确定待匹配文本对应的目标文本匹配结果,可参考相关技术或者后续实施例,此处不再赘述。
示例性地,待匹配文本为用户向执行本方法实施例的智能对话系统输入的问题,在确定了待匹配文本对应的目标文本匹配结果后,可以将智能对话系统中目标文本匹配结果对应的信息即问题的答案,显示给用户。
本申请实施例提供的文本匹配方法,通过获取待匹配文本以及待匹配文本的各候选文本匹配结果,将待匹配文本以及各候选文本匹配结果输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的第一概率,根据每一候选文本匹配结果的第一概率,确定待匹配文本对应的目标文本匹配结果。由于本申请实施例中根据如上述任一方法实施例获得的文本匹配模型输出的第一概率,确定待匹配文本对应的目标文本匹配结果,因此,能够更加准确地进行文本匹配,进而提升智能对话系统的用户体验。
图6为本申请另一实施例提供的文本匹配方法的流程图。在上述实施例的基础上,本申请实施例对如何进行文本匹配进行进一步说明。如图6所示,本申请实施例的方法可以包括:
S601、获取待匹配文本以及待匹配文本的各候选文本匹配结果。
该步骤的具体描述可以参见图5所示实施例中S501的相关描述,此处不再赘述。
本申请实施例中,图5中S502步骤可以进一步细化为如下的S602和S603两个步骤:
S602、基于预设文本对格式将待匹配文本分别与各候选文本匹配结果进行文本拼接,获得拼接文本对。
示例性地,预设文本对格式比如为“[cls][句子1][sep][句子2]”文本对格式,其中的参数可以参考上述S205步骤中第三样本对的格式示例。在获得了待匹配文本以及待匹配文本的各候选文本匹配结果后,可以基于预设文本对格式将待匹配文本分别与各候选文本匹配结果进行文本拼接,获得对应的拼接文本对。
S603、将拼接文本对输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的第一概率。
该步骤中,在获得了拼接文本对后,可以将拼接文本对输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的第一概率。确定待匹配文本对应于每一候选文本匹配结果的第一概率的具体描述可以参见图5所示实施例中S502步骤的相关描述,此处不再赘述。
S604、确定对应第一概率最大的候选文本匹配结果为待匹配文本对应的目标文本匹配结果。
示例性地,根据S603步骤获得的待匹配文本对应于3个候选文本匹配结果的相关概率分别为0.65、0.85、0.95,因此,确定对应0.95的候选文本匹配结果为待匹配文本对应的目标文本匹配结果。
本申请实施例提供的文本匹配方法,通过获取待匹配文本以及待匹配文本的各候选文本匹配结果,基于预设文本对格式将待匹配文本分别与各候选文本匹配结果进行文本拼接,获得拼接文本对,将拼接文本对输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的第一概率,确定对应第一概率最大的候选文本匹配结果为待匹配文本对应的目标文本匹配结果。由于本申请实施例中根据如上述任一方法实施例获得的文本匹配模型输出的第一概率的最大值,确定待匹配文本对应的目标文本匹配结果,因此,能够更加准确地进行文本匹配,进而提升智能对话系统的用户体验。
图7为本申请一实施例提供的对话处理方法的流程图,应用于智能对话系统。如图7所示,本申请实施例的方法可以包括:
S701、获取用户对话文本。
本申请实施例中,用户对话文本比如为用户问题,用户问题可以为购物产品、推荐产品等方面的相关问题,本申请不以此为限制。示例性地,获取用户在购物产品的智能对话界面输入的问题,比如为:大概什么时候发货?。
S702、根据用户对话文本以及预设文本匹配方法,确定用户对话文本对应的匹配文本。
其中,预设文本匹配方法为采用如图5所示的文本匹配方法。
示例性地,在获取了用户对话文本后,根据图5所示的文本匹配方法,可以确定用户对话文本对应的匹配文本,该匹配文本可以理解为预先设置好的标准文本。示例性地,用户对话文本比如为用户问题,用户问题为:大概什么时候发货?根据图5所示的文本匹配方法,可以确定用户问题对应的匹配文本为:发货时间。
S703、将匹配文本的预设应答文本确定为用户对话文本的目标应答文本。
示例性地,匹配文本的预设答案是预先设置好的,比如可以在数据库中预先存储已经定义好的问答对,其中的问题为匹配文本,其中的答案为匹配文本的预设应答文本。示例性地,在确定了用户对话文本对应的匹配文本为发货时间后,可以直接将匹配文本的预设应答文本确定为用户对话文本的目标应答文本,目标应答文本比如为:发货时间为2021年7月19日。
S704、将目标应答文本反馈给用户。
在获得了目标应答文本后,可以将目标应答文本反馈给用户。示例性地,比如对于用户在购物产品的智能对话界面输入的问题为:大概什么时候发货?,则在该智能对话界面反馈对应的目标应答文本为:发货时间为2021年7月19日。
本申请实施例提供的对话处理方法,通过获取用户对话文本,根据用户对话文本以及预设文本匹配方法,确定用户对话文本对应的匹配文本,将匹配文本的预设应答文本确定为用户对话文本的目标应答文本,将目标应答文本反馈给用户。因此,能够快速准确地匹配用户对话文本并进行反馈,提升用户体验。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图8为本申请一实施例提供的文本匹配模型的训练装置的结构示意图,如图8所示,本申请实施例的文本匹配模型的训练装置800包括:第一获取模块801、处理模块802、预训练模块803、第二获取模块804和微调训练模块805。其中:
第一获取模块801,用于获取多个第一样本对,每个第一样本对中包括两个文本和两个文本的匹配结果,匹配结果用于指示两个文本是否匹配。
处理模块802,用于对各第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对。
预训练模块803,用于基于第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型。
第二获取模块804,用于获取预设业务场景对应的多个第三样本对,每个第三样本对中包括两个文本和两个文本的匹配结果,匹配结果用于指示两个文本是否匹配。
微调训练模块805,用于基于第三样本对,对预训练后的文本匹配模型进行迭代微调训练,获得预设业务场景对应的文本匹配模型。
在一些实施例中,处理模块802可以具体用于:对各第一样本对中文本包含的实体名词和/或动词进行标记处理,得到已标记词;将各第一样本对中预设比例的已标记词替换为预设信息,得到对应的第二样本对。
可选的,处理模块802在用于对各第一样本对中文本包含的实体名词和/或动词进行标记处理,得到已标记词时,可以具体用于:通过预设分词工具对各第一样本对中文本包含的实体名词和/或动词进行分词处理以及词性识别处理,得到已标记词。
在一些实施例中,第一获取模块801可以具体用于:确定训练数据,训练数据包括多个文本;基于预设文本对格式对多个文本中任两个文本进行拼接,获得多个第一样本对。
可选的,第一获取模块801在用于确定训练数据时,可以具体用于:获取文本分类数据集,文本分类数据集中包括多个文本;对文本分类数据集中的文本进行向量化处理,获得文本分类数据集中各文本对应的向量;基于文本分类数据集中各文本对应的向量以及预设聚类方法,确定各文本所属的分类,分类用于指示相关度大于预设值的文本所属的类别;基于分类中的各文本以及各文本对应的标签,确定训练数据,标签用于指示文本的意图。
可选的,第一获取模块801在用于基于文本分类数据集中各文本对应的向量以及预设聚类方法,确定各文本所属的分类时,可以具体用于:对各文本对应的向量进行降维处理,获得降维处理后的各文本对应的向量;基于降维处理后的各文本对应的向量以及预设聚类方法,确定各文本所属的分类。
可选的,第一获取模块801在用于确定训练数据时,可以具体用于:获取随机构建的文本匹配数据集,文本匹配数据集包含多个文本;将文本匹配数据集输入至预设相关度模型,获得文本匹配数据集中各文本之间的相关度;根据文本匹配数据集中各文本之间的相关度、各文本对应的标签以及预设相关度阈值,确定训练数据,标签用于指示文本的意图。
可选的,第一获取模块801在用于确定训练数据时,可以具体用于:获取随机生成的样本数据集,随机生成的样本数据集包含多个文本;基于随机生成的样本数据集以及随机生成的样本数据集包含的各文本的标签,确定训练数据,标签用于指示文本的意图。
在一些实施例中,预训练模块803可以具体用于:基于第二样本对,对初始文本匹配模型进行迭代预训练,预测第二样本对中进行了掩码处理的实体名词和/或动词,获得第一损失函数值;在各第二样本对中包含的分类起始符向量后添加二分类全连接层,对初始文本匹配模型进行迭代预训练,预测各第二样本对的相关度,获得第二损失函数值,分类起始符用于指示第二样本对中包括的两个文本的匹配结果;根据第一损失函数值和第二损失函数值,获得预训练后的文本匹配模型。
本申请实施例的装置,可以用于执行上述任一方法实施例中文本匹配模型的训练方法的方案,其实现原理和技术效果类似,此处不再赘述。
图9为本申请一实施例提供的文本匹配装置的结构示意图,应用于智能对话系统。如图9所示,本申请实施例的文本匹配装置900包括:获取模块901、确定模块902和处理模块903。其中:
获取模块901,用于获取待匹配文本以及待匹配文本的各候选文本匹配结果。
确定模块902,用于将待匹配文本以及各候选文本匹配结果输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的第一概率,文本匹配模型为采用如上述任一方法实施例获得的文本匹配模型。
处理模块903,用于根据每一候选文本匹配结果的第一概率,确定待匹配文本对应的目标文本匹配结果。
在一些实施例中,确定模块902可以具体用于:基于预设文本对格式将待匹配文本分别与各候选文本匹配结果进行文本拼接,获得拼接文本对;将拼接文本对输入至文本匹配模型,确定待匹配文本对应于每一候选文本匹配结果的第一概率。
可选的,处理模块903可以具体用于:确定对应第一概率最大的候选文本匹配结果为待匹配文本对应的目标文本匹配结果。
本申请实施例的装置,可以用于执行上述任一方法实施例中文本匹配方法的方案,其实现原理和技术效果类似,此处不再赘述。
图10为本申请一实施例提供的对话处理装置的结构示意图,应用于智能对话系统。如图10所示,本申请实施例的对话处理装置1000包括:获取模块1001、第一确定模块1002、第二确定模块1003和反馈模块1004。其中:
获取模块1001,用于获取用户对话文本。
第一确定模块1002,用于根据用户对话文本以及预设文本匹配方法,确定用户对话文本对应的匹配文本。
其中,预设文本匹配方法为采用如图5所示的文本匹配方法。
第二确定模块1003,用于将匹配文本的预设应答文本确定为用户对话文本的目标应答文本。
反馈模块1004,用于将目标应答文本反馈给用户。
本申请实施例的装置,可以用于执行上述任一方法实施例中对话处理方法的方案,其实现原理和技术效果类似,此处不再赘述。
图11为本申请一实施例提供的电子设备的结构示意图。示例性地,电子设备可以被提供为一服务器或计算机。参照图11,电子设备1100包括处理组件1101,其进一步包括一个或多个处理器,以及由存储器1102所代表的存储器资源,用于存储可由处理组件1101的执行的指令,例如应用程序。存储器1102中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1101被配置为执行指令,以执行上述任一方法实施例。
电子设备1100还可以包括一个电源组件1103被配置为执行电子设备1100的电源管理,一个有线或无线网络接口1104被配置为将电子设备1100连接到网络,和一个输入输出(I/O)接口1105。电子设备1100可以操作基于存储在存储器1102的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上文本匹配模型的训练方法的方案、文本匹配方法的方案以及对话处理方法的方案。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上文本匹配模型的训练方法的方案、文本匹配方法的方案以及对话处理方法的方案。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于如上文本匹配模型的训练装置或文本匹配装置或对话处理装置中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (14)
1.一种文本匹配模型的训练方法,其特征在于,包括:
获取多个第一样本对,每个第一样本对中包括两个文本和所述两个文本的匹配结果,所述匹配结果用于指示所述两个文本是否匹配;
对各所述第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对;
基于所述第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型;
获取预设业务场景对应的多个第三样本对,每个第三样本对中包括两个文本和所述两个文本的匹配结果,所述匹配结果用于指示所述两个文本是否匹配;
基于所述第三样本对,对预训练后的文本匹配模型进行迭代微调训练,获得所述预设业务场景对应的文本匹配模型。
2.根据权利要求1所述的文本匹配模型的训练方法,其特征在于,所述对各所述第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对,包括:
对各所述第一样本对中文本包含的实体名词和/或动词进行标记处理,得到已标记词;
将各所述第一样本对中预设比例的已标记词替换为预设信息,得到对应的第二样本对。
3.根据权利要求1所述的文本匹配模型的训练方法,其特征在于,所述获取多个第一样本对,包括:
确定训练数据,所述训练数据包括多个文本;
基于预设文本对格式对所述多个文本中任两个文本进行拼接,获得所述多个第一样本对。
4.根据权利要求3所述的文本匹配模型的训练方法,其特征在于,所述训练数据包括正样本和负样本,其中,所述负样本包括预设比例的难负样本,所述难负样本用于表示字面较为相似但语义不相关的文本。
5.根据权利要求4所述的文本匹配模型的训练方法,其特征在于,所述确定训练数据,包括:
获取文本分类数据集,所述文本分类数据集中包括多个文本;
对所述文本分类数据集中的文本进行向量化处理,获得所述文本分类数据集中各文本对应的向量;
基于所述文本分类数据集中各文本对应的向量以及预设聚类方法,确定各文本所属的分类,所述分类用于指示相关度大于预设值的文本所属的类别;
基于所述分类中的各文本以及各文本对应的标签,确定训练数据,所述标签用于指示文本的意图。
6.根据权利要求4所述的文本匹配模型的训练方法,其特征在于,所述确定训练数据,包括:
获取随机构建的文本匹配数据集,所述文本匹配数据集包含多个文本;
将所述文本匹配数据集输入至预设相关度模型,获得所述文本匹配数据集中各文本之间的相关度;
根据所述文本匹配数据集中各文本之间的相关度、各文本对应的标签以及预设相关度阈值,确定训练数据,所述标签用于指示文本的意图。
7.根据权利要求4所述的文本匹配模型的训练方法,其特征在于,所述确定训练数据,包括:
获取随机生成的样本数据集,所述随机生成的样本数据集包含多个文本;
基于所述随机生成的样本数据集以及所述随机生成的样本数据集包含的各文本的标签,确定训练数据,所述标签用于指示文本的意图。
8.根据权利要求1至7中任一项所述的文本匹配模型的训练方法,其特征在于,所述基于所述第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型,包括:
基于所述第二样本对,对初始文本匹配模型进行迭代预训练,预测所述第二样本对中进行了掩码处理的实体名词和/或动词,获得第一损失函数值;
在各所述第二样本对中包含的分类起始符向量后添加二分类全连接层,对初始文本匹配模型进行迭代预训练,预测各所述第二样本对的相关度,获得第二损失函数值,所述分类起始符用于指示所述第二样本对中包括的两个文本的匹配结果;
根据所述第一损失函数值和所述第二损失函数值,获得预训练后的文本匹配模型。
9.一种文本匹配方法,其特征在于,应用于智能对话系统,包括:
获取待匹配文本以及所述待匹配文本的各候选文本匹配结果;
将所述待匹配文本以及所述各候选文本匹配结果输入至文本匹配模型,确定所述待匹配文本对应于每一候选文本匹配结果的第一概率,所述文本匹配模型为采用如权利要求1至8中任一项所述的文本匹配模型;
根据每一候选文本匹配结果的第一概率,确定所述待匹配文本对应的目标文本匹配结果。
10.一种对话处理方法,其特征在于,应用于智能对话系统,包括:
获取用户对话文本;
根据所述用户对话文本以及预设文本匹配方法,确定所述用户对话文本对应的匹配文本,所述预设文本匹配方法为采用如权利要求9所述的文本匹配方法;
将所述匹配文本的预设应答文本确定为所述用户对话文本的目标应答文本;
将所述目标应答文本反馈给用户。
11.一种文本匹配模型的训练装置,其特征在于,包括:
第一获取模块,用于获取多个第一样本对,每个第一样本对中包括两个文本和所述两个文本的匹配结果,所述匹配结果用于指示所述两个文本是否匹配;
处理模块,用于对各所述第一样本对中文本包含的实体名词和/或动词进行掩码处理,得到对应的第二样本对;
预训练模块,用于基于所述第二样本对,对初始文本匹配模型进行迭代预训练,获得预训练后的文本匹配模型;
第二获取模块,用于获取预设业务场景对应的多个第三样本对,每个第三样本对中包括两个文本和所述两个文本的匹配结果,所述匹配结果用于指示所述两个文本是否匹配;
微调训练模块,用于基于所述第三样本对,对预训练后的文本匹配模型进行迭代微调训练,获得所述预设业务场景对应的文本匹配模型。
12.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如权利要求1至10中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被执行时,实现如权利要求1至10中任一项所述的方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853320.1A CN113569011B (zh) | 2021-07-27 | 2021-07-27 | 文本匹配模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853320.1A CN113569011B (zh) | 2021-07-27 | 2021-07-27 | 文本匹配模型的训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569011A true CN113569011A (zh) | 2021-10-29 |
CN113569011B CN113569011B (zh) | 2023-03-24 |
Family
ID=78168249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110853320.1A Active CN113569011B (zh) | 2021-07-27 | 2021-07-27 | 文本匹配模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569011B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330512A (zh) * | 2021-12-13 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN114818609A (zh) * | 2022-06-29 | 2022-07-29 | 阿里巴巴达摩院(杭州)科技有限公司 | 用于虚拟对象的交互方法、电子设备及计算机存储介质 |
CN115438176A (zh) * | 2022-11-08 | 2022-12-06 | 阿里巴巴达摩院(杭州)科技有限公司 | 下游任务模型生成及任务执行的方法和设备 |
CN116127334A (zh) * | 2023-02-22 | 2023-05-16 | 佛山科学技术学院 | 一种半结构化文本匹配方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815336A (zh) * | 2019-01-28 | 2019-05-28 | 无码科技(杭州)有限公司 | 一种文本聚合方法及系统 |
CN109857845A (zh) * | 2019-01-03 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 模型训练及数据检索方法、装置、终端及计算机可读存储介质 |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN111966831A (zh) * | 2020-08-18 | 2020-11-20 | 创新奇智(上海)科技有限公司 | 一种模型训练方法、文本分类方法、装置及网络模型 |
CN112417096A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 问答对匹配方法、装置、电子设备及存储介质 |
CN112966106A (zh) * | 2021-03-05 | 2021-06-15 | 平安科技(深圳)有限公司 | 文本的情绪识别方法、装置、设备及存储介质 |
CN113051374A (zh) * | 2021-06-02 | 2021-06-29 | 北京沃丰时代数据科技有限公司 | 一种文本匹配优化方法及装置 |
-
2021
- 2021-07-27 CN CN202110853320.1A patent/CN113569011B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857845A (zh) * | 2019-01-03 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 模型训练及数据检索方法、装置、终端及计算机可读存储介质 |
CN109815336A (zh) * | 2019-01-28 | 2019-05-28 | 无码科技(杭州)有限公司 | 一种文本聚合方法及系统 |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN111966831A (zh) * | 2020-08-18 | 2020-11-20 | 创新奇智(上海)科技有限公司 | 一种模型训练方法、文本分类方法、装置及网络模型 |
CN112417096A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 问答对匹配方法、装置、电子设备及存储介质 |
CN112966106A (zh) * | 2021-03-05 | 2021-06-15 | 平安科技(深圳)有限公司 | 文本的情绪识别方法、装置、设备及存储介质 |
CN113051374A (zh) * | 2021-06-02 | 2021-06-29 | 北京沃丰时代数据科技有限公司 | 一种文本匹配优化方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330512A (zh) * | 2021-12-13 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN114330512B (zh) * | 2021-12-13 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN114818609A (zh) * | 2022-06-29 | 2022-07-29 | 阿里巴巴达摩院(杭州)科技有限公司 | 用于虚拟对象的交互方法、电子设备及计算机存储介质 |
CN114818609B (zh) * | 2022-06-29 | 2022-09-23 | 阿里巴巴达摩院(杭州)科技有限公司 | 用于虚拟对象的交互方法、电子设备及计算机存储介质 |
CN115438176A (zh) * | 2022-11-08 | 2022-12-06 | 阿里巴巴达摩院(杭州)科技有限公司 | 下游任务模型生成及任务执行的方法和设备 |
CN115438176B (zh) * | 2022-11-08 | 2023-04-07 | 阿里巴巴达摩院(杭州)科技有限公司 | 下游任务模型生成及任务执行的方法和设备 |
CN116127334A (zh) * | 2023-02-22 | 2023-05-16 | 佛山科学技术学院 | 一种半结构化文本匹配方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113569011B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN113569011B (zh) | 文本匹配模型的训练方法、装置、设备及存储介质 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
US8150822B2 (en) | On-line iterative multistage search engine with text categorization and supervised learning | |
Gupta et al. | Product classification in e-commerce using distributional semantics | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
US11768869B2 (en) | Knowledge-derived search suggestion | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
US11699034B2 (en) | Hybrid artificial intelligence system for semi-automatic patent infringement analysis | |
WO2021007159A1 (en) | Identifying entity attribute relations | |
Al-Rubaiee et al. | The importance of neutral class in sentiment analysis of Arabic tweets | |
CN111859940A (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
Nugraha et al. | Typographic-based data augmentation to improve a question retrieval in short dialogue system | |
Ferreira-Satler et al. | A fuzzy ontology approach to represent user profiles in e-learning environments | |
CN115098668A (zh) | 一种文档排序方法、排序装置、电子设备和存储介质 | |
CN115455152A (zh) | 写作素材的推荐方法、装置、电子设备及存储介质 | |
Lichouri et al. | Combining topic-based model and text categorisation approach for utterance understanding in human-machine dialogue | |
CN110688559A (zh) | 一种检索方法及装置 | |
Xing et al. | An approach to sentiment analysis of short Chinese texts based on SVMs | |
CN114328820A (zh) | 信息搜索方法以及相关设备 | |
Nugraha et al. | Chatbot-Based Movie Recommender System Using POS Tagging | |
Liu et al. | Sentiment classification of reviews on automobile websites by combining Word2Vec and dependency parsing | |
CN114722267A (zh) | 信息推送方法、装置及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |