CN113051374B - 一种文本匹配优化方法及装置 - Google Patents
一种文本匹配优化方法及装置 Download PDFInfo
- Publication number
- CN113051374B CN113051374B CN202110611429.4A CN202110611429A CN113051374B CN 113051374 B CN113051374 B CN 113051374B CN 202110611429 A CN202110611429 A CN 202110611429A CN 113051374 B CN113051374 B CN 113051374B
- Authority
- CN
- China
- Prior art keywords
- sample
- question
- training
- text
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本匹配优化方法及装置,该方法包括:获取待匹配的问题文本内容;将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的。本发明针对特定的客服领域环境,生成训练语料和知识图谱,并基于该训练语料和知识图谱,应用深度学习模型训练得到文本匹配模型,对客服领域的问题文本进行匹配,从而提高文本匹配准确率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本匹配优化方法及装置。
背景技术
在客服领域的智能问答系统中,需要对客户投诉或客户咨询等问题的文本内容,与现有文本语料知识库中已存储的标准问题内容进行匹配,从而根据匹配结果,从这些标准问题内容中分析得到该文本内容对应的回答方案。
现有客服领域在进行文本问题匹配时,主要是基于自然语言处理中的预训练语言模型进行微调,从而实现文本匹配,该模型是学习词语的分布式表示,也就是词语的嵌入(Embedding)过程。这个分布式表示将作为输入,提供给上层特定任务的模型中,根据特定的任务,在训练中调整上层应用模型的参数。预训练语言模型作为自然语言处理的基础模型,在各类应用场景中都发挥巨大的作用,当前主流的预训练模型,包括Bert模型,XLNet模型和Albert模型等。
预训练语言模型的目标是获得一个通用的模型表示,之后根据特定的任务去进行调优。而客服领域的文本匹配,和通用的文本匹配不一样,某些在通用的文本表达里面认为不匹配的内容,在客服领域可以是匹配的,如:“快递为什么还没有发出来”和“快递发货太慢了”,这两句都表示客户在质问快递的发货速度,但是从文本的词语上,这两句话的交集很小,因此,现有客服领域的文本匹配准确率还有待进一步提升。
发明内容
针对现有技术存在的问题,本发明提供一种文本匹配优化方法及装置。
本发明提供一种文本匹配优化方法,包括:
获取待匹配的问题文本内容;
将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的。
根据本发明提供的一种文本匹配优化方法,所述训练好的文本匹配模型通过以下步骤得到:
根据客服领域的样本语料数据,获取客服与客户之间历史对话记录产生的客户样本问句;
根据所述客户样本问句和预设文本语料知识库,构建训练样本集;
根据所述训练样本集中的样本数据,生成客服领域的样本知识图谱;
根据所述训练样本集和所述样本知识图谱,对预训练的语言模型进行训练,得到训练好的文本匹配模型。
根据本发明提供的一种文本匹配优化方法,所述根据所述客户样本问句和预设文本语料知识库,构建训练样本集,包括:
根据预设文本语料知识库的知识库样本问句和所述客户样本问句,构建样本问句对,并为所述样本问句对标记匹配类型和实体关系,得到第一训练样本;
根据所述知识库样本问句,从所述预设文本语料知识库中获取对应的样本相似问,并根据所述知识库样本问句和所述样本相似问,得到第二训练样本;
根据客户历史问答反馈数据,对所述样本问句对标注正负样本标签,得到第三训练样本;
根据所述第一训练样本、所述第二训练样本和所述第三训练样本,构建训练样本集。
根据本发明提供的一种文本匹配优化方法,所述根据所述训练样本集中的样本数据,生成客服领域的样本知识图谱,包括:
根据所述第一训练样本,获取所述样本问句对中的实体类型、实体关系和问句意图类型;
根据所述实体类型、所述实体关系和所述问句意图类型,生成客服领域的样本知识图谱。
根据本发明提供的一种文本匹配优化方法,在所述根据所述训练样本集和所述样本知识图谱,对预训练的语言模型进行训练,得到训练好的文本匹配模型之前,所述方法还包括:
在预训练的语言模型的词嵌入层中添加词边界信息和知识图谱嵌入信息,得到改进后的语言模型;
其中,所述词边界信息是对分词处理后的中文语句进行编码得到的,所述知识图谱嵌入信息是根据样本知识图谱中的意图实体生成的。
根据本发明提供的一种文本匹配优化方法,所述预训练的语言模型的输出层依次连接1个卷积层和1个全连接层。
本发明还提供一种文本匹配优化装置,包括:
问题获取模块,用于获取待匹配的问题文本内容;
相似问匹配模块,用于将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的。
根据本发明提供的一种文本匹配优化装置,所述装置还包括:
样本问句获取模块,用于根据客服领域的样本语料数据,获取客服与客户之间历史对话记录产生的客户样本问句;
训练集构建模块,用于根据所述客户样本问句和预设文本语料知识库,构建训练样本集;
图谱生成模块,用于根据所述训练样本集中的样本数据,生成客服领域的样本知识图谱;
训练模块,用于根据所述训练样本集和所述样本知识图谱,对预训练的语言模型进行训练,得到训练好的文本匹配模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本匹配优化方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本匹配优化方法的步骤。
本发明提供的一种文本匹配优化方法及装置,针对特定的客服领域环境,生成训练语料和知识图谱,并基于该训练语料和知识图谱,应用深度学习模型训练得到文本匹配模型,对客服领域的问题文本进行匹配,从而提高文本匹配准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的文本匹配优化方法的流程示意图;
图2为本发明提供的样本问句对标注过程示意图;
图3为本发明提供的语料知识库的相似问对应关系示意图;
图4为本发明提供的文本匹配优化过程的整体示意图;
图5为本发明提供的文本匹配优化装置的结构示意图;
图6为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有客服领域在进行文本问题匹配时,主要是基于自然语言处理中的预训练语言模型,之后根据特定的任务去进行调优。以Bert模型(Bidirectional EncoderRepresentations from Transformers)为例,该模型是一种Transformer的双向编码器,旨在通过在左右上下文中共有的条件计算,预先训练来自无标号文本的深度双向表示。因此,经过预先训练的BERT模型只需一个额外的输出层就可以进行微调,从而为各种自然语言处理任务生成最新模型。该模型用在文本匹配时,是在训练数据中对句子对的标签进行分类,1表示匹配,0表示不匹配。Bert模型会根据句子对在这两个标签上的概率分布进行预测,如果在1这个标签上的概率大于一个阈值,即可认为句子对中的两个句子是匹配的,反之则是不匹配。
图1为本发明提供的文本匹配优化方法的流程示意图,如图1所示,本发明提供了一种文本匹配优化方法,包括:
步骤101,获取待匹配的问题文本内容。
在本发明中,首先获取客户发送的问题,作为准备与文本语料知识库进行匹配的问题文本内容,以匹配得到文本语料知识库中相似问。需要说明的是,问题可以是文本形式,若为语音形式,可将语音形式的问题先转换为文字内容。
步骤102,将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的。
在本发明中,通过训练好的文本匹配模型,将问题文本内容和预设的文本语料知识库中的相似问进行匹配,从而得到该文本语料知识库中与问题文本内容最接近的相似问,使得在对客户提出的询问或投诉进行处理时,通过获取该询问或投诉内容对应的标准问法(即预设的文本语料知识库的相似问),分析出最为合适的回答内容。在实验中,本发明将文本匹配的准确率提高了5%,召回率提高了15%。
本发明提供的文本匹配优化方法,针对特定的客服领域环境,生成训练语料和知识图谱,并基于该训练语料和知识图谱,应用深度学习模型训练得到文本匹配模型,对客服领域的问题文本进行匹配,从而提高文本匹配准确率。
在上述实施例的基础上,所述训练好的文本匹配模型通过以下步骤得到:
步骤201,根据客服领域的样本语料数据,获取客服与客户之间历史对话记录产生的客户样本问句。
步骤202,根据所述客户样本问句和预设文本语料知识库,构建训练样本集;
步骤203,根据所述训练样本集中的样本数据,生成客服领域的样本知识图谱。
在本发明中,首先获取客服领域中客户与客服之间的历史语料数据,生成客服环境下用于调优预训练语言模型的训练数据;同时,通过挖掘历史语料数据在客服领域的实体概念和关联关系,构建客服领域的知识图谱。优选地,在本发明中,在预训练语言模型中加入词边界信息,提升了匹配的准确率。
步骤204,根据所述训练样本集和所述样本知识图谱,对预训练的语言模型进行训练,得到训练好的文本匹配模型。
在上述实施例的基础上,所述根据所述客户样本问句和预设文本语料知识库,构建训练样本集,包括:
根据预设文本语料知识库的知识库样本问句和所述客户样本问句,构建样本问句对,并为所述样本问句对标记匹配类型和实体关系,得到第一训练样本。
在本发明中,从客服与客户的历史对话记录中,随机抽取问法与待匹配的语料知识库,由专门的标注师团队进行人工标注,从而得到第一训练样本。图2为本发明提供的样本问句对标注过程示意图,可参考图2所示,将客户问句和知识库问句组成句子对之后,对样本问句对进行标注,标注内容包括:1、两个句子是否匹配;2、句子中包含的客服领域的意图、实体和实体关系等。
根据所述知识库样本问句,从所述预设文本语料知识库中获取对应的样本相似问,并根据所述知识库样本问句和所述样本相似问,得到第二训练样本。
在本发明中,在客服领域中,会配置很多的语料知识库,语料知识库里面的问法也会配置很多相似问,以提高客户的匹配效果。本发明基于相似问和非相似问,生成了匹配的正样本和负样本,以构建第二训练样本。图3为本发明提供的语料知识库的相似问对应关系示意图,如图3所示,对于同一个客户问题下的相似问,认为是匹配的,比如,问题1与相似问1至5是匹配的,问题2与相似问6至7是匹配,从而生成匹配成功的正样本;而问题3与相似问3不匹配的,问题2与问题4也是不匹配的,从而生成匹配失败的负样本。
根据客户历史问答反馈数据,对所述样本问句对标注正负样本标签,得到第三训练样本。
在本发明中,在客服领域的系统中,存在一种反馈机制,即客户可以对提供的回答进行反馈,如果反馈为正,则认为回答对应的问题和用户问题匹配上,是正样本;如果反馈为负,则认为回答对应的问题没有和用户问题匹配上,是负样本,由此对样本问句对进行标注,得到第三训练样本。
根据所述第一训练样本、所述第二训练样本和所述第三训练样本,构建训练样本集。
现有预训练语言模型的训练语料主要是英文,而英文是不需要进行分词处理的,这点在中文上不适用。虽然也发布了相关的中文模型,但是在处理中文时,是将中文作为一个个的汉字来处理,而不是包含有中文语义的分词结果,没有考虑词边界的编码信息,导致在进行中文文本匹配的时候,对准确率也会有一定的影响。
因此,本发明在对预训练语言模型进行微调时,加入知识图谱的关联关系,使得在匹配过程中,也能有效提高匹配的准确率。知识图谱技术创造出一种全新的信息检索模式,为解决信息检索问题提供了新的思路,本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库,知识图谱通常是用三元组“实体,关系,属性”来表示知识,通过图谱的推理计算能力,提升自然语言处理的语义理解能力。比如,在匹配中“寄快递”和“收快递”,因为表述比较接近,会容易匹配上。但是在知识图谱中,这两个表述会对应到不同的意图实体,因而意义差别也会很大,避免无匹配的现象发生;另一方面,比如“系统登录页面打不开”,和“系统登陆访问速度很慢”,虽然表述差异比较大,但是在知识图谱中可以对应到同一个意图实体,减少漏匹配的情况发生。
在上述实施例的基础上,所述根据所述训练样本集中的样本数据,生成客服领域的样本知识图谱,包括:
根据所述第一训练样本,获取所述样本问句对中的实体类型、实体关系和问句意图类型;
根据所述实体类型、所述实体关系和所述问句意图类型,生成客服领域的样本知识图谱。
在本发明中,基于第一训练样本中标注的实体关系,获取实体和关系数据,构建客服领域的知识图谱。在本发明中,知识图谱的实体包含多个层次描述信息,描述方式为“行业/场景/意图/方式”等。在一实施例中,根据标注情况,会适当的增加一些描述的层级。比如,一句话的内容是有关寄快递的,描述就是“物流/快递/寄快递”;如果是一个电商公司的内部人员请年假需求的,描述就是“电商/HR/请年假”。同时这个标注数据也用来训练语料的分类器,在匹配中,属于不同实体意图的表述,是不能匹配上的。
在上述实施例的基础上,在所述根据所述训练样本集和所述样本知识图谱,对预训练的语言模型进行训练,得到训练好的文本匹配模型之前,所述方法还包括:
在预训练的语言模型的词嵌入层中添加词边界信息和知识图谱嵌入信息,得到改进后的语言模型;
其中,所述词边界信息是对分词处理后的中文语句进行编码得到的,所述知识图谱嵌入信息是根据样本知识图谱中的意图实体生成的。
在本发明中,在现有预训练语言模型的词嵌入层中,用到的嵌入信息,包括词语的Embedding信息,词语位置的Embedding信息,以及句子长度范围Embedding信息。图4为本发明提供的文本匹配优化过程的整体示意图,可参考图4所示,本发明在现有基础上,新加入了一些词嵌入信息,以提升中文匹配,以及客服场景下的匹配结果。
具体地,在中文匹配中,通常最小的单元是词语信息,而不是字信息。本发明将中文句子分词后的词边界Embedding信息也加入到预训练语言模型中,提高模型的匹配准确率。举例:“详细说明本发明达到的效果和优点”,其分词后的结果为“详细/说明/本/发明/达到/的/效果/和/优点”,其词边界的Embedding为“01/01/1/01/01/1/01/1/01”,也就是每个词的词尾为1。
进一步地,对于语句中图谱的实体,通过知识图谱嵌入来表示包含的实体范围,比如“寄快递/到/天津/需要/多久”,其中“寄快递”是图谱中“物流/快递/寄快递”的意图实体,意图实体Embedding信息为“111/0/00/00/00”。通过知识图谱的实体嵌入,能让匹配模型训练的时候,更关注实体所在的位置的匹配效果。另外,在做匹配的时候,如果两个句子中的知识图谱实体不属于同一个类型,则需要标注成不同的值,比如,A句是“货运/到/天津/需要/多久”,B句是“空运/到/天津/需要/多久”,因为A句和B句中的实体类型都是“物流/快递/方式”,但是A句的值为“货运”,B句的值为“空运”,对应到不同的实体值,A句为“11/0/00/00/00”,B句为“22/0/00/00/00”。
本发明在预训练语言模型已有的三种Embedding基础上,额外加入了词边界信息和知识图谱嵌入信息,以提高中文环境中客服领域的文本匹配准确率。
在上述实施例的基础上,所述预训练的语言模型的输出层依次连接1个卷积层和1个全连接层。
在本发明中,可参考图4所示,预训练语言模型包含了两个语句之间的编码信息。为了结合预处理语言模型和其他匹配模型的优点,本发明在预训练语言模型的输出层新加入了一个卷积层(卷积神经网络)和一个全连接层。通过将预处理语言模型的输出向量,和其他多个匹配模型(即匹配模型1、匹配模型2和匹配模型3)的结果拼接后,形成新的向量,输入到卷积神经网络中,通过卷积层筛选出适合匹配的特征,来有效融合不同的模型的结果,达到融合学习的效果。最后通过全连接层达到分类的目的,即将结果分类到“匹配/不匹配”两个类别中,进而得到匹配结果。
在本发明中,将预训练语言模型,和其他的多个匹配模型进行融合学习,即将多个模型的匹配结果连接后,通过卷积神经网络,来学习不同模型对最后匹配结果的影响。
图5为本发明提供的文本匹配优化装置的结构示意图,如图5所示,本发明提供了一种文本匹配优化装置,包括问题获取模块501和相似问匹配模块502,其中,问题获取模块501用于获取待匹配的问题文本内容;相似问匹配模块502用于将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的。
本发明提供的文本匹配优化装置,针对特定的客服领域环境,生成训练语料和知识图谱,并基于该训练语料和知识图谱,应用深度学习模型训练得到文本匹配模型,对客服领域的问题文本进行匹配,从而提高文本匹配准确率。
在上述实施例的基础上,所述装置还包括样本问句获取模块、训练集构建模块、图谱生成模块和训练模块,其中,样本问句获取模块用于根据客服领域的样本语料数据,获取客服与客户之间历史对话记录产生的客户样本问句;训练集构建模块用于根据所述客户样本问句和预设文本语料知识库,构建训练样本集;图谱生成模块用于根据所述训练样本集中的样本数据,生成客服领域的样本知识图谱;训练模块用于根据所述训练样本集和所述样本知识图谱,对预训练的语言模型进行训练,得到训练好的文本匹配模型。
本发明提供的装置是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图6为本发明提供的电子设备的结构示意图,如图6所示,该电子设备可以包括:处理器(processor)601、通信接口(CommunicationsInterface)602、存储器(memory)603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令,以执行文本匹配优化方法,该方法包括:获取待匹配的问题文本内容;将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的。
此外,上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的文本匹配优化方法,该方法包括:获取待匹配的问题文本内容;将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的文本匹配优化方法,该方法包括:获取待匹配的问题文本内容;将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种文本匹配优化方法,其特征在于,包括:
获取待匹配的问题文本内容;
将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问句文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的;
所述训练好的文本匹配模型通过以下步骤得到:
根据客服领域的样本语料数据,获取客服与客户之间历史对话记录产生的客户样本问句;
根据所述客户样本问句和预设文本语料知识库,构建训练样本集;
根据所述训练样本集中的样本数据,生成客服领域的样本知识图谱,其中,所述样本知识图谱是根据实体类型、实体关系以及问句意图类型生成的;
根据所述训练样本集和所述样本知识图谱,对预训练的语言模型进行训练,得到训练好的文本匹配模型。
2.根据权利要求1所述的文本匹配优化方法,其特征在于,所述根据所述客户样本问句和预设文本语料知识库,构建训练样本集,包括:
根据预设文本语料知识库的知识库样本问句和所述客户样本问句,构建样本问句对,并为所述样本问句对标记匹配类型和实体关系,得到第一训练样本;
根据所述知识库样本问句,从所述预设文本语料知识库中获取对应的样本相似问句,并根据所述知识库样本问句和所述样本相似问句,得到第二训练样本;
根据客户历史问答反馈数据,对所述样本问句对标注正负样本标签,得到第三训练样本;
根据所述第一训练样本、所述第二训练样本和所述第三训练样本,构建训练样本集。
3.根据权利要求2所述的文本匹配优化方法,其特征在于,所述根据所述训练样本集中的样本数据,生成客服领域的样本知识图谱,包括:
根据所述第一训练样本,获取所述样本问句对中的实体类型、实体关系和问句意图类型;
根据所述实体类型、所述实体关系和所述问句意图类型,生成客服领域的样本知识图谱。
4.根据权利要求1所述的文本匹配优化方法,其特征在于,在所述根据所述训练样本集和所述样本知识图谱,对预训练的语言模型进行训练,得到训练好的文本匹配模型之前,所述方法还包括:
在预训练的语言模型的词嵌入层中添加词边界信息和知识图谱嵌入信息,得到改进后的语言模型;
其中,所述词边界信息是对分词处理后的中文语句进行编码得到的,所述知识图谱嵌入信息是根据样本知识图谱中的意图实体生成的。
5.根据权利要求1所述的文本匹配优化方法,其特征在于,所述预训练的语言模型的输出层依次连接1个卷积层和1个全连接层。
6.一种文本匹配优化装置,其特征在于,包括:
问题获取模块,用于获取待匹配的问题文本内容;
相似问句匹配模块,用于将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问句文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的;
所述装置还包括:
样本问句获取模块,用于根据客服领域的样本语料数据,获取客服与客户之间历史对话记录产生的客户样本问句;
训练集构建模块,用于根据所述客户样本问句和预设文本语料知识库,构建训练样本集;
图谱生成模块,用于根据所述训练样本集中的样本数据,生成客服领域的样本知识图谱,其中,所述样本知识图谱是根据实体类型、实体关系以及问句意图类型生成的;
训练模块,用于根据所述训练样本集和所述样本知识图谱,对预训练的语言模型进行训练,得到训练好的文本匹配模型。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述文本匹配优化方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文本匹配优化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110611429.4A CN113051374B (zh) | 2021-06-02 | 2021-06-02 | 一种文本匹配优化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110611429.4A CN113051374B (zh) | 2021-06-02 | 2021-06-02 | 一种文本匹配优化方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051374A CN113051374A (zh) | 2021-06-29 |
CN113051374B true CN113051374B (zh) | 2021-08-31 |
Family
ID=76518664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110611429.4A Active CN113051374B (zh) | 2021-06-02 | 2021-06-02 | 一种文本匹配优化方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051374B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553415B (zh) * | 2021-06-30 | 2023-06-02 | 北京百度网讯科技有限公司 | 问答匹配的方法、装置及电子设备 |
CN113569011B (zh) * | 2021-07-27 | 2023-03-24 | 马上消费金融股份有限公司 | 文本匹配模型的训练方法、装置、设备及存储介质 |
CN113672718B (zh) * | 2021-09-02 | 2024-04-05 | 杭州一知智能科技有限公司 | 基于特征匹配和领域自适应的对话意图识别方法及系统 |
CN113961667B (zh) * | 2021-09-23 | 2024-06-25 | 哈尔滨工业大学(深圳) | 一种基于Bert的动态阈值调整的智能问答系统 |
CN114141248A (zh) * | 2021-11-24 | 2022-03-04 | 青岛海尔科技有限公司 | 语音数据处理方法、装置及电子设备、存储介质 |
CN117609444B (zh) * | 2023-11-08 | 2024-06-25 | 天讯瑞达通信技术有限公司 | 一种基于大模型的搜索问答方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN110032650A (zh) * | 2019-04-18 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 一种训练样本数据的生成方法、装置及电子设备 |
CN111291156A (zh) * | 2020-01-21 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于知识图谱的问答意图识别方法 |
CN111428008A (zh) * | 2020-06-11 | 2020-07-17 | 北京百度网讯科技有限公司 | 用于训练模型的方法、装置、设备以及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694177B (zh) * | 2017-04-06 | 2022-02-18 | 北大方正集团有限公司 | 知识图谱构建方法及系统 |
US10762083B2 (en) * | 2017-12-21 | 2020-09-01 | Microsoft Technology Licensing, Llc | Entity- and string-based search using a dynamic knowledge graph |
CN110442710B (zh) * | 2019-07-03 | 2021-09-17 | 广州探迹科技有限公司 | 一种基于知识图谱的短文本语义理解与精准匹配方法及装置 |
CN111737424A (zh) * | 2020-02-21 | 2020-10-02 | 北京沃东天骏信息技术有限公司 | 一种问题的匹配方法、装置、设备及存储介质 |
CN111522944B (zh) * | 2020-04-10 | 2023-11-14 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
CN111401077B (zh) * | 2020-06-02 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 语言模型的处理方法、装置和计算机设备 |
CN112069329B (zh) * | 2020-09-11 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 文本语料的处理方法、装置、设备及存储介质 |
CN112182230B (zh) * | 2020-11-27 | 2021-03-16 | 北京健康有益科技有限公司 | 一种基于深度学习的文本数据分类方法和装置 |
-
2021
- 2021-06-02 CN CN202110611429.4A patent/CN113051374B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN110032650A (zh) * | 2019-04-18 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 一种训练样本数据的生成方法、装置及电子设备 |
CN111291156A (zh) * | 2020-01-21 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于知识图谱的问答意图识别方法 |
CN111428008A (zh) * | 2020-06-11 | 2020-07-17 | 北京百度网讯科技有限公司 | 用于训练模型的方法、装置、设备以及存储介质 |
Non-Patent Citations (3)
Title |
---|
《Deep Semantic Match Model for Entity Linking Using Knowledge Graph and Text》;Luo, AG 等;《Procedia Computer Science》;20180331;第110-114页 * |
《基于知识图谱的自动问答系统的应用研究与实现》;张崇宇;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20190815;I138-1389页 * |
《基于知识图谱问答系统的技术实现》;魏泽林 等;《软件工程》;20210228;第38-44页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113051374A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113051374B (zh) | 一种文本匹配优化方法及装置 | |
CN107783960B (zh) | 用于抽取信息的方法、装置和设备 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
US11636272B2 (en) | Hybrid natural language understanding | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN114722839A (zh) | 人机协同对话交互系统及方法 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
CN116578688A (zh) | 基于多轮问答的文本处理方法、装置、设备及存储介质 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN111738018A (zh) | 一种意图理解方法、装置、设备及存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN111639162A (zh) | 信息交互方法和装置、电子设备和存储介质 | |
CN118378148A (zh) | 多标签分类模型的训练方法、多标签分类方法及相关装置 | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN113283218A (zh) | 一种语义文本压缩方法及计算机设备 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN111680136A (zh) | 一种口语语义匹配的方法及装置 | |
CN115630652A (zh) | 客服会话情感分析系统、方法及计算机系统 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN115510213A (zh) | 用于作业机械的问答方法及系统、作业机械 | |
CN115168544A (zh) | 信息提取方法及电子设备和存储介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |