CN115269836A - 意图识别方法及装置 - Google Patents
意图识别方法及装置 Download PDFInfo
- Publication number
- CN115269836A CN115269836A CN202210843393.7A CN202210843393A CN115269836A CN 115269836 A CN115269836 A CN 115269836A CN 202210843393 A CN202210843393 A CN 202210843393A CN 115269836 A CN115269836 A CN 115269836A
- Authority
- CN
- China
- Prior art keywords
- text
- intention
- dialog
- target
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 239000013598 vector Substances 0.000 claims abstract description 108
- 238000004140 cleaning Methods 0.000 claims description 127
- 230000011218 segmentation Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 30
- 239000012634 fragment Substances 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 9
- 238000005406 washing Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 24
- 238000001914 filtration Methods 0.000 description 11
- 230000006854 communication Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013467 fragmentation Methods 0.000 description 7
- 238000006062 fragmentation reaction Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供意图识别方法及装置,其中所述意图识别方法包括:获取目标对话文本,并将目标对话文本切分为至少两个文本片段;将至少两个文本片段输入至意图识别模型,其中,意图识别模型包括编码单元、解码单元;通过编码单元对至少两个文本片段依次进行编码处理,获得编码向量,其中,编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成;通过解码单元对编码向量进行解码处理,获得目标对话文本对应的意图类别概率分布并输出意图识别模型。通过采用意图识别模型依次处理各个文本片段,使每个文本片段融合扩展信息再进行编码处理,实现扩展上下文的目的,能够较好的捕捉整段目标对话文本的语义信息,从而提高用户意图预测的准确率。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及意图识别方法。本申请同时涉及意图识别装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着人工神经网络技术的发展,人工神经网络的构建和训练,可以解决较为复杂的逻辑策略的表达问题。目前,预训练语言模型可以用于文本分类任务,例如使用预训练语言模型基于用户对话预测用户意向,从而判断用户是否会流失。但是,目前预训练语言模型在对话场景下,无法对长对话一次性编码,导致模型训练效率较低以及预测结果不准确的问题。因此,如何在长对话场景下准确预测出用户意向是目前亟需解决的问题。
发明内容
有鉴于此,本申请实施例提供了意图识别方法,基于长对话文本准确预测出用户的意图,从而为用户提供相应服务,提高用户满意度。本申请同时涉及意图识别装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的无法在长对话场景下准确预测出用户意图。
根据本申请实施例的第一方面,提供了一种意图识别方法,包括:
获取目标对话文本,并将所述目标对话文本切分为至少两个文本片段;
将所述至少两个文本片段输入至意图识别模型,其中,所述意图识别模型包括编码单元、解码单元;
通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,其中,所述编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成;
通过所述解码单元对所述编码向量进行解码处理,获得所述目标对话文本对应的意图类别概率分布并输出所述意图识别模型。
根据本申请实施例的第二方面,提供了一种意图识别装置,包括:
切分模块,被配置为获取目标对话文本,并将所述目标对话文本切分为至少两个文本片段;
输入模块,被配置为将所述至少两个文本片段输入至意图识别模型,其中,所述意图识别模型包括编码单元、解码单元;
编码模块,被配置为通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,其中,所述编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成;
解码模块,被配置为通过所述解码单元对所述编码向量进行解码处理,获得所述目标对话文本对应的意图类别概率分布并输出所述意图识别模型。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述意图识别方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述意图识别方法的步骤。
本申请提供的意图识别方法,获取目标对话文本,并将所述目标对话文本切分为至少两个文本片段;将所述至少两个文本片段输入至意图识别模型,其中,所述意图识别模型包括编码单元、解码单元;通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,其中,所述编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成;通过所述解码单元对所述编码向量进行解码处理,获得所述目标对话文本对应的意图类别概率分布并输出所述意图识别模型。
本申请一实施例实现了通过将目标对话文本切分为多个文本片段,采用意图识别模型依次处理各个文本片段,在处理过程中,使每个文本片段融合扩展信息再进行编码处理,实现扩展上下文的目的,能够较好的捕捉整段目标对话文本的语义信息,从而提高用户意图预测的准确率。
附图说明
图1是本申请一实施例提供的一种意图识别方法的结构示意图;
图2是本申请一实施例提供的一种意图识别方法的流程图;
图3是本申请一实施例中目标对话文本的切分示意图;
图4是本申请一实施例提供的一种应用于课程续报意图识别的意图识别方法的处理流程图;
图5是本申请一实施例提供的一种意图识别装置的结构示意图;
图6是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
意向预测:意向预测任务即意图识别,是根据一段通话记录,识别出用户的意图类别,例如,根据老师与家长的对话,识别出家长对于老师教课水平的满意度。
文本分类:文本分类是自然语言处理的经典任务,任务是按照一定的分类体系或标准将文本分配到其所属类别中。基于神经网络模型,给定标注好的数据,经过训练后的模型能够预测文本的类别。
BERT:Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型,用于自然语言处理,能够通过编码文本的双向信息,获取文本的向量表示。
XLNet:基于transformer-XL的XLNet是目前在BERT基础上改动较大的模型,在超长文本的场景下,XLNet相比其他bert系列的模型会有更好的性能。
随着信息技术的发展,数据挖掘引起了信息产业界的关注,通过数据挖掘可以从大量数据中获取到有用的信息。例如,在销售场景下,若是可以从销售人员与顾客的对话中挖掘出顾客的购买意向或者对于商品的喜爱度,那么销售人员则可以针对性地为顾客提供相关介绍,使顾客能够更清楚的获取到自己喜欢的商品的信息,提高顾客的满意度。传统的,对于顾客的购买意向只能通过销售人员的主观评判,判断结果差异较大、准确率低,并没有客观的数据进行支撑,无法收集有效数据。对于此,现有技术中提出采用神经网络模型预测意向类别,从而提高顾客意向类别的预测准确率。意向预测可以看作为一个文本分类任务,对于一段文本,将其输入至BERT等模型,获取文本的向量表示,然后通过一个神经网络计算每个类别的概率,将概率最高的类别作为文本的类别。
但是这种方法中,在对语言建模时,针对如何提升编码器捕获长距离依赖关系能力的问题,现有技术中提出了集中比较有效的编码器。LSTM为了建模长距离依赖,利用门控机制和梯度裁剪,有研究验证目前可编码的最长平均距离在200左右。Transformer利用自适应注意力(self-attention)机制,允许词之间直接建立联系,能更好地捕获长距离依赖,其编码能力超过了LSTM,但局限于固定长度的上下文。基于Transformer的BERT模型最大输入长度为512,在对话场景下,总字数最多长达4000字,BERT无法对其一次性编码。
在对话场景下,通常会截取开头和结尾的512字,然后输入至训练好的BERT模型,此类方法适用于新闻、百科类文档,因为这些文档的分类信息主要分布于文本开头和结尾,但是在沟通时间较长的长对话场景下,对话场景字数多,且分类信息可能分布在整个通话的任意位置,因此无法通过简单的截取通话开头和结尾来进行文本分类。
基于此,在本申请中,提供了意图识别方法,用于在长对话场景下准确预测出用于意图,解决现有技术中无法对长文本进行准确分类的问题,本申请同时涉及意图识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是本申请一实施例提供的一种意图识别方法的结构示意图,其中,目标对话文本,即长对话文本可以理解为工作人员与客户之间的对话文本,长对话文本可以是由对话记录经过语音转文本获得。在实际应用中,工作人员可以将与客户的对话记录,例如电话录音、聊天记录等输入至意图识别模型,意图识别模型经过处理之后输出对应的意图类别概率分布,从而确定出用户的意图,后续工作人员可以根据该用户意图为用户提供个性化的服务。
进一步的,以老师与家长的沟通记录为例,老师在课后与家长进行回访,询问关于家长对于课程的满意度。沟通之后,老师可以将电话沟通记录转换成对话文本,并输入至意图识别模型,意图识别模型输出结果为“满意度:高”,后续老师可以根据该用户意图了解到家长对于该老师的教学评价,同时也能够为家长提供该老师的其他课程,提高用户的满意度。
具体的,图2示出了根据本申请一实施例提供的一种意图识别方法的流程图,具体包括以下步骤:
步骤202:获取目标对话文本,并将所述目标对话文本切分为至少两个文本片段。
其中,目标对话文本可以理解为两个讲话者之间的对话内容的文本,目标对话文本即需要预测用户意图的对话文本,目标对话文本可以是直接将讲话者之间交流过程中生成的文本导出获得,也可以是将交流过程中生成的语音数据输入至语音识别模型,获得语音识别模型输出的对话文本,还可以是通过OCR(Optical Character Recognition)光学字符识别技术对包含有对话文本的图片、视频进行识别获得,本申请在此对目标对话文本的获取方式不作具体限制。
在实际应用中,为了能够更好的使模型预测出正确结果,对于长对话文本而言,应该使用模型对长对话文本的整个序列进行编码,但是考虑到计算资源和内存的问题,这种方案是不可行的。因此,在本申请实施例中会对目标对话文本进行切分,分成多个文本片段,如图3所示,图3是本申请一实施例中目标对话文本的切分示意图,其中,对目标对话文本按照长度为4的切分规则进行切分。后续针对每个文本片段进行编码,从而获得准确的预测结果。
在本申请一实施例中,目标对话文本是由老师和家长的沟通电话录音经过语音识别获得的,目标对话文本用于为识别家长对课程的满意度提供数据基础。将目的对话文本以长度为4进行切分,获得多个切分后的文本片段。
在对话场景下,对话文本的总字数较多,使得模型无法根据整个对话文本进行编码处理,本申请实施例中对于长对话文本,首先进行切分处理获得多个文本片段,再将获得的多个文本片段输入至意图识别模型,意图识别模型中引入递归机制,使得文本片段之间不会出现上下文碎片问题,保证意图识别模型输出的预测结果准确。
在实际应用中,由于讲话者之间的对话记录中存在部分无效信息,例如语气词、杂音等信息,或者整个对话记录没有有效信息,这类对话记录转换出的对话文本无法进行意图识别,因此在获取目标对话文本时,可以先对对话记录进行数据清洗,获得有效的对话文本,从而后续意图识别模型可以根据有效的对话文本识别出对应的用户的意图类别。具体地,获取目标对话文本,包括:
获取关联目标业务的对话信息集;
对所述对话信息集中包含的初始对话信息进行数据清洗,获得包含目标对话信息的目标对话信息集;
确定所述目标对话信息集中目标对话信息对应的至少两个对话文本,通过对所述至少两个对话文本进行拼接,获得所述目标对话文本,其中,至少两个对话文本中的每个对话文本均包含讲话者标识。
其中,对话信息集可以理解为讲话者之间的沟通记录,对话信息集中包括不同讲话者对应的对话信息,对话信息集关联目标业务可以理解为与目标业务有关的对话信息集,例如,目标业务为辅导班报名业务,则关联目标业务的对话信息集中即包含有老师与家长对于报名辅导班的对话信息。
具体的,目标业务具体是指用户可以参与且能够向用户提供相应服务的业务项目,且目标业务还会涉及到话务人员与用户之间的交互,用于辅助目标业务可以向用户提供更加优质的业务服务,以及触达更多的用户;相应的,对话信息集具体是指关联目标业务的话务人员与用户之间的对话信息组成的集合;相应的,初始对话信息具体是指对话信息集中未经过处理的对话信息,包含非标准化的文本内容,比如语气助词、字单元重复内容、缺少字单元等。相应的,数据清洗具体是指对初始对话信息进行过滤和/或标准化处理的操作,用于实现将初始对话信息中表述不清楚的内容剔除、口语内容转换为书面语内容、剔除不符合业务需求的初始对话信息等,用于保证目标对话信息集中包含的目标对话信息满足后续的模型训练需求。相应的,对话文本具体是指对话信息中涉及到的任意一个讲话方所对应的讲话内容,即每个对话文本对应一个讲话方,且每个对话文本中包含讲话者标识;其中,讲话者标识具体是指表征讲话方的标识,该标识可以是文字标识、字符串标识等,本实施例在此不作任何限定。
在实际应用中,由于对话信息集中包含的初始对话信息中可能包括有一些无效信息、噪音,因此需要对初始对话信息进行数据清洗,获得包含目标对话信息的目标对话信息集。例如在实际场景下,当老师通过电话询问家长对于下学期的辅导班是否继续报名时,对话信息集中可能会包含一些忙音、关机等未接通电话的对话信息,则这类对话信息应该被剔除。具体地,对初始对话信息进行数据清洗的清洗规则可以包括如下几点:
1.过滤忙音、关机、无信号等未接通的电话。在此情况下,由于讲话者之间未产生有效的对话记录,所以这类对话信息需要被数据清洗。
2.过滤通话内容较短的对话。例如,预设总句子数小于20的对话进行过滤的规则,则会对总句子数小于20的对话信息进行剔除,此类对话信息虽然包含有讲话者之间的对话记录,但是由于内容较短,后续无法转换成有效的对话文本,不利于模型进行预测。
3.过滤可能出现身份标注错误的对话。例如,过滤任何一个人连续超过15句的对话;过滤整段对话中只有一个人的对话。该数据清洗规则过滤了全部是老师的说话内容,而能够表征用户意图的内容很少的对话信息。
4.删除语气词等无意义的字符。在后续的意图识别中只针对讲话者的言语内容进行处理,因此需要过滤掉对话信息中与对话内容无关的语气词。
5.为不以标点符号结尾的句子补充句号作为结尾。该条数据清洗规则的目的在于准确区分每个句子,从而后续能够地判断出讲话者的身份。
6.校正讲话者身份,在对话信息开头使用正则表达式将讲话者的身份提取出来作为每个句子的讲话者身份标识。例如在老师与家长的前三句话中按照以下正则表达式进行搜索,“我是.{1,10}老师|这边是.{1,10}老师|是.{1,5}家长吗”,如果满足搜索条件,则判断讲话者是老师身份,如果两个讲话者均无法满足条件,则判断字数最多的人是老师身份。
7.拼接对话,将两个讲话者的多句对话拼接为一个长字符串。
通过上述提供的数据清洗规则,可以将对话信息集中一些噪音信息进行过滤,获得包含目标对话信息的目标对话信息集,并且根据数据清洗规则还可以实现对目标对话信息集中目标对话信息对应的至少两个对话文本进行拼接,两个对话文本可以理解为两个讲话者各自的讲话内容,拼接之后获得目标对话文本,目标对话文本为一个长字符串。基于此,当确定需要针对目标业务训练意图识别模型时,可以先获取关联目标业务的对话信息集,以实现训练出的意图识别模型可以应用于目标业务场景下的预测。进一步的,考虑到对话信息集中包含的初始对话信息并不标准,若以此为基础进行模型的训练,可能会导致模型预测精度下降,因此在模型训练前,可以先对对话信息集中包含的初始对话信息进行数据清洗,以实现对初始对话信息进行标准化处理,以及对对话信息集中不符合业务场景需求的初始对话信息进行剔除,以根据处理结果得到包含目标对话信息的目标对话信息集。
更进一步的,在得到目标对话信息集后,由于每个目标对话信息均是由至少两个用户之间的对话内容形成,而意图识别不仅需要结合参与目标业务的用户讲话内容实现,还需要考虑与用户交互的话务人员的讲话内容,以此为基础构建训练模型的样本,可以使得模型预测精度更高。因此,可以将每个目标对话信息中包含的至少两个对话文本进行拼接,以根据拼接结果得到多个目标对话文本,且目标对话文本中还包含有每个用户的讲话者标识,方便后续以此为基础,可以结合讲话者标识和文本内容完成模型的训练。
实际应用中,考虑到数据清洗阶段会结合目标业务设定的多个清洗规则完成,而不同的清洗规则会对初始对话信息产生不同的修改;因此,具体实施时,可以结合业务需求选择一个或多个清洗规则对初始对话信息进行处理,以达到数据清洗目的。例如,清洗规则中包含规则A、规则B和规则C,在对初始对话信息进行清洗时,可以选择规则A对初始对话信息进行清洗处理,清洗后的对话信息即为目标对话信息;或者选择规则A、规则B和规则C同时对初始对话信息进行清洗,被三个规则处理后的初始对话信息即为目标对话信息。
在目标业务场景下,清洗规则包括但不限于:剔除文本长度未达到长度阈值的初始对话信息、剔除讲话者标识标注错误的初始对话信息、剔除初始对话信息中无意义的字符(如语气词等)、针对初始对话信息修复标点符号等。实际应用中,清洗规则可以根据实际需求进行设定,且数据清洗阶段可以根据需求进行选择,本实施例在此不作任何限定。
举例说明,在网课续报业务场景下,在确定用户的续报意图后,可以针对不同的续报意图采用不同的方式与用户进行对接;如用户续报意图强,则可以直接向用户推荐续报课程,或者用户续报意图弱,则可以向用户推荐试听网课,从而提高用户参与网课续报业务的体验。而精准的对用户续报意图进行识别在该过程中最为重要。针对用户的续报意图可以识别可以采用意图识别模型实现,在此之前则需要对训练出满足当前业务场景的意图识别模型。
进一步的,首先获取关联网课续报业务的对话信息集,即老师与用户之间的对话组成的集合;其次,考虑到对话信息集中包含的初始对话信息可能达不到样本使用标准,可以对对话信息集中包含的初始对话信息进行数据清洗;可以过滤对话信息集中对话内容较短的初始对话信息,如过滤双方总对话句子少于20的初始对话信息;可以过滤出现身份标注错误的初始对话信息,如过滤掉将老师说的话标注为用户说的话的初始对话信息;可以过滤掉任意一个人连续讲话超过n句的初始对话信息,如一个人连续讲话超过15句的初始对话信息;可以删除初始对话信息中无意义的字符,如初始对话信息中的语气助词“哎”删除;可以对初始对话信息进行标点符号修正,如在一句话结束后添加句号。
更进一步的,在针对对话信息集中包含的初始对话信息进行数据清洗处理后,即可获得文本表述清楚的目标对话信息组成的目标对话信息集。此后,考虑到每个目标对话信息均为用户与老师之间的对话,为了能够在模型训练阶段使用,且结合二者的对话内容完成意图识别,可以将每个目标对话文本中老师和用户分别对应的对话文本进行拼接,以根据拼接结果得到目标对话信息对应的目标对话文本,以用于后续进行模型训练。
需要说明的是,在确定每个对话文本对应的讲话者标识阶段,可以采用正则表达式搜索的方式,确定每个初始对话信息中起始讲话文本所属的用户身份,之后以确定用户身份语句进行后续讲话文本的标注,即可确定每个对话文本对应的讲话者标识。例如,用户A与用户B沟通,用户A第一句话内容为{a1},用户B第一句话内容为{b1},用户之间共交谈了10句话,在进行身份确定阶段,可以先识别第一句话和第二句话,以根据识别结果确定10句对话中,第一句话是对应哪个用户的,之后以第一句话对应的讲话特点,对剩余的10句话中的对话内容进行识别,即可确定对应用户A的讲话内容,剩余的即为用户B的讲话内容。
或者,采用正则表达式搜索用户A与用户B之间的身份,正则表达式搜索:我是{1,10}用户A|这边是{1,10}用户A|是{1,5}家长吗;若果满足搜索条件,则判断对应的用户是用户A,如果两个人都不满足条件,则选择讲话内容最多的作为用户A(用户A关联目标业务)。
实际应用中,讲话者标识的确定可以根据实际需求选择,还可以采用音色识别的方式,或者人工标注的方式实现,本实施例在此不作任何限定。
需要注意的是,上述提供的数据清洗规则仅为本申请实施例提供的数据清洗规则,在实际应用中还可以根据实际情况选择其他的数据清洗规则,本申请在此不作具体限制。并且,在实际实施时,还可以从上述数据清洗规则中选择几条数据清洗规则进行清洗,避免产生资源浪费,提高数据预处理效率。具体地,对所述对话信息集中包含的初始对话信息进行数据清洗,获得包含目标对话信息的目标对话信息集,包括:
确定包含多个数据清洗节点的数据清洗链路;
在所述数据清洗链路中选择第i数据清洗节点对应的数据清洗规则,对所述对话信息集中包含的初始对话信息进行数据清洗,获得初始对话信息集;
判断所述数据清洗链路中是否包含未执行的数据清洗节点;
若是,i自增1,将所述初始对话信息集作为对话信息集,并执行在所述数据清洗链路中选择第i数据清洗节点对应的数据清洗规则的步骤;
若否,将所述初始对话信息集作为包含目标对话信息的目标对话信息集。
其中,数据清洗节点可以理解为包含一种或多种数据清洗规则的节点,每个数据清洗节点所包含的数据清洗规则不同,因此确定出一个包含多个数据清洗节点的数据清洗链路之后,可以按照链路中的数据清洗节点对初始对话信息进行数据清洗,从而获得初始对话信息集。数据清洗链路中包含的数据清洗节点的数量可以根据实际情况确定,例如工作人员想要选择3种数据清洗规则对初始对话信息进行数据清洗,则数据清洗链路中可以是包含3个数据清洗节点,每个数据清洗节点对应一种数据清洗规则,也可以是一个数据清洗节点对应3种数据清洗规则,具体设置可以根据实际情况确定。
具体的,数据清洗链路具体是指由至少两个数据清洗节点组成的链路,且数据清洗节点在数据清洗链路中具有先后执行顺序,不同的数据清洗节点对应不同的数据清洗规则。相应的,数据清洗节点具体是指用于对对话信息集中包含的初始对话信息进行数据清洗处理的节点。相应的,数据清洗规则包括但不限于剔除文本长度未达到长度阈值的初始对话信息、剔除讲话者标识标注错误的初始对话信息、剔除初始对话信息中无意义的字符(如语气词等)、针对初始对话信息修复标点符号等。实际应用中,清洗规则可以根据实际需求进行设定,且数据清洗阶段可以根据需求进行选择,本实施例在此不作任何限定。
基于此,在数据清洗阶段,可以先确定关联目标业务的数据清洗链路,之后在链路中选择第i数据清洗节点对应的数据清洗规则,对对话信息集中包含的全部初始对话信息进行数据清洗,根据清洗结果获得初始对话信息集,其中,i为正整数,且i从1开始取值;此后,判断数据清洗链路中是否还存在未被执行的数据清洗节点,若存在,则i自增1,并将初始对话信息集作为对话信息集,再次执行选择数据清洗节点对应的数据清洗规则,对对话信息集进行数据清洗的过程。直至数据清洗链路的全部数据清洗节点都被执行完成后,即可将最终得到的初始对话信息集作为目标对话信息集,以用于后续的模型训练。
在实际应用中,当确定出包含多个数据清洗节点的数据清洗链路之后,则可以按照数据清洗链路中的数据清洗节点依次对对话信息集中包含的初始对话信息进行数据清洗,从而获得初始对话信息集。具体逻辑是先选择第i个数据清洗节点对应的数据清洗规则对对话信息集进行清洗,判断数据清洗链路中的其他数据清洗节点是否对对话信息集进行过清洗,若还有未执行过的数据清洗节点,则执行下一个数据清洗节点,即使用第i+1个数据清洗节点对应的数据清洗规则对对话信息集进行清洗。
需要说明的是,各个数据清洗节点对应的数据清洗规则,对初始对话信息进行数据清洗时,可以参照上述实施例的数据清洗过程,本实施例在此不作过多赘述。
综上,通过采用数据清洗链路对初始对话信息进行数据清洗处理,可以保证对话信息集中包含的全部初始对话信息都被清洗处理,从而使得目标对话信息集更加标准,以训练出预测精准度更高的意图识别模型。
在本申请一实施例中,确定包含3个数据清洗节点的数据清洗链路,其中,数据清洗节点1对应的数据清洗规则为过滤未接通电话,数据清洗节点2对应的数据清洗规则为过滤通话内容较短的对话,数据清洗节点3对应的数据清洗规则为删除语气词等无意义的字符,则在该数据清洗链路中选择第1个数据清洗节点对应的数据清洗规则进行第1次数据清洗,获得初始对话信息集1,判断出数据清洗链路中还有数据清洗节点2和数据清洗节点3未执行,则选择第2个数据清洗节点对第1次数据清洗之后获得的初始对话信息集1;进行第2次数据信息,获得第2次数据清洗之后获得的初始对话信息集2;继续判断出数据清洗链路中还有数据清洗节点3未执行,则选择第3个数据清洗节点对第2次数据清洗之后获得的初始对话信息集2,进行第3次数据清洗,获得初始对话信息集3,判断数据清洗链路中没有未执行的数据清洗节点,则将初始对话信息集3作为包含目标对话信息的目标对话信息集。
经过数据清洗之后获得的目标对话信息集,消除了对话信息集中多余的噪声,使得后续模型能够更好的对根据目标对话信息集转换的目标对话文本进行处理,输出预测更加准确的结果。
因为目标对话文本的总字数过多,模型无法一次性对整个目标对话文本进行编码处理,因此需要对目标对话文本进行切分,使模型依次对切分后的目标对话文本进行处理。具体地,将所述目标对话文本切分为至少两个文本片段,包括:
获取预设切分策略,并根据所述预设切分策略确定切分窗口;
根据所述切分窗口对所述目标对话文本进行切分处理,获得至少两个文本片段。
其中,预设切分策略可以理解为提前设定好的切分对话文本的策略,预设切分策略中包括切分大小、切分次数等规则。在实际应用中,根据预设切分策略确定切分窗口之后,则可基于切分窗口对目标对话文本进行切分,如图3所示,以切分窗口大小为4进行切分,每次切分之后将窗口右移并继续切分,直至切分至目标对话文本的末尾。
具体实施时,当切分窗口移动至对话文本末尾之后,可能最后一个切分出的文本片段中的文本向量不满足切分窗口大小,可以选择补充向量至满足区分窗口大小,或者将这部分文本向量舍弃,使得最后获得的每个文本片段都满足切分窗口大小,便于后续输入模型进行处理。
步骤204:将所述至少两个文本片段输入至意图识别模型,其中,所述意图识别模型包括编码单元、解码单元。
其中,意图识别模型是指预训练好的神经网络模型,本申请实施例中提供的意图识别模型为Transformer-XL(XLNet)模型,选用XLNet模型,利用其自回归的特点,直接获取长文本的向量表示,能够较好的捕捉整段文本的语义信息,进而提升意向识别的准确率。
在实际应用中,意图识别模型包括编码单元和解码单元,编码单元用于将输入的对话文本序列经过编码处理获得向量序列,并输入至解码单元,解码单元用于将输入的向量序列经过解码处理获得序列向量,并通过归一化处理将序列向量转换为概率,并输出模型。
在本申请一实施例中,将由目标对话文本切分获得的多个文本片段输入至意图识别模型中,由意图识别模型依次处理每个文本片段,从而输出目标对话文本的意图识别结果。
由此可知,通过选用XLNet模型作为意图识别模型进行训练,在长对话文本的场景下,XLNet模型也可以满足意图识别的需求,提高从长对话文本中预测出准确的意图类别。
其中,意图识别模型中包括有编码单元和解码单元,通过编码单元和解码单元进行意图识别处理,从而输出预测的意图类别。具体地,模型处理过程包括步骤206至步骤208。
步骤206:通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,其中,所述编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成。
其中,编码向量可以理解为所有文本片段编码之后获得的编码向量,在实际应用中,由于目标对话文本的数据量过大,模型无法一次性对所有文本序列进行编码处理,因此可以依次处理每个文本片段,获得每个文本片段各自对应的编码子向量,后续通过拼接方式获得目标对话文本的编码向量。
在实际应用中,如果只对每个文本片段单独进行编码,会忽视所有的上下文信息,造成上下文碎片问题。在长对话文本的场景中,用户的意图可能存在与任意一处,当忽视上下文信息之后,最后预测出的结果可能不正确,无法正确预测出用户意图,从而为用户带来不好的服务体验。
基于此,本申请提供的意图识别模型在编码处理过程中,引入递归机制,在每个文本片段编码处理之前,使其与对应的扩展信息进行融合,扩展信息可以理解为上一个文本片段经过编码处理获得的隐状态序列,从而确保在预测过程中尽可能大的利用上下文,缓解上下文碎片问题。
在本申请一具体实施例中,共有3个文本片段,分别为文本片段1、文本片段2、文本片段3,通过意图识别模型的编码单元对3个文本片段依次进行编码处理,在对文本片段1进行编码时,由于文本片段1没有上文,所以对应的扩展信息为空,即直接对文本片段1进行编码,获得文本片段1对应的编码子向量1及隐状态序列1,将隐状态序列1作为文本片段2的扩展信息;在处理完文本片段1之后,则对文本片段2进行编码,首先将文本片段2和隐状态序列1进行融合,再对融合结果进行编码,获得文本片段2对应的编码子向量2及隐状态序列2,将隐状态序列2作为文本片段3的扩展信息;在处理完文本片段2之后,则对文本片段3进行编码,先将文本片段3和隐状态序列2进行融合,再对融合结果进行编码,获得文本片段3对应的编码子向量3即隐状态序列3,自此完成每个文本片段的编码处理,之后将每个文本片段对应的编码子向量进行拼接获得整个目标对话文本对应的编码向量,并用于后续输入至解码层。
由此可知,本申请提供的意图识别模型通过递归机制,当模型处理下一个文本片段时,前一段序列中的隐状态信息会被固定并缓存,当模型处理下一个文本片段时作为扩展信息而被重用,如图3所示,尽快梯度只保持在一个独立的段中,但额外的输入信息(扩展信息)允许模型利用历史信息,从而能够对长期依赖关系进行建模,并避免出现上下文碎片化的问题。
在实际应用中,对目标对话文本进行切分之后会获得多个文本片段,在将多个文本片段输入至意图识别模型进行处理时,意图识别模型会依次对文本片段进行编码处理,因此需要确定文本片段的处理顺序。具体地,通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,包括:
获取所述至少两个文本片段中每个文本片段之间的排列顺序;
通过所述编码单元按照所述排列顺序依次对每个文本片段进行编码处理,获得每个文本片段对应的编码子向量;
根据每个文本片段对应的编码子向量组成获得编码向量。
其中,排列顺序可以理解为文本片段之间的拼接顺序,所有文本片段按照排列顺序进行拼接可以反向获得目标对话文本,因此排列顺序可以由目标对话文本切分时的切分顺序获得,例如,在目标对话文本进行切分处理时,第一次切分获得文本片段1,第二次切分获得文本片段2……第n次切分获得文本片段n,则对应的切分顺序为“1-2-……-n”,即排列顺序为“文本片段1-文本片段2-……-文本片段n”,后续编码单元即可按照排列顺序依次对每个文本片段进行编码处理。
在本申请一具体实施例中,沿用上例,获取3个文本片段中每个文本片段之间的排列顺序,依次是“文本片段1-文本片段2-文本片段3”,通过编码单元按照排列顺序依次对3个文本片段进行编码处理,处理顺序为:文本片段1-文本片段2-文本片段3,获得每个文本片段对应的编码子向量之后,则可组成获得目标对话文本对应的编码向量。
通过确定每个文本片段之间的排列顺序,使得意图识别模型按照排列顺序依次对所有文本片段进行处理,使得每个文本片段的上下文信息保持正确,从而提高模型预测的正确率。具体地,通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,包括:
在所述至少两个文本片段中确定第i个文本片段,以及确定所述第i个文本片段对应的扩展信息,其中,第i个文本片段对应的扩展信息由第i-1个文本片段编码获得;
融合所述第i个文本片段和所述第i个文本片段对应的扩展信息,并通过编码单元对融合结果进行编码处理,获得所述第i个文本片段对应的编码子向量和第i+1个文本片段对应的扩展信息;
判断所述至少两个文本片段中是否存在未编码的文本片段;
若是,缓存所述第i+1个文本片段对应的扩展信息,i自增1,执行在所述至少两个文本片段中确定第i个文本片段,以及确定所述第i个文本片段对应的扩展信息的步骤;
若否,根据每个编码子向量组成获得编码向量。
在实际应用中,当在多个文本片段中确定出一个待编码的文本片段时,同时可以确定出该文本片段对应的扩展信息,即该文本片段的上一个文本片段的隐状态序列,将该文本片段和上一个文本片段的隐状态序列进行融合并进行编码处理,从而可以获得该文本片段对应的编码子向量和下一个文本片段待融合的扩展信息,此时判断所有的文本片段中是否还存在未编码的文本片段,若存在,则继续执行下一个文本片段的编码处理;若不存在,则说明所有的文本片段均完成编码处理,此时可以根据每个编码子向量组成获得编码向量。
在本申请一具体实施例中,沿用上例,在3个文本片段中确定第1个文本片段1为本次编码处理的文本片段,由于该文本片段是第1个,其对应的扩展信息为空,则直接对该文本片段进行编码处理,获得文本片段1对应的编码子向量和文本片段2对应的扩展信息,即文本片段1对应的隐状态序列;此时判断出还存在未编码的文本片段,则确定第2个文本片段2为本次编码处理的文本片段,并执行上述相同步骤,直至3个文本片段全部完成编码处理,此时可以根据每个文本片段对应的编码子向量组成获得编码向量。
具体实施时,由于意图识别模型的编码单元中包括多个隐藏层,因此每个文本片段也包括n个隐藏层序列,即每个文本片段会对应有n层扩展信息。
相应地,每个文本片段的任意一层扩展信息可通过以下方式获得,包括:
其中,表示第τ+1个片段的第n-1层扩展信息与第τ个片段的第n-1层扩展信息拼接获得;SG表示梯度不回传;表示查询向量,表示键向量,表示值向量;表示查询矩阵,表示键矩阵,表示值矩阵;表示第τ+1个片段的第n层的扩展信息。
记两个长为L的连续段分别为sτ=[xτ,1,…,xτ,L]和sτ+1=[xτ+1,1,…,xτ+1,L],令第τ个片段中第n层生成的隐状态序列为其中d表示隐层维度。则片段sτ+1中第n层的隐状态序列可按上述规则生成。
由此可知,通过上述方式可以计算出每个文本片段的每层的隐状态序列,从而获得最后一层输出的编码子向量,使得前一段文本片段的隐状态序列作为扩展上下文重用,避免上下文碎片化的问题出现。之后可以将每个文本片段的编码子向量进行组合获得编码向量,并输入至解码单元。
步骤208:通过所述解码单元对所述编码向量进行解码处理,获得所述目标对话文本对应的意图类别概率分布并输出所述意图识别模型。
其中,意图类别概率分布可以理解为每种意图类别出现的概率值,例如在家长对老师满意度预测的场景下,意图类别包括:高、中、低三种,则意图概率分布即为这三种意图类别的预测概率,后续可以根据意图类别概率分布确定出概率值最高的意图类别作为目标意图类别。
在实际应用中,意图识别模型输出意图类别概率分布之后,可以根据意图类别概率分布确定出概率最高的意图类别,并基于该意图类别为用户提供相应的服务。本申请一实施例中,在老师与家长沟通的场景下,预测出家长对于该老师的满意度为高,则后续可以继续为家长提供该老师的相关课程,提高家长对于服务的满意度。
在实际应用中,可以根据编码向量经过一次线性变化,得到每个意图类别的概率,具体地,通过所述解码单元对所述编码向量进行解码处理,获得所述目标对话文本对应的意图类别概率分布,包括:
通过所述解码单元对所述编码向量进行归一化处理,获得每种意图类别的概率值;
根据每种意图类别的概率值生成所述目标对话文本对应的意图类别概率分布。
其中,归一化处理可以理解为使用softmax函数进行计算处理,具体实施时,取编码向量中的隐藏层参数h,经过一次线性变换,得到每个意图类别c的概率,具体参见公式1:
p(c|h)=softmax(Wh) 公式1
其中,W是意图识别模型的待学习参数矩阵,即Wq,Wk,Wv为模型待学习的参数,h是编码向量中的隐藏层参数,c是意图类别。
由此可知,根据上述归一化处理可以获得每个意图类别c的概率,从而可以确定出意图类别概率分布,进一步的根据意图类别概率分布可以选择出概率最高的目标意图类别。具体地,所述方法还包括:
根据所述意图识别模型输出的意图类别概率分布确定目标意图类别;
根据所述目标意图类别选择对应的目标回应文本,其中,所述目标回应文本用于反馈所述目标对话文本。
其中,目标意图类别可以理解为预测出的用户意图,根据目标意图类别可以选择对于的目标回应文本,目标回应文本可以理解为相应的回复话术,例如,在老师询问家长对于辅导课程的续报意向时,预测出目标意图类别为高,则后续老师再与家长沟通时,可以向其推荐相关的辅导课程,进而提高老师的教学服务指令和家长的满意度;若检测出目标意图类别为低时,目标回应文本中可能就包括询问家长对于辅导课程的建议,或者是推荐其他辅导课程的话术。
在实际应用中,通过模型输出的意图类别概率分布确定出目标意图类别,为智能销售、数据挖掘、质检、培训和管理等场景提供数据支持,不再局限于由人工来判断客户的需求意向,从而能够更好的为客户提供相应服务,提高客户的满意度。
综上所述,通过本申请提供的意图识别模型,可以实现在长对话文本中获取用户的意图类别,便于后续为用户提供对应的服务,从而提高用户满意度。本申请的意图识别模型引入递归机制,利用其自回归的特点,能够较好的捕捉整段文本的语义信息,提高意向类别预测的准确率。
进一步的,本申请实施例中提供的意图识别模型可通过以下方式训练获得,包括:
获取样本对话文本和所述样本对话文本对应的样本意图类别概率分布,并将所述样本对话文本切分为至少两个样本文本片段;
将所述至少两个样本文本片段输入至初始意图识别模型,获得所述初始意图识别模型输出的预测意图类别概率分布;
根据所述样本意图类别概率分布和所述预测意图类别概率分布计算模型损失值;
基于所述模型损失值调整所述初始意图识别模型的模型参数,并继续训练所述初始意图识别模型,直至获得满足训练条件的意图识别模型。
其中,样本对话文本可以理解为用于训练初始意图识别模型的训练数据,样本意图类别概率分布可以理解为正确的预测结果,将样本对话文本输入至初始意图识别模型之后,初始意图识别模型可以输出预测结果,即预测意图类别概率分布,根据预测意图类别概率分布和样本意图类别概率分布即可计算出模型的损失值。
在实际应用中,模型的损失值可以通过交叉熵损失函数计算,具体地,根据所述样本意图类别概率分布和所述预测意图类别概率分布计算模型损失值,包括:根据所述样本意图类别概率分布和所述预测意图类别概率分布计算交叉熵损失函数;根据计算结果确定模型损失值。
基于此,计算出模型损失值之后则可根据模型损失值调整模型参数,并采用下一个训练数据继续训练初始意图识别模型,直至获得满足训练条件的意图识别模型。具体地,所述训练条件包括:所述模型损失值小于预设损失值阈值;和/或训练轮次达到预设训练轮次。
其中,预设损失值阈值可以理解为用户设定的期望的损失值。小于该预设损失值阈值时,表示当前模型已经训练完成,符合用户期望的标准。
训练轮次可以理解为模型使用样本数据进行训练的次数;预设训练轮次可以理解为用户设定的模型使用样本数据进行训练的次数,在模型使用样本数据达到预设训练轮次之后,模型即停止训练。
在本申请提供的一具体实施方式中,以通过损失值小于预设损失值阈值来停止训练意图识别模型为例,预设损失值阈值为0.5,则当计算得到的Loss值小于0.5时,则认定意图识别模型训练完成。
在本申请提供的另一具体实施方式中,以预设的训练轮次来停止训练意图识别模型为例,预设的训练轮次为20轮,当样本数据的训练轮次到达20轮后,则认定意图识别模型已经训练完成。
本申请提供的一种意图识别方法,包括:获取目标对话文本,并将所述目标对话文本切分为至少两个文本片段;将所述至少两个文本片段输入至意图识别模型,其中,所述意图识别模型包括编码单元、解码单元;通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,其中,所述编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成;通过所述解码单元对所述编码向量进行解码处理,获得所述目标对话文本对应的意图类别概率分布并输出所述意图识别模型。通过对目标对话文本进行切分,使得意图识别模型依次处理每个文本片段,实现对整段目标对话文本进行编码解码处理的效果,并且在编码过程中,使每个文本片段融合扩展信息之后再进行编码处理,实现上下文依赖并解决上下文碎片化的问题,提高模型预测正确率。
下述结合附图4,以本申请提供的意图识别方法在课程续报意图识别的应用为例,对所述意图识别方法进行进一步说明。其中,图4示出了本申请一实施例提供的一种应用于课程续报意图识别的意图识别方法的处理流程图,具体包括以下步骤:
步骤402:获取关联目标业务的对话信息集。
其中,目标业务为课程报名业务,关联目标业务的对话信息集为老师与家长关于是否继续报名课程的对话信息集。
步骤404:对所述对话信息集中包含的初始对话信息进行数据清洗,获得包含目标对话信息的目标对话信息集。
其中,数据清洗规则包括过滤对话信息集中的无效对话信息,如过滤未接通电话、内容较短对话等;删除无效字符,如语气词、噪音等;校正讲话者身份。
步骤406:确定所述目标对话信息集中目标对话信息对应的至少两个对话文本,通过对所述至少两个对话文本进行拼接,获得所述目标对话文本。
其中,至少两个对话文本包括老师与家长之间的对话文本,将老师与家长的多句对话进行拼接,获得一个长字符串即为目标对话文本。
步骤408:获取预设切分策略,并根据所述预设切分策略确定切分窗口,根据所述切分窗口对所述目标对话文本进行切分处理,获得至少两个文本片段。
其中,预设切分策略中包含切分窗口大小,根据切分窗口对目标对话文本进行切分,获得多个文本片段。
步骤410:将所述至少两个文本片段输入至意图识别模型,其中,所述意图识别模型包括编码单元、解码单元。
具体实施时,将多个文本片段输入至意图识别模型,由意图识别模型依次处理每个文本片段。
步骤412:获取所述至少两个文本片段中每个文本片段之间的排列顺序。
其中,排列顺序由文本片段的切分顺序得到,为“文本片段1-文本片段2-……文本片段n”。
步骤414:通过所述编码单元按照所述排列顺序依次对每个文本片段进行编码处理,获得每个文本片段对应的编码子向量。
具体实施时,步骤414可通过步骤S4140~S4146实现:
S4140:在所述至少两个文本片段中确定第i个文本片段,以及确定所述第i个文本片段对应的扩展信息,其中,第i个文本片段对应的扩展信息由第i-1个文本片段编码获得。
S4142:融合所述第i个文本片段和所述第i个文本片段对应的扩展信息,并通过编码单元对融合结果进行编码处理,获得所述第i个文本片段对应的编码子向量和第i+1个文本片段对应的扩展信息。
S4144:判断所述至少两个文本片段中是否存在未编码的文本片段。
S4146:若是,缓存所述第i+1个文本片段对应的扩展信息,i自增1,执行在所述至少两个文本片段中确定第i个文本片段,以及确定所述第i个文本片段对应的扩展信息的步骤;若否,根据每个编码子向量组成获得编码向量。
步骤416:通过所述解码单元对所述编码向量进行归一化处理,获得每种意图类别的概率值,根据每种意图类别的概率值生成所述目标对话文本对应的意图类别概率分布。
具体实施时,预设意图类别分为三种:高、中、低,代表家长对于课程报名的意向,其中,意图类别概率分布为“高:40,中:35,低:25”。
本申请提供的一种应用于课程续报意图识别的意图识别方法,通过对目标对话文本进行切分,使得意图识别模型依次处理每个文本片段,实现对整段目标对话文本进行编码解码处理的效果,并且在编码过程中,使每个文本片段融合扩展信息之后再进行编码处理,实现上下文依赖并解决上下文碎片化的问题,提高模型预测正确率。
与上述方法实施例相对应,本申请还提供了意图识别装置实施例,图5示出了本申请一实施例提供的一种意图识别装置的结构示意图。如图5所示,该装置包括:
切分模块502,被配置为获取目标对话文本,并将所述目标对话文本切分为至少两个文本片段;
输入模块504,被配置为将所述至少两个文本片段输入至意图识别模型,其中,所述意图识别模型包括编码单元、解码单元;
编码模块506,被配置为通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,其中,所述编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成;
解码模块508,被配置为通过所述解码单元对所述编码向量进行解码处理,获得所述目标对话文本对应的意图类别概率分布并输出所述意图识别模型。
可选的,所述切分模块502,进一步被配置为:
获取关联目标业务的对话信息集;
对所述对话信息集中包含的初始对话信息进行数据清洗,获得包含目标对话信息的目标对话信息集;
确定所述目标对话信息集中目标对话信息对应的至少两个对话文本,通过对所述至少两个对话文本进行拼接,获得所述目标对话文本,其中,至少两个对话文本中的每个对话文本均包含讲话者标识。
可选的,所述切分模块502,进一步被配置为:
确定包含多个数据清洗节点的数据清洗链路;
在所述数据清洗链路中选择第i数据清洗节点对应的数据清洗规则,对所述对话信息集中包含的初始对话信息进行数据清洗,获得初始对话信息集;
判断所述数据清洗链路中是否包含未执行的数据清洗节点;
若是,i自增1,将所述初始对话信息集作为对话信息集,并执行在所述数据清洗链路中选择第i数据清洗节点对应的数据清洗规则的步骤;
若否,将所述初始对话信息集作为包含目标对话信息的目标对话信息集。
可选的,所述切分模块502,进一步被配置为:
获取预设切分策略,并根据所述预设切分策略确定切分窗口;
根据所述切分窗口对所述目标对话文本进行切分处理,获得至少两个文本片段。
可选的,所述编码模块506,进一步被配置为:
获取所述至少两个文本片段中每个文本片段之间的排列顺序;
通过所述编码单元按照所述排列顺序依次对每个文本片段进行编码处理,获得每个文本片段对应的编码子向量;
根据每个文本片段对应的编码子向量组成获得编码向量。
可选的,所述编码模块506,进一步被配置为:
在所述至少两个文本片段中确定第i个文本片段,以及确定所述第i个文本片段对应的扩展信息,其中,第i个文本片段对应的扩展信息由第i-1个文本片段编码获得;
融合所述第i个文本片段和所述第i个文本片段对应的扩展信息,并通过编码单元对融合结果进行编码处理,获得所述第i个文本片段对应的编码子向量和第i+1个文本片段对应的扩展信息;
判断所述至少两个文本片段中是否存在未编码的文本片段;
若是,缓存所述第i+1个文本片段对应的扩展信息,i自增1,执行在所述至少两个文本片段中确定第i个文本片段,以及确定所述第i个文本片段对应的扩展信息的步骤;
若否,根据每个编码子向量组成获得编码向量。
可选的,所述解码模块508,进一步被配置为:
通过所述解码单元对所述编码向量进行归一化处理,获得每种意图类别的概率值;
根据每种意图类别的概率值生成所述目标对话文本对应的意图类别概率分布。
可选的,所述装置还包括确定模块,被配置为:
根据所述意图识别模型输出的意图类别概率分布确定目标意图类别;
根据所述目标意图类别选择对应的目标回应文本,其中,所述目标回应文本用于反馈所述目标对话文本。
可选的,所述装置还包括训练模块,被配置为:
获取样本对话文本和所述样本对话文本对应的样本意图类别概率分布,并将所述样本对话文本切分为至少两个样本文本片段;
将所述至少两个样本文本片段输入至初始意图识别模型,获得所述初始意图识别模型输出的预测意图类别概率分布;
根据所述样本意图类别概率分布和所述预测意图类别概率分布计算模型损失值;
基于所述模型损失值调整所述初始意图识别模型的模型参数,并继续训练所述初始意图识别模型,直至获得满足训练条件的意图识别模型。
可选的,所述装置还包括训练模块,被配置为:
根据所述样本意图类别概率分布和所述预测意图类别概率分布计算交叉熵损失函数;
根据计算结果确定模型损失值。
本申请提供的一种意图识别装置,包括切分模块,被配置为获取目标对话文本,并将所述目标对话文本切分为至少两个文本片段;输入模块,被配置为将所述至少两个文本片段输入至意图识别模型,其中,所述意图识别模型包括编码单元、解码单元;编码模块,被配置为通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,其中,所述编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成;解码模块,被配置为通过所述解码单元对所述编码向量进行解码处理,获得所述目标对话文本对应的意图类别概率分布并输出所述意图识别模型。通过对目标对话文本进行切分,使得意图识别模型依次处理每个文本片段,实现对整段目标对话文本进行编码解码处理的效果,并且在编码过程中,使每个文本片段融合扩展信息之后再进行编码处理,实现上下文依赖并解决上下文碎片化的问题,提高模型预测正确率。
上述为本实施例的一种意图识别装置的示意性方案。需要说明的是,该意图识别装置的技术方案与上述的意图识别方法的技术方案属于同一构思,意图识别装置的技术方案未详细描述的细节内容,均可以参见上述意图识别方法的技术方案的描述。
图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620执行所述计算机指令时实现所述的意图识别方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的意图识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述意图识别方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述意图识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的意图识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述意图识别方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (13)
1.一种意图识别方法,其特征在于,包括:
获取目标对话文本,并将所述目标对话文本切分为至少两个文本片段;
将所述至少两个文本片段输入至意图识别模型,其中,所述意图识别模型包括编码单元、解码单元;
通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,其中,所述编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成;
通过所述解码单元对所述编码向量进行解码处理,获得所述目标对话文本对应的意图类别概率分布并输出所述意图识别模型。
2.如权利要求1所述的方法,其特征在于,获取目标对话文本,包括:
获取关联目标业务的对话信息集;
对所述对话信息集中包含的初始对话信息进行数据清洗,获得包含目标对话信息的目标对话信息集;
确定所述目标对话信息集中目标对话信息对应的至少两个对话文本,通过对所述至少两个对话文本进行拼接,获得所述目标对话文本,其中,至少两个对话文本中的每个对话文本均包含讲话者标识。
3.如权利要求2所述的方法,其特征在于,对所述对话信息集中包含的初始对话信息进行数据清洗,获得包含目标对话信息的目标对话信息集,包括:
确定包含多个数据清洗节点的数据清洗链路;
在所述数据清洗链路中选择第i数据清洗节点对应的数据清洗规则,对所述对话信息集中包含的初始对话信息进行数据清洗,获得初始对话信息集;
判断所述数据清洗链路中是否包含未执行的数据清洗节点;
若是,i自增1,将所述初始对话信息集作为对话信息集,并执行在所述数据清洗链路中选择第i数据清洗节点对应的数据清洗规则的步骤;
若否,将所述初始对话信息集作为包含目标对话信息的目标对话信息集。
4.如权利要求1所述的方法,其特征在于,将所述目标对话文本切分为至少两个文本片段,包括:
获取预设切分策略,并根据所述预设切分策略确定切分窗口;
根据所述切分窗口对所述目标对话文本进行切分处理,获得至少两个文本片段。
5.如权利要求1所述的方法,其特征在于,通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,包括:
获取所述至少两个文本片段中每个文本片段之间的排列顺序;
通过所述编码单元按照所述排列顺序依次对每个文本片段进行编码处理,获得每个文本片段对应的编码子向量;
根据每个文本片段对应的编码子向量组成获得编码向量。
6.如权利要求5所述的方法,其特征在于,所述通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,包括:
在所述至少两个文本片段中确定第i个文本片段,以及确定所述第i个文本片段对应的扩展信息,其中,第i个文本片段对应的扩展信息由第i-1个文本片段编码获得;
融合所述第i个文本片段和所述第i个文本片段对应的扩展信息,并通过编码单元对融合结果进行编码处理,获得所述第i个文本片段对应的编码子向量和第i+1个文本片段对应的扩展信息;
判断所述至少两个文本片段中是否存在未编码的文本片段;
若是,缓存所述第i+1个文本片段对应的扩展信息,i自增1,执行在所述至少两个文本片段中确定第i个文本片段,以及确定所述第i个文本片段对应的扩展信息的步骤;
若否,根据每个编码子向量组成获得编码向量。
7.如权利要求1所述的方法,其特征在于,通过所述解码单元对所述编码向量进行解码处理,获得所述目标对话文本对应的意图类别概率分布,包括:
通过所述解码单元对所述编码向量进行归一化处理,获得每种意图类别的概率值;
根据每种意图类别的概率值生成所述目标对话文本对应的意图类别概率分布。
8.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述意图识别模型输出的意图类别概率分布确定目标意图类别;
根据所述目标意图类别选择对应的目标回应文本,其中,所述目标回应文本用于反馈所述目标对话文本。
9.如权利要求1-8任意一项所述的方法,其特征在于,所述意图识别模型可通过以下方式训练获得,包括:
获取样本对话文本和所述样本对话文本对应的样本意图类别概率分布,并将所述样本对话文本切分为至少两个样本文本片段;
将所述至少两个样本文本片段输入至初始意图识别模型,获得所述初始意图识别模型输出的预测意图类别概率分布;
根据所述样本意图类别概率分布和所述预测意图类别概率分布计算模型损失值;
基于所述模型损失值调整所述初始意图识别模型的模型参数,并继续训练所述初始意图识别模型,直至获得满足训练条件的意图识别模型。
10.如权利要求9所述的方法,其特征在于,根据所述样本意图类别概率分布和所述预测意图类别概率分布计算模型损失值,包括:
根据所述样本意图类别概率分布和所述预测意图类别概率分布计算交叉熵损失函数;
根据计算结果确定模型损失值。
11.一种意图识别装置,其特征在于,包括:
切分模块,被配置为获取目标对话文本,并将所述目标对话文本切分为至少两个文本片段;
输入模块,被配置为将所述至少两个文本片段输入至意图识别模型,其中,所述意图识别模型包括编码单元、解码单元;
编码模块,被配置为通过所述编码单元对所述至少两个文本片段依次进行编码处理,获得编码向量,其中,所述编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成;
解码模块,被配置为通过所述解码单元对所述编码向量进行解码处理,获得所述目标对话文本对应的意图类别概率分布并输出所述意图识别模型。
12.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-10任意一项所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-10任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210843393.7A CN115269836A (zh) | 2022-07-18 | 2022-07-18 | 意图识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210843393.7A CN115269836A (zh) | 2022-07-18 | 2022-07-18 | 意图识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115269836A true CN115269836A (zh) | 2022-11-01 |
Family
ID=83767577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210843393.7A Pending CN115269836A (zh) | 2022-07-18 | 2022-07-18 | 意图识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115269836A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116483960A (zh) * | 2023-03-30 | 2023-07-25 | 阿波罗智联(北京)科技有限公司 | 对话识别方法、装置、设备以及存储介质 |
CN116796290A (zh) * | 2023-08-23 | 2023-09-22 | 江西尚通科技发展有限公司 | 一种对话意图识别方法、系统、计算机及存储介质 |
-
2022
- 2022-07-18 CN CN202210843393.7A patent/CN115269836A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116483960A (zh) * | 2023-03-30 | 2023-07-25 | 阿波罗智联(北京)科技有限公司 | 对话识别方法、装置、设备以及存储介质 |
CN116483960B (zh) * | 2023-03-30 | 2024-01-02 | 阿波罗智联(北京)科技有限公司 | 对话识别方法、装置、设备以及存储介质 |
CN116796290A (zh) * | 2023-08-23 | 2023-09-22 | 江西尚通科技发展有限公司 | 一种对话意图识别方法、系统、计算机及存储介质 |
CN116796290B (zh) * | 2023-08-23 | 2024-03-29 | 江西尚通科技发展有限公司 | 一种对话意图识别方法、系统、计算机及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109785824B (zh) | 一种语音翻译模型的训练方法及装置 | |
CN110032630B (zh) | 话术推荐设备、方法及模型训练设备 | |
CN111930914B (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN113672708B (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN111339278B (zh) | 训练话术生成模型、生成应答话术的方法和装置 | |
CN113239147B (zh) | 基于图神经网络的智能会话方法、系统及介质 | |
CN111159368A (zh) | 一种个性化对话的回复生成方法 | |
CN115269836A (zh) | 意图识别方法及装置 | |
CN106682387A (zh) | 用于输出信息的方法和装置 | |
CN114218488A (zh) | 基于多模态特征融合的信息推荐方法、装置及处理器 | |
CN113468891A (zh) | 文本处理方法以及装置 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN114999530A (zh) | 音视频剪辑方法及装置 | |
CN114386426B (zh) | 一种基于多元语义融合的金牌话术推荐方法及装置 | |
CN110059174B (zh) | 问询指引方法及装置 | |
CN117592564A (zh) | 问答交互方法、装置、设备及介质 | |
CN115827831A (zh) | 意图识别模型训练方法及装置 | |
CN115730607A (zh) | 对话检测模型训练方法及装置 | |
CN115858783A (zh) | 主题识别模型的训练方法及装置 | |
CN110110048B (zh) | 问询指引方法及装置 | |
CN113886560A (zh) | 庭审问题的推荐方法以及装置 | |
CN112287673B (zh) | 一种基于深度学习来实现语音导航机器人的方法 | |
CN118377909B (zh) | 基于通话内容的客户标签确定方法、装置及存储介质 | |
CN113918690B (zh) | 对话方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |