CN113836285A - 意图信息预测方法、装置、设备及介质 - Google Patents
意图信息预测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113836285A CN113836285A CN202111128394.5A CN202111128394A CN113836285A CN 113836285 A CN113836285 A CN 113836285A CN 202111128394 A CN202111128394 A CN 202111128394A CN 113836285 A CN113836285 A CN 113836285A
- Authority
- CN
- China
- Prior art keywords
- intention
- intention information
- sequence
- model
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013145 classification model Methods 0.000 claims abstract description 17
- 230000007787 long-term memory Effects 0.000 claims abstract description 7
- 230000006403 short-term memory Effects 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 239000003795 chemical substances by application Substances 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 210000004027 cell Anatomy 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种意图信息预测方法、装置、设备及介质。其中,一种意图信息预测方法包括以下步骤:利用预先训练的分类模型,对已有的对话样本进行分类,得到意图序列;对意图序列中的每个意图进行预测,得到意图向量;利用意图向量训练基于长短期记忆网络的意图信息预测模型,得到训练后的意图信息预测模型;将待预测的意图信息序列输入所述训练后的意图信息预测模型,通过训练后的意图信息预测模型输出目标意图信息。应用本申请实施例所提供的技术方案,将目标意图信息推送给在线坐席,坐席预测到了用户的意图,并基于用户的意图对用户进行目标意图信息对应话术的推销或咨询,提高了坐席的工作效率和客户的满意度。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种意图信息预测方法、装置、设备及介质。
背景技术
传统的电话销售模式是通过坐席按照优秀坐席的对话范本进行推销实现的,但是这种电话销售模式无法应对对话过程中复杂多样的情形。基于优秀坐席的对话范本的方法覆盖率和可行性不高,效果不理想。现有的模型通过构建特征的方式不能很好地学习到对话文本中的深层语义信息,存在坐席不能准确地理解用户的意图,并根据用户的意图对用户进行继续推销或者提供咨询。造成坐席工作效率不高和客户满意度较差的问题。
发明内容
本申请的目的在于提供一种意图信息预测方法、装置、设备及介质,以解决现有技术中存在的现有模型通过构建特征的方式不能很好地学习到对话文本中的深层语义信息,不能准确地理解用户的意图,并根据用户的意图对用户进行继续推销或者提供咨询,坐席工作效率不高和客户满意度较差的技术问题。
本申请实施例的第一方面提供了一种意图信息预测方法,包括:
利用预先训练的分类模型,对已有的对话样本进行分类,得到意图序列;其中,所述已有的对话样本中存在至少一个意图;
对所述意图序列中的每个意图进行预测,得到意图向量;
利用所述意图向量训练基于长短期记忆网络的意图信息预测模型,得到训练后的意图信息预测模型;
将待预测的意图信息序列输入所述训练后的意图信息预测模型,通过所述训练后的意图信息预测模型输出到目标意图信息;其中,所述目标意图信息为根据所述意图信息序列预测得到的一个意图信息。
本申请实施例的第二方面提供了一种意图信息预测装置,包括:
分类模块,用于利用预先训练的分类模型,对已有的对话样本进行分类,得到意图序列;其中,所述已有的对话样本中存在至少一个意图;
关联模块,用于对所述意图序列中的每个意图进行预测,得到意图向量;
预测模块,用于利用所述意图向量训练基于长短期记忆网络的意图信息预测模型,得到训练后的意图信息预测模型;
目标模块,用于将待预测的意图信息序列输入所述训练后的意图信息预测模型,通过所述训练后的意图信息预测模型输出到目标意图信息;其中,所述目标意图信息为根据所述意图信息序列预测得到的一个意图信息。
本申请实施例的第三方面提供了一种设备,包括存储器、处理器以及存储在所述存储器中并可在设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的意图信息预测方法的各步骤。
本申请实施例的第四方面提供了一种介质,所述介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的意图信息预测方法的各步骤。
实施本申请实施例提供的一种意图信息预测方法、装置、设备及介质具有以下有益效果:
本申请实施例提供一种意图信息预测方法、装置、设备及介质,通过利用预先训练的分类模型,对已有的对话样本进行分类,得到意图序列。意图序列是从已有的对话样本中分类提取到的。对意图序列中的每个意图进行预测,得到意图向量。因为利用意图向量训练基于长短期记忆网络的意图信息预测模型,得到训练后的意图信息预测模型能预测到基于意图信息序列的目标意图信息。将得到的目标意图信息推荐给在线坐席,坐席预测到了用户的意图,并基于用户的意图对用户进行目标意图信息对应话术的推销或咨询,提高了坐席的工作效率和客户的满意度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种意图信息预测方法的实现流程图;
图2为本发明实施例提供的细胞状态示意图;
图3为本发明实施例提供的一种意图信息预测装置的结构框图;
图4是本申请实施例提供的一种设备的结构框图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例所提供一种意图信息预测方法,应用于计算机设备上。在实现时,意图信息预测方法以目标脚本的形式被配置于计算机设备上,该计算机设备通过执行该目标脚本,进而执行本实施例提供的意图信息预测方法的各个步骤。
参照图1所示,图1示出了本申请实施例提供的一种意图信息预测方法,包括:
S11:利用预先训练的分类模型,对已有的对话样本进行分类,得到意图序列;其中,所述已有的对话样本中存在至少一个意图。
在步骤S11中,预先训练的分类模型可以采用bert模型。bert模型是基于自然语言处理,利用大规模无标注语料训练,获得文本的包含丰富语义信息的文本的语义表示的自编码语言模型。bert模型能够提取词语在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。在深度神经网络,文本中的字/词通常都用一维向量来表示(一般称之为“词向量”)。在此基础上,神经网络会将文本中各个字或词的一维词向量作为输入,经过一系列复杂的转换后,输出一个一维词向量作为文本的语义表示。特别地,我们通常希望语义相近的字/词在特征向量空间上的距离也比较接近,如此一来,由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此,bert模型的主要输入是文本中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值。
具体地,已有的对话样本是根据历史的坐席和客户成功的销售或咨询的对话内容作为训练样本,已有的对话样本中有多个对话内容,每个对话内容包含至少一个意图,因此已有的对话样本中存在至少一个意图。利用预先训练的分类模型,对已有的对话样本进行分类,得到意图序列具体是利用分类模型提取到已有的对话样本中的多个意图,并将提取到的意图按照已有的对话样本中的对话时间顺序对意图进行排序得到意图序列。
作为本申请一实施例的实现方式,步骤S11可以包括:
利用预先训练的分类模型中的分类器对所述对话样本中的意图进行提取,得到意图;
按照所述对话样本中各对话内容的时间顺序,将所述意图进行分类排序,得到所述意图序列。
在上述步骤中,向分类模型输入已有的对话样本,由分类模型中的分类器对对话样本中的内容提取关键信息,即通过对话样本词语间上下文的信息对对话样本的内容进行意图识别。分类器可以采用基于概率密度的分类算法,包括贝叶斯估计法和最大似然估计,从训练样本中直接估计出概率密度。或者采用判别函数的分类方法使用训练数据估计分类边界完成分类,训练样本表示计算函数中的参数,并利用判别函数直接对训练样本进行分类。判别函数的分类方法包括感知器方法、最小平方误差法、SVM法、神经网络方法以及径向基方法等。在本实施例中不限制分类器的具体方法。
对话样本中存在至少一个意图即对话样本内容为包含多个意图,每个意图分别对应对话样本的不同对话内容。可选地,当对话样本包含一个意图时,得到的意图序列则为仅包含一个意图的序列,不存在顺序排列的情况。意图序列为对话样本对应的多个意图按时间顺序排列所组成的序列。例如,已有的对话样本为“您好,我是某某公司的业务员,请问您需要办理保险业务吗?”,“你们有什么业务?”,“我们的业务有套餐A,套餐B等。”,“不好意思暂时不需要”,“等等,我们还有很多优惠套餐可以办理”......对话样本中的对应意图就为“询问意向”,“业务询问”,“业务介绍”,“不需要”,“优惠套餐介绍”。然后利用预先训练的分类模型将对话样本中的对应意图按对话样本的时间的先后顺序对意图进行排序得到意图序列。从对话样本中提取到意图不限于句子级别,并且得到的意图序列中的意图具有先后顺序,可以基于一个意图,得到意图对应的下一个意图。
S12:对所述意图序列中的每个意图进行预测,得到意图向量。
在步骤S12中,意图向量是利用意图模型得到。首先,将意图序列输入意图模型进行训练,意图模型用来预测意图序列中每个意图的上下文意图。训练后的意图模型能基于意图得到意图向量。这里,意图模型可以采用skipgram模型。skipgram模型是word2vec模型中的一种,也是自然语言处理常用的一种模型。Word2Vec模型是从大量文本语料中以无监督的方式学习语义知识的一种模型,被大量地用在自然语言处理中。Word2Vec模型是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。而skipgram模型的模型结构包括输入层、隐藏层和输出层。skipgram模型的作用是基于训练数据计算隐藏层的权重,具体来说就是对输入的数据预测其上下文。我们都知道模型不能对文字直接进行处理,要将文字转换为二进制的编码形式,但是经过编码之后得到向量形成的矩阵比较稀疏,所以用skipgram模型来用稠密向量表示,对输入的数据建立关联关系。
具体地,意图模型对意图进行预处理,得到意图向量,并将意图向量输入到长短期记忆网络的意图信息预测模型进行训练。意图向量是通过意图模型学习每个意图的稠密向量表示来预测每个意图的上下文意图的向量表示。意图模型是对当前的一个意图序列中的一个意图预测多个上下文意图。利用意图模型能得到具有相同上下文的词语包含相似的语义。在本实施例中,因为两个意图具有相同的输出,可反推出作为输入的两个意图之间具有较高相似性,所以利用意图模型可以得到相似意图的输出。
作为本申请一实施例的实现方式,步骤S12包括:
将所述意图序列作为训练样本输入意图模型,得到训练后的意图模型;
将所述意图序列中的意图输入到所述训练后的意图模型中,得到意图向量。
在上述步骤中,将意图序列作为意图模型的训练样本,是以意图序列中的每个意图为中心词,得到中心词相邻的上下文意图。例如意图序列为“身份介绍”,“业务介绍”,“不需要”,“利益说明”。那么当将“不需要”输入到意图模型中,用意图模型会输出“身份介绍”,“业务介绍”和“利益说明”。“身份介绍”,“业务介绍”和“利益说明”即为“不需要”这个意图的上下文意图。而当意图“身份介绍”输入到意图模型中,意图模型会输出上下文意图“业务介绍”和“不需要”。那么,当对训练后的意图模型输入“不需要”相似的意图如“不用”时,训练后的意图模型会输出相同的上下文意图“身份介绍”,“业务介绍”和“利益说明”。经过对意图序列中的每个意图进行预测,可以得到相似意图的相同上下文意图。
作为本申请的一实施例中的实现方式,上述步骤将所述意图序列作为训练样本输入意图模型,得到训练后的意图模型,包括:
基于意图序列中意图的上下文关系训练意图模型,得到训练后的意图模型。
具体地,意图的上下文关系是意图序列中的每个意图和相邻意图之间的关系。训练意图模型是为了获取意图模型中隐藏层的意图向量。在整个意图模型的训练过程中,选取意图序列的一个意图作为意图模型的输入,输出意图序列中意图的上下文意图,经过这样不断的训练,计算意图模型隐藏层的权重。
作为本申请的一实施例中的实现方式,上述步骤将所述意图序列中的意图输入到所述训练后的意图模型中,得到意图向量,包括:
基于意图序列中每个意图的上下文意图得到意图向量。
具体地,训练后的意图模型能够基于输入的意图得到意图向量。这里的意图向量是每个意图的稠密向量表示。在之前意图模型的训练过程,对意图模型输入意图,得到输出为意图的上下文意图,但我们需要的不是上下文意图,而是意图模型隐藏层意图向量和上下文意图向量。
S13:利用所述意图向量训练基于长短期记忆网络的意图信息预测模型,得到训练后的意图信息预测模型。
在步骤S13中,长短期记忆网络是一种时间循环神经网络,用来记住较长的历史信息,预测距离相距较大的信息。长短期记忆网络的结构包括遗忘门,输入门和输出门,遗忘门,输入门和输出门用来保护和控制细胞状态。作为一个实例,图2为本发明实施例提供的细胞状态示意图。如图2所示,细胞状态1,细胞状态2,细胞状态3和细胞状态4为保存长期状态的单元状态。长短期记忆网络通过控制开关来控制细胞状态1,细胞状态2,细胞状态3和细胞状态4,而开关由遗忘门,输入门和输出门控制。遗忘门控制开关a,输入门控制开关c,输出门控制开关b。此外,遗忘门,输入门和输出门都由一个神经网络层和一个点乘法运算组成。神经网络层输出0和1之间的数字,这个数字描述每个组件有多少信息可以通过,0表示不通过任何信息,1表示全部通过。遗忘门用来遗忘不重要的信息,输入门决定当前输入的数据中的哪些信息被保留下来,而输出门通过激活函数输出0到1的数值得到输出。激活函数是在神经网络的神经元运行的函数,将神经元的输入映射到输出端,增加了神经网络模型的非线性。激活函数包括tanh函数、sigmoid函数和ReLU函数。一般输出门使用tanh函数。
在本实施例中,意图模型已经学习到意图序列中每个意图的稠密向量表示,得到意图向量。利用得到的意图向量,选择优化器和损失函数来训练基于长短期记忆网络的意图信息预测模型。意图信息预测模型是利用skipgram模型学习到的意图向量进行对意图向量进一步预测训练得到的。例如,skipgram模型学习到“不需要”意图相近的意图为“业务介绍”和“利益说明”,而意图信息预测模型会对“不需要”意图相距较远的意图,如“身份介绍”进行学习。
作为本申请的一实施例的实现方式,步骤S13包括:
将所述意图向量转换为矩阵输入到意图信息预测模型;
利用softmax函数计算得到概率分布向量;
利用所述概率分布向量对所述意图信息预测模型进行训练,令所述意图信息预测模型能够基于意图向量得到所述概率分布向量,得到训练后的意图信息预测模型。
在上述步骤中,将意图向量输入意图信息预测模型中,经过意图信息预测模型的遗忘门对意图向量进行遗忘,接着输入门对经过遗忘门处理后的意图向量再进行更新处理,最后由输出门对遗忘门和输入门的处理的结果进行处理,得到概率分布向量。可选地,选用adam优化算法和categorical_crossentropy损失函数对意图信息预测模型进行训练。采用adam优化算法可以有效地更新网络权重,加快意图信息预测模型收敛速度。最后利用softmax函数对经过处理的意图向量归一化处理。得到的概率分布向量为[0,1]之间的值。概率分布向量预测意图的下一个意图的各个概率。
S14:将待预测的意图信息序列输入所述训练后的意图信息预测模型,通过所述训练后的意图信息预测模型输出到目标意图信息;其中,所述目标意图信息为根据所述意图信息序列预测得到的一个意图信息。
在步骤S14中,意图信息序列是根据坐席与客户当前的对话内容得到的多个意图信息形成的序列。意图信息预测模型是根据分类模型对对话样本中的意图进行提取分类得到的意图序列和根据意图模型对意图序列中的意图进行学习,得到意图的意图向量训练得到的。对于训练后的意图信息预测模型是可以根据已经出现的对话内容中的意图信息序列来预测出下一个意图信息。由训练后的意图信息识别模型输出概率高的一个意图信息而不是多个意图信息供选择,提高预测意图的效率。
通过训练后的意图信息预测模型输出到目标意图信息,目标意图信息为训练后的意图信息预测模型预测待预测的意图信息序列,输出的概率最高的意图信息。例如,输入的待预测的意图信息序列为“身份介绍”,“业务介绍”,“不需要”。将意图信息序列输入到训练后的意图信息预测模型中,训练后的意图信息预测模型会输出意图信息序列概率最高的目标意图信息“利益介绍”。坐席会根据意图信息预测模型输出的目标意图信息作为推销或者咨询的话术参考,为客户提供更好地服务。
作为本实施例一种实现的方式,在步骤S14之后,包括:
将目标意图信息推送给坐席。
在上述步骤中,坐席在实际对话过程中,应用本实施例中的方法得到对话中的意图,将意图形成意图序列,并预测到意图序列的目标意图信息,将目标意图信息推送给坐席,坐席根据目标意图信息作为参考内容,继续和客户进行对话,促进客户下单或者为客户的咨询提供准确的服务,提高客户的满意度。
相应于上面的方法实施例,本发明实施例还提供了一种意图信息预测装置,如图3所示,该装置30可以包括以下模块:
分类模块31,用于利用预先训练的分类模型,对已有的对话样本进行分类,得到意图序列;其中,所述已有的对话样本中存在至少一个意图;
关联模块32,用于对所述意图序列中的每个意图进行预测,得到意图向量;
预测模块33,用于利用所述意图向量训练基于长短期记忆网络的意图信息预测模型,得到训练后的意图信息预测模型;
目标模块34,用于将待预测的意图信息序列输入所述训练后的意图信息预测模型,通过所述训练后的意图信息预测模型输出到目标意图信息;其中,所述目标意图信息为根据所述意图信息序列预测得到的一个意图信息。
应当理解的是,图3示出的意图信息预测装置的结构框图中,各模块用于执行图1对应的实施例中的各步骤,而对于图1对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1以及图1所对应的实施例中的相关描述,此处不再赘述。
图4是本申请一实施例提供的一种设备的结构框图。如图4所示,该实施例的设备40包括:处理器41、存储器42以及存储在所述存储器42中并可在所述处理器41上运行的计算机程序43,例如意图信息预测方法的程序。处理器41执行所述计算机程序43时实现上述各个意图信息预测方法各实施例中的步骤,例如图1所示的S11至S14。或者,所述处理器41执行所述计算机程序43时实现上述图3对应的实施例中各模块的功能,例如,图3所示的模块31至34的功能,具体请参阅图3对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序43可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器42中,并由所述处理器41执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序43在所述设备40中的执行过程。例如,所述计算机程序43可以被分割成分类模块、关联模块、预测模块和目标模块,各模块具体功能如上所述。
所述转台设备可包括,但不仅限于,处理器41、存储器42。本领域技术人员可以理解,图4仅仅是设备40的示例,并不构成对设备40的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器41可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-12Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器42可以是所述设备40的内部存储单元,例如设备40的硬盘或内存。所述存储器42也可以是所述设备40的外部存储设备,例如所述设备40上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。进一步地,所述存储器42还可以既包括所述设备40的内部存储单元也包括外部存储设备。所述存储器42用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器42还可以用于暂时地存储已经输出或者将要输出的数据。
在一个实施例中,提供了一种介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中意图信息预测方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种意图信息预测的方法,其特征在于,包括:
利用预先训练的分类模型,对已有的对话样本进行分类,得到意图序列;其中,所述已有的对话样本中存在至少一个意图;
对所述意图序列中的每个意图进行预测,得到意图向量;
利用所述意图向量训练基于长短期记忆网络的意图信息预测模型,得到训练后的意图信息预测模型;
将待预测的意图信息序列输入所述训练后的意图信息预测模型,通过所述训练后的意图信息预测模型输出目标意图信息;其中,所述目标意图信息为根据所述意图信息序列预测得到的一个意图信息。
2.根据权利要求1所述的方法,其特征在于,所述利用预先训练的分类模型,对已有的对话样本进行分类,得到意图序列;其中,所述对话样本中存在至少一个意图,包括:
利用预先训练的分类模型中的分类器对所述对话样本中的意图进行提取,得到至少一个意图;
按照所述对话样本中各对话内容的时间顺序,将所述意图进行分类排序,得到所述意图序列。
3.根据权利要求1所述的方法,其特征在于,所述对所述意图序列中的每个意图进行预测,得到意图向量,包括:
将所述意图序列作为训练样本输入意图模型,得到训练后的意图模型;
将所述意图序列中的意图输入到所述训练后的意图模型中,得到意图向量。
4.根据权利要求3所述的方法,其特征在于,所述将所述意图序列作为训练样本输入到意图模型中,得到训练后的意图模型,包括:
基于意图序列中意图的上下文关系训练意图模型,得到训练后的意图模型。
5.根据权利要求3所述的方法,其特征在于,所述将所述意图序列中的意图输入到所述训练后的意图模型中,得到意图向量,包括:
基于意图序列中每个意图的上下文意图得到意图向量。
6.根据权利要求1所述的方法,其特征在于,所述利用所述意图向量训练基于长短期记忆网络的意图信息预测模型,得到训练后的意图信息预测模型,包括:
将所述意图向量转换为矩阵输入到意图信息预测模型;
利用softmax函数计算得到概率分布向量;
利用所述概率分布向量对所述意图信息预测模型进行训练,令所述意图信息预测模型能够基于意图向量得到所述概率分布向量,得到训练后的意图信息预测模型。
7.根据权利要求1所述的方法,其特征在于,所述将待预测的意图信息序列输入训练后的意图信息预测模型中,得到目标意图信息;其中,所述目标意图信息为根据所述意图信息序列预测得到的一个意图信息的步骤之后,包括:
将目标意图信息推送给坐席。
8.一种意图信息预测装置,其特征在于,包括:
分类模块,用于利用预先训练的分类模型,对已有的对话样本进行分类,得到意图序列;其中,所述已有的对话样本中存在至少一个意图;
关联模块,用于对所述意图序列中的每个意图进行预测,得到意图向量;
预测模块,用于利用所述意图向量训练基于长短期记忆网络的意图信息预测模型,得到训练后的意图信息预测模型;
目标模块,用于将待预测的意图信息序列输入所述训练后的意图信息预测模型,通过所述训练后的意图信息预测模型输出到目标意图信息;其中,所述目标意图信息为根据所述意图信息序列预测得到的一个意图信息。
9.一种设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种介质,所述介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111128394.5A CN113836285A (zh) | 2021-09-26 | 2021-09-26 | 意图信息预测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111128394.5A CN113836285A (zh) | 2021-09-26 | 2021-09-26 | 意图信息预测方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113836285A true CN113836285A (zh) | 2021-12-24 |
Family
ID=78970372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111128394.5A Pending CN113836285A (zh) | 2021-09-26 | 2021-09-26 | 意图信息预测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836285A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363690A (zh) * | 2018-02-08 | 2018-08-03 | 北京十三科技有限公司 | 基于神经网络的对话语义意图预测方法及学习训练方法 |
CN109388698A (zh) * | 2018-10-22 | 2019-02-26 | 北京工业大学 | 一种基于深度强化学习的指导性自动聊天方法 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110704641A (zh) * | 2019-10-11 | 2020-01-17 | 零犀(北京)科技有限公司 | 一种万级意图分类方法、装置、存储介质及电子设备 |
CN112989800A (zh) * | 2021-04-30 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于Bert的篇章的多意图识别方法、设备及可读存储介质 |
-
2021
- 2021-09-26 CN CN202111128394.5A patent/CN113836285A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363690A (zh) * | 2018-02-08 | 2018-08-03 | 北京十三科技有限公司 | 基于神经网络的对话语义意图预测方法及学习训练方法 |
CN109388698A (zh) * | 2018-10-22 | 2019-02-26 | 北京工业大学 | 一种基于深度强化学习的指导性自动聊天方法 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110704641A (zh) * | 2019-10-11 | 2020-01-17 | 零犀(北京)科技有限公司 | 一种万级意图分类方法、装置、存储介质及电子设备 |
CN112989800A (zh) * | 2021-04-30 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于Bert的篇章的多意图识别方法、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10534863B2 (en) | Systems and methods for automatic semantic token tagging | |
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
Minaee et al. | Automatic question-answering using a deep similarity neural network | |
US20220075958A1 (en) | Missing semantics complementing method and apparatus | |
US20160358094A1 (en) | Utilizing Word Embeddings for Term Matching in Question Answering Systems | |
US11010664B2 (en) | Augmenting neural networks with hierarchical external memory | |
CN113688244A (zh) | 基于神经网络的文本分类方法、系统、设备及存储介质 | |
CN111783993A (zh) | 智能标注方法、装置、智能平台及存储介质 | |
US11636272B2 (en) | Hybrid natural language understanding | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN111160000B (zh) | 作文自动评分方法、装置终端设备及存储介质 | |
CN111897935B (zh) | 基于知识图谱的话术路径选择方法、装置和计算机设备 | |
CN111027292B (zh) | 一种限定采样文本序列生成方法及其系统 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
US20220335303A1 (en) | Methods, devices and media for improving knowledge distillation using intermediate representations | |
Glauner | Comparison of training methods for deep neural networks | |
CN115687610A (zh) | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 | |
CN112084769A (zh) | 依存句法模型优化方法、装置、设备及可读存储介质 | |
CN110955765A (zh) | 智能助理的语料构建方法、装置、计算机设备和存储介质 | |
US11941360B2 (en) | Acronym definition network | |
US20240005131A1 (en) | Attention neural networks with tree attention mechanisms | |
CN117093682A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
US20220180057A1 (en) | Method and apparatus for decentralized supervised learning in nlp applications | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN113836285A (zh) | 意图信息预测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |