CN111368085A - 一种对话意图的识别方法、装置、电子设备及存储介质 - Google Patents
一种对话意图的识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111368085A CN111368085A CN202010148336.8A CN202010148336A CN111368085A CN 111368085 A CN111368085 A CN 111368085A CN 202010148336 A CN202010148336 A CN 202010148336A CN 111368085 A CN111368085 A CN 111368085A
- Authority
- CN
- China
- Prior art keywords
- intention
- text
- sample
- sentence
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及数据处理技术领域,尤其涉及一种对话意图的识别方法、装置、电子设备及存储介质。本申请通过获取销售员与客户之间的对话录音数据,进而,将通过对话录音数据转换的对话文本数据拆分为多个对话文本语句,并基于每个对话文本语句和训练好的意图识别模型,可以确定每个对话文本语句的对话意图。基于上述方式,通过意图识别模型,可以实现从对话录音数据中自动识别出对话文本语句的对话意图,不但可以减少人力成本,还可以实现复用,而且,通过识别出的对话意图,可以供销售员学习,以提升销售人员的业务水平。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种对话意图的识别方法、装置、电子设备及存储介质。
背景技术
随着经济的高速发展,人们对于消费的诉求逐渐增强,零售行业也随之蓬勃发展,目前,零售行业面临的一个共同的难题就是销售。销售影响产品的销量,零售行业的实体店铺在销售方面面临着一些困难,主要表现为新的销售人员缺乏对应的销售技巧、销售人员流动大。因而,如何高效的提升销售人员的业务水平,就显得尤为重要。
针对上述的问题,通常,通过业务专家听取销售录音,进而,采用人工提取出销售录音中的对话意图的方式,来提升销售人员的业务水平,但是,这种方式需要花费大量的人力成本,而且不能复用,一旦销售模式发生变化,就需要重复执行上述步骤。
发明内容
有鉴于此,本申请实施例至少提供一种对话意图的识别方法、装置、电子设备及存储介质,通过识别出的对话意图,可以供销售员学习,以提升销售人员的业务水平。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供一种对话意图的识别方法,所述识别方法包括:
获取销售员与客户之间的对话录音数据,并将所述对话录音数据转换为对话文本数据;
将所述对话文本数据拆分为多个对话文本语句;
针对所述多个对话文本语句中的每个对话文本语句,基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句的对话意图。
在一种可能的实施方式中,所述识别方法还包括根据以下步骤将所述对话录音数据转换为对话文本数据:
根据语音识别算法,将所述对话录音数据转换为对话文本数据。
在一种可能的实施方式中,所述识别方法还包括根据以下步骤生成训练好的意图识别模型:
获取多个样本文本语句,以及每个样本文本语句对应的意图标签;
针对每个意图标签,将与该意图标签对应的样本文本语句作为第一样本语句,以及将所述多个样本文本语句中除与该意图标签对应的样本语句之外的样本文本语句作为第二样本语句;
根据所述第一样本语句和所述第二样本语句对初始的意图识别模型进行训练,生成训练好的意图识别模型。
在一种可能的实施方式中,所述根据所述第一样本语句和所述第二样本语句对初始的意图识别模型进行训练,生成训练好的意图识别模型,包括:
在每次对初始的意图识别模型进行训练时,从所述第一样本语句中选取任意两个样本文本语句作为正样本,以及从所述第一样本语句中选取任一样本文本语句、从所述第二样本语句中选取任一样本文本语句作为负样本;
根据所述正样本和所述负样本,对初始的意图识别模型进行训练,生成训练好的意图识别模型。
在一种可能的实施方式中,所述针对所述多个对话文本语句中的每个对话文本语句,基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句的对话意图,包括:
基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句属于各个意图的概率;
根据每个对话文本语句属于各个意图的概率,确定每个对话文本语句的对话意图。
在一种可能的实施方式中,所述基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句属于各个意图的概率,包括:
针对每个意图标签,将该意图标签对应的预设数量的标准文本语句和每个对话文本语句输入训练好的意图识别模型中,分别判定各个标准文本语句是否与该对话文本语句属于相同意图;
针对每个意图标签,根据判定结果,统计在该意图标签下与每个对话文本语句属于相同意图的标准文本语句的数量;
根据每个对话文本语句在每个意图标签下属于相同意图的标准文本语句的数量,确定每个对话文本语句属于各个意图的概率。
第二方面,本申请实施例还提供一种对话意图的识别装置,所述识别装置包括:
转换模块,用于获取销售员与客户之间的对话录音数据,并将所述对话录音数据转换为对话文本数据;
拆分模块,用于将所述对话文本数据拆分为多个对话文本语句;
确定模块,用于针对所述多个对话文本语句中的每个对话文本语句,基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句的对话意图。
在一种可能的实施方式中,所述转换模块,用于根据以下步骤将所述对话录音数据转换为对话文本数据:
根据语音识别算法,将所述对话录音数据转换为对话文本数据。
在一种可能的实施方式中,所述识别装置还包括生成模块;所述生成模块包括:
获取单元,用于获取多个样本文本语句,以及每个样本文本语句对应的意图标签;
第一确定单元,用于针对每个意图标签,将与该意图标签对应的样本文本语句作为第一样本语句,以及将所述多个样本文本语句中除与该意图标签对应的样本语句之外的样本文本语句作为第二样本语句;
生成单元,用于根据所述第一样本语句和所述第二样本语句对初始的意图识别模型进行训练,生成训练好的意图识别模型。
在一种可能的实施方式中,所述生成模块,用于根据以下步骤生成训练好的意图识别模型:
在每次对初始的意图识别模型进行训练时,从所述第一样本语句中选取任意两个样本文本语句作为正样本,以及从所述第一样本语句中选取任一样本文本语句、从所述第二样本语句中选取任一样本文本语句作为负样本;
根据所述正样本和所述负样本,对初始的意图识别模型进行训练,生成训练好的意图识别模型。
在一种可能的实施方式中,所述确定模块包括:
第二确定单元,用于基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句属于各个意图的概率;
第三确定单元,用于根据每个对话文本语句属于各个意图的概率,确定每个对话文本语句的对话意图。
在一种可能的实施方式中,所述第三确定单元,用于根据以下步骤确定每个对话文本语句属于各个意图的概率:
针对每个意图标签,将该意图标签对应的预设数量的标准文本语句和每个对话文本语句输入训练好的意图识别模型中,分别判定各个标准文本语句是否与该对话文本语句属于相同意图;
针对每个意图标签,根据判定结果,统计在该意图标签下与每个对话文本语句属于相同意图的标准文本语句的数量;
根据每个对话文本语句在每个意图标签下属于相同意图的标准文本语句的数量,确定每个对话文本语句属于各个意图的概率。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的对话意图的识别方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的对话意图的识别方法的步骤。
在本申请实施例中,通过获取销售员与客户之间的对话录音数据,进而,将通过对话录音数据转换的对话文本数据拆分为多个对话文本语句,并基于每个对话文本语句和训练好的意图识别模型,可以确定每个对话文本语句的对话意图。基于上述方式,通过意图识别模型,可以实现从对话录音数据中自动识别出对话文本语句的对话意图,不但可以减少人力成本,还可以实现复用,而且,通过识别出的对话意图,可以供销售员学习,以提升销售人员的业务水平。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种对话意图的识别方法的流程图;
图2示出了本申请实施例所提供的另一种对话意图的识别方法的流程图;
图3示出了本申请实施例所提供的一种对话意图的识别装置的功能模块图之一;
图4示出了本申请实施例所提供的一种对话意图的识别装置的功能模块图之二;
图5示出了图4中的生成模块的功能模块图;
图6示出了图4中的确定模块的功能模块图;
图7示出了本申请实施例所提供的一种电子设备的结构示意图。
主要元件符号说明:
图中:300-对话意图的识别装置;310-转换模块;320-拆分模块;330-确定模块;332-第二确定单元;334-第三确定单元;340-生成模块;342-获取单元;344-第一确定单元;346-生成单元;700-电子设备;710-处理器;720-存储器;730-总线。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“对话意图的识别”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要进行对话意图的识别的场景,本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的对话意图的识别方法、装置、电子设备及存储介质的方案均在本申请保护范围内。
值得注意的是,在本申请提出之前,通过业务专家听取销售录音,进而,采用人工提取出销售录音中的对话意图的方式,来提升销售人员的业务水平,但是,这种方式需要花费大量的人力成本,而且不能复用,一旦销售模式发生变化,就需要重复执行上述步骤。
针对上述问题,本申请实施例,通过获取销售员与客户之间的对话录音数据,进而,将通过对话录音数据转换的对话文本数据拆分为多个对话文本语句,并基于每个对话文本语句和训练好的意图识别模型,可以确定每个对话文本语句的对话意图。基于上述方式,通过意图识别模型,可以实现从对话录音数据中自动识别出对话文本语句的对话意图,不但可以减少人力成本,还可以实现复用,而且,通过识别出的对话意图,可以供销售员学习,以提升销售人员的业务水平。
为便于对本申请进行理解,下面结合具体实施例对本申请提供的技术方案进行详细说明。
图1为本申请实施例所提供的一种对话意图的识别方法的流程图。如图1所示,本申请实施例提供的对话意图的识别方法,包括以下步骤:
S101:获取销售员与客户之间的对话录音数据,并将所述对话录音数据转换为对话文本数据。
在具体实施中,可以通过录音设备采集销售员与客户之间的对话录音数据,进而,从录音设备中获取到销售员与客户之间的对话录音数据,并对对话录音数据进行转换,将对话录音数据转换为对话文本数据。
进一步地,根据以下步骤将所述对话录音数据转换为对话文本数据:
根据语音识别算法,将所述对话录音数据转换为对话文本数据。
在具体实施中,可以利用语音识别算法,将对话录音数据转换为对应的对话文本数据。这里,语音识别算法(Automatic Speech Recognition,ASR)用于识别语音数据,语音识别算法包括基于语言学和声学的方法、随机模型法、利用人工神经网络的方法、概率语法分析。
S102:将所述对话文本数据拆分为多个对话文本语句。
在具体实施中,在将对话录音数据转换为对话文本数据之后,将对话文本数据拆分为销售员和客户之间的多个对话文本语句,这样,可以以语句为单位,确定出每个对话文本语句对应的意图。
这里,将对话文本数据拆分的多个对话文本语句可以按照下述形式进行展示:
销售员:对话文本语句1;
顾客:对话文本语句2;
销售员:对话文本语句3;
......
顾客:对话文本语句4。
S103:针对所述多个对话文本语句中的每个对话文本语句,基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句的对话意图。
在具体实施中,在将对话文本数据拆分为多个对话文本语句之后,可以将各个对话文本语句分别输入训练好的意图识别模型中,进而,可以确定出各个对话文本语句的对话意图,这里,对话意图可以表征出对应的对话文本语句中表征出的销售员或客户的意图,对话意图包括但不限于询价意图、购买意图、推销意图、评价意图。
需要说明的是,意图识别模型可以为预训练语言表示模型(BidirectionalEncoder Representations from Transformers,BERT),属于自然语言处理模型(NaturalLanguage Processing,NLP),BERT的创新点在于它将双向训练用于语言模型,其中,双向训练的语言模型对语境的理解会比单向的语言模型更深刻。
进一步地,在对训练好的意图识别模型进行应用前,需要先对初始的意图识别模型进行训练,以得到训练好的意图识别模型,这里,对意图识别模型的训练过程展开说明,具体地,根据以下步骤生成训练好的意图识别模型:
步骤a1:获取多个样本文本语句,以及每个样本文本语句对应的意图标签。
在具体实施中,要想实现对初始的意图识别模型进行训练,需要先构建出训练所需要的训练数据,这里,先获取多个样本文本语句,以及每个样本文本语句对应的意图标签,即获取到带有意图标签的样本文本语句,将获取到的这些带有意图标签的样本文本语句作为构建训练数据的基础数据。
这里,可以事先通过人工对少量样本文本语句添加对应意图标签,之后,按照机器学习算法进行学习,对大量样本文本语句添加意图标签。
步骤a2:针对每个意图标签,将与该意图标签对应的样本文本语句作为第一样本语句,以及将所述多个样本文本语句中除与该意图标签对应的样本语句之外的样本文本语句作为第二样本语句。
在具体实施中,可以事先获取各个样本文本语句对应的多个意图标签,针对多个意图标签中的每个意图标签,将与该意图标签对应的样本文本语句作为一类样本,即第一样本语句,将获取的多个样本文本语句中除与该意图标签对应的样本语句之外的样本文本语句作为另一类样本,即第二样本语句。
步骤a3:根据所述第一样本语句和所述第二样本语句对初始的意图识别模型进行训练,生成训练好的意图识别模型。
在具体实施中,针对多个意图标签中的每个意图标签,可以根据每个意图标签对应的第一样本语句和第二样本语句对初始的意图识别模型进行训练,生成训练好的意图识别模型。
进一步地,步骤a3中根据所述第一样本语句和所述第二样本语句对初始的意图识别模型进行训练,生成训练好的意图识别模型,包括以下步骤:
步骤a31:在每次对初始的意图识别模型进行训练时,从所述第一样本语句中选取任意两个样本文本语句作为正样本,以及从所述第一样本语句中选取任一样本文本语句、从所述第二样本语句中选取任一样本文本语句作为负样本。
在具体实施中,在对初始的意图识别模型训练之前,需要构建训练数据,而且对初始的意图识别模型进行多次训练后,才可以生成训练好的意图识别模型,具体地,对于每一次对初始的意图识别模型进行训练时,都需要有训练数据,这里,每次进行训练的训练数据可以为从第一样本语句中选取任意两个样本文本语句,这两个样本文本语句可以作为正样本,以及从第一样本语句中选取任一样本文本语句、从第二样本语句中选取任一样本文本语句,这两个样本文本语句可以作为负样本,每次训练时,可以选取正样本进行训练,也可以选取负样本进行训练。
步骤a32:根据所述正样本和所述负样本,对初始的意图识别模型进行训练,生成训练好的意图识别模型。
在具体实施中,针对多个意图标签中的每个意图标签,都可以选取该意图标签对应的正样本对初始的意图识别模型进行训练,也可以选取该意图标签对应的负样本对初始的意图识别模型进行训练,这样,在完成对多个意图标签的训练后,生成训练好的意图识别模型。
这里,对构造训练数据,以及训练意图识别模型的过程以示例的形式展开说明,包括以下步骤:
步骤b1:对于意图标签A,将所有带有意图标签A的样本文本语句构成集合P,所有未带有意图标签A的样本文本语句构成集合Q。
步骤b2:按照下述方式生成训练数据:
1)构造文本数据对:(样本文本语句一、样本文本语句二);
2)正样本表示两个样本文本语句对应的意图相同,生成方式为:从P中选取两个样本文本语句作为样本文本语句一与样本文本语句二;
3)负样本表示两个样本文本语句对应的意图不相同,生成方式为:分别从P中和Q中选取一个样本文本语句作为样本文本语句一和样本文本语句二;其余意图标签按照上述产生训练数据,保证正样本和负样本的数量相近。
步骤b3:通过初始的意图识别模型,将(样本文本语句一、样本文本语句二)作为输入进行训练,生成训练后的意图判别模型。
在本申请实施例中,通过获取销售员与客户之间的对话录音数据,进而,将通过对话录音数据转换的对话文本数据拆分为多个对话文本语句,并基于每个对话文本语句和训练好的意图识别模型,可以确定每个对话文本语句的对话意图。基于上述方式,通过意图识别模型,可以实现从对话录音数据中自动识别出对话文本语句的对话意图,不但可以减少人力成本,还可以实现复用,而且,通过识别出的对话意图,可以供销售员学习,为对销售员进行培训提供依据,可以掌握客户的切身需求,可以提升销售人员的业务水平。
图2为本申请实施例所提供的另一种对话意图的识别方法的流程图。如图2所示,本申请实施例提供的对话意图的识别方法,包括以下步骤:
S201:获取销售员与客户之间的对话录音数据,并将所述对话录音数据转换为对话文本数据。
S202:将所述对话文本数据拆分为多个对话文本语句。
其中,步骤S201、S202的描述可以参见步骤S101、S102的描述,并且能够达到相同的技术效果,对此,不再进行阐述。
S203:基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句属于各个意图的概率。
在具体实施中,针对话文本数据拆分的多个对话文本语句中的每个对话文本语句,将每个对话文本语句输入训练好的意图识别模型中,可以确定出每个对话文本语句属于多个意图中每个意图的概率。这里,可以事先设置多个意图,不同对话文本语句对应的意图可能相同,也可能不同。
进一步地,步骤S203中基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句属于各个意图的概率,包括以下步骤:
步骤c1:针对每个意图标签,将该意图标签对应的预设数量的标准文本语句和每个对话文本语句输入训练好的意图识别模型中,分别判定各个标准文本语句是否与该对话文本语句属于相同意图。
在具体实施中,在确定每个对话文本语句属于多个意图中每个意图的概率时,可以通过以下方式进行计算,对于每个意图标签,将该意图标签对应的预设数量的标准文本语句和每个对话语句输入训练好的意图识别模型中,分别判断每个标准文本语句是否与该对话文本语句属于相同意图。
步骤c2:针对每个意图标签,根据判定结果,统计在该意图标签下与每个对话文本语句属于相同意图的标准文本语句的数量。
在具体实施中,针对每个意图标签,根据判定结果,统计出在该意图标签下与每个对话文本语句属于相同意图的标准文本语句的数量,将该数量作为该对话文本语句属于该意图标签对应的意图的概率的基础。
步骤c3:根据每个对话文本语句在每个意图标签下属于相同意图的标准文本语句的数量,确定每个对话文本语句属于各个意图的概率。
在具体实施中,针对每个意图标签,根据统计出的每个对话文本语句在该意图标签下属于相同意图的标准文本语句的数量,将该数量与预设数量相除,可以确定出该对话文本语句属于该意图标签对应的意图的概率,采用同样的方式,可以计算出每个对话文本语句属于各个意图的概率。
S204:根据每个对话文本语句属于各个意图的概率,确定每个对话文本语句的对话意图。
在具体实施中,可以根据每个对话文本语句属于各个意图的概率,来确定每个对话语句的对话意图,具体地,可以从多个意图中,选取对应的概率最大的意图,确定为该对话文本语句的对话意图;也可以根据各个意图的概率,按照概率由高到低的顺序对各个意图进行排序,并选取排序靠前的预设数量的意图,确定为该对话文本语句的对话意图,这里,预设数量可以根据实际需要进行设置。
这里,对每个对话文本语句属于各个意图的概率的运算原理进行说明,选取带有相同数量的每个意图标签的标准文本语句,并将该对话文本语句与每个意图对应的标准文本语句构成文本对,使用训练好的意图识别模型进行判别,选取与该对话文本语句属于相同意图的数量最多的标准文本语句对应的意图,确定为该对话文本的意图。
基于同一申请构思,本申请实施例中还提供了与上述实施例提供的对话意图的识别方法对应的对话意图的识别装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例的对话意图的识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如图3至图6所示,图3示出了本申请实施例所提供的一种对话意图的识别装置300的功能模块图之一;图4示出了本申请实施例所提供的一种对话意图的识别装置300的功能模块图之二;图5示出了图4中的生成模块340的功能模块图;图6示出了图4中的确定模块330的功能模块图。
如图3所示,对话意图的识别装置300包括:
转换模块310,用于获取销售员与客户之间的对话录音数据,并将所述对话录音数据转换为对话文本数据;
拆分模块320,用于将所述对话文本数据拆分为多个对话文本语句;
确定模块330,用于针对所述多个对话文本语句中的每个对话文本语句,基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句的对话意图。
在一种可能的实施方式中,如图3所示,所述转换模块310,用于根据以下步骤将所述对话录音数据转换为对话文本数据:
根据语音识别算法,将所述对话录音数据转换为对话文本数据。
在一种可能的实施方式中,如图4所示,对话意图的识别装置300还包括生成模块340;如图5所示,所述生成模块340包括:
获取单元342,用于获取多个样本文本语句,以及每个样本文本语句对应的意图标签;
第一确定单元344,用于针对每个意图标签,将与该意图标签对应的样本文本语句作为第一样本语句,以及将所述多个样本文本语句中除与该意图标签对应的样本语句之外的样本文本语句作为第二样本语句;
生成单元346,用于根据所述第一样本语句和所述第二样本语句对初始的意图识别模型进行训练,生成训练好的意图识别模型。
在一种可能的实施方式中,如图4所示,所述生成模块340,用于根据以下步骤生成训练好的意图识别模型:
在每次对初始的意图识别模型进行训练时,从所述第一样本语句中选取任意两个样本文本语句作为正样本,以及从所述第一样本语句中选取任一样本文本语句、从所述第二样本语句中选取任一样本文本语句作为负样本;
根据所述正样本和所述负样本,对初始的意图识别模型进行训练,生成训练好的意图识别模型。
在一种可能的实施方式中,如图6所示,所述确定模块330包括:
第二确定单元332,用于基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句属于各个意图的概率;
第三确定单元334,用于根据每个对话文本语句属于各个意图的概率,确定每个对话文本语句的对话意图。
在一种可能的实施方式中,如图6所示,所述第三确定单元334,用于根据以下步骤确定每个对话文本语句属于各个意图的概率:
针对每个意图标签,将该意图标签对应的预设数量的标准文本语句和每个对话文本语句输入训练好的意图识别模型中,分别判定各个标准文本语句是否与该对话文本语句属于相同意图;
针对每个意图标签,根据判定结果,统计在该意图标签下与每个对话文本语句属于相同意图的标准文本语句的数量;
根据每个对话文本语句在每个意图标签下属于相同意图的标准文本语句的数量,确定每个对话文本语句属于各个意图的概率。
在本申请实施例中,通过转换模块310将获取的销售员与客户之间的对话录音数据转换的对话文本数据拆分为多个对话文本语句,并基于每个对话文本语句和训练好的意图识别模型,可以通过确定模块330确定每个对话文本语句的对话意图。基于上述方式,通过意图识别模型,可以实现从对话录音数据中自动识别出对话文本语句的对话意图,不但可以减少人力成本,还可以实现复用,而且,通过识别出的对话意图,可以供销售员学习,以提升销售人员的业务水平。
基于同一申请构思,参见图7所示,为本申请实施例提供的一种电子设备700的结构示意图,包括:处理器710、存储器720和总线730,所述存储器720存储有所述处理器710可执行的机器可读指令,当电子设备700运行时,所述处理器710与所述存储器720之间通过所述总线730进行通信,所述机器可读指令被所述处理器710运行时执行如上述实施例中任一所述的对话意图的识别方法的步骤。
具体地,所述机器可读指令被所述处理器710执行时可以执行如下处理:
获取销售员与客户之间的对话录音数据,并将所述对话录音数据转换为对话文本数据;
将所述对话文本数据拆分为多个对话文本语句;
针对所述多个对话文本语句中的每个对话文本语句,基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句的对话意图。
本申请实施例中,通过获取销售员与客户之间的对话录音数据,进而,将通过对话录音数据转换的对话文本数据拆分为多个对话文本语句,并基于每个对话文本语句和训练好的意图识别模型,可以确定每个对话文本语句的对话意图。基于上述方式,通过意图识别模型,可以实现从对话录音数据中自动识别出对话文本语句的对话意图,不但可以减少人力成本,还可以实现复用,而且,通过识别出的对话意图,可以供销售员学习,以提升销售人员的业务水平。
基于同一申请构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例提供的对话意图的识别方法的步骤。
具体地,所述存储介质能够为通用的存储介质,如移动磁盘、硬盘等,所述存储介质上的计算机程序被运行时,能够执行上述对话意图的识别方法,通过识别出的对话意图,可以供销售员学习,以提升销售人员的业务水平。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种对话意图的识别方法,其特征在于,所述识别方法包括:
获取销售员与客户之间的对话录音数据,并将所述对话录音数据转换为对话文本数据;
将所述对话文本数据拆分为多个对话文本语句;
针对所述多个对话文本语句中的每个对话文本语句,基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句的对话意图。
2.根据权利要求1所述的识别方法,其特征在于,所述识别方法还包括根据以下步骤将所述对话录音数据转换为对话文本数据:
根据语音识别算法,将所述对话录音数据转换为对话文本数据。
3.根据权利要求1所述的识别方法,其特征在于,所述识别方法还包括根据以下步骤生成训练好的意图识别模型:
获取多个样本文本语句,以及每个样本文本语句对应的意图标签;
针对每个意图标签,将与该意图标签对应的样本文本语句作为第一样本语句,以及将所述多个样本文本语句中除与该意图标签对应的样本语句之外的样本文本语句作为第二样本语句;
根据所述第一样本语句和所述第二样本语句对初始的意图识别模型进行训练,生成训练好的意图识别模型。
4.根据权利要求3所述的识别方法,其特征在于,所述根据所述第一样本语句和所述第二样本语句对初始的意图识别模型进行训练,生成训练好的意图识别模型,包括:
在每次对初始的意图识别模型进行训练时,从所述第一样本语句中选取任意两个样本文本语句作为正样本,以及从所述第一样本语句中选取任一样本文本语句、从所述第二样本语句中选取任一样本文本语句作为负样本;
根据所述正样本和所述负样本,对初始的意图识别模型进行训练,生成训练好的意图识别模型。
5.根据权利要求1所述的识别方法,其特征在于,所述针对所述多个对话文本语句中的每个对话文本语句,基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句的对话意图,包括:
基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句属于各个意图的概率;
根据每个对话文本语句属于各个意图的概率,确定每个对话文本语句的对话意图。
6.根据权利要求5所述的识别方法,其特征在于,所述基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句属于各个意图的概率,包括:
针对每个意图标签,将该意图标签对应的预设数量的标准文本语句和每个对话文本语句输入训练好的意图识别模型中,分别判定各个标准文本语句是否与该对话文本语句属于相同意图;
针对每个意图标签,根据判定结果,统计在该意图标签下与每个对话文本语句属于相同意图的标准文本语句的数量;
根据每个对话文本语句在每个意图标签下属于相同意图的标准文本语句的数量,确定每个对话文本语句属于各个意图的概率。
7.一种对话意图的识别装置,其特征在于,所述识别装置包括:
转换模块,用于获取销售员与客户之间的对话录音数据,并将所述对话录音数据转换为对话文本数据;
拆分模块,用于将所述对话文本数据拆分为多个对话文本语句;
确定模块,用于针对所述多个对话文本语句中的每个对话文本语句,基于每个对话文本语句和训练好的意图识别模型,确定每个对话文本语句的对话意图。
8.根据权利要求7所述的识别装置,其特征在于,所述识别装置还包括生成模块;所述生成模块包括:
获取单元,用于获取多个样本文本语句,以及每个样本文本语句对应的意图标签;
第一确定单元,用于针对每个意图标签,将与该意图标签对应的样本文本语句作为第一样本语句,以及将所述多个样本文本语句中除与该意图标签对应的样本语句之外的样本文本语句作为第二样本语句;
生成单元,用于根据所述第一样本语句和所述第二样本语句对初始的意图识别模型进行训练,生成训练好的意图识别模型。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的对话意图的识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述的对话意图的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010148336.8A CN111368085A (zh) | 2020-03-05 | 2020-03-05 | 一种对话意图的识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010148336.8A CN111368085A (zh) | 2020-03-05 | 2020-03-05 | 一种对话意图的识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111368085A true CN111368085A (zh) | 2020-07-03 |
Family
ID=71208629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010148336.8A Pending CN111368085A (zh) | 2020-03-05 | 2020-03-05 | 一种对话意图的识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368085A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930917A (zh) * | 2020-09-23 | 2020-11-13 | 深圳追一科技有限公司 | 对话流程挖掘方法、装置、计算机设备和存储介质 |
CN112256824A (zh) * | 2020-09-17 | 2021-01-22 | 国网安徽省电力有限公司 | 一种用于机器人服务的业务引导方法、系统和存储单元 |
CN112380875A (zh) * | 2020-11-18 | 2021-02-19 | 杭州大搜车汽车服务有限公司 | 对话标签跟踪方法、装置、电子装置及存储介质 |
CN112541068A (zh) * | 2020-12-22 | 2021-03-23 | 携程旅游信息技术(上海)有限公司 | 语音对话的意图识别方法、系统、设备及存储介质 |
CN112559715A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 态度的识别方法、装置、设备及存储介质 |
CN113158692A (zh) * | 2021-04-22 | 2021-07-23 | 中国平安财产保险股份有限公司 | 基于语义识别的多意图处理方法、系统、设备及存储介质 |
CN114036943A (zh) * | 2021-11-15 | 2022-02-11 | 平安普惠企业管理有限公司 | 意图识别方法、装置、计算机设备及存储介质 |
CN114065772A (zh) * | 2021-11-19 | 2022-02-18 | 浙江百应科技有限公司 | 一种基于Albert模型的商机识别方法、装置及电子设备 |
CN114118080A (zh) * | 2021-11-10 | 2022-03-01 | 北京深维智信科技有限公司 | 一种从销售会话中自动识别客户意向的方法及系统 |
CN116959433A (zh) * | 2023-09-18 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777013A (zh) * | 2016-12-07 | 2017-05-31 | 科大讯飞股份有限公司 | 对话管理方法和装置 |
CN109376361A (zh) * | 2018-11-16 | 2019-02-22 | 北京九狐时代智能科技有限公司 | 一种意图识别方法及装置 |
CN109635105A (zh) * | 2018-10-29 | 2019-04-16 | 厦门快商通信息技术有限公司 | 一种中文文本多意图识别方法及系统 |
WO2019143170A1 (ko) * | 2018-01-18 | 2019-07-25 | 주식회사 머니브레인 | 소정의 목표를 갖는 대화 이해 ai 서비스 시스템을 위한 대화 템플릿의 생성 방법 및 컴퓨터 판독가능 기록 매체 |
-
2020
- 2020-03-05 CN CN202010148336.8A patent/CN111368085A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777013A (zh) * | 2016-12-07 | 2017-05-31 | 科大讯飞股份有限公司 | 对话管理方法和装置 |
WO2019143170A1 (ko) * | 2018-01-18 | 2019-07-25 | 주식회사 머니브레인 | 소정의 목표를 갖는 대화 이해 ai 서비스 시스템을 위한 대화 템플릿의 생성 방법 및 컴퓨터 판독가능 기록 매체 |
CN109635105A (zh) * | 2018-10-29 | 2019-04-16 | 厦门快商通信息技术有限公司 | 一种中文文本多意图识别方法及系统 |
CN109376361A (zh) * | 2018-11-16 | 2019-02-22 | 北京九狐时代智能科技有限公司 | 一种意图识别方法及装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256824A (zh) * | 2020-09-17 | 2021-01-22 | 国网安徽省电力有限公司 | 一种用于机器人服务的业务引导方法、系统和存储单元 |
CN112256824B (zh) * | 2020-09-17 | 2023-10-20 | 国网安徽省电力有限公司 | 一种用于机器人服务的业务引导方法、系统和存储介质 |
CN111930917A (zh) * | 2020-09-23 | 2020-11-13 | 深圳追一科技有限公司 | 对话流程挖掘方法、装置、计算机设备和存储介质 |
CN112380875A (zh) * | 2020-11-18 | 2021-02-19 | 杭州大搜车汽车服务有限公司 | 对话标签跟踪方法、装置、电子装置及存储介质 |
CN112541068A (zh) * | 2020-12-22 | 2021-03-23 | 携程旅游信息技术(上海)有限公司 | 语音对话的意图识别方法、系统、设备及存储介质 |
CN112559715A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 态度的识别方法、装置、设备及存储介质 |
CN112559715B (zh) * | 2020-12-24 | 2023-09-22 | 北京百度网讯科技有限公司 | 态度的识别方法、装置、设备及存储介质 |
CN113158692A (zh) * | 2021-04-22 | 2021-07-23 | 中国平安财产保险股份有限公司 | 基于语义识别的多意图处理方法、系统、设备及存储介质 |
CN113158692B (zh) * | 2021-04-22 | 2023-09-12 | 中国平安财产保险股份有限公司 | 基于语义识别的多意图处理方法、系统、设备及存储介质 |
CN114118080B (zh) * | 2021-11-10 | 2022-09-13 | 北京深维智信科技有限公司 | 一种从销售会话中自动识别客户意向的方法及系统 |
CN114118080A (zh) * | 2021-11-10 | 2022-03-01 | 北京深维智信科技有限公司 | 一种从销售会话中自动识别客户意向的方法及系统 |
CN114036943A (zh) * | 2021-11-15 | 2022-02-11 | 平安普惠企业管理有限公司 | 意图识别方法、装置、计算机设备及存储介质 |
CN114065772A (zh) * | 2021-11-19 | 2022-02-18 | 浙江百应科技有限公司 | 一种基于Albert模型的商机识别方法、装置及电子设备 |
CN116959433A (zh) * | 2023-09-18 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备和存储介质 |
CN116959433B (zh) * | 2023-09-18 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368085A (zh) | 一种对话意图的识别方法、装置、电子设备及存储介质 | |
CN111309905A (zh) | 一种对话语句的聚类方法、装置、电子设备及存储介质 | |
CN114783421A (zh) | 智能推荐方法和装置、设备、介质 | |
CN114387061A (zh) | 产品推送方法、装置、电子设备及可读存储介质 | |
CN108304387B (zh) | 文本中噪音词的识别方法、装置、服务器组及存储介质 | |
CN113990352B (zh) | 用户情绪识别与预测方法、装置、设备及存储介质 | |
CN113420556A (zh) | 基于多模态信号的情感识别方法、装置、设备及存储介质 | |
CN114416943A (zh) | 对话模型的训练方法、装置、电子设备及存储介质 | |
CN117251547A (zh) | 用户提问应答方法及其装置、设备、介质 | |
CN113807103A (zh) | 基于人工智能的招聘方法、装置、设备及存储介质 | |
CN110516175B (zh) | 一种确定用户标签的方法、装置、设备和介质 | |
CN111274390A (zh) | 一种基于对话数据的情感原因确定方法及装置 | |
CN113609865A (zh) | 文本情感的识别方法、装置、电子设备及可读存储介质 | |
CN114722164A (zh) | 一种智能评论回复方法及装置 | |
CN111984764A (zh) | 流单原因分析方法、装置、计算机设备及可读存储介质 | |
CN114186119A (zh) | 信息推荐方法及装置和构建邻域知识图谱的方法及装置 | |
CN111324712A (zh) | 对话回复方法及服务端 | |
CN111126038A (zh) | 信息获取模型生成方法、装置及信息获取方法、装置 | |
CN114401346A (zh) | 基于人工智能的应答方法、装置、设备及介质 | |
CN113870478A (zh) | 快速取号方法、装置、电子设备及存储介质 | |
CN115248843A (zh) | 辅助生成笔录的方法、装置和笔录生成系统 | |
CN115292460A (zh) | 一种话题推荐方法、装置、电子设备及存储介质 | |
CN115357711A (zh) | 一种方面级情感分析方法、装置、电子设备及存储介质 | |
CN113990313A (zh) | 语音控制方法、装置、设备及存储介质 | |
CN114186028A (zh) | 咨诉工单处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200703 |
|
RJ01 | Rejection of invention patent application after publication |