CN109062951A - 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质 - Google Patents

基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质 Download PDF

Info

Publication number
CN109062951A
CN109062951A CN201810651107.0A CN201810651107A CN109062951A CN 109062951 A CN109062951 A CN 109062951A CN 201810651107 A CN201810651107 A CN 201810651107A CN 109062951 A CN109062951 A CN 109062951A
Authority
CN
China
Prior art keywords
dialogue
conversation process
intended
cluster
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810651107.0A
Other languages
English (en)
Other versions
CN109062951B (zh
Inventor
蔡振华
肖龙源
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Corp ltd
Original Assignee
Xiamen Kuaishangtong Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Corp ltd filed Critical Xiamen Kuaishangtong Technology Corp ltd
Priority to CN201810651107.0A priority Critical patent/CN109062951B/zh
Publication of CN109062951A publication Critical patent/CN109062951A/zh
Application granted granted Critical
Publication of CN109062951B publication Critical patent/CN109062951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质,所述方法包括获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;筛选确认为有意义的主题,对语料中的有效意图的句子打上意图标签;将对话中的意图标签提取出来形成一个序列,所述序列称为对话流程,进一步的对所有对话流程采用KNN聚类算法,得到k个聚类,获得k个对话流程。本发明大大减少人工参与过程,提升效率。

Description

基于意图分析和对话聚类的对话流程抽取方法、设备及存储 介质
技术领域
本发明涉及人机对话技术领域,具体涉及一种基于意图分析和对话聚类的对话流程抽取方法。
背景技术
人机对话系统是将机器视为一个认知主体的人机交互系统。随着计算机软硬件技术和移动互联网的迅猛发展,能够有效处理非精确信息交互的、符合人类自然交互习惯的认知型人机对话系统受到了越来越多的关注。
在任务型对话系统中,对话管理是十分重要的一个模块,对话管理的主要功能是控制人机对话过程中的整个对话的流程。目前,对话流程的构建大体分为2种:其中一种是纯人工构建;另一种是人工标注语料,再用机器学习的方法从语料中构建对话流程。无论哪种方法都十分地费时费力,前者需要人工阅读对话语料,并从中总结出对话流程;而后者虽然不需要人工总结,但人工标注的工作量却十分巨大。
发明内容
本发明的目的在于克服现有技术问题,提出一种基于意图分析和对话聚类的对话流程抽取方法、设备及其存储介质。
为达成上述目的,首先,本发明提供了基于意图分析和对话聚类的对话流程抽取方法,所述方法包括步骤一至步骤四:
步骤一,获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;
步骤二,筛选确认为有意义的主题,所述有意义的主题称为有效意图;
步骤三,对语料中的有效意图的句子打上意图标签;
步骤四,将对话中的意图标签提取出来形成一个序列,所述序列称为对话流程。
进一步的,对语料中的每段对话都进行意图标签提取,得到一个序列的集合,所述序列的集合为多个的对话流程。
进一步的,对集合中的序列进行聚类,聚类中心中的获得的序列为有代表性的对话流程。
进一步的,若所述对话包含第一对话D1、第二对话D2;所述第一对话D1包含n个句子,将对话表示为句子的序列S11,S12...S1n;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I11,I12...I1n;所述第二对话D2包含m个句子,将对话表示为句子的序列S21,S22...S2m;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I21,I22...I2m;使用编辑距离来衡量第一对话D1,第一对话D2所对应的对话流程的差别;
其中,n、m均为正整数。
进一步的,将语料中的每个对话分别表示成对话流程的形式,使用编辑距离来衡量任意2个对话所对应的对话流程的差别。
进一步的,对所有对话流程采用KNN聚类算法,得到k个聚类,将每个聚类中心的对话流程挑选出来对话流程,得到k个对话流程,称为最终提取的对话流程。
相应的,本发明还提供了一种设备,所述设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的处理系统,所述处理系统被所述处理器执行所述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
相应的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行时实现上述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
通过本发明的基于意图分析和对话聚类的对话流程抽取方法、设备及其存储介质,与现有技术相比,本发明的对话流程抽取方法是采用意图分析和对话聚类的对话流程自动抽取过程,大大减少人工参与过程,整个构建过程,只需要筛选确认为有意义的主题的步骤中进行人工筛选意图,其余皆由系统自动完成,提升了工作效率,而且提升了话流程抽取的有效性和可靠性。
附图说明
此处所说明的附图用来提供对发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种基于意图分析和对话聚类的对话流程抽取方法的流程示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于意图分析和对话聚类的对话流程抽取方法,如附图1所示,包括如下步骤S1-S4:
步骤S1,获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;
步骤S2,筛选确认为有意义的主题,所述有意义的主题称为有效意图;
步骤S3,对语料中的有效意图的句子打上意图标签;
步骤S4,将一段对话中的意图标签提取出来形成一个序列,所述序列称为对话流程。
语料中包含有多段对话,进一步的,对语料中的每段对话都进行意图标签提取,得到一个序列的集合,所述序列的集合为多个的对话流程。
进一步的,对集合中的序列进行聚类,聚类中心中的获得的序列为有代表性的对话流程。本发明中,所述代表性的对话流程,至少2种用途:用于构造自动对话装置/机器人客服/聊天机器人的“对话管理”模块。例如,将代表性对话流程转换为有限状态机之后,就可以作为“对话管理”模块,可以将这些有代表性的对话流程用于培训,例如用于培训客服人员,或用于培训销售人员。
进一步的,所述对话包含第一对话D1、第二对话D2,使用编辑距离来衡量第一对话D1,第一对话D2所对应的对话流程的差别。
其中,所述第一对话D1包含n个句子,将对话表示为句子的序列S11,S12...S1n;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I11,I12...I1n;意图序列不包含具体的句子,它实际上表示的是对话的流程;
类似地,所述第二对话可以抽象为由m个意图组成的序列,即该对话对应的对话流程:I21,I22...I2m,所述第二对话D2包含m个句子,将对话表示为句子的序列S21,S22...S2m;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I21,I22...I2m;
其中,n、m均为正整数。
进一步的,本发明基于意图分析和对话聚类的对话流程抽取方法中,将语料中的每个对话分别表示成对话流程的形式,使用编辑距离来衡量任意2个对话所对应的对话流程的差别。
进一步的,对所有对话流程采用KNN聚类算法,得到k个聚类,将每个聚类中心的对话流程挑选出来对话流程,得到k个对话流程,称为最终提取的对话流程。
需要说明的是,本发明中对话是指1次具体的会话。如在仅有2个人参与的会话中,常见的情况是2个人轮流说话,也有可能1个人会接连说几句话。将参与会话的2个人所说的话,按照时间先后顺序依次排列,所构成的句子的序列,即为对话。
在本发明的另一实施例中,相对于上述基于意图分析和对话聚类的对话流程抽取方法,本发明还提供了一种设备,所述设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的处理系统,所述处理系统被所述处理器执行上述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
在本发明的另一实施例中,相对于上述设备,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行时实现上述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
本领域技术技术人员知道,本发明的实施方式可以实现为一种方法、设备或计算机程序产品。因此,本发明公开可以具体实现为以下形式,即全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
本发明中的KNN(k-Nearest Neighbor)聚类算法,也称K最近邻分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该算法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象,该算法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN算法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN算法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN算法较其他方法更为适合。
上述说明描述了本发明的优选实施例,但应当理解本发明并非局限于上述实施例,且不应看作对其他实施例的排除。通过本发明的启示,本领域技术人员结合公知或现有技术、知识所进行的改动也应视为在本发明的保护范围内。

Claims (8)

1.一种基于意图分析和对话聚类的对话流程抽取方法,其特征在于,包括如下步骤:
步骤一,获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;
步骤二,筛选确认为有意义的主题,所述有意义的主题称为有效意图;
步骤三,对语料中的有效意图的句子打上意图标签;
步骤四,将对话中的意图标签提取出来形成一个序列,所述序列称为对话流程。
2.根据权利要求1所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,
对语料中的每段对话都进行意图标签提取,得到一个序列的集合,所述序列的集合为多个的对话流程。
3.根据权利要求2所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,
对集合中的序列进行聚类,聚类中心中的获得的序列为有代表性的对话流程。
4.根据权利要求1所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,
所述对话包含第一对话D1、第二对话D2;
所述第一对话D1包含n个句子,将对话表示为句子的序列S11,S12...S1n;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I11,I12...I1n;
所述第二对话D2包含m个句子,将对话表示为句子的序列S21,S22...S2m;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I21,I22...I2m;
使用编辑距离来衡量第一对话D1,第一对话D2所对应的对话流程的差别;
其中,n、m均为正整数。
5.根据权利要求4所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,
将语料中的每个对话分别表示成对话流程的形式,使用编辑距离来衡量任意2个对话所对应的对话流程的差别。
6.根据权利要求5所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,
对所有对话流程采用KNN聚类算法,得到k个聚类,将每个聚类中心的对话流程挑选出来对话流程,得到k个对话流程,称为最终提取的对话流程。
7.一种设备,其特征在于,
所述设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的处理系统,所述处理系统被所述处理器执行权利要求1至6中任一项所述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
8.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行时实现如权利要求1至6中任一项所述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
CN201810651107.0A 2018-06-22 2018-06-22 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质 Active CN109062951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810651107.0A CN109062951B (zh) 2018-06-22 2018-06-22 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810651107.0A CN109062951B (zh) 2018-06-22 2018-06-22 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109062951A true CN109062951A (zh) 2018-12-21
CN109062951B CN109062951B (zh) 2021-04-06

Family

ID=64820831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810651107.0A Active CN109062951B (zh) 2018-06-22 2018-06-22 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109062951B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782775A (zh) * 2019-04-04 2020-10-16 百度在线网络技术(北京)有限公司 对话方法、装置、设备和介质
CN111883115A (zh) * 2020-06-17 2020-11-03 马上消费金融股份有限公司 语音流程质检的方法及装置
CN112115248A (zh) * 2020-09-27 2020-12-22 支付宝(杭州)信息技术有限公司 一种从对话语料中抽取对话策略结构的方法及系统
CN113836275A (zh) * 2020-06-08 2021-12-24 菜鸟智能物流控股有限公司 对话模型建立方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297800A (zh) * 2016-08-10 2017-01-04 中国科学院计算技术研究所 一种自适应的语音识别的方法和设备
CN106997375A (zh) * 2017-02-28 2017-08-01 浙江大学 基于深度学习的客服回复推荐方法
WO2017206861A1 (zh) * 2016-05-29 2017-12-07 陈勇 一种人机对话平台
CN107992477A (zh) * 2017-11-30 2018-05-04 北京神州泰岳软件股份有限公司 文本主题确定方法、装置及电子设备
CN108062388A (zh) * 2017-12-15 2018-05-22 北京百度网讯科技有限公司 人机对话的回复生成方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017206861A1 (zh) * 2016-05-29 2017-12-07 陈勇 一种人机对话平台
CN106297800A (zh) * 2016-08-10 2017-01-04 中国科学院计算技术研究所 一种自适应的语音识别的方法和设备
CN106997375A (zh) * 2017-02-28 2017-08-01 浙江大学 基于深度学习的客服回复推荐方法
CN107992477A (zh) * 2017-11-30 2018-05-04 北京神州泰岳软件股份有限公司 文本主题确定方法、装置及电子设备
CN108062388A (zh) * 2017-12-15 2018-05-22 北京百度网讯科技有限公司 人机对话的回复生成方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782775A (zh) * 2019-04-04 2020-10-16 百度在线网络技术(北京)有限公司 对话方法、装置、设备和介质
CN111782775B (zh) * 2019-04-04 2023-09-01 百度在线网络技术(北京)有限公司 对话方法、装置、设备和介质
CN113836275A (zh) * 2020-06-08 2021-12-24 菜鸟智能物流控股有限公司 对话模型建立方法及装置
CN113836275B (zh) * 2020-06-08 2023-09-05 菜鸟智能物流控股有限公司 对话模型建立方法、装置、非易失性存储介质和电子装置
CN111883115A (zh) * 2020-06-17 2020-11-03 马上消费金融股份有限公司 语音流程质检的方法及装置
CN112115248A (zh) * 2020-09-27 2020-12-22 支付宝(杭州)信息技术有限公司 一种从对话语料中抽取对话策略结构的方法及系统
CN112115248B (zh) * 2020-09-27 2023-11-14 支付宝(杭州)信息技术有限公司 一种从对话语料中抽取对话策略结构的方法及系统

Also Published As

Publication number Publication date
CN109062951B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN109062951A (zh) 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质
CN107766371B (zh) 一种文本信息分类方法及其装置
JP2022023770A (ja) 文字の認識方法及び装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
US9278255B2 (en) System and method for activity recognition
CN113486833B (zh) 多模态特征提取模型训练方法、装置、电子设备
CN107423278B (zh) 评价要素的识别方法、装置及系统
AU2014344497A1 (en) Image object category recognition method and device
CN112101329B (zh) 一种基于视频的文本识别方法、模型训练的方法及装置
CN106649258A (zh) 一种智能的问答系统
CN109558482B (zh) 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
CN114997344B (zh) 一种基于城市大脑的多源数据规划方法及系统
CN115688760A (zh) 一种智能化导诊方法、装置、设备及存储介质
CN111368824A (zh) 一种仪表识别方法、移动设备及存储介质
CN106372083B (zh) 一种有争议性新闻线索自动发现的方法及系统
CN103177264B (zh) 基于视觉词典全局拓扑表达的图像分类方法
CN110782128A (zh) 一种用户职业标签生成方法、装置和电子设备
CN108600254A (zh) 一种音视频识别系统
Cho Designing smart cities: Security issues
CN114443930A (zh) 一种新闻舆情智能监测分析方法、系统及计算机存储介质
CN110378378B (zh) 事件检索方法、装置、计算机设备及存储介质
CN109493249B (zh) 一种用电数据在多时间尺度上的分析方法
CN110019164A (zh) 一种异构结构化数据融合概率的计算方法及系统
CN113378881B (zh) 基于信息熵增益svm模型的指令集识别方法及装置
Alhaisoni et al. SCF: smart big data classification framework
CN116702605A (zh) 基于机器学习的安保活动方案生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant