CN109062951A - 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质 - Google Patents
基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质 Download PDFInfo
- Publication number
- CN109062951A CN109062951A CN201810651107.0A CN201810651107A CN109062951A CN 109062951 A CN109062951 A CN 109062951A CN 201810651107 A CN201810651107 A CN 201810651107A CN 109062951 A CN109062951 A CN 109062951A
- Authority
- CN
- China
- Prior art keywords
- dialogue
- conversation process
- intended
- cluster
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质,所述方法包括获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;筛选确认为有意义的主题,对语料中的有效意图的句子打上意图标签;将对话中的意图标签提取出来形成一个序列,所述序列称为对话流程,进一步的对所有对话流程采用KNN聚类算法,得到k个聚类,获得k个对话流程。本发明大大减少人工参与过程,提升效率。
Description
技术领域
本发明涉及人机对话技术领域,具体涉及一种基于意图分析和对话聚类的对话流程抽取方法。
背景技术
人机对话系统是将机器视为一个认知主体的人机交互系统。随着计算机软硬件技术和移动互联网的迅猛发展,能够有效处理非精确信息交互的、符合人类自然交互习惯的认知型人机对话系统受到了越来越多的关注。
在任务型对话系统中,对话管理是十分重要的一个模块,对话管理的主要功能是控制人机对话过程中的整个对话的流程。目前,对话流程的构建大体分为2种:其中一种是纯人工构建;另一种是人工标注语料,再用机器学习的方法从语料中构建对话流程。无论哪种方法都十分地费时费力,前者需要人工阅读对话语料,并从中总结出对话流程;而后者虽然不需要人工总结,但人工标注的工作量却十分巨大。
发明内容
本发明的目的在于克服现有技术问题,提出一种基于意图分析和对话聚类的对话流程抽取方法、设备及其存储介质。
为达成上述目的,首先,本发明提供了基于意图分析和对话聚类的对话流程抽取方法,所述方法包括步骤一至步骤四:
步骤一,获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;
步骤二,筛选确认为有意义的主题,所述有意义的主题称为有效意图;
步骤三,对语料中的有效意图的句子打上意图标签;
步骤四,将对话中的意图标签提取出来形成一个序列,所述序列称为对话流程。
进一步的,对语料中的每段对话都进行意图标签提取,得到一个序列的集合,所述序列的集合为多个的对话流程。
进一步的,对集合中的序列进行聚类,聚类中心中的获得的序列为有代表性的对话流程。
进一步的,若所述对话包含第一对话D1、第二对话D2;所述第一对话D1包含n个句子,将对话表示为句子的序列S11,S12...S1n;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I11,I12...I1n;所述第二对话D2包含m个句子,将对话表示为句子的序列S21,S22...S2m;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I21,I22...I2m;使用编辑距离来衡量第一对话D1,第一对话D2所对应的对话流程的差别;
其中,n、m均为正整数。
进一步的,将语料中的每个对话分别表示成对话流程的形式,使用编辑距离来衡量任意2个对话所对应的对话流程的差别。
进一步的,对所有对话流程采用KNN聚类算法,得到k个聚类,将每个聚类中心的对话流程挑选出来对话流程,得到k个对话流程,称为最终提取的对话流程。
相应的,本发明还提供了一种设备,所述设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的处理系统,所述处理系统被所述处理器执行所述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
相应的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行时实现上述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
通过本发明的基于意图分析和对话聚类的对话流程抽取方法、设备及其存储介质,与现有技术相比,本发明的对话流程抽取方法是采用意图分析和对话聚类的对话流程自动抽取过程,大大减少人工参与过程,整个构建过程,只需要筛选确认为有意义的主题的步骤中进行人工筛选意图,其余皆由系统自动完成,提升了工作效率,而且提升了话流程抽取的有效性和可靠性。
附图说明
此处所说明的附图用来提供对发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种基于意图分析和对话聚类的对话流程抽取方法的流程示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于意图分析和对话聚类的对话流程抽取方法,如附图1所示,包括如下步骤S1-S4:
步骤S1,获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;
步骤S2,筛选确认为有意义的主题,所述有意义的主题称为有效意图;
步骤S3,对语料中的有效意图的句子打上意图标签;
步骤S4,将一段对话中的意图标签提取出来形成一个序列,所述序列称为对话流程。
语料中包含有多段对话,进一步的,对语料中的每段对话都进行意图标签提取,得到一个序列的集合,所述序列的集合为多个的对话流程。
进一步的,对集合中的序列进行聚类,聚类中心中的获得的序列为有代表性的对话流程。本发明中,所述代表性的对话流程,至少2种用途:用于构造自动对话装置/机器人客服/聊天机器人的“对话管理”模块。例如,将代表性对话流程转换为有限状态机之后,就可以作为“对话管理”模块,可以将这些有代表性的对话流程用于培训,例如用于培训客服人员,或用于培训销售人员。
进一步的,所述对话包含第一对话D1、第二对话D2,使用编辑距离来衡量第一对话D1,第一对话D2所对应的对话流程的差别。
其中,所述第一对话D1包含n个句子,将对话表示为句子的序列S11,S12...S1n;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I11,I12...I1n;意图序列不包含具体的句子,它实际上表示的是对话的流程;
类似地,所述第二对话可以抽象为由m个意图组成的序列,即该对话对应的对话流程:I21,I22...I2m,所述第二对话D2包含m个句子,将对话表示为句子的序列S21,S22...S2m;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I21,I22...I2m;
其中,n、m均为正整数。
进一步的,本发明基于意图分析和对话聚类的对话流程抽取方法中,将语料中的每个对话分别表示成对话流程的形式,使用编辑距离来衡量任意2个对话所对应的对话流程的差别。
进一步的,对所有对话流程采用KNN聚类算法,得到k个聚类,将每个聚类中心的对话流程挑选出来对话流程,得到k个对话流程,称为最终提取的对话流程。
需要说明的是,本发明中对话是指1次具体的会话。如在仅有2个人参与的会话中,常见的情况是2个人轮流说话,也有可能1个人会接连说几句话。将参与会话的2个人所说的话,按照时间先后顺序依次排列,所构成的句子的序列,即为对话。
在本发明的另一实施例中,相对于上述基于意图分析和对话聚类的对话流程抽取方法,本发明还提供了一种设备,所述设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的处理系统,所述处理系统被所述处理器执行上述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
在本发明的另一实施例中,相对于上述设备,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行时实现上述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
本领域技术技术人员知道,本发明的实施方式可以实现为一种方法、设备或计算机程序产品。因此,本发明公开可以具体实现为以下形式,即全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
本发明中的KNN(k-Nearest Neighbor)聚类算法,也称K最近邻分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该算法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象,该算法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN算法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN算法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN算法较其他方法更为适合。
上述说明描述了本发明的优选实施例,但应当理解本发明并非局限于上述实施例,且不应看作对其他实施例的排除。通过本发明的启示,本领域技术人员结合公知或现有技术、知识所进行的改动也应视为在本发明的保护范围内。
Claims (8)
1.一种基于意图分析和对话聚类的对话流程抽取方法,其特征在于,包括如下步骤:
步骤一,获取原始聊天语料,并通过LDA算法对其中的句子进行主题分析,分析出来的主题称为意图;
步骤二,筛选确认为有意义的主题,所述有意义的主题称为有效意图;
步骤三,对语料中的有效意图的句子打上意图标签;
步骤四,将对话中的意图标签提取出来形成一个序列,所述序列称为对话流程。
2.根据权利要求1所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,
对语料中的每段对话都进行意图标签提取,得到一个序列的集合,所述序列的集合为多个的对话流程。
3.根据权利要求2所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,
对集合中的序列进行聚类,聚类中心中的获得的序列为有代表性的对话流程。
4.根据权利要求1所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,
所述对话包含第一对话D1、第二对话D2;
所述第一对话D1包含n个句子,将对话表示为句子的序列S11,S12...S1n;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I11,I12...I1n;
所述第二对话D2包含m个句子,将对话表示为句子的序列S21,S22...S2m;对每个句子分别打上意图标签后,可将对话进一步抽象为意图的序列I21,I22...I2m;
使用编辑距离来衡量第一对话D1,第一对话D2所对应的对话流程的差别;
其中,n、m均为正整数。
5.根据权利要求4所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,
将语料中的每个对话分别表示成对话流程的形式,使用编辑距离来衡量任意2个对话所对应的对话流程的差别。
6.根据权利要求5所述的基于意图分析和对话聚类的对话流程抽取方法,其特征在于,
对所有对话流程采用KNN聚类算法,得到k个聚类,将每个聚类中心的对话流程挑选出来对话流程,得到k个对话流程,称为最终提取的对话流程。
7.一种设备,其特征在于,
所述设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的处理系统,所述处理系统被所述处理器执行权利要求1至6中任一项所述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
8.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行时实现如权利要求1至6中任一项所述的基于意图分析和对话聚类的对话流程抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810651107.0A CN109062951B (zh) | 2018-06-22 | 2018-06-22 | 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810651107.0A CN109062951B (zh) | 2018-06-22 | 2018-06-22 | 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109062951A true CN109062951A (zh) | 2018-12-21 |
CN109062951B CN109062951B (zh) | 2021-04-06 |
Family
ID=64820831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810651107.0A Active CN109062951B (zh) | 2018-06-22 | 2018-06-22 | 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109062951B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782775A (zh) * | 2019-04-04 | 2020-10-16 | 百度在线网络技术(北京)有限公司 | 对话方法、装置、设备和介质 |
CN111883115A (zh) * | 2020-06-17 | 2020-11-03 | 马上消费金融股份有限公司 | 语音流程质检的方法及装置 |
CN112115248A (zh) * | 2020-09-27 | 2020-12-22 | 支付宝(杭州)信息技术有限公司 | 一种从对话语料中抽取对话策略结构的方法及系统 |
CN113836275A (zh) * | 2020-06-08 | 2021-12-24 | 菜鸟智能物流控股有限公司 | 对话模型建立方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
CN106997375A (zh) * | 2017-02-28 | 2017-08-01 | 浙江大学 | 基于深度学习的客服回复推荐方法 |
WO2017206861A1 (zh) * | 2016-05-29 | 2017-12-07 | 陈勇 | 一种人机对话平台 |
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
CN108062388A (zh) * | 2017-12-15 | 2018-05-22 | 北京百度网讯科技有限公司 | 人机对话的回复生成方法和装置 |
-
2018
- 2018-06-22 CN CN201810651107.0A patent/CN109062951B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017206861A1 (zh) * | 2016-05-29 | 2017-12-07 | 陈勇 | 一种人机对话平台 |
CN106297800A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学院计算技术研究所 | 一种自适应的语音识别的方法和设备 |
CN106997375A (zh) * | 2017-02-28 | 2017-08-01 | 浙江大学 | 基于深度学习的客服回复推荐方法 |
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
CN108062388A (zh) * | 2017-12-15 | 2018-05-22 | 北京百度网讯科技有限公司 | 人机对话的回复生成方法和装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782775A (zh) * | 2019-04-04 | 2020-10-16 | 百度在线网络技术(北京)有限公司 | 对话方法、装置、设备和介质 |
CN111782775B (zh) * | 2019-04-04 | 2023-09-01 | 百度在线网络技术(北京)有限公司 | 对话方法、装置、设备和介质 |
CN113836275A (zh) * | 2020-06-08 | 2021-12-24 | 菜鸟智能物流控股有限公司 | 对话模型建立方法及装置 |
CN113836275B (zh) * | 2020-06-08 | 2023-09-05 | 菜鸟智能物流控股有限公司 | 对话模型建立方法、装置、非易失性存储介质和电子装置 |
CN111883115A (zh) * | 2020-06-17 | 2020-11-03 | 马上消费金融股份有限公司 | 语音流程质检的方法及装置 |
CN112115248A (zh) * | 2020-09-27 | 2020-12-22 | 支付宝(杭州)信息技术有限公司 | 一种从对话语料中抽取对话策略结构的方法及系统 |
CN112115248B (zh) * | 2020-09-27 | 2023-11-14 | 支付宝(杭州)信息技术有限公司 | 一种从对话语料中抽取对话策略结构的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109062951B (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109062951A (zh) | 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质 | |
CN113486833B (zh) | 多模态特征提取模型训练方法、装置、电子设备 | |
US20140161322A1 (en) | System and method for activity recognition | |
CN105468781A (zh) | 视频查询方法和装置 | |
CN101354608A (zh) | 一种视频输入实现方法及系统 | |
CN106649258A (zh) | 一种智能的问答系统 | |
CN115661553B (zh) | 一种基于bim的轨道交通构件分类方法、系统及设备 | |
CN112101329A (zh) | 一种基于视频的文本识别方法、模型训练的方法及装置 | |
CN112383828B (zh) | 一种具有类脑特性的体验质量预测方法、设备及系统 | |
CN114997344B (zh) | 一种基于城市大脑的多源数据规划方法及系统 | |
CN111368824B (zh) | 一种仪表识别方法、移动设备及存储介质 | |
CN115294397A (zh) | 一种分类任务的后处理方法、装置、设备及存储介质 | |
CN116881430A (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN115033739A (zh) | 搜索方法、模型训练方法、装置、电子设备和介质 | |
CN106372083B (zh) | 一种有争议性新闻线索自动发现的方法及系统 | |
CN103177264A (zh) | 基于视觉词典全局拓扑表达的图像分类方法 | |
CN110069558A (zh) | 基于深度学习的数据分析方法及终端设备 | |
CN105243277A (zh) | 一种计算机辅助医疗数据处理系统及方法 | |
CN110782128A (zh) | 一种用户职业标签生成方法、装置和电子设备 | |
CN108600254A (zh) | 一种音视频识别系统 | |
Cho | Designing smart cities: Security issues | |
CN114443930A (zh) | 一种新闻舆情智能监测分析方法、系统及计算机存储介质 | |
CN110378378B (zh) | 事件检索方法、装置、计算机设备及存储介质 | |
CN113673561A (zh) | 基于多模态的音乐标签自动分类方法、装置及介质 | |
CN110019164A (zh) | 一种异构结构化数据融合概率的计算方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |