CN108009287A - 一种基于对话系统的回答数据生成方法以及相关装置 - Google Patents

一种基于对话系统的回答数据生成方法以及相关装置 Download PDF

Info

Publication number
CN108009287A
CN108009287A CN201711422050.9A CN201711422050A CN108009287A CN 108009287 A CN108009287 A CN 108009287A CN 201711422050 A CN201711422050 A CN 201711422050A CN 108009287 A CN108009287 A CN 108009287A
Authority
CN
China
Prior art keywords
dialogue data
classifying rules
data
dialogue
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711422050.9A
Other languages
English (en)
Inventor
何朋
罗欢
权圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongguancun Kejin Technology Co Ltd
Original Assignee
Beijing Zhongguancun Kejin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongguancun Kejin Technology Co Ltd filed Critical Beijing Zhongguancun Kejin Technology Co Ltd
Priority to CN201711422050.9A priority Critical patent/CN108009287A/zh
Publication of CN108009287A publication Critical patent/CN108009287A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于对话系统的回答数据生成方法,包括:对获取的已知意图对话数据进行规则构建处理,得到分类规则集;判断接收的对话数据是否符合分类规则集的识别条件;若对话数据符合识别条件,则利用分类规则集对对话数据进行识别得到意图识别结果;若对话数据不符合识别条件,则利用分类模型对对话数据进行识别得到意图识别结果;根据意图识别结果生成对话数据对应的回答数据。通过构建分类规则集合对符合该规则集识别条件的对话数据进行识别,补充了分类模型识别过程,使分类模型无法识别的对话数据可以进行准确的识别,提高意图识别的准确率。本申请还公开了一种对话数据识别装置、服务器以及计算机可读存储介质,具有上述有益效果。

Description

一种基于对话系统的回答数据生成方法以及相关装置
技术领域
本申请涉及计算机技术领域,特别涉及一种基于对话系统的回答数据生成方法、回答数据生成装置、服务器以及计算机可读存储介质。
背景技术
随着信息技术的发展,机器学习技术被应用到越来越多的领域,提高不同应用场景下处理问题的效率。机器学习主要是通过大量数据进行训练,得到更加精准的识别模型,同时还要不断的使用原始数据对识别模型的进行测试,以判断该识别模型是否达到学习的要求。
其中,识别模型主要是对获取的数据进行分类识别,得到对应的分类意图识别结果再根据该分类意图识别结果做出下一步操作。尤其是在对话系统中,需要通过识别模型识别出用户的输入数据的意图,再根据该意图得到相应的回答。也就是,在对话系统中识别用户的意图决定了用户和机器对话的走向,而意图识别是否正确决定了对话走向是否与用户的预期相符。因此,对于对话系统,如何识别用户的意图十分重要,会直接影响到用户的体验。
通常,在构建对话系统的过程中,需要通过监督学习训练一个准确率较高的分类模型,使用分类模型来识别用户意图。其中,分类模型的准确率直接反映到意图识别的准确率中。并且,训练分类模型的数据质量和算法原理决定了分类模型准确率的上限。因此,一般都会通过提高数据质量和改进算法原理来提高意图识别准确率。
但是,在实际应用过程中,用户输入的对话数据的变化频率十分快速,识别模型往往由于新意图的数据量不够和学习速度较长,无法很好的识别出现的新对话数据,进而降低意图识别准确率,造成对话系统无法正确的回答用户,用户体验十分不友好。
因此,如何更加全面的提高识别模型的意图识别准确率,是本领域技术人员所关注的重点问题。
发明内容
本申请的目的是提供一种基于对话系统的回答数据生成方法、回答数据生成装置、服务器以及计算机可读存储介质,通过构建分类规则集合对符合该规则集识别条件的对话数据进行识别,补充了分类模型识别过程,使分类模型无法识别的对话数据可以进行准确的识别,提高意图识别的准确率,进而提高对话系统的回答准确率,提升用户使用体验。
为解决上述技术问题,本申请提供一种基于对话系统的回答数据生成方法,包括:
对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集;其中,所述已知意图对话数据为经过分析识别热点事件得到的;
判断接收的对话数据是否符合所述分类规则集的识别条件;
若所述对话数据符合所述识别条件,则利用所述分类规则集对所述对话数据进行识别得到意图识别结果;
若所述对话数据不符合所述识别条件,则利用分类模型对所述对话数据进行识别得到意图识别结果;
根据所述意图识别结果生成所述对话数据对应的回答数据。
可选的,对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集,包括:
获取所述已知意图对话数据;
根据所述已知意图对话数据进行决策树构建处理,得到决策树;
对所述决策树进行规则提取操作,得到多条分类规则;
对所有所述分类规则进行测试,根据测试结果进行筛选,将所有筛选通过的分类规则作为分类规则集。
可选的,对所述决策树进行规则提取操作,得到多条分类规则,包括:
记录从所述决策树的根节点到每个叶子节点经过的节点和路径;
以每个所述叶子节点对应的路径和节点作为一条分类规则对所有路径和所有节点进行处理,得到多条所述分类规则。
可选的,对所有所述分类规则进行测试,根据测试结果进行筛选,将所有筛选通过的分类规则作为分类规则集,包括:
对每条分类规则通过预设的测试集进行测试,得到所述测试结果;
根据所述测试结果判断对应的分类规则是否符合预设要求;
若是,则将所述分类规则加入所述分类规则集。
可选的,判断接收的对话数据是否符合所述分类规则集的识别条件,包括:
接收用户输入的所述对话数据;
将所述对话数据按照预设规则进行抽取处理,得到特征数据;
根据所述特征数据判断所述对话数据是否符合所述识别条件。
本申请还提供一种基于对话系统的回答数据生成装置,包括:
分类规则获取模块,用于对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集;其中,所述已知意图对话数据为经过分析识别热点事件得到的;
条件判断模块,用于判断接收的对话数据是否符合所述分类规则集的识别条件;
规则识别模块,用于利用所述分类规则集对所述对话数据进行识别得到意图识别结果;
模型识别模块,用于利用分类模型对所述对话数据进行识别得到意图识别结果;
应答模块,用于根据所述意图识别结果生成所述对话数据对应的回答数据。
可选的,所述分类规则获取模块,包括:
标注数据获取单元,用于获取所述已知意图对话数据;
决策树构建单元,用于根据所述已知意图对话数据进行决策树构建处理,得到决策树;
规则提取单元,用于对所述决策树进行规则提取操作,得到多条分类规则;
规则测试单元,用于对所有所述分类规则进行测试,根据测试结果进行筛选,将所有筛选通过的分类规则作为分类规则集。
可选的,所述条件判断模块,包括:
对话数据接收单元,用于接收用户输入的所述对话数据;
特征抽取单元,用于将所述对话数据按照预设规则进行抽取处理,得到特征数据;
判断单元,用于根据所述特征数据判断所述对话数据是否符合所述识别条件。
本申请还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时,实现如下的步骤:
对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集;其中,所述已知意图对话数据为经过分析识别热点事件得到的;
判断接收的对话数据是否符合所述分类规则集的识别条件;
若所述对话数据符合所述识别条件,则利用所述分类规则集对所述对话数据进行识别得到意图识别结果;
若所述对话数据不符合所述识别条件,则利用分类模型对所述对话数据进行识别得到意图识别结果;
根据所述意图识别结果生成所述对话数据对应的回答数据。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如下的步骤:
对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集;其中,所述已知意图对话数据为经过分析识别热点事件得到的;
判断接收的对话数据是否符合所述分类规则集的识别条件;
若所述对话数据符合所述识别条件,则利用所述分类规则集对所述对话数据进行识别得到意图识别结果;
若所述对话数据不符合所述识别条件,则利用分类模型对所述对话数据进行识别得到意图识别结果;
根据所述意图识别结果生成所述对话数据对应的回答数据。
可见,先通过对已知的热点事件的相关数据构建分类规则集合,再通过构建分类规则集合对符合该规则集识别条件的对话数据进行识别,补充了分类模型识别过程,使分类模型无法识别的对话数据可以进行准确的识别,提高意图识别的准确率,进而提高对话系统的回答准确率,提升用户使用体验。
本申请还提供一种基于对话系统的回答数据生成装置、服务器以及计算机可读存储介质,具有上述有益效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种基于对话系统的回答数据生成方法的流程图;
图2为本申请实施例所提供的基于对话系统的回答数据生成方法中的构建分类规则的流程图;
图3为本申请实施例所提供的基于对话系统的回答数据生成方法中的规则提取操作的流程图;
图4为本申请实施例所提供的基于对话系统的回答数据生成方法中的决策树的结构示意图;
图5为本申请实施例所提供的基于对话系统的回答数据生成方法中的规则过滤操作的流程图;
图6为本申请实施例所提供的基于对话系统的回答数据生成方法中的识别条件判断操作的流程图;
图7为本申请实施例所提供的一种基于对话系统的回答数据生成装置的结构示意图。
具体实施方式
本申请的核心是提供一种基于对话系统的回答数据生成方法、回答数据生成装置、服务器以及计算机可读存储介质,通过构建分类规则集合对符合该规则集识别条件的对话数据进行识别,补充了分类模型识别过程,使分类模型无法识别的对话数据可以进行准确的识别,提高意图识别的准确率,进而提高对话系统的回答准确率,提升用户使用体验。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种基于对话系统的回答数据生成方法的流程图。
本实施例提供一种基于对话系统的回答数据生成方法,可以补充分类模型的识别过程,提高意图识别的整体准确率,该方法可以包括:
S101,对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集;其中,已知意图对话数据为经过分析识别热点事件得到的;
本申请技术方案旨在根据已知意图的对话数据创建对应的分类规则集,通过分类规则对分类模型的识别过程进行补充识别,其中补充识别即为使用分类对象进行识别,该识别过程中的对象正是下一步骤中符合识别条件的对话数据。
因此,本步骤旨在根据已知意图对话数据创建对应的分类规则集。特别的,当本实施例应用在对话系统中时,本步骤可以根据已经分类(已进行意图分类)的用户对话问题进行处理得到对应的分类规则集。尤其需要根据分类准确(意图识别准确)的用户对话数据进行处理。
其中,已知意图对话数据也可以被叫做已分类对话数据、已识别对话数据,总的来说已知意图的对话数据就是已经被分类识别,并已经标注了准确分类标签的对话数据。其主要作用是在规则构建处理中可以提取出准确的分类规则,也就是说已知意图对话数据充当的是已有知识,通过已有知识提取出已有知识的规则,进一步过该规则对分类模型进行的补充识别。
进一步的,规则构建处理就是对已有知识中蕴含的特定形式的逻辑规则,进行抽取,使隐形的逻辑规则显性化的过程。具体的,可以是对已知意图对话数据进行抽象处理,也可以是进行关键词提取处理,总的来说本步骤中的规则构建处理,就是提取已知意图对话数据中逻辑元素得到逻辑规则,组成对应的分类规则,并将多条分类规则组合成分类规则集。
S102,判断接收的对话数据是否符合分类规则集的识别条件;
在步骤S101的基础上,本步骤旨在对接收到的对话数据进行判断。目的是判断新接收到的对话数据是否符合分类规则集的识别条件,其中,识别条件即该对话数据是否可以被分类规则集进行识别。
其中,进行判断的依据可以是对话数据中的关键词,也可以是对话数据大致应用类别,还可以将对话数据中的关键词和大致的应用类别同时作为判断的依据。具体的,应根据分类规则集自身属性的差别选择不同的方式对对话数据进行判断,例如,如果分类规则自身在构建时,主要是针对不同类别的对话数据中新出现的问题或者细节问题进行构建,那么本步骤中判断的依据就应该是针对不同的问题中的关键词;如果分类规则在构建时,主要是针对个别类别的对话数据进行构建,那么本步骤中判断的依据就为对话数据的类别信息。因此,应视分类规则集的构建角度和实际应用的情况选择具体的判断依据,只要保持对话数据是否可以被分类规则集进行有效的识别即可,在此不作赘述。
S103,若对话数据符合识别条件,则利用分类规则集对对话数据进行识别得到意图识别结果;
在步骤S102的基础上,本步骤旨在当对话数据符合识别条件,则利用分类规则集对对话数据进行识别得到意图识别结果。也就是,当对话数据符合识别条件后,对该对话数据进行补充识别,即利用分类规则对对话数据进行识别,得到对应的意图识别结果。
S104,若对话数据不符合识别条件,则利用分类模型对对话数据进行识别得到意图识别结果;
在步骤S103的基础上,本步骤旨在当对话数据不符合识别条件,则利用分类模型对对话数据进行识别得到意图识别结果。也就是,当对话数据不符合识别条件后,对该对话数据进行正常识别,即利用分类模型对对话数据进行识别,得到对应的意图识别结果。
S105,根据意图识别结果生成对话数据对应的回答数据。
在步骤S103或步骤S104的基础上,本步骤旨在根据意图识别结果得到对应的回答数据。上述步骤后,即得到了相应的对话数据对应的意图识别结果,即用户的意图什么,就可以根据该意图生成相应的对话。具体的,应用在对话系统中时,可以根据答案引擎和意图识别结果生成相应的回答数据,以回答用户在对话系统中的问题。
综上,本实施例提供的一种基于对话系统的回答数据生成方法,通过构建分类规则集合对符合该规则集识别条件的对话数据进行识别,补充了分类模型识别过程,使分类模型无法识别的对话数据可以进行准确的识别,提高意图识别的准确率,进而提高对话系统的回答准确率,提升用户使用体验。
请参考图2,图2为本申请实施例所提供的基于对话系统的回答数据生成方法中的构建分类规则的流程图。
基于上一实施例,本实施例主要针对上一实施例中如何构建分类规则做的一个说明,其他部分与上一实施例大体相同,相同部分可以参考上一实施例在此不做赘述。
本实施例提供一种构建分类规则的方法,可以通过已知意图对话数据构建出分类规则,可以包括:
S201,获取已知意图对话数据;
本步骤旨在获取已知意图对话数据,由于在使用监督学习的训练分类模型时,已经积累了大量已知意图的用户对话数据,即已经经过分类标注的对话数据。因此,本实施例中就可以获取该数据构建相关的分类规则。
其中,对话数据可以是用户在使用对话系统时,向系统发出的包含有一定意图的问题数据。一般会对获取的对话数据及进行分类标注,因此可以很容易的获得大量构建分类规则的原始数据,提升分类规则的构建效果。
S202,根据已知意图对话数据进行决策树构建处理,得到决策树;
在步骤S201的基础上,本步骤旨在根据已知意图对话数据构建相关的决策树。由于本实施例中构建相关的分类规则是通过构建决策树再提取得到的,因此本步骤主要是构建相关的决策树。当然,本实施例中还可通过其他方式构建分类规则,只要最后得到相关的分类规则或者是分类规则集,都可以作为本实施例中构建分类规则的方法,在此不做限定。
其中,构建决策树的方法根据选择算法不同,会有不同的构建方法,相关的算法可以根据实际应用的环境进行选择,不做限定。在本实施例中,是通过CART算法构建决策树,其应用环境是在语义分析中,需要将已知意图对话数据变化为语料。其中,具体构建过程为:对每条标注语料进行中文分词后,去掉停用词后,对所有词进行编号,总计得到n个词语。如某条语料出现编号为i的词,那么对应第i维度的取值为1,任意一条语料都可以转化为一个n维向量。CART算法在构造决策树的过程中,对所有属性和属性的取值计算Gini不纯度,最终选择Gini最小的属性及其值对样本进行分割。递归重复此过程,直到当前节点的所有样本都不属于同一类或者只剩下一个样本,那么此节点为非叶子节点。
其中,Gini是又称作Gini指数或基尼系数,用来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。
具体定义为:对于一个变量属性来说,它的划分点是一对连续变量属性值的中点。假设m个样本的集合一个属性有m个连续的值,那么则会有m-1个分裂点,每个分裂点为相邻两个连续值的均值。每个属性的划分按照能减少的杂质的量来进行排序,而杂质的减少量定义为划分前的杂质减去划分后的每个节点的杂质量划分所占比率之和。而杂质度量方法常用Gini指标,假设一个样本共有C类,那么一个节点的Gini不纯度可定义为
其中,pi表示属于i类的概率,当Gini(A)=0时,所有样本属于同类,所有类在节点中以等概率出现时,Gini(A)最大化。
S203,对决策树进行规则提取操作,得到多条分类规则;
在步骤S202的基础上,本步骤旨在根据得到的决策树提取分类规则。由于决策树是一种关于各种中文词语的树形结构,每个词语相当于是一个节点,除根节点外,每个节点都有关于它的父节点和子节点,也就是具有与其关联的语料,根据该关联关系就可以提取出语料之间的连接关系,进而得到分类规则。
具体的,其中关于分类规则的提取操作可以根据实际应用的场景选择不同的规则提取操作,在此不做具体限定。
S204,对所有分类规则进行测试,根据测试结果进行筛选,将所有筛选通过的分类规则作为分类规则集。
在步骤S203的基础上,本步骤主要是对获取到的分类规则进行筛选,也可以说是对得到的分类规则进行过滤。其中,分类规则的过滤可以根据测试结果进行过滤,还可以根据实际应用环境选择合适的过滤方法,在此不做限定。
请参考图3,图3为本申请实施例所提供的基于对话系统的回答数据生成方法中的规则提取操作的流程图。
基于上一实施例,本实施例主要针对上一实施例中如何提取分类规则做的一个说明,其他部分与上一实施例大体相同,相同部分可以参考上一实施例在此不做赘述。
本实施例可以包括:
S301,记录从决策树的根节点到每个叶子节点经过的节点和路径;
由于决策树的结构中的节点和节点之间的路径包含了相应的规则,因此想要提取相应的规则数据,就需要记录相关的节点和路径。
通常在决策树中,任意一个节点的左子树表示不包含的词语(节点),右子树表述包含的词语(节点)。其中,左右路径就代表了对于节点的包含或不包含的关系,而节点即为语料。
S302,以每个叶子节点对应的路径和节点作为一条分类规则对所有路径和所有节点进行处理,得到多条分类规则。
在步骤S301的基础上,本步骤旨在将上一步骤所记录的所有路径和所有节点作为一条分类规则,并以此对所有叶子节点进行处理得到多条分类规则。本步骤的主要目的是将决策树中的元素组成,并形成一条非树形结构的分类规则,实现提取分类规则。
请参考图4,图4为本申请实施例所提供的基于对话系统的回答数据生成方法中的决策树的结构示意图。
图中,W1至W7为节点,节点的属性中包含了语料。
图4所示的为规则提取的一种实现方式,其中,W5节点样本数为m,样本数最多的分类C的样本数为n,那么从W1节点遍历到W5节点可以形成一条规则:
不包含词语:W1;包含词语:W2;分类:C;准确率:n/m。
进一步的,可以通过上述方式遍历所有叶子节点得到多条分类规则。
请参考图5,图5为本申请实施例所提供的基于对话系统的回答数据生成方法中的规则过滤操作的流程图。
基于上一实施例,本实施例主要针对上一实施例中如何过滤分类规则做的一个说明,其他部分与上一实施例大体相同,相同部分可以参考上一实施例在此不做赘述。
本实施例可以包括:
S401,对每条分类规则通过预设的测试集进行测试,得到测试结果;
S402,根据测试结果判断对应的分类规则是否符合预设要求;
S403,若是,则将分类规则加入分类规则集。
本实施例的主要目的是对得到的多条分类规则进行过滤操作,并且本实施例中进行过滤操作,主要是根据测试的测试结果进行相关的过滤操作。
其中,测试集可以是测试分类规则识别的准确率的数据集合,因此相应的得到的测试规则可以是相关的测试准确率,进一步判断该分类规则的测试准确率是否大于一定的准确率来判断该分类规则是否达到要求。
请参考图6,图6为本申请实施例所提供的基于对话系统的回答数据生成方法中的识别条件判断操作的流程图。
基于上一实施例,本实施例主要针对上一实施例中如何进行识别条件判断做的一个说明,其他部分与上一实施例大体相同,相同部分可以参考上一实施例在此不做赘述。
本实施例可以包括:
S501,接收用户输入的对话数据;
S502,将对话数据按照预设规则进行抽取处理,得到特征数据;
S503,根据特征数据判断对话数据是否符合识别条件。
本实施例主要是判断在实际应用中接收的对话数据是否符合分类规则的识别条件,特别的,本实施例中主要是通过对话数据中特征数据判断该对话数据是否符合相应的识别条件。
具体的,本实施例中首先对对话数据抽取相应的特征数据,再根据特征数据判断是否符合识别条件。其中,判断的方式可以是将特征数据与分类规则中的特征数据进行比较,如果该分类规则包含特征数据,则判定识别条件通过。
本申请实施例提供了一种基于对话系统的回答数据生成方法,可以通过构建分类规则集合对符合该规则集识别条件的对话数据进行识别,补充了分类模型识别过程,使分类模型无法识别的对话数据可以进行准确的识别,提高意图识别的准确率。
下面对本申请实施例提供的一种基于对话系统的回答数据生成装置进行介绍,下文描述的一种基于对话系统的回答数据生成装置与上文描述的一种基于对话系统的回答数据生成方法可相互对应参照。
请参考图7,图7为本申请实施例所提供的一种基于对话系统的回答数据生成装置的结构示意图。
本实施例提供一种基于对话系统的回答数据生成装置,该装置可以包括:
分类规则获取模块100,用于对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集;
条件判断模块200,用于判断接收的对话数据是否符合分类规则集的识别条件;
规则识别模块300,用于利用分类规则集对对话数据进行识别得到意图识别结果;
模型识别模块400,用于利用分类模型对对话数据进行识别得到意图识别结果;
应答模块500,用于根据意图识别结果生成对话数据对应的回答数据。
可选的,分类规则获取模块100可以包括:
标注数据获取单元,用于获取已知意图对话数据;
决策树构建单元,用于根据已知意图对话数据进行决策树构建处理,得到决策树;
规则提取单元,用于对决策树进行规则提取操作,得到多条分类规则;
规则测试单元,用于对所有分类规则进行测试,根据测试结果进行筛选,将所有筛选通过的分类规则作为分类规则集。
可选的,条件判断模块200,包括:
对话数据接收单元,用于接收用户输入的对话数据;
特征抽取单元,用于将对话数据按照预设规则进行抽取处理,得到特征数据;
判断单元,用于根据特征数据判断对话数据是否符合识别条件。
本申请实施例还提供一种服务器,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时,实现如下的步骤:
对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集;
判断接收的对话数据是否符合分类规则集的识别条件;
若对话数据符合识别条件,则利用分类规则集对对话数据进行识别得到意图识别结果;
若对话数据不符合识别条件,则利用分类模型对对话数据进行识别得到意图识别结果;
根据意图识别结果生成对话数据对应的回答数据。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现如下的步骤:
对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集;
判断接收的对话数据是否符合分类规则集的识别条件;
若对话数据符合识别条件,则利用分类规则集对对话数据进行识别得到意图识别结果;
若对话数据不符合识别条件,则利用分类模型对对话数据进行识别得到意图识别结果;
根据意图识别结果生成对话数据对应的回答数据。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种基于对话系统的回答数据生成方法、回答数据生成装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种基于对话系统的回答数据生成方法,其特征在于,包括:
对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集;其中,所述已知意图对话数据为经过分析识别热点事件得到的;
判断接收的对话数据是否符合所述分类规则集的识别条件;
若所述对话数据符合所述识别条件,则利用所述分类规则集对所述对话数据进行识别得到意图识别结果;
若所述对话数据不符合所述识别条件,则利用分类模型对所述对话数据进行识别得到意图识别结果;
根据所述意图识别结果生成所述对话数据对应的回答数据。
2.根据权利要求1所述的回答数据生成方法,其特征在于,对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集,包括:
获取所述已知意图对话数据;
根据所述已知意图对话数据进行决策树构建处理,得到决策树;
对所述决策树进行规则提取操作,得到多条分类规则;
对所有所述分类规则进行测试,根据测试结果进行筛选,将所有筛选通过的分类规则作为分类规则集。
3.根据权利要求2所述的回答数据生成方法,其特征在于,对所述决策树进行规则提取操作,得到多条分类规则,包括:
记录从所述决策树的根节点到每个叶子节点经过的节点和路径;
以每个所述叶子节点对应的路径和节点作为一条分类规则对所有路径和所有节点进行处理,得到多条所述分类规则。
4.根据权利要求3所述的回答数据生成方法,其特征在于,对所有所述分类规则进行测试,根据测试结果进行筛选,将所有筛选通过的分类规则作为分类规则集,包括:
对每条分类规则通过预设的测试集进行测试,得到所述测试结果;
根据所述测试结果判断对应的分类规则是否符合预设要求;
若是,则将所述分类规则加入所述分类规则集。
5.根据权利要求1所述的回答数据生成方法,其特征在于,判断接收的对话数据是否符合所述分类规则集的识别条件,包括:
接收用户输入的所述对话数据;
将所述对话数据按照预设规则进行抽取处理,得到特征数据;
根据所述特征数据判断所述对话数据是否符合所述识别条件。
6.一种基于对话系统的回答数据生成装置,其特征在于,包括:
分类规则获取模块,用于对获取的已知意图对话数据根据已知的意图进行规则构建处理,得到分类规则集;其中,所述已知意图对话数据为经过分析识别热点事件得到的;
条件判断模块,用于判断接收的对话数据是否符合所述分类规则集的识别条件;
规则识别模块,用于利用所述分类规则集对所述对话数据进行识别得到意图识别结果;
模型识别模块,用于利用分类模型对所述对话数据进行识别得到意图识别结果;
应答模块,用于根据所述意图识别结果生成所述对话数据对应的回答数据。
7.根据权利要求6所述的回答数据生成装置,其特征在于,所述分类规则获取模块,包括:
标注数据获取单元,用于获取所述已知意图对话数据;
决策树构建单元,用于根据所述已知意图对话数据进行决策树构建处理,得到决策树;
规则提取单元,用于对所述决策树进行规则提取操作,得到多条分类规则;
规则测试单元,用于对所有所述分类规则进行测试,根据测试结果进行筛选,将所有筛选通过的分类规则作为分类规则集。
8.根据权利要求7所述的回答数据生成装置,其特征在于,所述条件判断模块,包括:
对话数据接收单元,用于接收用户输入的所述对话数据;
特征抽取单元,用于将所述对话数据按照预设规则进行抽取处理,得到特征数据;
判断单元,用于根据所述特征数据判断所述对话数据是否符合所述识别条件。
9.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的回答数据生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的回答数据生成方法的步骤。
CN201711422050.9A 2017-12-25 2017-12-25 一种基于对话系统的回答数据生成方法以及相关装置 Pending CN108009287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711422050.9A CN108009287A (zh) 2017-12-25 2017-12-25 一种基于对话系统的回答数据生成方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711422050.9A CN108009287A (zh) 2017-12-25 2017-12-25 一种基于对话系统的回答数据生成方法以及相关装置

Publications (1)

Publication Number Publication Date
CN108009287A true CN108009287A (zh) 2018-05-08

Family

ID=62061185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711422050.9A Pending CN108009287A (zh) 2017-12-25 2017-12-25 一种基于对话系统的回答数据生成方法以及相关装置

Country Status (1)

Country Link
CN (1) CN108009287A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446509A (zh) * 2018-09-06 2019-03-08 厦门快商通信息技术有限公司 一种对话语料意图分析方法、系统及电子设备
CN109522556A (zh) * 2018-11-16 2019-03-26 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN110147448A (zh) * 2019-04-29 2019-08-20 上海欣方智能系统有限公司 短信诈骗分类方法及系统
CN110727773A (zh) * 2019-10-11 2020-01-24 沈阳民航东北凯亚有限公司 信息提供方法及装置
CN110750626A (zh) * 2018-07-06 2020-02-04 中国移动通信有限公司研究院 一种基于场景的任务驱动的多轮对话方法及系统
WO2020062006A1 (en) * 2018-09-28 2020-04-02 Entit Software Llc Intent and context-aware dialogue based virtual assistance
CN112559697A (zh) * 2019-09-26 2021-03-26 北京京东尚科信息技术有限公司 识别话术意图的方法和装置
CN113539275A (zh) * 2020-04-22 2021-10-22 北京有限元科技有限公司 确定话术的方法、装置以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319244A1 (en) * 2002-10-24 2009-12-24 Mike West Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications
WO2013123853A1 (zh) * 2012-02-24 2013-08-29 腾讯科技(深圳)有限公司 人机对话方法及装置
CN104798043A (zh) * 2014-06-27 2015-07-22 华为技术有限公司 一种数据处理方法和计算机系统
CN105654118A (zh) * 2015-12-25 2016-06-08 中国民航信息网络股份有限公司 民航旅客关系分类方法
CN107003997A (zh) * 2014-12-04 2017-08-01 微软技术许可有限责任公司 用于交互式对话系统的情绪类型分类
CN107133349A (zh) * 2017-05-24 2017-09-05 北京无忧创新科技有限公司 一种对话机器人系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319244A1 (en) * 2002-10-24 2009-12-24 Mike West Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications
WO2013123853A1 (zh) * 2012-02-24 2013-08-29 腾讯科技(深圳)有限公司 人机对话方法及装置
CN104798043A (zh) * 2014-06-27 2015-07-22 华为技术有限公司 一种数据处理方法和计算机系统
CN107003997A (zh) * 2014-12-04 2017-08-01 微软技术许可有限责任公司 用于交互式对话系统的情绪类型分类
CN105654118A (zh) * 2015-12-25 2016-06-08 中国民航信息网络股份有限公司 民航旅客关系分类方法
CN107133349A (zh) * 2017-05-24 2017-09-05 北京无忧创新科技有限公司 一种对话机器人系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750626A (zh) * 2018-07-06 2020-02-04 中国移动通信有限公司研究院 一种基于场景的任务驱动的多轮对话方法及系统
CN110750626B (zh) * 2018-07-06 2022-05-06 中国移动通信有限公司研究院 一种基于场景的任务驱动的多轮对话方法及系统
CN109446509A (zh) * 2018-09-06 2019-03-08 厦门快商通信息技术有限公司 一种对话语料意图分析方法、系统及电子设备
CN109446509B (zh) * 2018-09-06 2023-04-07 厦门快商通信息技术有限公司 一种对话语料意图分析方法、系统及电子设备
WO2020062006A1 (en) * 2018-09-28 2020-04-02 Entit Software Llc Intent and context-aware dialogue based virtual assistance
CN109522556A (zh) * 2018-11-16 2019-03-26 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN109522556B (zh) * 2018-11-16 2024-03-12 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN110147448A (zh) * 2019-04-29 2019-08-20 上海欣方智能系统有限公司 短信诈骗分类方法及系统
CN112559697A (zh) * 2019-09-26 2021-03-26 北京京东尚科信息技术有限公司 识别话术意图的方法和装置
CN110727773A (zh) * 2019-10-11 2020-01-24 沈阳民航东北凯亚有限公司 信息提供方法及装置
CN110727773B (zh) * 2019-10-11 2022-02-01 沈阳民航东北凯亚有限公司 信息提供方法及装置
CN113539275A (zh) * 2020-04-22 2021-10-22 北京有限元科技有限公司 确定话术的方法、装置以及存储介质

Similar Documents

Publication Publication Date Title
CN108009287A (zh) 一种基于对话系统的回答数据生成方法以及相关装置
CN109492101B (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN104573669A (zh) 图像物体检测方法
CN109308695A (zh) 基于改进U-net卷积神经网络模型的癌细胞识别方法
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN108399431A (zh) 分类模型训练方法以及分类方法
CN112700325A (zh) 一种基于Stacking集成学习的网贷回头客预测的方法
CN108550054B (zh) 一种内容质量评估方法、装置、设备和介质
CN106886580A (zh) 一种基于深度学习的图片情感极性分析方法
CN108090099B (zh) 一种文本处理方法及装置
CN109800309A (zh) 课堂话语类型分类方法及装置
CN109919252A (zh) 利用少数标注图像生成分类器的方法
WO2023280229A1 (zh) 图像处理方法、电子设备及存储介质
US20190130030A1 (en) Generation method, generation device, and recording medium
CN105786898B (zh) 一种领域本体的构建方法和装置
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN109145956A (zh) 评分方法、装置、计算机设备及存储介质
CN111984790A (zh) 一种实体关系抽取方法
CN112131354B (zh) 答案筛选方法、装置、终端设备和计算机可读存储介质
CN107766560A (zh) 客服服务流程的评价方法和系统
CN108229285A (zh) 物体分类方法、物体分类器的训练方法、装置和电子设备
CN110363248A (zh) 基于图像的移动众包测试报告的计算机识别装置及方法
CN110287981A (zh) 基于生物启发性表征学习的显著性检测方法及系统
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180508