CN110888968A - 客服对话意图分类方法及装置、电子设备及介质 - Google Patents

客服对话意图分类方法及装置、电子设备及介质 Download PDF

Info

Publication number
CN110888968A
CN110888968A CN201910979317.7A CN201910979317A CN110888968A CN 110888968 A CN110888968 A CN 110888968A CN 201910979317 A CN201910979317 A CN 201910979317A CN 110888968 A CN110888968 A CN 110888968A
Authority
CN
China
Prior art keywords
customer service
sample set
training sample
training
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910979317.7A
Other languages
English (en)
Inventor
王振众
陈勇达
张伟
龚小龙
陈曦
麻志毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN201910979317.7A priority Critical patent/CN110888968A/zh
Publication of CN110888968A publication Critical patent/CN110888968A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种客服对话意图分类方法及装置、一种电子设备及一种计算机可读介质。其中,所述客服对话意图分类方法包括:获取第一训练样本集,其中,第一训练样本集包括第一数量的第一客服对话样本数据,第一客服对话样本数据具有人工标注的意图类别标识;基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,其中,第二训练样本集包括第二数量的第二客服对话样本数据;根据第二训练样本集训练文本分类模型,得到训练后的文本分类模型;采用训练后的所述文本分类模型对待分类的客服对话数据进行分类,得到所述客服对话数据对应的意图类别标识。本申请方法既可以降低人工成本,又可以确保提高分类准确率。

Description

客服对话意图分类方法及装置、电子设备及介质
技术领域
本申请涉及智能客服技术领域,具体涉及一种客服对话意图分类方法及装置、一种电子设备及一种计算机可读介质。
背景技术
目前,客服行业以人工为主,人工客服具有招人难、培训成本高、流动性大等缺点。人工客服的工作有很大一部分可以由智能客服替代,智能客服可以全天24小时工作,所以实现客服行业的智能化可以大大减少人力成本。
实现客服行业的智能问答系统需要从海量的历史对话语料进行对话意图分类,总结关键问题。客服行业拥有海量的历史对话数据,但其通常为无标注数据。因此,如何对历史对话数据进行高效准确的分类是推动客服智能问答系统发展的重要一环。
目前实现对话意图分类的方案主要分为有监督学习和无监督学习两大类,传统有监督学习需要人工标注大量样本、耗时耗力,而无监督学习虽然不需要标注样本,但其分类准确性较低,分类效果往往很难令人满意。
因此,需要提供一种兼具分类准确性和较高效率的客服对话意图分类方法。
发明内容
本申请的目的是提供一种客服对话意图分类方法及装置、一种电子设备及一种计算机可读介质。
本申请第一方面提供一种客服对话意图分类方法,包括:
获取第一训练样本集,其中,所述第一训练样本集包括第一数量的第一客服对话样本数据,所述第一客服对话样本数据具有人工标注的意图类别标识;
基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,其中,所述第二训练样本集包括第二数量的具有意图类别标识的第二客服对话样本数据,所述第二数量大于所述第一数量;
根据所述第二训练样本集训练文本分类模型,得到训练后的文本分类模型;
采用训练后的所述文本分类模型对待分类的客服对话数据进行分类,得到所述客服对话数据对应的意图类别标识。
在本申请第一方面的一些实施方式中,所述基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,包括:
针对所述第一训练样本集中的每条第一客服对话样本数据,提取对话意图段落;
根据提取的所述对话意图段落和所述第一客服对话样本数据的意图类别标识,生成第三客服对话样本数据;
将所有所述第三客服对话样本数据的集合,确定为第三训练样本集;
针对所述第三训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集。
在本申请第一方面的一些实施方式中,所述针对所述第一训练样本集中的每条第一客服对话样本数据,提取对话意图段落,包括:
针对所述第一训练样本集中的每条第一客服对话样本数据,采用正则化技术匹配出客服问候语;
将所述客服问候语之后的指定数量句对话提取为对话意图段落。
在本申请第一方面的一些实施方式中,所述针对所述第三训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,包括:
针对所述第三训练样本集中的每条第三客服对话样本数据,执行同义词替换、同义词插入、词语位置变换和词语删除中的至少一项处理,得到与所述第三客服对话样本数据对应的多条第二客服对话样本数据;
将所有所述第二客服对话样本数据的集合,确定为第二训练样本集。
在本申请第一方面的一些实施方式中,所述根据所述第二训练样本集训练文本分类模型,得到训练后的文本分类模型,包括:
针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,生成训练语料;
将所述训练语料转换为词向量;
利用所述词向量训练文本分类模型,得到训练后的文本分类模型。
在本申请第一方面的一些实施方式中,所述针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,生成训练语料,包括:
针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,得到多条词语;
根据预设的过滤规则对所述多条词语进行过滤后,得到训练语料。
在本申请第一方面的一些实施方式中,所述文本分类模型包括层次注意力模型。
本申请第二方面提供一种客服对话意图分类装置,包括:
第一训练样本集获取模块,用于获取第一训练样本集,其中,所述第一训练样本集包括第一数量的第一客服对话样本数据,所述第一客服对话样本数据具有人工标注的意图类别标识;
样本量扩充模块,用于基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,其中,所述第二训练样本集包括第二数量的具有意图类别标识的第二客服对话样本数据,所述第二数量大于所述第一数量;
模型训练模块,用于根据所述第二训练样本集训练文本分类模型,得到训练后的文本分类模型;
意图分类模块,用于采用训练后的所述文本分类模型对待分类的客服对话数据进行分类,得到所述客服对话数据对应的意图类别标识。
在本申请第二方面的一些实施方式中,所述样本量扩充模块,包括:
意图段落提取单元,用于针对所述第一训练样本集中的每条第一客服对话样本数据,提取对话意图段落;
第三样本生成单元,用于根据提取的所述对话意图段落和所述第一客服对话样本数据的意图类别标识,生成第三客服对话样本数据;
第三样本集确定单元,用于将所有所述第三客服对话样本数据的集合,确定为第三训练样本集;
样本量扩充单元,用于针对所述第三训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集。
在本申请第二方面的一些实施方式中,所述意图段落提取单元,包括:
正则匹配子单元,用于针对所述第一训练样本集中的每条第一客服对话样本数据,采用正则化技术匹配出客服问候语;
意图段落提取子单元,用于将所述客服问候语之后的指定数量句对话提取为对话意图段落。
在本申请第二方面的一些实施方式中,所述样本量扩充模块,包括:
样本量扩充单元,用于针对所述第三训练样本集中的每条第三客服对话样本数据,执行同义词替换、同义词插入、词语位置变换和词语删除中的至少一项处理,得到与所述第三客服对话样本数据对应的多条第二客服对话样本数据;
第二样本集确定单元,用于将所有所述第二客服对话样本数据的集合,确定为第二训练样本集。
在本申请第二方面的一些实施方式中,所述模型训练模块,包括:
分词单元,用于针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,生成训练语料;
向量转换单元,用于将所述训练语料转换为词向量;
模型训练单元,用于利用所述词向量训练文本分类模型,得到训练后的文本分类模型。
在本申请第二方面的一些实施方式中,所述分词单元,包括:
分词子单元,用于针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,得到多条词语;
过滤子单元,用于根据预设的过滤规则对所述多条词语进行过滤后,得到训练语料。
在本申请第二方面的一些实施方式中,所述文本分类模型包括层次注意力模型。
本申请第三方面提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法。
本申请第四方面提供一种计算机可读介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。
相较于现有技术,本申请提供的客服对话意图分类方法,首先获取第一训练样本集,其中,所述第一训练样本集包括第一数量的第一客服对话样本数据,所述第一客服对话样本数据具有人工标注的意图类别标识,然后基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,其中,所述第二训练样本集包括第二数量的具有意图类别标识的第二客服对话样本数据,所述第二数量大于所述第一数量,接下来,根据所述第二训练样本集训练文本分类模型,得到训练后的文本分类模型,然后,即可采用训练后的所述文本分类模型对待分类的客服对话数据进行分类,得到所述客服对话数据对应的意图类别标识。其中,由于采用了文本数据增强技术进行样本量扩充,因此,只需要人工对少量的第一客服对话样本数据进行意图类别标识,即可利用文本数据增强技术自动扩充为大样本量的第二训练样本集,从而降低人工标注样本的成本,以及提高样本数据的生成效率;进一步的,利用大量的第二客服对话样本数据训练文本分类模型,可以确保所述文本分类模型具有较高的分类准确率,进而准确地将待分类的客服对话数据进行分类。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请的一些实施方式所提供的一种客服对话意图分类方法的流程图;
图2示出了本申请的一些具体实施方式所提供的一种客服对话意图分类方法的流程图;
图3示出了本申请的一些实施方式所提供的一种词语转向量模型的网络结构图;
图4示出了本申请的一些实施方式所提供的一种层次注意力模型的网络结构图;
图5示出了本申请的一些实施方式所提供的一种客服对话意图分类装置的示意图;
图6示出了本申请的一些实施方式所提供的一种电子设备的示意图;
图7示出了本申请的一些实施方式所提供的一种计算机介质的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
另外,术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例提供一种客服对话意图分类方法及装置、一种电子设备及一种计算机可读介质,下面结合附图进行示例性说明。
请参考图1,其示出了本申请的一些实施方式所提供的一种客服对话意图分类方法的流程图,图1所示的客服对话意图分类方法,可以参照图2所示的流程图进行理解,如图1所示,所述客服对话意图分类方法,可以包括以下步骤:
步骤S101:获取第一训练样本集,其中,所述第一训练样本集包括第一数量的第一客服对话样本数据,所述第一客服对话样本数据具有人工标注的意图类别标识。
步骤S102:基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,其中,所述第二训练样本集包括第二数量的具有意图类别标识的第二客服对话样本数据,所述第二数量大于所述第一数量。
步骤S103:根据所述第二训练样本集训练文本分类模型,得到训练后的文本分类模型。
步骤S104:采用训练后的所述文本分类模型对待分类的客服对话数据进行分类,得到所述客服对话数据对应的意图类别标识。
相较于现有技术,本申请实施例提供的客服对话意图分类方法,首先获取第一训练样本集,其中,所述第一训练样本集包括第一数量的第一客服对话样本数据,所述第一客服对话样本数据具有人工标注的意图类别标识,然后基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,其中,所述第二训练样本集包括第二数量的具有意图类别标识的第二客服对话样本数据,所述第二数量大于所述第一数量,接下来,根据所述第二训练样本集训练文本分类模型,得到训练后的文本分类模型,然后,即可采用训练后的所述文本分类模型对待分类的客服对话数据进行分类,得到所述客服对话数据对应的意图类别标识。其中,由于采用了文本数据增强技术进行样本量扩充,因此,只需要人工对少量的第一客服对话样本数据进行意图类别标识,即可利用文本数据增强技术自动扩充为大样本量的第二训练样本集,从而降低人工标注样本的成本,以及提高样本数据的生成效率;进一步的,利用大量的第二客服对话样本数据训练文本分类模型,可以确保所述文本分类模型具有较高的分类准确率,进而准确地将待分类的客服对话数据进行分类。
在本申请实施例的一些变更实施方式中,所述基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,可以包括:
针对所述第一训练样本集中的每条第一客服对话样本数据,提取对话意图段落;
根据提取的所述对话意图段落和所述第一客服对话样本数据的意图类别标识,生成第三客服对话样本数据;
将所有所述第三客服对话样本数据的集合,确定为第三训练样本集;
针对所述第三训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集。
本实施方式,可以提取出所述第一客服对话样本数据中的对话意图段落,进而可以有针对性地根据该对话意图段落进行样本量扩充,使得扩充得到的第二训练样本集具有更强的针对性,有利于训练得到分类准确率更高的文本分类模型。
在上述实施方式的基础上,在一些变更实施方式中,所述针对所述第一训练样本集中的每条第一客服对话样本数据,提取对话意图段落,可以包括:
针对所述第一训练样本集中的每条第一客服对话样本数据,采用正则化技术匹配出客服问候语;
将所述客服问候语之后的指定数量句对话提取为对话意图段落。
例如,本申请实施方式,可以根据客服对话短文本的特点(一般包括:客服问候语话术+客户与客服交流确定问题+客服对客户问题进行解答+客服结束语话术),通过正则技术对客服的前三句话基于关键词(例如:您好、很高兴、服务)匹配客服问候语(例如:您好,很高兴为您服务),由于客户的问题描述一般是在客服问候语之后,因此,匹配成功后可以以当前句为定位基准,提取后面的十句对话(即指定数量句对话,可以根据实际需求灵活调整)作为对话意图描述段落(即对话意图段落)。
通过本实施方式,可以根据客服对话的实际特点,对客服对话样本数据进行数据清洗,从而高效、准确地提取出对话意图段落。
在本申请实施例的一些变更实施方式中,所述针对所述第三训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,可以包括:
针对所述第三训练样本集中的每条第三客服对话样本数据,执行同义词替换、同义词插入、词语位置变换和词语删除中的至少一项处理,得到与所述第三客服对话样本数据对应的多条第二客服对话样本数据;
将所有所述第二客服对话样本数据的集合,确定为第二训练样本集。
其中,同义词替换可以包括:从对话短文本(即第三客服对话样本数据)中随机选取n个不属于停用词集的单词,并随机选择其同义词将其替换;
同义词插入可以包括:随机地找出对话短文本中某个不属于停用词集的词,并求出其随机的同义词,将该同义词插入句子的一个随机位置,重复n次;
词语位置变换可以包括:随机地选择对话短文本中两个单词并交换它们的位置,重复n次;
词语删除可以包括:以p的概率,随机的移除对话短文本中的每个单词;
其中,上述n、p等可以根据实际需求灵活设置具体的数值,本申请实施例不做限定。
本实施方式,可以通过同义词替换、同义词插入、词语位置变换和词语删除等处理方式对第三客服对话样本数据进行扩展,从而将第三训练样本集扩充为具有大样本量的第二训练样本集,具有简单易行、执行效率高等优点,且通过上述方式扩展得到的第二客服对话样本数据能够贴合实际的客服对话,具有较高的可靠性和实用性,进而可以有效提升训练后的文本分类模型的分类准确率。
在一些实施方式中,利用同义词替换、同义词插入、词语位置变换和词语删除等处理方式对第三客服对话样本数据进行扩展的程序代码可以如下所示:
输入:对话短文本T=[w1,w2,…,wn],停用词表S=|N|,w为T中词汇,i1,i2,i3,i4为计数器,δ1234为终止条件。
Figure BDA0002234654740000091
Figure BDA0002234654740000101
在上述任一实施方式的基础上,在一些变更实施方式中,所述根据所述第二训练样本集训练文本分类模型,得到训练后的文本分类模型,可以包括:
针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,生成训练语料;
将所述训练语料转换为词向量;
利用所述词向量训练文本分类模型,得到训练后的文本分类模型。
本实施方式,通过对所述第二客服对话样本数据进行分词和词向量转换,从而可以利用得到的词向量对文本分类模型训练,可以有效提高训练效率,以及提升训练后的文本分类模型的分类准确率。
在上述实施方式的基础上,在一些变更实施方式中,所述针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,生成训练语料,可以包括:
针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,得到多条词语;
根据预设的过滤规则对所述多条词语进行过滤后,得到训练语料。
其中,上述过滤规则用于过滤掉所述多条词语中无实际意义或对分类任务无作用的词汇,根据实际需求,还可以将出现频率较低的词语过滤掉。
例如,本实施方式,可以通过jieba分词工具对客服对话短文本分词后,通过预先设计的行业停用词表(无实际意义或对分类任务无作用的词汇)进行词过滤,若分好的词在停用词表中,则将其删除。同时对分好的词进行词频统计,将频率特别低的词语过滤掉。
通过本实施方式,可以有效对分词后的词语进行过滤,保留下对分类更有参考价值的词语作为训练语料,去除无实际意义或对分类任务无作用的词汇,从而既可以减少后续词向量转换等处理的数据处理量、提高处理效率,又可以确保留下来的词具有较高的参考价值,确保训练后的文本分类模型的分类准确率。
在本申请实施例的一些变更实施方式中,所述将所述训练语料转换为词向量,可以根据实际需求选择合适的词向量转换工具进行转换,其中,上述转换为词向量的步骤也可以称为词向量初始化,其实施步骤简要说明如下:
利用大量行业文本数据训练Word2Vec(词语转向量)模型,用于对话短文本分类模型的词向量初始化。当语料较小时通常使用基于CBOW的Word2Vec,而当训练语料较大时通常使用基于Skip-Gram的Word2Vec。
本实施例中,所用训练语料较大,因此,优选地使用Skip-Gram模型,其网络结构如图3所示,具体训练步骤如下:
①通过jieba分词工具对文本数据分词。
②通过正则表达式过滤标点符号和其它特殊符号生成训练语料。
③通过gensim.models.word2vec.Text8Corpus加载训练语料。
④通过gensim.models.word2vec.Word2Vec训练模型,参数设置:词向量维度根据深度学习模型需要进行调整,通常设置为100-512之间,本实施方式使用词向量维度size=200;滑动窗口根据语料大小和句子长短进行调整,较为常用值为5,本实施方式使用滑动窗口大小window=5;最小词频用于过滤低频词,可根据训练语料大小进行调整,本实施方式使用最小词频min_count=5。
上述实施方式,通过利用行业文本数据训练Word2Vec模型,用于分类模型的词向量初始化,可以加快模型收敛速度,提高分类准确率。
在本申请实施例的一些变更实施方式中,所述文本分类模型包括层次注意力模型。
请参考图4,其示出了本申请一些实施方式所提供的一种层次注意力模型的网络结构图,利用层次注意力模型对客服对话样本数据进行分类的原理简要说明如下:
由于客服对话短文本数据噪声较大(对话文本中存在非意图描述的句子,句子中也会存在与意图描述无关的词语),因此采用层次注意力模型进行对话意图分类。
层次注意力模型对每个词向量赋予不同的权重求和得到句子向量,对每个句子向量赋予不同权重求和得到文本向量,模型能更关注于意图描述的词语与句子,实现对无用信息的过滤。
在层次注意力模型中embedding层通过预训练的Word2Vec模型初始化,embedding层未登录词采用标准正态分布进行随机初始化,embedding层随模型一起进行参数更新。embedding层的词向量w输入双层双向LSTM,并将输出拼接后经过ATTENTION层得到句子向量S。再将句子向量输入双向LSTM层和ATTENTION层得到文本向量V,通过全连接层和softmax激活函数实现意图分类。
本实施方式,层次注意力模型求句子向量时对每个词向量赋予不同的权重,求文本向量时对每个句子向量赋予不同权重,使模型能更关注于意图描述的词语和句子,从而可以有效提升分类准确率。
为了便于对本申请实施例进行了解,请参考图2,其示出了本申请的一些具体实施方式所提供的一种客服对话意图分类方法的流程图,图2所示的客服对话意图分类方法可以参照图1对应的上述实施例说明进行理解,部分内容不再赘述,以下仅对图2进行简要说明,上述图1对应的实施例的说明也可以参照图2进行理解。如图2所示,所述客服对话意图分类方法简要说明如下:
首先根据行业文本数据(即客服对话文本数据),选取少量样本,请业务人员对抽取的样本进行意图类别标注,得到第一训练样本集,然后依次执行数据清洗与对话意图段落提取、文本数据增强、分词及词过滤、词向量初始化等处理后,利用得到的词向量训练层次注意力模型。其中,可以利用部分行业文本数据(即客服对话文本数据)对Word2Vec模型进行训练,然后,利用训练后的Word2Vec模型进行词向量初始化处理。对于新流入的对话文本(即待分类的客服对话数据),进行数据清洗与对话意图段落提取、分词及词过滤等处理后,即可输入训练后的层次注意力模型,利用层次注意力模型进行分类,得到客服对话数据对应的意图类别标识。
本实施方式至少具有以下有益效果:
一、通过文本数据增强技术将少量标注的训练样本扩充为大量训练样本,减少了人工标注样本的成本,提升了对话短文本意图识别准确率。
二、通过利用行业文本数据训练Word2Vec模型,用于分类模型的词向量初始化,可以加快模型收敛速度,提高分类准确率。
三、层次注意力模型求句子向量时对每个词向量赋予不同的权重,求文本向量时对每个句子向量赋予不同权重,使模型能更关注于意图描述的词语和句子。
在上述的实施例中,提供了一种客服对话意图分类方法,与之相对应的,本申请还提供一种客服对话意图分类装置。本申请实施例提供的客服对话意图分类装置可以实施上述信息处理方法,该信息处理装置可以通过软件、硬件或软硬结合的方式来实现。例如,该信息处理装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图5,其示出了本申请的一些实施方式所提供的一种客服对话意图分类装置的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图5所示,所述客服对话意图分类装置10,可以包括:
第一训练样本集获取模块101,用于获取第一训练样本集,其中,所述第一训练样本集可以包括第一数量的第一客服对话样本数据,所述第一客服对话样本数据具有人工标注的意图类别标识;
样本量扩充模块102,用于基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,其中,所述第二训练样本集可以包括第二数量的具有意图类别标识的第二客服对话样本数据,所述第二数量大于所述第一数量;
模型训练模块103,用于根据所述第二训练样本集训练文本分类模型,得到训练后的文本分类模型;
意图分类模块104,用于采用训练后的所述文本分类模型对待分类的客服对话数据进行分类,得到所述客服对话数据对应的意图类别标识。
在本申请实施例的一些实施方式中,所述样本量扩充模块102,可以包括:
意图段落提取单元,用于针对所述第一训练样本集中的每条第一客服对话样本数据,提取对话意图段落;
第三样本生成单元,用于根据提取的所述对话意图段落和所述第一客服对话样本数据的意图类别标识,生成第三客服对话样本数据;
第三样本集确定单元,用于将所有所述第三客服对话样本数据的集合,确定为第三训练样本集;
样本量扩充单元,用于针对所述第三训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集。
在本申请实施例的一些实施方式中,所述意图段落提取单元,可以包括:
正则匹配子单元,用于针对所述第一训练样本集中的每条第一客服对话样本数据,采用正则化技术匹配出客服问候语;
意图段落提取子单元,用于将所述客服问候语之后的指定数量句对话提取为对话意图段落。
在本申请实施例的一些实施方式中,所述样本量扩充模块102,可以包括:
样本量扩充单元,用于针对所述第三训练样本集中的每条第三客服对话样本数据,执行同义词替换、同义词插入、词语位置变换和词语删除中的至少一项处理,得到与所述第三客服对话样本数据对应的多条第二客服对话样本数据;
第二样本集确定单元,用于将所有所述第二客服对话样本数据的集合,确定为第二训练样本集。
在本申请实施例的一些实施方式中,所述模型训练模块103,可以包括:
分词单元,用于针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,生成训练语料;
向量转换单元,用于将所述训练语料转换为词向量;
模型训练单元,用于利用所述词向量训练文本分类模型,得到训练后的文本分类模型。
在本申请实施例的一些实施方式中,所述分词单元,可以包括:
分词子单元,用于针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,得到多条词语;
过滤子单元,用于根据预设的过滤规则对所述多条词语进行过滤后,得到训练语料。
在本申请实施例的一些实施方式中,所述文本分类模型可以包括层次注意力模型。
本申请实施例提供的客服对话意图分类装置10,与本申请前述实施例提供的客服对话意图分类方法出于相同的发明构思,具有相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的客服对话意图分类方法对应的电子设备,所述电子设备可以是具有图像处理能力的任意计算设备,例如服务器、计算机、电脑、手机等,以执行上述客服对话意图分类方法,本申请实施例不做限定。
请参考图6,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图6所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的客服对话意图分类方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述客服对话意图分类方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的客服对话意图分类方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的客服对话意图分类方法对应的计算机可读介质,请参考图7,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的客服对话意图分类方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的客服对话意图分类方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims (10)

1.一种客服对话意图分类方法,其特征在于,包括:
获取第一训练样本集,其中,所述第一训练样本集包括第一数量的第一客服对话样本数据,所述第一客服对话样本数据具有人工标注的意图类别标识;
基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,其中,所述第二训练样本集包括第二数量的具有意图类别标识的第二客服对话样本数据,所述第二数量大于所述第一数量;
根据所述第二训练样本集训练文本分类模型,得到训练后的文本分类模型;
采用训练后的所述文本分类模型对待分类的客服对话数据进行分类,得到所述客服对话数据对应的意图类别标识。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,包括:
针对所述第一训练样本集中的每条第一客服对话样本数据,提取对话意图段落;
根据提取的所述对话意图段落和所述第一客服对话样本数据的意图类别标识,生成第三客服对话样本数据;
将所有所述第三客服对话样本数据的集合,确定为第三训练样本集;
针对所述第三训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集。
3.根据权利要求2所述的方法,其特征在于,所述针对所述第一训练样本集中的每条第一客服对话样本数据,提取对话意图段落,包括:
针对所述第一训练样本集中的每条第一客服对话样本数据,采用正则化技术匹配出客服问候语;
将所述客服问候语之后的指定数量句对话提取为对话意图段落。
4.根据权利要求2所述的方法,其特征在于,所述针对所述第三训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,包括:
针对所述第三训练样本集中的每条第三客服对话样本数据,执行同义词替换、同义词插入、词语位置变换和词语删除中的至少一项处理,得到与所述第三客服对话样本数据对应的多条第二客服对话样本数据;
将所有所述第二客服对话样本数据的集合,确定为第二训练样本集。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述第二训练样本集训练文本分类模型,得到训练后的文本分类模型,包括:
针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,生成训练语料;
将所述训练语料转换为词向量;
利用所述词向量训练文本分类模型,得到训练后的文本分类模型。
6.根据权利要求5所述的方法,其特征在于,所述针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,生成训练语料,包括:
针对所述第二训练样本集中的每条所述第二客服对话样本数据,进行分词处理,得到多条词语;
根据预设的过滤规则对所述多条词语进行过滤后,得到训练语料。
7.根据权利要求1所述的方法,其特征在于,所述文本分类模型包括层次注意力模型。
8.一种客服对话意图分类装置,其特征在于,包括:
第一训练样本集获取模块,用于获取第一训练样本集,其中,所述第一训练样本集包括第一数量的第一客服对话样本数据,所述第一客服对话样本数据具有人工标注的意图类别标识;
样本量扩充模块,用于基于所述第一训练样本集,采用文本数据增强技术进行样本量扩充,得到第二训练样本集,其中,所述第二训练样本集包括第二数量的具有意图类别标识的第二客服对话样本数据,所述第二数量大于所述第一数量;
模型训练模块,用于根据所述第二训练样本集训练文本分类模型,得到训练后的文本分类模型;
意图分类模块,用于采用训练后的所述文本分类模型对待分类的客服对话数据进行分类,得到所述客服对话数据对应的意图类别标识。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行以实现如权利要求1至8任一项所述的方法。
10.一种计算机可读介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至8任一项所述的方法。
CN201910979317.7A 2019-10-15 2019-10-15 客服对话意图分类方法及装置、电子设备及介质 Pending CN110888968A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910979317.7A CN110888968A (zh) 2019-10-15 2019-10-15 客服对话意图分类方法及装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910979317.7A CN110888968A (zh) 2019-10-15 2019-10-15 客服对话意图分类方法及装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN110888968A true CN110888968A (zh) 2020-03-17

Family

ID=69746157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910979317.7A Pending CN110888968A (zh) 2019-10-15 2019-10-15 客服对话意图分类方法及装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN110888968A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309920A (zh) * 2020-03-26 2020-06-19 清华大学深圳国际研究生院 一种文本分类方法、终端设备及计算机可读存储介质
CN111400431A (zh) * 2020-03-20 2020-07-10 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111400499A (zh) * 2020-03-24 2020-07-10 网易(杭州)网络有限公司 文档分类模型的训练方法、文档分类方法、装置及设备
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统
CN111611394A (zh) * 2020-07-03 2020-09-01 中国电子信息产业集团有限公司第六研究所 一种文本分类方法、装置、电子设备及可读存储介质
CN111859987A (zh) * 2020-07-28 2020-10-30 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置
CN112035659A (zh) * 2020-08-12 2020-12-04 北京字节跳动网络技术有限公司 数据处理方法及装置
CN112069302A (zh) * 2020-09-15 2020-12-11 腾讯科技(深圳)有限公司 会话意图识别模型的训练方法、会话意图识别方法及装置
CN112100378A (zh) * 2020-09-15 2020-12-18 中国平安人寿保险股份有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN112347786A (zh) * 2020-10-27 2021-02-09 阳光保险集团股份有限公司 人工智能评分训练方法和装置
CN112364664A (zh) * 2020-11-19 2021-02-12 北京京东尚科信息技术有限公司 意图识别模型的训练及意图识别方法、装置、存储介质
CN112434501A (zh) * 2020-10-23 2021-03-02 杭州未名信科科技有限公司 工单智能生成的方法、装置、电子设备及介质
CN112488164A (zh) * 2020-11-18 2021-03-12 广东电力信息科技有限公司 一种任务型对话文本增强系统
CN112632244A (zh) * 2020-12-18 2021-04-09 平安普惠企业管理有限公司 一种人机通话的优化方法、装置、计算机设备及存储介质
CN112784031A (zh) * 2021-01-29 2021-05-11 湖南大学 一种基于小样本学习的客服对话文本的分类方法和系统
CN112989035A (zh) * 2020-12-22 2021-06-18 平安普惠企业管理有限公司 基于文本分类识别用户意图的方法、装置及存储介质
CN113268577A (zh) * 2021-06-04 2021-08-17 厦门快商通科技股份有限公司 一种基于对话关系的训练数据处理方法、装置及可读介质
CN113704431A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 意图识别的样本数据增强方法、装置、计算机设备及介质
CN114065772A (zh) * 2021-11-19 2022-02-18 浙江百应科技有限公司 一种基于Albert模型的商机识别方法、装置及电子设备
CN114244795A (zh) * 2021-12-16 2022-03-25 北京百度网讯科技有限公司 一种信息的推送方法、装置、设备及介质
CN114338129A (zh) * 2021-12-24 2022-04-12 中汽创智科技有限公司 一种报文异常检测方法、装置、设备及介质
WO2022143349A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 一种确定用户意图的方法及装置
WO2022156822A1 (zh) * 2021-01-25 2022-07-28 北京紫光展锐通信技术有限公司 一种分类模型训练方法及系统
CN115098665A (zh) * 2022-08-25 2022-09-23 北京聆心智能科技有限公司 一种对话数据扩展方法、装置及设备
CN115660458A (zh) * 2022-09-26 2023-01-31 广州云趣信息科技有限公司 基于上下文推理的通话质检方法、装置、电子设备
CN116992830A (zh) * 2022-06-17 2023-11-03 北京聆心智能科技有限公司 文本数据处理方法、相关装置及计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180058877A (ko) * 2016-11-24 2018-06-04 주식회사 와이즈넛 채팅봇을 이용한 비즈니스 지원 방법
CN109543190A (zh) * 2018-11-29 2019-03-29 北京羽扇智信息科技有限公司 一种意图识别方法、装置、设备及存储介质
KR20190072823A (ko) * 2017-12-18 2019-06-26 한국과학기술원 Rnn 문장임베딩과 elm 알고리즘을 이용한 은행업무 관련 고객상담을 위한 도메인 특화 화행분류 방법
CN110096570A (zh) * 2019-04-09 2019-08-06 苏宁易购集团股份有限公司 一种应用于智能客服机器人的意图识别方法及装置
CN110245221A (zh) * 2019-05-13 2019-09-17 华为技术有限公司 训练对话状态跟踪分类器的方法和计算机设备
CN110297909A (zh) * 2019-07-05 2019-10-01 中国工商银行股份有限公司 一种无标签语料的分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180058877A (ko) * 2016-11-24 2018-06-04 주식회사 와이즈넛 채팅봇을 이용한 비즈니스 지원 방법
KR20190072823A (ko) * 2017-12-18 2019-06-26 한국과학기술원 Rnn 문장임베딩과 elm 알고리즘을 이용한 은행업무 관련 고객상담을 위한 도메인 특화 화행분류 방법
CN109543190A (zh) * 2018-11-29 2019-03-29 北京羽扇智信息科技有限公司 一种意图识别方法、装置、设备及存储介质
CN110096570A (zh) * 2019-04-09 2019-08-06 苏宁易购集团股份有限公司 一种应用于智能客服机器人的意图识别方法及装置
CN110245221A (zh) * 2019-05-13 2019-09-17 华为技术有限公司 训练对话状态跟踪分类器的方法和计算机设备
CN110297909A (zh) * 2019-07-05 2019-10-01 中国工商银行股份有限公司 一种无标签语料的分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
上海证券交易所: "《债券技术:创新与发展》", 30 June 2016, 上海人民出版社 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400431A (zh) * 2020-03-20 2020-07-10 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111400499A (zh) * 2020-03-24 2020-07-10 网易(杭州)网络有限公司 文档分类模型的训练方法、文档分类方法、装置及设备
CN111309920A (zh) * 2020-03-26 2020-06-19 清华大学深圳国际研究生院 一种文本分类方法、终端设备及计算机可读存储介质
CN111309920B (zh) * 2020-03-26 2023-03-24 清华大学深圳国际研究生院 一种文本分类方法、终端设备及计算机可读存储介质
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统
CN111477216B (zh) * 2020-04-09 2024-02-23 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统
CN111611394A (zh) * 2020-07-03 2020-09-01 中国电子信息产业集团有限公司第六研究所 一种文本分类方法、装置、电子设备及可读存储介质
CN111859987A (zh) * 2020-07-28 2020-10-30 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置
CN111859987B (zh) * 2020-07-28 2024-05-17 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置
CN112035659A (zh) * 2020-08-12 2020-12-04 北京字节跳动网络技术有限公司 数据处理方法及装置
CN112069302A (zh) * 2020-09-15 2020-12-11 腾讯科技(深圳)有限公司 会话意图识别模型的训练方法、会话意图识别方法及装置
CN112100378A (zh) * 2020-09-15 2020-12-18 中国平安人寿保险股份有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN112069302B (zh) * 2020-09-15 2024-03-08 腾讯科技(深圳)有限公司 会话意图识别模型的训练方法、会话意图识别方法及装置
CN112434501A (zh) * 2020-10-23 2021-03-02 杭州未名信科科技有限公司 工单智能生成的方法、装置、电子设备及介质
CN112434501B (zh) * 2020-10-23 2024-07-02 杭州未名信科科技有限公司 工单智能生成的方法、装置、电子设备及介质
CN112347786A (zh) * 2020-10-27 2021-02-09 阳光保险集团股份有限公司 人工智能评分训练方法和装置
CN112488164A (zh) * 2020-11-18 2021-03-12 广东电力信息科技有限公司 一种任务型对话文本增强系统
CN112364664B (zh) * 2020-11-19 2023-12-05 北京京东尚科信息技术有限公司 意图识别模型的训练及意图识别方法、装置、存储介质
CN112364664A (zh) * 2020-11-19 2021-02-12 北京京东尚科信息技术有限公司 意图识别模型的训练及意图识别方法、装置、存储介质
CN112632244A (zh) * 2020-12-18 2021-04-09 平安普惠企业管理有限公司 一种人机通话的优化方法、装置、计算机设备及存储介质
CN112989035A (zh) * 2020-12-22 2021-06-18 平安普惠企业管理有限公司 基于文本分类识别用户意图的方法、装置及存储介质
CN112989035B (zh) * 2020-12-22 2023-08-15 深圳市中保信息技术有限公司 基于文本分类识别用户意图的方法、装置及存储介质
WO2022143349A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 一种确定用户意图的方法及装置
WO2022156822A1 (zh) * 2021-01-25 2022-07-28 北京紫光展锐通信技术有限公司 一种分类模型训练方法及系统
CN112784031A (zh) * 2021-01-29 2021-05-11 湖南大学 一种基于小样本学习的客服对话文本的分类方法和系统
CN113268577A (zh) * 2021-06-04 2021-08-17 厦门快商通科技股份有限公司 一种基于对话关系的训练数据处理方法、装置及可读介质
CN113704431A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 意图识别的样本数据增强方法、装置、计算机设备及介质
CN114065772A (zh) * 2021-11-19 2022-02-18 浙江百应科技有限公司 一种基于Albert模型的商机识别方法、装置及电子设备
CN114244795B (zh) * 2021-12-16 2024-02-09 北京百度网讯科技有限公司 一种信息的推送方法、装置、设备及介质
CN114244795A (zh) * 2021-12-16 2022-03-25 北京百度网讯科技有限公司 一种信息的推送方法、装置、设备及介质
CN114338129B (zh) * 2021-12-24 2023-10-31 中汽创智科技有限公司 一种报文异常检测方法、装置、设备及介质
CN114338129A (zh) * 2021-12-24 2022-04-12 中汽创智科技有限公司 一种报文异常检测方法、装置、设备及介质
CN116992830A (zh) * 2022-06-17 2023-11-03 北京聆心智能科技有限公司 文本数据处理方法、相关装置及计算设备
CN116992830B (zh) * 2022-06-17 2024-03-26 北京聆心智能科技有限公司 文本数据处理方法、相关装置及计算设备
CN115098665A (zh) * 2022-08-25 2022-09-23 北京聆心智能科技有限公司 一种对话数据扩展方法、装置及设备
CN115660458B (zh) * 2022-09-26 2023-10-20 广州云趣信息科技有限公司 基于上下文推理的通话质检方法、装置、电子设备
CN115660458A (zh) * 2022-09-26 2023-01-31 广州云趣信息科技有限公司 基于上下文推理的通话质检方法、装置、电子设备

Similar Documents

Publication Publication Date Title
CN110888968A (zh) 客服对话意图分类方法及装置、电子设备及介质
CN109902307B (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
WO2020258502A1 (zh) 文本分析方法、装置、计算机装置及存储介质
CN110765759B (zh) 意图识别方法及装置
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
CN106897439A (zh) 文本的情感识别方法、装置、服务器以及存储介质
CN111125354A (zh) 文本分类方法及装置
CN111309910A (zh) 文本信息挖掘方法及装置
CN111191445B (zh) 广告文本分类方法及装置
CN114818891B (zh) 小样本多标签文本分类模型训练方法及文本分类方法
WO2011085562A1 (en) System and method for automatically extracting metadata from unstructured electronic documents
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN112951233A (zh) 语音问答方法、装置、电子设备及可读存储介质
CN113205814A (zh) 语音数据标注方法、装置、电子设备及存储介质
CN110675863A (zh) 语音语料生成方法及装置、语音识别方法及装置
CN111460162A (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN114860905A (zh) 意图识别方法、装置及设备
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN113240485B (zh) 文本生成模型的训练方法、文本生成方法和装置
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN111898378B (zh) 政企客户的行业分类方法和装置、电子设备、存储介质
CN112015895A (zh) 一种专利文本分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200820

Address after: Room 101, building 1, block C, Qianjiang Century Park, ningwei street, Xiaoshan District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Weiming Information Technology Co.,Ltd.

Applicant after: Institute of Information Technology, Zhejiang Peking University

Address before: Room 288-1, 857 Xinbei Road, Ningwei Town, Xiaoshan District, Hangzhou City, Zhejiang Province

Applicant before: Institute of Information Technology, Zhejiang Peking University

Applicant before: Hangzhou Weiming Information Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200317