CN109033378A - 一种Zero-shot Learning在智能客服系统中的应用方法 - Google Patents
一种Zero-shot Learning在智能客服系统中的应用方法 Download PDFInfo
- Publication number
- CN109033378A CN109033378A CN201810844501.6A CN201810844501A CN109033378A CN 109033378 A CN109033378 A CN 109033378A CN 201810844501 A CN201810844501 A CN 201810844501A CN 109033378 A CN109033378 A CN 109033378A
- Authority
- CN
- China
- Prior art keywords
- entity
- classification
- model
- general
- universal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种Zero‑shot Learning在智能客服系统中的应用方法,包括通用模型准备阶段和通用模型预测阶段。本发明,由于本方案半自动化训练了企业的通用NLU模型,在未来使用过程中应用方如果遇到新NLU需求,可不需要新语料样本数据,即可对新语义理解需求进行分类,本方案提供一个提取NLU通用分类的框架,将企业个性化NLU分类通用化,加快未来新NLU分类需求的上线速度,实用性强。
Description
技术领域
本发明涉及人机交互技术领域,具体是一种Zero-shot Learning在智能客服系统中的应用方法。
背景技术
智能客服系统本质上是一个人机对话系统,该系统通过应用自然语言处理、机器学习、概率统计等算法,回答客户的问题、完成客户的指定任务、或为客户推荐其希望的商品或信息。由于不同公司的业务各不相同,用户需求有非常大的差异,想用一个通用客服机器人解决所有公司的客户需求,现阶段还不可能实现。目前,大多数智能客服系统往往需要大量的人工参与,例如人工维护一套QA知识库、人工维护一套客户个性化意图分类和实体类别、人工维护一系列对话流程、人工维护本公司特有的知识图谱、人工维护一套机器人答案规则等等。虽然人工维护的数据和规则保证了智能客服的效果,但也增加了企业使用智能客服系统的成本,提高了该系统的使用门槛,使得很多公司对智能客服系统有一种“难以使用”的印象。
目前智能客服系统中重要的一个关键技术是语言理解(或称语义理解),英文叫NLU。该技术的功能是让机器去理解当前用户说的话,主要组成模块是意图识别和实体识别。NLU模块将用户说的话转换为意图分类和实体类别,根据意图和实体,机器人就可以根据不同场景给出不同的回答或操作动作。NLU模块主要使用机器学习技术,也就是说需要语料数据来训练NLU模型。一般而言,NLU的意图分类和实体类别是由企业使用方来定义的,根据企业的使用场景,定义不同的意图和实体。定义完成后,企业需要对客户的问题进行意图和实体标注,形成意图识别和实体识别的标注数据。之后,使用意图分类的标注语料来训练意图识别分类模型,使用实体序列标注的语料来训练实体识别模型。模型上线后,智能客服系统即可对客户的问题进行意图分类和实体分类。
虽然企业对客户的问题有一定的预期,但往往不能在一开始就将该企业所有可能的意图和实体定义完全,更不可能一开始就收集到其定义的意图和实体的所有语料。这是因为企业的业务在持续更新,企业的客户的需求在持续变化,客户的意图和实体需要持续更新,NLU对应的语料也需要持续增加。可以发现,这样维护智能客服系统的方法的整个流程链条非常长,从发现企业有新的NLU需求到NLU模型上线需要较长的时间,较长的流程会导致一系列问题,例如:这期间客户的问题可能得不到快速解决、企业新的需求可能无法及时知会到客户、企业的某些业务可能会错过最佳宣传时间窗口等等。
现有 NLU 模型在持续更新时,往往需要收集大量的新语料数据,使用门槛较高,且现有智能客服的知识库往往缺乏通用性、统一性、及泛化能力,维护困难。
发明内容
本发明的目的在于提供一种Zero-shot Learning在智能客服系统中的应用方法,为了加快企业新意图识别的需求,本方案采用 zero-shot learning 思想,缩短企业从新需求到模型上线的流程,使得智能客服系统快速响应企业新的应用需求,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种Zero-shot Learning在智能客服系统中的应用方法,包括通用模型准备阶段和通用模型预测阶段;
所述通用模型准备阶段,包括如下步骤:
(1)、构建一套大规模通用意图类别的数据集,意图的分类要满足通用性的规则,每一句话对应一个或多个意图类别;
(2)、构建一套大规模通用实体类别的数据集,实体的分类要满足通用性的规则,每一句话对应一个或多个实体类别;
(3)、利用通用意图类别数据集训练一个通用多标签类别的分类模型;
(4)、利用通用实体类别数据集训练一个通用实体识别模型;
所述通用模型预测阶段包括如下步骤:
(1)、企业在有新的语义理解的需求后,在本方案的智能客服平台上,将每个语义类别中的意图按照通用意图类别进行拆分;每个语义类别中的实体挑选出来;
(2)、将企业新需求进行拆分后,该通用分类和实体的组合,即表示为该需求的类别;
(3)、将对应的语义分类语料样本上传到本方案的智能客服平台上,用通用意图分类模型和通用实体识别模型进行测试,每个语料样本对应的通用意图和实体的识别概率的组合是否大于阈值,如果大于阈值,则表示该样本被正确分类到了该组合类别中。该测试即可得到该语义理解分类的 precision 和 recall;
(4)、企业查看该语义类别的指标,如果指标达到可商用状态,即可点击本方案智能客服平台中的模型发布,该通用类别组合即可对外服务;
(5)、如果指标没有达到商用状态,企业需要对通用分类拆分和实体抽取进行审阅,查看拆分是否不符合语义逻辑,或是否和其他拆分方式有冲突,如果拆分方式有问题,需要对拆分组合进行修改。
作为本发明进一步的方案:所述通用模型预测阶段还包括通用模型训练模块,通用模型训练模块包括通用意图分类模型和通用实体识别模型。
作为本发明再进一步的方案:所述通用模型训练模块的训练步骤包括:使用通用模型数据集,训练CNN多分类意图分类模型以及使用实体序列标注数据集,训练词典和 CRF结合的实体识别模型。
与现有技术相比,本发明的有益效果是:
所述一种Zero-shot Learning在智能客服系统中的应用方法,由于本方案半自动化训练了企业的通用NLU模型,在未来使用过程中应用方如果遇到新NLU需求,可不需要新语料样本数据,即可对新语义理解需求进行分类,本方案提供一个提取NLU通用分类的框架,将企业个性化NLU分类通用化,加快未来新NLU分类需求的上线速度,实用性强。
附图说明
图1为一种Zero-shot Learning在智能客服系统中的应用方法的结构示意图。
图2为一种Zero-shot Learning在智能客服系统中的应用方法中通用模型训练模块的结构示意图。
图3为一种Zero-shot Learning在智能客服系统中的应用方法中通用模型预测阶段的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~3,本发明实施例中,一种Zero-shot Learning在智能客服系统中的应用方法,包括通用模型准备阶段和通用模型预测阶段;
所述通用模型准备阶段,包括如下步骤:
(1)、构建一套大规模通用意图类别的数据集,意图的分类要满足通用性的规则,每一句话对应一个或多个意图类别;
(2)、构建一套大规模通用实体类别的数据集,实体的分类要满足通用性的规则,每一句话对应一个或多个实体类别;
(3)、利用通用意图类别数据集训练一个通用多标签类别的分类模型;
(4)、利用通用实体类别数据集训练一个通用实体识别模型;
所述通用模型预测阶段包括如下步骤:
(1)、企业在有新的语义理解的需求后,在本方案的智能客服平台上,将每个语义类别中的意图按照通用意图类别进行拆分;每个语义类别中的实体挑选出来;
(2)、将企业新需求进行拆分后,该通用分类和实体的组合,即表示为该需求的类别;
(3)、将对应的语义分类语料样本上传到本方案的智能客服平台上,用通用意图分类模型和通用实体识别模型进行测试,每个语料样本对应的通用意图和实体的识别概率的组合是否大于阈值,如果大于阈值,则表示该样本被正确分类到了该组合类别中,该测试即可得到该语义理解分类的 precision 和 recall;
(4)、企业查看该语义类别的指标,如果指标达到可商用状态,即可点击本方案智能客服平台中的模型发布,该通用类别组合即可对外服务;
(5)、如果指标没有达到商用状态,企业需要对通用分类拆分和实体抽取进行审阅,查看拆分是否不符合语义逻辑,或是否和其他拆分方式有冲突,如果拆分方式有问题,需要对拆分组合进行修改。
所述通用模型预测阶段还包括通用模型训练模块,通用模型训练模块包括通用意图分类模型和通用实体识别模型。
所述通用模型训练模块的训练步骤包括:使用通用模型数据集,训练CNN多分类意图分类模型以及使用实体序列标注数据集,训练词典和CRF结合的实体识别模型。
通用模型预测实现流程:
1、构建通用分类和实体拆解模块,为智能客服应用方提供拆解功能。
2、「分类+实体」拆解组合的合理性测试模块,结合应用方历史拆解记录,判断当前拆分组合的合理性,并给出应用方修改建议。
零样本语料测试模块,将拆解后的「分类+实体」组合,来测试新需求有语料数据,并产生结果报告。
通用意图分类模型可以使用多种分类方法,不限于 CNN,分类模型的选择不影响本专利的权利申请保护范围。
实体识别模型可以使用多种序列标注方法,不限于词典+CRF结合方法,实体识别模型的选择不影响本专利的权利申请保护范围。
NLU:语言理解。
QA:问答对。
Zero-shot learning:零样本学习。
Precision:精确率。
Recall:召回率。
CNN:卷积神经网络。
CRF:条件随机场。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (3)
1.一种Zero-shot Learning在智能客服系统中的应用方法,其特征在于,包括通用模型准备阶段和通用模型预测阶段;
所述通用模型准备阶段,包括如下步骤:
(1)、构建一套大规模通用意图类别的数据集,意图的分类要满足通用性的规则,每一句话对应一个或多个意图类别;
(2)、构建一套大规模通用实体类别的数据集,实体的分类要满足通用性的规则,每一句话对应一个或多个实体类别;
(3)、利用通用意图类别数据集训练一个通用多标签类别的分类模型;
(4)、利用通用实体类别数据集训练一个通用实体识别模型;
所述通用模型预测阶段包括如下步骤:
(1)、企业在有新的语义理解的需求后,在本方案的智能客服平台上,将每个语义类别中的意图按照通用意图类别进行拆分;每个语义类别中的实体挑选出来;
(2)、将企业新需求进行拆分后,该通用分类和实体的组合,即表示为该需求的类别;
(3)、将对应的语义分类语料样本上传到本方案的智能客服平台上,用通用意图分类模型和通用实体识别模型进行测试,每个语料样本对应的通用意图和实体的识别概率的组合是否大于阈值,如果大于阈值,则表示该样本被正确分类到了该组合类别中,该测试即可得到该语义理解分类的 precision 和 recall;
(4)、企业查看该语义类别的指标,如果指标达到可商用状态,即可点击本方案智能客服平台中的模型发布,该通用类别组合即可对外服务;
(5)、如果指标没有达到商用状态,企业需要对通用分类拆分和实体抽取进行审阅,查看拆分是否不符合语义逻辑,或是否和其他拆分方式有冲突,如果拆分方式有问题,需要对拆分组合进行修改。
2.根据权利要求1所述的一种Zero-shot Learning在智能客服系统中的应用方法,其特征在于,所述通用模型预测阶段还包括通用模型训练模块,通用模型训练模块包括通用意图分类模型和通用实体识别模型。
3.根据权利要求1所述的一种Zero-shot Learning在智能客服系统中的应用方法,其特征在于,所述通用模型训练模块的训练步骤包括:使用通用模型数据集,训练CNN多分类意图分类模型以及使用实体序列标注数据集,训练词典和 CRF 结合的实体识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844501.6A CN109033378A (zh) | 2018-07-27 | 2018-07-27 | 一种Zero-shot Learning在智能客服系统中的应用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810844501.6A CN109033378A (zh) | 2018-07-27 | 2018-07-27 | 一种Zero-shot Learning在智能客服系统中的应用方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109033378A true CN109033378A (zh) | 2018-12-18 |
Family
ID=64646234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810844501.6A Pending CN109033378A (zh) | 2018-07-27 | 2018-07-27 | 一种Zero-shot Learning在智能客服系统中的应用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033378A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178055A (zh) * | 2019-12-18 | 2020-05-19 | 华为技术有限公司 | 语料识别方法、装置、终端设备和介质 |
CN111291193A (zh) * | 2020-01-18 | 2020-06-16 | 杭州电子科技大学 | 一种知识图谱在零次学习上的运用方法 |
CN112614479A (zh) * | 2020-11-26 | 2021-04-06 | 北京百度网讯科技有限公司 | 训练数据的处理方法、装置及电子设备 |
-
2018
- 2018-07-27 CN CN201810844501.6A patent/CN109033378A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178055A (zh) * | 2019-12-18 | 2020-05-19 | 华为技术有限公司 | 语料识别方法、装置、终端设备和介质 |
CN111178055B (zh) * | 2019-12-18 | 2022-07-29 | 华为技术有限公司 | 语料识别方法、装置、终端设备和介质 |
CN111291193A (zh) * | 2020-01-18 | 2020-06-16 | 杭州电子科技大学 | 一种知识图谱在零次学习上的运用方法 |
CN112614479A (zh) * | 2020-11-26 | 2021-04-06 | 北京百度网讯科技有限公司 | 训练数据的处理方法、装置及电子设备 |
CN112614479B (zh) * | 2020-11-26 | 2022-03-25 | 北京百度网讯科技有限公司 | 训练数据的处理方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492101A (zh) | 基于标签信息与文本特征的文本分类方法、系统及介质 | |
CN109871439B (zh) | 一种基于深度学习的问答社区问题路由方法 | |
CN108304468A (zh) | 一种文本分类方法以及文本分类装置 | |
CN108021660B (zh) | 一种基于迁移学习的话题自适应的微博情感分析方法 | |
CN113468296B (zh) | 可配置业务逻辑的模型自迭代式智能客服质检系统与方法 | |
CN111709575A (zh) | 基于c-lstm的学业成绩预测方法 | |
CN107368521B (zh) | 一种基于大数据和深度学习的知识推介方法及系统 | |
CN110188047A (zh) | 一种基于双通道卷积神经网络的重复缺陷报告检测方法 | |
CN109033378A (zh) | 一种Zero-shot Learning在智能客服系统中的应用方法 | |
CN110379522A (zh) | 一种疾病流行趋势预测系统及方法 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN112199472B (zh) | 一种基于迁移学习的主观题智能评卷方法、系统及设备 | |
CN110598070A (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
CN112163081A (zh) | 标签确定方法、装置、介质及电子设备 | |
CN113111152A (zh) | 一种基于知识蒸馏和情绪集成模型的抑郁症检测方法 | |
CN115544252A (zh) | 一种基于注意力静态路由胶囊网络的文本情感分类方法 | |
CN117314593B (zh) | 一种基于用户行为分析的保险项目推送方法及系统 | |
CN112948710A (zh) | 基于图神经网络的朋辈教育推荐方法、系统和存储介质 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN111144103A (zh) | 影评识别方法和装置 | |
CN116340516A (zh) | 实体关系的聚类提取方法、装置、设备及存储介质 | |
CN112734142B (zh) | 基于深度学习的资源学习路径规划方法及装置 | |
CN114064873A (zh) | 保险领域faq知识库构建方法、装置及电子设备 | |
CN114792117A (zh) | 会话分类模型的训练方法及装置、会话分类方法及装置 | |
CN113449923A (zh) | 一种多模型标的物行情预测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181218 |