CN110689878B - 一种基于XLNet的智能语音对话意图识别方法 - Google Patents

一种基于XLNet的智能语音对话意图识别方法 Download PDF

Info

Publication number
CN110689878B
CN110689878B CN201910962900.7A CN201910962900A CN110689878B CN 110689878 B CN110689878 B CN 110689878B CN 201910962900 A CN201910962900 A CN 201910962900A CN 110689878 B CN110689878 B CN 110689878B
Authority
CN
China
Prior art keywords
classification
text
probability
net
net model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910962900.7A
Other languages
English (en)
Other versions
CN110689878A (zh
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baiying Technology Co Ltd
Original Assignee
Zhejiang Baiying Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baiying Technology Co Ltd filed Critical Zhejiang Baiying Technology Co Ltd
Priority to CN201910962900.7A priority Critical patent/CN110689878B/zh
Publication of CN110689878A publication Critical patent/CN110689878A/zh
Application granted granted Critical
Publication of CN110689878B publication Critical patent/CN110689878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于XLNet的智能语音对话意图识别方法,包括以下步骤:S1:将对话节点的标准问题和扩展的多个相似问题作为语料打标整理成文本样本;S2:将文本样本拆分成训练集合和验证集合;S3:将训练集合输入XLNet模型中,初始化原始相关权重,设置好迭代次数和步长,并在损失函数中加入Triplet loss损失,固定网络其他层;S4:通过离线准确率在验证集合上验证XLNet模型;S5:预加载XLNet模型,提供接口接收待识别的语音转化为文本输入,输出对话文本相关的分类类别;S6:在线上服务中添加对应的阀值计算和分类概率计算;S7:分类激活时通过配置文件得到相关分类的文本标题。本发明提出的意图识别方法,极大提升了意图识别率;重写demo脚本,提升了意图识别率。

Description

一种基于XLNet的智能语音对话意图识别方法
技术领域
本发明涉及语音识别领域,尤其涉及一种基于XLNet的智能语音对话意图识别方法。
背景技术
随着大数据和机器计算力的飞速发展,深度学习技术在视觉和语音上取得了很多重大的突破。在语音识别领域,越来越多的智能语音机器人投入实用,语音机器人是否智能,取决于对话过程中的意图识别是否准确。XLNet模型的提出刷新了nlp技术在各项数据集合上的成绩,然而真正使用XLNet技术在语音识别领域的使用依然存在很多问题。
首先,基于XLNet模型完全复用demo中的脚本和模型参数,完全复用demo脚本和模型参数,在实际场景下没有根据本身的数据分布调整模型参数,导致效果不佳;其次,因为重新训练整个网络所需的语料和计算资源太过于庞大,导致个人或者公司选择重新训练整个网络时整个模型没有收敛或者过拟合。
发明内容
为解决上述问题,本发明提出一种基于XLNet的智能语音对话意图识别方法。
一种基于XLNet的智能语音对话意图识别方法,包括以下步骤:
S1:将对话节点的标准问题和扩展的多个相似问题作为语料打标整理成文本样本;
S2:将文本样本拆分成训练集合和验证集合;
S3:将训练集合输入模型中,初始化原始相关权重,设置好迭代次数和步长,并在损失函数中加入Triplet loss损失,固定网络其他层,仅仅再次训练XLNet模型最后两层网络,直到模型收敛;
S4:离线准确率等指标评测,在验证集合上验证模型可用
S5:线上预测时,预加载模型,提供接口接收待识别的语音转化为文本输入输出对话文本相关的分类类别
S6:在线上服务中添加对应的阀值计算和分类概率计算,阀值是通过训练时的所有样本取一个较大的分位数值用于判断是否激活输出相关的分类,概率值是通过归一化和softmax计算得到一个0到1之前的合理的,便于理解的概率;
S7:分类激活时通过配置文件得到相关分类的文本标题,否则返回默认分类(默认分类在对话中对应走相关兜底话术);
优选的,所述将文本样本拆分成训练集合和验证集合之后还包括:通过多个实际通话录音完善语气词词库,通过语气词词库去除相关语气词。
优选的,所述按阀值判断分类是否激活包括:
概率值先用归一化方法转换成正值,如果多个节点分类的概率值都超过阀值输出最大和次大概率节点时,剔除其他超过阀值的节点分别计算具体的概率,剔除其他节点是为了每次都单一计算相关节点的分类,便于计算分类softmax时能够转换成一个0到1之间的概率;
优选的,所述将待识别的语音转化为文本输入XLNet模型之前还包括:采用多个进程代理的方式提高系统吞吐量,用缓存机制提前加载好训练的模型提高单条请求响应时间。
优选的,所述将待识别的语音转化为文本输入XLNet模型包括:
将对话语音转化为对话文本,将对话文本输入XLNet模型得到该文本的分类概率;
对各个节点的分类概率进行归一化,根据训练时得到的较大分位数数值确定相关的激活阀值,确定激活阀值输出以后对所有分类进行softmax概率计算,同时计算分类标题的相关性,如果标题相关,计算softmax概率时相互剔除相关标题后再进行概率计算,最后确定分类概率,分类概率大于80%为节点分类,分类概率小于80%为默认分类;
按分类概率得到分类的lable标签,通过lable标签和分类名称的对应关系获取分类节点名称拼接结果,确定相应的应答。
本发明具备以下有益效果:
1.本发明提出一种基于XLNet的智能语音对话实时意图识别方法,极大提升了意图识别率;
2.本发明采用对话过程中大量相似问题仅仅重新训练XLNet模型最后两层的网络参数重写demo脚本,在具体场景下调整了模型参数,同时流程更加符合相关场景,提升了意图识别率;
3.建立了一整套完整的概率计算机制,采取按阀值过滤加多个概率一同计算的方法,完善相关性度量,让对话的意图识别更加精准;
4.采用多个进程代理的方式,用缓存机制提前加载好训练的模型,可以做到毫秒级别实时意图识别。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明一实施例一种基于XLNet的智能语音对话意图识别方法的流程示意图;
图2是本发明一实施例一种基于XLNet的智能语音对话意图识别方法中步骤S6的流程示意图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
本发明实施例提出一种基于XLNet的智能语音对话意图识别方法,如图1所示,包括以下步骤:
S1:将对话节点的标准问题和扩展的多个相似问题作为语料打标整理成文本样本;
S2:将文本样本拆分成训练集合和验证集合;
S3:将训练集合输入模型中,初始化原始相关权重,设置好迭代次数和步长,并在损失函数中加入Triplet loss损失,固定网络其他层,仅仅再次训练XLNet模型最后两层网络,直到模型收敛;
S4:离线准确率等指标评测,在验证集合上验证模型可用
S5:线上预测时,预加载模型,提供接口接收待识别的语音转化为文本输入输出对话文本相关的分类类别
S6:在线上服务中添加对应的阀值计算和分类概率计算,阀值是通过训练时的所有样本取一个较大的分位数值用于判断是否激活输出相关的分类,概率值是通过归一化和softmax计算得到一个0到1之前的合理的,便于理解的概率;
S7:分类激活时通过配置文件得到相关分类的文本标题,否则返回默认分类(默认分类在对话中对应走相关兜底话术);
在本实施例中,将文本样本拆分成训练集合和验证集合之后还包括:通过多个实际通话录音完善语气词词库,通过语气词词库去除相关语气词,以提高识别的准确率。
在本实施例中,所述按阀值判断分类是否激活包括:
概率值先用归一化方法转换成正值,如果多个节点分类的概率值都超过阀值输出最大和次大概率节点时,剔除其他超过阀值的节点分别计算具体的概率,目的是为了在最后softmax单个分类都得到一个0到1之间到合理概率值;
在本实施例中,所述将待识别的语音转化为文本输入XLNet模型之前还包括:采用多个进程代理的方式,用缓存机制提前加载好训练的模型。
服务上采用python flask提前预加载模型的方式,同时启动多个端口号通过nginx代理分发做负载均衡策略的方式提高模型的tps,单条可以达到200ms左右返回。
在本实施例中,所述通过计算阀值判断是否激活输出相关的分类,通过归一化和softmax计算分类概率判断分类的合理程度包括:
S61:将对话语音转化为对话文本,将对话文本输入XLNet模型得到该文本的分类概率;
S62:对各个节点的分类概率进行归一化,根据训练时得到的中位数数值确定相关的激活阀值,确定激活阀值输出以后对所有分类进行softmax概率计算,同时计算分类标题的相关性,如果标题相关,计算softmax概率时相互剔除相关标题后再进行概率计算,最后确定分类概率,分类概率大于80%为节点分类,分类概率小于80%为默认分类;
S63:按分类概率得到分类的lable标签,通过lable标签和分类名称的对应关系获取分类节点名称拼接结果,确定相应的应答。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.一种基于XLNet的智能语音对话意图识别方法,其特征在于,包括以下步骤:
S1:将对话节点的标准问题和扩展的多个相似问题作为语料打标整理成文本样本;
S2:将文本样本拆分成训练集合和验证集合;
S3:将训练集合输入XLNet模型中,初始化原始相关权重,设置好迭代次数和步长,并在损失函数中加入Triplet loss损失,固定网络其他层,仅仅再次训练XLNet模型最后两层网络,直到XLNet模型收敛;
S4:通过离线准确率在验证集合上验证XLNet模型;
S5:线上预测时,预加载XLNet模型,提供接口接收待识别的语音转化为文本输入,输出文本输入相关的分类类别;
S6:在线上服务中添加对应的阀值计算和分类概率计算,所述阀值是通过训练时的所有样本取一个较大的分位数值用于判断是否激活输出相关的分类,通过归一化和softmax计算分类概率判断分类的合理程度;
S7:分类激活时通过配置文件得到相关分类的文本标题,否则返回默认分类。
2.根据权利要求1所述的一种基于XLNet的智能语音对话意图识别方法,其特征在于,所述将文本样本拆分成训练集合和验证集合之后还包括:通过多个实际通话录音完善语气词词库,通过语气词词库去除相关语气词。
3.根据权利要求1所述的一种基于XLNet的智能语音对话意图识别方法,其特征在于,所述通过计算阀值判断是否激活输出相关的分类,通过归一化和softmax计算分类概率判断分类的合理程度包括:
S61:将对话语音转化为对话文本,将对话文本输入XLNet模型得到该文本的分类概率;
S62:对各个节点的分类概率进行归一化,根据训练时得到的中位数数值确定相关的激活阀值,确定激活阀值输出以后对所有分类进行softmax概率计算,同时计算分类标题的相关性,如果标题相关,计算softmax概率时相互剔除相关标题后再进行概率计算,最后确定分类概率,分类概率大于80%为节点分类,分类概率小于80%为默认分类;
S63:按分类概率得到分类的lable标签,通过lable标签和分类名称的对应关系获取分类节点名称拼接结果,确定相应的应答。
4.根据权利要求1所述的一种基于XLNet的智能语音对话意图识别方法,其特征在于,所述预加载XLNet模型之前还包括:采用多个进程代理的方式,用缓存机制提前加载好训练的模型。
CN201910962900.7A 2019-10-11 2019-10-11 一种基于XLNet的智能语音对话意图识别方法 Active CN110689878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910962900.7A CN110689878B (zh) 2019-10-11 2019-10-11 一种基于XLNet的智能语音对话意图识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910962900.7A CN110689878B (zh) 2019-10-11 2019-10-11 一种基于XLNet的智能语音对话意图识别方法

Publications (2)

Publication Number Publication Date
CN110689878A CN110689878A (zh) 2020-01-14
CN110689878B true CN110689878B (zh) 2020-07-28

Family

ID=69112010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910962900.7A Active CN110689878B (zh) 2019-10-11 2019-10-11 一种基于XLNet的智能语音对话意图识别方法

Country Status (1)

Country Link
CN (1) CN110689878B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354363A (zh) * 2020-02-21 2020-06-30 镁佳(北京)科技有限公司 车载语音识别方法、装置、可读存储介质及电子设备
CN111581377B (zh) * 2020-04-23 2023-04-07 广东博智林机器人有限公司 文本分类方法、装置、存储介质及计算机设备
CN111709630A (zh) * 2020-06-08 2020-09-25 深圳乐信软件技术有限公司 语音质检方法、装置、设备及存储介质
CN112099910B (zh) * 2020-08-28 2023-08-11 广州探迹科技有限公司 一种容器集群中算法模型的预加载方法
CN112259079A (zh) * 2020-10-19 2021-01-22 北京有竹居网络技术有限公司 语音识别的方法、装置、设备和计算机可读介质
CN112328786A (zh) * 2020-11-03 2021-02-05 平安科技(深圳)有限公司 基于bert的文本分类方法、装置、计算机设备及存储介质
CN113905135B (zh) * 2021-10-14 2023-10-20 天津车之家软件有限公司 一种智能外呼机器人的用户意向识别方法和装置
CN114078475B (zh) * 2021-11-08 2023-07-25 北京百度网讯科技有限公司 语音识别和更新方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657229A (zh) * 2018-10-31 2019-04-19 北京奇艺世纪科技有限公司 一种意图识别模型生成方法、意图识别方法及装置
CN109785838A (zh) * 2019-01-28 2019-05-21 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN110298391A (zh) * 2019-06-12 2019-10-01 同济大学 一种基于小样本的迭代式增量对话意图类别识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7295981B1 (en) * 2004-01-09 2007-11-13 At&T Corp. Method for building a natural language understanding model for a spoken dialog system
US9099083B2 (en) * 2013-03-13 2015-08-04 Microsoft Technology Licensing, Llc Kernel deep convex networks and end-to-end learning
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
CN107516511B (zh) * 2016-06-13 2021-05-25 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
CN108415923B (zh) * 2017-10-18 2020-12-11 北京邮电大学 封闭域的智能人机对话系统
CN109587360B (zh) * 2018-11-12 2021-07-13 平安科技(深圳)有限公司 电子装置、应对话术推荐方法和计算机可读存储介质
CN109829153A (zh) * 2019-01-04 2019-05-31 平安科技(深圳)有限公司 基于卷积神经网络的意图识别方法、装置、设备及介质
CN110188199A (zh) * 2019-05-21 2019-08-30 北京鸿联九五信息产业有限公司 一种用于智能语音交互的文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657229A (zh) * 2018-10-31 2019-04-19 北京奇艺世纪科技有限公司 一种意图识别模型生成方法、意图识别方法及装置
CN109785838A (zh) * 2019-01-28 2019-05-21 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN110298391A (zh) * 2019-06-12 2019-10-01 同济大学 一种基于小样本的迭代式增量对话意图类别识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"面向问答领域的语义相关性计算的研究";周伟杰;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20180715;全文 *

Also Published As

Publication number Publication date
CN110689878A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110689878B (zh) 一种基于XLNet的智能语音对话意图识别方法
CN113688244B (zh) 基于神经网络的文本分类方法、系统、设备及存储介质
US10789943B1 (en) Proxy for selective use of human and artificial intelligence in a natural language understanding system
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN109582793A (zh) 模型训练方法、客服系统及数据标注系统、可读存储介质
CN111353029B (zh) 一种基于语义匹配的多轮对话口语理解方法
WO2020238553A1 (zh) 测试语料生成方法、装置、计算机设备和存储介质
CN109614627B (zh) 一种文本标点预测方法、装置、计算机设备及存储介质
CN111416728B (zh) 会话结束预测、在线客服服务的方法、系统、设备及介质
CN111897935B (zh) 基于知识图谱的话术路径选择方法、装置和计算机设备
CN113282737B (zh) 人机协作的智能客服对话方法及装置
CN114120978A (zh) 情绪识别模型训练、语音交互方法、装置、设备及介质
CN110992959A (zh) 一种语音识别方法及系统
CN114678014A (zh) 意图识别方法、装置、计算机设备及计算机可读存储介质
CN112905772B (zh) 语义相关性分析方法、装置及相关产品
CN112084769B (zh) 依存句法模型优化方法、装置、设备及可读存储介质
CN116821309A (zh) 一种基于大语言模型的上下文构造方法
CN112214592B (zh) 一种回复对话评分模型训练方法、对话回复方法及其装置
CN114239565B (zh) 一种基于深度学习的情绪原因识别方法及系统
CN115689603A (zh) 用户反馈信息收集方法、装置及用户反馈系统
CN111091011B (zh) 领域预测方法、领域预测装置及电子设备
CN113674745B (zh) 语音识别方法及装置
CN113096646B (zh) 音频识别方法、装置、电子设备及存储介质
CN114238605A (zh) 一种智能语音客服机器人自动对话方法及装置
CN113033160B (zh) 对话的意图分类方法及设备和生成意图分类模型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An intelligent speech conversation intention recognition method based on xlnet

Effective date of registration: 20211203

Granted publication date: 20200728

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2021980013964

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220322

Granted publication date: 20200728

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2021980013964

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An intelligent speech conversation intention recognition method based on xlnet

Effective date of registration: 20220322

Granted publication date: 20200728

Pledgee: Shanghai Guotai Junan Securities Asset Management Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2022990000161

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230131

Granted publication date: 20200728

Pledgee: Shanghai Guotai Junan Securities Asset Management Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2022990000161