CN109933663A - 基于embedding方法的意图识别算法 - Google Patents

基于embedding方法的意图识别算法 Download PDF

Info

Publication number
CN109933663A
CN109933663A CN201910141203.5A CN201910141203A CN109933663A CN 109933663 A CN109933663 A CN 109933663A CN 201910141203 A CN201910141203 A CN 201910141203A CN 109933663 A CN109933663 A CN 109933663A
Authority
CN
China
Prior art keywords
intention
loss function
mapped
user
vector space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910141203.5A
Other languages
English (en)
Inventor
孙晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Coast Mdt Infotech Ltd
Original Assignee
Shanghai Coast Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Coast Mdt Infotech Ltd filed Critical Shanghai Coast Mdt Infotech Ltd
Priority to CN201910141203.5A priority Critical patent/CN109933663A/zh
Publication of CN109933663A publication Critical patent/CN109933663A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于embedding方法的意图识别算法,基于特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,将分类问题转化了排序问题;通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题;对论文中的损失函数进行修改,使得新的损失函数具有更好的稳定性和鲁棒性;本发明提供的基于embedding方法的意图识别算法,在通用数据集上预训练的词向量需要占用上GB的内存空间,而本申请方案提供的模型由于只是嵌入了所关心的词和意图,因此仅需100MB左右的内存空间,占用的内存空间更少。

Description

基于embedding方法的意图识别算法
技术领域
本发明涉及机器学习算法类,尤其涉及一种基于embedding方法的意图识别算法。
背景技术
目前智能客服中的意图识别算法一般是选用一个预训练好的词向量,对用户的输入文本转换映射为词向量,用预训练好的词向量对用户输入语句进行表示,然后选用传统机器学习算法或深度学习算法进行分类,将意图识别转换为一个多分类问题。现有技术的缺点主要有四个:意图识别的最终效果受词向量质量的影响非常大,与词向量的质量相比,选用何种分类算法对最终效果的影响不大;由于词向量的训练一般都是在通用数据集上进行,所以特定领域内词语可能未出现在词向量中或通用数据集中词的含义与特定领域内词的含义有可能不同,导致预训练的词向量中并未学习到特定领域内的词或学习的不准确;在通用数据集上预训练的词向量在处理特定领域内的问题时会有大量的词并未使用,导致内存空间的浪费;在对具有多个意图的句子进行分类时现有技术不能得到很好的结果。
发明内容
本发明为解决上述技术问题而采用的技术方案是提供一种基于embedding方法的意图识别算法,其中,具体技术方案为:
基于特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,将分类问题转化了排序问题;通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题;对论文中的损失函数进行修改,使得新的损失函数具有更好的稳定性和鲁棒性。
上述的基于embedding方法的意图识别算法,其中:首先,将语料库中的所有语句都通过神经网络映射到一个新的向量空间中,网络输入层的维度为语料中所有语句分词后词语的数量,隐藏层和输出层的维度为可调节的超参数;然后,将所有意图也都映射到与上步相同的向量空间,输入层的维度与意图的数量相同,输出层的维度与之前网络的输出层相同。
上述的基于embedding方法的意图识别算法,其中:为了训练模型,需要在新的向量空间中对语句与意图进行比较,具体的是最小化如下损失函数:
其中E+是正例集合,E-是负例集合,是从负例集合中采用负采样方法选出的负样本,该损失函数对负例样本采用了取最大运算操作,只考虑输入语句和所有负样本相似度的最大值,而原损失函数是考虑输入语句和所有负样本相似度的平均值。
本发明相对于现有技术具有如下有益效果:在通用数据集上预训练的词向量需要占用上GB的内存空间,而本申请方案提供的模型由于只是嵌入了所关心的词和意图,因此仅需100MB左右的内存空间,占用的内存空间更少;此方法的准确性也比使用预训练词向量配合分类器的方法更具优势,特别是在多意图分类的数据中,传统方法的F1-score为0.31,本方法的F1-score为0.88。
附图说明
图1为基于embedding方法的意图识别算法的示意图。
图2为基于embedding方法的意图识别算法的示意图。
具体实施方式
本发明提供技术方案没有使用通用数据集上预训练好的词向量,而是基于自己特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,这样就将分类问题转化了排序问题。
本发明的创新关键点有两个:一是通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题。二是对论文中的损失函数进行了修改,使得新的损失函数具有更好的稳定性和鲁棒性。
如图1所示,首先将语料库中的所有语句都通过神经网络映射到一个新的向量空间中,网络输入层的维度为语料中所有语句分词后词语的数量,隐藏层和输出层的维度为可调节的超参数;然后如图2所示,将所有意图也都映射到与上步相同的向量空间,输入层的维度与意图的数量相同,输出层的维度与之前网络的输出层相同;为了训练模型,需要在新的向量空间中对语句与意图进行比较,具体的是最小化如下损失函数:
其中E+是正例集合,E-是负例集合,是从负例集合中采用负采样方法选出的负样本。该损失函数对负例样本采用了取最大运算操作,只考虑输入语句和所有负样本相似度的最大值,而原损失函数是考虑输入语句和所有负样本相似度的平均值,经试验表明,采用最大值可以使结果具有更好的鲁棒性和稳定性,减少噪声数据对结果的影响。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

Claims (3)

1.一种基于embedding方法的意图识别算法,其特征在于:基于特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,将分类问题转化了排序问题;通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题;对论文中的损失函数进行修改,使得新的损失函数具有更好的稳定性和鲁棒性。
2.如权利要求1所述的基于embedding方法的意图识别算法,其特征在于:首先,将语料库中的所有语句都通过神经网络映射到一个新的向量空间中,网络输入层的维度为语料中所有语句分词后词语的数量,隐藏层和输出层的维度为可调节的超参数;然后,将所有意图也都映射到与上步相同的向量空间,输入层的维度与意图的数量相同,输出层的维度与之前网络的输出层相同。
3.如权利要求2所述的基于embedding方法的意图识别算法,其特征在于:为了训练模型,需要在新的向量空间中对语句与意图进行比较,具体的是最小化如下损失函数:
其中E+是正例集合,E-是负例集合,是从负例集合中采用负采样方法选出的负样本,该损失函数对负例样本采用了取最大运算操作,只考虑输入语句和所有负样本相似度的最大值,而原损失函数是考虑输入语句和所有负样本相似度的平均值。
CN201910141203.5A 2019-02-26 2019-02-26 基于embedding方法的意图识别算法 Pending CN109933663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910141203.5A CN109933663A (zh) 2019-02-26 2019-02-26 基于embedding方法的意图识别算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910141203.5A CN109933663A (zh) 2019-02-26 2019-02-26 基于embedding方法的意图识别算法

Publications (1)

Publication Number Publication Date
CN109933663A true CN109933663A (zh) 2019-06-25

Family

ID=66985931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910141203.5A Pending CN109933663A (zh) 2019-02-26 2019-02-26 基于embedding方法的意图识别算法

Country Status (1)

Country Link
CN (1) CN109933663A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761144A (zh) * 2020-11-16 2021-12-07 北京沃东天骏信息技术有限公司 应答信息确定方法和装置
CN114238579A (zh) * 2021-12-20 2022-03-25 北京聆心智能科技有限公司 文本分析方法、装置、介质和计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017090051A1 (en) * 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof
CN108334891A (zh) * 2017-12-15 2018-07-27 北京奇艺世纪科技有限公司 一种任务型意图分类方法及装置
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017090051A1 (en) * 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof
CN108334891A (zh) * 2017-12-15 2018-07-27 北京奇艺世纪科技有限公司 一种任务型意图分类方法及装置
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761144A (zh) * 2020-11-16 2021-12-07 北京沃东天骏信息技术有限公司 应答信息确定方法和装置
CN114238579A (zh) * 2021-12-20 2022-03-25 北京聆心智能科技有限公司 文本分析方法、装置、介质和计算设备
CN114238579B (zh) * 2021-12-20 2023-02-10 北京聆心智能科技有限公司 文本分析方法、装置、介质和计算设备

Similar Documents

Publication Publication Date Title
Srivastava et al. A novel hierarchical BERT architecture for sarcasm detection
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN110188192B (zh) 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN109933664A (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN105069021A (zh) 基于领域的中文短文本情感分类方法
CN107992633A (zh) 基于关键词特征的电子文档自动分类方法及系统
CN103116637A (zh) 一种面向中文Web评论的文本情感分类方法
Vani et al. Using K-means cluster based techniques in external plagiarism detection
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
KR20120109943A (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법
CN106777193B (zh) 一种自动撰写特定稿件的方法
CN103729421B (zh) 一种译员文档精确匹配的方法
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
CN107423371A (zh) 一种文本正负类情感分类方法
CN108595704A (zh) 一种基于软分类模型的新闻情感和重要性分类方法
CN107133212A (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN110321434A (zh) 一种基于词义消歧卷积神经网络的文本分类方法
CN107292348A (zh) 一种Bagging_BSJ短文本分类方法
CN112214991A (zh) 一种基于多特征融合加权的微博文本立场检测方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN109933663A (zh) 基于embedding方法的意图识别算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190625