CN109933663A - 基于embedding方法的意图识别算法 - Google Patents
基于embedding方法的意图识别算法 Download PDFInfo
- Publication number
- CN109933663A CN109933663A CN201910141203.5A CN201910141203A CN109933663A CN 109933663 A CN109933663 A CN 109933663A CN 201910141203 A CN201910141203 A CN 201910141203A CN 109933663 A CN109933663 A CN 109933663A
- Authority
- CN
- China
- Prior art keywords
- intention
- loss function
- mapped
- user
- vector space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 11
- 238000012549 training Methods 0.000 abstract description 11
- 238000013480 data collection Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于embedding方法的意图识别算法,基于特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,将分类问题转化了排序问题;通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题;对论文中的损失函数进行修改,使得新的损失函数具有更好的稳定性和鲁棒性;本发明提供的基于embedding方法的意图识别算法,在通用数据集上预训练的词向量需要占用上GB的内存空间,而本申请方案提供的模型由于只是嵌入了所关心的词和意图,因此仅需100MB左右的内存空间,占用的内存空间更少。
Description
技术领域
本发明涉及机器学习算法类,尤其涉及一种基于embedding方法的意图识别算法。
背景技术
目前智能客服中的意图识别算法一般是选用一个预训练好的词向量,对用户的输入文本转换映射为词向量,用预训练好的词向量对用户输入语句进行表示,然后选用传统机器学习算法或深度学习算法进行分类,将意图识别转换为一个多分类问题。现有技术的缺点主要有四个:意图识别的最终效果受词向量质量的影响非常大,与词向量的质量相比,选用何种分类算法对最终效果的影响不大;由于词向量的训练一般都是在通用数据集上进行,所以特定领域内词语可能未出现在词向量中或通用数据集中词的含义与特定领域内词的含义有可能不同,导致预训练的词向量中并未学习到特定领域内的词或学习的不准确;在通用数据集上预训练的词向量在处理特定领域内的问题时会有大量的词并未使用,导致内存空间的浪费;在对具有多个意图的句子进行分类时现有技术不能得到很好的结果。
发明内容
本发明为解决上述技术问题而采用的技术方案是提供一种基于embedding方法的意图识别算法,其中,具体技术方案为:
基于特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,将分类问题转化了排序问题;通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题;对论文中的损失函数进行修改,使得新的损失函数具有更好的稳定性和鲁棒性。
上述的基于embedding方法的意图识别算法,其中:首先,将语料库中的所有语句都通过神经网络映射到一个新的向量空间中,网络输入层的维度为语料中所有语句分词后词语的数量,隐藏层和输出层的维度为可调节的超参数;然后,将所有意图也都映射到与上步相同的向量空间,输入层的维度与意图的数量相同,输出层的维度与之前网络的输出层相同。
上述的基于embedding方法的意图识别算法,其中:为了训练模型,需要在新的向量空间中对语句与意图进行比较,具体的是最小化如下损失函数:
其中E+是正例集合,E-是负例集合,是从负例集合中采用负采样方法选出的负样本,该损失函数对负例样本采用了取最大运算操作,只考虑输入语句和所有负样本相似度的最大值,而原损失函数是考虑输入语句和所有负样本相似度的平均值。
本发明相对于现有技术具有如下有益效果:在通用数据集上预训练的词向量需要占用上GB的内存空间,而本申请方案提供的模型由于只是嵌入了所关心的词和意图,因此仅需100MB左右的内存空间,占用的内存空间更少;此方法的准确性也比使用预训练词向量配合分类器的方法更具优势,特别是在多意图分类的数据中,传统方法的F1-score为0.31,本方法的F1-score为0.88。
附图说明
图1为基于embedding方法的意图识别算法的示意图。
图2为基于embedding方法的意图识别算法的示意图。
具体实施方式
本发明提供技术方案没有使用通用数据集上预训练好的词向量,而是基于自己特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,这样就将分类问题转化了排序问题。
本发明的创新关键点有两个:一是通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题。二是对论文中的损失函数进行了修改,使得新的损失函数具有更好的稳定性和鲁棒性。
如图1所示,首先将语料库中的所有语句都通过神经网络映射到一个新的向量空间中,网络输入层的维度为语料中所有语句分词后词语的数量,隐藏层和输出层的维度为可调节的超参数;然后如图2所示,将所有意图也都映射到与上步相同的向量空间,输入层的维度与意图的数量相同,输出层的维度与之前网络的输出层相同;为了训练模型,需要在新的向量空间中对语句与意图进行比较,具体的是最小化如下损失函数:
其中E+是正例集合,E-是负例集合,是从负例集合中采用负采样方法选出的负样本。该损失函数对负例样本采用了取最大运算操作,只考虑输入语句和所有负样本相似度的最大值,而原损失函数是考虑输入语句和所有负样本相似度的平均值,经试验表明,采用最大值可以使结果具有更好的鲁棒性和稳定性,减少噪声数据对结果的影响。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。
Claims (3)
1.一种基于embedding方法的意图识别算法,其特征在于:基于特定领域内的数据,将用户的输入文本与意图映射到相同的向量空间,使得用户的输入文本与用户意图可以在同一空间内进行相似度对比,将分类问题转化了排序问题;通过将语句和意图映射到相同的向量空间将意图分类问题转换为意图排序问题;对论文中的损失函数进行修改,使得新的损失函数具有更好的稳定性和鲁棒性。
2.如权利要求1所述的基于embedding方法的意图识别算法,其特征在于:首先,将语料库中的所有语句都通过神经网络映射到一个新的向量空间中,网络输入层的维度为语料中所有语句分词后词语的数量,隐藏层和输出层的维度为可调节的超参数;然后,将所有意图也都映射到与上步相同的向量空间,输入层的维度与意图的数量相同,输出层的维度与之前网络的输出层相同。
3.如权利要求2所述的基于embedding方法的意图识别算法,其特征在于:为了训练模型,需要在新的向量空间中对语句与意图进行比较,具体的是最小化如下损失函数:
其中E+是正例集合,E-是负例集合,是从负例集合中采用负采样方法选出的负样本,该损失函数对负例样本采用了取最大运算操作,只考虑输入语句和所有负样本相似度的最大值,而原损失函数是考虑输入语句和所有负样本相似度的平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910141203.5A CN109933663A (zh) | 2019-02-26 | 2019-02-26 | 基于embedding方法的意图识别算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910141203.5A CN109933663A (zh) | 2019-02-26 | 2019-02-26 | 基于embedding方法的意图识别算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109933663A true CN109933663A (zh) | 2019-06-25 |
Family
ID=66985931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910141203.5A Pending CN109933663A (zh) | 2019-02-26 | 2019-02-26 | 基于embedding方法的意图识别算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933663A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761144A (zh) * | 2020-11-16 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 应答信息确定方法和装置 |
CN114238579A (zh) * | 2021-12-20 | 2022-03-25 | 北京聆心智能科技有限公司 | 文本分析方法、装置、介质和计算设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
CN108334891A (zh) * | 2017-12-15 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 一种任务型意图分类方法及装置 |
CN108920622A (zh) * | 2018-06-29 | 2018-11-30 | 北京奇艺世纪科技有限公司 | 一种意图识别的训练方法、训练装置和识别装置 |
-
2019
- 2019-02-26 CN CN201910141203.5A patent/CN109933663A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
CN108334891A (zh) * | 2017-12-15 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 一种任务型意图分类方法及装置 |
CN108920622A (zh) * | 2018-06-29 | 2018-11-30 | 北京奇艺世纪科技有限公司 | 一种意图识别的训练方法、训练装置和识别装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761144A (zh) * | 2020-11-16 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 应答信息确定方法和装置 |
CN114238579A (zh) * | 2021-12-20 | 2022-03-25 | 北京聆心智能科技有限公司 | 文本分析方法、装置、介质和计算设备 |
CN114238579B (zh) * | 2021-12-20 | 2023-02-10 | 北京聆心智能科技有限公司 | 文本分析方法、装置、介质和计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Srivastava et al. | A novel hierarchical BERT architecture for sarcasm detection | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
CN110188192B (zh) | 一种多任务网络构建与多尺度的罪名法条联合预测方法 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN109933664A (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN105069021A (zh) | 基于领域的中文短文本情感分类方法 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN103116637A (zh) | 一种面向中文Web评论的文本情感分类方法 | |
Vani et al. | Using K-means cluster based techniques in external plagiarism detection | |
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
KR20120109943A (ko) | 문장에 내재한 감정 분석을 위한 감정 분류 방법 | |
CN106777193B (zh) | 一种自动撰写特定稿件的方法 | |
CN103729421B (zh) | 一种译员文档精确匹配的方法 | |
CN106570170A (zh) | 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统 | |
CN110851601A (zh) | 基于分层注意力机制的跨领域情感分类系统及方法 | |
CN107423371A (zh) | 一种文本正负类情感分类方法 | |
CN108595704A (zh) | 一种基于软分类模型的新闻情感和重要性分类方法 | |
CN107133212A (zh) | 一种基于集成学习和词句综合信息的文本蕴涵识别方法 | |
CN110321434A (zh) | 一种基于词义消歧卷积神经网络的文本分类方法 | |
CN107292348A (zh) | 一种Bagging_BSJ短文本分类方法 | |
CN112214991A (zh) | 一种基于多特征融合加权的微博文本立场检测方法 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 | |
CN109933663A (zh) | 基于embedding方法的意图识别算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |