CN112989839A - 一种基于关键词特征嵌入语言模型的意图识别方法及系统 - Google Patents

一种基于关键词特征嵌入语言模型的意图识别方法及系统 Download PDF

Info

Publication number
CN112989839A
CN112989839A CN201911309397.1A CN201911309397A CN112989839A CN 112989839 A CN112989839 A CN 112989839A CN 201911309397 A CN201911309397 A CN 201911309397A CN 112989839 A CN112989839 A CN 112989839A
Authority
CN
China
Prior art keywords
keyword
word segmentation
category
words
keyword list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911309397.1A
Other languages
English (en)
Inventor
颜永红
林格平
付瑞柳
万辛
张学君
孙旭东
孙晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN201911309397.1A priority Critical patent/CN112989839A/zh
Publication of CN112989839A publication Critical patent/CN112989839A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术领域,具体涉及一种基于关键词特征嵌入语言模型的意图识别方法,包括:采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;针对获得的不同类别的分词结果,获得不同类别的分词结果对应的候选意图相关的关键词列表;剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词,获得每一种类别的分词结果对应的最终关键词表,进而获得不同的关键词特征向量;将获得的每一个关键词特征向量嵌入至预先训练好的语言模型,获得带有关键词特征的有效文本的语音信息;并对其进行编码和分类,获得该有效文本的语言信息的意图识别结果。

Description

一种基于关键词特征嵌入语言模型的意图识别方法及系统
技术领域
本发明属于自然语言处理和长文本意图识别技术领域,具体涉及一种基于关键词特征嵌入语言模型的意图识别方法及系统。
背景技术
意图识别技术是将长文本中隐含的说话人意图进行识别的重要技术,也是自然语言处理领域的一个重要研究内容。
传统的意图识别技术,采用关键词匹配以及使用词频、TFIDF(term frequency–inverse document frequency,词频逆文本频率指数)等统计信息和如支持向量机、混合高斯模型等传统机器学习模型结合的方法,这些方法都只是对潜在的语言统计数据进行了利用,而深层次的语义信息无法涉及,对于样本质量十分依赖,性能不理想。
深度学习技术发展以来,卷积神经网络、递归神经网络、transformer等先进的神经网络都用于编码更深层次的语义信息,并且在自然语言处理的各个领域均取得了不菲的成果,但是,这些方法都太依赖于训练数据,只专注于特定任务,而且会受数据集的影响,学习到数据集的其他特征而忽略任务核心语义信息,一旦数据集改变,性能会大打折扣。
发明内容
本发明的目的在于,为解决现有技术存在上述缺陷,本发明提出了一种基于关键词特征嵌入语言模型的意图识别方法及系统,基于在超大规模语料库上预先训练好的语言模型BERT,在挖掘更深层语义的同时,兼顾通用语义信息的挖掘能力,同时嵌入关键词特征的外部知识,引导系统关注更核心的语义。
为了实现上述目的,本发明提供了一种基于关键词特征嵌入语言模型的意图识别方法,其包括:
对待识别语料进行预处理,利用正则表达式提取待识别语料中的有效文本的语言信息;
采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;
针对获得的不同类别的分词结果,根据TFIDF算法,计算每一种类别的分词结果中的所有词的TFIDF值,获得不同类别的分词结果对应的候选意图相关的关键词列表;
通过类别交叉统计和去停用词,剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词,获得每一种类别的分词结果对应的最终关键词表;
根据最终的关键词列表,查找有效文本的语言信息中的每个关键词对应的位置信息,获得不同的关键词特征向量;
将获得的每一个关键词特征向量嵌入至预先训练好的语言模型,获得带有关键词特征的有效文本的语音信息;
对获得的带有关键词特征的有效文本的语音信息进行编码和分类,获得该有效文本的语言信息的意图识别结果。
作为上述技术方案的改进之一,所述对待识别语料进行预处理,利用正则表达式提取待识别语料中的有效文本的语言信息;具体为:
调整编码格式,将纷杂的文本文件的中文编码统一转为utf-8格式;去除非法字符,利用正则表达式,对待识别语料,去除汉字、英文单词、数字、常用标点符号之外的不合法字符;再将去除后的待识别语料进行数字转化,将数字转化后的待识别语料中所有阿拉伯数字统一转换为简体中文规范写法;再进行标点符号转换,将转换后的待识别语料中的半角字符统一转化为对应的全角字符;再进行标签规范,利用规则匹配的方法,纠正文本意图标签中的拼写错误;文件大小筛选,删去转化后的待识别语料中的空白文件以及三行以内无信息的噪声文件,进而提取删除后的待识别语料中的有效文本的语言信息。
作为上述技术方案的改进之一,所述采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;具体为:
采用前后向最大分词算法,分别从正向和逆向两个方向对提取的有效文本的语言信息中的片段在预先构建的分词词典中进行匹配,获得在正向和逆向的不同长度片段的有效文本语言信息,将匹配到的正向和逆向的最大长度片段的有效文本语言信息作为各自的匹配结果,最后利用正向最大匹配法,根据正向最大长度片段的有效文本语言信息,获得正向分词结果;利用逆向最大匹配法,根据逆向最大长度片段的有效文本语言信息,获得逆向分词结果;
比较正向分词结果和逆向分词结果,如果正向分词结果和逆向分词结果相同,则采用该分词结果;如果正向分词结果和逆向分词结果不同,则利用该预先训练的语言模型,选取两个分词结果之中句子困惑度最小的,从而决定最终正确的分词结果。
作为上述技术方案的改进之一,所述针对获得的不同类别的分词结果,根据TFIDF算法,计算每一种类别的分词结果中的所有词的TFIDF值,获得不同类别的分词结果对应的候选意图相关的关键词列表;具体为:
根据公式(1),计算每个类别的分词结果中的每一个词汇的TF-IDF值:
TFIDF(x,j)=TF(x,j)*IDF(x) (1)
其中,TF(x,j)为单个词汇x在第j类别中出现的频率;
Figure BDA0002324098120000031
IDF(x)为逆向文件频率,代表单个词汇x在类别中的独特代表性,
Figure BDA0002324098120000032
其中,dx是包含单个词汇x的类别数,D是类别总数;
最终选择每个类别中TFIDF值最大的100个词汇作为候选意图相关的关键词列表。
作为上述技术方案的改进之一,所述通过类别交叉统计和去停用词,剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频常见词、共同高频词和领域无关干扰词,获得每一种类别的分词结果对应的最终关键词表;具体为:
人工去除领域无关干扰词,获得去除后的关键词列表;
采用去停用词的方法,剔除去除后的关键词列表中的高频常见词,获得剔除后的关键词列表;
剔除后的关键词列表中还包含一些相似类别之间的共同高频词,通过对不同类别间关键词进行交叉统计,剔除共同高频词,获得关键词列表;
获得的关键词列表中的关键词按照TFIDF值的大小,从每个类别中选择TFIDF值最大的50个关键词作为最终的关键词列表。
作为上述技术方案的改进之一,所述根据最终的关键词列表,查找有效文本的语言信息中的每个关键词对应的位置信息,获得不同的关键词特征向量;具体为:
对有效文本的语言信息中的每个关键词,查找最终的关键词列表中是否有该关键词对应的位置信息;
如果查找到最终的关键词列表中有该关键词对应的位置信息,则获得该关键词对应的关键词特征向量,并记录其长度为768;
如果没有查找到最终的关键词列表中有该关键词对应的位置信息,则得到长度为768的零矢量。
作为上述技术方案的改进之一,所述语言模型包括:embedding模块和编码模块;
所述embedding模块,用于将获得的带有关键词特征的有效文本的语音信息的预训练embedding与对应的关键词特征向量相加,获得相加后的语音信息;
所述编码模块,用于将获得的相加后的语音信息进行编码,获得最终的意图识别编码。
作为上述技术方案的改进之一,所述对获得的带有关键词特征的有效文本的语音信息进行编码和分类,获得该有效文本的语言信息的意图识别结果;具体为:
将获得的相加后的语音信息输入至意图识别编码网络进行编码;该意图识别编码网络采用一个一层的随机初始化的transformer网络,其中,输入向量首先被通过一个12头的多头注意力机制网络,获得的输出向量再通过一个残差网络和归一化模块,再经过一个前馈神经网络,最后再通过一个残差网络和归一化模块,获得最终的意图识别编码;
该最终的意图识别编码再经过一个全连接层加softmax层构成的分类器,得到每个类别的预测概率,选取最大似然概率的类别作为最终的意图识别结果。
本发明还提供了一种基于关键词特征嵌入语言模型的意图识别系统,该系统通过上述方法实现,其包括:
提取模块,用于对待识别语料进行预处理,利用正则表达式提取待识别语料中的有效文本的语言信息;
分词模块,用于采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;
关键词获取模块,用于针对获得的不同类别的分词结果,根据TFIDF算法,计算每一种类别的分词结果中的所有词的TFIDF值,获得不同类别的分词结果对应的候选意图相关的关键词列表;
剔除不相关词模块,用于通过类别交叉统计和去停用词,剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词,获得每一种类别的分词结果对应的最终关键词表;
关键词特征向量获取模块,用于根据最终的关键词列表,查找有效文本的语言信息中的每个关键词对应的位置信息,获得不同的关键词特征向量;
获取模块,用于将获得的每一个关键词特征向量嵌入至预先训练好的语言模型,获得带有关键词特征的有效文本的语音信息;和
意图识别模块,用于对获得的带有关键词特征的有效文本的语音信息进行编码和分类,获得该有效文本的语言信息的意图识别结果。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述方法。
本发明与现有技术相比的有益效果是:
本发明的方法通过先进的预先训练好的语言模型来提取更深层次的语义信息作为带有关键词特征的有效文本的语义信息,通过transformer编码器利用多头自注意力机制对特定意图的关键信息进行语义的编码匹配,通过嵌入不同类别的关键词特征向量到预先训练好的语言模型中,进行有效意图识别。
附图说明
图1为本发明的一种基于关键词特征嵌入预先训练好的语言模型的意图识别方法的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明提供了一种基于关键词特征嵌入语言模型的意图识别方法,克服传统意图识别方法中存在的无法挖掘深层次语义信息、受数据集限制、无法学习到任务通用的语义等技术问题,通过引入了在超大规模语料库上预训练的语言模型BERT,同时嵌入关键词特征的外部知识,对目标文本进行更为准确的意图识别,获得文本意图识别结果。
该方法包括:
对待识别语料进行预处理,利用正则表达式提取待识别语料中的有效文本的语言信息;
具体地,调整编码格式,将纷杂的文本文件中文编码统一转为utf-8格式;去除非法字符,利用正则表达式,对待识别语料,去除汉字、英文单词、数字、常用标点符号之外的不合法字符;再将去除后的待识别语料进行数字转化,将数字转化后的待识别语料中所有阿拉伯数字统一转换为简体中文规范写法;再进行标点符号转换,将转换后的待识别语料中的半角字符统一转化为对应的全角字符;再进行标签规范,利用规则匹配的方法,纠正文本意图标签中的拼写错误;文件大小筛选,删去转化后的待识别语料中的空白文件以及三行以内无信息的噪声文件,进而提取删除后的待识别语料中的有效文本的语言信息。
采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;
具体地,采用前后向最大分词算法,分别从正向和逆向两个方向对提取的有效文本的语言信息中的片段在预先构建的分词词典中进行匹配,获得在正向和逆向的不同长度片段的有效文本语言信息,将匹配到的正向和逆向的最大长度片段的有效文本语言信息作为各自的匹配结果,最后利用正向最大匹配法,根据正向最大长度片段的有效文本语言信息,获得正向分词结果;利用逆向最大匹配法,根据逆向最大长度片段的有效文本语言信息,获得逆向分词结果;
比较正向分词结果和逆向分词结果,如果正向分词结果和逆向分词结果相同,则采用该分词结果;如果正向分词结果和逆向分词结果不同,则利用该预先训练的语言模型,选取两个分词结果之中句子困惑度最小的,从而决定最终正确的分词结果。
针对获得的不同类别的分词结果,根据TFIDF算法,计算每一种类别的分词结果中的所有词的TFIDF值,获得不同类别的分词结果对应的候选意图相关的关键词列表;
具体地,根据公式(1),计算每个类别的分词结果中的每一个词汇的TF-IDF值:
TFIDF(x,j)=TF(x,j)*IDF(x) (1)
其中,TF-IDF值是用来评估一个词汇对于一个文件集或一个语料库中的其中一个类别的数据的重要程度
TF(x,j)为单个词汇x在第j类别中出现的频率;
Figure BDA0002324098120000061
IDF(x)为逆向文件频率,代表单个词汇x在类别中的独特代表性,
Figure BDA0002324098120000071
其中,dx是包含单个词汇x的类别数,D是类别总数;
每个词汇对应的TFIDF值越大,则说明该TFIDF值是该词汇所对应的类别的关键特征。
最终选择每个类别中TFIDF值最大的100个词汇作为候选意图相关的关键词列表。
通过类别交叉统计和去停用词,剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频常见词、共同高频词和领域无关干扰词,获得每一种类别的分词结果对应的最终关键词表;
具体地,在候选意图相关的关键词列表中的关键词依旧包含很多领域无关干扰词,例如专属的人名、地名、机构名、特殊的数字等等,人工去除领域无关干扰词,获得去除后的关键词列表;
采用去停用词的方法,剔除去除后的关键词列表中的高频常见词,例如的、你好等,获得剔除后的关键词列表;
剔除后的关键词列表中还包含一些相似类别之间的共同高频词,通过对不同类别间关键词进行交叉统计,剔除共同高频词,获得关键词列表;
获得的关键词列表中的关键词按照TFIDF值的大小,从每个类别中选择TFIDF值最大的50个关键词作为最终的关键词列表。
根据最终的关键词列表,查找有效文本的语言信息中的每个关键词对应的位置信息,获得不同的关键词特征向量;
具体地,对效文本的语言信息中的每个关键词,查找最终的关键词列表中是否有该关键词对应的位置信息;
如果查找到最终的关键词列表中有该关键词对应的位置信息,则获得该关键词对应的关键词特征向量,即该关键词对应的所属类别的one-hot编码向量,并记录其长度为768;
如果没有查找到最终的关键词列表中有该关键词对应的位置信息,则得到长度为768的零矢量。
将获得的每一个关键词特征向量嵌入至预先训练好的语言模型,获得带有关键词特征的有效文本的语音信息;
对获得的带有关键词特征的有效文本的语音信息进行编码和分类,获得该有效文本的语言信息的意图识别结果。
具体地,所述语言模型包括:embedding模块和编码模块;
所述embedding模块,用于将获得的带有关键词特征的有效文本的语音信息的预训练embedding与对应的关键词特征向量相加,获得相加后的语音信息;
所述编码模块,用于将获得的相加后的语音信息进行编码,获得最终的意图识别编码。
将获得的相加后的语音信息输入至12层的意图识别编码网络进行编码;该意图识别编码网络采用一个一层的随机初始化的transformer网络,其中,输入向量首先被通过一个12头的多头注意力机制网络,获得的输出向量再通过一个残差网络和归一化模块,再经过一个前馈神经网络,最后再通过一个残差网络和归一化模块,获得最终的意图识别编码;
该最终的意图识别编码再经过一个全连接层加softmax层构成的分类器,得到每个类别的预测概率,选取最大似然概率的类别作为最终的意图识别结果。
本发明还提供了一种基于关键词特征嵌入语言模型的意图识别系统,该系统通过上述方法实现,其包括:
提取模块,用于对待识别语料进行预处理,利用正则表达式提取待识别语料中的有效文本的语言信息;
分词模块,用于采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;
关键词获取模块,用于针对获得的不同类别的分词结果,根据TFIDF算法,计算每一种类别的分词结果中的所有词的TFIDF值,获得不同类别的分词结果对应的候选意图相关的关键词列表;
剔除不相关词模块,用于通过类别交叉统计和去停用词,剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词,获得每一种类别的分词结果对应的最终关键词表;
关键词特征向量获取模块,用于根据最终的关键词列表,查找有效文本的语言信息中的每个关键词对应的位置信息,获得不同的关键词特征向量;
获取模块,用于将获得的每一个关键词特征向量嵌入至预先训练好的语言模型,获得带有关键词特征的有效文本的语音信息;和
意图识别模块,用于对获得的带有关键词特征的有效文本的语音信息进行编码和分类,获得该有效文本的语言信息的意图识别结果。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述方法。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于关键词特征嵌入语言模型的意图识别方法,该方法包括:
对待识别语料进行预处理,利用正则表达式提取待识别语料中的有效文本的语言信息;
采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;
针对获得的不同类别的分词结果,根据TFIDF算法,计算每一种类别的分词结果中的所有词的TFIDF值,获得不同类别的分词结果对应的候选意图相关的关键词列表;
通过类别交叉统计和去停用词,剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词,获得每一种类别的分词结果对应的最终关键词表;
根据最终的关键词列表,查找有效文本的语言信息中的每个关键词对应的位置信息,获得不同的关键词特征向量;
将获得的每一个关键词特征向量嵌入至预先训练好的语言模型,获得带有关键词特征的有效文本的语音信息;
对获得的带有关键词特征的有效文本的语音信息进行编码和分类,获得该有效文本的语言信息的意图识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对待识别语料进行预处理,利用正则表达式提取待识别语料中的有效文本的语言信息;具体为:
调整编码格式,将纷杂的文本文件的中文编码统一转为utf-8格式;去除非法字符,利用正则表达式,对待识别语料,去除汉字、英文单词、数字、常用标点符号之外的不合法字符;再将去除后的待识别语料进行数字转化,将数字转化后的待识别语料中所有阿拉伯数字统一转换为简体中文规范写法;再进行标点符号转换,将转换后的待识别语料中的半角字符统一转化为对应的全角字符;再进行标签规范,利用规则匹配的方法,纠正文本意图标签中的拼写错误;文件大小筛选,删去转化后的待识别语料中的空白文件以及三行以内无信息的噪声文件,进而提取删除后的待识别语料中的有效文本的语言信息。
3.根据权利要求1所述的方法,其特征在于,所述采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;具体为:
采用前后向最大分词算法,分别从正向和逆向两个方向对提取的有效文本的语言信息中的片段在预先构建的分词词典中进行匹配,获得在正向和逆向的不同长度片段的有效文本语言信息,将匹配到的正向和逆向的最大长度片段的有效文本语言信息作为各自的匹配结果,最后利用正向最大匹配法,根据正向最大长度片段的有效文本语言信息,获得正向分词结果;利用逆向最大匹配法,根据逆向最大长度片段的有效文本语言信息,获得逆向分词结果;
比较正向分词结果和逆向分词结果,如果正向分词结果和逆向分词结果相同,则采用该分词结果;如果正向分词结果和逆向分词结果不同,则利用该预先训练的语言模型,选取两个分词结果之中句子困惑度最小的,从而决定最终正确的分词结果。
4.根据权利要求1所述的方法,其特征在于,所述针对获得的不同类别的分词结果,根据TFIDF算法,计算每一种类别的分词结果中的所有词的TFIDF值,获得不同类别的分词结果对应的候选意图相关的关键词列表;具体为:
根据公式(1),计算每个类别的分词结果中的每一个词汇的TF-IDF值:
TFIDF(x,j)=TF(x,j)*IDF(x) (1)
其中,TF(x,j)为单个词汇x在第j类别中出现的频率;
Figure FDA0002324098110000021
IDF(x)为逆向文件频率,代表单个词汇x在类别中的独特代表性,
Figure FDA0002324098110000022
其中,dx是包含单个词汇x的类别数,D是类别总数;
最终选择每个类别中TFIDF值最大的100个词汇作为候选意图相关的关键词列表。
5.根据权利要求1所述的方法,其特征在于,所述通过类别交叉统计和去停用词,剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频常见词、共同高频词和领域无关干扰词,获得每一种类别的分词结果对应的最终关键词表;具体为:
人工去除领域无关干扰词,获得去除后的关键词列表;
采用去停用词的方法,剔除去除后的关键词列表中的高频常见词,获得剔除后的关键词列表;
剔除后的关键词列表中还包含一些相似类别之间的共同高频词,通过对不同类别间关键词进行交叉统计,剔除共同高频词,获得关键词列表;
获得的关键词列表中的关键词按照TFIDF值的大小,从每个类别中选择TFIDF值最大的50个关键词作为最终的关键词列表。
6.根据权利要求1所述的方法,其特征在于,所述根据最终的关键词列表,查找有效文本的语言信息中的每个关键词对应的位置信息,获得不同的关键词特征向量;具体为:
对有效文本的语言信息中的每个关键词,查找最终的关键词列表中是否有该关键词对应的位置信息;
如果查找到最终的关键词列表中有该关键词对应的位置信息,则获得该关键词对应的关键词特征向量,并记录其长度为768;
如果没有查找到最终的关键词列表中有该关键词对应的位置信息,则得到长度为768的零矢量。
7.根据权利要求1所述的方法,其特征在于,所述语言模型包括:embedding模块和编码模块;
所述embedding模块,用于将获得的带有关键词特征的有效文本的语音信息的预训练embedding与对应的关键词特征向量相加,获得相加后的语音信息;
所述编码模块,用于将获得的相加后的语音信息进行编码,获得最终的意图识别编码。
8.根据权利要求7所述的方法,其特征在于,所述对获得的带有关键词特征的有效文本的语音信息进行编码和分类,获得该有效文本的语言信息的意图识别结果;具体为:
将获得的相加后的语音信息输入至意图识别编码网络进行编码;该意图识别编码网络采用一个一层的随机初始化的transformer网络,其中,输入向量首先被通过一个12头的多头注意力机制网络,获得的输出向量再通过一个残差网络和归一化模块,再经过一个前馈神经网络,最后再通过一个残差网络和归一化模块,获得最终的意图识别编码;
该最终的意图识别编码再经过一个全连接层加softmax层构成的分类器,得到每个类别的预测概率,选取最大似然概率的类别作为最终的意图识别结果。
9.一种基于关键词特征嵌入语言模型的意图识别系统,其特征在于,其包括:
提取模块,用于对待识别语料进行预处理,利用正则表达式提取待识别语料中的有效文本的语言信息;
分词模块,用于采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;
关键词获取模块,用于针对获得的不同类别的分词结果,根据TFIDF算法,计算每一种类别的分词结果中的所有词的TFIDF值,获得不同类别的分词结果对应的候选意图相关的关键词列表;
剔除不相关词模块,用于通过类别交叉统计和去停用词,剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词,获得每一种类别的分词结果对应的最终关键词表;
关键词特征向量获取模块,用于根据最终的关键词列表,查找有效文本的语言信息中的每个关键词对应的位置信息,获得不同的关键词特征向量;
获取模块,用于将获得的每一个关键词特征向量嵌入至预先训练好的语言模型,获得带有关键词特征的有效文本的语音信息;和
意图识别模块,用于对获得的带有关键词特征的有效文本的语音信息进行编码和分类,获得该有效文本的语言信息的意图识别结果。
10.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-7中任一所述的方法。
CN201911309397.1A 2019-12-18 2019-12-18 一种基于关键词特征嵌入语言模型的意图识别方法及系统 Pending CN112989839A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911309397.1A CN112989839A (zh) 2019-12-18 2019-12-18 一种基于关键词特征嵌入语言模型的意图识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911309397.1A CN112989839A (zh) 2019-12-18 2019-12-18 一种基于关键词特征嵌入语言模型的意图识别方法及系统

Publications (1)

Publication Number Publication Date
CN112989839A true CN112989839A (zh) 2021-06-18

Family

ID=76343919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911309397.1A Pending CN112989839A (zh) 2019-12-18 2019-12-18 一种基于关键词特征嵌入语言模型的意图识别方法及系统

Country Status (1)

Country Link
CN (1) CN112989839A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838467A (zh) * 2021-08-02 2021-12-24 北京百度网讯科技有限公司 语音处理方法、装置及电子设备
CN114491034A (zh) * 2022-01-24 2022-05-13 聚好看科技股份有限公司 一种文本分类方法及智能设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN109545190A (zh) * 2018-12-29 2019-03-29 联动优势科技有限公司 一种基于关键词的语音识别方法
CN109815492A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种基于识别模型的意图识别方法、识别设备及介质
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及系统
CN110210036A (zh) * 2019-06-05 2019-09-06 上海云绅智能科技有限公司 一种意图识别方法及装置
CN110334344A (zh) * 2019-06-13 2019-10-15 腾讯科技(深圳)有限公司 一种语义意图识别方法、装置、设备及存储介质
CN110413746A (zh) * 2019-06-25 2019-11-05 阿里巴巴集团控股有限公司 对用户问题进行意图识别的方法及装置
CN110569377A (zh) * 2019-09-11 2019-12-13 腾讯科技(深圳)有限公司 一种媒体文件的处理方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及系统
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN109545190A (zh) * 2018-12-29 2019-03-29 联动优势科技有限公司 一种基于关键词的语音识别方法
CN109815492A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种基于识别模型的意图识别方法、识别设备及介质
CN110210036A (zh) * 2019-06-05 2019-09-06 上海云绅智能科技有限公司 一种意图识别方法及装置
CN110334344A (zh) * 2019-06-13 2019-10-15 腾讯科技(深圳)有限公司 一种语义意图识别方法、装置、设备及存储介质
CN110413746A (zh) * 2019-06-25 2019-11-05 阿里巴巴集团控股有限公司 对用户问题进行意图识别的方法及装置
CN110569377A (zh) * 2019-09-11 2019-12-13 腾讯科技(深圳)有限公司 一种媒体文件的处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MANDAGOD: "中文分词实现—双向最大匹配", Retrieved from the Internet <URL:https://blog.csdn.net/mandagod/article/details/97111364?ops_request_misc=&request_id=&biz_id=102&utm_term=%E5%8F%8C%E5%90%91%E6%9C%80%E5%A4%A7%E5%8C%B9%E9%85%8D%E7%AE%97%E6%B3%95%20%E5%88%86%E8%AF%8D&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-97111364.142^v99^pc_search_result_base3&spm=1018.2226.3001.4187> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838467A (zh) * 2021-08-02 2021-12-24 北京百度网讯科技有限公司 语音处理方法、装置及电子设备
CN113838467B (zh) * 2021-08-02 2023-11-14 北京百度网讯科技有限公司 语音处理方法、装置及电子设备
CN114491034A (zh) * 2022-01-24 2022-05-13 聚好看科技股份有限公司 一种文本分类方法及智能设备
CN114491034B (zh) * 2022-01-24 2024-05-28 聚好看科技股份有限公司 一种文本分类方法及智能设备

Similar Documents

Publication Publication Date Title
CN110083831B (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
WO2023065544A1 (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN113268995A (zh) 中文学术关键词抽取方法、装置和存储介质
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114912453A (zh) 基于增强序列特征的中文法律文书命名实体识别方法
CN114416979A (zh) 一种文本查询方法、设备和存储介质
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
Bigot et al. Person name recognition in ASR outputs using continuous context models
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN111460147B (zh) 一种基于语义增强的标题短文本分类方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN113901210B (zh) 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法
CN116029300A (zh) 一种强化中文实体语义特征的语言模型训练方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination