CN109800296B - 一种基于用户真实意图的语意模糊识别方法 - Google Patents

一种基于用户真实意图的语意模糊识别方法 Download PDF

Info

Publication number
CN109800296B
CN109800296B CN201910053862.3A CN201910053862A CN109800296B CN 109800296 B CN109800296 B CN 109800296B CN 201910053862 A CN201910053862 A CN 201910053862A CN 109800296 B CN109800296 B CN 109800296B
Authority
CN
China
Prior art keywords
text data
classification
request text
request
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910053862.3A
Other languages
English (en)
Other versions
CN109800296A (zh
Inventor
杜忠和
刘楚雄
唐军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201910053862.3A priority Critical patent/CN109800296B/zh
Publication of CN109800296A publication Critical patent/CN109800296A/zh
Application granted granted Critical
Publication of CN109800296B publication Critical patent/CN109800296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于用户真实意图的语意模糊识别方法,包括以下步骤:通过中文分词工具及词频矩阵对大量领域分类正确的历史数据进行特征提取,形成特征词列表;对同一用户的单条请求文本数据及预设时间段内的多条请求文本数据进行分词,得到分词列表;分别对不同领域构建隶属度函数,所述隶属度函数用于对分类失败的请求文本数据进行模糊模式识别;分别计算分类失败的请求文本数据对不同领域的隶属度,根据最大隶属度的原则对分类失败的请求文本数据进行领域分类。本发明针对语义解析失败的用户请求文本数据,通过最大隶属度原则对分类失败的请求文本数据进行模糊模式识别,从而进行领域分类,提高分类准确率,进而提高语义解析的准确率。

Description

一种基于用户真实意图的语意模糊识别方法
技术领域
本发明涉及计算机自然语言处理技术领域,特别是一种基于用户真实意图的语意模糊识别方法。
背景技术
随着信息技术的发展与人工智能概念的普及,越来越多的客户服务正朝着智能化的方向发展,人们可以通过简单的语音输入与智能设备进行人机交互。自然语言处理是计算机科学领域和人工智能领域中的一个重要方向,通过研究自然语言处理、语音语义识别及相关技术可以帮助人们更加方便有效地与智能设备进行交互,进而实现自己的真实意图。在语音人机交互的过程中,常见的方法是先将用户的语音信息转换为请求文本数据,然后对请求文本数据进行语义分析来理解用户的真实意图,然后将用户真实意图对应的内容传给终端设备进行后续处理。
目前语义识别存在的主要问题,一方面是由于用户说话语速快慢、声调高低、方言口音等问题引起的语音信号错误,导致请求文本数据失真,因此无法进行后续处理;另一方面,对语义的分析仅针对一条独立的语句,没有考虑情景的上文,缺少对用户真实意图的理解。由于上述缺陷,现阶段语义识别存在大量语义解析失败的请求文本,这些文本数据长度短、混淆性高、特征不明显、识别率低。
发明内容
为解决现有技术中存在的问题,本发明的目的是提供一种基于用户真实意图的语意模糊识别方法,本发明针对语义解析失败的用户请求文本数据,根据已有的分类正确的历史数据进行特征提取,通过中文分词与词频矩阵,结合最大隶属度原则对解析失败的请求文本数据进行模糊模式识别,进而提高分类准确率。
为实现上述目的,本发明采用的技术方案是:一种基于用户真实意图的语意模糊识别方法,包括以下步骤:
步骤S10、通过中文分词工具及词频矩阵对大量领域分类正确的历史数据进行特征提取,形成特征词列表;
步骤S20、对同一用户的单条请求文本数据及预设时间段内的多条请求文本数据进行分词,得到分词列表;
步骤S30、分别对不同领域构建隶属度函数,所述隶属度函数用于对分类失败的请求文本数据进行模糊模式识别;
步骤S40、分别计算分类失败的请求文本数据对不同领域的隶属度,根据最大隶属度的原则对分类失败的请求文本数据进行领域分类。
作为一种优选的实施方式,所述步骤S10具体包括:
步骤S11、收集项目日志数据中语义解析成功且分类正确的请求文本数据,将该请求文本数据分为n个不同的领域,并以集合的形式记为D={d1,d2,…,dn},其中di(1≤i≤n)代表第i个领域;
步骤S12、通过中文分词工具和词频矩阵分别对领域集合D中的每一个领域di进行特征词提取,得到代表每一个领域di的特征词列表feature(di)=[fdi1,fdi1,…,fdim]。
作为另一种优选的实施方式,所述步骤S20具体如下:
添加自定义词典和自定义停用词列表,然后判断分类失败的请求文本数据是否为同一用户在预设时间段内的唯一请求:如果是,则通过中文分词工具对该条请求文本数据tex进行分词,得到该条请求文本数据的分词列表segment(text)=[seg1,seg2,…,segr];如果不是预设时间段内的唯一请求,由于用户在与智能设备进行人机交互时的真实意图经常是连贯的、与前文相关的,因此将预设时间段内的所有请求文本数据进行分词,得到该时间段内的请求文本数据分词列表,这样使得一条请求文本数据的解析结果对用户之前的请求有一定依赖,更能反映用户的真实意图。
作为另一种优选的实施方式,所述步骤S30具体如下:
构建每个领域di的隶属度函数
Figure BDA0001951758850000032
用于对分类失败的请求文本数据进行模糊模式识别,该隶属度函数反映的是分类失败的请求文本数据隶属于某一领域di的程度,隶属度函数具有以下特征:隶属度在[0,+∞)内单调递增且变化范围在[0,1)内;其中δi=|feature(di)∩segment(text)|,表示分类失败的文本数据text的分词列表segment(di)与领域di的特征词列表feature(di)相交的特征词的总个数,特别地,如果相交的特征词同时出现在多个领域的特征词列表中,则该特征词的个数记为
Figure BDA0001951758850000031
其中N表示包含该特征词的领域总数;而wi表示分类失败的请求文本数据进行中文分词前被分类到领域di的初始概率,这么做的目的是为了确保对于同一条请求文本数据不会出现两个隶属度函数同时有最大隶属度。
作为另一种优选的实施方式,所述步骤S40具体如下:
分别计算分类失败的请求文本数据属于领域di(1≤i≤n)的隶属度f(d1),f(d2),…,f(dn),然后计算fM=max{f(d1),f(d2),…,f(dn)},若fM≠0,则根据最大隶属度的原则将该请求文本数据分类到第M类领域,再进行后续处理;若fM=0,则该请求文本数据领域分类失败。
作为另一种优选的实施方式,通过用户端的MAC地址来确定是否为同一用户。
本发明的有益效果是:
本发明针对语义解析失败的用户请求文本数据,根据已有的分类正确的历史数据,通过中文分词与词频矩阵提取每个领域的文本特征,得到每个领域的特征词列表,进而构建每个领域的隶属度函数,然后对分类失败的请求文本数据进行两个阶段的中文分词处理:第一阶段仅对同一用户的单条请求文本数据进行分词;第二阶段对同一用户在预设时间段内所有请求文本数据进行分词,最后通过最大隶属度原则对分类失败的请求文本数据进行模糊模式识别,从而进行领域分类,提高分类准确率,进而提高语义解析的准确率。
附图说明
图1为本发明实施例的流程框图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
如图1所示,一种基于用户真实意图的语意模糊识别方法,包括以下步骤:
(1)首先,收集日志数据,将其中解析成功且领域分类正确的请求文本数据分为不同的领域,如在本实施例中将用户对智能电视的语音请求文本数据分为video,music,tv三个领域,则
D={video,music,tv}
(2)通过分词工具和词频矩阵分别对video,music,tv三个领域进行高频特征词提取,得到三个领域的特征词列表:
f(video)=[我想看,我要看,电影,电视剧,点播,播放,的电影,周星驰]
f(music)=[我想听,我要听,歌曲,音乐,老歌,的歌,播放,主题曲,周杰伦]
f(tv)=[关机,音量,我想看,我要看,中央,卫视,频道,声音,调到,切换]
(3)添加自定义词典userdict和停用词列表stopword_list。
(4)假设分类失败的请求文本数据为text1=[播放于文文的歌体面],text1是同一用户在1分钟内的唯一请求,则通过分词工具对该条请求文本数据进行分词,得到分词列表segment1=[播放,于文文,的歌,体面];如果分类失败的请求文本数据为text2=[播放画儿与少年啊],并且text2不是同一用户在1分钟内的唯一请求,假设该用户在1分钟内的所有请求文本数据为total=[我要看花儿与笑脸,我要看福南卫视的画儿与少年,湖南卫视,播放画儿与少年啊],则将该用户1分钟内的所有请求文本数据进行分词,得到分词列表segment2=[我要看,花儿,笑脸,我要看,福南,卫视,画儿,少年,湖南,卫视,播放,画儿,少年]。
(5)分别构建video,music,tv三个领域的隶属度函数如下:
f(video)=1-2-0.4|feature(video)∩segment(text)|
f(music)=1-2-0.35|feature(music)∩segment(text)|,
f(tv)=1-2-0.25|feature(tv)∩segment(text)|
首先分析请求文本数据text1,计算可得f(video)=0.1294,f(music)=0.3050,f(tv)=0,由于fmusic=max{f(video),f(music),f(tv)}=0.3050>0,因此根据最大隶属度原则,将分类失败的请求文本数据text1分类为MUSIC领域。
现在分析请求文本数据text2,结合同一用户在1分钟内的多条请求文本,计算可得f(video)=0.3402,f(music)=0.1142,f(tv)=0.4547,由于
ftv=max{f(video),f(music),f(tv)}=0.4547>0,
因此根据最大隶属度原则,将分类失败的文本数据text2分类为TV领域。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (4)

1.一种基于用户真实意图的语意模糊识别方法,其特征在于,包括以下步骤:
步骤S10、通过中文分词工具及词频矩阵对大量领域分类正确的历史数据进行特征提取,形成特征词列表;所述步骤S10具体包括:
步骤S11、收集项目日志数据中语义解析成功且分类正确的请求文本数据,将该请求文本数据分为n个不同的领域,并以集合的形式记为D={d1,d2,…,dn},其中di(1≤i≤n)代表第i个领域;
步骤S12、通过中文分词工具和词频矩阵分别对领域集合D中的每一个领域di进行特征词提取,得到代表每一个领域di的特征词列表feature(di)=[fdi1, fdi2 ,…,fdim];
步骤S20、对同一用户的单条请求文本数据及预设时间段内的多条请求文本数据进行分词,得到分词列表;所述步骤S20具体如下:
添加自定义词典和自定义停用词列表,然后判断分类失败的请求文本数据是否为同一用户在预设时间段内的唯一请求:如果是,则通过中文分词工具对该条请求文本数据text进行分词,得到该条请求文本数据的分词列表segment(text)=[seg1,seg2,…,segr];如果不是预设时间段内的唯一请求,则将预设时间段内的所有请求文本数据进行分词,得到该时间段内所有的请求文本数据的分词列表;
步骤S30、分别对不同领域构建隶属度函数,所述隶属度函数用于对分类失败的请求文本数据进行模糊模式识别;所述步骤S30具体如下:
构建每个领域di的隶属度函数:
Figure FDA0003478150060000011
用于对分类失败的请求文本数据进行模糊模式识别,该隶属度函数反映的是分类失败的请求文本数据隶属于某一领域di的程度,隶属度在[0,+∞)内单调递增且变化范围在[0,1)内;其中δi=|feature(di)∩segment(text)|,表示分类失败的请求文本数据text的分词列表segment(di)与领域di的特征词列表feature(di)相交的特征词的总个数,wi表示分类失败的请求文本数据进行中文分词前被分类到领域di的初始概率;
步骤S40、分别计算分类失败的请求文本数据对不同领域的隶属度,根据最大隶属度的原则对分类失败的请求文本数据进行领域分类。
2.根据权利要求1所述的基于用户真实意图的语意模糊识别方法,其特征在于,如果相交的特征词同时出现在多个领域的特征词列表中,则该特征词的个数记为
Figure FDA0003478150060000021
其中N表示包含该特征词的领域总数。
3.根据权利要求2所述的基于用户真实意图的语意模糊识别方法,其特征在于,所述步骤S40具体如下:
分别计算分类失败的请求文本数据属于领域di(1≤i≤n)的隶属度f(d1),f(d2),…,f(dn),然后计算fM=max{f(d1),f(d2),…,f(dn)},若fM≠0,则根据最大隶属度的原则将该请求文本数据分类到第M类领域,再进行后续处理;若fM=0,则该请求文本数据领域分类失败。
4.根据权利要求1-3任一项所述的基于用户真实意图的语意模糊识别方法,其特征在于,通过用户端的MAC地址来确定是否为同一用户。
CN201910053862.3A 2019-01-21 2019-01-21 一种基于用户真实意图的语意模糊识别方法 Active CN109800296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910053862.3A CN109800296B (zh) 2019-01-21 2019-01-21 一种基于用户真实意图的语意模糊识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910053862.3A CN109800296B (zh) 2019-01-21 2019-01-21 一种基于用户真实意图的语意模糊识别方法

Publications (2)

Publication Number Publication Date
CN109800296A CN109800296A (zh) 2019-05-24
CN109800296B true CN109800296B (zh) 2022-03-01

Family

ID=66559900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910053862.3A Active CN109800296B (zh) 2019-01-21 2019-01-21 一种基于用户真实意图的语意模糊识别方法

Country Status (1)

Country Link
CN (1) CN109800296B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781685B (zh) * 2019-10-18 2022-08-19 四川长虹电器股份有限公司 基于用户反馈自动标注语义分析结果正误性的方法
CN112908319B (zh) * 2019-12-04 2022-10-25 海信视像科技股份有限公司 一种处理信息交互的方法及设备
CN111711514B (zh) * 2020-06-02 2021-07-09 拉卡拉支付股份有限公司 网络请求超时重传方法及装置
CN113470652A (zh) * 2021-06-30 2021-10-01 山东恒远智能科技有限公司 一种基于工业互联网的语音识别及处理方法

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
CN104299010A (zh) * 2014-09-23 2015-01-21 深圳大学 一种基于词袋模型的图像描述方法及系统
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN105095223A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 文本分类方法及服务器
CN105589972A (zh) * 2016-01-08 2016-05-18 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
CN106326458A (zh) * 2016-06-02 2017-01-11 广西智度信息科技有限公司 一种基于文本分类的城市管理案件分类方法
CN106446875A (zh) * 2016-11-16 2017-02-22 航天恒星科技有限公司 面向县域遥感尺度的农作物种植面积信息提取方法及装置
CN106610932A (zh) * 2015-10-27 2017-05-03 中兴通讯股份有限公司 一种语料处理方法和装置及语料分析方法和装置
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106874376A (zh) * 2017-01-04 2017-06-20 四川用联信息技术有限公司 一种验证搜索引擎关键词优化技术的方法
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN107346340A (zh) * 2017-07-04 2017-11-14 北京奇艺世纪科技有限公司 一种用户意图识别方法及系统
CN108446286A (zh) * 2017-02-16 2018-08-24 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108491429A (zh) * 2018-02-09 2018-09-04 湖北工业大学 一种基于类内类间文档频和词频统计的特征选择方法
CN108509421A (zh) * 2018-04-04 2018-09-07 郑州大学 基于随机游走和粗糙决策置信度的文本情感分类方法
CN108898170A (zh) * 2018-06-19 2018-11-27 江苏中盈高科智能信息股份有限公司 一种基于模糊聚类分析的智能组卷方法
CN109165292A (zh) * 2018-07-23 2019-01-08 Oppo广东移动通信有限公司 数据处理方法、装置以及移动终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
CN105095223A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 文本分类方法及服务器
CN104299010A (zh) * 2014-09-23 2015-01-21 深圳大学 一种基于词袋模型的图像描述方法及系统
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN106610932A (zh) * 2015-10-27 2017-05-03 中兴通讯股份有限公司 一种语料处理方法和装置及语料分析方法和装置
CN105589972A (zh) * 2016-01-08 2016-05-18 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
CN106326458A (zh) * 2016-06-02 2017-01-11 广西智度信息科技有限公司 一种基于文本分类的城市管理案件分类方法
CN106446875A (zh) * 2016-11-16 2017-02-22 航天恒星科技有限公司 面向县域遥感尺度的农作物种植面积信息提取方法及装置
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106874376A (zh) * 2017-01-04 2017-06-20 四川用联信息技术有限公司 一种验证搜索引擎关键词优化技术的方法
CN108446286A (zh) * 2017-02-16 2018-08-24 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN107346340A (zh) * 2017-07-04 2017-11-14 北京奇艺世纪科技有限公司 一种用户意图识别方法及系统
CN108491429A (zh) * 2018-02-09 2018-09-04 湖北工业大学 一种基于类内类间文档频和词频统计的特征选择方法
CN108509421A (zh) * 2018-04-04 2018-09-07 郑州大学 基于随机游走和粗糙决策置信度的文本情感分类方法
CN108898170A (zh) * 2018-06-19 2018-11-27 江苏中盈高科智能信息股份有限公司 一种基于模糊聚类分析的智能组卷方法
CN109165292A (zh) * 2018-07-23 2019-01-08 Oppo广东移动通信有限公司 数据处理方法、装置以及移动终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
改进的分类数据聚类中心初始化方法;王思杰等;《计算机应用》;20180630;73-76 *

Also Published As

Publication number Publication date
CN109800296A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN109800296B (zh) 一种基于用户真实意图的语意模糊识别方法
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
JP6675463B2 (ja) 自然言語の双方向確率的な書換えおよび選択
CN103956169B (zh) 一种语音输入方法、装置和系统
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
US11494434B2 (en) Systems and methods for managing voice queries using pronunciation information
CN109545185B (zh) 交互系统评价方法、评价系统、服务器及计算机可读介质
CN109979450B (zh) 信息处理方法、装置及电子设备
CN114817465A (zh) 一种用于多语言语义理解的实体纠错方法及智能设备
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
Ariki et al. Highlight scene extraction in real time from baseball live video
CN117558259A (zh) 一种数字人播报风格控制方法及装置
CN113268593A (zh) 意图分类和模型的训练方法、装置、终端及存储介质
CN109783648B (zh) 一种利用asr识别结果改进asr语言模型的方法
US11410656B2 (en) Systems and methods for managing voice queries using pronunciation information
CN116738250A (zh) 提示文本扩展方法、装置、电子设备和存储介质
WO2022143349A1 (zh) 一种确定用户意图的方法及装置
CN111061845A (zh) 管理聊天室的聊天主题的方法、设备和计算机存储介质
CN114822506A (zh) 一种消息播报方法、装置、移动终端及存储介质
CN111554300B (zh) 音频数据处理方法、装置、存储介质及设备
CN112509570B (zh) 语音信号处理方法、装置、电子设备及存储介质
CN114281952A (zh) 一种用户意图分析方法及装置
JP2004347732A (ja) 言語自動識別方法及び装置
WO2024087974A1 (zh) 广播数据信息处理方法、车载广播装置、存储介质及车辆
Khanna et al. SummarizeAI-Summarization of the Podcasts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant