CN109800308B - 一种基于词性和模糊模式识别组合的短文本分类方法 - Google Patents

一种基于词性和模糊模式识别组合的短文本分类方法 Download PDF

Info

Publication number
CN109800308B
CN109800308B CN201910058601.0A CN201910058601A CN109800308B CN 109800308 B CN109800308 B CN 109800308B CN 201910058601 A CN201910058601 A CN 201910058601A CN 109800308 B CN109800308 B CN 109800308B
Authority
CN
China
Prior art keywords
text
domain
classified
classification
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910058601.0A
Other languages
English (en)
Other versions
CN109800308A (zh
Inventor
唐军
杜忠和
刘楚雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201910058601.0A priority Critical patent/CN109800308B/zh
Publication of CN109800308A publication Critical patent/CN109800308A/zh
Application granted granted Critical
Publication of CN109800308B publication Critical patent/CN109800308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于词性和模糊模式识别组合的短文本分类方法,针对领域分类失败的用户请求文本,通过对领域分类正确的历史数据进行不同词性的特征词提取形成基础领域特征,结合知识图谱抽取相关领域的实体形成扩展领域特征;将基础领域特征和扩展领域特征进行延展词性标注构成自定义词典;基于先粗分后细分的思想,通过词性模式匹配及最大隶属度原则相结合对待分类文本进行领域分类,最终得到准确率较高的短文本分类结果。本发明的方法可用于对人机交互过程中的用户请求文本进行领域分类,进而提高短文本分类的准确率与效率。

Description

一种基于词性和模糊模式识别组合的短文本分类方法
技术领域
本发明涉及计算机自然语言处理技术领域,特别涉及一种基于词性和模糊模式识别组合的短文本分类方法。
背景技术
随着计算机技术的飞速发展及各种智能设备的广泛应用,智能化的客户服务在我们生活中出现的越来越多,人们可以通过简单的语音输入与智能设备进行人机交互。首先,用户的语音信息被转换为请求文本,然后对请求文本进行解析得到结果,最后将解析成功的文本数据传送到终端设备进行后续处理。为了更好地解析用户的请求文本,对文本进行领域分类显得尤为重要。
目前常用的文本分类算法,有朴素贝叶斯算法、KNN算法、支持向量机算法及神经网络算法等。朴素贝叶斯算法虽然原理简单、易于实现,但是它需要一个很强的条件独立性假设前提,因此对被分类的文本要求较高,它要求文本中一个词汇出现与其他词汇是否出现无关,然而在实际应用中往往不成立,因为同一领域的词汇一起出现的概率很高,存在关联;KNN算法分类效率较低,对大规模语料库进行文本分类时计算量大、复杂度高;支持向量机算法同样也是适用于小样本语料库,对大规模文本分类效果并不好;神经网络算法训练时间长,而且分类效果对训练集有一定依赖。
除此之外,用户对智能设备的请求文本通常是短文本,由于短文本具有长度短、特征少、实时性强等特点,短文本分类相对于长文本分类更具难度与挑战性,上述分类算法很难发挥好的效果。目前针对短文本分类也有基于语料扩充的方法,但是扩充方法过于复杂且效果无法保证。短文本分类的准确率不高是现阶段亟待解决的问题。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种基于词性和模糊模式识别组合的短文本分类方法,将中文分词工具中的词性标注与模糊数学中的模糊模式识别相结合,可用于对人机交互过程中的用户请求文本进行领域分类,进而提高短文本分类的准确率与效率。
为了达到上述的技术效果,本发明采取以下技术方案:
一种基于词性和模糊模式识别组合的短文本分类方法,包括:针对领域分类失败的用户请求文本,通过对领域分类正确的历史数据进行不同词性的特征词提取形成基础领域特征,结合知识图谱抽取相关领域的实体形成扩展领域特征;将基础领域特征和扩展领域特征进行延展词性标注构成自定义词典;基于先粗分后细分的思想,通过词性模式匹配及最大隶属度原则相结合对待分类文本进行领域分类,最终得到准确率较高的短文本分类结果。
进一步地,具体包括以下步骤:
A.将领域分类正确的请求文本数据分为个不同的领域,领域集合记为;
B.通过不同词性对领域分类正确的文本数据进行高频特征词提取作为该领域的基础领域特征(此步骤可借助分词工具实现),从该领域的相关知识图谱中抽取实体(该知识图谱可通过网络数据获取),作为该领域的扩展领域特征;
C.将每个领域的基础领域特征和扩展领域特征进行延展词性标注,构成自定义词典;
D.对待分类文本进行二值粗分,结果为领域待定和分类失败两种;
E.对结果为领域待定的待分类文本进行领域细分。
进一步地,所述步骤E具体包括:
E1.加载步骤C得到的包含不同领域特征的自定义词典;
E2.根据自定义词典对待分类文本进行分词,并对分词后的词语标注词性;
E3.对分词及标注词性后的待分类文本进行词性模式匹配与模糊模式识别。
进一步地,所述步骤E3具体为:
E3.1构建自定义词典中每个领域di的隶属度函数
Figure BDA0001953386080000031
该隶属度函数反映的是待分类文本隶属于某一领域di的程度,其中N表示待分类文本分词后的词语总个数;|posj|表示分词后的待分类文本中具有第j个词性的词语个数,w(posj)表示词性posj的权重;
E3.2分别计算待分类文本属于领域di(1≤i≤n)的隶属度m(d1),m(d2),…,m(dn),然后计算最大隶属度mx=max{m(d1),m(d2),…,m(dn)};
E3.3若mx≠0且唯一,则根据最大隶属度原则将待分类文本分类到第x类领域;否则,待分类文本领域分类失败。
进一步地,所述步骤D中,具体是通过判断待分类文本中是否含有名词性语素对待分类文本进行领域二值粗分,若待分类文本中包含名词性语素则被判定为领域待定的待分类文本,否则被判定为分类失败的待分类文本。
本发明与现有技术相比,具有以下的有益效果:
本发明的基于词性和模糊模式识别组合的短文本分类方法,通过对已知领域进行不同词性的特征词提取形成基础领域特征,并从知识图谱中抽取相关领域的实体形成扩展领域特征,对基础领域特征和扩展领域特征进行延展词性标注后,通过词性模式匹配与最大隶属度原则相结合对待分类文本进行领域分类,对短文本分类的准确率及效率有一定提高。
附图说明
图1是本发明的基于词性和模糊模式识别组合的短文本分类方法的流程示意图。
图2是本发明的自定义词典的构建流程示意图。
具体实施方式
下面结合本发明的实施例对本发明作进一步的阐述和说明。
实施例:
如图1所示,一种基于词性和模糊模式识别组合的短文本分类方法,如图1所示,具体包括以下流程:
步骤1:将领域分类正确的请求文本数据分为个不同的领域,领域集合记为D={d1,d2,…,dn};
如本实施例中将领域分类正确的请求文本数据分为不同的领域,如将用户对智能电视的请求文本分为VIDEO、TV、MUSIC和APP四个领域,则D={VIDEO,TV,MUSIC,APP}。
步骤2:通过不同词性对领域分类正确的文本数据进行高频特征词提取作为该领域的基础领域特征,从该领域的相关知识图谱中抽取实体,作为该领域的扩展领域特征。
本实施例中,根据词性不同,分别对VIDEO、TV、MUSIC和APP四个领域进行高频特征词提取,得到这四个领域的基础领域特征。
以VIDEO领域为例,根据名词和动词得到VIDEO领域的高频特征词如下:
动词:verb_VIDEO=[播放/v,点播/v,看电视/v,打开/v,搜索/v,……];
名词:noun_VIDEO=[电影/n,电视/n,电视剧/n,影片/n,连续剧/n,……];
这些高频特征词将作为VIDEO领域的基础领域特征,其他三个领域(TV、MUSIC和APP)的基础领域特征可以通过相同的方法得到。
然后从知识图谱中抽取VIDEO领域的实体如下:
影视作品:entity_VIDEO=[某出没/n,某某的游戏/n,某某队长/n,我不是某某/n,泰某/n,……];
演员:actor_VIDEO=[刘某华/nr,周某驰/nr,成某/nr,刘某菲/nr,张某山/nr,……];
这些实体词语将作为VIDEO领域的扩展领域特征,其他三个领域的扩展领域特征可以通过相同的方法得到。
步骤3:将每个领域的基础领域特征和扩展领域特征进行延展词性标注,构成自定义词典。
本实施例中具体为:分别对VIDEO、TV、MUSIC和APP四个领域的基础领域特征和扩展领域特征进行延展词性标注,这里所说的延展词性标注,是指在原来的词性基础上对词语的词性进一步地细化标注。如VIDEO领域的基础领域特征被标注为vvideo(动词)、nvideo(名词),VIDEO领域的扩展领域特征被标注为nvideo(影视作品)、nra(演员),而MUSIC领域的基础领域特征被标注为vmusic(动词)、nmusic(名词),MUSIC领域的扩展领域特征被标注为nmusic(歌曲作品)、nrs(歌手),TV领域和APP领域的领域特征可以通过相同的方法进行延展词性标注。将延展词性标注后的每个领域的特征词构成自定义词典,自定义词典的构成流程具体如图2所示。
步骤4:对待分类文本进行二值粗分,结果为领域待定和分类失败两种。
本实施例中具体为通过判断待分类文本中是否含有名词性语素对待分类文本进行领域二值粗分,若待分类文本text形如语料库corpus1=[播放/v,漂亮/a吗/y,几点/m了/ul,……]中的形式,由于corpus1中的文本不包含名词性语素,则领域分类失败,即领域分类结果为分类失败NULL。
若待分类文本text包含名词性语素,则需要进一步对领域进行分类,即进入步骤5。
步骤5:加载步骤3得到的包含不同领域特征的自定义词典。
步骤6:对待分类文本进行分词,并对分词后的词语标注词性。
本实施例中假设有4条待分类文本,分别是text1=“周某伦不能说的秘密”,text2=“播放周某伦的不能说的秘密”,text3=“打开我的世界”,text4=“点播周某伦的电影不能说的秘密”。
上述4条待分类文本在加载自定义词典之前的分词和词性标注结果如下:
text1=[周某伦/nr,不/d,能/v,说/v,的/uj,秘密/n],
text2=[播放/v,周某伦/nr,的/uj,不能/v,说/v,的/uj,秘密/n],
text3=[打开/v,我/r,的/uj,世界/n],
text4=[点/m,播/v,周某伦/nr,的/uj,电影/n,不/d,能/v,说/v,的/uj,秘密/n]。
本方法中,加载包含不同领域特征的自定义词典之后,待分类文本的分词和词性标注结果如下:
text1=[周某伦/{nra:0.2,nrs:0.8},不能说的秘密/{nvideo:0.4,nmusic:0.6}],
text2=[播放/{vvideo:0.35,vmusic:0.35,vtv:0.3},周某伦/{nra:0.2,nrs:0.8},的/uj,不能说的秘密/{nvideo:0.4,nmusic:0.6}],
text3=[打开/{vapp:0.7,vvideo:0.3},我的世界/napp],
text4=[看看/vvideo,周某伦/{nra:0.2,nrs:0.8},的/uj,电影/nvideo,不能说的秘密/{nvideo:0.4,nmusic:0.6}]。
在本发明的自定义词典中,对不同词语在不同领域的不同词性的具有一个权重的分配,如“周某伦”一词既可能以歌手(singer)的身份出现在MUSIC领域,也可能以演员(actor)的身份出现在VIDEO领域,因此对它的词性延展标注为{nra:0.2,nrs:0.8},意思是“周某伦”的词性为nra的权重为0.2,词性为nrs的权重为0.8,在根据自定义词典进行分词和词性标注时,需同时参照该权重的分配对权重进行标注。
具体的,上述权重值的分配值可采取现有技术中的任意一种技术实现,如本实施例中采取根据从互联网抓取数据并对数据清洗后建立相关的数据库,然后根据该数据在数据库的不同领域中出现的次数确定该数据的不同词性的权重,如在数据库中搜索“周某伦”出现的结果为:80%的结果是其以作为歌手出现,20%的结果是其以演员的身份出现。
步骤7:构建自定义词典中每个领域di的隶属度函数
Figure BDA0001953386080000071
该隶属度函数反映的是待分类文本隶属于某一领域di的程度,其中N表示待分类文本分词后的词语总个数;|posj|表示分词后的待分类文本中具有第j个词性的词语个数,w(posj)表示词性posj的权重。
其中,如果一个词语以相同的词性出现在多个领域的领域特征中,则认为这个词语对领域分类的区分度不高,因此权重偏小;如果一个词语以不同的词性出现在多个领域的领域特征中,则将这个词语按照不同词性的权重在领域分类中加以区分。
具体在本实施例中,构建VIDEO、TV、MUSIC、APP四个领域的隶属度函数如下:
Figure BDA0001953386080000081
Figure BDA0001953386080000082
Figure BDA0001953386080000083
Figure BDA0001953386080000084
步骤8:分别计算待分类文本属于领域di(1≤i≤n)的隶属度m(d1),m(d2),…,m(dn),然后计算最大隶属度mx=max{m(d1),m(d2),…,m(dn)}。
本实施例中以text2为例,参照步骤6中分词和词性标注结果,计算:
Figure BDA0001953386080000085
Figure BDA0001953386080000086
Figure BDA0001953386080000087
Figure BDA0001953386080000088
综上即:text2中:m(VIDEO)=0.2375,m(TV)=0.075,m(MUSIC)=0.4375,m(APP)=0,mMUSIC=max{m(VIDEO),m(TV),m(MUSIC),m(APP)}=0.4375>0。
步骤9:若mx≠0且唯一,则根据最大隶属度原则将待分类文本分类到第x类领域;否则,待分类文本领域分类失败。
本实施例中,由于mMUSIC=max{m(VIDEO),m(TV),m(MUSIC),m(APP)}=0.4375>0,因此根据最大隶属度原则,待分类文本text2应该分类为MUSIC领域。同理可得,text1分类为MUSIC领域,text3分类为APP领域,text4分类为VIDEO领域。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (2)

1.一种基于词性和模糊模式识别组合的短文本分类方法,其特征在于,包括:针对领域分类失败的用户请求文本,通过对领域分类正确的历史数据进行不同词性的特征词提取形成基础领域特征,结合知识图谱抽取相关领域的实体形成扩展领域特征;将基础领域特征和扩展领域特征进行延展词性标注构成自定义词典;基于先粗分后细分的思想,通过词性模式匹配及最大隶属度原则相结合对待分类文本进行领域分类,最终得到短文本分类结果;
具体包括以下步骤:
A.将领域分类正确的请求文本数据分为n个不同的领域,领域集合记为D={d1,d2,…,dn};
B.通过不同词性对领域分类正确的文本数据进行高频特征词提取作为该领域的基础领域特征,从该领域的相关知识图谱中抽取实体,作为该领域的扩展领域特征;
C.将每个领域的基础领域特征和扩展领域特征进行延展词性标注,构成自定义词典;
D.对待分类文本进行二值粗分,结果为领域待定和分类失败两种;
E.对结果为领域待定的待分类文本进行领域细分;
所述步骤E具体包括:
E1.加载步骤C得到的包含不同领域特征的自定义词典;
E2.根据自定义词典对待分类文本进行分词,并对分词后的词语标注词性;
E3.对分词及标注词性后的待分类文本进行词性模式匹配与模糊模式识别;
所述步骤E3具体为:
E3.1构建自定义词典中每个领域di的隶属度函数
Figure FDA0003543156380000021
该隶属度函数反映的是待分类文本隶属于某一领域di的程度,其中N表示待分类文本分词后的词语总个数;|posj|表示分词后的待分类文本中具有第j个词性的词语个数,w(posj)表示词性posj的权重;
E3.2分别计算待分类文本属于领域di(1≤i≤n)的隶属度m(d1),m(d2),…,m(dn),然后计算最大隶属度mx=max{m(d1),m(d2),…,m(dn)};
E3.3若mx≠0且唯一,则根据最大隶属度原则将待分类文本分类到第x类领域;否则,待分类文本领域分类失败。
2.根据权利要求1所述的一种基于词性和模糊模式识别组合的短文本分类方法,其特征在于,所述步骤D中,具体是通过判断待分类文本中是否含有名词性语素对待分类文本进行领域二值粗分,若待分类文本中包含名词性语素则被判定为领域待定的待分类文本,否则被判定为分类失败的待分类文本。
CN201910058601.0A 2019-01-22 2019-01-22 一种基于词性和模糊模式识别组合的短文本分类方法 Active CN109800308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910058601.0A CN109800308B (zh) 2019-01-22 2019-01-22 一种基于词性和模糊模式识别组合的短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910058601.0A CN109800308B (zh) 2019-01-22 2019-01-22 一种基于词性和模糊模式识别组合的短文本分类方法

Publications (2)

Publication Number Publication Date
CN109800308A CN109800308A (zh) 2019-05-24
CN109800308B true CN109800308B (zh) 2022-04-15

Family

ID=66559957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910058601.0A Active CN109800308B (zh) 2019-01-22 2019-01-22 一种基于词性和模糊模式识别组合的短文本分类方法

Country Status (1)

Country Link
CN (1) CN109800308B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427496B (zh) * 2019-08-05 2022-06-03 北京百度网讯科技有限公司 用于文本处理的知识图谱扩充方法及装置
CN111881286B (zh) * 2019-09-10 2021-08-24 马上消费金融股份有限公司 一种分类模糊性分析方法及装置
CN111090755B (zh) * 2019-11-29 2023-04-04 福建亿榕信息技术有限公司 一种文本关联关系判别方法及存储介质
US11557141B2 (en) 2019-12-19 2023-01-17 Beijing Didi Infinity Technology And Development Co., Ltd. Text document categorization using rules and document fingerprints
CN111931026A (zh) * 2020-08-10 2020-11-13 湖南快乐阳光互动娱乐传媒有限公司 一种基于词性扩展的搜索优化方法及系统
US11907678B2 (en) * 2020-11-10 2024-02-20 International Business Machines Corporation Context-aware machine language identification

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170578A (ja) * 2010-02-18 2011-09-01 Kddi R & D Laboratories Inc 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法
CN107818153A (zh) * 2017-10-27 2018-03-20 中航信移动科技有限公司 数据分类方法和装置
CN108763477A (zh) * 2018-05-29 2018-11-06 厦门快商通信息技术有限公司 一种短文本分类方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140047402A (ko) * 2012-10-12 2014-04-22 주식회사 케이티 결제 수단 관리 방법 및 그 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170578A (ja) * 2010-02-18 2011-09-01 Kddi R & D Laboratories Inc 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法
CN107818153A (zh) * 2017-10-27 2018-03-20 中航信移动科技有限公司 数据分类方法和装置
CN108763477A (zh) * 2018-05-29 2018-11-06 厦门快商通信息技术有限公司 一种短文本分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chinese Sentence-Level Sentiment Classification Based on Fuzzy Sets;Guohong Fu et al.;《Coling 2010: Poster Volumn》;20100831;312-319 *
网页模糊归类算法的应用与实现;韩正忠 等;《https://www.cnblogs.com/webcool/archive/2005/12/30/308475.html》;20051230;1-8 *

Also Published As

Publication number Publication date
CN109800308A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN109800308B (zh) 一种基于词性和模糊模式识别组合的短文本分类方法
CN109117777B (zh) 生成信息的方法和装置
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
Ryu et al. Out-of-domain detection based on generative adversarial network
US8775174B2 (en) Method for indexing multimedia information
WO2019228203A1 (zh) 一种短文本分类方法及系统
US8577882B2 (en) Method and system for searching multilingual documents
US20040024598A1 (en) Thematic segmentation of speech
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN107180084B (zh) 词库更新方法及装置
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN108052630B (zh) 一种基于中文教育视频提取拓展词的方法
CN109885796B (zh) 一种基于深度学习的网络新闻配图匹配性检测方法
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
JP2007219947A (ja) 因果関係知識抽出装置及びプログラム
Ekbal et al. Classifier ensemble selection using genetic algorithm for named entity recognition
CN115273840A (zh) 语音交互设备和语音交互方法
KR20200098381A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체
CN114996506A (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
CN114880496A (zh) 多媒体信息话题分析方法、装置、设备及存储介质
El Hannani et al. Evaluation of the effectiveness and efficiency of state-of-the-art features and models for automatic speech recognition error detection
CN112528653A (zh) 短文本实体识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant