CN111597329B - 一种基于多语种的情感分类方法及系统 - Google Patents

一种基于多语种的情感分类方法及系统 Download PDF

Info

Publication number
CN111597329B
CN111597329B CN201910121755.XA CN201910121755A CN111597329B CN 111597329 B CN111597329 B CN 111597329B CN 201910121755 A CN201910121755 A CN 201910121755A CN 111597329 B CN111597329 B CN 111597329B
Authority
CN
China
Prior art keywords
sample
emotion
text
multilingual
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910121755.XA
Other languages
English (en)
Other versions
CN111597329A (zh
Inventor
王九硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Founder Holdings Development Co ltd, Beijing Founder Electronics Co Ltd filed Critical New Founder Holdings Development Co ltd
Priority to CN201910121755.XA priority Critical patent/CN111597329B/zh
Publication of CN111597329A publication Critical patent/CN111597329A/zh
Application granted granted Critical
Publication of CN111597329B publication Critical patent/CN111597329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种基于多语种的情感分类方法及系统,该方法包括:提取多语种待分类文本的各待分类特征词;根据提取得到的各待分类特征词,查找预先建立的多语种情感分类模型,获得所述各待分类特征词在不同情感类别下的贝叶斯概率系数;将获得的最大的贝叶斯概率系数对应的情感类别作为对应的多语种待分类文本的情感分类结果,所述多语种情感分类模型包括不同特征词在不同情感类别下的贝叶斯概率系数。本申请实施例提供的基于多语种的情感分类方法能够实现对多语种文本的情感检测,以便通过该方法快速了解不同语种人群对同一事件的看法,进而掌握不同语种人群的情绪变化并采取相应措施。

Description

一种基于多语种的情感分类方法及系统
技术领域
本申请实施例涉及文本分类领域,尤其涉及一种基于多语种的情感分类方法及系统。
背景技术
随着网络的不断发展,来自不同国家不同地区的人们活跃在社交网络平台上,比如微博、论坛等,通过社交网络平台来表达对某些事情的看法。涉及的语种类型已经不仅限于中文、英文这样常见的语种,一些其他国家的非常见语言也出现在互联网上。目前,为了全面获取各国人士表达的言论或看法,挖掘人们的情感倾向性,关注不同语种群体人们的情绪变化逐渐引起了研究人员的注意。
然而现有技术中,常用的情感分类技术主要包括:基于情感词典识别文本情感的方法,是针对某种单一语种来实现情感分类,不能考虑多种语种的语言特征,无法实现对多种语种的精确情感识别。因此亟需一个合理、系统的方法来识别多种语种文本的情绪变化。
发明内容
本申请提供一种基于多语种的情感分类方法及系统,该基于多语种的情感分类方法用于解决现有的情感分类方案难以有效地应用于多种语种文本的问题。
第一方面,本申请提供一种基于多语种的情感分类方法,包括:提取多语种待分类文本的各待分类特征词;根据所述多语种待分类文本的各待分类特征词,查找预先建立的多语种情感分类模型,获得所述多语种待分类文本的各待分类特征词在不同情感类别下的贝叶斯概率系数;其中,所述多语种情感分类模型包括不同特征词在不同情感类别下的贝叶斯概率系数;将获得的最大的贝叶斯概率系数对应的情感类别作为所述多语种待分类文本的情感分类结果。
第二方面,本申请提供一种基于多语种的情感分类系统,包括:
第一提取模块,用于提取多语种待分类文本的各待分类特征词;
概率系数获取模块,用于根据所述多语种待分类文本的各待分类特征词,查找预先建立的多语种情感分类模型,获得所述多语种待分类文本的各待分类特征词在不同情感类别下的贝叶斯概率系数;其中,所述多语种情感分类模型包括不同特征词在不同情感类别下的贝叶斯概率系数;
分类执行模块,用于将获得的最大的贝叶斯概率系数对应的情感类别作为所述多语种待分类文本的情感分类结果。
第三方面,本申请实施例提供一种基于多语种的情感分类系统,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的方法。
本发明提供一种基于多语种的情感分类方法及系统,该方法通过预先建立的包括各特征词在不同情感类别下的贝叶斯概率系数的多语种情感分类模型,结合多语种待分类文本中的待分类特征词获取所述多语种待分类文本的情感分类结果,克服了现有技术中难于实现多语种文本情感识别的缺陷,能够实现对多语种文本的情感检测,以便通过该方法快速了解不同语种人群对同一事件的看法,进而掌握不同语种人群的情绪变化并采取相应措施。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的基于多语种的情感分类方法的流程示意图;
图2是本申请实施例二提供的基于多语种的情感分类方法的流程示意图;
图3是本申请实施例三提供的基于多语种的情感分类系统的结构示意图;
图4是本申请实施例四提供的基于多语种的情感分类系统的结构示意图;
图5是本申请实施例五提供的基于多语种的情感分类系统的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图1为本申请实施例一提供的基于多语种的情感分类方法的流程示意图,如图1所示,本申请实施例一提供的基于多语种的情感分类方法包括:
S101、提取多语种待分类文本的各待分类特征词。
实际应用中,本实施例的执行主体可以为基于多语种的情感分类装置,该装置可以为驱动程序、程序软件,也可以为存储有相关计算机程序的介质,例如,U盘等;或者,该装置还可以为集成或安装有相关计算机程序的实体系统,例如,芯片、智能终端、电脑等。
可选地,所述多语种可以根据需要设定。例如,所述多语种可以包括中文、英文、日文、韩文、俄文、蒙文、藏文中的至少一种。
S102、根据所述多语种待分类文本的各待分类特征词,查找预先建立的多语种情感分类模型,获得所述多语种待分类文本的各待分类特征词在不同情感类别下的贝叶斯概率系数;其中,所述多语种情感分类模型包括不同特征词在不同情感类别下的贝叶斯概率系数。
可选地,所述情感类别可以预先设定。举例来说,假设基于粗略识别的需要,以提高识别的效率,所述情感类别可以包括正向情感和负向情感两种,其中正向情感可以表示高兴、感动、喜悦等正面情绪,负向情感可以表示伤心、愤怒、担忧等负面情绪。可以理解,假设基于精确识别的需要,情感类别还可以其它设定方案,例如,更加细化地,情感类别可以包括不同情绪(例如,开心、伤心、感动、愤怒等),以使最终获得的情感分类结果更加直观精确。
S103、将获得的最大的贝叶斯概率系数对应的情感类别作为所述多语种待分类文本的情感分类结果。
可选地,所述多语种待分类文本实际可以为单一语种的文本,也可以为包含了多个语种的文本。具体的,结合实际场景进行示例说明:当用户希望判定某文本的情感分类结果时,可以将该文本作为所述多语种待分类文本。其中,多语种待分类文本的实现形式不限,举例来说,多语种待分类文本可以为电子文本,相应的,可将该电子文本上传至本方案提供的情感分类装置进行处理;假设多语种待分类文本为纸件文本,则可通过文字识别等技术将获得待分类文本的文字信息。
本实施例提供的基于多语种的情感分类方法,通过预先建立的包括各特征词在不同情感类别下的贝叶斯概率系数的多语种情感分类模型,结合多语种待分类文本中的待分类特征词获取所述多语种待分类文本的情感分类结果,克服了现有技术中难于实现多语种文本情感识别的缺陷,在有效实现多语种分类文本的情感分类的前提下,保证了多语种分类文本的情感分类结果的精确性,减少了文本情感分类操作过程终端的通信和人力资源消耗。另外,通过对多种语言的情感检测,能够快速了解不同语种人群对同一事件的看法,进而掌握不同语种人群的情绪变化并采取相应措施。
图2为本申请实施例二提供的基于多语种的情感分类方法的流程示意图,如图2所示,该方法包括:
S201、提取不同情感类别对应的样本文本的样本特征词,获取各样本特征词在每个情感类别对应的样本文本下的词频、各样本特征词在所有情感类别对应的样本文本下的词频、每个情感类别对应的样本文本下所有样本特征词的数量、所有情感类别对应的样本文本下所有样本特征词的数量和所有情感类别对应的样本文本下所有样本特征词的词频。
可选地,所述提取不同情感类别对应的样本文本的样本特征词,可以包括:
若所述样本文本包含分词标识,则根据分词标记对所述样本文本进行分词,提取所述样本文本的样本特征词;
若所述样本文本不包含分词标识,则利用N-gram模型对所述样本文本进行分词,提取所述样本文本的样本特征词;
其中,利用N-Gram模型对样本文本进行分词并提取所述样本文本的样本特征词的具体过程与下述步骤S206中利用N-Gram模型对待分类文本进行分词并提取所述待分类文本的待分类特征词的过程相同。
可选地,提取样本文本的样本特征词之后,遍历不同语种的样本文本法人样本特征词,并统计样本文本的样本特征词的特征参数,主要包括以下几个方面的特征参数:
allDocsNum:样本文本中的所有文档的数量;
allWordsNum:样本文本中所有样本特征词的数量;
allWordsFreq:样本文本中所有样本特征词的总词频;
randomNumerator:1/样本文本中所有样本特征词的数量
randomFractions:1/样本文本中所有样本特征词的总词频;
claWordsNum:单一情感类别对应的样本文本下所有样本特征词的数量;
claWordsFreq:单一情感类别对应的样本文本下所有样本特征词的词频。
wf:单个词在单一情感类别对应的样本文本下的词频;
sf:单个词在所有情感类别对应的样本文本下的词频。
结合上述样本文本的样本特征词的特征参数在后续步骤中计算获得单个样本特征词在每个情感类别对应的样本文本下的出现概率、单个样本特征词在所有情感类别对应的样本文本下的出现概率,并基于贝叶斯定理根据获得的单个样本特征词在每个情感类别对应的样本文本下的出现概率和单个样本特征词在所有情感类别对应的样本文本下的出现概率计算确定样本特征词在不同情感类别对应的样本文本下的贝叶斯概率系数。
S202、根据每个样本特征词在每个情感类别对应的样本文本下的词频、每个情感类别对应的样本文本下所有样本特征词的数量和所有情感类别对应的样本文本下样本特征词的数量,确定每个样本特征词在每个情感类别对应的样本文本下的出现概率。
可选地,根据公式(1)确定样本特征词i在情感类别j对应的样本文本下的出现概率fractionsi,j
式中,wfi为样本特征词i在情感类别j对应的样本文本中的词频,claWordsFreq为情感类别j对应的样本文本下所有样本特征词的词频。
S203、根据每个样本特征词在所有情感类别对应的样本文本下的词频和所有情感类别对应的样本文本下所有样本特征词的词频,确定每个样本特征词在所有情感类别对应的样本文本下的出现概率。
可选地,根据公式(2)确定样本特征词i在所有情感类别对应的样本文本下的出现概率numeratori
式中,sfi为样本特征词i在所有情感类别对应的样本文本下的词频,allWordsFreq为所有情感类别对应的样本文本下所有样本特征词的词频。
S204、根据每个样本特征词在每个情感类别对应的样本文本下的出现概率和每个样本特征词在所有情感类别对应的样本文本下的出现概率,基于贝叶斯定理计算获得各样本特征词在不同情感类别对应的样本文本下的贝叶斯概率系数。
可选地,根据公式(3)计算样本特征词i在情感类别j对应的样本文本下的贝叶斯概率系数proi,j
式中,fractionsi,j为样本特征词i在情感类别j对应的样本文本下的出现概率fractionsi,j,numeratori为样本特征词i在所有情感类别对应的样本文本下的出现概率。
S205、将各样本特征词和各样本特征词的贝叶斯概率系数作为输入,将各样本文本的情感分类结果作为输出,训练获得多语种情感分类模型。
S206、提取多语种待分类文本的各待分类特征词。
可选地,所述提取多语种待分类文本的各待分类特征词,包括:
S2061、若所述多语种待分类文本包含分词标识,则根据分词标记对所述多语种待分类文本进行分词,提取所述多语种待分类文本的待分类特征词。
具体的,对于具有分词标识的语种,比如以空格为分词标识的英文语种文本,可以直接根据其分词标识来对文本进行分词。
S2062、若所述多语种待分类文本不包含分词标识,则利用N-gram模型对所述多语种待分类文本进行分词,提取所述多语种待分类文本的待分类特征词。
具体的,对于没有分词标识的语种,比如中文,无法通过某种标记来实现分词,采用基于统计方法的N-Gram方法来实现分词,将出现频率较大的组合看作一个词,进而获取待分类文本中的特征词。
所述利用N-gram模型对所述多语种待分类文本进行分词,提取所述多语种待分类文本的待分类特征词,具体可以包括以下步骤:按照单位为N的窗口进行滑动来提取长度为N的特征片段,并统计各待分类特征词的词频,所述待分类特征词的词频即为待分类特征词出现的次数,其中,N为大于1的整数,最大值可根据N-Gram训练过程的效果进行设置。
在利用N-Gram模型提取待分类文本的待分类特征词的过程中,可能会出现大量的无用特征词,本申请采取引入停用词典的方式来进行过滤,滤除无用的特征词以提高提取特征的质量,所述无用的特征词包括与文本情感类别无关的词或已弃用的词;基于上述技术特征可以保障待分类文本特征提取的精确度,进一步提高情感分类的效率和可靠性。
S207、根据所述多语种待分类文本的各待分类特征词,查找预先建立的多语种情感分类模型,获得所述多语种待分类文本的各待分类特征词在不同情感类别下的贝叶斯概率系数;其中,所述多语种情感分类模型包括不同特征词在不同情感类别下的贝叶斯概率系数。
S208、将获得的最大的贝叶斯概率系数对应的情感类别作为所述多语种待分类文本的情感分类结果。
本实施例中的步骤S207和S208与上述步骤S102和S103类似,此处不再赘述。
本实施例提供的基于多语种的情感分类方法,通过采用Doc2vec模型进行自动扩充样本,通过N-Gram算法对没有分词标记的文本进行分词,基于贝叶斯概率进行模型训练,能够提高样本以及从样本提取特征的质量,进而提高分类的效率及准确率。
可选地,在步骤S201之前,该方法还包括:
S2001、获取标准样本文本,并对所述标准样本文本进行扩展获得扩展样本文本。
可选地,所述标准样本可以通过熟悉各语种语法的专业语言工作者标记并收集,所述标准样本文本涵盖了正向情感标准样本文本和负向情感标准样本文本;标准样本文本的数量可以根据实际应用过程中的需求设定,例如可设定每种情感类别收集500条标准样本文本。
可选地,通过Doc2vec模型对所述标准样本文本进行扩展后得到所述扩展样本文本,具体地,可以包括:
通过Doc2vec模型训练所述标准样本文本的文档向量;
获取待扩展样本文本,并根据所述文档向量计算待扩展样本文本和所述标准样本文本的相似度;
若所述相似度大于预设阈值,则将所述待扩展样本文本作为所述标准样本文本的扩展样本文本,直到每种情感类别的样本文本数据均扩展至预定数量。
其中,Doc2vec是在word2vec模型上提出的,是一种无监督学习算法。
可选地,所述预设阈值可以设定为0.5与0.9之间的任意值。
可选地,所述预定数量可以为2000条。
S2002、将所述标准样本文本和所述扩展样本文本作为所述样本文本。
在一个实施例中,步骤S205之前,还包括:
根据每个样本特征词在不同情感类别对应的样本文本下的贝叶斯概率系数和所有情感类别对应的样本文本下所有样本特征词的数量,计算获得该样本特征词在不同情感类别对应的样本文本下的最小概率。
可选地,本申请还可以在构建多语种情感分类模型的过程中确定样本特征词属于每个情感类别对应的样本文本下的最小概率,若某样本特征词对应的贝叶斯概率系数小于样本特征词在对应的每个情感类别对应的样本文本下的最小概率,则将该样本特征词和该样本特征词在该情感类别对应的样本文本下的贝叶斯概率系数筛除,不输入所述多语种情感分类模型,避免获得的样本文本中存在不具备情感类别的样本文本,以使不具备情感类别的样本文本的影响降到最低。
将每个样本特征词在每个情感类别对应的样本文本下的贝叶斯概率系数与该样本特征词在该情感类别对应的样本文本下的最小概率进行比较,若小于,则筛除该样本特征词和该样本特征词在该情感类别对应的样本文本下的贝叶斯概率系数。
可选地,根据公式(4)计算获得样本特征词在情感类别j对应的样本文本下的最小概率
式中,proi为样本特征词i在情感类别j对应的样本文本下的贝叶斯概率系数,n为情感类别j对应的样本文本下样本特征词的数量,allWordsNum为所有情感类别对应的样本文本下所有样本特征词的数量。
本实施例提供的基于多语种的情感分类方法通过计算最小概率并根据最小概率对不具备情感类别的样本文本进行删除,使本申请的多语种情感分类模型在不影响情感分类结果精确性的前提下,将无情感类别样本文本的影响降到最低,进一步保障情感分类过程的进度,提升分类效率。
图3为本申请实施例三提供的一种基于多语种的情感分类系统的结构示意图。如图3所示,该情感分类系统30包括:
第一提取模块301,用于提取多语种待分类文本的各待分类特征词。
可选地,所述多语种可以根据需要设定。例如,所述多语种可以包括中文、英文、日文、韩文、俄文、蒙文、藏文中的至少一种。
可选地,该模块具体可以用于:
若所述多语种待分类文本包含分词标识,则根据分词标记对所述多语种待分类文本进行分词,提取所述多语种待分类文本的待分类特征词。
具体的,对于具有分词标识的语种,比如以空格为分词标识的英文语种文本,可以直接根据其分词标识来对文本进行分词。
若所述多语种待分类文本不包含分词标识,则利用N-gram模型对所述多语种待分类文本进行分词,提取所述多语种待分类文本的待分类特征词。
具体的,对于没有分词标识的语种,比如中文,无法通过某种标记来实现分词,采用基于统计方法的N-Gram方法来实现分词,将出现频率较大的组合看作一个词,进而获取待分类文本中的特征词。
所述利用N-gram模型对所述多语种待分类文本进行分词,提取所述多语种待分类文本的待分类特征词,具体可以包括以下步骤:按照单位为N的窗口进行滑动来提取长度为N的特征片段,并统计各待分类特征词的词频,所述待分类特征词的词频即为待分类特征词出现的次数,其中,N为大于1的整数,最大值可根据N-Gram训练过程的效果进行设置。
在利用N-Gram模型提取待分类文本的待分类特征词的过程中,可能会出现大量的无用特征词,本申请采取引入停用词典的方式来进行过滤,滤除无用的特征词以提高提取特征的质量,所述无用的特征词包括与文本情感类别无关的词或已弃用的词;基于上述技术特征可以保障待分类文本特征提取的精确度,进一步提高情感分类的效率和可靠性。
概率系数获取模块302,用于根据所述多语种待分类文本的各待分类特征词,查找预先建立的多语种情感分类模型,获得所述多语种待分类文本的各待分类特征词在不同情感类别下的贝叶斯概率系数;其中,所述多语种情感分类模型包括不同特征词在不同情感类别下的贝叶斯概率系数。
可选地,所述情感类别可以预先设定。举例来说,假设基于粗略识别的需要,以提高识别的效率,所述情感类别可以包括正向情感和负向情感两种,其中正向情感可以表示高兴、感动、喜悦等正面情绪,负向情感可以表示伤心、愤怒、担忧等负面情绪。可以理解,假设基于精确识别的需要,情感类别还可以其它设定方案,例如,更加细化地,情感类别可以包括不同情绪(例如,开心、伤心、感动、愤怒等),以使最终获得的情感分类结果更加直观精确。
分类执行模块303,用于将获得的最大的贝叶斯概率系数对应的情感类别作为所述多语种待分类文本的情感分类结果。
可选地,所述多语种待分类文本实际可以为单一语种的文本,也可以为包含了多个语种的文本。具体的,结合实际场景进行示例说明:当用户希望判定某文本的情感分类结果时,可以将该文本作为所述多语种待分类文本。其中,多语种待分类文本的实现形式不限,举例来说,多语种待分类文本可以为电子文本,相应的,可将该电子文本上传至本方案提供的情感分类装置进行处理;假设多语种待分类文本为纸件文本,则可通过文字识别等技术将获得待分类文本的文字信息。
图4为本申请实施例四提供的基于多语种的情感分类系统的结构示意图;如图4所示,该情感分类系统40还包括:
第二提取模块304,用于提取不同情感类别对应的样本文本的样本特征词,获取各样本特征词在每个情感类别对应的样本文本下的词频、各样本特征词在所有情感类别对应的样本文本下的词频、每个情感类别对应的样本文本下所有样本特征词的数量、所有情感类别对应的样本文本下所有样本特征词的数量和所有情感类别对应的样本文本下所有样本特征词的词频。
可选地,所述提取不同情感类别对应的样本文本的样本特征词,可以包括:
若所述样本文本包含分词标识,则根据分词标记对所述样本文本进行分词,提取所述样本文本的样本特征词。
若所述样本文本不包含分词标识,则利用N-gram模型对所述样本文本进行分词,提取所述样本文本的样本特征词。
其中,利用N-Gram模型对样本文本进行分词并提取所述样本文本的样本特征词的具体过程与下述步骤S206中利用N-Gram模型对待分类文本进行分词并提取所述待分类文本的待分类特征词的过程相同。
可选地,提取样本文本的样本特征词之后,遍历不同语种的样本文本法人样本特征词,并统计样本文本的样本特征词的特征参数,主要包括以下几个方面的特征参数:
allDocsNum:样本文本中的所有文档的数量;
allWordsNum:样本文本中所有样本特征词的数量;
allWordsFreq:样本文本中所有样本特征词的总词频;
randomNumerator:1/样本文本中所有样本特征词的数量
randomFractions:1/样本文本中所有样本特征词的总词频;
claWordsNum:单一情感类别对应的样本文本下所有样本特征词的数量;
claWordsFreq:单一情感类别对应的样本文本下所有样本特征词的词频。
wf:单个词在单一情感类别对应的样本文本下的词频;
sf:单个词在所有情感类别对应的样本文本下的词频。
结合上述样本文本的样本特征词的特征参数通过后续模块计算获得单个样本特征词在每个情感类别对应的样本文本下的出现概率、单个样本特征词在所有情感类别对应的样本文本下的出现概率,并基于贝叶斯定理根据获得的单个样本特征词在每个情感类别对应的样本文本下的出现概率和单个样本特征词在所有情感类别对应的样本文本下的出现概率计算确定样本特征词在不同情感类别对应的样本文本下的贝叶斯概率系数。
第一出现概率确定模块305,用于根据每个样本特征词在每个情感类别对应的样本文本下的词频、每个情感类别对应的样本文本下所有样本特征词的数量和所有情感类别对应的样本文本下样本特征词的数量,确定每个样本特征词在每个情感类别对应的样本文本下的出现概率。
可选地,该模块具体根据公式(1)确定样本特征词i在情感类别j对应的样本文本下的出现概率fractionsi,j
式中,wfi为样本特征词i在情感类别j对应的样本文本中的词频,claWordsFreq为情感类别j对应的样本文本下所有样本特征词的词频。
第二出现概率确定模块306,用于根据每个样本特征词在所有情感类别对应的样本文本下的词频和所有情感类别对应的样本文本下所有样本特征词的词频,确定每个样本特征词在所有情感类别对应的样本文本下的出现概率。
可选地,该模块具体用于根据公式(2)确定样本特征词i在所有情感类别对应的样本文本下的出现概率numeratori
式中,sfi为样本特征词i在所有情感类别对应的样本文本下的词频,allWordsFreq为所有情感类别对应的样本文本下所有样本特征词的词频。
概率系数确定模块307,用于根据每个样本特征词在每个情感类别对应的样本文本下的出现概率和每个样本特征词在所有情感类别对应的样本文本下的出现概率,基于贝叶斯定理计算获得各样本特征词在不同情感类别对应的样本文本下的贝叶斯概率系数。
可选地,该模块具体用于根据公式(3)计算样本特征词i在情感类别j对应的样本文本下的贝叶斯概率系数proi,j
式中,fractionsi,j为样本特征词i在情感类别j对应的样本文本下的出现概率fractionsi,j,numeratori为样本特征词i在所有情感类别对应的样本文本下的出现概率。
模型训练模块308,用于将各样本特征词和各样本特征词的贝叶斯概率系数作为输入,将各样本文本的情感分类结果作为输出,训练获得多语种情感分类模型。
可选地,所述第一提取模块301包括:
第一分词单元,用于若所述多语种待分类文本包含分词标识,则根据分词标记对所述多语种待分类文本进行分词,提取所述多语种待分类文本的待分类特征词。
第二分词单元,用于若所述多语种待分类文本不包含分词标识,则利用N-gram模型对所述多语种待分类文本进行分词,提取所述多语种待分类文本的待分类特征词。
可选地,所述系统还包括:样本扩展获取模块,用于在所述第二提取模块提取不同情感类别对应的样本文本的样本特征词之前获取标准样本文本,并对所述标准样本文本进行扩展获得扩展样本文本。
样本文本确定模块,用于在所述第二提取模块提取不同情感类别对应的样本文本的样本特征词之前将所述标准样本文本和所述扩展样本文本作为所述样本文本。
可选地,所述系统还包括:最小概率确定模块,用于在所述模块训练获得多语种情感分类模型之前,根据每个样本特征词在不同情感类别对应的样本文本下的贝叶斯概率系数和所有情感类别对应的样本文本下所有样本特征词的数量,计算获得该样本特征词在不同情感类别对应的样本文本下的最小概率。
筛除模块,用于在所述模块训练获得多语种情感分类模型之前,将每个样本特征词在每个情感类别对应的样本文本下的贝叶斯概率系数与该样本特征词在该情感类别对应的样本文本下的最小概率进行比较,若小于,则筛除该样本特征词和该样本特征词在该情感类别对应的样本文本下的贝叶斯概率系数。
图5为本申请实施例五提供的基于多语种的情感分类系统的硬件结构示意图。如图5所示,本实施例提供的基于多语种的情感分类系统50包括:至少一个处理器501和存储器502。其中,处理器501和存储器502通过总线503连接。
在具体实现过程中,至少一个处理器501执行所述存储器502存储的计算机执行指令,使得至少一个处理器501执行如上基于多语种的情感分类系统50所执行的情感分类方法。
处理器501的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图5所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上基于多语种的情感分类系统执行的情感分类方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上基于多语种的情感分类系统执行的情感分类方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于多语种的情感分类方法,其特征在于,所述方法包括:
提取多语种待分类文本的各待分类特征词;
根据所述多语种待分类文本的各待分类特征词,查找预先建立的多语种情感分类模型,获得所述多语种待分类文本的各待分类特征词在不同情感类别下的贝叶斯概率系数;其中,所述多语种情感分类模型包括不同特征词在不同情感类别下的贝叶斯概率系数;
将获得的最大的贝叶斯概率系数对应的情感类别作为所述多语种待分类文本的情感分类结果;
所述方法还包括:
提取不同情感类别对应的样本文本的样本特征词,获取各样本特征词在每个情感类别对应的样本文本下的词频、各样本特征词在所有情感类别对应的样本文本下的词频、每个情感类别对应的样本文本下所有样本特征词的数量、所有情感类别对应的样本文本下所有样本特征词的数量和所有情感类别对应的样本文本下所有样本特征词的词频;
根据每个样本特征词在每个情感类别对应的样本文本下的词频、每个情感类别对应的样本文本下所有样本特征词的词频和所有情感类别对应的样本文本下样本特征词的数量,确定每个样本特征词在每个情感类别对应的样本文本下的出现概率;
根据每个样本特征词在所有情感类别对应的样本文本下的词频和所有情感类别对应的样本文本下所有样本特征词的词频,确定每个样本特征词在所有情感类别对应的样本文本下的出现概率;
根据每个样本特征词在每个情感类别对应的样本文本下的出现概率和每个样本特征词在所有情感类别对应的样本文本下的出现概率,基于贝叶斯定理计算获得各样本特征词在不同情感类别对应的样本文本下的贝叶斯概率系数;
将各样本特征词和各样本特征词的贝叶斯概率系数作为输入,将各样本文本的情感分类结果作为输出,训练获得多语种情感分类模型。
2.根据权利要求1所述的情感分类方法,其特征在于,所述提取多语种待分类文本的各待分类特征词,包括:
若所述多语种待分类文本包含分词标识,则根据分词标记对所述多语种待分类文本进行分词,提取所述多语种待分类文本的待分类特征词;
若所述多语种待分类文本不包含分词标识,则利用N-gram模型对所述多语种待分类文本进行分词,提取所述多语种待分类文本的待分类特征词。
3.根据权利要求1所述的情感分类方法,其特征在于,所述提取不同情感类别对应的样本文本的样本特征词之前,包括:
获取标准样本文本,并对所述标准样本文本进行扩展获得扩展样本文本;
将所述标准样本文本和所述扩展样本文本作为所述样本文本。
4.根据权利要求1所述的情感分类方法,其特征在于,所述将各样本特征词和各样本特征词的贝叶斯概率系数作为输入,将各样本文本的情感分类结果作为输出,训练获得多语种情感分类模型之前,还包括:
根据每个样本特征词在不同情感类别对应的样本文本下的贝叶斯概率系数和所有情感类别对应的样本文本下所有样本特征词的数量,计算获得该样本特征词在不同情感类别对应的样本文本下的最小概率;
将每个样本特征词在每个情感类别对应的样本文本下的贝叶斯概率系数与该样本特征词在该情感类别对应的样本文本下的最小概率进行比较,若小于,则筛除该样本特征词和该样本特征词在该情感类别对应的样本文本下的贝叶斯概率系数。
5.一种基于多语种的情感分类系统,其特征在于,所述系统包括:
第一提取模块,用于提取多语种待分类文本的各待分类特征词;
概率系数获取模块,用于根据所述多语种待分类文本的各待分类特征词,查找预先建立的多语种情感分类模型,获得所述多语种待分类文本的各待分类特征词在不同情感类别下的贝叶斯概率系数;其中,所述多语种情感分类模型包括不同特征词在不同情感类别下的贝叶斯概率系数;
分类执行模块,用于将获得的最大的贝叶斯概率系数对应的情感类别作为所述多语种待分类文本的情感分类结果;
所述系统还包括:
第二提取模块,用于提取不同情感类别对应的样本文本的样本特征词,获取各样本特征词在每个情感类别对应的样本文本下的词频、各样本特征词在所有情感类别对应的样本文本下的词频、每个情感类别对应的样本文本下所有样本特征词的数量、所有情感类别对应的样本文本下所有样本特征词的数量和所有情感类别对应的样本文本下所有样本特征词的词频;
第一出现概率确定模块,用于根据每个样本特征词在每个情感类别对应的样本文本下的词频、每个情感类别对应的样本文本下所有样本特征词的数量和所有情感类别对应的样本文本下样本特征词的数量,确定每个样本特征词在每个情感类别对应的样本文本下的出现概率;
第二出现概率确定模块,用于根据每个样本特征词在所有情感类别对应的样本文本下的词频和所有情感类别对应的样本文本下所有样本特征词的词频,确定每个样本特征词在所有情感类别对应的样本文本下的出现概率;
概率系数确定模块,用于根据每个样本特征词在每个情感类别对应的样本文本下的出现概率和每个样本特征词在所有情感类别对应的样本文本下的出现概率,基于贝叶斯定理计算获得各样本特征词在不同情感类别对应的样本文本下的贝叶斯概率系数;
模型训练模块,用于将各样本特征词和各样本特征词的贝叶斯概率系数作为输入,将各样本文本的情感分类结果作为输出,训练获得多语种情感分类模型。
6.根据权利要求5所述的情感分类系统,其特征在于,所述系统还包括:
样本扩展获取模块,用于在所述第二提取模块提取不同情感类别对应的样本文本的样本特征词之前获取标准样本文本,并对所述标准样本文本进行扩展获得扩展样本文本;
样本文本确定模块,用于在所述第二提取模块提取不同情感类别对应的样本文本的样本特征词之前将所述标准样本文本和所述扩展样本文本作为所述样本文本。
7.一种基于多语种的情感分类系统,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至4任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至4任一项所述的方法。
CN201910121755.XA 2019-02-19 2019-02-19 一种基于多语种的情感分类方法及系统 Active CN111597329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910121755.XA CN111597329B (zh) 2019-02-19 2019-02-19 一种基于多语种的情感分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910121755.XA CN111597329B (zh) 2019-02-19 2019-02-19 一种基于多语种的情感分类方法及系统

Publications (2)

Publication Number Publication Date
CN111597329A CN111597329A (zh) 2020-08-28
CN111597329B true CN111597329B (zh) 2023-09-19

Family

ID=72186763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910121755.XA Active CN111597329B (zh) 2019-02-19 2019-02-19 一种基于多语种的情感分类方法及系统

Country Status (1)

Country Link
CN (1) CN111597329B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063399A (zh) * 2013-03-22 2014-09-24 杭州金弩信息技术有限公司 一种自动识别文本所承载的情感概率的方法及系统
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN108073567A (zh) * 2016-11-16 2018-05-25 北京嘀嘀无限科技发展有限公司 一种特征词提取处理方法、系统及服务器
CN108874937A (zh) * 2018-05-31 2018-11-23 南通大学 一种基于词性结合和特征选择的情感分类方法
CN109002473A (zh) * 2018-06-13 2018-12-14 天津大学 一种基于词向量与词性的情感分析方法
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169008A1 (en) * 2015-12-15 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and electronic device for sentiment classification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063399A (zh) * 2013-03-22 2014-09-24 杭州金弩信息技术有限公司 一种自动识别文本所承载的情感概率的方法及系统
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN108073567A (zh) * 2016-11-16 2018-05-25 北京嘀嘀无限科技发展有限公司 一种特征词提取处理方法、系统及服务器
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN108874937A (zh) * 2018-05-31 2018-11-23 南通大学 一种基于词性结合和特征选择的情感分类方法
CN109002473A (zh) * 2018-06-13 2018-12-14 天津大学 一种基于词向量与词性的情感分析方法
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Seong Youb Chung.Affective classification using Bayesian classifier and supervised learning.《2012 12th International Conference on Control, Automation and Systems》.2012,全文. *
董祥和 ; .基于情感特征向量空间模型的中文商品评论倾向分类算法.计算机应用与软件.2016,(08),全文. *

Also Published As

Publication number Publication date
CN111597329A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN110874531B (zh) 一种话题分析方法、装置和存储介质
CN106897439B (zh) 文本的情感识别方法、装置、服务器以及存储介质
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
CN107463548B (zh) 短语挖掘方法及装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
CN101876975A (zh) 汉语地名的识别方法
CN112613324A (zh) 语义情绪识别方法、装置、设备及存储介质
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN110309504B (zh) 基于分词的文本处理方法、装置、设备及存储介质
CN113935339A (zh) 翻译方法、装置、电子设备及存储介质
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN111985244A (zh) 一种针对文档内容的洗稿检测方法及装置
CN110688841A (zh) 一种机构名称识别方法、装置、设备以及存储介质
CN111382570A (zh) 文本实体识别方法、装置、计算机设备及存储介质
CN112287071A (zh) 一种文本关系提取方法、装置及电子设备
Amoia et al. Using comparable collections of historical texts for building a diachronic dictionary for spelling normalization
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN117216275A (zh) 一种文本处理方法、装置、设备以及存储介质
CN111597329B (zh) 一种基于多语种的情感分类方法及系统
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230627

Address after: 3007, Hengqin International Financial Center Building, No. 58 Huajin Street, Hengqin New District, Zhuhai City, Guangdong Province, 519030

Applicant after: New founder holdings development Co.,Ltd.

Applicant after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant