CN107291686A - 情感标识的辨识方法和情感标识的辨识系统 - Google Patents

情感标识的辨识方法和情感标识的辨识系统 Download PDF

Info

Publication number
CN107291686A
CN107291686A CN201610228512.2A CN201610228512A CN107291686A CN 107291686 A CN107291686 A CN 107291686A CN 201610228512 A CN201610228512 A CN 201610228512A CN 107291686 A CN107291686 A CN 107291686A
Authority
CN
China
Prior art keywords
word
candidate
emotion
matrix
seed words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610228512.2A
Other languages
English (en)
Other versions
CN107291686B (zh
Inventor
刘克松
杨建武
张丹
蔡慧慧
马路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201610228512.2A priority Critical patent/CN107291686B/zh
Publication of CN107291686A publication Critical patent/CN107291686A/zh
Application granted granted Critical
Publication of CN107291686B publication Critical patent/CN107291686B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种情感标识的辨识方法和情感标识的辨识系统,其中,情感标识的辨识方法包括:根据情感标识的使用频率确定种子词和种子词对应的文本集合;在对应的文本集合中确定候选词语;根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。通过本发明的技术方案,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。

Description

情感标识的辨识方法和情感标识的辨识系统
技术领域
本发明涉及语义辨识技术领域,具体而言,涉及一种情感标识的辨识方法和一种情感标识的辨识系统。
背景技术
随着互联网的飞速发展,社交网络和电子商务日益融入人们生活。网络空间上随处可见对公众人物、热点事件、网购商品和影视作品等等的评论言论。通常这些评论的文本长度较短,口语化,且带有强烈的个人情感色彩。通常文本情感倾向分析技术依赖领域情感词典,情感词库的构建是文本情感分析任务的一个重要环节。在丰富、完善的情感词表基础上,可对文本中的观点、立场以及情感倾向进行识别、分类、提炼、整合、追踪和分析研究。
相关技术中,虽然存在一些通用的情感词库,但是情感标识(如词语和表情符号等)具有很强的领域相关性。例如,一个词语的褒贬倾向并不是在所有领域都是一致的,一个情感词库也不可能涵盖所有领域。不同领域的情感标识有明显的差异。例如,在表达上网的网速时“快”是正面评价词,而在表达手机电池使用时间时“快”是负面评价词。因此,词语在领域内的褒贬倾向鲜明更为重要。一般依据规范书面语通过专家知识得到的通用情感词词典很难适用于复杂的互联网环境。
另外,通过手工构建情感词词典需要大量的人工干预和人工判断,存在较大的随意性和主观性。无法及时收录最新的网络流行语,而且缺乏不同领域之间的移植性,不能由机器自动迁移到其他领域,无法考虑词语的领域属性,不能从问题领域角度考虑词的情感倾向,具有一定的局限性。
因此,如何提高情感标识的辨识的准确性成为亟待解决的技术问题。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的情感标识的辨识方案,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
有鉴于此,根据本发明的第一方面的实施例,提出了一种情感标识的辨识方法,包括:根据情感标识的使用频率确定种子词和种子词对应的文本集合;在对应的文本集合中确定候选词语;根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。
在该技术方案中,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
其中,结合种子词的文本集合的语境,考虑候选词语在上述文本集合中出现的概率,例如,候选词语在种子词的相邻位置出现的概率,更能反映候选词语与种子词的相关性。
在上述技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体包括以下步骤:将种子词记作s,同时将候选词语记作w,确定文本集合中的种子词的相邻文本段落;计算候选词语属于相邻文本段落的条件概率,并记作P(w|s);计算候选词语属于文本集合的概率,并记作P(w),并将候选词语出现在文本集合的次数记作k;根据第一公式计算候选词语的依赖性系数,依赖性系数记作M(w,s),其中,第一公式为确定依赖性系数大于零的候选词语,以确定为参考情感词语,并根据依赖性系数从大到小的顺序对参考情感词语进行排序。
在该技术方案中,通过计算种子词的依赖性系数,确定依赖性系数大于零即确定P(w|s)大于P(w),对候选词语进行进一步地筛选,并且根据依赖性系数从大到小的顺序对参考情感词语进行排序,更利于快速地确定情感标识的语义特性。
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:创建参考情感词语的二维矩阵,二维矩阵的行对应于参考情感词语向量或种子词向量,二维矩阵的列对应于文本集合的向量;确定二维矩阵的特征值,二维矩阵的左特征向量矩阵和右特征向量矩阵,以及二维矩阵的特征值组成的对角矩阵;根据左特征向量矩阵、右特征向量矩阵、对角矩阵和第二公式计算二维矩阵的低秩近似矩阵,其中,第二公式为C=U×∑×VT,C表征低秩近似矩阵,U表征左特征向量矩阵,VT表征右特征向量矩阵,∑表征特征值组成的对角矩阵。
在该技术方案中,通过创建参考情感词语的二维矩阵,并进一步地确定二维矩阵的低秩相似矩阵,减小了计算量,有利于进一步地快速计算参考候选词语和种子词的相关性。
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:根据第三公式分别对参考情感词语和种子词进行空间变化处理,以变换至语义空间进行识别,其中,第三公式为x为w时,T(w)表征参考情感词语在语义空间中的向量表示,x为s时,T(s)表征种子词在语义空间中的向量表示,表征参考情感词语向量的转置向量或种子词向量的转置向量,U表征左特征向量矩阵,∑-1表征对角矩阵的逆矩阵。
在该技术方案中,考虑词之间的语义关联特征,从隐含语义分析(Latent Semantics Analysis)的角度,为衡量情感种子词s和候选词语w在低维语义空间的相似度,需要把文本集合从原始词空间映射到语义空间。假设文本集合经去噪、分词、得到词-文档(term-document)矩阵C(行表示某个词,列表示某篇文档),那么该矩阵奇异值分解(SingularValue Decomposition)得到C=U×∑×VT,其中矩阵U和V是矩阵C的左右奇异值特征矩阵,∑是对角元为奇异值的对角矩阵。当取奇异值最大的前k个元素时,∑k是对角元为奇异值的对角矩阵,Uk和Vk矩阵的列为奇异值对应的特征向量矩阵,得到矩阵C的低秩近似为Ck=Uk×∑k×Vk T
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:根据第四公式计算参考情感词语与种子词的相关性系数,其中,第四公式为R(w,s)=T(w)T×T(s),T(w)T表征T(w)的转置矩阵,R(w,s)表征相关性系数。
在该技术方案中,通过计算参考情感词语与种子词的相关系系数,参考情感词语的相关语义直观地转换为相关性系数,以供服务器根据相关系系数阈值进行语义辨识,另外,还可以将相关性系数生成列表提示给服务器维护人员,以进一步地进行人工筛选,以循环生成新的种子词。
根据本发明的第二方面的实施例,提出了一种情感标识的辨识系统,包括:确定单元,用于根据情感标识的使用频率确定种子词和种子词对应的文本集合;确定单元还用于:在对应的文本集合中确定候选词语;确定单元还用于:根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。
在该技术方案中,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
其中,结合种子词的文本集合的语境,考虑候选词语在上述文本集合中出现的概率,例如,候选词语在种子词的相邻位置出现的概率,更能反映候选词语与种子词的相关性。
在上述技术方案中,优选地,确定单元还用于:将种子词记作s,同时将候选词语记作w,确定文本集合中的种子词的相邻文本段落;确定单元还用于:计算候选词语属于相邻文本段落的条件概率,并记作P(w|s);确定单元还用于:计算候选词语属于文本集合的概率,并记作P(w),并将候选词语出现在文本集合的次数记作k;确定单元还用于:根据第一公式计算候选词语的依赖性系数,依赖性系数记作M(w,s),其中,第一公式为确定单元还用于:确定依赖性系数大于零的候选词语,以确定为参考情感词语,并根据依赖性系数从大到小的顺序对参考情感词语进行排序。
在该技术方案中,通过计算种子词的依赖性系数,确定依赖性系数大于零即确定P(w|s)大于P(w),对候选词语进行进一步地筛选,并且根据依赖性系数从大到小的顺序对参考情感词语进行排序,更利于快速地确定情感标识的语义特性。
在上述任一项技术方案中,优选地,还包括:创建单元,用于创建参考情感词语的二维矩阵,二维矩阵的行对应于参考情感词语向量或种子词向量,二维矩阵的列对应于文本集合的向量;确定单元还用于:确定二维矩阵的特征值,二维矩阵的左特征向量矩阵和右特征向量矩阵,以及二维矩阵的特征值组成的对角矩阵;确定单元还用于:根据左特征向量矩阵、右特征向量矩阵、对角矩阵和第二公式计算二维矩阵的低秩近似矩阵,其中,第二公式为C=U×∑×VT,C表征低秩近似矩阵,U表征左特征向量矩阵,VT表征右特征向量矩阵,∑表征特征值组成的对角矩阵。
在该技术方案中,通过创建参考情感词语的二维矩阵,并进一步地确定二维矩阵的低秩相似矩阵,减小了计算量,有利于进一步地快速计算参考候选词语和种子词的相关性。
在上述任一项技术方案中,优选地,还包括:空间变化单元,用于根据第三公式分别对参考情感词语和种子词进行空间变化处理,以变换至语义空间进行识别,其中,第三公式为x为w时,T(w)表征参考情感词语在语义空间中的向量表示,x为s时,T(s)表征种子词在语义空间中的向量表示,表征参考情感词语向量的转置向量或种子词向量的转置向量,U表征左特征向量矩阵,∑-1表征对角矩阵的逆矩阵。
在该技术方案中,考虑词之间的语义关联特征,从隐含语义分析(Latent Semantics Analysis)的角度,为衡量情感种子词s和候选词语w在低维语义空间的相似度,需要把文本集合从原始词空间映射到语义空间。假设文本集合经去噪、分词、得到词-文档(term-document)矩阵C(行表示某个词,列表示某篇文档),那么该矩阵奇异值分解(SingularValue Decomposition)得到C=U×∑×VT,其中矩阵U和V是矩阵C的左右奇异值特征矩阵,∑是对角元为奇异值的对角矩阵。当取奇异值最大的前k个元素时,∑k是对角元为奇异值的对角矩阵,Uk和Vk矩阵的列为奇异值对应的特征向量矩阵,得到矩阵C的低秩近似为Ck=Uk×∑k×Vk T
在上述任一项技术方案中,优选地,确定单元还用于:根据第四公式计算参考情感词语与种子词的相关性系数,其中,第四公式为R(w,s)=T(w)T×T(s),T(w)T表征T(w)的转置矩阵,R(w,s)表征相关性系数。
在该技术方案中,通过计算参考情感词语与种子词的相关系系数,参考情感词语的相关语义直观地转换为相关性系数,以供服务器根据相关系系数阈值进行语义辨识,另外,还可以将相关性系数生成列表提示给服务器维护人员,以进一步地进行人工筛选,以循环生成新的种子词。
通过以上技术方案,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
附图说明
图1示出了根据本发明的一个实施例的情感标识的辨识方法的示意流程图;
图2示出了根据本发明的一个实施例的情感标识的辨识系统的示意框图;
图3示出了根据本发明的另一个实施例的情感标识的辨识系统的示意框图;
图4示出了根据本发明的另一个实施例的情感标识的辨识方法的示意流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的情感标识的辨识方法的示意流程图。
如图1所示,根据本发明的实施例的情感标识的辨识方法,包括:步骤102,根据情感标识的使用频率确定种子词和种子词对应的文本集合;步骤104,在对应的文本集合中确定候选词语;步骤106,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。
在该技术方案中,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
其中,结合种子词的文本集合的语境,考虑候选词语在上述文本集合中出现的概率,例如,候选词语在种子词的相邻位置出现的概率,更能反映候选词语与种子词的相关性。
在上述技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体包括以下步骤:将种子词记作s,同时将候选词语记作w,确定文本集合中的种子词的相邻文本段落;计算候选词语属于相邻文本段落的条件概率,并记作P(w|s);计算候选词语属于文本集合的概率,并记作P(w),并将候选词语出现在文本集合的次数记作k;根据第一公式计算候选词语的依赖性系数,依赖性系数记作M(w,s),其中,第一公式为确定依赖性系数大于零的候选词语,以确定为参考情感词语,并根据依赖性系数从大到小的顺序对参考情感词语进行排序。
在该技术方案中,通过计算种子词的依赖性系数,确定依赖性系数大于零即确定P(w|s)大于P(w),对候选词语进行进一步地筛选,并且根据依赖性系数从大到小的顺序对参考情感词语进行排序,更利于快速地确定情感标识的语义特性。
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:创建参考情感词语的二维矩阵,二维矩阵的行对应于参考情感词语向量或种子词向量,二维矩阵的列对应于文本集合的向量;确定二维矩阵的特征值,二维矩阵的左特征向量矩阵和右特征向量矩阵,以及二维矩阵的特征值组成的对角矩阵;根据左特征向量矩阵、右特征向量矩阵、对角矩阵和第二公式计算二维矩阵的低秩近似矩阵,其中,第二公式为C=U×∑×VT,C表征低秩近似矩阵,U表征左特征向量矩阵,VT表征右特征向量矩阵,∑表征特征值组成的对角矩阵。
在该技术方案中,通过创建参考情感词语的二维矩阵,并进一步地确定二维矩阵的低秩相似矩阵,减小了计算量,有利于进一步地快速计算参考候选词语和种子词的相关性。
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:根据第三公式分别对参考情感词语和种子词进行空间变化处理,以变换至语义空间进行识别,其中,第三公式为x为w时,T(w)表征参考情感词语在语义空间中的向量表示,x为s时,T(s)表征种子词在语义空间中的向量表示,表征参考情感词语向量的转置向量或种子词向量的转置向量,U表征左特征向量矩阵,∑-1表征对角矩阵的逆矩阵。
在该技术方案中,考虑词之间的语义关联特征,从隐含语义分析(Latent Semantics Analysis)的角度,为衡量情感种子词s和候选词语w在低维语义空间的相似度,需要把文本集合从原始词空间映射到语义空间。假设文本集合经去噪、分词、得到词-文档(term-document)矩阵C(行表示某个词,列表示某篇文档),那么该矩阵奇异值分解(SingularValue Decomposition)得到C=U×∑×VT,其中矩阵U和V是矩阵C的左右奇异值特征矩阵,∑是对角元为奇异值的对角矩阵。当取奇异值最大的前k个元素时,∑k是对角元为奇异值的对角矩阵,Uk和Vk矩阵的列为奇异值对应的特征向量矩阵,得到矩阵C的低秩近似为Ck=Uk×∑k×Vk T
在上述任一项技术方案中,优选地,根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识,具体还包括以下步骤:根据第四公式计算参考情感词语与种子词的相关性系数,其中,第四公式为R(w,s)=T(w)T×T(s),T(w)T表征T(w)的转置矩阵,R(w,s)表征相关性系数。
在该技术方案中,通过计算参考情感词语与种子词的相关系系数,参考情感词语的相关语义直观地转换为相关性系数,以供服务器根据相关系系数阈值进行语义辨识,另外,还可以将相关性系数生成列表提示给服务器维护人员,以进一步地进行人工筛选,以循环生成新的种子词。
图2示出了根据本发明的一个实施例的情感标识的辨识系统的示意框图。
如图2所示,根据本发明的一个实施例的情感标识的辨识系统200,包括:确定单元202,用于根据情感标识的使用频率确定种子词和种子词对应的文本集合;确定单元202还用于:在对应的文本集合中确定候选词语;确定单元202还用于:根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。
在该技术方案中,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
其中,结合种子词的文本集合的语境,考虑候选词语在上述文本集合中出现的概率,例如,候选词语在种子词的相邻位置出现的概率,更能反映候选词语与种子词的相关性。
在上述技术方案中,优选地,确定单元202还用于:将种子词记作s,同时将候选词语记作w,确定文本集合中的种子词的相邻文本段落;确定单元202还用于:计算候选词语属于相邻文本段落的条件概率,并记作P(w|s);确定单元202还用于:计算候选词语属于文本集合的概率,并记作P(w),并将候选词语出现在文本集合的次数记作k;确定单元202还用于:根据第一公式计算候选词语的依赖性系数,依赖性系数记作M(w,s),其中,第一公式为确定单元202还用于:确定依赖性系数大于零的候选词语,以确定为参考情感词语,并根据依赖性系数从大到小的顺序对参考情感词语进行排序。
在该技术方案中,通过计算种子词的依赖性系数,确定依赖性系数大于零即确定P(w|s)大于P(w),对候选词语进行进一步地筛选,并且根据依赖性系数从大到小的顺序对参考情感词语进行排序,更利于快速地确定情感标识的语义特性。
在上述任一项技术方案中,优选地,还包括:创建单元204,用于创建参考情感词语的二维矩阵,二维矩阵的行对应于参考情感词语向量或种子词向量,二维矩阵的列对应于文本集合的向量;确定单元202还用于:确定二维矩阵的特征值,二维矩阵的左特征向量矩阵和右特征向量矩阵,以及二维矩阵的特征值组成的对角矩阵;确定单元202还用于:根据左特征向量矩阵、右特征向量矩阵、对角矩阵和第二公式计算二维矩阵的低秩近似矩阵,其中,第二公式为C=U×∑×VT,C表征低秩近似矩阵,U表征左特征向量矩阵,VT表征右特征向量矩阵,∑表征特征值组成的对角矩阵。
在该技术方案中,通过创建参考情感词语的二维矩阵,并进一步地确定二维矩阵的低秩相似矩阵,减小了计算量,有利于进一步地快速计算参考候选词语和种子词的相关性。
在上述任一项技术方案中,优选地,还包括:空间变化单元206,用于根据第三公式分别对参考情感词语和种子词进行空间变化处理,以变换至语义空间进行识别,其中,第三公式为x为w时,T(w)表征参考情感词语在语义空间中的向量表示,x为s时,T(s)表征种子词在语义空间中的向量表示,表征参考情感词语向量的转置向量或种子词向量的转置向量,U表征左特征向量矩阵,∑-1表征对角矩阵的逆矩阵。
在该技术方案中,考虑词之间的语义关联特征,从隐含语义分析(Latent Semantics Analysis)的角度,为衡量情感种子词s和候选词语w在低维语义空间的相似度,需要把文本集合从原始词空间映射到语义空间。假设文本集合经去噪、分词、得到词-文档(term-document)矩阵C(行表示某个词,列表示某篇文档),那么该矩阵奇异值分解(SingularValue Decomposition)得到C=U×∑×VT,其中矩阵U和V是矩阵C的左右奇异值特征矩阵,∑是对角元为奇异值的对角矩阵。当取奇异值最大的前k个元素时,Σk是对角元为奇异值的对角矩阵,Uk和Vk矩阵的列为奇异值对应的特征向量矩阵,得到矩阵C的低秩近似为Ck=Uk×Σk×Vk T
在上述任一项技术方案中,优选地,确定单元202还用于:根据第四公式计算参考情感词语与种子词的相关性系数,其中,第四公式为R(w,s)=T(w)T×T(s),T(w)T表征T(w)的转置矩阵,R(w,s)表征相关性系数。
在该技术方案中,通过计算参考情感词语与种子词的相关系系数,参考情感词语的相关语义直观地转换为相关性系数,以供服务器根据相关系系数阈值进行语义辨识,另外,还可以将相关性系数生成列表提示给服务器维护人员,以进一步地进行人工筛选,以循环生成新的种子词。
图3示出了根据本发明的另一个实施例的情感标识的辨识系统的示意框图。
如图3所示,根据本发明的另一个实施例的情感标识的辨识系统300,包括:文本采集模块302、种子词生成模块304、情感词扩展模块306和人工校验模块308。
(1)文本采集模块302用于:确定特定领域,也即文本情感分析的应用领域,比如网民购买商品后的评论、网民对社会民生事件的评论等等。确定领域之后,通过网络爬虫对特定领域相关的评论文本进行定向采集。
例如,对于商品评论内容,因为评论通常集中在某些固定的购物网站,可以采集某一段时间段某一类商品的所有评论。对于网络舆情事件,如微博等社交网络上的讨论和评论内容,由于社交网络数据大,内容纷繁复杂且噪音多,可采用在某一段时间内由关键词词组定义的某一类事件过滤出事件相关的微博文本。
(2)情感种子词生成模块304用于:分析领域相关评论文本中具有强烈感情色彩的词汇。情感种子词是在领域内有明确的褒贬倾向,而且是较为常用的词。有些词的情感倾向非常明确,但与领域的相关度很低,被使用的概率比较低,那么这些词的敏感度就会降低,可能与绝大多数词的语义相似度都较小。比如,“温文尔雅”是个正面的词,属于成语,偏书面用,但在商品评论里几乎不会有人使用这个词。
生成情感种子词的文本集合,首先通过特定领域的文本采集模块302得到特定领域语料库,经过去噪、去重、分词和词性标注等处理,统计其中高频的形容词和副词,如果是社交媒体文本,情感标识还包括表情符号。候选词汇作为潜在的种子词,需要对候选词汇诸如形容词、副词、以及表情符号按词频降序排列。如果是商品评论并且有商品的打分数据,可进一步根据词所对应文本的打分得到情感词的极性。最后,对长度不超过100的高频修饰词表,经人工干预的手段,挑选种子词,并标记其情感极性。
(3)候情感词扩展模块306用于:利用大规模的无标注的文本集合,结合情感种子词,通过分析不同词之间的统计特征、语义关联特征实现情感词的扩展。
(4)人工校验模块308用于:对情感种子词的候选词、扩展得到的情感词列表进行人工校验。需要指出的是此处的人工校验是针对已经排序的候选列表,通常比较正确的情感词都出现在列表中排名靠前,所以所需的人工筛选工作量是极少的。
由于领域情感词数目有限,不同的情感种子词扩展出的情感词存在交叉重复的可能,可以利用这一特性,在遍历不同种子词的扩展集时,自动排除已经通过人工审核的词,这样进一步减少人工干预的程度。
情感词扩展集审核去重:假设情感种子词集合为{Si},经上述算法自动得到情感词扩展集合T1,再经人工校验得到情感词集R1;S2经上述算法自动得到情感词扩展集合T1,从中扣除已知情感词,只需对(T1-R1)集合进行人工校验,得到T2,依次类推。
图4示出了根据本发明的另一个实施例的情感标识的辨识方法的示意流程图。
如图4所示,根据本发明的另一个实施例的情感标识的辨识方法,包括:步骤402,根据情感标识所在领域确定文本集合,对文本集合进行去噪和分词等预处理,并进行词频统计和词性标注,经过人工干预得到种子词;步骤404,特征统计步骤406,语义统计;步骤408,候选情感词列表,经过人工干预筛选得到该领域内的情感词。
以上结合附图详细说明了本发明的技术方案,考虑到如何提高情感标识的辨识的准确性成的技术问题。因此,本发明提出了一种新的情感标识的辨识方案,通过根据情感标识的使用频率确定种子词及其文本集合,并根据似然比模型确定候选词语与种子词的相关性数值,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种情感标识的辨识方法,适用于终端,其特征在于,包括:
根据情感标识的使用频率确定种子词和所述种子词对应的文本集合;
在所述对应的文本集合中确定候选词语;
根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值,以根据所述相关性数值确定所述候选词语对应的情感标识。
2.根据权利要求1所述的情感标识的辨识方法,其特征在于,根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值,以根据所述相关性数值确定所述候选词语对应的情感标识,具体包括以下步骤:
将所述种子词记作s,同时将所述候选词语记作w,确定所述文本集合中的所述种子词的相邻文本段落;
计算所述候选词语属于所述相邻文本段落的条件概率,并记作P(w|s);
计算所述候选词语属于所述文本集合的概率,并记作P(w),并将所述候选词语出现在所述文本集合的次数记作k;
根据第一公式计算所述候选词语的依赖性系数,所述依赖性系数记作M(w,s),
其中,所述第一公式为
确定所述依赖性系数大于零的候选词语,以确定为参考情感词语,并根据所述依赖性系数从大到小的顺序对所述参考情感词语进行排序。
3.根据权利要求1或2所述的情感标识的辨识方法,其特征在于,根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值,以根据所述相关性数值确定所述候选词语对应的情感标识,具体还包括以下步骤:
创建所述参考情感词语的二维矩阵,所述二维矩阵的行对应于所述参考情感词语向量或所述种子词向量,所述二维矩阵的列对应于所述文本集合的向量;
确定所述二维矩阵的特征值,所述二维矩阵的左特征向量矩阵和右特征向量矩阵,以及所述二维矩阵的特征值组成的对角矩阵;
根据所述左特征向量矩阵、所述右特征向量矩阵、所述对角矩阵和第二公式计算所述二维矩阵的低秩近似矩阵,
其中,所述第二公式为C=U×∑×VT,所述C表征所述低秩近似矩阵,所述U表征所述左特征向量矩阵,所述VT表征所述右特征向量矩阵,所述∑表征所述特征值组成的对角矩阵。
4.根据权利要求3所述的情感标识的辨识方法,其特征在于,根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值,以根据所述相关性数值确定所述候选词语对应的情感标识,具体还包括以下步骤:
根据第三公式分别对所述参考情感词语和所述种子词进行空间变化处理,以变换至语义空间进行识别,
其中,所述第三公式为所述x为所述w时,T(w)表征所述参考情感词语在所述语义空间中的向量表示,所述x为所述s时,T(s)表征所述种子词在所述语义空间中的向量表示,所述表征所述参考情感词语向量的转置向量或所述种子词向量的转置向量,所述U表征所述左特征向量矩阵,所述∑-1表征所述对角矩阵的逆矩阵。
5.根据权利要求4所述的情感标识的辨识方法,其特征在于,根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值,以根据所述相关性数值确定所述候选词语对应的情感标识,具体还包括以下步骤:
根据第四公式计算所述参考情感词语与所述种子词的相关性系数,
其中,所述第四公式为R(w,s)=T(w)T×T(s),所述T(w)T表征所述T(w)的转置矩阵,所述R(w,s)表征所述相关性系数。
6.一种情感标识的辨识系统,适用于终端,其特征在于,包括:
确定单元,用于根据情感标识的使用频率确定种子词和所述种子词对应的文本集合;
所述确定单元还用于:在所述对应的文本集合中确定候选词语;
所述确定单元还用于:根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值,以根据所述相关性数值确定所述候选词语对应的情感标识。
7.根据权利要求6所述的情感标识的辨识系统,其特征在于,
所述确定单元还用于:将所述种子词记作s,同时将所述候选词语记作w,确定所述文本集合中的所述种子词的相邻文本段落;
所述确定单元还用于:计算所述候选词语属于所述相邻文本段落的条件概率,并记作P(w|s);
所述确定单元还用于:计算所述候选词语属于所述文本集合的概率,并记作P(w),并将所述候选词语出现在所述文本集合的次数记作k;
所述确定单元还用于:根据第一公式计算所述候选词语的依赖性系数,所述依赖性系数记作M(w,s),
其中,所述第一公式为
所述确定单元还用于:确定所述依赖性系数大于零的候选词语,以确定为参考情感词语,并根据所述依赖性系数从大到小的顺序对所述参考情感词语进行排序。
8.根据权利要求6或7所述的情感标识的辨识系统,其特征在于,还包括:
创建单元,用于创建所述参考情感词语的二维矩阵,所述二维矩阵的行对应于所述参考情感词语向量或所述种子词向量,所述二维矩阵的列对应于所述文本集合的向量;
所述确定单元还用于:确定所述二维矩阵的特征值,所述二维矩阵的左特征向量矩阵和右特征向量矩阵,以及所述二维矩阵的特征值组成的对角矩阵;
所述确定单元还用于:根据所述左特征向量矩阵、所述右特征向量矩阵、所述对角矩阵和第二公式计算所述二维矩阵的低秩近似矩阵,
其中,所述第二公式为C=U×∑×VT,所述C表征所述低秩近似矩阵,所述U表征所述左特征向量矩阵,所述VT表征所述右特征向量矩阵,所述∑表征所述特征值组成的对角矩阵。
9.根据权利要求8所述的情感标识的辨识系统,其特征在于,还包括:
空间变化单元,用于根据第三公式分别对所述参考情感词语和所述种子词进行空间变化处理,以变换至语义空间进行识别,
其中,所述第三公式为所述x为所述w时,T(w)表征所述参考情感词语在所述语义空间中的向量表示,所述x为所述s时,T(s)表征所述种子词在所述语义空间中的向量表示,所述表征所述参考情感词语向量的转置向量或所述种子词向量的转置向量,所述U表征所述左特征向量矩阵,所述∑-1表征所述对角矩阵的逆矩阵。
10.根据权利要求9所述的情感标识的辨识系统,其特征在于,
所述确定单元还用于:根据第四公式计算所述参考情感词语与所述种子词的相关性系数,
其中,所述第四公式为R(w,s)=T(w)T×T(s),所述T(w)T表征所述T(w)的转置矩阵,所述R(w,s)表征所述相关性系数。
CN201610228512.2A 2016-04-13 2016-04-13 情感标识的辨识方法和情感标识的辨识系统 Expired - Fee Related CN107291686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610228512.2A CN107291686B (zh) 2016-04-13 2016-04-13 情感标识的辨识方法和情感标识的辨识系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610228512.2A CN107291686B (zh) 2016-04-13 2016-04-13 情感标识的辨识方法和情感标识的辨识系统

Publications (2)

Publication Number Publication Date
CN107291686A true CN107291686A (zh) 2017-10-24
CN107291686B CN107291686B (zh) 2020-10-16

Family

ID=60095938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610228512.2A Expired - Fee Related CN107291686B (zh) 2016-04-13 2016-04-13 情感标识的辨识方法和情感标识的辨识系统

Country Status (1)

Country Link
CN (1) CN107291686B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038102A (zh) * 2017-12-08 2018-05-15 北京小米移动软件有限公司 表情图像的推荐方法、装置、终端及存储介质
CN108710613A (zh) * 2018-05-22 2018-10-26 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质
CN110738040A (zh) * 2019-10-17 2020-01-31 深圳市比量科技传媒有限公司 一种评论扩展方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090216524A1 (en) * 2008-02-26 2009-08-27 Siemens Enterprise Communications Gmbh & Co. Kg Method and system for estimating a sentiment for an entity
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN101770580A (zh) * 2009-01-04 2010-07-07 中国科学院计算技术研究所 一种跨领域的文本情感分类器的训练方法和分类方法
CN102033865A (zh) * 2009-09-25 2011-04-27 日电(中国)有限公司 基于子句关联的文本情感分类系统和方法
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
US20120259617A1 (en) * 2011-04-07 2012-10-11 Infosys Technologies, Ltd. System and method for slang sentiment classification for opinion mining
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN105608130A (zh) * 2015-12-16 2016-05-25 小米科技有限责任公司 获得情感词知识库的方法、装置及终端

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090216524A1 (en) * 2008-02-26 2009-08-27 Siemens Enterprise Communications Gmbh & Co. Kg Method and system for estimating a sentiment for an entity
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN101770580A (zh) * 2009-01-04 2010-07-07 中国科学院计算技术研究所 一种跨领域的文本情感分类器的训练方法和分类方法
CN102033865A (zh) * 2009-09-25 2011-04-27 日电(中国)有限公司 基于子句关联的文本情感分类系统和方法
US20120259617A1 (en) * 2011-04-07 2012-10-11 Infosys Technologies, Ltd. System and method for slang sentiment classification for opinion mining
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN105608130A (zh) * 2015-12-16 2016-05-25 小米科技有限责任公司 获得情感词知识库的方法、装置及终端

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FANGTAO LI 等: "Cross-Domain Co-Extraction of Sentiment and Topic Lexicons", 《ACL 2012》 *
JANYCE M. WIEBE: "Learning Subjective Adjectives from Corpora", 《AAAI 2000》 *
侯锋 等: "网络意见挖掘 、摘要与检索研究综述", 《计算机科学》 *
宋施恩 等: "基于词共现和词上下文的领域观点词抽取方法", 《计算机工程与设计》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038102A (zh) * 2017-12-08 2018-05-15 北京小米移动软件有限公司 表情图像的推荐方法、装置、终端及存储介质
CN108710613A (zh) * 2018-05-22 2018-10-26 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质
CN108710613B (zh) * 2018-05-22 2022-04-08 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质
CN110738040A (zh) * 2019-10-17 2020-01-31 深圳市比量科技传媒有限公司 一种评论扩展方法及系统
CN110738040B (zh) * 2019-10-17 2023-11-28 深圳市比量科技传媒有限公司 一种评论扩展方法及系统

Also Published As

Publication number Publication date
CN107291686B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
Wang et al. Combining Knowledge with Deep Convolutional Neural Networks for Short Text Classification.
CN108874768B (zh) 一种基于主题情感联合概率的电子商务虚假评论识别方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
Park et al. Contrasting opposing views of news articles on contentious issues
US20060287988A1 (en) Keyword charaterization and application
CN108154395A (zh) 一种基于大数据的客户网络行为画像方法
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN105740448B (zh) 面向话题的多微博时序文摘方法
Yüksel et al. Turkish tweet classification with transformer encoder
Bansal et al. User tweets based genre prediction and movie recommendation using LSI and SVD
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
Ziser et al. Humor detection in product question answering systems
Alexandridis et al. A knowledge-based deep learning architecture for aspect-based sentiment analysis
Gao et al. Improving event representation via simultaneous weakly supervised contrastive learning and clustering
Meng et al. Mining user reviews: from specification to summarization
Zayed et al. Phrase-level metaphor identification using distributed representations of word meaning
CN109284389A (zh) 一种文本数据的信息处理方法、装置
CN107291686A (zh) 情感标识的辨识方法和情感标识的辨识系统
Yao et al. Online deception detection refueled by real world data collection
Lee et al. Detecting suicidality with a contextual graph neural network
González et al. ELiRF-UPV at SemEval-2019 task 3: snapshot ensemble of hierarchical convolutional neural networks for contextual emotion detection
Nie et al. Aggregated semantic matching for short text entity linking
Zhang et al. Product features extraction and categorization in Chinese reviews
Ait-Saada et al. Unsupervised anomaly detection in multi-topic short-text corpora
Chen et al. Identifying Cantonese rumors with discriminative feature integration in online social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230615

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee after: Peking University

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee before: Peking University

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201016

CF01 Termination of patent right due to non-payment of annual fee