CN104281645A - 一种基于词汇语义和句法依存的情感关键句识别方法 - Google Patents

一种基于词汇语义和句法依存的情感关键句识别方法 Download PDF

Info

Publication number
CN104281645A
CN104281645A CN201410425148.XA CN201410425148A CN104281645A CN 104281645 A CN104281645 A CN 104281645A CN 201410425148 A CN201410425148 A CN 201410425148A CN 104281645 A CN104281645 A CN 104281645A
Authority
CN
China
Prior art keywords
word
sentence
emotion
node
interdependent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410425148.XA
Other languages
English (en)
Other versions
CN104281645B (zh
Inventor
冯冲
廖纯
刘至润
黄河燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201410425148.XA priority Critical patent/CN104281645B/zh
Publication of CN104281645A publication Critical patent/CN104281645A/zh
Application granted granted Critical
Publication of CN104281645B publication Critical patent/CN104281645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于词汇语义和句法依存的情感关键句识别方法,属于自然语言处理应用技术领域,包括以下步骤:首先对语料及其分词结果进行规范化处理;然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存模板特征,利用这四种特征训练SVM分类器,并以之完成情感关键句的最终识别。对比现有技术,通过采用规则与统计相结合的策略,能够有效利用不同层级词汇语义和句法依存信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键句,提高中文情感关键句的识别率。

Description

一种基于词汇语义和句法依存的情感关键句识别方法
技术领域
本发明涉及一种情感关键句识别方法,特别涉及一种基于词汇语义和句法依存的情感关键句识别方法,属于自然语言处理应用技术领域。
背景技术
随着我国互联网事业的迅速发展,网络作为一种新型媒体不但成为各种社会思潮、利益诉求和意识形态较量的场所,而且也成为民众评议时政、谈论是非、交流观点的集散地。有关网络舆情监测和分析的研究由此引起研究人员的重视。抽取出一篇文章的情感关键句,对了解社会动态和舆情状况有着重要的作用。但在如今这个大数据时代,海量信息层出不穷,同时处理这么多信息无疑是件费时费力的事情。因此,我们需要一种情感关键句抽取技术来帮助我们自动从海量信息中抽取出与主题相关的情感关键句,这是一项既有学术意义又有实用意义的研究课题。
情感关键句又叫主题情感句,情感关键句需要包含两个要素:主题关键词和情感关键词。主题关键词用来概括篇章的主题;情感关键词用来概括情感倾向。目前,关于情感关键句抽取方面的研究并不多。总的来说,情感关键句抽取的研究尚不系统和成熟,目前还处于起步阶段。而中文语言的灵活性及表达的多样性,也使情感关键句抽取的研究相对更加困难。目前情感关键句抽取的方法大多是基于规则或基于统计的,鲜有两者结合的方法。而且在抽取过程中只进行了浅层语义分析,没有挖掘句子的深层信息。
发明内容
本发明的目的是为解决以往在情感关键句识别中不能有效利用词汇语义和句法依存信息的问题,尽可能发挥不同层级的语义、句法信息特征,提出一种基于词汇语义和句法依存的情感关键句识别方法。
为实现上述目的,本发明所采用的技术方案如下:
本发明技术方案的思想是首先对语料及其分词结果进行规范化处理,然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存特征,利用这四种特征构造SVM分类器,找到使性能达到最优的特征形式完成情感关键句的识别。
本发明的具体技术方案如下:
一种基于词汇语义和句法依存的中文情感关键句识别方法,该方法包括以下步骤:
步骤一、语料预处理:对语料集S的每一个句子进行分词、词性标注得到带有词性标注的语料集合T;分词以及词性标注可以手工进行,也可以使用现有的工具,本发明使用中科院的分词工具ICTCLAS对S自动分词以及词性标注;
步骤二、情感词典扩建:通过分别计算基础情感词典与候选词集合之间的点间互信息PMI,为每个基础情感词典中的词语选取至多5个PMI最高的候选词作为扩展词,加入基础情感词典,用这些词加上其在语料集合中的出现概率生成最终的领域相关的情感词典DEL;
步骤三、关键词词典构建:对于语料集S中的每一篇文章,通过LDA与textrank相结合的方法,同时采用一种全新的加权方法PCFO为该文章在各主题建立对应的图模型,最后利用textrank为图中每个节点,即词语打分,选择得分较高的词语作为本篇文章的关键词,加入关键词词典KL;
步骤四、依存知识库构建:对语料集S中的每一个句子进行依存分析,然后通过依存模板提取算法获取依存模板,加入依存知识库DB;
步骤五、候选情感关键句生成:分别将语料集T中的每一个句子与上文已经构建好的领域相关的情感词典DEL和关键词词典KL进行匹配,选择既含有情感词又含有关键词的句子作为候选情感关键句,记候选情感关键句的集合为A;
步骤六、SVM分类:将集合A置于经过训练的SVM分类器中进行分类,得到情感关键句集合Y和非情感关键句集合N,SVM分类器的训练特征为:情感词特征(emotional feature),关键词特征(key-wordfeature),依存模板特征(dependency feature)和位置特征(positionfeature)这四种;
步骤七、识别完成:输出识别结果Y。
有益效果
本发明对比现有技术,通过采用规则与统计相结合的策略,先通过DEL和KL筛选出候选情感关键句,然后再利用SVM分类器进行分类,这样就弥补了基于概率统计的机器学习方法导致的错判,两种方法相互补充,能够有效利用不同层级词汇语义和句法依存信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键句,提高中文情感关键句的识别率。
附图说明
图1为本发明方法的处理流程图。
具体实施方式
在介绍实施例以前,先做如下定义:
情感关键句是指一篇文章中既能表现文章主题又能表现情感倾向的句子,需要包含两个要素:主题关键词和情感关键词。主题关键词用来彰显篇章主题;情感关键词用来表明情感倾向。
下面结合实施例对本发明做进一步说明。
本实施例首先介绍情感词典的扩展方法,关键词词典的构建方法,依存知识库的形成方法以及SVM分类器的特征选择方法,最后介绍中文情感关键句的识别方法。
本实施例选取第六届中文倾向性分析评测(The Sixth ChineseOpinion Analysis Evaluation,简称COAE2014)任务一:面向新闻的情感关键句抽取与判定提供的数据集作为实验语料集,用于情感词典的扩展,关键词词典的构建,依存知识库的形成以及SVM分类器的训练。该语料集含有多篇文章,每篇文章由多个句子组成,每个句子含有类别标注(Y:表示是情感关键句/N:表示不是情感关键句)。
以下文档为语料集S中的一篇文章:
一、情感词典的扩展方法,实现步骤如下:
(1)采用知网(Hownet)提供的情感分析用词语集中的正面情感词语、负面情感词语、正面评价词语、负面评价词语加上由台湾大学整理和发布的简体中文的NTUSD构成基础情感词典(BasicEmotion Lexicon);
(2)在预处理过的语料集合T中,按词性筛选出名词、动词和形容词作为候选词;
(3)分别计算上文构建的Basic Emotion Lexicon中每个词与这些候选词之间的点间互信息,关于两个词语w1和w2之间的点间互信息PMI(w1,w2)的计算公式如下(计算过程中过滤掉P(w1&w2),P(w1),P(w2)为零的情况):
其中P(w1&w2)表示w1和w2在同一个句子中共同出现的概率,P(w1)和P(w2)分别表示两个词语单独出现的概率;P(w1&w2)、P(w1)和P(w2)都可以通过对语料集合T的统计得到,其计算公式如下:
P(w1&w2)=numsen(w1&w2)/N
P(w1)=numsen(w1)/N
P(w2)=numsen(w2)/N
其中,numsen(w1&w2)表示集合中即出现w1又出现w2的句子数,numsen(w1)表示出现w1的句子数,numsen(w2)表示出现w2的句子数,N表示语料集合T的全部句子数;
(4)对于Basic Emotion Lexicon中的每个词,选取至多前5个与之点间互信息最高的候选词作为扩展词,与其在语料集合T中的出现频率一起加入Basic Emotion Lexicon,并对B asic Emotion Lexicon中的每个情感词也分别计算其在语料集合T中的出现概率,生成最终的领域相关的情感词典DEL;
因此,以以上文档为例,生成的最终领域相关的情感词及其出现频率如下表:
二、关键词词典KL的构建方法,实现步骤如下:
(1)设置语料集合T的主题个数为n,某个主题用zt表示,其中t∈{1,2,3......,n},通过LDA模型求出文档-主题分布P(zt|d)(即每篇文挡属于某一主题的概率)和主题-词分布P(w|zt)(即每个主题下出现某一个词的概率);分别计算随机跳转概率P(zt|w),即每个词属于一个主题的概率,计算公式如下:
P ( z t | w ) = P ( w , z t ) P ( w ) = P ( w | z t ) × Σ i = 1 m P ( z t | d i ) P ( d i ) Σ t = 1 n P ( w , z t )
其中,m表示语料集合T中的文档个数,w表示一个词,di表示第i篇文章,i∈{1,2,3......,m},P(di)表示文章di在语料集合T中的出现概率;t∈{1,2,3......,n}
(2)针对每一篇文章按词性选择名词和形容词作为候选关
键词,并以这些词为节点,分别在每一个主题下构建图模型:
图G=(V,E),节点集合V={v1,v2,v3......vk},连接从节点vi到节点vj两节点的边(vi,vj)∈E,其中k表示候选关键词的个数,i,j∈{1,2,3......,k},i≠j;
确定两个节点之间是否存在边以及边的方向的方法如下:
在原文中设置一个大小为window的滑动窗口,我们分别按照顺序从第一个词性为名词或形容词的词语指向窗口内与第一个词不同的其他词性为名词或形容词的词语,至此,我们就得到了边集E,依次遍历集合E中的每条边,按以下方法对每条边设置权重:
权重设置主要考虑四个因素:位置重要性的影响力、覆盖重要性的影响力、频度重要性的影响力和共现重要性的影响力;对于任意两个结点vi和vj,结点vi对vj的影响力通过其有向边e=<vi,vj>传递,边的权重wij决定了vj最终所获得vi部分的分值大小,令wij表示结点vi和vj的整体影响力权重,α,β,γ,δ分别表示这四类不同的影响力所占的比重,且α+β+γ+δ=1,则两节点之间的权值wij可以根据下式计算:
wij=αwpos(vi,vj)+βwcov(vi,vj)+γwfreq(vi,vj)
+δwco-occur(vi,vj)
a)wpos(vi,vj)表示节点vi的位置影响力传递到vj的权重,计算公式如下:
w pos ( v i , v j ) = P ( v j ) Σ v t ∈ Out ( v i ) P ( v t )
其中,Out(vi)表示以vi为起点所指向的节点的集合,P(vj)表示节点vj的位置重要性得分,根据不同的情况可以设置不同的打分策略,考虑到标题信息对词语重要性的影响,本文设定只要是在标题中出现过的词语就给予更高的得分;具体赋值方式如下:
其中,λ是一个比1大的数字,实验中,经多次验证选择λ=1.5;
b)wcov(vi,vj)表示节点vi的覆盖影响力传递到vj的权重,计算公式如下:
w cov ( v i , v j ) = 1 | Out ( v i ) |
其中,|Out(vi)|表示节点vi的出度,即由vi出发所指向的节点的数目;此公式说明节点vi的覆盖影响力将被均匀的传递到相邻节点;
c)wfreq(vi,vj)表示节点vi的频度影响力传递到vj的权重,计算公式如下:
w freq ( v i , v j ) = f ( v j ) Σ v t ∈ Out ( v i ) f ( v t )
其中,Out(vi)表示以vi为起点所指向的节点的集合,f(vj)表示节点vj所代表的词语在文章中出现的次数,以上公式体现出出现次数较高的词语将从连接节点处获得更高的影响力权重;
d)wco-occur(vi,vj)表示节点vi的共现影响力传递到vj的权重,计算公式如下:
w co - occur ( v i , v j ) = Co ( v i , v j ) Σ v t ∈ Out ( v i ) Co ( v i , v t )
其中,Co(vi,vj)表示节点vi,vj所代表的词语在一定窗口内共现的次数,以上公式则体现出共现次数较高的词语将从连接节点处获得更高的影响力权重,也即这两个词语之间联系更加紧密;
(3)图模型建立完毕之后,利用textrank的思想对各节点进行打分排序,用以下公式迭代计算每一个节点在特定主题下的得分:
R z t ( v i ) = λ Σ j : v j → v i w ( v j , v i ) | Out ( v j ) | R z t ( v j ) + ( 1 - λ ) P ( z t | v i )
其中,w(vj,vi)即为上文求得的节点vj,vi之间的权值wji
P(zt|vi)即为上文求得的P(zt|w);λ为阻尼因子,实验中,根据经验选择为0.75;j:vj→vi表示节点vj在以节点vi由为终点的节点集合内遍历;由于最终得分与初值设置无关,所以设置所有节点得分初值为1;当连续两次迭代,所有节点得分误差都在0.0001范围之内时,迭代终止,将此时的得分作为每一个节点在特定主题下的得分。
(4)求得每一个节点在特定主题下的得分之后,按照下述公式计算每一个节点在一篇文章下的最终得分:
R ( v i ) = Σ t = 1 n R z t ( v i ) × P ( z t | d )
选取排名靠前的节点,将节点所代表的候选关键词与此节点的最终得分R(vi)一块加入关键词词典KL,依此方法生成对应于语料集合T中所有文章的最终的关键词词典KL。
同样以该文档为例,得到的对应本文章的关键词词典及其最终得分如下表:
三、依存知识库的形成方法,实现步骤如下:
(1)使用哈工大LTP的依存句法分析模块来分析语料集S中的所有句子得到依存分析结果D;例如句子“这位叙反对派领导人还宣称,叙利亚总统巴沙尔阿萨德和他的死亡机器必将受到惩罚。”分析结果如下:
(2)对依存分析结果D进行分析,找到句子的中心词(即依存分析结果中relate值为HED对应的词),与在DEL或hownet提供的情感分析用词语集中的主张词中出现的词一起作为中心特征词(CoreWord),以这些词为起点,对附属或依存于该词的词汇进行关系提取,并统计它们相互之间的关系,根据统计数据提取出符合要求的依存关系模板,形成最终的依存知识库DB;具体依存模板提取算法如下:
输入:经过预处理得到的语料集合T,依存分析结果D;
输出:依存知识库DB;
处理流程:
Step 1:遍历语料集合T中每条情感关键句中的所有词语,如果该词语在上文构建的DEL或hownet提供的情感分析用词语集中的主张词中出现,或者依存分析结果中relate=“HED”,则把它作为CoreWord;
Step 2:将与CoreWord有依存关系,parent等于CoreWord的id的词语存入依存词的集合dpWords;
Step 3:遍历dpWords中的每个词与CoreWord的关系,如果其依存关系为COO(即relate=″COO″),则将它作为CoreWord重复Step2;如果其依存关系为WP,则将其从dpWords中删除;
Step 4:将情感关键句中的所有包括CoreWord、dpWords以及dpWords中的每一个词与其父节点CoreWord相互之间的依存关系存入情感关键句的模板集合中,并且不改变其出现顺序,如“领导人(SBV)还(ADV)宣称(HED)受到(VOB)”。
Step 5:从Step4中得出的情感关键句的模板集合中的模板按“一个前面的词与中心词的关系+中心词+一个后面的词与中心词的关系”、“一个前面的词与中心词的关系+中心词”、“中心词+一个后面的词与中心词的关系”三种方式作为候选模板进行提取,对于同一个中心词取最长模板,即如果按以上三种方式提取出的模板中心词相同,则选择长度最长的模板,并统计其各自在情感关键句、非情感关键句中出现的概率;例如以上句子,按上述三种方式提取出模板为:“SBV+宣称+VOB”、“SBV+宣称”、“宣称+VOB”、“ADV+宣称+VOB”、“ADV+宣称”,取最长模板后得到模板“SBV+宣称+VOB”、“ADV+宣称+VOB”,在情感关键句中出现的概率分别是0.244127982245,0.197151840207;在非情感关键句中出现的概率是0.000529906603961、0.000485747720298;
Step 6:将由Step 5得到的候选模板集合中在情感关键句中出现的概率大于在非情感关键句中出现概率的模板提取出来,与它在情感关键句中的出现概率一起加入依存关系知识库DB中;对于上述例句即将SBV+宣称+VOB与0.244127982245、ADV+宣称+VOB与0.197151840207加入到依存关系知识库DB中,直至处理完语料集合T的所有语句。
同理,以以上文档为例,提取出的依存模板及其出现频率如下表:
四、SVM分类器的特征向量生成方法:
SVM的特征向量,主要包含情感词特征,关键词特征,依存模板特征和位置特征四部分;关于情感词特征、关键词特征、依存模板特征,分别由对应句子中包含领域相关情感词典DEL、关键词词典KL和依存知识库DB中词的数目与得分构成。位置特征则采用抛物线Parabola的形式为文章中的句子打分,打分函数如下:
scoresen(pos(sen))=a×pos(sen)2+b×pos(Sen)+c
其中,n表示文章中句子的总数,a>0,b<0,pos(sen)表示句子在文章中的位置,sen表示句子序号。经多次试验,设b=-1。
情感词特征的特征向量维度为9,第一维分量表示每个句子中出现在DEL中情感词的个数,后八维分量分别表示这些情感词出现的概率,如果每个句子中出现在DEL中情感词的个数不足8个,不足的部分其概率设置为0;如果每个句子中出现在DEL中情感词的个数多于8个,按概率由大到小的顺序取前8个,如对于句子:这位叙反对派领导人还宣称,叙利亚总统巴沙尔阿萨德和他的死亡机器必将受到惩罚,我们得到情感词部分的特征向量为(20.0294117650.029411765000000)其中2表示句子中有两个词在领域相关情感词典DEL中出现;之后0.029411765、0.029411765分别表示出现在DEL中的两个情感词的相应得分,即其出现在语料集合S中的频率;剩余6维分量补0。
关键词特征的特征向量维度为9,第一维分量表示每个句子中出现在KL中关键词的个数,后八维分量分别表示这些关键词在KL中对应的得分;如果句子中出现在KL中关键词的个数不足8个,不足的部分其对应的分量概率设置为0;如果句子中出现在KL中关键词的个数多于8个,按得分由大到小的顺序取前8个;如对于句子:这位叙反对派领导人还宣称,叙利亚总统巴沙尔阿萨德和他的死亡机器必将受到惩罚,我们得到关键词部分的特征向量为(60.100989099886599920.047429903922990540.0396889815842925360.02927543170089680.0021877676421553760.00133903097870930700),其中第一维分量6表示句中包含的关键词个数,中间不为0的六维分量表示的是按由大到小顺序排列的六个关键词在关键词词典KL中的得分,具体如下:反对派=0.10098909988659992叙利亚=0.04742990392299054总统=0.039688981584292536领导人=0.0292754317008968巴沙尔阿萨德=0.002187767642155376机器=0.001339030978709307,剩余不足8维的部分补0。
依存模板特征的特征向量维度为9,第一维分量表示从每个句子中提取的依存模板出现在DB中的个数,后八维分量分别表示这些依存模板在DB中对应的出现概率;如果从每个句子中提取的依存模板出现在DB中的个数不足8个,不足的部分其对应的分量的出现概率设置为0;如果从每个句子中提取的依存模板出现在DB中的个数多于8个,按出现概率由大到小顺序取前8个;如对于句子:这位叙反对派领导人还宣称,叙利亚总统巴沙尔阿萨德和他的死亡机器必将受到惩罚,我们得到依存模板部分的特征向量为(20.2441279822450.197151840207000000),其中第一维分量2表示句中包含的依存模板个数,中间两维不为零的数字分别表示这两个依存模板在依存知识库DB中对应的出现概率,剩余不足8维的部分补0。
位置特征(1维):(2.08333333333)按照抛物线Parabola的打分函数,由于本文共有11句,故n=11,令scoresen(6)=0,分别求出抛物线的系数b=-1,c=3,如对于句子:这位叙反对派领导人还宣称,叙利亚总统巴沙尔阿萨德和他的死亡机器必将受到惩罚,我们得到依存模板部分的特征向量为scoresen(11)即本句话的得分为2.08333333333。
最后,将四部分向量分别按顺序连接起来,形成一个28维的特征向量(20.0294117650.02941176500000060.100989099886599920.047429903922990540.0396889815842925360.02927543170089680.0021877676421553760.0013390309787093070020.2441279822450.1971518402070000002.08333333333)
按以上流程将语料S中所有文章的全部句子都处理成这样的28维特征向量。
五、中文情感关键句的识别方法:
分别将语料集T中的每一个句子与上文已经构建好的领域相关的情感词典DEL和关键词词典KL进行匹配,选择既含有情感词又含有关键词的句子作为候选情感关键句,记候选情感关键句的集合为A;然后将A中所有句子按上述SVM分类器的特征向量生成方法全部处理成28维的特征向量;选取一部分句子作为训练集,与类别标注(是否是情感关键句)一起加入SVM分类器进行训练;然后输入剩余句子,通过SVM分类器进行识别,输出是否是情感关键句的识别结果。
为了验证本发明实施例提供的中文情感关键句识别方法的有效性,此次在COAE2014评测数据的基础上进行试验。数据集共包含1994篇文档,经过领域相关情感词典DEL和关键词词典KL过滤之后,得到候选情感关键句共38797个,其中情感关键句5019句,非情感关键句33778句。在具体测试时,选取其中4/5的候选情感关键句作为已知数据,通过对该部分数据的学习生成SVM分类器;剩余1/5的数据作为待识别的数据,使用本文所述识别方法进行识别。同时将本文所提方法Lexicon+Syntax与COAE的最佳结果COAE、基于词典的方法Lexicon这两种识别方法所得到的结果进行比较,比较结果如下表所示:
实验结果表明,使用本文词汇语义和句法依存相结合的方法大大提升了实验效果。主要是因为使用情感词典和关键词词典进行规则过滤得到候选情感关键句的时候,相当于对语料进行了一个降噪处理,然后再用统计的方法,分析句法语义信息进行处理,以保证达到更高的准确率P、召回率R和F值,充分证明了本发明所提供方法的有效性。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都在要求保护的本发明范围内,本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于词汇语义和句法依存的中文情感关键句识别方法,其特征在于,包括以下步骤:
步骤一、语料预处理:对待识别的语料集的每一个句子进行分词、词性标注得到带有词性标注的语料集合T;
步骤二、候选情感关键句生成:分别将T中的每一个句子与领域相关的情感词典DEL和关键词词典KL进行匹配,选择既含有情感词又含有关键词的句子作为候选情感关键句,记候选情感关键句的集合为A;
步骤三、SVM分类器分类:从情感词特征、关键词特征、依存模板特征和位置特征四个方面对集合A的每个句子提取特征向量,并将特征向量置于经过训练的SVM分类器中进行分类,得到情感关键句集合Y和非情感关键句集合N;
步骤四、识别完成:输出识别结果Y。
2.根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法,其特征在于,领域相关的情感词典DEL构建方法包括以下步骤:
步骤一、采用知网(Hownet)提供的情感分析用词语集中的正面情感词语、负面情感词语、正面评价词语、负面评价词语加上由台湾大学整理和发布的简体中文的NTUSD构成基础情感词典(Basic Emotion Lexicon);
步骤二、对语料集S中的所有句子进行分词、词性标注后得到语料集合T,按词性筛选出名词、动词和形容词作为候选词;
步骤三、分别计算上文构建的Basic Emotion Lexicon中每个词与这些候选词之间的点间互信息,关于两个词语w1和w2之间的点间互信息PMI(w1,w2)的计算公式如下(计算过程中过滤掉P(w1&w2),P(w1),P(w2)为零的情况):
其中P(w1&w2)表示w1和w2在同一个句子中共同出现的概率,P(w1)和P(w2)分别表示两个词语单独出现的概率;P(w1&w2)、P(w1)和P(w2)都可以通过对语料集合T的统计得到,其计算公式如下:
P(w1&w2)=numsen(w1&w2)/N
P(w1)=nurnsen(w1)/N
P(w2)=numsen(w2)/N
其中,numsen(w1&w2)表示集合中即出现w1又出现w2的句子数,numsen(w1)表示出现w1的句子数,numsen(w2)表示出现w2的句子数,N表示语料集合T的全部句子数;
步骤四、对于Basic Emotion Lexicon中的每个词,选取至多前5个与之点间互信息最高的候选词作为扩展词,与其在语料集合T中的出现频率一起加入BasicEmotion Lexicon,并对Basic Emotion Lexicon中的每个情感词也分别计算其在语料集合T中的出现概率,生成最终的领域相关的情感词典DEL。
3.根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法,其特征在于,关键词词典的构建方法包括以下步骤:
步骤一、对语料集S中的所有句子进行分词、词性标注后得到语料集合T,设置语料集合T的主题个数为n,某个主题用Zt表示,其中t为1到n之间的自然数,通过LDA模型求出文档-主题分布P(Zt|d)和主题-词分布P(w|Zt);计算随机跳转概率P(Zt|w),计算公式如下:
P ( z t | w ) = P ( w , z t ) P ( w ) = P ( w | z t ) × Σ i = 1 m P ( z t | d i ) P ( d i ) Σ t = 1 n P ( w , z t )
其中,m表示语料集合T中的文档个数,w表示一个词,di表示语料集合T的第i篇文章,i∈{1,2,3......,m},P(di)表示文章di在语料集合T中的出现概率;
步骤二、对语料集合T中的每一篇文章按词性选择名词和形容词作为候选关键词,并以这些词为节点,分别在每一个主题下构建图模型:图G=(V,E),节点集合V={v1,v2,v3......vk},连接从节点vi到节点vj的边得到边集(vi,vi)∈E,其中k表示候选关键词的个数,i,j∈{1,2,3......,k},i≠j;
确定两个节点之间是否存在边以及边的方向的方法如下:
在原文中设置一个大小为window的滑动窗口,分别按照顺序从第一个词性为名词或形容词的词语指向窗口内与第一个词不同的其他词性为名词或形容词的词语,由此得到边集E,依次遍历集合E中的每条边,按以下方法对每条边设置权重:
权重设置主要考虑四个因素:位置重要性的影响力、覆盖重要性的影响力、频度重要性的影响力和共现重要性的影响力;对于任意两个结点vi和vj,结点vi对vj的影响力通过其有向边e=<vi,vj>传递,边的权重wij决定了vj最终所获得vi部分的分值大小,令wij表示结点vi和vi的整体影响力权重,α,β,γ,δ分别表示这四类不同的影响力所占的比重,且α+β+γ+δ=1,则两节点之间的权值wii可以根据下式计算:
wij=αwpos(vi,vj)+βwcov(vi,vj)+γwfreq(vi,vj)+δwco-occur(vi,vj)
a)wpos(vi,vj)表示节点vi的位置影响力传递到vj的权重,计算公式如下:
w pos ( v i , v j ) = P ( v j ) Σ v t ∈ Out ( v i ) P ( v t )
其中,Out(vi)表示以vi为起点所指向的节点的集合,P(vj)表示节点vj的位置重要性得分,具体赋值方式如下:
其中,λ是一个比1大的数字,值为1.5;
b)wcov(vi,vj)表示节点vi的覆盖影响力传递到vj的权重,计算公式如下:
w cov ( v i , v j ) = 1 | Out ( v i ) |
其中,|Out(vi)|表示节点vi的出度;
c)wfreq(vi,vj)表示节点vi的频度影响力传递到vj的权重,计算公式如下:
w freq ( v i , v j ) = f ( v j ) Σ v t ∈ Out ( v i ) f ( v t )
其中,Out(vi)表示以vi为起点所指向的节点的集合,f(vj)表示节点vj所代表的词语在文章中出现的次数;
d)wco-occur(vi,vj)表示节点vi的共现影响力传递到vj的权重,计算公式如下:
w co - occur ( v i , v j ) = Co ( v i , v j ) Σ v t ∈ Out ( v i ) Co ( v i , v t )
其中,Co(vi,vj)表示节点vi,vj所代表的词语在一定窗口内共现的次数;
步骤三、图模型建立完毕之后,利用textrank的思想对各节点进行打分排序,用以下公式迭代计算每一个节点在特定主题下的得分:
R z t ( v i ) = λ Σ j : v j → v i w ( v j , v i ) | Out ( v j ) | R z t ( v j ) + ( 1 - λ ) P ( z t | v i )
其中,w(vj,vi)即为步骤二中求得的节点vj,vi之间的权值wji;P(zt|vi)即为步骤一中求得的P(zt|w);λ为阻尼因子,值为0.75;j:vj→vi表示节点vj在以节点vi为终点的节点集合内遍历;按以上公式迭代前设置所有节点得分初值为1;当连续两次迭代,所有节点得分误差都在0.0001范围之内时,迭代终止,将此时的得分作为每一个节点在特定主题下的得分。
步骤四、求得每一个节点在特定主题下的得分之后,按照下述公式计算每一个节点在一篇文章下的最终得分R(vi):
R ( v i ) = Σ t = 1 n R z t ( v i ) × P ( z t | d )
选取最终得分排名靠前的节点,将节点所代表的候选关键词与此节点的最终得分一块加入关键词词典KL,依此方法生成对应于语料集合T中所有文章的最终的关键词词典KL。
4.根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法,其特征在于,所述SVM分类器的训练特征包括情感词特征、关键词特征、依存模板特征和位置特征四种,所述特征向量由这四种特征构成的特征向量分量相连接得到,将特征向量与对应句子的类别置入SVM分类器完成SVM分类器的训练;情感词特征、关键词特征、依存模板特征和位置特征对应的特征向量分量的生成方法如下:
首先对训练用语料集进行分词、词性标注得到语料集合T,对T中的每一个句子按以下方法提取各特征向量的分量:
情感词特征的特征向量维度为9,第一维分量表示每个句子中出现在DEL中情感词的个数,后八维分量分别表示这些情感词在语料集合T中出现的概率;如果句子中出现在DEL中情感词的个数不足8个,不足的部分其对应的分量概率设置为0;如果句子中出现在DEL中情感词的个数多于8个,按概率由大到小的顺序取前8个;
关键词特征的特征向量维度为9,第一维分量表示每个句子中出现在KL中关键词的个数,后八维分量分别表示这些关键词在KL中对应的得分;如果句子中出现在KL中关键词的个数不足8个,不足的部分其对应的分量概率设置为0;如果句子中出现在KL中关键词的个数多于8个,按得分由大到小的顺序取前8个;
依存模板特征的特征向量维度为9,第一维分量表示从每个句子中提取的依存模板出现在DB中的个数,后八维分量分别表示这些依存模板在DB中对应的出现概率;如果从每个句子中提取的依存模板出现在DB中的个数不足8个,不足的部分其对应的分量的出现概率设置为0;如果从每个句子中提取的依存模板出现在DB中的个数多于8个,按出现概率由大到小顺序取前8个;
位置特征的特征向量维度为1,其值按下式计算:
scoresen(pos(sen))=a×pos(sen)2+b×pos(sen)+c
其中,n表示句子所在文章中的句子总数,a>0,b<0,pos(sen)表示句子在文章中的位置,sen表示句子序号。
5.根据权利要求4所述的一种基于词汇语义和句法依存的中文情感关键
句识别方法,其特征在于,b=-1。
6.根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法,其特征在于,依存知识库的构建方法包括以下步骤:
步骤一、使用哈工大LTP的依存句法分析模块分析语料集S中的所有句子得到依存分析结果D;
步骤二、对依存分析结果D进行分析,找到句子的中心词,将之与在DEL或hownet提供的情感分析用词语集中的主张词中出现的词一起作为中心特征词(CoreWord),以这些词为起点,对附属或依存于该词的词汇进行关系提取,并统计它们相互之间的关系,根据统计数据提取出符合要求的依存关系模板,形成最终的依存知识库DB;具体的依存关系模板提取算法如下:
输入:语料集S经过分词及词性分析得到的语料集合T,依存分析结果D;
输出:依存知识库DB;
处理流程:
Step 1:遍历语料集合T中每条情感关键句中的所有词语,如果该词语在上文构建的DEL或hownet提供的情感分析用词语集中的主张词中出现,或者依存分析结果中relate=“HED”,则把它作为CoreWord;
Step 2:将与CoreWord有依存关系,parent等于CoreWord的id的词语存入依存词的集合dpWords;
Step 3:遍历dpWords中的每个词与CoreWord的关系,如果其依存关系为COO,则将它作为CoreWord重复Step2;如果其依存关系为WP,则将其从dpWords中删除;
Step 4:将情感关键句中的所有包括CoreWord、dpWords以及dpWords中的每一个词与其父节点CoreWord相互之间的依存关系存入情感关键句的模板集合中,并且不改变其出现顺序;
Step 5:从Step4中得出的模板集合中的模板按“一个前面的词与中心词的关系+中心词+一个后面的词与中心词的关系”、“一个前面的词与中心词的关系+中心词”、“中心词+一个后面的词与中心词的关系”三种方式作为候选模板进行提取,对于同一个中心词取最长模板,并统计其在情感关键句、非情感关键句中出现的概率;
Step 6:将由Step 5得到的候选模板集合中在情感关键句中出现的概率大于在非情感关键句中出现概率的模板提取出来,与它在情感关键句中的出现概率一起加入依存关系知识库DB中,直至处理完语料集合T的所有语句。
CN201410425148.XA 2014-08-27 2014-08-27 一种基于词汇语义和句法依存的情感关键句识别方法 Active CN104281645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410425148.XA CN104281645B (zh) 2014-08-27 2014-08-27 一种基于词汇语义和句法依存的情感关键句识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410425148.XA CN104281645B (zh) 2014-08-27 2014-08-27 一种基于词汇语义和句法依存的情感关键句识别方法

Publications (2)

Publication Number Publication Date
CN104281645A true CN104281645A (zh) 2015-01-14
CN104281645B CN104281645B (zh) 2017-06-16

Family

ID=52256518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410425148.XA Active CN104281645B (zh) 2014-08-27 2014-08-27 一种基于词汇语义和句法依存的情感关键句识别方法

Country Status (1)

Country Link
CN (1) CN104281645B (zh)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN105205699A (zh) * 2015-09-17 2015-12-30 北京众荟信息技术有限公司 基于酒店点评的用户标签和酒店标签匹配方法及装置
CN105320960A (zh) * 2015-10-14 2016-02-10 北京航空航天大学 一种基于投票的跨语言主客观情感分类方法
CN105574092A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN106096664A (zh) * 2016-06-23 2016-11-09 广州云数信息科技有限公司 一种基于社交网络数据的情感分析方法
CN106547736A (zh) * 2016-10-31 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN106557460A (zh) * 2015-09-29 2017-04-05 株式会社东芝 从单文档中提取关键词的装置及方法
CN106649253A (zh) * 2015-11-02 2017-05-10 涂悦 基于后验证的辅助控制方法及系统
CN106776678A (zh) * 2016-11-02 2017-05-31 四川用联信息技术有限公司 新的关键词优化实现搜索引擎优化技术
CN107133212A (zh) * 2017-05-05 2017-09-05 北京大学 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN107402913A (zh) * 2016-05-20 2017-11-28 腾讯科技(深圳)有限公司 先行词的确定方法和装置
CN107480142A (zh) * 2017-09-01 2017-12-15 闽江学院 一种基于依存关系抽取评价对象的方法
CN107491556A (zh) * 2017-09-04 2017-12-19 湖北地信科技集团股份有限公司 时空全要素语义查询服务系统及其方法
CN107544955A (zh) * 2016-06-24 2018-01-05 汇仕电子商务(上海)有限公司 自然语言句法分析方法及系统
CN107657056A (zh) * 2017-10-18 2018-02-02 北京百度网讯科技有限公司 基于人工智能展示评论信息的方法和装置
CN107729374A (zh) * 2017-09-13 2018-02-23 厦门快商通科技股份有限公司 一种情感词典的扩充方法及文本情感识别方法
CN107783957A (zh) * 2016-08-30 2018-03-09 中国电信股份有限公司 本体创建方法和装置
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN108009182A (zh) * 2016-10-28 2018-05-08 京东方科技集团股份有限公司 一种信息提取方法和装置
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN108133014A (zh) * 2017-12-22 2018-06-08 广州数说故事信息科技有限公司 基于句法分析和聚类的三元组生成方法、装置及用户终端
CN108228808A (zh) * 2017-12-29 2018-06-29 东软集团股份有限公司 确定热点事件的方法、装置和存储介质以及电子设备
CN108255803A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 文档情感的判断方法和装置
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN108320733A (zh) * 2017-12-18 2018-07-24 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108549636A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种赛事文字直播关键句抽取方法
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法
CN109213999A (zh) * 2018-08-20 2019-01-15 成都佳发安泰教育科技股份有限公司 一种主观题评分方法
CN109254993A (zh) * 2017-07-07 2019-01-22 北京掌沃云视媒文化传媒有限公司 一种基于文本的性格数据分析方法及系统
CN109284499A (zh) * 2018-08-01 2019-01-29 数据地平线(广州)科技有限公司 一种行业文本情感获取方法、装置及存储介质
CN109344403A (zh) * 2018-09-20 2019-02-15 中南大学 一种增强语义特征嵌入的文本表示方法
CN109344238A (zh) * 2018-09-18 2019-02-15 阿里巴巴集团控股有限公司 用户问句的补词方法和装置
CN109543089A (zh) * 2018-11-30 2019-03-29 南方电网科学研究院有限责任公司 一种网络安全情报数据的分类方法、系统及相关装置
CN109558583A (zh) * 2017-09-27 2019-04-02 株式会社理光 一种自动生成文摘的方法、装置及设备
CN109800219A (zh) * 2019-01-18 2019-05-24 广东小天才科技有限公司 一种语料清洗的方法和装置
CN109857854A (zh) * 2019-01-02 2019-06-07 新浪网技术(中国)有限公司 一种用户商业标签挖掘方法及装置、服务器
CN109918657A (zh) * 2019-02-28 2019-06-21 云孚科技(北京)有限公司 一种从文本中提取目标关键词的方法
CN110134781A (zh) * 2019-04-09 2019-08-16 国金涌富资产管理有限公司 一种金融文本摘要自动抽取方法
CN110134792A (zh) * 2019-05-22 2019-08-16 北京金山数字娱乐科技有限公司 文本识别方法、装置、电子设备以及存储介质
CN110263170A (zh) * 2019-06-21 2019-09-20 中科软科技股份有限公司 一种文本类别的自动标注方法及系统
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN110874531A (zh) * 2020-01-20 2020-03-10 湖南蚁坊软件股份有限公司 一种话题分析方法、装置和存储介质
CN111259661A (zh) * 2020-02-11 2020-06-09 安徽理工大学 一种基于商品评论的新情感词提取方法
CN111274358A (zh) * 2020-01-20 2020-06-12 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及存储介质
CN111552706A (zh) * 2020-04-27 2020-08-18 支付宝(杭州)信息技术有限公司 一种舆情信息的分组方法、装置及设备
CN111914533A (zh) * 2019-05-07 2020-11-10 广东小天才科技有限公司 一种解析英语长句的方法及系统
CN111914556A (zh) * 2020-06-19 2020-11-10 合肥工业大学 基于情感语义转移图谱的情感引导方法及系统
CN112016010A (zh) * 2020-05-27 2020-12-01 中汽数据有限公司 一种自动驾驶测试场景描述的自然语言语义库构建方法
CN112528672A (zh) * 2020-12-14 2021-03-19 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置
CN112699664A (zh) * 2021-01-08 2021-04-23 中国专利信息中心 一种中文句法分析方法和系统
CN113205813A (zh) * 2021-04-01 2021-08-03 北京华宇信息技术有限公司 语音识别文本的纠错方法
CN113609296A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于舆情数据识别的数据处理方法和装置
CN114239591A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 敏感词识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
US20120271788A1 (en) * 2011-04-21 2012-10-25 Palo Alto Research Center Incorporated Incorporating lexicon knowledge into svm learning to improve sentiment classification
CN103440235A (zh) * 2013-08-20 2013-12-11 中国科学院自动化研究所 一种基于认知结构模型的文本情感类型识别方法及装置
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120271788A1 (en) * 2011-04-21 2012-10-25 Palo Alto Research Center Incorporated Incorporating lexicon knowledge into svm learning to improve sentiment classification
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
CN103440235A (zh) * 2013-08-20 2013-12-11 中国科学院自动化研究所 一种基于认知结构模型的文本情感类型识别方法及装置
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林政 等: "基于情感关键句抽取的情感分类研究", 《计算机研究与发展》 *
郭叶: "中文句子情感倾向分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794212B (zh) * 2015-04-27 2018-04-10 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN105205699A (zh) * 2015-09-17 2015-12-30 北京众荟信息技术有限公司 基于酒店点评的用户标签和酒店标签匹配方法及装置
CN106557460A (zh) * 2015-09-29 2017-04-05 株式会社东芝 从单文档中提取关键词的装置及方法
CN105320960A (zh) * 2015-10-14 2016-02-10 北京航空航天大学 一种基于投票的跨语言主客观情感分类方法
CN105320960B (zh) * 2015-10-14 2022-04-05 北京航空航天大学 一种基于投票的跨语言主客观情感分类方法
CN106649253A (zh) * 2015-11-02 2017-05-10 涂悦 基于后验证的辅助控制方法及系统
CN106649253B (zh) * 2015-11-02 2019-03-22 涂悦 基于后验证的辅助控制方法及系统
CN105574092A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
CN105574092B (zh) * 2015-12-10 2019-08-23 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
CN105760439B (zh) * 2016-02-02 2018-12-07 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN107402913B (zh) * 2016-05-20 2020-10-09 腾讯科技(深圳)有限公司 先行词的确定方法和装置
CN107402913A (zh) * 2016-05-20 2017-11-28 腾讯科技(深圳)有限公司 先行词的确定方法和装置
CN106096664A (zh) * 2016-06-23 2016-11-09 广州云数信息科技有限公司 一种基于社交网络数据的情感分析方法
CN106096664B (zh) * 2016-06-23 2019-09-20 广州云数信息科技有限公司 一种基于社交网络数据的情感分析方法
CN107544955A (zh) * 2016-06-24 2018-01-05 汇仕电子商务(上海)有限公司 自然语言句法分析方法及系统
CN107783957B (zh) * 2016-08-30 2021-05-18 中国电信股份有限公司 本体创建方法和装置
CN107783957A (zh) * 2016-08-30 2018-03-09 中国电信股份有限公司 本体创建方法和装置
CN108009182B (zh) * 2016-10-28 2020-03-10 京东方科技集团股份有限公司 一种信息提取方法和装置
US10657330B2 (en) 2016-10-28 2020-05-19 Boe Technology Group Co., Ltd. Information extraction method and apparatus
CN108009182A (zh) * 2016-10-28 2018-05-08 京东方科技集团股份有限公司 一种信息提取方法和装置
CN106547736A (zh) * 2016-10-31 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN106547736B (zh) * 2016-10-31 2020-01-10 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN106776678A (zh) * 2016-11-02 2017-05-31 四川用联信息技术有限公司 新的关键词优化实现搜索引擎优化技术
CN108255803B (zh) * 2016-12-29 2022-03-01 北京国双科技有限公司 文档情感的判断方法和装置
CN108255803A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 文档情感的判断方法和装置
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN108319627B (zh) * 2017-02-06 2024-05-28 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN107133212A (zh) * 2017-05-05 2017-09-05 北京大学 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN107133212B (zh) * 2017-05-05 2020-06-26 北京大学 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN109254993A (zh) * 2017-07-07 2019-01-22 北京掌沃云视媒文化传媒有限公司 一种基于文本的性格数据分析方法及系统
CN109254993B (zh) * 2017-07-07 2021-06-01 掌沃云科技(北京)有限公司 一种基于文本的性格数据分析方法及系统
CN107480142B (zh) * 2017-09-01 2021-04-27 闽江学院 一种基于依存关系抽取评价对象的方法
CN107480142A (zh) * 2017-09-01 2017-12-15 闽江学院 一种基于依存关系抽取评价对象的方法
CN107491556A (zh) * 2017-09-04 2017-12-19 湖北地信科技集团股份有限公司 时空全要素语义查询服务系统及其方法
CN107729374A (zh) * 2017-09-13 2018-02-23 厦门快商通科技股份有限公司 一种情感词典的扩充方法及文本情感识别方法
CN109558583A (zh) * 2017-09-27 2019-04-02 株式会社理光 一种自动生成文摘的方法、装置及设备
CN107657056A (zh) * 2017-10-18 2018-02-02 北京百度网讯科技有限公司 基于人工智能展示评论信息的方法和装置
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN108320733A (zh) * 2017-12-18 2018-07-24 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108133014A (zh) * 2017-12-22 2018-06-08 广州数说故事信息科技有限公司 基于句法分析和聚类的三元组生成方法、装置及用户终端
CN108228808B (zh) * 2017-12-29 2020-07-31 东软集团股份有限公司 确定热点事件的方法、装置和存储介质以及电子设备
CN108228808A (zh) * 2017-12-29 2018-06-29 东软集团股份有限公司 确定热点事件的方法、装置和存储介质以及电子设备
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN108549636A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种赛事文字直播关键句抽取方法
CN108920456B (zh) * 2018-06-13 2022-08-30 北京信息科技大学 一种关键词自动抽取方法
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法
CN109284499A (zh) * 2018-08-01 2019-01-29 数据地平线(广州)科技有限公司 一种行业文本情感获取方法、装置及存储介质
CN109213999B (zh) * 2018-08-20 2023-05-05 成都佳发安泰教育科技股份有限公司 一种主观题评分方法
CN109213999A (zh) * 2018-08-20 2019-01-15 成都佳发安泰教育科技股份有限公司 一种主观题评分方法
CN109344238A (zh) * 2018-09-18 2019-02-15 阿里巴巴集团控股有限公司 用户问句的补词方法和装置
CN109344403A (zh) * 2018-09-20 2019-02-15 中南大学 一种增强语义特征嵌入的文本表示方法
CN109344403B (zh) * 2018-09-20 2020-11-06 中南大学 一种增强语义特征嵌入的文本表示方法
CN109543089A (zh) * 2018-11-30 2019-03-29 南方电网科学研究院有限责任公司 一种网络安全情报数据的分类方法、系统及相关装置
CN109857854A (zh) * 2019-01-02 2019-06-07 新浪网技术(中国)有限公司 一种用户商业标签挖掘方法及装置、服务器
CN109800219A (zh) * 2019-01-18 2019-05-24 广东小天才科技有限公司 一种语料清洗的方法和装置
CN109918657A (zh) * 2019-02-28 2019-06-21 云孚科技(北京)有限公司 一种从文本中提取目标关键词的方法
CN110134781A (zh) * 2019-04-09 2019-08-16 国金涌富资产管理有限公司 一种金融文本摘要自动抽取方法
CN111914533A (zh) * 2019-05-07 2020-11-10 广东小天才科技有限公司 一种解析英语长句的方法及系统
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN110298028B (zh) * 2019-05-21 2023-08-18 杭州未名信科科技有限公司 一种文本段落的关键句提取方法和装置
CN110134792B (zh) * 2019-05-22 2022-03-08 北京金山数字娱乐科技有限公司 文本识别方法、装置、电子设备以及存储介质
CN110134792A (zh) * 2019-05-22 2019-08-16 北京金山数字娱乐科技有限公司 文本识别方法、装置、电子设备以及存储介质
CN110263170A (zh) * 2019-06-21 2019-09-20 中科软科技股份有限公司 一种文本类别的自动标注方法及系统
CN111274358A (zh) * 2020-01-20 2020-06-12 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及存储介质
CN110874531A (zh) * 2020-01-20 2020-03-10 湖南蚁坊软件股份有限公司 一种话题分析方法、装置和存储介质
CN111259661A (zh) * 2020-02-11 2020-06-09 安徽理工大学 一种基于商品评论的新情感词提取方法
CN111259661B (zh) * 2020-02-11 2023-07-25 安徽理工大学 一种基于商品评论的新情感词提取方法
CN111552706A (zh) * 2020-04-27 2020-08-18 支付宝(杭州)信息技术有限公司 一种舆情信息的分组方法、装置及设备
CN111552706B (zh) * 2020-04-27 2023-05-12 支付宝(杭州)信息技术有限公司 一种舆情信息的分组方法、装置及设备
CN112016010A (zh) * 2020-05-27 2020-12-01 中汽数据有限公司 一种自动驾驶测试场景描述的自然语言语义库构建方法
CN111914556B (zh) * 2020-06-19 2023-10-31 合肥工业大学 基于情感语义转移图谱的情感引导方法及系统
CN111914556A (zh) * 2020-06-19 2020-11-10 合肥工业大学 基于情感语义转移图谱的情感引导方法及系统
CN112528672B (zh) * 2020-12-14 2021-07-30 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置
CN112528672A (zh) * 2020-12-14 2021-03-19 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置
CN112699664A (zh) * 2021-01-08 2021-04-23 中国专利信息中心 一种中文句法分析方法和系统
CN113205813A (zh) * 2021-04-01 2021-08-03 北京华宇信息技术有限公司 语音识别文本的纠错方法
CN113609296B (zh) * 2021-08-23 2022-09-06 南京擎盾信息科技有限公司 用于舆情数据识别的数据处理方法和装置
CN113609296A (zh) * 2021-08-23 2021-11-05 南京擎盾信息科技有限公司 用于舆情数据识别的数据处理方法和装置
CN114239591A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 敏感词识别方法及装置
CN114239591B (zh) * 2021-12-01 2023-08-18 马上消费金融股份有限公司 敏感词识别方法及装置

Also Published As

Publication number Publication date
CN104281645B (zh) 2017-06-16

Similar Documents

Publication Publication Date Title
CN104281645A (zh) 一种基于词汇语义和句法依存的情感关键句识别方法
Mahata et al. Key2vec: Automatic ranked keyphrase extraction from scientific articles using phrase embeddings
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN104331451B (zh) 一种基于主题的网络用户评论的推荐度评分方法
Moschitti Kernel methods, syntax and semantics for relational text categorization
Tungthamthiti et al. Recognition of sarcasms in tweets based on concept level sentiment analysis and supervised learning approaches
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN110222172B (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN104021115A (zh) 基于神经网络的中文比较句识别方法及装置
CN109062895B (zh) 一种智能语义处理方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
Zotova et al. Multilingual stance detection in tweets: The Catalonia independence corpus
CN107315734A (zh) 一种基于时间窗口和语义的变体词规范化的方法和系统
Massung et al. Structural parse tree features for text representation
CN109614626A (zh) 基于万有引力模型的关键词自动抽取方法
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
CN114462392A (zh) 一种基于主题关联度与关键词联想的短文本特征扩展方法
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
KR101265467B1 (ko) 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
CN110413989B (zh) 一种基于领域语义关系图的文本领域确定方法与系统
Xue et al. Semantic emotion-topic model in social media environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant