CN109284499A

CN109284499A - 一种行业文本情感获取方法、装置及存储介质

Info

Publication number: CN109284499A
Application number: CN201810864029.2A
Authority: CN
Inventors: 刘焕勇; 李�瑞; 梁吉光
Original assignee: Data Horizon (guangzhou) Technology Co Ltd
Current assignee: Data Horizon (guangzhou) Technology Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2019-01-29

Abstract

本发明公开一种行业文本情感获取方法、装置及存储介质，涉及自然语言处理大数据分析技术领域，本发明结合目标领域情感知识库对分句进行情感句识别，形成情感句集合；根据构建的情感依存关系树依存关系，确定各类情感依存关系得分的获取方法；将长句切分为子句，根据各类情感依存关系得分的获取方法，分级递推获得子句情感得分、长句情感得分、段落情感得分，最终获得目标文本的情感得分；经过实际应用检验，本发明提出的行业文本情感计算方法能够较好地对行业文本情绪进行反映，在长文本篇章级情绪的计算上，准确率达到85％；针对不同领域的文本，本发明能够快速地通过领域情感词库构建，实现不同行业的情感计算快速自适应。

Description

一种行业文本情感获取方法、装置及存储介质

技术领域

本发明涉及自然语言处理大数据分析技术领域，尤其涉及一种行业文本情感获取方法、装置及存储介质。

背景技术

随着我国各行各业的发展，互联网上出现了越来越多的行业资讯，而行业发展的欣荣与否，体现在具体的行业资讯当中。一篇行业资讯包含特定的情绪，选择合适的情感分析方法，可以得到行业资讯的情绪数据，进一步量化行业资讯情绪，捕捉行业情绪走势，可为行情监测，行业指标预测等工作提供帮助。

目前就情感分析而言，主要包括两种方式，基于无监督的规则方式，基于有监督的学习方式。前者通过构建情感词表，制定情感计算规则获得情绪数据。目前基于依存关系的情感计算相关专利包括申请号为2017107837114的《一种基于依存关系抽取评价对象的方法》，基于直接和间接的依存关系模板，抽取观点评价对象；申请号为2016105375671的《一种基于依存关系模板抽取观点评价对象的Bootstrapping方法》，通过构造观点评价对象词与情感词之间的依存关系模板，完成观点评价对象抽取。申请号为2012103171830的《基于词语依存关系的观点抽取方法》，通过评价对象和情感特征之间的词语依存关系判断观点极性。这些技术方法都没有解决长文本行业情感计算的问题。

基于学习的有监督情感分析方法，如传统的机器学习方法，如SVM，Bayes，决策树等；深度学习方法，包括CNN，LSTM等，通过构建训练模型，训练得到情感分类器，最终得到情绪分类结果。而就这类技术而言，为了得到充分、可靠的模型，后者需要足够多的标注数据，这通常需要很大的人力。其次，领域性是情感分析中的一个主要问题，基于一个领域训练得到的情绪模型通常不具备领域迁移性，在某一行业中表现良好的情感模型，在其他行业中可能不奏效。目前这类技术方法主要集中在如评论、微博等短文本上，在长文本上，还缺少相关的应用。

因此，总结的来说，目前面向长文本的情感计算方法存在以下不足：

1、目前的情感分析任务大多处理的是短文本，如微博、酒店评论等的情感，对长文本的篇章级情感很少有涉及。

2、目前通用领域的情感知识库无法支持多领域多行业文本的情感计算需求，即情感词的跨领域适用性较差。例如现在网上公开的大连理工情感词典等，包含的大多数都是修饰人的情感词，这个在行业情绪上并不奏效。

3、目前简单的基于情感词计数的方法无法正确反映文本的真实情感，需要进一步考虑和引用词语之间结构信息和依存信息

发明内容

本发明针对复杂压铸件的打磨问题提供一种行业文本情感获取方法、装置及存储介质，实现长文本篇章情感的准确判断，提高适应性和效率。

为了实现上述目的，本发明提出一种行业文本情感获取方法，包括如下步骤：

S10、根据互联网数据构建目标领域情感知识库；

S20、对目标文本进行预处理、分段和长句切分；

S30、结合目标领域情感知识库对分句进行情感句识别，形成情感句集合；

S40、对各情感句集合进行分词、词性标注和依存句法分析，构建情感依存关系树；

S50、根据所构建的情感依存关系树依存关系，确定各类情感依存关系得分的获取方法；

S60、将长句切分为子句，根据各类情感依存关系得分的获取方法，分级递推获得子句情感得分、长句情感得分、段落情感得分，最终获得目标文本的情感得分；

S70、对目标文本的情感得分进行归一化处理，输出情感得分。

优选地，步骤S10所述的根据互联网数据构建目标领域情感知识库，具体包括如下步骤：

S101、从开源语言资源网站中收集公开的情感知识词典，构建基本的情感知识库；

S102、通过采集目标领域行业语料，人工标注种子情感词，扩充基本的情感知识库，获得目标领域情感知识库。

优选地，步骤S50所述的根据所构建的情感依存关系树依存关系，确定各类情感依存关系得分的获取方法；具体包括：主谓关系类情感依存关系的情感得分获取方法、动宾关系类情感依存关系的情感得分获取方法、定中关系类情感依存关系的情感得分获取方法、状中关系类情感依存关系的情感得分获取方法、动补关系类情感依存关系的情感得分获取方法和并列关系类情感依存关系的情感得分获取方法。

优选地，所述的主谓关系类情感依存关系的情感得分获取方法，具体包括：

若被支配词与支配词的词性为名词与动词或名词与形容词，且被支配词不是特异词，则主谓关系类情感依存关系的情感得分公式如下：

S(SBV)＝S(BW)*P(BW)+S(ZW)*P(BW)*0.5 (1)

其中，S(SBV)表示主谓关系类情感依存关系的情感得分，SBV表示主谓关系；S(BW)表示被支配词的情感强度，BW表示被支配词；P(BW)表示被支配词的词性，S(ZW)表示支配词的情感强度；ZW表示支配词；

若被支配词与支配词的词性为名词与动词或名词与形容词，且被支配词是特异词，则主谓关系类情感依存关系的情感得分公式如下：

S(SBV)＝(S(BW)*P(BW)+S(ZW)*P(BW)*0.5)*(-1) (2)。

优选地，所述的动宾关系类情感依存关系的情感得分获取方法，具体包括：

若被支配词与支配词的词性为名词与动词或者形容词与动词，且支配词不在反转词词典中，则动宾关系类情感依存关系的情感得分公式如下：

S(VOB)＝S(BW)*P(BW)*0.5+S(ZW)*P(ZW) (3)

其中，S(VOB)表示动宾关系类情感依存关系的情感得分，VOB表示动宾关系；S(BW)表示被支配词的情感强度，BW表示被支配词；P(BW)表示被支配词的词性，S(ZW)表示支配词的情感强度；ZW表示支配词；P(ZW)表示支配词的词性；

若被支配词与支配词的词性为名词与动词或者形容词与动词，且支配词在反转词词典中，则动宾关系类情感依存关系的情感得分公式如下：

S(VOB)＝S(BW)*P(BW)*(-1) (4)。

优选地，所述的定中关系类情感依存关系的情感得分获取方法，具体包括：

若被支配词与支配词的词性为代词与名词、或量词与名词、或数词与名词，则定中关系类情感依存关系的情感得分公式如下：

S(ATT)＝S(ZW)*P(ZW) (5)

其中，S(ATT)表示定中关系类情感依存关系的情感得分，ATT表示定中关系；S(ZW)表示支配词的情感强度；ZW表示支配词；P(ZW)表示支配词的词性；

若被支配词与支配词的词性为名词与名词，则定中关系类情感依存关系的情感得分公式如下：

S(ATT)＝S(BW)*P(BW)+S(ZW)*P(ZW) (6)

其中，S(BW)表示被支配词的情感强度，BW表示被支配词；P(BW)表示被支配词的词性；

若被支配词与支配词的词性为动词与名词或者形容词与名词，则定中关系类情感依存关系的情感得分公式如下：

S(ATT)＝S(BW)*P(BW)*P(ZW) (7)。

优选地，所述的状中关系类情感依存关系的情感得分获取方法，具体包括：

若被支配词与支配词的词性为副词与动词或副词与形容词，且支配词为程度副词，则状中关系类情感依存关系的情感得分公式如下：

S(ADV)＝D(BW)*S(ZW)*P(ZW) (8)

其中，S(ADV)表示状中关系类情感依存关系的情感得分，ADV表示状中关系；D(BW)表示被支配词程度副词的强度，BW表示被支配词；S(ZW)表示支配词的情感强度；ZW表示支配词；P(ZW)表示支配词的词性；

若被支配词与支配词的词性为副词与动词或副词与形容词，且支配词为否定词，则状中关系类情感依存关系的情感得分公式如下：

S(ADV)＝-S(ZW)*P(ZW) (9)

若被支配词与支配词的词性为机构名词与动词或介词与动词，则状中关系类情感依存关系的情感得分公式如下：

S(ADV)＝S(ZW)*P(ZW) (10)

若被支配词与支配词的词性为形容词与动词，则状中关系类情感依存关系的情感得分公式如下：

S(ADV)＝S(BW)*P(BW)*0.5+S(ZW)*P(ZW) (11)

若支配词与被支配词的词性均为动词，则状中关系类情感依存关系的情感得分公式如下：

S(ADV)＝S(BW)*P(BW)+S(ZW)*P(ZW) (12)。

优选地，所述的动补关系类情感依存关系的情感得分获取方法，具体公式包括：

S(CMP)＝S(BW)*P(BW)+S(ZW)*P(ZW) (13)

其中，S(CMP)表示动补关系类情感依存关系的情感得分，CMP表示动补关系，S(BW)表示被支配词的情感强度，BW表示被支配词；P(BW)表示被支配词的词性；S(ZW)表示支配词的情感强度；ZW表示支配词；P(ZW)表示支配词的词性。

优选地，所述的并列关系类情感依存关系的情感得分获取方法，具体公式包括：

S(COO)＝S(BW)*P(BW)+S(ZW)*P(ZW) (14)

其中，S(COO)表示并列关系类情感依存关系的情感得分，COO表示并列关系，S(BW)表示被支配词的情感强度，BW表示被支配词；P(BW)表示被支配词的词性；S(ZW)表示支配词的情感强度；ZW表示支配词；P(ZW)表示支配词的词性。

优选地，步骤S60所述的将长句切分为子句，根据各类情感依存关系得分的获取方法，分级递推获得子句情感得分、长句情感得分、段落情感得分，最终获得目标文本的情感得分；具体包括如下步骤：

S601、根据各类情感依存关系的情绪得分，获得对应子句级别的情感得分；

S602、根据子句级别的情感得分结合子句间关联关系，获得长句级别的情感得分；

S603、根据长句级别的情感得分结合长句间关联关系，获得段落级别的情感得分；

S604、根据段落级别的情感得分结合段落在目标文本的位置关系，获得目标文本的情感得分。

优选地，步骤S602所述的根据子句级别的情感得分结合子句间关联关系，获得长句级别的情感得分，具体包括：

若长句的两个子句为并列关系或转折关系，则长句级别的情感得分公式具体如下：

S(Sentence)＝S(S1)+S(S2) (15)

其中，S(Sentence)表示长句级别的情感得分，Sentence表示长句；S(S1)表示第一子句的情感得分，S1表示第一子句，S(S2)表示第二子句的情感得分，S2表示第二子句；

若长句的两个子句为递进关系，则长句级别的情感得分公式具体如下：

S(Sentence)＝S(S1)+2*S(S2) (16)。

优选地，步骤S603所述的根据长句级别的情感得分结合长句间关联关系，获得段落级别的情感得分，具体公式包括：

S(Paragraph)＝α1*S(S1)+α2*S(S2)+...+αn*S(Sn) (17)

其中，S(Paragraph)表示段落级别的情感得分，Paragraph表示段落，α1、α2......αn分别表示各长句情感得分的权重，S(S1)、S(S2)......S(Sn)分别表示各长句情感得分。

本发明还提出一种行业文本情感获取装置，包括：

处理器；

存储器，耦合至所述的处理器并存储有指令，所述的指令在由所述处理器执行实现所述的行业文本情感获取方法的步骤。

本发明提出一种计算机可读取存储介质，所述计算机可读取存储介质存储有行业文本情感获取方法的应用程序，所述应用程序实现如所述的行业文本情感获取方法的步骤。

本发明提出一种行业文本情感获取方法、装置及存储介质，具有以下优点：

1、经过实际应用检验，本发明提出的行业文本情感计算方法能够较好地对行业文本情绪进行反映，在长文本篇章级情绪的计算上，准确率达到85％。

2、目前现有的情感计算技术在长文本的情感计算上还相对欠缺，本发明在一定程度上较好地填补了这个空白。

3、针对不同领域的文本，本发明能够快速地通过领域情感词库构建，实现不同行业的情感计算快速自适应，在一定程度上解决了情感计算的领域迁移问题，效率较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一种实施例中行业文本情感获取方法结构框架图；

图2为本发明一种实施例中行业文本情感获取方法流程图；

图3为本发明一种实施例中构建目标领域情感知识库流程图；

图4为本发明一种实施例中情感词扩充技术架构图；

图5为本发明一种实施例中情感词扩充方法流程图；

图6为本发明一种实施例中情感依存关系树构建流程图；

图7为本发明一种实施例中分级递推获得目标文本的情感得分流程图；

图8为本发明一种实施例中行业文本情感获取装置结构示意图；

图9为本发明一种实施例中计算机可读取存储介质结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出本发明提出一种行业文本情感获取方法；

本发明一种优选实施例中，如图1和图2所示，包括如下步骤：

S10、根据互联网数据构建目标领域情感知识库；如图3所示，具体包括如下步骤：

现有的情感词库包括：Boson情感强度词典、大连理工大学情感本体词典、台湾大学情感词典、清华大学情感词典。本发明实施例中，在此基础上，进行规范性整理。

情感知识库指情感相关的各类词库，包括情感词、程度副词、否定词、反转词、特异词库；所述情感词指具有明显情感色彩的词，如“喜欢”、“厌恶”、“暴跌”等；所述程度副词指对情感强度进行修正的词，如“很”、“有点”、“非常”等，整理程度副词，并进行强度标注，程度副词指对情感强度进行修正的词，如＜很，1.5＞，＜有点，0.6＞；所述否定词词典指对情感极性造成反转作用的词，如“不”、“否”、“非”等；所述特异词指带有感情色彩的名词性短语，如“油耗”、“血压”等词；所述反转词词典指带有明显情感色彩的动词，如“严惩”、“打击”等词；

S102、通过采集金融领域行业语料，人工标注种子情感词，结合wordvector，so-pmi算法扩充基本的情感知识库，获得目标领域情感知识库；如“上涨”，扩展成“暴涨”、“微涨”等词，并给出相应极性信息；

本发明实施例中，采取领域语料驱动的方法进行扩充，如图4和图5所示，具体步骤如下：

S1021、针对目标行业领域收集行业领域的垂直性网站，编写资讯采集脚本，采用scrapy爬虫框架进行领域文本采集，构建行业文本语料库；

S1022、对步骤S1021形成的行业文本语料库，进行去停用词、分词，利用gensim组件word2vec词向量训练工具训练行业领域词向量；

S1023、人工构造领域情感词词表，基于步骤S1022得到的向量模型，通过计算模型中的词与种子情感词之间词向量相似度计算，将满足相似度阈值的词作为候选情感词集合C1；

S1024、对步骤S1021形成的行业文本语料库，进行去停用词、分词处理，利用SO-PMI算法计算语料库中词语的SO-PMI值，分别对POS，形成候选情感词集合C2，集合C2的标注信息包括情感词极性；

S1025、将情感词集合C1中的词，根据步骤S1021中计算得到的SO-PMI值，根据值的正负对集合C1中的词进行极性标注。

S1026、将步骤S1025得到的情感词集合C2和步骤S1024得到的情感词集合C1进行合并，最终形成领域情感词库。

S20、对目标文本进行进行空白字符等预处理、分段和长句切分；

本发明实施例中，段落的划分依据为换行符，将一个文本划分成多个段落集合，针对每个段落集合，对段落进行分句处理，分句的标志为句号、感叹号、句号；

本发明实施例中，如图6所示，依存关系树的构建遵循以下步骤：

S401、确定参与构建的情感依存关系；

本发明实施例中，包括：SBV(主谓关系)、VOB(动宾关系)、ATT(定中关系)、ADV(状中关系)、CMP(述补关系)和COO(并列关系)六种；

S402、定义标记；

本发明实施例中，DN(BWN，ZWM)表示初步得到的句子依存关系序列；SN(BWN，ZWN)表示依存序列；SW表示情感词；BW表示被支配词；ZW表示支配词；支配词与被支配词的确定以箭头方向确定，由支配词发出，指向被支配词，箭头为被支配词，箭尾为支配词。

S403、使用LTP的依存句法分析器，得到句子对应的依存关系序列：

本发明实施例中，DS＝{D1(BW1，ZW1)，D2(BW2，ZW2)，...，DN(BWN，ZWM)}；

S404、基于情感词库，对步骤S402的结果进行过滤，得出情感相关的依存序列：

本发明实施例中，SS＝{S1(BW1，ZW1)，S2(BW2，ZW2)，...，SN(BWN，ZWN)}；

S405、对步骤S403得到的情感相关依存关系进行排序：

本发明实施例中，ATT-＞ADV-＞COO-＞CMP-＞VOB-＞SBV，得到ST＝{S1(BW1，ZW1)，SN(BWN，ZWN)，...，S2(BW2，ZW2)}，并将该依存序列转换成依存关系树；

S50、根据所构建的情感依存关系树依存关系，确定各类情感依存关系得分的获取方法；具体包括：主谓关系类情感依存关系的情感得分、动宾关系类情感依存关系的情感得分、定中关系类情感依存关系的情感得分、状中关系类情感依存关系的情感得分、动补关系类情感依存关系的情感得分和并列关系类情感依存关系的情感得分；

(1)、所述的主谓关系类情感依存关系的情感得分，具体包括：

本发明实施例中，SBV是主谓关系，词性组合主要有：名词+动词、代词+动词、动词+动词、人名+动词、名词+形容词、位置性名词+动词等。该条SBV依存关系的情绪得分遵循一下两种情况：

1)若被支配词与支配词的词性为名词与动词或名词与形容词，且被支配词不是特异词，则主谓关系类情感依存关系的情感得分公式如下：

S(SBV)＝S(BW)*P(BW)+S(ZW)*P(BW)*0.5 (1)

2)若被支配词与支配词的词性为名词与动词或名词与形容词，且被支配词是特异词，由于特异词极性存在反转，因而对该依存得分进行极性倒置；

则主谓关系类情感依存关系的情感得分公式如下：

S(SBV)＝(S(BW)*P(BW)+S(ZW)*P(BW)*0.5)*(-1) (2)。

(2)、所述的动宾关系类情感依存关系的情感得分，具体包括：

本发明实施例中，VOB是动宾关系，词性组合主要有：名词+动词、动词+动词、形容词+动词、代词+动词、数词+动词、量词+动词等。该条VOB依存关系的绪得分遵循以下两种情况：

1)若被支配词与支配词的词性为名词与动词或者形容词与动词，且支配词不在反转词词典中，则动宾关系类情感依存关系的情感得分公式如下：

S(VOB)＝S(BW)*P(BW)*0.5+S(ZW)*P(ZW) (3)

2)若被支配词与支配词的词性为名词与动词或者形容词与动词，且支配词在反转词词典中，则动宾关系类情感依存关系的情感得分公式如下：

S(VOB)＝S(BW)*P(BW)*(-1) (4)。

(3)、所述的定中关系类情感依存关系的情感得分，具体包括：

本发明实施例中，ATT是定中关系，词性组合主要有：名词+名词、动词+名词、形容词+名词、代词+名词、数词+名词、量词+名词等。该条ATT依存对的情绪得分计算规则遵循以下几条：

1)若被支配词与支配词的词性为代词与名词、或量词与名词、或数词与名词，则定中关系类情感依存关系的情感得分公式如下：

S(ATT)＝S(ZW)*P(ZW) (5)

2)若被支配词与支配词的词性为名词与名词，则定中关系类情感依存关系的情感得分公式如下：

S(ATT)＝S(BW)*P(BW)+S(ZW)*P(ZW) (6)

3)若被支配词与支配词的词性为动词与名词或者形容词与名词，则定中关系类情感依存关系的情感得分公式如下：

S(ATT)＝S(BW)*P(BW)*P(ZW) (7)。

(4)、所述的状中关系类情感依存关系的情感得分，具体包括：

本发明实施例种，ADV状中关系，词性组合主要有副词+动词、动词+动词、时间名词+动词、介词+动词、形容词+动词、副词+形容词等。该条ADV依存对得分遵循以下规则：

1)若被支配词与支配词的词性为副词与动词或副词与形容词，且支配词为程度副词，则状中关系类情感依存关系的情感得分公式如下：

S(ADV)＝D(BW)*S(ZW)*P(ZW) (8)

2)若被支配词与支配词的词性为副词与动词或副词与形容词，且支配词为否定词，那么对情绪进行极性反转，则状中关系类情感依存关系的情感得分公式如下：

S(ADV)＝-S(ZW)*P(ZW) (9)

3)若被支配词与支配词的词性为机构名词与动词或介词与动词，那么被支配词不对支配词情绪产生影响，则状中关系类情感依存关系的情感得分公式如下：

S(ADV)＝S(ZW)*P(ZW) (10)

4)若被支配词与支配词的词性为形容词与动词，则状中关系类情感依存关系的情感得分公式如下：

S(ADV)＝S(BW)*P(BW)*0.5+S(ZW)*P(ZW) (11)

5)若支配词与被支配词的词性均为动词，则状中关系类情感依存关系的情感得分公式如下：

S(ADV)＝S(BW)*P(BW)+S(ZW)*P(ZW) (12)。

(5)、所述的动补关系类情感依存关系的情感得分，具体如下：

本发明实施例中，CMP是动补关系，词性组合主要有动词+动词、形容词+动词、介词+动词、数词+动词、量词+动词、副词+动词等；

公式包括：

S(CMP)＝S(BW)*P(BW)+S(ZW)*P(ZW) (13)

(6)、所述的并列关系类情感依存关系的情感得分，具体如下：

本发明实施例中，COO是并列关系，词性组合主要有动词+动词、名词+名词、形容词+形容词、形容词+动词、缩写词+缩写词、人名+人名等；

公式包括：

S(COO)＝S(BW)*P(BW)+S(ZW)*P(ZW) (14)

本发明实施例中，利用逗号，分号，问号将长句进一步切分为小句；

本发明实施例中，如图7所示，具体包括如下步骤：

S602、根据子句级别的情感得分结合子句间关联关系，获得长句级别的情感得分；具体包括：

1)、若子句S1、子句S2为并列关系，表并列关系的连词有：“一方面/另一方面”、“和”、存在COO关系；Sentence的情感得分为子句S1与子句S2的情感得分之和；则长句级别的情感得分公式具体如下：

S(Sentence)＝S(S1)+S(S2) (15)

2)若S1、S2为递进关系，子句S2较S2的情绪强度更大，表示递进连词有“不但/而且”、“甚至”，Sentence的情感得分为子句S1与子句S2两倍的情感得分之和，则长句级别的情感得分公式具体如下：

S(Sentence)＝S(S1)+2*S(S2) (16)。

3)若S1、S2为转折关系，表示转折的连词有“但是”、“可是”、“然而”、“不过”；那么子句S1与子句S2两个子句情绪为一正一负，那么两者的综合情绪得分为两个子句之和。即公式(15)；

S603、根据长句级别的情感得分结合长句间关联关系，获得段落级别的情感得分；具体公式包括：

S(Paragraph)＝α1*S(S1)+α2*S(S2)+...+αn*S(Sn) (17)

本发明实施例中，权重遵循首句和尾句权重较大，其余句子权重相同的权重，权重随句子总数改变，具体如下：

当子句为2个时，S(Paragraph)＝0.5*S(S1)+0.5*S(S2)；

当子句为3个时，S(Paragraph)＝0.35*S(S1)+0.3*S(S2)+0.35*S(S3)；

当子句为4个时，S(Paragraph)＝0.3*S(S1)+0.2*S(S2)+0.2*S(S3)+0.3*S(S4)；

当子句大于等于5个小于等于10个时，S(Paragraph)＝0.25*(S(S1)+S(Sn))+(S(S2)+...+S(Sn—1))/(n-2)；

当子句大于10个时，S(Paragraph)＝0.1*(S(S1)+S(Sn))+(S(S2)+...+S(Sn—1))/(n-2)；

S604、根据段落级别的情感得分结合段落在目标文本的位置关系，获得目标文本的情感得分；

本发明实施例中，对篇章级情感得分进行归一化处理，将每一篇文本的情感得分归一化成(-1，1)的数值，其中0表示情绪为中性，＞0表示情绪为正向，情绪值越大表示正向强度越大，＜0表示情绪为负向，情绪值越小，表示情绪负向强度越大。

本发明还提出一种行业文本情感获取装置，如图8所示，包括：

处理器；

存储器，耦合至所述的处理器并存储有指令，所述的指令在由所述处理器执行实现所述的行业文本情感获取方法的步骤，例如，

S10、根据互联网数据构建目标领域情感知识库；

S20、对目标文本进行预处理、分段和长句切分；

步骤具体细节已在上文阐述，此处不再复述；

本发明实施例中，所述的行业文本情感获取装置内置处理器，可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器利用各种接口和线路连接取各个部件，通过运行或执行存储在存储器内的程序或者单元，以及调用存储在存储器内的数据，以执行行业文本情感获取的各种功能和处理数据；

存储器用于存储程序代码和各种数据，安装在行业文本情感获取装置中，并在运行过程中实现高速、自动地完成程序或数据的存取。所述存储器包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

本发明还提出一种计算机可读取存储介质，如图9所示，所述计算机可读取存储介质存储有行业文本情感获取方法的应用程序，所述应用程序实现如所述的行业文本情感获取方法的步骤，例如，

S10、根据互联网数据构建目标领域情感知识库；

S20、对目标文本进行预处理、分段和长句切分；

步骤具体细节已在上文阐述，此处不再复述；

在本发明的实施方式的描述中，需要说明的是，流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读取介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读取介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种行业文本情感获取方法，其特征在于，包括如下步骤：

S10、根据互联网数据构建目标领域情感知识库；

S20、对目标文本进行预处理、分段和长句切分；

2.根据权利要求1所述的行业文本情感获取方法，其特征在于，步骤S10所述的根据互联网数据构建目标领域情感知识库，具体包括如下步骤：

3.根据权利要求1所述的行业文本情感获取方法，其特征在于，步骤S50所述的根据所构建的情感依存关系树依存关系，确定各类情感依存关系得分的获取方法；具体包括：主谓关系类情感依存关系的情感得分获取方法、动宾关系类情感依存关系的情感得分获取方法、定中关系类情感依存关系的情感得分获取方法、状中关系类情感依存关系的情感得分获取方法、动补关系类情感依存关系的情感得分获取方法和并列关系类情感依存关系的情感得分获取方法。

4.根据权利要求3所述的行业文本情感获取方法，其特征在于，所述的主谓关系类情感依存关系的情感得分获取方法，具体包括：

S(SBV)＝S(BW)*P(BW)+S(ZW)*P(BW)*0.5 (1)

S(SBV)＝(S(BW)*P(BW)+S(ZW)*P(BW)*0.5)*(-1) (2)。

5.根据权利要求3所述的行业文本情感获取方法，其特征在于，所述的动宾关系类情感依存关系的情感得分获取方法，具体包括：

S(VOB)＝S(BW)*P(BW)*0.5+S(ZW)*P(ZW) (3)

S(VOB)＝S(BW)*P(BW)*(-1) (4)。

6.根据权利要求3所述的行业文本情感获取方法，其特征在于，所述的定中关系类情感依存关系的情感得分获取方法，具体包括：

S(ATT)＝S(ZW)*P(ZW) (5)

S(ATT)＝S(BW)*P(BW)+S(ZW)*P(ZW) (6)

S(ATT)＝S(BW)*P(BW)*P(ZW) (7)。

7.根据权利要求3所述的行业文本情感获取方法，其特征在于，所述的状中关系类情感依存关系的情感得分获取方法，具体包括：

S(ADV)＝D(BW)*S(ZW)*P(ZW) (8)

S(ADV)＝-S(ZW)*P(ZW) (9)

S(ADV)＝S(ZW)*P(ZW) (10)

S(ADV)＝S(BW)*P(BW)*0.5+S(ZW)*P(ZW) (11)

S(ADV)＝S(BW)*P(BW)+S(ZW)*P(ZW) (12)。

8.根据权利要求3所述的行业文本情感获取方法，其特征在于，所述的动补关系类情感依存关系的情感得分获取方法，具体公式包括：

S(CMP)＝S(BW)*P(BW)+S(ZW)*P(ZW) (13)

9.根据权利要求3所述的行业文本情感获取方法，其特征在于，所述的并列关系类情感依存关系的情感得分获取方法，具体公式包括：

S(COO)＝S(BW)*P(BW)+S(ZW)*P(ZW) (14)

10.根据权利要求1所述的行业文本情感获取方法，其特征在于，步骤S60所述的将长句切分为子句，根据各类情感依存关系得分的获取方法，分级递推获得子句情感得分、长句情感得分、段落情感得分，最终获得目标文本的情感得分；具体包括如下步骤：

11.根据权利要求10所述的行业文本情感获取方法，其特征在于，步骤S602所述的根据子句级别的情感得分结合子句间关联关系，获得长句级别的情感得分，具体包括：

S(Sentence)＝S(S1)+S(S2) (15)

S(Sentence)＝S(S1)+2*S(S2) (16)。

12.根据权利要求10所述的行业文本情感获取方法，其特征在于，步骤S603所述的根据长句级别的情感得分结合长句间关联关系，获得段落级别的情感得分，具体公式包括：

S(Paragraph)＝α1*S(S1)+α2*S(S2)+…+αn*S(Sn) (17)

13.一种行业文本情感获取装置，其特征在于，包括：

处理器；

存储器，耦合至所述的处理器并存储有指令，所述的指令在由所述处理器执行实现权利要求1至12中任一项所述的行业文本情感获取方法的步骤。

14.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质存储有行业文本情感获取方法的应用程序，所述应用程序实现如权利要求1至12中任一项所述的行业文本情感获取方法的步骤。