CN110502744A

CN110502744A - 一种针对历史公园评价的文本情感识别方法及装置

Info

Publication number: CN110502744A
Application number: CN201910635077.9A
Authority: CN
Inventors: 戴代新; 曹畅
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-11-26
Anticipated expiration: 2039-07-15
Also published as: CN110502744B

Abstract

本发明涉及一种针对历史公园评价的文本情感识别方法及装置，其中方法包括：步骤S1：对文本库的中评论文本进行预处理得到评论文本语段，并构建公园空间名词库、专业领域特征词库、极性词库、程度词库和否定词库；步骤S2：根据构建的公园空间名词库、专业领域特征词库、极性词库、程度词库和否定词库对各评论文本语段进行处理，得到特征语段单元；步骤S3：基于各特征语段单元得到其情感得分，并基于得到的各特征语段单元的情感得分得到各空间的各特征的平均得分；步骤S4：针对各空间，根据其各特征的平均得分输出优化方案。与现有技术相比，本发明提高了情感识别的准确性，使之可以真实地反映撰写方实际的意图，避免了主观因素导致的分析不准确。

Description

一种针对历史公园评价的文本情感识别方法及装置

技术领域

本发明涉及计算机处理技术，尤其是涉及一种针对历史公园评价的文本情感识别方法及装置。

背景技术

情感计算自1997年由于美国MIT实验室Picard教授提出定义发展至今，其相应的技术实践已有长足的发展。文本情感计算是指对于自然语言表达的语段、句子、语篇执行一定的分析与计算，从而判断其表达的是积极的、消极的或中性的情感或观点。通过文本情感计算，可以较为便捷地对大量的文本数据进行信息挖掘，以探究文本隐含的情感、观念、偏好甚至价值取向。当情感计算和主题挖掘相结合时，就可以得到针对若干特征主题的情感量化计算结果。

在城市公共空间中，城市历史公园不仅保存着物质形态的历史遗产，也行使着重要的文化功能。城市历史公园的价值研究与改造策略的优略评判，需要结合对于历史公园空间文化与认知层面的评价加以论证。文本情感计算能够揭示较为深刻而含蓄的文化认知和感受，将观点和倾向以量化结果呈现。公众提供的空间评论文本信息中所隐藏的大量空间认知信息，也可以通过文本情感计算的方法挖掘出来。而目前还没有一套完整的针对于历史公园评价的文本情感计算方法。

文本情感计算的手段对于研究文化层面的空间评价有着重要意义。尝试运用网络评价文本数据、基于文本情感计算技术的城市历史公园评价方法，可以发挥网络评论的数据量优势和公众的集体智慧优势。对于公众的观点、评论等文本的信息进行挖掘和量化计算，通过对结果分析得出规划设计决策建议，可以是以文本情感计算为代表的语言分析技术在空间规划设计方面的一种有效利用途径。

然而在文本对文本情感的识别若准确度不高，则可能起到适得其反的效果，目前的文本情感分析尚不能很好的反映撰写者真实的情感。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种针对历史公园评价的文本情感识别方法及装置。

本发明的目的可以通过以下技术方案来实现：

一种针对历史公园评价的文本情感识别方法，包括：

步骤S1：对文本库的中评论文本进行预处理得到评论文本语段，并构建公园空间名词库、专业领域特征词库、极性词库、程度词库和否定词库；

步骤S2：根据构建的公园空间名词库、专业领域特征词库、极性词库、程度词库和否定词库对各评论文本语段进行处理，得到特征语段单元，其中，所述特征语段单元至少由评价特征、空间类型、极性词、程度词和否定词组成；

步骤S3：基于各特征语段单元得到其情感得分，并基于得到的各特征语段单元的情感得分得到各空间的各特征的平均得分；

步骤S4：针对各空间，根据其各特征的平均得分输出优化方案。

所述步骤S1中对评论文本的预处理环节包括以下步骤：

步骤S101：对文本库去除重复评论和无效空评论；

步骤S102：以换行符、全角句号与全角、半角感叹号、问号与分号作为语篇切分的位置标记对评论文本进行切分得到分局评论文本语段；

步骤S103：对评论文本语段进行分词，并标注词汇的词性。

所述步骤S1中公园空间名词库的构建过程具体包括：

步骤S111：基于所有分词后的评论文本语段，获得名词频繁1-项集，构成公园空间名词的种子词库；

步骤S112：过滤非公园空间名词，并借助HIT-IRLab-同义词词林，通过遍历各空间类型定义的种子词所在的原子词群以及地貌、建筑物、空间、机构四个类别内的所有名词，获得空间名词扩展候选词库；

步骤S113：结合空间名词扩展候选词库和经过过滤的种子词库得到公园空间名词库。

所述步骤S1中专业领域特征词库的构建过程具体为：利用Stanford Parser句法分析器调用Chinese PCFG Parser模块，分析、查找包含隐式评价特征的一般语义依存结构，包括直接宾语、状语、名词主语、从句补充、形容词、名词修饰名词，遍历文本库获得高频依存结构词汇组合，从中筛选隐式特征的种子词，并借助HIT-IRLab-同义词词林，通过遍历各空间类型定义的种子词所在的原子词群扩展种子词库，得到专业领域特征词库。

所述极性词库的构建过程中：

步骤S131：导入初始的极性词库；

步骤S132：提取分词后的评论文本语段中未存在于极性词库中的形容词，计算该形容词与极性词库中各词的相似度，若相似度超过设定阈值，则将形容词的倾向性记为与匹配词相同的倾向性，并将该词加入极性词库。

所述特征语段单元还包括用于表示否定词与程度词出现先后顺序关系的布尔数据。

所述情感得分具体为：

v_p＝v₀×v_d×v_n×δ_vb

其中：v_p为特征语段单元的情感得分，v₀为极性词的极性值，极性为正面则取1，极性为负面则取-1，中性极性词得分取0，v_d为程度词的程度参数值，v_n为否定词系数，若否定词存在则取-1，反之取1，δ_vb为布尔数据取值，当否定在前时取0.5。

所述步骤S3中，基于得到的各特征语段单元的情感得分得到各空间的各专业领域特征的平均得分，具体包括：

步骤S31：获取各特征语段单元的情感得分和对应的空间名词、专业领域特征；

步骤S32：针对各空间名词的各专业领域特征，计算其平均得分：

其中：v_fi为第i个专业领域特征的平均得分，VT_fi为包含第i个专业领域特征的所有特征语段单元的情感得分之和，CT_fi为包含第i个专业领域特征的特征语段单元的总数。

一种针对历史公园评价的文本情感识别装置，包括存储器、处理器，以及存储于存储器中并由所述处理器执行的程序，所述处理器执行所述程序时实现以下步骤：

与现有技术相比，本发明具有以下有益效果：

1)提高了情感识别的准确性，使之可以真实地反映撰写方实际的意图，避免了因读取方解读的主观因素导致的分析不准确，从而具有实际应用价值，可以应用于城市空间研究中，可充分、高效地挖掘网络数据中所蕴含的丰富的历史公园空间信息；

2)构建了历史公园空间词库与历史公园文化服务效益特征词库两个专业领域词库，可以为针对于历史公园空间的研究与相关的空间评论文本分析研究等提供参考；基于句法规则进行隐式特征单元匹配的方法，逻辑性较强，可运用在显式、隐式特征的文本情感计算之中，兼容性、泛用性强；

3)文本情感计算方法为历史公园保护领域的规划设计师、研究人员和管理人员提供了标准化的操作流程，有利于科研工作者在空间文本评论分析与网络数据分析方面的进一步研究和交流；

4)从分析网络用户提交信息得出空间量化评价结果，可进一步为空间规划决策提供数据参考，这种过程可以看作是公众参与的一种新形式，为公众参与保护提供可能性。将这种方法运用到历史公园的保护更新中，可以更有效地促进历史公园文化品质的提升、文化服务的优化和遗产价值的充分发挥。。

附图说明

图1为本申请方法的主要步骤流程示意图；

图2为针对历史公园评价的文本情感计算方法实现流程图；

图3为由指标特征词到空间名词、极性词、程度词与否定词的匹配规则示意图；

图4为由指标特征词到空间名词、极性词、程度词与否定词的匹配规则实例表；

图5为单句情感得分计算实例表；

图6为针对历史公园评价的文本情感计算方法关键步骤表。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一种针对历史公园评价的文本情感识别方法，该方法以计算机程序的形式，有计算机系统实现，对应的为文本情感识别装置，包括存储器、处理器，以及存储于存储器中并由处理器执行的程序，如图1、图2和图6所示，处理器执行程序时实现以下步骤：

步骤S1：对文本库的中评论文本进行预处理得到评论文本语段，并构建公园空间名词库、专业领域特征词库、极性词库、程度词库和否定词库；首先，将待分析的历史公园网络评论的评价文本集合进行降噪去重、语篇切分、分词等预处理。其次，利用关联规则算法挖掘评论文本集合中的空间名词频繁项集，并与划分好的空间单元类型对应，利用同义词词林扩展空间词库。使用句法分析器识别评论文本语段中关键的语义依存结构关系，并筛选出与各评价指标特征相关的候选种子词库，进一步利用词林扩展，构建专业领域特征词库。利用情感词库、同义词词林与词汇近似度算法构建极性词库、程度词库与否定词库。

其中对评论文本的预处理环节包括以下步骤：

步骤S101：数据降噪，即对文本库去除重复评论和无效空评论；

步骤S102：语篇切分：以常用断句符号作为句子切分标记时句法分析器有着较好的表现。为了最大程度地减少误差，以换行符、全角句号与全角、半角感叹号、问号与分号作为语篇切分的位置标记；

步骤S103：使用清华THULAC分词工具包对评论文本语段进行分词，并标注词汇的词性。

其中，对公园空间名词库的构建过程具体包括：

本实施例中，即：首先得到分词与词性标注后的评论语料库样本，以语篇作为词汇的集合，利用关联规则Apriori算法，获得历史公园评论的名词频繁-1项集，构成历史公园空间名词的种子词库。其次，过滤非公园空间名词，并借助HIT-IRLab-同义词词林，通过遍历各空间类型定义的种子词所在的原子词群以及Be(地貌)、Bn(建筑物)、Cb(空间)、Dm(机构)四个类别内的所有名词，可获得空间名词扩展候选词库。补充低频空间名词，构建专业领域空间名词库。最终建立一套针对城市历史公园的23种空间类型的空间名词词库。

步骤S1中专业领域特征词库的构建过程具体为：利用Stanford Parser句法分析器调用Chinese PCFG Parser模块，分析、查找包含隐式评价特征的一般语义依存结构，包括直接宾语、状语、名词主语、从句补充、形容词、名词修饰名词，遍历文本库获得高频依存结构词汇组合，从中筛选隐式特征的种子词，并借助HIT-IRLab-同义词词林，通过遍历各空间类型定义的种子词所在的原子词群扩展种子词库，得到专业领域特征词库。

本实施例中，即：利用Stanford Parser句法分析器调用Chinese PCFG Parser模块，分析、查找包含隐式评价特征的一般语义依存结构，包括dobj(direct object直接宾语)、advmod(adverbial modifier状语)、nsubj(nominal subject名词主语)：“和朋友一起来逛”、ccomp(clausal complement从句补充)、amod(adjectival modifier形容词)、nmod(nominal modifier名词修饰名词)，遍历文本库获得高频依存结构词汇组合，从中筛选隐式特征的种子词，并并借助HIT-IRLab-同义词词林，通过遍历各空间类型定义的种子词所在的原子词群扩展种子词库。最终以14种城市历史公园的文化服务绩效作为评价指标层，建立一套针对历史公园的文化服务绩效评价特征词库。

极性词库的构建过程中：

步骤S131：导入初始的极性词库；

本实施例中，具体的，基于“知网hownet中英文情感词典”收录的中文正面评价词语3730个，负面评价词语3116个构建极性词库。另外地，在将形容词匹配为极性词的过程中，若形容词不存在于极性词库中，则依靠Hownet的WordSimilarity工具包计算该形容词与极性词典中每一个词的相似度。若相似度超过阈值0.9，则将该词的倾向性记为与匹配词相同的倾向性，并将该词加入极性词典。

基于“知网hownet中英文情感词典”收录的219个中文程度级别词语构建程度词库。

基于“中文否定词词典”收录的58个否定词构建否定词库。

步骤S2：根据构建的公园空间名词库、专业领域特征词库、极性词库、程度词库和否定词库对各评论文本语段进行处理，得到特征语段单元，其中，特征语段单元至少由评价特征、空间类型、极性词、程度词和否定词组成，优选的，特征语段单元还包括用于表示否定词与程度词出现先后顺序关系的布尔数据，具体的，将识别的特征语段单元记录为(f，p，o，d，n，b)，其中，f是评价特征，p是空间类型，分别对应14种文化服务效益和23种空间类型；o是极性词，d是程度词，n是否定词，以上均为字符串数据，极性词、程度词、否定词可能为空，b值为布尔数据表示所匹配的结构在语气上有一定程度的削弱(例如“很不开心”“完全不记得”对应的b值为True，“不是很开心”“不完全记得”对应的b值为False)；

具体的，利用空间评论文本中常见的特征语段单元的关键依存结构模式，使用预建立的由指标特征词到空间名词、极性词、程度词与否定词的匹配规则，使用句法分析器按匹配规则匹配评论文本语段中描述特定评价指标的特征语段单元。

如图3和图4所示，由指标特征词到空间名词、极性词、程度词与否定词的匹配规则包括：

利用Stanford Parser句法分析器调用Chinese PCFG Parser模块，以评价指标特征词为起点查找、匹配极性词、程度词、否定词，遵循以下规则：

当特征词为时间名词(NT)：通过复合名词修饰(noun compound modifier)、时间修饰(temporal modifier)结构查找动词节点(如“小时候常来这里玩耍”)；或通过名词组合(noun&noun)结构查找名词节点(如“儿时的公园很安静”)。若匹配成功则对下一节点进行匹配。

当特征词为动词(VV)：首先通过从句补语(clausal complement)结构查找动词节点，对该动词节点进行匹配(如“记得以前常在这锻炼”)；其次通过副词修饰(adverbialmodifier)或否定修饰(negative modifier)结构查找程度或否定副词(如偏正结构“每天晨练”“不太记得”)；再次，通过依赖关系(dependent)或状语从句修饰词(adverbialclause modifier)结构查找极性形容词(如动补结构“记不清楚”“去得很频繁”)；最后通过直接宾语(direct object)或名词主语(nominal subject)结构查找名词节点，并进入名词的定中结构匹配(如动宾结构“难忘这美丽的风景”)。

当特征词为名词(NN或NR)：首先通过名词组合和复合名词修饰结构查找名词节点，对该名词节点进行匹配(如“美好的闲暇时光”)；其次通过直接宾语结构查找存在性动词并判断是否为否定词(如“没有什么印象”)；再次，通过形容词修饰(adjetivemodifier)、关系从句修饰(relative clause modifier)和名词主语结构查找极性形容词(如“深刻印象”“深刻的印象”和“印象很深刻”)；最后通过直接宾语或名词主语结构查找动词节点，并进入动词的状中结构匹配(如“没有体现本土文化”)。

当特征词为形容词(VA或JJ)：首先通过副词修饰或否定修饰结构查找程度或否定副词(如“不太安静”)；此后通过依赖关系或状语从句修饰词结构查找动词节点，并进入动词的状中结构匹配(动补结构如“玩得很满意”)。

当特征词为副词(AD)：通过副词修饰或否定修饰结构查找动词，并进入动词的状中结构匹配(如“在这愉快地游览”)。

利用如上规则，将匹配到的形容词作为极性词，利用极性词典和词汇近似度工具包判断极性词的倾向性；用匹配到的多个副词遍历查找程度词典与否定词典，双重否定的情形，将否定词记为空值。得到包含特征、极性词、程度词、否定词的特征单元数据。对于该特征单元数据，在短句中遍历空间特征词表，以查找共现空间名词的方式，确定特征语段单元所对应的空间类型。

步骤S3：基于各特征语段单元得到其情感得分，并基于得到的各特征语段单元的情感得分得到各空间的各特征的平均得分，其中，情感得分具体为：

v_p＝v₀×v_d×v_n×δ_vb

具体计算实例如图5所示。

其中，基于得到的各特征语段单元的情感得分得到各空间的各专业领域特征的平均得分，具体包括：

通过对整个文本数据库的分析和统计，可得出该空间对应各项特征(指标)的评论极性值，即主观指标的量化测度结果。至此，可得到对应各类空间单元类型、各项评价指标特征的情感倾向性得分总值。

步骤S4：针对各空间，根据其各特征的平均得分输出优化方案，具体的，选择得分最低的空间及特征，作为待优化的部分，输出在系统中预配置的优化手段，由于优化手段可以是现有的，因此不再赘述。

本申请是一种计算机程序，可以优化外部的性能，具体为可以提高公园的空间及特征改进效率，辅助设计人员。

Claims

1.一种针对历史公园评价的文本情感识别方法，其特征在于，包括：

2.根据权利要求1所述的一种针对历史公园评价的文本情感识别方法，其特征在于，所述步骤S1中对评论文本的预处理环节包括以下步骤：

步骤S101：对文本库去除重复评论和无效空评论；

步骤S103：对评论文本语段进行分词，并标注词汇的词性。

3.根据权利要求2所述的一种针对历史公园评价的文本情感识别方法，其特征在于，所述步骤S1中公园空间名词库的构建过程具体包括：

4.根据权利要求2所述的一种针对历史公园评价的文本情感识别方法，其特征在于，所述步骤S1中专业领域特征词库的构建过程具体为：利用Stanford Parser句法分析器调用Chinese PCFG Parser模块，分析、查找包含隐式评价特征的一般语义依存结构，包括直接宾语、状语、名词主语、从句补充、形容词、名词修饰名词，遍历文本库获得高频依存结构词汇组合，从中筛选隐式特征的种子词，并借助HIT-IRLab-同义词词林，通过遍历各空间类型定义的种子词所在的原子词群扩展种子词库，得到专业领域特征词库。

5.根据权利要求2所述的一种针对历史公园评价的文本情感识别方法，其特征在于，所述极性词库的构建过程中：

步骤S131：导入初始的极性词库；

6.根据权利要求1所述的一种针对历史公园评价的文本情感识别方法，其特征在于，所述特征语段单元还包括用于表示否定词与程度词出现先后顺序关系的布尔数据。

7.根据权利要求1所述的一种针对历史公园评价的文本情感识别方法，其特征在于，所述情感得分具体为：

v_p＝v₀×v_d×v_n×δ_vb

8.根据权利要求1所述的一种针对历史公园评价的文本情感识别方法，其特征在于，所述步骤S3中，基于得到的各特征语段单元的情感得分得到各空间的各专业领域特征的平均得分，具体包括：

9.一种针对历史公园评价的文本情感识别装置，其特征在于，包括存储器、处理器，以及存储于存储器中并由所述处理器执行的程序，所述处理器执行所述程序时实现以下步骤：