CN108563630A

CN108563630A - 一种文本分析知识库的构建方法

Info

Publication number: CN108563630A
Application number: CN201810233777.0A
Authority: CN
Inventors: 王晓峰; 袁波
Original assignee: Shanghai Wei Mdt Infotech Ltd
Current assignee: Shanghai Wei Mdt Infotech Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-09-21

Abstract

本发明公开了一种文本分析知识库的构建方法，它涉及文本类数据分析领域。包括专有词典模块，无效语句库模块，情感词典模块和情感规则库模块；所述的专有词典模块主要是分析领域的新词、专有词汇；所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容；所述的情感词典模块主要是领域内情感词和情感倾向得分；所述的情感规则库模块主要是对情感词典使用的一个补充。本发明基于此知识库，在进行文本类数据的分析或相关智能应用时，可以让计算机理解新词或业务领域专有词汇，去除无效内容，并对特定场景形成准确的情感倾向判断。

Description

一种文本分析知识库的构建方法

技术领域

本发明涉及的是文本类数据分析领域，具体涉及一种知识库的构建方法，该知识库主要用于文本类数据的基础处理和分析。

背景技术

目前对于文本类数据的知识库，主要集中在实体关系和问答两个方面。实体关系类主要是帮助计算机做联想，例如刘德华（实体）-职业（关系）-演员（实体），这一组知识，以实体-关系-实体的形式关联并存储，使用时当输入“刘德华，职业”时，可以找到演员，从而实现知识库的使用。另一部分是问答，主要用在自动客服领域，例如“今天天气怎么样/今天天气如何/今天什么天”-“今天*获取天气预报数据*”，这一组知识，以多对一或多对多映射的形式存储，使用时当输入“今天天气怎么样/今天天气如何/今天什么天”等问题时，计算机会获取相应答案“今天*获取天气预报数据*”进行回答。

这些知识库的构建，主要是针对文本类数据的后端的理解和应用，但对于文本类数据的基础处理分析，目前尚没有专门的知识库构建方法来进行支持，所产生的问题是：1.计算机无法对新词、业务领域特有词进行理解；2.文本中大量无效内容干扰了整体的分析和应用；3.对特定业务领域的情感倾向判断不准确。

综上所述，本发明设计了一种文本分析知识库的构建方法。

发明内容

针对现有技术上存在的不足，本发明目的是在于提供一种文本分析知识库的构建方法，基于此知识库，在进行文本类数据的分析或相关智能应用时，可以让计算机理解新词或业务领域专有词汇，去除无效内容，并对特定场景形成准确的情感倾向判断。

为了实现上述目的，本发明是通过如下的技术方案来实现：一种文本分析知识库的构建方法，包括专有词典模块，无效语句库模块，情感词典模块和情感规则库模块。

作为优选，所述的专有词典模块主要是分析领域的新词、专有词汇。

作为优选，所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容。

作为优选，所述的情感词典模块主要是领域内情感词和情感倾向得分。

作为优选，所述的情感规则库模块主要是对情感词典使用的一个补充。

本发明具有以下有益效果：

1.本发明所设计的知识库构建方法，可以应用于通用的文本类数据分析和应用，不只限定于特定应用；

2.本发明使文本类数据分析中的新词、业务领域专有词可以被机器识别和分析；

3.本发明可以有效提高文本分析的精准性；

4.本发明可以提高对于特定领域的文本情感分析。

附图说明

下面结合附图和具体实施方式来详细说明本发明；

图1为本发明的构建框架图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

参照图1，本具体实施方式采用以下技术方案：一种文本分析知识库的构建方法，包括专有词典，无效语句库，情感词典和情感规则库四个模块。

值得注意的是，所述的专有词典模块主要是分析领域的新词、专有词汇。比如，“爱疯”这个词是“iPhone”的代称，属于新词，属于网络用语词，也属于手机行业特有词，这样的词汇机器通常无法识别，只有加载到词典中，才可以完成识别，从而进行更准确的分析。

值得注意的是，所述的专有词典可以不断加入新词汇，其加入词汇的方法可以是：1.直接加入词汇；2.加入词汇和权重；3.加入词汇和词性；4.词汇、词性和权重。加入后可以对词性和权重进行修改。使用时，根据需要将词典与分词工具或文本分析工具对接即可。

值得注意的是，所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容。比如，词语“您好”和语句“很高兴为您服务”，他们在文本数据中没有实际含义，人工进行阅读时会直接忽略，但是对于机器会造成重复的分析扫描。同时语句中的“高兴”、“服务”等词汇，本身有用，但在句中无意义，这样会影响到文本分析效果，如“高兴”会判断为正面情感，“服务”会判断为文本内容和具体服务相关。这类词汇、语句，剔除后能使文本分析更加准确有效。

值得注意的是，所述的无效语句库可以加入无效的词汇和语句，加入方法为：1.无效词语直接加入库中；2.无效句子可以直接加入库中，或者用正则表达式的形式替代部分或全部内容并加入库中。使用时，将无效语句库和文本分析工具对接，剔除相关内容即可。

值得注意的是，所述的情感词典模块主要是领域内情感词和情感倾向得分。比如：“热”这个词，在社交文本分析里常表示流行程度高，属于正面倾向；但在手机评论文本分析中常表示手机或电池发烫，属于负面倾向。定义了专有的情感词和情感倾向后，机器才能对文本进行准确的情感分析。

值得注意的是，所述的情感词典可以单独或批量地添加情感词以及其对应的情感分数，加入方法为：添加情感词，设置情感词对应的情感分值。使用时，将情感词典与文本分析工具对接，结合适合的情感算法即可应用。

值得注意的是，所述的情感规则库模块主要是对情感词典使用的一个补充。比如：当“高兴”这个正面倾向的情感词前面加上“不”字之后，情感将变为负面。定义了专有的情感规则后，机器基于情感词的情感分析才能更准确。

此外，所述的情感规则库可以进行编辑设置后加入，加入后符合规则的模式都将对应相应的情感倾向。情感规则用如下元素进行组合来实现：1.单个词语，可以是任意具体词语；2.否定词，如“不”；3.修饰词，如“非常”；4.词性，如名词性；5.情感词，如正面词；6.概念词，如疾病名称。情感规则模式的编写主要由核心词、前置词、后置词组成，编写时将前文所述的不同内容放置到相应位置，每个位置有必须出现和不可出现两种选择，其中，核心词位置必须有词。情感规则最终的倾向性定义类型分为两种：1.转换情感，将核心词的情感进行程度增加或正负面反转的转换；2.固定情感，将整个规则直接定义为一个固定的情感分值。例如：前置词一位放置“否定词”，前置词二位放置修饰词“太”，核心词放置“正面词”，其定义的情感倾向为“情感程度降低，且倾向性反转”。使用时，将情感规则库、情感词典与文本分析工具对接即可应用，如当遇到文本数据“这道菜不是太好吃”时，情感规则匹配命中，将根据情感词“好吃”的情感程度进行降低，然后反转为负面倾向。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种文本分析知识库的构建方法，其特征在于，包括专有词典模块，无效语句库模块，情感词典模块和情感规则库模块；

所述的专有词典模块主要是分析领域的新词、专有词汇；

所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容；

所述的情感词典模块主要是领域内情感词和情感倾向得分；

所述的情感规则库模块主要是对情感词典使用的一个补充。

2.根据权利要求1所述的一种文本分析知识库的构建方法，其特征在于，所述的专有词典模块加入词汇的方法是：(1).直接加入词汇；(2).加入词汇和权重；(3).加入词汇和词性；(4).词汇、词性和权重；加入后可以对词性和权重进行修改；使用时，根据需要将词典与分词工具或文本分析工具对接即可。

3.根据权利要求1所述的一种文本分析知识库的构建方法，其特征在于，所述的无效语句库模块加入无效的词汇和语句，加入方法为：(1).无效词语直接加入库中；(2).无效句子可以直接加入库中，或者用正则表达式的形式替代部分或全部内容并加入库中；使用时，将无效语句库和文本分析工具对接，剔除相关内容即可。

4.根据权利要求1所述的一种文本分析知识库的构建方法，其特征在于，所述的情感词典模块单独或批量地添加情感词以及其对应的情感分数，加入方法为：添加情感词，设置情感词对应的情感分值；使用时，将情感词典与文本分析工具对接，结合适合的情感算法即可应用。

5.根据权利要求1所述的一种文本分析知识库的构建方法，其特征在于，所述的情感规则库模块进行编辑设置后加入，加入后符合规则的模式都将对应相应的情感倾向。