CN108563630A - 一种文本分析知识库的构建方法 - Google Patents

一种文本分析知识库的构建方法 Download PDF

Info

Publication number
CN108563630A
CN108563630A CN201810233777.0A CN201810233777A CN108563630A CN 108563630 A CN108563630 A CN 108563630A CN 201810233777 A CN201810233777 A CN 201810233777A CN 108563630 A CN108563630 A CN 108563630A
Authority
CN
China
Prior art keywords
module
emotion
proprietary
vocabulary
invalid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810233777.0A
Other languages
English (en)
Inventor
王晓峰
袁波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wei Mdt Infotech Ltd
Original Assignee
Shanghai Wei Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wei Mdt Infotech Ltd filed Critical Shanghai Wei Mdt Infotech Ltd
Priority to CN201810233777.0A priority Critical patent/CN108563630A/zh
Publication of CN108563630A publication Critical patent/CN108563630A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本分析知识库的构建方法,它涉及文本类数据分析领域。包括专有词典模块,无效语句库模块,情感词典模块和情感规则库模块;所述的专有词典模块主要是分析领域的新词、专有词汇;所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容;所述的情感词典模块主要是领域内情感词和情感倾向得分;所述的情感规则库模块主要是对情感词典使用的一个补充。本发明基于此知识库,在进行文本类数据的分析或相关智能应用时,可以让计算机理解新词或业务领域专有词汇,去除无效内容,并对特定场景形成准确的情感倾向判断。

Description

一种文本分析知识库的构建方法
技术领域
本发明涉及的是文本类数据分析领域,具体涉及一种知识库的构建方法,该知识库主要用于文本类数据的基础处理和分析。
背景技术
目前对于文本类数据的知识库,主要集中在实体关系和问答两个方面。实体关系类主要是帮助计算机做联想,例如刘德华(实体)-职业(关系)-演员(实体),这一组知识,以实体-关系-实体的形式关联并存储,使用时当输入“刘德华,职业”时,可以找到演员,从而实现知识库的使用。另一部分是问答,主要用在自动客服领域,例如“今天天气怎么样/今天天气如何/今天什么天”-“今天*获取天气预报数据*”,这一组知识,以多对一或多对多映射的形式存储,使用时当输入“今天天气怎么样/今天天气如何/今天什么天”等问题时,计算机会获取相应答案“今天*获取天气预报数据*”进行回答。
这些知识库的构建,主要是针对文本类数据的后端的理解和应用,但对于文本类数据的基础处理分析,目前尚没有专门的知识库构建方法来进行支持,所产生的问题是:1.计算机无法对新词、业务领域特有词进行理解;2.文本中大量无效内容干扰了整体的分析和应用;3.对特定业务领域的情感倾向判断不准确。
综上所述,本发明设计了一种文本分析知识库的构建方法。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种文本分析知识库的构建方法,基于此知识库,在进行文本类数据的分析或相关智能应用时,可以让计算机理解新词或业务领域专有词汇,去除无效内容,并对特定场景形成准确的情感倾向判断。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种文本分析知识库的构建方法,包括专有词典模块,无效语句库模块,情感词典模块和情感规则库模块。
作为优选,所述的专有词典模块主要是分析领域的新词、专有词汇。
作为优选,所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容。
作为优选,所述的情感词典模块主要是领域内情感词和情感倾向得分。
作为优选,所述的情感规则库模块主要是对情感词典使用的一个补充。
本发明具有以下有益效果:
1.本发明所设计的知识库构建方法,可以应用于通用的文本类数据分析和应用,不只限定于特定应用;
2.本发明使文本类数据分析中的新词、业务领域专有词可以被机器识别和分析;
3.本发明可以有效提高文本分析的精准性;
4.本发明可以提高对于特定领域的文本情感分析。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明的构建框架图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
参照图1,本具体实施方式采用以下技术方案:一种文本分析知识库的构建方法,包括专有词典,无效语句库,情感词典和情感规则库四个模块。
值得注意的是,所述的专有词典模块主要是分析领域的新词、专有词汇。比如,“爱疯”这个词是“iPhone”的代称,属于新词,属于网络用语词,也属于手机行业特有词,这样的词汇机器通常无法识别,只有加载到词典中,才可以完成识别,从而进行更准确的分析。
值得注意的是,所述的专有词典可以不断加入新词汇,其加入词汇的方法可以是:1.直接加入词汇;2.加入词汇和权重;3.加入词汇和词性;4.词汇、词性和权重。加入后可以对词性和权重进行修改。使用时,根据需要将词典与分词工具或文本分析工具对接即可。
值得注意的是,所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容。比如,词语“您好”和语句“很高兴为您服务”,他们在文本数据中没有实际含义,人工进行阅读时会直接忽略,但是对于机器会造成重复的分析扫描。同时语句中的“高兴”、“服务”等词汇,本身有用,但在句中无意义,这样会影响到文本分析效果,如“高兴”会判断为正面情感,“服务”会判断为文本内容和具体服务相关。这类词汇、语句,剔除后能使文本分析更加准确有效。
值得注意的是,所述的无效语句库可以加入无效的词汇和语句,加入方法为:1.无效词语直接加入库中;2.无效句子可以直接加入库中,或者用正则表达式的形式替代部分或全部内容并加入库中。使用时,将无效语句库和文本分析工具对接,剔除相关内容即可。
值得注意的是,所述的情感词典模块主要是领域内情感词和情感倾向得分。比如:“热”这个词,在社交文本分析里常表示流行程度高,属于正面倾向;但在手机评论文本分析中常表示手机或电池发烫,属于负面倾向。定义了专有的情感词和情感倾向后,机器才能对文本进行准确的情感分析。
值得注意的是,所述的情感词典可以单独或批量地添加情感词以及其对应的情感分数,加入方法为:添加情感词,设置情感词对应的情感分值。使用时,将情感词典与文本分析工具对接,结合适合的情感算法即可应用。
值得注意的是,所述的情感规则库模块主要是对情感词典使用的一个补充。比如:当“高兴”这个正面倾向的情感词前面加上“不”字之后,情感将变为负面。定义了专有的情感规则后,机器基于情感词的情感分析才能更准确。
此外,所述的情感规则库可以进行编辑设置后加入,加入后符合规则的模式都将对应相应的情感倾向。情感规则用如下元素进行组合来实现:1.单个词语,可以是任意具体词语;2.否定词,如“不”;3.修饰词,如“非常”;4.词性,如名词性;5.情感词,如正面词;6.概念词,如疾病名称。情感规则模式的编写主要由核心词、前置词、后置词组成,编写时将前文所述的不同内容放置到相应位置,每个位置有必须出现和不可出现两种选择,其中,核心词位置必须有词。情感规则最终的倾向性定义类型分为两种:1.转换情感,将核心词的情感进行程度增加或正负面反转的转换;2.固定情感,将整个规则直接定义为一个固定的情感分值。例如:前置词一位放置“否定词”,前置词二位放置修饰词“太”,核心词放置“正面词”,其定义的情感倾向为“情感程度降低,且倾向性反转”。使用时,将情感规则库、情感词典与文本分析工具对接即可应用,如当遇到文本数据“这道菜不是太好吃”时,情感规则匹配命中,将根据情感词“好吃”的情感程度进行降低,然后反转为负面倾向。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种文本分析知识库的构建方法,其特征在于,包括专有词典模块,无效语句库模块,情感词典模块和情感规则库模块;
所述的专有词典模块主要是分析领域的新词、专有词汇;
所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容;
所述的情感词典模块主要是领域内情感词和情感倾向得分;
所述的情感规则库模块主要是对情感词典使用的一个补充。
2.根据权利要求1所述的一种文本分析知识库的构建方法,其特征在于,所述的专有词典模块加入词汇的方法是:(1).直接加入词汇;(2).加入词汇和权重;(3).加入词汇和词性;(4).词汇、词性和权重;加入后可以对词性和权重进行修改;使用时,根据需要将词典与分词工具或文本分析工具对接即可。
3.根据权利要求1所述的一种文本分析知识库的构建方法,其特征在于,所述的无效语句库模块加入无效的词汇和语句,加入方法为:(1).无效词语直接加入库中;(2).无效句子可以直接加入库中,或者用正则表达式的形式替代部分或全部内容并加入库中;使用时,将无效语句库和文本分析工具对接,剔除相关内容即可。
4.根据权利要求1所述的一种文本分析知识库的构建方法,其特征在于,所述的情感词典模块单独或批量地添加情感词以及其对应的情感分数,加入方法为:添加情感词,设置情感词对应的情感分值;使用时,将情感词典与文本分析工具对接,结合适合的情感算法即可应用。
5.根据权利要求1所述的一种文本分析知识库的构建方法,其特征在于,所述的情感规则库模块进行编辑设置后加入,加入后符合规则的模式都将对应相应的情感倾向。
CN201810233777.0A 2018-03-21 2018-03-21 一种文本分析知识库的构建方法 Pending CN108563630A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810233777.0A CN108563630A (zh) 2018-03-21 2018-03-21 一种文本分析知识库的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810233777.0A CN108563630A (zh) 2018-03-21 2018-03-21 一种文本分析知识库的构建方法

Publications (1)

Publication Number Publication Date
CN108563630A true CN108563630A (zh) 2018-09-21

Family

ID=63532935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810233777.0A Pending CN108563630A (zh) 2018-03-21 2018-03-21 一种文本分析知识库的构建方法

Country Status (1)

Country Link
CN (1) CN108563630A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125371A1 (en) * 2007-08-23 2009-05-14 Google Inc. Domain-Specific Sentiment Classification
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
US20130179423A1 (en) * 2012-01-05 2013-07-11 Sri International Computer-generated sentiment-based knowledge base
CN103886053A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于短文本评论的知识库构建方法
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN107038249A (zh) * 2017-04-28 2017-08-11 安徽博约信息科技股份有限公司 基于词典的网络舆情信息情感分类方法
CN107133283A (zh) * 2017-04-17 2017-09-05 北京科技大学 一种法律本体知识库自动构建方法
CN107305539A (zh) * 2016-04-18 2017-10-31 南京理工大学 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN107526795A (zh) * 2017-08-17 2017-12-29 晶赞广告(上海)有限公司 知识库的构建方法及装置、存储介质、计算设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125371A1 (en) * 2007-08-23 2009-05-14 Google Inc. Domain-Specific Sentiment Classification
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
US20130179423A1 (en) * 2012-01-05 2013-07-11 Sri International Computer-generated sentiment-based knowledge base
CN103886053A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于短文本评论的知识库构建方法
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN107305539A (zh) * 2016-04-18 2017-10-31 南京理工大学 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN107133283A (zh) * 2017-04-17 2017-09-05 北京科技大学 一种法律本体知识库自动构建方法
CN107038249A (zh) * 2017-04-28 2017-08-11 安徽博约信息科技股份有限公司 基于词典的网络舆情信息情感分类方法
CN107526795A (zh) * 2017-08-17 2017-12-29 晶赞广告(上海)有限公司 知识库的构建方法及装置、存储介质、计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕美香 等: "基于N-Gram文本表达的新闻领域关键词词典构建研究", 《情报科学》 *

Similar Documents

Publication Publication Date Title
CN105843897B (zh) 一种面向垂直领域的智能问答系统
WO2020258502A1 (zh) 文本分析方法、装置、计算机装置及存储介质
CN111767741A (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
CN107305539A (zh) 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
CN108388660B (zh) 一种改进的电商产品痛点分析方法
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN111125354A (zh) 文本分类方法及装置
CN107273348B (zh) 一种文本的话题和情感联合检测方法及装置
CN110245240A (zh) 一种问题数据答案的确定方法及装置
WO2020199600A1 (zh) 情感极性分析方法及相关装置
CN110781663A (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN110706028A (zh) 基于属性特征的商品评价情感分析系统
CN109960791A (zh) 判断文本情感的方法及存储介质、终端
JP2018025874A (ja) テキスト解析装置及びプログラム
CN103886053A (zh) 一种基于短文本评论的知识库构建方法
CN106446147A (zh) 一种基于结构化特征的情感分析方法
CN107895027A (zh) 个性情感知识图谱建立方法及装置
CN110442873A (zh) 一种基于cbow模型的热点工单获取方法及装置
CN109213998A (zh) 中文错字检测方法及系统
CN111782759B (zh) 一种问答处理方法、装置及计算机可读存储介质
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
Xu et al. Implicitly incorporating morphological information into word embedding
CN106055633A (zh) 一种中文微博主客观句分类方法
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921

RJ01 Rejection of invention patent application after publication