CN113326694B - 基于情感传播的隐式情感词典生成方法 - Google Patents
基于情感传播的隐式情感词典生成方法 Download PDFInfo
- Publication number
- CN113326694B CN113326694B CN202110542789.3A CN202110542789A CN113326694B CN 113326694 B CN113326694 B CN 113326694B CN 202110542789 A CN202110542789 A CN 202110542789A CN 113326694 B CN113326694 B CN 113326694B
- Authority
- CN
- China
- Prior art keywords
- emotion
- word
- words
- propagation
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及计算机领域,具体是基于情感传播的隐式情感词典生成方法,包括如下步骤:步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言;步骤二、通过词法与句法分析将句子构成句法树,将句法树中的名词、动词以及形容词提取出来构建成为完全图;步骤三、在完全图中进行情感传播,当情感传播结束后即可获得隐式情感词典,解决了隐式情感词典的构建通过人工标注数据,耗费人力物力以及时间的问题。
Description
技术领域
本发明涉及计算机领域,具体是指基于情感传播的隐式情感词典生成方法。
背景技术
现阶段针对隐式情感词典的构建是通过人工标注数据的方式实现,这是一种十分耗费人力物力以及时间的工作。
Stanford CoreNLP是斯坦福大学制作的开源NLP(Natural LanguageProcessing)工具,能够对中文进行词法与句法分析,以及命名实体识别;PolarityRank算法是结合了PageRank算法与Hits算法,通过情感传播,对词语图中情感值进行排名的一种算法;通过引入外部知识,可以更容易的得到初始情感值,减轻人为打标签的负担。
通过将上述三种方法引入隐式情感词典的构建,能够最大程度的解决人工标注耗费人力物力以及时间的问题。
发明内容
基于以上问题,本发明提供了基于情感传播的隐式情感词典生成方法,解决了隐式情感词典的构建通过人工标注数据,耗费人力物力以及时间的问题。
为解决以上技术问题,本发明采用的技术方案如下:
基于情感传播的隐式情感词典生成方法,包括如下步骤:
步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言,恢复后的文本数据记为S={s1,s2,s3,......,sn},其中,sn表示第n个恢复成自然语言的句子;
步骤二、将恢复后的文本数据S={s1,s2,s3,......,sn}构建成为句法树T={t1,t2,t3,......,tn},其中tn表示第n个生成的句法树,将句法树中的名词、动词以及形容词提取出来构建成为完全图G={G1,G2,......,Gn},其中Gn表示第n个由句法树生成的完全图;
步骤三、在完全图Gn中进行情感传播,当情感传播结束后即可获得隐式情感词典;
所述步骤三具体包括:
步骤33、情感传播开始后,计算显示情感词语vi的传播率、受到邻居节点的影响、错别字与词语错误搭配的情况、情感传播以及情感不传播的情况;
步骤34、每次情感传播后计算情感词语vi更新后的情感值;
进一步,所述步骤一中,对非正式文本数据进行处理,恢复成自然语言具体包括:
步骤11、清理掉无用信息,无用信息包括社交媒体为文本数据携带的内容、表情符号、非中文内容;
步骤12、将繁体中文转换成简体中文;
步骤13、对句子进行切割;
步骤14、经步骤11~13处理后的文本数据记为S={s1,s2,s3,......,sn}。
进一步,所述步骤二中具体包括如下步骤:
步骤21、利用Stanford CoreNLP软件将S中的句子进行词法与句法分析,构建句法树,句法树包括包含词语、词性以及词语之间的依赖关系;
步骤22、将句法树中的名词、动词以及形容词提取出来,并通过Stanford CoreNLP软件对每个句子sn进行命名实体识别,清理掉标签为DATE的命名实体,每一个句子sn提取出的词语记为wn={w1,w2,w3,......,wm},其中,wm表示第m个被提取出的词语;
步骤23、采用python处理图数据的库networkx进行完全图的构建,完全图中节点为提取出的词语wn,每两个节点间都有边,边权为两个词语在语料库中出现的频率,完全图中所有句子构成语料库。
进一步,所述步骤33具体包括如下:
步骤332、计算每个节点在某一时刻受到邻居节点的影响,计算公式为:
wij=P(wordi,wordj);
其中,表示显示情感词语vi在t时刻受到邻居节点的影响,wij表示词语i和词语j在语料库中的共现频率,表示词语j在某一时刻的传播率,P(wordi,wordj)表示词语i和词语j在语料库中共现的概率,F(wordi,wordj)表示词语i和词语j在语料库中的共现频率,N表示语料库中所有句子的数量,完全图中所有句子构成语料库;
其中,λ用于衡量词语间情感传播的概率,μ用于衡量错别字与词语搭配错误的概率;
进一步,所述步骤35中,归一化公式为:
进一步,所述步骤36中,获得隐式情感词汇的情感极性的公式为:
与现有技术相比,本发明的有益效果是:本发明通过网络爬虫技术与清洗,将非正式文本恢复为语言,并切割为句子,接着结合NLP技术中的词法句法分析以及命名实体识别,有效提取出文本中的名词、动词、形容词,并根据这些词语将句子构建成为了句法树;第三步,我们通过定义的规则将句法树构建成为了句法图,在句法图中进行相关的情感传播,情感传播过程中我们还考虑了传播参数以及词语搭配错误参数用于提高情感传播的准确率,最终我们对获得的词语的情感值进行归一化处理,便获得了我们最终的词典。
附图说明
图1为本实施例的流程图;
图2为本实施例构成的句法图;
图3为本实施例构成的完全图;
图4为本实施例情感传播的示意图。
具体实施方式
下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。
如图1所示的基于情感传播的隐式情感词典生成方法,包括如下步骤:
步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言,恢复后的文本数据记为S={s1,s2,s3,......,sn},其中,sn表示第n个恢复成自然语言的句子;
进一步的是,对非正式文本数据进行处理,恢复成自然语言具体包括:
步骤11、清理掉无用信息,无用信息包括如下:
(1)社交媒体为文本数据携带的内容,例如用户名连接“@username”,回复的内容“回复@username”;
(2)例如颜文字、表情符号等;
(3)非中文内容,例如网络流行语“xswl”;
(4)将话题标签替换为原文文字,例如“#专利”替换成“专利”;
步骤12、将繁体中文转换成简体中文,例如,“我愛中國”转化为“我爱中国”;
步骤13、对句子进行切割,由于社交媒体中用户对于标点符号胡乱使用,所以需要对句子进行切割,以免造成不用句子间的影响,切割的标准为“。”、“.”、“!”、“!”、“?”、“?”,例如“你们听见了吗?那个声音”切割为“你们听见了吗”,“那个声音”;
步骤14、经步骤11~13处理后的文本数据记为S={s1,s2,s3,......,sn}。
步骤二、将恢复后的文本数据S={s1,s2,s3,......,sn}构建成为句法树T={t1,t2,t3,......,tn},其中tn表示第n个生成的句法树,将句法树中的名词、动词以及形容词提取出来构建成为完全图G={G1,G2,......,Gn},其中Gn表示第n个由句法树生成的完全图;
进一步的是,具体包括如下步骤:
步骤21、利用Stanford CoreNLP软件将S中的句子进行词法与句法分析,构建句法树,句法树包括包含词语、词性以及词语之间的依赖关系,效果图如图2所示;
步骤22、将句法树中的名词、动词以及形容词提取出来,并通过Stanford CoreNLP软件对每个句子sn进行命名实体识别,清理掉标签为DATE的命名实体,每一个句子sn提取出的词语记为wn={w1,w2,w3,......,wm},其中,wm表示第m个被提取出的词语;
步骤23、采用python处理图数据的库networkx进行完全图的构建,如图3所示,完全图中节点为提取出的词语wn,每两个节点间都有边,边权为两个词语在语料库中出现的频率,每个句子sn构建成的完全图Gi=(V,E),其中,V是由词语构成的节点集合,E是边集。
步骤三、在完全图中进行情感传播,当情感传播结束后即可获得隐式情感词典;
进一步的是,步骤三具体包括:
步骤31、通过引入外部知识,例如大连理工情感词汇本体,完全图Gn每个节点的词语称为显示情感词语vi,引入大连理工情感词典本体为显示情感词语vi分配初始情感值,其中,预设显示情感词语vi的情感值为同时,需要对情感值作归一化处理,由于大连理工情感词典本体的情感极性是1,3,5,7,9,采用如下公式对显示情感词语vi的情感值进行归一化处理:
步骤32、预设完全图Gn中每个节点的显示情感词语vi有两个情感值和其中,是词语的正向情感值,是负向情感值,根据大连理工情感词典本体的情感极性,为显示情感词语vi的两个情感值和分配初始情感值,分配原则如下:
步骤33、情感传播开始后,如图4所示,计算显示情感词语vi的传播率、受到邻居节点的影响、错别字与词语错误搭配的情况、情感传播以及情感不传播的情况,具体包括如下步骤:
步骤331、当分配初始情感值后,需要对节点间的边权进行赋值,赋值的内容为两节点在语料库中共现的概率,计算公式为:
wij=P(wordi,wordj),
其中,wij表示词语i和词语j在语料库中的共现频率,P(wordi,wordj)表示词语i和词语j在语料库中共现的概率,F(wordi,wordj)表示词语i和词语j在语料库中的共现频率,N表示语料库中所有句子的数量;
步骤333、计算每个节点在某一时刻受到邻居节点的影响,计算公式为:
步骤334、由于考虑到句子中有可能会有错别字与词语搭配错误的情况,特别是在非正式文本中会有词语之间搭配错误使用的情况,所以设置两个参数λ和μ来刻画情感传播率与情感不传播率,因此,计算每个时刻显示情感词语vi的情感传播情况公式如下:
其中,λ用于衡量词语间情感传播的概率,μ用于衡量错别字与词语搭配错误的概率;
步骤34、每次情感传播后计算情感词语vi更新后的情感值,具体包括如下:
步骤334主要考虑到传播过程中的平衡,但是还需着重考虑情感的传播过程,情感传播后,显示情感词语vi能够传播这么多比例的情感值,以此计算每次情感传播后词语的情感值,情感传播后正向的情感值为负向的情感值为其计算公式为:
如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (8)
1.基于情感传播的隐式情感词典生成方法,其特征在于,包括如下步骤:
步骤一、通过网络爬虫技术提取出社交媒体中的文本数据,并对非正式文本数据进行处理,恢复成自然语言,恢复后的文本数据记为S={s1,s2,s3,......,sn},其中,sn表示第n个恢复成自然语言的句子;
步骤二、将恢复后的文本数据S={s1,s2,s3,......,sn}构建成为句法树T={t1,t2,t3,......,tn},其中tn表示第n个生成的句法树,将句法树中的名词、动词以及形容词提取出来构建成为完全图G={G1,G2,......,Gn},其中Gn表示第n个由句法树生成的完全图;
步骤三、在完全图中进行情感传播,当情感传播结束后即可获得隐式情感词典;
所述步骤三具体包括:
步骤33、情感传播开始后,计算显示情感词语vi的传播率、受到邻居节点的影响、错别字与词语错误搭配的情况、情感传播以及情感不传播的情况;
所述步骤33具体包括如下:
步骤332、计算每个节点在某一时刻受到邻居节点的影响,计算公式为:
wij=P(wordi,wordj);
其中,表示显示情感词语vi在t时刻受到邻居节点的影响,wij表示词语i和词语j在语料库中的共现频率,表示词语j在某一时刻的传播率,P(wordi,wordj)表示词语i和词语j在语料库中共现的概率,F(wordi,wordj)表示词语i和词语j在语料库中的共现频率,N表示语料库中所有句子的数量,完全图中所有句子构成语料库;
其中,λ用于衡量词语间情感传播的概率,μ用于衡量错别字与词语搭配错误的概率;
步骤34、每次情感传播后计算情感词语vi更新后的情感值;
2.根据权利要求1所述的基于情感传播的隐式情感词典生成方法,其特征在于,所述步骤一中,对非正式文本数据进行处理,恢复成自然语言具体包括:
步骤11、清理掉无用信息,无用信息包括社交媒体为文本数据携带的内容、表情符号、非中文内容;
步骤12、将繁体中文转换成简体中文;
步骤13、对句子进行切割;
步骤14、经步骤11~13处理后的文本数据记为S={s1,s2,s3,......,sn}。
3.根据权利要求1所述的基于情感传播的隐式情感词典生成方法,其特征在于,所述步骤二中具体包括如下步骤:
步骤21、利用Stanford CoreNLP软件将S中的句子进行词法与句法分析,构建句法树,句法树包括包含词语、词性以及词语之间的依赖关系;
步骤22、将句法树中的名词、动词以及形容词提取出来,并通过Stanford CoreNLP软件对每个句子sn进行命名实体识别,清理掉标签为DATE的命名实体,每一个句子sn提取出的词语记为wn={w1,w2,w3,......,wm},其中,wm表示第m个被提取出的词语;
步骤23、采用python处理图数据的库networkx进行完全图的构建,完全图中节点为提取出的词语wn,每两个节点间都有边,边权为两个词语在语料库中出现的频率,完全图中所有句子构成语料库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110542789.3A CN113326694B (zh) | 2021-05-18 | 2021-05-18 | 基于情感传播的隐式情感词典生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110542789.3A CN113326694B (zh) | 2021-05-18 | 2021-05-18 | 基于情感传播的隐式情感词典生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326694A CN113326694A (zh) | 2021-08-31 |
CN113326694B true CN113326694B (zh) | 2022-09-30 |
Family
ID=77416015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110542789.3A Active CN113326694B (zh) | 2021-05-18 | 2021-05-18 | 基于情感传播的隐式情感词典生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326694B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947951A (zh) * | 2019-03-19 | 2019-06-28 | 北京师范大学 | 一种可自动更新的用于金融文本分析的情感字典构建方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766331A (zh) * | 2017-11-10 | 2018-03-06 | 云南大学 | 对单词情感值进行自动标定的方法 |
CN109376239B (zh) * | 2018-09-29 | 2021-07-30 | 山西大学 | 一种用于中文微博情感分类的特定情感词典的生成方法 |
CN111353044B (zh) * | 2020-03-09 | 2022-11-11 | 重庆邮电大学 | 一种基于评论的情感分析方法及系统 |
CN112686765A (zh) * | 2020-12-09 | 2021-04-20 | 天津大学 | 一种基于社交网络的信息传播规律挖掘方法 |
-
2021
- 2021-05-18 CN CN202110542789.3A patent/CN113326694B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947951A (zh) * | 2019-03-19 | 2019-06-28 | 北京师范大学 | 一种可自动更新的用于金融文本分析的情感字典构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113326694A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khan et al. | A survey on the state-of-the-art machine learning models in the context of NLP | |
Saha et al. | Proposed approach for sarcasm detection in twitter | |
JP6676110B2 (ja) | 発話文生成装置とその方法とプログラム | |
Pala et al. | DESAM—annotated corpus for Czech | |
Davydov et al. | Mathematical method of translation into Ukrainian sign language based on ontologies | |
Vysotska et al. | Defining author's style for plagiarism detection in Academic Environment | |
CN114528919A (zh) | 自然语言处理方法、装置及计算机设备 | |
Lertpiya et al. | A preliminary study on fundamental Thai NLP tasks for user-generated web content | |
Kouremenos et al. | A novel rule based machine translation scheme from Greek to Greek Sign Language: Production of different types of large corpora and Language Models evaluation | |
Liu et al. | Paraphrastic language models | |
CN113326694B (zh) | 基于情感传播的隐式情感词典生成方法 | |
Khorjuvenkar et al. | Parts of speech tagging for Konkani language | |
Agrawal et al. | Comparative analysis of NLP models for Google Meet Transcript summarization | |
Mammadov et al. | Part-of-speech tagging for azerbaijani language | |
Tafforeau et al. | Adapting lexical representation and OOV handling from written to spoken language with word embedding. | |
CN108694165A (zh) | 面向产品评论的跨领域对偶情感分析方法 | |
CN112347786A (zh) | 人工智能评分训练方法和装置 | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
Cabada et al. | Methods for Data Representation | |
Xie et al. | Building a Parallel Corpus for English Translation Teaching Based on Computer-Aided Translation Software | |
Boroş et al. | Romanian-English speech translation | |
JP2019087058A (ja) | 文章中の省略を特定する人工知能装置 | |
Kim | Comma Analysis and Processing for Improving Translation Quality of Long Sentences in Rule-based English-Korean Machine Translation. | |
Minn et al. | Myanmar word stemming and part-of-speech tagging using rule based approach | |
Totade et al. | Natural Language Processing (NLP): A Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |