CN112926318A - 一种基于句法分析的网购评论新情感词提取方法 - Google Patents
一种基于句法分析的网购评论新情感词提取方法 Download PDFInfo
- Publication number
- CN112926318A CN112926318A CN202110219489.1A CN202110219489A CN112926318A CN 112926318 A CN112926318 A CN 112926318A CN 202110219489 A CN202110219489 A CN 202110219489A CN 112926318 A CN112926318 A CN 112926318A
- Authority
- CN
- China
- Prior art keywords
- words
- emotion
- new
- word
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于句法分析的中文新情感词提取方法,目的是在利用句法分析技术提取中文文本中的新情感词。该方法具体为:首先对中文商品评论语料库中的每条文本进行预处理以及分词;然后对语句进行句法分析生成语法树,遍历语法树形成对应的路径字符串,结合编辑距离来衡量两个词语所在语句的句法结构相似度,从而提取与旧情感词具有相似句法结构的新词作为候选新情感词;最后结合点互信息(SO‑PMI)和正负语料差商系数(DC‑NPC)计算候选新情感词的情感极性,将具有情感极性的词语加入新情感词集合。该方法考虑了上下文和句法信息,并解决了对候选词过滤精度不高的问题。它可以有效且准确地识别出新情感词,且新情感词的有效提取为文本情感分析也提供了基础支持。
Description
技术领域
本发明涉及文本分析技术领域,特别涉及一种基于句法分析的网购评论新情感词提取方法。
背景技术
随着电子商务在互联网上的应用和发展,大量的用户倾向于在购物平台上发布网购评论。网购评论文本可以为消费者或企业提供丰富的信息,包括客观具体的商品描述、准确真实的数据统计以及各类商品的知名度等。准确、有效地对网购评论进行情感分析具有很大的实用价值。情感词作为一种有用的先验知识,可以为后续的情感分析做基础性铺垫。由于情感词是人们表达意见或态度的基本语言单位,中文评论文本中也存在许多新情感词有待被挖掘,因此新情感词的提取无疑是一个至关重要的领域。
目前,一种有效的新情感词提取方法需要考虑以下两个方面:一方面,提取过程中保留更多的新情感词;另一方面,确保所提取的词语有明确的情感极性。本文可以将新情感词提取任务构想为:先从粗粒度层面挖掘出候选新情感词集合,再从细粒度层面筛选出具有情感极性的新情感词。
当前的新情感词提取方法存在以下不足:(1)普遍忽略上下文和句法信息; (2)所提取出的新情感词不够全面,存在许多新情感词未能被识别出来。中文网购评论文本也存在以下特点:(1)评论文本的句法结构高度相似;(2)评论文本包含较多的网络新词或新颖的情感词。
针对上述问题,本发明提出了一种基于句法分析的网购评论新情感词提取方法。该方法考虑了上下文及句法结构信息,且结合点互信息和新提出的“正负语料差异系数”共同计算词语的情感极性。该方法可以有效地识别出新情感词,它在一定程度上改善了新情感词提取中准确率和召回率低、情感极性不明显、对候选词的过滤精度不高等问题。
发明内容
本发明的目的是提供一种基于句法分析的网购评论新情感词提取方法,该方法可有效识别出新情感词,且准确率和召回率较高。为实现该发明目的,本发明提供的新情感词提取方法,其特征在于,包括以下步骤:
步骤1:建立中文商品评论语料并对其进行预处理,利用中科大分词工具 ICTCLSA对语料中的每条评论进行分词。
步骤2:结合编辑距离进行提取候选新情感词。利用句法分析技术将文本生成语法树,遍历语法树形成的遍历路径为字符串形式。结合编辑距离来计算字符串之间的相似度,从而衡量两个词语所在语句的句法结构相似性,最终提取出与旧情感词具有相似句法结构的新词作为候选新情感词。
步骤2.1:利用斯坦福大学的自然处理工具包Stanza对文本进行分句,然后利用该软件包对语句进行句法分析,从而获取每个句子的语法树结构信息。
步骤2.2:建立一个语法树结构表作为匹配模板,该表中存放多个常见句式的字符串表示,例如(ROOT-IP-VP-AD-VP-ADVP-VA),这些字符串即评论语句对应的语法树中从根节点到旧情感词节点的遍历路径。字符串反映了词语所在语句的句法结构信息。
步骤2.3:对分句处理后的每个子句进行子树生成,遍历每棵子树的语法树结构信息并生成字符串S。计算子句对应的字符串S和匹配模板中已有的字符串之间的编辑距离ED。当ED大于设定的阈值k时,视为句法结构不相似,则将该遍历字符串S加入语法树结构表进行更新匹配模板;当ED小于设定的阈值k 时,视为句法结构相似。
步骤2.4:创建一个空的结果表,并在结果表中创建新键(键值S),每个键对应存放具有相似句法结构的子句列表,即表中每一列的子句的句法结构均相似。
步骤2.5:将子句列表中的句子按照句法结构进行组内对齐,提取出与旧情感词具有相似句法结构信息的词语作为候选新情感词。
步骤3:将候选新情感词集合与已有的大连理工情感词典进行对比,去除重复的词汇。
步骤4:结合“点互信息SO-PMI”和“正负语料差商系数DC-NPC”来计算候选新情感词的情感极性,提取出具有情感极性的词语加入新情感词集合。
步骤4.1:对候选新情感词集合中的词语进行点互信息计算,即计算两个词语的语义相似度,计算公式如式(1)所示。PMI值越大,说明两个词的相关性越大。故分别计算候选新情感词与褒贬义基准词之间的语义相似度,并通过其差值来初步确定词语的情感极性,计算公式如(2)所示。
其中,P(word1&word2)表示两个单词同时出现在评论中的概率,P(word1)和 P(word2)表示word1和word2单独出现在评论中的概率。
其中,Pwi表示褒义基准词,Nwi表示贬义基准词,SO_PMI(word)表示词语的情感倾向性。
步骤4.2:对候选新情感词集合中的词语进行正负语料差商系数(DC-NPC) 计算,即计算该词在正向语料和负向语料中出现的词频差和词频和的比值,计算公式如(3)所示。正负语料差异系数(DC-NPC)的变化范围是-1到1,其绝对值越接近1,则越有可能具备情感极性。依据DC(word)值大小的不同来判断词语的情感极性,该分段函数公式如(4)所示。
其中,Fpos(word)和Fneg(word)分别表示该词在正向语料库和负向语料库中出现的次数。
其中,δ(word)表示候选新情感词的情感极性。
步骤4.3:针对点互信息SO-PMI的计算结果而言,如果SO_PMI(word)>0,则将该词加入正向新情感词集合;若SO_PMI(word)<0,则将该词加入负向新情感词集合;否则,我们认为该词不能被加入新情感词集合中,删除该词语。
步骤4.4:针对正负语料差商系数DC-NPC的计算结果而言,如果 0.5≤DC(word)<1,δ(word)=1,则将该词保留在正向新情感词集合;如果 -1<DC(word)≤-0.5,δ(word)=-1,则将该词保留在负向新情感词集合;否则,我们认为该词不能被加入到新情感词集合中,删除该词语。即若DC(word)的值不满足阈值条件,则将该词从正向或负向新情感词集合中移除,再将过滤后的正负向新情感词集合合并为最终的新情感词集合。
本发明提供的一种基于句法分析的网购评论新情感词提取方法,其有益效果体现在:(1)本发明借助句法分析技术和编辑距离来提取候选新情感词,考虑了词语的上下文及句法信息;(2)本发明结合点互信息与正负语料差商系数二者共同计算词语的情感极性,解决了对候选新情感词的过滤精度不够高的问题。
附图说明
图1是本发明具体实施方式提供的新情感词提取方法的系统框架图。
图2是本发明具体实施方式提供的基于编辑距离的候选新情感词提取方法的流程图。
图3是本发明具体实施方式提供的基于SO-PMI和DC-NPC的情感极性计算方法的流程图。
图4是本发明说明书摘要提供的新情感词提取方法示意图。
具体实施方式
以下通过具体实施例对本发明提供的新情感词提取方法做进一步解释说明。如图1所示,本发明提供的新情感词提取方法的系统框架图,步骤包括:
步骤1:建立中文商品评论语料并对其进行预处理,利用中科大分词工具 ICTCLSA对语料中的每条评论进行分词。
步骤1.1:构建商品评论语料库。利用爬虫从京东商城爬取多条商品评论作为实验数据,其中包括“电脑评论”、“洗衣粉评论”、“画板评论”、“家居服评论”等四种商品评论。
步骤1.2:对商品评论语料进行去除无用字符及特殊符号(如:"#$%&()*+@'),结合停用词表过滤掉停用词,错别字纠正、简繁体转换等规范化操作。
步骤1.3:使用中科大分词工具ICTCLSA对中文商品评论语料库的每条评论进行分词。
步骤2:结合编辑距离进行提取候选新情感词,具体实施方式如图2所示。利用句法分析技术将文本生成语法树,遍历语法树形成的遍历路径为字符串形式。结合编辑距离来计算字符串之间的相似度,从而衡量两个词语所在语句的句法结构相似性,最终提取出与旧情感词具有相似句法结构的新词作为候选新情感词。
步骤2.1:利用斯坦福大学的自然处理工具包Stanza对文本进行分句,然后利用该软件包对语句进行句法分析,从而获取每个句子的语法树结构信息。
步骤2.2:建立一个语法树结构表作为匹配模板,该表中存放多个常见句式的字符串表示,例如(ROOT-IP-VP-AD-VP-ADVP-VA),这些字符串即评论语句对应的语法树中从根节点到旧情感词节点的遍历路径。字符串反映了词语所在语句的句法结构信息。
步骤2.3:对分句处理后的每个子句进行子树生成,遍历每棵子树的语法树结构信息并生成字符串S。计算子句对应的字符串S和匹配模板中已有的字符串之间的编辑距离ED。当ED大于设定的阈值k时,视为句法结构不相似,则将该遍历字符串S加入语法树结构表进行更新匹配模板;当ED小于设定的阈值k 时,视为句法结构相似。
步骤2.4:创建一个空的结果表,并在结果表中创建新键(键值S),每个键对应存放具有相似句法结构的子句列表,即表中每一列的子句的句法结构均相似。
步骤2.5:将子句列表中的句子按照句法结构进行组内对齐,提取出与旧情感词具有相似句法结构信息的词语作为候选新情感词。
步骤3:将候选新情感词集合与已有的大连理工情感词典进行对比,去除重复的词汇。
步骤4:结合“点互信息SO-PMI”和“正负语料差商系数DC-NPC”来计算候选新情感词的情感极性,提取出具有情感极性的词语加入新情感词集合,具体实施方式如图3所示。
步骤4.1:对候选新情感词集合中的词语进行点互信息计算,即计算两个词语的语义相似度,计算公式如式(1)所示。PMI值越大,说明两个词的相关性越大。故分别计算候选新情感词与褒贬义基准词之间的语义相似度,并通过其差值来初步确定词语的情感极性,计算公式如(2)所示。
其中,P(word1&word2)表示两个单词同时出现在评论中的概率,P(word1)和 P(word2)表示word1和word2单独出现在评论中的概率。
其中,Pwi表示褒义基准词,Nwi表示贬义基准词,SO_PMI(word)表示词语的情感倾向性。
步骤4.2:对候选新情感词集合中的词语进行正负语料差商系数(DC-NPC) 计算,即计算该词在正向语料和负向语料中出现的词频差和词频和的比值,计算公式如(3)所示。正负语料差异系数(DC-NPC)的变化范围是-1到1,其绝对值越接近1,则越有可能具备情感极性。依据DC(word)值大小的不同来判断词语的情感极性,该分段函数公式如(4)所示。
其中,Fpos(word)和Fneg(word)分别表示该词在正向语料库和负向语料库中出现的次数。
其中,δ(word)表示候选新情感词的情感极性。
步骤4.3:针对点互信息SO-PMI的计算结果而言,如果SO_PMI(word)>0,则将该词加入正向新情感词集合;若SO_PMI(word)<0,则将该词加入负向新情感词集合;否则,我们认为该词不能被加入新情感词集合中,删除该词语。
步骤4.4:针对正负语料差商系数DC-NPC的计算结果而言,如果0.5≤DC(word)<1,δ(word)=1,则将该词保留在正向新情感词集合;如果 -1<DC(word)≤-0.5,δ(word)=-1,则将该词保留在负向新情感词集合;否则,我们认为该词不能被加入到新情感词集合中,删除该词语。即若DC(word)的值不满足阈值条件,则将该词从正向或负向新情感词集合中移除,再将过滤后的正负向新情感词集合合并为最终的新情感词集合。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (3)
1.一种基于句法分析的网购评论新情感词提取方法,其特征在于:首先对中文商品评论语料库中的每条文本进行预处理以及分词;然后对语句进行句法分析生成语法树,遍历语法树形成对应的路径字符串,并结合编辑距离来提取候选新情感词;最后结合点互信息(SO-PMI)和正负语料差异系数(DC-NPC)来计算候选新情感词的情感极性,提取出具有情感极性的词语加入新情感词集合。
2.根据权利要求1所述的基于编辑距离的候选新情感词提取方法,其特征在于:对文本进行句法分析生成语法树,遍历语法树形成对应的路径字符串;结合编辑距离来计算两个字符串之间的相似度,从而衡量两个词语所在语句的句法结构相似性;提取出与旧情感词具有相似句法结构的新词作为候选新情感词。
3.根据权利要求1所述的基于SO-PMI和DC-NPC的情感极性计算方法,其特征在于:利用点互信息SO-PMI计算候选词与褒贬义基准词之间的语义相似度,并通过差值来初步确定候选新情感词的情感极性;再引入新概念“正负语料差异系数DC-NPC”来判断候选新情感词的情感极性,即词语在正负语料中的词频差和词频和的比值;最终将具有情感极性的词语加入新情感词集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110219489.1A CN112926318A (zh) | 2021-02-26 | 2021-02-26 | 一种基于句法分析的网购评论新情感词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110219489.1A CN112926318A (zh) | 2021-02-26 | 2021-02-26 | 一种基于句法分析的网购评论新情感词提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112926318A true CN112926318A (zh) | 2021-06-08 |
Family
ID=76172347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110219489.1A Pending CN112926318A (zh) | 2021-02-26 | 2021-02-26 | 一种基于句法分析的网购评论新情感词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926318A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521628A (zh) * | 2023-11-20 | 2024-02-06 | 中诚华隆计算机技术有限公司 | 基于人工智能的剧本创作方法、装置、设备及芯片 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170192955A1 (en) * | 2015-12-30 | 2017-07-06 | Nice-Systems Ltd. | System and method for sentiment lexicon expansion |
CN111221962A (zh) * | 2019-11-18 | 2020-06-02 | 重庆邮电大学 | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 |
CN111259661A (zh) * | 2020-02-11 | 2020-06-09 | 安徽理工大学 | 一种基于商品评论的新情感词提取方法 |
CN111339403A (zh) * | 2020-02-11 | 2020-06-26 | 安徽理工大学 | 一种基于商品评论新词提取方法 |
-
2021
- 2021-02-26 CN CN202110219489.1A patent/CN112926318A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170192955A1 (en) * | 2015-12-30 | 2017-07-06 | Nice-Systems Ltd. | System and method for sentiment lexicon expansion |
CN111221962A (zh) * | 2019-11-18 | 2020-06-02 | 重庆邮电大学 | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 |
CN111259661A (zh) * | 2020-02-11 | 2020-06-09 | 安徽理工大学 | 一种基于商品评论的新情感词提取方法 |
CN111339403A (zh) * | 2020-02-11 | 2020-06-26 | 安徽理工大学 | 一种基于商品评论新词提取方法 |
Non-Patent Citations (3)
Title |
---|
DAVID LOSHIN: "《数据质量改进实践指南》", 31 August 2016, 国防工业出版社 * |
QIAOYUN WANG ET AL: "Building Sentiment Word Lexicon for Chinese Movie Comments", 《ATCI 2019》 * |
王侨云 等: "基于词间距和点互信息的影评情感词库构建", 《阜阳师范学院学报(自然科学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521628A (zh) * | 2023-11-20 | 2024-02-06 | 中诚华隆计算机技术有限公司 | 基于人工智能的剧本创作方法、装置、设备及芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210157975A1 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN109213995B (zh) | 一种基于双语词嵌入的跨语言文本相似度评估技术 | |
CN107797991B (zh) | 一种基于依存句法树的知识图谱扩充方法及系统 | |
CN113076739A (zh) | 一种实现跨领域的中文文本纠错方法和系统 | |
CN112417891B (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
Evert | A Lightweight and Efficient Tool for Cleaning Web Pages. | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN113282701A (zh) | 作文素材生成方法、装置、电子设备及可读存储介质 | |
CN115269834A (zh) | 一种基于bert的高精度文本分类方法及装置 | |
CN111814476A (zh) | 一种实体关系的抽取方法和装置 | |
CN112597768B (zh) | 文本审核方法、装置、电子设备、存储介质及程序产品 | |
CN112926318A (zh) | 一种基于句法分析的网购评论新情感词提取方法 | |
CN111259661B (zh) | 一种基于商品评论的新情感词提取方法 | |
CN103914447A (zh) | 信息处理设备和信息处理方法 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
CN115203429A (zh) | 一种用于构建审计领域本体框架的知识图谱自动扩充方法 | |
CN111753540B (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 | |
CN114239583A (zh) | 实体链指模型的训练及实体链指方法、装置、设备及介质 | |
CN111259159A (zh) | 数据挖掘方法、装置和计算机可读存储介质 | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
Bansal et al. | Online Insurance Business Analytics Approach for Customer Segmentation | |
CN116910175B (zh) | 自动化移动设备故障层级树构建方法、装置及储存介质 | |
CN111046182B (zh) | 一种构建互联网短文本情绪标注语料库的方法 | |
CN113609861B (zh) | 基于食品文献数据的多维度特征命名实体识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210608 |