CN107832297A - 一种面向特征词粒度的领域情感词典构建方法 - Google Patents
一种面向特征词粒度的领域情感词典构建方法 Download PDFInfo
- Publication number
- CN107832297A CN107832297A CN201711096968.9A CN201711096968A CN107832297A CN 107832297 A CN107832297 A CN 107832297A CN 201711096968 A CN201711096968 A CN 201711096968A CN 107832297 A CN107832297 A CN 107832297A
- Authority
- CN
- China
- Prior art keywords
- word
- pairs
- pair
- polarity
- word pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种面向特征词粒度的领域情感词典构建方法,目的是在具体商品领域构建针对特征词粒度的情感词典。首先,建立与商品类别相关的领域语料库;然后,对每条评论进行分词、词性标记和依存关系分析,并基于规则从每条评论中提取<特征词,情感词>词对;在此基础上,建立词对之间的约束关系矩阵和相似度矩阵;基于词对之间的约束关系和相似度,分别计算词对的正向转移概率矩阵和负向转移概率矩阵;最后利用双向标签传播算法计算每个词对的极性值并据此对词对进行情感标记。
Description
技术领域
本发明属于人工智能的文本分析技术领域,特别涉及一种面向特征词粒度的领域情感词典构建方法。
背景技术
随着电子商务网站的爆炸式发展,人们已经越来越习惯通过互联网来购买商品以及对所购买的商品进行评论,在购买商品时也通常习惯参考用户评论来了解商品的特点和质量。然而对于海量评论,用户很难直接从评论中获取直观有效的信息。目前通常利用文本分析技术对评论进行特征分析和情感分析,从而提取出商品的特点以及用户对商品特点的情感色彩。例如一条关于手机的评论如下:“外观漂亮,信号不错,性价比高”。利用已有的文本分析技术可以提出如下的商品特点及对应的情感词:特征词为“外观”,修饰的情感词为“漂亮”;特征词为“信号”,修饰的情感词为“不错”;特征词为“性价比”,修饰的情感词为“高”。进一步,为了分析评论用户对每个特征的情感色彩,情感分析技术通常使用通用情感词典判断每个情感词的极性,例如“漂亮”和“不错”是褒义词,这里情感词的极性是指情感词是褒义、中性、贬义,通常使用正的极性表示褒义,使用负的极性表示贬义。然而使用通用情感词典的问题在于,有的情感词在修饰不同的特征词时会表现出不同的极性。例如“高”在修饰“价格”时,是负面的情感表达,是贬义词;而在修饰“性价比”这个特征词时是正面的情感表达,是褒义词;类似“快”在修饰“涨价”时极性为负,而在修饰“送货”时极性为正。
目前已有的情感词典构建方法主要分为:基于通用词典的方法和基于语料库的方法。其中基于通用词典的方法是将已知极性的情感词在通用词典中通过同义词和反义词关系进行扩展,来获得更多的情感词及对应的情感极性。这种方案的主要缺点在于,通用词典对于一些新的情感词的识别能力不够,例如“给力”,“差评”,可能通用词典中就没有这类词语的条目;此外,对于同一个情感词在修饰不同特征词时的极性差异,这种方案也不能识别。基于语料库的方法是对语料库中的语句进行依存关系分析,得到情感词和情感词之间的关系,例如并列关系、转折关系等,然后根据情感词之间的关系,建立情感词的关系图,最后利用图的迭代算法来确定情感词的极性。基于语料库的方案能够解决新词的识别问题,以及能够区分不同领域情感词的差异,但是目前的方案仍然不能解决同一个情感词在修饰不同特征词时极性发生反转的问题。为此本发明提出一个面向特征词粒度的领域情感词典构建方法。该方法不仅考虑了情感词在修饰不同领域的特征词时的极性差异,而且考虑了情感词在修饰同一个领域的不同特征词时的极性差异,从而提升了自动构建领域情感词典的准确性。
发明内容
本发明的目的是提供一种面向特征词粒度的领域情感词典构建方法,该方法能够基于领域语料库自动构建面向特征词粒度的领域情感词典。为实现上述发明目的,本发明提供的领域情感词典构建方法,其特征在于,包括以下步骤:
步骤1:将商品的评论语料库按商品领域进行分割得到领域语料库,每个领域语料库中的评论都是关于同一类商品的评价;
步骤2:对领域语料库中的每条评论进行预处理,并根据依存关系和词性搭配规则提取< 特征词,情感词>词对,具体步骤为:
步骤2.1:对语料库中的每条评论进行预处理,首先利用正则匹配规则对评论语句中包含的标点符号和空格进行规范化处理,然后使用模糊匹配算法纠正评论语句中的错别字;
步骤2.2:利用自然语言处理工具对每条评论进行分词、词性标注和依存关系分析;
步骤2.3:利用设置的依存关系和词性搭配规则对每条评论提取<特征词,情感词>词对;
步骤3:根据设置的转折词集合和否定词集合,分析<特征词,情感词>词对在评论语句中的约束关系,构建词对之间的约束关系矩阵E,具体步骤为:
步骤3.1:依次建立每条评论所包含的<特征词,情感词>词对的约束关系矩阵,如表1所示,矩阵元素为两个词对的约束关系值,两个词对的约束关系判断方法如下:首先判断词对之间是否有转折关系,如果存在转折关系,则转折词前面的所有词对与转折词后面的所有词对之间的约束关系均为转折关系,存在转折关系的两个词对的约束关系值为-1;如果两个词对不存在转折关系,则两个词对的默认约束关系值设置为+1;然后判断每个<特征词,情感词>词对是否有否定词修饰,如果存在一个否定词修饰,则将该词对与其他所有词对的约束关系值乘以-1;如果不存在否定词修饰,则保持该词对与其他所有词对的约束关系值不变;如果存在双重否定的修饰关系,则将该词对与其他所有词对的约束关系值不变;
表1每条评论的词对约束关系矩阵
词对1 | 词对2 | … | 词对n | |
词对1 | e11 | e12 | … | e1n |
… | … | … | … | … |
词对n | en1 | en2 | … | enn |
步骤3.2:将所有评论的约束关系矩阵按相同词对进行合并,得到包含所有词对的约束关系矩阵E,这个新的约束关系矩阵是一个对称矩阵,每行或每列的元素个数为所有词对的个数 m;如果一个词对与某些词对没有在评论中同时出现过,则约束关系值为0;如果两个词对在评论中同时出现过,则对应的元素值为这两个词对在所有出现过的评论对应的约束关系矩阵中的约束关系值求和;
步骤4:基于公式(1)计算任意两个词对相似度,其中sim(A,B)表示词对A和词对B的相似度,num(A,B)表示词对A和词对B在评论中同时出现的次数,num+(A,B)表示两个词对在评论中约束关系值为+1的次数,num-(A,B)表示两个词对在评论中的约束关系值为-1的次数, link(A)表示与词对A在评论中同时出现过的词对的集合,link(B)表示与词对B同时出现过的词对的集合,i表示对应集合中的词对,得到词对的相似度矩阵;
步骤5:分别根据词对之间的约束关系值和相似度计算词对之间的转移概率矩阵,这里的转移概率矩阵包括正向转移概率矩阵和负向转移概率矩阵,首先计算约束关系值大于0的词对之间的正向传播概率矩阵,约束关系值大于0说明两个词对的极性值是相同的,计算公式如(2) 所示,这里t+(i,j)表示词对i到词对j的正向转移概率,P(i)表示与词对i极性相同的词对集合;然后计算约束关系值小于0的词对之间的负向转移概率矩阵,计算公式如(3)所示,这里 t-(i,j)表示词对i到词对j的负向转移概率,N(i)表示与词对i极性相反的词对集合;
步骤6:基于一个双向标签传播算法计算每个<特征词,情感词>词对的极性值,具体步骤为:
步骤6.1:根据正向和负向的转移概率矩阵建立<特征词,情感词>词对的转移概率图,图中的每个节点对应一个词对,如果两个词对对应的正向转移概率或者负向转移概率的值不为0,则两个词对对应的节点之间建立一条有向边,边的权值为两个对应节点的转移概率,如果两个词对的约束关系值大于0,则边的权值为两个词对的正向转移概率,如果两个词对的约束关系值小于0,则边的权值为两个词对的负向转移概率;
步骤6.2:在词对的转移概率图中确定种子节点,这些种子节点对应的词对有确定的极性值,定义褒义词对的极性值为+1,贬义词对的极性值为-1;种子词对的选择通常采用手动完成,包括若干极性值为+1的词对和若干极性值为-1的词对;
步骤6.3:设置转移概率图中每个<特征词,情感词>词对的初始极性,其中具有正极性的种子词对的初始极性标记为+1,具有负极性的种子词对的初始极性标记为-1,其余词对的初始极性值标记为0,记为这里表示词对i的初始的极性值,m表示词对的个数;
步骤6.4:启动标签的概率传播过程,在双向标签传播中每一轮传播包括一个正向的传播过程和一个负向的传播过程,在正向传播中,将每个词对i的极性值向其他节点j传播,传播概率基于节点i到节点j的正向转移概率t+(i,j),正向传播完成后,每个词对的极性值更新公式如(4)所示,这里γ为系统设置的参数,表示更新时来自于其他节点的传播概率值在更新时占的比例,n表示执行标签传播扩散的轮数,初始时n=0;正向传播完成后,再执行负向的传播过程,在负向传播中,节点间的传播概率基于负向转移概率t-(i,j),每个节点的极性值更新公式如(5)所示,这里β为系统设置的参数,表示更新时来自于其他节点的传播概率值在更新时占的比例;最后将负向传播完成后每个词对的极性值作为本轮双向传播后每个词对的极性值,
步骤6.5:在一轮传播完成之后,对于种子词对,维持初始极性不变,因此重新设置种子词对的极性值为,
步骤6.6:重复执行步骤6.4和步骤6.5直至每个词对的极性值收敛,获得最终每个词对的极性值集合,记为然后根据每个词对的极性值来判断词对的正负极性,如果词对的极性值大于0,则对应的<特征词,情感词>词对标记为+1,判断为褒义词对;如果词对的极性值小于0,则对应的<特征词,情感词>词对标记为-1,判断为贬义词对。
本发明提供的面向特征词粒度的情感词典构建方法,建立的情感词典的元素是<特征词, 情感词>词对,而不是单个情感词,因此不仅能准确标记情感词在一个商品领域的情感极性,而且能够细粒度地标记情感词在修饰不同特征词时的情感极性。
附图说明
图1是本发明具体实施方式提供的领域情感词典构建方法流程图
图2是本发明具体实施方式提供的提取词对的方法流程图
图3是本发明具体实施方式提供的标签双向传播算法流程图
图4是本发明说明书摘要提供的领域情感词典构建方法流程图
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明提供的一种面向特征词粒度的领域情感词典构建方法的流程图,步骤包括:
步骤1:将商品的评论语料库按商品领域进行分割得到领域语料库,每个领域语料库中的评论都是关于同一类商品的评价;
步骤2:对领域语料库中的每条评论进行预处理,并根据依存关系和词性搭配规则提取< 特征词,情感词>词对,图2是提取词对的方法流程图,具体步骤为:
步骤2.1:对语料库中的每条评论进行预处理,首先利用正则匹配规则对评论语句中包含的标点符号和空格进行规范化处理,然后使用模糊匹配算法纠正评论语句中的错别字;
步骤2.2:利用自然语言处理工具对每条评论进行分词、词性标注和依存关系分析;例如哈尔滨工业大学开发的语言技术平台可以提供中文的分词、词性标注、依存句法分析、依存语义分析等功能;
步骤2.3:利用设置的依存关系和词性搭配规则对每条评论提取<特征词,情感词>词对;在本具体实施方式中建议采用如表2所示的规则进行提取;
表2依存关系和词性搭配规则表
依存关系 | 词性搭配规则 | 示例 | <特征词,情感词> |
主谓关系(SBV) | 名词+形容词 | 味道不错 | <味道,不错> |
动补关系(CMP) | 动词+形容词 | 发货快 | <发货,快> |
动宾关系(VOB) | 动词+形容词 | 包装正规 | <包装,正规> |
定中关系(ATT) | 名词+的+形容词 | 鲜美的味道 | <味道,鲜美> |
状中结构(ADV) | 形容词+动词 | 及时送货 | <送货,及时> |
步骤3:根据设置的转折词集合和否定词集合,分析词对在评论语句中的约束关系,构建 <特征词,情感词>词对之间的约束关系矩阵E,具体步骤为:
步骤3.1:依次建立每条评论所包含的<特征词,情感词>词对的约束关系矩阵,如表1所示,矩阵元素为两个词对的约束关系值,两个词对的约束关系判断方法如下:首先判断词对之间是否有转折关系,如果存在转折关系,则转折词前面的所有词对与转折词后面的所有词对之间的约束关系均为转折关系,存在转折关系的两个词对的约束关系值为-1;如果两个词对不存在转折关系,则两个词对的默认约束关系值设置为+1;然后判断每个<特征词,情感词>词对是否有否定词修饰,如果存在一个否定词修饰,则将该词对与其他所有词对的约束关系值乘以-1;如果不存在否定词修饰,则保持该词对与其他所有词对的约束关系值不变;如果存在双重否定的修饰关系,则将该词对与其他所有词对的约束关系值不变;
步骤3.2:将所有评论的约束关系矩阵按相同词对进行合并,得到包含所有词对的约束关系矩阵E,这个新的约束关系矩阵是一个对称矩阵,每行或每列的元素个数为所有词对的个数;如果一个词对与某些词对没有在评论中同时出现过,则约束关系值为0;如果两个词对在评论中同时出现过,则对应的元素值为这两个词对在所有出现过的评论对应的约束关系矩阵中的约束关系值求和;
步骤4:基于公式(1)计算任意两个词对相似度,其中sim(A,B)表示词对A和词对B的相似度,num(A,B)表示词对A和词对B在评论中同时出现的次数,num+(A,B)表示两个词对在评论中约束关系值为+1的次数,num-(A,B)表示两个词对在评论中的约束关系值为-1的次数, link(A)表示与词对A在评论中同时出现过的词对的集合,link(B)表示与词对B同时出现过的词对的集合,i表示对应集合中的词对,得到词对的相似度矩阵;
步骤5:分别根据词对之间的约束关系值和相似度计算词对之间的转移概率矩阵,这里的转移概率矩阵包括正向转移概率矩阵和负向转移概率矩阵,首先计算约束关系值大于0的词对之间的正向传播概率矩阵,约束关系值大于0说明两个词对的极性值是相同的,计算公式如(2) 所示,这里t+(i,j)表示词对i到词对j的正向转移概率,P(i)表示与词对i极性相同的词对集合;然后计算约束关系值小于0的词对之间的负向转移概率矩阵,计算公式如(3)所示,这里 t-(i,j)表示词对i到词对j的负向转移概率,N(i)表示与词对i极性相反的词对集合;
步骤6:基于一个双向标签传播算法计算每个<特征词,情感词>词对的极性值,图3是标签双向传播算法流程图,具体步骤为:
步骤6.1:根据正向和负向的转移概率矩阵建立<特征词,情感词>词对的转移概率图,图中的每个节点对应一个词对,如果两个词对对应的正向转移概率或者负向转移概率的值不为0,则两个词对对应的节点之间建立一条有向边,边的权值为两个对应节点的转移概率,如果两个词对的约束关系值大于0,则边的权值为两个词对的正向转移概率,如果两个词对的约束关系值小于0,则边的权值为两个词对的负向转移概率;
步骤6.2:在词对的转移概率图中确定种子节点,这些种子节点对应的词对有确定的极性值,定义褒义词对的极性值为+1,贬义词对的极性值为-1;种子词对的选择通常采用手动完成,包括若干极性值为+1的词对和若干极性值为-1的词对;例如在实施例中设置种子词对<东西, 好吃>的初始极性值为+1,<质量,不好>的初始极性值为-1;
步骤6.3:设置转移概率图中每个<特征词,情感词>词对的初始极性,其中具有正极性的种子词对的初始极性标记为+1,具有负极性的种子词对的初始极性标记为-1,其余词对的初始极性值标记为0,记为这里表示词对i的初始的极性值,m表示词对的个数;
步骤6.4:启动标签的概率传播过程,在双向标签传播中每一轮传播包括一个正向的传播过程和一个负向的传播过程,在正向传播中,将每个词对i的极性值向其他节点j传播,传播概率基于节点i到节点j的正向转移概率t+(i,j),正向传播完成后,每个词对的极性值更新公式如(4)所示,这里γ为系统设置的参数,表示更新时来自于其他节点的传播概率值在更新时占的比例,n表示执行标签传播扩散的轮数,初始时n=0;正向传播完成后,再执行负向的传播过程,在负向传播中,节点间的传播概率基于负向转移概率t-(i,j),每个节点的极性值更新公式如(5)所示,这里β为系统设置的参数,表示更新时来自于其他节点的传播概率值在更新时占的比例;最后将负向传播完成后每个词对的极性值作为本轮双向传播后每个词对的极性值,
步骤6.5:在一轮传播完成之后,对于种子词对,维持初始极性不变,因此重新设置种子词对的极性值为,
步骤6.6:重复执行步骤6.4和步骤6.5直至每个词对的极性值收敛,获得最终每个词对的极性值集合,记为然后根据每个词对的极性值来判断词对的正负极性,如果词对的极性值大于0,则对应的<特征词,情感词>词对标记为+1,判断为褒义词对;如果词对的极性值小于0,则对应的<特征词,情感词>词对标记为-1,判断为贬义词对。
实施例
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例对其中的技术方案进行清楚、完整地描述。
在本实施例中,假设一个关于生鲜商品的领域语料库中有如下7条评论:
1)差评:“东西不好吃,质量不好,但是快递快,瘦肉多,价格不高。”
2)差评:“东西不好吃,味道不新鲜,性价比不高,干冰挥发快。”
3)差评:“口感差,味道不新鲜,质量不好,肥肉多,但是快递快。”
4)差评:“味道不新鲜,口感差,性价比不高,但是瘦肉多。”
5)好评:“味道新鲜,快递快,质量好,瘦肉多,但是价格高。”
6)好评:“东西好吃,价格不高,性价比高,质量好,快递快。”
7)好评:“瘦肉多,肥肉不多,但是干冰挥发快。”
首先,利用自然语言处理工具将上面的7条评论依次进行分词、词性标注和依存关系分析,并基于表2的词对提取规则,提取出如下词对及转折和否定修饰关系:
1)<东西,好吃>(有否定词修饰),<质量,不好>,<快递,快>,<瘦肉,多>,<价格,高>(有否定词修饰),其中前面两个词对和后面三个词对存在转折关系;
2)<东西,好吃>(有否定词修饰),<味道,新鲜>(有否定词修饰),<性价比,高>(有否定词修饰),<挥发,快>;
3)<口感,差>,<味道,新鲜>(有否定词修饰),<质量,不好>,<肥肉,多>,<快递,快>,其中前面四个词对和后面一个词对存在转折关系;
4)<味道,新鲜>(有否定词修饰),<口感,差>,<性价比,高>(有否定词修饰),<瘦肉,多>,其中前面三个词对和后面一个词对存在转折关系;
5)<味道,新鲜>,<快递,快>,<质量,好>,<瘦肉,多>,<价格,高>,其中前面四个词对和后面一个词对存在转折关系;
6)<东西,好吃>,<价格,高>(有否定词修饰),<性价比,高>,<质量,好>,<快递,快>;
7)<瘦肉,多>,<肥肉,多>(有否定词修饰),<挥发,快>,其中前面两个词对和后面一个词对存在转折关系;
然后,按照设定的转折词和否定词集合,分析词对之间的约束关系,构建约束关系矩阵E:首先,建立每条评论的约束关系矩阵,表3是第一条评论的词对约束关系矩阵示意;然后,将所有评论的约束关系矩阵合并为矩阵E,如表4所示;
表3第一条评论的词对的约束关系矩阵
<东西,好吃> | <质量,不好> | <快递,快> | <瘦肉,多> | <价格,高> | |
<东西,好吃> | × | -1 | +1 | +1 | -1 |
<质量,不好> | -1 | × | -1 | -1 | +1 |
<快递,快> | +1 | -1 | × | +1 | -1 |
<瘦肉,多> | +1 | -1 | +1 | × | -1 |
<价格,高> | -1 | +1 | -1 | -1 | × |
表4所有词对的约束关系矩阵
第三,基于公式(1)计算任意两个词对相似度,最后得到所有词对的相似度矩阵,如表5 所示;
例如<东西,好吃>和<快递,快>的相似度计算如下:
例如<东西,好吃>和<价格,高>的相似度计算如下:
表5所有词对的相似度矩阵
接着,计算词对之间的正向转移概率矩阵和负向转移概率矩阵,如表6和表7所示;
例如<东西,好吃>和<快递,快>的相似度大于0,因此它们的负向传播概率为0,正向转移概率计算如下:
例如<东西,好吃>和<价格,高>的相似度小于0,因此它们的正向传播概率为0,负向转移概率计算如下:
表6所有词对的正向转移概率矩阵
表7所有词对的负向转移概率矩阵
最后,基于双向标签传播算法计算每个词对的极性值;
(1)建立词对的转移概率图,每个词对对应一个节点,边的权值为两个词对正向或者负向的转移概率,例如<东西,好吃>和<口感,差>的正向和负向转移概率为0,因此两个词对之间不建立边;<东西,好吃>和<快递,快>之间正向的转移概率不为0,因此分别建立一条从<东西, 好吃>到<快递,快>的有向边,权值为0.2454,一条从<快递,快>到<东西,好吃>的有向边,权值为0.2245;<东西,好吃>和<价格,高>之间的负向传播概率均不为0,因此分别建立一条从<东西,好吃>到<价格,高>的有向边,权值分别为-0.4379,建立一条从<价格,高>到<东西, 好吃>的有向边,权值分别为-0.1901;
(2)分别手动设置一个正向情感的种子词对<东西,好吃>的极性值为+1,一个负向情感的种子词对<质量,不好>的极性值为-1;
(3)设置转移概率图中每个词对初始极性值,O0={+1,-1,0,0,0,0,0,0,0,0,0},词对顺序依次为:<东西,好吃>,<质量,不好>,<快递,快>,<瘦肉,多>,<价格,高>,<味道,新鲜>,< 性价比,高>,<挥发,快>,<口感,差>,<肥肉,多>,<质量,好>;
(4)经过第一轮中的正向概率传播,得到每个词对的极性值;例如<东西,好吃>的极性值更新如下:
经过第一轮中的负向概率传播,得到更新后的每个词对的极性值;例如<东西,好吃>的极性值进一步更新如下:
(5)第1轮双向传播完成后,需要将种子词对的极性值恢复为初始值,因此得到第1轮传播后,各个词对的极性值如表8所示:
表8第1轮传播完成后每个词对的极性值
词对 | 极性值 | 词对 | 极性值 | 词对 | 极性值 |
<东西,好吃> | +1.00000 | <质量,不好> | -1.00000 | <快递,快> | 0.05222 |
<瘦肉,多> | 0.03236 | <价格,高> | -0.10871 | <味道,新鲜> | 0.02900 |
<性价比,高> | 0.03204 | <挥发,快> | -0.02526 | <口感,差> | -0.04344 |
<肥肉,多> | -0.02824 | <质量,好> | 0.02651 |
经过100轮迭代后,每个词对的极性值收敛,最终每个词对的极性值如表9所示:
表9第100轮传播完成后每个词对的极性值
词对 | 极性值 | 词对 | 极性值 | 词对 | 极性值 |
<东西,好吃> | +1.00000 | <质量,不好> | -1.00000 | <快递,快> | 0.98973 |
<瘦肉,多> | 0.98737 | <价格,高> | -0.99369 | <味道,新鲜> | 0.98645 |
<性价比,高> | 0.98687 | <挥发,快> | -0.98459 | <口感,差> | -0.98681 |
<肥肉,多> | -0.98561 | <质量,好> | 0.99009 |
最后根据每个词对的极性值来判断词对的褒贬义,如果词对的极性值大于0,则对应的< 特征词,情感词>词对标记为褒义词;如果词对的极性值小于0,则对应的<特征词,情感词> 词对标记为贬义词。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (3)
1.一种面向特征词粒度的领域情感词典构建方法,其特征在于,包括以下步骤:
步骤1:将商品的评论语料库按商品领域进行分割得到领域语料库,每个领域语料库中的评论和评分都是关于同一类商品的评价;
步骤2:对领域语料库中的每条评论进行预处理,并根据依存关系和词性搭配规则提取<特征词,情感词>词对;
步骤3:根据设置的转折词集合和否定词集合,分析<特征词,情感词>词对在评论语句中的约束关系,构建词对之间的约束关系矩阵E;
步骤4:基于公式(1)计算任意两个词对相似度,其中sim(A,B)表示词对A和词对B的相似度,num(A,B)表示词对A和词对B在评论中同时出现的次数,num+(A,B)表示两个词对在评论中约束关系值为+1的次数,num-(A,B)表示两个词对在评论中的约束关系值为-1的次数,link(A)表示与词对A同时出现过的词对的集合,link(B)表示与词对B同时出现过的词对的集合,i表示对应集合中的词对,得到词对的相似度矩阵;
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mfrac>
<mrow>
<msup>
<mi>num</mi>
<mo>+</mo>
</msup>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<msup>
<mi>num</mi>
<mo>-</mo>
</msup>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>u</mi>
<mi>n</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>&times;</mo>
<mfrac>
<mrow>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mi>l</mi>
<mi>i</mi>
<mi>n</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>&Element;</mo>
<mi>l</mi>
<mi>i</mi>
<mi>n</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>B</mi>
<mo>,</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
<mo>&NotEqual;</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
步骤5:分别根据词对之间的约束关系值和相似度计算词对之间的转移概率矩阵,这里的转移概率矩阵包括正向转移概率矩阵和负向转移概率矩阵,首先计算约束关系值大于0的词对之间的正向传播概率矩阵,约束关系值大于0说明两个词对的极性值是相同的,计算公式如(2)所示,这里t+(i,j)表示词对i到词对j的正向转移概率,P(i)表示与词对i极性相同的词对集合;然后计算约束关系值小于0的词对之间的负向转移概率矩阵,计算公式如(3)所示,这里t-(i,j)表示词对i到词对j的负向转移概率,N(i)表示与词对i极性相反的词对集合;
<mrow>
<msup>
<mi>t</mi>
<mo>+</mo>
</msup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>/</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>&Element;</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>></mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>&le;</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msup>
<mi>t</mi>
<mo>-</mo>
</msup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>/</mo>
<mo>|</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>&Element;</mo>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo><</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>&GreaterEqual;</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
步骤6:基于一个双向标签传播算法计算每个<特征词,情感词>词对的极性值,并根据每个词对的极性值来标记词对的情感极性,如果词对的极性值大于0,则对应的<特征词,情感词>词对标记为褒义词;如果词对的极性值小于0,则对应的<特征词,情感词>词对标记为贬义词。
2.如权利要求1所述的方法,其特征在于,所述步骤3中词对的约束关系矩阵构建方法,步骤如下:
步骤3.1:依次建立每条评论所包含的<特征词,情感词>词对的约束关系矩阵,矩阵元素为两个词对的约束关系值,两个词对的约束关系判断方法如下:首先判断词对之间是否有转折关系,如果存在转折关系,则转折词前面的所有词对与转折词后面的所有词对之间的约束关系均为转折关系,存在转折关系的两个词对的约束关系值为-1;如果两个词对不存在转折关系,则两个词对的默认约束关系值设置为+1;然后判断每个<特征词,情感词>词对是否有否定词修饰,如果存在一个否定词修饰,则将该词对与其他所有词对的约束关系值乘以-1;如果不存在否定词修饰,则保持该词对与其他所有词对的约束关系值不变;如果存在双重否定的修饰关系,则将该词对与其他所有词对的约束关系值不变;
步骤3.2:将所有评论的约束关系矩阵按相同词对进行合并,得到包含所有词对的约束关系矩阵E,这个新的约束关系矩阵是一个对称矩阵,每行或每列的元素个数为所有词对的个数m;如果一个词对与某些词对没有在评论中同时出现过,则约束关系值为0;如果两个词对在评论中同时出现过,则对应的元素值为这两个词对在所有出现过的评论对应的约束关系矩阵中的约束关系值求和。
3.如权利要求1所述的方法,其特征在于,所述步骤6中双向标签传播算法的步骤如下:
步骤6.1:根据正向和负向的转移概率矩阵建立<特征词,情感词>词对的转移概率图,图中的每个节点对应一个词对,如果两个词对对应的正向转移概率或者负向转移概率的值不为0,则两个词对对应的节点之间建立一条有向边,边的权值为两个对应节点的转移概率,如果两个词对的约束关系值大于0,则边的权值为两个词对的正向转移概率,如果两个词对的约束关系值小于0,则边的权值为两个词对的负向转移概率;
步骤6.2:在词对的转移概率图中确定种子节点,这些种子节点对应的词对有确定的极性值,定义褒义词对的极性值为+1,贬义词对的极性值为-1;种子词对的选择通常采用手动完成,包括若干极性值为+1的词对和若干极性值为-1的词对;
步骤6.3:设置转移概率图中每个<特征词,情感词>词对的初始极性,其中具有正极性的种子词对的初始极性标记为+1,具有负极性的种子词对的初始值标记为-1,其余词对的初始极性值标记为0,记为这里表示词对i的初始的极性值,m表示词对的个数;
步骤6.4:启动标签的概率传播过程,在双向标签传播中每一轮传播包括一个正向的传播过程和一个负向的传播过程,在正向传播中,将每个词对i的极性值向其他节点j传播,传播概率基于节点i到节点j的正向转移概率t+(i,j),正向传播完成后,每个词对的极性值更新公式如(4)所示,这里γ为系统设置的参数,表示更新时来自于其他节点的传播概率值在更新时占的比例,n表示执行标签传播扩散的轮数,初始时n=0;正向传播完成后,再执行负向的传播过程,在负向传播中,节点间的传播概率基于负向转移概率t-(i,j),每个节点的极性值更新公式如(5)所示,这里β为系统设置的参数,表示更新时来自于其他节点的传播概率值在更新时占的比例;最后将负向传播完成后每个词对的极性值作为本轮双向传播后每个词对的极性值,
<mrow>
<msubsup>
<mi>o</mi>
<mi>j</mi>
<mrow>
<mi>n</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<mo>+</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&gamma;</mi>
<mo>&CenterDot;</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<msup>
<mi>t</mi>
<mo>+</mo>
</msup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<msubsup>
<mi>o</mi>
<mi>i</mi>
<mi>n</mi>
</msubsup>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&gamma;</mi>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<msubsup>
<mi>o</mi>
<mi>j</mi>
<mi>n</mi>
</msubsup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>o</mi>
<mi>j</mi>
<mrow>
<mi>n</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<mo>-</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&beta;</mi>
<mo>&CenterDot;</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<msup>
<mi>t</mi>
<mo>-</mo>
</msup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<msubsup>
<mi>o</mi>
<mi>i</mi>
<mrow>
<mi>n</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<mo>+</mo>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&beta;</mi>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<msubsup>
<mi>o</mi>
<mi>j</mi>
<mrow>
<mi>n</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<mo>+</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
步骤6.5:在一轮传播完成之后,对于种子词对,维持初始极性不变,因此重新设置种子词对的极性值为,
步骤6.6:重复执行步骤6.4和步骤6.5直至每个词对的极性值收敛,获得最终每个词对的极性值集合,记为然后根据每个词对的极性值来判断词对的正负极性,如果词对的极性值大于0,则对应的<特征词,情感词>词对标记为+1,判断为褒义词对;如果词对的极性值小于0,则对应的<特征词,情感词>词对标记为-1,判断为贬义词对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711096968.9A CN107832297B (zh) | 2017-11-09 | 2017-11-09 | 一种面向特征词粒度的领域情感词典构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711096968.9A CN107832297B (zh) | 2017-11-09 | 2017-11-09 | 一种面向特征词粒度的领域情感词典构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832297A true CN107832297A (zh) | 2018-03-23 |
CN107832297B CN107832297B (zh) | 2021-02-02 |
Family
ID=61654869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711096968.9A Active CN107832297B (zh) | 2017-11-09 | 2017-11-09 | 一种面向特征词粒度的领域情感词典构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832297B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109597999A (zh) * | 2018-12-26 | 2019-04-09 | 青海大学 | 一种情感词的行为语义关系的抽取建模方法及装置 |
CN109800418A (zh) * | 2018-12-17 | 2019-05-24 | 北京百度网讯科技有限公司 | 文本处理方法、装置和存储介质 |
TWI675304B (zh) * | 2018-06-06 | 2019-10-21 | 淡江大學 | 意見詞彙擴充系統及意見詞彙擴充方法 |
CN112528980A (zh) * | 2020-12-16 | 2021-03-19 | 北京华宇信息技术有限公司 | Ocr识别结果纠正方法及其终端、系统 |
CN112862567A (zh) * | 2021-02-25 | 2021-05-28 | 华侨大学 | 一种在线展会的展品推荐方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270116A1 (en) * | 2007-04-24 | 2008-10-30 | Namrata Godbole | Large-Scale Sentiment Analysis |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
CN102663139A (zh) * | 2012-05-07 | 2012-09-12 | 苏州大学 | 一种情感词典构建方法及系统 |
CN103955451A (zh) * | 2014-05-15 | 2014-07-30 | 北京优捷信达信息科技有限公司 | 一种判别短文本情感倾向性的方法 |
CN106610955A (zh) * | 2016-12-13 | 2017-05-03 | 成都数联铭品科技有限公司 | 基于词典的多维度情感分析方法 |
-
2017
- 2017-11-09 CN CN201711096968.9A patent/CN107832297B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270116A1 (en) * | 2007-04-24 | 2008-10-30 | Namrata Godbole | Large-Scale Sentiment Analysis |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
CN102663139A (zh) * | 2012-05-07 | 2012-09-12 | 苏州大学 | 一种情感词典构建方法及系统 |
CN103955451A (zh) * | 2014-05-15 | 2014-07-30 | 北京优捷信达信息科技有限公司 | 一种判别短文本情感倾向性的方法 |
CN106610955A (zh) * | 2016-12-13 | 2017-05-03 | 成都数联铭品科技有限公司 | 基于词典的多维度情感分析方法 |
Non-Patent Citations (1)
Title |
---|
钟敏娟 等: "基于关联规则挖掘和极性分析的商品评论情感词典构建", 《情报学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI675304B (zh) * | 2018-06-06 | 2019-10-21 | 淡江大學 | 意見詞彙擴充系統及意見詞彙擴充方法 |
CN110569497A (zh) * | 2018-06-06 | 2019-12-13 | 淡江大学 | 意见词汇扩充系统及意见词汇扩充方法 |
CN109800418A (zh) * | 2018-12-17 | 2019-05-24 | 北京百度网讯科技有限公司 | 文本处理方法、装置和存储介质 |
CN109800418B (zh) * | 2018-12-17 | 2023-05-05 | 北京百度网讯科技有限公司 | 文本处理方法、装置和存储介质 |
CN109597999A (zh) * | 2018-12-26 | 2019-04-09 | 青海大学 | 一种情感词的行为语义关系的抽取建模方法及装置 |
CN109597999B (zh) * | 2018-12-26 | 2021-09-07 | 青海大学 | 一种情感词的行为语义关系的抽取建模方法及装置 |
CN112528980A (zh) * | 2020-12-16 | 2021-03-19 | 北京华宇信息技术有限公司 | Ocr识别结果纠正方法及其终端、系统 |
CN112528980B (zh) * | 2020-12-16 | 2022-02-15 | 北京华宇信息技术有限公司 | Ocr识别结果纠正方法及其终端、系统 |
CN112862567A (zh) * | 2021-02-25 | 2021-05-28 | 华侨大学 | 一种在线展会的展品推荐方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107832297B (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832297B (zh) | 一种面向特征词粒度的领域情感词典构建方法 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN111159412B (zh) | 分类方法、装置、电子设备及可读存储介质 | |
US20140358523A1 (en) | Topic-specific sentiment extraction | |
CN108154395A (zh) | 一种基于大数据的客户网络行为画像方法 | |
CN108268668B (zh) | 一种基于话题多样性的文本数据观点摘要挖掘方法 | |
CN110008309B (zh) | 一种短语挖掘方法及装置 | |
CN103577989B (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
CN105786991A (zh) | 结合用户情感表达方式的中文情感新词识别方法和系统 | |
US20160048768A1 (en) | Topic Model For Comments Analysis And Use Thereof | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
CN111680488A (zh) | 基于知识图谱多视角信息的跨语言实体对齐方法 | |
CN109101490B (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和系统 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
Manjesh et al. | Clickbait pattern detection and classification of news headlines using natural language processing | |
CN106610990A (zh) | 情感倾向性分析的方法及装置 | |
CN104572632B (zh) | 一种确定具有专名译文的词汇的翻译方向的方法 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
Bahloul et al. | ArA* summarizer: An Arabic text summarization system based on subtopic segmentation and using an A* algorithm for reduction | |
CN111259661A (zh) | 一种基于商品评论的新情感词提取方法 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |