CN111339403A

CN111339403A - 一种基于商品评论新词提取方法

Info

Publication number: CN111339403A
Application number: CN202010087337.6A
Authority: CN
Inventors: 张顺香; 朱海洋; 尹畅; 金鸣; 徐善山; 余宏斌
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2020-06-26
Anticipated expiration: 2040-02-11
Also published as: CN111339403B

Abstract

本发明公开了一种基于商品评论的新词提取方法。该方法具体为：对商品评论集采用预处理、计算各词与邻接字的共现频率及互信息得到潜在词集；分别计算潜在词在该商品及同类商品下出现的频率、自由度；通过计算初步候选词集支持度进行筛选，得到最终候选词集；最后再与已登录词词典做对比，筛选出新词。本发明旨在提供一种准确、高效的方法提取出网购评论中的新词，以便于网络购物平台或网络商家进行市场分析、用户满意度调查等需要进行评论情感倾向性分析的工作，且利于专有词典的扩充。

Description

一种基于商品评论新词提取方法

技术领域

本发明设计中文自然语言处理技术领域，特别涉及一种从商品评论中提取新词的方法。

背景技术

随着互联网的不断发展与进步，人们交流的范围不断扩大，词汇也在不断地发展变化。这种变化最显著的表现即新词的不断涌现，这些新词也在网购评论下被广泛使用，而且这些新词中往往包含着很多用户的情感、态度等重要信息。为了更好地对网络购物平台进行市场分析，用户满意度调查等工作。其中基于商品评论的新词提取是工作的基础，也是决定工作质量至关重要的一部分。网购商品评论有着重复率高、口语化、表达随意等特点，针对其特点进行新词提取作为进行市场分析、用户满意度调查等评论情感分析工作的基础，对提高准确度有重要意义。

现有的中文新词识别技术可以分为两种：一是基于规则的新词识别，但是该方法人工编写和维护规则复杂性相对较高；二是基于统计的新词识别，一般常用方法有HMM、SVM、过滤规则等等，此方法的不足是人工标注语料费时费力；若过滤低频新词以保证精度，会导致低频新词难以识别。

针对以上不足，提出本发明，针对同类商品评论下新词重复率高的特点，通过根据相关性结合同类商品评论进行预处理、计算互信息、词拓展、自由度及支持度等方法，一层层进行判断和筛选，在自动识别新词的基础上尽可能地保证准确率。

发明内容

鉴于上述问题，本发明提出了一种从商品评论中提取新词的方法，以便克服上述问题或者至少部分解决上述问题。

本发明中涉及相关定义如下：

定义1：共现频率：对于文本域D中字串w与左(右)侧的单字共同出现的频率。{例如“这件衣服颜色很正，很喜欢，朋友们也都很喜欢，要链接。”在这段文本域中，“喜”字与右侧单字“欢”共同出现2次。}

定义2：词拓展：当该组合新词共现频率达到阈值时初步确定将其组合成词。

定义3：互信息：表示一个词x和相邻的字y之间的关联程度，关联程度越大，组成新词的可能性越大。{例：“质量好””，则互信息是衡量“质量”和“好”之间的关联程度。}

定义4：自由度：是指如果字串w可以作为一个新词的话，则可以灵活地和左(右)邻字搭配，应用于各种环境中。

定义5：支持度：候选词c在该商品下出现的频率与与c长度相同的候选词在词典中出现的频率之比与候选词c在同类商品下出现的频率与与c长度相同的候选词在词典中出现的频率之比的和。

本发明的技术方案具体是这样实现的：

一种商品评论下新词提取方法，包括以下步骤：

步骤1.使用网络爬虫对淘宝和京东的网购评论进行爬取，然后将爬取商品评论语料保存到本地。

步骤2.然后对保存的语料信息进行降噪处理和分词预处理。

步骤3.预处理后的语料信息进行步骤3.1潜在词拓展处理，提取出潜在词集。

步骤3.1.对预处理后的词分别计算词与左右邻接字的共现频率，通过设定阈值进行初步过滤，将词和其左右字共现频率达到阈值的词再通过互信息计算其合并概率，如果互信息达到阈值将其合并成一个词在继续向左或向右拓展，否则输入到潜在词集合。

步骤4.计算潜在词在该词所在商品评论下出现的频数如过达到阈值将其提取到初步候选词集，否则执行步骤4.1。

步骤4.1.根据商品相关性随机抽取10件同类商品下的300条评论集合计算该潜在词的频数如果大于设定阈值也加入初步候选词集合，否则执行步骤4.2。

步骤4.2.对频数小于阈值的潜在词集进行自由度的计算如果达到设定阈值也将其加入初步候选词集合。

步骤5.对所述筛选完成的初步候选词集合进行支持度(SUP)计算达到设定阈值加入到最终候选词集合。

步骤6.将最终候选词集合与已登录词词库进行对比筛选出新词集合

上述方案中，本发明提供的基于商品评论的新词提取方法能够针对同类商品评论新词重复率高的特点对可能出现的新词进行多次判断筛选，因此能够极大的增加新词提取的准确性。

优选的，在所述步骤2中，对保存的语料信息进行降噪处理和分词预处理包括：

(1)降噪处理：将保存的语料信息进行停用词过滤，特殊符号过滤。

(2)分词处理：使用哈工大的LTP分词工具进行分词处理。

优选的，在所述步骤3中对词与左右邻接字共现的频率和互信息的计算方法如下：

经过统计新词的出现很多是在原有词的左端或右端加上字构成新词。所以计算词与左(右)邻接字的共现频率，如果达到设定阈值，继续计算词与左(右)邻接字的互信息，否则直接输入到潜在词集。

计算词与左(右)邻接字的互信息进行二次筛选如果达到阈值将词与左(右)邻接字合并，继续判断合并后的词与下一个左(右)邻接字的词频，否则输入到潜在词集。

互信息的计算公式为

其中p(x,y)表示词x与x左端或右端邻接的字y共同出现在语料集中的概率，p(x)、p(y)表示词x和字y单独出现在语料集中的概率。I(x,y)的值越大，表示x，y两者的关联程度越大，也就越有可能组成新词。

优选的，在所述步骤5中对初步候选词集合进行支持度的计算来进一步筛选得到最终候选词集合，其中支持度的计算方法如下：

由于在成词的过程中不同字数的词的成词难度是不同的，比如五个字、三个字的词的成词难度大于两个字的词，因此五个字、三个字的词的比例也远小于两个字的词。所以在计算候选词支持度时设置候选词在评论中出现的频率与该候选词相同长度的词在词典中出现的频率相比较计算出支持度作为筛选标准。但有时一个商品下的评论集合初步候选词数量可能不足为了保证精度根据商品相关性随机抽取10件同类商品下的300条评论集合进行候选词支持度计算，然后将结果求和得到候选词支持度。具体公式如下：

候选词c的支持度

其中P(c1)表示候选词c在该商品下评论中出现的频率，P_n(c)表示与c长度相同的候选词在词典中出现的频率，P(c2)表示候选词c在同类10件商品300条下评论中出现的频率，P_n(c)表示与c长度相同的候选词在词典中出现的频率。

与现有发明相比，本发明的有益效果是:

本发明提供的基于商品评论的新词提取方法能对商品评论集合中的网络新词、词典中未收录词进行有效的提取。根据同类商品评论相关性高的特点，采用根据商品相关性随机抽取的方法扩大计算集合，极大增加了新词提取的准确性。

附图说明

图1为基于商品评论的新词提取方法流程示意图。

图2为提取潜在词集细节步骤流程示意图。

图3为从潜在词集中提取出初步候选词集流程示意图。

图4为从初步候选词集中提取最终候选词集流程示意图。

具体实施方法

下面结合附图对本发明进行详细说明：

本发明提供的针对商品评论的新词提取方法，如图1所示，可大致描述为个步骤：

步骤1，获取商品评论集合：使用爬虫工具对淘宝和京东的网购评论进行爬取，然后将爬取商品评论语料保存到本地。

步骤2，文档预处理：将获得的评论集合文档进行降噪、分词处理，得到预处理集。

步骤3，词拓展处理：对预处理集进行词拓展得到潜在词集。

步骤4，初步候选词集筛选：通过词频、自由度筛选出初步候选词集。

步骤5，最终候选词集筛选：通过计算支持度筛选出候选词集。

步骤6，与已有词库对比：将筛选完成的候选词集与已有词库进行比对，筛选出新词集合。

进一步地，步骤2中所述降噪处理包括停用词过滤，特殊符号过滤，这些词项在语料中应用广泛然而没有实际意义。分词采用的是哈工大的LTP分词工具进行分词处理有着不错的效率和准确度。

进一步地，结合图2对步骤3的词拓展处理方法进行详细介绍。将完成降噪、分词处理得到的预处理集输入计算词与左右邻接字的共现频率，通过设定的阈值进行初步过滤，将词和其左右字共现达到阈值的词再通过互信息计算其合并概率，如果互信息达到阈值将其合并成一个词在继续向左或向右拓展，否则输入到潜在词集合。

进一步地，结合图3对步骤4的初步候选词集筛选方法进行详细介绍。该方法使用三次筛选以保证得到初步候选词集。第一次筛选，输入潜在词集，计算词在其所在商品评论中出现的频率如果大于设定阈值将其输入初步候选词集，否则进行第二次筛选随机抽取根据商品相关性随机抽取10件同类商品下的300条评论集合计算该潜在词的词频，如果大于设定阈值也输入初步候选词集合。否则进行第三次筛选计算潜在词的自由度如果达到设定阈值将其加入初步候选词集，否则删除。

例如透心凉，下一句是心飞扬，好像怕上火下一句很少接其他的词，那就是它的自由度不高，而一个真正的词必定可以和很多词配合，所以’透’+‘心凉’就不能构成一个新词。实际上我们统计’透心凉’的左右邻词的出现次数，并以总的出现次数作为分母计算每个邻词的出现概率，最后用信息熵分别统计左右的熵值，注意是左右分开算。然后分别选择左右中小的熵值作为最终自由度，意为但凡有一边不自由都不能被单独当成一个词，不然的话“口香糖”就要被分为“口香”+“香糖”了。具体如下：

潜在词w在评论集合D中可能出现在w左(右)侧的单字的集合C＝{c1,c2,…,ci,…,cn}称为w的左(右)邻字集。

IE_min(w)＝min{IE_left(w),IE_right(w)}

其中IE(w)为潜在词w的左(右)邻接字集的信息熵，ni表示ci作为潜在词w的左(右)邻字出现的次数，n表示邻字集C中的所有字作为w的左(右)邻字出现的次数之和。

自由度为求得左、右邻接字信息熵IE_left(w)和IE_right(w)的较小值IE_min(w)。

其中自由度的阈值要设很大，因为左右邻词太丰富，信息熵加和就会比较大，经过测试设置为45。

进一步地，结合图4对步骤5的候选词最终集合筛选方法进行详细介绍。该步骤使用设定的支持度计算公式对初步候选词进行最终筛选，候选词c的支持度(SUP)具体计算方法如下：

其中P(c1)表示候选词C在该商品下评论中出现的频率，Pn(c)表示与c长度相同的候选词在词典中出现的频率，P(c2)表示候选词c在同类10件商品300条下评论中出现的频率，Pn(c)表示与c长度相同的候选词在词典中出现的频率。

进一步地，步骤6在已经得到最终候选词集后进行与已登录词词典的对比，删除词典中已有的，得到的的就是新词集。

Claims

1.一种基于商品评论的新词提取方法，方法包括下述步骤：

步骤1、利用网络爬虫工具，采集的商品的评论信息，保存到本地数据库。

步骤2、然后对保存的语料信息进行降噪处理和分词预处理。

步骤3、对预处理后的语料信息进行词拓展处理，提取出潜在词集。

步骤4、通过对潜在词集的频数、自由度计算进行初步候选词集筛选。

步骤5、对初步候选词集进行支持度计算筛选出最终候选词集。

步骤6、与已有词典进行比对，筛选出新词集合。

2.根据权利要求1所述的一种基于商品评论的新词提取方法，所述步骤4中的频数计算方法如下：

输入潜在词集，计算词在其所在商品评论中出现的频率如果大于设定阈值将其输入初步候选词集，否则进行第二次筛选随机抽取根据商品相关性随机抽取10件同类商品下的300条评论集合计算该潜在词的词频，如果大于设定阈值也输入初步候选词集合。

3.根据权利要求1所述的一种基于商品评论的新词提取方法，所诉步骤5中支持度的计算方法，具体如下：

根据同类商品评论相关性大，且新词重复率高的特点设定一种支持度(SUP)计算方法,

其中P(c1)表示候选词C在该商品下评论中出现的频率，P_n(c)表示与c长度相同的候选词在词典中出现的频率，P(c2)表示候选词c在同类商品100条下评论中出现的频率，P_n(c)表示与c长度相同的候选词在词典中出现的频率。