CN111339403A - 一种基于商品评论新词提取方法 - Google Patents
一种基于商品评论新词提取方法 Download PDFInfo
- Publication number
- CN111339403A CN111339403A CN202010087337.6A CN202010087337A CN111339403A CN 111339403 A CN111339403 A CN 111339403A CN 202010087337 A CN202010087337 A CN 202010087337A CN 111339403 A CN111339403 A CN 111339403A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- frequency
- commodity
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于商品评论的新词提取方法。该方法具体为:对商品评论集采用预处理、计算各词与邻接字的共现频率及互信息得到潜在词集;分别计算潜在词在该商品及同类商品下出现的频率、自由度;通过计算初步候选词集支持度进行筛选,得到最终候选词集;最后再与已登录词词典做对比,筛选出新词。本发明旨在提供一种准确、高效的方法提取出网购评论中的新词,以便于网络购物平台或网络商家进行市场分析、用户满意度调查等需要进行评论情感倾向性分析的工作,且利于专有词典的扩充。
Description
技术领域
本发明设计中文自然语言处理技术领域,特别涉及一种从商品评论中提取新词的方法。
背景技术
随着互联网的不断发展与进步,人们交流的范围不断扩大,词汇也在不断地发展变化。这种变化最显著的表现即新词的不断涌现,这些新词也在网购评论下被广泛使用,而且这些新词中往往包含着很多用户的情感、态度等重要信息。为了更好地对网络购物平台进行市场分析,用户满意度调查等工作。其中基于商品评论的新词提取是工作的基础,也是决定工作质量至关重要的一部分。网购商品评论有着重复率高、口语化、表达随意等特点,针对其特点进行新词提取作为进行市场分析、用户满意度调查等评论情感分析工作的基础,对提高准确度有重要意义。
现有的中文新词识别技术可以分为两种:一是基于规则的新词识别,但是该方法人工编写和维护规则复杂性相对较高;二是基于统计的新词识别,一般常用方法有HMM、SVM、过滤规则等等,此方法的不足是人工标注语料费时费力;若过滤低频新词以保证精度,会导致低频新词难以识别。
针对以上不足,提出本发明,针对同类商品评论下新词重复率高的特点,通过根据相关性结合同类商品评论进行预处理、计算互信息、词拓展、自由度及支持度等方法,一层层进行判断和筛选,在自动识别新词的基础上尽可能地保证准确率。
发明内容
鉴于上述问题,本发明提出了一种从商品评论中提取新词的方法,以便克服上述问题或者至少部分解决上述问题。
本发明中涉及相关定义如下:
定义1:共现频率:对于文本域D中字串w与左(右)侧的单字共同出现的频率。{例如“这件衣服颜色很正,很喜欢,朋友们也都很喜欢,要链接。”在这段文本域中,“喜”字与右侧单字“欢”共同出现2次。}
定义2:词拓展:当该组合新词共现频率达到阈值时初步确定将其组合成词。
定义3:互信息:表示一个词x和相邻的字y之间的关联程度,关联程度越大,组成新词的可能性越大。{例:“质量好””,则互信息是衡量“质量”和“好”之间的关联程度。}
定义4:自由度:是指如果字串w可以作为一个新词的话,则可以灵活地和左(右)邻字搭配,应用于各种环境中。
定义5:支持度:候选词c在该商品下出现的频率与与c长度相同的候选词在词典中出现的频率之比与候选词c在同类商品下出现的频率与与c长度相同的候选词在词典中出现的频率之比的和。
本发明的技术方案具体是这样实现的:
一种商品评论下新词提取方法,包括以下步骤:
步骤1.使用网络爬虫对淘宝和京东的网购评论进行爬取,然后将爬取商品评论语料保存到本地。
步骤2.然后对保存的语料信息进行降噪处理和分词预处理。
步骤3.预处理后的语料信息进行步骤3.1潜在词拓展处理,提取出潜在词集。
步骤3.1.对预处理后的词分别计算词与左右邻接字的共现频率,通过设定阈值进行初步过滤,将词和其左右字共现频率达到阈值的词再通过互信息计算其合并概率,如果互信息达到阈值将其合并成一个词在继续向左或向右拓展,否则输入到潜在词集合。
步骤4.计算潜在词在该词所在商品评论下出现的频数如过达到阈值将其提取到初步候选词集,否则执行步骤4.1。
步骤4.1.根据商品相关性随机抽取10件同类商品下的300条评论集合计算该潜在词的频数如果大于设定阈值也加入初步候选词集合,否则执行步骤4.2。
步骤4.2.对频数小于阈值的潜在词集进行自由度的计算如果达到设定阈值也将其加入初步候选词集合。
步骤5.对所述筛选完成的初步候选词集合进行支持度(SUP)计算达到设定阈值加入到最终候选词集合。
步骤6.将最终候选词集合与已登录词词库进行对比筛选出新词集合
上述方案中,本发明提供的基于商品评论的新词提取方法能够针对同类商品评论新词重复率高的特点对可能出现的新词进行多次判断筛选,因此能够极大的增加新词提取的准确性。
优选的,在所述步骤2中,对保存的语料信息进行降噪处理和分词预处理包括:
(1)降噪处理:将保存的语料信息进行停用词过滤,特殊符号过滤。
(2)分词处理:使用哈工大的LTP分词工具进行分词处理。
优选的,在所述步骤3中对词与左右邻接字共现的频率和互信息的计算方法如下:
经过统计新词的出现很多是在原有词的左端或右端加上字构成新词。所以计算词与左(右)邻接字的共现频率,如果达到设定阈值,继续计算词与左(右)邻接字的互信息,否则直接输入到潜在词集。
计算词与左(右)邻接字的互信息进行二次筛选如果达到阈值将词与左(右)邻接字合并,继续判断合并后的词与下一个左(右)邻接字的词频,否则输入到潜在词集。
互信息的计算公式为其中p(x,y)表示词x与x左端或右端邻接的字y共同出现在语料集中的概率,p(x)、p(y)表示词x和字y单独出现在语料集中的概率。I(x,y)的值越大,表示x,y两者的关联程度越大,也就越有可能组成新词。
优选的,在所述步骤5中对初步候选词集合进行支持度的计算来进一步筛选得到最终候选词集合,其中支持度的计算方法如下:
由于在成词的过程中不同字数的词的成词难度是不同的,比如五个字、三个字的词的成词难度大于两个字的词,因此五个字、三个字的词的比例也远小于两个字的词。所以在计算候选词支持度时设置候选词在评论中出现的频率与该候选词相同长度的词在词典中出现的频率相比较计算出支持度作为筛选标准。但有时一个商品下的评论集合初步候选词数量可能不足为了保证精度根据商品相关性随机抽取10件同类商品下的300条评论集合进行候选词支持度计算,然后将结果求和得到候选词支持度。具体公式如下:
候选词c的支持度其中P(c1)表示候选词c在该商品下评论中出现的频率,Pn(c)表示与c长度相同的候选词在词典中出现的频率,P(c2)表示候选词c在同类10件商品300条下评论中出现的频率,Pn(c)表示与c长度相同的候选词在词典中出现的频率。
与现有发明相比,本发明的有益效果是:
本发明提供的基于商品评论的新词提取方法能对商品评论集合中的网络新词、词典中未收录词进行有效的提取。根据同类商品评论相关性高的特点,采用根据商品相关性随机抽取的方法扩大计算集合,极大增加了新词提取的准确性。
附图说明
图1为基于商品评论的新词提取方法流程示意图。
图2为提取潜在词集细节步骤流程示意图。
图3为从潜在词集中提取出初步候选词集流程示意图。
图4为从初步候选词集中提取最终候选词集流程示意图。
具体实施方法
下面结合附图对本发明进行详细说明:
本发明提供的针对商品评论的新词提取方法,如图1所示,可大致描述为个步骤:
步骤1,获取商品评论集合:使用爬虫工具对淘宝和京东的网购评论进行爬取,然后将爬取商品评论语料保存到本地。
步骤2,文档预处理:将获得的评论集合文档进行降噪、分词处理,得到预处理集。
步骤3,词拓展处理:对预处理集进行词拓展得到潜在词集。
步骤4,初步候选词集筛选:通过词频、自由度筛选出初步候选词集。
步骤5,最终候选词集筛选:通过计算支持度筛选出候选词集。
步骤6,与已有词库对比:将筛选完成的候选词集与已有词库进行比对,筛选出新词集合。
进一步地,步骤2中所述降噪处理包括停用词过滤,特殊符号过滤,这些词项在语料中应用广泛然而没有实际意义。分词采用的是哈工大的LTP分词工具进行分词处理有着不错的效率和准确度。
进一步地,结合图2对步骤3的词拓展处理方法进行详细介绍。将完成降噪、分词处理得到的预处理集输入计算词与左右邻接字的共现频率,通过设定的阈值进行初步过滤,将词和其左右字共现达到阈值的词再通过互信息计算其合并概率,如果互信息达到阈值将其合并成一个词在继续向左或向右拓展,否则输入到潜在词集合。
进一步地,结合图3对步骤4的初步候选词集筛选方法进行详细介绍。该方法使用三次筛选以保证得到初步候选词集。第一次筛选,输入潜在词集,计算词在其所在商品评论中出现的频率如果大于设定阈值将其输入初步候选词集,否则进行第二次筛选随机抽取根据商品相关性随机抽取10件同类商品下的300条评论集合计算该潜在词的词频,如果大于设定阈值也输入初步候选词集合。否则进行第三次筛选计算潜在词的自由度如果达到设定阈值将其加入初步候选词集,否则删除。
例如透心凉,下一句是心飞扬,好像怕上火下一句很少接其他的词,那就是它的自由度不高,而一个真正的词必定可以和很多词配合,所以’透’+‘心凉’就不能构成一个新词。实际上我们统计’透心凉’的左右邻词的出现次数,并以总的出现次数作为分母计算每个邻词的出现概率,最后用信息熵分别统计左右的熵值,注意是左右分开算。然后分别选择左右中小的熵值作为最终自由度,意为但凡有一边不自由都不能被单独当成一个词,不然的话“口香糖”就要被分为“口香”+“香糖”了。具体如下:
潜在词w在评论集合D中可能出现在w左(右)侧的单字的集合C={c1,c2,…,ci,…,cn}称为w的左(右)邻字集。
IEmin(w)=min{IEleft(w),IEright(w)}
其中IE(w)为潜在词w的左(右)邻接字集的信息熵,ni表示ci作为潜在词w的左(右)邻字出现的次数,n表示邻字集C中的所有字作为w的左(右)邻字出现的次数之和。
自由度为求得左、右邻接字信息熵IEleft(w)和IEright(w)的较小值IEmin(w)。
其中自由度的阈值要设很大,因为左右邻词太丰富,信息熵加和就会比较大,经过测试设置为45。
进一步地,结合图4对步骤5的候选词最终集合筛选方法进行详细介绍。该步骤使用设定的支持度计算公式对初步候选词进行最终筛选,候选词c的支持度(SUP)具体计算方法如下:
其中P(c1)表示候选词C在该商品下评论中出现的频率,Pn(c)表示与c长度相同的候选词在词典中出现的频率,P(c2)表示候选词c在同类10件商品300条下评论中出现的频率,Pn(c)表示与c长度相同的候选词在词典中出现的频率。
进一步地,步骤6在已经得到最终候选词集后进行与已登录词词典的对比,删除词典中已有的,得到的的就是新词集。
Claims (3)
1.一种基于商品评论的新词提取方法,方法包括下述步骤:
步骤1、利用网络爬虫工具,采集的商品的评论信息,保存到本地数据库。
步骤2、然后对保存的语料信息进行降噪处理和分词预处理。
步骤3、对预处理后的语料信息进行词拓展处理,提取出潜在词集。
步骤4、通过对潜在词集的频数、自由度计算进行初步候选词集筛选。
步骤5、对初步候选词集进行支持度计算筛选出最终候选词集。
步骤6、与已有词典进行比对,筛选出新词集合。
2.根据权利要求1所述的一种基于商品评论的新词提取方法,所述步骤4中的频数计算方法如下:
输入潜在词集,计算词在其所在商品评论中出现的频率如果大于设定阈值将其输入初步候选词集,否则进行第二次筛选随机抽取根据商品相关性随机抽取10件同类商品下的300条评论集合计算该潜在词的词频,如果大于设定阈值也输入初步候选词集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010087337.6A CN111339403B (zh) | 2020-02-11 | 2020-02-11 | 一种基于商品评论新词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010087337.6A CN111339403B (zh) | 2020-02-11 | 2020-02-11 | 一种基于商品评论新词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339403A true CN111339403A (zh) | 2020-06-26 |
CN111339403B CN111339403B (zh) | 2022-08-02 |
Family
ID=71185258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010087337.6A Active CN111339403B (zh) | 2020-02-11 | 2020-02-11 | 一种基于商品评论新词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339403B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926318A (zh) * | 2021-02-26 | 2021-06-08 | 安徽理工大学 | 一种基于句法分析的网购评论新情感词提取方法 |
CN113779990A (zh) * | 2021-09-10 | 2021-12-10 | 中国联合网络通信集团有限公司 | 中文分词方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868185A (zh) * | 2016-05-16 | 2016-08-17 | 南京邮电大学 | 一种购物评论情感分析中基于词性标注的词典构建方法 |
CN107180025A (zh) * | 2017-03-31 | 2017-09-19 | 北京奇艺世纪科技有限公司 | 一种新词的识别方法及装置 |
CN107784087A (zh) * | 2017-10-09 | 2018-03-09 | 东软集团股份有限公司 | 一种热词确定方法、装置及设备 |
CN108038119A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 利用新词发现投资标的的方法、装置及存储介质 |
CN108319584A (zh) * | 2018-01-22 | 2018-07-24 | 北京工业大学 | 一种基于改进FP-Growth算法的微博类短文本的新词发现方法 |
CN108509425A (zh) * | 2018-04-10 | 2018-09-07 | 中国人民解放军陆军工程大学 | 一种基于新颖度的中文新词发现方法 |
CN108829658A (zh) * | 2018-05-02 | 2018-11-16 | 石家庄天亮教育科技有限公司 | 新词发现的方法及装置 |
-
2020
- 2020-02-11 CN CN202010087337.6A patent/CN111339403B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868185A (zh) * | 2016-05-16 | 2016-08-17 | 南京邮电大学 | 一种购物评论情感分析中基于词性标注的词典构建方法 |
CN107180025A (zh) * | 2017-03-31 | 2017-09-19 | 北京奇艺世纪科技有限公司 | 一种新词的识别方法及装置 |
CN107784087A (zh) * | 2017-10-09 | 2018-03-09 | 东软集团股份有限公司 | 一种热词确定方法、装置及设备 |
CN108038119A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 利用新词发现投资标的的方法、装置及存储介质 |
WO2019085335A1 (zh) * | 2017-11-01 | 2019-05-09 | 平安科技(深圳)有限公司 | 利用新词发现投资标的的方法、装置及存储介质 |
CN108319584A (zh) * | 2018-01-22 | 2018-07-24 | 北京工业大学 | 一种基于改进FP-Growth算法的微博类短文本的新词发现方法 |
CN108509425A (zh) * | 2018-04-10 | 2018-09-07 | 中国人民解放军陆军工程大学 | 一种基于新颖度的中文新词发现方法 |
CN108829658A (zh) * | 2018-05-02 | 2018-11-16 | 石家庄天亮教育科技有限公司 | 新词发现的方法及装置 |
Non-Patent Citations (2)
Title |
---|
HUI JIAO ET AL.: ""Chinese Keyword Extraction Based on N-Gram and Word Co-occurrence"", 《INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY WORKSHOPS》, 7 January 2008 (2008-01-07) * |
周清: ""网络新词发现算法研究"", 《万方数据知识服务平台》, 4 May 2016 (2016-05-04) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926318A (zh) * | 2021-02-26 | 2021-06-08 | 安徽理工大学 | 一种基于句法分析的网购评论新情感词提取方法 |
CN113779990A (zh) * | 2021-09-10 | 2021-12-10 | 中国联合网络通信集团有限公司 | 中文分词方法、装置、设备及存储介质 |
CN113779990B (zh) * | 2021-09-10 | 2023-10-31 | 中国联合网络通信集团有限公司 | 中文分词方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111339403B (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105022725B (zh) | 一种应用于金融Web领域的文本情感倾向分析方法 | |
CN110175325B (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
Atoum et al. | Sentiment analysis of Arabic Jordanian dialect tweets | |
CN107391483A (zh) | 一种基于卷积神经网络的商品评论数据情感分类方法 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN108062304A (zh) | 一种基于机器学习的商品评论数据的情感分析方法 | |
CN108388660A (zh) | 一种改进的电商产品痛点分析方法 | |
CN107832781A (zh) | 一种面向多源数据的软件缺陷表示学习方法 | |
CN111339403B (zh) | 一种基于商品评论新词提取方法 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN107688630A (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN110134799A (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN111460158A (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
Buntoro et al. | The Implementation of the machine learning algorithm for the sentiment analysis of Indonesia’s 2019 Presidential election | |
US11605004B2 (en) | Method and system for generating a transitory sentiment community | |
AlFutamani et al. | Emotional Analysis of Arabic Saudi Dialect Tweets Using a Supervised Learning Approach. | |
CN113688624A (zh) | 一种基于语言风格的人格预测方法及装置 | |
CN108717450B (zh) | 影评情感倾向性分析算法 | |
Setiawan et al. | Social media emotion analysis in indonesian using fine-tuning bert model | |
CN111259661A (zh) | 一种基于商品评论的新情感词提取方法 | |
CN112507115B (zh) | 一种弹幕文本中情感词的分类方法、装置及存储介质 | |
Rahman et al. | A dynamic strategy for classifying sentiment from Bengali text by utilizing Word2vector model | |
CN110489522B (zh) | 一种基于用户评分的情感词典构建方法 | |
CN110096618B (zh) | 一种基于分维度情感分析的电影推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |