CN107391493A - 一种舆情信息提取方法、装置、终端设备及存储介质 - Google Patents

一种舆情信息提取方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN107391493A
CN107391493A CN201710664561.5A CN201710664561A CN107391493A CN 107391493 A CN107391493 A CN 107391493A CN 201710664561 A CN201710664561 A CN 201710664561A CN 107391493 A CN107391493 A CN 107391493A
Authority
CN
China
Prior art keywords
participle
commodity
comment
word
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710664561.5A
Other languages
English (en)
Other versions
CN107391493B (zh
Inventor
张伟毅
周荣海
吕斌
沈敏玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aoki Digital Technology Ltd By Share Ltd
Original Assignee
Aoki Digital Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aoki Digital Technology Ltd By Share Ltd filed Critical Aoki Digital Technology Ltd By Share Ltd
Priority to CN201710664561.5A priority Critical patent/CN107391493B/zh
Publication of CN107391493A publication Critical patent/CN107391493A/zh
Application granted granted Critical
Publication of CN107391493B publication Critical patent/CN107391493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种舆情信息提取方法,包括以下步骤:获取商品的第一评论语句;根据优先级语料库对所述第一评论语句进行分词;调用停用词语料库去除分词后的所述第一评论语句中的停用词,得到包括至少一个分词的第二评论语句;基于每个分词的类型及分词之间的顺序关系,从所述第二评论语句中提取出至少一个评论结构;根据提取的所述评论结构获取所述商品的评价情况。本发明还提供了一种舆情信息提取装置、终端设备及计算机可读存储介质,多维度挖掘提取评论数据,为商家提供准确直观地数据信息,为商家制定并调整后续运营决策提供参考。

Description

一种舆情信息提取方法、装置、终端设备及存储介质
技术领域
本发明涉及计算机领域,尤其涉及一种舆情信息提取方法、装置、终端设备及存储介质。
背景技术
电子商务行业发展迅猛,对社会和经济的重要性与日俱增。随着互联网的普及,人们越来越依赖于诸如天猫、淘宝、京东等电商平台进行购物。大型电商平台是电子商务行业发展的催化剂。对比传统线下销售的厂商,从购物用户的角度,在电商平台上可以十分详尽地获取到商品的属性、销量等信息,还可以通过已购买过的用户做出的评价,进一步的了解商品的使用情况,从而做出购买与否的选择。而对商家来说,收集消费者对线下销售产品的评价信息成本非常高,电商平台则提供了这样一个利于用户反馈的环境。在线评论对消费者做出消费决策具有参考意义。据美国权威调查咨询公司——KRC研究所在2005年所做的一项调查表明,通过网络进行购物的用户进行在线搜索和评价商品时,会参考其他消费者对目标商品的评价与使用心得,评论数据很大程度上影响了他们的购物决策。根据中国互联网络信息中心(CNNIC)在2009年调查发布的《中国互联网络发展状况统计报告》显示,在线商品的评论是我国消费者“网购”购买决策的重要信息来源之一。
因此,分析电商平台上购买用户对产品的评价信息,并针对多维度来提取相关信息是了解商品舆情、用户反馈的重要途径,为商家改善自身经营状况、提升用户体验、制定运营策略具有很高的参考意义。基于电商评论的舆情信息提取对商家具有很高价值,故对电商评论数据的精确分析与信息提取就显得尤为重要。
在电商蓬勃发展的同时,针对电商评论数据处理的技术也应运而生,但现有的电商评论处理技术较为粗犷。通过调查多个商家对评论数据的处理方案,以及参考多个电商第三方数据处理平台针对评论数据进行处理的功能模块,电商行业中基于电商评论的处理方案大体分为以下三类:
第一,依靠平台用户反馈(如天猫的五星好评机制)来筛选出评分低的评论,再依靠客服人员分析问题、跟进问题、解决问题;
第二,构建情感词特征词库,将用户评论中涉及用户情感的关键词分为正、负两面,从中感知对商品服务的满意程度;
第三,构建问题关键词特征词库,将用户评论中涉及产品问题的关键词作为筛选条件,对评论进行过滤筛选,将评论进行分类。
发明内容
上述处理电商评论的技术均较为粗犷,处理后的评论数据能提供到的参考往往不够直观,提取到的信息价值十分有限,不能为商家提供到精确细致的用户反馈。上述现有技术的缺点如下:
第一,依靠平台用户反馈(如天猫的五星好评机制)来筛选出分数低的评论的方法的缺点是:
(1)低效。在面对大数据量的评论的时候使用此种方法耗时耗力。
(2)不精准。用户的评论往往涉及商品的多个维度,此种方法收集的是用户的总体感知,商家无法明确感知到改进方向。
第二,构建情感词特征词库,将用户评论中涉及用户情感的关键词分为正、负两面,从中感知对商品服务的满意程度。此方法的缺点是:
(1)不直观。将文本中情感分为积极和消极两类,忽略了用户表述的情感程度。
(2)无法定位商品维度。情感词固然能说明用户的喜好程度,但是笼统的将文本分成两类无法定位到商品在哪个维度需要改进。
第三,构建问题关键词特征词库,将用户评论中涉及产品问题的关键词作为筛选条件,对评论进行过滤筛选,将评论进行分类。此方法的缺点是:
(1)不直观。语义的表述千差万别,没有将文本进行量化就不能进行比较,也无法提供到商家对商品的明确感知。
(2)不通用。电商行业的类目十分繁多,每个行业用户关注的商品维度又不一样,如衣服和食品类目的评述内容——“衣服气味大”和“食物气味大”,同样是表述气味,顾客表达的是不同情感,在此方法下就会出现问题。
针对上述问题,本发明的目的在于提供一种舆情信息提取方法、装置、终端设备及存储介质,多维度挖掘提取评论数据,为商家提供准确直观地数据信息,为商家制定并调整后续运营决策提供参考。
本发明提供了一种舆情信息提取方法,包括以下步骤:
获取商品的第一评论语句;
根据优先级语料库对所述第一评论语句进行分词;
调用停用词语料库去除分词后的所述第一评论语句中的停用词,得到包括至少一个分词的第二评论语句;
基于每个分词的类型及分词之间的顺序关系,从所述第二评论语句中提取出至少一个评论结构;
根据提取的所述评论结构获取所述商品的评价情况。
优选地,
所述分词的类型包括商品维度词、商品情感词;
所述评论结构包括商品维度NA结构和商品维度独立结构;
则所述基于每个分词的类型及分词之间的顺序关系,从所述第二评论语句中提取出至少一个评论结构,具体包括:
依次获取所述第二评论语句中的每个分词的类型;
当判断当前分词的类型为商品维度词且该分词的下一个分词的类型为商品情感词时,将该分词及该分词的下一个分词作为一个商品维度NA结构;
当判断当前分词的类型为商品情感词且该分词的上一个分词的类型不为商品维度词时,或者当判断该分词的类型为商品情感词且所述分词不存在上一个分词时,将该分词作为一个商品维度独立结构。
优选地,
所述根据提取的所述评论结构获取对应的商品的评价情况,具体包括:
当所述评论结构为商品维度NA结构时,调用维度词语料库对所述商品维度词进行同义转换,调用情感词语料库对所述商品情感词进行等级转换,根据所述同义转换及所述等级转换的结果获取所述商品维度NA结构对应的商品的商品维度分数;
当所述评论结构为商品维度独立结构时,调用维度情感词语料库对所述商品情感词进行商品维度判别及情感词等级转换,根据所述商品维度判别及情感词等级转换的结果获取所述商品维度独立结构对应的商品的商品维度分数。
优选地,
所述分词的类型还包括用户情感词、用户行为词;
所述评论结构还包括用户行为NA结构、用户行为独立结构;
则所述基于每个分词的类型及分词之间的顺序关系,从所述第二评论语句中提取出至少一个评论结构,具体包括:
依次获取所述第二评论语句中的每个分词的类型;
当判断当前分词的类型为用户行为词且该分词的下一个分词的类型为用户情感词时,将该分词及该分词的下一个分词作为一个用户行为NA结构;
当判断当前分词的类型为用户情感词且该分词的上一个分词的类型不为用户行为词时,或者当判断该分词的类型为用户情感词且所述分词不存在上一个分词时,将该分词作为一个用户行为独立结构。
优选地,
所述根据提取的所述评论结构获取对应的商品的评价情况,具体包括:
当所述评论结构为用户行为NA结构时,调用用户行为词典对所述用户行为词和所述用户情感词进行维度转换,根据所述维度转换的结果获取所述用户行为NA结构对应的商品的用户行为分数;
当所述评论结构为用户行为独立结构时,调用独立情感词语料库对所述用户情感词进行维度转换,根据所述维度转换的结果获取所述用户行为独立结构对应的商品的用户行为分数。
优选地,还包括:
根据所述商品维度分数及所述用户行为分数获得对应商品的满意度指数。
优选地,
所述根据优先级语料库对所述第一评论语句进行分词,具体包括:
对所述第一评论语句中的固定组合词汇进行优先划分;
基于词频的最大切分组合对优先划分后的所述第一评论语句中未划分的部分进行划分;
调用Viterbi算法对再次划分后的所述第一评论语句中未划分的无法识别的部分进行识别并划分。
本发明还提供了一种舆情信息提取装置,包括:
评论语句获取模块,用于获取商品的第一评论语句;
分词模块,用于根据优先级语料库对所述第一评论语句进行分词;
停用词去除模块,用于调用停用词语料库去除分词后的所述第一评论语句中的停用词,得到包括至少一个分词的第二评论语句;
评论结构提取模块,用于基于每个分词的类型及分词之间的顺序关系,从所述第二评论语句中提取出至少一个评论结构;
评价情况获取模块,用于根据提取的所述评论结构获取对应的商品的评价情况。
优选地,
所述分词的类型包括商品维度词、商品情感词;
所述评论结构包括商品维度NA结构和商品维度独立结构;
则所述评论结构提取模块,具体包括:
第一类型获取单元,用于依次获取所述第二评论语句中的每个分词的类型;
商品维度NA结构单元,用于当判断当前分词的类型为商品维度词且该分词的下一个分词的类型为商品情感词时,将该分词及该分词的下一个分词作为一个商品维度NA结构;
商品维度独立结构单元,用于当判断当前分词的类型为商品情感词且该分词的上一个分词的类型不为商品维度词时,或者当判断该分词的类型为商品情感词且所述分词不存在上一个分词时,将该分词作为一个商品维度独立结构。
优选地,
所述评价情况获取模块,具体包括:
第一维度分数获取单元,用于当所述评论结构为商品维度NA结构时,调用维度词语料库对所述商品维度词进行同义转换,调用情感词语料库对所述商品情感词进行等级转换,根据所述同义转换及所述等级转换的结果获取所述商品维度NA结构对应的商品的商品维度分数;
第二维度分数获取单元,用于当所述评论结构为商品维度独立结构时,调用维度情感词语料库对所述商品情感词进行商品维度判别及情感词等级转换,根据所述商品维度判别及情感词等级转换的结果获取所述商品维度独立结构对应的商品的商品维度分数。
优选地,
所述分词的类型还包括用户情感词、用户行为词;
所述评论结构还包括用户行为NA结构、用户行为独立结构;
则所述评论结构提取模块,具体包括:
第二类型获取单元,用于依次获取所述第二评论语句中的每个分词的类型;
用户行为NA结构单元,用于当判断当前分词的类型为用户行为词且该分词的下一个分词的类型为用户情感词时,将该分词及该分词的下一个分词作为一个用户行为NA结构;
用户行为独立结构单元,用于当判断当前分词的类型为用户情感词且该分词的上一个分词的类型不为用户行为词时,或者当判断该分词的类型为用户情感词且所述分词不存在上一个分词时,将该分词作为一个用户行为独立结构。
优选地,
所述评价情况获取模块,具体包括:
第一行为分数获取单元,用于当所述评论结构为用户行为NA结构时,调用用户行为词典对所述用户行为词和所述用户情感词进行维度转换,根据所述维度转换的结果获取所述用户行为NA结构对应的商品的用户行为分数;
第二行为分数获取单元,用于当所述评论结构为用户行为独立结构时,调用独立情感词语料库对所述用户情感词进行维度转换,根据所述维度转换的结果获取所述用户行为独立结构对应的商品的用户行为分数。
优选地,还包括:
指数获取模块,用于根据所述商品维度分数及所述用户行为分数获得对应商品的满意度指数。
优选地,
所述分词模块,具体包括:
对所述第一评论语句中的固定组合词汇进行优先划分;
基于词频的最大切分组合对优先划分后的所述第一评论语句中未划分的部分进行划分;
调用Viterbi算法对再次划分后的所述第一评论语句中未划分的无法识别的部分进行识别并划分。
本发明还提供了一种舆情信息提取终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述中任意一项所述的舆情信息提取方法。
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的舆情信息提取方法。
本发明提供了一种舆情信息提取方法、装置、终端设备及存储介质,通过获取商品的评论文本,根据优先级语料库对评论文本进行分词及调用停用词语料库去除分词后的评论文本中的停用词,将去除停用词后的评论文本基于分词的类型及分词之间的顺序关系提取评论结构,根据评论结构获取商品评价情况。优先级语料库通过对部分特定的组合词提高优先级次序进行优先切分,避免了语义的误解读,停用词库通过去除评论文本中对语义识别无意义的词,提高了效率增加了辨识度,对电商评论信息进行精细化提取,极大程度上提取和挖掘评论信息的价值,多维度、多方面、多层次地对评论数据进行挖掘提取,给商家提供精确、归整的数据信息,为商家制定及调整后续运营决策提供参考。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的舆情信息提取方法的流程示意图。
图2是本发明第一实施例提供的另一种舆情信息提取方法的流程示意图。
图3是本发明第三实施例提供的舆情信息提取方法的流程示意图。
图4是本发明第四实施例提供的舆情信息提取方法的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明第一实施例提供的一种舆情信息提取方法,其可由舆情信息提取终端设备来执行,并包括以下步骤:
S10,获取商品的第一评论语句。
在本发明实施例中,所述舆情信息提取终端设备可为桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。
在本发明实施例中,所述舆情信息提取终端设备获取商品的第一评论语句,即获取商品的评论文本数据。所述舆情信息提取终端设备可通过多种方法获取评论文本数据,如用爬虫获取所述评论文本数据或者通过拉取电商平台的后台评论文本数据获得,但不限于举例说明的方法,需要说明的是,获取商品评论文本数据的方法均在本发明的保护范围内。所述舆情信息提取终端设备在获取商品的评论文本后,对评论文本该执行的操作进行类目选择。
S20,根据优先级语料库对所述第一评论语句进行分词。
在本发明实施例中,具体地,所述舆情信息提取终端设备对所述第一评论语句中的固定组合词汇进行优先划分,然后基于词频的最大切分组合对优先划分后的所述第一评论语句中未划分的部分进行划分,最后调用Viterbi算法对再次划分后的所述第一评论语句中未划分的无法识别的部分进行识别并划分,定义优先级划分方法避免了语义的误解读。
在本发明实施例中,所述舆情信息提取终端设备根据优先级语料库对所述第一评论语句进行分词,即将完整的所述第一评论语句切分成可以处理的单词列表。优先级语料库的构造如下:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法;最后人为定义一些因样本量太小而无法识别的固定组合词。所述HMM模型(隐马尔可夫模型)为一种统计分析模型,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。
在本发明实施例中,所述舆情信息提取终端设备根据优先级语料库对所述第一评论语句进行分词,在分词过程中,对一些特定的词,网络用语如“给力”、错别字如“高大尚”“腻害”、品牌词如“韩都衣舍”、成语俗语如“迅雷不及掩耳之势”、包含情感词的词语如“出差”等但不限于举例说明的词汇,对这些特定词汇进行优先划分,避免系统误分导致语义误读,影响到输出结果的准确性,请参阅图2,对评论语句“好看,质感还不错,就是快递有点慢”进行分词,将所述评论语句划分为“好看|,|质感|还不错|,|就是|快递|有点慢”。
S30,调用停用词语料库去除分词后的所述第一评论语句中的停用词,得到包括至少一个分词的第二评论语句。
在本发明实施例中,所述停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。构造停用词语料库对电商评论语句中不影响语义识别的词汇进行分析定义,在实际操作过程中,所述舆情信息提取终端设备调用停用词语料库去除分词后的所述第一评论语句中对语义识别无意义的词,提高效率增加辨识度,最终得到包括至少一个有效可解析分词的第二评论语句,请参阅图2,对划分后的评论语句“好看|,|质感|还不错|,|就是|快递|有点慢”去除停用词,得到“好看|质感|还不错|快递|有点慢”,去除“,”和“就是”这些对语义识别无意义的词。
S40,基于每个分词的类型及分词之间的顺序关系,从所述第二评论语句中提取出至少一个评论结构。
在本发明实施例中,所述分词的类型包括商品维度词、商品情感词,所述评论结构包括商品维度NA结构和商品维度独立结构。在提取过程中,首先所述舆情信息提取终端设备依次获取所述第二评论语句中的每个分词的类型;当判断当前分词的类型为商品维度词且该分词的下一个分词的类型为商品情感词时,所述舆情信息提取终端设备将该分词及该分词的下一个分词作为一个商品维度NA结构,即“名词+量化形容词”的语义结构,在电商评论中,顾客对商品的评论信息多以“NA结构”来表达,如“质量不错”“物流很快”等,基于这种规律,根据所述第二评论语句中的分词类型及顺序进行商品维度NA结构判别;当判断当前分词的类型为商品情感词且该分词的上一个分词的类型不为商品维度词时,或者当判断该分词的类型为商品情感词且所述分词不存在上一个分词时,所述舆情信息提取终端设备将该分词作为一个商品维度独立结构,即作为独立情感词进行识别,例如“好看”。请参阅图2,对去除停用词后的评论语句“好看|质感|还不错|快递|有点慢”进行评论结构划分,则“好看”属于商品维度独立结构,“质感|还不错”、“快递|有点慢”属于商品维度NA结构。
S50,根据提取的所述评论结构获取所述商品的评价情况。
在本发明实施例中,具体地,当所述评论结构为商品维度NA结构时,其中所述商品维度NA结构包括商品维度词和商品情感词,所述舆情信息提取终端设备调用维度词语料库对所述商品维度词进行同义转换,例如将“质感”、“材料”、“质地”、“品质”等词转换为“质量”;在同义转换后所述舆情信息提取终端设备调用情感词语料库对所述商品情感词进行等级转换,将表达顾客情感的词语根据语气的强烈程度进行排序,并划分为五个等级,分数高的代表满意程度高,最高为5分,分数低的代表满意程度低,最低为1分,例如“非常满意”为5分,“满意”为4分,“一般”为3分,“不满意”为2分,“非常不满意”为1分,对情感词进行量化,不仅结果更为直观,而且使得不同商品或者店铺的评论数据在同一规则下进行对比成为可能;所述舆情信息提取终端设备根据所述同义转换及所述等级转换的结果获取所述商品维度NA结构对应的商品的商品维度分数,即获取语义结构为“名词+量化形容词”的评论语句对应的商品的维度分数,所述舆情信息提取终端设备通过维度的划分和情感词的分值对评论进行维度的打标,例如“质感还不错,就是快递有点慢”会打上标签“物流2分,质量4分”。其中,在构造维度语料库过程中,将商品的维度词分为六个大类,分别是“质量”、“价格”、“服务”、“物流”、“款式”和“其他”,“其他”维度会根据不同行业来制定,例如鞋子行业顾客较为关注的是“尺寸”维度,而电器行业顾客较为关注“功能”,对不同类目的评论数据通过对维度词的同义转换解决了用户对不同类目关注点不同的情况,更精细更具有参考价值。请参阅图2,将属于商品维度NA结构的“质感|还不错”、“快递|有点慢”进行商品维度词同义转换及商品情感词等级转换,得到“质量4”、“物流2”。
在本发明实施例中,具体地,当所述评论结构为商品维度独立结构时,其中所述商品维度独立结构包括商品情感词,所述舆情信息提取终端设备调用维度情感词语料库对所述商品情感词进行商品维度判别及情感词等级转换,根据所述商品维度判别及情感词等级转换的结果获取所述商品维度独立结构对应的商品的商品维度分数,例如“好看”代表的是“款式好看”,“便宜”代表的是“价格便宜”,构造维度情感词语料库对此类表示商品评论情况的独立情感词进行归档识别及打分,请参阅图2,将属于商品维度独立结构的“好看”进行商品维度判别及情感词等级转换,得到“款式4分”。
综上所述,本发明提供了一种舆情信息提取方法,通过获取商品的评论文本,根据优先级语料库对评论文本进行分词及调用停用词语料库去除分词后的评论文本中的停用词,将去除停用词后的评论文本基于分词的类型及分词之间的顺序关系提取评论结构,根据评论结构获取商品评价情况。优先级语料库通过对部分特定的组合词提高优先级次序进行优先切分,避免了语义的误解读,停用词库通过去除评论文本中对语义识别无意义的词,提高了效率增加了辨识度,对电商评论信息进行精细化提取,极大程度上提取和挖掘评论信息的价值,多维度、多方面、多层次地对评论数据进行挖掘提取,给商家提供精确、归整的数据信息,为商家制定及调整后续运营决策提供参考。
为了便于对本发明的理解,下面将对本发明的一些优选实施例做更进一步的描述。
本发明第二实施例:
在本发明第一实施例的基础上,所述分词的类型还包括用户情感词、用户行为词。
所述评论结构还包括用户行为NA结构、用户行为独立结构。
则所述S40具体包括:
依次获取所述第二评论语句中的每个分词的类型。
当判断当前分词的类型为用户行为词且该分词的下一个分词的类型为用户情感词时,将该分词及该分词的下一个分词作为一个用户行为NA结构。
当判断当前分词的类型为用户情感词且该分词的上一个分词的类型不为用户行为词时,或者当判断该分词的类型为用户情感词且所述分词不存在上一个分词时,将该分词作为一个用户行为独立结构。
在本发明实施例中,首先所述舆情信息提取终端设备依次获取所述第二评论语句中的每个分词的类型;当判断当前分词的类型为用户行为词且该分词的下一个分词的类型为用户情感词时,将该分词及该分词的下一个分词作为一个用户行为NA结构,即“名词+形容词”的语义结构,例如“我很满意”;当判断当前分词的类型为用户情感词且该分词的上一个分词的类型不为用户行为词时,或者当判断该分词的类型为用户情感词且所述分词不存在上一个分词时,将该分词作为一个用户行为独立结构,即不符合用户行为NA结构但又表述出顾客购买体验的词汇例如“喜欢”。
则所述S50,具体包括:
当所述评论结构为用户行为NA结构时,调用用户行为词典对所述用户行为词和所述用户情感词进行维度转换,根据所述维度转换的结果获取所述用户行为NA结构对应的商品的用户行为分数。
在本发明实施例中,当所述评论结构为用户行为NA结构时,其中所述用户行为NA结构包括用户行为词和用户情感词,所述舆情信息提取终端设备调用用户行为词典对所述用户行为词和所述用户情感词进行维度转换,所述用户行为词典将用户行为分为三个维度,分别是“回购倾向”,“推荐倾向”和“追评倾向”,将顾客表达回购意愿、推荐意愿和追评意愿的词组进行收集,对其意愿程度高低进行打分,如回购倾向中“还会再来”为5分,“不会再来”为1分,推荐倾向中“推荐朋友来”为5分,“不能买”为1分,若文本信息有追评倾向的词语,则为1分,没有为0分,所述舆情信息提取终端设备根据所述维度转换的结果获取所述用户行为NA结构对应的商品的用户行为分数,将用户行为词典加入优先级语料库中,将其词性定义为“userdefine”,对文本信息的词性进行遍历,如识别到定义的词性,则对所在维度进行打分,得出用户行为分数,通过所述用户行为分数预测用户的购物行为。
当所述评论结构为用户行为独立结构时,调用独立情感词语料库对所述用户情感词进行维度转换,根据所述维度转换的结果获取所述用户行为独立结构对应的商品的用户行为分数。
在本发明实施例中,当所述评论结构为用户行为独立结构时,其中所述用户行为独立结构包括用户情感词,例如“喜欢”、“满意”等表示用户行为的独立情感词的评论,所述舆情信息提取终端设备调用独立情感词语料库识别所述用户情感词,对所述用户情感词进行维度转换,所述舆情信息提取终端设备根据所述维度转换的结果获取所述用户行为独立结构对应的商品的用户行为分数。
本发明第三实施例:
请参阅图3,在本发明第二实施例的基础上,还包括:
S60,根据所述商品维度分数及所述用户行为分数获得对应商品的满意度指数。
在本发明实施例中,综合商品维度分数(“质量”、“价格”、“服务”、“物流”、“款式”、“其他”)和用户行为分数(“回购”、“推荐”、“情感”)两方面的期望进行加权计算最后的满意度指数,给商家提供归整的数据信息,为商家制定后续运营决策提供参考,满意度指数的计算方法为:
Ⅰ若商品维度分数和用户行为分数均不为空,则:满意度指数=E(商品维度分数)*0.5+E(用户行为分数)*0.5。
Ⅱ若商品维度分数不为空,用户行为分数为空,则:满意度指数=E(商品维度分数)。
Ⅲ若商品维度分数为空,用户行为分数不为空,则:满意度指数=E(用户行为分数)。
Ⅳ若商品维度分数和用户行为分数均为空,则满意度指数为0。
在本发明实施例中,结合了商品舆情和用户行为对评论进行满意度的计算,在这种覆盖多维度的打分规则下,结果更准确。
请参阅图4,本发明第四实施例提供了一种舆情信息提取装置,包括:
评论语句获取模块10,用于获取商品的第一评论语句。
分词模块20,用于根据优先级语料库对所述第一评论语句进行分词。
停用词去除模块30,用于调用停用词语料库去除分词后的所述第一评论语句中的停用词,得到包括至少一个分词的第二评论语句。
评论结构提取模块40,用于基于每个分词的类型及分词之间的顺序关系,从所述第二评论语句中提取出至少一个评论结构。
评价情况获取模块50,用于根据提取的所述评论结构获取对应的商品的评价情况。
本发明第五个实施例:
在本发明第四个实施例的基础上,所述分词的类型包括商品维度词、商品情感词。
所述评论结构包括商品维度NA结构和商品维度独立结构。
则所述评论结构提取模块40,具体包括:
第一类型获取单元,用于依次获取所述第二评论语句中的每个分词的类型。
商品维度NA结构单元,用于当判断当前分词的类型为商品维度词且该分词的下一个分词的类型为商品情感词时,将该分词及该分词的下一个分词作为一个商品维度NA结构。
商品维度独立结构单元,用于当判断当前分词的类型为商品情感词且该分词的上一个分词的类型不为商品维度词时,或者当判断该分词的类型为商品情感词且所述分词不存在上一个分词时,将该分词作为一个商品维度独立结构。
优选地,
所述评价情况获取模块50,具体包括:
第一维度分数获取单元,用于当所述评论结构为商品维度NA结构时,调用维度词语料库对所述商品维度词进行同义转换,调用情感词语料库对所述商品情感词进行等级转换,根据所述同义转换及所述等级转换的结果获取所述商品维度NA结构对应的商品的商品维度分数。
第二维度分数获取单元,用于当所述评论结构为商品维度独立结构时,调用维度情感词语料库对所述商品情感词进行商品维度判别及情感词等级转换,根据所述商品维度判别及情感词等级转换的结果获取所述商品维度独立结构对应的商品的商品维度分数。
本发明第六个实施例:
在本发明第五个实施例的基础上,所述分词的类型还包括用户情感词、用户行为词。
所述评论结构还包括用户行为NA结构、用户行为独立结构。
则所述评论结构提取模块40,具体包括:
第二类型获取单元,用于依次获取所述第二评论语句中的每个分词的类型;
用户行为NA结构单元,用于当判断当前分词的类型为用户行为词且该分词的下一个分词的类型为用户情感词时,将该分词及该分词的下一个分词作为一个用户行为NA结构。
用户行为独立结构单元,用于当判断当前分词的类型为用户情感词且该分词的上一个分词的类型不为用户行为词时,或者当判断该分词的类型为用户情感词且所述分词不存在上一个分词时,将该分词作为一个用户行为独立结构。
优选地,
所述评价情况获取模块50,具体包括:
第一行为分数获取单元,用于当所述评论结构为用户行为NA结构时,调用用户行为词典对所述用户行为词和所述用户情感词进行维度转换,根据所述维度转换的结果获取所述用户行为NA结构对应的商品的用户行为分数。
第二行为分数获取单元,用于当所述评论结构为用户行为独立结构时,调用独立情感词语料库对所述用户情感词进行维度转换,根据所述维度转换的结果获取所述用户行为独立结构对应的商品的用户行为分数。
本发明第七个实施例:
在本发明第六个实施例的基础上,还包括:
指数获取模块60,用于根据所述商品维度分数及所述用户行为分数获得对应商品的满意度指数。
优选地,
所述分词模块20,具体包括:
对所述第一评论语句中的固定组合词汇进行优先划分。
基于词频的最大切分组合对优先划分后的所述第一评论语句中未划分的部分进行划分。
调用Viterbi算法对再次划分后的所述第一评论语句中未划分的无法识别的部分进行识别并划分。
本发明第八实施例提供的一种舆情信息提取终端设备的示意图。该实施例的舆情信息提取终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如舆情信息提取程序。所述处理器执行所述计算机程序时实现上述各个舆情信息提取方法实施例中的步骤,例如图1所示的步骤S10。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如评论语句获取模块。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述舆情信息提取终端设备中的执行过程。
所述舆情信息提取终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述舆情信息提取终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是舆情信息提取终端设备的示例,并不构成对舆情信息提取终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述舆情信息提取终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述舆情信息提取终端设备的控制中心,利用各种接口和线路连接整个舆情信息提取终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述舆情信息提取终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述舆情信息提取终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种舆情信息提取方法,其特征在于,包括以下步骤:
获取商品的第一评论语句;
根据优先级语料库对所述第一评论语句进行分词;
调用停用词语料库去除分词后的所述第一评论语句中的停用词,得到包括至少一个分词的第二评论语句;
基于每个分词的类型及分词之间的顺序关系,从所述第二评论语句中提取出至少一个评论结构;
根据提取的所述评论结构获取所述商品的评价情况。
2.根据权利要求1所述的舆情信息提取方法,其特征在于,所述分词的类型包括商品维度词、商品情感词;
所述评论结构包括商品维度NA结构和商品维度独立结构;
则所述基于每个分词的类型及分词之间的顺序关系,从所述第二评论语句中提取出至少一个评论结构,具体包括:
依次获取所述第二评论语句中的每个分词的类型;
当判断当前分词的类型为商品维度词且该分词的下一个分词的类型为商品情感词时,将该分词及该分词的下一个分词作为一个商品维度NA结构;
当判断当前分词的类型为商品情感词且该分词的上一个分词的类型不为商品维度词时,或者当判断该分词的类型为商品情感词且所述分词不存在上一个分词时,将该分词作为一个商品维度独立结构。
3.根据权利要求2所述的舆情信息提取方法,其特征在于,所述根据提取的所述评论结构获取对应的商品的评价情况,具体包括:
当所述评论结构为商品维度NA结构时,调用维度词语料库对所述商品维度词进行同义转换,调用情感词语料库对所述商品情感词进行等级转换,根据所述同义转换及所述等级转换的结果获取所述商品维度NA结构对应的商品的商品维度分数;
当所述评论结构为商品维度独立结构时,调用维度情感词语料库对所述商品情感词进行商品维度判别及情感词等级转换,根据所述商品维度判别及情感词等级转换的结果获取所述商品维度独立结构对应的商品的商品维度分数。
4.根据权利要求3所述的舆情信息提取方法,其特征在于,所述分词的类型还包括用户情感词、用户行为词;
所述评论结构还包括用户行为NA结构、用户行为独立结构;
则所述基于每个分词的类型及分词之间的顺序关系,从所述第二评论语句中提取出至少一个评论结构,具体包括:
依次获取所述第二评论语句中的每个分词的类型;
当判断当前分词的类型为用户行为词且该分词的下一个分词的类型为用户情感词时,将该分词及该分词的下一个分词作为一个用户行为NA结构;
当判断当前分词的类型为用户情感词且该分词的上一个分词的类型不为用户行为词时,或者当判断该分词的类型为用户情感词且所述分词不存在上一个分词时,将该分词作为一个用户行为独立结构。
5.根据权利要求4所述的舆情信息提取方法,其特征在于,所述根据提取的所述评论结构获取对应的商品的评价情况,具体包括:
当所述评论结构为用户行为NA结构时,调用用户行为词典对所述用户行为词和所述用户情感词进行维度转换,根据所述维度转换的结果获取所述用户行为NA结构对应的商品的用户行为分数;
当所述评论结构为用户行为独立结构时,调用独立情感词语料库对所述用户情感词进行维度转换,根据所述维度转换的结果获取所述用户行为独立结构对应的商品的用户行为分数。
6.根据权利要求5所述的舆情信息提取方法,其特征在于,还包括:
根据所述商品维度分数及所述用户行为分数获得对应商品的满意度指数。
7.根据权利要求1至6任意一项所述的舆情信息提取方法,其特征在于,所述根据优先级语料库对所述第一评论语句进行分词,具体包括:
对所述第一评论语句中的固定组合词汇进行优先划分;
基于词频的最大切分组合对优先划分后的所述第一评论语句中未划分的部分进行划分;
调用Viterbi算法对再次划分后的所述第一评论语句中未划分的无法识别的部分进行识别并划分。
8.一种舆情信息提取装置,其特征在于,包括:
评论语句获取模块,用于获取商品的第一评论语句;
分词模块,用于根据优先级语料库对所述第一评论语句进行分词;
停用词去除模块,用于调用停用词语料库去除分词后的所述第一评论语句中的停用词,得到包括至少一个分词的第二评论语句;
评论结构提取模块,用于基于每个分词的类型及分词之间的顺序关系,从所述第二评论语句中提取出至少一个评论结构;
评价情况获取模块,用于根据提取的所述评论结构获取对应的商品的评价情况。
9.一种舆情信息提取终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的舆情信息提取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的舆情信息提取方法。
CN201710664561.5A 2017-08-04 2017-08-04 一种舆情信息提取方法、装置、终端设备及存储介质 Active CN107391493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710664561.5A CN107391493B (zh) 2017-08-04 2017-08-04 一种舆情信息提取方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710664561.5A CN107391493B (zh) 2017-08-04 2017-08-04 一种舆情信息提取方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN107391493A true CN107391493A (zh) 2017-11-24
CN107391493B CN107391493B (zh) 2020-10-30

Family

ID=60344461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710664561.5A Active CN107391493B (zh) 2017-08-04 2017-08-04 一种舆情信息提取方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN107391493B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364632A (zh) * 2017-12-22 2018-08-03 东南大学 一种具备情感的中文文本人声合成方法
CN109035074A (zh) * 2018-06-29 2018-12-18 贵安新区搜床科技有限公司 一种物业状态管理方法、终端设备及计算机可读存储介质
CN109376237A (zh) * 2018-09-04 2019-02-22 中国平安人寿保险股份有限公司 客户稳定性的预测方法、装置、计算机设备和存储介质
CN109377080A (zh) * 2018-11-13 2019-02-22 平安科技(深圳)有限公司 商品评价方法、装置、计算机设备及存储介质
CN109933782A (zh) * 2018-12-03 2019-06-25 阿里巴巴集团控股有限公司 用户情绪预测方法和装置
CN110046220A (zh) * 2018-12-13 2019-07-23 阿里巴巴集团控股有限公司 舆情信息处理方法、装置、设备及计算机可读存储介质
CN110287341A (zh) * 2019-06-26 2019-09-27 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及可读存储介质
CN110334202A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 基于新闻应用软件的用户兴趣标签构建方法及相关设备
CN110705286A (zh) * 2019-09-24 2020-01-17 青木数字技术股份有限公司 一种基于评论信息的数据处理方法及装置
CN111177402A (zh) * 2019-12-13 2020-05-19 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN112214663A (zh) * 2020-10-22 2021-01-12 上海明略人工智能(集团)有限公司 获取舆情声量的方法、系统、装置、存储介质及移动终端
CN112667780A (zh) * 2020-12-31 2021-04-16 上海众源网络有限公司 一种评论信息的生成方法、装置、电子设备及存储介质
CN112818682A (zh) * 2021-01-22 2021-05-18 深圳大学 电商数据分析方法、设备、装置及计算机可读存储介质
CN113762764A (zh) * 2021-09-02 2021-12-07 南京大学 一种进口食品安全风险自动分级与预警系统及方法
CN114398911A (zh) * 2022-01-24 2022-04-26 平安科技(深圳)有限公司 情感分析方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103679462A (zh) * 2012-08-31 2014-03-26 阿里巴巴集团控股有限公司 一种评论数据处理方法和装置、一种搜索方法和系统
US20150242393A1 (en) * 2013-07-08 2015-08-27 Websays S.L. System and Method for Classifying Text Sentiment Classes Based on Past Examples
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679462A (zh) * 2012-08-31 2014-03-26 阿里巴巴集团控股有限公司 一种评论数据处理方法和装置、一种搜索方法和系统
US20150242393A1 (en) * 2013-07-08 2015-08-27 Websays S.L. System and Method for Classifying Text Sentiment Classes Based on Past Examples
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIAN LIPING ET AL.: "Research on the automatic evaluation of merchandise comments on Blogs", 《2010 INTERNATIONAL CONFERENCE ON WEB INFORMATION SYSTEMS AND MINING》 *
彭云 等: "基于语义约束LDA的商品特征和情感词提取", 《软件学报》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364632A (zh) * 2017-12-22 2018-08-03 东南大学 一种具备情感的中文文本人声合成方法
CN108364632B (zh) * 2017-12-22 2021-09-10 东南大学 一种具备情感的中文文本人声合成方法
CN109035074A (zh) * 2018-06-29 2018-12-18 贵安新区搜床科技有限公司 一种物业状态管理方法、终端设备及计算机可读存储介质
CN109376237A (zh) * 2018-09-04 2019-02-22 中国平安人寿保险股份有限公司 客户稳定性的预测方法、装置、计算机设备和存储介质
CN109376237B (zh) * 2018-09-04 2024-05-28 中国平安人寿保险股份有限公司 客户稳定性的预测方法、装置、计算机设备和存储介质
CN109377080A (zh) * 2018-11-13 2019-02-22 平安科技(深圳)有限公司 商品评价方法、装置、计算机设备及存储介质
CN109933782A (zh) * 2018-12-03 2019-06-25 阿里巴巴集团控股有限公司 用户情绪预测方法和装置
CN109933782B (zh) * 2018-12-03 2023-11-28 创新先进技术有限公司 用户情绪预测方法和装置
CN110046220A (zh) * 2018-12-13 2019-07-23 阿里巴巴集团控股有限公司 舆情信息处理方法、装置、设备及计算机可读存储介质
CN110334202A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 基于新闻应用软件的用户兴趣标签构建方法及相关设备
CN110287341A (zh) * 2019-06-26 2019-09-27 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及可读存储介质
CN110287341B (zh) * 2019-06-26 2024-08-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及可读存储介质
CN110705286A (zh) * 2019-09-24 2020-01-17 青木数字技术股份有限公司 一种基于评论信息的数据处理方法及装置
CN111177402A (zh) * 2019-12-13 2020-05-19 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN111177402B (zh) * 2019-12-13 2023-09-22 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN112214663A (zh) * 2020-10-22 2021-01-12 上海明略人工智能(集团)有限公司 获取舆情声量的方法、系统、装置、存储介质及移动终端
CN112667780A (zh) * 2020-12-31 2021-04-16 上海众源网络有限公司 一种评论信息的生成方法、装置、电子设备及存储介质
CN112818682B (zh) * 2021-01-22 2023-01-03 深圳大学 电商数据分析方法、设备、装置及计算机可读存储介质
CN112818682A (zh) * 2021-01-22 2021-05-18 深圳大学 电商数据分析方法、设备、装置及计算机可读存储介质
CN113762764A (zh) * 2021-09-02 2021-12-07 南京大学 一种进口食品安全风险自动分级与预警系统及方法
CN113762764B (zh) * 2021-09-02 2024-04-12 南京大学 一种进口食品安全风险自动分级与预警系统及方法
CN114398911A (zh) * 2022-01-24 2022-04-26 平安科技(深圳)有限公司 情感分析方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN107391493B (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN107391493A (zh) 一种舆情信息提取方法、装置、终端设备及存储介质
Singla et al. Statistical and sentiment analysis of consumer product reviews
CN109522556B (zh) 一种意图识别方法及装置
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN108108426A (zh) 自然语言提问的理解方法、装置及电子设备
CN109344240A (zh) 一种数据处理方法、服务器及电子设备
CN106503101A (zh) 电商客服自动问答系统语句关键词提取方法
CN106886580A (zh) 一种基于深度学习的图片情感极性分析方法
CN105824898A (zh) 一种网络评论的标签提取方法和装置
CN108388660A (zh) 一种改进的电商产品痛点分析方法
CN103544321A (zh) 用于微博情感信息的数据处理方法和装置
CN105930416A (zh) 一种用户反馈信息的可视化处理方法及系统
Susanti et al. Twitter’s sentiment analysis on GSM services using Multinomial Naïve Bayes
CN108304509A (zh) 一种基于文本多向量表示相互学习的垃圾评论过滤方法
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
US20230325424A1 (en) Systems and methods for generating codes and code books based using cosine proximity
Chathuranga et al. Sinhala sentiment analysis using corpus based sentiment lexicon
TW201820172A (zh) 對話模式分析系統、方法及非暫態電腦可讀取記錄媒體
KR20230052609A (ko) 기계독해를 이용한 리뷰 분석 시스템 및 방법
Beheshti-Kashi et al. Trendfashion-a framework for the identification of fashion trends
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
Walha et al. A Lexicon approach to multidimensional analysis of tweets opinion
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及系统
CN112182228B (zh) 一种短文本热点主题挖掘与概括方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant