CN111488432A - 基于用户评论的情感分析方法、设备、存储介质 - Google Patents

基于用户评论的情感分析方法、设备、存储介质 Download PDF

Info

Publication number
CN111488432A
CN111488432A CN202010292081.2A CN202010292081A CN111488432A CN 111488432 A CN111488432 A CN 111488432A CN 202010292081 A CN202010292081 A CN 202010292081A CN 111488432 A CN111488432 A CN 111488432A
Authority
CN
China
Prior art keywords
text data
user
user comments
word
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010292081.2A
Other languages
English (en)
Inventor
沈汉标
王妙玉
童威云
吴宁泉
周如梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ketyoo Intelligent Technology Co Ltd
Original Assignee
Guangdong Ketyoo Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ketyoo Intelligent Technology Co Ltd filed Critical Guangdong Ketyoo Intelligent Technology Co Ltd
Priority to CN202010292081.2A priority Critical patent/CN111488432A/zh
Publication of CN111488432A publication Critical patent/CN111488432A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了基于用户评论的情感分析方法、设备、存储介质,包括以下步骤:获取连接智能设备的APP的用户评论文本数据;对所述文本数据预处理,进行文本分词;构建情感倾向分析模型,将所述文本数据分为正负面情感文档,输出分词后的词频向量;利用所述词频向量构建语义网络分析模型,量化所述主题特征词出现的频率,得到文档的主题分布与主题特征词分布,筛选出主题的重要特征词,得到用户关注的设备功能。本发明通过APP的评论终挖掘用户对智能设备功能的评价和建议,使智能设备功能的开发更具有针对性。

Description

基于用户评论的情感分析方法、设备、存储介质
技术领域
本发明涉及数据处理领域,尤其涉及基于用户评论的情感分析方法、设备、存储介质。
背景技术
目前,全屋智能成为互联网行业发展趋势,智能设备终端接入APP,用户能通过APP去直接操作智能终端设备,实现设备“智能化”成为行业趋势。智能设备功能是基于客户的需求,用户可通过智能设备的APP对智能设备的功能进行评论。评论数据不仅可直观反映用户的使用感受及需求,同时也可将用户的感情提取出来,为开发者提供参考价值,对智能设备的改进及同类产品之间的对比提供一个方式。但目前基于智能设备终端接入的APP评论数据去进行数据挖掘的技术并不成熟,开发者较难通过APP评论数据提取出有用的信息,进行改进。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种基于用户评论的情感分析方法,通过APP的评论终挖掘用户对智能设备功能的评价和建议,使智能设备功能的开发更具有针对性。
本发明的目的之二在于提供一种电子设备,执行上述基于用户评论的情感分析方法;
本发明的目的之三在于提供一种存储介质,执行上述基于用户评论的情感分析方法。
本发明的目的之一采用如下技术方案实现:
基于用户评论的情感分析方法,包括以下步骤:
获取连接智能设备的APP的用户评论文本数据;
对所述文本数据预处理,进行文本分词;
构建情感倾向分析模型,将所述文本数据分为正负面情感文档,输出分词后的词频向量;
利用所述词频向量构建语义网络分析模型,得到文档的主题分布与主题特征词分布,量化所述主题特征词出现的频率,筛选出主题的重要特征词,得到用户关注的设备功能。
进一步地,通过Bow模型将分词后的文本数据转换为词频向量。
进一步地,所述语义网络分析模型为“LDA模型”。
进一步地,所述量化所述主题特征词出现的频率为通过Gibbs采样算法对“LDA模型”进行近似估计。
进一步地,所述预处理包括文本去重、机械压缩、短句删除。
进一步地,通过结巴分词对文本数据进行中文分词。
进一步地,通过ROSTCM 6软件将所述文本数据分为正负面情感文档。
进一步地,获取智能设备APP的用户评论文本数据还包括:
筛选所述文本数据,将所述文本数据细化分类。
本发明的目的之二采用如下技术方案实现:
一种设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述基于用户评论的情感分析方法。
本发明的目的之三采用如下技术方案实现:
一种存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上所述基于用户评论的情感分析方法。
相比现有技术,本发明的有益效果在于:
本发明提供了基于用户评论的情感分析方法、设备、存储介质,提取APP的用户评论,分别选取出正负面评论及构建语义网络,分析用户评论数据情感特征,得到不同情感下的主题词及主题特征词,根据主题特征词去分析APP用户的关注点,达到丰富及优化智能设备功能的效果,使设备功能的开发更具有针对性。
附图说明
图1为本发明所提供实施例一的流程示意图;
图2为本发明所提供实施例二的结构示意图;
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例一
如图1所示,本发明提供了基于用户评论的情感分析方法,具体包括以下步骤:
步骤S1、获取连接智能设备的APP的用户评论文本数据;所述连接智能设备的APP安装于移动终端,可连接若干个智能设备,用户可通过APP对智能设备进行操作与管理。在对相关智能设备的评论数据进行情感分析之前,需要对评论数据进行采集。在本实施例中,通过爬虫工具进行采集。在获取文本数据后,对相关文本进行抽取。本发明是对智能设备的有效评价及建议进行情感分析,因此还需要:
S11、筛选所述文本数据,将所述文本数据细化分类。考虑到移动终端的APP会接入多种智能设备,用户的评论则会囊括多个设备的评论,对文本数据进行筛选,将文本数据分类,如通过获取智能设备的名称:晾衣机,或功能:烘干、风干、照明,将文本数据细化分类。
步骤S2、对所述文本数据预处理,获得文本优化内容;所述预处理包括文本去重、机械压缩和短句删除。在爬虫工具抓取文本数据后,需要对文本数据进行基本的清洗以及预处理操作,将对结果无影响或偏差值较大的评论数据条目滤除掉。在本实施例中,依次对文本数据进行文本去重、机械压缩、短句删除。在APP上存在较多评论是重复或无效的,因此通过判断文本相似度的方法,删除相似度过高的评论。文本去重可以通过编辑距离去重或基于K-Shingling去重等方法,在本申请中,采用阈值较小的编辑距离去重。编辑距离是指两个字符串之间,由一个转成另外一个所需要的最少编辑操作次数。由于评论数据大多为短文本且较多重复,因此在本实施例中阈值为3。
机械压缩是将连续累赘重复的语句进行压缩,避免出现多个类似的评论影响结果。而字数过少的评论一般是无效的评论,因此需要将字数过少的评论删除。同时在经过机械压缩后的评论可能长度只有2或3个字符,所以本申请中将字符串小于或等于3的短句都去除。
评论中一般使用的是中文,但中文的词没有较为明确的界限划分,甚至出现网络用语、谐音词等情况,因此需要对文本数据进行分词。而在本申请中采用结合指定词典结合结巴分词的方法,对文本数据进行分词。
步骤S3、构建情感倾向分析模型,将所述文本数据分为正负面情感文档,输出分词后的词频向量。通过ROSTCM 6软件将所述文本数据分为正负面情感文档。通过Bow模型将所述正负面情感文档分词后的文本数据转换为词频向量,即输出所有文档终各个词的词频向量。
步骤S4、利用所述词频向量构建语义网络分析模型,得到文档的主题分布与主题特征词分布,量化所述主题特征词出现的频率,筛选出主题的重要特征词,得到用户关注的设备功能。所述语义网络分析模型为“LDA模型”,相当是在句子即字符串的基础上做聚类,将不同的句子聚类为几个主题。在判断文档的数据相关性时需要考虑文本的语义,“LDA模型”则可进行语义挖掘。“LDA模型”得到所述文档的主题分布与主题特征词分布后,通过Gibbs采样算法对“LDA模型”进行近似估计,得到每一篇文档的主题分布与每一个主题特征词的分布,筛选主题的重要特征词,从而分析出用户关注的设备功能特征。
本发明提取APP的用户评论,分别选取出正负面评论及构建语义网络,分析用户评论数据情感特征,得到不同情感下的主题词及主题特征词,根据主题特征词去分析APP用户的关注点,达到丰富及优化智能设备功能的效果,使设备功能的开发更具有针对性。
实施例二
如图2所示,一种电子设备,包括存储器、处理器以及存储在存储器中的程序,所述程序被配置成由处理器执行,处理器执行所述程序时实现上述基于用户评论的情感分析方法的步骤。
另外,本发明还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述基于用户评论的情感分析方法步骤。本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本实施例中的设备与前述实施例中的方法是基于同一发明构思下的两个方面,在前面已经对方法实施过程作了详细的描述,所以本领域技术人员可根据前述描述清楚地了解本实施中的系统的结构及实施过程,为了说明书的简洁,在此就不再赘述。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (10)

1.基于用户评论的情感分析方法,其特征在于,包括以下步骤:
获取连接智能设备的APP的用户评论文本数据;
对所述文本数据预处理,进行文本分词;
构建情感倾向分析模型,将所述文本数据分为正负面情感文档,输出分词后的词频向量;
利用所述词频向量构建语义网络分析模型,得到文档的主题分布与主题特征词分布,量化主题特征词出现的频率,筛选出主题的重要特征词,得到用户关注的设备功能。
2.如权利要求1所述的基于用户评论的情感分析方法,其特征在于,通过Bow模型将分词后的文本数据转换为词频向量。
3.如权利要求1所述的基于用户评论的情感分析方法,其特征在于,所述语义网络分析模型为“LDA模型”。
4.如权利要求3所述的基于用户评论的情感分析方法,其特征在于,所述量化主题特征词出现的频率为通过Gibbs采样算法对“LDA模型”进行近似估计。
5.如权利要求1所述的基于用户评论的情感分析方法,其特征在于,所述预处理包括文本去重、机械压缩、短句删除。
6.如权利要求1所述的基于用户评论的情感分析方法,其特征在于,通过结巴分词对文本数据进行中文分词。
7.如权利要求1所述的基于用户评论的情感分析方法,其特征在于,通过ROSTCM6软件将所述文本数据分为正负面情感文档。
8.如权利要求1所述的基于用户评论的情感分析方法,其特征在于,获取智能设备APP的用户评论文本数据还包括:
筛选所述文本数据,将所述文本数据细化分类。
9.一种设备,其特征在于,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1~8任一所述基于用户评论的情感分析方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现权利要求1~8任一所述基于用户评论的情感分析方法。
CN202010292081.2A 2020-04-14 2020-04-14 基于用户评论的情感分析方法、设备、存储介质 Pending CN111488432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010292081.2A CN111488432A (zh) 2020-04-14 2020-04-14 基于用户评论的情感分析方法、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010292081.2A CN111488432A (zh) 2020-04-14 2020-04-14 基于用户评论的情感分析方法、设备、存储介质

Publications (1)

Publication Number Publication Date
CN111488432A true CN111488432A (zh) 2020-08-04

Family

ID=71798076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010292081.2A Pending CN111488432A (zh) 2020-04-14 2020-04-14 基于用户评论的情感分析方法、设备、存储介质

Country Status (1)

Country Link
CN (1) CN111488432A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016331A (zh) * 2020-10-30 2020-12-01 成都智元汇信息技术股份有限公司 一种客运乘客情感分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062304A (zh) * 2017-12-19 2018-05-22 北京工业大学 一种基于机器学习的商品评论数据的情感分析方法
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062304A (zh) * 2017-12-19 2018-05-22 北京工业大学 一种基于机器学习的商品评论数据的情感分析方法
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016331A (zh) * 2020-10-30 2020-12-01 成都智元汇信息技术股份有限公司 一种客运乘客情感分析方法

Similar Documents

Publication Publication Date Title
CN107085581B (zh) 短文本分类方法和装置
CN110705206B (zh) 一种文本信息的处理方法及相关装置
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN107423282A (zh) 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN111125360B (zh) 游戏领域的情感分析方法、装置及其模型训练方法、装置
CN108536868B (zh) 社交网络上短文本数据的数据处理方法及装置
CN115641834A (zh) 一种语音合成方法、装置、电子设备及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN111651198A (zh) 代码摘要自动化生成方法及装置
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN104573030A (zh) 一种文本情绪预测方法及装置
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN114240552A (zh) 基于深度聚类算法的产品推荐方法、装置、设备及介质
CN115952292A (zh) 多标签分类方法、装置及计算机可读介质
CN111950261B (zh) 提取文本关键词的方法、设备和计算机可读存储介质
CN111488432A (zh) 基于用户评论的情感分析方法、设备、存储介质
Liu Automatic argumentative-zoning using word2vec
CN116933782A (zh) 一种电商文本关键词提取处理方法及系统
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
CN115713085A (zh) 文献主题内容分析方法及装置
CN114610576A (zh) 一种日志生成监控方法和装置
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN114492437A (zh) 关键词识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination