CN114185969A - 数据意见挖掘与情感分析纠偏方法与模块 - Google Patents

数据意见挖掘与情感分析纠偏方法与模块 Download PDF

Info

Publication number
CN114185969A
CN114185969A CN202111513658.9A CN202111513658A CN114185969A CN 114185969 A CN114185969 A CN 114185969A CN 202111513658 A CN202111513658 A CN 202111513658A CN 114185969 A CN114185969 A CN 114185969A
Authority
CN
China
Prior art keywords
module
data
bucket
attribute
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111513658.9A
Other languages
English (en)
Inventor
王春泉
沈姗姗
韩正清
陈锋
党万斌
王颖康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Daoda Technology Co ltd
Original Assignee
Wuxi Daoda Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Daoda Technology Co ltd filed Critical Wuxi Daoda Technology Co ltd
Priority to CN202111513658.9A priority Critical patent/CN114185969A/zh
Publication of CN114185969A publication Critical patent/CN114185969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉一种数据意见挖掘与情感分析纠偏方法与模块,所述方法包括以下运行流程:激活程序服务;导入评论数据情感分析结果,生成分类索引大表;导入评论数据账号与账号关联实体人物的映射关系图,按照账号关联实体人物的属性形成不同属性桶集合;执行桶内独立纠偏统计计算,分别统计每个属性桶中的情感分析结果,形成桶内的情感倾向无偏估计;执行桶外协同纠偏统计计算,利用每个属性桶所对应的账号关联实体人物数量占总体人口的比例数据,对各个属性桶中的情感分析结果进行加权平均,转化为总体估计值。本发明可提高面向热点、重要事件或人物等的情感分析结果的准确性。

Description

数据意见挖掘与情感分析纠偏方法与模块
技术领域
本发明涉及数据分析技术,具体涉及一种数据意见挖掘与情感分析纠偏模块与方法。
背景技术
随着5G、移动互联技术的发展,互联网正在快速改变着人们的生活与社交模式,社交媒体平台(如Facebook、Instagram、Youtube、微信等)日益成为民众自由表达自我情感倾向与观点意见的主要途径,所以,社交媒体平台存在着海量的热点、重要事件或人物等的用户相关评论数据。目前,越来越多的商业、政府情报分析系统都扩展增加基于社交媒体用户相关(商品、热点重要事件或人物等)评论数据的意见挖掘与情感分析计算程序,以实现信息的深度发现、态势预测与智能预测等。
但社交媒体获取的样本数据显然过于局限,不具有总体代表性。情感分析程序对社交媒体用户相关评论数据进行意见挖掘与情感分析时,存在输入的社交媒体数据的非代表性而导致分析结果偏差等问题。例如可能发生以下场景:
场景1:程序输入的社交媒体数据以年轻人、中高学历为主;年轻人更喜欢使用社交媒体、受教育程度高的人群更常使用社交媒体,而中老年人、网络环境受限环境工作的各类人群,较少或不使用社交媒体,无法获取有效数据进行分析;
场景2:程序输入社交媒体数据以中大城市人群为主;存在潜在的社交媒体人群与总体人群分布差异因素等,使得采集的样本数据不具备的代表性,无法体现整体的意见与情感倾向。
发明内容
针对现有技术的不足,本发明公开了一种数据意见挖掘与情感分析纠偏方法与模块。
本发明所采用的技术方案如下:
一种数据意见挖掘与情感分析纠偏方法,包括以下运行流程:
激活程序服务;
导入评论数据情感分析结果,生成情感分析结果分类索引大表;
导入评论数据账号与账号关联实体人物的映射关系图,按照账号关联实体人物的属性形成不同属性桶集合;
执行桶内独立纠偏统计计算,分别统计每个属性桶中的情感分析结果,形成桶内的情感倾向无偏估计;
执行桶外协同纠偏统计计算,利用每个属性桶所对应的账号关联实体人物数量占总体人口的比例数据,对各个属性桶中的情感分析结果进行加权平均,转化为总体估计值。
其进一步的技术方案为,在激活程序服务之前还包括初始阶段配置流程,包括以下步骤:
创建情感分析偏差计算任务工程模板;
构建评论数据情感分析结果分类索引大表结构模板;
构建不同属性桶集合模板;
传参及数据导入接口配置。
其进一步的技术方案为,所述评论数据来源于社交媒体中有关于新闻事件的用户评论。
其进一步的技术方案为,不同属性桶集合包括年龄、性别、教育程度和地区的属性桶。
其进一步的技术方案为,还包括运行阶段配置流程;在运行流程中通过Restful接口进行传参激活程序服务;所述运行阶段配置流程包括服务监听步骤,当有多项Restful服务任务项时,创建并发多线程,调度资源信息并行执行。
一种数据意见挖掘与情感分析纠偏模块,包括运行模块,所述运行模块包括:
激活程序模块,用于激活程序服务;
第一分析模块,用于导入评论数据情感分析结果,生成情感分析结果分类索引大表;
第二分析模块,用于导入评论数据账号与账号关联实体人物的映射关系图,按照账号关联实体人物的属性形成不同属性桶集合;
第一计算模块,用于执行桶内独立纠偏统计计算,分别统计每个属性桶中的情感分析结果,形成桶内的情感倾向无偏估计;
第二计算模块,用于执行桶外协同纠偏统计计算,利用每个属性桶所对应的账号关联实体人物数量占总体人口的比例数据,对各个属性桶中的情感分析结果进行加权平均。
其进一步的技术方案为,还包括初始阶段配置模块,初始阶段配置模块包括:
模板创建模块,用于创建情感分析偏差计算任务工程模板;
第一模板构建模块,用于构建评论数据情感分析结果分类索引大表结构模板;
第二模板构建模块,用于构建不同属性桶集合模板;
接口配置模块,用于传参及数据导入接口配置。
其进一步的技术方案为,所述第二分析模块获取社交媒体中有关于新闻事件的用户评论。
其进一步的技术方案为,不同属性桶集合包括年龄、性别、教育程度和/或地区的属性桶。
其进一步的技术方案为,还包括运行阶段配置模块;所述激活程序模块包括Restful接口,所述运行阶段配置模块包括服务监听模块,所述服务监听模块监听到有多项Restful服务任务项时,调度资源信息,创建并发多线程。
本发明的有益效果如下
本发明的目的在于提供一种面向社交媒体用户相关评论数据的意见挖掘与情感分析偏差纠正方法,通过构建不同属性桶集合模板,统计影响因素,并通过分别执行桶内独立纠偏统计计算和桶外协同纠偏统计计算,实现偏差均衡,避免了由于互联网用户的年龄、地域的集中性造成的数据集中进而分析结果有误的问题,使得数据分析更加客观和准确。
本发明支持Restful接口服务,支持分布式部署、多线程并发,数据处理速度更快,可生成纠偏统计计算报告,提高面向热点、重要事件或人物等的情感分析结果的准确性。
附图说明
图1为本发明的实施例中的方法的初始阶段配置流程图。
图2为本发明的实施例中的方法的运行阶段配置流程图。
图3为本发明的实施例中的方法的运行阶段运行流程图。
图4为本发明的实施例中的结构图。
具体实施方式
下面结合附图,说明本发明的具体实施方式。
图1为本发明的实施例中的方法的初始阶段配置流程图。如图1所示,初始阶段配置流程包括以下步骤:
S101.创建情感分析偏差计算任务工程模板。分析社交媒体用户相关评论数据意见挖掘与情感分析纠偏应用需求,设计情感分析偏差计算任务工程模板。
S102.构建评论数据情感分析结果分类索引大表结构模板。根据输入待分析数据的结构以及纠偏处理的策略,构建评论数据情感分析结果分类索引大表结构模板。具体的,评论数据是来源于社交媒体用户针对热点、重要事件或人物等的相关评论。
优选的,分类索引大表结构采用列模式存储,在水平方向由一个或多个列簇组成,一个列簇中可以包含任意个列,列簇支持动向扩展,以行键作为索引,简化存储复杂度,提高热点、重要事件或人物等的用户相关评论情感分析结果复杂数据类型的存储能力。
S103.构建不同属性桶集合模板。为后续执行桶内独立纠偏统计计算做准备,提前为处理程序制定包括但不限于年龄、性别、教育程度和地域等不同属性桶集合模板,并长期保存,在程序启动初始化时动态加载入内存。
S104.传参及数据导入接口配置。提供人机交互的方式,呈现程序传参及数据导入接口配置信息,进行设置调整:包括服务地址、Restful接口规则、待分析数据路径、模板数据存储位置和结果数据存储位置等。
图2为本发明的实施例中的方法的运行阶段配置流程图。如图2所示,在社交媒体用户相关评论数据意见挖掘与情感分析纠偏方法运行阶段的配置过程中,还包括任务监听步骤,在此步骤中,当有一项或多项Restful服务任务项时,创建处理任务队列,调度资源信息,创建并发多线程。具体的,运行阶段配置流程包括:
S201.运行服务监听程序,通过协议端口轮询请求情况,当出现一项或多项Restful服务任务项时,创建处理任务队列,队列采用先进先出模式,并调度计算资源信息,创建并发多线程。
S202.根据进程的处理情况,判断是否有空闲进程,如果没有空闲进程,则继续等待,如果出现空闲进程,从任务队列中启动新的处理任务。
S203.执行任务进程进出栈处理,并通过人机交互方式,执行任务进程状态的监视。
图3为本发明的实施例中的方法的运行阶段运行流程图。如图3所示,具体包括:
步骤301.传参激活程序服务;纠偏计算服务程序通过Restful接口进行传参,进行参数解析;
步骤302.传参导入热点、重要事件或人物等的用户相关评论数据情感分析结果,生成情感分析结果分类索引大表;传参导入评论数据账号与账号关联据实体人物的映射关系图,按照账号关联实体人物的属性形成不同属性桶集合。评论数据账号来源于社交媒体。账号关联实体人物的属性包括年龄、性别、教育程度和区域等。
步骤303.判断不同属性桶集合是否形成桶内情感倾向无偏估计,如果形成,保存计算结果,进入桶外协同纠偏统计计算;如果没有形成,启动桶内独立纠偏统计计算,或者继续等待。
步骤304.执行桶内独立纠偏统计计算,分别统计每个属性桶中的情感分析结果,形成桶内情感倾向无偏估计。
步骤305.执行桶外协同纠偏统计计算,利用利用每个属性桶所对应的账号关联实体人物数量占总体人口的比例数据,对各个属性桶的桶内情感倾向无偏估计进行加权平均,转化为总体估计值。并将结果保存输出。
在上述方案中,用户相关评论情感分析结果分类索引大表保存到Hbase中,属性桶集合模板存储为JSON键值类型文件,执行完所有步骤后,保存纠偏统计计算结果为JSON键值类型文件,并提供查询统计Restful接口服务。
图4为本发明的实施例中的结构图。如图4所示,数据意见挖掘与情感分析纠偏程序,包括初始阶段配置模块,运行阶段配置模块和运行阶段运行模块。
初始阶段配置模块在程序运行之前进行相关的模块构建,为后续的运行做准备。运行阶段配置模块在程序运行过程中对程序任务进行监听和安排,运行阶段运行模块执行程序的运行步骤。
初始阶段配置模块包括:
模板创建模块,用于创建情感分析偏差计算任务工程模板;
第一模板构建模块,用于构建评论数据情感分析结果分类索引大表结构模板;
第二模板构建模块,用于构建不同属性桶集合模板;
接口配置模块,用于传参及数据导入接口配置。
运行阶段配置模块包括:服务监听模块,服务监听模块监听到有多项Restful服务任务项时,创建并发多线程,调度资源信息并行执行。运行阶段配置模块还判断是否有空闲进程,当有空闲进程时,执行任务进程进出栈处理,且执行任务进程监控。
运行阶段运行模块包括:
激活程序模块,用于激活程序服务;
第一分析模块,用于导入评论数据情感分析结果,根据分类索引大表结构模板生成情感分析结果分类索引大表;
第二分析模块,获取社交媒体中针对热点、重要事件或人物等的新闻事件的用户评论,导入评论数据账号与账号关联实体人物的映射关系图,根据预制的不同属性桶集合模板,按照账号关联实体人物的属性形成不同属性桶集合;不同属性桶集合包括年龄、性别、教育程度和地区的属性桶。
第一计算模块,用于执行桶内独立纠偏统计计算,分别统计每个属性桶中的情感分析结果,形成桶内情感倾向无偏估计;
第二计算模块,用于执行桶外协同纠偏统计计算,利用每个属性桶所对应的账号关联实体人物数量占总体人口的比例数据,对各个属性桶的桶内情感倾向无偏估计进行加权平均,转化为总体估计值,通过结果输出模块输出。
以上描述是对本发明的解释,不是对发明的限定,本发明所限定的范围参见权利要求,在不违背本发明的基本结构的情况下,本发明可以作任何形式的修改。

Claims (10)

1.一种数据意见挖掘与情感分析纠偏方法,其特征在于,包括以下运行流程:
激活程序服务;
导入评论数据情感分析结果,生成情感分析结果分类索引大表;
导入评论数据账号与账号关联实体人物的映射关系图,按照账号关联实体人物的属性形成不同属性桶集合;
执行桶内独立纠偏统计计算,分别统计每个属性桶中的情感分析结果,形成桶内情感倾向无偏估计;
执行桶外协同纠偏统计计算,利用每个属性桶所对应的账号关联实体人物数量占总体人口的比例数据,对各个属性桶的桶内情感倾向无偏估计进行加权平均,转化为总体估计值。
2.根据权利要求1所述的数据意见挖掘与情感分析纠偏方法,其特征在于,在激活程序服务之前还包括初始阶段配置流程,包括以下步骤:
创建情感分析偏差计算任务工程模板;
构建评论数据情感分析结果分类索引大表结构模板;
构建不同属性桶集合模板;
传参及数据导入接口配置。
3.根据权利要求1所述的数据意见挖掘与情感分析纠偏方法,其特征在于,所述评论数据来源于社交媒体中有关于新闻事件的用户评论。
4.根据权利要求1所述的数据意见挖掘与情感分析纠偏方法,其特征在于,不同属性桶集合包括年龄、性别、教育程度和/或地区的属性桶。
5.根据权利要求1所述的数据意见挖掘与情感分析纠偏方法,其特征在于,还包括运行阶段配置流程;在运行流程中通过Restful接口进行传参激活程序服务;所述运行阶段配置流程包括服务监听步骤,当有多项Restful服务任务项时,创建并发多线程,调度资源信息并行执行。
6.一种数据意见挖掘与情感分析纠偏模块,其特征在于,运行模块包括:
激活程序模块,用于激活程序服务;
第一分析模块,用于导入评论数据情感分析结果,生成情感分析结果分类索引大表;
第二分析模块,用于导入评论数据账号与账号关联实体人物的映射关系图,按照账号关联实体人物的属性形成不同属性桶集合;
第一计算模块,用于执行桶内独立纠偏统计计算,分别统计每个属性桶中的情感分析结果,形成桶内情感倾向无偏估计;
第二计算模块,用于执行桶外协同纠偏统计计算,利用每个属性桶所对应的账号关联实体人物数量占总体人口的比例数据,对各个属性桶中的桶内情感倾向无偏估计进行加权平均。
7.根据权利要求6所述的数据意见挖掘与情感分析纠偏模块,其特征在于,还包括初始阶段配置模块,初始阶段配置模块包括:
模板创建模块,用于创建情感分析偏差计算任务工程模板;
第一模板构建模块,用于构建评论数据情感分析结果分类索引大表结构模板;
第二模板构建模块,用于构建不同属性桶集合模板;
接口配置模块,用于传参及数据导入接口配置。
8.根据权利要求6所述的数据意见挖掘与情感分析纠偏模块,其特征在于,所述第二分析模块获取社交媒体中有关于新闻事件的用户评论。
9.根据权利要求6所述的数据意见挖掘与情感分析纠偏模块,其特征在于,不同属性桶集合包括年龄、性别、教育程度和/或地区的属性桶。
10.根据权利要求6所述的数据意见挖掘与情感分析纠偏模块,其特征在于,还包括运行阶段配置模块;所述激活程序模块包括Restful接口,所述运行阶段配置模块包括服务监听模块,所述服务监听模块监听到有多项Restful服务任务项时,调度资源信息,创建并发多线程。
CN202111513658.9A 2021-12-10 2021-12-10 数据意见挖掘与情感分析纠偏方法与模块 Pending CN114185969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111513658.9A CN114185969A (zh) 2021-12-10 2021-12-10 数据意见挖掘与情感分析纠偏方法与模块

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111513658.9A CN114185969A (zh) 2021-12-10 2021-12-10 数据意见挖掘与情感分析纠偏方法与模块

Publications (1)

Publication Number Publication Date
CN114185969A true CN114185969A (zh) 2022-03-15

Family

ID=80604554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111513658.9A Pending CN114185969A (zh) 2021-12-10 2021-12-10 数据意见挖掘与情感分析纠偏方法与模块

Country Status (1)

Country Link
CN (1) CN114185969A (zh)

Similar Documents

Publication Publication Date Title
US11086688B2 (en) Managing resource allocation in a stream processing framework
US10606711B2 (en) Recovery strategy for a stream processing system
JP7202432B2 (ja) ヒープをため込んでいるスタックトレースを特定するための、スレッド強度とヒープ使用量との相関
US9965330B2 (en) Maintaining throughput of a stream processing framework while increasing processing load
US20190155646A1 (en) Providing strong ordering in multi-stage streamng processing
CN102075851B (zh) 一种移动网络中用户偏好的获取方法及系统
US10324773B2 (en) Processing events generated by internet of things (IoT)
US9098344B2 (en) Cloud-edge topologies
WO2020258290A1 (zh) 日志数据收集方法、日志数据收集装置、存储介质和日志数据收集系统
US20130218622A1 (en) Aggregating availability status information on shared calendars
CN109190025B (zh) 信息监控方法、装置、系统和计算机可读存储介质
CN110781180B (zh) 一种数据筛选方法和数据筛选装置
CN111382155A (zh) 一种数据仓库的数据处理方法、电子设备及介质
US8392577B2 (en) Reduction of message flow between bus-connected consumers and producers
US20200293536A1 (en) Stream processing in search data pipelines
Llorens-Carrodeguas et al. An energy-friendly scheduler for edge computing systems
CN102724290B (zh) 一种获取目标客户群的方法、设备及系统
CN109597702A (zh) 消息总线异常的根因分析方法、装置、设备及存储介质
CN117311801A (zh) 一种基于网络化结构特征的微服务拆分方法
CN112506887A (zh) 车辆终端can总线数据处理方法及装置
CN110909072B (zh) 一种数据表建立方法、装置及设备
CN114185969A (zh) 数据意见挖掘与情感分析纠偏方法与模块
CN108536759B (zh) 一种样本回放数据存取方法及装置
CN114417216B (zh) 数据采集方法、装置、电子设备及可读存储介质
Zhang et al. Optimizing completion time and resource provisioning of pig programs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination