CN120563243A - 舆情数据的处理方法、装置、设备及存储介质 - Google Patents
舆情数据的处理方法、装置、设备及存储介质Info
- Publication number
- CN120563243A CN120563243A CN202510669740.2A CN202510669740A CN120563243A CN 120563243 A CN120563243 A CN 120563243A CN 202510669740 A CN202510669740 A CN 202510669740A CN 120563243 A CN120563243 A CN 120563243A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- emotion
- opinion data
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
- G06F16/33295—Natural language query formulation in dialogue systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Computer Interaction (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种舆情数据的处理方法、装置、设备及存储介质。方法包括:获取待分析的目标舆情数据;对所述目标舆情数据进行信息提取,得到所述目标舆情数据对应的目标关键信息;根据预设权重分别对所述行业关注度、所述市场主体评级以及所述价格波动值加权求和操作,得到所述舆情数据的重要度评分;以及,通过情绪分析模型对所述目标舆情数据进行情绪分析,得到情绪分析结果;其中,所述情绪分析结果包括正向情绪、负向情绪和中向情绪;响应于所述重要度评分大于预设重要度阈值,且所述情绪分析结果为所述负向情绪,执行所述目标舆情数据的舆情预警操作。本申请实施例旨在提高舆情处理的处理效率和准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种舆情数据的处理方法、舆情数据的处理装置、计算机设备及计算机可读存储介质。
背景技术
金融行业与市场动态高度相关,舆情中的负面信息可能会迅速引发市场波动,因此,金融行业内舆情数据处理是金融市场分析和风险管理的重要组成部分。
相关技术中,金融舆情数据处理采用基于神经网络的方法:一种是基于卷积神经网络方法,利用卷积神经网络可以捕获文本局部特征的性能,提取文本中的局部连续短语特征。另一种是基于长短型记忆神经网络方法,利用长短型记忆神经网络可以有效捕获短期上下文信息和长距离依赖,提取文本中序列信息。但两种方法又不乏其不足之处,其中基于卷积神经网络方法,无法充分提取金融文本中长距离依赖,例如文本中出现的一些情感转折的表达,且耗费时间较长;而基于长短型记忆神经网络方法,会倾向文本首末尾的信息,对文本中的局部信息提取效果不容乐观,无法融合文本中的多尺度信息。因此,相关技术中的舆情数据处理存在处理效率慢,且精确性较低的问题。
基于上述原因,有必要提出一种舆情数据的处理方法,以实现提高舆情处理的处理效率和准确率。
发明内容
本申请提供了一种舆情数据的处理方法、舆情数据的处理装置、计算机设备及计算机可读存储介质,旨在提高舆情处理的处理效率和准确率。
为实现上述目的,本申请还提供一种舆情数据的处理方法,包括:
获取待分析的目标舆情数据;
对所述目标舆情数据进行信息提取,得到所述目标舆情数据对应的目标关键信息,其中,所述目标关键信息包括行业关注度、市场主体评级以及价格波动值;
根据预设权重分别对所述行业关注度、所述市场主体评级以及所述价格波动值进行加权求和操作,得到所述舆情数据的重要度评分;以及,通过情绪分析模型对所述目标舆情数据进行情绪分析,得到情绪分析结果;其中,所述情绪分析结果包括正向情绪、负向情绪和中向情绪;
响应于所述重要度评分大于预设重要度阈值,且所述情绪分析结果为所述负向情绪,执行所述目标舆情数据的舆情预警操作。
为实现上述目的,本申请还提供一种舆情数据的处理装置,包括:
获取模块,用于获取待分析的目标舆情数据;
信息提取模块,用于对所述目标舆情数据进行信息提取,得到所述目标舆情数据对应的目标关键信息,其中,所述目标关键信息包括行业关注度、市场主体评级以及价格波动值;
重要度评分模块,用于根据预设权重分别对所述行业关注度、所述市场主体评级以及所述价格波动值进行加权求和操作,得到所述舆情数据的重要度评分;以及,通过情绪分析模型对所述目标舆情数据进行情绪分析,得到情绪分析结果;其中,所述情绪分析结果包括正向情绪、负向情绪和中向情绪;
舆情预警执行模块,用于响应于所述重要度评分大于预设重要度阈值,且所述情绪分析结果为所述负向情绪,执行所述目标舆情数据的舆情预警操作。
此外,为实现上述目的,本申请还提供一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现本申请实施例提供的任一项所述的舆情数据的处理方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的舆情数据的处理方法的步骤。
本申请实施例公开的舆情数据的处理方法、舆情数据的处理装置、计算机设备及计算机可读存储介质。其中,方法包括获取待分析的目标舆情数据,并对目标舆情数据进行信息提取,得到目标舆情数据对应的目标关键信息,其中,目标关键信息包括行业关注度、市场主体评级以及价格波动值。进一步的,可根据预设权重分别对行业关注度、市场主体评级以及价格波动值进行加权求和操作,得到舆情数据的重要度评分;以及,通过情绪分析模型对目标舆情数据进行情绪分析,得到情绪分析结果;其中,情绪分析结果包括正向情绪、负向情绪和中向情绪。由此,可响应于重要度评分大于预设重要度阈值,且情绪分析结果为负向情绪,执行目标舆情数据的舆情预警操作。本申请通过对目标舆情数据进行信息提取、加权评分和情绪分析,能够快速、精准地评估目标舆情数据的重要性及市场情绪倾向,并在当目标舆情数据的重要度评分超过预设重要度阈值且为负向情绪时,及时触发舆情预警操作,有助于金融机构提前识别和应对潜在风险,优化资源分配,提升决策效率。同时,通过结构化数据的生成和模型辅助分析,显著降低了人工筛选信息的工作量,提高了舆情管理的自动化和智能化水平。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种舆情数据的处理方法的场景示意图;
图2是本申请实施例提供的一种舆情数据的处理方法的流程示意图;
图3是本申请实施例提供的一种舆情数据的处理装置的示意性框图;
图4是本申请实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
如图1所示,本申请实施例提供的舆情数据的处理方法,可以应用于如图1所示的应用环境中。该应用环境中包含有终端设备110和服务器120,其中,终端设备110可以通过网络与服务器120进行通信。具体地,服务器120能够获取待分析的目标舆情数据,并对目标舆情数据进行信息提取,得到目标舆情数据对应的目标关键信息,其中,目标关键信息包括行业关注度、市场主体评级以及价格波动值。进一步的,可根据预设权重分别对行业关注度、市场主体评级以及价格波动值进行加权求和操作,得到舆情数据的重要度评分;以及,通过情绪分析模型对目标舆情数据进行情绪分析,得到情绪分析结果;其中,情绪分析结果包括正向情绪、负向情绪和中向情绪。由此,可响应于重要度评分大于预设重要度阈值,且情绪分析结果为负向情绪,通过终端设备110执行目标舆情数据的舆情预警操作。其中,服务器120可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参阅图2,图2是本申请实施例提供的一种舆情数据的处理方法的流程示意图。如图2所示,可通过步骤S11至步骤S14实现舆情数据的处理方法。
步骤S11:获取待分析的目标舆情数据。
示例地,目标舆情数据可通过政府公告(如政策发布、监管文件等)、新闻媒体(如财经媒体或行业新闻网站)以及市场数据接口(例如金融数据平台)等方式获取,且目标舆情数据的格式可以包括但不限网页格式、文本格式等,本申请对此不加以限定。
步骤S12:对目标舆情数据进行信息提取,得到目标舆情数据对应的目标关键信息。
其中,目标关键信息包括行业关注度、市场主体评级以及价格波动值。
需要说明的是,行业关注度用于反映目标舆情数据中与特定行业相关的讨论热度或重要性;市场主体评级用于反应舆情中涉及的公司或机构等市场主体的信用或经营状况的评价指标;价格波动值用于反映目标舆情数据中提到的相关资产(如股票、债券以及期货等)价格的波动幅度或变化趋势。
示例地,本申请对上述信息提取的方式不加以限定,例如可以通过学习模型对目标舆情数据进行信息提取,从而得到目标关键信息。例如,可通过关键词或主题模型识别目标舆情数据涉及的行业类别,进而基于目标舆情数据的词频统计和热度指数计算行业的相关性,从而得到目标舆情数据的行业关注度。或者,可通过情景预测模型对目标舆情数据进行分析,得到目标舆情数据对应的价格波动值。
通过上述信息提取方法,目标舆情数据可转化为结构化的目标关键信息(行业关注度、市场主体评级、价格波动值),由此能够为后续的评分计算和情绪分析奠定数据基础,提升舆情分析的效率,使得结果更具客观性和可操作性。
步骤S13:根据预设权重分别对行业关注度、市场主体评级以及价格波动值进行加权求和操作,得到舆情数据的重要度评分;以及,通过情绪分析模型对目标舆情数据进行情绪分析,得到情绪分析结果。
其中,情绪分析结果包括正向情绪、负向情绪和中向情绪;重要度评分用于反映目标舆情数据的重要性和优先处理级别。
需要说明的是,本申请对于预设权重不加以限定,可根据用户自定义设定。例如,可按照舆情影响程度赋予行业关注度、市场主体评级以及价格波动值对应的的权重,再例如,设定行业关注度对应的权重最低,为0.3,价格波动值的权重最高,为0.8,市场主体评级的权重为0.5。由此,可对行业关注度、市场主体评级以及价格波动值进行加权求和操作,得到舆情数据的重要度评分。
进一步的,正向情绪用于反映市场的乐观情绪,例如业绩增长、股价上涨等;负向情绪用于反映市场的悲观情绪,例如亏损、违约、裁员等;中向情绪用于反映情绪较中性或无法明确分类的内容。
示例地,情绪分析模型可以包括大语言模型或情感分析算法,本申请对此不加以限定。进一步的,可情绪分析模型对目标舆情数据进行情绪分析,得到目标舆情数据中每条舆情对应的情绪分类及其概率分布。例如正向情绪:0.25;中向情绪:0.15;负向情绪:0.60。由此,可将概率分布最大值对应的情绪分类确定为情绪分析结果。
以上实施方式,可通过评分和情绪分析,实现高效、准确地识别重要舆情,为后续的舆情预警操作提供数据基础。
步骤S14:响应于重要度评分大于预设重要度阈值,且情绪分析结果为负向情绪,执行目标舆情数据的舆情预警操作。
其中,预设重要度阈值可由预先人为配置或根据实际应用场景动态调整,本申请对此不加以限定。例如,预设重要度阈值可设为70分。若目标舆情数据的重要度评分为85分,而预设重要度阈值为70分,则确定重要度评分大于预设重要度阈值,同时若情绪分析结果为负向情绪,则确认目标舆情数据对市场主体或行业可能造成不利影响,因此可执行目标舆情数据的舆情预警操作。
示例地,舆情预警操作包括:生成详细报告,也即结合舆情数据库,快速生成完整的风险分析报告;更新内部评级,也即根据舆情对相关主体的内部评分进行调整;投资策略调整,也即通知投资团队减少相关资产的持仓比例等,本申请对此不加以限定。通过舆情预警操作,能够快速响应潜在风险,将高重要度且负向舆情传递给相关方,确保企业对市场波动和危机事件做出高效、准确的应对。
本申请实施例公开的舆情数据的处理方法,包括获取待分析的目标舆情数据,并对目标舆情数据进行信息提取,得到目标舆情数据对应的目标关键信息,其中,目标关键信息包括行业关注度、市场主体评级以及价格波动值。进一步的,可根据预设权重分别对行业关注度、市场主体评级以及价格波动值进行加权求和操作,得到舆情数据的重要度评分;以及,通过情绪分析模型对目标舆情数据进行情绪分析,得到情绪分析结果;其中,情绪分析结果包括正向情绪、负向情绪和中向情绪。由此,可响应于重要度评分大于预设重要度阈值,且情绪分析结果为负向情绪,执行目标舆情数据的舆情预警操作。本申请通过对目标舆情数据进行信息提取、加权评分和情绪分析,能够快速、精准地评估目标舆情数据的重要性及市场情绪倾向,并在当目标舆情数据的重要度评分超过预设重要度阈值且为负向情绪时,及时触发舆情预警操作,有助于金融机构提前识别和应对潜在风险,优化资源分配,提升决策效率。同时,通过结构化数据的生成和模型辅助分析,显著降低了人工筛选信息的工作量,提高了舆情管理的自动化和智能化水平。
可选地,通过情绪分析模型对目标舆情数据进行情绪分析,得到情绪分析结果,包括:对目标舆情数据进行预处理操作,得到预处理后的目标舆情数据;通过情绪分析模型对目标舆情数据进行特征提取操作,得到目标舆情数据的目标情绪因子;对正向情绪因子、负向情绪因子和中向情绪因子进行评分量化,得到目标舆情数据的情绪强度评分;将情绪强度评分与预设情绪强度阈值进行比较,得到情绪分析结果。
应理解的是,为了提高情绪分析模型的处理效率和准确性,减少噪声数据对结果的影响。可对目标舆情数据进行预处理操作,得到预处理后的目标舆情数据。其中,预处理操作包括分词处理、去除停用词处理以及命名实体识别中的至少一种,本申请对此不加以限定。
需要说明的是,分词处理用于将目标舆情数据分割成单词或词组,便于模型进行特征提取和情感判断。例如,将“公司盈利超预期,股价上涨”分割为[“公司”、“盈利”、“超预期”、“股价”、“上涨”];去除停用词处理用于移除无意义或高频但对情绪分析无直接影响的词汇,如“的”“和”“是”等;命名实体识别用于识别并标注目标舆情数据中的特定实体,如公司名称、产品、地名、时间等,使得后续情绪分析更聚焦,提高情绪判断的精确度。
示例地,可应用情绪分析模型对目标舆情数据进行特征提取操作,通过模型分析目标舆情数据中的语义、词语间的关系以及上下文含义,能够提取得到目标舆情数据的目标情绪因子。其中,目标情绪因子包括正向情绪因子、负向情绪因子和中向情绪因子。
需要说明的是,正向情绪因子用于表征与积极事件或情绪相关的特征(如“盈利”、“增长”、“成功”等)。负向情绪因子用于表征与消极事件或情绪相关的特征(如“亏损”、“裁员”、“违约”等)。中向情绪因子用于表征与中立事件或无明确情绪倾向相关的特征。上述情绪因子能够准确反映目标舆情数据中包含的多种情绪特征,为后续评分提供数据支持。
示例地,可使用预设的评分标准或模型输出,将正向情绪因子、负向情绪因子和中向情绪因子分别赋予分值。例如,正向情绪因子(如“盈利增长”)得分为+0.7、负向情绪因子(如“裁员计划”)得分为-0.8、中向情绪因子(如“市场持平”)得分为0。进一步的,可计算目标情绪因子评分的总和(或加权总和),得到情绪强度评分,并将情绪强度评分与预设情绪强度阈值进行比较,得到情绪分析结果。
可选地,将情绪强度评分与预设情绪强度阈值进行比较,得到情绪分析结果,包括:响应于情绪强度评分高于预设情绪强度阈值,确定情绪分析结果为正向情绪;响应于情绪强度评分与预设情绪强度阈值相同,确定情绪分析结果为中向情绪;响应于情绪强度评分低于预设情绪强度阈值,确定情绪分析结果为负向情绪。
其中,预设情绪强度阈值用于表征决定情绪的分类标准,例如预设情绪强度阈值为0.5、0.6等,本申请对此不加以限定。
示例地,预设情绪强度阈值为0.5。在此基础上,若情绪强度评分高于0.5,确定情绪分析结果为正向情绪;若情绪强度评分等于0.5,确定情绪分析结果为中向情绪;若情绪强度评分低于0.5,确定情绪分析结果为负向情绪。
以上实施例,能够通过情绪因子评分量化,便于对比不同舆情数据的情绪强度评分,同时情绪分析结果(正向、负向、中向)可用于支持舆情预警、决策分析和风险管理。
可选地,根据预设权重分别对行业关注度、市场主体评级以及价格波动值进行加权求和操作,得到舆情数据的重要度评分之后,还包括:将舆情数据以及重要度评分存储至初始舆情数据库,得到目标舆情数据库;其中,初始舆情数据库通过大语言模型根据提示词工程对初始舆情数据进行分类以及结构化处理得到,且包括若干初始舆情数据及对应的重要度评分;从目标舆情数据库中确定预设时间段内的舆情数据,并通过大语言模型对预设时间段内的舆情数据进行分析,得到预设时间段内的舆情分析总结。
可选地,分类包括按照行业分类、按照市场类型分类以及按照指标分类中的一种;结构化处理包括对初始舆情数据添加时间戳处理、索引编号处理中的至少一种。
示例地,还可以将舆情数据以及重要度评分存储至初始舆情数据库,得到目标舆情数据库以便后续查询、分析或归档。
其中,初始数据库中的舆情数据可通过大语言模型进行分类和结构化处理。分类包括按照行业分类:如金融、科技、能源、医药等;按照市场类型分类:如股票市场、债券市场、大宗商品市场等;按照指标分类:如行业关注度高的舆情、价格波动大的舆情等。结构化处理包括:添加时间戳,也即为每条舆情数据标注时间,便于后续时序分析;索引编号也即为每条舆情数据添加唯一标识,方便检索。通过上述处理后,使得分类后的初始舆情数据库的结构更加清晰,便于数据管理,且结构化处理提高了舆情数据的检索效率和分析可操作性。
示例地,可从目标舆情数据库中筛选特定时间段内的数据(如过去一周或一个月),进而对筛选出的数据,通过大语言模型进行批量分析,提取核心信息并生成总结。
以上实施方式,通过分类和结构化处理得到初始舆情数据库,进而将目标舆情数据存储至初始舆情数据库后得到目标数据库,使得舆情数据能够被系统性整理,进而分析的更加准确,且大语言模型的提示词工程和自动化分析,加快了舆情总结的生成速度。此外,根据舆情总结,可以及时识别风险和机遇,辅助市场主体制定应对策略。
可选地,初始舆情数据库还包括原始信息结构表和索引架构,其中,原始信息结构表包括原始政策文件和市场动态信息;索引架构包括哈希索引中间表,哈希索引时间表以预设时间段为节点,用于提供基于预设时间段的舆情信息查询路径。
其中,原始信息结构表用于存储未经处理的原始舆情数据,作为基础信息来源,为后续分析和处理提供参考。原始政策文件包括政府发布的政策法规、金融监管通知等;市场动态信息用于反映金融市场的即时动态,如股市新闻、价格波动数据、经济指标报告等,本申请对此不加以限定。
进一步的,哈希索引中间表用于使用哈希函数为每条舆情数据生成唯一的哈希值,便于快速定位和查询特定数据;哈希索引时间表表征基于时间节点建立的哈希索引表,用于快速定位特定时间段内的舆情数据。
示例地,可输入查询条件(如时间段、关键词等),进而能够在哈希索引时间表中定位符合条件的哈希值集合,然后在哈希索引中间表中查找对应哈希值的存储地址,最后返回舆情数据。
在本申请实施例中,哈希索引架构提升了数据查询的速度,尤其适用于大规模舆情数据库,原始信息结构表保留完整的舆情数据,索引架构确保数据的快速定位和精准获取。
可选地,本申请提出的分析方法还包括:响应于接受到用户发出的舆情问答信息,通过机器学习模型对舆情问答信息进行分析,确定舆情问答信息对应的舆情时间以及舆情主体;基于舆情时间以及舆情主体在目标数据库中进行匹配,得到匹配结果;通过显示页面显示匹配结果。
示例地,用户提交的舆情问答信息可以自然语言形式输入的查询问题,例如:“某公司在2024年11月的舆情情况如何”“过去一个月关于新能源行业的舆情动态有哪些”,上述信息包括时间维度(如日期、时间范围)、主体维度(如企业名称、行业、市场主体)。因此,可实时接收用户输入的问答请求,并将其作为待分析的输入数据。
示例地,可通过机器学习模型对上述输入数据进行分析,确定舆情问答信息对应的舆情时间以及舆情主体,利用提取的舆情时间和舆情主体,结合目标数据库进行匹配,得到匹配结果(例如包括时间、主体、具体内容摘要等。),由此,可通过显示页面显示匹配结果。
以上方式能够通过机器学习模型自动解析用户问答信息,提取关键信息,减少人工干预,提高效率。同时,利用时间和主体双重匹配条件,确保查询结果与用户需求高度相关。此外,可视化的匹配结果展示,使用户能够快速获得信息并作出决策。
请参阅图3,图3是本申请实施例提供的一种舆情数据的处理装置的示意性框图。该舆情数据的处理装置可以配置于服务器中,用于执行前述的舆情数据的处理方法。
如图4所示,该舆情数据的处理装置200包括:获取模块201、信息提取模块202、重要度评分模块203以及舆情预警执行模块204。
获取模块201,用于获取待分析的目标舆情数据;
信息提取模块202,用于对所述目标舆情数据进行信息提取,得到所述目标舆情数据对应的目标关键信息,其中,所述目标关键信息包括行业关注度、市场主体评级以及价格波动值;
重要度评分模块203,用于根据预设权重分别对所述行业关注度、所述市场主体评级以及所述价格波动值进行加权求和操作,得到所述舆情数据的重要度评分;以及,通过情绪分析模型对所述目标舆情数据进行情绪分析,得到情绪分析结果;其中,所述情绪分析结果包括正向情绪、负向情绪和中向情绪;
舆情预警执行模块204,用于响应于所述重要度评分大于预设重要度阈值,且所述情绪分析结果为所述负向情绪,执行所述目标舆情数据的舆情预警操作。
重要度评分模块203,还用于对所述目标舆情数据进行预处理操作,得到预处理后的目标舆情数据;其中,所述预处理操作包括分词处理、去除停用词处理以及命名实体识别中的至少一种;通过所述情绪分析模型对所述目标舆情数据进行特征提取操作,得到所述目标舆情数据的目标情绪因子;其中,所述目标情绪因子包括正向情绪因子、负向情绪因子和中向情绪因子;对所述正向情绪因子、所述负向情绪因子和所述中向情绪因子进行评分量化,得到所述目标舆情数据的情绪强度评分;将所述情绪强度评分与预设情绪强度阈值进行比较,得到所述情绪分析结果。
重要度评分模块203,还用于响应于所述情绪强度评分高于所述预设情绪强度阈值,确定所述情绪分析结果为所述正向情绪;响应于所述情绪强度评分与所述预设情绪强度阈值相同,确定所述情绪分析结果为所述中向情绪;响应于所述情绪强度评分低于所述预设情绪强度阈值,确定所述情绪分析结果为所述负向情绪。
重要度评分模块203,还用于将所述舆情数据以及重要度评分存储至初始舆情数据库,得到目标舆情数据库;其中,所述初始舆情数据库通过大语言模型根据提示词工程对初始舆情数据进行分类以及结构化处理得到,且包括若干所述初始舆情数据及对应的重要度评分;从所述目标舆情数据库中确定预设时间段内的舆情数据,并通过所述大语言模型对所述预设时间段内的舆情数据进行分析,得到所述预设时间段内的舆情分析总结。
可选地,该舆情数据的处理装置200还包括问答模块(图未示)
问答模块,用于响应于接受到用户发出的舆情问答信息,通过机器学习模型对所述舆情问答信息进行分析,确定所述舆情问答信息对应的舆情时间以及舆情主体;基于所述舆情时间以及所述舆情主体在所述目标数据库中进行匹配,得到匹配结果;通过所述显示页面显示所述匹配结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费终端设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
示例性的,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器。
如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括易失性存储介质、非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种舆情数据的处理方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种舆情数据的处理方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该计算机设备的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一些实施方式中,所述处理器用于获取待分析的目标舆情数据;对所述目标舆情数据进行信息提取,得到所述目标舆情数据对应的目标关键信息,其中,所述目标关键信息包括行业关注度、市场主体评级以及价格波动值;根据预设权重分别对所述行业关注度、所述市场主体评级以及所述价格波动值进行加权求和操作,得到所述舆情数据的重要度评分;以及,通过情绪分析模型对所述目标舆情数据进行情绪分析,得到情绪分析结果;其中,所述情绪分析结果包括正向情绪、负向情绪和中向情绪;响应于所述重要度评分大于预设重要度阈值,且所述情绪分析结果为所述负向情绪,执行所述目标舆情数据的舆情预警操作。
在一些实施方式中,所述处理器还用于对所述目标舆情数据进行预处理操作,得到预处理后的目标舆情数据;其中,所述预处理操作包括分词处理、去除停用词处理以及命名实体识别中的至少一种;通过所述情绪分析模型对所述目标舆情数据进行特征提取操作,得到所述目标舆情数据的目标情绪因子;其中,所述目标情绪因子包括正向情绪因子、负向情绪因子和中向情绪因子;对所述正向情绪因子、所述负向情绪因子和所述中向情绪因子进行评分量化,得到所述目标舆情数据的情绪强度评分;将所述情绪强度评分与预设情绪强度阈值进行比较,得到所述情绪分析结果。
在一些实施方式中,所述处理器还用于响应于所述情绪强度评分高于所述预设情绪强度阈值,确定所述情绪分析结果为所述正向情绪;响应于所述情绪强度评分与所述预设情绪强度阈值相同,确定所述情绪分析结果为所述中向情绪;响应于所述情绪强度评分低于所述预设情绪强度阈值,确定所述情绪分析结果为所述负向情绪。
在一些实施方式中,所述处理器还用于将所述舆情数据以及重要度评分存储至初始舆情数据库,得到目标舆情数据库;其中,所述初始舆情数据库通过大语言模型根据提示词工程对初始舆情数据进行分类以及结构化处理得到,且包括若干所述初始舆情数据及对应的重要度评分;从所述目标舆情数据库中确定预设时间段内的舆情数据,并通过所述大语言模型对所述预设时间段内的舆情数据进行分析,得到所述预设时间段内的舆情分析总结。
在一些实施方式中,所述处理器还用于响应于接受到用户发出的舆情问答信息,通过机器学习模型对所述舆情问答信息进行分析,确定所述舆情问答信息对应的舆情时间以及舆情主体;基于所述舆情时间以及所述舆情主体在所述目标数据库中进行匹配,得到匹配结果;通过所述显示页面显示所述匹配结果。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时实现本申请实施例提供的任一种舆情数据的处理方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种舆情数据的处理方法,其特征在于,所述分析方法包括:
获取待分析的目标舆情数据;
对所述目标舆情数据进行信息提取,得到所述目标舆情数据对应的目标关键信息,其中,所述目标关键信息包括行业关注度、市场主体评级以及价格波动值;
根据预设权重分别对所述行业关注度、所述市场主体评级以及所述价格波动值进行加权求和操作,得到所述舆情数据的重要度评分;以及,通过情绪分析模型对所述目标舆情数据进行情绪分析,得到情绪分析结果;其中,所述情绪分析结果包括正向情绪、负向情绪和中向情绪;
响应于所述重要度评分大于预设重要度阈值,且所述情绪分析结果为所述负向情绪,执行所述目标舆情数据的舆情预警操作。
2.根据权利要求1所述的方法,其特征在于,所述通过情绪分析模型对所述目标舆情数据进行情绪分析,得到情绪分析结果,包括:
对所述目标舆情数据进行预处理操作,得到预处理后的目标舆情数据;其中,所述预处理操作包括分词处理、去除停用词处理以及命名实体识别中的至少一种;
通过所述情绪分析模型对所述目标舆情数据进行特征提取操作,得到所述目标舆情数据的目标情绪因子;其中,所述目标情绪因子包括正向情绪因子、负向情绪因子和中向情绪因子;
对所述正向情绪因子、所述负向情绪因子和所述中向情绪因子进行评分量化,得到所述目标舆情数据的情绪强度评分;
将所述情绪强度评分与预设情绪强度阈值进行比较,得到所述情绪分析结果。
3.根据权利要求2所述的方法,其特征在于,所述将所述情绪强度评分与预设情绪强度阈值进行比较,得到所述情绪分析结果,包括:
响应于所述情绪强度评分高于所述预设情绪强度阈值,确定所述情绪分析结果为所述正向情绪;
响应于所述情绪强度评分与所述预设情绪强度阈值相同,确定所述情绪分析结果为所述中向情绪;
响应于所述情绪强度评分低于所述预设情绪强度阈值,确定所述情绪分析结果为所述负向情绪。
4.根据权利要求1所述的方法,其特征在于,所述根据预设权重分别对所述行业关注度、所述市场主体评级以及所述价格波动值进行加权求和操作,得到所述舆情数据的重要度评分之后,还包括:
将所述舆情数据以及重要度评分存储至初始舆情数据库,得到目标舆情数据库;其中,所述初始舆情数据库通过大语言模型根据提示词工程对初始舆情数据进行分类以及结构化处理得到,且包括若干所述初始舆情数据及对应的重要度评分;
从所述目标舆情数据库中确定预设时间段内的舆情数据,并通过所述大语言模型对所述预设时间段内的舆情数据进行分析,得到所述预设时间段内的舆情分析总结。
5.根据权利要求4所述的方法,其特征在于,所述分类包括按照行业分类、按照市场类型分类以及按照指标分类中的一种;所述结构化处理包括对所述初始舆情数据添加时间戳处理、索引编号处理中的至少一种。
6.根据权利要求4所述的方法,其特征在于,所述分析方法还包括:
响应于接受到用户发出的舆情问答信息,通过机器学习模型对所述舆情问答信息进行分析,确定所述舆情问答信息对应的舆情时间以及舆情主体;
基于所述舆情时间以及所述舆情主体在所述目标数据库中进行匹配,得到匹配结果;
通过所述显示页面显示所述匹配结果。
7.根据权利要求4所述的方法,其特征在于,所述初始舆情数据库还包括原始信息结构表和索引架构,其中,所述原始信息结构表包括原始政策文件和市场动态信息;所述索引架构包括哈希索引中间表,所述哈希索引时间表以预设时间段为节点,用于提供基于所述预设时间段的舆情信息查询路径。
8.一种舆情数据的处理装置,其特征在于,所述处理装置包括:
获取模块,用于获取待分析的目标舆情数据;
信息提取模块,用于对所述目标舆情数据进行信息提取,得到所述目标舆情数据对应的目标关键信息,其中,所述目标关键信息包括行业关注度、市场主体评级以及价格波动值;
重要度评分模块,用于根据预设权重分别对所述行业关注度、所述市场主体评级以及所述价格波动值进行加权求和操作,得到所述舆情数据的重要度评分;以及,通过情绪分析模型对所述目标舆情数据进行情绪分析,得到情绪分析结果;其中,所述情绪分析结果包括正向情绪、负向情绪和中向情绪;
舆情预警执行模块,用于响应于所述重要度评分大于预设重要度阈值,且所述情绪分析结果为所述负向情绪,执行所述目标舆情数据的舆情预警操作。
9.一种计算机设备,其特征在于,包括:存储器和处理器;其中,所述存储器与所述处理器连接,用于存储程序所述处理器用于通过运行所述存储器中存储的程序,实现如权利要求1-7中任一项所述的舆情数据的处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-7中任一项所述的舆情数据的处理方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510669740.2A CN120563243A (zh) | 2025-05-22 | 2025-05-22 | 舆情数据的处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510669740.2A CN120563243A (zh) | 2025-05-22 | 2025-05-22 | 舆情数据的处理方法、装置、设备及存储介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN120563243A true CN120563243A (zh) | 2025-08-29 |
Family
ID=96828413
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202510669740.2A Pending CN120563243A (zh) | 2025-05-22 | 2025-05-22 | 舆情数据的处理方法、装置、设备及存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN120563243A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120910336A (zh) * | 2025-10-11 | 2025-11-07 | 宁波市互联网舆情协调指挥中心 | 一种舆情预警方法、装置、设备及介质 |
-
2025
- 2025-05-22 CN CN202510669740.2A patent/CN120563243A/zh active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120910336A (zh) * | 2025-10-11 | 2025-11-07 | 宁波市互联网舆情协调指挥中心 | 一种舆情预警方法、装置、设备及介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12141713B2 (en) | Systems and methods for semantic analysis based on knowledge graph | |
| US11663254B2 (en) | System and engine for seeded clustering of news events | |
| US12235826B2 (en) | System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders | |
| CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
| CN103154991B (zh) | 信用风险采集 | |
| CN104781837B (zh) | 用于通过使用基于事件的情绪分析来形成预测的系统和方法 | |
| US11941714B2 (en) | Analysis of intellectual-property data in relation to products and services | |
| US20240311941A1 (en) | Analysis of intellectual-property data in relation to products and services | |
| US11803927B2 (en) | Analysis of intellectual-property data in relation to products and services | |
| US11348195B2 (en) | Analysis of intellectual-property data in relation to products and services | |
| US20200250212A1 (en) | Methods and Systems for Searching, Reviewing and Organizing Data Using Hierarchical Agglomerative Clustering | |
| CA2956627C (en) | SYSTEM AND ENGINE USED FOR THE TARGET GROUPING OF INFORMATION EVENTS | |
| US20210004918A1 (en) | Analysis Of Intellectual-Property Data In Relation To Products And Services | |
| CN110188291B (zh) | 基于代理日志的文档处理 | |
| WO2021036439A1 (zh) | 一种信访问题答复方法及装置 | |
| CN118708676A (zh) | 信息处理方法、装置、设备、存储介质及程序产品 | |
| KR20230103025A (ko) | 기업 신용 분석 및 평가 정보 제공 방법, 장치 및 시스템 | |
| EP3994646A1 (en) | Analysis of intellectual-property data in relation to products and services | |
| CN120563243A (zh) | 舆情数据的处理方法、装置、设备及存储介质 | |
| CN113220885B (zh) | 一种文本处理方法和系统 | |
| CN120670554A (zh) | 一种用于智能对话系统的候选问题推荐方法及相关装置 | |
| CN118228713A (zh) | 一种需求文档生成方法、装置、电子设备及存储介质 | |
| CN118095270B (zh) | 一种逻辑分析图的构建方法、装置、电子设备及存储介质 | |
| CN112988704A (zh) | 一种基于ai咨询数据库集群搭建方法和系统 | |
| Selimi et al. | A proposed model for stock price prediction based on financial news |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |