CN116756688A - 一种基于多模态融合算法的舆情风险发现方法 - Google Patents

一种基于多模态融合算法的舆情风险发现方法 Download PDF

Info

Publication number
CN116756688A
CN116756688A CN202310733944.9A CN202310733944A CN116756688A CN 116756688 A CN116756688 A CN 116756688A CN 202310733944 A CN202310733944 A CN 202310733944A CN 116756688 A CN116756688 A CN 116756688A
Authority
CN
China
Prior art keywords
data
public opinion
risk
modal
opinion risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310733944.9A
Other languages
English (en)
Inventor
陈学言
田平
王波
王垒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Shuyuan Zhihui Technology Co ltd
Original Assignee
Guangdong Shuyuan Zhihui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Shuyuan Zhihui Technology Co ltd filed Critical Guangdong Shuyuan Zhihui Technology Co ltd
Priority to CN202310733944.9A priority Critical patent/CN116756688A/zh
Publication of CN116756688A publication Critical patent/CN116756688A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于多模态融合算法的舆情风险发现方法。本发明可以综合分析多种类型的数据,提高数据挖掘的深度和全面性;可以发掘文本与图片、文本与视频等之间的关联信息,有助于更全面地揭示舆情风险的真实情况;能够整合来自不同模态的信息,其对舆情风险的识别更为准确和可靠,降低了误判和漏判的风险;灵活应用多种舆情风险发现模型,能够根据实际需求进行模型选择和调整;可以开发更精确的风险评估模型,实现对风险等级的判断和预警,提高应对风险的能力;可以应对大量的网络数据和多模态数据处理需求,保证了舆情风险发现的实时性和系统的可扩展性,适应不断变化的网络环境。

Description

一种基于多模态融合算法的舆情风险发现方法
技术领域
本发明涉及网络信息处理技术领域,具体为一种基于多模态融合算法的舆情风险发现方法。
背景技术
舆情风险发现技术是一种应用于舆情分析和管理的技术,旨在通过收集、处理和分析大量的网络数据(如新闻、社交媒体、论坛等),实时发现和预警潜在的舆情风险,从而帮助企业、政府部门等机构及时应对和处理舆情事件,降低潜在的负面影响。
目前的舆情风险发现技术主要包括数据收集、数据预处理、文本分析、情感分析、舆情风险发现、风险评估和预警、可视化展示,通过以上环节,舆情风险发现技术能够帮助企业和政府部门及时发现潜在的舆情风险,制定有效的应对策略,降低舆情风险对企业和社会的负面影响。但其存在以下几个缺点:1.数据类型单一:现有技术主要处理文本数据,忽略了图片、音频、视频等多种类型的数据,这使得分析结果可能不够全面,无法充分挖掘舆情风险的潜在信息;2.信息利用不充分:在网络环境下,用户表达舆情倾向的方式多种多样,除了文字,还有图片、音频、视频等多种形式。现有技术忽略了这些非文本数据的价值,可能导致舆情风险的误判或漏判;3.模态间关系未充分挖掘:现有技术未充分挖掘不同模态数据之间的关联关系,例如文本与图片、文本与视频等之间的关联信息,这会影响舆情风险发现的准确性;4.分析效果受限:现有技术主要基于文本分析,对于一些涉及视觉、听觉等多种感知的舆情事件,可能无法准确地判断其风险程度,影响分析结果的可靠性。
发明内容
鉴于现有技术中所存在的问题,本发明公开了一种基于多模态融合算法的舆情风险发现方法,包括步骤如下:
步骤一、数据收集和预处理:从不同来源收集多模态数据,对这些数据进行预处理,包括去除噪声、数据清洗、数据格式转换;
步骤二、多模态特征提取:使用深度神经网络来进行多模态特征提取,使用卷积神经网络处理图像数据,使用循环神经网络处理文本数据,使用语音识别算法处理音频;
步骤三、多模态融合算法:对于每个模态提取的特征进行归一化,以确保每个特征在相同的尺度下,将不同模态的特征加权融合在一起;
步骤四、舆情风险发现模型构建:选择适合当前任务的机器学习算法,并使用多模态融合后的特征作为输入数据进行模型训练和预测;
步骤五、舆情风险评估和预警:利用构建好的舆情风险发现模型,对不断收集到的舆情数据进行风险评估,将评估结果按照预先设定的风险级别进行分类,并在发现潜在风险时发出预警信息,以便及时采取应对措施。
作为本发明的一种优选方案,步骤一所述多模态数据包括文本、图片、视频、音频。
作为本发明的一种优选方案,步骤四中所述机器学习算法选用向量机,对高维空间中的数据进行分类和回归。
本发明的有益效果:本发明可以综合分析多种类型的数据,提高数据挖掘的深度和全面性;可以发掘文本与图片、文本与视频等之间的关联信息,有助于更全面地揭示舆情风险的真实情况;能够整合来自不同模态的信息,其对舆情风险的识别更为准确和可靠,降低了误判和漏判的风险;灵活应用多种舆情风险发现模型,能够根据实际需求进行模型选择和调整;可以开发更精确的风险评估模型,实现对风险等级的判断和预警,提高应对风险的能力;可以应对大量的网络数据和多模态数据处理需求,保证了舆情风险发现的实时性和系统的可扩展性,适应不断变化的网络环境。
附图说明
图1为本发明的流程图;
图2为本发明的互联网采集多模态数据。
具体实施方式
实施例1
如图1、图2所示,本发明的一种基于多模态融合算法的舆情风险发现方法,在风险预警平台构建和使用的过程如下:
步骤一、提取舆情数据:
从数据库拉取采集到的多模态舆情数据,包括来自各大网站平台发布的的视频数据、音频数据、文本数据、图片数据,具体提取了十亿的多模态数据。对这些数据进行预处理,包括去除噪声、数据清洗、数据格式转换等。
去除停用词:去除一些常见的停用词,例如"a"、"an"、"the"等。这些单词在语言处理中没有实际意义,但会影响特征提取和分类的效果。此方法使用自然语言处理库(NLTK)来去除停用词。
去除噪声:对于图像和音频数据,可能存在一些噪声,这些噪声可能会干扰特征提取和分类的效果。此方法使用高斯滤波去除图像噪声,使用谱减法去除音频噪声。
平衡数据集:对于分类问题,如果数据集中的类别分布不均匀,可能会导致模型对少数类别的分类效果较差。此方法主要采取欠采样的方法减少较多类别中的数据量。
数据清洗:在收集数据时,可能存在一些数据质量不好的样本,例如缺失值、异常值等。去除关键字段缺失、关键字段异常、图像没有识别到内容、图片OCR没有识别到文本、音频没有识别到内容的数据。
步骤二、多模态特征提取:
模型选择:图像的识别任务主要属于目标检测和识别领域,这里会识别一些舆情相关的敏感信息。此方法使用的CNN模型结构为Faster R-CNN,它包含了一个共享卷积网络和两个分支网络:一个用于分类,另一个用于回归目标框。
调整参数:
批量大小(Batch Size):选择的舆情数据集数据量比较大,所以选择了较大的Batch Size为512,可以有效的减少训练时间。
迭代次数(Epochs):从500的迭代次数开始,逐步增加迭代次数到1000的时候,验证集上的误差开始增加,最终确定了迭代次数为1000。
学习率(Learning Rate):之前选择了较大的Batch Size,所以这里选择较小的学习率以保持训练过程的稳定,选择的学习率是0.005。
正则化(Regularization):在当前的十亿多模态数据集、批量大小512、迭代次数1000、学习率0.005的条件下,通过交叉验证的方式选取了0.001的正则化参数。
Dropout:基于上述1、2、3、4的参数选择,最终确定Dropout系数为0.3为最佳选择。
步骤三、多模态融合算法:
将不同模态的特征按照一定的比例加权融合在一起。此方法使用线性加权的方式,即将每个模态的特征乘以一个权重因子,并将它们相加得到融合后的特征表示。
基于模态重要性的加权方案,可以根据具体的任务需求来判断不同模态数据的重要性,然后对模态进行加权,使得在模型训练过程中,不同模态数据对模型的影响程度更加平衡。此方法基于数据设置文本、图片、音频数据的权重分别为0.4、0.4、0.2,然后对这三个模态的数据进行加权。
步骤四、舆情风险发现模型构建:
使用多模态特征表示作为输入,以9亿数据作为训练集,1亿数据作为测试集,调整算法模型的参数。使用测试集对训练好的模型进行评估,计算准确率、召回率、F1值等指标。根据评估结果进行模型优化,可以再次调整模型参数、再次调整特征加权方案。
步骤五、舆情风险评估和预警:
根据模型预测结果,对舆情事件进行风险评估和预警。根据分类结果来评估舆情风险的程度,可以设置不同的风险等级,此方法设置为低、中、高三个等级。低等级的风险进入系统预警列表,中等级的风险进行APP推送和系统弹窗预警,高等级的风险可以发送短信和根据客户需要直接拨打电话。
本文中未详细说明的部分为现有技术。
上述虽然对本发明的具体实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化,而不具备创造性劳动的修改或变形仍在本发明的保护范围以内。

Claims (3)

1.一种基于多模态融合算法的舆情风险发现方法,其特征在于,包括步骤如下:
步骤一、数据收集和预处理:从不同来源收集多模态数据,对这些数据进行预处理,包括去除噪声、数据清洗、数据格式转换;
步骤二、多模态特征提取:使用深度神经网络来进行多模态特征提取,使用卷积神经网络处理图像数据,使用循环神经网络处理文本数据,使用语音识别算法处理音频;
步骤三、多模态融合算法:对于每个模态提取的特征进行归一化,以确保每个特征在相同的尺度下,将不同模态的特征加权融合在一起;
步骤四、舆情风险发现模型构建:选择适合当前任务的机器学习算法,并使用多模态融合后的特征作为输入数据进行模型训练和预测;
步骤五、舆情风险评估和预警:利用构建好的舆情风险发现模型,对不断收集到的舆情数据进行风险评估,将评估结果按照预先设定的风险级别进行分类,并在发现潜在风险时发出预警信息,以便及时采取应对措施。
2.根据权利要求1所述的一种基于多模态融合算法的舆情风险发现方法,其特征在于:步骤一所述多模态数据包括文本、图片、视频、音频。
3.根据权利要求1所述的一种基于多模态融合算法的舆情风险发现方法,其特征在于:步骤四中所述机器学习算法选用向量机,对高维空间中的数据进行分类和回归。
CN202310733944.9A 2023-06-20 2023-06-20 一种基于多模态融合算法的舆情风险发现方法 Pending CN116756688A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310733944.9A CN116756688A (zh) 2023-06-20 2023-06-20 一种基于多模态融合算法的舆情风险发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310733944.9A CN116756688A (zh) 2023-06-20 2023-06-20 一种基于多模态融合算法的舆情风险发现方法

Publications (1)

Publication Number Publication Date
CN116756688A true CN116756688A (zh) 2023-09-15

Family

ID=87954850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310733944.9A Pending CN116756688A (zh) 2023-06-20 2023-06-20 一种基于多模态融合算法的舆情风险发现方法

Country Status (1)

Country Link
CN (1) CN116756688A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131281A (zh) * 2023-10-26 2023-11-28 中关村科学城城市大脑股份有限公司 舆情事件处理方法、装置、电子设备和计算机可读介质
CN117635200A (zh) * 2024-01-09 2024-03-01 广东赛博威信息科技有限公司 一种基于全域数据洞察的智能运营平台及其方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131281A (zh) * 2023-10-26 2023-11-28 中关村科学城城市大脑股份有限公司 舆情事件处理方法、装置、电子设备和计算机可读介质
CN117131281B (zh) * 2023-10-26 2024-02-09 中关村科学城城市大脑股份有限公司 舆情事件处理方法、装置、电子设备和计算机可读介质
CN117635200A (zh) * 2024-01-09 2024-03-01 广东赛博威信息科技有限公司 一种基于全域数据洞察的智能运营平台及其方法

Similar Documents

Publication Publication Date Title
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN110163647B (zh) 一种数据处理方法及装置
CN116756688A (zh) 一种基于多模态融合算法的舆情风险发现方法
KR102353545B1 (ko) 재난대응 추천방법 및 그 장치
CN112347244A (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
KR102281819B1 (ko) 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템
CN111897963A (zh) 一种基于文本信息和机器学习的商品分类方法
CN117115581A (zh) 一种基于多模态深度学习的智能误操作预警方法及系统
CN111581956A (zh) 基于bert模型和k近邻的敏感信息识别方法及系统
CN114266455A (zh) 一种基于知识图谱的可视化企业风险评估方法
CN115063035A (zh) 基于神经网络的客户评估方法、系统、设备及存储介质
CN113674846A (zh) 基于lstm网络的医院智慧服务舆情监控平台
CN112132368A (zh) 信息处理方法以及装置、计算设备、存储介质
CN114764463A (zh) 基于事件传播特征的互联网舆情事件自动预警系统
KR20220105792A (ko) 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템
CN117372723A (zh) 一种智能化变电站违章作业预警系统
CN111767404A (zh) 一种事件挖掘方法和装置
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
CN116305257A (zh) 隐私信息监测装置和隐私信息监测方法
CN115391523A (zh) 风电场多源异构数据处理方法及装置
CN116842936A (zh) 关键词识别方法、装置、电子设备和计算机可读存储介质
CN113537802A (zh) 一种基于开源情报的地缘政治风险推演方法
CN114218569A (zh) 数据分析方法、装置、设备、介质和产品
CN118171645B (zh) 一种基于文本分类的商业信息分析方法及系统
CN117763230B (zh) 基于神经网络模型的数据分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination