CN114579964A - 一种信息监测方法及装置、电子设备、存储介质 - Google Patents

一种信息监测方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN114579964A
CN114579964A CN202210462233.8A CN202210462233A CN114579964A CN 114579964 A CN114579964 A CN 114579964A CN 202210462233 A CN202210462233 A CN 202210462233A CN 114579964 A CN114579964 A CN 114579964A
Authority
CN
China
Prior art keywords
information
modal
feature
features
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210462233.8A
Other languages
English (en)
Inventor
龙胜海
肖雪松
严骊
韩威俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Minto Technology Co ltd
Original Assignee
Chengdu Minto Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Minto Technology Co ltd filed Critical Chengdu Minto Technology Co ltd
Priority to CN202210462233.8A priority Critical patent/CN114579964A/zh
Publication of CN114579964A publication Critical patent/CN114579964A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种信息监测方法及装置、电子设备、存储介质。信息监测方法,包括:获取待监测信息;所述待监测信息包括多种模态的信息;确定所述多种模态的信息分别对应的模态信息特征;每种模态的信息对应至少一种模态信息特征;根据所述多种模态的信息分别对应的模态信息特征和预先训练好的多模态信息识别模型确定所述待监测信息的监测结果;所述监测结果用于表征所述待监测信息是否为敏感信息。该信息监测方法用以实现敏感信息的准确监测。

Description

一种信息监测方法及装置、电子设备、存储介质
技术领域
本申请涉及信息安全技术领域,具体而言,涉及一种信息监测方法及装置、电子设备、存储介质。
背景技术
随着互联网技术的发展,互联网中每时每刻都在产生或者传播大量的信息,在这些信息中,一些是正常信息,还有一些信息是不能随意产生或者传播的敏感信息(例如违规信息)。为了净化网络环境和维护网络安全,需要对敏感信息进行监测。
现有技术中,在采集到待监测的信息之后,将待监测的信息输入到网络模型中,由网络模型输出监测结果。但是,现有的网络模型仅能针对单模态的信息进行监测,不能保证最终的监测结果的准确性。
发明内容
本申请实施例的目的在于提供一种信息监测方法及装置、电子设备、存储介质,用以实现敏感信息的准确监测。
第一方面,本申请实施例提供一种信息监测方法,包括:获取待监测信息;所述待监测信息包括多种模态的信息;确定所述多种模态的信息分别对应的模态信息特征;每种模态的信息对应至少一种模态信息特征;根据所述多种模态的信息分别对应的模态信息特征和预先训练好的多模态信息识别模型确定所述待监测信息的监测结果;所述监测结果用于表征所述待监测信息是否为敏感信息;其中,所述预先训练好的多模态信息识别模型包括:特征融合层,用于将多种模态的信息分别对应的模态信息特征进行融合;所述特征融合层包括:单模态特征处理层、多模态特征处理层和特征整合层;所述单模态特征处理层用于对各种模态的信息对应的模态信息特征分别进行处理;所述多模态特征处理层包括第一模态特征处理层和第二模态特征处理层,所述第一模态特征处理层用于基于任意两种模态信息之间的关联关系对该两种模态的信息分别对应的模态信息特征进行处理,所述第二模态特征处理层用于基于任意三种模态信息之间的关联关系对该三种模态的信息分别对应的模态信息特征进行处理;所述特征整合层用于基于处理后的单模态特征和处理后的多模态信息特征进行特征融合,获得融合特征。
在本申请实施例中,获取多种模态的待监测信息,并分别提取各种模态的信息对应的模态信息特征,每种模态的信息对应至少一种模态信息特征,这样可以提取到多种模态信息特征,实现待监测信息的全面性特征提取;然后,再利用预先训练好的多模态信息识别模型和多种模态信息特征确定监测结果。相较于现有的基于单模态信息进行监测的方式,能够提取出更全面的特征,进而最终的监测结果也更加准确,实现敏感信息的准确监测。
作为一种可能的实现方式,所述多种模态的信息包括:图像信息、文本信息、音频信息和视频信息;其中,图像信息对应的模态信息特征为图像特征,文本信息对应的模态信息特征为文本特征,音频信息对应的模态信息特征为音频特征,视频信息对应的模态信息特征包括图像特征和音频特征。
在本申请实施例中,通过图像信息、文本信息、音频信息和视频信息,提取出文本特征、图像特征和音频特征这些多模态信息特征,实现全面性的特征提取。
作为一种可能的实现方式,所述预先训练好的多模态信息识别模型还包括预测层;所述根据所述多种模态的信息分别对应的模态信息特征和预先训练好的多模态信息识别模型确定所述待监测信息的监测结果,包括:通过所述特征融合层将所述多种模态的信息分别对应的模态信息特征进行融合,获得融合特征;通过所述预测层基于所述融合特征确定所述待监测信息的监测结果。
在本申请实施例中,多模态信息识别模型包括特征融合层和预测层,通过特征融合层,实现多模态信息特征的特征融合,获得融合特征;通过预测层,基于融合特征确定监测结果;实现监测结果的有效且准确的确定。
作为一种可能的实现方式,所述通过所述特征融合层将所述多种模态的信息分别对应的模态信息特征进行融合,获得融合特征,包括:通过所述单模态特征处理层对各种模态的信息对应的模态信息特征分别进行处理,获得处理后的单模态信息特征;通过所述多模态特征处理层基于所述多种模态的信息之间的关联关系对所述多种模态的信息分别对应的模态信息特征进行处理,获得处理后的多模态信息特征;通过所述特征整合层基于所述处理后的单模态特征和所述处理后的多模态信息特征进行特征融合,获得所述融合特征。
在本申请实施例中,特征融合层包括单模态特征处理层、多模态特征处理层和特征整合层;通过单模态特征处理层,实现单模态信息特征的处理,通过多模态特征处理层,实现多模态特征的结合处理;最终再结合处理后的单模态特征和多模态特征,通过特征整合层实现特征的有效融合,使融合特征既保留单模态特征,还增加多模态特征。
作为一种可能的实现方式,所述信息监测方法还包括:获取所述特征融合层输出的所述融合特征;根据所述待监测信息的监测结果确定所述融合特征的分类标识;根据所述融合特征的分类标识存储所述融合特征;存储的融合特征用于对所述预先训练好的多模态信息识别模型进行优化训练。
在本申请实施例中,通过获取融合特征,并为其确定对应的分类标识,使具有分类标识的融合特征可以用于多模态信息识别模型的优化训练,不断提高多模态信息识别模型的精度。
作为一种可能的实现方式,所述预先训练好的多模态信息识别模型包括:不同模态的信息分别对应的特征提取层;所述确定所述多种模态的信息分别对应的模态信息特征,包括:通过各种模态的信息分别对应的特征提取层确定各种模态的信息分别对应的模态信息特征。
在本申请实施例中,通过多模态信息识别模型中的特征提取层,实现各种模态的信息分别对应的模态信息特征的有效提取。
作为一种可能的实现方式,所述信息监测方法还包括:获取训练数据集;所述训练数据集中包括:多种模态的样本信息分别对应的样本信息特征以及各个样本信息特征对应的分类标识,所述分类标识用于表征样本信息特征对应的样本信息是否为敏感信息;基于所述训练数据集对初始的多模态信息识别模型进行训练,获得训练好的多模态信息识别模型。
在本申请实施例中,通过多种模态的样本信息分别对应的样本信息特征以及各个样本信息特征对应的分类标识作为训练数据集,对多模态信息识别模型进行训练,使训练好的多模态信息识别模型可以基于多模态信息特征确定准确的监测结果。
第二方面,本申请实施例提供一种信息监测装置,包括:用于实现第一方面以及第一方面的任意一种可能的实现方式中所述的信息监测方法的各个功能模块。
第三方面,本申请实施提供一种电子设备,包括:处理器;以及与所述处理器通信连接的存储器;所述存储器中存储有计算机指令,所述计算机指令被计算机运行时,执行如第一方面以及第一方面的任意一种可能的实现方式中所述的信息监测方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时,执行如第一方面以及第一方面的任意一种可能的实现方式中所述的信息监测方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的信息监测方法的流程图;
图2为本申请实施例提供的多模态信息识别模型的一种结构示意图;
图3为本申请实施例提供的多模态信息识别模型的特征融合层的示意图;
图4为本申请实施例提供的多模态信息识别模型的又一种结构示意图;
图5为本申请实施例提供的信息监测装置的结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
图标:500-信息监测装置;510-获取模块;520-处理模块;600-电子设备;610-处理器;620-存储器。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请实施例提供的技术方案可以应用于对敏感信息进行监测的应用场景中,敏感信息可以理解为指定的信息,敏感信息可以是一些违规信息或者违法信息,这些信息不能被随意或者广泛的传播。在不同的应用场景中,敏感信息可以不同,在此不作具体的信息限定。
对于一种敏感信息来说,可能出现在不同的地方,例如:网站、应用程序、运营平台(例如微博、公众号)等,敏感信息出现的地方可以称之为监测对象。
在一些实施例中,本申请实施例提供的技术方案可以用于对多种监测对象的敏感信息进行监测,则,该技术方案对应的硬件环境可以是多种监测对象共同的监测系统,例如:敏感信息的监测系统。
在另一些实施例中,本申请实施例提供的技术方案可以用于对特定的监测对象的敏感信息进行检测,则,该技术方案对应的硬件环境可以是该特定的监测对象的监测系统,例如:网站的防火墙、运营平台的防火墙等,在此不作限定。
基于上述应用场景的介绍,接下来请参照图1,为本申请实施例提供的信息监测方法的流程图,该信息监测方法包括:
步骤110:获取待监测信息。待监测信息包括多种模态的信息。
步骤120:确定多种模态的信息分别对应的模态信息特征。每种模态的信息对应至少一种模态信息特征。
步骤130:根据多种模态的信息分别对应的模态信息特征和预先训练好的多模态信息识别模型确定待监测信息的监测结果。监测结果用于表征待监测信息是否为敏感信息。
在本申请实施例中,获取多种模态的待监测信息,并分别提取各种模态的信息对应的模态信息特征,每种模态的信息对应至少一种模态信息特征,这样可以提取到多种模态信息特征,实现待监测信息的全面性特征提取;然后,再利用预先训练好的多模态信息识别模型和多种模态信息特征确定监测结果。相较于现有的基于单模态信息进行监测的方式,能够提取出更全面的特征,进而最终的监测结果也更加准确,实现敏感信息的准确监测。
接下来对该信息监测方法的详细实施方式进行介绍。
在步骤110中,获取待监测信息,该待监测信息包括多种模态的信息。
作为一种可选的实施方式,用户预先设置监测业务配置信息,基于该监测业务配置信息,监测设备进行待监测信息的采集。
监测业务配置信息可以包括:监测区域和监测项。
监测区域,可以是实际的地理区域,也可以是虚拟的网络区域。例如:监测区域为一个网络地址的区间范围,对应的,在采集待监测信息时,在该网络地址的区间范围内采集待监测信息。再例如:监测区域为指定的省(或者市、区),对应的,在采集待监测信息时,采集指定的省(或者市、区)网络范围内的信息。
监测项,可以理解为上述的监测对象,其可以是:监测区域内的网页、应用程序和运营平台等。
在一些实施例中,还可以进行监测配置初始化,该监测配置初始化用于确定前述的监测对象是否被纳入监测项中。例如:检测上述的网页、应用程序和运管平台等是否通信正常,若通信正常,则将其纳入监测项;若通信不正常,则可以利用自动维护脚本对数据采集通信采集程序进行修正,例如:不将其纳入监测项;或者,待通信恢复正常之后,再将其纳入监测项等。
在一些实施例中,将一些可选择的监测业务配置信息提供给用户,然后由用户在可选择的监测业务配置信息中选择符合需求的配置信息。
在另一些实施例中,在已有的可选的监测业务配置信息的基础上,用户还可以自定义监测业务配置信息,例如:扩大监测区域(监测范围)、对监测项进行修正等。
此外,上述的监测业务配置信息还可以具备自动更新的功能,例如:在基于监测业务配置信息进行信息采集的过程中,若信息采集的结果不符合预期要求,可以自主的对监测区域、监测项进行调整。例如:若出现采集到的信息较少,或者采集到指定数量的信息的周期较长这种情况时,可以扩大监测范围,增加监测项等。
在本申请实施例中,在进行互联网数据监测的同时,还可以对监测范围内的网站站点进行挂马、入侵检测报警,并会对挂马站点进行网络溯源,将溯源相关的地址与挂马域名全部纳入检测范围中,达到扩充监测与预防监测的处理。
基于上述的监测业务配置信息,监测设备或者监测系统,可以自动进行信息采集。但是,所采集到的信息可能并不是直接的多种模态的信息,因此,基于采集的信息,还需要作信息处理(或者数据处理),以得到最终的待监测信息。
举例来说,假设监测业务配置信息指向某个网站,则,监测设备或者监测系统会采集该网站的信息,在该网站上,具有多种模态的信息,例如:文本信息、视频信息、音频信息、图片信息等。此时,监测设备或者监测系统将网站的各个页面中的文本、图片、视频等信息下载,并对这些下载的信息进行合并,合并得到的数据作为整合数据包。其中,信息的合并并不涉及到不同模态的信息的交叉处理,只是把这些信息都合并到一个数据包中即可,即,文本数据还是文本数据,图片数据还是图片数据。
因此,在步骤110中,最终所获取到的待监测信息可以理解为多种模态的信息整合数据包,并且,在该整合数据包中,包括多种模态的数据。
基于步骤110中获取到的多种模态的信息,在步骤120中,确定多种模态的信息分别对应的模态信息特征,每种模态的信息对应至少一种模态信息特征。
在一些实施例中,多种模态的信息包括:图像信息、文本信息、音频信息和视频信息;其中,图像信息对应的模态信息特征为图像特征,文本信息对应的模态信息特征为文本特征,音频信息对应的模态信息特征为音频特征,视频信息对应的模态信息特征包括图像特征和音频特征。
在这种实施方式中,通过图像信息、文本信息、音频信息和视频信息,提取出文本特征、图像特征和音频特征这些多模态信息特征,实现全面性的特征提取。
可以理解,多种模态的信息包括但不限于这种实施方式中所述的信息,对应的,这些信息对应的特征也不限于这种实施方式中所述的特征,在不同的应用场景中,还可以有更多的实施方式,在此不作限定。
作为一种可选的实施方式,通过特征提取引擎实现特征的提取。例如:特征提取引擎基于图像信息提取图像特征,基于文本信息提取文本特征,基于音频信息提取音频特征,基于视频信息提取音频特征和图像特征。
在一些实施例中,该特征提取引擎可以是单独的数据处理模块。
在另一些实施例中,该特征提取引擎可以集成在多模态信息识别模型中。因此,作为一种可选的实施方式,预先训练好的多模态信息识别模型包括:不同模态的信息分别对应的特征提取层;步骤120包括:通过各种模态的信息分别对应的特征提取层确定各种模态的信息分别对应的模态信息特征。
在这种实施方式中,将不同模态的信息分别对应的特征提取层集成在多模态信息识别模型中,则,可以将不同模态的信息输入到对应的特征提取层,然后对应的特征提取层再进行特征提取,最终所输出的多模态信息特征可以由多模态信息识别模型中的其他处理层继续进行处理。
即,在一些实施例中,步骤120和步骤130均可以由多模态信息识别模型实现,不过步骤120和步骤130分别由多模态信息识别模型中的不同处理层实现。在这种情况下,步骤120可以合并为一个步骤,即,通过多模态信息识别模型先提取出特征,再通过多模态信息识别模型基于提取的特征确定监测结果。
在本申请实施例中,通过多模态信息识别模型中的特征提取层,实现各种模态的信息分别对应的模态信息特征的有效提取。
不管采用上述的哪种实施方式进行特征提取,特征提取的具体实现方式可以参照本领域成熟的特征提取技术,在此不作详细介绍。
在步骤130中,根据多种模态的信息分别对应的模态信息特征和预先训练好的多模态信息识别模型确定待监测信息的监测结果;监测结果用于表征待监测信息是否为敏感信息。
若前述的特征提取引擎是单独的特征提取模块,在步骤130中,将多种模态的信息分别对应的模态信息特征输入到预先训练好的多模态信息识别模型中,多模态信息识别模型便可输出监测结果。若前述的特征提取引擎是集成在多模态信息识别模型中的模块,在步骤130,获取多模态信息识别模型基于模态信息特征所输出的监测结果即可。
请参照图2,为多模态信息识别模型的一种结构示意图,在图2中,多模态信息识别模型包括:特征融合层和预测层。在一些实施例中,特征融合层的前端,还包括特征输入层,特征输入层用于输入多模态信息特征。在另一些实施例中,特征融合层直接用于输入多模态信息特征。
在图2所示的结构下,步骤130包括:通过特征融合层将多种模态的信息分别对应的模态信息特征进行融合,获得融合特征;通过预测层基于融合特征确定待监测信息的监测结果。
即,特征融合层用于实现特征融合,预测层用于基于融合特征确定监测结果。
在本申请实施例中,多模态信息识别模型包括特征融合层和预测层,通过特征融合层,实现多模态信息特征的特征融合,获得融合特征;通过预测层,基于融合特征确定监测结果;实现监测结果的有效且准确的确定。
作为一种可选的实施方式,请继续参照图2,特征融合层包括:单模态特征处理层、多模态特征处理层和特征整合层;通过特征融合层将多种模态的信息分别对应的模态信息特征进行融合,获得融合特征,包括:通过单模态特征处理层对各种模态的信息对应的模态信息特征分别进行处理,获得处理后的单模态信息特征;通过多模态特征处理层基于多种模态的信息之间的关联关系对多种模态的信息分别对应的模态信息特征进行处理,获得处理后的多模态信息特征;通过特征整合层基于处理后的单模态特征和处理后的多模态信息特征进行特征融合,获得融合特征。
即,特征融合层中,单模态特征处理层用于对各种模态的信息对应的模态信息特征分别进行处理。例如:分别对文本特征、图像特征、音频特征进行处理,获得处理后的文本特征、处理后的图像特征以及处理后的音频特征。单模态信息特征的处理方式可以参照本领域成熟的单模态信息的识别技术。
多模态特征处理层,需要基于多种模态的信息之间的关联关系对多种模态的信息分别对应的模态信息特征进行处理。例如:多模态特征处理层,基于文本特征和图像特征之间的关联关系,对文本特征和图像特征进行处理,获得处理后的特征,处理后的特征可以理解为文本特征和图像特征两者整合之后的特征。
可以理解,多模态特征处理层输出的处理后的特征,应当是多个特征。
最终,基于单模态特征处理层和多模态特征处理层输出的特征,特征整合层再次进行整合,获得融合特征。
此外,不同的模态信息特征之间的关联关系,并不是需要输入模型的信息,而是训练好的模型能够自主提取到的信息,即,通过训练,模型可以学习到不同的模态信息特征之间的关联关系,这里只是想说明,对于多模态特征处理层来说,最终输出的初步整合特征,实际上是基于特征之间的关联关系所整合的特征。
在本申请实施例中,特征融合层包括单模态特征处理层、多模态特征处理层和特征整合层;通过单模态特征处理层,实现单模态信息特征的处理,通过多模态特征处理层,实现多模态特征的结合处理;最终再结合处理后的单模态特征和多模态特征,通过特征整合层实现特征的有效融合,使融合特征既保留单模态特征,还增加多模态特征。
在一些实施例中,单模态特征处理层可以为私有的双向LSTM(Long Short-TermMemory,长短期记忆)层,多模态特征处理层可以是共享的双向LSTM层。
作为一种可选的实施方式,多模态特征处理层包括第一模态特征处理层和第二模态特征处理层,第一模态特征处理层用于基于任意两种模态信息之间的关联关系对该两种模态的信息分别对应的模态信息特征进行处理,第二模态特征处理层用于基于任意三种模态信息之间的关联关系对该三种模态的信息分别对应的模态信息特征进行处理。
在这种实施方式,第一模态特征处理层相当于可以处理两种模态信息特征,第二模态特征处理层相当于可以处理三种模态信息特征,也即,第一模态特征处理层对两种模态信息特征进行初步整合,第二模态特征处理层对三种模态信息特征进行初步整合。
可以理解,在一些实施例中,若模态信息的种类更多,则还可以对应的设置更多的模态特征处理层,例如:若模态信息有四种,则还需要设置第三模态特征处理层,以处理四种模态信息特征,对四种模态信息特征进行初步整合,本申请实施例中所介绍的第一模态特征处理层和第二模态特征处理层不构成对多模态信息识别模型的结构的限定。
在本申请实施例中,通过第一模态特征处理层,分析两种模态信息之间的关联关系,通过第二模态特征处理层,分析三种模态信息之间的关联关系,进而,最终多模态特征处理层输出的处理后的特征为标注多模态信息特征之间的关联关系的特征。
在一些实施例中,第一模态特征处理层可以是双模态的双向LSTM层,第二模态特征处理层可以是三模态的双向LSTM层。
为了便于理解,接下来请参照图3,为本申请实施例提供的特征融合层的示意图,假设多模态信息特征包括:文本特征、图像特征和音频特征。
在图3中,单模态特征处理层分别会对三种特征进行处理,然后输出处理后的三种特征。
双模态特征处理层对任意两种特征进行处理,然后输出处理后的三种特征。处理后的三种特征分别为:对文本特征和图像特征进行初步整合后的特征,对文本特征和音频特征进行初步整合后的特征,对图像特征和音频特征进行初步整合后的特征。
三模态特征处理层对三种特征进行处理,输出处理后的一种特征,即文本特征、图像特征和音频特征初步整合后的特征。
进一步地,特征整合层再基于各个处理层输出的特征进行整合。例如图3中:将文本特征与双模态特征处理层输出的两种特征,以及三模态特征处理层输出的一种特征进行整合;将图像特征与双模态特征处理层输出的两种特征,以及三模态特征处理层输出的一种特征进行整合;将音频特征与双模态特征处理层输出的两种特征,以及三模态特征处理层输出的一种特征进行整合。最后,再将上述的各个整合结果进行整合,获得融合特征。
请参照图4,为多模态信息识别模型的又一种结构示意图,在图4中,相较于图2,多了一个特征提取层,即将特征提取层集成在模型中。对于特征融合层和预测层,参照前述实施例的介绍即可,在此不再重复介绍。
基于上述多模态信息识别模型的结构的介绍,接下来对多模态信息识别模型的训练方式进行介绍。
作为一种可选的实施方式,多模态信息识别模型的训练过程包括:获取训练数据集;训练数据集中包括:多种模态的样本信息分别对应的样本信息特征以及各个样本信息特征对应的分类标识,分类标识用于表征样本信息特征对应的样本信息是否为敏感信息;基于训练数据集对初始的多模态信息识别模型进行训练,获得训练好的多模态信息识别模型。
在这种实施方式中,多模态信息识别模型采用图2所示的结构。因此,在训练数据集中,包括:多种模态的样本信息分别对应的样本信息特征和各个样本信息特征对应的分类标识。将该训练数据集输入到多模态信息识别模型中进行训练,使模型学习特征的融合,以及基于融合特征的预测。最终,训练好的多模态信息识别模型可以实现特征的融合以及预测监测结果的输出。
分类标识,例如:敏感信息、非敏感信息、疑似敏感信息等;再例如:信息是敏感信息的概率,当概率大于预设值时,可确定信息为敏感信息,在此不作限定。
在本申请实施例中,通过多种模态的样本信息分别对应的样本信息特征以及各个样本信息特征对应的分类标识作为训练数据集,对多模态信息识别模型进行训练,使训练好的多模态信息识别模型可以基于多模态信息特征确定准确的监测结果。
作为另一种可选的实施方式,多模态信息识别模型的训练过程包括:获取训练数据集;训练数据集中包括:多种模态的样本信息、多种模态的样本信息分别对应的样本信息特征以及各个样本信息特征对应的分类标识,分类标识用于表征样本信息特征对应的样本信息是否为敏感信息;基于训练数据集对初始的多模态信息识别模型进行训练,获得训练好的多模态信息识别模型。
在这种实施方式中,多模态信息识别模型采用图4所示的结构,相较于前一种训练方式,此时的训练数据集中还需要包括多种模态的信息,以使特征提取层可以学习到多种模态的信息的特征提取方式。
当然,在另一些实施例中,如果特征提取层本身就具有特征提取的功能,则无需在训练数据集中包含多种模态的信息。
此外,不管采用哪种训练方式,在多模态信息识别模型的训练过程中,还可以采取一些提高模型精度的手段,例如:设置测试数据集,测试多模态信息识别模型的精度,并利用测试结果对多模态信息识别模型进行优化训练。再例如:设置训练次数或者训练完成的条件,以使训练好的模型满足精度要求。
在本申请实施例中,多模态信息识别模型可以采用深度学习模型、自适应网络模型等各种模型,对应的,在不同的模型实施方式下,模型的算法也对应不同,可参照本领域成熟的技术,在此不作限定。
结合上述训练过程的介绍,在步骤130中,多模态信息识别模型基于多模态信息特征,输出监测结果。监测结果用于表征待监测信息是否为敏感信息,例如:监测结果为待监测信息是敏感信息、非敏感信息、疑似敏感信息;再例如:监测结果为待监测信息是敏感信息的概率,例如:百分之90,在此不作限定。
在本申请实施例中,多模态信息识别模型除了输出监测结果之外,还可以通过特征融合层输出融合特征。因此,作为一种可选的实施方式,该信息监测方法还包括:获取特征融合层输出的所述融合特征;根据待监测信息的监测结果确定融合特征的分类标识;根据融合特征的分类标识存储融合特征;存储的融合特征用于对预先训练好的多模态信息识别模型进行优化训练。
在这种实施方式中,将融合特征按照对应的分类标识进行存储,例如:若分类标识为敏感数据,则将融合特征存储到敏感数据库中。后续在模型的应用过程中,库中存储的融合特征可作为训练数据集,对多模态识别模型进行优化训练,或者说多模态识别模型进行自学习。
在一些实施例中,除了存储融合特征,还可以将融合特征对应的监测数据一并进行存储,以用于优化训练。
在本申请实施例中,通过获取融合特征,并为其确定对应的分类标识,使具有分类标识的融合特征可以用于多模态信息识别模型的优化训练,不断提高多模态信息识别模型的精度。
在本申请实施例中,在待监测数据确定对应的监测结果之后,可以根据监测结果对监测数据和对应的融合特征进行入库处理。入库处理,可以理解为按照监测结果所表征的是否为敏感数据,将监测数据和对应的融合特征存储到不同的库中。
例如:假设监测数据的监测结果为敏感数据,则将监测数据存储到敏感数据库中,以及将对应的融合特征存储到敏感数据特征库中。假设监测数据的监测结果为不是敏感数据,则将监测数据存储到非敏感数据库中,以及将对应的融合特征存储到非敏感数据特征库中。
当然,除了存储融合特征,也可以将融合前的特征按照相同的方式一并入库,在此不作限定。
在一些实施例中,先将监测数据、对应的融合特征和监测结果反馈给人工,由人工进行审核,待人工审核通过之后,再按照上述的入库方式进行入库处理。
若人工审核的结果是监测结果有误,则还可以由人工对监测结果进行纠偏,并将纠偏后的监测结果按照上述的入库方式进行入库处理。
在一些实施例中,与互联网监测类似,还可以基于审核结果生成审核任务报告红头文件,并存储该文件,以便于随时对审核过程进行查阅。
此外,审核任务报告红头文件,以及审核的形式,或者其他的审核信息,均可以由用户自定义,在此不作限定。
除了基于监测结果对监测数据和融合特征等信息进行入库处理,还可以基于监测结果对监测数据进行更多的处理。
例如:在得到监测结果之后,若监测结果表征监测数据是敏感数据,则按照敏感数据的拦截方式对敏感数据进行拦截,以及按照敏感数据的报警方式对敏感数据进行报警等。
基于同一发明构思,请参照图5,本申请实施例中还提供一种信息监测装置500,包括:获取模块510和处理模块520。
获取模块510用于:获取待监测信息;所述待监测信息包括多种模态的信息;处理模块520用于:确定所述多种模态的信息分别对应的模态信息特征;每种模态的信息对应至少一种模态信息特征;根据所述多种模态的信息分别对应的模态信息特征和预先训练好的多模态信息识别模型确定所述待监测信息的监测结果;所述监测结果用于表征所述待监测信息是否为敏感信息。
在本申请实施例中,处理模块520具体用于:通过所述特征融合层将所述多种模态的信息分别对应的模态信息特征进行融合,获得融合特征;通过所述预测层基于所述融合特征确定所述待监测信息的监测结果。
在本申请实施例中,处理模块520具体用于:通过所述单模态特征处理层对各种模态的信息对应的模态信息特征分别进行处理,获得处理后的单模态信息特征;通过所述多模态特征处理层基于所述多种模态的信息之间的关联关系对所述多种模态的信息分别对应的模态信息特征进行处理,获得处理后的多模态信息特征;通过所述特征整合层基于所述处理后的单模态特征和所述处理后的多模态信息特征进行特征融合,获得所述融合特征。
在本申请实施例中,获取模块510还用于:获取所述特征融合层输出的所述融合特征;处理模块520还用于:根据所述待监测信息的监测结果确定所述融合特征的分类标识;根据所述融合特征的分类标识存储所述融合特征;存储的融合特征用于对所述预先训练好的多模态信息识别模型进行优化训练。
在本申请实施例中,处理模块520具体用于:通过各种模态的信息分别对应的特征提取层确定各种模态的信息分别对应的模态信息特征。
在本申请实施例中,获取模块510还用于:获取训练数据集;所述训练数据集中包括:多种模态的样本信息分别对应的样本信息特征以及各个样本信息特征对应的分类标识,所述分类标识用于表征样本信息特征对应的样本信息是否为敏感信息;处理模块520还用于:基于所述训练数据集对初始的多模态信息识别模型进行训练,获得训练好的多模态信息识别模型。
信息监测装置500与前述的信息监测方法对应,各个功能模块与信息监测方法的各个步骤也对应,因此,各个功能模块的实施方式参照前述的信息监测方法的实施方式,在此不再重复介绍。
请参照图6,本申请实施例还提供一种电子设备600,其可以作为前述的信息监测方法的执行主体,包括:处理器610和与处理器610通信连接的存储器620。
其中,存储器620存储有可被处理器610执行的指令,指令被处理器610执行,以使处理器610能够执行前述实施例中的信息监测方法。
处理器610和存储器620可以通过通信总线连接。
可以理解,电子设备600还可以包括更多自身所需的通用模块,在本申请实施例不作一一介绍。
本申请实施例还提供一种计算机可读介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时,执行前述实施例中所述的信息监测方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种信息监测方法,其特征在于,包括:
获取待监测信息;所述待监测信息包括多种模态的信息;
确定所述多种模态的信息分别对应的模态信息特征;每种模态的信息对应至少一种模态信息特征;
根据所述多种模态的信息分别对应的模态信息特征和预先训练好的多模态信息识别模型确定所述待监测信息的监测结果;所述监测结果用于表征所述待监测信息是否为敏感信息;
其中,所述预先训练好的多模态信息识别模型包括:特征融合层,用于将多种模态的信息分别对应的模态信息特征进行融合;所述特征融合层包括:单模态特征处理层、多模态特征处理层和特征整合层;
所述单模态特征处理层用于对各种模态的信息对应的模态信息特征分别进行处理;
所述多模态特征处理层包括第一模态特征处理层和第二模态特征处理层,所述第一模态特征处理层用于基于任意两种模态信息之间的关联关系对该两种模态的信息分别对应的模态信息特征进行处理,所述第二模态特征处理层用于基于任意三种模态信息之间的关联关系对该三种模态的信息分别对应的模态信息特征进行处理;
所述特征整合层用于基于处理后的单模态特征和处理后的多模态信息特征进行特征融合,获得融合特征。
2.根据权利要求1所述的信息监测方法,其特征在于,所述多种模态的信息包括:图像信息、文本信息、音频信息和视频信息;其中,图像信息对应的模态信息特征为图像特征,文本信息对应的模态信息特征为文本特征,音频信息对应的模态信息特征为音频特征,视频信息对应的模态信息特征包括图像特征和音频特征。
3.根据权利要求1或2所述的信息监测方法,其特征在于,所述预先训练好的多模态信息识别模型还包括预测层;所述根据所述多种模态的信息分别对应的模态信息特征和预先训练好的多模态信息识别模型确定所述待监测信息的监测结果,包括:
通过所述特征融合层将所述多种模态的信息分别对应的模态信息特征进行融合,获得融合特征;
通过所述预测层基于所述融合特征确定所述待监测信息的监测结果。
4.根据权利要求3所述的信息监测方法,其特征在于,所述通过所述特征融合层将所述多种模态的信息分别对应的模态信息特征进行融合,获得融合特征,包括:
通过所述单模态特征处理层对各种模态的信息对应的模态信息特征分别进行处理,获得处理后的单模态信息特征;
通过所述多模态特征处理层基于所述多种模态的信息之间的关联关系对所述多种模态的信息分别对应的模态信息特征进行处理,获得处理后的多模态信息特征;
通过所述特征整合层基于所述处理后的单模态特征和所述处理后的多模态信息特征进行特征融合,获得所述融合特征。
5.根据权利要求3所述的信息监测方法,其特征在于,所述信息监测方法还包括:
获取所述特征融合层输出的所述融合特征;
根据所述待监测信息的监测结果确定所述融合特征的分类标识;
根据所述融合特征的分类标识存储所述融合特征;存储的融合特征用于对所述预先训练好的多模态信息识别模型进行优化训练。
6.根据权利要求1所述的信息监测方法,其特征在于,所述预先训练好的多模态信息识别模型包括:不同模态的信息分别对应的特征提取层;所述确定所述多种模态的信息分别对应的模态信息特征,包括:
通过各种模态的信息分别对应的特征提取层确定各种模态的信息分别对应的模态信息特征。
7.根据权利要求1所述的信息监测方法,其特征在于,所述信息监测方法还包括:
获取训练数据集;所述训练数据集中包括:多种模态的样本信息分别对应的样本信息特征以及各个样本信息特征对应的分类标识,所述分类标识用于表征样本信息特征对应的样本信息是否为敏感信息;
基于所述训练数据集对初始的多模态信息识别模型进行训练,获得训练好的多模态信息识别模型。
8.一种信息监测装置,其特征在于,包括:
获取模块,用于获取待监测信息;所述待监测信息包括多种模态的信息;
处理模块,用于:确定所述多种模态的信息分别对应的模态信息特征;每种模态的信息对应至少一种模态信息特征;根据所述多种模态的信息分别对应的模态信息特征和预先训练好的多模态信息识别模型确定所述待监测信息的监测结果;所述监测结果用于表征所述待监测信息是否为敏感信息;
其中,所述预先训练好的多模态信息识别模型包括:特征融合层,用于将多种模态的信息分别对应的模态信息特征进行融合;所述特征融合层包括:单模态特征处理层、多模态特征处理层和特征整合层;
所述单模态特征处理层用于对各种模态的信息对应的模态信息特征分别进行处理;
所述多模态特征处理层包括第一模态特征处理层和第二模态特征处理层,所述第一模态特征处理层用于基于任意两种模态信息之间的关联关系对该两种模态的信息分别对应的模态信息特征进行处理,所述第二模态特征处理层用于基于任意三种模态信息之间的关联关系对该三种模态的信息分别对应的模态信息特征进行处理;
所述特征整合层用于基于处理后的单模态特征和处理后的多模态信息特征进行特征融合,获得融合特征。
9.一种电子设备,其特征在于,包括:
处理器;以及与所述处理器通信连接的存储器;
所述存储器中存储有计算机指令,所述计算机指令被计算机运行时,执行如权利要求1-7任一项所述的信息监测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时,执行如权利要求1-7任一项所述的信息监测方法。
CN202210462233.8A 2022-04-29 2022-04-29 一种信息监测方法及装置、电子设备、存储介质 Pending CN114579964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210462233.8A CN114579964A (zh) 2022-04-29 2022-04-29 一种信息监测方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210462233.8A CN114579964A (zh) 2022-04-29 2022-04-29 一种信息监测方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN114579964A true CN114579964A (zh) 2022-06-03

Family

ID=81785125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210462233.8A Pending CN114579964A (zh) 2022-04-29 2022-04-29 一种信息监测方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN114579964A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598067A (zh) * 2020-12-25 2021-04-02 中国联合网络通信集团有限公司 事件的情感分类方法、装置、电子设备及存储介质
CN112685565A (zh) * 2020-12-29 2021-04-20 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN113033610A (zh) * 2021-02-23 2021-06-25 河南科技大学 一种多模态融合敏感信息分类检测方法
CN113139532A (zh) * 2021-06-22 2021-07-20 中国地质大学(武汉) 一种基于多输出分类模型的分类方法、计算机设备及介质
CN113591902A (zh) * 2021-06-11 2021-11-02 中国科学院自动化研究所 基于多模态预训练模型的跨模态理解与生成方法和装置
CN113822224A (zh) * 2021-10-12 2021-12-21 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置
US20220092276A1 (en) * 2020-09-22 2022-03-24 Samsung Electronics Co., Ltd. Multimodal translation method, apparatus, electronic device and computer-readable storage medium

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220092276A1 (en) * 2020-09-22 2022-03-24 Samsung Electronics Co., Ltd. Multimodal translation method, apparatus, electronic device and computer-readable storage medium
CN112598067A (zh) * 2020-12-25 2021-04-02 中国联合网络通信集团有限公司 事件的情感分类方法、装置、电子设备及存储介质
CN112685565A (zh) * 2020-12-29 2021-04-20 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN113033610A (zh) * 2021-02-23 2021-06-25 河南科技大学 一种多模态融合敏感信息分类检测方法
CN113591902A (zh) * 2021-06-11 2021-11-02 中国科学院自动化研究所 基于多模态预训练模型的跨模态理解与生成方法和装置
CN113139532A (zh) * 2021-06-22 2021-07-20 中国地质大学(武汉) 一种基于多输出分类模型的分类方法、计算机设备及介质
CN113822224A (zh) * 2021-10-12 2021-12-21 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置

Similar Documents

Publication Publication Date Title
CN109241709B (zh) 基于滑块验证码验证的用户行为识别方法及装置
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
CN107085549B (zh) 故障信息生成的方法和装置
CN114143049B (zh) 异常流量检测方法、装置、存储介质以及电子设备
CN109271762B (zh) 基于滑块验证码的用户认证方法及装置
CN110881050A (zh) 安全威胁检测方法及相关产品
CN111641588A (zh) 网页模拟输入检测方法、装置、计算机设备及存储介质
CN114157568B (zh) 一种浏览器安全访问方法、装置、设备及存储介质
CN116015842A (zh) 一种基于用户访问行为的网络攻击检测方法
CN108804501B (zh) 一种检测有效信息的方法及装置
CN114297735A (zh) 数据处理方法及相关装置
CN113076961A (zh) 一种图像特征库更新方法、图像检测方法和装置
CN112685255A (zh) 一种接口监控方法、装置、电子设备及存储介质
CN107995167B (zh) 一种设备识别方法及服务器
CN111368128A (zh) 目标图片的识别方法、装置和计算机可读存储介质
CN114579964A (zh) 一种信息监测方法及装置、电子设备、存储介质
Gundelach et al. Cookiescanner: An Automated Tool for Detecting and Evaluating GDPR Consent Notices on Websites
CN115643044A (zh) 数据处理方法、装置、服务器及存储介质
CN114003784A (zh) 请求录制方法、装置、设备及存储介质
CN110401639B (zh) 网络访问的异常判定方法、装置、服务器及其存储介质
US10901726B2 (en) Intelligent visual regression system
CN110909798A (zh) 一种多算法智能研判方法、系统及服务器
KR20200031020A (ko) 수사지원정보 제공 방법 및 장치
CN113904827B (zh) 一种仿冒网站的识别方法、装置、计算机设备及介质
CN118036019B (zh) 基于代码自动检测的漏洞定位方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220603