CN115205757A - 风险识别方法、装置、设备和存储介质 - Google Patents
风险识别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN115205757A CN115205757A CN202210901535.0A CN202210901535A CN115205757A CN 115205757 A CN115205757 A CN 115205757A CN 202210901535 A CN202210901535 A CN 202210901535A CN 115205757 A CN115205757 A CN 115205757A
- Authority
- CN
- China
- Prior art keywords
- data
- risk
- feature
- information
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims description 189
- 239000013598 vector Substances 0.000 claims description 95
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000000903 blocking effect Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000001960 triggered effect Effects 0.000 claims description 2
- 239000000047 product Substances 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 239000012634 fragment Substances 0.000 description 9
- 238000012216 screening Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种风险识别方法、装置、设备和存储介质,该方法包括:获取包含关联的图像和文本数据对的待识别数据;通过检索模型的第一编码网络对待识别数据进行特征编码处理得到第一特征集;通过检索模型的第二编码网络对知识库中的多个风险信息数据进行特征编码处理得到对应的多个第二特征集。根据第一特征集与多个第二特征集的相似度从知识库中确定目标风险信息数据。以待识别数据、目标风险信息数据和预设询问语句构成分类查询数据,通过识别模型获取分类查询数据对应的分类识别结果,该结果指示待识别数据是否与目标风险信息数据匹配。通过本方案,可以实现多模态数据的准确风险识别。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种风险识别方法、装置、设备和存储介质。
背景技术
随着移动互联网的不断发展,人们可以在网络上观看到海量的数据信息,比如各种直播视频、短视频、海报、产品等的宣传画面,等等。
为了网络环境的安全,保证用户能够看到积极、健康的数据信息,需要对这些数据信息进行风险防控处理,即需要识别出这些数据信息中是否包含一些不符合规定的内容,是否包含一些负面舆情相关的内容。
发明内容
本发明实施例提供一种风险识别方法、装置、设备和存储介质,用于实现针对多模态数据信息的风险识别。
第一方面,本发明实施例提供一种风险识别方法,所述方法包括:
获取待识别数据,所述待识别数据包括关联的图像和文本数据对;
通过检索模型中的第一编码网络对所述待识别数据进行特征编码处理,得到第一特征集;
通过所述检索模型中的第二编码网络对知识库中的多个风险信息数据进行特征编码处理,得到对应的多个第二特征集,其中,一个风险信息数据中包括图像数据和文本数据;
根据所述第一特征集与所述多个第二特征集的相似度,从所述多个风险信息数据中确定相似度符合设定要求的目标风险信息数据;
将分类查询数据输入至识别模型中,以获取所述识别模型输出的分类识别结果,所述分类查询数据包括所述待识别数据、所述目标风险信息数据以及设定的询问语句,其中,所述询问语句用于询问所述待识别数据是否与所述目标风险信息数据匹配。
第二方面,本发明实施例提供一种风险识别装置,所述装置包括:
获取模块,用于获取待识别数据,所述待识别数据包括关联的图像和文本数据对;
检索模块,用于通过检索模型中的第一编码网络对所述待识别数据进行特征编码处理,得到第一特征集;通过所述检索模型中的第二编码网络对知识库中的多个风险信息数据进行特征编码处理,得到对应的多个第二特征集,其中,一个风险信息数据中包括图像数据和文本数据;根据所述第一特征集与所述多个第二特征集的相似度,从所述多个风险信息数据中确定相似度符合设定要求的目标风险信息数据;
识别模块,用于将分类查询数据输入至识别模型中,以获取所述识别模型输出的分类识别结果,所述分类查询数据包括所述待识别数据、所述目标风险信息数据以及设定的询问语句,其中,所述询问语句用于询问所述待识别数据是否与所述目标风险信息数据匹配。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如第一方面所述的风险识别方法。
第四方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的风险识别方法。
第五方面,本发明实施例提供一种风险识别方法,所述方法包括:
接收用户设备通过调用风险识别服务触发的请求,所述请求中包括待识别数据;
利用所述风险识别服务对应的处理资源执行如下步骤:
获取待识别数据,所述待识别数据包括关联的图像和文本数据对;
通过检索模型中的第一编码网络对所述待识别数据进行特征编码处理,得到第一特征集;
通过所述检索模型中的第二编码网络对知识库中的多个风险信息数据进行特征编码处理,得到对应的多个第二特征集,其中,一个风险信息数据中包括图像数据和文本数据;
根据所述第一特征集与所述多个第二特征集的相似度,从所述多个风险信息数据中确定相似度符合设定要求的目标风险信息数据;
将分类查询数据输入至识别模型中,以获取所述识别模型输出的分类识别结果,所述分类查询数据包括所述待识别数据、所述目标风险信息数据以及设定的询问语句,其中,所述询问语句用于询问所述待识别数据是否与所述目标风险信息数据匹配;
将所述分类识别结果反馈至所述用户设备。
在一些风险防控场景下,往往涉及到的数据信息是多模态的数据信息,即可能包括语音、视频、文字等模态的内容,其中,针对语音来说,可以通过自动语音识别(AutomaticSpeech Recognition,简称ASR)技术转换成对应的文本,因此,本发明实施例中主要针对图像和文本两种模态的数据信息进行风险识别处理。本发明实施例中为了实现对多模态数据信息的风险识别(即识别该数据信息中是否包含某些风险信息),需要联合使用检索模型、识别模型以及存储有若干风险信息数据的知识库,其中,检索模型中包括第一编码网络和第二编码网络,知识库中存储的一条风险信息数据也是多模态数据。首先,获取包括关联的图像和文本数据对的待识别数据,检索模型中的第一编码网络用于对当前输入的待识别数据进行特征编码处理得到第一特征集,第二编码网络用于对知识库中的多个风险信息数据进行特征编码处理,得到对应的多个第二特征集。之后,根据第一特征集与多个第二特征集的相似度,从多个风险信息数据中确定相似度符合设定要求的目标风险信息数据。之后,以待识别数据、目标风险信息数据以及设定的询问语句构成分类查询数据,输入至识别模型中,以获取识别模型输出的分类识别结果。其中,该设定的询问语句用于询问待识别数据中是否与目标风险信息数据匹配,即是否包含该目标风险信息数据中所指示的风险情形。该识别模型本质上是个分类模型。
由于知识库中存储的风险信息数据也是多模态的,能够包含更加丰富的风险相关信息,因此一个风险信息数据所对应的编码特征中包含了丰富的特征,有助于在知识库中更加准确地检索出与当前输入的待识别数据相关的目标风险信息数据,从而,基于更加准确的目标风险信息数据的检索结果以及目标风险信息数据中包含的多模态的丰富的信息内容,可以让识别模型输出更准确的识别结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种风险识别方法的流程图;
图2为本发明实施例提供的一种风险识别系统的示意图;
图3为本发明实施例提供的一种分类查询数据的组成示意图;
图4为本发明实施例提供的一种风险识别方法的应用示意图;
图5为本发明实施例提供的一种相似度确定过程的示意图;
图6为本发明实施例提供的一种风险信息数据筛选方法的流程图;
图7为本发明实施例提供的一种知识库构建方法的流程图;
图8为本发明实施例提供的一种模型预训练方法的流程图;
图9a和图9b为图8所示实施例的执行过程的示意图;
图10为本发明实施例提供的一种风险识别方法的应用示意图;
图11为本发明实施例提供的一种风险识别装置的结构示意图;
图12为本实施例提供的一种电子设备的结构示意。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
本发明实施例提供的风险识别方法可以由一电子设备来执行,该电子设备可以是PC机、笔记本电脑等终端设备,也可以是服务器,该服务器可以是云端的虚拟服务器。
图1为本发明实施例提供的一种风险识别方法的流程图,如图1所示,该方法包括如下步骤:
101、获取待识别数据,待识别数据包括关联的图像和文本数据对。
102、通过检索模型中的第一编码网络对待识别数据进行特征编码处理,得到第一特征集。
103、通过检索模型中的第二编码网络对知识库中的多个风险信息数据进行特征编码处理,得到对应的多个第二特征集,其中,一个风险信息数据中包括图像数据和文本数据。
104、根据第一特征集与多个第二特征集的相似度,从多个风险信息数据中确定相似度符合设定要求的目标风险信息数据。
105、将分类查询数据输入至识别模型中,以获取识别模型输出的分类识别结果,分类查询数据包括待识别数据、目标风险信息数据以及设定的询问语句构成,该询问语句用于询问待识别数据是否与目标风险信息数据匹配。
本发明实施例提供的风险识别方法,可以适用于电商、直播等应用场景中,比如可以对直播视频中的人物、产品等进行风险识别,以确定其中是否包含设定的风险信息,比如对商家上传的产品信息进行风险识别,以确定其中是否包含设定的风险信息。
风险信息,一般可以涉及如下的两种情形:一种是违反法律法规等规定的情形,一种是与具有权限的信息发布平台发布的风险舆情相关。
举例来说,假设某条风险舆情信息是:艺人郑某某因某事件被认定为是劣迹艺人,不应该再出现在公众视野内。而如果某直播视频中的主播恰好是该艺人,或者该直播视频中推荐的某产品是该艺人代言的,而认为该直播视频中存在与这条风险舆情信息相匹配的风险。
再比如,假设质量检测部门检测发现某款产品中含有超标的有害物质,不应该再向消费者售卖。而某商家发布的产品信息恰好是这款产品,则认为该产品信息存在对应的风险情形。
在实际应用场景中,在网络上发布的数据可能是视频数据、语音数据、文本数据、图像数据等多种模态的数据,比如在直播等场景下,往往使用的是视频、语音数据,电商场景下,一般也会使用到图像、文本、视频数据。有鉴于此,本发明实施例提供了一种面对多模态数据进行风险识别的方案。由于视频中实际包含了若干帧图像,而语音数据也可以通过ASR技术转换为对应的文本数据,因此,本发明实施例中,主要以图像和文本数据这两种模态进行说明。
以视频应用场景(比如直播视频)为例,实际应用中,以当前需要进行风险识别的视频称为目标视频,如果目标视频的时长过大(比如大于设定的3分钟阈值),则可以以设定时间步长(比如1分钟)对目标视频进行分段,得到多个视频片段,针对每个视频片段进行风险识别处理,以确定各视频片段是否与某种风险信息匹配,从而完成目标视频的风险识别处理。若其中任一视频片段与某种风险信息匹配,则认为该目标视频与该风险信息匹配。此时,上述待识别数据即对应于各个视频片段。具体地,以任一视频片段来说,将该视频片段对应的语音数据进行ASR处理,得到对应的文本数据,另外,可以从该视频片段内包含的多帧图像中确定一帧图像,作为这段视频对应的图像数据,由该图像数据以及文本数据构成待识别数据。可选地,可以随机从这多帧图像中确定一帧图像,也可以采用其他策略确定一帧图像(比如第一帧、最后一帧、中心一帧,等)。
可以理解的是,在上述举例场景中,该图像数据与文本数据这一对数据的关联性体现为二者是对应于同一段视频的。
需要说明的是,在上述视频应用场景中,当目标视频中包含多个视频片段时,不同视频片段中提取的图像帧之间的相似度低于设定阈值。也就是说,假设在视频片段i中确定了一帧图像x作为其对应的待识别数据中的图像数据,在视频片段j中确定了一帧图像y作为其对应的待识别数据中的图像数据,则图像x与图像y之间的相似度应小于设定阈值。其中,两帧图像之间的相似度的确定算法可以参考现有相关技术实现,在此不赘述。基于不同视频片段之间图像数据的相似度的约束,可以保证不同视频片段中提取出的图像数据有明显差异,从而为充分地发现目标视频中存在的风险信息提供了前提保证,即有助于更加准确地确定目标视频中存在的风险信息。
再以电商应用场景为例,商家上传到电商服务器中的商品介绍信息中可以包括商品图像以及商品描述信息,商品描述信息是文本数据,可以将该商品图像以及商品描述信息作为待识别数据。此时,待识别数据中的图像数据与文本数据这一对数据的关联性体现为二者是对应于同一商品的。可以理解的是,若商家上传了对应于同一商品的多张商品图像,则可以从中确定一张作为待识别数据中的图像数据。
在得到待识别数据之后,便可以对该待识别数据进行风险识别处理。为了实现风险识别处理,如图2中所示,本发明实施例中使用了两种网络模型:检索模型和识别模型,另外,还引入了包含多个风险信息数据的知识库。其中,风险信息数据也是多模态的,即一个风险信息数据中可以包括图像数据和文本数据。
下面先简单介绍知识库的构建方式,之后再介绍基于该知识库进行风险识别的处理过程。
为便于描述,本发明实施例中将风险信息的初始来源称为风险信息发布方,实际应用中,该风险信息发布方比如是具有权限的信息发布平台。并且,将风险信息发布方初始发布的风险信息称为风险简述信息(或者称为风险主体信息),因为初始发布的风险信息中往往仅是简明地描述出一种风险情形。比如在上述举例中的风险简述信息是:艺人郑某某因某事件被认定为是劣迹艺人,不应该再出现在公众视野内。风险简述信息中可以仅包括文本数据,也可以包括图像数据。
为了丰富风险信息,在得到一条风险简述信息后,可以从外部信息源搜索与该风险简述信息相关的风险补充信息,以得到由该风险简述信息和风险补充信息构成的一个风险信息数据,存入知识库。
仍以上述举例来说,可以在外部信息源中搜索艺人郑某某的照片,曾经代言的各种产品,曾经参与的各种影视作品等等内容的相关信息,作为风险补充信息。风险补充信息中可以包括文本数据、图像数据等模态的数据内容。外部信息源可以包括各种网站、公众号等。
另外,为了及时更新知识库,还可以定期(比如每日、每周)针对各风险简述信息进行风险补充信息的更新,以及时发现新的风险补充信息,合并到相应的一个风险信息数据中。另外,针对无效的风险信息数据,及时进行删除。实际应用中,一个风险信息数据是否无效,由风险信息发布方决定,当风险信息发布方针对此前发布的一个风险简述信息通知其无效时,与该风险简述信息对应的风险信息数据被认为是无效的,进行删除。
综上,通过由外部信息源补充风险信息,以及不断更新一个风险信息数据,可以保证知识库中存储的各个风险信息数据的内容丰富性和时效性,从而有助于更加准确地确定待识别数据中存在的风险信息。
在得到知识库中包含的多个风险信息数据后,可以基于该知识库,以及检索模型和识别模型完成针对待识别数据的风险识别处理。
概括来说,首先通过检索模型,在知识库中检索出与待识别数据相关的目标风险信息数据,然后,将检索出的目标风险信息数据、待识别数据以及设定的询问语句构成的分类查询数据输入到识别模型中,识别模型输出分类识别结果。该分类识别结果表示待识别数据是否与目标风险信息数据匹配,即是否包含目标风险信息数据所对应的风险情形,比如是否包含上述劣迹艺人或该劣迹艺人相关的信息。
如图2中所示,检索模型中包括第一编码网络、第二编码网络,识别模型中包括第三编码网络和分类器。其中,第一编码网络用于对待识别数据中的图像数据和文本数据进行特征编码,因此,第一编码网络中可以包括图像编码器和文本编码器(图中示意的image-encoderA1,text-encoderB1)。第二编码网络用于对知识库中每个风险信息数据中的图像数据和文本数据进行特征编码,因此,第二编码网络中可以包括图像编码器和文本编码器(图中示意的image-encoderA2,text-encoderB2)。第三编码网络中同样可以包括图像编码器和文本编码器(图中示意的image-encoderA3,text-encoderB3)。
具体来说,为了完成对待识别数据的特征编码,首先,对待识别数据中的图像数据进行分块处理,得到多个图像块(为区别,称为多个第一图像块),对待识别数据中的文本数据进行分词处理,得到多个词语(为区别,称为多个第一词语)。之后,通过第一编码网络分别对多个第一图像块和多个第一词语进行特征编码处理,以得到第一特征集,第一特征集中包括多个第一图像块分别对应的编码向量和多个第一词语分别对应的编码向量。
具体地,通过image-encoderA1对多个第一图像块进行特征编码,得到多个第一图像块各自对应的编码向量。通过text-encoderB1对多个第一词语进行特征编码,得到多个第一词语各自对应的编码向量。
实际应用中,先对上述图像数据可以先进行一些预处理,比如将图像数据先缩放为预设尺寸大小,之后,按照检索模型所要求的输入图像块尺寸对图像数据进行分割,得到多个第一图像块。对文本数据的分词处理,可选地,可以以字为单位,确定文本数据中包含的每个字作为多个第一词语。另外,针对每个图像块、词语,可以先将其映射到数字空间(比如通过embedding等方式实现该映射),之后,输入第一编码网络。
针对知识库中的各个风险信息数据的特征编码过程与之相似:针对任一风险信息数据k,对风险信息数据k中的图像数据进行分块处理,得到多个第二图像块;对风险信息数据k中的文本数据进行分词处理,得到多个第二词语;通过第二编码网络分别对多个第二图像块和多个第二词语进行特征编码处理,以得到第二特征集,第二特征集中包括多个第二图像块分别对应的编码向量和多个第二词语分别对应的编码向量,该第二特征集与风险信息数据k对应。对每个风险信息数据都进行上述特征编码处理,便可以得到与多个风险信息数据对应的多个第二特征集。
在得到每个风险信息数据对应的第二特征集后,可以根据待识别数据对应的第一特征集与各个第二特征集之间的相似度,从多个风险信息数据中确定相似度符合设定要求的目标风险信息数据。相似度的确定过程将在下文进行说明。
然后,以待识别数据、目标风险信息数据以及设定的询问语句构成分类查询数据,输入至识别模型中,其中,询问语句用于询问待识别数据是否与目标风险信息数据匹配。
由于待识别数据、目标风险信息数据中包含图像、文本两种模态的数据,因此,如图2中所示,识别模型中的第三编码网络中包括用于对图像、文本数据进行特征编码的图像编码器和文本编码器。
其中,在生成上述分类查询数据的过程中,针对待识别数据和目标风险信息数据,可以进行上述的图像块分割、文本数据分词处理,之后按照设定的格式,拼接为分类查询数据。
为便于理解,结合图3来示例性说明。
在图3中,假设该分类查询数据中包括如下几个标识字符:用于表示分类询问数据的起止位置的字符<BOS>、<EOS>,用于表示设定的询问语句和待识别数据位置的标识符:Question,用于表示目标风险信息数据位置的标识符:Policy。其中,标识符Policy后面包含的内容为目标风险信息数据(即该数据对应的多个图像块和多个词语);标识符Question后面包含的内容为设定的询问语句以及待识别数据(即该数据对应的多个图像块和多个词语)。在图3中,假设该询问语句为:该视频是否存在风险情形?或者,该询问语句也可以是:该视频是否存在Policy中指示的风险情形?
将上述分类查询数据输入识别模型的第三编码网络,第三编码网络输出对应的编码向量,该编码向量输入到分类器中,分类器便可以输出是或否的识别结果,其中,是,表示待识别数据中包含目标风险信息数据所对应的风险,即与目标风险信息数据匹配,反之为否。
图4中示意了直播服务器对直播视频进行风险识别处理的过程。如图中所示,直播服务器在接收到主播上传的直播视频后,每1分钟截取出一个视频片段,从中采样出一帧图像数据,并将对应的语音数据转换为文本数据,以生成一个待识别数据,结合检索模型、知识库中存储的多个风险信息数据、识别模型,完成待识别数据中是否包含某种风险信息的识别处理。
下面结合图5所示实施例,介绍一种确定第一特征集与各第二特征集的相似度的可选实现方式。
在图5中,为便于理解,假设输入第一编码网络的多个第一图像块表示为QI1、QI2、QI3,多个第一词语表示为QT1、QT2、QT3,第一编码网络输出的编码向量分别表示为:C1-C6,与输入一一对应。
假设针对任一风险信息数据k,输入第二编码网络的多个第二图像块表示为DI1、DI2、DI3,多个第二词语表示为DT1、DT2、DT3,第二编码网络输出的编码向量分别表示为:D1-D6。
以编码向量C1为例,可以分别计算与编码向量D1-D6之间的相似度,比如可以以两个向量之间的欧式距离、余弦距离等作为相似度。之后,从得到的6个相似度中可以取出max值,假设此时取出的max值表示为M1。在图5中上述计算过程表示为:maxsim。针对编码向量C2-C6分别进行上述处理,得到对应的max值分别表示为:M2-M6。之后,对M1-M6进行求和处理,将得到的相似度总数(即求和结果)作为待识别数据与风险信息数据k之间的相似度,亦即待识别数据所对应的第一特征集与风险信息数据k对应的第二特征集之间的相似度。
针对每个风险信息数据都进行上述处理,便可以得到待识别数据分别与各个风险信息数据之间的相似度,之后,可以从中确定相似度符合设定要求的风险信息数据作为目标风险信息数据,比如,相似度大于设定阈值,或者相似度排在靠前的设定数量。
除上述第一特征集与多个第二特征集的相似度的计算方式外,本发明实施例还提供另一种可选地相似度计算方式,如图6中所示。
图6为本发明实施例提供的一种风险信息数据筛选方法的流程图,如图6所示,该方法包括如下步骤:
601、针对第一特征集中的任一编码向量,分别确定与多个第二特征集中各编码向量之间的相似度。
602、从多个第二特征集中确定与所述任一编码向量之间的相似度符合设定条件的相似编码向量,以得到相似编码向量集,相似编码向量集包括第一特征集中各编码向量在多个第二特征集中对应的相似编码向量。
603、根据第二特征集中各编码向量与多个风险信息数据之间的对应关系,确定相似编码向量集中各相似编码向量所对应的风险信息数据作为多个候选风险信息数据。
604、根据第一特征集与多个候选风险信息数据对应的第二特征集之间的相似度,从多个候选风险信息数据中确定相似度符合设定要求的目标风险信息数据。
本实施例中,将多个风险信息数据对应的多个第二特征集视为一个整体(为便于描述,称为目标特征集),假设目标特征集中一共包括N个编码向量。以第一特征集中的任一编码向量x为例,分别计算编码向量x与这N个编码向量之间的相似度,从中确定出相似度为topk的k个编码向量,作为与编码向量x对应的k个相似编码向量,其中,k为设定数量,比如为5个。或者,从中确定出相似度大于设定阈值的多个编码向量作为与编码向量x对应的多个相似编码向量。
针对第一特征集中的每个编码向量都进行上述处理,可以得到其中每个编码向量在目标特征集对应的多个相似编码向量,将由全部相似编码向量构成的集合称为相似编码向量集。
实际应用中,在生成每个第二特征集的过程中,可以标记上一个第二特征集中的每个编码向量与对应的风险信息数据之间的对应关系。基于此,可以确定相似编码向量集中各个相似编码向量对应的风险信息数据作为多个候选风险信息数据。
然后,根据第一特征集与多个候选风险信息数据对应的第二特征集之间的相似度,从多个候选风险信息数据中确定相似度符合设定要求的目标风险信息数据。
具体地,与图5所示实施例相似,以第一特征集中的任一编码向量x以及多个候选风险信息数据中的任一候选风险信息数据z为例,先分别确定编码向量x与候选风险信息数据z对应的第二特征集中各编码向量之间的相似度,从中确定与编码向量x对应的目标相似度,如相似度max值。针对第一特征集中的每个编码向量都进行其对应的相似度max值的确定处理。之后,根据第一特征集中各编码向量对应的相似度max值,确定第一特征集与候选风险信息数据z对应的第二特征集之间的相似度总数。
针对每个候选风险信息数据,都进行与待识别数据所对应的第一特征集之间的相似度总数的确定处理。最终,确定相似度总数大于设定阈值的第二特征集所对应的候选风险信息数据为待识别数据对应的目标风险信息数据。
需要说明的是,在图5、图6所示的目标风险信息数据的确定过程中,为降低待识别数据的风险识别过程的处理时间,各个风险信息数据所对应的第二特征集,可以是离线预先生成并保存下来的。可以理解的是,响应于知识库中风险信息数据的更新(比如新增、修改),相应的第二特征集也会更新。相比于图5所示实施例,图6所示实施例提供的计算过程,可以降低计算量,提高计算效率。
前述实施例中仅对知识库的构建过程进行了简单介绍,下面结合图7所示实施例对该构建知识库的过程进行详细说明。
图7为本发明实施例提供的一种知识库构建方法的流程图,如图7中所示,可以包括如下步骤:
701、通过第二编码网络对风险简述信息进行特征编码,以得到对应的第三特征集。
702、针对外部信息源中的目标外部信息,通过第二编码网络对目标外部信息进行特征编码,以得到对应的第四特征集。
703、根据第三特征集与第四特征集的相似度,确定目标外部信息与风险简述信息相关。
704、从目标外部信息中确定与风险简述信息相关的目标信息片段,作为与风险简述信息相关的风险补充信息,以得到由风险简述信息和风险补充信息构成的风险信息数据,存入知识库。
如前文所述,针对具有权限的信息发布平台发布的一条风险简述信息,可以在设定的多个外部信息源中搜索与之相关的风险补充信息。在搜索过程中,针对任意外部信息源,可以先设定信息筛选范围。比如设定信息筛选的时间范围、信息对应的类目范围,等等。比如设置搜索的时间范围为接收到风险简述信息此前一年范围,比如设置的信息类目范围包括娱乐、新闻类目。针对落入该筛选范围中的任意一条外部信息(称为目标外部信息)以及风险简述信息,可以分别通过上述第二编码网络进行特征编码处理,得到风险简述信息对应的第三特征集以及目标外部信息对应的第四特征集。之后确定第三特征集与第四特征集的相似度,确定方法可以参考前述图5所示实施例(此时可以将第三特征集理解为与上述第一特征集对应),在此不赘述。
可以预先设置一个相似度阈值,如果第三特征集与第四特征集之间的相似度大于该阈值,则确定目标外部信息与风险简述信息相关。基于该过程,可以从外部信息源中获得多个相似度符合该条件的外部信息,分别作为目标外部信息。
之后,可以从目标外部信息中确定与风险简述信息相关的目标信息片段,作为与风险简述信息相关的风险补充信息。具体地,可以使用现有的某个检索模型W(与本申请中的检索模型不同)实现该目标信息片段的确定。检索模型W的输入为风险简述信息以及目标外部信息,检索模型W用于从目标外部信息中确定与风险简述信息相关的信息片段的起止位置。从而,基于该起止位置,可以确定对应的信息片段为目标信息片段。在该实施例中,风险简述信息相当于是一个查询信息,检索模型W从目标外部信息中检索出与该查询信息相关的内容的起止位置。
通过从目标外部信息中选定目标信息片段来补充风险信息,一方面可以保证知识库中风险信息数据的丰富性,另一方面也避免在知识库中合并入完整的目标外部信息导致的信息冗余性,从而可以降低后续处理的计算复杂度。
另外,如前文所述,知识库中的风险信息数据可以定期更新。在更新过程中,针对上述风险简述信息,首先,仍旧可以从外部信息源中获取与其相似度大于设定阈值的外部信息B,只是,需要说明的是,为了避免知识库中同一风险简述信息相关的风险补充信息的重复性,外部信息B与此前获得的目标外部信息不同。
假设在某次更新过程中,针对上述风险简述信息获取到的一个新的外部信息B,之后,在外部信息B中确定出与风险简述信息相关的一个信息片段x。另外,在通过第二编码网络得到外部信息B对应的特征集后,可以从该特征集中获取与信息片段x对应的多个编码向量。之后,将这多个编码向量作为与信息片段x对应的子特征集,将该子特征集与此前已经获得的与风险简述信息相关的各目标信息片段分别对应的子特征集进行相似度计算,若信息片段x每个目标信息片段对应的子特征集之间的相似度均低于设定阈值,则确定信息片段x是与该风险简述信息相关的一个新的信息片段,补充到该风险简述信息所对应的那条风险信息数据中。
通过上述知识库的构建过程,可以保证知识库中能够及时地更新获得丰富的、有效的风险信息,避免信息冗余。
通过以上各实施例介绍了检索模型、识别模型的使用过程,下面对模型的训练过程进行说明。
在本发明实施例中,针对检索模型、识别模型的训练,采样预训练的方式。
概括来说,先对由文本编码网络(text-encoder)和图像编码网络(image-encoder)构成的基础模型进行预训练,之后,以预训练后的基础模型初始化检索模型中的第一编码网络、第二编码网络以及识别模型中的第三编码网络。获取检索模型对应的第一训练数据以及识别模型对应的第二训练数据,根据第一训练数据对初始化的检索模型进行训练,以及根据第二训练数据对初始化的识别模型进行训练。
为便于理解,将上述训练过程表示为:
将初始化的文本编码网络和图像编码网络构成基础模型M0,使用相应的训练数据对基础模型MO进行训练,得到满足截止条件的基础模型M1。
假设初始的检索模型表示为Q0,此时,检索模型Q0中包括的第一编码网络和第二编码网络都为基础模型M1。之后,获取检索模型对应的训练数据,对检索模型Q0进行训练,得到满足截止条件的检索模型Q1。
类似地,假设初始的识别模型表示为H0,此时,识别模型H0中包括的第三编码网络为基础模型M1。之后,获取识别模型对应的训练数据,对识别模型H0进行训练,得到满足截止条件的检索模型H1。
结合上述举例可知,以经过预训练的基础模型M1来初始化检索模型和识别模型中的各编码网络,可以让检索模型、识别模型获得更优的初始化模型参数,对于提高检索模型、识别模型的训练效率和模型性能。
针对检索模型的训练,简单来说就是:获取由图文对构成的训练样本,并收集大量的知识数据(每个知识数据中也包含图像、文本两种模态的内容),该知识数据可以是在各种信息源中采集的。针对一个训练样本,可以标记出与其相关的知识数据作为监督信息,对检索模型进行训练。需要说明的是,检索模型的训练过程中所使用的训练数据、知识数据都是与风控场景相关的,即与检索模型后续被用于的使用场景相关。
针对识别模型的训练,简单来说就是:可以将上述图像对构成的训练样本,以及与其相关的知识数据构成一个分类查询样本(正样本),标记上用于表明该训练样本是否与知识数据相关的类别标签,对识别模型进行训练。
下面介绍对上述基础模型的预训练过程。
图8为本发明实施例提供的一种模型预训练方法的流程图,如图8中所示,可以包括如下步骤:
801、获取第一预训练任务对应的第三训练数据,第三训练数据中包括由相关的训练图像和训练文本构成的正例样本对,以及由不相关的训练图像和训练文本构成的负例样本对。
本实施例中,针对基础模型M0的预训练,使用了两个训练任务:第一预训练任务、第二预训练任务。
本实施例中,第三训练数据并非是指一条训练数据,而是泛指若干训练数据。其中,训练图像与训练文本之间的“相关性”即为上文中待识别数据中图像数据与文本数据之间的关联性的含义。可以在各种信息源中获取相关的图像数据和文本数据构成一个正例样本对。对于负例样本对,可以通过如下方式生成:从一个正例样本对中采集一个训练图像,从另一个正例样本对中采集一个训练文本,由这个训练图像和训练文本可以构成一个负例样本对。
802、通过基础模型分别提取各训练文本和各训练图像的特征信息,以使得正例样本对中训练图像对应的特征信息与训练文本对应的特征信息之间的相似度高于第一阈值,负例样本对中训练图像对应的特征信息与训练文本对应的特征信息之间的相似度低于第二阈值为目标,训练基础模型。
为便于理解,结合图9a示意第一预训练任务下基础模型的训练过程。
如图9a中所示,基础模型由文本编码网络(text-encoder)和图像编码网络(image-encoder)构成。
以一个正例样本对中的训练图像image1和训练文本text1为例,训练图像image1和训练文本text1分别输入到图像编码网络和文本编码网络后,输出对应的特征信息fi1和ft1,之后,计算这两个特征信息之间的相似度,假设为S1。该相似度可以通过某种距离来度量。
以一个负例样本对中的训练图像image2和训练文本text2为例,训练图像image2和训练文本text2分别输入到图像编码网络和文本编码网络后,输出对应的特征信息fi2和ft2,之后,计算这两个特征信息之间的相似度,假设为S2。
以使得相似度S1大于第一阈值,相似度S2小于第二阈值,调整基础模型的参数。假设上述第一阈值为0.9,第二阈值为0.2。
803、获取第二预训练任务对应的第四训练数据,第四训练数据中包括由相关的查询数据和知识数据构成的正例样本对,以及由不相关的查询数据和知识数据构成的负例样本对,其中,查询数据中包含训练图像和训练文本,知识数据中包含训练图像和训练文本。
本实施例中,第四训练数据并非是指一条训练数据,而是泛指若干训练数据。其中,查询数据和知识数据之间的“相关性”类似于上文中待识别数据与目标风险信息数据之间的相似性,简单来说就是:若在某知识数据中存在与查询数据相关的内容,则认为该知识数据与该查询数据是相关的。比如,查询数据用于查询某商品的主要成分,与其相关的知识数据中包含这些主要成分。本实施例中,查询数据和知识数据都是多模态的,都包含图像数据和文本数据。第四训练数据中可以包括风控场景中已经收集到的查询数据与知识数据(风险信息数据)形成的样本对,也可以包括其他场景中可以收集到的查询数据与知识数据形成的样本对。
实际应用中,可以收集若干对正例样本对,之后,通过打乱正例样本对中查询数据与知识数据的组合,形成若干对负例样本对。
804、通过基础模型分别提取各训练文本和各训练图像的特征信息,并将属于同一查询数据中的训练图像和训练文本的特征信息进行拼接以得到同一查询数据对应的综合特征信息,将属于同一知识数据中的训练图像和训练文本的特征信息进行拼接以得到同一知识数据对应的综合特征信息。
805、以使得正例样本对中查询数据对应的综合特征信息与知识数据对应的综合特征信息之间的相似度高于第三阈值,负例样本对中查询数据对应的综合特征信息与知识数据对应的综合特征信息之间的相似度低于第四阈值为目标,训练基础模型。
为便于理解,结合图9b示意第二预训练任务下基础模型的训练过程。
假设一个正例样本对中,查询数据中包括训练图像image3和训练文本text3,知识数据中包括训练图像image4和训练文本text4,如图9b中所示,训练图像image3和训练文本text3分别输入到图像编码网络和文本编码网络后,输出对应的特征信息fi3和ft3,将这两个特征信息拼接在一起,形成综合特征信息F1。类似地,训练图像image4和训练文本text4分别输入到图像编码网络和文本编码网络后,输出对应的特征信息fi4和ft4,将这两个特征信息拼接在一起,形成综合特征信息F2。之后,计算综合特征信息F1与F2之间的相似度,假设为S3。针对一个负例样本对,进行类似地处理,假设得到的综合特征信息之间的相似度为S4,则以使得相似度S3大于第三阈值,相似度S4小于第四阈值,调整基础模型的参数。假设上述第三阈值为0.9,第四阈值为0.2。
在另一可选实施例中,为了提高基础模型的性能,针对第二预训练任务下对基础模型的训练过程,可以细分为几个阶段:
第一阶段,对应于上述步骤803-805,将此时满足设定训练截止条件(比如模型精度达到设定值,比如迭代次数达到设定次数,等等)的基础模型称为MD0。并且,将此时使用的训练集称为DL,训练集DL即由上述若干第四训练数据构成,训练集DL中每个样本对是有标签的,即标注有是否为正例样本对。
第二阶段,引入一个额外的模型,称为辅助模型,表示为模型MC,该模型MC的结构可以采用诸如Transform架构中的编码器的结构。该模型MC对应的训练集仍为训练集DL,可以将一个样本对中的查询数据和知识数据拼接在一起输入到模型MC中,模型MC输出该查询数据和知识数据的相似度,仍旧以使得正例样本对所对应的相似度高于设定阈值,负例样本对所对应的相似度低于设定阈值为目标,训练模型MC。
上述第一阶段和第二阶段可以同时执行,没有先后顺序的限定。
第三阶段,基于训练好的基础模型MD0和模型MC,得到训练集DL中每个样本对所对应的相似度,其中,基于训练好的基础模型MD0确定每个样本对对应的相似度的过程可以参考上文804-805所述。由于训练集DL中,对于同一查询数据,会存在与之对应的多个样本对,其中包括至少一个正例样本对以及多个负例样本对,基于上述相似度的计算结果,可以获得基于训练好的基础模型MD0得到的与多个负例样本对对应的相似度(称为相似度a),以及基于训练好的模型MC获取与多个负例样本对对应的相似度(称为相似度b)。举例来说,针对查询数据q1,分别可以与如下多个知识数据形成多个负例样本对:知识数据d1、知识数据d2、…、知识数据dm。将这几个负例样本对分别输入到训练好的基础模型MD0和模型MC,可以得到对应于该基础模型MD0的如下多个相似度:相似度a1、相似度a2、…、相似度am,以及得到模型MC输出的如下多个相似度:相似度b1、相似度b2、…、相似度bm。
之后,对于同一查询数据所对应的多个负例样本对,按照对应的相似度a进行由大到小的排序,以从中筛选出排序靠前的设定数量(假设为K)的负例样本对。只是在筛选过程中,模型MC输出的多个相似度的作用为:去噪。具体来说,针对排序靠前的某个负例样本对来说,如果模型MC输出的这个负例样本对所对应的相似度低于设定阈值,则剔除该负例样本对。这样,在模型MC输出的相似度的去噪作用下,筛选出K个负例样本对(实际应用中,若不足K,则以实际数量为准)。
以训练集DL中原本包含的多个正例样本对,以及通过上述筛选过程筛选出的各个负例样本对,形成新的训练集DL’。之后,以训练集DL’对基础模型MD0进行训练,得到基础模型MD1。
第四阶段,获取多个新的查询数据添加到训练集DU中,针对任意新的查询数据q2,从已有的知识数据库中分别选定多个知识数据,分别与该查询数据q2形成样本对,从而得到与该查询数据q2对应的多个样本对。为便于理解,假设查询数据q2与某个知识数据形成的样本对表示为样本对x,则可以将样本对x分别输入到基础模型MD1和模型MC中,基于基础模型MD1的输出可以得到样本对x对应的相似度s1x,并可以获得模型MC输出的该样本对x对应的相似度s2x。
针对上述与查询数据q2对应的多个样本对,需要确定对应的标签信息,即每个样本对打上是正例样本对还是负例样本对的标签。确定标签的过程是:对多个样本对,按照基于基础模型MD1的输出计算得到的多个相似度进行排序(相似度由大到小排序),确定排序最靠前的样本对为正例样本对,其他样本对为负例样本对。
另外,可选地,在该确定标签的过程中,可以使用模型MC输出的多个相似度进行去噪处理。比如,如果排序最靠前的样本对,在模型MC下对应的相似度高于设定值,则确定该样本对确实为正例样本对,否则,确定该样本对不是正例样本对,若排下一位的样本对在模型MC下对应的相似度高于该设定值,则确定该排下一位的样本对为正例样本对。在确定出一个正例样本对之后,对于剩余的样本对,如果某个样本对在模型MC下对应的相似度高于设定值,则将该样本对删除。
这样,针对训练集DU中的每个查询数据,可以得到与之对应的一个正例样本对以及多个负例样本对。之后,可以使用训练集DL以及训练集DU对基础模型MD1继续进行训练,得到基础模型MD2。
在实际应用中,第四阶段为可选执行的,即上文中所说的基础模型M1可以是训练好的基础模型MD1,也可以是训练出的基础模型MD2。
在上述预训练过程中,辅助模型MC将查询数据和知识数据拼接为一个整体,可以更为充分地学习到查询数据与知识数据之间的关联特征。而且在第三阶段中通过对负例样本对的筛选,可以筛选出更不容易区分的负例样本对(或者说更难学习的负例样本对),以得到增强后的训练集DL’,据此对基础模型进行训练可以提高模型的学习能力。在第四阶段,实现了对训练集的扩展。
如上文所述,本发明实施例提供的风险识别方法可以在云端来执行,在云端可以部署有若干计算节点(云服务器),每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供某种服务,当然,一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口,用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包(Software Development Kit,简称SDK)、应用程序接口(Application Programming Interface,简称API)等形式。
针对本发明实施例提供的方案,云端可以提供有风险识别服务的服务接口,用户通过用户设备调用该服务接口,以向云端触发风险识别请求,该请求中包括待识别数据。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行如下步骤:
获取待识别数据,所述待识别数据由关联的图像和文本数据对构成;
通过检索模型中的第一编码网络对所述待识别数据进行特征编码处理,得到第一特征集;
通过所述检索模型中的第二编码网络对知识库中的多个风险信息数据进行特征编码处理,得到对应的多个第二特征集,其中,一个风险信息数据中包括图像数据和文本数据;
根据所述第一特征集与所述多个第二特征集的相似度,从所述多个风险信息数据中确定相似度符合设定要求的目标风险信息数据;
以所述待识别数据、所述目标风险信息数据以及设定的询问语句构成分类查询数据,输入至识别模型中,以获取所述识别模型输出的分类识别结果,所述询问语句用于询问所述待识别数据是否与所述目标风险信息数据匹配;
将所述分类识别结果反馈至所述用户设备。
上述执行过程可以参考前述其他实施例中的相关说明,在此不赘述。
为便于理解,结合图10来示例性说明。用户可以通过图10中示意的用户设备E1调用风险识别服务,以上传包含待识别数据的服务请求。在云端,如图中所示,假设由服务集群E2提供风险识别服务,服务集群E2中包括至少一个计算节点。服务集群E2收到该请求后,执行前述实施例中所述的步骤,以得到针对待识别数据中是否包含目标风险信息数据的分类识别结果,将该分类识别结果发送给用户设备E1。
以下将详细描述本发明的一个或多个实施例的风险识别装置。本领域技术人员可以理解,这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图11为本发明实施例提供的一种风险识别装置的结构示意图,如图11所示,该装置包括:获取模块11、检索模块12、识别模块13。
获取模块11,用于获取待识别数据,所述待识别数据包括关联的图像和文本数据对。
检索模块12,用于通过检索模型中的第一编码网络对所述待识别数据进行特征编码处理,得到第一特征集;通过所述检索模型中的第二编码网络对知识库中的多个风险信息数据进行特征编码处理,得到对应的多个第二特征集,其中,一个风险信息数据中包括图像数据和文本数据;根据所述第一特征集与所述多个第二特征集的相似度,从所述多个风险信息数据中确定相似度符合设定要求的目标风险信息数据。
识别模块13,用于将分类查询数据输入至识别模型中,以获取所述识别模型输出的分类识别结果,所述分类查询数据包括所述待识别数据、所述目标风险信息数据以及设定的询问语句,其中,所述询问语句用于询问所述待识别数据是否与所述目标风险信息数据匹配。
可选地,所述获取模块11具体用于:从目标视频中分别截取多个视频片段;将在目标视频片段中提取出的图像帧以及所述目标视频片段的语音转换后的文本,作为所述目标视频片段对应的待识别数据;其中,不同视频片段中提取的图像帧之间的相似度低于设定阈值,所述目标视频片段为所述多个视频片段中任一个。
可选地,所述检索模块12具体用于:对所述待识别数据中的图像数据进行分块处理,得到多个第一图像块;对所述待识别数据中的文本数据进行分词处理,得到多个第一词语;通过所述第一编码网络分别对所述多个第一图像块和所述多个第一词语进行特征编码处理,以得到第一特征集,所述第一特征集中包括所述多个第一图像块分别对应的编码向量和所述多个第一词语分别对应的编码向量。
可选地,所述检索模块12具体用于:针对任一风险信息数据,对所述任一风险信息数据中的图像数据进行分块处理,得到多个第二图像块;对所述任一风险信息数据中的文本数据进行分词处理,得到多个第二词语;通过所述第二编码网络分别对所述多个第二图像块和所述多个第二词语进行特征编码处理,以得到第二特征集,所述第二特征集中包括所述多个第二图像块分别对应的编码向量和所述多个第二词语分别对应的编码向量。
可选地,所述检索模块12具体用于:针对所述第一特征集中的任一编码向量,分别确定与所述多个第二特征集中各编码向量之间的相似度;从所述多个第二特征集中确定与所述任一编码向量之间的所述相似度符合设定条件的相似编码向量,以得到相似编码向量集,所述相似编码向量集包括所述第一特征集中各编码向量在所述多个第二特征集中对应的相似编码向量;根据所述第二特征集中各编码向量与所述多个风险信息数据之间的对应关系,确定所述相似编码向量集中各相似编码向量所对应的风险信息数据作为多个候选风险信息数据;根据所述第一特征集与所述多个候选风险信息数据对应的第二特征集之间的相似度,从所述多个候选风险信息数据中确定相似度符合设定要求的目标风险信息数据。
可选地,所述检索模块12具体用于:针对所述第一特征集中的任一编码向量以及所述多个候选风险信息数据中的任一候选风险信息数据,分别确定所述任一编码向量与所述任一候选风险信息数据对应的第二特征集中各编码向量之间的相似度;确定与所述任一编码向量对应的目标相似度;根据所述第一特征集中各编码向量对应的目标相似度,确定所述第一特征集与所述任一候选风险信息数据对应的第二特征集之间的相似度总数;根据所述第一特征集分别与所述多个候选风险信息数据对应的第二特征集之间的相似度总数,确定相似度总数大于设定阈值的第二特征集所对应的候选风险信息数据为所述目标风险信息数据。
可选地,所述装置还包括:知识生成模块,用于若接收到新的风险简述信息,则从外部信息源搜索与所述风险简述信息相关的风险补充信息,以得到由所述风险简述信息和所述风险补充信息构成的风险信息数据,存入所述知识库。
可选地,所述知识生成模块具体用于:通过所述第二编码网络对所述风险简述信息进行特征编码,以得到对应的第三特征集;针对所述外部信息源中的目标外部信息,通过所述第二编码网络对所述目标外部信息进行特征编码,以得到对应的第四特征集;根据所述第三特征集与所述第四特征集的相似度,确定所述目标外部信息与所述风险简述信息相关;从所述目标外部信息中确定与所述风险简述信息相关的目标信息片段,作为与所述风险简述信息相关的风险补充信息。
可选地,所述识别模型中包括第三编码网络和分类器,所述识别模块13具体用于:通过所述第三编码网络对所述分类查询数据进行特征编码处理,得到编码向量;将所述编码向量输入所述分类器,以得到所述分类器输出的分类识别结果。
可选地,所述装置还包括:训练模块,用于对包括文本编码网络和图像编码网络的基础模型进行预训练;以预训练后的基础模型初始化所述第一编码网络、所述第二编码网络和所述第三编码网络;获取所述检索模型对应的第一训练数据以及所述识别模型对应的第二训练数据;根据所述第一训练数据对初始化的检索模型进行训练,以及根据所述第二训练数据对初始化的所述识别模型进行训练。
其中,可选地,所述训练模块具体用于:获取第一预训练任务对应的第三训练数据,所述第三训练数据中包括由相关的训练图像和训练文本构成的正例样本对,以及由不相关的训练图像和训练文本构成的负例样本对;通过所述基础模型分别提取各训练文本和各训练图像的特征信息;以使得正例样本对中训练图像对应的特征信息与训练文本对应的特征信息之间的相似度高于第一阈值,负例样本对中训练图像对应的特征信息与训练文本对应的特征信息之间的相似度低于第二阈值为目标,训练所述基础模型;获取第二预训练任务对应的第四训练数据,所述第四训练数据中包括由相关的查询数据和知识数据构成的正例样本对,以及由不相关的查询数据和知识数据构成的负例样本对,其中,查询数据中包含训练图像和训练文本,知识数据中包含训练图像和训练文本;通过所述基础模型分别提取各训练文本和各训练图像的特征信息,并将属于同一查询数据中的训练图像和训练文本的特征信息进行拼接以得到所述同一查询数据对应的综合特征信息,将属于同一知识数据中的训练图像和训练文本的特征信息进行拼接以得到所述同一知识数据对应的综合特征信息;以使得正例样本对中查询数据对应的综合特征信息与知识数据对应的综合特征信息之间的相似度高于第三阈值,负例样本对中查询数据对应的综合特征信息与知识数据对应的综合特征信息之间的相似度低于第四阈值为目标,训练所述基础模型。
图11所示装置可以执行前述实施例中的步骤,详细的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
在一个可能的设计中,上述图11所示风险识别装置的结构可实现为一电子设备。如图12所示,该电子设备可以包括:处理器21、存储器22、通信接口23。其中,存储器22上存储有可执行代码,当所述可执行代码被处理器21执行时,使处理器21至少可以实现如前述实施例中提供的风险识别方法。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如前述实施例中提供的风险识别方法。
在一可选实施例中,用于执行本发明实施例提供的风险识别方法的电子设备可以是扩展现实(Extended Reality,简称XR)设备。XR,是虚拟现实、增强现实等多种形式的统称。
可选地,该XR设备比如可以部署在无人机中,这样无人机上的摄像机在采集到超高分辨率的目标图像后,可以将目标图像传送给XR设备,由该XR设备进行目标图像的风险识别处理。之后,可以将标记有分割结果的目标图像传输至地面端的控制设备,从而可以实现目标图像的及时语义分割。基于此,地面端的控制设备可以及时根据分割结果向无人机发送相应的控制指令。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (14)
1.一种风险识别方法,其特征在于,包括:
获取待识别数据,所述待识别数据包括关联的图像和文本数据对;
通过检索模型中的第一编码网络对所述待识别数据进行特征编码处理,得到第一特征集;
通过所述检索模型中的第二编码网络对知识库中的多个风险信息数据进行特征编码处理,得到对应的多个第二特征集,其中,一个风险信息数据中包括图像数据和文本数据;
根据所述第一特征集与所述多个第二特征集的相似度,从所述多个风险信息数据中确定相似度符合设定要求的目标风险信息数据;
将分类查询数据输入至识别模型中,以获取所述识别模型输出的分类识别结果,所述分类查询数据包括所述待识别数据、所述目标风险信息数据以及设定的询问语句,其中,所述询问语句用于询问所述待识别数据是否与所述目标风险信息数据匹配。
2.根据权利要求1所述的方法,其特征在于,所述通过检索模型中的第一编码网络对所述待识别数据进行特征编码处理,得到第一特征集,包括:
对所述待识别数据中的图像数据进行分块处理,得到多个第一图像块;
对所述待识别数据中的文本数据进行分词处理,得到多个第一词语;
通过所述第一编码网络分别对所述多个第一图像块和所述多个第一词语进行特征编码处理,以得到第一特征集,所述第一特征集中包括所述多个第一图像块分别对应的编码向量和所述多个第一词语分别对应的编码向量。
3.根据权利要求1所述的方法,其特征在于,所述通过所述检索模型中的第二编码网络对知识库中的多个风险信息数据进行特征编码处理,得到对应的多个第二特征集,包括:
针对任一风险信息数据,对所述任一风险信息数据中的图像数据进行分块处理,得到多个第二图像块;
对所述任一风险信息数据中的文本数据进行分词处理,得到多个第二词语;
通过所述第二编码网络分别对所述多个第二图像块和所述多个第二词语进行特征编码处理,以得到第二特征集,所述第二特征集中包括所述多个第二图像块分别对应的编码向量和所述多个第二词语分别对应的编码向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征集与所述多个第二特征集的相似度,从所述多个风险信息数据中确定相似度符合设定要求的目标风险信息数据,包括:
针对所述第一特征集中的任一编码向量,分别确定与所述多个第二特征集中各编码向量之间的相似度;
从所述多个第二特征集中确定与所述任一编码向量之间的所述相似度符合设定条件的相似编码向量,以得到相似编码向量集,所述相似编码向量集包括所述第一特征集中各编码向量在所述多个第二特征集中对应的相似编码向量;
根据所述第二特征集中各编码向量与所述多个风险信息数据之间的对应关系,确定所述相似编码向量集中各相似编码向量所对应的风险信息数据作为多个候选风险信息数据;
根据所述第一特征集与所述多个候选风险信息数据对应的第二特征集之间的相似度,从所述多个候选风险信息数据中确定相似度符合设定要求的目标风险信息数据。
5.根据权利要求4中所述的方法,其特征在于,所述根据所述第一特征集与所述多个候选风险信息数据对应的第二特征集之间的相似度,从所述多个候选风险信息数据中确定相似度符合设定要求的目标风险信息数据,包括:
针对所述第一特征集中的任一编码向量以及所述多个候选风险信息数据中的任一候选风险信息数据,分别确定所述任一编码向量与所述任一候选风险信息数据对应的第二特征集中各编码向量之间的相似度;
确定与所述任一编码向量对应的目标相似度;
根据所述第一特征集中各编码向量对应的目标相似度,确定所述第一特征集与所述任一候选风险信息数据对应的第二特征集之间的相似度总数;
根据所述第一特征集分别与所述多个候选风险信息数据对应的第二特征集之间的相似度总数,确定相似度总数大于设定阈值的第二特征集所对应的候选风险信息数据为所述目标风险信息数据。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
若接收到新的风险简述信息,则从外部信息源搜索与所述风险简述信息相关的风险补充信息,以得到由所述风险简述信息和所述风险补充信息构成的风险信息数据,存入所述知识库。
7.根据权利要求6所述的方法,其特征在于,所述从外部信息源搜索与所述风险简述信息相关的风险补充信息,包括:
通过所述第二编码网络对所述风险简述信息进行特征编码,以得到对应的第三特征集;
针对所述外部信息源中的目标外部信息,通过所述第二编码网络对所述目标外部信息进行特征编码,以得到对应的第四特征集;
根据所述第三特征集与所述第四特征集的相似度,确定所述目标外部信息与所述风险简述信息相关;
从所述目标外部信息中确定与所述风险简述信息相关的目标信息片段,作为与所述风险简述信息相关的风险补充信息。
8.根据权利要求1至5中任一项所述的方法,其特征在于,所述识别模型中包括第三编码网络和分类器;
所述以所述待识别数据、所述目标风险信息数据以及设定的询问语句构成分类查询数据,输入至识别模型中,以获取所述识别模型输出的分类识别结果,包括:
通过所述第三编码网络对所述分类查询数据进行特征编码处理,得到编码向量;
将所述编码向量输入所述分类器,以得到所述分类器输出的分类识别结果。
9.根据权利要求8所述的方法,其特征在于,所述识别模型通过如下训练方式获得:
对包含文本编码网络和图像编码网络的基础模型进行预训练;
以预训练后的基础模型初始化所述第一编码网络、所述第二编码网络和所述第三编码网络;
获取所述检索模型对应的第一训练数据以及所述识别模型对应的第二训练数据;
根据所述第一训练数据对初始化的检索模型进行训练,以及根据所述第二训练数据对初始化的所述识别模型进行训练。
10.根据权利要求9所述的方法,其特征在于,所述对包含文本编码网络和图像编码网络的基础模型进行预训练,包括:
获取第一预训练任务对应的第三训练数据,所述第三训练数据中包括由相关的训练图像和训练文本构成的正例样本对,以及由不相关的训练图像和训练文本构成的负例样本对;
通过所述基础模型分别提取各训练文本和各训练图像的特征信息;
以使得正例样本对中训练图像对应的特征信息与训练文本对应的特征信息之间的相似度高于第一阈值,负例样本对中训练图像对应的特征信息与训练文本对应的特征信息之间的相似度低于第二阈值为目标,训练所述基础模型;
获取第二预训练任务对应的第四训练数据,所述第四训练数据中包括由相关的查询数据和知识数据构成的正例样本对,以及由不相关的查询数据和知识数据构成的负例样本对,其中,查询数据中包含训练图像和训练文本,知识数据中包含训练图像和训练文本;
通过所述基础模型分别提取各训练文本和各训练图像的特征信息,并将属于同一查询数据中的训练图像和训练文本的特征信息进行拼接以得到所述同一查询数据对应的综合特征信息,将属于同一知识数据中的训练图像和训练文本的特征信息进行拼接以得到所述同一知识数据对应的综合特征信息;
以使得正例样本对中查询数据对应的综合特征信息与知识数据对应的综合特征信息之间的相似度高于第三阈值,负例样本对中查询数据对应的综合特征信息与知识数据对应的综合特征信息之间的相似度低于第四阈值为目标,训练所述基础模型。
11.根据权利要求1所述的方法,其特征在于,所述获取待识别数据,包括:
从目标视频中分别截取多个视频片段;
将在目标视频片段中提取出的图像帧以及所述目标视频片段的语音转换后的文本,作为所述目标视频片段对应的待识别数据;其中,不同视频片段中提取的图像帧之间的相似度低于设定阈值,所述目标视频片段为所述多个视频片段中任一个。
12.一种电子设备,其特征在于,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至11中任一项所述的风险识别方法。
13.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至11中任一项所述的风险识别方法。
14.一种风险识别方法,其特征在于,包括:
接收用户设备通过调用风险识别服务触发的请求,所述请求中包括待识别数据;
利用所述风险识别服务对应的处理资源执行如下步骤:
获取待识别数据,所述待识别数据包括关联的图像和文本数据对;
通过检索模型中的第一编码网络对所述待识别数据进行特征编码处理,得到第一特征集;
通过所述检索模型中的第二编码网络对知识库中的多个风险信息数据进行特征编码处理,得到对应的多个第二特征集,其中,一个风险信息数据中包括图像数据和文本数据;
根据所述第一特征集与所述多个第二特征集的相似度,从所述多个风险信息数据中确定相似度符合设定要求的目标风险信息数据;
将分类查询数据输入至识别模型中,以获取所述识别模型输出的分类识别结果,所述分类查询数据包括所述待识别数据、所述目标风险信息数据以及设定的询问语句,其中,所述询问语句用于询问所述待识别数据是否与所述目标风险信息数据匹配;
将所述分类识别结果反馈至所述用户设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210901535.0A CN115205757B (zh) | 2022-07-28 | 2022-07-28 | 风险识别方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210901535.0A CN115205757B (zh) | 2022-07-28 | 2022-07-28 | 风险识别方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115205757A true CN115205757A (zh) | 2022-10-18 |
CN115205757B CN115205757B (zh) | 2024-04-16 |
Family
ID=83583820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210901535.0A Active CN115205757B (zh) | 2022-07-28 | 2022-07-28 | 风险识别方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205757B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428044A (zh) * | 2020-03-06 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 多模态获取监管识别结果的方法、装置、设备及存储介质 |
CN112307199A (zh) * | 2019-07-14 | 2021-02-02 | 阿里巴巴集团控股有限公司 | 信息识别、数据处理方法、装置及设备、信息交互方法 |
US20220083874A1 (en) * | 2020-11-24 | 2022-03-17 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and device for training search model, method for searching for target object, and storage medium |
CN114416927A (zh) * | 2022-01-24 | 2022-04-29 | 招商银行股份有限公司 | 智能问答方法、装置、设备及存储介质 |
-
2022
- 2022-07-28 CN CN202210901535.0A patent/CN115205757B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307199A (zh) * | 2019-07-14 | 2021-02-02 | 阿里巴巴集团控股有限公司 | 信息识别、数据处理方法、装置及设备、信息交互方法 |
CN111428044A (zh) * | 2020-03-06 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 多模态获取监管识别结果的方法、装置、设备及存储介质 |
US20220083874A1 (en) * | 2020-11-24 | 2022-03-17 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and device for training search model, method for searching for target object, and storage medium |
CN114416927A (zh) * | 2022-01-24 | 2022-04-29 | 招商银行股份有限公司 | 智能问答方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115205757B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117777B (zh) | 生成信息的方法和装置 | |
US9087049B2 (en) | System and method for context translation of natural language | |
CN104735468B (zh) | 一种基于语义分析将图像合成新视频的方法及系统 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN113392236A (zh) | 一种数据分类方法、计算机设备及可读存储介质 | |
CN109933688A (zh) | 确定视频标注信息的方法、装置、设备和计算机存储介质 | |
CN115982376B (zh) | 基于文本、多模数据和知识训练模型的方法和装置 | |
CN111639228A (zh) | 视频检索方法、装置、设备及存储介质 | |
CN115115984A (zh) | 视频数据处理方法、装置、程序产品、计算机设备和介质 | |
CN113301382B (zh) | 视频处理方法、设备、介质及程序产品 | |
CN116665083A (zh) | 一种视频分类方法、装置、电子设备及存储介质 | |
CN113610034A (zh) | 识别视频中人物实体的方法、装置、存储介质及电子设备 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN115205757B (zh) | 风险识别方法、装置、设备和存储介质 | |
CN114299074A (zh) | 一种视频分割方法、装置、设备及存储介质 | |
CN115098729A (zh) | 视频处理方法、样本生成方法、模型训练方法及装置 | |
CN114780757A (zh) | 短媒体标签抽取方法、装置、计算机设备和存储介质 | |
US11386056B2 (en) | Duplicate multimedia entity identification and processing | |
CN114443904A (zh) | 视频查询方法、装置、计算机设备及计算机可读存储介质 | |
CN114676705A (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
TWI725375B (zh) | 資料搜尋方法及其資料搜尋系統 | |
CN112632962A (zh) | 人机交互系统中实现自然语言理解方法和装置 | |
US20190104347A1 (en) | Video content relationship mapping | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 | |
US11804245B2 (en) | Video data size reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40083003 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |