CN114329051A - 数据信息识别方法、装置、设备、存储介质及程序产品 - Google Patents
数据信息识别方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN114329051A CN114329051A CN202111664023.9A CN202111664023A CN114329051A CN 114329051 A CN114329051 A CN 114329051A CN 202111664023 A CN202111664023 A CN 202111664023A CN 114329051 A CN114329051 A CN 114329051A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- event
- sample data
- event attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 238000003860 storage Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 48
- 239000013598 vector Substances 0.000 claims description 117
- 238000000605 extraction Methods 0.000 claims description 40
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 25
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 28
- 235000019580 granularity Nutrition 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据信息识别方法、装置、设备、存储介质及程序产品,涉及计算机技术领域。该方法包括:获取样本数据集,样本数据集中的样本数据对应至少两层具有从属关系的事件属性;基于事件属性的从属关系确定样本三元组,样本三元组中包括锚点数据、与锚点数据在从属关系中属于同一事件属性的正样本数据,以及与锚点数据在从属关系中属于不同事件属性的负样本数据;基于样本三元组对候选模型进行训练,得到数据信息识别模型,用于得到与待识别目标数据的事件属性关联的数据。通过以上方式,能够在应用数据信息识别模型时得到至少两层事件属性对应的数据,提高数据的获取量。本申请可应用于云技术、人工智能、智慧交通等各种场景。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种数据信息识别方法、装置、设备、存储介质及程序产品。
背景技术
随着信息社会的发展,互联网内容层出不穷,通过浏览视频获取新闻资讯已经成为一种重要的休闲方式,平台通常会参照用户的历史观看数据,判断用户的喜好,并向用户推荐相关的视频。
相关技术中,通常根据视频库中视频的标题或者不同视频之间确定的关联关系,向用户推荐与历史观看视频相关的视频。
然而,通过上述方法,不同视频之间的事件关联度较差,在需要根据目标视频召回与该目标视频相关的视频时,召回视频的角度较为单一。
发明内容
本申请实施例提供了一种数据信息识别方法、装置、设备、存储介质及程序产品,能够得到至少两层事件属性对应的数据,获取更多角度的数据。所述技术方案如下。
一方面,提供了一种数据信息识别方法,所述方法包括:
获取样本数据集,所述样本数据集中包括样本数据,所述样本数据对应至少两层具有从属关系的事件属性;
基于所述事件属性的从属关系确定样本三元组,所述样本三元组中包括锚点数据、正样本数据和负样本数据,所述锚点数据与所述正样本数据在所述从属关系中属于同一事件属性,所述锚点数据与所述负样本数据在所述从属关系中属于不同事件属性;
基于所述样本三元组对候选模型进行训练,得到数据信息识别模型,所述数据信息识别模型用于对目标数据进行信息识别,得到与所述目标数据的事件属性关联的数据。
另一方面,提供了一种数据信息识别装置,所述装置包括:
获取模块,用于获取样本数据集,所述样本数据集中包括样本数据,所述样本数据对应至少两层具有从属关系的事件属性;
确定模块,用于基于所述事件属性的从属关系确定样本三元组,所述样本三元组中包括锚点数据、正样本数据和负样本数据,所述锚点数据与所述正样本数据在所述从属关系中属于同一事件属性,所述锚点数据与所述负样本数据在所述从属关系中属于不同事件属性;
训练模块,用于基于所述样本三元组对候选模型进行训练,得到数据信息识别模型,所述数据信息识别模型用于对目标数据进行信息识别,得到与所述目标数据的事件属性关联的数据。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述数据信息识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的数据信息识别方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的数据信息识别方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
由样本数据组成样本数据集,其中每个样本数据对应至少两层具有从属关系的事件属性,根据事件属性的从属关系对样本数据集中的样本数据进行划分,得到不同层级事件属性对应的样本三元组,其中包括锚点数据、与锚点数据在相同层级下属于同一事件属性的正样本数据,以及与锚点数据在相同层级下属于不同事件属性的负样本数据。以样本三元组对候选模型进行训练,得到数据信息识别模型,用于得到与目标数据的事件属性关联的数据。通过上述方法使用样本数据对候选模型进行训练的过程中,在考虑样本数据对应的事件属性的同时,考虑了多层事件属性对候选模型的影响,根据不同层级事件属性对应的样本三元组对候选模型进行训练,使得训练得到的数据信息识别模型蕴含至少两层具有从属关系的事件属性,使得数据信息识别模型在应用时,能够得到至少两层事件属性对应的数据,提高数据的获取量以及获取精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的数据信息识别方法的流程图;
图3是本申请一个示例性实施例提供的事件属性层级关系的示意图;
图4是本申请一个示例性实施例提供的数据信息识别方法的模型示意图;
图5是本申请一个示例性实施例提供的输入特征示意图;
图6是本申请另一个示例性实施例提供的数据信息识别方法的流程图;
图7是本申请另一个示例性实施例提供的数据信息识别方法的流程图;
图8是本申请另一个示例性实施例提供的数据信息识别方法的界面图;
图9是本申请另一个示例性实施例提供的数据信息识别方法的模型示意图;
图10是本申请一个示例性实施例提供的服务过程的流程图;
图11是本申请一个示例性实施例提供的数据信息识别装置的结构框图;
图12是本申请另一个示例性实施例提供的数据信息识别装置的结构框图;
图13是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
相关技术中,通常根据视频库中视频的标题或者不同视频之间确定的关联关系,向用户推荐与历史观看视频相关的视频。然而,通过上述方法,不同视频之间的事件关联度较差,在需要根据目标视频召回与该目标视频相关的视频时,召回视频角度较为单一。
本申请实施例中,提供了一种数据信息识别方法,使得根据目标数据的时间属性能够得到至少两层事件属性对应的数据,提高数据的获取量以及获取精度。针对本申请训练得到的数据信息识别方法,在应用时包括如下场景中的至少一种。
一、应用于相关数据召回过程中。
示意性的,在数据识别领域中,有时需要根据一个目标数据,识别与目标数据具有关联关系的数据,如:在视频领域,通常需要根据用户当前所观看的视频,从视频库中识别得到与该视频具有关联关系的相关视频,从而向该用户进行相关视频的推荐。其中,关联关系通常是基于目标数据所直接对应的事件属性确定的,其中,事件属性用于表示数据所对应的类别,以视频为例,如:视频A对应的事件属性(类别)为娱乐视频。然而,根据单一的事件属性得到的数据的数量较少。可选地,采用本申请中提供的数据信息识别方法,以样本数据对候选模型进行训练,样本数据具有至少两层具有从属关系的事件属性,通过事件属性的从属关系,将样本数据划分为样本三元组,以样本三元组确定损失值,进而通过损失值对候选模型进行训练,得到训练得到的数据信息识别模型,该数据信息识别模型蕴含至少两层具有从属关系的事件属性。在应用时,数据信息识别模型可以更好地根据目标数据对应的事件属性,对目标数据进行更准确、全面地分析,从而得到与目标数据相关联的数据。
二、应用于事件发现过程中。
示意性的,在事件发现的应用场景中,有时需要根据目标数据对应的事件属性,将多个与目标数据相关联数据进行分析得到目标数据对应的事件。可选地,采用本申请中提供的数据信息识别方法,以样本数据对候选模型进行训练,样本数据具有至少两层具有从属关系的事件属性,通过事件属性的从属关系,将样本数据划分为样本三元组,以样本三元组确定损失值,进而通过损失值对候选模型进行训练,得到训练得到的数据信息识别模型,该数据信息识别模型蕴含至少两层具有从属关系的事件属性。在应用时,数据信息识别模型可以更好地对每一个目标数据对应的事件属性进行分析,进而根据事件属性获得和目标视频具有相同事件属性的其他视频,当簇内的视频数量达到一定阈值后则可构成一个事件。
值得注意的是,上述应用场景仅为示意性的举例,本实施例提供的数据信息识别方法还可以应用于其他场景中,本申请实施例对此不加以限定。
其次,对本申请实施例中涉及的实施环境进行说明,示意性的,请参考图1,该实施环境中涉及终端110、服务器120,终端110和服务器120之间通过通信网络130连接。
在一些实施例中,终端110中安装有具有数据获取功能的应用程序。在一些实施例中,终端110用于向服务器120发送目标数据。服务器120可根据目标数据的事件属性,通过数据信息识别模型121得到与目标数据的事件属性关联的数据,并将数据反馈至终端110进行显示。
其中,数据信息识别模型121采用如下方法训练得到的:根据样本数据对应的至少两层具有从属关系的事件属性以及样本数据,得到样本三元组,基于样本三元组得到损失值,以损失值训练候选模型,从而得到数据信息识别模型。示意性的,由样本数据1至样本数据n得到样本数据集,其中,样本数据1至样本数据n是根据至少两层事件属性的从属关系得到的,例如:确定第一层事件属性后,从隶属于第一层事件属性下确定第二层事件属性,从第二层事件属性中选择样本数据1至样本数据n,即:样本数据1至样本数据n既具有第二层事件属性,也具有第一层事件属性。之后,根据事件属性的从属关系对样本数据集中的样本数据进行划分,得到不同层级事件属性对应的样本三元组,其中包括锚点数据、与锚点数据在相同层级下属于同一事件属性的正样本数据,以及与锚点数据在相同层级下属于不同事件属性的负样本数据。以样本三元组对候选模型进行训练,得到数据信息识别模型。上述过程是数据信息识别模型训练过程的不唯一情形的举例。
值得注意的是,上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端,也可以实现为台式电脑等;上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
结合上述名词简介和应用场景,对本申请提供的数据信息识别方法进行说明,以该方法应用于服务器为例,如图2所示,该方法包括如下步骤210至步骤230。
步骤210,获取样本数据集。
其中,样本数据集中包括样本数据。示意性的,样本数据集中存储有多个样本数据,样本数据集中既可以存储一种类型的样本数据(如:样本文本数据、样本视频数据等),也可以存储多种类型的样本数据(如:样本文本数据和样本视频数据等)。可选地,基于样本数据集中存储的样本数据类型的不同,样本数据集可以包括多个种类,例如:样本文本数据集、样本视频数据集等。
可选地,样本数据对应至少两层具有从属关系的事件属性。其中,事件属性为样本数据对应的属性,用于指示样本数据所包含的事件信息。在一些实施例中,事件属性用于指示样本数据的数据内容所属的事件类型,也即,该样本数据中的数据内容所表达的事件信息,示意性的,以样本数据实现为视频数据为例,事件属性用于表示该视频数据所表达的视频内容对应的事件类型。可选的,从属于同一事件属性的样本数据中包括相同的目标数据内容,如:当样本数据为文本数据时,从属于同一事件属性的文本数据包括与该事件属性对应的关键词文本;当样本数据为视频数据时,从属于同一事件属性的视频数据包括与该事件属性对应的视频标签。
示意性的,样本数据为m,样本数据对应两层事件属性,分别为A事件属性和B事件属性,事件属性具有从属关系用于指示A事件属性和B事件属性之间具有从属关系,例如:B事件属性从属于A事件属性,用于指示在A事件属性下包括B事件属性。
示意性的,样本数据为一段新闻视频,该新闻视频对应两层事件属性,分别为A事件属性和B事件属性。可选地,A事件属性用于指示该新闻视频所属区域,例如:该新闻视频为X省的新闻视频;B事件属性用于指示该新闻视频所属板块,例如:该新闻视频为经济新闻视频,其中,A事件属性下包括B事件属性,即:该新闻视频为X省的经济新闻视频。
示意性的,以视频数据的视频内容中包括娱乐明星参与综艺节目的内容为例,则该视频数据对应的事件属性可以是娱乐属性、综艺属性、内地综艺属性等,其中,综艺属性从属于娱乐属性,内地综艺属性从属于综艺属性。
在一个可选的实施例中,样本数据集是根据样本数据与事件属性之间的关系获取得到的。确定第一层事件属性;基于第一层事件属性,获取至少两个第二层事件属性;从至少两个从属的第二层事件属性下分别获取至少两个样本数据;基于样本数据获取样本数据集。
其中,第一层事件属性包括至少两个从属的第二层事件属性,样本数据集中的样本数据属于至少两个第二层事件属性。
可选地,以样本数据具有两层事件属性为例进行说明。第一层事件属性为中事件属性,对应多个中事件标题,第二层事件属性为小事件属性,其中,小事件属性从属于中事件属性。例如:每个中事件标题下多个对应小事件属性的小事件标题。示意性的,样本数据是从与小事件属性对应的小事件标题下获取得到的。例如:从3个小事件标题下分别获取3个样本数据后,得到9个样本数据。
可选地,以样本数据具有三层事件属性为例进行说明。第一层事件属性为核心词,核心词下对应多个中事件标题,中事件标题对应第二层事件属性;中事件标题下包括多个小事件标题,小事件标题对应第三层事件属性,其中,第三层事件属性从属于第二层事件属性,第二层事件属性从属于第一层事件属性。示意性的,样本数据是从与对应小事件属性对应的小事件标题下获取得到的。例如:从每一个小事件标题下分别获取2个样本数据。
值得注意的是,上述两层事件属性或者三层事件属性仅为示意性的举例,本申请实施例中的事件属性还可以实现为更多或者更少的层数,本申请实施例对此不加以限定。
示意性的,第二层事件属性下包括多个样本数据。例如:第二层事件属性为小事件标题a,与小事件标题a相关的样本数据为多个样本视频,该多个样本视频的视频标题与小事件标题a的语义相似;或者,第二层事件属性为小事件词汇b,与小事件词汇b相关的样本数据为多篇样本文章,该多篇样本文章的文章关键词与小事件词汇b相似等。
示意性的,在确定至少两个第二层事件属性后,从每一个第二层事件属性下获取至少一个样本数据,将获取得到的样本数据汇总后,得到样本数据集。
在一个可选的实施例中,任意选择一个事件属性M,根据事件属性M确定从属于事件属性M的事件属性L和事件属性N。从事件属性L和事件属性N下分别获取两个样本数据,事件属性L下的样本数据与事件属性L和事件属性M具有两层事件属性的对应关系,事件属性N下的样本数据与事件属性N和事件属性M具有两层事件属性的对应关系,将从事件属性L和事件属性N下获取得到的四个样本数据组成样本数据集,即:该样本数据集中的样本数据对应两层具有从属关系的事件属性。
或者,任意选择一个事件属性M,根据事件属性M确定从属于事件属性M的事件属性L和事件属性N,之后,从事件属性L下获取事件属性l,从事件属性N下获取事件属性n,并从事件属性l和事件属性n下分别获取样本数据,事件属性l下的样本数据与事件属性l、事件属性L和事件属性M具有三层事件属性的对应关系,事件属性n下的样本数据与事件属性n、事件属性N和事件属性M具有三层事件属性的对应关系,将从事件属性l和事件属性n下获取得到的样本数据组成样本数据集,即:该样本数据集中的样本数据对应三层具有从属关系的事件属性。
步骤220,基于事件属性的从属关系确定样本三元组。
其中,样本三元组中包括锚点数据、正样本数据和负样本数据,锚点数据、正样本数据以及负样本数据为样本数据集中的样本数据。
可选地,锚点数据与正样本数据在从属关系中属于同一事件属性,锚点数据与负样本数据在从属关系中属于不同事件属性。其中,该事件属性为从属关系中任意一层事件属性。
示意性的,锚点数据为从样本数据集中任意选择的一个样本数据。例如:在样本数据集中存储有多个样本数据,从多个样本数据中以随机选择的方式,任意选择一个样本数据作为锚点数据,即,以等概率选择的方式从样本数据集中随机选择一个样本数据作为锚点数据。可选地,在将一个样本数据作为锚点数据进行分析完成后,再将其他样本数据依次作为锚点数据进行分析。
在一个可选的实施例中,从样本数据集中确定锚点数据;基于事件属性的从属关系,从样本数据集中确定与锚点数据属于同一事件属性的数据作为正样本数据;基于事件属性的从属关系,从样本数据集中确定与锚点数据属于不同事件属性的数据作为负样本数据;基于锚点数据、正样本数据和负样本数据确定样本三元组。
可选地,以样本数据具有三层事件属性为例进行说明。如图3所示,样本数据集中包括样本数据1至样本数据16,样本数据集是基于核心词(核心词1和核心词2)、中事件(中事件A、中事件B、中事件C和中事件4)和小事件(小事件a、小事件b、小事件c、小事件d、小事件e、小事件f、小事件g、小事件h)构建得到的,其中,核心词用于指示第一层事件属性,中事件用于指示第二层事件属性,小事件用于指示第三层事件属性。示意性的,中事件A和中事件B从属于核心词1,中事件C和中事件D从属于核心词2;小事件a和小事件b从属于中事件A,小事件c和小事件d从属于中事件B,小事件e和小事件f从属于中事件C,小事件g和小事件h从属于中事件D。在小事件a下包括样本数据1和样本数据2,在小事件b下包括样本数据3和样本数据4,在小事件c下包括样本数据5和样本数据6,在小事件d下包括样本数据7和样本数据8,在小事件e下包括样本数据9和样本数据10,在小事件f下包括样本数据11和样本数据12,在小事件g下包括样本数据13和样本数据14,在小事件h下包括样本数据15和样本数据16。
值得注意的是,上述核心词、中事件、小事件以及样本数据的对应数量仅为示意性的举例,在一些实施例中,核心词也可以包括更多或者更少的中事件,同理,中事件也可以包括更多或者更少的小事件,小事件中可以对应包括更多或者更少的样本数据,本申请实施例对此不加以限定。
示意性的,与锚点数据对应的正样本数据,用于指示与锚点数据在同一层级下具有相同事件属性的一个样本数据,将锚点数据与在同一层级下具有相同事件属性的样本数据称为正样本数据对,将锚点数据与在同一层级下具有不同事件属性的样本数据称为负样本数据对。
可选地,当将一个样本数据作为锚点数据时,对不同层级的事件属性进行分析时,会得到不同的样本三元组。以样本数据1为锚点数据,对根据不同层级的事件属性得到不同层级对应样本三元组的过程进行说明。
示意性的,在对第三层事件属性(小事件)进行分析时,将与样本数据1具有相同事件属性(第三层事件属性)的样本数据2作为样本数据1的正样本数据,将与样本数据1具有不同事件属性(不具有第三层事件属性)的样本数据3至样本数据16作为负样本数据集,负样本数据集中的每一个样本数据均可以作为样本数据1的负样本数据。基于样本数据1、样本数据2以及负样本数据集中任意一个样本数据(样本数据3至样本数据16中的任意一个),组成一个第三层事件属性下对应的一个样本三元组。
示意性的,在对第二层事件属性(中事件)进行分析时,将与样本数据1具有相同事件属性(第二层事件属性)的样本数据2至样本数据4作为样本数据1的正样本数据集,正样本数据集中的每一个样本数据均可以作为样本数据1的正样本数据;将与样本数据1具有不同事件属性(不具有第二层事件属性)的样本数据5至样本数据16作为负样本数据集,负样本数据集中的每一个样本数据均可以作为样本数据1的负样本数据。基于样本数据1、正样本数据集中任意一个样本数据(样本数据2至样本数据4中的任意一个)以及负样本数据集中任意一个样本数据(样本数据5至样本数据16中的任意一个),组成一个第二层事件属性下对应的一个样本三元组。
示意性的,在对第一层事件属性(核心词)进行分析时,将与样本数据1具有相同事件属性(第一层事件属性)的样本数据2至样本数据8作为样本数据1的正样本数据集,正样本数据集中的每一个样本数据均可以作为样本数据1的正样本数据;将与样本数据1具有不同事件属性(不具有第一层事件属性)的样本数据9至样本数据16作为负样本数据集,负样本数据集中的每一个样本数据均可以作为样本数据1的负样本数据。基于样本数据1、正样本数据集中任意一个样本数据(样本数据2至样本数据8中的任意一个)以及负样本数据集中任意一个样本数据(样本数据9至样本数据16中的任意一个),组成一个第一层事件属性下对应的一个样本三元组。
以上仅为示意性的举例,本申请实施例对此不加以限定。
在一个可选的实施例中,确定从属关系中锚点数据所属的目标事件属性;从样本数据集中确定属于目标事件属性的数据作为正样本数据;从样本数据集中确定属于除目标事件属性以外的其他事件属性的数据作为负样本数据。
示意性的,从样本数据集中随机选择一个样本数据作为锚点数据后,判断该锚点数据对应的第二层事件属性,基于第二层事件属性,确定对应的第一层事件属性,其中,基于第二层事件属性与第一层事件属性的对应关系,锚点数据与第一层事件属性之间也存在对应关系,即:第一层事件属性下包括该锚点数据。
目标事件属性用于指示锚点数据对应的事件属性,可选地,基于锚点数据对应的事件属性的层级差异(第一层事件属性和第二层事件属性的差异),正样本数据和负样本数据也存在一定区别。
示意性的,当目标事件属性为第一层事件属性时,正样本数据为样本数据集中包括第一层事件属性的样本数据;负样本数据为样本数据集中不包括第一层事件属性的样本数据。其中,基于第二层事件属性与第一层事件属性的对应关系,当确定锚点数据所对应的第一层事件属性后,除作为锚点数据的样本数据外,该样本数据库中包括第一层事件属性下的样本数据均可以组成正样本数据。
可选地,当样本数据集中的样本数据对应两层事件属性时,当目标事件属性为第二层事件属性时,正样本数据为样本数据集中包括第二层事件属性的样本数据;负样本数据为样本数据集中不包括第二层事件属性的样本数据。
可选地,当样本数据集中的样本数据对应三层事件属性时,当目标事件属性为第三层事件属性时,正样本数据为样本数据集中包括第三层事件属性的样本数据;负样本数据为样本数据集中不包括第三层事件属性的样本数据。
以上仅为示意性的举例,本申请实施例对此不加以限定。
步骤230,基于样本三元组对候选模型进行训练,得到数据信息识别模型。
其中,数据信息识别模型用于对目标数据进行信息识别,得到与目标数据的事件属性关联的数据。
可选地,样本三元组为将样本数据输入候选模型后得到的,其中,样本数据中包括锚点数据、正样本数据和负样本数据。示意性的,将锚点数据、正样本数据和负样本数据输入候选模型后,得到锚点数据、正样本数据和负样本数据分别对应的锚点数据表示、正样本数据表示以及负样本数据表示。基于锚点数据表示、正样本数据表示、负样本数据表示以及不同层级的事件属性(第一层事件属性和第二层事件属性的差异),确定损失值,以损失值对候选模型进行训练,得到数据信息识别模型。
其中,数据信息识别模型用于对目标数据进行信息识别,得到与目标数据的事件属性关联的数据。
在一个可选的实施例中,对目标数据进行特征提取,得到目标数据对应的目标向量;基于目标向量,确定与目标数据的事件属性关联的数据。
其中,目标数据为待进行信息识别的数据。信息识别用于指示根据目标数据对应的事件属性,从数据集中选择多个与该目标数据对应的事件属性相关联的数据。示意性的,以目标数据为视频数据为例进行说明。对视频数据进行特征提取后,得到视频数据对应的目标向量。其中,对视频数据进行特征提取可以包括对视频帧进行特征提取和对视频标题进行文本分析两个部分;或者,对视频数据进行特征提取可以包括对视频帧进行特征提取和对视频进行语义分析两个部分,将对视频数据进行分析后得到的结果进行融合,得到融合特征,即进行特征提取后视频数据对应的目标向量。基于目标向量,确定数据集中数据对应的数据向量与融合特征在映射空间中距离关系,基于距离关系确定与目标数据的事件属性关联的数据。
在一个可选的实施例中,如图4所示,为对样本视频进行特征提取的模型结构表示。该模型结构的主体框架采用多模变换(Transformer)结构,该结构是将变压器的双向编码器模型(Bidirectional Encoder Representations for Transformers,BERT)中的Transformer结构扩展至多模特征中,使得该模型结构可以接受多模态输入的形式。样本视频对应至少两层具有从属关系的事件属性,从样本视频集中随机选择一个样本视频作为锚点视频,基于锚点视频以及不同层级的事件属性,确定与锚点视频相关的正样本视频与负样本视频。其中,正样本视频为与锚点视频属于同一事件属性的样本视频,负样本视频为与锚点视频属于不同事件属性的样本视频。可选地,根据不同层级事件属性的划分标准,与锚点视频对应的正样本视频和负样本视频并不唯一,将锚点视频410、根据不同层级事件属性确定的正样本视频420和负样本视频430作为对样本视频进行特征提取的模型结构的输入。
在一个可选的实施例中,对样本数据进行预处理,得到样本数据对应的特征表示;通过候选模型对特征表示进行特征提取,得到样本数据对应的向量表示。
可选地,在将样本视频通过多模变换结构前,首先对样本视频进行初步特征提取,将该初步特征提取作为对样本数据的预处理。示意性的,在输入特征部分,使用三种特征组合得到最终的输入,如图5所示,每个标识(token)的特征包括位置嵌入530、专家嵌入520和本身特征510三部分构成。其中,位置嵌入530用于指示每个文本token在句子中的位置(例如:每个样本视频的视频标题对应的文本内容),或者每个视频帧token在视频中的顺序(例如:时序顺序);专家嵌入520用于区分样本视频中的文本数据和视觉数据(视频帧对应的数据);本身特征510用于指示文本token的初始嵌入向量(从BERT预训练模型中加载)和视频帧特征转换而来的视频token向量。之后,将位置嵌入530、专家嵌入520以及本身特征510进行融合后,确定样本视频中每个标识(token)对应的特征。
可选地,样本视频为具有视频标题440的视频,视频标题440与样本视频存在对应关系,通常根据视频标题440可以确定该样本视频表达的大致内容。视频标题440多以文本的形式表示,例如:一个词汇、一条语句等。可选地,视频标题440采用与BERT相同的处理方式,将视频标题切分为标识(token),并查找每个token的初始向量。例如:在将样本视频输入候选模型后,通过候选模型对样本视频的视频标题440进行文本分析,得到样本视频对应的文本特征。对视频标题440进行分词处理,得到视频标题440对应的多个分词词汇,对分词词汇进行特征提取,得到分词词汇对应的分词向量;对视频标题440对应的语句进行特征提取,得到标题语句对应的语句向量;基于分词向量和语句向量,得到视频标题440对应的文本特征。
示意性的,样本视频是由多个视频帧组成的视频,以视频帧为单位对样本视频进行特征提取,可以得到样本视频对应的视频特征。
在一个可选的实施例中,基于样本视频中的视频帧,对样本视频进行特征提取,得到样本视频对应的视觉特征;对样本视频中的视频帧进行平均,得到样本视频对应的平均特征;将视觉特征和平均特征进行融合,得到样本视频对应的视频特征。
可选地,在得到视频特征和文本特征后,将视频特征与文本特征进行融合,经过另一个全连接层(FullConnection,FC)3,得到锚点视频对应的锚点向量,正样本视频对应的正样本向量以及负样本视频对应的负样本向量。可选地,在模型输出部分,锚点样本表示、正样本表示与负样本表示之间的箭头460用于指示三个层级的事件属性。
综上所述,由样本数据组成样本数据集,其中每个样本数据对应至少两层具有从属关系的事件属性,根据事件属性的从属关系对样本数据集中的样本数据进行划分,得到不同层级事件属性对应的样本三元组,其中包括锚点数据、与锚点数据在相同层级下属于同一事件属性的正样本数据,以及与锚点数据在相同层级下属于不同事件属性的负样本数据。以样本三元组对候选模型进行训练,得到数据信息识别模型,用于得到与目标数据的事件属性关联的数据。通过上述方法,在使用样本数据对候选模型进行训练的过程中,在考虑样本数据对应的事件属性的同时,考虑了多层事件属性对候选模型的影响,根据不同层级事件属性对应的样本三元组对候选模型进行训练,使得训练得到的数据信息识别模型蕴含至少两层具有从属关系的事件属性,使得数据信息识别模型在应用时,能够得到至少两层事件属性对应的数据,提高数据的获取角度。
在一个可选的实施例中,根据不同事件属性的从属关系,得到的样本三元组存在一定差异。示意性的,以事件属性的从属关系中包括从属的至少三层事件属性为例进行说明,如图6所示,上述图2所示出的实施例还可以实现为如下步骤610至步骤660。
步骤610,获取样本数据集。
其中,样本数据集中包括样本数据,样本数据对应至少两层具有从属关系的事件属性,事件属性为样本数据对应的属性,可以用于指示样本数据所包含的事件信息。
可选地,样本数据集是根据样本数据与事件属性之间的关系获取得到的。可选的,样本数据集相关的介绍在上述步骤210中已进行了说明,此处不再赘述。
步骤620,通过候选模型对样本数据进行事件关联度分析,得到样本数据中锚点数据、正样本数据和负样本数据之间的事件关联度。
可选地,事件关联度分析根据事件属性的层级差异(第一层事件属性、第二层事件属性等),会得到不同的事件关联度结果。
由于样本数据能够基于事件属性得到锚点数据、对应的正样本数据以及负样本数据(即一组三元组关系),值得注意的是,该三元组关系可以实现为后续的样本三元组,或者,后续的样本三元组为从多个三元组关系中确定的其中一个或者多个三元组关系。
示意性的,当对第一层事件属性进行事件关联度分析时,则对第一层事件属性对应的至少一个三元组关系进行分析,根据第一层事件属性确定出的三元组关系中各样本数据(锚点数据、正样本数据以及负样本数据)之间的相似程度,确定第一层事件属性对应的事件关联度结果。
示意性的,当对第二层事件属性进行事件关联度分析时,对第二层事件属性对应的三元组关系进行分析,根据第二层事件属性对应的三元组关系中锚点数据、正样本数据以及负样本数据之间的差异程度,确定第二层事件属性对应的事件关联度结果。
在一个可选的实施例中,通过候选模型对样本数据集中的样本数据进行特征提取,得到样本数据对应的向量表示;基于样本数据对应的向量表示在向量空间中的距离关系,得到样本数据之间的事件关联度。
可选地,通过候选模型对样本数据集中的样本数据进行特征提取,得到样本数据对应的向量表示,向量表示中包括三元组关系中锚点数据对应的锚点向量、正样本数据对应的正样本向量和负样本数据对应的负样本向量。
示意性的,候选模型用于对样本数据进行特征提取,样本数据对应有至少两层具有从属关系的事件属性。示意性的,在将样本数据输入候选模型时,将样本数据集中的样本数据一同输入候选模型中。
其中,样本数据集中的样本数据是从具有从属关系的一层事件属性下获取得到的。例如,样本数据集中的样本数据具有三层事件属性,第一层事件属性为核心词,第二层事件属性为中事件,第三层事件属性为小事件,第三层事件属性从属于第二层事件属性,第二层事件属性从属于第一层事件属性。样本数据是从小事件下获取得到的,即:样本数据具有三层事件属性,分别为第三层事件属性、第二层事件属性以及第一层事件属性。
可选地,在基于事件属性的层级关系获取得到样本数据集时,样本数据集中样本数据的关系预先确定,当将每一个样本数据作为锚点数据时,在三元组关系中,该锚点数据对应的正样本数据以及负样本数据也随之确定。其中,与锚点数据对应的正样本数据以及负样本数据的个数既可能为一个,也可能为多个。
示意性的,如图3所示,当锚点数据为样本数据1时,在第三层事件属性(小事件)下,该锚点数据对应的正样本数据的个数为1个(样本数据2),该锚点数据对应的负样本数据的个数为14个(样本数据3至样本数据16中的任意一个);或者,在第二层事件属性(中事件)下,该锚点数据对应的正样本数据的个数为3个(样本数据2至样本数据4),该锚点数据对应的负样本数据的个数为12个(样本数据5至样本数据16);或者,在第一层事件属性(核心词)下,该锚点数据对应的正样本数据的个数为7个(样本数据2至样本数据8),该锚点数据对应的负样本数据的个数为8个(样本数据9至样本数据16)。
示意性的,将样本数据集中的样本数据输入候选模型中,通过候选模型对样本数据进行特征提取,得到样本数据对应的向量表示。基于样本数据对应的具有从属关系的事件属性,确定向量表示中锚点数据对应的锚点向量、正样本数据对应的正样本向量以及负样本数据对应的负样本向量。
在一个可选的实施例中,基于锚点向量、正样本向量和负样本向量在向量空间中的映射关系,锚点向量与正样本向量以及锚点向量与负样本向量的距离关系。
示意性的,将锚点向量、正样本向量和负样本向量投射到向量空间中,根据锚点向量与正样本向量在向量空间中的欧式距离确定锚点数据与正样本数据的关联度,根据锚点向量与负样本向量在向量空间中的欧式距离确定锚点数据与负样本数据的关联度。其中,考虑到不同层级下根据锚点数据确定的正样本数据和负样本数据是不同的,因此关联度的确定在不同层级的事件属性下也有所区别。
可选地,确定锚点数据在第一层事件属性下对应的第一关联度、锚点数据在第二层事件属性下对应的第二关联度,以及锚点数据在第三层事件属性下对应的第三关联度。
步骤630,基于事件属性的从属关系,确定与锚点数据在第一层事件属性下对应的至少一个第一样本三元组。
其中,锚点数据属于第一层事件属性。
样本三元组包括锚点数据、正样本数据和负样本数据。示意性的,从样本数据集中随机选择一个样本数据作为锚点数据,基于锚点数据对应的至少两层具有从属关系的事件属性,确定锚点数据对应的第一层事件属性。
在一个可选的实施例中,基于第一层事件属性下的样本数据与锚点数据之间的事件关联度,以及与第一层事件属性同层的其他事件属性下的样本数据与锚点数据之间的事件关联度,确定与锚点数据在第一层事件属性下对应的至少一个第一样本三元组。
可选地,第二层事件属性下对应有多个样本数据,在确定第二层事件属性下锚点数据对应的正样本数据和负样本数据时,数据集中具有第二层事件属性的样本数据均可以作为正样本数据,数据集中不具有第二层事件属性的样本数据均可以作为负样本数据;或者,第一层事件属性下包括第二层事件属性,第二层事件属性下包括多个样本数据,多个样本数据与第一层事件属性相对应,在确定第一层事件属性下锚点数据对应的正样本数据和负样本数据时,数据集中具有第一层事件属性的多个样本数据均可以作为正样本数据,数据集中不具有第一层事件属性的多个样本数据均可以作为负样本数据。以上仅为示意性的举例,在分析三层事件属性时,以上方法仍可适用,本申请实施例对此不加以限定。
可选地,根据事件属性的层级不同,事件关联度包括与第一层事件属性相关的第一事件关联度以及与第二层事件属性相关的第二事件关联度。
在一个可选的实施例中,对三元组关系中的锚点向量、正样本向量以及负样本向量在向量空间中进行距离分析,确定锚点向量和正样本向量的第一距离,以及锚点向量与负样本向量的第二距离;基于距离分析结果,确定具有第一层事件属性且第一距离最大的正样本向量,以及属于与第一层事件属性同层的其他事件属性且第二距离最小的负样本向量;基于锚点向量、第一距离最大的正样本向量和第二距离最小的负样本向量,确定与第一样本三元组以及其对应的第一事件关联度。
示意性的,将三元组关系中的锚点向量、正样本向量与负样本向量在向量空间上进行映射后,可以确定锚点向量与正样本向量之间的距离关系,以及锚点向量与负样本向量之间的距离关系。其中,锚点向量与正样本向量之间距离越近,锚点数据与正样本数据相似度越高;锚点向量与负样本向量之间的距离越远,锚点数据与负样本数据之间的相似度越低。
可选地,根据事件属性的层级不同,事件关联度包括与第一层事件属性相关的第一事件关联度以及与第二层事件属性相关的第二事件关联度。
步骤640,基于事件属性的从属关系,确定与锚点数据在第二层事件属性下对应的至少一个第二样本三元组。
其中,锚点数据属于第二层事件属性。
示意性的,从样本数据集中随机选择一个样本数据作为锚点数据,基于锚点数据对应的事件属性,确定锚点数据对应的第二层事件属性。
可选地,基于第二层事件属性下的样本数据与锚点数据之间的事件关联度,以及与第二层事件属性同层的其他事件属性下的样本数据与锚点数据之间的事件关联度,确定与锚点数据在第二层事件属性下对应的至少一个第二样本三元组。
可选地,第二层事件属性下包括多个样本数据,将数据集中具有第二层事件属性的样本数据作为正样本数据,将数据集中不具有第二层事件属性的样本数据作为负样本数据。
可选地,基于事件属性层级的差异,得到的第一样本三元组和第二样本三元组可能存在重合关系。示意性的,如图3所示,基于中事件层级下得到的多个第一样本三元组中包括“样本数据1—样本数据2—样本数据5”,基于小事件层级下得到的一个第二样本三元组中也包括“样本数据1—样本数据2—样本数据5”。
步骤650,基于事件属性的从属关系,确定与锚点数据在第三层事件属性下对应的至少一个第三样本三元组。
在一个可选的实施例中,基于第三层事件属性下的样本数据与锚点数据之间的事件关联度,以及与第三层事件属性同层的其他事件属性下的样本数据与所述锚点数据之间的事件关联度,确定与锚点数据在第三层事件属性下对应的至少一个第三样本三元组。
以上仅为示意性的举例,本申请实施例对此不加以限定。
步骤660,基于样本三元组确定候选模型对应的损失值。
可选地,根据事件属性的层级不同,事件关联度包括与第一层事件属性相关的第一事件关联度以及与第二层事件属性相关的第二事件关联度。
在一个可选的实施例中,对锚点数据在三层事件属性下进行分析。基于锚点向量、正样本向量以及负样本向量在向量空间中进行距离关系,确定锚点向量在第一层事件属性下的第一样本三元组、锚点向量在第二层事件属性下的第二样本三元组以及锚点向量在第三层事件属性下的第三样本三元组。
可选地,基于第一事件关联度(锚点数据与第一层事件属性下的正样本数据和第一层事件属性下的负样本数据的距离关系),确定第一样本三元组对应的第一损失值;基于第二事件关联度(锚点数据与第二层事件属性下的正样本数据和第二层事件属性下的负样本数据的距离关系),确定第二样本三元组对应的第二通损失值;基于第三事件关联度(锚点数据与第三层事件属性下的正样本数据和第三层事件属性下的负样本数据的距离关系),确定第三样本三元组对应的第三损失值;将第一损失值、第二损失值以及第三损失值进行融合,得到模型的损失值。
值得注意的是,本申请实施例中以第一损失值、第二损失值以及第三损失值融合得到损失值为例进行计算示意,在一些实施例中,上述损失值的计算也可以仅通过两层事件属性对应的损失值融合得到,或者,也可以通过更多层(如:四层、五层等)事件属性对应损失值融合得到,本实施例对此不加以限定。
示意性的,以三层事件属性对应的损失值融合为例,该损失值通过损失函数计算得到的,损失函数的表达式如下所示:
其中,N表示一个小组(batch)中的样本数据的数量,为锚点数据,和分别是其在小事件粒度、中事件粒度和核心词粒度上的正样本数据, 和分别是其在小事件粒度、中事件粒度和核心词粒度上的负样本数据,f代表计算向量表示的网络映射。αS、αM和αT分别是小事件粒度、中事件粒度和核心词粒度上的距离超参。γ、δ和ω是三种损失值(第一损失值、第二损失值以及第三损失值)loss的权重系数,可通过自动学习获得,或者作为超参通过人工设置,可选地,在本申请实施例中采用自动学习的方式获得。
其中,小事件粒度、中事件粒度以及核心词粒度之间具有从属关系。可选地,选择一个batch的核心词,根据该核心词采样多个中事件后,对每个中事件采样多个小事件,再对每个小事件采样若干样本数据,从而保证每个样本数据在核心词粒度、中事件粒度、小事件粒度都有正样本对以及负样本对。
可选地,困难样本包括困难正样本以及困难负样本,困难正样本用于指示在所有正样本数据中,与锚点数据欧式距离最大的正样本数据;困难负样本用于指示在所有负样本数据中,与锚点数据欧式距离最小的负样本数据。
示意性的,首先选择一个样本数据作为锚点数据。在第一层事件属性下,困难样本中的困难正样本是与锚点数据欧式距离最远的正样本数据,该正样本数据与锚点数据均具有第一层事件属性;困难样本中的困难负样本是与锚点数据欧式距离最近的负样本数据,该负样本数据不具有第一层事件属性;或者,在第二层事件属性下,困难样本中的困难正样本是与锚点数据欧式距离最远的正样本数据,该正样本数据与锚点数据均具有第二层事件属性;困难样本中的困难负样本是与锚点数据欧式距离最近的负样本数据,该负样本数据不具有第二层事件属性;在第三层事件属性下,困难样本中的困难正样本是与锚点数据欧式距离最远的正样本数据,该正样本数据与锚点数据均具有第三层事件属性;困难样本中的困难负样本是与锚点数据欧式距离最近的负样本数据,该负样本数据不具有第三层事件属性。
以上仅为示意性的举例,本申请实施例对此不加以限定。
示意性的,以小事件粒度为例,困难样本的选择如下:在一个batch中,分别把每个样本数据作为锚点数据,与该锚点数据属于同一个小事件的样本数据为该锚点数据对应的正样本数据,而其余样本数据为该锚点数据对应的负样本数据,在所有的正样本数据中选择一个与该锚点数据向量表示距离最远的作为其困难正样本对在所有的负样本数据中选择一个与该锚点数据向量表示距离最近的作为其困难负样本对利用这三个样本计算该视频的硬三重态损耗(hard triplet loss)。在中事件粒度和核心词粒度执行同样的操作,基于上述方式,选出中事件粒度和核心词粒度中的困难正负样本对,并使用相应的三元组计算对应粒度上的损失值(loss)。
可选地,基于三个粒度上损失值的计算结果,将三个loss进行融合,即:上述损失函数中的相加运算,得到锚点数据对应的损失值。
步骤670,通过损失值对候选模型进行训练,得到数据信息识别模型。
其中,数据信息识别模型用于对目标数据进行信息识别,得到与目标数据的时间属性关联的数据。
在一个可选的实施例中,基于损失值,对候选模型的模型参数进行调整,得到候选识别模型;响应于基于损失值对候选识别模型的训练达到训练目标,获取数据信息识别模型。
示意性的,以降低损失值为目标对候选模型的模型参数进行调整,如:采用反向传播算法降低损失值等。
可选地,基于一个锚点数据对应的损失值,可以对候选模型的模型参数进行至少一次调整,当存在多个锚点数据时,需要对候选模型的模型参数进行多次调整。对候选模型的模型参数进行调整的目的在于得到训练好的数据信息识别模型,示意性的,在对候选模型的模型参数进行调整从而得到数据信息识别模型的过程中,模型参数被调整但尚未达到数据信息识别模型条件的模型可以称为候选识别模型,即:候选识别模型为对候选模型的模型参数进行调整后得到的模型,因为尚未训练完毕,故候选识别模型为中间状态的模型。
示意性的,基于样本三元组对候选模型进行训练的过程中,以每个锚点数据对候选模型进行一次训练为前提,对候选模型进行训练。例如:基于不同层级的事件属性确定第一样本三元组以及第二样本三元组,基于第一样本三元组以及第二样本三元组对应的锚点数据,确定第一样本三元组对应的第一损失值以及第二样本三元组对应的第二损失值,将第一损失值和第二损失值进行融合后得到该锚点数据对应的损失值;之后,以损失值对候选模型的模型参数进行调整后,得到候选识别模型。可选地,同一个锚点数据也可以对候选模型进行多次训练,以上仅为示意性的举例,本申请实施例对此不加以限定。
可选地,在通过损失值对候选识别模型进行训练的过程中,会因为对候选识别模型的训练达到训练目标而得到数据信息识别模型,示意性的,训练目标至少包括如下一种情况。
1、响应于损失值达到收敛状态,将最近一次迭代训练得到的候选识别模型作为数据信息识别模型。
示意性的,损失值达到收敛状态用于指示通过损失函数得到的损失值的数值不再变化或者变化幅度小于预设阈值。
2、响应于损失值的获取次数达到次数阈值,将最近一次迭代训练得到的候选识别模型作为数据信息识别模型。
示意性的,一次获取可以得到一个损失值,预先设定用于训练候选模型的损失值的获取次数,当一个锚点数据对应一个损失值时,损失值的获取次数即为锚点数据的个数;或者,当一个锚点数据对应多个损失值时,损失值的获取次数即为损失值的个数。例如:预先设定一次获取可以得到一个损失值,损失值获取的次数阈值为10次,即当达到获取次数阈值时,将最近一次损失值调整的候选识别模型作为数据信息识别模型,或者将损失值10次调整过程中最小损失值调整的候选识别模型作为数据信息识别模型,实现对候选模型的训练过程。
综上所述,根据事件属性的从属关系对样本数据集中的样本数据进行划分,得到不同层级事件属性对应的样本三元组。以样本三元组对候选模型进行训练,得到数据信息识别模型,用于得到与目标数据的事件属性关联的数据。通过上述方法使用样本数据对候选模型进行训练的过程中,在考虑样本数据对应的事件属性的同时,考虑了多层事件属性对候选模型的影响,根据不同层级事件属性对应的样本三元组对候选模型进行训练,使得训练得到的数据信息识别模型蕴含至少两层具有从属关系的事件属性,使得数据信息识别模型在应用时,能够得到至少两层事件属性对应的数据,提高数据的获取量。
在本申请实施例中,基于事件属性的从属关系对样本数据集中的样本数据进行分析,从样本数据集中确定锚点数据后,在第一层事件属性下确定至少一个第一样本三元组,在第二层事件属性下确定至少一个第二样本三元组;以第一样本三元组与第二样本三元组对确定候选模型的损失值,通过损失值对候选模型进行训练,得到用于对目标数据进行数据识别的数据信息识别模型。通过上述方法,得到不同层级下锚点数据对应的多个损失值,将多个损失值进行融合后对候选模型进行训练,可以使得训练好的数据信息识别模型蕴含多个层级的事件属性,且对不同层级的事件属性具有较精准、全面地判断,使得根据目标数据能够获取更多角度的数据。
在一个可选的实施例中,通过特征提取方式对样本数据进行分析,将上述数据信息识别方法应用于视频信息识别领域。示意性的,如图7所示,上述图2所示出的实施例还可以实现为如下步骤710至步骤730。
步骤710,获取样本数据集。
其中,样本数据集中包括样本数据,样本数据对应至少两层具有从属关系的事件属性,事件属性为样本数据对应的属性,可以用于指示样本数据所包含的事件信息。示意性的,样本数据为样本视频或者样本文章,其中,样本文本对应的样本数据集为样本文章集。
可选地,样本视频对应的样本数据集为样本视频集,样本视频集是根据样本视频与事件属性之间的关系获取得到的。示意性的,确定至少一个第一层事件属性,该第一层事件属性用于指示一个较大范围的事件属性,且该第一层事件属性下包括至少两个从属的第二层事件属性,该第二层事件属性用于指示一个较小范围的事件属性,之后,从第二层事件属性下获取样本视频。
示意性的,样本视频集是从T新闻网站上获取的样本视频的集合。T新闻网站上包括多个热点新闻,若选择对热点新闻Z进行分析,将热点新闻Z对应的事件属性作为第一层事件属性;通过对热点新闻Z进行点击后,显示从属于该热点新闻Z的多个子新闻事件,如:多个子新闻事件包括子新闻事件z1、子新闻事件z2以及子新闻事件z3,其中,多个子新闻事件即具有第二层事件属性;例如:通过对子新闻事件z1进行点击后,显示从属于该子新闻事件z1的多个相关视频,将该相关视频作为样本视频,并基于至少一个样本视频组成样本视频集。
可选地,样本文章对应的样本数据集为样本文章集,样本文章集是根据样本文章与事件属性之间的关系获取得到的。示意性的,确定至少一个第一层事件属性,该第一层事件属性用于指示一个较大范围的事件属性,且该第一层事件属性下包括至少两个从属的第二层事件属性,该第二层事件属性用于指示一个较小范围的事件属性,之后,从第二层事件属性下获取样本文章。
示意性的,如图8所示,样本文章集是从T网站上获取的样本文章的集合。T网站上包括多个事件版块,如:热点事件、热点中事件810、热点大事件等。若选择对热点中事件810进行分析,将热点中事件810对应的事件属性作为第一层事件属性;通过对热点中事件810进行点击后,显示从属于该热点中事件810的多个下属子事件,如子事件1(编号1)、子事件2(编号2)、子事件3(编号3)等,其中,多个子事件即具有第二层事件属性,多个子事件依照热度或者首字母的顺序在下属子事件820中排列。示意性的,基于对任意一个子事件进行点击后,显示该子事件对应的多篇相关文章,例如:对子事件1(编号1)进行点击后,显示子事件1对应的相关信息,如:热度趋势、内容生产、内容消费、相关文章830等。相关文章830属于子事件1,且属于热点中事件,即:相关文章830下的多篇文章均具有第一层事件属性以及第二层事件属性。可选地,将上述相关文章中的至少一篇文章作为样本文章,并基于至少一个样本文章组成样本文章集。
在一个可选的实施例中,在样本数据集构建阶段,采用已有的中事件—小事件—样本数据(视频、文章等)结构关系拉取足够的样本数据,同时保留样本数据与事件之前的对应关系,以及中时间和小事件之间的对应关系。可选地,从中事件的标题中获取其中的主体词和动作词作为核心词,并将核心词作为一种样本约束。通过上述方法,样本数据与小事件的对应关系、小事件与中事件的对应关系、中事件与核心词的对应关系均会在模型训练过程中发挥作用。
步骤720,通过候选模型对样本数据进行特征提取,得到样本数据对应的向量表示。
示意性的,根据样本数据的种类差异,对样本数据进行不同形式的特征提取,以样本数据为样本视频为例进行说明。
可选地,对样本视频对应的视频标题进行文本分析,得到样本视频对应的文本特征;基于样本视频中的视频帧对样本视频进行特征提取,得到样本视频对应的视频特征;将视频特征和文本特征融合,得到样本三元组中样本视频分别对应的向量表示。
示意性的,样本视频是由多个视频帧组成的视频,以视频帧为单位对样本视频进行特征提取,可以得到样本视频对应的视频特征。
在一个可选的实施例中,对样本视频中的视频帧进行特征提取,得到样本视频对应的视觉特征;对样本视频中的视频帧进行平均化操作,得到样本视频对应的平均特征;将视觉特征和平均特征进行融合,得到样本视频对应的视频特征。
可选地,基于轻量型网络(MobileNetV2)计算得到视频帧特征序列。其中,MobileNetV2是一种轻量级卷积神经网络,具有较好的计算效率和计算效果。MobileNetV2网络的基本单元为瓶颈剩余块(Bottleneck residual block)结构,如表1所示,为Bottleneck residual block结构。
表1
其中,h为图像高度,w为图像宽度,k为特征通道数,s为步长,t为扩张因子。
如表2所示,为MobileNetV2的整体结构。
表2
其中,t列表示扩张因子,c列表示通道数,n列表示对应基础结构的堆叠次数,s列表示步长。由表2所示,MobileNetV2的第一层卷积是一个32个卷积核的标准卷积,接下来是堆叠的Bottleneck residual block。
可选地,将MobileNetV2网络中倒数第二层的输出作为视频帧特征序列,即每个视频帧的表示为一个1280维的向量。整个模型是在ImageNet数据集上预训练得到的,在计算视频帧的过程中直接加载该预训练参数,并将该部分神经网络的所有参数固定,在后续的视频表示模型训练过程中不再对MobileNetV2的网络参数进行修正。示意性的,将视频帧特征序列通过全连接层(Fully Connected layer,FC1),将MobileNetV2网络输出的1280维视频帧特征序列转换成与文本特征同样的长度,得到视觉特征序列。
可选地,将视频帧特征序列通过池化层,对视频帧特征序列进行均值池化,并将均值池化后的结果通过另一个全连接层(FC2),得到视频帧特征的平均池化结果——平均特征。将平均特征与视觉特征进行进一步的融合,获得样本视频对应的视频特征。
在一个可选的实施例中,图4中所示出的多模变压器编码部分(Multi-modelTransformer Encoder)采用Transformer编码结构。如图9所示,为多模变压器编码部分中的核心模块910,示意性的,核心模块910的不同堆叠层数会使得Transformer编码结构有对应的堆叠层数,使得多模变压器编码部分产生不同的效果,当将核心模块910堆叠12次,得到12层的Transformer编码结构。
可选地,在得到视频特征和文本特征后,将视频特征与文本特征进行融合,经过另一个全连接层(FC3),得到锚点视频对应的锚点向量,正样本视频对应的正样本向量以及负样本视频对应的负样本向量。
步骤730,基于事件属性的从属关系和向量表示,确定样本三元组。
基于上述得到对样本数据进行特征提取后,得到样本数据对应的向量表示,向量表示包括:锚点数据对应的锚点向量、正样本数据对应的正样本向量以及负样本数据对应的负样本向量。示意性的,将样本数据集中的每一个样本数据作为一个锚点数据,依次确定当不同样本数据为锚点数据时,该锚点数据对应的正样本数据和负样本数据。
在一个可选的实施例,事件属性包括至少两层,分别为第一层事件属性和第二层事件属性,其中,第二层事件属性从属于第一层事件属性。在基于不同层级的事件属性下,当根据锚点数据确定正样本数据和负样本数据时,得到的正样本数据和负样本数据存在差异。
示意性的,T新闻热点中台的事件构成主要有小事件—中事件—核心词三个层级,以小事件、中事件和核心词为例进行说明,其中,核心词对应上述第一层事件属性、中事件对应上述第二层事件属性,小事件对应上述第三层事件属性,核心词与中事件之间具有从属关系,小事件与中事件之间具有从属关系,例如:一个核心词下包括多个中事件,一个中事件下包含若干个小事件。可选地,每个小事件又会有一系列的相关数据(例如:文章数据、视频数据、图片数据等)。基于核心词—中事件关系、中事件—小事件关系及小事件—数据的相关关系,建立数据与中事件的相关关系,之后利用上述三层事件属性的从属关系构建三个层级的三元组样本。
可选地,在针对中事件层级(第一层事件属性)进行分析时,将锚点数据所从属的第一层事件属性作为目标事件属性,根据上述方法,判断目标事件属性下锚点数据对应的正样本数据和负样本数据。
可选地,在确定锚点数据、正样本数据与负样本数据后,根据锚点数据与正样本数据的关联度,以及锚点数据与负样本数据的关联度,确定用于对候选模型进行训练的样本三元组。
步骤740,基于样本三元组对候选模型进行训练,得到数据信息识别模型。
可选地,通过上述样本三元组的构成方法,根据不同层级事件属性确定不同的样本三元组,以不同的样本三元组对候选模型进行训练。示意性的,第一层事件属性下构成第一样本三元组,第二层事件属性下构成第二样本三元组,第三层事件属性下构成第三样本三元组,将第一样本三元组、第二样本三元组以及第三样本三元组通过损失函数,计算得到第一样本三元组对应的第一损失值、第二样本三元组对应的第二损失值以及第三样本三元组对应的第三损失值,将第一损失值、第二损失值以及第三损失值融合后,得到损失值,以损失值对候选模型进行训练,得到数据信息识别模型。其中,数据信息识别模型用于对目标数据进行信息识别,得到与目标数据的事件属性关联的数据。
可选地,将上述数据信息识别模型应用于相关视频召回领域中,应用过程如图10所示。
示意性的,具有事件属性的数据信息识别模型1010从封闭域1020下载视频,通过数据信息识别模型1010中的帧特征计算模型1030对数据源(Kafka)传入的视频进行下载并解码,并得到视频对应的帧特征序列1040,之后,将帧特征序列1040写入远程字典服务(Remote Dictionary Server,Redis)缓存。在数据信息识别模型1010接收到请求方1050发送的请求后,数据信息识别模型1010从Redis中查询帧特征序列1040,将帧特征序列1040与视频标题的文本特征处理后得到视频向量,并视频向量对应的结果返回请求方1010。
在一个可选的实施例中,在考虑到将数据信息识别模型1010进行应用时整个流程的处理速度与模型效果,可以对上述串行的处理流程进行优化。示意性的,将视频帧特征计算过程与视频表示向量计算过程进行解耦,解耦后帧特征计算模型1030直接从Kafka数据源接入视频流水,对所有的视频提前计算下载视频并解码,使用帧特征计算模型1030得到视频的帧特征序列1040,并将帧特征序列1040写入Redis缓存。在线上服务过程中,响应于接收到请求方1050发送的请求后,数据信息识别模型1010从Redis中查询视频帧特征,同时与视频标题的文本特征一起处理后得到视频表示向量,并将结果返回请求方1050。
综上所述,根据事件属性的从属关系对样本数据集中的样本数据进行划分,得到不同层级事件属性对应的样本三元组。以样本三元组对候选模型进行训练,得到数据信息识别模型,用于得到与目标数据的事件属性关联的数据。通过上述方法使用样本数据对候选模型进行训练的过程中,在考虑样本数据对应的事件属性的同时,考虑了多层事件属性对候选模型的影响,根据不同层级事件属性对应的样本三元组对候选模型进行训练,使得训练得到的数据信息识别模型蕴含至少两层具有从属关系的事件属性,使得数据信息识别模型在应用时,能够得到至少两层事件属性对应的数据,提高数据的获取量。
在本申请实施例中,以特征提取方式对样本数据进行分析为例进行说明。通过候选模型对样本数据集中的样本数据进行特征提取,得到样本数据对应的向量表示。根据样本数据的类型不同,对样本数据的特征提取方式可以灵活变动。基于事件属性的从属关系和样本数据对应的向量表示,确定样本三元组,以样本三元组对候选模型进行训练,可以使得训练好的数据信息识别模型根据样本数据的类型以及样本数据事件属性的层级关系,对不同层级的事件属性具有较精准、全面地判断,使得根据目标数据能够获取更多角度的数据。
图11是本申请一个示例性实施例提供的数据信息识别装置的结构框图,如图11所示,该装置包括如下部分:
获取模块1110,用于获取样本数据集,所述样本数据集中包括样本数据,所述样本数据对应至少两层具有从属关系的事件属性;
确定模块1120,用于基于所述事件属性的从属关系确定样本三元组,所述样本三元组中包括锚点数据、正样本数据和负样本数据,所述锚点数据与所述正样本数据在所述从属关系中属于同一事件属性,所述锚点数据与所述负样本数据在所述从属关系中属于不同事件属性;
训练模块1130,用于基于所述样本三元组对候选模型进行训练,得到数据信息识别模型,所述数据信息识别模型用于对目标数据进行信息识别,得到与所述目标数据的事件属性关联的数据。
在一个可选的实施例中,所述确定模块1120用于从所述样本数据集中确定所述锚点数据;基于所述事件属性的从属关系,从所述样本数据集中确定与所述锚点数据属于同一事件属性的数据作为所述正样本数据;基于所述事件属性的从属关系,从所述样本数据集中确定与所述锚点数据属于不同事件属性的数据作为所述负样本数据;基于所述锚点数据、所述正样本数据和所述负样本数据确定所述样本三元组。
在一个可选的实施例中,所述装置还用于确定所述从属关系中所述锚点数据所属的目标事件属性;
所述确定模块1120还用于从所述样本数据集中确定属于所述目标事件属性的数据作为所述正样本数据;从所述样本数据集中确定属于除所述目标事件属性以外的其他事件属性的数据作为所述负样本数据。
在一个可选的实施例中,所述获取模块1110还用于确定第一层事件属性;基于所述第一层事件属性,获取至少两个第二层事件属性,所述第一层事件属性包括至少两个从属的第二层事件属性;从所述至少两个从属的第二层事件属性下分别获取至少两个所述样本数据;基于所述样本数据获取所述样本数据集。
在一个可选的实施例中,所述事件属性的从属关系中包括从属的至少三层事件属性;
所述确定模块1120还用于基于所述事件属性的从属关系,确定与所述锚点数据在第一层事件属性下对应的至少一个第一样本三元组,其中,所述锚点数据属于所述第一层事件属性;基于所述事件属性的从属关系,确定与所述锚点数据在第二层事件属性下对应的至少一个第二样本三元组,其中,所述锚点数据属于所述第二层事件属性;基于所述事件属性的从属关系,确定与所述锚点数据在第三层事件属性下对应的至少一个第三样本三元组,其中,所述锚点数据属于所述第三层事件属性。
在一个可选的实施例中,所述装置还用于通过所述候选模型对所述样本数据进行事件关联度分析,得到所述样本数据之间的事件关联度;
所述确定模块1120还用于基于所述第一层事件属性下的样本数据与所述锚点数据之间的事件关联度,以及与所述第一层事件属性同层的其他事件属性下的样本数据与所述锚点数据之间的事件关联度,确定与所述锚点数据在第一层事件属性下对应的至少一个第一样本三元组;基于所述第二层事件属性下的样本数据与所述锚点数据之间的事件关联度,以及与所述第二层事件属性同层的其他事件属性下的样本数据与所述锚点数据之间的事件关联度,确定与所述锚点数据在第二层事件属性下对应的至少一个第二样本三元组;基于所述第三层事件属性下的样本数据与所述锚点数据之间的事件关联度,以及与所述第三层事件属性同层的其他事件属性下的样本数据与所述锚点数据之间的事件关联度,确定与所述锚点数据在第三层事件属性下对应的至少一个第三样本三元组。
如图12所示,在一个可选的实施例中,所述装置还包括:
提取模块1140,用于通过所述候选模型对所述样本数据集中的样本数据进行特征提取,得到所述样本数据对应的向量表示;
关联度确定模块1150,用于基于所述样本数据对应的向量表示在向量空间中的距离关系,得到所述样本数据之间的事件关联度。
在一个可选的实施例中,所述训练模块1130还用于基于所述第一样本三元组,确定所述第一层事件属性对应的第一损失值;基于所述第二样本三元组,确定所述第二层事件属性对应的第二损失值;基于所述第三样本三元组,确定所述第三层事件属性对应的第三损失值;将所述第一损失值、所述第二损失值以及所述第三损失值进行融合,得到所述候选模型的损失值;以所述损失值对所述候选模型进行训练,得到数据信息识别模型。
在一个可选的实施例中,所述提取模块1140还用于对所述样本数据进行预处理,得到所述样本数据对应的特征表示;通过所述候选模型对所述特征表示进行特征提取,得到所述样本数据对应的向量表示。
在一个可选的实施例中,所述样本数据包括样本视频;
所述提取模块1140还用于对所述样本视频对应的视频标题进行文本分析,得到所述样本视频对应的文本特征;对所述样本视频中的视频帧进行特征提取,得到所述样本视频对应的视频特征;将所述视频特征和所述文本特征融合,得到所述样本视频对应的向量表示。
在一个可选的实施例中,所述关联度确定模块1150还用于对所述样本视频中的视频帧进行特征提取,得到样本视频对应的视觉特征;对所述样本视频中的视频帧进行平均化操作,得到所述样本视频对应的平均特征;将所述视觉特征和所述平均特征进行融合,得到所述样本视频对应的视频特征。
在一个可选的实施例中,所述装置还用于对所述目标数据进行特征提取,得到所述目标数据对应的目标向量;基于所述目标向量,确定与所述目标数据的事件属性关联的数据。
需要说明的是:上述实施例提供的数据信息识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据信息识别装置与数据信息识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图13示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1300包括中央处理单元(Central Processing Unit,CPU)1301、包括随机存取存储器(RandomAccess Memory,RAM)1302和只读存储器(Read Only Memory,ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。服务器1300还包括用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1306。
大容量存储设备1306通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。大容量存储设备1306及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说,大容量存储设备1306可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1306可以统称为存储器。
根据本申请的各种实施例,服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的数据信息识别方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的数据信息识别方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的数据信息识别方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (16)
1.一种数据信息识别方法,其特征在于,所述方法包括:
获取样本数据集,所述样本数据集中包括样本数据,所述样本数据对应至少两层具有从属关系的事件属性;
基于所述事件属性的从属关系确定样本三元组,所述样本三元组中包括锚点数据、正样本数据和负样本数据,所述锚点数据与所述正样本数据在所述从属关系中属于同一事件属性,所述锚点数据与所述负样本数据在所述从属关系中属于不同事件属性;
基于所述样本三元组对候选模型进行训练,得到数据信息识别模型,所述数据信息识别模型用于对目标数据进行信息识别,得到与所述目标数据的事件属性关联的数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述事件属性的从属关系确定样本三元组,包括:
从所述样本数据集中确定所述锚点数据;
基于所述事件属性的从属关系,从所述样本数据集中确定与所述锚点数据属于同一事件属性的数据作为所述正样本数据;
基于所述事件属性的从属关系,从所述样本数据集中确定与所述锚点数据属于不同事件属性的数据作为所述负样本数据;
基于所述锚点数据、所述正样本数据和所述负样本数据确定所述样本三元组。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
确定所述从属关系中所述锚点数据所属的目标事件属性;
所述基于所述事件属性的从属关系,从所述样本数据集中确定与所述锚点数据属于同一事件属性的数据作为所述正样本数据,包括:
从所述样本数据集中确定属于所述目标事件属性的数据作为所述正样本数据;
所述基于所述事件属性的从属关系,从所述样本数据集中确定与所述锚点数据属于不同事件属性的数据作为所述负样本数据,包括:
从所述样本数据集中确定属于除所述目标事件属性以外的其他事件属性的数据作为所述负样本数据。
4.根据权利要求1至3任一所述的方法,其特征在于,所述获取样本数据集,包括:
确定第一层事件属性;
基于所述第一层事件属性,获取至少两个第二层事件属性,所述第一层事件属性包括至少两个从属的第二层事件属性;
从所述至少两个从属的第二层事件属性下分别获取至少两个所述样本数据;
基于所述样本数据获取所述样本数据集。
5.根据权利要求1至3任一所述的方法,其特征在于,所述事件属性的从属关系中包括从属的至少三层事件属性;
所述基于所述事件属性的从属关系确定样本三元组,包括:
基于所述事件属性的从属关系,确定与所述锚点数据在第一层事件属性下对应的至少一个第一样本三元组,其中,所述锚点数据属于所述第一层事件属性;
基于所述事件属性的从属关系,确定与所述锚点数据在第二层事件属性下对应的至少一个第二样本三元组,其中,所述锚点数据属于所述第二层事件属性;
基于所述事件属性的从属关系,确定与所述锚点数据在第三层事件属性下对应的至少一个第三样本三元组,其中,所述锚点数据属于所述第三层事件属性。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
通过所述候选模型对所述样本数据进行事件关联度分析,得到所述样本数据之间的事件关联度;
所述基于所述事件属性的从属关系,确定与所述锚点数据在第一层事件属性下对应的至少一个第一样本三元组,包括:
基于所述第一层事件属性下的样本数据与所述锚点数据之间的事件关联度,以及与所述第一层事件属性同层的其他事件属性下的样本数据与所述锚点数据之间的事件关联度,确定与所述锚点数据在第一层事件属性下对应的至少一个第一样本三元组;
所述基于所述事件属性的从属关系,确定与所述锚点数据在第二层事件属性下对应的至少一个第二样本三元组,包括:
基于所述第二层事件属性下的样本数据与所述锚点数据之间的事件关联度,以及与所述第二层事件属性同层的其他事件属性下的样本数据与所述锚点数据之间的事件关联度,确定与所述锚点数据在第二层事件属性下对应的至少一个第二样本三元组;
所述基于所述事件属性的从属关系,确定与所述锚点数据在第三层事件属性下对应的至少一个第三样本三元组,包括:
基于所述第三层事件属性下的样本数据与所述锚点数据之间的事件关联度,以及与所述第三层事件属性同层的其他事件属性下的样本数据与所述锚点数据之间的事件关联度,确定与所述锚点数据在第三层事件属性下对应的至少一个第三样本三元组。
7.根据权利要求6所述的方法,其特征在于,所述通过所述候选模型对所述样本数据进行事件关联度分析,得到所述样本数据之间的事件关联度,包括:
通过所述候选模型对所述样本数据集中的样本数据进行特征提取,得到所述样本数据对应的向量表示;
基于所述样本数据对应的向量表示在向量空间中的距离关系,得到所述样本数据之间的事件关联度。
8.根据权利要求5所述的方法,其特征在于,所述基于所述样本三元组对候选模型进行训练,得到数据信息识别模型,包括:
基于所述第一样本三元组,确定所述第一层事件属性对应的第一损失值;
基于所述第二样本三元组,确定所述第二层事件属性对应的第二损失值;
基于所述第三样本三元组,确定所述第三层事件属性对应的第三损失值;
将所述第一损失值、所述第二损失值以及所述第三损失值进行融合,得到所述候选模型的损失值;
以所述损失值对所述候选模型进行训练,得到数据信息识别模型。
9.根据权利要求7所述的方法,其特征在于,所述通过所述候选模型对所述样本数据集中的样本数据进行特征提取,得到所述样本数据对应的向量表示,包括:
对所述样本数据进行预处理,得到所述样本数据对应的特征表示;
通过所述候选模型对所述特征表示进行特征提取,得到所述样本数据对应的向量表示。
10.根据权利要求9所述的方法,其特征在于,所述样本数据包括样本视频;
所述通过所述候选模型对所述样本数据集中的样本数据进行特征提取,得到所述样本数据对应的向量表示,包括:
对所述样本视频对应的视频标题进行文本分析,得到所述样本视频对应的文本特征;
对所述样本视频中的视频帧进行特征提取,得到所述样本视频对应的视频特征;
将所述视频特征和所述文本特征融合,得到所述样本视频对应的向量表示。
11.根据权利要求10所述的方法,其特征在于,所述对所述样本视频中的视频帧进行特征提取,得到所述样本视频对应的视频特征,包括:
对所述样本视频中的视频帧进行特征提取,得到样本视频对应的视觉特征;
对所述样本视频中的视频帧进行平均化操作,得到所述样本视频对应的平均特征;
将所述视觉特征和所述平均特征进行融合,得到所述样本视频对应的视频特征。
12.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述样本三元组对候选模型进行训练,得到数据信息识别模型之后,还包括:
对所述目标数据进行特征提取,得到所述目标数据对应的目标向量;
基于所述目标向量,确定与所述目标数据的事件属性关联的数据。
13.一种数据信息识别装置,其特征在于,所述装置包括:
获取模块,用于获取样本数据集,所述样本数据集中包括样本数据,所述样本数据对应至少两层具有从属关系的事件属性;
确定模块,用于基于所述事件属性的从属关系确定样本三元组,所述样本三元组中包括锚点数据、正样本数据和负样本数据,所述锚点数据与所述正样本数据在所述从属关系中属于同一事件属性,所述锚点数据与所述负样本数据在所述从属关系中属于不同事件属性;
训练模块,用于基于所述样本三元组对候选模型进行训练,得到数据信息识别模型,所述数据信息识别模型用于对目标数据进行信息识别,得到与所述目标数据的事件属性关联的数据。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的数据信息识别方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一所述的数据信息识别方法。
16.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至12任一所述的数据信息识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111664023.9A CN114329051B (zh) | 2021-12-31 | 2021-12-31 | 数据信息识别方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111664023.9A CN114329051B (zh) | 2021-12-31 | 2021-12-31 | 数据信息识别方法、装置、设备、存储介质及程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114329051A true CN114329051A (zh) | 2022-04-12 |
CN114329051B CN114329051B (zh) | 2024-03-05 |
Family
ID=81020434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111664023.9A Active CN114329051B (zh) | 2021-12-31 | 2021-12-31 | 数据信息识别方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114329051B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114740751A (zh) * | 2022-06-15 | 2022-07-12 | 新缪斯(深圳)音乐科技产业发展有限公司 | 基于人工智能的音乐场景识别方法及系统 |
CN116776160A (zh) * | 2023-08-23 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种数据处理方法和相关装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128552A1 (zh) * | 2017-12-29 | 2019-07-04 | Oppo广东移动通信有限公司 | 信息推送方法、装置、终端及存储介质 |
CN110458233A (zh) * | 2019-08-13 | 2019-11-15 | 腾讯云计算(北京)有限责任公司 | 混合粒度物体识别模型训练及识别方法、装置及存储介质 |
CN110990631A (zh) * | 2019-12-16 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 视频筛选方法、装置、电子设备和存储介质 |
CN111258995A (zh) * | 2020-01-14 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、存储介质及设备 |
WO2020147238A1 (zh) * | 2019-01-18 | 2020-07-23 | 平安科技(深圳)有限公司 | 关键词的确定方法、自动评分方法、装置、设备及介质 |
CN112966014A (zh) * | 2019-12-12 | 2021-06-15 | 阿里巴巴集团控股有限公司 | 查找目标对象的方法和装置 |
CN113298197A (zh) * | 2021-07-28 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 数据聚类方法、装置、设备及可读存储介质 |
CN113486833A (zh) * | 2021-07-15 | 2021-10-08 | 北京达佳互联信息技术有限公司 | 多模态特征提取模型训练方法、装置、电子设备 |
CN113569895A (zh) * | 2021-02-20 | 2021-10-29 | 腾讯科技(北京)有限公司 | 图像处理模型训练方法、处理方法、装置、设备及介质 |
CN113569740A (zh) * | 2021-07-27 | 2021-10-29 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 视频识别模型训练方法与装置、视频识别方法与装置 |
CN113762052A (zh) * | 2021-05-13 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 视频封面提取方法、装置、设备及计算机可读存储介质 |
KR20210151017A (ko) * | 2020-11-24 | 2021-12-13 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 검색 모델의 훈련 방법, 목표 대상의 검색 방법 및 그 장치 |
CN113822127A (zh) * | 2021-06-25 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、视频处理设备及存储介质 |
-
2021
- 2021-12-31 CN CN202111664023.9A patent/CN114329051B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128552A1 (zh) * | 2017-12-29 | 2019-07-04 | Oppo广东移动通信有限公司 | 信息推送方法、装置、终端及存储介质 |
WO2020147238A1 (zh) * | 2019-01-18 | 2020-07-23 | 平安科技(深圳)有限公司 | 关键词的确定方法、自动评分方法、装置、设备及介质 |
CN110458233A (zh) * | 2019-08-13 | 2019-11-15 | 腾讯云计算(北京)有限责任公司 | 混合粒度物体识别模型训练及识别方法、装置及存储介质 |
CN112966014A (zh) * | 2019-12-12 | 2021-06-15 | 阿里巴巴集团控股有限公司 | 查找目标对象的方法和装置 |
CN110990631A (zh) * | 2019-12-16 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 视频筛选方法、装置、电子设备和存储介质 |
CN111258995A (zh) * | 2020-01-14 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、存储介质及设备 |
KR20210151017A (ko) * | 2020-11-24 | 2021-12-13 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 검색 모델의 훈련 방법, 목표 대상의 검색 방법 및 그 장치 |
CN113569895A (zh) * | 2021-02-20 | 2021-10-29 | 腾讯科技(北京)有限公司 | 图像处理模型训练方法、处理方法、装置、设备及介质 |
CN113762052A (zh) * | 2021-05-13 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 视频封面提取方法、装置、设备及计算机可读存储介质 |
CN113822127A (zh) * | 2021-06-25 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、视频处理设备及存储介质 |
CN113486833A (zh) * | 2021-07-15 | 2021-10-08 | 北京达佳互联信息技术有限公司 | 多模态特征提取模型训练方法、装置、电子设备 |
CN113569740A (zh) * | 2021-07-27 | 2021-10-29 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 视频识别模型训练方法与装置、视频识别方法与装置 |
CN113298197A (zh) * | 2021-07-28 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 数据聚类方法、装置、设备及可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114740751A (zh) * | 2022-06-15 | 2022-07-12 | 新缪斯(深圳)音乐科技产业发展有限公司 | 基于人工智能的音乐场景识别方法及系统 |
CN114740751B (zh) * | 2022-06-15 | 2022-09-02 | 新缪斯(深圳)音乐科技产业发展有限公司 | 基于人工智能的音乐场景识别方法及系统 |
CN116776160A (zh) * | 2023-08-23 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种数据处理方法和相关装置 |
CN116776160B (zh) * | 2023-08-23 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 一种数据处理方法和相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114329051B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581510B (zh) | 分享内容处理方法、装置、计算机设备和存储介质 | |
US9449271B2 (en) | Classifying resources using a deep network | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN111680219A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN112231569B (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN110795657A (zh) | 文章推送及模型训练方法、装置、存储介质和计算机设备 | |
Wen et al. | Neural attention model for recommendation based on factorization machines | |
CN112989212B (zh) | 媒体内容推荐方法、装置和设备及计算机存储介质 | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN114329051B (zh) | 数据信息识别方法、装置、设备、存储介质及程序产品 | |
CN113239143B (zh) | 融合电网故障案例库的输变电设备故障处理方法及系统 | |
Wang et al. | News recommendation via multi-interest news sequence modelling | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN114282055A (zh) | 视频特征提取方法、装置、设备及计算机存储介质 | |
CN114201516A (zh) | 一种用户画像构建的方法、信息推荐的方法以及相关装置 | |
CN111930981A (zh) | 一种草图检索的数据处理方法 | |
CN117874234A (zh) | 基于语义的文本分类方法、装置、计算机设备及存储介质 | |
CN115640449A (zh) | 媒体对象推荐方法、装置、计算机设备和存储介质 | |
Liu | POI recommendation model using multi-head attention in location-based social network big data | |
CN116628232A (zh) | 标签确定方法、装置、设备、存储介质及产品 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 | |
Feng et al. | Research on Online Learners’ Course Recommendation System Based on Knowledge Atlas in Smart Education Cloud Platform | |
CN114662480B (zh) | 同义标签判断方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40072019 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |