CN114329003A - 媒体资源数据处理方法、装置、电子设备及存储介质 - Google Patents
媒体资源数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114329003A CN114329003A CN202111614658.8A CN202111614658A CN114329003A CN 114329003 A CN114329003 A CN 114329003A CN 202111614658 A CN202111614658 A CN 202111614658A CN 114329003 A CN114329003 A CN 114329003A
- Authority
- CN
- China
- Prior art keywords
- media resource
- sample data
- media
- alignment model
- pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 76
- 238000012545 processing Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000002372 labelling Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 32
- 230000000873 masking effect Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000007499 fusion processing Methods 0.000 description 7
- 230000002457 bidirectional effect Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种媒体资源数据处理方法、装置、电子设备及存储介质,所述方法包括:获取媒体资源的全量样本数据,全量样本数据包括已标注样本数据和未标注样本数据;通过已标注样本数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型;基于所述训练后媒体资源对齐模型对所述全量样本数据的处理结果,对所述全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇;基于所述多个聚类簇中的已标注的媒体资源对,对未标注的媒体资源对进行标注,并基于新增标注调整所述训练后的媒体资源对齐模型,得到目标媒体资源对齐模型,以对媒体资源对进行对齐识别。该方法可提高对媒体资源对的对齐识别结果的准确率。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种媒体资源数据处理方法、装置、电子设备、存储介质及计算机程序产品。
背景技术
媒体资源对齐的目的是判断来自多个信息源的媒体资源是否对应同一个对象。在人工智能领域中,经常需要进行媒体资源的对齐识别,以便于后续对来自不同信息源的媒体资源进行融合,从而对识别得到的对象进行特征标识。对齐识别结果的好坏直接影响后续的融合结果,因此,对齐识别方法的准确性至关重要。
目前,多源媒体资源对齐的主要方法是:基于人工设定的规则,对不同信息源的媒体资源进行对齐识别,然而媒体资源的信息丰富多样,这种方法识别的特征有限,难以获取准确的对齐结果。
发明内容
本公开提供一种媒体资源数据处理方法、装置、电子设备、存储介质及计算机程序产品,以至少解决相关技术中的媒体资源对的对齐结果准确度较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种媒体资源数据处理方法,包括:
获取媒体资源的全量样本数据;所述全量样本数据包括已标注样本数据和未标注样本数据,所述已标注样本数据和所述未标注样本数据均包括多组媒体资源对;
通过所述已标注样本数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型;
基于所述训练后媒体资源对齐模型对所述全量样本数据的处理结果,对所述全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇;
基于所述多个聚类簇中的已标注的媒体资源对,对未标注的媒体资源对进行标注,并基于新增标注调整所述训练后的媒体资源对齐模型,得到目标媒体资源对齐模型,所述目标媒体资源对齐模型,用于对媒体资源对进行对齐识别。
在一示例性实施例中,所述基于所述多个聚类簇中的已标注的媒体资源对,对未标注的媒体资源对进行标注,并基于新增标注调整所述训练后的媒体资源对齐模型,得到目标媒体资源对齐模型,包括:
针对任一个聚类簇,若所述聚类簇中包含已标注媒体资源对和未标注媒体资源对,则通过所述已标注媒体资源对的标签,对所述聚类簇中未标注的媒体资源对进行标注,得到新标注的媒体资源对;
将所述新标注的媒体资源对作为新的已标注样本数据,以及将所述训练后媒体资源对齐模型作为新的当前媒体资源对齐模型,返回所述通过所述已标注样本数据对当前媒体资源对齐模型进行训练的步骤,直到各个所述聚类簇中的媒体资源对均已被标注,得到目标媒体资源对齐模型。
在一示例性实施例中,在通过所述已标注样本数据对当前媒体资源对齐模型进行训练之前,还包括:
对所述已标注样本数据中的第一媒体资源对进行属性掩码处理,得到第一掩码数据;所述第一媒体资源对为所述已标注样本数据中的任一组媒体资源对;
所述通过所述已标注样本数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型,包括:
通过所述第一掩码数据对所述当前媒体资源对齐模型进行训练,得到所述训练后媒体资源对齐模型。
在一示例性实施例中,在基于新增标注调整所述训练后的媒体资源对齐模型,得到目标媒体资源对齐模型之后,还包括:
对所述已标注样本数据中的第二媒体资源对进行属性掩码处理,得到第二掩码数据,所述第二媒体资源对为所述已标注样本数据中除所述第一媒体资源对之外的任一媒体资源对;
将所述目标媒体资源对齐模型作为新的当前媒体资源对齐模型,返回所述通过所述已标注样本数据对当前媒体资源对齐模型进行训练的步骤;
其中,所述通过所述已标注样本数据对当前媒体资源对齐模型进行训练,包括:
通过所述第二掩码数据对所述当前媒体资源对齐模型进行训练,得到所述训练后媒体资源对齐模型。
在一示例性实施例中,所述基于所述训练后媒体资源对齐模型对所述全量样本数据的处理结果,对所述全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇,包括:
通过所述训练后媒体资源对齐模型,对所述全量样本数据中的各组媒体资源对进行对齐识别,得到各组媒体资源对的判别隐向量;
根据各个所述判别隐向量,对所述全量样本数据中的各组媒体资源对进行聚类处理,得到所述多个聚类簇。
在一示例性实施例中,所述通过所述训练后媒体资源对齐模型,对所述全量样本数据中的各组媒体资源对进行对齐识别,得到各组媒体资源对的判别隐向量,包括:
对所述全量样本数据中的各组媒体资源对的属性随机进行属性掩码处理,得到全量掩码数据;其中,每组所述媒体资源对均具有多个属性,每次掩码处理的属性不同;
通过所述训练后媒体资源对齐模型,对所述全量掩码数据中的各组媒体资源对进行对齐识别,得到各组媒体资源对的判别隐向量。
根据本公开实施例的第二方面,提供一种媒体资源数据处理方法,包括:
获取待识别媒体资源集合;所述待识别媒体资源集合中包括多个媒体资源;
通过媒体资源对齐模型对所述待识别媒体资源集合中的两两媒体资源组成的媒体资源对进行对齐识别,得到各组媒体资源对的对齐识别结果;所述对齐识别结果用于表征各组所述媒体资源对中两个媒体资源之间的相似度;所述媒体资源对齐模型通过权利要求1至6任一项所述的方法训练得到。
在一示例性实施例中,在所述通过媒体资源对齐模型对所述待识别媒体资源集合中的两两媒体资源组成的媒体资源对进行对齐识别之前,还包括:
对所述媒体资源对的属性信息中的结构化信息分别按照属性名和属性值的格式进行拼接处理,得到所述媒体资源对的文本特征;
所述通过媒体资源对齐模型对所述待识别媒体资源集合中的两两媒体资源组成的媒体资源对进行对齐识别,包括:
通过所述媒体资源对齐模型对所述媒体资源对的文本特征进行识别,得到第一识别结果,以及,对所述媒体资源对的属性信息中的非结构化信息进行识别,得到第二识别结果;
对所述第一识别结果和所述第二识别结果进行线性变换处理,得到所述媒体资源对的对齐识别结果。
在一示例性实施例中,所述获取待识别媒体资源集合,包括:
获取来自不同信息源的多个媒体资源的结构化信息和非结构化信息;
根据所述结构化信息或所述非结构化信息,将各个所述媒体资源划分至多个实体桶中,将每个所述实体桶中的媒体资源作为一个待识别媒体资源集合。
在一示例性实施例中,在所述得到各组媒体资源对的对齐识别结果之后,还包括:
根据各组所述媒体资源对的对齐识别结果,得到对应同一个对象的多个媒体资源;其中,对应同一个对象的各个媒体资源之间的相似度大于阈值;
对所述对应同一个对象的多个媒体资源进行特征融合处理,得到所述同一个对象的目标特征信息。
根据本公开实施例的第三方面,提供一种媒体资源数据处理装置,包括:
获取单元,被配置为执行获取媒体资源的全量样本数据;所述全量样本数据包括已标注样本数据和未标注样本数据,所述已标注样本数据和所述未标注样本数据均包括多组媒体资源对;
第一训练单元,被配置为执行通过所述已标注样本数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型;
聚类单元,被配置为执行基于所述训练后媒体资源对齐模型对所述全量样本数据的处理结果,对所述全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇;
第二训练单元,被配置为执行基于所述多个聚类簇中的已标注的媒体资源对,对未标注的媒体资源对进行标注,并基于新增标注调整所述训练后的媒体资源对齐模型,得到目标媒体资源对齐模型,所述目标媒体资源对齐模型,用于对媒体资源对进行对齐识别。
在一示例性实施例中,所述第二训练单元,还被配置为执行针对任一个聚类簇,若所述聚类簇中包含已标注媒体资源对和未标注媒体资源对,则通过所述已标注媒体资源对的标签,对所述聚类簇中未标注的媒体资源对进行标注,得到新标注的媒体资源对;将所述新标注的媒体资源对作为新的已标注样本数据,以及将所述训练后媒体资源对齐模型作为新的当前媒体资源对齐模型,返回所述通过所述已标注样本数据对当前媒体资源对齐模型进行训练的步骤,直到各个所述聚类簇中的媒体资源对均已被标注,得到目标媒体资源对齐模型。
在一示例性实施例中,所述装置还包括第一掩码单元,被配置为执行对所述已标注样本数据中的第一媒体资源对进行属性掩码处理,得到第一掩码数据;所述第一媒体资源对为所述已标注样本数据中的任一组媒体资源对;
所述第一训练单元,还被配置为执行通过所述第一掩码数据对所述当前媒体资源对齐模型进行训练,得到所述训练后媒体资源对齐模型。
在一示例性实施例中,所述第一掩码单元,还被配置为执行对所述已标注样本数据中的第二媒体资源对进行属性掩码处理,得到第二掩码数据,所述第二媒体资源对为所述已标注样本数据中除所述第一媒体资源对之外的任一媒体资源对;将所述目标媒体资源对齐模型作为新的当前媒体资源对齐模型,返回所述通过所述已标注样本数据对当前媒体资源对齐模型进行训练的步骤;
所述第一训练单元,还被配置为执行通过所述第二掩码数据对所述当前媒体资源对齐模型进行训练,得到所述训练后媒体资源对齐模型。
在一示例性实施例中,所述聚类单元,还被配置为执行通过所述训练后媒体资源对齐模型,对所述全量样本数据中的各组媒体资源对进行对齐识别,得到各组媒体资源对的判别隐向量;根据各个所述判别隐向量,对所述全量样本数据中的各组媒体资源对进行聚类处理,得到所述多个聚类簇。
在一示例性实施例中,所述装置还包括:
第二掩码单元,被配置为执行对所述全量样本数据中的各组媒体资源对的属性随机进行属性掩码处理,得到全量掩码数据;其中,每组所述媒体资源对均具有多个属性,每次掩码处理的属性不同;
对齐识别单元,被配置为执行通过所述训练后媒体资源对齐模型,对所述全量掩码数据中的各组媒体资源对进行对齐识别,得到各组媒体资源对的判别隐向量。
根据本公开实施例的第四方面,提供一种媒体资源数据处理装置,包括:
获取单元,被配置为执行获取待识别媒体资源集合;所述待识别媒体资源集合中包括多个媒体资源;
对齐单元,被配置为执行通过媒体资源对齐模型对所述待识别媒体资源集合中的两两媒体资源组成的媒体资源对进行对齐识别,得到各组媒体资源对的对齐识别结果;所述对齐识别结果用于表征各组所述媒体资源对中两个媒体资源之间的相似度;所述媒体资源对齐模型通过权利要求1至6任一项所述的方法训练得到。
在一示例性实施例中,所述对齐单元,还被配置为执行对所述媒体资源对的属性信息中的结构化信息分别按照属性名和属性值的格式进行拼接处理,得到所述媒体资源对的文本特征;通过所述媒体资源对齐模型对所述媒体资源对的文本特征进行识别,得到第一识别结果,以及,对所述媒体资源对的属性信息中的非结构化信息进行识别,得到第二识别结果;对所述第一识别结果和所述第二识别结果进行线性变换处理,得到所述媒体资源对的对齐识别结果。
在一示例性实施例中,所述获取单元,还被配置为执行获取来自不同信息源的多个媒体资源的结构化信息和非结构化信息;根据所述结构化信息或所述非结构化信息,将各个所述媒体资源划分至多个实体桶中,将每个所述实体桶中的媒体资源作为一个待识别媒体资源集合。
在一示例性实施例中,所述装置还包括融合单元,被配置为执行根据各组所述媒体资源对的对齐识别结果,得到对应同一个对象的多个媒体资源;其中,对应同一个对象的各个媒体资源之间的相似度大于阈值;对所述对应同一个对象的多个媒体资源进行特征融合处理,得到所述同一个对象的目标特征信息。
根据本公开实施例的第五方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上任一项所述的方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上任一项所述的方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行如上任一项所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在获取包括已标注样本数据和未标注样本数据的媒体资源的全量样本数据后,首先通过已标注样本数据进行预训练,得到训练后媒体资源对齐模型,然后根据训练后媒体资源对齐模型对全量样本数据中各组媒体资源对的处理结果,对各组媒体资源对进行聚类处理,得到多个聚类簇,最后根据各个聚类簇中已标注的媒体资源对,对未标注的媒体资源对进行标注,并根据新增标注对训练后媒体资源对齐模型进行调整,得到目标媒体资源对齐模型。该方法先采用少量的已标注样本数据预训练得到训练后媒体资源对齐模型,在更新产生更多有标签的样本数据后,将新标注的样本数据回流到预训练得到的训练后媒体资源对齐模型中再次训练,通过这种半监督方式的训练方式,可以产生更多的高质量的有标签的样本数据,进而提高所得到的媒体资源对齐模型的准召率,从而使得基于所得到的目标媒体资源对齐模型,对媒体资源对的对齐识别结果具有较高的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种媒体资源数据处理方法的流程示意图。
图2是根据一示例性实施例示出的一种媒体资源对齐模型的模型结构图。
图3是根据一示例性实施例示出的一种媒体资源对齐模型训练过程的流程图。
图4是根据另一示例性实施例示出的一种媒体资源数据处理方法的流程示意图。
图5是根据一示例性实施例示出的一种媒体资源融合方法的流程示意图。
图6是根据一示例性实施例示出的一种媒体资源数据处理装置的结构框图。
图7是根据另一示例性实施例示出的一种媒体资源数据处理装置的结构框图。
图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
还需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
在一示例性实施例中,如图1所示,提供了一种媒体资源数据处理方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
在步骤S110中,获取媒体资源的全量样本数据;全量样本数据包括已标注样本数据和未标注样本数据,已标注样本数据和未标注样本数据均包括多组媒体资源对。
其中,媒体资源可以为文本、图像、音频、视频等。
其中,媒体资源对包括有两个媒体资源,每个媒体资源可包含多个属性,每个属性的属性信息可包含有结构化信息和/或非结构化信息。例如,以影视剧作为媒体资源为例,一个影视剧通常包含影片名称、上映日期、导演、演员列表、影片描述、影片时长、影片集数、海报等属性,其中,海报为图像数据,为非结构化信息,其他为文本数据,为结构化信息。
其中,媒体资源对齐的目的是判断两个或多个不同信息来源的媒体资源是否为指向同一个对象,因此,对于媒体资源对齐模型的训练,训练数据为两个媒体资源组成的媒体资源对,如果一组媒体资源对的两个媒体资源指向为同一个对象,则可用第一标签进行标记,如标注1;如果一组媒体资源对的两个媒体资源指向为不同对象,则可用第二标签进行标记,如标注0。
具体实现中,可按一定比例,从不同信息源获取指向同一个对象的媒体资源对和指向不同对象的媒体资源对,组成样本数据,并对样本数据中的一部分媒体资源对进行标注,形成已标注样本数据,另一部分媒体资源对不进行标注,形成未标注样本数据,将已标注样本数据和未标注样本数据组成全量样本数据。
在步骤S120中,通过已标注样本数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型。
具体实现中,在得到已标注样本数据后,可以构建待训练的媒体资源对齐模型,通过已标注样本数据对待训练的媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型。
更具体地,由于媒体资源的属性信息可包括结构化信息和非结构化信息,基于该数据特点所构建的媒体资源对齐模型,可由用于进行结构化信息识别的文本分支模型和用于非结构化信息识别的图像分支模型组成。例如,参考图2,为一示例性实施例中媒体资源对齐模型的模型结构图,为一个多模态对齐模型,包括Resnet50模型和BERT模型两部分,分别用于图像输入和文本输入。其中,Resnet50模型(Residual Network)是一种残差网络,BERT模型(Bidirectional Encoder Representation from Transformers)是一种双向编码的预训练语言模型。模型的输入由两段文本组成,中间用[SEP]进行分割,将属性信息中的文本信息输入到BERT模型中,图像则直接输入到Resnet50模型中,最后将图像的输出和文本的输出连在一起经过线形层,经过损失函数完成分类。
可以理解的是,图2所示的媒体资源对齐模型仅用作示例说明,除图2所示的模型外,媒体资源对齐模型还可采用循环神经网络,如Bidirectional RNN(双向循环神经网络)、Deep(Bidirectional)RNN(深度(双向)循环神经网络)、LSTM(Long Short-TermMemory,长短期记忆网络),以及卷积神经网络(Convolutional Neural Network,CNN)等。
在步骤S130中,基于训练后媒体资源对齐模型对全量样本数据的处理结果,对全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇。
具体实现中,在通过已标注样本数据预训练得到训练后媒体资源对齐模型后,可将全量样本数据中的各组媒体资源对依次输入训练后媒体资源对齐模型,得到各组媒体资源对的对齐识别结果,基于该对齐识别结果对全量样本数据中的各组媒体资源对进行聚类处理,以将对齐识别结果相似的媒体资源对聚类到同一个聚类簇中,得到多个聚类簇,以便于后续可通过同一个聚类簇中已标注媒体资源对的标签对该同一个聚类簇中的未标注媒体资源对进行标注。
在步骤S140中,基于多个聚类簇中的已标注媒体资源对,对未标注媒体资源对进行标注,并基于新增标注调整训练后媒体资源对齐模型,得到目标媒体资源对齐模型,目标媒体资源对齐模型,用于对媒体资源对进行对齐识别。
其中,已标注媒体资源对具有对应的标签,该标签可以为用于表征媒体资源对的两个媒体资源指向为同一个对象的第一标签,或者为用于表征媒体资源对的两个媒体资源指向为不同对象的第二标签。
具体实现中,在得到多个聚类簇后,针对每一个聚类簇,可通过该聚类簇中已标注媒体资源对的标签对该聚类簇中的未标注媒体资源对进行标注,并将基于已标注媒体资源对的标签进行标注的未标注媒体资源对,作为新标注的媒体资源对,通过新标注的媒体资源对对步骤120中的训练后媒体资源对齐模型进行再次训练,得到目标媒体资源对齐模型,进一步可通过该目标媒体资源对齐模型对任两个媒体资源构成的媒体资源对进行对齐识别。
上述媒体资源数据处理方法中,在获取包括已标注样本数据和未标注样本数据的媒体资源的全量样本数据后,首先通过已标注样本数据进行预训练,得到训练后媒体资源对齐模型,然后根据训练后媒体资源对齐模型对全量样本数据中各组媒体资源对的处理结果,对各组媒体资源对进行聚类处理,得到多个聚类簇,最后根据各个聚类簇中已标注的媒体资源对,对未标注的媒体资源对进行标注,并根据新增标注对训练后媒体资源对齐模型进行调整,得到目标媒体资源对齐模型。该方法先采用少量的已标注样本数据预训练得到训练后媒体资源对齐模型,在更新产生更多有标签的样本数据后,将新标注的样本数据回流到预训练得到的训练后媒体资源对齐模型中再次训练,通过这种半监督方式的训练方式,可以产生更多的高质量的有标签的样本数据,进而提高所得到的媒体资源对齐模型的准召率,从而使得基于所得到的目标媒体资源对齐模型,对媒体资源对的对齐识别结果具有较高的准确性。
在一示例性实施例中,上述步骤S140可以通过下述步骤实现:
步骤S140a,针对任一个聚类簇,若聚类簇中包含已标注媒体资源对和未标注媒体资源对,则通过已标注媒体资源对的标签,对聚类簇中的未标注媒体资源对进行标注,得到新标注的媒体资源对;
步骤S140b,将新标注的媒体资源对作为新的已标注样本数据,以及将训练后媒体资源对齐模型作为新的当前媒体资源对齐模型,返回通过已标注样本数据对当前媒体资源对齐模型进行训练的步骤,直到各个聚类簇中的媒体资源对均已被标注,得到目标媒体资源对齐模型。
具体实现中,在聚类得到多个聚类簇后,可先判断各个聚类簇中是否有未标注媒体资源对和已标注媒体资源对,若一个聚类簇中只有未标注媒体资源对和已标注媒体资源对中的一种,则无需对该聚类簇进行处理。若一个聚类簇中既有未标注媒体资源对,也有已标注媒体资源对,则通过该聚类簇中的已标注媒体资源对的标签对未标注媒体资源对进行标注,得到新标注的媒体资源对。并将新标注的媒体资源对作为新的已标注样本数据,将训练后媒体资源对齐模型,作为新的当前媒体资源对齐模型,返回步骤S120-140,再次进行模型训练、聚类、基于聚类簇中的已标注媒体资源对,对未标注媒体资源对进行标注,以此类推,循环通过每次得到的新标注的媒体资源对,对基于前一次的新标注的媒体资源对训练得到的媒体资源对齐模型进行训练,直至各个聚类簇中的媒体资源对均已被标注,得到目标媒体资源对齐模型。
本实施例中,通过将每次产生的新标注的媒体资源对回流到前一次训练得到的训练后媒体资源对齐模型中再次训练,通过这种半监督方式的训练方式,可以产生更多的高质量的有标签的样本数据,从而可提高所得到的目标媒体资源对齐模型的准召率。
在一示例性实施例中,在上述步骤S120之前,还包括:对已标注样本数据中的第一媒体资源对进行属性掩码处理,得到第一掩码数据;第一媒体资源对为所述已标注样本数据中的任一组媒体资源对;
则上述步骤S120可包括:通过第一掩码数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型。
具体实现中,为了提高媒体资源对齐模型的泛化性,在通过已标注样本数据进行模型预训练之前,可对已标注样本数据进行属性掩码处理,得到掩码数据,通过掩码数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型。更具体地,可以在每次训练时选择一组媒体资源对,将该组媒体资源对中每个媒体资源的至少一个属性的属性信息进行掩码处理,将该组媒体资源对的保留属性信息与其他未被掩码处理的媒体资源对组成掩码数据。
例如,可将第一次从已标注样本数据中选择的媒体资源对,记为第一媒体资源对,对该第一媒体资源对的属性信息随机进行掩码处理,将掩码后的第一媒体资源对与其他未被掩码处理媒体资源对,作为第一掩码数据,通过第一掩码数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型。
进一步地,在一示例性实施例中,在步骤S140之后,还包括:对已标注样本数据中的第二媒体资源对进行属性掩码处理,得到第二掩码数据,第二媒体资源对为已标注样本数据中除第一媒体资源对之外的任一媒体资源对;将目标媒体资源对齐模型作为新的当前媒体资源对齐模型,返回通过已标注样本数据对当前媒体资源对齐模型进行训练的步骤;
对应的步骤S120可包括:通过第二掩码数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型。
具体实现中,当通过第一掩码数据训练执行一次步骤S120-步骤S140的循环后,将循环得到的目标对齐模型作为新的当前媒体资源对齐模型,并继续对已标注样本数据中的第二媒体资源对进行属性掩码处理,得到第二掩码数据,将第二掩码数据作为新的已标注样本数据,再次执行步骤S120-步骤S140的循环,直至已标注样本数据中的各组媒体资源对均执行过属性掩码处理,将最后一次循环得到的媒体资源对齐模型,作为训练完成的媒体资源对齐模型。
上述实施例中,通过对已标注样本数据中的各组媒体资源对进行属性掩码处理,根据掩码处理后的媒体资源对训练媒体资源对齐模型,使得训练完成的媒体资源对齐模型可以对属性信息不全的媒体资源对进行准确的对齐识别,提高所得到的媒体资源对齐模型的泛化性和准召率。
在一示例性实施例中,上述步骤S130中,基于训练后媒体资源对齐模型对全量样本数据的处理结果,对全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇,可以通过以下步骤实现:
步骤S130a,通过训练后媒体资源对齐模型,对全量样本数据中的各组媒体资源对进行对齐识别,得到各组媒体资源对的判别隐向量;
步骤S130b,根据各个判别隐向量,对全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇。
其中,判别隐向量可以理解为用于判定媒体资源对的两个媒体资源是否指向为同一个媒体资源的表征向量。
具体实现中,可以通过将全量样本数据中的各组媒体资源对的属性信息依次输入训练后媒体资源对齐模型中,并抽取训练后媒体资源对齐模型对各组媒体资源对进行对齐识别输出的负一层的隐向量,作为各组媒体资源对的判别隐向量。进一步基于各组媒体资源对的媒体资源对判别隐向量,采用如DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,一种基于密度的聚类算法)的聚类方法,对各组媒体资源对进行聚类处理,得到多个聚类簇。
在另一种实现方式中,也可以直接对各组媒体资源对的媒体资源对判别隐向量进行聚类处理,得到多个聚类簇。针对每一个聚类簇,判断该聚类簇中是否包含已标注媒体资源对和未标注媒体资源对,若包含,则通过已标注媒体资源对的标签对聚类簇中的未标注媒体资源对进行标注,得到新标注的媒体资源对。
需要说明的是,本实施例提出的DBSCAN聚类方法仅用于对本实施例的方案进行说明,实际应用中,也可以采用其它的聚类方法对各组媒体资源对进行聚类处理,本公开对此不作具体限制。
本实施例中,通过训练后媒体资源对齐模型对各组媒体资源对进行对齐识别输出的负一层的判别隐向量,对各组媒体资源对进行聚类,由于媒体资源对判别隐向量可以表征媒体资源对的两个媒体资源是否指向为同一个媒体资源,从而使得聚类得到的聚类簇中的各个媒体资源对之间的媒体资源对齐结果具有相似性,从而将同一个聚类簇中的媒体资源对打上同一个标签,得到新标注的媒体资源对,回流到媒体资源对齐模型中进行再次训练。
在一示例性实施例中,上述步骤S130a中,通过训练后媒体资源对齐模型,对全量样本数据中的各组媒体资源对进行对齐识别,得到各组媒体资源对的判别隐向量的步骤,包括:对全量样本数据中的各组媒体资源对的属性随机进行属性掩码处理,得到全量掩码数据;其中,每组媒体资源对均具有多个属性,每次掩码处理的属性不同;通过训练后媒体资源对齐模型,对全量掩码数据中的各组媒体资源对进行对齐识别,得到各组媒体资源对的判别隐向量。
具体实现中,为了进一步提高媒体资源对齐模型的泛化性,在获取全量样本数据中各组媒体资源对的媒体资源对判别隐向量时,还可以对全量样本数据中各组媒体资源对的至少一个属性的属性信息进行属性掩码处理,得到各组媒体资源对的掩码数据,组成全量掩码数据。将全量掩码数据中的各组媒体资源对的属性信息输入训练后媒体资源对齐模型中,抽取训练后媒体资源对齐模型对各组媒体资源对进行对齐识别输出的负一层的隐向量,作为掩码处理后的各组媒体资源对的媒体资源对判别隐向量。
本实施例中,在获取全量样本数据中各组媒体资源对的媒体资源对判别隐向量时,通过对全量样本数据中各组媒体资源对进行随机的属性掩码处理,得到全量掩码数据中各组媒体资源对的判别隐向量,进一步基于该媒体资源对判别隐向量对各组媒体资源对进行聚类和标注处理,对媒体资源对齐模型进行再训练,可以进一步提高训练得到的媒体资源对齐模型的泛化性。
在一示例性实施例中,为了便于本领域技术人员理解本申请实施例,以下将结合附图的具体示例进行说明。参考图3,为一个应用实例中媒体资源对齐模型训练过程的流程示意图,本实施例中,该方法包括以下步骤:
步骤S310,获取全量样本数据,将全量样本数据中的部分样本数据进行标注,部分样本数据不标注,得到已标注样本数据和未标注样本数据,其中,已标注样本数据和未标注样本数据均包括多组媒体资源对,每组媒体资源对的媒体资源的属性信息包括结构化信息和非结构化信息,非结构化信息包括纯文本信息和图片信息;
步骤S320,对已标注样本数据中的第一媒体资源对进行属性掩码处理,得到第一掩码数据,通过第一掩码数据训练得到训练后媒体资源对齐模型;
步骤S330,对全量样本数据中的各组媒体资源对随机进行属性掩码处理,得到全量掩码数据;
步骤S340,通过训练后媒体资源对齐模型,对全量掩码数据中的各组媒体资源对进行对齐识别,得到各组媒体资源对的判别隐向量;
步骤S350,根据各个判别隐向量,对全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇;
步骤S360,针对任一个聚类簇,若聚类簇中包含已标注媒体资源对和未标注媒体资源对,则通过已标注媒体资源对的标签对聚类簇中的未标注媒体资源对进行标注,得到新标注的媒体资源对;若聚类簇中不包含已标注媒体资源对,则不作处理;
步骤S370,根据新标注的媒体资源对,对步骤S320得到的训练后媒体资源对齐模型进行再次训练,直到未标注样本数据中媒体资源对均已被标注,得到通过第一掩码数据循环训练得到的目标媒体资源对齐模型;
步骤S380,对已标注样本数据中的第二媒体资源对进行属性掩码处理,得到第二掩码数据,并通过第二掩码数据对第一掩码数据训练得到的目标媒体资源对齐模型进行再次训练,直至已标注样本数据中的各组媒体资源对均执行过属性掩码处理,得到训练完成的媒体资源对齐模型。
本实施例提供的媒体资源数据处理方法,采取半监督学习方式,首先基于已标注样本数据,预训练一个媒体资源对齐模型,然后,预测未标注样本数据,且抽取全量样本数据的媒体资源对判别隐向量,基于聚类的方式将各个媒体资源对形成多个聚类簇,故可以将在同一个聚类簇内的样本打上同一个标签,并将新打上标签的未标注数据回流到媒体资源对齐模型中进行训练,可以解决训练数据不足,导致模型的判断力不高的问题;通过媒体资源对属性信息的非结构化信息中的图片信息及文本的语义信息,使比对的特征更加多样化,从而可以提高所得到的媒体资源对齐模型的识别准确率,克服单一来源的特征导致模型准确率低的缺陷;通过对媒体资源对属性信息的掩码处理,可以提高训练得到的媒体资源对齐模型的泛化能力。
在一示例性实施例中,如图4所示,提供了一种应用图1所示方法训练得到的媒体资源对齐模型的媒体资源数据处理方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S410,获取待识别媒体资源集合;待识别媒体资源集合中包括多个媒体资源;
步骤S420,通过媒体资源对齐模型对待识别媒体资源集合中的两两媒体资源组成的媒体资源对进行对齐识别,得到各组媒体资源对的对齐识别结果;对齐识别结果用于表征各组媒体资源对中两个媒体资源之间的相似度;媒体资源对齐模型通过上述实施例所述的方法训练得到。
具体实现中,在得到待识别媒体资源集合后,可以将每个媒体资源集合中的两两媒体资源组成一组媒体资源对,由此得到多组媒体资源对,将各组媒体资源对的属性信息依次输入媒体资源对齐模型中,使媒体资源对齐模型对各组媒体资源对进行对齐识别,得到各组媒体资源对的对齐识别结果,以便于根据该对齐识别结果确定各组媒体资源对是否指向为同一个对象,以便于后续进行媒体资源的融合处理。
本实施例提供的媒体资源数据处理方法,通过前述实施例训练得到的媒体资源对齐模型进行对齐识别,可以保证对各组媒体资源对的对齐齐识别结果的准确性。
在一示例性实施例中,在上述步骤S420之前,还包括:对媒体资源对的属性信息中的结构化信息分别按照属性名和属性值的格式进行拼接处理,得到媒体资源对的文本特征;上述步骤S420,具体包括:
步骤S420a,通过媒体资源对齐模型对媒体资源对的文本特征进行识别,得到第一识别结果,以及,对媒体资源对的属性信息中的非结构化信息进行识别,得到第二识别结果;
步骤S420b,对第一识别结果和第二识别结果进行线性变换处理,得到媒体资源对的对齐识别结果。
具体实现中,由于媒体资源对齐模型由用于进行结构化信息识别的文本分支模型和用于非结构化信息识别的图像分支模型组成,因此,在通过媒体资源对齐模型对一组媒体资源对进行对齐识别时,可通过文本分支模型对媒体资源对的文本特征进行识别,得到第一识别结果,以及通过图像分支模型对媒体资源对的非结构化信息进行识别,得到第二识别结果,进一步,通过线性层对第一识别结果和第二识别结果进行线性变换处理,得到媒体资源对的对齐识别结果。
例如,参考图2,在图2所示的媒体资源对齐模型中,包括用于图像输入的Resnet50模型和用于文本输入的BERT模型(一种双向编码的预训练语言模型),即图像分支模型和文本分支模型两部分。如图2所示,在对一组媒体资源对进行对齐识别时,先将媒体资源属性信息中的结构化信息通过“属性名,属性值”的格式进行拼接,形成该媒体资源的文本特征,将该文本特征输入媒体资源对齐模型中的Resnet50模型,得到第一识别结果,将媒体资源对的属性信息中的图片输入BERT模型,得到第二识别结果CLS。将第一识别结果和第二识别结果输入线性层,通过线性层的处理,得到对该媒体资源对的对齐识别结果。
本实施例中,通过在媒体资源对齐模型中构建文本分支模型和图像分支模型,分别用于媒体资源对文本信息的识别和图片的识别,最后将文本的识别结果和图片的识别结果连在一起经过线性层处理,可以提高对媒体资源对对齐识别的识别结果的准确性。
在一示例性实施例中,上述步骤S410中,获取待识别媒体资源集合,具体包括:
步骤S410a,获取来自不同信息源的多个媒体资源的结构化信息和非结构化信息;
步骤S410b,根据结构化信息或非结构化信息,将各个媒体资源划分至多个实体桶中,将每个实体桶中的媒体资源作为一个待识别媒体资源集合。
其中,结构化信息指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,例如,人的结构化信息包括年龄,生日,出生地等基础信息,剧的结构化信息包括上映时间,上映地点,演职人员等。
其中,非结构化信息表示无法完全数字化的信息,如文档文件、图片、图纸资料、缩微胶片等,本公开中,非结构化信息可包括纯文本信息和图片信息两大类。
具体实现中,参考图5,可从领域网站、百科类网站等不同的信息源获取多个媒体资源的结构化信息和非结构化信息,完成数据预处理过程,之后可从结构化信息中确定出各个媒体资源的特征信息,如名称,或者从非结构化信息中提取出各个媒体资源的特征信息,根据各个媒体资源的特征信息对各个媒体资源进行分桶处理,将名称相同的媒体资源划分至同一个实体桶中,由此得到多个实体桶,将每个实体桶中的媒体资源作为一个待识别媒体资源集合。
本实施例中,先根据结构化信息或非结构化信息,对来自不同信息源的媒体资源进行分桶处理,实现对多源媒体资源的预处理,使得每个实体桶中的媒体资源具有一定相似性,后续可直接针对每个实体桶进行对齐识别,无需在大量的媒体资源中无序地进行对齐识别,可以提高对来自不同信息源的大量媒体资源的对齐识别的效率。
在一示例性实施例中,在上述步骤S420之后,还包括:
步骤S430,根据各组媒体资源对的对齐识别结果,得到对应同一个对象的多个媒体资源;其中,对应同一个对象的各个媒体资源之间的相似度大于阈值;
步骤S440,对对应同一个对象的多个媒体资源进行特征融合处理,得到同一个对象的目标特征信息。
具体实现中,在得到针对每个待识别媒体资源集合中,各组媒体资源对的对齐识别结果后,可根据对齐识别结果,确定出对应同一个对象的多个媒体资源,并可进一步对对应同一个对象的多个媒体资源进行特征融合处理,得到该对象的融合后的特征信息,作为目标特征信息。更具体地,可基于投票的方式对该对象打上合适的特征值,实现多源媒体资源的融合。
本实施例中,由于各组媒体资源对的对齐识别结果是根据前述实施例训练得到的媒体资源对齐模型得到的,因此对齐识别结果具有较高的准确度,从而使得根据该对齐识别结果进行的媒体资源的融合处理结果也具有较高的准确度。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
可以理解的是,本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见,每个实施例重点说明的是与其他实施例的不同之处,相关之处参见其他方法实施例的说明即可。
图6是根据一示例性实施例示出的一种媒体资源数据处理装置的结构框图。参照图6,该装置包括:获取单元610、第一训练单元620、聚类单元630和第二训练单元640,其中:
获取单元610,被配置为执行获取媒体资源的全量样本数据;全量样本数据包括已标注样本数据和未标注样本数据,已标注样本数据和未标注样本数据均包括多组媒体资源对;
第一训练单元620,被配置为执行通过已标注样本数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型;
聚类单元630,被配置为执行基于训练后媒体资源对齐模型对全量样本数据的处理结果,对全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇;
第二训练单元640,被配置为执行基于多个聚类簇中的已标注的媒体资源对,对未标注的媒体资源对进行标注,并基于新增标注调整训练后的媒体资源对齐模型,得到目标媒体资源对齐模型,目标媒体资源对齐模型,用于对媒体资源对进行对齐识别。
在一示例性实施例中,第二训练单元640,还被配置为执行针对任一个聚类簇,若聚类簇中包含已标注媒体资源对和未标注媒体资源对,则通过已标注媒体资源对的标签,对聚类簇中未标注的媒体资源对进行标注,得到新标注的媒体资源对;将新标注的媒体资源对作为新的已标注样本数据,以及将训练后媒体资源对齐模型作为新的当前媒体资源对齐模型,返回通过已标注样本数据对当前媒体资源对齐模型进行训练的步骤,直到各个聚类簇中的媒体资源对均已被标注,得到目标媒体资源对齐模型。
在一示例性实施例中,上述装置还包括第一掩码单元,被配置为执行对已标注样本数据中的第一媒体资源对进行属性掩码处理,得到第一掩码数据;第一媒体资源对为已标注样本数据中的任一组媒体资源对;
第一训练单元620,还被配置为执行通过第一掩码数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型。
在一示例性实施例中,第一掩码单元,还被配置为执行对已标注样本数据中的第二媒体资源对进行属性掩码处理,得到第二掩码数据,第二媒体资源对为已标注样本数据中除第一媒体资源对之外的任一媒体资源对;将目标媒体资源对齐模型作为新的当前媒体资源对齐模型,返回通过已标注样本数据对当前媒体资源对齐模型进行训练的步骤;
第一训练单元620,还被配置为执行通过第二掩码数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型。
在一示例性实施例中,聚类单元630,还被配置为执行通过训练后媒体资源对齐模型,对全量样本数据中的各组媒体资源对进行对齐识别,得到各组媒体资源对的判别隐向量;根据各个判别隐向量,对全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇。
在一示例性实施例中,上述装置还包括:
第二掩码单元,被配置为执行对全量样本数据中的各组媒体资源对的属性随机进行属性掩码处理,得到全量掩码数据;其中,每组媒体资源对均具有多个属性,每次掩码处理的属性不同;
对齐识别单元,被配置为执行通过训练后媒体资源对齐模型,对全量掩码数据中的各组媒体资源对进行对齐识别,得到各组媒体资源对的判别隐向量。
图7是根据另一示例性实施例示出的一种媒体资源数据处理装置的结构框图。参照图7,该装置包括:获取单元710和对齐单元720,其中:
获取单元710,被配置为执行获取待识别媒体资源集合;待识别媒体资源集合中包括多个媒体资源;
对齐单元720,被配置为执行通过媒体资源对齐模型对待识别媒体资源集合中的两两媒体资源组成的媒体资源对进行对齐识别,得到各组媒体资源对的对齐识别结果;对齐识别结果用于表征各组媒体资源对中两个媒体资源之间的相似度;媒体资源对齐模型通过上述实施例中任一项的方法实施例训练得到。
在一示例性实施例中,对齐单元720,还被配置为执行对媒体资源对的属性信息中的结构化信息分别按照属性名和属性值的格式进行拼接处理,得到媒体资源对的文本特征;通过媒体资源对齐模型对媒体资源对的文本特征进行识别,得到第一识别结果,以及,对媒体资源对的属性信息中的非结构化信息进行识别,得到第二识别结果;对第一识别结果和第二识别结果进行线性变换处理,得到媒体资源对的对齐识别结果。
在一示例性实施例中,获取单元710,还被配置为执行获取来自不同信息源的多个媒体资源的结构化信息和非结构化信息;根据结构化信息或非结构化信息,将各个媒体资源划分至多个实体桶中,将每个实体桶中的媒体资源作为一个待识别媒体资源集合。
在一示例性实施例中,上述装置还包括融合单元,被配置为执行根据各组媒体资源对的对齐识别结果,得到对应同一个对象的多个媒体资源;其中,对应同一个对象的各个媒体资源之间的相似度大于阈值;对对应同一个对象的多个媒体资源进行特征融合处理,得到同一个对象的目标特征信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种用于实现媒体资源数据处理方法的电子设备800的框图。例如,电子设备800可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
参照图8,电子设备800可以包括以下一个或多个组件:处理组件802、存储器804、电源组件806、多媒体组件808、音频组件810、输入/输出(I/O)的接口812、传感器组件814以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800组件的位置改变,用户与电子设备800接触的存在或不存在,设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在一示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在一示例性实施例中,还提供了一种计算机程序产品,所述计算机程序产品中包括指令,上述指令可由电子设备800的处理器820执行以完成上述方法。
需要说明的,上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种媒体资源数据处理方法,其特征在于,包括:
获取媒体资源的全量样本数据;所述全量样本数据包括已标注样本数据和未标注样本数据,所述已标注样本数据和所述未标注样本数据均包括多组媒体资源对;
通过所述已标注样本数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型;
基于所述训练后媒体资源对齐模型对所述全量样本数据的处理结果,对所述全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇;
基于所述多个聚类簇中的已标注媒体资源对,对未标注媒体资源对进行标注,并基于新增标注调整所述训练后媒体资源对齐模型,得到目标媒体资源对齐模型,所述目标媒体资源对齐模型,用于对媒体资源对进行对齐识别。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个聚类簇中的已标注媒体资源对,对未标注媒体资源对进行标注,并基于新增标注调整所述训练后媒体资源对齐模型,得到目标媒体资源对齐模型,包括:
针对任一个聚类簇,若所述聚类簇中包含已标注媒体资源对和未标注媒体资源对,则通过所述已标注媒体资源对的标签,对所述聚类簇中的未标注媒体资源对进行标注,得到新标注的媒体资源对;
将所述新标注的媒体资源对作为新的已标注样本数据,以及将所述训练后媒体资源对齐模型作为新的当前媒体资源对齐模型,返回所述通过所述已标注样本数据对当前媒体资源对齐模型进行训练的步骤,直到各个所述聚类簇中的媒体资源对均已被标注,得到目标媒体资源对齐模型。
3.根据权利要求1所述的方法,其特征在于,在通过所述已标注样本数据对当前媒体资源对齐模型进行训练之前,还包括:
对所述已标注样本数据中的第一媒体资源对进行属性掩码处理,得到第一掩码数据;所述第一媒体资源对为所述已标注样本数据中的任一组媒体资源对;
所述通过所述已标注样本数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型,包括:
通过所述第一掩码数据对所述当前媒体资源对齐模型进行训练,得到所述训练后媒体资源对齐模型。
4.根据权利要求3所述的方法,其特征在于,在基于新增标注调整所述训练后的媒体资源对齐模型,得到目标媒体资源对齐模型之后,还包括:
对所述已标注样本数据中的第二媒体资源对进行属性掩码处理,得到第二掩码数据,所述第二媒体资源对为所述已标注样本数据中除所述第一媒体资源对之外的任一媒体资源对;
将所述目标媒体资源对齐模型作为新的当前媒体资源对齐模型,返回所述通过所述已标注样本数据对当前媒体资源对齐模型进行训练的步骤;
其中,所述通过所述已标注样本数据对当前媒体资源对齐模型进行训练,包括:
通过所述第二掩码数据对所述当前媒体资源对齐模型进行训练,得到所述训练后媒体资源对齐模型。
5.一种媒体资源数据处理方法,其特征在于,包括:
获取待识别媒体资源集合;所述待识别媒体资源集合中包括多个媒体资源;
通过媒体资源对齐模型对所述待识别媒体资源集合中的两两媒体资源组成的媒体资源对进行对齐识别,得到各组媒体资源对的对齐识别结果;所述对齐识别结果用于表征各组所述媒体资源对中两个媒体资源之间的相似度;所述媒体资源对齐模型通过权利要求1至4任一项所述的方法训练得到。
6.一种媒体资源数据处理装置,其特征在于,包括:
获取单元,被配置为执行获取媒体资源的全量样本数据;所述全量样本数据包括已标注样本数据和未标注样本数据,所述已标注样本数据和所述未标注样本数据均包括多组媒体资源对;
第一训练单元,被配置为执行通过所述已标注样本数据对当前媒体资源对齐模型进行训练,得到训练后媒体资源对齐模型;
聚类单元,被配置为执行基于所述训练后媒体资源对齐模型对所述全量样本数据的处理结果,对所述全量样本数据中的各组媒体资源对进行聚类处理,得到多个聚类簇;
第二训练单元,被配置为执行基于所述多个聚类簇中的已标注的媒体资源对,对未标注的媒体资源对进行标注,并基于新增标注调整所述训练后的媒体资源对齐模型,得到目标媒体资源对齐模型,所述目标媒体资源对齐模型,用于对媒体资源对进行对齐识别。
7.一种媒体资源数据处理装置,其特征在于,包括:
获取单元,被配置为执行获取待识别媒体资源集合;所述待识别媒体资源集合中包括多个媒体资源;
对齐单元,被配置为执行通过媒体资源对齐模型对所述待识别媒体资源集合中的两两媒体资源组成的媒体资源对进行对齐识别,得到各组媒体资源对的对齐识别结果;所述对齐识别结果用于表征各组所述媒体资源对中两个媒体资源之间的相似度;所述媒体资源对齐模型通过权利要求1至4任一项所述的方法训练得到。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的媒体资源数据处理方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至5中任一项所述的媒体资源数据处理方法。
10.一种计算机程序产品,所述计算机程序产品中包括指令,其特征在于,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至5中任一项所述的媒体资源数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111614658.8A CN114329003A (zh) | 2021-12-27 | 2021-12-27 | 媒体资源数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111614658.8A CN114329003A (zh) | 2021-12-27 | 2021-12-27 | 媒体资源数据处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114329003A true CN114329003A (zh) | 2022-04-12 |
Family
ID=81012200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111614658.8A Pending CN114329003A (zh) | 2021-12-27 | 2021-12-27 | 媒体资源数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114329003A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030191625A1 (en) * | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
CN110162591A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种面向数字教育资源的实体对齐方法及系统 |
CN110245131A (zh) * | 2019-06-05 | 2019-09-17 | 江苏瑞中数据股份有限公司 | 一种知识图谱中实体对齐方法、系统及其存储介质 |
CN110472533A (zh) * | 2019-07-31 | 2019-11-19 | 北京理工大学 | 一种基于半监督训练的人脸识别方法 |
CN111090993A (zh) * | 2019-12-30 | 2020-05-01 | 北京声智科技有限公司 | 属性对齐模型训练方法及装置 |
WO2020114022A1 (zh) * | 2018-12-04 | 2020-06-11 | 平安科技(深圳)有限公司 | 一种知识库对齐方法、装置、计算机设备及存储介质 |
CN111354344A (zh) * | 2020-03-09 | 2020-06-30 | 第四范式(北京)技术有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
CN112232241A (zh) * | 2020-10-22 | 2021-01-15 | 华中科技大学 | 一种行人重识别方法、装置、电子设备和可读存储介质 |
CN112800770A (zh) * | 2021-04-15 | 2021-05-14 | 南京樯图数据研究院有限公司 | 一种基于异构图注意力网络的实体对齐方法 |
CN112836739A (zh) * | 2021-01-29 | 2021-05-25 | 华中科技大学 | 基于动态联合分布对齐的分类模型建立方法及其应用 |
US20210383544A1 (en) * | 2020-06-03 | 2021-12-09 | Here Global B.V. | Semantic segmentation ground truth correction with spatial transformer networks |
-
2021
- 2021-12-27 CN CN202111614658.8A patent/CN114329003A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030191625A1 (en) * | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
WO2020114022A1 (zh) * | 2018-12-04 | 2020-06-11 | 平安科技(深圳)有限公司 | 一种知识库对齐方法、装置、计算机设备及存储介质 |
CN110162591A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种面向数字教育资源的实体对齐方法及系统 |
CN110245131A (zh) * | 2019-06-05 | 2019-09-17 | 江苏瑞中数据股份有限公司 | 一种知识图谱中实体对齐方法、系统及其存储介质 |
CN110472533A (zh) * | 2019-07-31 | 2019-11-19 | 北京理工大学 | 一种基于半监督训练的人脸识别方法 |
CN111090993A (zh) * | 2019-12-30 | 2020-05-01 | 北京声智科技有限公司 | 属性对齐模型训练方法及装置 |
CN111354344A (zh) * | 2020-03-09 | 2020-06-30 | 第四范式(北京)技术有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
US20210383544A1 (en) * | 2020-06-03 | 2021-12-09 | Here Global B.V. | Semantic segmentation ground truth correction with spatial transformer networks |
CN112232241A (zh) * | 2020-10-22 | 2021-01-15 | 华中科技大学 | 一种行人重识别方法、装置、电子设备和可读存储介质 |
CN112836739A (zh) * | 2021-01-29 | 2021-05-25 | 华中科技大学 | 基于动态联合分布对齐的分类模型建立方法及其应用 |
CN112800770A (zh) * | 2021-04-15 | 2021-05-14 | 南京樯图数据研究院有限公司 | 一种基于异构图注意力网络的实体对齐方法 |
Non-Patent Citations (4)
Title |
---|
MARVIN SCHULZ1 等: "Retrieval, alignment, and clustering of computational models based on semantic annotations", 《MOLECULAR SYSTEMS BIOLOGY》, 10 September 2021 (2021-09-10), pages 1 - 10 * |
崔云翔: "基于二维人体关节点特征的体育视频标注", 《计算机工程》, 15 April 2014 (2014-04-15), pages 252 - 257 * |
张伟莉 等: "基于半监督协同训练的百科知识库实体对齐", 《计算机与现代化》, 15 December 2017 (2017-12-15), pages 88 - 93 * |
杨燕 等: "基于链接的模糊聚类集成方法", 《电子科技大学学报》, 30 November 2014 (2014-11-30), pages 887 - 892 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522424B (zh) | 数据的处理方法、装置、电子设备及存储介质 | |
CN110602527B (zh) | 视频处理方法、装置及存储介质 | |
CN110781305B (zh) | 基于分类模型的文本分类方法及装置,以及模型训练方法 | |
CN113792207B (zh) | 一种基于多层次特征表示对齐的跨模态检索方法 | |
CN109961094B (zh) | 样本获取方法、装置、电子设备及可读存储介质 | |
CN111128183B (zh) | 语音识别方法、装置和介质 | |
CN115100472B (zh) | 展示对象识别模型的训练方法、装置和电子设备 | |
CN109255128B (zh) | 多层级标签的生成方法、装置和存储介质 | |
CN111539443A (zh) | 一种图像识别模型训练方法及装置、存储介质 | |
CN112287994A (zh) | 伪标签处理方法、装置、设备及计算机可读存储介质 | |
CN110781323A (zh) | 多媒体资源的标签确定方法、装置、电子设备及存储介质 | |
CN114328838A (zh) | 事件抽取方法、装置、电子设备及可读存储介质 | |
CN112328793A (zh) | 评论文本数据的处理方法、装置及存储介质 | |
CN111046927B (zh) | 标注数据的处理方法、装置、电子设备及存储介质 | |
CN113609380B (zh) | 标签体系更新方法、搜索方法、装置以及电子设备 | |
CN113920293A (zh) | 信息识别方法、装置、电子设备及存储介质 | |
CN111428806B (zh) | 图像标签确定方法、装置、电子设备及存储介质 | |
CN112328809A (zh) | 实体分类方法、装置及计算机可读存储介质 | |
CN113259754A (zh) | 视频生成方法、装置、电子设备及存储介质 | |
CN111274389A (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
CN111275089A (zh) | 一种分类模型训练方法及装置、存储介质 | |
CN115718801A (zh) | 文本处理方法、模型的训练方法、装置、设备及存储介质 | |
CN110929771B (zh) | 图像样本分类方法及装置、电子设备、可读存储介质 | |
CN113923517B (zh) | 一种背景音乐生成方法、装置及电子设备 | |
CN114329003A (zh) | 媒体资源数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |