CN114510585A - 一种信息表征模型构建方法、信息表征方法 - Google Patents
一种信息表征模型构建方法、信息表征方法 Download PDFInfo
- Publication number
- CN114510585A CN114510585A CN202210138974.0A CN202210138974A CN114510585A CN 114510585 A CN114510585 A CN 114510585A CN 202210138974 A CN202210138974 A CN 202210138974A CN 114510585 A CN114510585 A CN 114510585A
- Authority
- CN
- China
- Prior art keywords
- information
- modal
- sample
- topic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000010276 construction Methods 0.000 title claims abstract description 59
- 238000000605 extraction Methods 0.000 claims abstract description 181
- 239000013598 vector Substances 0.000 claims abstract description 144
- 238000013075 data extraction Methods 0.000 claims description 97
- 238000012545 processing Methods 0.000 claims description 78
- 238000012512 characterization method Methods 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 20
- 230000004927 fusion Effects 0.000 abstract description 15
- 230000000007 visual effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息表征模型构建方法、信息表征方法,其包括:首先,利用大量样本多模态信息、并以这些样本多模态信息的话题提取内容作为监督信号,构建信息表征模型,以使构建好的信息表征模型针对多模态信息具有较好的信息表征性能;然后,在获取到待处理多模态信息之后,利用构建好的信息表征模型,确定该待处理多模态信息的信息表征向量,以使该“待处理多模态信息的信息表征向量”能够比较准确地表示出该待处理多模态信息所携带的多模态融合信息,从而使得该“待处理多模态信息的信息表征向量”能够比较准确地表示出该待处理多模态信息的整体内容,如此能够提高信息表征效果(尤其是,针对多模态信息的信息表征效果)。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种信息表征模型构建方法、信息表征方法。
背景技术
信息表征是指针对某信息数据(例如,图文、视频、音频等)进行内容编码表示,得到该信息数据的编码表征向量,以便后续能够利用该编码表征向量进行下游分析处理(例如,内容识别、内容分析、内容理解等)。
另外,信息表征在内容标签、内容审核、内容推荐、内容搜索等众多应用领域都起到基础性的作用。
然而,因信息表征技术存在缺陷,导致信息表征效果比较差。
发明内容
为了解决上述技术问题,本申请提供了一种信息表征模型构建方法、信息表征方法,能够提高信息表征效果。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种信息表征模型构建方法,所述方法包括:
获取至少一个样本多模态信息;
对各所述样本多模态信息进行话题提取处理,得到各所述样本多模态信息的话题提取内容;
利用所述至少一个样本多模态信息、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型;其中,在所述信息表征模型的构建过程中所使用的监督信号包括所述至少一个样本多模态信息的话题提取内容。
在一种可能的实施方式中,所述信息表征模型的构建过程,包括:
对各所述样本多模态信息进行数据提取处理,得到各所述样本多模态信息的数据提取结果;其中,所述数据提取结果包括至少一种数据信息;
利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型。
在一种可能的实施方式中,所述利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型,包括:
根据待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量;
根据所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量,确定所述待训练模型的模型损失值;
依据所述待训练模型的模型损失值,更新所述待训练模型,并继续执行所述根据待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定所述信息表征模型。
在一种可能的实施方式中,所述待训练模型包括多模态编码网络和话题编码网络;
所述根据所述待训练模型,确定所述信息表征模型,包括:
将所述多模态编码网络,确定为所述信息表征模型。
在一种可能的实施方式中,所述待训练模型包括多模态编码网络和话题编码网络;
所述至少一个样本多模态信息的多模态编码向量的确定过程,包括:
将各所述样本多模态信息的数据提取结果输入所述多模态编码网络,得到所述多模态编码网络输出的各所述样本多模态信息的多模态编码向量;
所述至少一个样本多模态信息的话题编码向量的确定过程,包括:
将各所述样本多模态信息的话题提取内容输入所述话题编码网络,得到所述话题编码网络输出的各所述样本多模态信息的话题编码向量。
在一种可能的实施方式中,所述样本多模态信息的个数为N;
第n个样本多模态信息的数据提取结果的确定过程,包括:
对所述第n个样本多模态信息进行文本提取处理,得到所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;
对所述第n个样本多模态信息进行图像提取处理,得到所述第n个样本多模态信息的图像数据;
对所述第n个样本多模态信息进行音频提取处理,得到所述第n个样本多模态信息的音频数据;
将所述第n个样本多模态信息的文本数据、所述第n个样本多模态信息的图像数据、以及所述第n个样本多模态信息的音频数据进行集合处理,得到所述第n个样本多模态信息的数据提取结果。
在一种可能的实施方式中,所述利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型之前,所述方法还包括:
根据各所述样本多模态信息的话题提取内容,更新各所述样本多模态信息的数据提取结果。
在一种可能的实施方式中,所述样本多模态信息的个数为N;第n个样本多模态信息的数据提取结果包括所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;
所述第n个样本多模态信息的数据提取结果的更新过程,包括:
根据所述第n个样本多模态信息的话题提取内容,确定所述第n个样本多模态信息对应的至少一个待删除对象;
从所述第n个样本多模态信息的文本数据中,删除所述第n个样本多模态信息对应的至少一个待删除对象,得到所述第n个样本多模态信息的更新后文本;
利用所述第n个样本多模态信息的更新后文本,更新所述第n个样本多模态信息的数据提取结果。
在一种可能的实施方式中,所述样本多模态信息的个数为N;
第n个样本多模态信息的话题提取内容的确定过程,包括:
对所述第n个样本多模态信息进行文本提取处理,得到所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;
若确定所述第n个样本多模态信息的文本数据中存在预设话题标识符,则依据所述预设话题标识符,对所述第n个样本多模态信息的文本数据进行话题提取处理,得到所述第n个样本多模态信息的话题提取内容。
在一种可能的实施方式中,所述方法还包括:
若确定所述第n个样本多模态信息的文本数据中不存在预设话题标识符,则对所述第n个样本多模态信息的文本数据进行关键词提取处理,得到所述第n个样本多模态信息的关键词提取结果;
根据所述第n个样本多模态信息的关键词提取结果,确定所述第n个样本多模态信息的话题提取内容。
本申请实施例还提供了一种信息表征方法,所述方法包括:
获取待处理多模态信息;
利用预先构建的信息表征模型,确定所述待处理多模态信息的信息表征向量;其中,所述信息表征模型是利用本申请实施例提供的信息表征模型构建方法的任一实施方式进行构建的。
本申请实施例还提供了一种信息表征模型构建装置,包括:
样本获取单元,用于获取至少一个样本多模态信息;
话题提取单元,用于对各所述样本多模态信息进行话题提取处理,得到各所述样本多模态信息的话题提取内容;
模型构建单元,用于利用所述至少一个样本多模态信息、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型;其中,在所述信息表征模型的构建过程中所使用的监督信号包括所述至少一个样本多模态信息的话题提取内容。
本申请实施例还提供了一种信息表征装置,包括:
信息获取单元,用于获取待处理多模态信息;
信息表征单元,用于利用预先构建的信息表征模型,确定所述待处理多模态信息的信息表征向量;其中,所述信息表征模型是利用本申请实施例提供的信息表征模型构建方法的任一实施方式进行构建的。
本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的信息表征模型构建方法的任一实施方式,或者执行本申请实施例提供的信息表征方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的信息表征模型构建方法的任一实施方式,或者执行本申请实施例提供的信息表征方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的信息表征模型构建方法的任一实施方式,或者执行本申请实施例提供的信息表征方法的任一实施方式。
与现有技术相比,本申请实施例至少具有以下优点:
本申请实施例提供的技术方案中,首先,利用大量样本多模态信息、并以这些样本多模态信息的话题提取内容作为监督信号,构建信息表征模型,以使构建好的信息表征模型针对多模态信息具有较好的信息表征性能;然后,在获取到待处理多模态信息之后,利用构建好的信息表征模型,确定该待处理多模态信息的信息表征向量,以使该“待处理多模态信息的信息表征向量”能够比较准确地表示出该待处理多模态信息所携带的多模态融合信息,从而使得该“待处理多模态信息的信息表征向量”能够比较准确地表示出该待处理多模态信息的整体内容,如此能够提高信息表征效果(尤其是,针对多模态信息的信息表征效果)。
另外,因在信息表征模型的构建过程中所使用的监督信号是从这些样本多模态信息中提取所得的话题内容,以使该信息表征模型的构建过程能够充分利用这些样本多模态信息,还使得该监督信号无需由相关人员预先进行人工标注,如此有利于节省成本。
此外,因各个样本多模态信息的话题提取内容能够反映出各个样本多模态信息的主要内容,使得利用这些样本多模态信息的话题提取内容作为监督信号构建所得的信息表征模型具有比较好的信息表征性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种信息表征模型构建方法的流程图;
图2为本申请实施例提供的一种待训练模型的工作原理示意图;
图3为本申请实施例提供的一种信息表征方法的流程图;
图4为本申请实施例提供的一种信息表征模型构建装置的结构示意图;
图5为本申请实施例提供的一种信息表征装置的结构示意图。
具体实施方式
发明人在针对信息表征的研究中发现,在一些应用场景(例如,用户平台)中,一些信息数据可能包括文本、图像、视频和音频等多种类型数据。然而,因一些信息表征技术通常只能针对某一类型数据进行信息表征处理的,使得这些信息表征技术无法针对上述“包括文本、图像、视频和音频等多种类型数据的信息数据”(下文简称“多模态信息”)进行信息表征处理,从而导致这些信息表征技术针对多模态信息的信息表征效果比较差。
基于上述发现,为了解决背景技术部分所示的技术问题,本申请实施例提供了一种信息表征模型构建方法、以及信息表征方法,而且这些方法用于实现以下过程:首先,利用大量样本多模态信息、并以这些样本多模态信息的话题提取内容作为监督信号,构建信息表征模型,以使构建好的信息表征模型针对多模态信息具有较好的信息表征性能;然后,在获取到待处理多模态信息之后,利用构建好的信息表征模型,确定该待处理多模态信息的信息表征向量,以使该“待处理多模态信息的信息表征向量”能够比较准确地表示出该待处理多模态信息所携带的多模态融合信息,从而使得该“待处理多模态信息的信息表征向量”能够比较准确地表示出针对该待处理多模态信息的整体理解内容,如此能够提高信息表征效果(尤其是,针对多模态信息的信息表征效果)。
另外,本申请实施例不限定信息表征模型构建方法的执行主体,例如,本申请实施例提供的信息表征模型构建方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
此外,本申请实施例不限定信息表征方法的执行主体,例如,本申请实施例提供的信息表征方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请提供的技术方案,下面依次介绍信息表征模型构建方法的相关内容、以及信息表征方法的相关内容。
方法实施例一
参见图1,该图为本申请实施例提供的一种信息表征模型构建方法的流程图。
本申请实施例提供的信息表征模型构建方法,包括S101-S103:
S101:获取至少一个样本多模态信息。
上述“样本多模态信息”用于表示在信息表征模型的构建过程中能够作为训练数据进行使用的多模态信息;而且本申请实施例不限定该“样本多模态信息”的个数,例如,其具体可以为N。其中,N为正整数。
另外,本申请实施例不限定上述“样本多模态信息”,例如,其可以包括文字信息、图片信息、视频信息、以及音频信息中的至少两种。其中,“文字信息”是指以文本形式呈现的数据(例如,由用户编辑并发布的摘要、标题、正文等)。“图片信息”是指以图片形式呈现的数据(例如,由用户上传的配图等)。“视频信息”是指以视频形式呈现的数据(例如,由用户上传的短视频等)。“音频信息”是指以音频形式呈现的数据(例如,由用户上传的音乐、录音等音频数据)。
此外,本申请实施例不限定上述“至少一个样本多模态信息”的获取过程,例如,当本申请实施例提供的信息表征模型构建方法应用于用户画像领域时,该“至少一个样本多模态信息”的获取过程,具体可以为:先获取在用户平台上已发布的至少一条多模态信息(例如,包括文字、图片、视频、音频等多种类型下的数据信息);再将各条多模态信息分别确定为各个样本多模态信息,以使上述“至少一个样本多模态信息”可以用于表示在用户平台上发布的至少一条多模态信息。
需要说明的是,本申请实施例不限定上述“在用户平台上已发布的至少一条多模态信息”的获取方式,例如,可以借助网页爬取技术,从某个用户平台网页上爬取至少一条多模态信息。又如,也可以从上述“用户平台”所对应的服务器中直接读取至少一条多模态信息。还如,还可以通过信令通信方式,请求上述“用户平台”所对应的服务器提供至少一条多模态信息。
S102:对各样本多模态信息进行话题提取处理,得到各样本多模态信息的话题提取内容。
其中,“第n个样本多模态信息的话题提取内容”用于表示该第n个样本多模态信息所携带的话题信息,以使该“第n个样本多模态信息的话题提取内容”能够表示出该第n个样本多模态信息的主要内容。n为正整数,n≤N,N为正整数,N表示上述“至少一个样本多模态信息”中样本多模态信息的个数。
另外,上述“第n个样本多模态信息的话题提取内容”可以从该第n个样本多模态信息中进行提取;而且本申请实施例不限定该“第n个样本多模态信息的话题提取内容”的提取过程,例如,可以采用现有的或者未来出现的任意一种话题提取方法进行实施。
实际上,因第n个样本多模态信息所携带的话题信息不仅可以出现在该第n个样本多模态信息的文字信息中,还可以出现在该第n个样本多模态信息的非文字信息(例如,图片信息、视频信息、音频信息等)中,故为了进一步提高话题提取效果,本申请实施例还提供了提取上述“第n个样本多模态信息的话题提取内容”的另一种可能的实施方式,其具体可以包括S1021-S1022:
S1021:对第n个样本多模态信息进行文本提取处理,得到该第n个样本多模态信息的文本数据。
上述“第n个样本多模态信息的文本数据”用于表示该第n个样本多模态信息所携带的字符内容。
另外,本申请实施例不限定上述“第n个样本多模态信息的文本数据”的提取过程(也就是,S1021的实施方式),例如,当上述“第n个样本多模态信息”包括文字信息、图片信息、视频信息、以及音频信息时,S1021具体可以包括S10211-S10215:
S10211:对上述“第n个样本多模态信息”中图片信息进行字符识别处理,得到第一字符识别结果。
上述“第一字符识别结果”用于表示上述“第n个样本多模态信息”中图片信息所携带的字符内容。
需要说明的是,本申请实施例不限定S10211中“字符识别处理”的实施方式,例如,其可以采用现有的或者未来出现的任一种光学字符识别(Optical CharacterRecognition,OCR)进行实施。
S10212:对上述“第n个样本多模态信息”中视频信息的至少一帧视频图像进行字符识别处理,得到第二字符识别结果。
上述“至少一帧视频图像”用于代表上述“第n个样本多模态信息”中视频信息;而且本申请实施例不限定该“至少一帧视频图像”,例如,其可以包括该“第n个样本多模态信息”中视频信息的所有视频图像帧。又如,其可以包括针对该“第n个样本多模态信息”中视频信息进行采样所得的采样图像帧。
上述“第二字符识别结果”用于表示上述“第n个样本多模态信息”中视频信息的至少一帧视频图像所携带的字符内容。
需要说明的是,本申请实施例不限定S10212中“字符识别处理”的实施方式,例如,其可以采用现有的或者未来出现的任一种OCR进行实施。
S10213:对上述“第n个样本多模态信息”中视频信息进行语音识别处理,得到第一语音识别结果。
上述“第一语音识别结果”用于表示上述“第n个样本多模态信息”中视频信息所携带的语音内容。
需要说明的是,本申请实施例不限定S10213中“语音识别处理”的实施方式,例如,其可以采用现有的或者未来出现的任一种语音识别方法(Automatic SpeechRecognition,ASR)进行实施。
S10214:对上述“第n个样本多模态信息”中音频信息进行语音识别处理,得到第二语音识别结果。
上述“第二语音识别结果”用于表示上述“第n个样本多模态信息”中音频信息所携带的语音内容。
需要说明的是,本申请实施例不限定S10214中“语音识别处理”的实施方式,例如,其可以采用现有的或者未来出现的任一种ASR进行实施。
S10215:将第一字符识别结果、第二字符识别结果、第一语音识别结果、第二语音识别结果、以及上述“第n个样本多模态信息”中文字信息进行集合处理,得到该第n个样本多模态信息的文本数据,以使该“第n个样本多模态信息的文本数据”包括第一字符识别结果、第二字符识别结果、第一语音识别结果、第二语音识别结果、以及该“第n个样本多模态信息”中文字信息,从而使得该“第n个样本多模态信息的文本数据”能够更全面更准确地表示出该第n个样本多模态信息所携带的字符内容。
基于上述S1021的相关内容可知,在获取到第n个样本多模态信息之后,可以从该第n个样本多模态信息中,提取出该第n个样本多模态信息的文本数据,以使该“第n个样本多模态信息的文本数据”能够表示出该第n个样本多模态信息所携带的字符内容。
S1022:从第n个样本多模态信息的文本数据中,提取出该第n个样本多模态信息的话题提取内容。
本申请实施例不限定S1022的实施方式,例如,可以采用现有的或者未来出现的任意一种能够针对文本数据进行话题提取处理的方法进行实施。
实际上,在一些应用场景下,通常可以利用某些特殊符号(例如,#)来标识话题内容(例如,#舞蹈、#萌宠等)。基于此,本申请实施例提供了S1022的第一种可能的实施方式,其具体可以为:依据预设话题标识符,对第n个样本多模态信息的文本数据进行话题提取处理,得到该第n个样本多模态信息的话题提取内容。
上述“预设话题标识符”用于标识话题内容所处位置(例如,用于标识话题内容的起始位置等);而且本申请实施例不限定上述“预设话题标识符”,例如,其可以是#,而且#可以用于标识话题内容的起始位置(例如,#舞蹈等)。
为了便于理解上述S1022的第一种可能的实施方式,下面结合示例进行说明。
作为示例,当上述“预设话题标识符”为#,且#可以用于标识话题内容的起始位置时,S1022具体可以为:先从第n个样本多模态信息的文本数据中查找该预设话题标识符,得到该预设话题标识符的文本位置,以使该“预设话题标识符的文本位置”用于表示该预设话题标识符在该文本数据中所处位置;再将与该“预设话题标识符的文本位置”相邻的下一个词汇位置,确定为话题位置,以使该话题位置能够表示出话题内容在该文本数据中所处位置;最后,将该文本数据中处于该话题位置的词语,确定为该第n个样本多模态信息的话题提取内容。
需要说明的是,当上文“第n个样本多模态信息的文本数据”中存在多个预设话题标识符时,可以确定该“第n个样本多模态信息的文本数据”中存在多个话题内容,故在从该“第n个样本多模态信息的文本数据”中抽取得到多个话题内容之后,可以将抽取所得的所有话题内容进行拼接,得到该第n个样本多模态信息的话题提取内容(或者,可以从抽取所得的所有话题内容中随机选择一个话题内容,确定为该第n个样本多模态信息的话题提取内容)。
实际上,有些文本数据中可能不存在以预设话题标识符进行明确标识的话题内容。基于此,本申请实施例还提供了S1022的第二种可能的实施方式,其具体可以包括S10221-S10224:
S10221:判断第n个样本多模态信息的文本数据中是否存在预设话题标识符,若是,则执行S10222;若否,则执行S10223-S10224。
本申请实施例中,在获取到第n个样本多模态信息的文本数据之后,如果确定该文本数据中存在预设话题标识符,则可以确定该文本数据中存在以该“预设话题标识符”进行标识的话题内容,故可以直接借助该预设话题标识符,确定该第n个样本多模态信息的话题提取内容即可(也就是,S10222所示的话题内容提取过程);然而,如果确定该文本数据中不存在预设话题标识符,则可以确定该文本数据中不存在以该“预设话题标识符”进行标识的话题内容,故可以借助该文本数据中具有代表性的关键词,确定该第n个样本多模态信息的话题提取内容即可(也就是,S10223-S10224所示的话题内容提取过程)。
S10222:依据预设话题标识符,对第n个样本多模态信息的文本数据进行话题提取处理,得到该第n个样本多模态信息的话题提取内容。
本申请实施例中,在确定第n个样本多模态信息的文本数据中存在预设话题标识符之后,可以确定该文本数据中存在以该“预设话题标识符”进行明确标识的话题内容,故可以直接借助该预设话题标识符,从该文本数据中提取出以该“预设话题标识符”进行标识的话题内容(例如,舞蹈等),作为该第n个样本多模态信息的话题提取内容。
需要说明的是,S10222的相关内容可以参见上文S1022的第一种可能的实施方式的相关内容。
S10223:对第n个样本多模态信息的文本数据进行关键词提取处理,得到该第n个样本多模态信息的关键词提取结果。
上述“第n个样本多模态信息的关键词提取结果”用于表示该第n个样本多模态信息中具有代表性的关键词;而且本申请实施例不限定该“第n个样本多模态信息的关键词提取结果”,例如,其可以包括:至少一个关键词。
另外,本申请实施例不限定上述“第n个样本多模态信息的关键词提取结果”的获取方式,例如,可以采用现有的或者未来出现的任意一种关键词提取方法进行实施。
基于上述S10223的相关内容可知,在确定第n个样本多模态信息的文本数据中不存在预设话题标识符之后,可以确定该文本数据中不存在以该“预设话题标识符”进行明确标识的话题内容,故从该文本数据中提取出具有代表性的至少一个关键词,作为该第n个样本多模态信息的关键词提取结果,以使该关键词提取结果能够表示出该第n个样本多模态信息所携带的主要内容。
S10224:根据第n个样本多模态信息的关键词提取结果,确定该第n个样本多模态信息的话题提取内容。
需要说明的是,本申请实施例不限定S10224的实施方式,例如,当上述“第n个样本多模态信息的关键词提取结果”包括至少一个关键词时,可以将该“至少一个关键词”进行拼接,得到第n个样本多模态信息的话题提取内容。又如,当上述“第n个样本多模态信息的关键词提取结果”包括至少一个关键词时,可以从该“至少一个关键词”中随机挑选出一个关键词,确定为第n个样本多模态信息的话题提取内容。
基于上述S10221至S10224的相关内容可知,在获取到第n个样本多模态信息的文本数据之后,如果确定该文本数据中存在预设话题标识符之后,则可以直接借助该预设话题标识符,确定该第n个样本多模态信息的话题提取内容即可;然而,如果确定该文本数据中不存在预设话题标识符之后,则可以借助该文本数据中具有代表性的关键词,确定该第n个样本多模态信息的话题提取内容即可。
基于上述S102的相关内容可知,在获取到第n个样本多模态信息之后,可以针对该第n个样本多模态信息进行话题提取处理,得到该第n个样本多模态信息的话题提取内容,以使该“第n个样本多模态信息的话题提取内容”能够表示出该第n个样本多模态信息所携带的话题信息,从而使得该“第n个样本多模态信息的话题提取内容”能够表示出该第n个样本多模态信息的主要内容,以便后续能够以该“第n个样本多模态信息的话题提取内容”作为监督信号,参与信息表征模型的构建过程,如此能够实现自动生成监督信息号的目的,从而能够有效地避免人工标注监督信息号所造成的不良影响,进而能够提高模型构建效果。其中,n为正整数,n≤N,N为正整数。
S103:利用至少一个样本多模态信息、以及至少一个样本多模态信息的话题提取内容,构建信息表征模型。其中,在信息表征模型的构建过程中所使用的监督信号包括至少一个样本多模态信息的话题提取内容。
上述“信息表征模型”用于针对该信息表征模型的输入数据进行多模态表征处理;而且本申请实施例不限定该“信息表征模型”,例如,其可以是一种机器学习模型。
另外,本申请实施例不限定上述“信息表征模型”的构建过程,例如,可以采用现有的或者未来出现的任意一种机器学模型构建方法进行实施。
实际上,因上述“样本多模态信息”中不同种数据信息之间的内容可以相互补充(例如,图片信息所携带的字符内容可以针对文字信息进行补充、视频信息中视频图像帧可以针对图片信息进行补充等),以使各种数据信息能够更全面地表示出该“样本多模态信息”的整体内容,故为了进一步提高信息表征模型的多模态表征性能,本申请实施例还提供了构建上述“信息表征模型”的一种可能的实施方式,其具体可以包括步骤11-步骤12:
步骤11:对各样本多模态信息进行数据提取处理,得到各样本多模态信息的数据提取结果。
其中,“第n个样本多模态信息的数据提取结果”用于更全面地表示该第n个样本多模态信息携带的至少一种数据信息(例如,文字信息、图片信息、以及音频信息等)。n为正整数,n≤N,N为正整数,N表示上述“至少一个样本多模态信息”中样本多模态信息的个数。
另外,本申请实施例不限定上述“第n个样本多模态信息的数据提取结果”的确定过程,例如,其具体可以包括步骤111-步骤114:
步骤111:对第n个样本多模态信息进行文本提取处理,得到该第n个样本多模态信息的文本数据。
需要说明的是,步骤111的相关内容请参见上文S1021的相关内容。
步骤112:对第n个样本多模态信息进行图像提取处理,得到该第n个样本多模态信息的图像数据。
上述“第n个样本多模态信息的图像数据”用于表示该第n个样本多模态信息携带的图像。
另外,本申请实施例不限定上述“第n个样本多模态信息的图像数据”的提取过程(也就是,步骤112的实施方式),例如,当上述“第n个样本多模态信息”包括图片信息、以及视频信息时,步骤112具体可以包括步骤1121-步骤1123:
步骤1121:对上述“第n个样本多模态信息”中视频信息进行图像抽取处理,得到视频图像抽取结果。
上述“视频图像抽取结果”用于表示上述“第n个样本多模态信息”中视频信息携带的图像。
另外,本申请实施例不限定步骤1121中“图像抽取处理”的实施方式,例如,可以采用现有的或者未来出现的任一种能够从视频数据中进行图像抽取处理的方法进行实施。
步骤1122:将视频图像抽取结果、以及上述“第n个样本多模态信息”中图片信息进行集合处理,得到该第n个样本多模态信息的图像数据,以使该“第n个样本多模态信息的图像数据”包括该视频图像抽取结果、以及该“第n个样本多模态信息”中图片信息,从而使得该“第n个样本多模态信息的图像数据”能够更全面更准确地表示出该第n个样本多模态信息携带的图像。
基于上述步骤112的相关内容可知,在获取到第n个样本多模态信息之后,可以从该第n个样本多模态信息中,抽取出该第n个样本多模态信息的图像数据,以使该“第n个样本多模态信息的图像数据”能够表示出该第n个样本多模态信息携带的图像。
步骤113:对第n个样本多模态信息进行音频提取处理,得到该第n个样本多模态信息的音频数据。
上述“第n个样本多模态信息的音频数据”用于表示该第n个样本多模态信息携带的音频。
另外,本申请实施例不限定上述“第n个样本多模态信息的音频数据”的提取过程(也就是,步骤113的实施方式),例如,当上述“第n个样本多模态信息”包括音频信息、以及视频信息时,步骤113具体可以包括步骤1131-步骤1133:
步骤1131:对上述“第n个样本多模态信息”中视频信息进行音频抽取处理,得到视频音频抽取结果。
上述“视频音频抽取结果”用于表示上述“第n个样本多模态信息”中视频信息携带的音频。
另外,本申请实施例不限定步骤1131中“音频抽取处理”的实施方式,例如,可以采用现有的或者未来出现的任一种能够从视频数据中进行音频抽取处理的方法进行实施。
步骤1132:将视频音频抽取结果、以及上述“第n个样本多模态信息”中音频信息进行集合处理,得到该第n个样本多模态信息的音频数据,以使该“第n个样本多模态信息的音频数据”包括该视频音频抽取结果、以及该“第n个样本多模态信息”中音频信息,从而使得该“第n个样本多模态信息的音频数据”能够更全面更准确地表示出该第n个样本多模态信息携带的音频。
基于上述步骤113的相关内容可知,在获取到第n个样本多模态信息之后,可以从该第n个样本多模态信息中,抽取出该第n个样本多模态信息的音频数据,以使该“第n个样本多模态信息的音频数据”能够表示出该第n个样本多模态信息携带的音频。
步骤114:将第n个样本多模态信息的文本数据、该第n个样本多模态信息的图像数据、以及该第n个样本多模态信息的音频数据进行集合处理,得到该第n个样本多模态信息的数据提取结果,以使该“第n个样本多模态信息的数据提取结果”包括该第n个样本多模态信息的文本数据、该第n个样本多模态信息的图像数据、以及该第n个样本多模态信息的音频数据,从而使得该“第n个样本多模态信息的数据提取结果”能够更全面地表示出第n个样本多模态信息携带的至少一种数据信息(例如,文字信息、图片信息、以及音频信息等)。
基于上述步骤11的相关内容可知,在获取到第n个样本多模态信息之后,可以从该第n个样本多模态信息中,提取出该第n个样本多模态信息的数据提取结果,以使该数据提取结果能够更全面地表示出第n个样本多模态信息携带的至少一种数据信息,以便后续能够以该“第n个样本多模态信息的数据提取结果”作为训练数据,参与信息表征模型的构建过程。其中,n为正整数,n≤N,N为正整数。
步骤12:利用至少一个样本多模态信息的数据提取结果、以及该至少一个样本多模态信息的话题提取内容,构建信息表征模型。
作为示例,步骤12具体可以包括步骤121-步骤125:
步骤121:根据待训练模型、至少一个样本多模态信息的数据提取结果、以及该至少一个样本多模态信息的话题提取内容,确定该至少一个样本多模态信息的多模态编码向量、以及该至少一个样本多模态信息的话题编码向量。
上述“待训练模型”是指在信息表征模型的构建过程中需要被训练的机器学习模型;而且本申请实施例不限定该“待训练模型”,例如,其可以包括多模态编码网络(例如,图2所示的多模态网络)和话题编码网络(例如,图2所示的话题网络)。
上述“多模态编码网络”用于针对该多模态编码网络的输入数据进行多模态表征处理;而且本申请实施例不限定该“多模态编码网络”,例如,该“多模态编码网络”可以包括:文本编码器、视觉编码器、音频编码器、以及多模态融合模块;而且该多模态融合模块的输入数据包括该文本编码器的输出数据、该视觉编码器的输出数据、以及该音频编码器的输出数据。
上述“文本编码器”用于针对文本数据进行编码处理;而且本申请实施例不限定该“文本编码器”的实施方式,例如,可以采用现有的或者未来出现的任意一种能够针对文本数据进行编码处理的编码器(例如,BERT(Bidirectional Encoder Representation fromTransformers)网络等)进行实施。
“视觉编码器”用于针对图像数据进行编码处理;而且本申请实施例不限定该“视觉编码器”的实施方式,例如,可以采用现有的或者未来出现的任意一种能够针对图像数据进行编码处理的编码器(例如,BERT网络、或者卷积神经网络(Convolutional NeuralNetworks,CNN)等)进行实施。
“音频编码器”用于针对音频数据进行编码处理;而且本申请实施例不限定该“音频编码器”的实施方式,例如,可以采用现有的或者未来出现的任意一种能够针对音频数据进行编码处理的编码器(例如,BERT网络等)进行实施。
“多模态融合模块”用于针对该多模态融合模块的输入数据(例如,文本数据的编码向量、图像数据的编码向量、音频数据的编码向量等)进行特征融合处理;而且本申请实施例不限定该“多模态融合模块”的实施方式,例如,可以采用现有的或者未来出现的任意一种能够针对多个编码向量进行特征融合处理的方法(例如,BERT网络等)进行实施。
基于上述“多模态编码网络”的相关内容可知,该多模态编码网络能够针对至少一种数据信息(例如,文字信息、图片信息、以及音频信息等)进行编码融合处理,得到这些数据信息的融合表征向量,以使该融合表征向量能够表示出这些数据信息所表达的整体内容。
上文“话题编码网络”用于针对该话题编码网络的输入数据(例如,话题文本数据)进行话题表征处理;而且本申请实施例不限定该“话题编码网络”,例如,该“话题编码网络”可以采用现有的或者未来出现的任意一种能够针对文本数据进行编码处理的编码器(例如,BERT网络等)进行实施。
基于上述“待训练模型”的模型结构的相关内容可知,该待训练模型不仅能够针对多模态数据进行多模态表征处理,还能够针对该多模态数据对应的话题内容文本进行话题表征处理。为了便于理解上述“待训练模型”,下面结合示例进行说明。
作为示例,当上述“待训练模型”包括多模态编码网络和话题编码网络时,步骤121具体可以包括步骤1211-步骤1212:
步骤1211:将各样本多模态信息的数据提取结果输入多模态编码网络,得到该多模态编码网络输出的各样本多模态信息的多模态编码向量。
其中,“第n个样本多模态信息的多模态编码向量”用于表示该第n个样本多模态信息携带的整体内容。n为正整数,n≤N,N为正整数。
另外,本申请实施例不限定上述“第n个样本多模态信息的多模态编码向量”的获取过程,例如,当上述“多模态编码网络”包括文本编码器、视觉编码器、音频编码器、以及多模态融合模块,而且上述“数据提取结果”包括文本数据、图像数据、以及音频数据时,该“第n个样本多模态信息的多模态编码向量”的确定过程,具体可以包括步骤21-步骤24(如图2所示):
步骤21:将第n个样本多模态信息的文本数据输入文本编码器,得到该文本编码器输出的该第n个样本多模态信息的文本编码向量。
步骤22:将第n个样本多模态信息的图像数据输入视觉编码器,得到该视觉编码器输出的该第n个样本多模态信息的图像编码向量。
步骤23:将第n个样本多模态信息的音频数据输入音频编码器,得到该音频编码器输出的该第n个样本多模态信息的音频编码向量。
步骤24:将第n个样本多模态信息的文本编码向量、该第n个样本多模态信息的图像编码向量、以及该第n个样本多模态信息的音频编码向量输入多模态融合模块,得到该多模态融合模块输出的该第n个样本多模态信息的多模态编码向量。
基于上述步骤1211的相关内容可知,在获取到第n个样本多模态信息的数据提取结果之后,可以利用多模态编码网络针对该数据提取结果进行编码混合处理,得到该第n个样本多模态信息的多模态编码向量,以使该多模态编码向量能够表示出该第n个样本多模态信息携带的整体内容。其中,n为正整数,n≤N,N为正整数。
步骤1212:将各样本多模态信息的话题提取内容输入话题编码网络,得到该话题编码网络输出的各样本多模态信息的话题编码向量。
其中,“第n个样本多模态信息的话题编码向量”用于表示该第n个样本多模态信息携带的话题信息,从而使得该“第n个样本多模态信息的话题编码向量”用于表示出该第n个样本多模态信息携带的主要内容。n为正整数,n≤N,N为正整数。
基于上述步骤121的相关内容可知,在获取到第n个样本多模态信息的数据提取结果、以及该第n个样本多模态信息的话题提取内容之后,可以利用待训练模型中多模态编码网络以及话题编码网络,分别针对该第n个样本多模态信息的数据提取结果、以及该第n个样本多模态信息的话题提取内容进行编码处理,得到该第n个样本多模态信息的多模态编码向量、以及该第n个样本多模态信息的话题编码向量,以便后续能够利用该第n个样本多模态信息的多模态编码向量、与该第n个样本多模态信息的话题编码向量之间的相似程度,来衡量该待训练模型的模型性能。其中,n为正整数,n≤N,N为正整数。
步骤122:根据至少一个样本多模态信息的多模态编码向量、以及该至少一个样本多模态信息的话题编码向量,确定待训练模型的模型损失值。
上述“待训练模型的模型损失值”用于表示该待训练模型的模型性能(例如,多模态表征性能+话题表征性能);而且本申请实施例不限定该“待训练模型的模型损失值”的确定过程,例如,其可以借助对比损失函数(InfoNCE loss)进行确定。为了便于理解,下面结合示例进行说明。
作为示例,步骤122具体可以包括步骤1221-步骤1226:
步骤1221:利用N个样本多模态信息的话题编码向量,确定第n个样本多模态信息对应的正样本话题向量、以及该第n个样本多模态信息对应的至少一个负样本话题向量。其中,n为正整数,n≤N,N为正整数。
上述“第n个样本多模态信息对应的正样本话题向量”用于表示该第n个样本多模态信息的多模态编码向量的正样本;而且该“第n个样本多模态信息对应的正样本话题向量”理应与该第n个样本多模态信息的多模态编码向量相似。
上述“第n个样本多模态信息对应的各个负样本话题向量”表示该第n个样本多模态信息的多模态编码向量的各个负样本;而且该“第n个样本多模态信息对应的各个负样本话题向量”理应与该第n个样本多模态信息的多模态编码向量不相似。
本申请实施例不限定步骤1221的实施方式,例如,步骤1221具体可以为:将第n个样本多模态信息的话题编码向量,确定为该第n个样本多模态信息对应的正样本话题向量,并将上述“N个样本多模态信息的话题编码向量”中除了该“第n个样本多模态信息的话题编码向量”以外的其他各个话题编码向量,均确定为该第n个样本多模态信息对应的负样本话题向量。
步骤1222:根据第n个样本多模态信息的多模态编码向量、该第n个样本多模态信息对应的正样本话题向量、以及该第n个样本多模态信息对应的至少一个负样本话题向量,确定该第n个样本多模态信息对应的第一对比损失值。其中,n为正整数,n≤N,N为正整数。
上述“第n个样本多模态信息对应的第一对比损失值”用于表示该“第n个样本多模态信息的多模态编码向量”对话题编码向量的对比损失值。
另外,本申请实施例不限定步骤1222的实施方式,例如,当步骤1222借助下文公式(1)进行实施时,该第n个样本多模态信息的多模态编码向量可以作为下文公式(1)中q进行使用;该第n个样本多模态信息对应的正样本话题向量可以作为下文公式(1)中k+进行使用;第n个样本多模态信息对应的第i个负样本话题向量可以作为下文公式(1)中进行使用;i为正整数,i≤I,I为正整数(例如,I=N-1);该第n个样本多模态信息对应的第一对比损失值可以作为下文公式(1)中lossq进行使用。
式中,lossq表示q对的对比损失值;q表示一个编码向量(例如,上文“第n个样本多模态信息的多模态编码向量”);k+表示q的正样本(例如,上文“第n个样本多模态信息对应的正样本话题向量”),以使该k+能够表示出与q相似的编码向量;表示q的第i个负样本(例如,上文“第n个样本多模态信息对应的第i个正样本话题向量”),以使该能够表示出第i个与q不相似的编码向量;τ表示对比损失函数中预先设定的参数值。
步骤1223:利用N个样本多模态信息的多模态编码向量,确定第n个样本多模态信息对应的正样本多模态向量、以及该第n个样本多模态信息对应的至少一个负样本多模态向量。其中,n为正整数,n≤N,N为正整数。
上述“第n个样本多模态信息对应的正样本多模态向量”用于表示该第n个样本多模态信息的话题编码向量的正样本;而且该“第n个样本多模态信息对应的正样本多模态向量”理应与该第n个样本多模态信息的话题编码向量相似。
上述“第n个样本多模态信息对应的各个负样本多模态向量”用于表示该第n个样本多模态信息的话题编码向量的各个负样本;而且该“第n个样本多模态信息对应的各个负样本多模态向量”理应与该第n个样本多模态信息的话题编码向量不相似。
本申请实施例不限定步骤1223的实施方式,例如,步骤1223具体可以为:将第n个样本多模态信息的多模态编码向量,确定为该第n个样本多模态信息对应的正样本多模态向量,并将上述“N个样本多模态信息的多模态编码向量”中除了该“第n个样本多模态信息的多模态编码向量”以外的其他各个多模态编码向量,均确定为该第n个样本多模态信息对应的负样本多模态向量。
步骤1224:根据第n个样本多模态信息的话题编码向量、该第n个样本多模态信息对应的正样本多模态向量、以及该第n个样本多模态信息对应的至少一个负样本多模态向量,确定该第n个样本多模态信息对应的第二对比损失值。其中,n为正整数,n≤N,N为正整数。
上述“第n个样本多模态信息对应的第二对比损失值”用于表示该“第n个样本多模态信息的话题编码向量”对多模态编码向量的对比损失值。
另外,本申请实施例不限定步骤1224的实施方式,例如,当步骤1224借助上文公式(1)进行实施时,该第n个样本多模态信息的话题编码向量可以作为上文公式(1)中q进行使用;该第n个样本多模态信息对应的正样本多模态向量可以作为上文公式(1)中k+进行使用;第n个样本多模态信息对应的第i个负样本多模态向量可以作为上文公式(1)中进行使用;i为正整数,i≤I,I为正整数(例如,I=N-1);该第n个样本多模态信息对应的第二对比损失值可以作为上文公式(1)中lossq进行使用。
步骤1225:将第n个样本多模态信息对应的第一对比损失值、以及该第n个样本多模态信息对应的第二对比损失值之间的平均值,确定为该第n个样本多模态信息对应的表征损失值。其中,n为正整数,n≤N,N为正整数。
步骤1226:将第1个样本多模态信息对应的表征损失值至第N个样本多模态信息对应的表征损失值进行平均值计算处理,得到待训练模型的模型损失值。
基于上述步骤1221至步骤1226的相关内容可知,在获取到至少一个样本多模态信息的多模态编码向量、以及该至少一个样本多模态信息的话题编码向量之后,可以借助InfoNCE loss函数(如公式(1)所示),确定待训练模型的模型损失值,以使该“待训练模型的模型损失值”能够表示出该待训练模型的模型性能。
步骤123:判断是否达到预设停止条件,若是,则执行步骤125;若否,则执行步骤124。
上述“预设停止条件”可以预先设定,例如,“预设停止条件”具体可以为:待训练模型的模型损失值低于第一阈值。又如,“预设停止条件”也可以为:待训练模型的模型损失值的变化率低于第二阈值(也就是,待训练模型的模型性能达到收敛)。还如,“预设停止条件”还可以为:待训练模型的更新次数达到第三阈值。需要说明的是,“第一阈值”、“第二阈值”以及“第三阈值”均可以预先设定。
步骤124:依据待训练模型的模型损失值,更新该待训练模型,并返回执行步骤121。
本申请实施例中,在确定当前轮的待训练模型未达到预设停止条件之后,可以确定该待训练模型的模型性能依旧比较差,故可以依据待训练模型的模型损失值,对该待训练模型进行更新处理(例如,可以采用梯度下降法更新该待训练模型),得到更新后的待训练模型,以使更新后的待训练模型具有更好的模型性能,以便后续能够基于该更新后的待训练模型,继续执行步骤121及其后续步骤,以实现针对该待训练模型的下一轮训练过程。
步骤125:根据待训练模型,确定信息表征模型。
本申请实施例中,在确定当前轮待训练模型已达到预设停止条件之后,可以确定该待训练模型具有较好的模型性能,故可以直接依据该待训练模型,确定信息表征模型(例如,可以直接将该待训练模型中多模态编码网络,确定为信息表征模型),以使该信息表征模型针对多模态数据具有较好的多模态表征性能,从而使得该信息表征模型具有较好的信息表征性能。
基于上述步骤11至步骤12的相关内容可知,在获取到第n个样本多模态信息之后,可以先针对该第n个样本多模态信息进行数据提取处理,得到该第n个样本多模态信息的数据提取结果,以使该“第n个样本多模态信息的数据提取结果”能够更全面的表示出该第n个样本多模态信息的整体内容;再利用该第n个样本多模态信息的数据提取结果、以及该第n个样本多模态信息的话题提取内容,构建信息表征模型,以使构建好的信息表征模型针对多模态数据具有较好的多模态表征性能,从而使得该信息表征模型具有较好的信息表征性能。
另外,为了克服上述“样本多模态信息”自身携带的话题信息对信息表征模型的构建过程所造成的干扰,本申请实施例还提供了构建上述“信息表征模型”的另一种可能的实施方式,其具体可以包括步骤31-步骤33:
步骤31:对各样本多模态信息进行数据提取处理,得到各样本多模态信息的数据提取结果。
需要说明的是,步骤31的相关内容请参见上文步骤11的相关内容。
步骤32:根据各样本多模态信息的话题提取内容,更新各样本多模态信息的数据提取结果,以清除各样本多模态信息的话题提取内容对各样本多模态信息的数据提取结果所造成的信息干扰。
需要说明的是,本申请实施例不限定步骤32的实施方式,例如,当上述“样本多模态信息”的个数为N,且第n个样本多模态信息的数据提取结果包括该第n个样本多模态信息的文本数据时,步骤32具体可以包括步骤321-步骤323:
步骤321:根据第n个样本多模态信息的话题提取内容,确定该第n个样本多模态信息对应的至少一个待删除对象。其中,n为正整数,n≤N,N为正整数。
上述“第n个样本多模态信息对应的至少一个待删除对象”用于表示该第n个样本多模态信息携带的至少一个话题内容。
另外,本申请实施例不限定上述“第n个样本多模态信息对应的至少一个待删除对象”的确定过程(也就是,步骤321的实施方式),例如,当上述“第n个样本多模态信息的话题提取内容”是由T个词汇(例如,T个话题词或者T个关键词)拼接而成时,步骤321具体可以为:将该T个词汇均确定为该第n个样本多模态信息对应的待删除对象,以使上述“第n个样本多模态信息对应的至少一个待删除对象”包括该T个词汇。其中,T为正整数。
步骤322:从第n个样本多模态信息的文本数据中,删除该第n个样本多模态信息对应的至少一个待删除对象,得到该第n个样本多模态信息的更新后文本。
上述“第n个样本多模态信息的更新后文本”用于表示利用第n个样本多模态信息的话题提取内容,对该第n个样本多模态信息的文本数据的更新结果;而且该“第n个样本多模态信息的更新后文本”不会受到由该第n个样本多模态信息的话题提取内容所造成的信息干扰。
基于上述步骤322的相关内容可知,在获取到该第n个样本多模态信息对应的至少一个待删除对象之后,可以将这些待删除对象从该第n个样本多模态信息的文本数据中进行删除处理,得到该第n个样本多模态信息的更新后文本,以使该更新后文本中不存在这些待删除对象,从而使得后续在针对该更新后文本的文本编码处理过程中不会受到这些待删除对象的干扰,如此有利于提高针对信息表征模型的构建效果。其中,n为正整数,n≤N,N为正整数。
步骤323:利用第n个样本多模态信息的更新后文本,更新该第n个样本多模态信息的数据提取结果。
作为示例,当上述“第n个样本多模态信息的数据提取结果”包括该第n个样本多模态信息的文本数据、该第n个样本多模态信息的图像数据、以及该第n个样本多模态信息的音频数据时,步骤323具体可以为:利用第n个样本多模态信息的更新后文本,替换该“第n个样本多模态信息的数据提取结果”中的第n个样本多模态信息的文本数据,得到更新后的第n个样本多模态信息的数据提取结果,以使该“更新后的第n个样本多模态信息的数据提取结果”包括该第n个样本多模态信息的更新后文本,不包括该第n个样本多模态信息的文本数据,从而使得该“更新后的第n个样本多模态信息的数据提取结果”中不存在上述“至少一个待删除对象”,进而使得在针对该“更新后的第n个样本多模态信息的数据提取结果”的多模态表征处理过程不会受到这些待删除对象的干扰,如此有利于提高针对信息表征模型的构建效果。
基于上述步骤32的相关内容可知,在获取到第n个样本多模态信息的话题提取内容、以及该第n个样本多模态信息的数据提取结果之后,可以将该第n个样本多模态信息的话题提取内容,从该第n个样本多模态信息的数据提取结果中进行删除处理,得到更新后的第n个样本多模态信息的数据提取结果,以使该“更新后的第n个样本多模态信息的数据提取结果”中不包括该话题提取内容所表示的话题信息,从而使得后续在针对该“更新后的第n个样本多模态信息的数据提取结果”的多模态表征处理过程不会受到由该话题提取内容所造成的信息干扰,如此有利于提高针对信息表征模型的构建效果。其中,n为正整数,n≤N,N为正整数。
步骤33:利用至少一个样本多模态信息的数据提取结果、以及该至少一个样本多模态信息的话题提取内容,构建信息表征模型。
需要说明的是,步骤33的相关内容请参见上文步骤12的相关内容。
基于上述步骤31至步骤33的相关内容可知,在获取到第n个样本多模态信息之后,可以先针对该第n个样本多模态信息进行数据提取处理,得到该第n个样本多模态信息的数据提取结果,以使该“第n个样本多模态信息的数据提取结果”能够更全面的表示出该第n个样本多模态信息的整体内容;再利用该第n个样本多模态信息的话题提取内容,对该“第n个样本多模态信息的数据提取结果”进行更新处理,以清除该话题提取内容对该第n个样本多模态信息的数据提取结果”所造成的信息干扰;最后,利用更新后的第n个样本多模态信息的数据提取结果、以及该第n个样本多模态信息的话题提取内容,构建信息表征模型。其中,因上述“更新后的第n个样本多模态信息的数据提取结果”中不存在上述话题提取内容所表示的话题信息,使得后续在针对该“更新后的第n个样本多模态信息的数据提取结果”的多模态表征处理过程不会受到这些话题信息的干扰,如此有利于提高针对信息表征模型的构建效果,从而使得构建好的信息表征模型针对多模态信息具有更好的信息表征性能。
基于上述S101至S103的相关内容可知,对于本申请实施例提供的信息表征模型构建方法来说,在获取到大量样本多模态信息之后,可以先从这些样本多模态信息中提取出这些样本多模态信息的话题提取内容;再利用大量样本多模态信息、并以这些样本多模态信息的话题提取内容作为监督信号,构建信息表征模型,以使构建好的信息表征模型针对多模态信息具有较好的信息表征性能。其中,因各个样本多模态信息的话题提取内容能够反映出各个样本多模态信息的主要内容,使得利用这些样本多模态信息的话题提取内容作为监督信号构建所得的信息表征模型具有比较好的信息表征性能。
另外,因在信息表征模型的构建过程中所使用的监督信号是从这些样本多模态信息中提取所得的话题内容,以使该信息表征模型的构建过程能够充分利用这些样本多模态信息,还使得该监督信号无需由相关人员预先进行人工标注,如此有利于节省成本。
方法实施例二
参见图3,该图为本申请实施例提供的一种信息表征方法的流程图。
本申请实施例提供的信息表征方法,包括S301-S302:
S301:获取待处理多模态信息。
上述“待处理多模态信息”是指需要进行多模态表征处理的多模态信息;而且该“待处理多模态信息”可以包括文字信息、图片信息、视频信息、以及音频信息中的至少两种。
另外,本申请实施例不限定上述“待处理多模态信息”,例如,其可以是在用户平台上刚发布的一条多模态信息(例如,包括文字、图片、视频、音频等多种类型下的数据信息)。
S302:利用预先构建的信息表征模型,确定待处理多模态信息的信息表征向量。
上述“信息表征模型”用于针对该信息表征模型的输入数据进行多模态表征处理;而且该“信息表征模型”的相关内容请参见上文方法实施例一所示的相关内容。
上述“待处理多模态信息的信息表征向量”用于以向量形式表示该待处理多模态信息携带的整体内容;而且该“待处理多模态信息的信息表征向量”可以包括至少一个数据值。
另外,本申请实施例不限定上述“待处理多模态信息的信息表征向量”的确定过程,例如,其具体可以包括S3021-S3022:
S3021:对待处理多模态信息进行数据提取处理,得到该待处理多模态信息的数据提取结果。
上述“待处理多模态信息的数据提取结果”用于表示该待处理多模态信息携带的至少一种数据信息(例如,文字信息、图片信息、以及音频信息等)。
另外,上述“待处理多模态信息的数据提取结果”的确定过程类似于上文步骤11所示的“第n个样本多模态信息的数据提取结果”的确定过程。
S3022:将待处理多模态信息的数据提取结果输入信息表征模型,得到该信息表征模型输出的该待处理多模态信息的信息表征向量。
需要说明的是,S3022的实施方式类似于上文步骤1211所示的“第n个样本多模态信息的多模态编码向量”的获取过程的实施方式。
基于上述S301至S302的相关内容可知,对于本申请实施例提供的信息表征方法来说,在获取到待处理多模态信息之后,可以利用预先构建的信息表征模型,确定该待处理多模态信息的信息表征向量。其中,因上述“信息表征模型”针对多模态信息具有较好的信息表征性能,使得利用该“信息表征模型”针对待处理多模态信息所确定的信息表征向量,能够比较准确地表示出该待处理多模态信息所携带的多模态融合信息,从而使得该“待处理多模态信息的信息表征向量”能够比较准确地表示出该待处理多模态信息的整体内容,如此能够提高信息表征效果(尤其是,针对多模态信息的信息表征效果)。
基于上述方法实施例提供的信息表征模型构建方法,本申请实施例还提供了一种信息表征模型构建装置,下面结合附图进行解释和说明。
装置实施例一
装置实施例一提供的信息表征模型构建装置的技术详情,请参照上述方法实施例一。
参见图4,该图为本申请实施例提供的一种信息表征模型构建装置的结构示意图。
本申请实施例提供的信息表征模型构建装置400,包括:
样本获取单元401,用于获取至少一个样本多模态信息;
话题提取单元402,用于对各所述样本多模态信息进行话题提取处理,得到各所述样本多模态信息的话题提取内容;
模型构建单元403,用于利用所述至少一个样本多模态信息、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型;其中,在所述信息表征模型的构建过程中所使用的监督信号包括所述至少一个样本多模态信息的话题提取内容。
在一种可能的实施方式中,所述模型构建单元403,包括:
数据提取子单元,用于对各所述样本多模态信息进行数据提取处理,得到各所述样本多模态信息的数据提取结果;其中,所述数据提取结果包括至少一种数据信息;
模型构建子单元,用于利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型。
在一种可能的实施方式中,所述模型构建子单元,包括:
第一确定子单元,用于根据待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量;
第二确定子单元,用于根据所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量,确定所述待训练模型的模型损失值;
模型更新子单元,用于依据所述待训练模型的模型损失值,更新所述待训练模型,并返回所述第一确定子单元继续执行所述根据待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量的步骤。
第三确定子单元,用于在达到预设停止条件时,根据所述待训练模型,确定所述信息表征模型。
在一种可能的实施方式中,所述待训练模型包括多模态编码网络和话题编码网络;
所述第三确定子单元,具体用于:在达到预设停止条件时,将所述多模态编码网络,确定为所述信息表征模型。
在一种可能的实施方式中,所述待训练模型包括多模态编码网络和话题编码网络;
所述第一确定子单元,具体用于:将各所述样本多模态信息的数据提取结果输入所述多模态编码网络,得到所述多模态编码网络输出的各所述样本多模态信息的多模态编码向量;将各所述样本多模态信息的话题提取内容输入所述话题编码网络,得到所述话题编码网络输出的各所述样本多模态信息的话题编码向量。
在一种可能的实施方式中,所述样本多模态信息的个数为N;
所述数据提取子单元,具体用于:对所述第n个样本多模态信息进行文本提取处理,得到所述第n个样本多模态信息的文本数据;对所述第n个样本多模态信息进行图像提取处理,得到所述第n个样本多模态信息的图像数据;对所述第n个样本多模态信息进行音频提取处理,得到所述第n个样本多模态信息的音频数据;将所述第n个样本多模态信息的文本数据、所述第n个样本多模态信息的图像数据、以及所述第n个样本多模态信息的音频数据进行集合处理,得到所述第n个样本多模态信息的数据提取结果;其中,n为正整数,n≤N,N为正整数。
在一种可能的实施方式中,所述模型构建单元403,还包括:
数据更新子单元,用于根据各所述样本多模态信息的话题提取内容,更新各所述样本多模态信息的数据提取结果。
在一种可能的实施方式中,所述样本多模态信息的个数为N;第n个样本多模态信息的数据提取结果包括所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;
所述数据更新子单元,具体用于:根据所述第n个样本多模态信息的话题提取内容,确定所述第n个样本多模态信息对应的至少一个待删除对象;从所述第n个样本多模态信息的文本数据中,删除所述第n个样本多模态信息对应的至少一个待删除对象,得到所述第n个样本多模态信息的更新后文本;利用所述第n个样本多模态信息的更新后文本,更新所述第n个样本多模态信息的数据提取结果;其中,n为正整数,n≤N,N为正整数。
在一种可能的实施方式中,所述样本多模态信息的个数为N;
所述话题提取单元402,具体用于:对所述第n个样本多模态信息进行文本提取处理,得到所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;若确定所述第n个样本多模态信息的文本数据中存在预设话题标识符,则依据所述预设话题标识符,对所述第n个样本多模态信息的文本数据进行话题提取处理,得到所述第n个样本多模态信息的话题提取内容。
在一种可能的实施方式中,所述话题提取单元402,还用于:若确定所述第n个样本多模态信息的文本数据中不存在预设话题标识符,则对所述第n个样本多模态信息的文本数据进行关键词提取处理,得到所述第n个样本多模态信息的关键词提取结果;根据所述第n个样本多模态信息的关键词提取结果,确定所述第n个样本多模态信息的话题提取内容。
基于上述信息表征模型构建装置400的相关内容可知,对于信息表征模型构建装置400来说,在获取到大量样本多模态信息之后,可以先从这些样本多模态信息中提取出这些样本多模态信息的话题提取内容;再利用大量样本多模态信息、并以这些样本多模态信息的话题提取内容作为监督信号,构建信息表征模型,以使构建好的信息表征模型针对多模态信息具有较好的信息表征性能。其中,因各个样本多模态信息的话题提取内容能够反映出各个样本多模态信息的主要内容,使得利用这些样本多模态信息的话题提取内容作为监督信号构建所得的信息表征模型具有比较好的信息表征性能。
另外,因在信息表征模型的构建过程中所使用的监督信号是从这些样本多模态信息中提取所得的话题内容,以使该信息表征模型的构建过程能够充分利用这些样本多模态信息,还使得该监督信号无需由相关人员预先进行人工标注,如此有利于节省成本。
基于上述方法实施例提供的信息表征方法,本申请实施例还提供了一种信息表征装置,下面结合附图进行解释和说明。
装置实施例二
装置实施例二提供的信息表征装置的技术详情,请参照上述方法实施例二。
参见图5,该图为本申请实施例提供的一种信息表征装置的结构示意图。
本申请实施例提供的信息表征装置500,包括:
信息获取单元501,用于获取待处理多模态信息;
信息表征单元502,用于利用预先构建的信息表征模型,确定所述待处理多模态信息的信息表征向量;其中,所述信息表征模型是利用本申请实施例提供的信息表征模型构建方法的任一实施方式进行构建的。
基于上述信息表征装置500的相关内容可知,对于信息表征装置500来说,在获取到待处理多模态信息之后,可以利用预先构建的信息表征模型,确定该待处理多模态信息的信息表征向量。其中,因上述“信息表征模型”针对多模态信息具有较好的信息表征性能,使得利用该“信息表征模型”针对待处理多模态信息所确定的信息表征向量,能够比较准确地表示出该待处理多模态信息所携带的多模态融合信息,从而使得该“待处理多模态信息的信息表征向量”能够比较准确地表示出该待处理多模态信息的整体内容,如此能够提高信息表征效果(尤其是,针对多模态信息的信息表征效果)。
进一步地,本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的信息表征模型构建方法的任一实施方式,或者执行本申请实施例提供的信息表征方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的信息表征模型构建方法的任一实施方式,或者执行本申请实施例提供的信息表征方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的信息表征模型构建方法的任一实施方式,或者执行本申请实施例提供的信息表征方法的任一实施方式。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (16)
1.一种信息表征模型构建方法,其特征在于,所述方法包括:
获取至少一个样本多模态信息;
对各所述样本多模态信息进行话题提取处理,得到各所述样本多模态信息的话题提取内容;
利用所述至少一个样本多模态信息、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型;其中,在所述信息表征模型的构建过程中所使用的监督信号包括所述至少一个样本多模态信息的话题提取内容。
2.根据权利要求1所述的方法,其特征在于,所述信息表征模型的构建过程,包括:
对各所述样本多模态信息进行数据提取处理,得到各所述样本多模态信息的数据提取结果;其中,所述数据提取结果包括至少一种数据信息;
利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型。
3.根据权利要求2所述的方法,其特征在于,所述利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型,包括:
根据待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量;
根据所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量,确定所述待训练模型的模型损失值;
依据所述待训练模型的模型损失值,更新所述待训练模型,并继续执行所述根据待训练模型、所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,确定所述至少一个样本多模态信息的多模态编码向量、以及所述至少一个样本多模态信息的话题编码向量的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定所述信息表征模型。
4.根据权利要求3所述的方法,其特征在于,所述待训练模型包括多模态编码网络和话题编码网络;
所述根据所述待训练模型,确定所述信息表征模型,包括:
将所述多模态编码网络,确定为所述信息表征模型。
5.根据权利要求3所述的方法,其特征在于,所述待训练模型包括多模态编码网络和话题编码网络;
所述至少一个样本多模态信息的多模态编码向量的确定过程,包括:
将各所述样本多模态信息的数据提取结果输入所述多模态编码网络,得到所述多模态编码网络输出的各所述样本多模态信息的多模态编码向量;
所述至少一个样本多模态信息的话题编码向量的确定过程,包括:
将各所述样本多模态信息的话题提取内容输入所述话题编码网络,得到所述话题编码网络输出的各所述样本多模态信息的话题编码向量。
6.根据权利要求2所述的方法,其特征在于,所述样本多模态信息的个数为N;
第n个样本多模态信息的数据提取结果的确定过程,包括:
对所述第n个样本多模态信息进行文本提取处理,得到所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;
对所述第n个样本多模态信息进行图像提取处理,得到所述第n个样本多模态信息的图像数据;
对所述第n个样本多模态信息进行音频提取处理,得到所述第n个样本多模态信息的音频数据;
将所述第n个样本多模态信息的文本数据、所述第n个样本多模态信息的图像数据、以及所述第n个样本多模态信息的音频数据进行集合处理,得到所述第n个样本多模态信息的数据提取结果。
7.根据权利要求2所述的方法,其特征在于,所述利用所述至少一个样本多模态信息的数据提取结果、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型之前,所述方法还包括:
根据各所述样本多模态信息的话题提取内容,更新各所述样本多模态信息的数据提取结果。
8.根据权利要求7所述的方法,其特征在于,所述样本多模态信息的个数为N;第n个样本多模态信息的数据提取结果包括所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;
所述第n个样本多模态信息的数据提取结果的更新过程,包括:
根据所述第n个样本多模态信息的话题提取内容,确定所述第n个样本多模态信息对应的至少一个待删除对象;
从所述第n个样本多模态信息的文本数据中,删除所述第n个样本多模态信息对应的至少一个待删除对象,得到所述第n个样本多模态信息的更新后文本;
利用所述第n个样本多模态信息的更新后文本,更新所述第n个样本多模态信息的数据提取结果。
9.根据权利要求1所述的方法,其特征在于,所述样本多模态信息的个数为N;
第n个样本多模态信息的话题提取内容的确定过程,包括:
对所述第n个样本多模态信息进行文本提取处理,得到所述第n个样本多模态信息的文本数据;其中,n为正整数,n≤N,N为正整数;
若确定所述第n个样本多模态信息的文本数据中存在预设话题标识符,则依据所述预设话题标识符,对所述第n个样本多模态信息的文本数据进行话题提取处理,得到所述第n个样本多模态信息的话题提取内容。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
若确定所述第n个样本多模态信息的文本数据中不存在预设话题标识符,则对所述第n个样本多模态信息的文本数据进行关键词提取处理,得到所述第n个样本多模态信息的关键词提取结果;
根据所述第n个样本多模态信息的关键词提取结果,确定所述第n个样本多模态信息的话题提取内容。
11.一种信息表征方法,其特征在于,所述方法包括:
获取待处理多模态信息;
利用预先构建的信息表征模型,确定所述待处理多模态信息的信息表征向量;其中,所述信息表征模型是利用权利要求1-10任一项所述的信息表征模型构建方法进行构建的。
12.一种信息表征模型构建装置,其特征在于,包括:
样本获取单元,用于获取至少一个样本多模态信息;
话题提取单元,用于对各所述样本多模态信息进行话题提取处理,得到各所述样本多模态信息的话题提取内容;
模型构建单元,用于利用所述至少一个样本多模态信息、以及所述至少一个样本多模态信息的话题提取内容,构建信息表征模型;其中,在所述信息表征模型的构建过程中所使用的监督信号包括所述至少一个样本多模态信息的话题提取内容。
13.一种信息表征装置,其特征在于,包括:
信息获取单元,用于获取待处理多模态信息;
信息表征单元,用于利用预先构建的信息表征模型,确定所述待处理多模态信息的信息表征向量;其中,所述信息表征模型是利用权利要求1-10任一项所述的信息表征模型构建方法进行构建的。
14.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1-10中任一项所述的信息表征模型构建方法,或者执行权利要求11所述的信息表征方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-10中任一项所述的信息表征模型构建方法,或者执行权利要求11所述的信息表征方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-10中任一项所述的信息表征模型构建方法,或者执行权利要求11所述的信息表征方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210138974.0A CN114510585B (zh) | 2022-02-15 | 2022-02-15 | 一种信息表征模型构建方法、信息表征方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210138974.0A CN114510585B (zh) | 2022-02-15 | 2022-02-15 | 一种信息表征模型构建方法、信息表征方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114510585A true CN114510585A (zh) | 2022-05-17 |
CN114510585B CN114510585B (zh) | 2023-11-21 |
Family
ID=81551102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210138974.0A Active CN114510585B (zh) | 2022-02-15 | 2022-02-15 | 一种信息表征模型构建方法、信息表征方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114510585B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242033A (zh) * | 2020-01-13 | 2020-06-05 | 南京大学 | 一种基于视频和文字对判别分析的视频特征学习方法 |
CN112465008A (zh) * | 2020-11-25 | 2021-03-09 | 电子科技大学 | 一种基于自监督课程学习的语音和视觉关联性增强方法 |
CN112990297A (zh) * | 2021-03-10 | 2021-06-18 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
CN113591902A (zh) * | 2021-06-11 | 2021-11-02 | 中国科学院自动化研究所 | 基于多模态预训练模型的跨模态理解与生成方法和装置 |
CN113673613A (zh) * | 2021-08-25 | 2021-11-19 | 平安科技(深圳)有限公司 | 基于对比学习的多模态数据特征表达方法、装置及介质 |
CN113903420A (zh) * | 2021-09-29 | 2022-01-07 | 清华大学 | 一种语义标签确定模型的构建方法、病历解析方法 |
CN113946710A (zh) * | 2021-10-12 | 2022-01-18 | 浙江大学 | 一种基于多模态与自监督表征学习的视频检索方法 |
CN113987274A (zh) * | 2021-12-30 | 2022-01-28 | 智者四海(北京)技术有限公司 | 视频语义表示方法、装置、电子设备和存储介质 |
CN113989697A (zh) * | 2021-09-24 | 2022-01-28 | 天津大学 | 基于多模态自监督深度对抗网络的短视频分类方法及装置 |
CN114005012A (zh) * | 2021-11-05 | 2022-02-01 | 北京市商汤科技开发有限公司 | 多模态预训练模型的训练方法、装置、设备及存储介质 |
CN114021646A (zh) * | 2021-11-03 | 2022-02-08 | 北京有竹居网络技术有限公司 | 一种图像描述文本确定方法及其相关设备 |
-
2022
- 2022-02-15 CN CN202210138974.0A patent/CN114510585B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242033A (zh) * | 2020-01-13 | 2020-06-05 | 南京大学 | 一种基于视频和文字对判别分析的视频特征学习方法 |
CN112465008A (zh) * | 2020-11-25 | 2021-03-09 | 电子科技大学 | 一种基于自监督课程学习的语音和视觉关联性增强方法 |
CN112990297A (zh) * | 2021-03-10 | 2021-06-18 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
CN113591902A (zh) * | 2021-06-11 | 2021-11-02 | 中国科学院自动化研究所 | 基于多模态预训练模型的跨模态理解与生成方法和装置 |
CN113673613A (zh) * | 2021-08-25 | 2021-11-19 | 平安科技(深圳)有限公司 | 基于对比学习的多模态数据特征表达方法、装置及介质 |
CN113989697A (zh) * | 2021-09-24 | 2022-01-28 | 天津大学 | 基于多模态自监督深度对抗网络的短视频分类方法及装置 |
CN113903420A (zh) * | 2021-09-29 | 2022-01-07 | 清华大学 | 一种语义标签确定模型的构建方法、病历解析方法 |
CN113946710A (zh) * | 2021-10-12 | 2022-01-18 | 浙江大学 | 一种基于多模态与自监督表征学习的视频检索方法 |
CN114021646A (zh) * | 2021-11-03 | 2022-02-08 | 北京有竹居网络技术有限公司 | 一种图像描述文本确定方法及其相关设备 |
CN114005012A (zh) * | 2021-11-05 | 2022-02-01 | 北京市商汤科技开发有限公司 | 多模态预训练模型的训练方法、装置、设备及存储介质 |
CN113987274A (zh) * | 2021-12-30 | 2022-01-28 | 智者四海(北京)技术有限公司 | 视频语义表示方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114510585B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112164391B (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN112559800B (zh) | 用于处理视频的方法、装置、电子设备、介质和产品 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
US12111866B2 (en) | Term weight generation method, apparatus, device and medium | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
JP2022120024A (ja) | オーディオ信号処理方法、モデルトレーニング方法、並びにそれらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN112348111A (zh) | 视频中的多模态特征融合方法、装置、电子设备及介质 | |
CN111488813B (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
CN116645624A (zh) | 视频内容理解方法和系统、计算机设备、存储介质 | |
CN112735385A (zh) | 语音端点检测方法、装置、计算机设备及存储介质 | |
CN112364829A (zh) | 一种人脸识别方法、装置、设备及存储介质 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN113254578B (zh) | 用于数据聚类的方法、装置、设备、介质和产品 | |
CN106959945B (zh) | 基于人工智能的为新闻生成短标题的方法和装置 | |
CN114510585B (zh) | 一种信息表征模型构建方法、信息表征方法 | |
CN115019137A (zh) | 一种多尺度双流注意力视频语言事件预测的方法及装置 | |
CN114780757A (zh) | 短媒体标签抽取方法、装置、计算机设备和存储介质 | |
CN115359400A (zh) | 视频识别方法、装置、介质及电子设备 | |
CN113849622A (zh) | 一种民航文档视觉认知问答方法及系统 | |
CN112559750A (zh) | 文本数据的分类方法、装置、非易失性存储介质、处理器 | |
CN110909737A (zh) | 图片文字识别方法及系统 | |
CN115098680B (zh) | 数据处理方法、装置、电子设备、介质及程序产品 | |
CN115062691B (zh) | 属性识别方法和装置 | |
CN113722496B (zh) | 一种三元组抽取方法、装置、可读存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |