CN113901302B - 数据处理方法、装置、电子设备和介质 - Google Patents
数据处理方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN113901302B CN113901302B CN202111157005.1A CN202111157005A CN113901302B CN 113901302 B CN113901302 B CN 113901302B CN 202111157005 A CN202111157005 A CN 202111157005A CN 113901302 B CN113901302 B CN 113901302B
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- knowledge
- video
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 24
- 238000012545 processing Methods 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 48
- 238000000034 method Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 19
- 230000035922 thirst Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000035622 drinking Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种数据处理方法、装置、设备、介质和产品,涉及人工智能技术领域,具体为计算机视觉、自然语音技术、语音技术、深度学习和知识图谱领域。数据处理方法包括:基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征;确定视频特征、问题特征和答案特征彼此之间的关联关系;基于关联关系,获得视频数据、问题数据和候选答案数据的匹配结果。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、自然语音技术、语音技术、深度学习和知识图谱领域,更具体地,涉及一种数据处理方法、装置、电子设备、介质和程序产品。
背景技术
视频是互联网上广泛应用的信息承载形式。问答方式作为信息获取的方式,能够根据用户的问题给出答案。视频问答方式作为一种效率较佳的问答方式得到广泛使用。通过视频问答方式,能够根据用户的问题提供针对问题的视频,所提供的视频用于解答用户提出的问题。
发明内容
本公开提供了一种数据处理方法、装置、电子设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种数据处理方法,包括:基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征;确定所述视频特征、所述问题特征和所述答案特征彼此之间的关联关系;基于所述关联关系,获得所述视频数据、所述问题数据和候选答案数据的匹配结果。
根据本公开的另一方面,提供了一种数据处理装置,包括:第一获取模块、确定模块以及第二获取模块。第一获取模块,用于基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征;确定模块,用于确定所述视频特征、所述问题特征和所述答案特征彼此之间的关联关系;第二获取模块,用于基于所述关联关系,获得所述视频数据、所述问题数据和候选答案数据的匹配结果。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器和与所述至少一个处理器通信连接的存储器。其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的数据处理方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述的数据处理方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述的数据处理方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开一实施例的数据处理方法和装置的应用场景;
图2示意性示出了根据本公开一实施例的数据处理方法的流程图;
图3示意性示出了根据本公开一实施例的数据处理方法的原理图;
图4示意性示出了根据本公开一实施例的关联关系的示意图;
图5示意性示出了根据本公开一实施例的数据处理装置的框图;以及
图6是用来实现本公开实施例的用于执行数据处理的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种数据处理方法,包括:基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征。然后,确定视频特征、问题特征和答案特征彼此之间的关联关系。接下来,基于关联关系,获得视频数据、问题数据和候选答案数据的匹配结果。
图1示意性示出了根据本公开一实施例的数据处理方法和装置的应用场景。需要注意的是,图1所示仅为可以应用本公开实施例的应用场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,本公开的应用场景100例如包括为问题数据110匹配对应的解答数据,解答数据能够用于解答与问题数据110对应的问题。
示例性地,解答数据包括视频数据和候选答案数据。例如,从视频数据121、122中确定与问题数据110对应的视频数据121,该视频数据121能够包含用于解答与问题数据110对应的问题的信息。在另一示例中,还可以从视频数据121中确定能够用于解答问题的视频片段1211。
示例性地,针对候选答案数据131、132、133,每个候选答案数据例如可以是一个选项。本公开实施例可以基于问题数据110和每个候选答案数据之间的匹配性,从候选答案数据131、132、133中选择与问题数据110相匹配的候选答案数据132。
相关技术在为问题匹配对应的答案时,所匹配的答案不够准确、匹配的答案不够全面。有鉴于此,本公开实施例提供了一种数据处理方法,下面结合图1的应用场景,参考图2~图4来描述根据本公开示例性实施方式的数据处理方法。
图2示意性示出了根据本公开一实施例的数据处理方法的流程图。
如图2所示,本公开实施例的数据处理方法200例如可以包括操作S210~操作S230。
在操作S210,基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征。
在操作S220,确定视频特征、问题特征和答案特征彼此之间的关联关系。
在操作S230,基于关联关系,获得视频数据、问题数据和候选答案数据的匹配结果。
示例性地,可以为问题数据匹配对应的解答数据,解答数据例如包括视频数据和候选答案数据。针对与问题数据对应的问题,视频数据中包含用于解答问题的视频片段。候选答案数据能够用于解答问题,候选答案数据例如包括选项。
通过分别对视频数据、问题数据、候选答案数据进行处理,得到三者的特征,三者的特征包括视频特征、问题特征和答案特征。然后,基于视频特征、问题特征和答案特征三者彼此之间的关联关系,得到视频数据、问题数据和候选答案数据的匹配结果。
例如,利用关联关系进行逻辑推理,得到视频特征、问题特征和答案特征彼此之间更深层次的联系,从而使得基于视频特征、问题特征和答案特征得到的匹配结果在更深层次上体现视频特征、问题特征和答案特征之间的匹配性,以便提高匹配结果的准确性。
示例性地,匹配结果例如表征了视频数据和问题数据之间的匹配情况、候选答案数据和问题数据之间的匹配情况。
根据本公开的实施例,通过确定视频特征、问题特征和答案特征彼此之间的关联关系,并基于关联关系确定视频数据、问题数据和候选答案数据的匹配结果,实现了同时确定与问题数据匹配的视频数据以及确定与问题数据匹配的候选答案数据,提高了匹配结果的多样性以及提高了匹配结果的获取效率。另外,基于关联关系确定匹配结果,在更深层次上体现了视频特征、问题特征和答案特征之间的内在联系,从而提高了匹配结果的准确性。
根据本公开的实施例,关联关系例如包括基于知识图谱技术构建的图数据。图数据例如包括多个节点以及节点之间的边。视频特征、问题特征和答案特征可以作为图数据的节点,特征之间具有的连接关系作为节点之间的边。
然后,利用图数据进行推理,得到视频数据、问题数据和候选答案数据的匹配结果。例如,将图数据输入至图网络模型中进行推理,图网络模型可以深层次地理解图数据内在的信息,从而得到匹配结果。图网络模型例如包括图神经网络模型。
在一示例中,匹配结果例如包括问题数据和视频数据是否匹配。即,视频数据中是否具有解答与问题数据对应的问题的信息。
在另一示例中,匹配结果例如包括问题数据和候选答案数据是否匹配。即,候选答案数据是否可以用于解答与问题数据对应的问题。
在另一示例中,匹配结果例如包括视频数据中针对问题数据的视频片段。即,当视频数据与问题数据匹配时,确定视频数据中用于解答与问题数据对应的问题的视频片段。
根据本公开的实施例,可以基于第一知识数据处理视频数据,得到视频特征,基于第二知识数据处理问题数据,得到问题特征,基于第三知识数据处理候选答案数据,得到答案特征。
示例性地,第一知识数据、第二知识数据和第三知识数据可以相同也可以不同。例如,第一知识数据与视频数据相关联,第二知识数据与问题数据相关联,第三知识数据与候选答案数据相关联。第一知识数据、第二知识数据和第三知识数据中的任意一个例如包括外部数据,外部数据存储于外部数据库中。
示例性地,外部数据可以包括但不仅限于常识数据、经验数据、共现数据等等。常识数据例如存储在常识数据库中,经验数据例如存储在经验数据库中,共现数据例如存储在共现数据库中。以问题数据为例,常识数据可以包括用于解答问题的常识信息,经验数据可以包括用于解答问题的经验信息,共现数据可以包括与问题数据经常关联出现的数据,因此该共现数据在一定程度上包含了解答问题的相关信息。为了便于理解,下文以常识数据进行举例说明本公开实施例的技术方案。
可以理解,结合知识数据来获取视频特征、问题特征和答案特征,使得获取的视频特征、问题特征和答案特征之间通过常识数据彼此关联,提高了基于视频特征、问题特征和答案特征进行匹配的准确性。
以下结合图3来描述如何基于第一知识数据、第二知识数据和第三知识数据分别得到视频特征、问题特征和答案特征。
图3示意性示出了根据本公开一实施例的数据处理方法的原理图。
如图3所示,本公开实施例包括视频数据310、问题数据320和候选答案数据330。
首先,描述如何基于第一知识数据得到视频特征。
针对视频数据310,从视频数据310中提取多个视频片段数据,例如提取T个视频片段数据V1、V2、……、VT,T为大于等于1的整数。例如,识别视频数据310中的关键帧,在每个关键帧周围提取视频片段数据,所提取的视频片段数据可以包括关键帧。关键帧例如包括视频数据310中场景切换所对应的视频帧。
以多个视频片段数据V1、V2、……、VT中的视频片段数据V1为例,对视频片段数据V1进行特征提取,得到第一目标特征EV1。例如,通过视频预训练模型对视频片段数据V1进行特征提取得到第一目标特征EV1。类似地,可以得到其他视频片段数据的第一目标特征EV2、……、EVT。由此,得到与视频片段数据V1、V2、……、VT一一对应的第一目标特征EV1、EV2、……、EVT。
以视频片段数据V1为例,基于第一知识数据,获取针对视频片段数据V1的第一知识特征。针对视频片段数据V1的第一知识特征例如包括多个,本公开实施例以9个为例。即,针对视频片段数据V1的第一知识特征为EV1_R1、EV1_R2、……、EV1_R9。类似地,得到针对视频片段数据V2的第一知识特征EV2_R1、EV2_R2、……、EV2_R9,得到针对视频片段数据VT的第一知识特征EVT_R1、EVT_R2、……、EVT_R9。
然后,将第一目标特征EV1、EV2、……、EVT和针对每个视频片段数据的第一知识特征,确定为针对视频数据310的视频特征311。
示例性地,针对每个视频片段数据,基于第一知识数据获取针对视频片段数据的第一知识特征包括以下过程。
首先,通过光学字符识别(Optical Character Recognition,OCR)技术获取视频片段数据中的字幕数据。通过语音识别技术对视频片段数据进行语音识别,得到语音数据。通过图像识别技术对视频片段数据进行图像识别,得到图像数据,图像数据例如包括视频中的对象数据,对象例如为物体或人物等等。
然后,基于字幕数据、语音数据和图像数据,确定待处理文本。接下来,从第一知识数据中确定与待处理文本相匹配的目标第一知识数据,并对目标第一知识数据进行特征提取,得到第一知识特征。
以视频片段数据V1为例,字幕数据例如包括“我现在想要喝水”、语音数据例如包括“喝水”、图像数据包括对象(水瓶或水)。基于字幕数据、语音数据和图像数据得到的待处理文本例如为语句“我要喝水”。
例如,以第一知识数据包括与视频数据310相关联的常识数据为例。当视频片段数据V1中包括与喝水相关的信息时,第一知识数据中例如包括与喝水相关的常识。与喝水相关的常识例如包括“口渴时需要喝水”、“想喝水时需要买水”、“劳累时需要喝水”、“劳动后需要喝水”、“生病了需要喝水”等等。
将待处理文本“我要喝水”输入至存储有第一知识数据的常识知识库中进行匹配,以便匹配得到与待处理文本具有语义关系的9个目标第一知识数据,目标第一知识数据例如包括“口渴时需要喝水”、“想喝水时需要买水”、“劳累时需要喝水”、“劳动后需要喝水”等等。然后,对9个目标第一知识数据分别进行特征提取,得到针对视频片段数据V1的第一知识特征EV1_R1、EV1_R2、……、EV1_R9。类似地,可以得到针对其他视频片段数据的第一知识特征。
可以理解,针对视频数据,通过多种方式获取视频特征,使得所获取的视频特征更加丰富,以便提高视频数据、问题数据和候选答案数据的匹配准确性。
然后,描述如何基于第二知识数据得到问题特征。
针对问题数据320,通过文本预训练模型对问题数据320进行特征提取,得到第二目标特征EQ_CLS。
通过分词技术对问题数据320进行分词处理,得到针对问题数据320的多个第一子文本Q1、Q2、……、QM,M为大于等于1的整数,第一子文本例如为字词。然后,通过文本预训练模型对每个第一子文本进行特征提取,以获取每个第一子文本的第一子文本特征。由此,得到与多个第一子文本Q1、Q2、……、QM一一对应的多个第一子文本特征EQ1、EQ2、……、EQM。
接下来,从第二知识数据中确定与问题数据320相匹配的目标第二知识数据。然后,对目标第二知识数据进行特征提取,得到第二知识特征。接下来,将第二目标特征、第一子文本特征和第二知识特征,确定为针对问题数据320的问题特征321。
针对第二知识特征,以问题数据320为“口渴了怎么办”为例,以第二知识数据包括与问题数据320相关联的常识数据为例。例如,第二知识数据中包括与口渴相关的常识。与口渴相关的常识例如包括“运动后口渴了怎么办”、“口渴了喝什么”、“口渴了是否可以喝大量的饮料”等等。
将“口渴了怎么办”输入至存储有第二知识数据的常识知识库中进行匹配,以便匹配得到与问题数据320具有语义关系的9个目标第二知识数据,目标第二知识数据例如包括“运动后口渴了怎么办”、“口渴了喝什么”等等。然后,对9个目标第二知识数据分别进行特征提取,得到第二知识特征EQ_R1、EQ_R2、……、EQ_R9。
可以理解,针对问题数据,通过多种方式获取问题特征,使得所获取的问题特征更加丰富,以便提高视频数据、问题数据和候选答案数据的匹配准确性。
接下来,描述如何基于第三知识数据得到答案特征。
针对候选答案数据330,通过文本预训练模型对候选答案数据330进行特征提取,得到第三目标特征EA_CLS。
通过分词技术对候选答案数据330进行分词处理,得到针对候选答案数据330的多个第二子文本A1、A2、……、AN,N为大于等于1的整数,第二子文本例如为字词。然后,通过文本预训练模型对每个第二子文本进行特征提取,以获取每个第二子文本的第二子文本特征。由此,得到与多个第二子文本A1、A2、……、AN一一对应的多个第二子文本特征EA1、EA2、……、EAN。
接下来,从第三知识数据中确定与候选答案数据330相匹配的目标第三知识数据。然后,对目标第三知识数据进行特征提取,得到第三知识特征。接下来,将第三目标特征、第二子文本特征和第三知识特征,确定为针对候选答案数据330的答案特征331。
针对第三知识特征,以候选答案数据330为“口渴了可以喝水”为例,以第三知识数据包括与候选答案数据330相关联的常识数据为例。例如,第三知识数据中包括与如何喝水相关的常识,与如何喝水相关的常识例如包括“喝白开水”、“喝饮料”、“口渴了需要少量多次地喝水”等等。
将“口渴了可以喝水”输入至存储有第三知识数据的常识知识库中进行匹配,以便匹配得到与候选答案数据330具有语义关系的9个目标第三知识数据,目标第三知识数据例如包括“喝白开水”、“喝饮料”等等。然后,对9个目标第三知识数据分别进行特征提取,得到第三知识特征EA_R1、EA_R2、……、EA_R9。
可以理解,针对候选答案数据,通过多种方式获取答案特征,使得所获取的答案特征更加丰富,以便提高视频数据、问题数据和候选答案数据的匹配准确性。
接下来,描述如何基于视频特征311、问题特征321和答案特征331得到匹配结果。
在得到视频特征311、问题特征321和答案特征331之后,可以基于经验、词语共现等规则,利用知识图谱技术建立视频特征311、问题特征321和答案特征331彼此之间的关联关系340。关联关系340例如包括图数据,图数据例如包括知识扩展信息图数据。将关联关系340输入至图神经网络模型350中进行处理,以推理学习得到关联关系340更深层次的内在联系,从而输出针对视频数据310的匹配结果312和针对候选答案数据330的匹配结果332。
示例性地,匹配结果312包括分类结果和标注结果。分类结果表征了视频数据310和问题数据320是否匹配。在视频数据310和问题数据320相匹配时,标注结果包括对目标视频片段的标注信息,该目标视频片段用于解答与问题数据320对应的问题。
在训练图神经网络模型350时,作为训练样本的视频数据310和问题数据320可以是匹配的,也可以是不匹配的,因此训练图神经网络模型350得到的输出结果包括视频数据310和问题数据320匹配或不匹配。当使用图神经网络模型350时,输入的视频数据310和问题数据320可以是匹配的,因此图神经网络模型350的输出可以只包括标注结果,而无需输出分类结果,当然也可以输出分类结果,输出的分类结果例如均为“匹配”。
示例性地,匹配结果332包括分类结果。分类结果表征了候选答案数据330和问题数据320是否匹配。
示例性地,基于1个视频数据310、1个问题数据320和1个候选答案数据330可以得到1个关联关系340。当具有1个视频数据310、1个问题数据320和5个候选答案数据330时,可以基于视频数据310、问题数据320和第1个候选答案数据330得到第1个关联关系340,基于视频数据310、问题数据320和第2个候选答案数据330得到第2个关联关系340,以此类推,从而得到5个关联关系340。利用图神经网络模型350分别对5个关联关系340进行处理,得到5个匹配结果,基于5个匹配结果可以得知每个候选答案数据330是否与问题数据320相匹配。
在本公开的实施例中,利用知识数据处理视频数据、问题数据和候选答案数据得到关联关系,实现了利用知识数据进行数据扩充得到信息交互性较强的关联关系,并利用关联关系进行多层次地数据理解与推理,以便对视频数据、问题数据和候选答案数据的综合理解,实现更好地进行问答决策、取得了更好的问答效果。
图4示意性示出了根据本公开一实施例的关联关系的示意图。
如图4所示,针对视频特征411、问题特征421和答案特征431,关联关系例如包括关联关系L1~L6。
例如,与多个视频片段数据一一对应的多个第一目标特征EV1、EV2、……、EVT、第二目标特征EQ_CLS、第三目标特征EA_CLS彼此之间的关联关系表示为L1。例如,EV1、EV2、……、EVT、EQ_CLS、EA_CLS之间为全连接,即EV1、EV2、......、EVT、EQ_CLS、EA_CLS中的任意两个向量(节点)彼此连接。
例如,针对每个视频片段数据,第一目标特征与第一知识特征之间的关联关系表示为L2。例如,针对视频片段数据V1,第一目标特征EV1与第一知识特征EV1_R1、EV1_R2、……、EV1_R9连接。针对视频片段数据VT,第一目标特征EVT与第一知识特征EVT_R1、EVT_R2、……、EVT_R9连接。
例如,第二目标特征EQ_CLS与第二知识特征EQ_R1、EQ_R2、……、EQ_R9之间的关联关系表示为L3。例如,EQ_CLS与EQ_R1连接、EQ_CLS与EQ_R2连接、……、EQ_CLS与EQ_R9连接。
例如,第三目标特征EA_CLS与第三知识特征EA_R1、EA_R2、……、EA_R9之间的关联关系表示为L4。例如,EA_CLS与EA_R1连接、EA_CLS与EA_R2连接、EA_CLS与EA_R9连接。
例如,第二目标特征EQ_CLS与第一子文本特征EQ1、EQ2、……、EQM之间的关联关系表示为L5。例如,EQ_CLS、EQ1、EQ2、……、EQM之间为全连接,即EQ_CLS、EQ1、EQ2、……、EQM中的任意两个向量(节点)彼此连接。
例如,第三目标特征EA_CLS与第二子文本特征EA1、EA2、……、EAN之间的关联关系表示为L6。例如,EA_CLS、EA1、EA2、……、EAN之间为全连接,即EA_CLS、EA1、EA2、……、EAN中的任意两个向量(节点)彼此连接。
图5示意性示出了根据本公开一实施例的数据处理装置的框图。
如图5所示,本公开实施例的数据处理装置500例如包括第一获取模块510、确定模块520和第二获取模块530。
第一获取模块510可以用于基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征。根据本公开实施例,第一获取模块510例如可以执行上文参考图2描述的操作S210,在此不再赘述。
确定模块520可以用于确定视频特征、问题特征和答案特征彼此之间的关联关系。根据本公开实施例,确定模块520例如可以执行上文参考图2描述的操作S220,在此不再赘述。
第二获取模块530可以用于基于关联关系,获得视频数据、问题数据和候选答案数据的匹配结果。根据本公开实施例,第二获取模块530例如可以执行上文参考图2描述的操作S230,在此不再赘述。
根据本公开的实施例,第一获取模块510包括:第一处理子模块、第二处理子模块和第三处理子模块。第一处理子模块,用于基于第一知识数据处理视频数据,得到视频特征,其中,第一知识数据与视频数据相关联;第二处理子模块,用于基于第二知识数据处理问题数据,得到问题特征,其中,第二知识数据与问题数据相关联;第三处理子模块,用于基于第三知识数据处理候选答案数据,得到答案特征,其中,第三知识数据与候选答案数据相关联。
根据本公开的实施例,第一处理子模块包括:第一提取单元、第二提取单元、第一获取单元和第一确定单元。第一提取单元,用于从视频数据中提取多个视频片段数据;针对多个视频片段数据中的每个视频片段数据:第二提取单元,用于对视频片段数据进行特征提取,得到第一目标特征;第一获取单元,用于基于第一知识数据,获取针对视频片段数据的第一知识特征;第一确定单元,用于将第一目标特征和第一知识特征,确定为视频特征。
根据本公开的实施例,第一获取单元包括:获取子单元、语音识别子单元、图像识别子单元、第一确定子单元、第二确定子单元和提取子单元。获取子单元,用于获取视频片段数据中的字幕数据;语音识别子单元,用于对视频片段数据进行语音识别,得到语音数据;图像识别子单元,用于对视频片段数据进行图像识别,得到图像数据;第一确定子单元,用于基于字幕数据、语音数据和图像数据,确定待处理文本;第二确定子单元,用于从第一知识数据中确定与待处理文本相匹配的目标第一知识数据;提取子单元,用于对目标第一知识数据进行特征提取,得到第一知识特征。
根据本公开的实施例,第二处理子模块包括:第三提取单元、第二获取单元、第二确定单元、第四提取单元和第三确定单元。第三提取单元,用于对问题数据进行特征提取,得到第二目标特征;第二获取单元,用于针对问题数据中的多个第一子文本,获取每个第一子文本的第一子文本特征;第二确定单元,用于从第二知识数据中确定与问题数据相匹配的目标第二知识数据;第四提取单元,用于对目标第二知识数据进行特征提取,得到第二知识特征;第三确定单元,用于将第二目标特征、第一子文本特征和第二知识特征,确定为问题特征。
根据本公开的实施例,第三处理子模块包括:第五提取单元、第三获取单元、第四确定单元、第六提取单元和第五确定单元。第五提取单元,用于对候选答案数据进行特征提取,得到第三目标特征;第三获取单元,用于针对候选答案数据中的多个第二子文本,获取每个第二子文本的第二子文本特征;第四确定单元,用于从第三知识数据中确定与候选答案数据相匹配的目标第三知识数据;第六提取单元,用于对目标第三知识数据进行特征提取,得到第三知识特征;第五确定单元,用于将第三目标特征、第二子文本特征和第三知识特征,确定为答案特征。
根据本公开的实施例,关联关系包括以下至少一项:与多个视频片段数据一一对应的多个第一目标特征、第二目标特征、第三目标特征彼此之间的关联关系;针对每个视频片段数据,第一目标特征与第一知识特征之间的关联关系;第二目标特征与第二知识特征之间的关联关系;第三目标特征与第三知识特征之间的关联关系;第二目标特征与第一子文本特征之间的关联关系;第三目标特征与第二子文本特征之间的关联关系。
根据本公开的实施例,匹配结果包括以下至少一项:问题数据和视频数据的匹配结果;问题数据和候选答案数据的匹配结果;视频数据中针对问题数据的视频片段。
根据本公开的实施例,关联关系包括图数据;第二获取模块530还用于:利用图数据进行推理,得到视频数据、问题数据和候选答案数据的匹配结果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6是用来实现本公开实施例的用于执行数据处理的电子设备的框图。
图6示出了可以用来实施本公开实施例的示例电子设备600的示意性框图。电子设备600旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (26)
1.一种数据处理方法,包括:
基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征;其中,所述视频特征是通过以下方式得到的:从所述视频数据中提取多个视频片段数据;针对多个视频片段数据中的每个视频片段数据,对所述视频片段数据进行特征提取,得到第一目标特征;基于第一知识数据,获取针对所述视频片段数据的第一知识特征;将所述第一目标特征和所述第一知识特征,确定为所述视频特征;其中,所述第一知识数据与所述视频数据相关联;
确定所述视频特征、所述问题特征和所述答案特征彼此之间的关联关系;以及
基于所述关联关系,获得所述视频数据、所述问题数据和候选答案数据的匹配结果。
2.根据权利要求1所述的方法,其中,所述基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征包括:
基于第二知识数据处理所述问题数据,得到所述问题特征,其中,所述第二知识数据与所述问题数据相关联;以及
基于第三知识数据处理所述候选答案数据,得到所述答案特征,其中,所述第三知识数据与所述候选答案数据相关联。
3.根据权利要求1所述的方法,其中,所述基于所述第一知识数据,获取针对所述视频片段数据的第一知识特征包括:
获取所述视频片段数据中的字幕数据;
对所述视频片段数据进行语音识别,得到语音数据;
对所述视频片段数据进行图像识别,得到图像数据;
基于所述字幕数据、所述语音数据和所述图像数据,确定待处理文本;
从所述第一知识数据中确定与所述待处理文本相匹配的目标第一知识数据;以及
对所述目标第一知识数据进行特征提取,得到所述第一知识特征。
4.根据权利要求2所述的方法,其中,所述基于第二知识数据处理所述问题数据,得到所述问题特征包括:
对所述问题数据进行特征提取,得到第二目标特征;
针对所述问题数据中的多个第一子文本,获取每个第一子文本的第一子文本特征;
从所述第二知识数据中确定与所述问题数据相匹配的目标第二知识数据;
对所述目标第二知识数据进行特征提取,得到第二知识特征;以及
将所述第二目标特征、所述第一子文本特征和所述第二知识特征,确定为所述问题特征。
5.根据权利要求2所述的方法,其中,所述基于第三知识数据处理所述候选答案数据,得到所述答案特征包括:
对所述候选答案数据进行特征提取,得到第三目标特征;
针对所述候选答案数据中的多个第二子文本,获取每个第二子文本的第二子文本特征;
从所述第三知识数据中确定与所述候选答案数据相匹配的目标第三知识数据;
对所述目标第三知识数据进行特征提取,得到第三知识特征;以及
将所述第三目标特征、所述第二子文本特征和所述第三知识特征,确定为所述答案特征。
6.根据权利要求1所述的方法,其中,所述关联关系包括以下至少一项:
与所述多个视频片段数据一一对应的多个第一目标特征、第二目标特征、第三目标特征彼此之间的关联关系;
针对所述每个视频片段数据,所述第一目标特征与第一知识特征之间的关联关系;
所述第二目标特征与第二知识特征之间的关联关系;
所述第三目标特征与第三知识特征之间的关联关系;
所述第二目标特征与第一子文本特征之间的关联关系;以及
所述第三目标特征与第二子文本特征之间的关联关系。
7.根据权利要求1-3中任意一项所述的方法,其中,所述匹配结果包括以下至少一项:
所述问题数据和所述视频数据的匹配结果;
所述问题数据和所述候选答案数据的匹配结果;以及
所述视频数据中针对所述问题数据的视频片段。
8.根据权利要求1-3中任意一项所述的方法,其中,所述关联关系包括图数据;所述基于所述关联关系,获得所述视频数据、所述问题数据和候选答案数据的匹配结果包括:
利用所述图数据进行推理,得到所述视频数据、所述问题数据和候选答案数据的匹配结果。
9.一种数据处理方法,包括:
基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征;其中,所述问题特征是通过以下方式得到的:对所述问题数据进行特征提取,得到第二目标特征;针对所述问题数据中的多个第一子文本,获取每个第一子文本的第一子文本特征;从第二知识数据中确定与所述问题数据相匹配的目标第二知识数据;对所述目标第二知识数据进行特征提取,得到第二知识特征;将所述第二目标特征、所述第一子文本特征和所述第二知识特征,确定为所述问题特征;
确定所述视频特征、所述问题特征和所述答案特征彼此之间的关联关系;以及
基于所述关联关系,获得所述视频数据、所述问题数据和候选答案数据的匹配结果。
10.根据权利要求9所述的方法,其中,所述基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征包括:
基于第一知识数据处理所述视频数据,得到所述视频特征,其中,所述第一知识数据与所述视频数据相关联;以及
基于第三知识数据处理所述候选答案数据,得到所述答案特征,其中,所述第三知识数据与所述候选答案数据相关联。
11.一种数据处理方法,包括:
基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征;其中,所述答案特征是通过以下方式得到的:对所述候选答案数据进行特征提取,得到第三目标特征;针对所述候选答案数据中的多个第二子文本,获取每个第二子文本的第二子文本特征;从第三知识数据中确定与所述候选答案数据相匹配的目标第三知识数据;对所述目标第三知识数据进行特征提取,得到第三知识特征;将所述第三目标特征、所述第二子文本特征和所述第三知识特征,确定为所述答案特征;
确定所述视频特征、所述问题特征和所述答案特征彼此之间的关联关系;以及
基于所述关联关系,获得所述视频数据、所述问题数据和候选答案数据的匹配结果。
12.根据权利要求11所述的方法,其中,所述基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征包括:
基于第一知识数据处理所述视频数据,得到所述视频特征,其中,所述第一知识数据与所述视频数据相关联;以及
基于第二知识数据处理所述问题数据,得到所述问题特征,其中,所述第二知识数据与所述问题数据相关联。
13.一种数据处理装置,包括:
第一获取模块,用于基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征;其中,所述视频特征是通过以下方式得到的:从所述视频数据中提取多个视频片段数据;针对多个视频片段数据中的每个视频片段数据,对所述视频片段数据进行特征提取,得到第一目标特征;基于第一知识数据,获取针对所述视频片段数据的第一知识特征;将所述第一目标特征和所述第一知识特征,确定为所述视频特征;其中,所述第一知识数据与所述视频数据相关联;
确定模块,用于确定所述视频特征、所述问题特征和所述答案特征彼此之间的关联关系;以及
第二获取模块,用于基于所述关联关系,获得所述视频数据、所述问题数据和候选答案数据的匹配结果。
14.根据权利要求13所述的装置,其中,所述第一获取模块包括:
第二处理子模块,用于基于第二知识数据处理所述问题数据,得到所述问题特征,其中,所述第二知识数据与所述问题数据相关联;以及
第三处理子模块,用于基于第三知识数据处理所述候选答案数据,得到所述答案特征,其中,所述第三知识数据与所述候选答案数据相关联。
15.根据权利要求13所述的装置,其中,所述第一获取模块包括:
获取子单元,用于获取所述视频片段数据中的字幕数据;
语音识别子单元,用于对所述视频片段数据进行语音识别,得到语音数据;
图像识别子单元,用于对所述视频片段数据进行图像识别,得到图像数据;
第一确定子单元,用于基于所述字幕数据、所述语音数据和所述图像数据,确定待处理文本;
第二确定子单元,用于从所述第一知识数据中确定与所述待处理文本相匹配的目标第一知识数据;以及
提取子单元,用于对所述目标第一知识数据进行特征提取,得到所述第一知识特征。
16.根据权利要求14所述的装置,其中,所述第二处理子模块包括:
第三提取单元,用于对所述问题数据进行特征提取,得到第二目标特征;
第二获取单元,用于针对所述问题数据中的多个第一子文本,获取每个第一子文本的第一子文本特征;
第二确定单元,用于从所述第二知识数据中确定与所述问题数据相匹配的目标第二知识数据;
第四提取单元,用于对所述目标第二知识数据进行特征提取,得到第二知识特征;以及
第三确定单元,用于将所述第二目标特征、所述第一子文本特征和所述第二知识特征,确定为所述问题特征。
17.根据权利要求14所述的装置,其中,所述第三处理子模块包括:
第五提取单元,用于对所述候选答案数据进行特征提取,得到第三目标特征;
第三获取单元,用于针对所述候选答案数据中的多个第二子文本,获取每个第二子文本的第二子文本特征;
第四确定单元,用于从所述第三知识数据中确定与所述候选答案数据相匹配的目标第三知识数据;
第六提取单元,用于对所述目标第三知识数据进行特征提取,得到第三知识特征;以及
第五确定单元,用于将所述第三目标特征、所述第二子文本特征和所述第三知识特征,确定为所述答案特征。
18.根据权利要求13所述的装置,其中,所述关联关系包括以下至少一项:
与所述多个视频片段数据一一对应的多个第一目标特征、第二目标特征、第三目标特征彼此之间的关联关系;
针对所述每个视频片段数据,所述第一目标特征与第一知识特征之间的关联关系;
所述第二目标特征与第二知识特征之间的关联关系;
所述第三目标特征与第三知识特征之间的关联关系;
所述第二目标特征与第一子文本特征之间的关联关系;以及
所述第三目标特征与第二子文本特征之间的关联关系。
19.根据权利要求13-15中任意一项所述的装置,其中,所述匹配结果包括以下至少一项:
所述问题数据和所述视频数据的匹配结果;
所述问题数据和所述候选答案数据的匹配结果;以及
所述视频数据中针对所述问题数据的视频片段。
20.根据权利要求13-15中任意一项所述的装置,其中,所述关联关系包括图数据;所述第二获取模块还用于:
利用所述图数据进行推理,得到所述视频数据、所述问题数据和候选答案数据的匹配结果。
21.一种数据处理装置,包括:
第一获取模块,用于基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征;其中,所述问题特征是通过以下方式得到的:对所述问题数据进行特征提取,得到第二目标特征;针对所述问题数据中的多个第一子文本,获取每个第一子文本的第一子文本特征;从第二知识数据中确定与所述问题数据相匹配的目标第二知识数据;对所述目标第二知识数据进行特征提取,得到第二知识特征;将所述第二目标特征、所述第一子文本特征和所述第二知识特征,确定为所述问题特征;
确定模块,用于确定所述视频特征、所述问题特征和所述答案特征彼此之间的关联关系;以及
第二获取模块,用于基于所述关联关系,获得所述视频数据、所述问题数据和候选答案数据的匹配结果。
22.根据权利要求21所述的装置,其中,所述第一获取模块包括:
第一处理子模块,用于基于第一知识数据处理所述视频数据,得到所述视频特征,其中,所述第一知识数据与所述视频数据相关联;以及
第三处理子模块,用于基于第三知识数据处理所述候选答案数据,得到所述答案特征,其中,所述第三知识数据与所述候选答案数据相关联。
23.一种数据处理装置,包括:
第一获取模块,用于基于获取的视频数据、问题数据和候选答案数据,得到视频特征、问题特征和答案特征;其中,所述答案特征是通过以下方式得到的:对所述候选答案数据进行特征提取,得到第三目标特征;针对所述候选答案数据中的多个第二子文本,获取每个第二子文本的第二子文本特征;从第三知识数据中确定与所述候选答案数据相匹配的目标第三知识数据;对所述目标第三知识数据进行特征提取,得到第三知识特征;将所述第三目标特征、所述第二子文本特征和所述第三知识特征,确定为所述答案特征;
确定模块,用于确定所述视频特征、所述问题特征和所述答案特征彼此之间的关联关系;以及
第二获取模块,用于基于所述关联关系,获得所述视频数据、所述问题数据和候选答案数据的匹配结果。
24.根据权利要求23所述的装置,其中,所述第一获取模块包括:
第一处理子模块,用于基于第一知识数据处理所述视频数据,得到所述视频特征,其中,所述第一知识数据与所述视频数据相关联;以及
第二处理子模块,用于基于第二知识数据处理所述问题数据,得到所述问题特征,其中,所述第二知识数据与所述问题数据相关联。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-12中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111157005.1A CN113901302B (zh) | 2021-09-29 | 2021-09-29 | 数据处理方法、装置、电子设备和介质 |
EP22198739.9A EP4145306A1 (en) | 2021-09-29 | 2022-09-29 | Method and apparatus of processing data, electronic device, and medium |
US17/936,761 US20230086145A1 (en) | 2021-09-29 | 2022-09-29 | Method of processing data, electronic device, and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111157005.1A CN113901302B (zh) | 2021-09-29 | 2021-09-29 | 数据处理方法、装置、电子设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113901302A CN113901302A (zh) | 2022-01-07 |
CN113901302B true CN113901302B (zh) | 2022-09-27 |
Family
ID=79189505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111157005.1A Active CN113901302B (zh) | 2021-09-29 | 2021-09-29 | 数据处理方法、装置、电子设备和介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230086145A1 (zh) |
EP (1) | EP4145306A1 (zh) |
CN (1) | CN113901302B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416953B (zh) * | 2022-01-20 | 2023-10-31 | 北京百度网讯科技有限公司 | 问答处理方法、问答模型的训练方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8311973B1 (en) * | 2011-09-24 | 2012-11-13 | Zadeh Lotfi A | Methods and systems for applications for Z-numbers |
CN109460488A (zh) * | 2018-11-16 | 2019-03-12 | 广东小天才科技有限公司 | 一种辅助教学方法及系统 |
CN110990628A (zh) * | 2019-12-06 | 2020-04-10 | 浙江大学 | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 |
CN111008302A (zh) * | 2019-11-18 | 2020-04-14 | 浙江大学 | 一种利用基于图论的多重交互网络机制解决视频问答问题的方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033266A1 (en) * | 2001-08-10 | 2003-02-13 | Schott Wade F. | Apparatus and method for problem solving using intelligent agents |
WO2006016437A1 (ja) * | 2004-08-11 | 2006-02-16 | Ginganet Corporation | テレビ電話交番システム |
CN103699588B (zh) * | 2013-12-09 | 2018-02-13 | Tcl集团股份有限公司 | 一种基于视频展示场景的信息搜索方法和系统 |
CN108846063B (zh) * | 2018-06-04 | 2020-12-22 | 北京百度网讯科技有限公司 | 确定问题答案的方法、装置、设备和计算机可读介质 |
CN109492087A (zh) * | 2018-11-27 | 2019-03-19 | 北京中熙正保远程教育技术有限公司 | 一种在线课程学习的自动问题解答系统及方法 |
CN110390003A (zh) * | 2019-06-19 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗的问答处理方法及系统、计算机设备及可读介质 |
CN112115282A (zh) * | 2020-09-17 | 2020-12-22 | 北京达佳互联信息技术有限公司 | 基于搜索的问答方法、装置、设备及存储介质 |
CN112860847B (zh) * | 2021-01-19 | 2022-08-19 | 中国科学院自动化研究所 | 视频问答的交互方法及系统 |
CN113254712B (zh) * | 2021-05-12 | 2024-04-26 | 北京百度网讯科技有限公司 | 视频匹配方法、视频处理方法、装置、电子设备及介质 |
-
2021
- 2021-09-29 CN CN202111157005.1A patent/CN113901302B/zh active Active
-
2022
- 2022-09-29 US US17/936,761 patent/US20230086145A1/en active Pending
- 2022-09-29 EP EP22198739.9A patent/EP4145306A1/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8311973B1 (en) * | 2011-09-24 | 2012-11-13 | Zadeh Lotfi A | Methods and systems for applications for Z-numbers |
CN109460488A (zh) * | 2018-11-16 | 2019-03-12 | 广东小天才科技有限公司 | 一种辅助教学方法及系统 |
CN111008302A (zh) * | 2019-11-18 | 2020-04-14 | 浙江大学 | 一种利用基于图论的多重交互网络机制解决视频问答问题的方法 |
CN110990628A (zh) * | 2019-12-06 | 2020-04-10 | 浙江大学 | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113901302A (zh) | 2022-01-07 |
EP4145306A1 (en) | 2023-03-08 |
US20230086145A1 (en) | 2023-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111625635B (zh) | 问答处理方法、装置、设备及存储介质 | |
CN112559800B (zh) | 用于处理视频的方法、装置、电子设备、介质和产品 | |
CN115359383B (zh) | 跨模态特征提取、检索以及模型的训练方法、装置及介质 | |
CN113360700B (zh) | 图文检索模型的训练和图文检索方法、装置、设备和介质 | |
CN110705460A (zh) | 图像类别识别方法及装置 | |
CN106570181B (zh) | 基于上下文管理的智能交互方法及系统 | |
CN113657395A (zh) | 文本识别方法、视觉特征提取模型的训练方法及装置 | |
CN116257690A (zh) | 一种资源推荐方法、装置、电子设备和存储介质 | |
CN115098729A (zh) | 视频处理方法、样本生成方法、模型训练方法及装置 | |
CN113901302B (zh) | 数据处理方法、装置、电子设备和介质 | |
US11610396B2 (en) | Logo picture processing method, apparatus, device and medium | |
CN112528146B (zh) | 内容资源推荐方法、装置、电子设备及存储介质 | |
CN117333889A (zh) | 文档检测模型的训练方法、装置及电子设备 | |
CN114758649B (zh) | 一种语音识别方法、装置、设备和介质 | |
CN114970666B (zh) | 一种口语处理方法、装置、电子设备及存储介质 | |
CN116204624A (zh) | 应答方法、装置、电子设备及存储介质 | |
CN116010916A (zh) | 用户身份信息识别方法、装置、电子设备及存储介质 | |
CN115048523A (zh) | 文本分类方法、装置、设备以及存储介质 | |
CN114417862A (zh) | 文本匹配方法、文本匹配模型的训练方法和装置 | |
CN114461749A (zh) | 对话内容的数据处理方法、装置、电子设备和介质 | |
CN112784600A (zh) | 信息排序方法、装置、电子设备和存储介质 | |
CN115952852B (zh) | 模型训练方法、文本检索方法、装置、电子设备和介质 | |
CN113239717B (zh) | 用于处理题目的方法、装置、设备、介质和程序产品 | |
CN115129816B (zh) | 问答匹配模型的训练方法、装置及电子设备 | |
CN118568298A (zh) | 基于视频资源的数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |