CN116830586A - 用于问题回答的设备和方法 - Google Patents

用于问题回答的设备和方法 Download PDF

Info

Publication number
CN116830586A
CN116830586A CN202280014165.7A CN202280014165A CN116830586A CN 116830586 A CN116830586 A CN 116830586A CN 202280014165 A CN202280014165 A CN 202280014165A CN 116830586 A CN116830586 A CN 116830586A
Authority
CN
China
Prior art keywords
result
question
hardware processor
event
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280014165.7A
Other languages
English (en)
Inventor
D·恩金
Y·阿弗里蒂斯
Q·K·N·董
F·施尼茨勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
InterDigital CE Patent Holdings SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital CE Patent Holdings SAS filed Critical InterDigital CE Patent Holdings SAS
Publication of CN116830586A publication Critical patent/CN116830586A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4758End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for providing answers, e.g. voting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

设备通过用户界面从用户接收可以与事件相关的问题,并且至少一个硬件处理器生成该事件的至少一个对话的第一概要;并且输出结果,该结果通过处理该概要、该问题和该问题的可能回答而获得。

Description

用于问题回答的设备和方法
技术领域
本公开一般涉及人工智能,特别是问题回答。
背景技术
本部分意图向读者介绍本领域的各个方面,这些方面可与下文描述和/或要求保护的本公开的各种方面有关。此讨论被认为有助于向读者提供背景信息,以促进更好地理解本公开的各个方面。因此,应当理解,这些陈述应当从这个角度来解读,而不是承认现有技术。
对用于与消费电子(CE)设备通信的无缝接口的需求正在增长,该消费电子设备例如为智能家庭设备,诸如Amazon Echo、Google Home和Facebook Postal,已经成为许多家庭的重要部分,例如作为个人助理。
然而,常规解决方案大多使用麦克风来收听用户命令(借助自动语音识别),以便帮助访问媒体、管理简单任务和规划未来的日程安排等。
作为生活辅助的起点,视觉问题回答(VQA)[参见例如Aishwarya Agrawal“VQA:视觉问题回答”,2016,arXiv:1505.00468v7,和Yash Goyal等人“Making the V in VQAMatter:Elevating the Role of Image Understanding in Visual QuestionAnswering”,2017,arXiv:1612.00837v3]和视觉对话[参见例如A.Das等人“Visualdialog”,Proc.CVPR,2017]要求人工智能(AI)系统以关于视觉内容的对话语言与人进行有意义的对话,最近已经受到研究团体的关注。
给定输入图像和关于该图像的自然语言问题,VQA系统的任务是提供准确的自然语言回答。作为示例,输入一个女人拿着两根香蕉作为胡子的图像,并询问胡子是由什么制成的,VQA系统可以输出回答“香蕉”。
转向视频,Fan等人在“Heterogeneous Memory Enhanced Multimodal AttentionModel for Video Question Answering”(https://arxiv.org/pdf/1904.04357v1.pdf)中提出了具有三个主要组件的端到端可训练视频问题回答(VideoQA)架构:可以从外观和运动特征学习全局上下文信息的异构存储器、帮助理解问题的复杂语义并突出所查询的主题的问题存储器、以及执行多步骤推理以预测回答的多模态融合层。
Garcia和Nakashima在[“Knowledge-Based Video Question Answering withUnsupervised Scene Descriptions”,2020,https://arxiv.org/pdf/2007.08751.pdf]提出了一种以影片数据库为目标的解决方案,通过融合从不同模态计算的回答分数来计算回答:当前场景对话、生成的视频场景描述、以及由人类专家生成的外部知识库概要。
由于家庭环境或流媒体内容可经由多个信息源(例如,音频、视频和文本)在长时间内被感测,因此未来的智能家庭系统(诸如智能电视)有望进一步利用从对话理解、场景推理以及从音频和视频传感器提取的故事情节知识建立的这种知识来提供更好的服务。
然而,目前还没有解决方案可以自动生成此类故事情节知识并利用它来回答问题。因此,应理解,需要一种解决回答系统的至少部分缺点的解决方案。本原理提供这种解决方案。
发明内容
在第一方面中,本发明原理涉及一种设备,该设备包括:用户界面,被配置为从用户接收关于事件的问题;以及至少一个硬件处理器,被配置为生成该事件的至少一个对话的第一概要,并且输出结果,该结果通过处理该概要、该问题和该问题的可能回答而获得。
在第二方面中,本发明原理涉及一种方法,该方法包括:通过用户界面从用户接收关于事件的问题;至少一个硬件处理器生成该事件的至少一个对话的第一概要;以及该至少一个硬件处理器输出结果,该结果是通过处理该概要、该问题和该问题的可能回答而获得的。
在第三方面,本发明原理涉及一种计算机程序产品,该计算机程序产品存储在非暂态计算机可读介质上并且包括程序代码指令,该程序代码指令可由处理器执行以实施根据第二方面的任何实施方案的方法的步骤。
附图说明
现在将参考附图通过非限制性示例描述本原理的特征,其中:
图1示出了根据本发明原理的实施方案的用于生成回答的设备;
图2示出了根据本发明原理的实施方案的用于生成问题回答的系统;
图3示出了根据本发明原理的回答候选生成模块;
图4示出了根据本发明原理的实施方案的多模态视觉问题回答系统;
图5示出了根据本发明原理的实施方案的家庭助理系统;并且
图6示出了根据本发明原理的实施方案的生成知识概要的各种方式。
具体实施方式
图1示出了根据本发明原理的实施方案的用于生成回答的设备100。该设备100通常包括一个用户输入界面110、至少一个硬件处理器(“处理器”)120、存储器130和网络接口140。该设备100还可以包括显示界面或显示器150。非暂态存储介质170存储计算机可读指令,该计算机可读指令在由处理器执行时执行参照图2至6中描述的方法中的任一个描述的方法。
该用户输入界面110,例如可以被实现为麦克风、键盘、鼠标、触摸屏或者两个或更多个输入可能性的组合,被配置为接收来自用户的输入。该处理器120被配置为执行程序代码指令,以执行根据本发明原理的至少一种方法中的方法。可至少部分属于非暂态的存储器130被配置为存储将由处理器120执行的程序代码指令、参数、图像数据、中间结果等。该网络接口140被配置用于通过任何合适的有线或无线连接180与外部设备(未示出)进行通信。
回答关于事件的问题可能需要对过去进行分析或记忆。本发明原理提出生成过去的概要,然后使用该概要来对问题的回答进行排名。
图2示出了根据本发明原理的实施方案的用于生成问题回答的系统200。图2(以及图3至6)也可以理解为相应方法的描述。该系统可以在处理器120中实现,并且将使用功能模块来描述。知识概要生成模块210将例如场景或事件的对话21作为输入,并且生成概要23。回答排名模块220处理概要23以及问题和可能的回答25,“QA候选者”,以生成输出27。该输出可以例如是在可能的回答中选择的回答或者可能的回答的排名(例如根据确定的相关性)。如在所有实施方案中那样,该输出通常是针对用户的,并且可以直接传送给用户,特别是在该输入是选择的回答的情况下,或者经由另一设备传送给用户。
知识概要生成模块210被配置为将对话(或对话的副本)变换成对话中的事件的有意义的概要。常规解决方案可以用来实现该知识概要生成模块210。例如,Chen等人[参见Jiaao Chen和Diyi Yang的“Multi-View Sequence-to-Sequence Models withConversational Structure for Abstractive Dialogue Summarization”,2020https://arxiv.org/pdf/2010.01672.pdf]使用诸如sequence-BERT、BART、C99或HMM之类的机器学习模型来提取主题和对话阶段,对句子进行编码以及撰写概要。可以使用其他方法,诸如由专家手动编写的算法、随机单词选择或其他训练机器学习(ML)模型,包括其他神经网络架构,诸如递归神经网络、卷积网络或其他前馈网络。
回答排名模块220被配置为将由知识概要生成模块210输出的概要23和QA候选者25作为输入来匹配回答和问题以输出输出27。输出27例如可以是最佳回答(例如根据某种确定方法最可能的回答)或回答排名。回答排名模块220可例如由变换器(下文将描述)、近来在自然语言处理中广泛使用的一种ML模型、与附加神经层(或其他模型)组合来实现,以计算分数或选择一个回答。其他实现选项包括ML模型,诸如决策树、支持向量机、线性或逻辑回归、神经网络(包括循环神经网络、卷积网络、前馈网络及其组合)、由专家编写的算法或词匹配算法。
变换器是一种具有几个自注意层的深度神经网络。它是一种在许多自然语言处理任务中使用的序列到序列建模架构。将概要和QA候选者作为输入的现有变换器架构可以在根据本发明原理的系统中使用。需注意,可能需要自然语言处理中的常见预处理(例如,记号化)来将原始输入文本变换成用于变换器的有意义的向量、矩阵或张量表示。
QA候选者25是根据本发明原理的系统200的一个输入。在许多实际应用中,人类用户会在不提供候选回答的情况下询问问题。系统200因此可以包括用于生成候选回答的模块。图3示出了根据本发明原理的回答候选生成模块310。输入问题31例如可以直接以文本形式提供,但是也可以使用常规语音到文本技术从音频记录中产生。回答候选生成模块310将该问题作为输入,并输出该问题和一组候选回答,即QA候选者25(在图2中被看作是回答排名模块的输入)。Yang等人[参见Antoine Yang、Antoine Miech、Josef Sivic、IvanLaptev和Cordelia Schmid“Just Ask:Learning to Answer Questions from Million ofNarrated Videos”,2020,https://arxiv.org/pdf/2012.00451.pdf]描述了一种使用语音到文本、递归神经网络和变换器模型从视频中生成一组可能回答的系统,但是应当理解,可以使用其他实现,例如神经网络、决策树和由专家编写的算法。
图4示出了根据本发明原理的实施方案的多模态视觉问题回答系统400,其通过扩展图2所示的问题回答系统200而获得。
该系统包括三个分支。下部分支类似于图2的系统200,不同之处在于回答排名系统已被用作回答排名模块220的变换器3410所取代。
中间分支将视频41作为数据提取模块2440的输入,数据提取模块生成输入到变换器2450的视频概要44,而上部分支将视频41和可能的外部信息42作为数据提取模块420的输入,数据提取模块生成输入到变换器1430的概要43。
每个变换器还将QA候选者25作为输入。
通常,上部分支和中间分支以类似于下部分支的方式处理输入和QA候选者,以获得回答的分数、每个回答的特征向量或诸如向量、矩阵或张量的全局表示。应当理解的是,分支可以处理不同类型的输入,并且它们的数目可以是可变的。为了进行示意性的说明,错误!未找到参考源。4包括三个分支,即除了下部分支之外还有两个分支。
更详细地,中间分支首先使用数据提取模块440来计算来自视频41的特征44。数据提取模块440可以类似于知识概要生成模块210并且可以以类似或不同的方式来实现。通常,它可能是经过训练的ML模型或由专家编写的算法。所计算的特征44例如可以是高级场景描述,包含场景中的对象的名称以及它们的关系(紧挨着、在上面、在……内);每个图片中的对象名称和这些对象的边界框;人物的形状轮廓;人物或动物的骨骼;人类正在进行的活动;任何上述物质的组合;上述任何一项的每一帧、帧序列或整个视频等。特征44然后在变换器450中以类似于回答排名模块220的方式与QA候选者25组合。
顶部分支示出了除了视频之外的外部信息的可能使用。在该示例中,视频41和外部信息42被用作第一数据提取模块420的输入。外部信息可以包括例如来自附加传感器(例如接触传感器、压板、温度计等)、位置地图、日志、文本文件(例如新闻报告、维基百科文章、书籍、技术文档等)等的数据。数据提取模块1420以类似于例如第二数据提取模块440的方式处理输入并生成特征43;第一数据提取模块可以具有与第二数据提取模块440相同的性质或不同的性质;通常,它是ML模型或由专家编写的算法。特征43然后可以在第一变换器430中与QA候选者25组合,类似于变换器2和3的工作。
应当理解,本发明原理的解决方案可以与其他处理方案组合。分支的架构不限于这里所描述的或两个块。例如,来自多个分支的特征可以被聚集在任何点处并且被进一步处理,注意机制可以关闭输入的某些部分,可以执行附加的预处理,可以在任何点处使用外部信息,等等。还可以考虑任意数量的分支。
融合模块460使用融合机制组合分支的输出45、46和27以生成融合输出47。融合机制可以是与下文描述的模态注意机制的融合,但是也可以使用其他融合机制,诸如最大池化、softmax、平均函数等。融合模块460也可以是深度学习模型,特别是在输入是每个回答的特征向量或全局特征向量的情况下。
与模态注意的融合依赖于分支注意机制。在这种情况下,融合模块460通常是深度学习模型,并且可以将QA候选者25或仅问题作为附加输入。内部地,这种机制使用分支特征(可能与QA候选者一起)来计算每个输入分支的权重。作为示例,可以使用注意机制来计算权重,例如两个线性层(输入加常数的线性组合)和softmax层。权重用于修改分支的特征,例如通过将特征乘以该权重。然后可以使用这些加权特征来计算每个回答的分数,例如通过使用线性层。
分类模块470将融合输出47作为输入并生成结果48。结果48可以通过选择最佳回答(例如,具有最高分数的回答等)来获得。如果融合输出47是分数向量,则可以使用argmax函数来获得结果48的确定。否则,分类模块470可以是任何合适的算法,包括由专家编写的算法或任何类型的机器学习模型,诸如决策树、支持向量机或深度学习模型。
在给定由输入-输出对组成的训练数据的情况下,可以以监督方式利用所有分支对本发明原理的系统进行端到端训练。任何合适的常规训练技术-例如,诸如损失、优化器、批量大小等超参数的选择可以被修改和使用。诸如交叉熵损失之类的分类损失可以用于优化网络参数。通常,对于深度学习模型,训练依赖于某种形式的随机梯度下降和反向传播。
还可以分别训练每个分支,然后保持每个分支的参数固定或部分固定,并且仅训练融合机制和后续元件。当分支的输出是每个回答的分数时,这是不重要的:可以添加诸如选择具有最高分数的回答的简单分类器。在分支的输出不是每个回答的分数的情况下,可以使用更复杂的分类器(诸如一些神经网络层)来选择单个回答。
一旦系统被训练,给定输入,系统将能够自动地计算输出的回答。
根据本发明原理的系统可以在家庭助理中用于以基于知识的多选择任务的形式解决例如家庭环境中的问题回答。在这种情况下,输入可以是:来自用户的问题、假设预先已知的、由用户自动生成或设置的N个可能的候选回答、由相机在家记录的视频场景、以及对应于视频场景的音频记录。输出是预测的回答。作为选项,系统可以访问外部资源以检索上下文信息(诸如之前在家中所发生的、经常发生的、房子中人的姓名和习惯等)。一个示例可以是用户询问家庭助理“我的移动电话在哪里?”。直观地,来自相机的信息可以示出正确回答是“电话在桌子上”。
应当理解的是,可通过常规语音到文本方法(即,自动语音识别,ASR)将有声命令或问题转换为文本,可处理该文本以确定可用于确定QA候选者25的命令或问题。
图5示出了根据本发明原理的实施方案的家庭助理系统500。系统500类似于图4所示的系统400;基本上,将仅描述不同之处。需注意,例如在诸如家庭描述的信息被包括在系统500中的情况下,例如由家庭所有者预先提供或学习的情况下,顶部分支是可选的。
下部分支的输入是音频样本51,通常是录音。众所周知,语音到文本模块510获取音频样本并输出对应的文本52。众所周知,音频事件检测模块520处理音频样本51以经由音频传感器随时间检测事件。音频事件输出53的示例包括检测到的不同关键事件或设备的声音,例如水掉落的声音、咖啡机的噪声、玻璃破碎的撞击、婴儿的哭泣等。
知识概要生成模块530将文本52与音频事件输出53组合(按时间顺序)以生成提供给第三变换器410的概要54。
根据本发明原理的VQA系统可以在智能电视助理中使用以提供回答关于当前视频或最近呈现的视频的观众问题的能力。例如,离开房间例如回答电话呼叫的人可以回来并询问问题以回到当前的演出中。也可以被错过了电视连续剧的前一集的人使用。
智能电视助理可使用各种方法来触发,包括关键字激活、按下遥控器上的按钮或监视房间中与视频有关的问题。智能电视助理可被实现为图4中所示的系统,其中使用例如所描述的将语音转换成QA候选者的方式来生成QA候选者。
下部分支通过处理对话来生成知识概要(如将进一步描述的),该概要与QA候选者一起由例如变换器来处理以生成特征集合。特征例如可以是每个回答的向量、每个回答的分数或单个向量、阵列或张量。并行地,尽管不是必需的,其他分支也可以生成用于回答的其他特征,例如通过生成场景描述和/或通过使用外部信息。使用注意机制或任何其他融合方法(诸如最大池化、softmax、各种平均函数等)来融合不同的特征,之后可以使用分类器来选择最佳回答,在融合的特征是分数向量的情况下,该最佳回答可以与argmax函数一样简单。
图6示出了根据本发明原理的实施方案的获得用于生成知识概要的对话的各种方式。
在第一流水线中,使用场景标识610(例如通过将图像与数据库匹配或通过使用视频的标题或任何其他元数据)来标识(当前)视频61以获得视频标识符62,模块620使用该视频标识符来确定(例如通过数据库查找)由模块630加载的先前的视频63,以获得先前视频。该先前视频被输入到将对话转换为对话文本65的语音到文本模块640。这些步骤可以被部分地或完全地转移到另一设备,诸如边缘节点或云。
在第二流水线中,如在第一流水线中那样标识先前的视频,并且模块650获得(例如,通过从视频或从数据库中提取)对应的字幕,然后将其作为对话66输出。
在第三流水线中,所显示的视频61由现成的语音到文本模块660连续地处理,并且所生成的对话67由对话存储模块670存储以在必要时作为对话68输出。所存储对话的大小可以被限制到例如几个小时。
在第四流水线中,字幕存储模块680直接存储可以作为对话69提供的字幕。
可以对不同的流水线进行组合。例如,可以一起使用第三流水线和第四流水线来存储对话,当字幕可用时使用第四流水线,当字幕不可用时使用第三流水线。智能电视助理还可以基于问题来选择不同的流水线。例如,智能电视助理可以为问题“我去时发生了什么?”选择第三流水线,为问题“我错过了昨天的剧集。发生了什么?”选择第一流水线。该选择可以例如基于某些关键词进行,或者可以依赖于机器学习。
评估
在KnowIT VQA数据集上评估本发明原理的解决方案,该数据集由针对12087个视频剪辑的24282个人类生成的问题组成,每个问题具有20秒的持续时间。这些剪辑是从电视节目的207集中提取的。该数据集包含基于知识的问题,需要基于整个剧集或季节的内容进行推理,这与其他视频问题回答数据集不同。四种不同类型的问题在数据集中被定义为基于视觉的(22%)、基于文本的(12%)、基于时间的(4%)和基于知识的(62%)。问题类型仅为测试集提供。
将根据本发明原理的实施方案的VQA机制与不使用融合的其他VQA方法“Garcia2020”进行比较。结果显示在表1中,其中数字对应于问题的准确性。“读取”、“观察”和“回忆”表示现有分支。对于本解决方案,呈现了“回忆”分支的两个版本的结果,以及所提出的解决方案的两个实施方案:“场景对话概要”,其中用于生成概要的对话仅来自当前场景,以及“剧集对话概要”,其中用于生成概要的对话来自整个剧集。这两个版本的不同之处在于用于聚集在文本的子窗口上计算的分数的内部机制:第一个取所有子窗口上的分数的最大值,第二个(soft-softmax)使用softmax函数将所有分数组合成一个。呈现了“剧集对话概要”的两个版本。可以看出,“剧集对话概要-Soft-Softmax”优于其它方法。特别地,它优于使用人类书写的知识而不是自动生成的概要的“回忆”。
表2示出了对所讨论的电视节目熟悉的新手“Rookies”、专家“Masters”、不同MQA系统和使用融合多个分支的本发明原理的实施方案的结果。
方法 视觉 文本 时间 知识 所有
Rookies 0.936 0.932 0.624 0.655 0.748
Masters 0.961 0.936 0.857 0.867 0.896
TVQA 0.612 0.645 0.547 0.466 0.522
ROCK-facial 0.654 0.688 0.628 0.646 0.652
ROCK-GT 0.747 0.819 0.756 0.708 0.731
ROLL-human 0.708 0.754 0.570 0.567 0.620
ROLL 0.718 0.739 0.640 0.713 0.715
本发明解决方案 0.770 0.764 0.802 0.752 0.759
可以看出,本发明解决方案优于每个系统,除了当涉及文本时的ROCK-GT之外。本发明解决方案在若干方面也优于Rookies。
应当理解,本发明实施方案可以改进问题回答系统。
应当理解,附图中所绘示的元件可以各种形式的硬件、软件或它们的组合来实施。优选地,这些元件在一或多个适当编程的通用设备上以硬件和软件的组合实施,该通用设备可包含处理器、存储器和输入/输出接口。
本说明书示出本公开的原理。因此,应理解,本领域技术人员将能够设计各种布置,尽管在本文中未明确描述或绘示,但是体现本公开的原理并且包含在其范围内。
本文所叙述的所有示例和条件语言旨在教学目的,以帮助读者理解本公开的原理和由发明人对促进本领域所贡献的概念,并且应解释为不限于这种具体叙述的示例和条件。
此外,本文阐述的本公开的原理、方面和实施方案以及它们的具体示例的所有陈述均旨在涵盖它们的结构和功能等同物。此外,意图在于,这种等同物包含当前已知等同物以及未来开发的等同物两者,即,所开发的任何执行相同功能的元件,而不管结构如何。
因此,例如,本领域技术人员将理解,本文所呈现的框图表示体现本公开的原理的说明性电路的概念图。类似地,应当理解,任何流程图(flow charts)、流程图(flowdiagrams)等表示可基本上在计算机可读介质中表示并且由计算机或处理器执行的各种过程,无论这种计算机还是处理器是否被明确绘示。
图中所绘示的各种元件的功能可通过使用专用硬件以及能够与适当软件相关联地执行软件的硬件来提供。当由处理器提供时,功能可由单个专用处理器、单个共享处理器或由多个单独处理器提供,其中一些可以为共享的。此外,术语“处理器”或“控制器”的明确使用不应解释为指能够执行软件的硬件,并且可隐含地包括但不限于数字信号处理器(DSP)硬件、存储软件的只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储装置。
还可包含其他常规和/或定制的硬件。类似地,图中所绘示的任何开关仅为概念性的。其功能可通过编程逻辑的操作、通过专用逻辑、通过编程控制和专用逻辑的交互、或甚至手动地进行,如从上下文更具体地理解,可由实施人员选择的特定技术。
在本文的权利要求中,表达为用于执行指定功能的装置的任何元件旨在涵盖执行该功能的任何方式,包括例如,a)执行该功能的电路元件的组合,或b)呈任何形式的软件,因此,包含固件、微码或类似物,与用于执行该软件以执行该功能的适当电路结合。如这些权利要求所定义的公开内容在于以下事实:以权利要求书要求的方式将由各种所叙述的装置提供的功能结合并且汇集在一起。因此,认为可提供那些功能的任何装置等同于本文所绘示的那些。

Claims (16)

1.一种设备,所述设备包括:
用户界面,所述用户界面被配置为从用户接收关于事件的问题;和
至少一个硬件处理器,所述至少一个硬件处理器被配置为:
生成所述事件的至少一个对话的第一概要;以及
输出第一结果,所述第一结果通过处理所述第一概要、所述问题和所述问题的可能回答而获得。
2.根据权利要求1所述的设备,其中使用变换器进行所述处理。
3.根据权利要求1所述的设备,其中所述第一结果是针对每个可能回答的分数或者具有最高分数的可能回答。
4.根据权利要求1所述的设备,其中所述至少一个硬件处理器被进一步配置为:
生成与除所述对话之外的所述事件相关的信息的第二概要;
处理所述第二概要、所述问题和所述问题的可能回答,以获得第二结果;以及
输出最终结果,所述最终结果通过处理所述第一结果和所述第二结果而获得。
5.根据权利要求4所述的设备,其中所述至少一个硬件处理器被配置为使用融合机制来处理所述第一结果和所述第二结果。
6.根据权利要求5所述的设备,其中所述融合机制是对所述第一结果和所述第二结果进行加权的模态注意机制。
7.根据权利要求1所述的设备,其中所述对话是从至少一个视频中获得的,或者是通过使用麦克风和音频转文本功能进行捕获来获得的。
8.根据权利要求1所述的设备,其中所述设备是家庭助理和电视机中的一者。
9.根据权利要求1所述的设备,其中所述事件被表示在至少一个视频场景中,并且其中所述对话是所述至少一个视频场景的对话。
10.一种方法,所述方法包括:
通过用户界面从用户接收关于事件的问题;
至少一个硬件处理器生成所述事件的至少一个对话的第一概要;以及
所述至少一个硬件处理器输出第一结果,所述第一结果通过处理所述第一概要、所述问题和所述问题的可能回答而获得。
11.根据权利要求10所述的方法,其中使用变换器进行所述处理。
12.根据权利要求10所述的方法,其中所述第一结果是针对每个可能回答的分数或者具有最高分数的可能回答。
13.根据权利要求10所述的方法,所述方法还包括:
所述至少一个硬件处理器生成与除所述对话之外的所述事件相关的信息的第二概要;
所述至少一个硬件处理器处理所述第二概要、所述问题和所述问题的可能回答以获得第二结果;以及
所述至少一个硬件处理器输出最终结果,所述最终结果通过处理所述第一结果和所述第二结果而获得。
14.根据权利要求13所述的方法,其中所述至少一个硬件处理器被配置为使用融合机制来处理所述第一结果和所述第二结果。
15.根据权利要求14所述的方法,其中所述融合机制是对所述第一结果和所述第二结果进行加权的模态注意机制。
16.一种存储指令的非暂态计算机可读存储介质(170),所述指令在被执行时致使至少一个硬件处理器执行根据权利要求10至15中任一项所述的方法。
CN202280014165.7A 2021-03-10 2022-03-08 用于问题回答的设备和方法 Pending CN116830586A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21305290.5 2021-03-10
EP21305290 2021-03-10
PCT/EP2022/055817 WO2022189394A1 (en) 2021-03-10 2022-03-08 Device and method for question answering

Publications (1)

Publication Number Publication Date
CN116830586A true CN116830586A (zh) 2023-09-29

Family

ID=75302455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280014165.7A Pending CN116830586A (zh) 2021-03-10 2022-03-08 用于问题回答的设备和方法

Country Status (4)

Country Link
US (1) US20240155197A1 (zh)
EP (1) EP4305845A1 (zh)
CN (1) CN116830586A (zh)
WO (1) WO2022189394A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528623B2 (en) * 2017-06-09 2020-01-07 Fuji Xerox Co., Ltd. Systems and methods for content curation in video based communications
US11227218B2 (en) * 2018-02-22 2022-01-18 Salesforce.Com, Inc. Question answering from minimal context over documents
US11544590B2 (en) * 2019-07-12 2023-01-03 Adobe Inc. Answering questions during video playback

Also Published As

Publication number Publication date
WO2022189394A1 (en) 2022-09-15
EP4305845A1 (en) 2024-01-17
US20240155197A1 (en) 2024-05-09

Similar Documents

Publication Publication Date Title
CN111246256B (zh) 基于多模态视频内容和多任务学习的视频推荐方法
US11488576B2 (en) Artificial intelligence apparatus for generating text or speech having content-based style and method for the same
US10341461B2 (en) System and method for automatically recreating personal media through fusion of multimodal features
CN110364146B (zh) 语音识别方法、装置、语音识别设备及存储介质
CN110519636B (zh) 语音信息播放方法、装置、计算机设备及存储介质
US20200371741A1 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
US20210366022A1 (en) Matching users with visual items
KR20200010131A (ko) 전자 장치 및 그의 제어 방법
CN112185389A (zh) 语音生成方法、装置、存储介质和电子设备
JP2010224715A (ja) 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
CN111512299A (zh) 用于内容搜索的方法及其电子设备
CN114218488A (zh) 基于多模态特征融合的信息推荐方法、装置及处理器
Glavan et al. InstaIndoor and multi-modal deep learning for indoor scene recognition
JP2019045978A (ja) 対話制御装置、学習装置、対話制御方法、学習方法、制御プログラム、および、記録媒体
Maeoki et al. Interactive video retrieval with dialog
CN115129829A (zh) 问答计算方法、服务器及存储介质
US20210337274A1 (en) Artificial intelligence apparatus and method for providing visual information
CN116830586A (zh) 用于问题回答的设备和方法
CN113301352B (zh) 在视频播放期间进行自动聊天
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
Sora et al. Speech Sentiment Analysis for Citizen's Engagement in Smart Cities' Events
CN115905584B (zh) 一种视频拆分方法及装置
CN117708305B (zh) 一种针对应答机器人的对话处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination