CN115438222A

CN115438222A - 一种用于回答视频相关问题的情境感知方法，设备和系统

Info

Publication number: CN115438222A
Application number: CN202210277299.XA
Authority: CN
Inventors: 凯尔·奥托·约根森; 赵智群; 汪灏泓; 王米娅
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2021-06-03
Filing date: 2022-03-17
Publication date: 2022-12-06
Also published as: US11445244B1

Abstract

一种用于回答视频相关问题的情境感知方法，设备和系统，包括：接收关于暂停视频在暂停位置的问题；获取并分析在视频的暂停位置的情境信息，情境信息包括视频的补充材料；以及根据在视频的暂停位置的情境信息，自动搜索问题的答案；对答案进行语言通顺处理，以获得语言通顺的答案；输出语言通顺的答案。

Description

一种用于回答视频相关问题的情境感知方法，设备和系统

技术领域

本发明内容涉及机器阅读理解技术领域，更具体地说，涉及一种用于回答视频相关问题的情境感知方法，设备和系统。

背景技术

媒体内容已经成为信息、娱乐，乃至教育的主要来源。提供视频内容查询及互动体验的能力是一个新的挑战。为此，问答(question answering，QA)系统，如Alexa和谷歌助手，已在消费者市场上相当成熟，但仅限于针对普通信息，缺乏情境感知的能力。自动的情境感知QA系统成为需求，来为与视频内容相关的查询提供答案。

发明内容

本发明其中一方面提供了一种用于回答视频相关问题的情境感知方法。方法包括：接收关于暂停视频在暂停位置的问题；获取并分析在视频暂停位置的情境信息，情境信息包括视频的补充材料；以及根据在视频的暂停位置的情境信息，自动搜索问题的答案。

本发明另一个方面提供了一种用于回答视频相关问题的情境感知设备。设备包括一个存储程序指令的存储器和一个与存储器耦合的处理器。将处理器配置为执行程序指令以：接收关于暂停视频在暂停位置的问题；获取并分析在视频的暂停位置的情境信息，情境信息包括视频的补充材料；以及根据在视频的暂停位置的情境信息，自动搜索问题的答案。

本发明的另一个方面提供了一种用于回答视频相关问题的情境感知系统。系统包括一个终端设备和一个云服务器。将终端设备配置为：接收关于暂停视频在暂停位置的问题；发送问题到云服务器；从云服务器接收语言通顺的答案；以及输出答案。将云服务器配置为：接收来自终端设备问题；获取并分析在视频的暂停位置的情境信息，情境信息包括视频的补充材料；根据在视频的暂停位置的情境信息，自动搜索问题的答案；对答案进行语言通顺处理，以获得语言通顺的答案；以及将语言平滑的答案发送到终端设备。

本发明内容的其他方面可由本领域的技术人员根据本发明内容的描述、权利要求和附图来理解。

附图说明

以下附图仅是根据本发明实施例进行说明的示例，并非有意限制本发明范围。

图1是本发明实施例情境感知方法的流程图，方法用于回答视频相关的问题。

图2是本发明实施例样本场景和相关元数据的示意图。

图3是本发明实施例依存关系示意图。

图4是本发明实施例阶段式QA控制器算法的阶段示意图。

图5是本发明实施例来自情境问答(Context-QA)的答案和来自统一问答(UnifiedQA)的答案的比较结果示意图。

图6是本发明实施例来自池的样本问题示意图，池包括所有时态。

图7是本发明实施例第一阶段和第二阶段调试的阈值示意图。

图8是本发明实施例第三阶段调试的阈值示意图。

图9是本发明实施例场景库的调试大小示意图。

图10是本发明实施例各种QA系统的用户偏好示意图。

图11是本发明实施例用户所问的问题类型示意图。

图12是本发明实施例情境感知问答设备的结构示意图。

具体实施方式

现在将详细提及本发明的示例性实施例，这些实施例会在附图中展示说明。在下文中，将参照附图描述与本发明内容相一致的实施例。全部附图将尽可能地使用相同标号来指代相同或相似部分。显然，所描述的实施例是本发明其中的部分实施例，并非全部实施例。基于公开的实施例，本领域技术人员可获得与本发明内容一致的其他实施例，所有这些实施例都在本发明范围内。

仅视频流本身就占据57％以上全球互联网流量。媒体内容被嵌入到许多其他应用中，如社交网络、游戏和信息传递。媒体内容已经成为人们获取信息、娱乐和教育的主要来源。随着媒体内容量继续快速增长，对视频内容查询和互动体验的需求也在不断增加，以使得用户方便地访问媒体内容。即使是电视这种歌曾经的被动装置，现也可通过移动设备进行互动。从被动到互动的趋势为媒体内容的新形式开创许多机会。

例如，用户可以暂停正在观看的视频，并提出关于视频的问题。用户提出的问题可由自然语言处理模型来处理。例如，基于变换器的双向编码器表示(bidirectionalencoding representations for transformers，BERT)模型经常被用来处理用户的问题，并已获得良好的准确性。其他深度学习模型也可用于实现类似的准确性。亚马逊Alexa和谷歌助手是基于这些模型的问答(QA)系统的示例。这些QA系统能够进行人机对话，并广泛应用于消费市场。虽然擅长通用信息的问答，但这些QA系统还没有显著深入到更多的情境感知对话。此外，随着信息丰富的视频内容的QA模型更加需要密集的资源，QA模型的计算复杂性成为部署系统的另一个挑战。

本发明提供了用于轻量级情境感知QA的方法和设备，以改善多媒体内容的QA体验。轻量级情境感知QA也简称为情境问答(Context-QA)。情境感知通过阶段式的QA控制算法实现，算法在与问题最相关的情境中持续搜索答案。评估结果显示，与传统的QA模式相比，方法提升了答案高达52％的质量，并消耗的时间减少了高达56％。主观测试显示，方法比传统QA模型优秀38％，并获得90％的正面回应。

本发明提供了用于视频问答的情境感知方法。方法也被称为情境问答(Context-QA)方法。Context-QA是一种轻量级情境感知QA架构，提供了多媒体内容QA。用户可以实时向运行Context-QA的设备或系统提出视频的相关问题。通过使用补充材料(如电影文献、摘要、剧本和视频的隐藏式字幕)，并在使用补充材料生成答案时控制补充材料的流量，Context-QA提供情境感知处理过程，是。在获取答案后，回答被通顺处理以得到更加自然并拟人的互动体验。通过将所有QA处理过程和任务转移到云端，Context-QA实现其轻量级目标。

在本发明声明中，QA系统包括建立在视频播放器之上的网络界面，QA系统可以部署在任何现代网络设备上。当用户暂停视频并提问时，Context-QA功能会被激活。QA系统以近乎实时的方式提供答案，同一问题的答案可能因用户在视频中暂停的不同位置而不同。评估结果显示，与传统的非情境感知QA基准模型相比，Context-QA提高了多达52％的回答质量，消耗的时间减少了高达56％。主观测试表明Context-QA比QA基准模型优秀38％，90％的用户表示喜欢Context-QA。此外，使用HTTP API和云计算使Context-QA可适用于包括移动设备的任何系统。

本发明的实施例是基于自然语言处理(natural language processing，NLP)工具而开发，如机器阅读理解、语法错误纠正(grammatical error correction，GEC)、文档排序技术和情境分析。情境分析探讨了情境对电影所起的作用。例如，探讨了用户可能提出的连续问题之间的关系(即，他是谁？他在这里做什么？如果以连续的方式提出，这两个问题都是关于同一个人的问题)。在另一个例子中，当用户在看电影时提出问题，他们很可能想知道更多关于他们正在看的特定情境信息。如果他们问一个角色在哪里，他们很可能想知道的不是五场戏前这个角色在哪里。

图1是本发明实施例情境感知方法流程图，方法用于回答视频相关的问题。方法在说明书中也被称为情境QA(Context-QA)，旨在实现情境感知和轻量级运算处理。如图1所示，方法包括以下过程。

在S102中，接收关于暂停视频在暂停位置的问题。

Context-QA包括情境分析器(context analyzer，CA)，QA模块，和语言通顺器(language smoother，LS)。CA对问题进行预处理，以确定问题的时态，这不仅缩小了QA模型的搜索域范围，而且集中关注最相关的情境。LS对答案进行后处理以获得更自然和拟人的互动体验。在CA和LS之间，QA模块对CA提供的情境进行深度学习驱动分析以生成答案，并传递给LS进行通顺处理。QA模块根据问题的时态驱动QA模型，进行情境感知的搜索，以确定与问题相匹配的答案。QA模型是包装器，它可以利用CA和LS接口打包任何现有或未来的QA模型。在一些实施例中，Context-QA接口可以完全通过HTTP API工作，这使得它可以简单灵活地集成到现有的视频播放器中，同时在云端处理所有的运算和QA任务，从而实现轻量级运算处理。

Context-QA利用定期获取的电影补充材料，为视频提供情境感知QA体验。补充材料包括人物的一般描述、场景的时间戳、场景摘要、场景剧本和隐藏字幕。例如，图2显示一个场景中的元数据。图2中所示的补充材料可轻易获得。在一些实施例中，可通过以下方式获取补充材料。角色描述通常可以从如IMDb的电影数据库中获得。场景的时间戳可在将视频的隐藏字幕与剧本交叉引用的过程中自动完成。作为这个过程的结果，也可将剧本场景分开。如果没有隐藏字幕材料，可使用转录软件或平台(如谷歌的实时转录功能)自动转录音轨。此外，还可直接使用剧本中的场景细节。每个场景中出现的人物也可以从剧本中刮取。

为了说明，我们用一部短片作为描述Context-QA的运行实例。当用户暂停视频时，用户可以实时提出问题并得到回答。再次播放视频时恢复正常。这部短片的前提是一个名叫“艾拉(Ella)”的年轻女孩，她违背姑姑的意愿，找到并使用格林童话的魔法副本，进入并改写了他们的故事。这些改变造成了意想不到的结果，全世界的童话故事都发生改变，给孩子们带来了噩梦。为了修复这些故事，艾拉必须勇敢地踏上寻找格林的旅程并改写这些故事，以便全世界能够再次喜爱它们。样本问题是"贝拉会成为蝙蝠侠吗？"选择这个问题是因为其答案需要在几乎所有的补充材料中搜索，从而在实践中更好地展示Context-QA系统。

在S104中，获取并分析在视频的暂停位置的情境信息。

当用户暂停视频并提出问题时，CA被激活。CA对每个问题进行预处理，以确定问题的时态，这有助于确定QA模块关注的时间范围。要做到这一点，必须对问题的动词进行分析。这涉及到创建依存句法树，并在一个句子中提取根节点及其修饰语的时态。在这种情况下，只检查动词。其他标注，如名词性主语(nominal subjects，nsubj)、标点符号(punctuation，punct)和从句补语(open clausal components，xcomp)被忽略，因为它们不携带时态信息。这个过程是通过使用Stanza的依存分析和使用词性工具宾州树库(PennTreebank)词性标注(Parts-Of-Speech，POS)完成的。

例如，对"贝拉会成为蝙蝠侠吗？"这句话的解析如图3所示。在这种情况下，句子的根节点是become，其POS标注为VB(动词)，基本形式。为了确定问题的时态，也要检查相关标注。在这种情况下，助动词(auxiliary，aux)也会被检查。如图3所示，会(Will)是根节点的一个辅助动词，其POS标注为MD(model，情态助动词)。因为该词后面没有have，所以该问题的时态确定为将来时态。

在一些实施例中，确定问题的时态涉及必须处理的各种情况。如果根节点有动词过去式(Verb past tense，VBD)的标注，可立即断定为过去式。对于其他所有标注，必须检查与根节点相关的辅助动词。如果辅助动词的标注是MD(model)，它可以被认为是将来时态，除非后面有辅助动词have，这样它就变成了过去时态。如果辅助动词是一个非第三人称单数的现在时动词或第三人称单数的现在时动词，则将它视为现在时。对于其他所有情况，问题可认为是现在时态。在其他一些实施例中，可以添加上述规则的例外情况。

在S106中，根据在视频的暂停位置的情境信息，自动搜索问题的答案。

QA模块是QA模型的包装器。可使用若干QA模型搜索问题的答案。在实施例中，QA模型采用机器阅读理解技术，可以处理多种不同的问题类型，包括上述抽取式、多选式、抽象式以及是或否类型问题。这样，回答问题的能力就不会受到限制，因而就不需要多个不同的模型同时运行。在实施例中，QA模型是UnifiedQA模型，因为它具备通过进一步的训练或微调来处理各种问题的强大能力。保持QA模块简单，只需要一个选定的段落(例如，来自场景摘要、场景剧本的段落)并通过HTTP API发送问题。同样地，QA模块只输出答案，这使得我们能够只需很少的配置就简单地将任何现有的QA模型放入其中，并消除了任何关于Context-QA中其他组件如何工作的担忧。

在S108中，对答案进行语言通顺处理，以获得语言通顺的答案。

虽然QA模型经常注重于提取或拼凑答案，但用户可能理解，也可能不理解这个答案。例如，QA模型对“玛丽姨妈是做什么工作的？”提供的答案是“她是一名老师，收集(collect)珍稀物品”，这是由糟糕的电影原始材料造成的错误，应该修正为“她是一名老师，收集(collects)珍稀物品”。LS对答案进行后期处理，以提供一个更自然和拟人的互动体验。当从阶段式QA控制器接收到一个未经加工的回答时，激活LS。

当LS获得答案时，会经过语法纠错(GEC)模型输送以改善答案的输出。在实施例中，将优化过的预训练模型GeCtor用于NLP系统。GeCtor模型因其速度而被采用。这一步为更加通顺流畅地呈现答案提供条件，并改进QA模型所提供答案。例如，答案“她是一名老师，收集(collect)珍稀物品”通过LS，得到通顺处理过的语言答案“她是一名老师，收集(collects)珍稀物品”。此外，GEC模型可应用于在原始材料中或来自问题回答过程本身可能出现的语法错误。

CA、QA和LS模块一起工作，以提供一个情境感知的QA体验。Context-QA系统进一步包括阶段式QA控制器，在搜索匹配答案时以控制信息如何通过这三个模块传递。首先，Context-QA生成元数据以组织和索引原始视频和补充材料。视频中场景是由时间戳(即每个场景的开始时间和结束时间)作为索引。每个场景有三个层次的信息关联。第一层次(L1)包括场景概要。第二层次(L2)包括场景剧本。第三层次(L3)包括场景隐藏字幕或音轨。这些信息按照从全面(L1)到细节(L3)排列。不同的视频的层次由可用的补充材料而定。每个人物的一般描述是以人物名称作索引。

补充材料包含多个段落。阶段式QA控制器使用文档排序器来评估补充材料与感兴趣问题的关联性。在实施例中，文档排序器是PyGaggle，它在文档排序的得分和速度上都很有效。开源的PyGaggle软件采用了文本到文本转换器(Text-to-Text TransferTransformer，T5)类型的模型，根据有真或假指定逻辑的softmax函数的真或假标注对文档进行微调。这个文档排序器可以同时处理文档的分割和排序，不需要再担心传统问答模型中的象征限制(token limitation)。文档排序器用来检查多个段落与问题间的相关性。将一个段落与问题的相关性称为段落分数。段落分数是以softmax的对数得出。因此，段落分数是一个负的浮点数。段落分数越接近于0，预测匹配度就越高。

接下来，一旦收到问题，Context-QA就会进入一个三阶段QA处理过程。该过程旨在模仿人类在视频、小说或戏剧中如何搜索答案。在一些实施例中，基于在视频暂停位置的情境信息搜索问题答案可包括：搜索多个段落，找到基于段落分数与问题相匹配的段落；如果找到与问题相匹配的段落，基于与问题相匹配的段落生成答案；如果没有找到与问题相匹配的段落，生成的答案是告知没有找到答案。如图4(a)所示，过程在第一阶段以位置搜索开始。如图4(b)所示，在第二阶段进行角色搜索。如图4(c)-4(f)所示，在第三阶段，在所有补充材料中进行迭代搜索。无论搜索处于哪个阶段，只要由QA模块搜索到的段落分数大于预定阈值，搜索匹配段落的工作就会终止。

此外，当段落分数大于或等于与当前搜索对应的预设阈值时，确定段落与问题相匹配，当前搜索是位置搜索、角色搜索和迭代搜索中的一种；而当段落分数小于与当前搜索对应的预设阈值时，确定段落为与问题不匹配。在一些实施例中，位置搜索和角色搜索的预设阈值高于迭代搜索的预设阈值。

例如，第一阶段(例如位置搜索)搜索使用视频的时间戳拉出场景，时间戳在问题提出时收到，其中包括人物的位置。这用来采集像"艾拉在哪里？"这样的问题，并提供位置情境信息。将第一阶段的样本阈值设置为-0.3到-0.1之间的较低范围，以确保只匹配关于角色所在位置的问题。如果阈值设定太宽松，往往会发现其他与位置无关的问题的位置定位信息被标记为匹配。在样本问题“贝拉会成为蝙蝠侠吗？”中，这一阶段发现的最佳段落是“贝拉在家里的卧室里”，段落分数是-6.96，低于样本阈值-0.3。

第二阶段(例如角色搜索)搜索查找视频中角色的一般描述。这是用来采集诸如"谁是艾拉？"和"玛丽姨妈是做什么的？"这样的问题，并提供角色情境信息。与第一阶段的原因一样，将第二阶段的样本阈值设置为-0.3。在实施例中，样本问题是“贝拉会成为蝙蝠侠吗？”在这一阶段发现的最佳段落是"贝拉是一个在上学的女孩，是艾拉最好的朋友之一"，段落分数是-8.99，同样远远低于样本阈值-0.3。

第三阶段(例如迭代搜索)在与问题高度相关的场景中反复搜索匹配段落。搜索从视频暂停和提出问题的当前场景开始。例如，如图2所示，问题是在0:03提出的。CA模块判定该问题是未来时态的问题。因此，最初只认为当前和未来的场景与问题相关。总之，问题的时态决定了应当首先搜索的场景或场景库。对于过去时态的问题，场景库包括当前场景和之前的N-1个场景。对于现在时态的问题，场景库包括当前场景。对于未来时态的问题，场景库包括当前场景和接下来的N-1个场景。N是一个大于1的整数，代表场景库的大小。在实施例中，N是3。

迭代搜索从两个方向对场景进行扫描：场景跨度和细节跨度。从场景库补充材料的综合水平开始扫描。迭代搜索的样本阈值比前两个阶段宽松，因为与一般答案相匹配的段落是该阶段的重点。在前两个阶段，搜索集中在基于位置的问题和基于人物的问题。在实施例中，对于样本问题，根据场景库(即如图4(c)所示当前场景和接下来的两个场景)的摘要(L1补充材料)找到的匹配段落是“在寻找格林的路上，艾拉迷失了方向，夜晚来临，艾拉感到无比的恐惧。她开始颤抖，试图返回”。段落分数为-13.02，远远低于样本阈值-2.0。如图4(d)所示，下一次迭代在时间上扩展到扫描所有场景汇总数据。对于细节跨度内的搜索，发现更宽松的阈值有助于找到一个正确的段落，阈值范围在-10.0和-8.0之间。搜索发现该段落“艾拉感到害怕，避免面对自己的错误。姨妈找到艾拉，试图劝说......”(为简洁起见，未显示完整段落)是匹配的段落，段落分数为-12.61，远远低于阈值-10.0。

接下来，如图4(e)-4(f)所示，搜索进入细节，即转到L2补充材料，首先关注场景库，然后关注所有场景。在L2迭代结束时，匹配的段落分数是-8.20，大于这一阶段搜索的阈值-10。段落包括贝拉和艾拉以及其他朋友谈话的剧本元素，也是人手动审查文档时能找到的关于贝拉的相关性最大的段落。当将段落发送至QA模型时，发现答案是"no"，可能是因为段落提及蝙蝠侠或其他相关词汇。答案传送至LS模块，以更顺畅、更自然地呈现给用户。如果段落分数仍然低于阈值，阶段式QA控制器继续在L3补充材料中进行搜索。这是找到匹配段落的最后机会。匹配段落的段落分数会进一步降低，例如-10.5，这就在场景跨度搜索中给出了答案。如果没有找到匹配，Context-QA会回复一条信息，通知用户没有找到答案。

在S110中，输出语言通顺的答案。

具体来说，经过语言通顺处理的答案可在终端设备上显示给用户，或者由终端设备以音频形式播放给用户。

阶段式QA控制器优先检查汇总数据，而不是详细数据，并集中在场景库上以减少搜索时间。为了实现轻量级运行处理，将Context-QA设计为完全从HTTP API中运行。API是以模块化方式设计，允许当更理想的QA模型出现时方便地替换组件。在Context-QA内部，各组件通过API调用进行通信，这使该架构有能力扩展需求，可以创建每个API调用的多个接入点并负载均衡。如概要和剧本的电影数据都存储在CA组件中，以避免在API中不必要的数据传输。

在云端，阶段式QA控制器将搜索的优先级分阶段式进行，减少搜索完所有文件后才找到答案的可能性。Context-QA不仅对问题提供情境感知回答，而且还避免了扫描所有文件以找到匹配的段落。这种节省时间的策略有助于减少云端计算机的负荷，从而形成轻量级系统。基于云端的设计和HTTP API接口使得Context-QA不仅适用于移动设备，而且被所有系统适应。

下文描述了对Context-QA的评估。Context-QA的前端通过使用调节过的视频播放器接收用户在视频暂停时提出的问题来完成，它在任何现代网络浏览器上都可作为一个网络应用程序工作。当用户提出问题时，问题被发送到后端进行处理。后端执行所有上述模块和阶段式QA控制器，并在一台有64GB内存和固态硬盘的Ryzen 5 2600电脑上运行(没有使用任何GPU)。前端和后端之间的通信是通过HTTP API进行的。

在评估Context-QA时，使用了35部电影每部电影界定一组问题。有些问题会在不同的时间重复出现。问题的难度等级用3分制来评定。难度为1的问题只需进行第一阶段的搜索。难度为2的问题需要进行第二阶段的搜索。难度3的问题需要第三阶段的搜索。答案的评分从0到1，其中0表示不正确，0.5表示答案正确但不符合给定的情境，0.75表示答案正确，但语法不令人满意，1表示答案正确，语法令人满意。真实标准答案是人工准备的，用于评估Context-QA提供的答案。

下面表1列出了范例电影“Ella”的样本问题，以及时间戳、难度级别、Context-QA和Unified QA的答案(没有情境感知和语言通顺器，但仍使用PyGaggle来选择最佳整体段落)，以及答案的分数。基于电影“Ella”的Conext-QA原型可在http://Context-QA.xyz获得。

表1

所有问答系统的目标都集中在答案输出上，因此首先检验Context-QA的LS模块。为了使改进量化，使用叙述问答(NarrativeQA)数据集测试模型的信息整合能力和推理能力。数据集由一组问题、每个问题的特定情境和一组黄金标准答案组成。数据集中送入三个著名的QA模型，即BiDAF、BERT和UnifiedQA，以产生答案。为了专注于LS模块，将Context-QA修改为禁用CA模块和阶段式QA控制器，因此Context-QA基本上只使用LS GeCtor模型来通顺处理UnifiedQA的答案。QA系统的答案使用四个指标来评估：BLEU-1、BLEU-4、METEOR和Rouge-L，相比黄金标准答案，它们是不同的答案统计方法。

对比结果见下表2。在三个基准QA模型中，BERT模型在BLEU-1中得分最高。UnifiedQA在Rouge-L得分最高。BERT模型获得了BLEU-1最高分数可能是因为它通过复制原始情境中的单词从而最接近地回答了问题，因为BLEU-1会奖励最接近的回答，而对存在差异的回答罚分。Context-QA中的LS模块更改了提取文本，因此使Context-QA在这里失去了分数。Context-QA中的LS模块在BLEU-1、BLEU-4和METEOR的分数比朴素UnifiedQA模型有所提高，而在Rouge-L分数只降低了0.1。总之，Context-QA仅是添加了LS模块，就与两者中更好的那一个非常接近。这表明，从纯粹的定量角度，可以观察到LS模块的改进是在答案中包括了更多的人类表现文本。

表2

方法	BLEU-1分数	BLEU-4分数	METEOR分数	Rouge-L分数
					BiDAF	36.74	33.45	15.69	15.68
BERT	44.89	41.52	18.59	24.90
					UnifiedQA	40.77	41.36	18.38	26.20
Context-QA	42.11	42.69	19.06	26.10

接下来，对情境分析进行评估。对Context-QA和UnifiedQA答案的分数进行比较。在这种情况下，将第一阶段和第二阶段的预定阈值设置为-0.3，将第三阶段的场景跨度设为-2.0，将第三阶段的细节跨度设置为-10.0。每个难度级别的平均得分见表3。Context-QA在难度等级1和3中的得分提升了50％，在难度等级2中的得分提升了22％。因为Context-QA在QA模块中使用了UnifiedQA模型，由CA模块、LS模块和阶段式QA控制器实现了这一提升。对难度等级为2的问题的提升较少的原因是，人物的一般描述大多与情境无关。因此，对于与人物的一般描述直接相关的问题，Context-QA和UnifiedQA都会产生相同的答案。图5显示了在测试中观察到的Context-QA和UnifiedQA的一些典型差别。

为了验证CA模块在确定问题时态方面的正确性，使用了超过100个句子的清单，清单包括43个过去时态句子、55个现在式时态句子和45个将来时态句子，所有句子使用了各种句式结构。每种时态包括四种不同的结构：一般时、进行时、完成时和完全进行时。每种类别的问题在测试集中都有展示。每种类别的示例在图6显示。

表3

难度等级	质量提升	缩短时间
			1	51％	57％
2	22％	50％
			3	52％	47％

CA模块能够正确识别全部143个句子的时态，这验证了CA模块的时态判定功能。当异常发生时，可以很容易地改变CA模块的结构以采集新的案例，同时仍具有很好的确定性，即这些变化不会影响任何现有功能。

Context-QA将答案的搜索结果转移到云端，以保持移动前端的轻量级。对Context-QA和UnifiedQA产生答案的时间进行比较。上表3总结了每种难度级别的平均缩短时间。对于难度等级1、2和3，Context-QA比UnifiedQA分别快57％、50％和47％。这归功于阶段式QA控制器引导处理过程集中在最相关内容上。Context-QA能够在1秒以内回答15％的问题，29％的问题需要1秒多点，25％的问题需要2秒多点，11％的问题要3秒以上。虽然回答大多数问题的答案需要1秒以上，但与UnifiedQA相比，时间上的显著改善证实了阶段式QA控制器正在实现近实时的互动。

响应时间的差异与CA模块在包装系统中的搜索时间和词在非包装系统的段落中有多常用有关。对于“贝拉会成为蝙蝠侠吗？”这个问题，实际上贝拉是一个小人物，在补充材料中的内容很少，这使得UnifiedQA和Context-QA的搜索时间比平时更长。Context-QA执行搜索到最后阶段。对于“谁是鲍勃？”和“贝拉会成为蝙蝠侠吗？”这样的问题，UnifiedQA花费了几乎相同的时间(>6秒)，而Context-QA回答第一个问题的速度明显更快(0.47秒)。在这种情况下，Context-QA发现没有排序足够高的段落，因此绕过了UnifiedQA模型，使得性能提升。

在一些实施例中，Context-QA包括两个可调参数：段落分数的阈值和场景库的大小。这两个参数的设置因视频而异。作为示例使用的影片“Ella”说明了这两个参数的影响。在一些实施例中，第一阶段和第二阶段的阈值为-0.3，第三阶段的阈值在-10.5和-2.0之间。

在一些实施例中，对于难度等级为1和2的所选测试题，将阈值设置为-2.0到-0.2之间的范围。阈值为-0.3以上的全部问题都能得到正确的答案。例如，如图7所示，问题的情境是关于玛丽姨妈与艾拉的关系时，给出的答案“艾拉的姨妈”更好。通过收紧阈值，简单问题可以获得更好的情境感知。

对于难度等级为3的困难问题，可能找到也可能找不到答案的匹配段落。答案可能在远离当前场景的场景中找到，也可能通过深入到每个场景的更多细节中找到。因此，对于场景跨度和细节跨度可设定不同的阈值。对于场景跨度，在需要细节跨度搜索的难度等级为3的困难问题上，文档排序器PyGaggle选择的最佳段落的段落分数在-1.138和-0.00402之间。在实施例中，将场景跨度搜索的阈值设定为-2.0。可以看出，如图8所示，当把阈值调到-10.0和-0.1之间时，-2.0以上的阈值提供了正确答案。对于细节跨度，在难度等级为3的困难问题上，文档排序器PyGaggle选择的最佳段落的段落分数在-5.794和-0.00391之间。在实施例中，将细节跨度搜索的阈值设置为-10.0。对于完全不相关的问题，如"谁是鲍勃？"，段落分数测量值为-12.282。选择的阈值要足够紧以避免为完全不相关的问题选择段落。可以发现，如图8所示，调整阈值在-15.0和-0.5之间时，-10.0以上的阈值提供了正确的答案。设置为-10.5的万能阈值是为了接收任何高于万能阈值的段落。无法回答的问题仍在所有阈值之外，并被驳回。

表1所列的38个问题也测验了场景库大小的影响。场景库的大小从2到5不等。目的是找到能产生正确答案的最小场景库。当场景库进一步向外扩展时，在未来时态和过去时态的问题中没有观察到答案有显著差异，由于显著变化数量有限(例如，艾拉得到一本书、一个有毒的苹果和一支魔法笔)，这些变化之一总是发生在过去或未来的至少一个场景中。图9说明了场景库大小变化的影响。在这种情况下，当将场景库的大小设置为2、4和5时，对于"艾拉拿了什么？"这个问题，答案是不正确的，因为艾拉会拿书，而不是拿皇冠或毒苹果。因此，最佳的场景库大小是3。

在10个用户中进行了关于他们对Context-QA体验的主观测试。测试了两个版本的Context-QA实行方式。一个版本是启用了Context-QA的所有组件，另一个版本只启用了QA模块。用户被要求在网络浏览器的两个独立标签页中使用这两个版本。指示用户在0:16、0:57、1:49、4:59和9:58时停止。在这五个场景中的每一个场景中，用户都问了一个同样的预设问题“艾拉在哪里？”和三个自己提出的问题。然后用户报告他们更喜欢两个版本中的哪个答案。最后，问用户“你喜欢这种互动体验吗？”，然后要求提供总体反馈。

如图10所示，用户更喜欢Context-QA提供的答案。Context-QA比UnifiedQA胜出38％。用户认为两个版本都提供了21％的认可答案。这在预料之中，因为Context-QA和UnifiedQA都以类似的方式提供了与情境无关的答案。用户认为两个版本都没有提供可接受的答案占16％。这说明这两个版本都无法一直表现完美，而且补充材料不足也是一个原因。如果没有适当的材料通知QA系统，QA系统最多只能得出没有找到答案的结论，最坏结果就是仅靠猜测。

用户喜欢提出自己的问题。当有机会时，用户会提出各种创造型问题。图11显示用户提出的各种类型问题，按常见的“谁”、“什么”、“什么时候”、“哪里”和“为什么”类别进行分类。用户对问电影何时发生的问题不感兴趣。大多数问题是针对“为什么”和“什么”这两个类别，用户在这些问题中寻求对他们正在观看的内容的解释。一些用户尝试用问题来测试QA系统，试图让它执行某些任务。一个用户(P8)尝试要求QA系统"用6句话描述艾拉与玛丽姨妈的关系"。据该用户反馈，没有QA系统做出合适的回答。

总之，90％的用户喜欢这种新型互动媒体，一位持异议的用户没有对自己的观点给出任何具体解释。用户喜欢给他们赋予在任何时候提问的自由。一位用户(P3)表明：“在观看电影中回答问题是很有帮助”，另一个用户(P1)喜欢用户可以“……自由提问”。

本发明还提供了一种情境感知问答设备。图12显示根据本发明实施例中示范性情境感知问回设备的结构示意图。如图12所示，设备1200可以包括处理器1202、存储介质1204、显示器1206、通信模块1208、数据库1210和外部设备1212，以及一个或多个总线1214以将各组件结合在一起。可以省略某些组件，也可以包括其他组件。

处理器1202可包括任何合适的一个或多个处理器。此外，处理器1202可以包括用于多线程或并行处理的多个核心。处理器1202可以执行计算机程序指令或程序模块的序列以执行各种程序，例如接收关于暂停视频的问题；在视频的暂停位置获得并分析情境信息，情境信息包括视频的补充材料；基于在视频的暂停位置的情境信息搜索问题的答案；对答案执行语言通顺处理；以及输出语言通顺处理后的答案。存储介质1204可包括存储器模块，如只读存储器(ROM)、随机存取存储器(RAM)、闪存模块和可擦重写存储器，以及大容量存储器，如只读光盘(CD-ROM)、U盘和硬盘等。当由处理器1202执行程序时，存储介质1204可以存储计算机程序指令或程序模块来完成各项程序。

此外，通信模块1208可包括用于建立通信网络连接的网络设备。数据库1210可包括一个或多个数据库用于存储某些数据(例如视频和补充材料)，并对存储数据进行特定操作，例如数据库搜索和数据检索。

显示器1206可包括任何适当类型的计算机显示设备或电子设备显示器(例如基于阴极射线管(CRT)或液晶(LCD)的设备，触摸屏，发光二极管(LED)显示器)。外部设备1212包括各种传感器和其他输入/输出(I/O)设备，如扬声器、照相机、运动传感器、键盘、鼠标等。

在操作时，设备1200可以完成一系列操作以实现本发明情境感知问答的方法和架构。设备1200可实行一个终端或一个服务器端，或两者的组合。本文所使用的终端可指任何具有一定计算能力的适当用户终端，计算能力包括收集用户输入的导演提示，显示预览视频，对视频进行编辑优化。举例来说，终端可以是个人电脑(PC)、工作站电脑、服务器电脑、手持计算设备(平板电脑)、移动终端(移动电话或智能手机)，或任何其他用户端计算设备。本文所用的服务器可指配置为提供一定服务器功能的一台或多台服务器计算机，服务器功能包括确定用于拍摄动画视频的相机配置，根据相机配置生成动画视频，通过在图解模型中找到最小化成本函数的路径来编辑动画视频。服务器还可包括一个或多个处理器，以并行地执行计算机程序。终端和/或服务器可配置为提供此类动作和操作的结构和功能。在一些实施例中，部分动作可以在服务器上执行，其他部分动作可在终端执行。

在一些实施例中，处理器1202进一步配置为：确定问题的场景库；为场景库获取视频的补充材料；将补充材料组织成多个段落；以及对多个段落中的每个段落与问题的相关性进行排序，相关性即段落分数。

在一些实施例中，处理器1202进一步配置为：分析问题的动词以确定问题的时态；针对问题时态是过去时态，确定场景库以包括当前场景和当前场景之前的(N-1)场景，N是过去时态或将来时态问题的场景库大小。针对问题的时态是现在时态，则确定场景库包括当前场景；针对问题的时态是将来时态，则确定场景库包括当前场景和当前场景之后的(N-1)个场景。

在一些实施例中，处理器1202进一步配置为：将每个场景的补充材料组织成三个层次，其中第一层次包括每个场景的摘要段落，第二层次包括每个场景的剧本段落，以及第三层次包括每个场景的隐藏字幕段落或每个场景的音轨转录段落；以及配置为索引在角色的角色名称下描述角色的段落。在多个角色的每个角色名称下多次索引描述多个角色的段落。

在一些实施例中，处理器1202进一步配置为：使用文档排序器来评估段落与问题相关的概率，以生成多段落中每个段落的段落分数，其中段落分数是负浮点数。

在一些实施例中，处理器1202进一步配置为：基于段落分数，在多个段落中搜索与问题相匹配的段落；针对与问题相匹配的段落，基于与问题相匹配的段落生成答案；以及针对没有段落与问题相匹配，生成的答案事通知未找到答案。

本发明还提供了一种用于视频问答的情境感知系统。系统包括终端设备和云服务器。将终端设备配置为：接收关于暂停的视频的问题；将问题发送到云服务器；从云服务器接收答案；并输出答案。将云服务器配置为：接收来自终端设备的问题；获取并分析在视频的暂停位置的情境信息，情境信息包括视频的补充材料；根据在视频的暂停位置的情境信息搜索问题的答案；对答案进行语言通顺处理；并将语言通顺处理后的答案发送给终端设备。

在一些实施例中，终端设备通过HTTP API与云服务器进行通信。

在说明书中，使用了具体的例子来解释本发明的原理。对实施例的描述旨在帮助理解本发明的方法和核心发明思想。同时，本领域技术人员可以根据本发明的实施例改变或修改具体实施方式和应用范围。因此，说明书的内容不应理解为对本发明内容的限制。

Claims

1.一种用于回答视频相关问题的情境感知方法，其特征在于，包括：

接收关于暂停视频在暂停位置的问题；

获取并分析在所述视频的所述暂停位置的情境信息，所述情境信息包括所述视频的补充材料；以及

根据在所述视频的所述暂停位置的所述情境信息，自动搜索所述问题的答案。

2.根据权利要求1所述的方法，其特征在于，进一步包括：

对所述答案进行语言通顺处理，以获得语言通顺的答案；以及

输出所述语言通顺的答案。

3.根据权利要求1所述的方法，其特征在于，所述获取并分析在所述视频的所述暂停位置的情境信息，包括：

确定所述问题的场景库；

获取所述场景库中所述视频的补充材料；

将所述补充材料组织成多个段落；以及

对多个所述段落中每个段落与所述问题的相关性进行排序，所述相关性即段落分数。

4.根据权利要求3所述的方法，其特征在于，所述确定所述问题的场景库，包括：

分析所述问题中的动词，确定所述问题的时态；

针对所述问题的时态是过去时态，确定所述场景库包括当前场景和当前场景之前的N-1个场景，N是过去时态问题或将来时态问题的场景库大小；

针对所述问题的时态是现在时态，确定所述场景库包括当前场景；

针对所述问题的时态是将来时态，确定所述场景库包括当前场景和当前场景之后的N-1个场景。

5.根据权利要求4所述的方法，其特征在于：

N是大于1的整数。

6.根据权利要求5所述的方法，其特征在于：

N＝3。

7.根据权利要求3所述的方法，其特征在于，所述将所述补充材料组织成多个段落，包括：

将每个场景的补充材料组织为三个层次，其中第一层次包括每个场景的摘要段落，第二层次包括每个场景的剧本段落，第三层次包括每个场景的隐藏字幕段落或每个场景的音轨转录段落；以及

通过角色的角色名称索引描述所述角色的段落，其中在多个角色的每个角色名称下多次索引描述多个所述角色的段落。

8.根据权利要求3所述的方法，其特征在于，所述对多个所述段落中每个段落与所述问题的相关性进行排序，包括：

使用文档排序器评估段落与所述问题相关的概率，为多个所述段落中每个段落生成所述段落分数，其中所述段落分数是一个负浮点数。

9.根据权利要求1所述的方法，其特征在于，所述根据在所述视频的所述暂停位置的所述情境信息，自动搜索所述问题的答案，包括：

搜索多个段落，根据段落分数搜索与所述问题相匹配的段落；

针对找到与所述问题相匹配的段落，根据与所述问题相匹配的所述段落生成所述答案；以及

针对无法找到与所述问题相匹配的段落，生成的所述答案是通知未找到答案。

10.根据权利要求9所述的方法，其特征在于，所述搜索多个段落，根据段落分数搜索与所述问题相匹配的段落，包括：

根据所述段落分数在多个所述段落中进行位置搜索，搜索与所述问题相匹配的段落；

针对在所述位置搜索中未找到与所述问题相匹配的段落，根据所述段落分数在多个所述段落上执行角色搜索，搜索与所述问题相匹配的段落；以及

针对在所述角色搜索中未找到与所述问题相匹配的段落，根据所述段落分数在多个所述段落上进行迭代搜索，搜索与所述问题相匹配的段落。

11.根据权利要求10所述的方法，其特征在于：

当所述段落分数大于或等于预设阈值时，确定所述段落与所述问题相匹配，所述预设阈值与当前搜索相对应，所述当前搜索是位置搜索、角色搜索和迭代搜索中的一个；以及

当所述段落分数小于所述预设阈值时，确定所述段落与所述问题不匹配，所述预设阈值与所述当前搜索相对应。

12.根据权利要求11所述的方法，其特征在于：

所述位置搜索和所述角色搜索的预设阈值高于所述迭代搜索的预设阈值。

13.根据权利要求1所述的方法，其特征在于：

所述视频的补充材料包括场景的开始时间戳和结束时间戳、场景元数据、视频剧本、角色列表、所述视频的隐藏字幕以及所述视频的音轨中的一个或多个。

14.根据权利要求2所述的方法，其特征在于，所述对所述答案进行语言通顺处理，以获得语言通顺的答案，包括：

对所述答案进行语法错误修正处理，以获得语言通顺的答案。

15.一种用于回答视频相关问题的情境感知设备，其特征在于，包括：

存储程序指令的存储器；以及

与所述存储器耦合的处理器，所述处理器配置为执行所述程序指令以：

接收关于暂停视频在暂停位置的问题；

16.根据权利要求15所述的设备，其特征在于，所述处理器进一步配置为：

输出所述语言通顺的答案。

17.根据权利要求15所述的设备，其特征在于，所述处理器进一步配置为：

确定所述问题的场景库；

获取所述场景库中所述视频的补充材料；

将所述补充材料组织成多个段落；以及

18.根据权利要求17所述的设备，其特征在于，所述处理器进一步配置为：

分析所述问题中的动词，确定所述问题的时态；

19.根据权利要求17所述的设备，其特征在于，所述处理器进一步配置为：

通过角色的名称索引描述各角色的段落。

20.一种用于回答视频相关问题的情境感知系统，其特征在于，包括：

终端设备和云服务器，所述终端设备配置为：

接收关于暂停视频在暂停位置的问题；

发送所述问题到所述云服务器；

从所述云服务器接收语言通顺的答案；以及

输出所述答案；以及

所述云服务器配置为：

接收来自所述终端设备的所述问题；

获取并分析在所述视频的所述暂停位置的情境信息，所述情境信息包括所述视频的补充材料；

根据在所述视频的所述暂停位置的所述情境信息，自动搜索所述问题的答案；

将所述语言通顺的答案发送到所述终端设备。

21.根据权利要求20所述的系统，其特征在于：

所述终端设备通过HTTP API与所述云服务器进行通信。