CN103984693A

CN103984693A - 丰富时间线和时间顺序文本描述定义的内容的方法和设备

Info

Publication number: CN103984693A
Application number: CN201410047322.1A
Authority: CN
Inventors: M.格甘; J.拉纳甘; P.施莫克; A.兰伯特
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-02-11
Filing date: 2014-02-11
Publication date: 2014-08-13
Also published as: US20140229472A1; KR20140101674A; JP2014160463A; EP2765784A1; EP2765783A1

Abstract

本发明涉及一种用于丰富由时间线和由按时间顺序排列的文本描述定义的多媒体内容的方法，其特征在于它包括以下步骤：使用自然语言处理来至少在从网络（N）取得的文本文档（Pi）的部分中识别（E3）至少一个特征（F1、F2），自动将所述文本文档的确定部分对齐（E4）到语义对应于所述文本文档的确定部分的按时间顺序排列的文本描述的至少一部分，使得至少将文本文档的该部分自动地与所述多媒体内容的时间线同步，按时间顺序排列的文本描述本身与时间线同步。

Description

丰富时间线和时间顺序文本描述定义的内容的方法和设备

技术领域

本发明总地涉及将元数据关联到多媒体内容，并且具体地涉及一种用于利用例如网络用户在社交网络或诸如网络论坛的其它用户生成的内容库上张贴的评论来丰富由时间线和由按时间顺序排列的文本描述定义的多媒体内容的方法和设备。

背景技术

本节旨在向读者介绍本领域的各个方面，这可能与下面所描述的和/或要求保护的本发明的各个方面相关。相信这种讨论在给读者提供背景信息以便于更好地理解本发明的各个方中是有帮助的。因此，应当理解，要从这个角度阅读这些陈述，而不是作为对现有技术的承认。

随着诸如TWITTER和YOUTUBE、以及其它网络论坛的社交网络和平台的发展，近些年对于由非专业作家（如电视用户）写作的关于多媒体内容（例如电影）的评论的文本分析已经取得了强烈的兴趣。

特别是，一些研究集中于用户评论与视频内容、特别是与所述视频内容的时间线的同步。

因而已知通过使用在实时事件期间通过社交网络生成的文本微张贴（如由于TWITTER平台的留言（tweet））来增强视听内容，通过使用微张贴的时间戳来直接完成同步。

此外，也已知允许用户观看视频内容，并同时张贴自动和自然地与视频内的时间相关联的评论的系统。

在这两种情况下，（如果已实现）评论与视听内容的时间线的同步是简单的，因为由于时间戳，评论已经具有时间码。

换句话说，这些现有技术允许将评论与多媒体内容的时间线同步，仅仅因为每个评论与时间信息（例如，文本微张贴在其对应的社交网络上被发送的时间）相关联，所述多媒体内容被同时播放。

然而，这些现有技术的缺点依赖于它们要求在播放多媒体内容期间写入评论，以便使每个评论的发出时间与多媒体内容的特定时间点相匹配的事实。此外，因为需要时间来写评论，其内容可能涉及多媒体内容的先前场景，而不是涉及所述评论最终与之相关联的场景。换句话说，同步表现为不准确的。

本发明试图补救前面提到的缺点的至少一些，并且特别是不使用任何时间码地将文本元数据与在特定时间点的多媒体内容在其对应的时间线中对齐。

发明内容

本发明涉及一种用于丰富由时间线和由按时间顺序排列的文本描述定义的多媒体内容的方法。

为此，该方法包括以下步骤：

-使用自然语言处理来至少在文本文档的部分中识别至少一个特征，

-自动将所述文本文档的确定部分对齐到语义对应于所述文本文档的确定部分的按时间顺序排列的文本描述的至少一部分，

使得至少将文本文档的该部分自动地与所述多媒体内容的时间线同步。

在本说明书中，应理解：

-文本文档表示由专业或非专业用户——尤其是，但不排他地，网络和/或电视用户——所写的任何类型的文本，诸如测评、评论、博客或论坛帖子、百科全书的文章、新闻文章等。显然，文本文档可以由字母数字字符组成，

-作者是写出这样的文本文档的人（例如网络用户、电视用户等），

-多媒体内容可能对应于视听文档（例如电影、体育赛事、无线电节目等），

-按时间顺序排列的文本描述对应于按时间顺序描述多媒体内容的任何类型的文本文档。作为非限制性示例，这种按时间顺序排列的文本描述可以是电影脚本、足球比赛概述、电影字幕、电影音频描述脚本等，

-特征是在文本文档中提到、描述或评价的多媒体内容的特定元素，诸如具体的场景、事件或动作，电影的特定方面（命名实体、演员、导演、灯光等），或者具体场景中的特定方面。

此外，在下面的说明书中，假定多媒体内容和它的按时间顺序排列的文本描述已经由于已知技术对齐在一起，使得按时间顺序排列的文本描述直接和已经与所述多媒体内容的时间线同步。在一个变型中，这样的对齐可能在实施本发明之后进行。

因此，由于本发明，可以在文本文档和多媒体内容的按时间顺序排列的文本描述之间进行文本到文本的对齐，而无需使用时间码或时间信息。这种方法可能至少使文本文档的一段与多媒体内容的按时间顺序排列的文本描述的一个或几个对应部分对齐，以便在按时间顺序排列的文本描述内关联其所涉及的时间线的一个或几个时间点或时间间隔。

本发明的方法不打算将文本文档、或其部分，与所述多媒体内容直接匹配，而只是通过对应的按时间顺序排列的文本描述。

此外，应理解，单一文本文档中提到的特征可以涉及按时间顺序排列的文本描述中的几个不同的时间点或时间间隔。

此外，自然语言处理是计算机科学、人工智能和与计算机和人类（自然）语言之间的交互有关的语言学的领域。因此，NLP与人机交互的领域有关。

在本发明的一个方面，可以从一组文本文档识别所述文本文档，作为涉及多媒体内容。

此外，可以从因特网网络取得所述一组文本文档。

在本发明的另一个方面，在所述对齐步骤期间，可以有利地实施首语重复分辨（anaphora resolution）技术以执行所述文本文档的确定部分和按时间顺序排列的文本描述之间的语义对应。

此外，可以在多个文本文档上应用识别步骤和对齐步骤以自动地使所述文本文档与多媒体内容的时间线同步。

根据本发明的优选实施例，属于下列特征分组的特征至少包括：

-字词的组合；

-语义实体；

-字词列表；

-事件。

优选地，自然语言处理对应于实体识别处理或基于特征的观点分析。

在本发明的实现示例中，多媒体内容是视听内容并且文本文档是由网络用户写的评论（所谓的帖子）。

在本发明的另一个方面，所述多媒体内容被分段成其中时间线的对应时间间隔与之相关联的多个场景，作为其与相关联的按时间顺序排列的文本描述同步的结果，文本文档可以被同步到它所涉及的场景的时间间隔。

此外，本发明还涉及一种用于丰富由时间线和由按时间顺序排列的文本描述定义的多媒体内容的系统。根据本发明，该系统包括：

-被配置为至少在文本文档的部分中识别至少一个特征的自然语言处理模块，

-用于自动将所述文本文档的确定部分对齐到语义对应于所述文本文档的确定部分的按时间顺序排列的文本描述的至少一部分的对齐模块，

与所公开的实施例在范围上相当的某些方面阐述如下。应理解，提出这些方面仅用于向读者提供本发明可以采取的某些形式的简要概述，并且这些方面并不意在限制本发明的范围。事实上，本发明可包括下面没有阐明的各种方面。

附图说明

借助于以下实施例和执行示例，不以任何方式限制地参照附图将更好地理解和说明本发明，附图中：

-图1是根据本发明的优选实施例的用于丰富多媒体内容的系统的框图；

-图2是根据该优选实施例的示出由用于丰富多媒体内容的方法实施的步骤的流程图；

-图3是根据该优选实施例的描绘了用于丰富电影的步骤的全局图；

-图4表示来自电影专用网站的由第一用户答复先前的第二用户的帖子而写的帖子的屏幕截图。

在可能的地方，相同的附图标记将被用于整个附图来指代相同或相似的部件。

具体实施方式

根据优选实施例的示例，关于其中时间线和脚本相关联的电影来描绘本发明。应注意，脚本是电影的按时间顺序排列的文本描述的特定示例。

显然，本发明不限于这些示例，并且可以被应用到由时间线和由至少一个按时间顺序排列的文本描述（诸如脚本）定义的任何多媒体内容。

根据该示例，图1描绘了用于利用文本文档（例如由专业和/或非专业网络/电视用户所写的帖子）来丰富电影的系统S。该电影由一连串的按时间顺序排列的场景组成。

具体地，该系统S直接地或通过网关（未在图1中表示）连接到网络N（例如因特网网络）。显然地，在一个变型中，所述系统S可以不连接到任何网络。

涉及电影的一组帖子Pi（i∈[1;N]，N是整数）被存储在连接到网络N的远程服务器RS（例如类似IMDb的电影专用网站）上。所述涉及电影的一组帖子Pi可以由系统S使用因特网网络N从服务器RS取得，并且可以被存储在系统S的适配的存储器M中。

此外，在该示例中，该电影和对应的脚本可以通过因特网网络N从视频服务器VS下载，并且可以被存储在所述存储器M中。当然，在一个变型中，可以以任何其它适合的方式（例如，从USB密钥或DVD）取得该电影。显然，在一个变型中，远程服务器RS和视频服务器VS可以是相同的服务器。

系统S还包括人机界面MMI（例如触摸屏），旨在由操作者使用以输入要从所述一组帖子Pi中提取的一个或几个不同的特征。当然，这些特征可以被自动定义和/或选择。一旦在系统S中输入，这些特征可以被存储在存储器M中。

每个特征都是可能在帖子Pi中被提及、描述或评价的电影的特定元素，诸如具体的场景、事件或行动、电影的特定方面（命名实体、演员、导演、灯光等），或者具体场景中的特定方面。

具体地，特征可以是：

-字词的组合；

-语义实体；

-字词列表；

-事件；

-等等。

如图1所示，系统S还包括自然语言处理模块NLP（例如处理器），用于为存储在存储器M中的每个帖子Pi自动地识别在系统S中输入的所述特征的至少一个。具体地，模块NLP能够确定帖子Pi是否涉及预定义的特征，并且帖子Pi包含对所述特征的引用的情况下，确定所述帖子的一个或多个特定部分是否对应于所述特征。

具体地，自然语言处理可以对应于实体识别处理和/或基于特征的观点分析，例如，如同在信息科学杂志出版的文档“Aspect-based sentimentanalysis of movie reviews on discussion boards”(Thet&al.，2010)第36（6）第823-848页所定义的。

一旦已经识别了至少部分已定义的特征，可以建立对应表以将每个预定义的特征与已由模块NLP识别的帖子Pi的一个或多个对应部分相关联。此对应表可以被存储在存储器M中。

另外，如图1所示，系统S附加地包含一对准模块A（例如处理器），用于自动地将帖子Pi的一个或多个确定的部分对齐到语义地对应于帖子Pi的所述确定的（多个）部分的电影脚本的一个或多个对应部分。

具体地，可以通过计算提取的（多个）特征和按时间顺序排列的文本描述的部分之间的文本相似性测量来获得语义对应：例如，使用Jaccard系数（如在“ comparative de la distribution florale dans une portion desAlpes et des Jura”中所定义的（Jaccard因Paul(1901)公布在《Bulletin de laSociété Vaudoise des Sciences Naturelles37》第47-579页）或余弦测量（如在以下网址http://en.wikipedia.org/wiki/Cosine_similarity中所定义），或者简单地通过计算共用的字词的数量。然后根据该文本相似性得分将包含该特征的帖子的部分对齐到按时间顺序排列的文本的最接近的部分。

在一个替代方案中，语义对应本身可以使用自然语言处理进行。

此外，对齐模块A可以实施首语重复分辨技术以执行帖子Pi的确定的（多个）部分和所述电影的脚本之间的语义对应。

以这种方式，帖子Pi的每个识别的特征被对其到脚本中的特定点，其可以是场景（每个场景由预定的时间间隔标识）或是时间线的更精确的时间信息（例如，分钟）。因此，帖子Pi可能在多个时间点与脚本对齐。

由于本发明，帖子Pi或它们的（多个）部分直接地和自动地与电影的脚本同步。从而实现帖子与脚本的文本到文本的同步。然后，通过参照电影的时间线定义的时间信息被隐式地附接到每个帖子Pi或者它的（多个）部分。

在脚本已经时间上与电影对齐的情况下，帖子Pi或者它们的（多个）部分也通过脚本成为隐式地时间上对齐到所述电影。

然后，本发明可以执行文本文档到多媒体内容的按时间顺序排列的描述的对齐，而无需使用按时间顺序排列的信息或者时间戳。

图2的流程图描绘了根据本发明的优选实施例的用于丰富由时间线和由脚本定义的电影的方法的各个步骤。

在第一初始步骤E0中，存储在远程服务器RS上的帖子Pi被初步识别为涉及所考虑的电影。

在进一步的步骤E1中，识别的帖子Pi被从所述远程服务器RS中取回，以便被存储在系统S的存储器M中。

在进一步的步骤E2中，旨在被识别和从帖子Pi中提取的特征被经由人机界面MMI（或者，在一个变型中，通过软件编程）定义和输入到系统S中。

在进一步的步骤E3中，模块NLP在每个帖子Pi中自动识别一个或几个定义的特征，并建立一个对应表，其中，对应的帖子Pi或者它们的（多个）部分与每个预定义的特征相关联。

在进一步的步骤E4中，对齐模块A自动地将帖子Pi或者它们的（多个）部分与脚本的（多个）语义地对应的部分相对齐。这样的对齐为帖子Pi（或者它们的（多个）部分）提供了相对于电影的时间的时间信息。

当然，前面的步骤可以以不同的顺序来实现。

然后，一旦已经对预定的电影执行了对齐，对齐的帖子Pi可以与脚本一起存储，使得在电影的播放过程中，对齐的帖子Pi或者它们的（多个）部分在对应的时间点可以在主显示设备（例如电视机）上和/或第二屏幕（例如平板电脑）上弹出。

图3图示用于利用所写帖子Pi来丰富电影的方法的步骤E1至E4。图示了两个定义的特征F1和F2。每个特征F1、F2包括字词的组合，即地点、人物和时间。

具体地，在图3中，表示了脚本到电影的对齐。这个附加的和众所周知的步骤可以在步骤E1至E4的任一项之前或之后进行。

此外，作为第一说明性但非限制性的示例，图4显示了由第一用户答复先前的第二用户的帖子而写的帖子的屏幕截图。该帖子已经从电影专用网站IMDb取得，并具有下列内容：

“我明白你的意思，Rohmer成功地传达了这一点。它不是像看起来那么浅显和肤浅，只是看起来像，事实是，真正的底线是更加令人郁闷的。我认为整体上对地点的选择恰恰是对于这类故事惊人的准确。我们在这里，在漂亮的“新城区”（那些无中生有建造的人造城市），在那里人们走来走去就像电影的临时演员。它是全白的、干净的、没有历史、没有个人风格，但采取来自其他地方的架构模式的复制。整个事情的设计似乎只是为了满足生活在那里的雅皮士的需求和休闲，没有历史的角度或视图的深度。“老的”景观都保持距离，就像人物是在泡沫（àla Logan’s Run，也许！）内。甚至植被也才刚刚开始生长：小树，待生长的草坪。只有当Blanche和Fabien在旷野徘徊时她才哭泣，看似被自然的力量压倒（这是在《绿光》中也可以看到的模式），仿佛她完全失去了她的元素、她的空荡的白色公寓。人物似乎与彼此游戏，以便使他们能够忘记就在此下面有一个巨大的虚无。非常具有存在感！事实上，有点令人郁闷。但伟大的电影都是一样的。只有Rohmer可以实现这样的模糊水平，这是导演的很大的特点。”

该帖子的文本是非常丰富的，并且指出了名为“男朋友、女朋友”的电影的许多方面，以及具体的地点和/或场景，例如：

-位置：“她的空荡的白色公寓”；

-场景：“当Blanche和Fabien在旷野徘徊时[……]她才哭泣”。

在由系统S执行所述识别的步骤E3之后，可以建议下列对应表：

特征	帖子的部分
		地点	“她的空荡的白色公寓”
场景	“当Blanche和Fabien在旷野徘徊时[……]她才哭泣”

假定该电影脚本提供了场景的下列信息：

该系统S的对齐模块A在步骤E4实现脚本时间线与提取的帖子或它们的（多个）部分的映射。

具体地，第一特征指示地点。根据该脚本，场景3和13都发生在公寓中。帖子的这部分可能涉及这些场景。如前所述，这可以通过使用首语重复分辨技术来检查和改善，所述首语重复分辨技术将字词“她的”（在“她的空荡的白色公寓”中）链接到Blanche。

第二特征描述了具有Blanche和Fabien的发生“在旷野”的场景。这两个人物在场景7和13中匹配。然而，“旷野”语义上更接近“森林”，而不是“公寓”。这可以通过使用诸如WordNet的外部字词本体来发现。场景13因此被丢弃。

因此，人们可能会知道这个帖子涉及场景3、7和13，并且能够在文本中指出哪个部分对应于哪个场景。

在第二个说明性的非限制示例中，多媒体是足球比赛视频（切尔西对巴塞罗那）。帖子是可以在体育专用网站上进行抓取的涉及该足球比赛的论坛评论。脚本是该足球比赛的文本概述。例如，它可以是：

-由主持人做出的音频概述的记录；

-本场比赛的新闻报导（以时间顺序撰写）；

-给出比赛内关键时刻的足球分享（soccer ticker）；

-等等。

以下表示示出所选足球比赛期间的主要时刻的分享：

FT：ChelSea 1 BarCeIona 0

LaSt updated∶18th April2012

A mistake from Messi of allpeople allows Ramires to break and he picks out Drogba with

a pinpoint cross after a storming run， allowing the striker to drive home with a great finish.

GOAL！DROGBA OPENS THE SCORING TO MAKE IT 1-0TO CHELSEA！

45+2 it′s Messi′s turn to go down as he sllps awkwardly but he′s back on his feet seconds

later.Barca are in possession as the seconds trickle down...

45+1 Drogba goes down in another heap as two minutes stoppage time are added this

half，but nothlng is given.

45 Messi tries to pick out Sanchez in the Chelsea box but hoofs his pass ove r his team-

mate′s head，prompting shouts of′who a reya？from the home faithful.

44 Heart-stopping moment there for Chelsea and vital last-gasp clearance from Cole.

Messi tries another shot seconds later but mishits it.

由于每种运动都有其特定的词汇表(例如，进球、投篮得分、犯规、出线等)，可以使用这个词汇表的一些术语来执行脚本和取得的帖子之间的对齐。

然后，可以抽出参与比赛的运动员的名字、诸如进球的一些具体的术语、按时间顺序排列的信息等。

图1中，系统S的表示方框纯粹是功能实体，其不必对应于物理上单独的实体。即，它们可以以软件、硬件的形式被开发，或者实现在一个或几个集成电路中。

在本说明书、权利要求和附图中公开的参考可以独立地或以任何适当的组合来提供。在适当情况下，特征可以以硬件、软件或两者的组合来实现。

本发明已经在其优选实施例中进行了描述，显然，它能容许在本领域技术人员的能力内的众多修改和实施例，而无需运用创造性劳动。因此，本发明的范围由下面的权利要求的范围限定。

这里陈述的所有示例和条件性语言旨在教导的目的，以帮助读者理解本发明的原理和发明人贡献的促进现有技术的构思，并且应当被解释为不限于这些具体陈述的示例和条件。

此外，这里陈述原理、方面和本发明原理的实施例、以及其具体示例的所有叙述，旨在在包括其结构和功能的等效物。另外，旨在这样的等效物包括当前已知的等效物以及将来开发的等效物，即执行相同功能的开发出的任何元件，而与结构无关。

Claims

1.一种用于丰富包括时间线和按时间顺序排列的文本描述的多媒体内容的方法，其特征在于它包括以下步骤：

-使用自然语言处理来至少在从网络（N）取得的文本文档（Pi）的部分中识别（E3）至少一个特征（F1、F2），

-自动将所述文本文档（Pi）的确定部分对齐（E4）到语义对应于所述文本文档（Pi）的确定部分的按时间顺序排列的文本描述的至少一部分，

使得至少将文本文档（Pi）的该部分自动地与所述多媒体内容的时间线同步。

2.根据权利要求1所述的方法，其中，从一组文本文档（Pi）识别（E1）所述文本文档（Pi），作为涉及所述多媒体内容。

3.根据权利要求2所述的方法，其中，从因特网网络（N）取得（E2）所述一组文本文档。

4.根据前述权利要求中的一项所述的方法，其中，在所述对齐（E4）步骤期间，实施首语重复分辨技术以执行所述文本文档（Pi）的确定部分和按时间顺序排列的文本描述之间的语义对应。

5.根据前述权利要求中的一项所述的方法，其中，在多个文本文档（Pi）上应用识别（E3）步骤和对齐（E4）步骤以自动地使所述文本文档（Pi）与多媒体内容的时间线同步。

6.根据前述权利要求中的一项所述的方法，其中，所述特征（F1、F2）属于下列特征分组，其至少包括：

-字词的组合；

-语义实体；

-字词列表；

-事件。

7.根据前述权利要求中的一项所述的方法，其中，自然语言处理对应于实体识别处理或基于特征的观点分析。

8.根据前述权利要求中的一项所述的方法，其中所述多媒体内容是视听内容并且所述文本文档是由网络用户所写的评论（Pi）。

9.根据前述权利要求中的一项所述的方法，其中，所述多媒体内容被分段成其中时间线的对应时间间隔与之相关联的多个场景，所述文本文档（Pi）被同步到它所涉及的场景的时间间隔。

10.一种用于丰富包括时间线和按时间顺序排列的文本描述的多媒体内容的系统，其特征在于它包括：

-被配置为至少在从网络（N）取得的文本文档（Pi）的部分中识别至少一个特征（F1、F2）的自然语言处理模块（NLP），

-用于自动将所述文本文档（Pi）的确定部分对齐到语义对应于所述文本文档的确定部分的按时间顺序排列的文本描述的至少一部分的对齐模块（A），