CN105474201A

CN105474201A - 识别媒体内容中的报道

Info

Publication number: CN105474201A
Application number: CN201380078901.6A
Authority: CN
Inventors: 阿比盖尔·贝特利; 乌奈·阿尤·阿雷斯蒂; 戴维·托内
Original assignee: Lonza AG
Current assignee: Lonza AG; Longsand Ltd
Priority date: 2013-07-18
Filing date: 2013-07-18
Publication date: 2016-04-06
Also published as: US9734408B2; WO2015007321A1; EP3022663A1; US20160155001A1

Abstract

在各个实施方式中描述了与识别媒体内容中的报道相关联的技术。在一个示例性实施方式中，一种方法可以包括接收媒体内容以及基于媒体内容中包括的听觉指示器将媒体内容分段为多个媒体片段。该方法还可以包括分析第一媒体片段，以确定与第一媒体片段相关联的第一概念集，以及分析第二媒体片段，以确定与第二媒体片段相关联的第二概念集。该方法可以进一步包括比较第一概念集与第二概念集，以确定第一概念集与第二概念集之间的概念相似性，以及响应于概念相似性超过相似性阈值，识别包括第一媒体片段和第二媒体片段的报道。

Description

识别媒体内容中的报道

背景技术

在今日总是互联的社会中，形式为现场直播、预录制或点播节目的媒体内容几乎是普遍存在的。例如，24×7新闻节目全天提供了连续的现场直播信息流，并且无数预录制媒体源在任何给定时刻例如经由互联网是可访问的。

可以使用大量不同技术、经由大量通信频道中的任意通信频道来广播、流传送、或另外输送媒体内容。例如，在互联网上流传送的视频媒体的输送通常包括将视频内容编码成一个或多个流传送视频格式，并且高效地向终端用户输送已编码的视频内容。

附图说明

图1是根据在此描述的实施方式的示例性报道识别环境的概念图。

图2是根据在此描述的实施方式的从媒体内容中识别报道的示例性方法的概念图。

图3是根据在此描述的实施方式的从媒体内容中识别报道的示例性方法的流程图。

图4是根据在此描述的实施方式的用于从媒体内容中识别报道的示例性计算机系统的框图。

具体实施方式

海量可应用媒体内容可容易地导致信息超负荷，尤其是如果媒体内容并未以允许用户容易地识别感兴趣的具体内容的方式而良好编组或另外结构化。作为结果，某些内容提供者、内容搜集者、或终端用户可以人工地加标签或者另外对媒体内容分类，例如通过将元数据与内容相关联。这种人工分类尽管相当精确，但可能是相对低效、昂贵和/或耗时的。

在此描述了用于识别媒体内容中的报道的技术，即便之前尚未如此分类报道。如在此所使用的，术语“报道”通常指媒体内容中与特定主题或一致性概念集相关的一部分。例如，在晚间新闻节目播出期间，一个报道可能描述最近犯罪审判的结果，而另一个报道可能讨论本地商务的成功，以及又一个报道可能涉及天气。根据在此描述的技术，媒体内容(例如新闻节目)被分离成概念性报道(例如包括法律报道、商务报道和天气报道的三种概念上不同的报道)。一旦已经使用所描述的技术识别了报道，可以执行额外的有用处理－例如以概括或分类报道，或者以使报道与媒体内容隔离(例如剪辑)，以为了更方便的访问或传输。可以在已经识别了报道之后，对报道应用这些或其它合适的处理技术，以通常使得报道对于终端用户是更加可访问和/或可消费的。

图1是根据在此描述的实施方式的示例性报道识别环境100的概念图。如所示，环境100包括被配置为执行报道识别引擎112的计算系统110。报道识别引擎112可以通常操作为分析输入的媒体内容102，以及用于识别在媒体内容102中所包括的各个报道114a、114b和114c。如以下进一步详细描述的，报道识别引擎112可以通常通过将媒体内容102划分为片段，分析片段以确定与各个片段相关联的概念，比较不同片段之间的概念以确定不同片段的概念相似性，以及将概念上类似的片段合并为报道，来识别报道。

环境100的示例性拓扑结构可以代表各个报道识别环境。然而，应该理解的是，仅为了示意说明而示出了环境100的示例性拓扑结构，可以对配置作出各种修改。例如，环境100可以包括不同的或额外的部件，或者可以以不同于所示的方式而实施部件。同样地，尽管计算系统110通常被示为独立服务器，但应该理解的是，计算系统110实际上可以是任何合适类型的计算装置，诸如服务器、大型主机、膝上型计算机、台式计算机、工作站、或其它装置。计算系统110也可以代表计算装置的群组，诸如服务器农场、服务器集群、或者单独地或一起操作以执行在此描述的功能的计算装置的其它群组。

媒体内容102可以采用任何合适媒体类型的形式，并且可以从任何合适的媒体源提供。可以如在此所描述的进行处理的媒体类型的示例包括但不限于，音频信息(例如无线电广播、电话通话、音频流等)，视频信息(例如电视广播、网络广播、视频流等)，和/或多媒体信息(例如音频、视频、图形、和/或其它合适内容的组合)。媒体源的示例包括但不限于广播媒体源、流媒体源、在线媒体储存库、独立物理媒体(例如蓝光盘、DVD、小型盘等)等等。

计算系统110可以包括处理器122、存储器124、接口126、分段模块128、内容分析模块130以及片段合并模块132。应该理解的是，仅为了示意说明目的而示出所示部件，在一些情形中，参照计算系统110的特定模块或部件所描述的功能可以由例如计算系统110或其它合适的计算系统的一个或多个不同的或额外的模块或部件来执行。类似的，应该理解的是，功能的一部分或全部可以组合成比所示更少的模块或部件。

处理器122可以被配置为处理由计算系统110执行的指令。指令可以存储在非临时、有形的计算机可读存储介质上，诸如在存储器124中或者在分立的存储装置(未示出)上，或者在用于存储使可编程处理器执行在此描述的技术的指令的任何其它类型易失性或非易失性存储器上。可替代地或额外地，计算系统110可以包括专用硬件，诸如一个或多个集成电路、专用集成电路(ASIC)、专用处理器(ASSP)、现场可编程门阵列(FPGA)、或用于执行在此描述的技术的专用硬件的前述示例的任意组合。在一些实施方式中，如合适地，可以将多个处理器与多个存储器和/或多个类型的存储器一起使用。

接口126可以实施在硬件和/或软件中，并且可以例如被配置为从合适的媒体源(未示出)接收媒体内容102。在一些实施方式中，接口126可以配置为从一个或多个媒体源定位和/或请求媒体内容102。例如，接口126可以配置为循环地、定期地和/或随时地从不同的新闻频道或电台捕捉新闻提要，以及提供媒体内容102以供报道识别引擎112处理。接口126也可以被配置为输出供终端用户或其它合适的计算系统(诸如搜索引擎或其它合适的系统)所消费的已处理报道，例如报道114a、114b和/或114c。

在一些实施方式中，接口126也可以包括允许用户(例如系统管理员)直接地与计算系统110交互、例如人工地限定或修改与报道识别引擎112相关联的设置或选项的一个或多个用户接口。这些设置或选项可以存储在数据库(未示出)中，并且可以由报道识别引擎112使用，以调整与如在此描述的报道识别功能相关联的一个或多个处理参数。示例性的用户接口可以包括触摸屏装置、指示装置、键盘、语音输入接口、视觉输入接口等等。

分段模块128可以执行在一个或多个处理器(例如处理器122)上，并且可以基于媒体内容102中所包括的听觉指示器而将接收到的媒体内容102分段为多个媒体片段。例如，分段模块128可以分析媒体内容102的音频部分，来识别某些听觉标志(例如给定长度的静默，或特定类型的听觉信号，诸如音乐或特定音调)，以识别媒体内容102中的逻辑断裂。在新闻节目的示例中，基于媒体内容102的音频部分中的静默或暂停的分段可以导致与句子和/或段落对齐的片段，因为发言者可能通常在句子和/或段落之间暂停简短片刻。类似的，新闻节目可以包括音乐叮当声、一系列音调、或者指示了在节目部分之间逻辑断裂的其它听觉信号。这些和/或其它合适的听觉指示器可以用于允许分段模块128对媒体内容102进行分段。

在一些实施方式中，分段模块128也可以或者可替代地使用视觉指示器来对接收到的媒体内容102进行分段。例如，分段模块128可以分析媒体内容128的视频部分，以识别也可以或者可替代地用于识别媒体内容102中的逻辑断裂的某些视觉标志(例如指示了连续视频帧之间显著差异的关键帧，黑色帧，或其它合适的视觉指示器)。当一起采用时，诸如静默的听觉指示器与诸如关键帧的视频指示器组合可以用于精确地且一致性地将媒体内容102分段为合适的媒体片段。

分段模块128也可以使用其它合适的指示器，以使得或者精细调整媒体内容102的片段为多个媒体片段。例如，媒体内容102的音频部分的语音至文本处理可以提供抄本，其可以例如与如上描述的听觉和/或视觉指示器结合一起用于确定对于片段合适的断裂(例如基于句号或抄本中其它标点符号)。类似地，与媒体内容102的视频部分相关联的封闭式加字幕信息可以用作输入，以确定或确认对于片段的断裂。

在媒体内容102已被分段之后，各个媒体片段可以由内容分析模块130分析。内容分析模块130可以执行在一个或多个处理器(例如处理器122)上，并且可以分析媒体片段，以确定与各个片段相关联的一个或多个关键项和/或概念的集。在一些实施方式中，分析媒体片段可以包括产生媒体片段的音频部分的抄本(例如使用语音至文本处理)，以及将抄本提供至概念分析引擎，其接着可以提供与媒体片段相关联的一个或多个概念的集。概念分析引擎也可以返回来自媒体片段的关键项，例如通过移除不可能添加关于特定片段的任何概念信息的任何普通项或停用字。在一些实施方式中，内容分析模块130可以配置为原生地分析媒体片段(例如不将音频、视频或多媒体信息转换为文本)，以确定与媒体片段相关联的概念。

片段合并模块132可以执行在一个或多个处理器(例如处理器122)上，并且可以比较由内容分析模块130所识别的概念，以确定在一个或多个媒体片段之间的概念相似性，以及如果概念相似性指示了媒体片段足够相关，则可以将媒体片段合并为报道。例如，在一些实施方式中，片段合并模块132可以比较与第一媒体片段相关联的第一概念集和与第二媒体片段相关联的第二概念集，以确定第一概念集和第二概念集之间的概念相似性。在一些实施方式中，概念相似性可以表示为数值相似性得分，或者可以另外表示为两个片段之间的客观概念相似性。

接着，如果概念相似性超过特定的相似性阈值(例如其可以根据对于实施方式特殊的考虑被配置)，则片段合并模块132可以将报道识别为包括这两个媒体片段。在一些实施方式中，片段合并模块132可以被配置为对于概念相似片段分析某一数目的附近片段(例如在前面的三个媒体片段)。在这些实施方式中待分析的附近片段的数目可以是例如由管理员可配置的。

如上所述的概念相似性和相似性阈值可以以任何合适的方式限定，以对于给定实施方式实现所需的报道识别结果。例如，概念相似性可以基于对概念和/或关键项进行匹配来确定，或者可以基于概念和/或关键项之间的概念距离来确定，或者可以基于其它合适的技术或技术组合来确定。在对概念进行匹配的情形中，相似性阈值可以是基于片段之间匹配的概念和/或项的百分比(例如25％或更大，50％或更大，等)，或者可以是基于匹配或者另外重叠的概念的数目(例如一个或多个，多于一个，多于两个，等)。在概念距离的情形中，相似性阈值可以是基于最近概念距离，最远概念距离，平均概念距离，和/或其它合适的度量或者度量的组合。相似性阈值可以是例如由管理员可配置的，以实现报道内一致性的所需水平。例如，为了产生更一致的报道，可以增大相似性阈值。

在一些实施方式中，片段合并模块132不仅可以合并如上所述确定为概念上类似的片段，而且还可以合并时间上位于将要合并为报道的片段之间的中间媒体片段。继续以上示例，如果第一媒体片段和第二媒体片段被三个中间媒体片段分隔，则片段合并模块132可以合并这五个媒体片段－两端为第一和第二媒体片段并且包括三个中间媒体片段－为单个报道，即便中间媒体片段不一定被识别为概念上类似于第一或第二媒体片段的任一个。

在一些实施方式中，如果某些中间媒体片段被识别为概念上与报道不相关，则片段合并模块132可以拒绝将这些特定的中间媒体片段合并至报道中。在以上示例中，如果三个中间媒体片段中的一个被识别为不相关(与简单的并未识别为特别相关的情形相反)，则片段合并模块132可以将同样地以第一和第二媒体片段为两端的五个媒体片段中的四个合并为单个报道，使得报道排除了不相关的媒体片段。这种排除例如可以确保广告或其它完全分离的媒体片段并未作为报道的一部分被包括。

在如上所述已经识别了报道之后，报道识别引擎112可以对报道执行后期识别处理。例如，报道识别引擎112可以分析任何已识别报道，以产生各个报道的摘要，或者根据报道划分媒体内容，或者执行其它合适的处理。以该方式，可以使得来自各个媒体内容的报道对于用户是更加可访问和/或可消费的。

图2是根据在此所描述的实施方式的从媒体内容中识别报道的示例性方法200的概念图。方法200可以例如由诸如图1中所示的报道识别引擎112的报道识别处理系统执行。为了清楚表示，以下说明书使用图1中所示的报道识别引擎112作为用于描述方法的示例的基准。然而，应该理解的是，其它系统或系统的组合可以用于执行方法或方法的各个部分。

在阶段210中，由报道识别引擎112接收媒体内容212。媒体内容212通常可以采用单个连续媒体块的形式，诸如在节目期间包括两个广告暂停的三十分钟新闻节目。媒体内容212示出了虚线，意在代表如上所述的听觉和/或视觉指示器。

在阶段220中，媒体内容212已经分解为多个媒体片段－片段A222、片段B224、片段C226、以及片段D228。报道识别引擎112可以使用媒体内容212中所包括的听觉和/或视觉指示器，以例如根据句子或内容中其它逻辑断裂而对内容分段。

在阶段230中，已经分析了片段A222，以确定与片段A222相关联的概念集232。类似的，已经分析了片段B224，以确定与片段B224相关联的概念集234，已经分析了片段C226，以确定与片段C226相关联的概念集236，以及已经分析了片段D228，以确定与片段D228相关联的概念集238。

在阶段240中，片段A222和片段B224已经合并为候选报道A242，以及片段C226和片段D228已经合并为候选报道B244。该合并可以是基于片段之间概念的比较，并且片段A222的概念232在概念上类似于片段B224的概念234的判定。报道识别引擎112也可以已经比较片段C226的概念236和/或片段D228的概念238与之前片段中的那些，并且确定了存在不足的概念相似性而无法合并片段。类似的，报道识别引擎112可以基于概念236和238概念上足够相似使得它们可能是相同报道的一部分的判定而已经合并了片段C226和片段D228。

在阶段250中，候选报道A242已经被识别为非报道252，以及候选报道B244已经被识别为报道254。可以例如在其中报道长度小于可配置的最小报道长度(例如小于三十秒)的情形中，或者在其中概念被确定为无关紧要(例如广告或报道之间的非报道间歇)的情形中，或者在其它合适的场景下，识别非报道，诸如非报道252。在同样地已经识别了例如报道254的报道之后，也可以执行后期处理。例如，在报道254的情形中，例如基于报道的内容和/或与报道相关联的所确定概念而已经摘要概括了报道。

图3是根据在此描述的实施方式的从媒体内容识别报道的示例性方法300的流程图。方法300例如可以由诸如图1所示的报道识别引擎112的报道识别处理系统执行。为了表示清楚，以下说明书使用图1所示的报道识别引擎112作为用于描述方法的示例的基准。然而，应该理解的是，可以使用其它系统或系统的组合以执行方法或方法的各个部分。

方法300开始于框310处，此时接收媒体内容。在一些实施方式中，可以向报道识别引擎112(例如由用户或内容提供者)直接地提供媒体内容。在其它实施方式中，报道识别引擎112可以主动地定位和/或请求媒体内容以进行处理。例如，报道识别引擎112可以主动地监控特定新闻提要(例如流视频内容或广播新闻频道)，以收集适的媒体内容进行处理。

在框320处，基于听觉指示器、视觉指示器、或听觉和视觉指示器的组合而对媒体内容分段。例如，报道识别引擎112可以识别听觉标志、视频标志、或者在媒体内容中逻辑断裂的其它合适的指示器，并且可以因此将媒体内容分段为媒体片段。

在框330处，分析片段，以确定与各个片段相关联的概念。例如，报道识别引擎112可以包括概念分析引擎或者利用分离的概念分析引擎，来确定与各个片段相关联的一个或多个关键项和/或概念的集。在一些实施方式中，分析媒体片段可以包括产生媒体片段的音频部分的抄本(例如使用语音至文本处理)，并且提供抄本至概念分析引擎，其接着可以提供与媒体片段相关联的一个或多个概念的集。概念分析引擎也可以返回来自媒体片段的关键项。在一些实施方式中，概念分析引擎可以被配置为原生地分析媒体片段(例如并未将音频、视频或多媒体信息转换为文本)。

在框340处，比较片段之间所确定的概念，以确定片段的概念相似性。例如，报道识别引擎112可以比较与第一媒体片段相关联的第一概念集和与第二媒体片段相关联的第二概念集，以确定第一概念集和第二概念集之间的概念相似性。

在框350处，基于概念上相似的片段而识别报道。例如，如果报道识别引擎112确定了两个媒体片段是概念上相似的，则其可以识别由两个媒体片段构成的报道。在一些实施方式中，报道识别引擎112可以将多个概念上相似的媒体片段合并为报道，例如，如果框340的比较指示了媒体片段是充分相关联的。

图4是根据在此描述的实施方式的用于从媒体内容中识别报道的示例性计算机系统400的框图。系统400包括报道识别机器可读指令402，其可以包括或者由图1所示的各个模块中的某些实施。可以载入报道识别机器可读指令402，以在处理器或多个处理器404上执行。如在此所使用的，处理器可以包括微处理器、微控制器、处理器模块或子系统、可编程集成电路、可编程门阵列、或其它控制或计算装置。处理器404可以耦合至网络接口406(以允许系统400在数据网络之上执行通信)和/或耦合至存储介质(或存储媒体)408。

存储介质408可以被实施为一个或多个计算机可读或机器可读的存储媒体。存储媒体可以包括不同形式的存储器，包括半导体存储器装置，诸如动态或静态随机访问存储器(DRAM或SRAM)、可擦除和可编程只读存储器(EPROM)、电可擦除和可编程只读存储器(EEPROM)、以及快闪存储器；磁盘，诸如固定的、软的、和可移除的盘；其它磁性媒体，包括磁带；光学媒体，诸如小型盘(CD)或数字视频盘(DVD)；或其它合适类型的存储装置。

注意，以上所讨论的指令可以提供在一个计算机可读或机器可读存储介质上，或者可替代地，可以提供在分布于具有多个节点的系统中的多个计算机可读或机器可读存储媒体上。该计算机可读或机器可读存储介质或媒体被视作是物品(或制造品)的一部分。物品或制造品可以指任何合适地制造的部件或多个部件。存储介质或媒体可以位于运行机器可读指令的机器中，或者位于远程位置处，例如机器可读指令可以经由网络从该位置下载，以进行执行。

尽管以上已经详细描述了几个实施方式，但其它修改是可能的。例如，附图中所示逻辑流程可以无需所示的特定顺序，或者依次的顺序，以实现所希望的结果。此外，可以提供其它步骤，或者可以从所述流程删除步骤。类似的，可以向所描述的系统添加、或者从所描述的系统移除其它部件。因此，其它实施方式在以下权利要求的范围内。

Claims

1.一种用于识别媒体内容中的报道的计算机实现方法，所述方法包括：

在计算系统处接收媒体内容；

利用所述计算系统基于所述媒体内容中包括的听觉指示器，将所述媒体内容分段为多个媒体片段；

利用所述计算系统分析所述多个媒体片段中的第一媒体片段，以确定与所述第一媒体片段相关联的第一概念集；

利用所述计算系统分析所述多个媒体片段中的第二媒体片段，以确定与所述第二媒体片段相关联的第二概念集；

利用所述计算系统比较所述第一概念集与所述第二概念集，以确定所述第一概念集与所述第二概念集之间的概念相似性；以及

响应于所述概念相似性超过相似性阈值，识别包括所述第一媒体片段和所述第二媒体片段的报道。

2.根据权利要求1所述的计算机实现方法，其中将所述媒体内容分段进一步基于所述媒体内容中包括的视觉指示器。

3.根据权利要求1所述的计算机实现方法，其中所述概念相似性基于对所述第一概念集中包括的概念与所述第二概念集中包括的概念进行的匹配来确定。

4.根据权利要求1所述的计算机实现方法，其中所述概念相似性基于所述第一概念集中包括的概念与所述第二概念集中包括的概念之间的概念距离来确定。

5.根据权利要求1所述的计算机实现方法，其中所述媒体内容包括多媒体内容流。

6.根据权利要求1所述的计算机实现方法，其中识别报道包括：合并所述第一媒体片段、所述第二媒体片段以及位于所述第一媒体片段与所述第二媒体片段之间的中间媒体片段。

7.根据权利要求6所述的计算机实现方法，其中识别报道包括排除被识别为概念上与所述报道不相关的中间媒体片段。

8.一种报道识别系统，包括：

一个或多个处理器；

在所述一个或多个处理器中的至少一个上执行的分段模块，所述分段模块基于媒体内容中包括的听觉指示器将所述媒体内容分段为多个媒体片段；

在所述一个或多个处理器中的至少一个上执行的内容分析模块，所述内容分析模块分析所述媒体片段，以确定与各个媒体片段相关联的概念；以及

在所述一个或多个处理器中的至少一个上执行的片段合并模块，所述片段合并模块比较与第一媒体片段相关联的概念和与第二媒体片段相关联的概念，以确定所述第一媒体片段与所述第二媒体片段之间的概念相似性，并且响应于指示所述第一媒体片段和所述第二媒体片段在概念上相关的概念相似性，将所述第一媒体片段和所述第二媒体片段合并为报道。

9.根据权利要求8所述的报道识别系统，其中所述分段模块进一步基于所述媒体内容中包括的视觉指示器对所述媒体内容进行分段。

10.根据权利要求8所述的报道识别系统，其中所述概念相似性基于对与所述第一媒体片段相关联的概念和与所述第二媒体片段相关联的概念进行的匹配来确定。

11.根据权利要求8所述的报道识别系统，其中所述概念相似性基于与所述第一媒体片段相关联的概念和与所述第二媒体片段相关联的概念之间的概念距离来确定。

12.根据权利要求8所述的报道识别系统，其中所述片段合并模块进一步将位于所述第一媒体片段与所述第二媒体片段之间的中间媒体片段合并至所述报道中。

13.根据权利要求12所述的报道识别系统，其中所述片段合并模块响应于确定所述中间媒体片段中的不相关媒体片段在概念上与所述报道不相关，而排除将所述不相关中间媒体片段合并至所述报道中。

14.根据权利要求8所述的报道识别系统，其中所述媒体内容包括多媒体内容流。

15.一种非临时计算机可读存储介质，用于存储指令，所述指令在由一个或多个处理器执行时促使所述一个或多个处理器：

基于媒体内容中包括的听觉指示器将所述媒体内容分段为多个媒体片段；

分析所述多个媒体片段中的第一媒体片段，以确定与所述第一媒体片段相关联的第一概念集；

分析所述多个媒体片段中的第二媒体片段，以确定与所述第二媒体片段相关联的第二概念集；

比较所述第一概念集和所述第二概念集，以确定所述第一概念集与所述第二概念集之间的概念相似性；以及

响应于所述概念相似性超过相似性阈值，将所述第一媒体片段和所述第二媒体片段合并为报道。