CN110235449A - 用于校正字幕文本中的错误的系统和方法 - Google Patents
用于校正字幕文本中的错误的系统和方法 Download PDFInfo
- Publication number
- CN110235449A CN110235449A CN201680090655.XA CN201680090655A CN110235449A CN 110235449 A CN110235449 A CN 110235449A CN 201680090655 A CN201680090655 A CN 201680090655A CN 110235449 A CN110235449 A CN 110235449A
- Authority
- CN
- China
- Prior art keywords
- text fragments
- term
- correction
- terms
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/23424—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234336—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Studio Devices (AREA)
Abstract
描述了通过校正针对媒体资产的屏幕上字幕文本中的错误术语来解决常规系统中的缺点的系统和方法。在一些方面,系统和方法识别屏幕上字幕文本的文本片段中的错误术语,以及识别媒体资产的与该文本片段对应的一个或多个视频帧。该系统和方法还从所述一个或多个视频帧中识别与错误术语相关的上下文术语。通过访问知识图,该系统和方法基于上下文术语和文本片段的一部分来识别候选校正。最后,该系统和方法用候选校正替换错误术语。
Description
背景技术
常规媒体系统可以将来自新闻节目的语音信息转换为副标题或隐藏字幕形式的屏幕上字幕文本。传统上,这个过程由人类速记员来处理。最近,媒体系统已经开始使用语音识别技术来解析语音信息并在与语音本身基本相同的时间将其显示为屏幕上字幕文本。但是,这些媒体系统受到它们的字典规模或人类速记员的知识的限制,并且常常无法识别某些艺术术语、新创建的流行语、外来名称或其它词和短语。使用自动语音识别(ASR)的媒体系统在处理同音词(听起来相似的词)时也处于不利地位。在新闻和体育节目中看到充满错误的屏幕上字幕文本并不罕见。在一些常规系统中,这些错误必须由经验丰富的人类速记员手动校正。但是,即使是人类速记员在打字时也可能不知道所有内容的正确词或拼写,并且可能容易造成排印错误。
发明内容
描述了通过自动校正媒体资产的音频转录的屏幕上字幕文本中的错误来解决常规媒体系统中的缺点的系统和方法。在一些实施例中,媒体指南应用通过基于从媒体资产本身导出的信息访问知识图来校正错误并从知识图中寻找错误的候选替换或校正。在一些实施例中,用于访问知识图的从媒体资产导出的信息可以是出现在围绕错误的媒体资产的一个或多个视频帧中的文本或图像,并且可以通过对视频帧执行文本或图像识别来识别,诸如通过使用光学字符识别(OCR)算法。用于访问知识图的信息也可以从屏幕上字幕文本本身的正确识别出的部分(诸如屏幕上字幕文本中的部分识别出的句子中的关键词)导出。在一些实施例中,媒体指南应用可以通过访问知识图来确定错误的一个或多个潜在校正,并基于它们与错误的语音相似性来对这些潜在校正加权,以便选择具有最高权重的候选校正。在一些实施例中,媒体指南应用还可以基于它们各自的时间戳来对它们加权,这指示潜在校正有多新。然后,媒体指南应用可以用候选校正来替换错误,并向观看者呈现无错的屏幕上字幕文本。
例如,对于下面的句子中出现在新闻广播上的屏幕上字幕文本,媒体指南应用可能会在转录某国国家主席NAME 1的名字时出错:“总统NAME 2与国家主席NAME 1之间的会面强调……”媒体指南应用的ASR系统可能无法识别名字“NAME 1”,而是将上述句子转录为“总统NAME 2与总统She-Jumping之间的会面强调……”。作为第一步,媒体指南应用可以将一个或多个自然语言处理(NLP)规则应用于转录的句子,并确定“She-Jumping”是错误术语,因为它不遵守一个或多个语法规则。为了校正错误术语,媒体指南应用可以从屏幕上字幕文本的正确识别出的部分中提取关键词(诸如“总统”),并基于该术语访问知识图。媒体指南应用还可以对围绕错误术语的视频帧执行OCR,并从视频帧识别诸如“某国”和“国事访问”之类的上下文术语。除了从屏幕上字幕文本中提取的关键词之外,媒体指南应用还可以基于这些上下文术语来访问知识图。通过分析在知识图中与这些术语相关联的节点和特性,媒体指南应用可以识别与“总统”、“某国”和“国事访问”相关的许多潜在校正,诸如“NAME 1”和“NAME 3”。然后,媒体指南应用可以用“NAME 1”替换原始转录句中的“She-Jumping”,部分原因是两者在语音上相似。以下尤其是关于图1-4更详细地讨论本公开的这些和其它方面。
在一些方面,所描述的系统和方法提供用于校正媒体资产的屏幕上字幕文本中的错误术语。媒体指南应用可以分析媒体资产的音频流以确定屏幕上字幕文本的第一文本片段。例如,媒体指南应用可以分析体育新闻评论的音频流并自动将其转录成屏幕上字幕文本。媒体指南应用可以将屏幕上字幕文本的第一文本片段确定为“虽然在针对div platedate的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”。在一些实施例中,媒体指南应用可以在屏幕上字幕文本的第一文本片段中识别出错误术语。例如,媒体指南应用可以识别出“div plate date”是第一文本片段中的错误术语。在一些实施例中,媒体指南应用可以通过对第一文本片段执行自然语言处理以将第一文本片段与多个语法规则进行比较来识别错误术语。例如,媒体指南应用可以将上面的句子与需要词“div”后面跟着数字(例如,如“NCAA div one”)的语法规则进行比较,并确定“div plate date”是错误术语,因为它与该语法规则冲突。
在一些实施例中,媒体指南应用可以从与第一文本片段对应的媒体资产的视频流中提取一个或多个视频帧。例如,媒体指南应用可以从媒体资产中提取与上述句子出现在音频流中的时间对应的视频帧。视频流可以是汤姆·布雷迪的新闻采访,其中包括几个视频帧,在横幅上显示以下句子:“小时新闻:爱国者队四分卫招致NFL禁赛”。媒体指南应用可以提取这些视频帧,因为它们对应的时间基本上与句子“虽然在针对div plate date的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”在新闻上播报的时间相同。
在一些实施例中,媒体指南应用可以分析一个或多个视频帧中的第一视频帧以确定与错误术语相关联的上下文术语。例如,媒体指南应用可以用横幅覆盖图来分析视频帧,并确定来自横幅的上下文术语“爱国者队”和“NFL禁赛”与错误术语“div plate date”相关联。在一些实施例中,媒体指南应用可以访问知识图,以基于上下文术语和第一文本片段的一部分来识别错误术语的候选校正。例如,媒体指南应用可以基于上下文术语“NFL禁赛”和转录句子“虽然在针对……的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”的一部分(“汤姆·布雷迪”)来访问知识图。
在一些实施例中,媒体指南应用可以从第一文本片段的部分提取关键词。例如,从第一文本片段的不包含错误术语“div plate date”的部分,媒体指南应用可以提取关键词“汤姆·布雷迪”。在一些实施例中,媒体指南应用可以在知识图中搜索与上下文术语和关键词对应的节点。继续上面的示例,媒体指南应用可以在知识图中搜索与上下文术语“NFL禁赛”和关键词“汤姆·布雷迪”对应的节点。在一些实施例中,媒体指南应用可以分析节点以寻找与上下文术语和关键词相关联的特性。例如,媒体指南应用可以分析“汤姆·布雷迪”节点并找到诸如出生日期(“1977年8月3日”)、高度(“6英尺4英寸”)、40码短跑时间(“5.28s”)和球队(“新英格兰爱国者队”),并分析“NFL禁赛”节点,其包含姓名(“OdellBeckham Jr.”、“汤姆·布雷迪”、“Josh Brown”……)、长度(“1”、“4”、“1”……)和原因(“碰撞”、“Deflategate”、“个人行为”……)。在一些实施例中,特性可以各自与知识图中的一个或多个不同节点对应。例如,“个人行为”和“Deflategate”可以各自是节点以及另一个节点的特性。
在一些实施例中,媒体指南应用可以基于与上下文术语和关键词相关联的特性来确定至少一个其它节点,其中这至少一个其它节点与候选校正对应。例如,媒体指南应用可以基于“汤姆·布雷迪”和“NFL禁赛”的前述特性来确定“Deflategate”节点是错误术语的候选校正。在一些实施例中,媒体指南应用可以用候选校正替换屏幕上字幕文本的第一文本片段中的错误术语。例如,媒体指南应用可以用候选校正“Deflategate”替换错误术语“div plate date”,使得第一文本片段现在读作“虽然在针对Deflategate的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”。
在一些实施例中,屏幕上字幕文本的第一文本片段是带时间戳的,并且第一视频帧是在与带时间戳的第一文本片段的位置对应的媒体资产的位置处提取的。例如,媒体指南应用可以对屏幕上字幕文本加时间戳,并给予第一文本片段等于句子被说出的绝对时间的时间戳。在播报句子“……将是有趣的”的同时或大约相同时间,媒体指南应用可以从媒体资产中提取正在显示的一个或多个视频帧,诸如具有横幅覆盖图的视频帧“小时新闻:爱国者队四分卫招致NFL禁赛”,如上面的示例所示。在一些另外的实施例中,媒体指南应用甚至可以提取与在带时间标记的第一文本片段中错误术语的位置基本相同的时间的一个或多个视频帧。
在一些实施例中,媒体指南应用可以识别屏幕上字幕文本的第二文本片段中的错误术语。例如,媒体指南应用可以在屏幕上字幕文本的在第一文本片段之后不久播报的第二文本片段“联邦调查div plate date正在进行中”中遇到错误术语。这可以提供精炼或更新先前校正的机会。在一些实施例中,媒体指南应用可以分析与第二文本片段对应的第二视频帧,以便确定与错误术语相关联的第二上下文术语。例如,媒体指南应用可以分析与第二文本片段对应的第二视频帧,诸如具有New England Patriots与Indianapolis Colts比赛的视频帧,并且确定在视频帧上显示的“Colts”是与错误术语“div plate date”相关联的第二上下文术语。
在一些实施例中,媒体指南应用可以访问知识图以基于第一上下文术语、第二上下文术语、第一文本片段的一部分和第二文本片段的一部分来识别更新的候选校正。如果因为例如第一上下文术语和第一文本片段的部分不能导致错误术语的替换的准确确定而使得原始候选校正不正确,这会是有帮助的。例如,假设媒体指南应用先前已将候选校正确定为“Detroit Game”而不是“Deflategate”,并相应地替换错误术语“div plate date”,那么媒体指南应用可以随后访问知识图并且基于从媒体资产中获得的更多信息(例如,“NFL禁赛”(即,第一上下文术语)、“Colts”(即,第二上下文术语)、“汤姆·布雷迪”(即,第一文本片段的一部分)和“联邦调查”(即,第二文本片段的一部分))来识别更新后的候选校正(“Deflategate”)。一般而言,当存在更多信息或线索以应用于知识图时,媒体指南应用能够更准确地确定错误术语的候选校正。
在一些实施例中,媒体指南应用可以用更新后的候选校正替换屏幕上字幕文本的第二文本片段中的错误术语。例如,媒体指南应用可以用更新后的候选校正(这次正确地识别为“Deflategate”)替换第二文本片段“联邦调查div plate date正在进行”中的“divplate date”错误术语,以产生校正的第二文本片段。在一些实施例中,媒体指南应用还可以用更新后的候选校正替换第一文本片段中的候选校正。例如,如果旧的候选校正“Detroit Game”由于“Deflategate”被抛弃,那么媒体指导应用可以会回过头来替换“虽然在针对div plate date的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”中的错误术语以进行普遍修正。
在一些实施例中,媒体指南应用可以访问知识图以通过从知识图确定错误术语的多个潜在校正并且基于该确定为多个潜在校正中的每个潜在校正指派权重来识别错误术语的候选校正。例如,为了在上述示例中识别错误术语的候选校正“Deflategate”,媒体指南应用可以首先确定多个潜在校正,诸如“Quarterback”、“Detroit Game”和“Deflategate”,并为每个潜在校正指派权重。在一些实施例中,媒体指南应用可以为多个潜在校正中更新近的潜在校正指派更高的权重。例如,在上面列出的三个潜在校正中,“Deflategate”可以与更新近的时间戳相关联,或者可以更近期地被更新过,因此可以被指派更高的权重。在一些其它实施例中,媒体指南应用可以为多个潜在校正中更“热门话题(trending)”的潜在校正指派更高的权重。“热门话题”潜在校正可以是在绝对数量方面或者在搜索频率方面突然在最近的搜索中获得知名度(popularity)的关键词。例如,术语“Deflategate”可以是一个“热门话题”关键词,因为该词的唯一搜索次数直到过去两周内的最近一次事件为止一直保持接近于零,此后“Deflategate”的唯一搜索次数呈指数上升。作为另一个示例,术语“Deflategate”的唯一搜索的频率在最近的事件之前可能保持相对恒定,并且频率在过去两周内呈指数上升,使得术语“Deflategate”成为“热门话题”关键词。在一些另外的实施例中,媒体指南应用可以基于语音算法确定潜在候选校正与错误术语之间的语音相似性得分(有时被定义为语音距离的倒数),并且为具有更高语音相似性得分的潜在候选校正指派更高的权重。媒体指南应用可以通过将语音片段划分为一串原子片段、计算针对每个原子片段的插入成本和删除成本、以及将插入成本和删除成本相加以得到语音距离来计算语音距离。例如,媒体指南应用可以将标准语音算法应用于三个潜在校正,并针对每个潜在校正确定语音相似性得分,并且基于“Deflategate”与“div platedate”的较高语音相似性而为“Deflategate”指派较高的得分。在这个示例中,媒体指南应用可以计算它需要两次删除(“f”和“g”)和三次插入(“v”、“p”和“d”)以将“Deflategate”改为“div plate date”。因此,媒体指南应用可以将“Deflategate”的语音距离确定为5。如本领域技术人员可以容易地理解的,其它潜在校正(“Quarterback”和“Detroit Game”)的语音距离分别是23和17。因此,媒体指南应用可以计算出“Deflategate”具有最高的语音相似性得分(作为语音距离的倒数)。在一些实施例中,媒体指南应用可以将被指定最高权重的潜在校正识别为候选校正。例如,媒体指南应用可以将三个潜在校正中的“Deflategate”识别为候选校正,因为如已经根据上面所计算的,它被指派了最高权重。
在一些实施例中,媒体指南应用可以访问知识图以通过更新知识图的现有节点来识别候选校正。例如,媒体指南应用可以在从知识图中识别候选校正之前更新知识图中现有节点的子集或全部以确保它们包含最新信息。在一些实施例中,对现有节点的每次更新可以与时间戳相关联,以指示特定节点何时被最后更新。例如,在知识图的节点A、B、C、D和E当中,媒体指南应用可以在在给定时间访问知识图期间更新现有节点A、B和D,但是不更新节点C,因为节点C已包含最新信息,并且由于时间限制而无法更新节点E。在这里,知识图的现有节点A、B和D将会用当前时间来加时间戳,而节点C和E的时间戳将不会被更新,并且仍将反映它们各自的最新近更新。以这种方式,媒体指南应用可以维护知识图以确保其包含最新信息,以便对确定候选校正有用。
应当注意的是,上述系统、方法、装置和/或方面可以应用于本公开中描述的其它系统、方法、设备和/或方面,或者与根据本公开中描述的其它系统、方法、设备和/或方面一起使用。
附图说明
结合附图考虑以下详细描述,本公开的以上和其它目的和优点将变得显而易见,其中相同的标号通篇表示相同的部分,并且其中:
图1示出了根据本公开一些实施例的由媒体指南应用生成的显示屏幕的说明性示例;
图2示出了根据本公开一些实施例的与文本片段相关联的知识图的一部分的说明性实施例;
图3示出了根据本公开一些实施例的与文本片段相关联的知识图的一部分的另一个说明性实施例;
图4示出了根据本公开一些实施例的由媒体指南应用生成的显示屏幕的另一个说明性示例;
图5示出了根据本公开一些实施例的由媒体指南应用生成的显示屏幕的又一个说明性示例;
图6示出了根据本公开一些实施例的由媒体指南应用生成的显示屏幕的又一个说明性示例;
图7是根据本公开一些实施例的说明性用户装备设备的框图;
图8是根据本公开一些实施例的说明性媒体系统的框图;
图9是根据本公开一些实施例的用于校正使用媒体指南应用显示的媒体资产的屏幕上字幕文本中的错误术语的说明性处理的流程图;以及
图10是根据本公开一些实施例的用于使用知识图来识别和替换媒体资产的屏幕上字幕文本中的错误术语的说明性处理的流程图。
具体实施方式
描述了通过自动校正媒体资产的音频转录的屏幕上字幕文本中的错误来解决常规媒体系统中的缺点的系统和方法。可以经由在用户设备(例如,用户装备设备700(图7))、远程服务器(例如,媒体内容源816或媒体指南数据源818(图8))或其它合适的设备上运行的媒体指南应用来实现该系统和方法。
在一些实施例中,媒体指南应用通过基于从媒体资产本身导出的信息访问知识图并从知识图内查找错误的候选替换或校正来校正错误。媒体指南应用可以部分地在多个设备上实施,使得媒体指南应用的一些部分在一个设备上执行,而媒体指南应用的其它部分在另一个设备上执行。知识图可以在服务器上,诸如媒体内容源816或媒体指南数据源818,或者在媒体指南应用维护和访问的任何其它服务器或数据库上。在一些实施例中,从媒体资产导出的信息可以是出现在围绕错误的媒体资产的视频帧中的文本或图像,并且可以通过对视频帧执行文本或图像识别来识别。文本或图像识别可以由媒体指南应用使用多种技术中的任何技术来执行,诸如各种光学字符识别算法、图像识别算法和其它机器学习技术。此外,该信息还可以从屏幕上字幕文本本身的正确识别出的部分导出。在这里,媒体指南应用可以对已经被正确识别出的屏幕上字幕文本的部分应用一个或多个文本解析和关键词提取算法。在一些实施例中,如果屏幕上字幕文本的一部分通过自然语言处理(LP)处理器并且根据由NLP处理器指定的语法规则返回无语法错误,那么媒体指南应用可以认为该部分被正确识别。
在一些实施例中,媒体指南应用可以通过访问知识图来确定错误的一个或多个潜在校正。知识图可以包括以链接的数据格式布置的节点和链接,其中节点指示概念性实体,链接表示两个或更多个节点之间的关系。知识图可以由媒体指南应用预填充随时间收集的数据,并且可以周期性地更新以包括反映与知识图的现有节点相关的信息的新节点和链接。在一些实施例中,知识图可以由第三方服务(诸如第三方知识数据库)维护,由此媒体指南应用能够通过第三方服务提供的应用编程接口(API)来访问知识图。在这种实现中,第三方服务负责构建、维护和更新知识图。在一些实施例中,知识图可以是通用的,并且可以包括关于任何时间任何事物的信息。在一些其它实施例中,媒体指南应用可以维护专用于特定主题区域、特定时间段等的上下文知识图。这些可以被称为子知识图或上下文知识图。可以根据本公开的一些实施例使用的两个示例性知识图关于下面的图2-3被给出和讨论。
为了确定错误的一个或多个潜在校正,媒体指南应用可以访问合适的知识图并搜索表示从媒体资产导出的信息的一个或多个节点。如先前所讨论的,从媒体资产导出的信息可以包括从视频帧确定的一个或多个上下文术语以及从屏幕上字幕文本中提取的一个或多个关键词。在一些实施例中,媒体指南应用可以检查知识图中链接到表示这种信息的一个或多个节点中的至少一个节点的所有其它节点,并且可选地构建自包含该一个或多个节点及其直接相邻节点的子知识图。这些节点可以各自表示对错误的潜在校正。
在一些实施例中,媒体指南应用可以基于上面确定的一个或多个潜在校正与错误的语音相似性来对上面确定的一个或多个潜在校正进行加权,以便选择具有最高权重的候选校正。除了语音相似性之外,媒体指南应用还可以基于任何数量的其它标准来对潜在校正进行加权,诸如通过它们的时间戳,其指示它们对应的节点有最新。在一些实施例中,媒体指南应用然后可以用候选校正替换错误并向观看者呈现无错的屏幕上字幕文本。
图1图示了根据本公开一些实施例的由媒体指南应用生成的显示屏幕100的说明性示例。在显示屏幕100中,媒体指南应用在新闻广播期间在屏幕上字幕文本106中在转录当前某国国家主席NAME 1的名字时出错。不是显示一个可理解的句子,媒体指南应用而是显示屏幕上字幕文本106:“总统NAME 2与总统She-Jumping之间的会面强调……”。这个说明性示例证明了实现传统的自动转录服务的现有屏幕上字幕文本系统的失败,或采用人类速记员而他们不了解讨论中的特定术语(在这种情况下,是当前某国国家主席的名字)的系统的失败。但是,根据当前的公开,在系统800中实施的媒体指南应用可以将一个或多个LP规则应用于屏幕上字幕文本106并确定“She-Jumping”108是错误术语,因为它不能遵守一个或多个语法规则。
为了校正错误术语,媒体指南应用可以从屏幕上字幕文本106的正确识别出的部分中提取关键词(诸如“总统”),并基于该术语访问知识图。媒体指南应用还可以执行视频帧110的OCR,视频帧110与媒体资产中等同于媒体资产中屏幕上字幕文本106的位置的位置对应。例如,媒体指南应用可以在与新闻广播的音频流中播报屏幕上字幕文本106基本相同的时间在显示器712上生成视频帧110以供显示。基于视频帧110的OCR,媒体指南应用可以从信息面板102识别诸如“某国”和“国事访问”之类的上下文术语。可替代地,或者除了执行诸如视频帧110的OCR之类的文本识别之外,媒体指南应用还可以执行视频帧110中所示的字符的图像识别,以进一步识别与错误术语相关联的上下文术语。例如,如果视频帧110中的某国国家主席接收到近摄像机拍摄,那么媒体指南应用可以对他的身份执行图像识别并且到达上下文术语“NAME 1”,其恰好与错误术语“She-Jumping”的真实身份对应。
除了从屏幕上字幕文本106提取的关键词之外,媒体指南应用还可以基于这些上下文术语来访问知识图。通过分析在知识图中与这些术语相关联的节点和特性,媒体指南应用可以识别与“总统”、“某国”和“国事访问”相关的许多潜在校正,诸如“NAME 1”和“NAME3”。(国家主席NAME 1和前国家主席NAME 3分别主持过NAME 2总统对某国的国事访问)。然后,媒体指南应用可以用“NAME 1”替换原始文本片段中的“She-Jumping”。
图2示出了根据本公开一些实施例的与文本片段相关联的知识图的一部分的说明性实施例。在一些实施例中,图2中示出的知识图的说明性部分可以是可以包括任何信息或概念的通用知识图的一部分。知识图中示出的节点210、212、214……270与每个包含一个或多个特性的概念对应。例如,节点212“NAME 2”可以包括若干字段或特性,包括出生日期、身高、职业、教育等。节点对之间的连接表示指示节点可以具有的各种关系的链接。例如,节点212可以链接到节点210,因为“NAME 2”是“总统”。节点212也可以链接到节点220,因为“NAME 2”过去常常在“芝加哥”生活和教学。在一些实施例中,节点可以基于其底层数据结构来被进一步区分或分组。例如,在图2中的知识图的说明性部分中,圆形节点212、214、242和252用于表示人类个体,而矩形节点210、220、230、240、250、260和270用于表示不依赖于人类个体的实体或概念。应该理解的是,不同节点(即,圆形与矩形节点)的这种特定表示仅仅是说明性的,决不是对根本概念的限制。
为了访问知识图或子知识图的说明性部分,如图2中所示,媒体指南应用可以提供从媒体资产导出的信息作为起始节点,如上面所解释的。例如,媒体指南应用可以通过提供诸如“NAME 2”和“某国国家主席”之类的术语来访问子知识图。虽然“NAME 2”212和“某国国家主席”250本身是节点,但是媒体指南应用可以将所有其它相关节点(与“NAME 2”212或“某国国家主席”250至少共享一个链接的节点)作为错误术语的潜力校正以进行评估。如先前关于图1所示,媒体指南应用可以基于语音算法向在语音上类似于错误术语的节点指派更高的权重。在这种情况下,从图2到“She-Jumping”的最近节点是“NAME 1”252。因此,媒体指南应用可以选择“NAME 1”作为候选校正来替换错误术语“She-Jumping”。
图3示出了根据本公开一些实施例的与文本片段相关联的知识图的一部分的另一个说明性实施例。在一些实施例中,图3中的知识图或子知识图的部分可以是图2中的子知识图的特定于上下文的版本。特别地,图3中的子知识图中的节点可以全部涉及由来自第一文本片段的关键词和上下文术语设置的上下文“某国”和“总统”。有效地,媒体指南应用可以基于上下文术语或关键词过滤大的通用知识图,以便产生图3中的子知识图。
图3中的子知识图的节点310、312、350和352可以分别基本上与图2中的子知识图的节点210、212、250和252对应。附加节点“NAME 6”316和“NAME 7”318出现在图3的子知识图中,因为它们与“总统”或“某国”或两者的概念相关。例如,节点“NAME 7”318可以与节点“某国”360共享一个链接,因为总统NAME 7先前曾担任美国驻某国特使。
如前面所讨论的,在一些实施例中,节点和特性的概念是可互换的。例如,节点“NAME 4”314可以同时在节点“NAME 2”312下注册为家庭成员(即,节点“NAME 2”312的特性),并且同时可以是单独的节点本身。类似地,节点“NAME 1”可以在节点“NAME 5”354下注册为家庭成员,并且同时是链接到知识图中的其它现有节点的独立节点。在一些实施例中,媒体指南应用可以将知识图中与上下文术语和关键词相关联的所有节点和特性作为潜在校正返回,并且单独地评估它们以确定针对错误术语的候选校正。例如,基于图3的子知识图,媒体指南应用可以识别“NAME 4”314、“NAME 6”316、“NAME 7”318、“NAME 1”352、“NAME5”354和“NAME 3”356作为上述示例中错误术语”She-Jumping“的潜在校正。根据这些潜在校正,媒体指南应用可以应用各种加权机制来确定“NAME 1”作为候选校正。
可以周期性地维护和更新诸如图3和4中的说明性的知识图。在一些实施例中,媒体指南应用可以更新在查询时直接链接到查询节点的节点和特性。例如,媒体指南应用可以基于术语“总统”访问知识图,该术语“总统”与节点“总统”310对应。通过这个查询,媒体指南应用可以检索链接到“总统”310的节点,诸如“NAME 2”312、“NAME 6”316和“NAME 7”318,并更新它们的节点和特性信息。在一些实施例中,这样的更新可以通过链接数据的第二层或后续层来执行,诸如更新检索到的节点310、312、316和318,以及链接到节点310、312、316和318的二级节点。
在一些实施例中,媒体指南应用可以通过以固定间隔拉动和检查权威源来周期性地更新知识图的每个节点。在一些实施例中,媒体指南应用可以按组更新节点和特性。在一些另外的实施例中,媒体指南应用可以实时地执行更新,诸如通过将节点直接链接到权威源的API服务。例如,媒体指南应用可以通过将节点“NAME 2”312链接到在线百科全书、新闻服务或白宫官方新闻门户的API来实现节点“NAME 2”312的自动更新,以便接收实时更新。一旦接收到特定节点的实时更新,媒体指南应用就可以输入节点的新特性、更新现有特性、删除特性、将新链接添加到现有节点或新节点,或创建要链接到特定节点的新节点。
图4示出了根据本公开一些实施例的由媒体指南应用生成的显示屏幕的另一个说明性示例。在显示屏幕400上,媒体指南应用已应用候选校正408以替换屏幕上字幕文本106中的错误术语108。显示屏幕400上的其它所有内容可以与显示屏幕100保持相同。在一些实施例中,媒体指南应用可以在甚至显示屏幕上字幕文本106之前用候选校正408来替换错误术语108,使得观看者将仅看到正确的屏幕上字幕。在一些实施例中,媒体指南应用可以基本上与在屏幕上显示字幕文本106同时但是在生成屏幕上字幕文本106以显示给观看者之后执行替换。替换可以是无缝的并且即时的,以便大多数观看者可能不会注意到。实际上,在这样的实现中,媒体指南应用可能不希望将观看者的注意力吸引到替换上。在一些其它实现中,媒体指南应用可以用短高亮突发执行替换以强调候选校正408,以便将观看者的注意力吸引到校正的术语,因此观看者不会对错误术语的意义感到困惑,没有意识到已经进行了校正。在一些另外的实施例中,媒体指南应用可以在移动到屏幕上字幕文本中的下几个句子之后返回以替换错误术语108,因为先前用于替换错误术语108的候选校正是不正确的。在这样的实施例中,媒体指南应用可以使用短高亮突发或任何其它强调装置来向观看者指示已经对几个句子之前的屏幕上的字幕句子进行了更新的校正。在屏幕上字幕系统中显示经校正的错误术语的这些和其它装置本质上是说明性的,并不将本公开限制于本文讨论的特定实施例。
在任何给定的内容交付系统中用户可用的内容量可以很大。因此,许多用户期望通过允许用户高效地导航内容选择并且容易地识别他们可能期望的内容的接口的媒体指南形式。提供这种指南的应用在本文中称为交互式媒体指南应用,或者有时称为媒体指南应用或指南应用。
如本文所提到的,“交互式媒体指南应用”或“媒体指南应用”或有时“指南应用”是允许用户消费和/或导航到内容的应用。在一些实施例中,媒体指南应用可以作为在线应用提供(即,在网站上提供),或者作为服务器或用户设备上的独立应用提供。在一些实施例中,安装在各种设备和平台上的控制电路系统可以执行媒体指南应用,如下面更详细描述的。在一些实施例中,可以在机器可读介质上编码媒体指南应用和/或用于执行本文所讨论的任何实施例的任何指令。机器可读介质包括能够存储数据的任何介质。机器可读介质可以是瞬态的,包括但不限于传播电信号或电磁信号,或者可以是非瞬态的,包括但不限于易失性和非易失性计算机存储器或存储设备,诸如硬盘、软盘、USB驱动器、DVD、CD、媒体卡、寄存器存储器、处理器缓存、随机存取存储器(“RAM”)。
交互式媒体指南应用可以取决于它们提供指南的内容而采取各种形式。一种典型的媒体指南应用类型是交互式电视节目指南。交互式电视节目指南(有时被称为电子节目指南)是众所周知的指南应用,除其它之外,尤其允许用户在多种类型的内容或媒体资产中导航和定位。交互式媒体指南应用可以生成图形用户界面屏幕,这使用户能够在内容之间导航、定位和选择。如本文所提到的,术语“媒体资产”和“内容”应当被理解为意指电子可消费的用户资产,诸如电视节目,以及按次计费节目、点播节目(如在点播视频(VOD)系统中)、互联网内容(例如,流传输内容、可下载内容、网络广播等)、视频剪辑、音频、内容信息、图片、旋转图像、文档、播放列表、网站、文章、书籍、电子书籍、博客、聊天会话、社交媒体、应用、游戏和/或任何其它媒体或多媒体和/或其组合。指南应用还允许用户在内容之间进行导航和定位。如本文所提到的,术语“多媒体”当应被理解为意指利用上述至少两种不同内容形式的内容,例如文本、音频、图像、视频或交互内容形式。内容可以被用户装备设备记录、播放、显示或访问,但也可以是实况表演的一部分。
用于执行本文讨论的任何实施例的媒体指南应用和/或任何指令可以在机器可读介质上被编码。机器可读介质包括能够存储数据的任何介质。机器可读介质可以是瞬态的,包括但不限于传播的电信号或电磁信号,或者可以是非瞬态的,包括但不限于易失性和非易失性计算机存储器或存储设备,诸如硬盘、软盘、USB驱动器、DVD、CD、介质卡、寄存器存储器、处理器高速缓存、随机存取存储器(“RAM”)等。
随着互联网、移动计算和高速无线网络的出现,用户在他们传统上不访问媒体的用户装备设备上访问媒体。如本文所提到的,短语“用户装备设备”、“用户装备”、“用户设备”、“电子设备”、“电子装备”、“媒体装备设备”或“媒体设备”应当被理解为意指用于访问上述内容的任何设备,诸如电视机、智能TV、机顶盒、用于处理卫星电视的集成接收器解码器(IRD)、数字存储设备、数字媒体接收器(DMR)、数字媒体适配器(DMA)、流传输媒体设备、DVD播放器、DVD记录器、连接的DVD、本地媒体服务器、BLU-RAY播放器、BLU-RAY记录器、个人计算机(PC)、膝上型计算机、平板计算机、WebTV盒、个人计算机电视(PC/TV)、PC媒体服务器、PC媒体中心、手持式计算机、固定电话、个人数字助理(PDA)、移动电话、便携式视频播放器、便携式音乐播放器、便携式游戏机、智能手机或任何其它电视装备、计算装备或无线设备,和/或其组合。在一些实施例中,用户装备设备可以具有面向前方的屏幕和面向后方的屏幕、多个前方屏幕或多个有角度的屏幕。在一些实施例中,用户装备设备可以具有面向前方的摄像机和/或面向后方的摄像机。在这些用户装备设备上,用户可以能够在通过电视机可用的相同内容中进行导航和定位。因此,媒体指南也可以在这些设备上可用。所提供的指南可以仅用于通过电视机可用的内容,用于仅通过一个或多个其它类型的用户装备设备可用的内容,或用于通过电视机和一个或多个其它类型的用户装备设备二者可用的内容。媒体指南应用可以作为在线应用(即,在网站上提供)或作为独立应用或用户装备设备上的客户端来提供。下面将更详细地描述可以实现媒体指南应用的各种设备和平台。
媒体指南应用的功能之一是向用户提供媒体指南数据。如本文所提到的,短语“媒体指南数据”或“指南数据”应当被理解为意指与在操作指南应用中使用的内容或数据相关的任何数据。例如,指南数据可以包括节目信息、指南应用设置、用户偏好、用户简档信息、媒体列表、媒体相关信息(例如,广播时间、广播频道、标题、描述、评级信息(例如,父母控制评级、评论家的评级等)、流派或类别信息、演员信息、用于广播公司或提供商的徽标的徽标数据等)、媒体格式(例如,标准清晰度、高清晰度、3D等)、点播信息、博客、网站以及有助于用户在期望的内容选择中进行导航和定位的任何其它类型的指南数据。
图5-6示出了可以用于提供媒体指南数据的说明性显示屏幕。图5-6中显示的显示屏幕可以在任何合适的用户装备设备或平台上实现。虽然图5-6的显示被示为全屏显示,但它们也可以完全或部分地覆盖在正在显示的内容上。用户可以通过选择在显示屏幕中提供的可选选项(例如,菜单选项、列表选项、图标、超链接等)或按下遥控器或其它用户输入界面或设备上的专用按钮(例如,GUIDE按钮)来指示访问内容信息的期望。响应于用户的指示,媒体指南应用可以向显示屏提供以若干方式之一组织的媒体指南数据,诸如按网格中的时间和频道、按时间、按频道、按来源、按内容类型、按类别(例如,电影、体育、新闻、儿童或其它节目类别)或其它预定义的、用户定义的或其它组织标准。
图5示出了按照时间和频道布置的节目列表显示500的说明性网格,其也使得能够访问单个显示中的不同类型的内容。显示500可以包括网格502,其具有:(1)频道/内容类型标识符的列504,其中每个频道/内容类型标识符(其是列中的单元格)识别可得到的不同频道或内容类型;和(2)时间标识符的行506,其中每个时间标识符(其是行中的单元格)识别节目的时间块。网格502还包括节目列表的单元格,诸如节目列表508,其中每个列表提供在列表的相关联频道和时间上提供的节目的标题。利用用户输入设备,用户可以通过移动高亮区域510来选择节目列表。可以在节目信息区域512中提供与由高亮区域510选择的节目列表有关的信息。区域512可以包括例如节目标题、节目描述、节目被提供的时间(如果适用的话)、节目所在的频道(如果适用的话)、节目的评级以及其它期望的信息。
除了提供对线性节目的访问(例如,被安排在预定时间发送到多个用户装备设备并且根据时间表提供的内容),媒体指南应用还提供对非线性节目的访问(例如,在任何时间用户装备设备可访问和不按照时间表提供的内容)。非线性节目可以包括来自不同内容源的内容,包括点播内容(例如VOD)、互联网内容(例如,流传输媒体、可下载的媒体等等)、本地存储的内容(例如,存储在如上所述的任何用户装备设备或其它存储设备上的内容)或其它与时间无关的内容。点播内容可以包括电影或由特定内容提供商(例如,提供“TheSopranos”和“Curb Your Enthusiasm”的HBO On Demand)提供的任何其它内容。HBO ONDEMAND是时代华纳(Time Warner)公司L.P.等人拥有的服务标志,并且THE SOPRANOS和CURB YOUR ENTHUSIASM是由Home Box Office公司拥有的商标。互联网内容可以包括web事件(诸如聊天会话或网络广播),或者可通过互联网网站或其它互联网访问(例如,FTP)作为流传输内容或可下载内容按需可得到的内容。
网格502可以提供用于非线性节目的媒体指南数据,包括点播列表514、记录的内容列表516和互联网内容列表518。组合来自不同类型的内容源的内容的媒体指南数据的显示有时被称为“混合媒体”显示。可以被显示的、与显示500不同的媒体指南数据的类型的各种变换(permutations)可以基于用户选择或指南应用定义(例如,仅记录和广播的列表、仅点播和广播的列表等等的显示)。如图所示,列表514、516和518被示为跨越网格502中显示的整个时间块,以指示这些列表的选择可以分别提供对专用于点播列表、记录的列表或互联网列表的显示的访问。在一些实施例中,可以将用于这些内容类型的列表直接包括在网格502中。附加的媒体指南数据可以响应于用户选择导航图标520之一而被显示。(按下用户输入设备上的箭头键可以以与选择导航图标520类似的方式影响显示。)
显示500还可以包括视频区域522和选项区域526。视频区域522可以允许用户收看和/或预览用户当前可用、将可用或曾经可用的节目。视频区域522的内容可以与网格502中显示的列表之一对应或者与其无关。包括视频区域的网格显示有时被称为画中画(PIG)显示。在2003年5月13日授予Satterfield等人的美国专利No.6,564,378和2001年5月29日授予Yuen等人的美国专利No.6,239,794中更详细地描述了PIG显示及其功能,这两个专利的全部内容整体上通过引用并入本文。PIG显示可以被包括在本文描述的实施例的其它媒体指南应用显示屏幕中。
选项区域526可以允许用户访问不同类型的内容、媒体指南应用显示和/或媒体指南应用特征。选项区域526可以是显示500(以及本文描述的其它显示屏幕)的部分,或者可以由用户通过选择屏幕上的选项或按下用户输入设备上的专用或可指派按钮来调用。选项区域526内的可选择选项可以涉及与网格502中的节目列表相关的特征,或者可以包括从主菜单显示中可得到的选项。与节目列表相关的特征可以包括搜索接收节目、记录节目、启用节目的系列记录、将节目和/或频道设置为喜爱、购买节目或其它特征的其它的播放时间(air times)或者方式。从主菜单显示中可得到的选项可以包括搜索选项、VOD选项、父母控制选项、互联网选项、基于云的选项、设备同步选项、第二屏幕设备选项、访问各种类型的媒体指南数据显示的选项、订阅高级服务的选项、编辑用户的简档的选项、访问浏览覆盖层的选项或其它选项。
媒体指南应用可以基于用户的偏好被个性化。个性化的媒体指南应用允许用户定制显示和特征,以创建利用媒体指南应用的个性化“体验”。这种个性化体验可以通过允许用户输入这些定制和/或通过媒体指南应用监视用户活动以确定各种用户偏好来创建。用户可以通过登录或以其它方式向指南应用识别他们自己来访问其个性化指南应用。媒体指南应用的定制可以根据用户简档进行。定制可以包括不同的呈现方案(例如,显示器的颜色方案、文本的字体大小等等)、所显示的内容列表的各个方面(例如,仅HDTV或仅3D节目、基于最喜爱的频道选择的用户指定的广播频道、重新排序频道的显示、推荐的内容等等)、期望的记录特征(例如,针对特定用户的记录或系列记录、记录质量等等)、父母控制设置、互联网内容的定制呈现(例如,社交媒体内容、电子邮件、电子交付的文章等等)以及其它期望的定制。
媒体指南应用可以允许用户提供用户简档信息,或者可以自动编译用户简档信息。媒体指南应用可以例如监视用户访问的内容和/或用户可能与指南应用的其它交互。此外,媒体指南应用可以获得与特定用户相关的其它用户简档的全部或部分(例如,从互联网上用户访问的其它网站(诸如www.allrovi.com)、从用户访问的其它媒体指南应用、从用户访问的其它交互式应用、从用户的另一个用户装备设备等等),和/或从媒体指南应用可以访问的其它源获得关于用户的信息。因此,可以在用户的不同用户装备设备上为用户提供统一的指南应用体验。下面结合图8更详细地描述这种类型的用户体验。在Ellis等人于2005年7月11日提交的美国专利申请公开No.2005/0251827、于2007年1月16日授予Boyer等人的美国专利No.7,165,098以及Ellis等人于2002年2月21日提交的美国专利申请公开No.2002/0174430中更详细地描述了附加的个性化媒体指南应用特征,这些通过引用整体上并入本文。
用于提供媒体指南的另一种显示布置在图6中示出。视频马赛克显示600包括用于基于内容类型、流派和/或其它组织标准组织的内容信息的可选选项602。在显示600中,电视列表选项604被选择,因此提供列表606、608、610和612作为广播节目列表。在显示600中,列表可以提供包括封面艺术的图形图像、来自内容的静止图像、视频剪辑预览、来自内容的实况视频或向用户指示内容由列表中的媒体指南数据描述的其它类型的内容。每个图形列表还可以附带有文本,以提供关于与列表相关联的内容的进一步信息。例如,列表608可以包括多于一个部分,包括媒体部分614和文本部分616。媒体部分614和/或文本部分616可以是可选择的,以全屏收看内容或者收看与媒体部分614中显示的内容相关的信息(例如,收看用于显示视频的频道的列表)。
显示600中的列表具有不同的尺寸(即,列表606大于列表608、610和612),但是如果期望的话,那么所有列表可以是相同的尺寸。列表可以具有不同的尺寸或以图形方式加强,以指示用户感兴趣的程度或者强调某些内容,如内容提供者所期望的或者基于用户偏好。在例如2009年11月12日提交的Yates的美国专利申请公开No.2010/0153885中讨论了用于以图形方式加强内容列表的各种系统和方法,其通过引用整体上并入本文。
用户可以从其一个或多个用户装备设备访问内容和媒体指南应用(及其上面和下面描述的显示屏幕)。图7示出了说明性用户装备设备700的一般化实施例。下面结合图8讨论用户装备设备的更具体的实现。用户装备设备700可以经由输入/输出(以下称为“I/O”)路径702接收内容和数据。I/O路径702可以向控制电路系统704提供内容(例如,广播节目、点播节目、互联网内容、局域网(LAN)或广域网(WAN)上可用的内容,和/或其它内容)和数据,控制电路系统704包括处理电路系统706和存储器708。控制电路系统704可以被用来使用I/O路径702发送和接收命令、请求和其它合适的数据。I/O路径702可以将控制电路系统704(具体而言是处理电路系统706)连接到一个或多个通信路径(下面描述)。I/O功能可以由这些通信路径中的一个或多个提供,但是在图7中被示为单个路径,以避免使图过于复杂。
控制电路系统704可以基于任何合适的处理电路系统,诸如处理电路系统706。如本文所提到的,处理电路系统应当被理解为意指基于一个或多个微处理器、微控制器、数字信号处理器、可编程逻辑设备、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等等的电路系统,并且可以包括多核处理器(例如,双核、四核、六核或任何合适数量的核)或超级计算机。在一些实施例中,处理电路系统可以分布在多个单独的处理器或处理单元上,例如多个相同类型的处理单元(例如,两个Intel Core i7处理器)或多个不同的处理器(例如,IntelCore i5处理器和Intel Core i7处理器)。在一些实施例中,控制电路系统704执行存储在存储器(即,存储装置708)中的、用于媒体指南应用的指令。具体而言,控制电路系统704可以由媒体指南应用指示,以执行上面和下面讨论的功能。例如,媒体指南应用可以向控制电路系统704提供指令,以生成媒体指南显示。在一些实施例中,由控制电路系统704执行的任何动作可以基于从媒体指南应用接收的指令。
在基于客户端-服务器的实施例中,控制电路系统704可以包括适于与指南应用服务器或其它网络或服务器进行通信的通信电路系统。用于执行上述功能的指令可以存储在指南应用服务器上。通信电路系统可以包括用于与其它装备通信的电缆调制解调器、综合业务数字网络(ISDN)调制解调器、数字订户线路(DSL)调制解调器、电话调制解调器、以太网卡或无线调制解调器,或者任何其它合适的通信电路系统。这种通信可以涉及互联网或任何其它合适的通信网络或路径(结合图8更详细地描述)。此外,通信电路系统可以包括使得能够实现用户装备设备的对等通信或者在彼此远离的位置的用户装备设备的通信的电路系统(下面更详细地描述)。
存储器可以是作为存储装置708提供的电子存储设备,存储装置708是控制电路系统704的一部分。如本文所提到的,短语“电子存储设备”或“存储设备”应当被理解为意指用于存储电子数据、计算机软件或固件的任何设备,诸如随机存取存储器、只读存储器、硬盘驱动器、光盘驱动器、数字视频光盘(DVD)记录器、光盘(CD)记录器、BLU-RAY盘(BD)记录器、BLU-RAY 3D盘片记录器、数字视频记录器(DVR,有时称为个人录像机或PVR)、固态设备、量子存储设备、游戏控制台、游戏介质或任何其它合适的固定或可移动存储设备,和/或其任意组合。存储装置708可以被用来存储本文描述的各种类型的内容以及上述的媒体指南数据。非易失性存储器也可以被使用(例如,发起启动例程和其它指令)。关于图8描述的基于云的存储装置可以被用来补充存储装置708或代替存储装置708。
控制电路系统704可以包括视频生成电路系统和调谐电路系统,诸如一个或多个模拟调谐器、一个或多个MPEG-2解码器或其它数字解码电路系统、高清晰度调谐器或者任何其它合适的调谐或视频电路,或者这种电路的组合。还可以提供编码电路系统(例如,用于将空中(over-the-air)、模拟或数字信号转换成MPEG信号以供存储)。控制电路系统704还可以包括用于将内容上变频和下变频成用户装备700的优选输出格式的缩放器电路系统。电路704还可以包括用于在数字和模拟信号之间转换的数模转换器电路系统和模数转换器电路系统。调谐和编码电路系统可以被用户装备设备用来接收和显示、播放或记录内容。调谐和编码电路系统也可以被用来接收指南数据。本文描述的电路系统,包括例如调谐、视频生成、编码、解码、加密、解密、缩放器和模拟/数字电路系统,可以使用在一个或多个通用或专用处理器上运行的软件来实现。可以提供多个调谐器来处理同时调谐功能(例如,观看和记录功能、画中画(PIP)功能、多调谐器记录等等)。如果存储装置708被提供为与用户装备700分开的设备,那么调谐和编码电路系统(包括多个调谐器)可以与存储装置708相关联。
用户可以使用用户输入接口710向控制电路系统704发送指令。用户输入接口710可以是任何合适的用户接口,诸如遥控器、鼠标、轨迹球、小键盘、键盘、触摸屏、触摸板、触笔输入、游戏杆、语音识别接口或其它用户输入接口。显示器712可以被提供为独立的设备或与用户装备设备700的其它元件集成。例如,显示器712可以是触摸屏或触敏显示器。在这种情况下,用户输入接口710可以与显示器712集成或者与显示器712结合。显示器712可以是监视器、电视机、用于移动设备的液晶显示器(LCD)、非晶硅显示器、低温多晶硅显示器、电子墨水显示器、电泳显示器、有源矩阵显示器、电润湿显示器、电流体显示器、阴极射线管显示器、发光二极管显示器、电致发光显示器、等离子体显示器、高性能寻址显示器、薄膜晶体管显示器、有机发光二极管显示器、表面传导电子发射显示器(SED)、激光电视、碳纳米管、量子点显示器、干涉式调制器显示器或用于显示视觉图像的任何其它合适的设备中的一个或多个。在一些实施例中,显示器712可以是具有HDTV能力的。在一些实施例中,显示器712可以是3D显示器,并且交互式媒体指南应用和任何合适的内容可以以3D显示。视频卡或图形卡可以将生成到显示器712的输出。视频卡可以提供各种功能,诸如3D场景和2D图形的加速渲染、MPEG-2/MPEG-4解码、TV输出或连接多个显示器的能力。视频卡可以是以上关于控制电路系统704描述的任何处理电路系统。视频卡可以与控制电路系统304集成。扬声器714可以被提供为与用户装备设备700的其它元件集成,或者可以是独立的单元。显示器712上显示的视频和其它内容的音频成分量可以通过扬声器714播放。在一些实施例中,音频可以分发给接收器(未示出),其经由扬声器714处理和输出音频。
指南应用可以使用任何合适的体系架构来实现。例如,它可以是完全在用户装备设备700上实现的独立应用。在这种方案中,应用的指令被本地存储(例如,存储在存储装置708中),并且由应用使用的数据被定期下载(例如,从带外馈送、从互联网资源,或使用其它合适的方案)。控制电路系统704可以从存储装置708检索应用的指令,并处理指令,以生成本文所讨论的任何显示。基于经处理的指令,控制电路系统704可以确定在从用户输入接口710接收到输入时要执行什么动作。例如,当用户输入接口710指示向上/向下按钮被选择时,可以通过将处理的指令来指示显示器上光标向上/向下的移动。
在一些实施例中,媒体指南应用是基于客户端-服务器的应用。通过向远离用户装备设备700的服务器发出请求,按需检索用于由用户装备设备700上实现的胖或瘦客户端使用的数据。在基于客户端-服务器的指南应用的一个示例中,控制电路系统704运行解释由远程服务器提供的网页的Web浏览器。例如,远程服务器可以将用于应用的指令存储在存储设备中。远程服务器可以使用电路系统(例如,控制电路系统704)来处理所存储的指令,并生成上面和下面讨论的显示。客户端设备可以接收由远程服务器生成的显示,并且可以在装备设备700上本地显示显示的内容。以这种方式,由服务器远程地执行指令的处理,同时在装备设备700上本地提供结果显示。装备设备700可以经由用户输入接口710接收来自用户的输入,并且将那些输入发送到远程服务器进行处理并生成对应的显示。例如,装备设备700可以向远程服务器发送指示经由用户输入接口710选择了向上/向下按钮的讯息。远程服务器可以根据那个输入来处理指令,并生成与该输入对应的应用的显示(例如,向上/向下移动光标的显示)。所生成的显示然后被发送到装备设备700以供呈现给用户。
在一些实施例中,媒体指南应用被下载并由(由控制电路系统704运行的)解释器或虚拟机解释或以其它方式运行。在一些实施例中,指南应用可以以ETV二进制交换格式(EBIF)编码,由控制电路系统704作为合适的馈送的一部分接收,并由在控制电路系统704上运行的用户代理解释。例如,指南应用可以是EBIF应用。在一些实施例中,可以由一系列基于JAVA的文件来定义指南应用,这些基于JAVA的文件是由本地虚拟机或由控制电路系统704执行的其它合适的中间件接收并运行的。在一些此类的实施例中(例如,采用MPEG-2或其它数字媒体编码方案的实施例),可以例如在具有节目的MPEG音频和视频分组的MPEG-2对象轮播中编码和发送指南应用。
图7的用户装备设备700可以在图8的系统800中实现,作为用户电视装备802、用户计算机装备804、无线用户通信设备806或适于访问内容的任何其它类型的用户装备(诸如非便携式游戏机)。为了简单起见,这些设备在本文可以被统称为用户装备或用户装备设备,并且可以基本上类似于上述的用户装备设备。在其上可以实现媒体指南应用的用户装备设备可以用作独立设备或者可以是设备的网络的一部分。设备的各种网络配置可以被实现并且在下面被更详细地讨论。
利用上面结合图7描述的系统特征中的至少一些的用户装备设备可能不仅仅被分类为用户电视装备802、用户计算机装备804或无线用户通信设备806。例如,用户电视装备802可以像一些用户计算机装备804一样启用互联网,以允许访问互联网内容,而用户计算机装备804可以像一些电视装备802一样包括调谐器,以允许访问电视节目。媒体指南应用可以在各种不同类型的用户装备上具有相同的布局,或者可以针对用户装备的显示能力而被裁剪。例如,在用户计算机装备804上,指南应用可以被提供为由web浏览器访问的网站。在另一个示例中,可以针对无线用户通信设备806缩小指南应用。
在系统800中,通常存在多于一个的每种类型的用户装备设备,但是在图8中仅示出了每种类型中的一个,以避免使图过于复杂。此外,每个用户可以利用多于一种类型的用户装备设备以及每种类型的用户装备设备中的多于一个。
在一些实施例中,用户装备设备(例如,用户电视装备802、用户计算机装备804、无线用户通信设备806)可以被称为“第二屏幕设备”。例如,第二屏幕设备可以补充在第一用户装备设备上呈现的内容。在第二屏幕设备上呈现的内容可以是补充在第一设备上呈现的内容的任何合适的内容。在一些实施例中,第二屏幕设备提供用于调整第一设备的设置和显示偏好的界面。在一些实施例中,第二屏幕设备被配置用于与其它第二屏幕设备交互或用于与社交网络交互。第二屏幕设备可以位于与第一设备相同的房间中、与第一设备不同的房间但在同一个房屋或建筑物中,或者与第一设备不同的建筑物中。
用户还可以设置各种设置,以在家用式设备和远程设备之间维持一致的媒体指南应用设置。设置包括本文描述的那些设置,以及指南应用用来做出节目推荐、显示偏好和其它期望的指南设置的频道和节目收藏、编程偏好。例如,如果用户将例如网站www.allrovi.com上的频道设置为其办公室的个人计算机上的收藏,那么相同的频道将在用户的家用式设备(例如,用户电视装备和用户计算机装备)以及用户的移动设备上出现为收藏。因此,在一个用户装备设备上进行的改变可以改变另一个用户装备设备上的指南体验,而不管它们是相同类型还是不同类型的用户装备设备。此外,所做的改变可以基于用户输入的设置以及由指南应用监视的用户活动。
用户装备设备可以耦合到通信网络814。即,用户电视装备802、用户计算机装备804和无线用户通信设备806分别经由通信路径808、810和812耦合到通信网络814。通信网络814可以是一个或多个网络,包括互联网、移动电话网络、移动语音或数据网络(例如,4G或LTE网络)、有线网络、公共交换电话网络或其它类型的通信网络,或者通信网络的组合。路径808、810和812可以单独地或一起包括一条或多条通信路径,诸如卫星路径、光纤路径、电缆路径、支持互联网通信(例如,IPTV)的路径、自由空间连接(例如,用于广播或其它无线信号)或任何其它合适的有线或无线通信路径或这种路径的组合。路径812用点线画出,以指示在图8所示的示例性实施例中它是无线路径,并且路径808和810被绘制为实线,以指示它们是有线路径(但是,如果期望,那么这些路径可以是无线路径)。与用户装备设备的通信可以由这些通信路径中的一个或多个提供,但是在图8中被示为单个路径,以避免使图过于复杂。
虽然在用户装备设备之间没有画出通信路径,但是这些设备可以经由通信路径(诸如上面结合路径808、810和812描述的那些)以及其它短程点到点通信路径(诸如USB电缆、IEEE 1394电缆、无线路径(例如,蓝牙、红外线、IEEE 802-11x等))或者经由有线或无线路径的其它短程通信彼此直接通信。蓝牙是Bluetooth SIG公司拥有的认证标志。用户装备设备也可以通过经由通信网络814的间接路径彼此直接通信。
系统800包括分别经由通信路径820和822耦合到通信网络814的内容源816和媒体指南数据源818。路径820和822可以包括上面结合路径808、810和812描述的任何通信路径。与内容源816和媒体指南数据源818的通信可以通过一条或多条通信路径交换,但是在图8中示为单条路径,以避免使绘图过于复杂。此外,内容源816和媒体指南数据源818中的每一个都存在多于一个,但是图8中每个仅示出了一个,以避免使绘图过于复杂。(下面讨论这些源中的每一个的不同类型。)如果期望,那么可以将内容源816和媒体指南数据源818集成为一个源设备。虽然源816和818与用户设备802、804和806之间的通信被示为通过通信网络814,但是在一些实施例中,源816和818可以经由通信路径(未示出)直接与用户设备802、804和806通信,通信路径为诸如上面结合路径808、810和812描述的那些。
内容源816可以包括一种或多种类型的内容分发装备,包括电视分发设施、有线系统头端、卫星分发设施、节目源(例如,电视广播公司,诸如NBC、ABC、HBO等)、中间分发设施和/或服务器、互联网提供商、点播媒体服务器及其它内容提供商。NBC是国家广播公司拥有的商标,ABC是美国广播公司拥有的商标,而HBO是Home Box Office公司拥有的商标。内容源816可以是内容的发起者(例如,电视广播公司、网络广播提供商等),或者可以不是内容的发起者(例如,点播内容提供商,用于下载的广播节目的内容的互联网提供商等)。内容源816可以包括有线源(cable source)、卫星提供商、点播提供商、互联网提供商、越顶内容提供商或其它内容提供者。内容源816还可以包括用来在远离任何用户装备设备的位置存储不同类型的内容(包括用户选择的视频内容)的远程媒体服务器。用于内容的远程存储以及向用户装备提供远程存储的内容的系统和方法结合2010年7月20日授予Ellis等人的美国专利No.7,761,892更详细地讨论,该专利整体上通过引用并入本文。
媒体指南数据源818可以提供媒体指南数据,诸如上述的媒体指南数据。媒体指南数据可以使用任何合适的方案提供给用户装备设备。在一些实施例中,指南应用可以是经由数据馈送(例如,连续馈送或涓流(trickle)馈送)接收节目指南数据的独立交互式电视节目指南。可以使用带内数字信号、使用带外数字信号或通过任何其它合适的数据传输技术在电视频道边带上向用户装备提供节目安排数据和其它指南数据。可以在多个模拟或数字电视频道上向用户装备提供节目安排数据和其它媒体指南数据。
在一些实施例中,可以使用客户端-服务器方案将来自媒体指南数据源818的指南数据提供给用户的装备。例如,用户装备设备可以从服务器拉取媒体指南数据,或者服务器可以将媒体指南数据推送到用户装备设备。在一些实施例中,驻留在用户装备上的指南应用客户端可以发起与源818的会话,以在需要时获得指南数据,例如,当指南数据过时时或者当用户装备设备从用户接收到接收数据的请求时。可以以任何适当的频率(例如,连续地、每天、用户指定的时间段、系统指定的时间段、响应于来自用户装备的请求等)向用户装备提供媒体指南。媒体指南数据源818可以向用户装备设备802、804和806提供媒体指南应用本身或者针对媒体指南应用的软件更新。
在一些实施例中,媒体指南数据可以包括观看者数据。例如,观看者数据可以包括当前和/或历史用户活动信息(例如,用户通常观看什么内容、用户在什么时间观看内容,用户是否与社交网络交互、用户在什么时间与社交网络交互以发布信息、用户通常观看什么类型的内容(例如,付费电视或免费电视)、心情、大脑活动信息等)。媒体指南数据还可以包括订阅数据。例如,订阅数据可以识别给定用户订阅哪些源或服务和/或给定用户先前订阅但后来终止访问了哪些源或服务(例如,用户是否已经订阅了高级频道、用户是否已经添加了高级别服务、用户是否已经提高了互联网速度)。在一些实施例中,观看者数据和/或订阅数据可以识别给定用户达超过一年的时间段的模式。媒体指南数据可以包括用于生成指示给定用户将终止对服务/源的访问的可能性的得分的模型(例如,幸存者模型)。例如,媒体指南应用可以使用该模型处理具有订阅数据的观看者数据,以生成指示给定用户是否将终止对特定服务或源的访问的可能性的值或得分。特别地,越高的得分可以指示用户将终止对特定服务或源的访问的越高级别的置信度。基于得分,媒体指南应用可以生成诱使用户保持通过得分被指示为用户可能终止对其的访问的特定服务或源的促销。
媒体指南应用可以是例如在用户装备设备上实现的独立应用。例如,媒体指南应用可以被实现为可以存储在存储器708中并由用户装备设备700的控制电路系统704执行的软件或可执行指令集。在一些实施例中,媒体指南应用可以是客户端-服务器应用,其中仅客户端应用驻留在用户装备设备上,而服务器应用驻留于远程服务器上。例如,媒体指南应用可以部分地被实现为在用户装备设备700的控制电路系统704上的客户端应用,并且部分地作为在远程服务器的控制电路系统上运行的服务器应用(例如,媒体指南数据源818)。当由远程服务器的控制电路系统执行时(诸如媒体指南数据源818),媒体指南应用可以指示控制电路系统生成指南应用显示,并将生成的显示发送到用户装备设备。服务器应用可以指示媒体指南数据源818的控制电路系统发送要存储在用户装备上的数据。客户端应用可以指示接收方用户装备的控制电路系统生成指南应用显示。
交付到用户装备设备802、804和806的内容和/或媒体指南数据可以是越顶(OTT)内容。OTT内容交付还允许启用互联网的用户设备(包括上述任何用户装备设备)接收经互联网传送的内容(包括上述任何内容,除了经有线或卫星连接接收的内容)。OTT内容经由由互联网服务提供商(ISP)提供的互联网连接交付,但第三方分发该内容。ISP可以不负责查看能力、版权或内容的再分发,并且可以仅传送由OTT内容提供商提供的IP分组。OTT内容提供商的示例包括经由IP分组提供音频和视频的YOUTUBE、NETFLIX和HULU。Youtube是Google公司拥有的商标,Netflix是Netflix公司拥有的商标,Hulu是Hulu公司拥有的商标。OTT内容提供商可以附加地或可替代地提供上述媒体指南数据。除了内容和/或媒体指南数据,OTT内容的提供商可以分发媒体指南应用(例如,基于web的应用或基于云的应用),或者可以通过存储在用户装备设备上的媒体指南应用来显示内容。
媒体指南系统800旨在说明多个方案或网络配置,通过它们,用户装备设备和内容和指南数据源可以为了访问内容和提供媒体指南而彼此通信。本文所述的实施例可以在这些方案中的任何一个或子集中应用,或者在采用用于交付内容并提供媒体指南的其它方案的系统中应用。以下四种方案提供了图8的一般化示例的具体说明。
在一种方案中,用户装备设备可以在家庭网络内彼此通信。用户装备设备可以经由上述短程点到点通信方案、经由通过在家庭网络上提供的集线器或其它类似设备的间接路径或者经由通信网络814直接彼此通信。单个家庭中的多个个人中的每一个人可以操作在家庭网络上的不同用户装备设备。因此,可能期望在不同的用户装备设备之间传送各种媒体指南信息或设置。例如,如在2005年7月11日Ellis等人提交的美国专利公开No.2005/0251827中更详细描述的,用户可能期望在家庭网络内的不同用户装备设备上维持一致的媒体指南应用设置。家庭网络中的不同类型的用户装备设备也可以彼此通信,以发送内容。例如,用户可以将内容从用户计算机装备发送到便携式视频播放器或便携式音乐播放器。
在第二种方案中,用户可以具有多种类型的用户装备,他们通过这些用户装备访问内容并获得媒体指南。例如,一些用户可以具有由家用式和移动设备访问的家庭网络。用户可以通过在远程设备上实现的媒体指南应用来控制家用式设备。例如,用户可以经由他们办公室的个人计算机或移动设备(诸如PDA或启用web的移动电话)访问网站上的在线媒体指南应用。用户可以在在线指南应用上设置各种设置(例如,记录、提醒或其它设置)来控制用户的家用式设备。在线指南可以直接控制用户的装备,或者通过与用户的家用式设备上的媒体指南应用通信。例如,Ellis等人在2011年10月25日被授予的美国专利No.8,046,801中讨论了用于用户装备设备通信的各种系统和方法,其中用户装备设备处于彼此远离的位置,该专利整体上通过引用并入本文。
在第三种方案中,在家内部和外部的用户装备设备的用户可以使用他们的媒体指南应用来直接与内容源816通信,以访问内容。具体而言,在家里,用户电视装备802和用户计算机装备804的用户可以访问媒体指南应用,以在期望的内容之间导航并定位。用户还可以使用无线用户通信设备806在家外面访问媒体指南应用,以在期望的内容之间导航并定位。
在第四种方案中,用户装备设备可以在云计算环境中操作,以访问云服务。在云计算环境中,用于内容共享、存储或分发的各种类型的计算服务(例如,视频共享站点或社交网站)由被称为“云”的网络可访问的计算和存储资源的集合提供。例如,云可以包括服务器计算设备的集合,其可以位于集中或分布的位置,其通过通信网络814向经由网络(诸如互联网)连接的各种类型的用户和设备提供基于云的服务。这些云资源可以包括一个或多个内容源816和一个或多个媒体指南数据源818。此外或在替代方案中,远程计算站点可以包括其它用户装备设备,诸如用户电视装备802、用户计算机装备804和无线用户通信设备806。例如,其它用户装备设备可以提供对存储的视频副本或流传输视频的访问。在这种实施例中,用户装备设备可以以对等方式操作,而不与中央服务器通信。
除了其它示例,对于用户装备设备,云还提供对服务(诸如内容存储、内容共享或社交联网服务)的访问,以及对上述任何内容的访问。可以通过云计算服务提供商或通过其它在线服务的提供商在云中提供。例如,基于云的服务可以包括内容存储服务、内容共享站点、社交联网站点、或者用户来源的内容经由其分发以供所连接的设备上的其他人收看的其它服务。这些基于云的服务可以允许用户装备设备将内容存储到云并且从云接收内容,而不是在本地存储内容并访问本地存储的内容。
用户可以使用各种内容捕获设备(诸如摄像机、具有视频模式的数码相机、音频记录器、移动电话和手持式计算设备)来记录内容。用户可以直接地(例如,从用户计算机装备804或具有会话捕获特征的无线用户通信设备806)将内容上载到云上的内容存储服务。可替代地,用户可以首先将内容传送到用户装备设备(诸如用户计算机装备804)。存储内容的用户装备设备使用通信网络814上的数据传送服务将内容上传到云。在一些实施例中,用户装备设备本身是云资源,并且其它用户装备设备可以直接从用户在其上存储内容的用户装备设备访问内容。
云资源可以由用户装备设备使用例如web浏览器、媒体指南应用、桌面应用、移动应用和/或其访问应用的任意组合来访问。用户装备设备可以是依赖云计算进行应用交付的云客户端,或者用户装备设备可以具有某些功能而无需访问云资源。例如,在用户装备设备上运行的一些应用可以是云应用,即,作为服务经互联网交付的应用,而其它应用可以在用户装备设备上存储和运行。在一些实施例中,用户设备可以同时从多个云资源接收内容。例如,用户设备可以从一个云资源流传输音频,同时从第二个云资源下载内容。或者用户设备可以从多个云资源下载内容,以便更高效的下载。在一些实施例中,用户装备设备可以使用云资源来处理操作,诸如由关于图6描述的处理电路系统执行的处理操作。
如本文所提到的,术语“响应于...”是指由于...而被发起。例如,第一动作响应于第二动作而被执行可以包括第一动作和第二动作之间的插入式步骤。如本文所提到的,术语“直接响应于...”是指由...造成的。例如,第一动作响应于第二动作而被直接执行可以不包括第一动作和第二动作之间的插入式步骤。
图9是根据本公开一些实施例的用于控制电路系统(例如,控制电路系统704)以校正使用媒体指南应用显示的媒体资产的屏幕上字幕文本中的错误术语的说明性处理900的流程图。在一些实施例中,这个算法可以被编码到非瞬态存储介质(例如,存储设备708)上,作为要由处理电路系统(例如,处理电路系统706)解码和执行的指令集。处理电路系统进而可以向控制电路系统704内包含的其它子电路提供指令,诸如调谐、视频生成、编码、解码、加密、解密、缩放、模拟/数字转换电路系统等。
交互式媒体指南应用可以使控制电路系统704初始化用于校正媒体指南应用上呈现的媒体资产的屏幕上字幕文本中的错误术语的过程。在步骤910处,媒体指南应用可以使控制电路系统704分析媒体资产的音频流以确定屏幕上字幕文本的第一文本片段。例如,媒体指南应用可以分析体育新闻评论的音频流并自动将其转录成屏幕上字幕文本。然后,媒体指南应用可以使控制电路704确定屏幕上字幕文本的第一文本片段为“虽然在针对divplate date的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”。
在步骤920处,媒体指南应用可以使控制电路系统704识别屏幕上字幕文本的第一文本片段中的错误术语。例如,媒体指南应用可以使控制电路系统704识别出“div platedate”是第一文本片段中的错误术语。在一些实施例中,媒体指南应用可以通过对第一文本片段执行自然语言处理以将第一文本片段与多个语法规则进行比较来识别错误术语。例如,媒体指南应用可以将上面的句子与需要单词“div”后面跟数字(例如,如在“NCAA divone”中)的语法规则进行比较,并确定“div plate date”是错误术语,因为它与语法规则冲突。
在步骤930处,媒体指南应用可以使控制电路系统704从与第一文本片段对应的媒体资产的视频流中提取一个或多个视频帧。例如,媒体指南应用可以使控制电路704从媒体资产中提取与上述句子出现在音频流中的时间对应的视频帧。视频流可以是汤姆·布雷迪的新闻采访,其中包括在覆盖该采访的横幅上显示以下句子:“小时新闻:爱国者队四分卫招致NFL禁赛”的几个视频帧。媒体指南应用可以使控制电路系统704提取这些视频帧,因为它们基本上对应于与句子“虽然在针对div plate date的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”在新闻上播报的时间相同的时间。
在步骤940处,媒体指南应用可以使控制电路系统704分析一个或多个视频帧中的第一视频帧以确定与错误术语相关联的上下文术语。例如,媒体指南应用可以使控制电路系统704分析用横幅覆盖的视频帧,并确定来自横幅的上下文术语“Patriots”和“NFL禁赛”与错误术语“div plate date”相关联。
在步骤950处,媒体指南应用可以使控制电路系统704访问知识图,以基于上下文术语和第一文本片段的一部分来识别错误术语的候选校正。例如,媒体指南应用可以使控制电路系统704基于上下文术语“NFL禁赛”和转录句子的一部分“汤姆·布雷迪”来访问知识图,并将“Deflategate”识别为错误术语的候选校正。在一些实施例中,知识图可以存储在可由控制电路系统704访问的数据库中,诸如存储装置708、媒体内容源816或媒体指南数据源818。
在步骤960处,媒体指南应用可以使控制电路系统704用候选校正来替换屏幕上字幕文本的第一文本片段中的错误术语。例如,媒体指南应用可以使控制电路系统704用候选校正“Deflategate”替换错误术语“div pIate date”,使得第一文本片段现在读作“虽然在针对Deflategate的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”。
预期图9的步骤或描述可以与本公开的任何其它实施例一起使用。此外,关于图9的算法描述的描述可以以替代次序或并行地进行,以进一步实现本公开的目的。例如,条件语句和逻辑评估(诸如步骤950中的那些)可以以任何次序或并行或同时执行,以减少滞后或提高系统或方法的速度。作为另一个示例,在一些实施例中,可以使用多个逻辑处理器线程并行地评估变量的若干实例,或者可以通过结合分支预测来增强算法。此外,应当注意的是,图9的处理可以在适当配置的软件和硬件的组合上实现,并且关于图7-8讨论的任何设备或装备可以用于实现该过程的一个或多个部分。
图10是根据本公开一些实施例的控制电路系统(例如,控制电路系统704)使用知识图来识别和替换媒体资产的屏幕上字幕文本中的错误术语的说明性过程1000的流程图。在一些实施例中,这个算法可以被编码到非瞬态存储介质(例如,存储设备708)上,作为要由处理电路系统(例如,处理电路系统706)解码和执行的指令集。处理电路系统进而可以向控制电路系统704内包含的其它子电路提供指令,诸如调谐、视频生成、编码、解码、加密、解密、缩放、模拟/数字转换电路系统等。
在步骤1002处,媒体指南应用可以使控制电路系统704分析媒体资产的音频流以确定屏幕上字幕文本的第一文本片段。
在步骤1004处,媒体指南应用可以使控制电路系统704对第一文本片段执行自然语言处理,以将第一文本片段与多个语法规则进行比较。例如,媒体指南应用可以将句子“虽然在针对div plate date的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”(如图9的示例中所使用的)与需要词“div”后面跟数字(例如,如在“NCAA div one”中)的语法规则进行比较并确定“div plate date”是错误术语,因为它与该语法规则冲突。
在步骤1006处,媒体指南应用可以使控制电路系统704确定第一文本片段是否包含错误术语。如果第一文本片段不包含任何错误术语,那么媒体指南应用将返回到步骤1002并分析下一个音频流。但是,如果第一文本片段包含错误术语,那么媒体指南应用将使控制电路系统704进入步骤1008以尝试校正错误术语。在上面的示例中,媒体指南应用可以确定该句子包含错误术语“div plate date”,因此应当前进到步骤1008。
在步骤1008处,媒体指南应用可以使控制电路系统704从与第一文本片段对应的媒体资产的视频流中提取一个或多个视频帧。例如,媒体指南应用可以使控制电路系统704从媒体资产中提取与上述句子出现在音频流中的时间对应的视频帧。视频流可以是汤姆·布雷迪的新闻采访,其中包括几个视频帧,在覆盖视频的横幅上显示以下句子:“小时新闻:爱国者队四分卫招致NFL禁赛”。媒体指南应用可以使控制电路系统704提取这些视频帧,因为它们基本上对应于与句子“虽然在针对div plate date的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”在新闻上播报的时间相同的时间。
在步骤1010处,媒体指南应用可以使控制电路系统704分析一个或多个视频帧的第一视频帧以确定与错误术语相关联的上下文术语。例如,媒体指南应用可以使控制电路系统704分析用横幅覆盖的视频帧,并确定来自横幅的上下文术语“Patriots”和“NFL禁赛”与错误术语“div plate date”相关联。
在步骤1012处,媒体指南应用可以使控制电路系统704从第一文本片段的一部分提取关键词。例如,从第一文本片段的不包含错误术语“div plate date”的部分,媒体指南应用可以提取关键词“汤姆·布雷迪”。
在步骤1014处,媒体指南应用可以使控制电路系统704在知识图中搜索与上下文术语和关键词对应的节点。继续上面的示例,媒体指南应用可以在知识图中搜索与上下文术语“NFL禁赛”和关键词“汤姆·布雷迪”对应的节点。
在步骤1016处,媒体指南应用可以使控制电路系统704分析节点与上下文术语和关键词相关联的特性。例如,媒体指南应用可以分析“汤姆·布雷迪”节点并找到诸如出生日期(“1977年8月3日”)、高度(“6英尺4英寸”)、40码短跑时间(“5.28s”)和球队(“新英格兰爱国者队”)的特性,并分析“NFL禁赛”节点,其包含姓名(“Odell Beckham Jr.”、“汤姆·布雷迪”、“Josh Brown”……)、长度(“1”、“4”、“1”......)和原因(“碰撞”、“Deflategate”、“个人行为”……)。在一些实施例中,特性可以各自与知识图中的一个或多个不同节点对应。例如,“个人行为”和“Deflategate”可以各自是节点以及另一个节点的特性。
在步骤1018处,媒体指南应用可以使控制电路系统704从知识图中确定错误术语的多个潜在校正。在步骤1020处,媒体指南应用可以使控制电路系统704基于该确定向多个潜在校正中的每个潜在校正指派权重。例如,为了在上述示例中识别错误术语的候选校正“Deflategate”,媒体指南应用可以首先确定多个潜在校正,诸如“Quarterback”、“DetroitGame”和“Deflategate”,并为每个潜在校正指派权重。
在步骤1022处,媒体指南应用可以使控制电路系统704识别与最高权重相关联的潜在校正作为候选校正。例如,媒体指南应用可以将三个可能的校正中的“Deflategate”识别为候选校正,因为它已被指派了最高权重。
在步骤1024处,媒体指南应用可以使控制电路系统704用候选校正替换屏幕上字幕文本的第一文本片段中的错误术语。例如,媒体指南应用可以使控制电路系统704用候选校正“Deflategate”替换错误术语“div plate date”,使得第一文本片段现在读作“虽然在针对Deflategate的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”。
上面讨论的处理旨在是说明性的而非限制性的。本领域技术人员将认识到的是,在不脱离本发明的范围的情况下,可以省略、修改、组合和/或重新布置本文所讨论的处理(过程)的步骤,并且可以执行任何附加步骤。更一般而言,以上公开内容意味着是示例性而非限制性的。仅下面的权利要求意味着设置关于本发明包括的内容的界限。此外,应当注意的是,在任何一个实施例中描述的特征和限制可以应用到本文的任何其它实施例,并且与一个实施例相关的流程图或示例可以以合适的方式与任何其它实施例组合,以不同的次序完成,或并行完成。此外,本文所述的系统和方法可以被实时地执行。还应当注意的是,上述系统和/或方法可以应用到其它系统和/或方法,或者根据其它系统和/或方法来使用。
Claims (51)
1.一种用于校正针对媒体资产的屏幕上字幕文本中的错误术语的方法,包括:
识别屏幕上字幕文本的文本片段中的错误术语;
识别与所述文本片段对应的所述媒体资产的一个或多个视频帧;
从所述一个或多个视频帧中识别与所述错误术语相关的上下文术语;
访问知识图,以基于所述上下文术语和所述文本片段的一部分来识别候选校正;以及
用所述候选校正替换所述错误术语。
2.一种用于校正媒体资产的屏幕上字幕文本中的错误术语的方法,包括:
分析媒体资产的音频流,以确定屏幕上字幕文本的第一文本片段;
识别所述屏幕上字幕文本的第一文本片段中的错误术语;
从与所述第一文本片段对应的所述媒体资产的视频流中提取一个或多个视频帧;
分析所述一个或多个视频帧中的第一视频帧,以确定与所述错误术语相关联的上下文术语;
访问知识图,以基于所述上下文术语和所述第一文本片段的一部分来识别所述错误术语的候选校正;以及
用所述候选校正替换隐藏字幕文本的所述第一文本片段中的所述错误术语。
3.如权利要求2所述的方法,其中识别所述第一文本片段中的错误术语还包括对所述第一文本片段执行自然语言处理,以将所述第一文本片段与多个语法规则进行比较。
4.如权利要求2所述的方法,其中所述屏幕上字幕文本的第一文本片段是带时间戳的,并且其中所述第一视频帧是在媒体资产的与所述错误术语在带时间戳的第一文本片段中的位置对应的位置处提取的。
5.如权利要求2所述的方法,其中访问知识图以基于所述上下文术语和所述第一文本片段的一部分识别候选校正还包括:
从所述第一文本片段的所述部分中提取关键词;
在知识图中搜索与所述上下文术语和所述关键词对应的节点;
分析所述节点以查找与所述上下文术语和所述关键词相关联的特性;以及
基于与所述上下文术语和所述关键词相关联的特性来确定至少一个其它节点,其中所述至少一个其它节点与候选校正相对应。
6.如权利要求2所述的方法,还包括:
识别所述屏幕上字幕文本的第二文本片段中的错误术语;
分析与所述第二文本片段对应的第二视频帧,以确定与所述错误术语相关联的第二上下文术语;
访问知识图,以基于所述第一上下文术语、所述第二上下文术语、所述第一文本片段的一部分和所述第二文本片段的一部分来识别更新的候选校正;以及
用所述更新的候选校正来替换所述屏幕上字幕文本的所述第二文本片段中的所述错误术语。
7.如权利要求6所述的方法,还包括用所述更新的候选校正替换所述第一文本片段中的候选校正。
8.如权利要求2所述的方法,其中访问知识图以识别所述错误术语的候选校正还包括:
从知识图确定所述错误术语的多个潜在校正;
基于所述确定,为所述多个潜在校正中的每个潜在校正指派权重;以及
识别与最高权重相关联的潜在校正作为候选校正。
9.如权利要求8所述的方法,其中为所述多个潜在校正中更新近的潜在校正指派更高的权重。
10.如权利要求8所述的方法,还包括:
基于语音算法确定潜在候选校正与所述错误术语之间的语音相似性得分;以及
为具有更高语音相似性得分的潜在候选校正指派更高的权重。
11.如权利要求2所述的方法,其中访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别候选校正还包括更新知识图的现有节点。
12.一种用于校正媒体资产的屏幕上字幕文本中的错误术语的系统,包括:
存储知识图的存储器;以及
控制电路系统,被配置为:
分析媒体资产的音频流,以确定屏幕上字幕文本的第一文本片段;
识别所述屏幕上字幕文本的第一文本片段中的错误术语;
从与所述第一文本片段对应的媒体资产的视频流中提取一个或多个视频帧;
分析所述一个或多个视频帧中的第一视频帧,以确定与所述错误术语相关联的上下文术语;
访问知识图,以基于所述上下文术语和所述第一文本片段的一部分来识别所述错误术语的候选校正;以及
用所述候选校正来替换隐藏字幕文本的第一文本片段中的所述错误术语。
13.如权利要求12所述的系统,其中所述控制电路系统还被配置为识别所述第一文本片段中的所述错误术语还包括对所述第一文本片段执行自然语言处理,以将所述第一文本片段与多个语法规则进行比较。
14.如权利要求12所述的系统,其中所述屏幕上字幕文本的第一文本片段是带时间戳的,并且其中所述第一视频帧是在媒体资产的与所述错误术语在带时间戳的第一文本片段中的位置对应的位置处提取的。
15.如权利要求12所述的系统,其中所述控制电路系统还被配置为通过以下各项来访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别候选校正:
从所述第一文本片段的所述部分中提取关键词;
在知识图中搜索与所述上下文术语和所述关键词对应的节点;
分析所述节点以查找与所述上下文术语和所述关键词相关联的特性;以及
基于与所述上下文术语和所述关键词相关联的特性来确定至少一个其它节点,其中所述至少一个其它节点与候选校正相对应。
16.如权利要求12所述的系统,其中所述控制电路系统还被配置为:
识别所述屏幕上字幕文本的第二文本片段中的错误术语;
分析与所述第二文本片段对应的第二视频帧,以确定与所述错误术语相关联的第二上下文术语;
访问知识图,以基于所述第一上下文术语、所述第二上下文术语、所述第一文本片段的一部分和所述第二文本片段的一部分来识别更新的候选校正;以及
用更新的候选校正替换所述屏幕上字幕文本的所述第二文本片段中的错误术语。
17.如权利要求16所述的系统,其中所述控制电路系统还被配置为用更新的候选校正替换所述第一文本片段中的候选校正。
18.如权利要求12所述的系统,其中所述控制电路系统还被配置为通过以下各项来访问知识图以识别所述错误术语的候选校正:
从知识图确定所述错误术语的多个潜在校正;
基于所述确定,为所述多个潜在校正中的每个潜在校正指派权重;以及
识别与最高权重相关联的潜在校正作为候选校正。
19.如权利要求18所述的系统,其中为所述多个潜在校正中更新近的潜在校正指派更高的权重。
20.如权利要求18所述的系统,其中所述控制电路系统还被配置为:
基于语音算法确定潜在候选校正与所述错误术语之间的语音相似性得分;以及
为具有更高语音相似性得分的潜在候选校正指派更高的权重。
21.如权利要求12所述的系统,其中所述控制电路系统还被配置为访问知识图以通过更新知识图的现有节点来基于所述上下文术语和所述第一文本片段的所述部分来识别所述候选校正。
22.一种用于校正媒体资产的屏幕上字幕文本中的错误术语的设备,包括:
用于分析媒体资产的音频流以确定屏幕上字幕文本的第一文本片段的装置;
用于识别所述屏幕上字幕文本的第一文本片段中的错误术语的装置;
用于从与所述第一文本片段对应的所述媒体资产的视频流中提取一个或多个视频帧的装置;
用于分析所述一个或多个视频帧中的第一视频帧以确定与所述错误术语相关联的上下文术语的装置;
用于访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别所述错误术语的候选校正的装置;以及
用于用所述候选校正替换隐藏字幕文本的第一文本片段中的所述错误术语的装置。
23.如权利要求22所述的设备,其中用于识别所述第一文本片段中的错误术语的装置还包括用于对所述第一文本片段执行自然语言处理以将所述第一文本片段与多个语法规则进行比较的装置。
24.如权利要求22所述的设备,其中所述屏幕上字幕文本的第一文本片段是带时间戳的,并且其中所述第一视频帧是在媒体资产的与所述错误术语在带时间戳的第一文本片段中的位置对应的位置处提取的。
25.如权利要求22所述的设备,其中用于访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别候选校正的装置还包括:
用于从所述第一文本片段的所述部分中提取关键词的装置;
用于在知识图中搜索与所述上下文术语和所述关键词对应的节点的装置;
用于分析所述节点以查找与所述上下文术语和所述关键词相关联的特性的装置;以及
用于基于与所述上下文术语和所述关键词相关联的特性来确定至少一个其它节点的装置,其中所述至少一个其它节点与候选校正相对应。
26.如权利要求22所述的设备,还包括:
用于识别所述屏幕上字幕文本的第二文本片段中的错误术语的装置;
用于分析与所述第二文本片段对应的第二视频帧以确定与所述错误术语相关联的第二上下文术语的装置;
用于访问知识图以基于所述第一上下文术语、所述第二上下文术语、所述第一文本片段的一部分和所述第二文本片段的一部分来识别更新的候选校正的装置;以及
用于用更新的候选校正替换所述屏幕上字幕文本的第二文本片段中的错误术语的装置。
27.如权利要求26所述的设备,还包括用于用更新的候选校正替换所述第一文本片段中的候选校正的装置。
28.如权利要求22所述的设备,其中用于访问知识图以识别所述错误术语的候选校正的装置还包括:
用于从知识图确定所述错误术语的多个潜在校正的装置;
用于基于所述确定为所述多个潜在校正中的每个潜在校正指派权重的装置;以及
用于识别与最高权重相关联的潜在校正作为候选校正的装置。
29.如权利要求28所述的设备,其中为所述多个潜在校正中更新近的潜在校正指派更高的权重。
30.如权利要求28所述的设备,还包括:
用于基于语音算法确定潜在候选校正与所述错误术语之间的语音相似性得分的装置;以及
用于为具有更高语音相似性得分的潜在候选校正指派更高的权重的装置。
31.如权利要求22所述的设备,其中用于访问知识图以基于所述上下文术语和所述第一文本片段的一部分识别候选校正的装置还包括用于更新知识图的现有节点的装置。
32.一种非瞬态机器可读介质,包括存储器,所述存储器具有在其上编码的用于校正媒体资产的屏幕上字幕文本中的错误术语的指令,包括:
用于分析媒体资产的音频流以确定屏幕上字幕文本的第一文本片段的指令;
用于识别所述屏幕上字幕文本的第一文本片段中的错误术语的指令;
用于从与所述第一文本片段对应的媒体资产的视频流中提取一个或多个视频帧的指令;
用于分析所述一个或多个视频帧中的第一视频帧以确定与所述错误术语相关联的上下文术语的指令;
用于访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别所述错误术语的候选校正的指令;以及
用于用所述候选校正替换隐藏字幕文本的所述第一文本片段中的所述错误术语的指令。
33.如权利要求32所述的非瞬态机器可读介质,其中用于识别所述第一文本片段中的错误术语的指令还包括用于对所述第一文本片段执行自然语言处理以将所述第一文本片段与多个语法规则进行比较的指令。
34.如权利要求32所述的非瞬态机器可读介质,其中所述屏幕上字幕文本的第一文本片段是带时间戳的,并且其中第一视频帧是在媒体资产的与所述错误术语在带时间戳的第一文本片段中的位置对应的位置处提取的。
35.如权利要求32所述的非瞬态机器可读介质,其中用于访问知识图以基于所述上下文术语和所述第一文本片段的一部分识别候选校正的指令还包括:
用于从第一文本片段的所述部分中提取关键词的指令;
用于在知识图中搜索与所述上下文术语和所述关键词对应的节点的指令;
用于分析所述节点以查找与所述上下文术语和所述关键词相关联的特性的指令;以及
用于基于与所述上下文术语和所述关键词相关联的特性来确定至少一个其它节点的指令,其中所述至少一个其它节点与候选校正相对应。
36.如权利要求32所述的非瞬态机器可读介质,还包括:
用于识别所述屏幕上字幕文本的第二文本片段中的错误术语的指令;
用于分析与所述第二文本片段对应的第二视频帧以确定与所述错误术语相关联的第二上下文术语的指令;
用于访问知识图以基于所述第一上下文术语、所述第二上下文术语、所述第一文本片段的一部分和所述第二文本片段的一部分来识别更新的候选校正的指令;以及
用于用更新的候选校正替换所述屏幕上字幕文本的第二文本片段中的所述错误术语的指令。
37.如权利要求36所述的非瞬态机器可读介质,还包括用于用更新的候选校正替换所述第一文本片段中的候选校正的指令。
38.如权利要求32所述的非瞬态机器可读介质,其中用于访问知识图以识别所述错误术语的候选校正的指令还包括:
用于从知识图确定所述错误术语的多个潜在校正的指令;
用于基于所述确定为所述多个潜在校正中的每个潜在校正指派权重的指令;以及
用于识别与最高权重相关联的潜在校正作为候选校正的指令。
39.如权利要求38所述的非瞬态机器可读介质,其中为所述多个潜在校正中更新近的潜在校正指派更高的权重。
40.如权利要求38所述的非瞬态机器可读介质,还包括:
用于基于语音算法确定潜在候选校正与所述错误术语之间的语音相似性得分的指令;以及
用于为具有更高语音相似性得分的潜在候选校正指派更高的权重的指令。
41.如权利要求32所述的非瞬态机器可读介质,其中用于访问知识图以基于所述上下文术语和所述第一文本片段的一部分识别候选校正的指令还包括用于更新知识图的现有节点的指令。
42.一种用于校正媒体资产的屏幕上字幕文本中的错误术语的方法,包括:
分析媒体资产的音频流,以确定屏幕上字幕文本的第一文本片段;
识别所述屏幕上字幕文本的第一文本片段中的错误术语;
从与所述第一文本片段对应的媒体资产的视频流中提取一个或多个视频帧;
分析所述一个或多个视频帧中的第一视频帧,以确定与所述错误术语相关联的上下文术语;
访问知识图,以基于所述上下文术语和所述第一文本片段的一部分识别所述错误术语的候选校正;以及
用所述候选校正替换隐藏字幕文本的第一文本片段中的所述错误术语。
43.如权利要求42所述的方法,其中识别所述第一文本片段中的所述错误术语还包括对所述第一文本片段执行自然语言处理,以将所述第一文本片段与多个语法规则进行比较。
44.如权利要求42和43中任一项所述的方法,其中所述屏幕上字幕文本的第一文本片段是带时间戳的,并且其中第一视频帧是在媒体资产的与所述错误术语在带时间戳的第一文本片段中的位置对应的位置处提取的。
45.如权利要求42-44中任一项所述的方法,其中访问知识图以基于所述上下文术语和所述第一文本片段的一部分识别候选校正还包括:
从所述第一文本片段的所述部分中提取关键词;
在知识图中搜索与所述上下文术语和所述关键词对应的节点;
分析所述节点以查找与所述上下文术语和所述关键词相关联的特性;以及
基于与所述上下文术语和所述关键词相关联的特性来确定至少一个其它节点,其中所述至少一个其它节点与候选校正相对应。
46.如权利要求42-45中任一项所述的方法,还包括:
识别所述屏幕上字幕文本的第二文本片段中的错误术语;
分析与所述第二文本片段对应的第二视频帧,以确定与所述错误术语相关联的第二上下文术语;
访问知识图,以基于所述第一上下文术语、所述第二上下文术语、所述第一文本片段的一部分和所述第二文本片段的一部分来识别更新的候选校正;以及
用更新的候选校正替换所述屏幕上字幕文本的第二文本片段中的所述错误术语。
47.如权利要求46所述的方法,还包括用更新的候选校正替换所述第一文本片段中的候选校正。
48.如权利要求42-47中任一项所述的方法,其中访问知识图以识别所述错误术语的候选校正还包括:
从知识图确定所述错误术语的多个潜在校正;
基于所述确定,为所述多个潜在校正中的每个潜在校正指派权重;以及
识别与最高权重相关联的潜在校正作为候选校正。
49.如权利要求48所述的方法,其中为所述多个潜在校正中更新近的潜在校正指派更高的权重。
50.如权利要求48所述的方法,还包括:
基于语音算法确定潜在候选校正与所述错误术语之间的语音相似性得分;以及
为具有更高语音相似性得分的潜在候选校正指派更高的权重。
51.如权利要求42-50中任一项所述的方法,其中访问知识图以基于所述上下文术语和所述第一文本片段的一部分识别候选校正还包括更新知识图的现有节点。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2016/054689 WO2018063293A1 (en) | 2016-09-30 | 2016-09-30 | Systems and methods for correcting errors in caption text |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110235449A true CN110235449A (zh) | 2019-09-13 |
Family
ID=57137291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680090655.XA Pending CN110235449A (zh) | 2016-09-30 | 2016-09-30 | 用于校正字幕文本中的错误的系统和方法 |
Country Status (10)
Country | Link |
---|---|
US (3) | US10834439B2 (zh) |
EP (1) | EP3520427A1 (zh) |
JP (1) | JP6936318B2 (zh) |
KR (1) | KR102612355B1 (zh) |
CN (1) | CN110235449A (zh) |
AU (1) | AU2016424629A1 (zh) |
BR (1) | BR112019006118A2 (zh) |
CA (1) | CA3038797A1 (zh) |
MX (1) | MX2019003637A (zh) |
WO (1) | WO2018063293A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111787363A (zh) * | 2020-06-24 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法、装置、设备及可读存储介质 |
CN112738640A (zh) * | 2020-12-28 | 2021-04-30 | 出门问问(武汉)信息科技有限公司 | 一种视频流的字幕的确定方法、装置及可读存储介质 |
CN113722513A (zh) * | 2021-09-06 | 2021-11-30 | 北京字节跳动网络技术有限公司 | 多媒体数据的处理方法及设备 |
CN114746857A (zh) * | 2019-11-19 | 2022-07-12 | 国际商业机器公司 | 基于加权知识图的视频分段 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3038797A1 (en) | 2016-09-30 | 2018-04-05 | Rovi Guides, Inc. | Systems and methods for correcting errors in caption text |
JP7210938B2 (ja) * | 2018-08-29 | 2023-01-24 | 富士通株式会社 | テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 |
US11416246B2 (en) * | 2018-09-03 | 2022-08-16 | Nec Corporation | Information processing apparatus, analysis system, analysis method, and non-transitory computer readable medium storing analysis program |
KR102345625B1 (ko) | 2019-02-01 | 2021-12-31 | 삼성전자주식회사 | 자막 생성 방법 및 이를 수행하는 장치 |
US10991370B2 (en) | 2019-04-16 | 2021-04-27 | International Business Machines Corporation | Speech to text conversion engine for non-standard speech |
US11328712B2 (en) | 2019-08-02 | 2022-05-10 | International Business Machines Corporation | Domain specific correction of output from automatic speech recognition |
US11429876B2 (en) * | 2020-03-10 | 2022-08-30 | International Business Machines Corporation | Infusing knowledge into natural language processing tasks using graph structures |
CN111897535A (zh) * | 2020-07-30 | 2020-11-06 | 平安科技(深圳)有限公司 | 语法纠错方法、装置、计算机系统及可读存储介质 |
US11778280B1 (en) | 2022-05-17 | 2023-10-03 | Microsoft Technology Licensing, Llc | Geolocation-specific subtitle generation |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和系统 |
US20070118357A1 (en) * | 2005-11-21 | 2007-05-24 | Kas Kasravi | Word recognition using ontologies |
CN101042867A (zh) * | 2006-03-24 | 2007-09-26 | 株式会社东芝 | 语音识别设备和方法 |
US20120089387A1 (en) * | 2010-10-08 | 2012-04-12 | Microsoft Corporation | General purpose correction of grammatical and word usage errors |
US20150242386A1 (en) * | 2014-02-26 | 2015-08-27 | Google Inc. | Using language models to correct morphological errors in text |
CN104969173A (zh) * | 2012-10-11 | 2015-10-07 | 韦韦欧股份有限公司 | 动态应用过滤运算器作为对话界面一部分的用于自适应对话状态管理的方法 |
US20160140963A1 (en) * | 2014-11-13 | 2016-05-19 | International Business Machines Corporation | Speech recognition candidate selection based on non-acoustic input |
CN105654946A (zh) * | 2014-12-02 | 2016-06-08 | 三星电子株式会社 | 用于语音识别的设备和方法 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6239794B1 (en) | 1994-08-31 | 2001-05-29 | E Guide, Inc. | Method and system for simultaneously displaying a television program and information about the program |
US5493677A (en) * | 1994-06-08 | 1996-02-20 | Systems Research & Applications Corporation | Generation, archiving, and retrieval of digital images with evoked suggestion-set captions and natural language interface |
US6564378B1 (en) | 1997-12-08 | 2003-05-13 | United Video Properties, Inc. | Program guide system with browsing display |
CN1867068A (zh) | 1998-07-14 | 2006-11-22 | 联合视频制品公司 | 交互式电视节目导视系统及其方法 |
DK1942668T3 (en) | 1998-07-17 | 2017-09-04 | Rovi Guides Inc | Interactive television program guide system with multiple devices in a household |
AR020608A1 (es) | 1998-07-17 | 2002-05-22 | United Video Properties Inc | Un metodo y una disposicion para suministrar a un usuario acceso remoto a una guia de programacion interactiva por un enlace de acceso remoto |
US7165098B1 (en) | 1998-11-10 | 2007-01-16 | United Video Properties, Inc. | On-line schedule system with personalization features |
US6473778B1 (en) * | 1998-12-24 | 2002-10-29 | At&T Corporation | Generating hypermedia documents from transcriptions of television programs using parallel text alignment |
CA3011879C (en) | 2001-02-21 | 2021-10-19 | Rovi Guides, Inc. | Systems and methods for interactive program guides with personal video recordng features |
EP1848192A4 (en) * | 2005-02-08 | 2012-10-03 | Nippon Telegraph & Telephone | END DEVICE, SYSTEM, METHOD AND PROGRAM FOR INFORMATION COMMUNICATION AND RECORDING MEDIUM WHICH RECORDED THE PROGRAM |
US20070118372A1 (en) | 2005-11-23 | 2007-05-24 | General Electric Company | System and method for generating closed captions |
US20070118364A1 (en) * | 2005-11-23 | 2007-05-24 | Wise Gerald B | System for generating closed captions |
US20100153885A1 (en) | 2005-12-29 | 2010-06-17 | Rovi Technologies Corporation | Systems and methods for interacting with advanced displays provided by an interactive media guidance application |
US7296218B2 (en) * | 2006-02-08 | 2007-11-13 | Dittrich William A | Instant note capture/presentation apparatus, system and method |
JP4158937B2 (ja) * | 2006-03-24 | 2008-10-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 字幕修正装置 |
US8149330B2 (en) * | 2008-01-19 | 2012-04-03 | At&T Intellectual Property I, L. P. | Methods, systems, and products for automated correction of closed captioning data |
US9049477B2 (en) * | 2008-11-13 | 2015-06-02 | At&T Intellectual Property I, Lp | Apparatus and method for managing media content |
US8281231B2 (en) * | 2009-09-11 | 2012-10-02 | Digitalsmiths, Inc. | Timeline alignment for closed-caption text using speech recognition transcripts |
US8307396B2 (en) * | 2010-06-28 | 2012-11-06 | At&T Intellectual Property I, L.P. | Systems and methods for producing processed media content |
US20160035392A1 (en) * | 2012-11-22 | 2016-02-04 | Didja, Inc. | Systems and methods for clipping video segments |
KR102129536B1 (ko) | 2013-08-06 | 2020-07-03 | 삼성전자주식회사 | 모바일 단말기 및 그의 제어 방법 |
US9189742B2 (en) | 2013-11-20 | 2015-11-17 | Justin London | Adaptive virtual intelligent agent |
US10303769B2 (en) * | 2014-01-28 | 2019-05-28 | Somol Zorzin Gmbh | Method for automatically detecting meaning and measuring the univocality of text |
US9830321B2 (en) * | 2014-09-30 | 2017-11-28 | Rovi Guides, Inc. | Systems and methods for searching for a media asset |
CA3038797A1 (en) | 2016-09-30 | 2018-04-05 | Rovi Guides, Inc. | Systems and methods for correcting errors in caption text |
-
2016
- 2016-09-30 CA CA3038797A patent/CA3038797A1/en active Pending
- 2016-09-30 KR KR1020197011962A patent/KR102612355B1/ko active IP Right Grant
- 2016-09-30 BR BR112019006118A patent/BR112019006118A2/pt not_active Application Discontinuation
- 2016-09-30 JP JP2019517092A patent/JP6936318B2/ja active Active
- 2016-09-30 MX MX2019003637A patent/MX2019003637A/es unknown
- 2016-09-30 US US16/067,036 patent/US10834439B2/en active Active
- 2016-09-30 EP EP16781950.7A patent/EP3520427A1/en not_active Ceased
- 2016-09-30 AU AU2016424629A patent/AU2016424629A1/en not_active Abandoned
- 2016-09-30 WO PCT/US2016/054689 patent/WO2018063293A1/en unknown
- 2016-09-30 CN CN201680090655.XA patent/CN110235449A/zh active Pending
-
2020
- 2020-10-05 US US17/063,373 patent/US11863806B2/en active Active
-
2023
- 2023-11-14 US US18/389,315 patent/US20240089516A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和系统 |
US20070118357A1 (en) * | 2005-11-21 | 2007-05-24 | Kas Kasravi | Word recognition using ontologies |
CN101042867A (zh) * | 2006-03-24 | 2007-09-26 | 株式会社东芝 | 语音识别设备和方法 |
US20120089387A1 (en) * | 2010-10-08 | 2012-04-12 | Microsoft Corporation | General purpose correction of grammatical and word usage errors |
CN104969173A (zh) * | 2012-10-11 | 2015-10-07 | 韦韦欧股份有限公司 | 动态应用过滤运算器作为对话界面一部分的用于自适应对话状态管理的方法 |
US20150242386A1 (en) * | 2014-02-26 | 2015-08-27 | Google Inc. | Using language models to correct morphological errors in text |
US20160140963A1 (en) * | 2014-11-13 | 2016-05-19 | International Business Machines Corporation | Speech recognition candidate selection based on non-acoustic input |
CN105654946A (zh) * | 2014-12-02 | 2016-06-08 | 三星电子株式会社 | 用于语音识别的设备和方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114746857A (zh) * | 2019-11-19 | 2022-07-12 | 国际商业机器公司 | 基于加权知识图的视频分段 |
CN114746857B (zh) * | 2019-11-19 | 2023-05-09 | 国际商业机器公司 | 基于加权知识图的视频分段 |
CN111787363A (zh) * | 2020-06-24 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法、装置、设备及可读存储介质 |
CN111787363B (zh) * | 2020-06-24 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法、装置、设备及可读存储介质 |
CN112738640A (zh) * | 2020-12-28 | 2021-04-30 | 出门问问(武汉)信息科技有限公司 | 一种视频流的字幕的确定方法、装置及可读存储介质 |
CN113722513A (zh) * | 2021-09-06 | 2021-11-30 | 北京字节跳动网络技术有限公司 | 多媒体数据的处理方法及设备 |
CN113722513B (zh) * | 2021-09-06 | 2022-12-20 | 抖音视界有限公司 | 多媒体数据的处理方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
US10834439B2 (en) | 2020-11-10 |
BR112019006118A2 (pt) | 2019-06-18 |
JP6936318B2 (ja) | 2021-09-15 |
CA3038797A1 (en) | 2018-04-05 |
US20240089516A1 (en) | 2024-03-14 |
US11863806B2 (en) | 2024-01-02 |
JP2019537307A (ja) | 2019-12-19 |
WO2018063293A1 (en) | 2018-04-05 |
KR102612355B1 (ko) | 2023-12-08 |
AU2016424629A1 (en) | 2019-04-11 |
US20190215545A1 (en) | 2019-07-11 |
MX2019003637A (es) | 2019-09-26 |
EP3520427A1 (en) | 2019-08-07 |
KR20190055204A (ko) | 2019-05-22 |
US20210037274A1 (en) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110235449A (zh) | 用于校正字幕文本中的错误的系统和方法 | |
US20220215178A1 (en) | Systems and methods for determining context switching in conversation | |
CN109478189A (zh) | 自然语言查询的近似模板匹配 | |
CN109417568A (zh) | 用于在用户设备处基于服务质量呈现媒体列表的方法和系统 | |
CN106489150A (zh) | 用于识别和保存媒体资产的一部分的系统和方法 | |
CN109416789A (zh) | 基于第二用户的查看活动向第一用户推荐媒体资产以包括在第二用户的播放列表中的方法和系统 | |
CN109564574A (zh) | 用于将交互式特征传送到另一个设备的方法和系统 | |
CN109997141A (zh) | 用于使用双因素认证来控制对媒体资产访问的系统和方法 | |
CN109964275A (zh) | 用于在检测到事件时与正常速度视频流同时提供慢动作视频流的系统和方法 | |
CN109074391A (zh) | 基于其他媒体资产的内容向用户推荐媒体资产的方法和系统 | |
CN110036442A (zh) | 用于恢复媒体资产的系统和方法 | |
CN106471571A (zh) | 用于在有异形词存在的情况下执行asr的系统和方法 | |
CN109792555A (zh) | 用于存储被重新调度以从不同来源传送的媒体资产的系统和方法 | |
KR102506649B1 (ko) | 자연어 쿼리의 보충 기능을 수행하기 위한 시스템 및 방법 | |
JP7368406B2 (ja) | 家庭内で話されている言語に対応するコンテンツを識別するためのシステムおよび方法 | |
CN110168541A (zh) | 基于静态和时间知识图消除词语歧义的系统和方法 | |
CN106471498A (zh) | 用于使用元数据和使用数据分析的过滤技术的系统和方法 | |
CN110168528A (zh) | 用于恢复媒体资产的系统和方法 | |
CN107710776A (zh) | 用于高效下载媒体资产的方法和系统 | |
CN109997094A (zh) | 用于重建来自媒体资产的参考图像的系统和方法 | |
EP3944614A1 (en) | Systems and methods for generating aggregated media assets on related content from different sources | |
CN109496433A (zh) | 用于选择在用户设备上呈现媒体资产期间在用户设备附近显示的补充内容的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190913 |
|
WD01 | Invention patent application deemed withdrawn after publication |