CN114730355B - 使用隐藏字幕作为用于隐藏字幕定制系统的并行训练数据 - Google Patents

使用隐藏字幕作为用于隐藏字幕定制系统的并行训练数据 Download PDF

Info

Publication number
CN114730355B
CN114730355B CN202080079920.0A CN202080079920A CN114730355B CN 114730355 B CN114730355 B CN 114730355B CN 202080079920 A CN202080079920 A CN 202080079920A CN 114730355 B CN114730355 B CN 114730355B
Authority
CN
China
Prior art keywords
data
closed caption
collected
locations
location
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202080079920.0A
Other languages
English (en)
Other versions
CN114730355A (zh
Inventor
S·托马斯
黄颖慧
铃木雅之
Z·图伊克
L·P·桑森
M·A·皮切尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN114730355A publication Critical patent/CN114730355A/zh
Application granted granted Critical
Publication of CN114730355B publication Critical patent/CN114730355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/07Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information characterised by processes or methods for the generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

提供了用于定制自动隐藏字幕系统的方法、装置和计算机程序产品。在一些实施例中,在数据使用(DU)位置处,提供包括基本模型的自动隐藏字幕系统,检索标准被定义为从一个或多个数据收集(DC)位置请求,将基于所述检索标准的检索请求发送给所述一个或多个DC位置,响应于所述检索请求接收来自所述一个或多个DC位置的相关隐藏字幕数据,通过以下方式处理所述接收的相关隐藏字幕数据:计算所述接收的相关隐藏字幕数据的多个数据子集中的每个数据子集的置信度分数,并且基于所述置信度分数选择所述数据子集中的一个或多个数据子集,以及通过使用所选择的一个或多个数据子集来训练所述基本模型,定制所述自动隐藏字幕系统。

Description

使用隐藏字幕作为用于隐藏字幕定制系统的并行训练数据
背景技术
本发明总体上涉及隐藏字幕领域。更具体地,本发明涉及定制自动隐藏字幕系统。
发明内容
本公开的实施例包括用于定制自动隐藏字幕系统的方法、装置和计算机程序产品。在一些实施例中,在数据使用(DU)位置处,提供包括基本模型(例如,声学模型、语言模型和词汇表等)的自动隐藏字幕系统,定义检索标准以请求从一个或多个数据收集(DC)位置检索标准,将基于所述检索标准的检索请求发送至所述一个或多个DC位置中的每一个,响应于所述检索请求,接收来自所述一个或多个DC位置中的每一个的相关隐藏字幕数据,通过以下方式来处理所述接收的相关隐藏字幕数据:计算所述接收的相关隐藏字幕数据的多个数据子集中的每一个的置信度得分,并且基于所述置信度得分,选择所述数据子集中的一个或多个,以及通过使用所选择的一个或多个数据子集来训练所述基本模型,定制所述自动隐藏字幕系统。在一些实施例中,在一个或多个DC位置中的每个处,收集和管理隐藏字幕数据,基于检索请求选择相关的隐藏字幕数据,并且将相关的隐藏字幕数据发送到DU位置。
从第一方面来看,本发明提供了一种定制自动隐藏字幕系统的方法,所述方法包括:在数据使用(DU)位置处提供包括基本模型的自动隐藏字幕系统;在DU位置处定义从一个或多个数据收集(DC)位置请求的检索标准;向所述一个或多个DC位置中的每一个发送检索请求,其中所述检索请求基于所述检索标准;响应于所述检索请求,在所述DU位置处从所述一个或多个DC位置中的每个DC位置处接收相关隐藏字幕数据;在所述DU位置处处理所接收的相关隐藏字幕数据,其中,所述处理操作包括:计算所接收的相关隐藏字幕数据的多个数据子集中的每个数据子集的置信度得分,并且基于所选择的一个或多个数据子集中的每个数据子集的所述置信度得分,选择所述数据子集中的一个或多个数据子集;在所述DU位置处定制所述自动隐藏字幕系统,其中,所述定制操作包括使用所选择的一个或多个数据子集来训练所述基础模型。
优选地,本发明提供一种方法,还包括:在所述一个或多个DC位置中的每个DC位置处收集隐藏字幕数据;在所述一个或多个DC位置中的每个DC位置处管理所收集的隐藏字幕数据;基于检索请求,在所述一个或多个DC位置中的每个处,从所收集和组织的隐藏字幕数据中选择相关的隐藏字幕数据;从所述一个或多个DC位置中的每个,将所述相关的隐藏字幕数据发送到所述DU位置。
优选地,本发明提供一种方法,其中,在所述一个或多个DC位置的每一个处,管理所收集的隐藏字幕数据包括:用可检索定位器标记所收集的隐藏字幕数据,所述可检索定位器将所收集的隐藏字幕数据的至少一部分识别为新闻隐藏字幕或者广告的隐藏字幕。
优选地,本发明提供一种方法,其中,在所述一个或多个DC位置中的每个处,管理所收集的隐藏字幕数据包括:用可检索定位符标记所收集的隐藏字幕数据,所述可检索定位符根据时间顺序识别所收集的隐藏字幕数据的至少一部分,其中,所述可检索定位符包括广播的日、月和年。
优选地,本发明提供一种方法,其中,在所述一个或多个DC位置的每一个处,管理所收集的隐藏字幕数据包括:利用可检索定位符标记所收集的隐藏字幕数据,所述可检索定位符根据内容识别所收集的隐藏字幕数据的至少一部分,其中,所述可检索定位符选自由国际新闻、国家新闻、地方新闻、体育、天气和谈话节目组成的组。
优选地,本发明提供了一种方法,其中,在所述一个或多个DC位置中的每一处,管理所收集的隐藏字幕数据包括:利用可检索定位器对所收集的隐藏字幕数据加标签,所述可检索定位器根据元数据和/或关键字识别所收集的隐藏字幕数据的至少一部分。
优选地,本发明提供了一种方法,其中,在所述一个或多个DC位置中的每个DC位置处管理所收集的隐藏字幕数据包括:将所收集的隐藏字幕数据转换成选自由以下各项所组成的组中的嵌入:词频-逆文档频率(TF-IDF)嵌入、单词嵌入和句子嵌入。
优选地,本发明提供了一种方法,其中,在所述一个或多个DC位置中的每一处,管理所收集的隐藏字幕数据包括:将所收集的隐藏字幕数据与对应的音频记录配对。
优选地,本发明提供了一种方法,其中,在DU位置处定义从一个或多个DC位置请求的检索标准包括定义检索标准,以便于检索与一个或多个期望的目标有关的隐藏字幕数据。
优选地,本发明提供一种方法,其中,在DU位置处定义从一个或多个DC位置请求的检索标准包括定义检索标准,以便于检索与期望的数据集相关的隐藏字幕数据。
优选地,本发明提供一种方法,还包括:在DU位置,使用基本模型解码对应于期望数据集的音频记录,以产生用作种子数据的解码数据;其中,在DU位置处定义从一个或多个DC位置请求的检索标准包括使用解码的数据作为用于直接文本检索的检索标准。
优选地,本发明提供了一种方法,还包括:在DU位置处,使用解码数据建立语言模型;在DU位置处,使用语言模型对从一个或多个DC位置中的每个DC位置接收为相关隐藏字幕数据的文本进行评分。
优选地,本发明提供一种方法,还包括:在DU位置,使用基本模型解码对应于期望数据集的音频记录,以产生用作种子数据的解码数据;在所述DU位置处将所述解码数据转换成嵌入;其中,在所述DU位置处定义从一个或多个DC位置请求的检索标准包括使用所述嵌入作为所述检索标准;在所述DU位置处,根据所述检索标准基于相似性评分对从所述一个或多个DC位置中的每个DC位置接收的作为所述相关隐藏字幕数据的所述嵌入进行评分。
优选地,本发明提供一种方法,还包括:在DU位置,使用基本模型解码对应于期望数据集的音频记录,以产生用作种子数据的解码数据;其中,在所述DU位置处定制所述自动隐藏字幕系统包括:使用在所述DU位置处从与所述种子数据匹配的所述一个或多个DC位置中的每个DC位置接收的所述相关隐藏字幕数据,在所述DU位置处定制一个或多个基本系统。
优选地,本发明提供了一种方法,其中,在DU位置处定制所述自动隐藏字幕系统包括定制在所述自动隐藏字幕系统下面的基础自动语音识别(ASR)系统的语言模型、声学模型和词汇中的至少一个。
优选地,本发明提供一种方法,其中,在DU位置处定制所述自动隐藏字幕系统包括定制以下中的至少一个:滤除广告的广告检测器系统、说话者分类系统、说话者改变检测系统以及语音活动检测系统。
从另一方面来看,本发明提供了一种用于定制自动隐藏字幕系统的系统,包括:数据使用(DU)位置处的计算设备,其中,所述DU位置处的所述计算设备包括一个或多个处理器、一个或多个计算机可读存储设备以及存储在所述一个或多个计算机可读存储设备中的至少一个上的用于由所述一个或多个处理器中的至少一个执行的程序指令,所述程序指令可执行以:提供包括基本模型的自动隐藏字幕系统;定义从一个或多个数据收集(DC)位置请求的检索标准;向所述一个或多个DC位置中的每一个发送检索请求,其中所述检索请求基于所述检索标准;响应于所述检索请求,从所述一个或多个DC位置中的每个DC位置接收相关隐藏字幕数据;处理所接收的相关隐藏字幕数据,其中,所述处理操作包括:计算所接收的相关隐藏字幕数据的多个数据子集中的每个数据子集的置信度得分,并且根据所选择的一个或多个数据子集中的每个数据子集的所述置信度得分,选择所述数据子集中的一个或多个数据子集;定制所述自动隐藏字幕系统,其中,所述定制操作包括使用所选择的一个或多个数据子集来训练所述基本模型。
优选地,本发明提供了一种系统,还包括:在所述一个或多个DC位置中的每个处的计算设备,其中,在所述一个或多个DC位置中的每个处的计算设备包括一个或多个处理器、一个或多个计算机可读存储设备以及存储在所述一个或多个计算机可读存储设备中的至少一个上的用于由所述一个或多个处理器中的至少一个执行的程序指令,所述程序指令可执行以:收集隐藏字幕数据;对采集的隐藏字幕数据进行整理;基于所述检索请求从采集和整理的隐藏字幕数据中选择相关的隐藏字幕数据;将所述相关的隐藏字幕数据发送给所述DU位置。
从另一个角度来看,本发明提供了一种用于定制自动隐藏字幕系统的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有嵌入其中的程序代码,所述程序代码可由一个或多个处理器执行以执行一种方法,所述方法包括:在数据使用(DU)位置处提供包括基本模型的自动隐藏字幕系统;在DU位置处定义要从一个或多个数据收集(DC)位置请求的检索标准;向所述一个或多个DC位置中的每一个发送检索请求,其中所述检索请求基于所述检索标准;响应于所述检索请求,在所述DU位置处从所述一个或多个DC位置中的每个DC位置处接收相关隐藏字幕数据;在所述DU位置处处理所接收的相关隐藏字幕数据,其中,所述处理操作包括:计算所接收的相关隐藏字幕数据的多个数据子集中的每个数据子集的置信度得分,并且基于所选择的一个或多个数据子集中的每个数据子集的所述置信度得分,选择所述数据子集中的一个或多个数据子集;在所述DU位置处定制所述自动隐藏字幕系统,其中,所述定制操作包括使用所选择的一个或多个数据子集来训练所述基本模型。
优选地,本发明提供一种计算机程序产品,其中所述方法还包括:在所述一个或多个DC位置中的每个DC位置处收集隐藏字幕数据;在所述一个或多个DC位置中的每个DC位置处管理所收集的隐藏字幕数据;基于所述检索请求,在所述一个或多个DC位置中的每个处,从所收集和组织的隐藏字幕数据中选择相关的隐藏字幕数据;从所述一个或多个DC位置中的每个,将所述相关的隐藏字幕数据发送到所述DU位置。
附图说明
下文将结合附图描述实施例,其中相同的标号表示相同的元件。
图1示出了根据一个或多个实施例的云计算节点。
图2描绘了根据一个或多个实施例的云计算环境。
图3描绘了根据一个或多个实施例的抽象模型层。
图4示出了根据一个或多个实施例的用于定制自动隐藏字幕系统的示例性系统。
图5是根据一个或多个实施例的在定制自动隐藏字幕系统的说明性方法中的数据使用(DU)位置处执行的操作的流程图。
图6是根据一个或多个实施例的在定制自动隐藏字幕系统的说明性方法中的一个或多个数据收集(DC)位置处执行的操作的流程图。
图7示出了根据一个或多个实施例的促进自动字幕系统的定制的示例非限制性系统的框图。
具体实施方式
基于自动语音识别(ASR)字幕系统的定制(例如,针对正在新部署定制技术的广播电台)对于提高广播新闻字幕等应用的准确性非常有用。然而,收集用于定制的数据可能是昂贵的。例如,如果在其中新部署了常规定制技术的本地广播电台处不存在先前的字幕服务,则收集用于定制的数据可能会很昂贵,因为最近在该广播电台处可用的广播新闻数据(即,从最近播出的新闻节目收集的广播新闻数据)通常需要手动转录。
而且,假定新闻内容连续变化(例如,新人物名称、新事件名称等非常频繁地出现),则广播新闻字幕系统需要不断更新新内容和术语。在每个广播电台位置处建立数据收集并且处理所收集的数据可能会很昂贵。
通常用于改善这些设置中的ASR性能的流行方法是数据增强。数据增强通过使用不同信号和数据处理技术人工创建附加训练样本来增加训练数据的多样性。
根据一些实施例,可以实现改进的自动隐藏字幕性能,不是通过修改在特定位置收集的本地数据,如在数据增强中,而是通过利用在其他位置并行收集的数据。
这种方法利用了以下观察:从不同位置(例如,国家新闻报道、国际新闻报道等)广播的几个广播新闻片段的内容通常是相同的,或者至少是基本相似的。因此,根据一些实施例,可以共享这些共同新闻故事的隐藏字幕(如果适当选择的话),以改进任何其他本地广播新闻站的ASR模型。该方法适用于以上两种情况(新部署和更新),从而允许字幕系统在新站中无缝地部署,并且允许现有字幕系统不断更新。
本公开的实施例包括用于定制自动隐藏字幕系统的方法、装置和计算机程序产品。在一些实施例中,在数据使用(DU)位置处,提供包括基本模型(例如,声学模型、语言模型和词汇表等)的自动隐藏字幕系统,检索标准被定义为从一个或多个数据收集(DC)位置请求,基于所述检索标准的检索请求被发送至所述一个或多个DC位置中的每一个,响应于所述检索请求,接收来自所述一个或多个DC位置中的每一个的相关隐藏字幕数据,通过以下方式来处理所述接收的相关隐藏字幕数据:计算所述接收的相关隐藏字幕数据的多个数据子集中的每一个的置信度得分,并且基于所述置信度得分,选择所述数据子集中的一个或多个,以及通过使用所选择的一个或多个数据子集来训练所述基本模型,定制所述自动隐藏字幕系统。在一些实施例中,在一个或多个DC位置中的每个处,收集和管理隐藏字幕数据,基于检索请求选择相关的隐藏字幕数据,并且将相关的隐藏字幕数据发送到DU位置。
给定在DU位置处用于字幕的广播新闻测试集,根据一些实施例,使用来自一个或多个DC位置的并行数据的定制过程可以制定成以下操作-(A)使用可用字幕系统(例如,定制之前的基础模型)对测试集进行解码。这些解码文本可以用作种子数据,以帮助从具有隐藏字幕的一个或多个DC位置选择匹配的数据,(B)从种子数据构建语言模型,用于对所有文本进行评分或将所有文本转换成适当的向量表示,(C)对照种子数据对可用并行隐藏字幕训练集中的每个句子进行评分并且对其进行排序,以及(D)根据排序选择句子并且定制基本语言模型。例如,解码的测试数据可以用于使用选择技术来选择相关数据,诸如错综性分数、TF-IDF向量相似性和/或句子嵌入相似性。下面将描述这三种选择技术。在一些实施例中,对于这三种选择技术中的每一种,可以选择来自并行语料库(即,一个或多个DC位置)的最匹配种子数据的前N个句子(例如,60K)。
错综性分数–首先使用种子数据构建语言模型,并且然后用于计算并行语料库中的每个句子的错综性分数。在所分配的分数上对句子进行分类并且然后将高于阈值的前N个句子选择为用于定制的相关集合。
词频-反向文档频率向量相似性-TF-IDF得分在信息检索、文本挖掘应用中被普遍用作反映文档之间的相关性的工具。根据一些实施例,针对并行语料库中的每个可用句子生成TF-IDF向量,并且然后使用余弦相似性字符串进行排名以找到接近于种子数据的句子。然后将前N个匹配句子用于定制。在生成TF-IDF向量之前,可以执行标准文本处理步骤(例如,过滤掉停用词、针对句子长度进行归一化、平滑IDF得分)。
句子嵌入相似性——预先训练的句子嵌入还可用于从并行语料库中选择相关句子。最近在广泛的自然语言理解(NLU)任务中使用的BERT(来自变换器的双向编码器表示)嵌入是对丰富的句法和语义信息进行编码的表示。根据一些实施例,使用预先训练的模型BETbase导出固定长度嵌入。类似于TF-IDF,余弦相似性用于排序和选择相关集进行定制。
在一些实施例中,DU位置也是另DU位置的DC位置。
新兴的信息技术(IT)交付模型是云计算,通过该云计算,共享资源、软件和信息通过互联网按需提供给计算机和其他设备。云计算可以显著地降低IT成本和复杂度,同时改进工作负荷优化和服务交付。通过这种方法,可以托管应用实例并且使其可从通过HTTP上的常规Web浏览器的基于互联网的资源获得。示例应用可以是提供一组公共消息收发功能(诸如电子邮件、日历、联系人管理和即时消息收发)的应用。然后,用户将直接通过互联网访问该服务。使用这个服务,企业会将其电子邮件、日历、和/或协作基础设施放置在云中,并且最终用户将使用适当的客户端来访问他或她的电子邮件,或执行日历操作。
应当理解,虽然本公开包括关于云计算的详细描述,但是本文所引用的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。
云计算是服务交付的模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用程序、虚拟机和服务)的共享池,所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消费者可以单方面地根据需要自动地提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者的人类交互。
广泛的网络接入:能力可通过网络获得并且通过标准机制接入,该标准机制促进异构瘦客户机平台或胖客户机平台(例如,移动电话、膝上型计算机和PDA)的使用。
资源池化:提供者的计算资源被池化以使用多租户模型来服务于多个消费者,其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或了解,但可能能够以较高抽象级别(例如,国家、州或数据中心)指定位置。
快速弹性:能够快速和弹性地提供能力,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
测量的服务:云系统通过在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如,基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施,可能的例外是有限的用户特定应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是可以控制已部署的应用和可能的应用托管环境配置。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用的控制以及对所选网络组件(例如,主机防火墙)的可能受限的控制。
部署模型如下:
私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
社区云:云基础架构被若干组织共享并支持具有共同关注点(例如,任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公共云:使云基础架构对公众或大型行业组可用,并且由出售云服务的组织拥有。
混合云:云基础架构是两个或更多个云(私有、社区或公共)的组合,这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
云计算环境是面向服务的,集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
现在参见图1,示出了云计算节点的示例的示意图。云计算节点10仅仅是合适的云计算节点的一个示例,并不旨在对本文所述的本发明的实施例的使用或功能的范围提出任何限制。无论如何,云计算节点10能够被实现和/或执行上文阐述的任何功能。
在云计算节点10中,存在计算机系统/服务器12,其可与许多其他通用或专用计算系统环境或配置一起操作。可以适用于计算机系统/服务器12的公知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、胖客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统和包括上述任何系统或设备的分布式云计算环境等。
计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(例如程序模块)的一般上下文中描述。一般而言,程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器12可以在分布式云计算环境中实施,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。
如图1所示,云计算节点10中的计算机系统/服务器12以通用计算设备的形式示出。计算机系统/服务器12的组件可以包括但不限于一个或多个处理器或处理单元16、系统存储器28和将包括系统存储器28的不同系统组件耦合到处理器16的总线18。
总线18表示若干类型的总线结构中的任何一种或多种,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种架构中的任一种的处理器或局部总线。作为示例而非限制,此类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围组件互连(PCI)总线。
计算机系统/服务器12通常包括各种计算机系统可读介质。这样的介质可以是可由计算机系统/服务器12访问的任何可用介质,并且其包括易失性和非易失性介质,以及可移动和不可移动介质。
系统存储器28可包含呈易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓冲存储器32。计算机系统/服务器12可以进一步包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅通过示例的方式,存储系统34可以被提供用于从不可移除的非易失性磁性介质(未示出,并且通常被称为“硬盘驱动器”)和其他不可移除的非易失性介质(例如,“固态驱动器”)进行读取和写入。尽管未示出,可以提供用于从可移动非易失性磁盘(例如,“软盘”)读取和写入可移动非易失性磁盘的磁盘驱动器,以及用于从可移动非易失性光盘(如CD-ROM、DVD-ROM或其他光学介质)读取和/或写入可移动非易失性光盘的光盘驱动器。在这样的情况下,每一个可以通过一个或多个数据介质接口连接到总线18。如下面将进一步描述的,存储器28可以包括存储程序模块42的集合(例如,至少一个)的计算机程序产品,该程序模块42包括被配置为执行本发明的一个或多个特征的计算机可读指令。
具有一组(至少一个)程序模块42的程序/实用程序40,以及操作系统、一个或多个应用程序、其他程序模块和程序数据,可以通过示例而非限制的方式存储在存储器28中。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每一个或它们的一些组合可以包括网络环境的实现方式。在一些实施例中,程序模块42适于通常执行一个或多个实施例的一个或多个功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、定点设备、显示器24等)通信;和/或使得计算机系统/服务器12能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)。这种通信可经由输入/输出(I/O)接口22进行。更进一步,计算机系统/服务器12可以经由网络适配器20与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,互联网)的一个或多个网络通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其他组件通信。应当理解,虽然未示出,但是其他硬件和/或软件组件可以与计算机系统/服务器12结合使用。示例包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统等。
现在参见图2,描述了说明性云计算环境50。如图所示,云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解,图2中所示的计算设备54A-N的类型仅旨在是说明性的,并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化设备通信。
现在参见图3,示出了由云计算环境50(图2)提供的一组功能抽象层。应提前理解,图3中所示的组件、层和功能仅旨在是说明性的,并且本发明的实施例不限于此。如图所示,提供以下层和对应功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:大型机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。
工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括:地图和导航91;软件开发和生命周期管理92;虚拟课堂教育交付93;数据分析处理94;交易处理95;以及隐藏字幕系统定制96。
现在参考图4,描述了根据一个或多个实施方式的用于使用来自一个或多个数据收集(DC)位置中的每一个的计算设备(例如,计算设备402、402’)的并行训练数据在数据使用(DU)位置处定制计算设备404的自动隐藏字幕系统406的示例性系统400。在一些实施例中,当系统406最初被部署在(DU)位置处的计算设备404上时,系统400用于定制自动隐藏字幕系统406。在其他实施例中,系统400用于在持续更新自动隐藏字幕系统406的定制。
自动隐藏字幕系统406包括基础模型408,该基础模型408包括不同基础组件,诸如声学模型412、语言模型414、词汇表(未示出)等。基础模型408及其组件是非定制的或“基础”的,因为训练它们在DU位置处使用。自动隐藏字幕系统406、基本模型408及其组件可以是常规的。
在一些实施例中,基本模型408可以包括混合声学模型(AM)作为声学模型412。基本混合AM在本文中也被称为“基于基本卷积神经网络(CNN)的声学模型(AM)”或“基于基本CNN的AM”。为了利用大量可用广播新闻(BN)数据,代替直接使用卷积声学模型和非卷积声学模型(其往往功能强大但复杂的),这些模型可用作教师网络以训练训练一个可更容易地部署的紧凑而简单的基于CNN的学生网络。学生-教师训练框架是用于训练简单的声学模型以模仿强大且复杂的教师网络的非常有用的框架。残留网络(ResNet)可以用作卷积(老师)网络。LSTM可用作非卷积(老师)网络。长短期记忆(LSTM)是人工递归神经网络(RNN)架构。一旦训练了教师网络,来自教师网络的置信度分数可被组合并用于使用学生-教师训练框架来训练独立于学生讲话者的CNN模型。
在一些实施例中,基本模型408可以包括基于端到端注意力的声学模型(AM)作为声学模型412。基于基本端到端注意力的AM在本文中也称为“基于基本关注的编码器-解码器模型”。
在一些实施例中,基本模型408可以包括基于n元语法的语言模型(LM)作为语言模型414。基于基本n元语法的LM在本文中也称为基本n元语法LM。在一些实施例中,基本模型408可以包括作为声学模型412的基本混合AM和作为语言模型414的基本n元语法LM。
在一些实施例中,基本模型408可以包括基于神经网络的语言模型(LM)作为语言模型414。基于基础神经网络的LM在本文中也称为基础NNLM。在一些实施例中,基本模型408可以包括作为声学模型412的基于基本注意力的编码器-解码器模型和作为语言模型414的基本NNLM。
除了自动隐藏字幕系统406之外,DU位置处的计算设备404还包括一个或多个定制模块416,包括定义模块418的一个或多个检索标准、一个或多个匹配算法模块420以及一个或多个训练算法模块422。
根据一些实施例,一个或多个检索标准定义模块418定义从一个或多个数据收集(DC)位置中的每一个处的计算设备(例如,计算设备402、402’)请求的检索标准。例如,如果可检索的定位符是可用的,由定义模块418的一个或多个标准定义的检索标准可以使用日期/关键字等来基于这些定位符创建检索。另一方面,如果仅音频数据是可用的(即,需要与那个音频匹配的数据),则定义模块418的一个或多个标准可以解码音频并且使用音频输出用于直接文本检索,或者附加地创建用于解码数据的嵌入并且使用这些嵌入作为检索标准。例如,一个或多个标准定义模块418可以对音频数据进行解码,创建针对解码数据的句子嵌入,并且使用句子嵌入作为检索标准。
在一些实施例中,将基于检索标准的检索请求从DU位置处的计算设备404直接发送到一个或多个DC位置中的每个处的计算设备(例如,计算设备402、402’)。在其他实施例中,检索标准可以从DU位置处的计算设备404发送到服务器设备(例如,图7中的720),服务器设备进而将基于检索标准的检索请求发送到一个或多个DC位置中的每个处的计算设备(例如,计算设备402、402’)。
根据一些实施例,一个或多个匹配算法模块420处理从一个或多个DC位置处的计算设备(例如,计算设备402、402’)接收的相关隐藏字幕数据,以选择匹配的数据。例如,一个或多个匹配算法模块420可计算所接收的相关隐藏字幕数据的多个数据子集中的每个数据子集的置信度分数,并且基于置信度分数选择一个或多个数据子集。在一些实施例中,可以基于置信阈值来选择数据子集。在一些实施方式中,可以对数据子集进行排名,然后,根据排名选择数据子集。
根据一些实施例,一个或多个训练算法模块422使用所选择的一个或多个数据子集来训练基础模型406。一个或多个训练算法模块422可以是常规的。
此外,在DU位置处的计算设备404还可包括由自动隐藏字幕系统406(在自动隐藏字幕系统406的基本模型406被定制之前)产生的隐藏字幕数据424,以用作种子数据,以帮助从具有隐藏字幕的其他地点选择匹配的数据。例如,种子数据可用作对一个或多个匹配算法模块420的输入,以促进在一个或多个数据收集(DC)位置中的每一个处从计算设备(例如,计算设备402、402’)接收的相关数据之间的数据选择。
根据一些实施例,在每个DC位置处的计算设备(例如,计算设备422、422’)包括一个或多个隐藏字幕收集和管理模块430和一个或多个隐藏字幕检索算法模块432,以及由一个或多个隐藏字幕收集和管理模块430收集/管理的隐藏字幕数据434和有组织的隐藏字幕数据446。
根据一些实施例,一个或多个隐藏字幕收集和管理模块430收集隐藏字幕数据434,并且执行一个或多个数据监管操作,以生成管理的隐藏字幕数据436。可以由一个或多个隐藏字幕收集和管理模块430执行的数据管理操作包括但不限于利用隐藏字幕收集音频数据,向隐藏字幕添加元数据标签或标志(例如,广告数据(AD)、广播新闻(BN)、日期、关键字、说话者标签、时间标记等),将隐藏字幕转换成嵌入用于基于内容进行检索。在一些实施例中,可以对管理的隐藏字幕数据436执行检索。在其他实施例中,可以对原始字幕434执行检索。
根据一些实施方式,一个或多个隐藏式字幕检索算法模块432在(直接从计算装置404或者从服务器装置(例如,图7中的720))接收检索请求时,检索在以下类别中的至少一个之下的相关数据:基于元数据标签或者标签的检索;基于嵌入的检索;以及基于实际文本的检索。
现在参考图5,描述了根据一个或多个实施方式的在用于定制自动隐藏字幕系统的数据使用(DU)位置处执行的说明性方法500的流程图。方法500阐述块的优选顺序。然而,必须理解,各个块可相对于彼此在任何时间发生。
方法500开始于在DU位置处提供包括基本模型的自动隐藏字幕系统(框502)。
方法500通过在DU位置处定义要从一个或多个数据收集(DC)位置请求的检索标准来继续(框504)。
在一些实施例中,定义检索标准包括定义检索标准,以便于检索关于一个或多个期望目标的相关隐藏字幕数据。
在一些实施例中,定义检索标准包括定义检索标准,以便于相对于期望的数据集检索相关的隐藏字幕数据。例如,可以使用该基础模型对对应于所希望的数据集的音频记录进行解码以产生用作种子数据的解码数据,该解码数据可以转换成嵌入,这些嵌入可以用作检索标准,并且从该一个或多个DC位置中的每个DC位置接收为相关隐藏字幕数据的嵌入可以根据检索标准基于相似性评分进行评分。可替代地,解码数据可以用作用于直接文本检索的检索标准。
接下来,方法500通过基于检索标准向一个或多个DC位置中的每一个发送检索请求来继续(框506)。
方法500通过在DU位置处响应于检索请求从一个或多个DC位置中的每一个接收相关的隐藏字幕数据来继续(方框508)。
接下来,方法500通过在DU位置处处理接收的相关隐藏字幕数据来继续,包括计算所接收的相关隐藏字幕数据的多个数据子集中的每个数据子集的置信度分数,并且基于置信度分数选择一个或多个数据子集(方框510)。
在一些实施例中,经解码的数据(即,在框504中产生以用作种子数据)可以用于建立语言模型,该语言模型可以用于对从一个或多个DC位置中的每个DC位置接收为相关的隐藏字幕数据的嵌入打分。
方法500继续在DU位置处定制自动隐藏字幕系统,包括使用所选择的一个或多个数据子集来训练基本模型(框512)。基础模型可以使用常规技术来训练。方法500随后可结束。
在一些实施方式中,定制自动隐藏字幕系统包括定制在自动隐藏字幕系统下划线的基本自动语音识别(ASR)系统的语言模型、声学模型和/或词汇表。
在一些实施例中,定制自动隐藏字幕系统包括定制广告检测器系统以过滤出广告、说话者分类系统、说话者改变检测系统和/或语音活动检测系统。
在一些实施例中,定制自动隐藏字幕系统包括使用在DU位置处从一个或多个DC位置中的每个DC位置接收的与解码数据相匹配(即,在框504中产生以用作种子数据)的相关隐藏字幕数据,在DU位置处定制一个或多个基本系统。
现在参考图6,描述了根据一个或多个实施方式的用于定制自动隐藏字幕系统的在一个或者多个数据收集(DC)位置处执行的说明性方法600的流程图。方法600阐述框的优选顺序。然而,必须理解,各个框可相对于彼此在任何时间发生。
方法600开始于在一个或多个DC位置中的每个处收集隐藏字幕数据来开始(方框602)。
方法600通过在一个或多个DC位置中的每个处管理所收集的隐藏字幕数据来继续(方框604)。
在一些实施例中,管理包括用可检索定位符标记所收集的隐藏字幕数据,该可检索定位符将所收集的隐藏字幕数据的至少一部分标识为新闻隐藏字幕或者广告的隐藏字幕。
在一些实施例中,管理包括用可检索定位符标记所收集的隐藏字幕数据,该可检索定位符根据时间顺序识别所收集的隐藏字幕数据的至少一部分。例如,可检索定位符可以包括广播的日、月和年。
在一些实施例中,管理包括用可检索定位符标记所收集的隐藏字幕数据,该可检索定位符根据内容识别所收集的隐藏字幕数据的至少一部分。例如,可检索定位符可以包括国际新闻、国家新闻、地方新闻、体育、天气和谈话节目。
在一些实施例中,管理包括用可检索定位符标记所收集的隐藏字幕数据,该可检索定位符根据元数据和/或关键字识别所收集的隐藏字幕数据的至少一部分。
在一些实施例中,策划包括将所收集的隐藏字幕数据转换成嵌入。例如,嵌入可以包括词频-逆文档频率(TF-IDF)嵌入、单词嵌入和句子嵌入。
在一些实施例中,管理包括将所收集的隐藏字幕数据与对应的音频记录配对。
接下来,方法600通过在一个或多个DC位置中的每个DC位置处接收来自DU位置的检索请求而继续(块606)。
方法600通过基于检索请求在所收集和组织的隐藏字幕数据中在一个或多个DC位置中的每个位置处选择相关的隐藏字幕数据来继续(方框608)。
接下来,方法600通过从一个或多个DC位置中的每个向DU位置发送相关的隐藏字幕数据来继续(方框610)。方法600随后可结束。
现在参考图7,其为根据一个或多个实施方式的有利于自动字幕系统的定制的示例非限制性系统700的框图。为了简洁起见,省略了对在此描述的其他实施例中采用的相似元件的重复描述。本公开中解释的系统(例如,系统700等)、装置或过程的各方面可构成体现在机器内(例如,体现在与一个或多个机器相关联的一个或多个计算机可读介质中)的机器可执行程序模块。这样的程序模块在由一个或多个机器(例如,一个或多个计算机、一个或多个计算设备、一个或多个虚拟机等)执行时可使得一个或多个机器执行所描述的操作。
如图7所示,系统700可以包括在一个或多个数据收集(DC)位置处的一个或多个计算设备702、712,在一个或多个数据使用(DU)位置处的一个或多个计算设备704、714,以及一个或多个服务器设备720。应当理解,一个或多个DC位置处的一个或多个计算设备702、712,一个或多个DU位置处的一个或多个计算设备704、714,并且所述一个或多个服务器设备720可以配备有通信设备(例如,下文相对于DC位置处的计算设备702描述的一个或多个通信组件730),其使得能够在所述一个或多个计算设备702之间进行通信,在所述一个或多个DC位置处的712,在所述一个或多个DU位置处的所述一个或多个计算设备704、714,以及通过所述一个或多个网络706的所述一个或多个服务器设备720。
一个或多个DC位置处的一个或多个计算设备702、712可包括本文中关于图4中的一个或多个DC位置处的一个或多个计算设备402、402’和图6中的方法600所描述的结构和/或功能。计算设备712可以是与计算设备702不同类型的计算设备。计算设备712还可以是计算设备702和/或包括计算设备702的一个或多个部件。应当理解,在以下采用DC位置处的一个以上计算设备的讨论中,计算设备可包括一个或多个计算设备702和/或一个或多个计算设备712。
一个或多个DU位置处的一个或多个计算设备704、714可以包括本文中关于图4中的一个或多个DU位置处的一个或多个计算设备404和图5中的方法500所描述的结构和/或功能。计算设备714可以是与计算设备704不同类型的计算设备。计算设备714还可以是计算设备704和/或包括计算设备704的一个或多个组件。应当理解,在以下采用DU位置处的一个以上计算设备的讨论中,计算设备可以包括一个或多个计算设备704和/或一个或多个计算设备714。
系统700的不同组件(例如,计算设备702、712、计算设备704、714、服务器设备720、通信组件730、750、存储器732、752、处理器738、758、和/或其他组件)可以直接或经由一个或多个网络706连接。此类网络706可包括有线和无线网络,包括但不限于蜂窝网络、广域网(WAN)(例如,互联网)和/或局域网(LAN),其非限制性示例包括蜂窝、WAN、无线保真(Wi-Fi)、Wi-Mal、WLAN、无线电通信、微波通信、卫星通信、光通信、声波通信、电磁感应通信、量子通信和/或任何其他合适的通信技术。
DC位置处的计算设备702可以包括一个或多个通信组件730,所述通信组件730使得计算设备702能够经由无线和/或有线通信通过一个或多个网络706与一个或多个DU位置处的一个或多个计算机设备704、714、一个或多个其他DC位置处的一个或多个其他计算设备712和一个或多个服务器设备720通信。例如,一个或多个通信部件730可以对应于图1中的网络适配器20。
DC位置处的计算设备702可以包括或以其他方式与至少一个存储器732相关联,该存储器可以存储计算机可执行程序模块(例如,计算机可执行程序模块可以包括但不限于隐藏字幕收集和管理模块430、隐藏字幕检索算法模块432和相关联的程序模块)。隐藏字幕收集和管理模块430和隐藏字幕检索算法模块432可对应于图1中的程序模块42。DC位置处的计算设备702还可以包括至少一个处理器738或者以其他方式与至少一个处理器738相关联,至少一个处理器738执行存储在存储器732中的计算机可执行程序模块。DC位置处的计算设备702还可以包括系统总线740,所述系统总线740可以耦合不同部件,包括但不限于通信部件730、存储器732、处理器738和/或其他部件。
尽管DC位置处的计算设备702在图7中被示为包括(一个或多个)隐藏字幕收集和管理模块430和(一个或多个)隐藏字幕检索算法模块432,但是在其他实施例中,任何数量的不同类型的设备可以与(一个或多个)隐藏字幕收集和管理模块430和/或(一个或多个)隐藏字幕检索算法模块432中的全部或一些相关联,或者包括(一个或多个)隐藏字幕收集和管理模块430和/或(一个或多个)隐藏字幕检索算法模块432中的全部或一些。例如,一个或多个服务器设备720可以包括(多个)隐藏字幕收集和管理模块430和/或(多个)隐藏字幕检索算法模块432中的全部或一些。换言之,与隐藏字幕收集和管理模块430和隐藏字幕检索算法模块432相关联的数据处理可以在本地(例如,使用处理器738)和/或远程(例如,在一个或多个服务器设备720处使用其上的一个或多个处理器)执行。设想了所有这样的实施例。
DU位置处的计算设备704可以包括一个或多个通信组件750,所述通信组件750使得计算设备704能够经由无线和/或有线通信通过一个或多个网络706与一个或多个DC位置处的一个或多个计算设备702、712、一个或多个其他DU位置处的一个或多个其他计算设备714和一个或多个服务器设备720通信。例如,一个或多个通信组件750可对应于图1中的网络适配器20。
在DU位置处的计算设备704可以包括至少一个存储器752或以其他方式与至少一个存储器752相关联,所述存储器可以存储计算机可执行程序模块(例如,计算机可执行程序模块可以包括但不限于自动隐藏字幕系统406、基本模型408、声学模型412、语言模型414、定制模块416、检索标准定义模块418、匹配算法模块420、训练算法模块422和相关联的程序模块)。自动隐藏字幕系统406、基本模型408、声学模型412、语言模型414、定制模块416、检索标准定义模块418、匹配算法模块420以及训练算法模块422可对应于图1中的程序模块42。在DU位置处的计算设备704还可以包括至少一个处理器758或者以其他方式与至少一个处理器758相关联,所述至少一个处理器758执行存储在存储器752中的计算机可执行程序模块。服务器系统704还可以包括系统总线760,系统总线760可以耦合不同部件,包括但不限于通信部件750、存储器752、处理器758和/或其他部件。
尽管DU位置处的计算设备704在图7中被示出为包括自动隐藏字幕系统406和定制模块416,但是在其他实施方式中,任意数量的不同类型的设备可以与自动隐藏字幕系统406和定制模块416中的全部或者一些相关联或者包括自动隐藏字幕系统406和定制模块416中的全部或者一些。例如,一个或多个服务器设备720可包括自动隐藏字幕系统406和/或定制模块416中的全部或一些。换言之,与自动隐藏字幕系统406和/或定制模块416相关联的数据处理可在本地(例如,使用处理器758)和/或远程(例如,在一个或多个服务器设备720处使用其上的一个或多个处理器)执行。设想了所有这样的实施例。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。
计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。
本文中所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码,这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和常规的过程式程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一个或多个实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
在此参照根据一个或多个实施例的方法、装置(系统)和计算机程序产品的流程图图示和/或框图描述了多个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。
附图中的流程图和框图示出了根据不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方式中,框中标注的功能可以不按照图中标注的顺序发生。例如,取决于所涉及的功能,连续示出的两个块实际上可以基本上同时执行,或者这些块有时可以以相反的顺序执行。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
本领域技术人员将理解,在本发明的范围内可以有许多变化。例如,本文描述的特定硬件和软件实现细节仅仅是为了说明的目的,而不意味着限制所描述的主题的范围。由此,虽然已经参考其优选实施例具体地示出和描述了本发明,但是本领域技术人员将理解,在不脱离本发明的范围的情况下,可以对其中的形式和细节进行改变。

Claims (20)

1.一种定制自动隐藏字幕系统的方法,所述方法包括:
在数据使用(DU)位置处提供包括基本模型的自动隐藏字幕系统;
在数据使用位置处定义从一个或多个数据收集(DC)位置请求的检索标准;
向所述一个或多个数据收集位置中的每一个发送检索请求,其中,所述检索请求基于所述检索标准;
响应于所述检索请求,在所述数据使用位置处从所述一个或多个数据收集位置中的每一个接收相关隐藏字幕数据;
在所述数据使用位置处处理接收的相关隐藏字幕数据,其中,处理操作包括:计算接收的相关隐藏字幕数据的多个数据子集中的每一个的置信度得分,并且基于选择的一个或多个数据子集中的每一个的所述置信度得分,选择所述数据子集中的一个或多个数据子集;
在所述数据使用位置处定制所述自动隐藏字幕系统,其中,定制操作包括使用所选择的一个或多个数据子集来训练所述基本模型。
2.根据权利要求1所述的方法,所述方法进一步包括:
在所述一个或多个数据收集位置中的每一处,收集隐藏字幕数据;
在所述一个或多个数据收集位置中的每一处,管理所收集的隐藏字幕数据;
在所述一个或多个数据收集位置中的每一处,基于所述检索请求从收集和管理的隐藏字幕数据中选择相关的隐藏字幕数据;
从所述一个或多个数据收集位置中的每一处,向所述数据使用位置发送所述相关的隐藏字幕数据。
3.根据权利要求2所述的方法,其中,在所述一个或多个数据收集位置的每一处,管理收集的隐藏字幕数据包括:利用可检索定位器标记收集的隐藏字幕数据,所述可检索定位器将收集的隐藏字幕数据的至少一部分识别为新闻隐藏字幕或者广告隐藏字幕。
4.根据权利要求2所述的方法,其中,在所述一个或多个数据收集位置中的每一处,管理收集的隐藏字幕数据包括:利用可检索定位符标记收集的隐藏字幕数据,所述可检索定位符根据时间顺序识别收集的隐藏字幕数据的至少一部分,其中,所述可检索定位符包括广播的日、月和年。
5.根据权利要求2所述的方法,其中,在所述一个或多个数据收集位置中的每一处,管理收集的隐藏字幕数据包括:利用可检索定位符标记收集的隐藏字幕数据,所述可检索定位符根据内容识别收集的隐藏字幕数据的至少一部分,其中,所述可检索定位符选自由国际新闻、国家新闻、地方新闻、体育、天气以及谈话节目组成的组。
6.根据权利要求2所述的方法,其中,在所述一个或多个数据收集位置中的每一处,管理收集的隐藏字幕数据包括:利用可检索定位器标记收集的隐藏字幕数据,所述可检索定位器根据元数据和/或关键字识别收集的隐藏字幕数据的至少一部分。
7.根据权利要求2所述的方法,其中,在所述一个或多个数据收集位置中的每一处,管理收集的隐藏字幕数据包括:将收集的所述隐藏字幕数据转换成选自由以下各项所组成的组中的嵌入:词频-逆文档频率(TF-IDF)嵌入、单词嵌入以及句子嵌入。
8.根据权利要求2所述的方法,其中,在所述一个或多个数据收集位置中的每一处,管理收集的隐藏字幕数据包括:使收集的隐藏字幕数据与对应的音频记录配对。
9.根据权利要求1所述的方法,其中,在所述数据使用位置处定义从一个或多个数据收集位置请求的检索标准包括定义检索标准,以利于检索与一个或多个期望目标相关的隐藏字幕数据。
10.根据权利要求1所述的方法,其中,在所述数据使用位置处定义从一个或多个数据收集位置请求的检索标准包括定义检索标准,以利于检索相对于期望数据集检索相关的隐藏字幕数据。
11.根据权利要求10所述的方法,进一步包括:
使用所述基本模型在所述数据使用位置处解码与所述期望数据集对应的音频记录,以产生用作种子数据的解码数据;
其中,在数据使用位置处定义从一个或多个数据收集位置请求的检索标准包括使用解码数据作为用于直接文本检索的检索标准。
12.根据权利要求11所述的方法,进一步包括:
在所述数据使用位置处,使用所述解码数据来构建语言模型;
在所述数据使用位置处,使用所述语言模型对从所述一个或多个数据收集位置中的每一个接收的作为所述相关隐藏字幕数据的文本进行评分。
13.根据权利要求10所述的方法,进一步包括:
使用所述基本模型在所述数据使用位置处解码与所述期望数据集对应的音频记录,以产生用作种子数据的解码数据;
在所述数据使用位置处将所述解码数据转换成嵌入;
其中,在所述数据使用位置处定义从一个或多个数据收集位置请求的检索标准包括使用所述嵌入作为所述检索标准;
在所述数据使用位置处,根据所述检索标准基于相似性评分对从所述一个或多个数据收集位置中的每一个接收的作为所述相关隐藏字幕数据的所述嵌入进行评分。
14.根据权利要求10所述的方法,进一步包括:
使用所述基本模型在所述数据使用位置处解码与所述期望数据集对应的音频记录,以产生用作种子数据的解码数据;
其中,在所述数据使用位置处定制所述自动隐藏字幕系统包括:使用在所述数据使用位置处从与所述种子数据匹配的所述一个或多个数据收集位置中的每一个接收的所述相关隐藏字幕数据,在所述数据使用位置处定制一个或多个基本系统。
15.根据权利要求14所述的方法,其中,在所述数据使用位置处定制所述自动隐藏字幕系统包括定制在所述自动隐藏字幕系统下面的基础自动语音识别(ASR)系统的语言模型、声学模型和词汇表中的至少一个。
16.根据权利要求14所述的方法,其中,在所述数据使用位置处定制所述自动隐藏字幕系统包括定制以下中的至少一个:滤除广告的广告检测器系统、说话者分类系统、说话者改变检测系统以及语音活动检测系统。
17.一种用于定制自动隐藏字幕系统的系统,包括:
在数据使用(DU)位置处的计算设备,其中,所述数据使用位置处的所述计算设备包括一个或多个处理器、一个或多个计算机可读存储设备以及存储在所述一个或多个计算机可读存储设备中的至少一个上的用于由所述一个或多个处理器中的至少一个执行的程序指令,所述程序指令可执行以:
提供包括基本模型的自动隐藏字幕系统;
定义从一个或多个数据收集(DC)位置请求的检索标准;
向所述一个或多个数据收集位置中的每一个发送检索请求,其中,所述检索请求基于所述检索标准;
响应于所述检索请求,从所述一个或多个数据收集位置中的每个数据收集位置接收相关隐藏字幕数据;
处理所接收的相关隐藏字幕数据,其中,所述处理包括:计算接收的相关隐藏字幕数据的多个数据子集中的每一个的置信度得分,并且根据所选择的一个或多个数据子集中的每一个的所述置信度得分,选择所述数据子集中的一个或多个数据子集;
定制所述自动隐藏字幕系统,其中,定制操作包括使用所选择的一个或多个数据子集来训练所述基本模型。
18.根据权利要求17所述的系统,进一步包括:
在所述一个或多个数据收集位置中的每一处的计算设备,其中,在所述一个或多个数据收集位置中的每一处的计算设备包括一个或多个处理器、一个或多个计算机可读存储设备以及存储在所述一个或多个计算机可读存储设备中的至少一个上的用于由所述一个或多个处理器中的至少一个执行的程序指令,所述程序指令可执行以:
收集隐藏字幕数据;
对采集的隐藏字幕数据进行整理;
基于所述检索请求从所收集和管理的隐藏字幕数据中选择相关隐藏字幕数据;
将所述相关隐藏字幕数据发送至所述数据使用位置。
19.一种用于定制自动隐藏字幕系统的计算机可读存储介质,其中包含程序代码,所述程序代码可由一个或多个处理器执行以执行一种方法,所述方法包括:
在数据使用(DU)位置处提供包括基本模型的自动隐藏字幕系统;
在数据使用位置处定义从一个或多个数据收集(DC)位置请求的检索标准;
向所述一个或多个数据收集位置中的每一个发送检索请求,其中,所述检索请求基于所述检索标准;
响应于所述检索请求,在所述数据使用位置处从所述一个或多个数据收集位置中的每一个接收相关的隐藏字幕数据;
在所述数据使用位置处处理所接收的相关隐藏字幕数据,其中,所述处理包括:计算接收的相关隐藏字幕数据的多个数据子集中的每一个的置信度得分,并且基于所选择的一个或多个数据子集中的每一个的所述置信度得分,选择所述数据子集中的一个或多个数据子集;
在所述数据使用位置处定制所述自动隐藏字幕系统,其中,定制操作包括使用所选择的一个或多个数据子集来训练所述基本模型。
20.根据权利要求19所述的计算机可读存储介质,其中,所述方法进一步包括:
在所述一个或多个数据收集位置中的每一处,收集隐藏字幕数据;
在所述一个或多个数据收集位置中的每一处,管理所收集的隐藏字幕数据;
在所述一个或多个数据收集位置中的每一处,基于所述检索请求从收集和管理的隐藏字幕数据中选择相关隐藏字幕数据;
从所述一个或多个数据收集位置中的每一处,向所述数据使用位置发送所述相关隐藏字幕数据。
CN202080079920.0A 2019-12-14 2020-12-10 使用隐藏字幕作为用于隐藏字幕定制系统的并行训练数据 Active CN114730355B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/714,719 US11250872B2 (en) 2019-12-14 2019-12-14 Using closed captions as parallel training data for customization of closed captioning systems
US16/714,719 2019-12-14
PCT/IB2020/061721 WO2021116952A1 (en) 2019-12-14 2020-12-10 Using closed captions as parallel training data for customization of closed captioning systems

Publications (2)

Publication Number Publication Date
CN114730355A CN114730355A (zh) 2022-07-08
CN114730355B true CN114730355B (zh) 2023-06-20

Family

ID=76320495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080079920.0A Active CN114730355B (zh) 2019-12-14 2020-12-10 使用隐藏字幕作为用于隐藏字幕定制系统的并行训练数据

Country Status (4)

Country Link
US (1) US11250872B2 (zh)
JP (1) JP2023505482A (zh)
CN (1) CN114730355B (zh)
WO (1) WO2021116952A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11250872B2 (en) 2019-12-14 2022-02-15 International Business Machines Corporation Using closed captions as parallel training data for customization of closed captioning systems

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104025077A (zh) * 2011-12-28 2014-09-03 英特尔公司 数据流的实时自然语言处理
CN107004210A (zh) * 2014-12-01 2017-08-01 谷歌公司 用于识别观看电视广告的用户的系统和方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
US6266094B1 (en) 1999-06-14 2001-07-24 Medialink Worldwide Incorporated Method and apparatus for the aggregation and selective retrieval of television closed caption word content originating from multiple geographic locations
US6757866B1 (en) 1999-10-29 2004-06-29 Verizon Laboratories Inc. Hyper video: information retrieval using text from multimedia
US7464031B2 (en) * 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
US20070027844A1 (en) 2005-07-28 2007-02-01 Microsoft Corporation Navigating recorded multimedia content using keywords or phrases
US7801910B2 (en) 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US20070154171A1 (en) 2006-01-04 2007-07-05 Elcock Albert F Navigating recorded video using closed captioning
US9100723B2 (en) 2006-03-07 2015-08-04 Samsung Electronics Co., Ltd. Method and system for managing information on a video recording
WO2008029881A1 (fr) * 2006-09-07 2008-03-13 Nec Corporation Système de traitement du langage naturel et système d'enregistrement de dictionnaire
US20080065693A1 (en) 2006-09-11 2008-03-13 Bellsouth Intellectual Property Corporation Presenting and linking segments of tagged media files in a media services network
US20090276402A1 (en) 2008-05-01 2009-11-05 Mobitv, Inc. Search system using media metadata tracks
US20100121973A1 (en) 2008-11-12 2010-05-13 Yuliya Lobacheva Augmentation of streaming media
US8707381B2 (en) 2009-09-22 2014-04-22 Caption Colorado L.L.C. Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
WO2011160741A1 (en) 2010-06-23 2011-12-29 Telefonica, S.A. A method for indexing multimedia information
US8755174B2 (en) 2010-07-16 2014-06-17 Ensco, Inc. Media appliance and method for use of same
US8688679B2 (en) 2010-07-20 2014-04-01 Smartek21, Llc Computer-implemented system and method for providing searchable online media content
US9544528B2 (en) 2010-08-17 2017-01-10 Verizon Patent And Licensing Inc. Matrix search of video using closed caption information
EP2609732A4 (en) 2010-08-27 2015-01-21 Intel Corp METHOD FOR EXTENDING A DIGITAL SCREEN GRAPHIC
US8559793B2 (en) 2011-05-26 2013-10-15 Avid Technology, Inc. Synchronous data tracks in a media editing system
US9396724B2 (en) * 2013-05-29 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
US10331661B2 (en) 2013-10-23 2019-06-25 At&T Intellectual Property I, L.P. Video content search using captioning data
US9491517B2 (en) 2015-03-03 2016-11-08 Google Inc. Systems and methods for broadcast audience interaction and participation
US11056104B2 (en) 2017-05-26 2021-07-06 International Business Machines Corporation Closed captioning through language detection
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11250872B2 (en) 2019-12-14 2022-02-15 International Business Machines Corporation Using closed captions as parallel training data for customization of closed captioning systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104025077A (zh) * 2011-12-28 2014-09-03 英特尔公司 数据流的实时自然语言处理
CN107004210A (zh) * 2014-12-01 2017-08-01 谷歌公司 用于识别观看电视广告的用户的系统和方法

Also Published As

Publication number Publication date
JP2023505482A (ja) 2023-02-09
US20210183404A1 (en) 2021-06-17
CN114730355A (zh) 2022-07-08
WO2021116952A1 (en) 2021-06-17
US11250872B2 (en) 2022-02-15

Similar Documents

Publication Publication Date Title
US9923860B2 (en) Annotating content with contextually relevant comments
CN110717337A (zh) 信息处理方法、装置、计算设备和存储介质
US10268690B2 (en) Identifying correlated content associated with an individual
US11151323B2 (en) Embedding natural language context in structured documents using document anatomy
CN110428825B (zh) 用于忽略流式媒体内容中的触发词的方法和系统
US20200090659A1 (en) Methods and systems for personalized rendering of presentation content
US11188193B2 (en) Method and system for generating a prioritized list
US20190026346A1 (en) Mining procedure dialogs from source content
US10621990B2 (en) Cognitive print speaker modeler
US10762284B2 (en) Automated summarization of digital content for delivery to mobile devices
US10109214B2 (en) Cognitive bias determination and modeling
US20210056131A1 (en) Methods and systems for generating timelines for entities
CN114730355B (zh) 使用隐藏字幕作为用于隐藏字幕定制系统的并行训练数据
US20220179916A1 (en) Computerized grouping of news articles by activity and associated phase of focus
US11445042B2 (en) Correlating multiple media sources for personalized media content
US10831835B2 (en) Providing hyperlinks in presentations viewed remotely
US11841885B2 (en) Multi-format content repository search
US10083231B1 (en) Fuzzy term partition identification
US20180018309A1 (en) Automatically annotating literary text
US11809481B2 (en) Content generation based on multi-source content analysis
US11645476B2 (en) Generating symbolic domain models from multimodal data
US11395051B2 (en) Video content relationship mapping
US11238088B2 (en) Video management system
US11113229B2 (en) Providing a continuation point for a user to recommence consuming content
US11520839B2 (en) User based network document modification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant