CN114846540A - 使用视频剪辑作为词典使用示例 - Google Patents

使用视频剪辑作为词典使用示例 Download PDF

Info

Publication number
CN114846540A
CN114846540A CN201980103316.4A CN201980103316A CN114846540A CN 114846540 A CN114846540 A CN 114846540A CN 201980103316 A CN201980103316 A CN 201980103316A CN 114846540 A CN114846540 A CN 114846540A
Authority
CN
China
Prior art keywords
target
candidate video
video clip
gram
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980103316.4A
Other languages
English (en)
Inventor
T.斯尼尔
S.艾格
Z.阿基瓦
G.B.阿姆朗
T.科恩
R.达安
S.戈尔德施坦
Y.马蒂亚斯
S.奥古拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN114846540A publication Critical patent/CN114846540A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了用于为视频剪辑自动挖掘电子视频文件的语料库的实现,该视频剪辑包含作为伴随或补充词典定义的合适的使用示例的口语对话。然后,这些视频剪辑可以与可搜索数据库中的目标n元语法相关联,该可搜索数据库诸如是在线词典的基础数据库。在各种实施方式中,可以从电子视频文件的语料库中识别其中目标n元语法在目标上下文中被发声出的候选视频剪辑的集合。对于该集合中的每个候选视频剪辑,可以将与该候选视频剪辑相关联的预先存在的手动字幕与基于候选视频剪辑的音频部分的语音识别处理而生成的文本进行比较。至少部分基于该比较,可以为候选视频剪辑计算作为词典使用示例的适合性的度量。

Description

使用视频剪辑作为词典使用示例
背景技术
除了定义之外,词典通常提供关于单词和/或短语的其他信息(本文称为“n元语法”),包括但不限于同义词、反义词、语音信息、词源信息和/或使用示例。特别地,使用示例对于试图理解给定单词或短语如何在各种上下文中使用的个人(本文有时称为“用户”)可能非常有益。纸质和电子形式两者的传统词典中提供的使用示例通常摘自文学作品、报纸等。
无论是电子的还是印制在纸上的,这些使用示例通常以印制形式提供,这可能无助于理解单词或短语的某些方面,诸如其发音(例如,一般地或区域性地)。此外,随着用户越来越多地通过具有自动化助手的口语人机对话来获取信息,包括单词/短语的词典定义,印制使用示例可能具有各种限制。例如,印制的使用示例的文本到语音(“TTS”)处理可以生成在上下文中使用的单词或短语的听觉输出,但是计算机生成的语音可能不一定捕捉到当单词/短语由人类说出时经常使用的正确发音或其他微妙的习惯用语。
电子视频文件可以与传达包含在电子视频文件中的口语对话和其他声音的文本数据相关联(例如,作为元数据)。这些文本数据通常用于在播放视频文件时在屏幕上呈现字幕和/或解说词(caption)。字幕可以包括口语对话,而解说词可以包括对话,并且还可以包括视频文件中包含的其他声音,诸如音乐、声音效果等。换句话说,字幕只传达视频中人说的话,而解说词(有时称为“隐藏解说词”)也传达视频中非语言声音的信息,诸如“戏剧音乐播放”、“车门砰然关上”、“鸟儿啁啾”等。出于本公开的目的,术语“解说词”和“字幕”将被互换使用,以指代传达包含在电子视频文件和/或视频剪辑中的口语对话的印制文本。
发明内容
本公开总体上涉及用于针对视频剪辑自动挖掘电子视频文件的语料库的方法、装置和计算机可读介质(暂时的和非暂时的),该视频剪辑包含作为伴随或补充词典定义的合适使用示例的口语对话。然后,这些视频剪辑可以与可搜索数据库中的目标n元语法相关联,该可搜索数据库例如是在线词典的基础数据库。如本文所使用的,“视频剪辑”或“视频片段”可以包括整个电子视频文件或电子视频文件的部分。例如,包含目标n元语法的话语的视频剪辑可以从包含与目标n元语法不相关的其他无关内容的较长电子视频文件中被切除或提取。
在一些实现中,与电子视频文件相关联的字幕可以用于识别包含对于目标n元语法的候选使用示例的视频文件或其部分。附加地或可替换地,在一些实现中,自动语音识别(“ASR”)处理(可替换地称为“语音到文本”或“STT”处理)可以用于生成电子视频文件或视频剪辑中的口语对话的抄本。这些抄本可用于识别包含对于目标n元语法的候选使用示例的视频文件或其部分。
如上所述,电子视频文件通常可能包含生成词典使用示例所不需要的大量无关信息。因此,包含目标n元语法的话语的视频的部分可以被切除作为视频剪辑。可以使用各种不同的技术和/或试探法来识别要切除的部分。例如,可以例如使用自然语言处理和/或音频处理(例如,检测停顿、计时等)来识别包含目标n元语法的一个或多个完整口语句子,并且视频剪辑中至少包含识别的一个或多个完整句子的部分可以被切除,以潜在地用作词典使用示例。在视频的字幕(或ASR生成的抄本)包含标点符号(例如,大写字母、句号、逗号等)的实现中,该标点符号同样可以用于描绘说出目标n元语法的完整句子。
仅仅因为视频剪辑包含目标n-gram,并不意味着它适合词典使用示例。视频剪辑可能有噪音或质量低,这两种情况都可能使口语对话难以理解。或者,视频剪辑可能包含不适合某些观看者的露骨内容,因此不适合词典使用示例。此外,许多n元语法具有多个含义或意义。一元语法“test”可以是名词或动词,因此将“test”用作名词的视频剪辑可能不适合作为“test”的动词定义的使用示例。
即使在没有这些缺点的视频剪辑中,一些视频剪辑可能比其他视频剪辑更适合作为词典使用示例。因此,在各种实现中,可以分析一个或多个视频特征和/或其他信号,以确定视频剪辑的“作为词典使用示例的适合性”(或“SDUE”)的度量。基于视频剪辑对应的SDUE的度量,可以选择视频剪辑,例如,用于与可搜索数据库中的目标n元语法相关联和/或用于输出给查询用户。在各种实现中,可以为整个电子视频文件、电子视频文件的部分和/或从电子视频文件中切除的视频剪辑计算SDUE的度量。
一般来说,具有更容易被观众理解的口语对话的视频可能更适合用作词典使用的示例。因此,视频的各种特性可用于确定SDUE的度量。视频中越多的口语对话表现出合适的节奏、发音、通告等,它就越有可能适合作为词典使用示例。
在一些实现中,可以基于与视频相关联的字幕(例如,预先存在的、手动生成的)和通过对视频执行ASR处理而生成的抄本的比较来确定视频的SDUE的度量。字幕和ASR生成的抄本可以相互比较以确定相似性(或不相似性)度量。通过使用ASR从与视频相关联的音频中获得文本,并将该文本与现有字幕进行比较,该文本比较可以有效地用于确定音频信号的质量。也就是说,从ASR处理输出的文本的质量与由ASR处理以生成文本的音频信号的质量直接相关。因此,以这种方式比较ASR的文本输出允许分析音频信号的质量。两者之间更大的相似性表明,视频中的对话是清晰的,并且比字幕和ASR生成的抄本偏离很大的不同视频更可能被观众理解。可以使用各种技术(诸如两者之间的编辑距离、两者在嵌入空间中的嵌入之间的距离、为每一个生成的单词包之间的差异等)来确定字幕和ASR生成的抄本之间的相似性度量。
其中说出目标n元语法的人的嘴唇是可见的视频剪辑,例如,因为该人面对相机或者至少在相机的视野中,可以比其中说话者的嘴唇不可见的视频剪辑(例如,他们作为讲述者不在相机内)更适合作为词典使用示例。因此,在一些实现中,在确定视频的SDUE的度量时,可以考虑说话者发声出目标n元语法时检测到的说话者的凝视和/或姿势。
具有较少背景噪音(例如,交通、音乐等)的视频可能更容易理解,因此,更适合词典使用示例。此外,与说话者说话很快和/或不清楚的另一视频相比,说话者说话很慢和/或清楚的视频可能更容易理解,因此,更适合于词典使用示例,因此,在一些实现中,在确定SDUE的度量时,可以考虑候选视频剪辑的检测到的背景噪声水平或视频剪辑中发声出的语音的测量的速率。
除了与声音和/或语音质量相关的信号之外,在各种实现中也可以考虑其他信号。与不太流行或模糊的视频相比,高度流行的视频可能被认为更可信和/或质量更高,因此可能更适合于收集视频使用示例。这可能是因为,例如,流行视频中描绘的人本身可能倾向于流行和/或被认为是可信的。或者,这可能是因为受欢迎的视频更有可能已经被用户看过,并且如下所述,重复观看可以有益于学习单词。因此,在一些实现中,在确定SDUE的度量时,可以考虑视频剪辑的流行度度量。
在个体层面上,人以前看过的视频在教导那个人关于目标n元语法方面可能比以前未看过的视频更有效。因此,在一些实现中,在确定SDUE的度量时,可以考虑给定用户先前已经观看过视频剪辑的确定。同样在个体层面上,个体的特性,诸如他们的位置、人口统计、性别、年龄等,可以用于确定视频的SDUE的度量。假设用户位于以特定口音、方言或特定口语而闻名的特定地理区域。在一些实现中,可以提升更有可能包括(例如,基于拍摄地点、故事设置等)目标n元语法的相同区域特定口音或方言的话语的视频剪辑(例如,被分配更高的SDUE的度量)。
在其中单个电子视频文件包含发声出的目标n元语法的多个实例的一些实现中,可以识别(或者甚至切除)多个视频剪辑,每个视频剪辑包含目标n元语法的至少一个实例。这些多个视频剪辑然后可以用于计算SDUE相对于彼此的度量,然后可以用于选择哪个将被用作词典使用示例。在一些这样的实现中,电子视频文件的最受欢迎的部分(例如,被最多人观看的部分)可以比视频的不太受欢迎/观看的部分接收更高的SDUE的度量。
如前所述,许多n元语法有多个含义。为了使视频词典使用示例有效,它应该在适当的上下文中包括n元语法,即,用户希望了解更多关于n元语法的目标上下文。可以使用各种技术来确定视频剪辑中发声出的n元语法的上下文。例如,当识别候选视频剪辑的集合以考虑作为词典使用示例时,可以对与电子视频文件相关联的文本执行自然语言处理,剪辑从这些文本中被切除以识别其中目标n元语法在目标上下文中被发声出的那些文本。附加地或可替换地,在一些实现中,可以从与电子视频文件相关联的文本中生成文本嵌入。在一些这样的实现中,这些嵌入可以作为输入应用于训练的机器学习模型,以生成输出。该输出可以用于识别其中目标n元语法在目标上下文中被发声出的候选视频剪辑的集合。
在一些实现中,一种方法可以使用一个或多个处理器来实现,并且可以包括:从电子视频文件的语料库中识别候选视频剪辑的集合,其中在该集合的每个候选视频剪辑中在目标上下文中发声出目标n元语法;对于该集合中的每个候选视频剪辑:将与该候选视频剪辑相关联的预先存在的手动字幕与基于该候选视频剪辑的音频部分的语音识别处理而生成的文本进行比较,并且至少部分地基于该比较,为该候选视频剪辑计算作为的词典使用示例的适合性的度量;基于作为词典使用示例的适合性的度量,从候选视频剪辑的集合中选择候选视频剪辑中的一个或多个;以及在可搜索数据库中将一个或多个选择的视频剪辑与目标n元语法相关联。
在各种实现中,该识别可以包括对与电子视频文件相关联的文本执行自然语言处理,以识别在目标上下文中发声出目标n元语法的那些文本。在各种实现中,该识别可以包括将从与电子视频文件相关联的文本生成的文本嵌入作为输入应用于训练的机器学习模型以生成输出,其中该输出用于识别其中目标n元语法在目标上下文中被发声出的候选视频剪辑的集合。
在各种实现中,该计算还可以基于候选视频剪辑中说话者在目标上下文中发声出目标n元语法时检测到的该说话者的凝视。在各种实现中,计算还可以基于候选视频剪辑中说话者在目标上下文中发声出目标n元语法时的检测到的姿势,或者说话者的嘴唇在视频剪辑中是否可见。在各种实现中,该计算还可以基于候选视频剪辑的检测到的背景噪声水平或者候选视频剪辑中发声出的语音的测量的语速。在各种实现中,计算还可以基于视频剪辑的流行度度量。
在各种实现中,计算还可以基于寻找关于目标n元语法的信息的给定用户先前已经观看过视频剪辑的确定。在各种实现中,计算还可以基于视频剪辑中的目标n元语法的说话者的身份或者帮助创建视频剪辑的工作人员的身份。在各种实现中,计算还可以基于视频剪辑中的目标n元语法的说话者的口音。
在各种实现中,一个或多个选择的视频剪辑可以包括多个选择的视频剪辑。在各种实现中,该方法还包括使得多个视频剪辑作为序列一个接一个地播放。在各种实现中,该方法还包括使得图形用户界面(“GUI”)被呈现在客户端设备上,其中该GUI可由用户操作来滑动浏览多个选择的视频剪辑。该方法还可以包括处理视频剪辑的音频部分以基于语音生成文本。
在至少一个进一步的方面,提供了一种系统,包括一个或多个处理器和存储指令的存储器,指令响应于一个或多个处理器对指令的执行,使得一个或多个处理器:从电子视频文件的语料库中识别候选视频剪辑的集合,其中在该集合的每个候选视频剪辑中在目标上下文中发声出目标n元语法;对于该集合中的每个候选视频剪辑:将与该候选视频剪辑相关联的预先存在的手动字幕与基于该候选视频剪辑的音频部分的语音识别处理而生成的文本进行比较,并且至少部分地基于该比较,为该候选视频剪辑计算作为的词典使用示例的适合性的度量;基于作为词典使用示例的适合性的度量,从候选视频剪辑的集合中选择候选视频剪辑中的一个或多个;以及在可搜索数据库中将一个或多个选择的视频剪辑与目标n元语法相关联。
该识别可以包括对与电子视频文件相关联的文本执行自然语言处理,以识别在目标上下文中发声出目标n元语法的那些文本。该识别可以包括将从与电子视频文件相关联的文本生成的文本嵌入作为输入应用于训练的机器学习模型以生成输出,其中该输出用于识别其中目标n元语法在目标上下文中被发声出的候选视频剪辑的集合。该计算还可以基于候选视频剪辑中说话者在目标上下文中发声出目标n元语法时检测到的该说话者的凝视。该计算还可以基于候选视频剪辑中说话者在目标上下文中发声出目标n元语法时的检测到的姿势。该计算还可以基于候选视频剪辑的检测到的背景噪声水平或者候选视频剪辑中发声出的语音的测量的语速。
在另一方面,提供了一种包括指令的非暂时性计算机可读介质,指令响应于一个或多个处理器执行所述指令,使得一个或多个处理器执行以下操作:从电子视频文件的语料库中识别候选视频剪辑的集合,其中在该集合的每个候选视频剪辑中在目标上下文中发声出目标n元语法;对于该集合中的每个候选视频剪辑:将与该候选视频剪辑相关联的预先存在的手动字幕与基于该候选视频剪辑的音频部分的语音识别处理而生成的文本进行比较,并且至少部分地基于该比较,为该候选视频剪辑计算作为的词典使用示例的适合性的度量;基于作为词典使用示例的适合性的度量,从候选视频剪辑的集合中选择候选视频剪辑中的一个或多个;以及在可搜索数据库中将一个或多个选择的视频剪辑与目标n元语法相关联。
其他实现可以包括存储可由处理器执行的指令的非暂时性计算机可读存储介质,以执行诸如上述一种或多种方法的方法。又一实现可以包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作来执行存储在存储器中的指令,以实现一个或多个模块或引擎,这些模块或引擎单独地或共同地执行诸如上述一个或多个方法的方法。
应当理解,在此更详细描述的前述概念和附加概念的所有组合被认为是在此公开的主题的一部分。例如,出现在本公开末尾的所要求保护的主题的所有组合被认为是本文公开的主题的一部分。
附图说明
图1示出了根据各种实现的可以实现本公开的各个方面的环境。
图2A、图2B和图2C描绘了根据各种实现的如何将视频剪辑呈现为词典使用示例的示例。
图3描绘了根据各种实现的图形界面的一个示例,该图形界面可以包括视频剪辑作为词典使用示例。
图4描绘了示出根据各种实现的示例方法的流程图。
图5示意性地描绘了计算机系统的示例架构。
具体实施方式
图1示出了可以实现本公开的选择的方面的环境。该示例环境包括一个或多个客户端设备106和知识系统102。知识系统102可以在例如通过网络通信的一个或多个计算机(有时称为“云”)中实现。知识系统102是信息检索系统的示例,其中可以实现本文描述的系统、组件和技术,和/或本文描述的系统、组件和技术可以与之对接。
一个或多个用户可以经由一个或多个客户端设备106与知识系统102交互。每个客户端设备106可以是通过一个或多个网络110耦合到知识系统102的计算机,网络110诸如是局域网(LAN)或诸如因特网的广域网(WAN)。每个客户端设备106可以是例如台式计算设备、膝上型计算设备、平板计算设备、移动电话计算设备、用户的车辆的计算设备(例如,车载通信系统、车载娱乐系统、车载导航系统)、包括计算设备的用户的可穿戴装置(例如,具有计算设备的用户的手表、具有计算设备的用户的眼镜)等等。可以提供附加的和/或替代的客户端设备。
例如,本文中称为“助理设备”的一些客户端设备可以主要被设计成允许用户使用自由形式的自然语言输入与本文中称为“自动化助理”(也称为“虚拟助理”、“话音助理”、“聊天机器人”等)的软件过程进行交互。如本文所使用的,自由形式输入是由用户制定的输入,并且不限于供用户选择的一组选项。助理设备可以采取各种形式,诸如独立交互式扬声器、具有触摸屏显示器的独立交互式扬声器等。除了助理设备之外的其他客户端设备106也可以实现与自动化助理的交互。
每个客户端设备106和知识系统102可以包括用于存储数据和软件应用的一个或多个存储器、用于访问数据和执行应用的一个或多个处理器、以及便于通过网络通信的其他组件。由一个或多个客户端设备106和/或知识系统102执行的操作可以分布在多个计算机系统上。知识系统102可以被实现为例如在通过网络相互耦合的一个或多个位置的一台或多台计算机上运行的计算机程序。
每个客户端设备106可以操作各种不同的应用。在图1中,客户端设备106包括web浏览器107、杂项应用108和“助理”应用109,该“助理”应用109使用户能够使用自由形式的自然语言输入来参与上述自动化助理。杂项应用108可以采取各种形式,包括但不限于电子邮件客户端、文件传输客户端(例如,FTP、云驱动器等)、专有应用、单语言或多语言词典应用或小应用(例如,作为文字处理应用的特征或插件)、语言翻译应用、视频回放应用、社交联网应用等。
尽管被描绘为客户端设备106的一部分,但助理应用109可在客户端设备106和知识系统102上实现到不同程度。助理应用109可以提供与自动化助理(未描绘)进行交互的界面。自动化助理可以在句法上和/或语义上处理自由形式的自然语言输入,诸如查询、命令等,以确定用户的意图和/或用于实现该意图的任何参数。自动化助理然后可尝试实现该意图,例如,通过搜索响应于输入的信息(例如,词典定义和/或词典使用示例)、执行响应于输入的动作(例如,播放音乐、打开联网的电器)等。在一些实现中,自动化助理可以包括(在客户端设备和/或知识系统102上)图1中未描绘的各种组件,诸如自然语言处理器、实体标记器、语音到文本(“STT”)组件(也称为“自动语音识别”或“ASR”组件)、从自动化助理生成计算机化语音输出的文本到语音(“TTS”)组件等。
在各种实现中,知识系统102可以包括搜索引擎120、知识图引擎124、词典引擎128、视频剪辑引擎132和视频爬虫器136。组件120、124、128、132和/或136中的一个或多个可以彼此组合、省略或在知识系统102外部实现。此外,组件120、124、128、132和/或136中的一个或多个可以使用软件和硬件的任何组合来实现,并且可以在单个计算机上或跨多个计算机实现,类似于知识系统102本身。
搜索引擎120可以维护供知识系统102使用的索引122。搜索引擎120可以处理文档并更新索引122中的索引条目,例如,使用常规和/或其他索引技术。例如,搜索引擎120可以爬虫诸如万维网的一个或多个资源,并索引经由这种爬虫访问的文档。作为另一示例,搜索引擎120可以从一个或多个资源接收与一个或多个文档相关的信息,一个或多个资源诸如是控制这些文档的网站管理员,并且基于这些信息来索引这些文档。文档是与文档地址相关联的任何数据。文档包括网页、文字处理文档、可移植文档格式(PDF)文档、图像、电子邮件、日历条目、视频和网络订阅源等等。每个文档可以包括内容,诸如,例如:文本、图像、视频、声音、嵌入式信息(例如,元信息和/或超链接);和/或嵌入式指令(例如,诸如JavaScript的ECMAScript实现)。
在各种实现中,知识图引擎124可以维护存储知识图的索引126,该知识图包括表示各种实体的节点和表示这些实体之间的关系的加权边。例如,“banana”节点可以连接(例如,作为子节点)到“fruit”节点,“fruit”节点又可以连接(例如,作为子节点)到“produce”和/或“food”节点。作为另一示例,称为“Hypothetical Café”的餐馆可以由节点来表示,该节点还包括诸如其地址、所提供的食物类型、营业时间、联系信息等属性。在一些实现中,“Hypothetical Café”节点可以通过边(例如,表示子-父关系)连接到一个或多个其他节点,诸如“restaurant”节点、“business”节点、表示餐馆所在的城市和/或州的节点等等。这种知识图可以例如通过爬虫多个数据库、在线百科全书等来构建,以累积表示实体的节点和表示这些实体之间的关系的边。在一些实现中,知识图可以填充有关于文档中实体之间的相似性和/或差异的信息。
词典引擎128可以被配置为执行本公开的选择的方面,以使得能够访问存储在词典索引130中的词典定义和其他关联信息。例如,如上所述,除了定义之外,词典索引130还可以存储关于单词和/或短语的其他信息,包括但不限于同义词、反义词、语音信息、词源信息和/或使用示例。特别地,使用示例对于试图理解给定单词或短语如何在各种上下文中使用的个人(本文有时称为“用户”)可能非常有益。存储在词典索引130中(并且通过词典引擎128可访问)的使用示例可以包括从文献、报纸等摘录的使用示例,以及使用本文描述的技术(包括由视频剪辑引擎132和/或视频爬虫器136执行的技术)获得和/或生成的音频和/或视频使用示例。
视频剪辑引擎132可以被配置为在视频剪辑索引134中存储从电子视频文件中选择/生成的多个视频剪辑,以可用为词典使用示例。例如,视频剪辑引擎132可以在与目标n元语法(n-gram)相关联的视频剪辑索引134中存储其中目标n元语法被发声出的一个或多个视频剪辑。在一些实现中,视频剪辑引擎132可以被实现为词典引擎128的一部分或者与词典引擎128相结合,并且原本可以存储在视频剪辑索引134中的视频剪辑可以与词典索引130中的其他词典信息一起存储。
视频爬虫器136可以被配置为爬虫电子视频文件的各种在线储存库,以识别、获取、提取、切除和/或生成包含目标n元语法的话语的视频剪辑。这些视频剪辑然后可以被提供给视频剪辑引擎132,视频剪辑引擎132可以如前所述将它们存储在视频剪辑索引中。如本文所使用的,“电子视频文件”可以指存储同步的视频和音频数据的任何数字文件。电子视频文件可以具有各种格式,包括但不限于音频视频交错(“AVI”)、Flash视频格式(“FLV”)、matroska(“MKV”)、
Figure BDA0003711876740000101
电影格式(“MOV”)、各种版本的运动图像专家组(“MPEG”),诸如MPEG-1、MPEG-2、MPEG-3、MPEG-4(或“MP4”)、Windows Media Video(“WMV”)、HTML5、WEBM等等。
例如,视频爬虫器136可以被配置为与一个或多个视频系统140对接,并从一个或多个视频系统140获得视频剪辑。视频系统140可以被配置为存储、维护、分发(例如,流式传输)和/或索引存储在视频文件数据库(或“语料库”)144中的电子视频文件。在许多情况下,视频系统140可以包括视频搜索引擎142,该视频搜索引擎142被配置为例如从浏览器107、(一个或多个)杂项应用108和/或自动化助理109接收搜索查询,以及针对响应视频文件的搜索索引144。在一些实现中,视频搜索引擎142可以例如在浏览器107或另一应用中提供响应视频文件用于流回放。
视频爬虫器136可以被配置为执行本公开的选择的方面,以从存储在诸如视频文件索引144的视频储存库中的电子视频文件中识别、生成、切除/提取和/或获得包含目标n元语法的话语的视频剪辑。视频爬虫器136可以离线(例如,在停机时间或低网络流量时间、午夜等期间)、分批和/或按需(例如,响应于用户对词典使用示例的请求或用户对词典定义的请求)执行这些操作。如前所述,如本文所使用的,“视频剪辑”或“视频片段”可以包括整个电子视频文件或电子视频文件的部分。例如,包含目标n元语法的话语的视频剪辑可以从包含与目标n元语法无关的其他无关内容的较长电子视频文件中被切除或提取。由视频爬虫器136提供的视频剪辑可以与词典定义和/或存储在词典索引130中的其他词典信息一起存储在视频剪辑索引134中。该信息可以例如通过作为可搜索的数据库的词典引擎128和/或视频剪辑引擎132或者通过任何其他手段来访问。
在各种实现中,视频爬虫器136还可以从其使用本文描述的技术爬虫的电子视频文件中获得与电子视频文件相关联的文本数据,例如作为元数据。这些文本数据可以传达包含在电子视频文件中的口语对话和(一个或多个)其他声音。这些文本数据通常用于在播放视频文件时在屏幕上呈现字幕和/或解说词。字幕可以包括口语对话,而解说词可以包括对话,并且还可以包括视频文件中包含的其他声音,诸如音乐、声音效果等。在许多实现中,视频爬虫器可以与存储在视频剪辑索引134中的视频剪辑相关联地存储这些文本数据。因此,存储在索引134中的视频剪辑可以使用这些文本数据来搜索。
在本说明书中,术语“数据库”和“索引”将被广泛用于指代任何数据集合。数据库和/或索引的数据不需要以任何特定的方式构建,并且它可以存储在一个或多个地理位置的存储设备上。因此,例如,索引122、126、130、134和144可以包括多个数据集合,每个集合可以被不同地组织和访问。
在一些实现中,视频爬虫器136和/或知识系统102(或者在一些情况下甚至是视频系统140)的其他组件可以被配置为从诸如视频文件索引144的电子视频文件的语料库中识别(例如,获得、切除、生成)候选视频剪辑的集合,其中目标n元语法在目标上下文中被发声出。假设目标n元语法是“expiate”,意思是“赎罪”。视频爬虫器136可以在索引144中搜索与电子视频文件相关联的文本数据,或者可以请求视频搜索引擎142搜索文本数据,以识别包含目标n元语法的话语的电子视频文件。
在一些实现中,视频爬虫器136和/或先前描述的自动化助手可以对与电子视频文件相关联的文本数据执行自然语言处理,以识别在目标上下文中发声出目标n元语法的那些文本数据。例如,一元语法“test”可以是名词或动词,因此将“test”用作名词的视频剪辑可能不适合作为“test”的动词定义的使用示例。例如,可以使用自然语言处理来用词性来标记n元语法,从而可以容易地识别其中“test”被用作动词的视频,并且可以从候选视频剪辑的集合中排除其中“test”被用作名词的其他视频。
附加地或可替换地,在一些实现中,视频爬虫器136可以应用从与电子视频文件和/或从中提取的视频剪辑相关联的文本数据生成的文本嵌入,作为训练的机器学习模型的输入,以生成输出。该输出然后可以用于识别其中目标n元语法在目标上下文中被发声出的候选视频剪辑的集合。
例如,其中目标n元语法在任何上下文中被发声出的视频剪辑的超集可以例如通过简单的文本匹配来识别。然后,可以在嵌入空间中确定从与识别的视频剪辑的超集相关联的文本数据生成的文本嵌入和使用目标n元语法的目标形式(例如,名词对动词)生成的嵌入之间的距离。例如,这些距离可以用于确定超集中的哪些识别的视频剪辑应该被选择以包括在目标n元语法的候选词典使用示例的子集中,和/或用于对视频剪辑的子集进行排名。在一些这样的实现中,可以训练深度神经网络来基于这些文本嵌入和/或其他基于文本的信号对视频剪辑和/或电子视频文件进行分类。神经网络可以采取各种形式,诸如前馈神经网络、递归神经网络(“RNN”)、长短期记忆(“LSTM”)网络、门控递归单元(“GRU”)网络、变换网络等等。
在一些实现中,对于包括n元语法“expiate”的话语的集合中的每个候选视频剪辑,视频爬虫器136或另一组件可以将文本数据(例如,诸如与候选视频剪辑相关联的预先存在的手动字幕)与基于候选视频剪辑的音频部分的自动语音识别(“ASR”)处理而生成的文本进行比较。在一些实现中,至少部分基于该比较和/或至少部分基于本文描述的其他信号,视频爬虫器136可以计算候选视频剪辑的作为词典使用示例的适合性的度量(“SDUE”)。如果视频剪辑的字幕被确定为与使用视频剪辑的音频的ASR处理生成的文本相似,则字幕很可能准确地传达了视频剪辑中发声出的内容。同样,它还表明视频的音频部分足够清晰和可理解,具有合适的节奏、通告、发音等,ASR处理能够基于视频剪辑中的口语对话准确地生成文本。
一旦为候选视频剪辑的集合计算了SDUE的度量,就可以例如由视频爬虫器136基于SDUE的度量从候选视频剪辑的集合中选择一个或多个候选视频剪辑。选择的视频剪辑可以与目标语法相关联,例如在诸如视频剪辑索引134和/或在词典索引130的可搜索数据库中。
SDUE的度量可以例如由视频爬虫器136和/或本文描述的其他组件基于不同于(或除了)上述字幕与ASR处理输出的比较的信号和/或因素来计算。例如,在一些实现中,SDUE的度量可以基于视频剪辑中说话者在目标上下文中发声出目标n元语法时检测到的凝视和/或姿势来计算。直观地说,如果用户能够读懂说话者的嘴唇,用户可能更容易理解视频中的说话者,如果说话者的目光朝向相机,或者至少朝向靠近相机的某个点(这在采访中很常见),这将是对的。附加地或可替换地,可以考虑说话者的姿势,例如,以确定说话者在说话时是静止站立的,这表明说话者可能正在进行演示。在一些实现中,如果在讲台后面检测到说话者,则这可能是积极的信号,表明说话者所说的话可能接收到相对强的SDUE的度量。
即使用户看不到说话者的嘴唇,例如,当用户正在使用无显示助理设备时,在说话者面向相机的视频剪辑中,说话者对单词的话语可能更清晰和可理解,例如,因为说话者在说话时面向吊杆麦克风。附加地或可替换地,面向相机的说话者更可能做出更大的努力来清楚地通告和/或以可理解的节奏说话,例如,因为他或她知道他们正在说的内容稍后将被观看。此外,面对相机(和/或站在讲台后面)的说话者可能会从提词器中说出预先写好的对话,而不是即兴发言。当大声朗读时,预先写好对话可能更容易理解,并适合用作词典使用的示例。
作为另一示例,SDUE的度量可以例如由视频爬虫器136基于候选视频剪辑的检测到的背景噪声水平或候选视频剪辑中发声出的语音的测量的语速来计算。如果说话者处于嘈杂的环境中,诸如音乐场所或运动场,说话者的话音可能更难与背景噪声区分开来。相比之下,在没有背景噪音的录音棚里说话的人更容易被理解,因此,他说的话适合作为词典使用的示例。并且相对快的语速可能相对难以理解,尤其是与相对慢的语速相比。因此,以慢速对话为特征的视频剪辑可以被提升到以较快对话为特征的视频剪辑之上。
一般而言,如果用户先前已经观看了视频剪辑,则用户更有可能能够在后续观看时理解和/或考虑视频中的口语对话,因为用户之前已经看过了。因此,在一些实现中,视频剪辑的SDUE的度量可以基于寻找关于目标n元语法的信息的给定用户先前已经观看过该视频剪辑的确定来计算。类似地,一般来说,流行的视频剪辑更有可能被广大用户观看过,或者至少在当前的文化时代精神中是众所周知的。因此,那些视频剪辑可能比模糊的视频剪辑(例如,根据观看次数、喜欢次数、评论次数等确定的)更有可能包括适合用作词典用法示例的对话。即使特定的用户以前没有看过流行的视频,他们也可能大体上知道它,因此可能更准备好或“待发”去思考和学习其中包含的口语对话。
在一些实现中,视频剪辑的SDUE的度量可以例如由视频爬虫器136基于视频剪辑中的目标n元语法的说话者的身份,或者基于帮助创建视频剪辑的工作人员或其他人的身份来计算。假设用户是特定演员的超级粉丝。用户更可能拥有该演员发声出各种对话的场景视频剪辑。此外,用户更有可能对以该演员为主角的视频剪辑感兴趣。因此,如果可以找到其中该演员发声出用户感兴趣的目标n元语法的视频剪辑,则这些视频剪辑可以被提升到其他视频剪辑之上,例如,由于被分配了更大的SDUE的度量。
在一些实现中,视频剪辑的SDUE的度量可以例如由视频爬虫器136基于视频剪辑中的目标n元语法的说话者的口音或方言来计算。假设用户位于特定口音或方言盛行的特定区域。用户可能希望能够尽可能多地用当地方言/口音交谈。因此,其中以本地口音和/或方言说出目标n元语法的视频剪辑可以被提升到不同口音和/或方言的其他视频之上。
图2A至图2C描绘了用户101和至少部分在客户端设备206上实现的自动化助理(未示出)之间的交互的示例。在图2A至图2C中,客户端设备206采取具有扬声器、麦克风和触摸屏的助理设备的形式。用户101可通过向客户端设备206说出命令/查询,或通过与其触摸屏交互来与自动化助理交互。
在图2A中,用户101通过说“Hey Assistant”来调用自动化助手。这可以使自动化助理开始“倾听”用户101接下来说的任何话,例如,通过开始对由客户端设备206的麦克风捕捉的话语执行STT处理。用户101接着问,“What does‘phlegmatic’mean?”自动化助理可听见地回答道,“‘Phlegmatic’means‘slow-moving,sluggish,unemotional’”。尽管未在图2A中描绘,但在一些实现中,自动化助理的全部或部分响应可被呈现在触摸屏上。
用户101然后请求目标n元语法的词典使用示例,询问“can you use that in asentence?”自动化助理通过播放视频剪辑引擎132或词典引擎128基于高的SDUE的度量实时选择的或先前与目标n元语法相关联的视频剪辑来响应。在图2A中,视频剪辑的特征是说话者248具有疲倦或疲惫的外表,发声出这样的句子,“ugh…I couldn’t sleep at alllast night and I’m feeling super phlegmatic right now”。字幕250与口语对话同时呈现,并且目标n元语法在视觉上被强调(并且可以作为超链接被选择以导航到另一界面)。可以首先呈现这个特定的视频剪辑,因为它被分配了相对强的SDUE的度量。SDUE的这种相对强的度量可能是由于例如说话者248面对相机、说话者的嘴唇可见的事实,并且因为使用“phlegmatic”的上下文使得n元语法的含义非常清楚。此外,视频剪辑中似乎没有太多背景噪声。
在一些实现中,包含目标n元语法的话语的多个视频剪辑可以按要求一个接一个地作为序列播放,直到用户101指示自动助手停止,或者直到所有可用的视频或具有SDUE的阈值度量的视频都已被播放。例如,在图2B中,播放第二个视频剪辑,其中描绘了婴儿252,并且屏幕外的说话者说,“She didn’t sleep well last night so she’s actingphlegmatic this morning”。同样,术语“phlegmatic”的上下文与其定义密切相关并说明了其定义。仅仅因为这个原因,图2B的视频剪辑也可以接收相对强的SDUE的度量。然而,由于各种原因,其SDUE的度量可能比图2A中播放的视频稍弱。图中2B的说话者在屏幕外,所以他们的嘴唇是看不见的,并且说话者有意大声清晰地说话的可能性更小,因为他们不是故意面对相机或相机附近的另一点(例如,在采访中很常见)。
在图2C中,播放第三个视频剪辑,其中在诸如音乐场所的嘈杂环境中的人254发声出这样的陈述,“I don’t know what phlegmatic means!!!”该陈述没有提供太多(如果有的话)关于phlegmatic的含义的上下文,并且如在语音气球中所指示的,人254说的许多内容被背景音乐呈现为听不见。人254也没有面对相机,尽管他们的嘴唇是可见的。另外,背景音乐的存在使得观看者不太可能理解人254。所有这些信号可以加起来使得第三视频剪辑被分配了比图2A和图2B的第一视频剪辑和第二视频剪辑分别更弱的SDUE的度量。
附加地或可替换地,在一些实现中,如果说话者被检测为唱目标n元语法,而不是说它,这可能影响视频剪辑的SDUE的度量。例如,可以通过检测说话者的话音的音调变化大于说话者正常说话时通常观察到的变化来检测歌唱。附加地或可替换地,如果在说话者的话音和视频剪辑的背景音乐之间检测到韵律和/或音调对齐,这可以证明说话者在唱而不是在说目标n元语法。
图3描绘了智能电话或平板电脑形式的示例客户端设备306。客户端设备306包括触摸屏360。包括搜索栏362的图形用户界面(“GUI”)呈现在触摸屏360上。在这个示例中,用户(未示出)已经在搜索栏362中输入了术语“vituperate”。响应结果364包括该术语的定义:“blame or insult(someone)in strong or violent language”。响应结果364还包括电子印制的使用示例:
“Rather than touting their own issues or strengths,most modernpoliticians vituperate their opponents”。作为响应结果364的一部分,还提供了类似(Similar)的n元语法,诸如“revile”、“rail against”和“attack”。
在底部,提供了两个视频剪辑366A-B,其中说出了目标n元语法“vituperate”。在各种实现中,这些视频剪辑可以按照基于它们各自的SDUE的度量而选择(例如,排名)的顺序来呈现。例如,第一视频剪辑366A包括与上述印制的示例相同的使用示例,并且被放置在最左侧,作为将其提升到右侧其他视频剪辑之上的方式。在各种实现中,用户可以滑动浏览多个视频剪辑366A-B(并且可能更向右,在图3中不可见),并且挑选单独的剪辑来观看。在一些实现中,诸如箭头或其他类似符号的图形元素368也可以操作来滚动视频。在一些实现中,用户可以发出话音命令,诸如“下一剪辑”或“向右滚动”,以滚动和/或播放更多的视频剪辑。在一些实现中,对于每个视频剪辑,例如,当说出对应的对话时,字幕呈现在视频下方。在包括图3的实现在内的一些实现中,目标n元语法可以被突出显示或者以其他方式在视觉上被区分,并且在一些情况下可以是可操作的(例如,作为超链接)以导航到提供关于n元语法、发声出n元语法的视频剪辑等的更多信息的另一界面。
尽管在此描述了视频剪辑和电子视频文件以获得词典使用示例,但这并不意味着是限制性的。本文所述的技术可用于在诸如音频文件的其他格式的数据中和/或从其他格式的数据中生成词典使用示例。例如,与无显示助理设备交互的用户仍然可能希望了解关于目标n元语法的更多信息,包括听到在目标上下文中发声出的n元语法的音频剪辑。因此,本文描述的技术可以用于从音频文件(或者从具有音轨的视频文件)中提取音频剪辑,其中音频剪辑包含目标n元语法的口语对话。
现在参考图4,描述了用于实践本公开的各个方面的一个示例方法400。为了方便起见,参考执行操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种组件,包括本文描述的各种分类器、引擎和/或客户端应用。此外,尽管方法400的操作以特定顺序示出,但这并不意味着是限制性的。可以重新排序、省略或添加一个或多个操作。
在框402,系统例如通过视频爬虫器136,可以从诸如索引144的电子视频文件的语料库中识别其中目标n元语法在目标上下文中被发声出的候选视频剪辑的集合。这些候选视频剪辑可以通过n元语法在索引144中被索引,该n元语法例如在它们的伴随文本数据(例如,字幕)中和/或从视频剪辑的音频部分生成的STT输出中被找到。因此,这些文本数据可以被例如视频爬虫器136用来识别候选视频剪辑的子集。
在一些实现中,系统可以将整个电子视频文件中发声出目标n元语法的部分切除或提取为视频剪辑。可以以各种方式识别和/或描绘整个电子视频文件的这些部分——例如,确保得到的视频剪辑包括作为完整句子和/或具有足够的上下文的一部分发声出的目标n元语法。在一些实现中,可以分析伴随视频文件和/或从视频文件生成的字幕和/或STT输出,以识别表示口语对话中的逻辑中断的标点符号(例如,句号、逗号)或其他信号(例如,字幕中的换行符、口语对话中的可听停顿)。可以采用各种试探法来识别诸如文本定时、标点符号、大写、出现时间等信号,这些信号中的任何一个都可以用于从电子视频文件中切除包含目标n元语法的话语的视频剪辑部分。
回头参考图4,在框404,系统可以确定该集合中是否有更多的候选视频剪辑。如果答案是肯定的,则方法400可以前进到块406,在该点可以选择该集合中的下一视频剪辑进行分析。
在框408,系统可以将与选择的候选视频剪辑相关联的预先存在的手动字幕与基于候选视频剪辑的音频部分的语音识别处理(即,STT)而生成的文本进行比较,从而在框410,系统可以计算视频剪辑的SDUE的度量。如前所述,从STT处理生成的文本对于视频剪辑可能已经存在,或者它可以根据需要生成,例如,当分析视频剪辑以确定其SDUE的度量时。
在各种实现中,框408的计算可以进一步或可替换地基于本文所述的其他信号,诸如说话者是否面对相机、视频剪辑中的背景噪声、视频剪辑和/或演员/剧组成员的受欢迎程度等等。本文也考虑了其他信号。例如,在一些实现中,视频剪辑可以由用户提交给例如词典引擎128,特别是用作词典使用示例。在一些这样的实现中,用户为此目的提交视频剪辑的事实可能对其SDUE的度量有积极的影响。直觉上,由用户提交的专门用作词典使用示例的视频剪辑很可能适合该使用。
附加地或替代地,用户反馈可以影响为视频剪辑计算的SDUE的度量。如果一个或多个用户在呈现特定视频剪辑作为词典使用示例时提供正面反馈(例如,“喜欢”),则该正面反馈可以增加该视频剪辑向前移动的SDUE的度量强度。类似地,负反馈可能会降低视频剪辑对向前移动的SDUE的度量。
反馈不需要明确。假设多个用户观看目标n元语法的视频剪辑序列的多个视频剪辑,并且所有那些用户在特定视频剪辑之后停止观看。这可能表明,用户观看的序列的最后一个视频剪辑在教导应该如何使用目标n元语法方面特别有效。该视频剪辑可以接收向前移动的更强的SDUE的度量,并且在许多情况下可以被提升到序列的其他视频剪辑之上(例如,之前呈现)。同样,如果多个用户倾向于在特定视频剪辑之后观看至少一个附加视频剪辑,并且很少或没有用户在该特定视频剪辑之后停止,这可能暗示该特定视频剪辑不是合适的词典使用示例。
在可选框412,系统可以确定在框410为选择的候选视频剪辑计算的SDUE的度量是否满足某个最小阈值。如果答案为否,则在框414,选择的候选视频剪辑可以被丢弃或者以其他方式从集合中排除,并且方法400可以返回到框404。然而,如果框412处的答案为是,则在框416,选择的候选视频剪辑可以作为候选保留在该集合中,并且方法400可以返回到框404。
在框404,如果该集合中不再有候选视频剪辑,则在框418,系统可以基于它们各自的SDUE的度量从候选视频剪辑的集合中选择候选视频剪辑中的一个或多个。在框420,系统可以将在框420选择的一个或多个视频剪辑与可搜索数据库(例如,视频剪辑索引134)中的目标n元语法相关联。在一些实现中,在框422(这可能发生在例如用户寻找关于目标n元语法的信息时的某个时候),系统可以使得在框420选择的视频剪辑被输出给用户,例如,一个接一个地(图2A至图C),作为可滑动列表(图3),作为仅音频输出,等等。
图5是示例计算机系统510的框图。计算机系统510通常包括至少一个处理器514,其经由总线子系统512与多个外围设备通信。这些外围设备可以包括存储子系统526,包括例如存储器子系统525和文件存储子系统526、用户接口输出设备520、用户接口输入设备522和网络接口子系统516。输入和输出设备允许用户与计算机系统510交互。网络接口子系统516向外部网络提供一个或多个网络接口,并耦合到其他计算机系统中的对应的接口设备。
用户接口输入设备522可以包括键盘、诸如鼠标、轨迹球、触摸板或图形输入板的定点设备、扫描仪、结合到显示器中的触摸屏、诸如话音识别系统的音频输入设备、麦克风和/或其他类型的输入设备。一般而言,术语“输入设备”的使用旨在包括将信息输入到计算机系统510或通信网络上的所有可能类型的设备和方式。
用户接口输出设备520可以包括显示子系统、打印机、传真机或者诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可视图像的一些其他机制。显示子系统还可以诸如经由音频输出设备提供非视觉显示。一般而言,术语“输出设备”的使用旨在包括从计算机系统510向用户或另一机器或计算机系统输出信息的所有可能类型的设备和方式。
存储子系统526存储提供本文描述的一些或所有模块的功能的程序和数据结构。例如,存储子系统526可以包括执行方法400的选择的方面和/或实现知识系统102的一个或多个组件(诸如视频爬虫器136)的逻辑。
这些软件模块通常由处理器514单独执行或者与其他处理器结合执行。存储子系统526中使用的存储器525可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)530和存储固定指令的只读存储器(ROM)532。文件存储子系统526可以为程序和数据文件提供持久性存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光驱或可移动介质盒。实现某些实现的功能的模块可以由文件存储子系统526存储在存储子系统526中,或者存储在处理器514可访问的其他机器中。
总线子系统512提供了机制,用于使计算机系统510的各种组件和子系统按照预期相互通信。尽管总线子系统512被示意性地示为单条总线,但是总线子系统的替代实现可以使用多条总线。
计算机系统510可以是各种类型,包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络不断变化的性质,图5中描绘的计算机系统510的描述仅旨在作为说明一些实现的特定示例。计算机系统510的许多其他配置可能具有比图5所示的计算机系统更多或更少的组件。
虽然本文已经描述和示出了几个实现,但是可以利用用于执行功能和/或获得结果和/或本文描述的一个或多个优点的各种其他手段和/或结构,并且每个这样的变化和/或修改被认为在本文描述的实现的范围内。更一般地,本文描述的所有参数、尺寸、材料和配置都是示例性的,并且实际的参数、尺寸、材料和/或配置将取决于使用该教导的具体应用。本领域的技术人员将会认识到或者能够仅使用常规实验来确定本文描述的具体实现的许多等同物。因此,应当理解,前述实现仅作为示例给出,并且在所附权利要求及其等同物的范围内,实现可以以不同于具体描述和要求的方式实施。本公开的实现针对本文描述的每个单独的特征、系统、物品、材料、套件和/或方法。此外,两个或多个这样的特征、系统、物品、材料、套件和/或方法的任何组合,如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的,则包括在本公开的范围内。

Claims (20)

1.一种使用一个或多个处理器实现的方法,包括:
从电子视频文件的语料库中识别候选视频剪辑的集合,其中在所述集合的每个候选视频剪辑中在目标上下文中发声出目标n元语法;
对于所述集合中的每个候选视频剪辑:
将与所述候选视频剪辑相关联的预先存在的手动字幕与基于所述候选视频剪辑的音频部分的语音识别处理而生成的文本进行比较,以及
至少部分基于所述比较,为所述候选视频剪辑计算作为词典使用示例的适合性的度量;
基于作为词典使用示例的适合性的度量,从所述候选视频剪辑的集合中选择候选视频剪辑中的一个或多个视频剪辑;以及
在可搜索数据库中将所选择的一个或多个视频剪辑与所述目标n元语法相关联。
2.根据权利要求1所述的方法,其中所述识别还包括对与所述电子视频文件相关联的文本执行自然语言处理,以识别在所述目标上下文中发声出所述目标n元语法的文本。
3.根据权利要求1或2所述的方法,其中所述识别还包括将从与所述电子视频文件相关联的文本生成的文本嵌入作为输入应用于训练的机器学习模型以生成输出,其中所述输出用于识别其中所述目标n元语法在所述目标上下文中被发声出的候选视频剪辑的集合。
4.根据前述权利要求中任一项所述的方法,其中所述计算还基于所述候选视频剪辑中说话者在所述目标上下文中发声出所述目标n元语法时检测到的所述说话者的凝视。
5.根据前述权利要求中任一项所述的方法,其中所述计算还基于所述候选视频剪辑中说话者在所述目标上下文中发声出所述目标n元语法时检测到的所述说话者的姿势。
6.根据前述权利要求中任一项所述的方法,其中所述计算还基于所述候选视频剪辑的检测到的背景噪声水平或所述候选视频剪辑中发声出的语音的测量的语速。
7.根据前述权利要求中任一项所述的方法,其中所述计算还基于所述候选视频剪辑的流行度度量。
8.根据前述权利要求中任一项所述的方法,其中所述计算还基于寻找关于所述目标n元语法的信息的给定用户先前已经观看过所述候选视频剪辑的确定。
9.根据前述权利要求中任一项所述的方法,其中所述计算还基于所述候选视频剪辑中的目标n元语法的说话者的身份或者帮助创建所述候选视频剪辑的工作人员的身份。
10.根据前述权利要求中任一项所述的方法,其中所述计算还基于所述候选视频剪辑中的目标n元语法的说话者的口音。
11.根据前述权利要求中任一项所述的方法,其中一个或多个选择的视频剪辑包括多个选择的视频剪辑。
12.根据权利要求11所述的方法,其中所述方法还包括使所述多个视频剪辑按顺序一个接一个地播放。
13.根据权利要求11或12所述的方法,其中所述方法还包括使图形用户界面(GUI)呈现在客户端设备上,其中所述GUI可由用户操作以滑动浏览多个选择的视频剪辑。
14.一种系统,包括一个或多个处理器和存储指令的存储器,所述指令响应于所述一个或多个处理器对所述指令的执行,使得所述一个或多个处理器:
从电子视频文件的语料库中识别候选视频剪辑的集合,其中在所述集合的每个候选视频剪辑中在目标上下文中发声出目标n元语法;
对于所述集合中的每个候选视频剪辑:
将与所述候选视频剪辑相关联的预先存在的手动字幕与基于所述候选视频剪辑的音频部分的语音识别处理而生成的文本进行比较,以及
至少部分基于所述比较,为所述候选视频剪辑计算作为词典使用示例的适合性的度量;
基于作为词典使用示例的适合性的度量,从所述候选视频剪辑的集合中选择候选视频剪辑中的一个或多个;以及
在可搜索数据库中将一个或多个选择的视频剪辑与所述目标n元语法相关联。
15.根据权利要求14所述的系统,其中所述识别还包括对与所述电子视频文件相关联的文本执行自然语言处理,以识别在所述目标上下文中发声出所述目标n元语法的文本。
16.根据权利要求14或15所述的系统,其中所述识别还包括将从与所述电子视频文件相关联的文本生成的文本嵌入作为输入应用于训练的机器学习模型以生成输出,其中所述输出用于识别其中所述目标n元语法在所述目标上下文中被发声出的候选视频剪辑的集合。
17.根据权利要求14至16中任一项所述的系统,其中所述计算还基于所述候选视频剪辑中说话者在所述目标上下文中发声出所述目标n元语法时检测到的所述说话者的凝视。
18.根据权利要求14至17中任一项所述的系统,其中所述计算还基于所述候选视频剪辑中说话者在所述目标上下文中发声出所述目标n元语法时检测到的所述说话者的姿势。
19.根据权利要求14至18中任一项所述的系统,其中所述计算还基于所述候选视频剪辑的检测到的背景噪声水平或所述候选视频剪辑中发声出的语音的测量的语速。
20.一种包括指令的至少一个非暂时性计算机可读介质,所述指令响应于一个或多个处理器对所述指令的执行,使得所述一个或多个处理器执行以下操作:
从电子视频文件的语料库中识别候选视频剪辑的集合,其中在所述集合的每个候选视频剪辑中在目标上下文中发声出目标n元语法;
对于所述集合中的每个候选视频剪辑:
将与所述候选视频剪辑相关联的预先存在的手动字幕与基于所述候选视频剪辑的音频部分的语音识别处理而生成的文本进行比较,以及
至少部分基于所述比较,为所述候选视频剪辑计算作为词典使用示例的适合性的度量;
基于作为词典使用示例的适合性的度量,从所述候选视频剪辑的集合中选择候选视频剪辑中的一个或多个;以及
在可搜索数据库中将一个或多个选择的视频剪辑与所述目标n元语法相关联。
CN201980103316.4A 2019-11-04 2019-11-04 使用视频剪辑作为词典使用示例 Pending CN114846540A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2019/059721 WO2021091526A1 (en) 2019-11-04 2019-11-04 Using video clips as dictionary usage examples

Publications (1)

Publication Number Publication Date
CN114846540A true CN114846540A (zh) 2022-08-02

Family

ID=68699528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980103316.4A Pending CN114846540A (zh) 2019-11-04 2019-11-04 使用视频剪辑作为词典使用示例

Country Status (4)

Country Link
US (1) US20220405478A1 (zh)
EP (1) EP4049270B1 (zh)
CN (1) CN114846540A (zh)
WO (1) WO2021091526A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2307029T3 (es) * 2003-08-25 2008-11-16 Koninklijke Philips Electronics N.V. Diccionario informativo o de medios de informacion en tiempo real.
US8447604B1 (en) * 2010-04-12 2013-05-21 Adobe Systems Incorporated Method and apparatus for processing scripts and related data
US11140450B2 (en) * 2017-11-28 2021-10-05 Rovi Guides, Inc. Methods and systems for recommending content in context of a conversation

Also Published As

Publication number Publication date
WO2021091526A1 (en) 2021-05-14
EP4049270B1 (en) 2023-10-04
US20220405478A1 (en) 2022-12-22
EP4049270A1 (en) 2022-08-31

Similar Documents

Publication Publication Date Title
US11238854B2 (en) Facilitating creation and playback of user-recorded audio
US9548052B2 (en) Ebook interaction using speech recognition
US11836183B2 (en) Digital image classification and annotation
JP6726354B2 (ja) 訂正済みタームを使用する音響モデルトレーニング
EP3736807A1 (en) Apparatus for media entity pronunciation using deep learning
US10606453B2 (en) Dynamic system and method for content and topic based synchronization during presentations
US20150356971A1 (en) Modification of visual content to facilitate improved speech recognition
US20200151220A1 (en) Interactive representation of content for relevance detection and review
US20220121712A1 (en) Interactive representation of content for relevance detection and review
Skidmore Incremental disfluency detection for spoken learner english
EP4049270B1 (en) Using video clips as dictionary usage examples
US11983217B2 (en) Responding to queries with voice recordings
Riedhammer Interactive approaches to video lecture assessment
US20210103851A1 (en) Rehearsal-based presentation assistance
Akita et al. Language model adaptation for academic lectures using character recognition result of presentation slides
JP7481488B2 (ja) オーディオプレゼンテーション対話を用いた自動アシスタント
US11996094B2 (en) Automated assistant with audio presentation interaction
EP3910626A1 (en) Presentation control
Racca Spoken content retrieval beyond pipeline integration of automatic speech recognition and information retrieval
Kanevsky et al. Speech transformation solutions
Satink The adaptive presentation assistant using grammar-based recognition to support the process of presenting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination