CN112041924A - 通过音素预测进行视觉语音识别 - Google Patents

通过音素预测进行视觉语音识别 Download PDF

Info

Publication number
CN112041924A
CN112041924A CN201980026370.3A CN201980026370A CN112041924A CN 112041924 A CN112041924 A CN 112041924A CN 201980026370 A CN201980026370 A CN 201980026370A CN 112041924 A CN112041924 A CN 112041924A
Authority
CN
China
Prior art keywords
neural network
video
sequence
speech recognition
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980026370.3A
Other languages
English (en)
Other versions
CN112041924B (zh
Inventor
B.希林格福德
I.A.阿萨埃尔
J.F.戈梅斯德弗雷塔斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DeepMind Technologies Ltd
Original Assignee
DeepMind Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DeepMind Technologies Ltd filed Critical DeepMind Technologies Ltd
Publication of CN112041924A publication Critical patent/CN112041924A/zh
Application granted granted Critical
Publication of CN112041924B publication Critical patent/CN112041924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

用于执行视觉语音识别的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括:接收包括多个视频帧的视频,其中每个视频帧描绘双唇;使用视觉语音识别神经网络来处理所述视频,以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应的输出分数,其中所述视觉语音识别神经网络包括一个或多个体积卷积神经网络层和一个或多个时间‑聚合神经网络层;其中可能标记的词汇表包括多个音素;以及使用所述输出分数来确定由所述视频中描绘的双唇所表达的词的序列。

Description

通过音素预测进行视觉语音识别
背景技术
本说明书涉及视觉语音识别。
视觉语音识别是指处理描绘人的嘴唇的视频帧的序列,以基于视频帧中嘴唇的运动来预测人说出的词的序列。
视觉语音识别可以通过机器学习模型,例如神经网络模型,来执行。
发明内容
本说明书描述了一种系统,该系统被实现为一个或多个位置中的一个或多个计算机上执行视觉语音识别的计算机程序。
根据第一方面,提供了用于视觉语音识别的方法和对应的系统。该方法/系统包括接收包括多个视频帧的视频,其中每个视频帧描绘(特定人的)双唇。该方法/系统还包括根据视觉语音识别神经网络参数的当前值使用视觉语音识别神经网络来处理视频,以针对输出序列中的每个输出位置为可能标记(token)的词汇表中的每个标记生成相应的输出分数。视觉语音识别神经网络包括一个或多个体积卷积神经网络层和一个或多个时间-聚合神经网络层。可能标记的词汇表可以包括多个音素。该方法/系统还可以包括使用输出分数来确定由视频中描绘的特定人的双唇所表达的话语(音素);和/或使用输出分数来确定由视频中描绘的双唇所表达的词的序列。
在实施方式中,确定词的序列可以包括预测音素分布的序列(隐式地确定由双唇所表达的话语,即,音素),以及将音素分布的序列提供给解码器以产生词的序列。
该系统/方法的实施方式可以提供视觉语音识别的显著提高的准确性,并且易于适应不同的应用而无需重新训练。进一步的优点将在后面描述。该方法/系统的输出可以包括定义词的序列的数据,例如,文本数据,和/或词可以被例如使用文本转语音系统转换成可听语音以提供语音数据。
在一些实施方式中,体积卷积神经网络层包括多个三维(卷积)过滤器,即,具有在两个空间维度和时间维度上操作的内核的过滤器。这可以帮助捕获嘴唇形成音素时存在的时空关系。在一些实施方式中,视觉语音识别神经网络包括至少五个体积卷积神经网络层。
在一些实施方式中,时间-聚合神经网络层包括一个或多个循环神经网络层,具体来说是一个或多个长短期记忆神经网络层,更具体来说是双向长短期记忆神经网络层。这些可以与3D卷积层一起工作以在更长时间段内进行聚合。
在一些实施方式中,视觉语音识别神经网络包括例如在体积卷积神经网络层和/或时间-聚合神经网络层之间的交错的一个或多个组标准化层(group normalizationlayer)。这样的组标准化层可以在一组(过滤器)通道上进行标准化(normalization)。与例如批次标准化相比,这可以通过减少单元之间的通信促进在多个处理单元上分布计算,并且还可以帮助在训练期间提供更稳定的学习。
如前面所描述的,在一些实施方式中,使用输出分数来确定由视频中描绘的双唇所表达的话语或词的序列包括使用解码器处理输出分数以生成词的序列。解码器可以包括所谓的有限状态转换器(finite state transducer,FST)。在实施方式中,解码器可以执行包括移除重复音素和空格和/或将音素映射到词的操作,特别是使用例如具有退避(诸如Katz退避)的n元语言模型。
在另一方面,提供了一种训练如上所述的视觉语音识别神经网络,即包括一个或多个体积卷积神经网络层和一个或多个时间-聚合神经网络层,的方法。该方法可以包括生成包括多个训练示例(training example)的训练数据,每个训练示例包括:(i)包括多个训练视频帧的训练视频;以及(ii)来自可能音素的词汇表的音素的序列。生成可以包括,对于每个训练视频:获得包括多个原始视频帧和对应的音频数据的原始视频,使用音频数据从可能音素的词汇表中确定音素的序列,以及基于(即,使其表示)在相应原始视频帧中描绘的面部来确定每个训练视频帧。因此,该方法可以包括通过从视觉语音识别神经网络参数的初始值确定视觉语音识别神经网络参数的经训练的值来在生成的训练数据上训练视觉语音识别神经网络。
这种方法可以通过自动化的过程生成大量的训练数据,然后使用生成的训练数据来改善视觉语音识别神经网络的性能。例如,训练数据可以从诸如YouTube视频之类的公共可获得的视频生成。
在实施方式中,使用音频数据从可能音素的词汇表确定音素的序列可以包括获得原始视频的转录,使用经训练的自动语音识别算法来确定转录与音频数据的对准,以及从对准的转录确定音素的序列。该方法还可以包括确定转录以特定的自然语言表达和/或确定原始视频的质量度量超过最小阈值。
训练方法可以采用如下所述的视频处理步骤;这些步骤中的一些或全部也可以应用于通过前述用于视觉语音识别的方法/系统接收的视频。
因此,在实施方式中,基于在相应原始视频帧中描绘的面部来确定训练视频帧可以包括:检测原始视频帧中的面部;确定面部上的多个界标(landmark);使用界标确定面部的规范(即,标准的(standardized))视图;并从面部的规范视图(canonical view)裁剪出描绘双唇的区域。该方法还可以包括对面部上的多个界标的位置进行平滑,例如在时间和/或空间上进行过滤/求平均。这可以帮助实现良好的性能。
视频处理还可以包括:使用面部上的界标来确定面部的朝向在可能朝向的可接受范围内,和/或基于(即,取决于)例如原始视频帧之间嘴张开程度的度量的变化(variation)(即,离散性(dispersion))来确定嘴唇正在表达话语。
实施方式还可以包括例如通过使用音频数据嵌套神经网络处理音频数据来生成音频数据的嵌套,使用视频嵌套神经网络处理原始视频来生成原始视频的嵌套,并确定在音频数据的嵌套与原始视频的嵌套之间的相似度度量超过阈值,来确定原始视频与对应的音频数据是对准的。视频嵌套神经网络可以包括一个或多个体积卷积神经网络层。
在实施方式中,在生成的训练数据上训练视觉语音识别神经网络可以包括,对于多个训练示例中的每个训练示例:根据视觉语音识别神经网络参数的当前值,使用视觉语音识别神经网络来处理训练示例中包括的训练视频,以针对输出序列中的每个输出位置为可能音素的词汇表中的每个音素生成相应的输出分数;基于输出分数和训练示例中包括的来自可能音素的词汇表的音素的序列来确定连接主义时间分类(connectionist temporalclassification,CTC)损失函数的梯度;并使用该梯度来调整视觉语音识别神经网络参数的当前值。CTC损失函数可以基于音素分布的序列来测量音素的序列的可能性(likelihood),而不要求音素的序列与音素分布的序列的对准。
可以实现本说明书中描述的主题的特定实施例,以实现以下优点中的一个或多个。
与一些专业的唇读器和一些常规的系统相比,本说明书中描述的系统可以更准确地执行视觉语音识别(VSR)。例如,当在视频帧的集合上执行VSR时,本说明书中描述的系统可以实现40.9%的词错误率。相比之下,专业的唇读器在相同数据集上的词错误率可以达到92.9%,而一些常规VSR系统在相同的视频帧集合上的词错误率可以达到75%以上。
本说明书中描述的系统通过使用VSR神经网络来预测音素、然后使用词解码来预测与音素对应的词来解耦音素预测与词解码。相比之下,一些常规系统使用VSR神经网络直接预测字符或词(即,无需中间词解码步骤)。解耦音素预测与词解码使本说明书中描述的系统能够实现多个优点。
例如,解耦音素预测与词解码使得可以由系统预测的词的词汇表能够被任意扩展(即,缩放)或缩减,而无需重新训练VSR神经网络。这可以例如通过改变解码器使用的词汇表或语言模型来实现。
作为另一个示例,解耦音素预测与词解码可以减小VSR神经网络必须建模的不确定性,从而使得能够更有效地训练VSR神经网络,例如,以较少的训练迭代来实现更高的预测准确性。更具体而言,VSR中的不确定性可以源自两个主要来源:与嘴唇运动对应的声音中的不确定性(例如,由于与不同声音对应的相似嘴唇运动),以及与这些声音对应的词中的不确定性(例如,由于与不同词对应的相同声音)。与声音对应的词中的不确定性可以用词“fair”和“fare”来说明:这两个是以相同方式发音的不同的词。通过解耦音素预测与词解码,VSR神经网络仅需对与嘴唇运动对应的声音中的不确定性进行建模,而与声音对应的词中的不确定性则由分离的词解码过程进行建模。
本说明书中描述的系统可以被用于辅助例如在外科手术或受伤之后能够移动嘴唇但是难以清晰地对词发音的人。在一个示例中,该系统可以被用于处理描绘具有言语障碍的人的嘴唇的视频帧,以生成与该人的嘴唇运动对应的词的序列。此后,可以通过另一个自动化系统对词的序列进行言语表达。以这种方式,本说明书中描述的系统可以被用于使具有言语障碍的人能够进行交流或者更加清晰地进行交流。该系统也可以被瘫痪但仍然能够移动嘴唇的人使用以使他们能够说话。
本说明书中描述的系统还可以由用户设备(例如,移动电话、计算机或数字助理)使用,以使用户能够通过不出声地说出指定要由该用户设备执行的操作的命令来与该设备交互。如果用户处于安静环境(例如,图书馆)中,那么用户可能希望通过不出声地说出命令来与设备进行交互。
将认识到的是,还有许多其它应用,例如,适用于失聪者和嘈杂的环境。
本说明书的主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中,该主题的其他特征、方面和优点将变得显而易见。
附图说明
图1示出了示例视觉语音识别系统。
图2是视觉语音识别神经网络和解码引擎的示例体系架构的图示。
图3示出了视觉语音识别神经网络的示例体系架构中神经网络层的过滤器尺寸、步幅以及输入和输出维数的示例。
图4示出了用于训练视觉语音识别神经网络的数据流的示例。
图5示出了使用具有示例体系架构的视觉语音识别神经网络处理唇帧的一些示例序列的结果。
图6是用于执行视觉语音识别的示例过程的流程图。
在各个附图中,相同的附图标记和名称指示相同的元素。
具体实施方式
图1示出了示例视觉语音识别系统100。视觉语音识别系统100是被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统的示例,在其中实现以下描述的系统、组件和技术。
视觉语音识别系统100被配置为处理描绘人的嘴唇的多个“原始”(raw)视频帧102的序列,以生成定义该人正在说出的词的序列104的数据。系统100可以被理解为通过基于原始视频帧102中人的嘴唇的运动来识别人正在说出的词来执行唇读。
除了描绘人的嘴唇之外,每个原始视频帧102可以附加地描绘场景中的其它内容,例如,人的整个面部、人的身体的一些或全部,人所在的环境(例如,房间)以及一个或多个其他人。
原始视频帧102可以以任何适当的格式表示。例如,每个原始视频帧102可以由一个或多个“通道”的相应集合表示,其中每个通道由数值(例如,浮点值)的二维阵列表示。在一个示例中,原始视频帧102可以是黑白视频帧,并且每个原始视频帧102可以由相应的灰度强度通道表示。在另一个示例中,原始视频帧102可以是彩色视频帧,并且每个原始视频帧102可以由红色、绿色和蓝色(即,RGB)颜色通道的相应集合表示。
系统100可以包括:(i)视频处理引擎106,(ii)视觉语音识别神经网络108(在本说明书中被称为“VSR网络”),以及(iii)解码引擎110。
视频处理引擎106可以被配置为处理原始视频帧102,以生成从规范(即,标准)的视角描绘人的嘴唇的“嘴唇”视频帧112的对应序列。
为了从原始视频帧102生成嘴唇视频帧112,视频处理引擎106确定人的面部在原始视频帧102中的位置。例如,视频处理引擎106可以通过使用面部检测神经网络处理原始视频帧102以生成定义包围原始视频帧102中的人的面部的界定框的数据来确定面部的位置。
在确定面部在原始视频帧102中的位置之后,视频处理引擎106确定面部界标在面部上的位置。面部界标可以包括例如以下中的一个或多个,例如,眼睛和嘴中的每一个的最左点和最右点、眼睛和嘴中的每一个的最上点和最底点、以及鼻尖。视频处理引擎106可以例如通过使用界标检测模型(例如,神经网络)处理原始视频帧102中的描绘面部的部分来确定面部界标的位置,以生成定义面部界标的位置的数据。
可选地,视频处理引擎106可以例如使用时间高斯核(temporal Gaussiankernel),基于其它原始视频帧中的对应面部界标的位置,来平滑每个原始视频帧中的面部界标的位置。
在确定面部界标的位置之后,视频处理引擎106可以确定“对准”变换的参数值,该“对准”变换在应用于原始视频帧时使得原始视频帧中的面部被从规范视角描绘。更具体而言,视频处理引擎106可以确定对准变换,当该对准变换被应用于原始视频帧时,该对准变换将原始视频帧中的面部界标的位置与参考面部界标位置的集合近似(或精确地)对准。对准变换可以是例如仿射变换或弹性变换。视频处理引擎106可以使用任何适当的优化过程,例如梯度下降优化过程,来确定对准变换的参数值。
视频处理引擎106可以通过将对准变换应用于原始视频帧、然后裁剪至少描绘人的嘴唇的原始视频帧的部分来生成与原始视频帧102对应的嘴唇视频帧112。视频处理引擎106可以例如基于与嘴唇对应的面部界标的位置来识别人的嘴唇在原始视频帧中的位置。除了描绘人的嘴唇之外,嘴唇视频帧112还可以描绘例如人的面部的嘴唇周围的部分或人的整个面部。
VSR网络108被配置为处理嘴唇视频帧112的序列以生成“音素分布”的序列114。音素分布的序列114包括与每个嘴唇视频帧112对应的相应音素分布。每个音素分布为可能音素的词汇表中的每个音素定义相应的分数。例如,每个音素分布可以包括与可能音素的词汇表中的每个音素对应的相应分数。
由与嘴唇视频帧112对应的音素分布定义的给定音素的分数表征嘴唇视频帧112捕获发出给定音素的人的可能性。例如,该分数可以是概率值(即,介于0和1之间的数值),该概率值定义嘴唇视频帧112捕获发出给定音素的人的概率。
可能音素的词汇表包括预定数量(例如,40)的可能音素。可能音素可以包括与沉默(例如,在语音停顿中)对应的“空白”符号。
参考图2和图3更详细地描述VSR网络108的示例体系架构。
解码引擎110被配置为处理音素分布的序列114,以生成定义与嘴唇视频帧112中描绘的嘴唇的运动对应的词的序列104的数据。解码引擎110可以使用多种解码技术中的任何一种来从音素分布的序列114生成词的序列104。参考图2更详细地描述示例解码引擎110。
图2是VSR网络和解码引擎(例如,参考图1描述的VSR网络108和解码引擎110)的示例体系架构的图示200。
图2所示的VSR网络具有用于从嘴唇视频帧112提取时空特征的三维(3D)卷积模块202和用于随时间聚合时空特征以生成音素分布的序列114的时间模块(temporal module)204。时空特征是指整合来自嘴唇视频帧内的“空间信息”和来自跨嘴唇视频帧的“时间”信息的特征。
3D卷积模块202具有五个体积卷积神经网络层(“时空卷积层”)的序列,每个体积卷积神经网络层生成相应的时空特征。体积卷积层是指具有三维(3D)卷积过滤器的卷积层。3D卷积过滤器使体积卷积神经网络层的神经元具有在嘴唇视频帧内和嘴唇视频帧之间两者延伸的感受野。因此,3D卷积过滤器使体积卷积神经网络层能够生成时空特征,这些时空特征既可以表征视频帧内的嘴唇形状,又可以表征视频帧之间的嘴唇运动。体积卷积神经网络层的感受野可以比音素的典型持续时间长,例如大约是其两倍。
除了体积卷积神经网络层之外,3D卷积模块202在每个体积卷积层之后还包括相应的池化层和组标准化层(group normalization layer)。组标准化层将其输入划分为通道的组,并计算这些组内的标准化统计信息(即,不是像批次标准化中那样沿着批次维度)。标准化统计信息可以包括均值μ和/或标准偏差σ或方差σ2;标准化可以包括计算
Figure BDA0002727940880000081
Figure BDA0002727940880000082
VSR网络向时间模块204提供3D卷积模块202的输出,该输出包括与每个嘴唇视频帧112对应的相应的时空特征向量。时间模块204具有三个双向长短期记忆(LSTM)神经网络层的序列和多层感知器(MLP)。
第一双向LSTM层处理由3D卷积模块202输出的时空特征向量的序列,以生成与每个视频帧112对应的相应的聚合特征向量。第二和第三双向LSTM层分别处理由第一和第二双向LSTM层生成的聚合特征向量的序列。
MLP包括两个全连接层和一个soft-max层,该soft-max层被配置为处理由第三双向LSTM层生成的聚合特征向量,以生成定义音素分布的序列114的输出。音素分布的序列包括与每个嘴唇视频帧112对应的相应音素分布。
除了双向LSTM层和MLP之外,时间模块204还在双向LSTM层和MLP中的每一个之后包括相应的组标准化层。
解码引擎110处理音素分布的序列114以生成与嘴唇视频帧112中的嘴唇的运动对应的词的序列104。在图2所示的示例中,解码引擎110包括折叠引擎(collapse engine)206(有时被称为折叠有限状态转换器)、词典引擎208(有时被称为词典有限状态转换器)和语言模型引擎210(有时被称为语言模型有限状态转换器)。
折叠引擎206被配置为处理音素的序列以移除重复的音素和空白符号。
词典引擎208被配置为将由折叠引擎206生成的经处理的音素的序列映射到对应的词的序列(例如,使用从音素到词的预定映射)。
语言模型引擎210被配置为处理由词典引擎208生成的词的序列,以确定词的序列表示给定自然语言(例如,英语)的有效短语的可能性。在一个示例中,语言模型引擎210可以用卡茨退避(Katz backoff)来实现n元语言模型。
解码引擎110使用折叠引擎206、词典引擎208和语言模型引擎210来对与嘴唇视频帧112中嘴唇的运动对应的可能的词的序列执行搜索(例如,束搜索(beam search))。解码引擎110可以通过针对多个可能的词的序列中的每一个确定词的序列与视频帧112中嘴唇的运动对应的可能性来执行搜索。每个词的序列的可能性可以基于以下(例如,其乘积)来确定:(i)根据音素分布的序列114,音素的序列与词的序列对应的可能性,以及(ii)根据语言模型引擎210,词的序列的可能性。
可以由解码引擎110执行的操作的示例参考例如M.Mohri、F.Pereira和M.Riley:“Weighted finite-state transducers in speech recognition”,Computer Speech&Language,16(1),第69-88页(2002)或Y.Miao、M.Gowayyed和F.Metze:“Eesen:end-to-endspeech recognition using deep RNN models and WFST-based decoding”,Workshop onAutomatic Speech Recognition and Understanding,第167-174页,IEEE,2015更详细地描述。
作为通过使用所描述的系统执行视觉语音识别可以实现的性能增益的示例之一,参考图2描述的VSR网络和解码引擎对于视频帧的特定测试集可以实现33.6±0.6的音素错误率、28.3±0.9的字符错误率和40.9±1.2的词错误率。相比之下,专业的读唇器对于相同的视频帧集合达到92.9±0.9的词错误率。
图3示出了以下的示例:(i)与图2所示的示例VSR网络的体积卷积层(“conv1”至“conv5”)和池化层(“pool1”至“pool5”)对应的过滤器尺寸和步幅,以及(ii)图2所示的示例VSR网络的体积卷积层、池化层、双向LSTM层(“bilstm6”至“bilstm8”)和全连接层(“fc9”至“fc10”)的输出通道和输入的维度。
图4示出了用于训练参考图1描述的VSR网络108的数据流400的示例。在由多个训练示例(training example)402组成的训练数据集上训练VSR网络108。每个训练示例402包括:(i)描绘人的嘴唇的嘴唇视频帧404的序列(即,包括多个训练帧的训练视频),以及(ii)来自可能音素的词汇表的音素406的序列,其与嘴唇视频帧404中描绘的嘴唇的运动对应。一些或全部相同的视频处理步骤可以被用于预处理原始视频,以供与经训练的模型一起使用(省略虚线组件,其主要用途是产生配对的训练数据)。
为了生成训练示例402,获得原始视频408和对应的语音片段410(音频数据)的集合,例如,从视频共享网站上可用的视频中提取。
片段长度过滤器412识别并移除持续时间在预定范围(例如,1秒-12秒)之外的视频。
英语语言过滤器414识别并移除未用英语表达语音的视频。为了识别视频中表达的语音的语言,过滤器414可以使用语言分类器来处理语音的转录(例如,使用自动语音识别技术生成的语音的转录)。为了训练VSR网络108以在除英语以外的给定语言中执行视觉语音识别,过滤器414可以识别并移除具有未以该给定语言表达的语音的视频。
镜头边界检测过滤器416例如使用阈值颜色直方图分类器来识别并移除包括镜头过渡的视频。视频中的镜头过渡是指视频的视角突然改变的帧(例如,当视频从描绘一个人的面部跳到描绘另一个人的面部时)。
面部检测器/跟踪器418检测并跟踪在未被片段长度过滤器412、英语语言过滤器414或镜头边界检测过滤器416(例如,使用FaceNet神经网络)过滤掉的每个剩余视频中描绘的面部。
剪辑质量过滤器420识别并移除不满足一个或多个质量标准的视频(即,原始视频的质量度量低于最小阈值的视频)。例如,剪辑质量过滤器420可以识别并移除模糊或晃动的视频、其中所描绘的面部的眼睛到眼睛宽度小于预定像素数量的视频(即,面部太小的视频),或帧速率小于预定最小帧速率的视频。
面部界标平滑引擎422处理每个视频以识别在视频的每个视频帧中描绘的面部中的多个面部界标,并使用时间高斯核(例如,如参考图1所描述的)来平滑所得的面部界标位置。
可以根据面部界标来确定每个视频中的面部朝向(例如,偏航和俯仰)的变化,并且可以识别并移除其中面部朝向的变化超过可接受范围(例如,±30°)的视频。
视图规范化引擎424处理每个视频的每个视频帧,以使用面部界标确定视频帧中描绘的面部的规范(即,标准)视图。例如,视图规范化引擎424可以向每个视频帧应用相应的仿射变换,该仿射变换将视频帧中的面部界标的位置与参考面部界标位置的集合大致(或精确地)对准(例如,如参考图1所描述的)。在确定每个视频帧中所描绘的面部的规范视图之后(例如,通过将仿射变换应用于视频帧),视图规范化引擎424从视频帧中裁剪出描绘嘴唇的区域(即,生成嘴唇视频帧)。
讲话过滤器426识别并移除视频中所描绘的面部没有讲话的视频。为了识别视频中描绘的面部是否在讲话,讲话过滤器426计算视频的每个视频帧中的嘴张开程度的度量,并且通过面部周围的界定框的尺寸来标准化嘴张开程度的度量。然后,讲话过滤器确定嘴张开程度度量的离散性的度量(例如,标准偏差),并且仅当离散性的度量满足预定阈值时才将面部识别为正在讲话。讲话过滤器426可以将视频帧中嘴张开程度的度量确定为将指示嘴的最高点和最低点的面部界标分开的像素数量。
讲话分类器引擎428识别并移除语音片段410未与视频帧对准(即,同步)的视频。为了识别语音片段与视频帧未对准的视频,讲话分类器引擎428可以生成视频帧的嵌套和对应语音片段的嵌套。讲话分类器引擎428可以通过使用视频嵌套神经网络(例如,可以包括一个或多个体积卷积层)处理视频帧来生成视频帧的嵌套。讲话分类器引擎428可以通过使用音频嵌套神经网络处理语音片段的对数梅尔声谱图表示来生成语音片段的嵌套。在生成视频嵌套和音频嵌套之后,仅当相应嵌套之间的相似性(similarity)度量满足预定阈值时,讲话分类器引擎428才可以将视频帧识别为与语音片段对准。相似性度量可以是例如欧几里得相似性度量或余弦相似性度量。
当且仅当视频与语音片段同步时,才可以联合训练由讲话分类器引擎428使用的视频嵌套神经网络和音频嵌套神经网络以生成视频与语音片段的相似(即,根据相似性度量)嵌套。
视频或音频片段的“嵌套”(embedding)是指表示视频或音频片段的数值(numerical value)的有序集合(例如,数值的向量或矩阵)。
可以以多种方式中的任何一种来确定与嘴唇帧404的序列对应的音素406的序列。在一个示例中,自动语音识别处理可以被用于确定与嘴唇帧404对应的语音片段410的近似转录。由自动语音识别过程生成的近似转录可以被用于将(例如,由人生成的)语音片段的实际转录与视频和对应语音片段(音频数据)对准。此后,可以将实际转录映射到音素406的序列(例如,根据从词到音素的预定映射),该因素406的序列具有与实际转录相同的与视频的对准。
训练引擎430可以使用训练示例402来训练VSR网络108,即,从VSR网络108的模型参数432的初始值确定VSR网络108的模型参数432的经训练的值。
训练引擎430通过多次训练迭代来训练VSR网络108。在每次训练迭代,训练引擎430对多个训练示例的当前“批次”(即,集合)进行采样。
对于当前批次中的每个训练示例,训练引擎430使用VSR网络108来处理包括在训练示例中的嘴唇帧的序列,以生成对应的音素分布的序列。训练引擎430然后确定目标函数436的梯度434,并且使用梯度434来调整模型参数432的当前值。目标函数436取决于:(i)由VSR网络108针对训练示例中的嘴唇帧的序列生成的音素分布的序列,以及(ii)训练示例中包括的音素的序列。
训练引擎430可以使用例如反向传播技术来确定目标函数436的梯度。训练引擎430可以使用各种梯度下降优化过程(例如,RMSprop或Adam优化过程)中的任何一种的更新规则来使用梯度434更新模型参数432的当前值。
目标函数436可以是例如连接主义时间分类(CTC)目标函数(例如,Graves等人的“Connectionist temporal classification:Labelling unsegmented sequence datawith recurrent neural networks”,ICML 2006:369 376)。CTC目标函数根据由VSR网络108针对训练示例生成的音素分布的序列来测量训练示例中包括的音素序列的可能性,而不需要音素的序列与音素分布的序列的对准。
目标函数436还可以是例如神经转换器损失目标函数(例如,如A.Graves:“Sequence transduction with recurrent neural networks”,arXiv:1211.3711v1(2012)的第2.5节中所描述的)。
训练引擎430可以继续训练VSR网络108,直到满足训练终止标准为止,例如,直到已经执行了预定数量的训练迭代,或者直到VSR网络108的准确性达到预定阈值。
图5图示了使用具有参考图2描述的体系架构的VSR网络处理嘴唇帧的示例序列500的结果。502图示了嘴唇帧500被显著图(saliency map)覆盖,其中,具有较浅颜色的像素被确定为,与具有不那么浅的颜色的像素相比,对于由VSR网络生成的预测来说更加重要。对于每个嘴唇帧,“top-1”504、“top-2”506和“top-3”508指示按照与嘴唇帧对应的音素分布与最高分数相关联的三个音素,而“熵”510指示与嘴唇帧对应的音素分布的熵(其中,熵的量值由对应条的长度图示)。
图6是用于执行视觉语音识别的示例过程600的流程图。为了方便起见,将过程600描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如,根据本说明书适当编程的视觉语音识别系统(例如,图1的视觉语音识别系统100)可以执行过程600。
该系统接收具有多个视频帧的视频,其中每个视频帧描绘人的双唇(602)。系统可以通过对视频帧应用对准变换来处理每个视频帧,该对准变换使视频帧中的嘴唇和面部被从规范(即,标准)视角进行描绘,然后从视频帧裁剪围绕嘴唇的区域。
该系统使用VSR网络处理视频,以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应的输出分数(604)。输出序列中的每个位置与相应的视频帧对应。在输出位置处的可能标记的词汇表中的每个标记的输出分数可以被称为“标记分布”。标记可以是例如音素(如前所述)、字符、词片(word piece)或全词。在输出序列中的给定输出位置处的给定标记的分数表征与给定输出位置对应的视频帧捕获发出给定标记的人的可能性。VSR网络包括一个或多个体积卷积神经网络层(即,各自具有3D卷积过滤器的层)和一个或多个“时间-聚合”神经网络层(例如,循环层)。在一些实施方式中,VSR网络包括至少五个体积卷积层。
该系统使用由VSR网络生成的分数(即,标记分布)来确定由视频中描绘的双唇说出的词的序列(606)。例如,系统可以使用解码器(例如,参考图2描述的解码引擎)来处理由VSR网络生成的标记分布。
实现如本文所述的系统的设备,例如移动电话,可以要求在使用之前进行生物特征认证以解锁设备。在一些实施方式中,例如,当VSR网络在服务器上运行时,系统可以对接收到的视频应用基于面部的认证,以进行进一步的访问控制。
本说明书结合系统和计算机程序组件来使用术语“配置”。对于要被配置为执行特定操作或动作的一个或多个计算机的系统,这意味着系统已经在其上安装了在操作时使得系统执行操作或动作的软件、固件、硬件或它们的组合。对于要被配置为执行特定操作或动作的一个或多个计算机程序,这意味着该一个或多个程序包括指令,当由数据处理装置执行时,该指令使得该装置执行操作或动作。
本说明书中描述的主题和功能操作的实施例可以在数字电子电路、有形体现的计算机软件或固件、计算机硬件(包括本说明书中公开的结构及其结构等同物)、或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序,即,在有形的非瞬态存储介质上编码的计算机程序指令的一个或多个模块,以由数据处理装置执行或控制其操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问存储设备或它们中的一个或多个的组合。可替代地或附加地,程序指令可以被编码在人工生成的传播信号(例如,机器生成的电、光或电磁信号)上,生成这些信号以便对信息进行编码以传输到合适的接收器装置以由数据处理装置执行。
术语“数据处理装置”是指数据处理硬件,并且涵盖用于处理数据的所有种类的装置、设备和机器,包括例如可编程处理器、计算机或多个处理器或计算机。装置还可以是或还包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,装置可以可选地包括为计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
计算机程序(也可以被称为或描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码)可以用任何形式的编程语言编写,包括编译或解释语言、或者声明或过程语言;并且它可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分(例如标记语言文档中存储的一个或多个脚本)中,存储在专用于所讨论的程序的单个文件中,或者存储在多个协调文件(例如存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以被部署为在一个计算机上或者在位于一个站点或分布在多个站点并通过数据通信网络互连的多个计算机上执行。
在本说明书中,术语“引擎”广泛地用于指带被编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。一般而言,引擎将被实现为安装在一个或多个位置的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下,一个或多个计算机将专用于特定引擎;在其它情况下,可以在同一个或多个计算机上安装并运行多个引擎。
本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机执行,所述可编程计算机执行一个或多个计算机程序,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程还可以由专用逻辑电路系统(例如,FPGA或ASIC)执行,或者由专用逻辑电路和一个或多个编程的计算机的组合来执行。
适于执行计算机程序的计算机可以基于通用或专用微处理器或两者,或者任何其它种类的中央处理单元。一般而言,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或结合在其中。一般而言,计算机还将包括一个或多个用于存储数据的大容量存储设备(例如,磁盘、磁光盘或光盘),或者被可操作地耦合到一个或多个大容量存储设备以从其接收数据或向其传送数据或两者兼有。但是,计算机不需要具有这样的设备。而且,计算机可以嵌入到另一个设备中,例如,移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或便携式存储设备(例如通用串行总线(USB)闪存驱动器),仅举几个示例。
适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,例如包括:半导体存储器设备,例如,EPROM、EEPROM和闪存设备;磁盘,例如,内部硬盘或可移动盘;磁光盘;和CD ROM和DVD-ROM盘。
为了提供与用户的交互,本说明书中描述的主题的实施例可以在计算机上实现,该计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可以通过其向计算机提供输入的键盘和指点设备(例如,鼠标或轨迹球)。也可以使用其它种类的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。此外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求而向用户的设备上的网络浏览器发送网页。而且,计算机可以通过将文本消息或其它形式的消息发送到个人设备(例如,运行消息收发应用的智能电话)并从用户接收响应消息来与用户交互。
用于实现机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元,用于处理机器学习训练或生产(即,推理)工作负载的公共部分和计算密集部分。
可以使用机器学习框架(例如,TensorFlow框架、微软认知工具包(MicrosoftCognitive Toolkit)框架、Apache Singa框架或Apache MXNet框架)来实现和部署机器学习模型。
本说明书中描述的主题的实施例可以在计算系统中实现,该计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有图形用户界面或网络浏览器或app的客户端计算机,用户可以通过该图形用户界面或网络浏览器或app与本说明书中描述的主题的实施方式进行交互),或者一个或多个这样的后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信(例如,通信网络)相互连接。通信网络的示例包括局域网(LAN)和广域网(WAN),例如互联网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系是通过在各自的计算机上运行并且彼此之间具有客户端-服务器关系的计算机程序产生的。在一些实施例中,服务器例如向用户设备传输数据,例如,HTML页面,例如以用于向与充当客户端的设备交互的用户显示数据并从该用户接收用户输入。可以在服务器处从设备接收在用户设备处生成的数据,例如,用户交互的结果。
虽然本说明书包含许多具体的实施细节,但这些不应当被解释为对任何发明的范围或所要求保护的范围的限制,而是对可能特定于特定发明的特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地实现或以任何合适的子组合来实现。而且,尽管特征可能在上文描述为以某些组合起作用,甚至最初被这样要求保护,但是在某些情况下,可以从所要求保护的组合中删除该组合中的一个或多个特征,并且所要求保护的组合可以指向子组合或子组合的变化。
类似地,尽管操作以特定次序在附图中描绘并在权利要求中记载,但这不应当被理解为要求以所示的特定次序或以顺序的次序执行这些操作,或者要求执行所有所示的操作以获得期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。而且,上述实施例中各种系统模块和组件的分离不应当被理解为在所有实施例中都要求这种分离,并且应当理解的是,所描述的程序组件和系统一般可以一起集成在单个软件产品中或者封装到多个软件产品中。
已经描述了本主题的特定实施例。其它实施例在以下权利要求的范围内。例如,权利要求中记载的动作可以以不同的次序执行,并且仍然实现期望的结果。作为一个示例,附图中描绘的过程不一定要求所示的特定次序或顺序的次序来实现期望的结果。在一些情况下,多任务处理和并行处理可能是有利的。

Claims (25)

1.一种用于视觉语音识别的方法,所述方法包括:
接收包括多个视频帧的视频,其中每个视频帧描绘双唇;
根据视觉语音识别神经网络参数的当前值使用视觉语音识别神经网络处理所述视频,以针对输出序列中的每个输出位置为可能标记的词汇表中的每个标记生成相应的输出分数,
其中视觉语音识别神经网络包括一个或多个体积卷积神经网络层和一个或多个时间-聚合神经网络层;
其中可能标记的词汇表包括多个音素;以及
使用输出分数来确定由所述视频中描绘的双唇所表达的词的序列。
2.如权利要求1所述的方法,其中确定词的序列包括:预测音素分布的序列,并将音素分布的序列提供给解码器以产生词的序列。
3.如权利要求1或2所述的方法,其中所述体积卷积神经网络层包括多个三维过滤器。
4.如权利要求1-3中的任一项所述的方法,其中所述时间-聚合神经网络层包括一个或多个循环神经网络层。
5.如权利要求4所述的方法,其中所述循环神经网络层包括一个或多个长短期记忆神经网络层。
6.如权利要求5所述的方法,其中所述长短期记忆神经网络层中的一个或多个是双向长短期记忆神经网络层。
7.如权利要求1-6中的任一项所述的方法,其中所述视觉语音识别神经网络包括一个或多个组标准化层。
8.如前述任一项权利要求所述的方法,其中使用输出分数来确定由所述视频中描绘的双唇所表达的词的序列包括:使用解码器来处理输出分数以生成词的序列。
9.如权利要求8所述的方法,其中所述解码器包括有限状态转换器。
10.如权利要求8-9中的任一项所述的方法,其中所述解码器执行操作,包括:
移除重复的音素和空白;以及
将音素映射到词,包括使用语言模型。
11.如权利要求10所述的方法,其中所述语言模型是具有退避的n元语言模型。
12.如权利要求1-11中的任一项所述的方法,其中所述视觉语音识别神经网络包括至少五个体积卷积神经网络层。
13.一种训练如权利要求1-12中的任一项中所述的视觉语音识别神经网络的方法,该方法包括:
生成包括多个训练示例的训练数据,每个训练示例包括:(i)包括多个训练视频帧的训练视频;以及(ii)来自可能音素的词汇表的音素的序列,所述生成包括,对于每个训练视频:
获得包括多个原始视频帧的原始视频和对应的音频数据;
使用音频数据从可能音素的词汇表确定音素的序列;以及
基于在相应原始视频帧中描绘的面部来确定每个训练视频帧;
在生成的训练数据上训练视觉语音识别神经网络,包括从视觉语音识别神经网络参数的初始值确定视觉语音识别神经网络参数的经训练的值。
14.如权利要求13所述的方法,其中使用音频数据从可能音素的词汇表确定音素的序列包括:
获得原始视频的转录;
使用经训练的自动语音识别算法来确定转录与音频数据的对准;以及
从对准的转录确定音素的序列。
15.如权利要求14所述的方法,还包括确定转录以特定自然语言表达。
16.如权利要求13-15中的任一项所述的方法,还包括确定原始视频的质量度量超过最小阈值。
17.如权利要求13-16中的任一项所述的方法,其中基于在相应原始视频帧中描绘的面部来确定训练视频帧包括:
检测原始视频帧中的面部;
确定面部上的多个界标;
使用界标确定面部的规范视图;以及
从面部的规范视图裁剪出描绘双唇的区域。
18.如权利要求17所述的方法,还包括平滑面部上的多个界标。
19.如权利要求17-18中的任一项所述的方法,还包括使用面部上的界标来确定面部的朝向在可能朝向的可接受范围内。
20.如权利要求17-19中的任一项所述的方法,还包括基于原始视频帧之间的嘴张开程度的变化来确定嘴唇正在表达话语。
21.如权利要求13-20中的任一项所述的方法,还包括确定原始视频与对应的音频数据是对准的,包括:
通过使用音频数据嵌套神经网络处理音频数据来生成音频数据的嵌套;
通过使用视频嵌套神经网络处理原始视频来生成原始视频的嵌套;以及
确定在音频数据的嵌套与原始视频的嵌套之间的相似性度量超过阈值。
22.如权利要求21所述的方法,其中所述视频嵌套神经网络包括一个或多个体积卷积神经网络层。
23.如权利要求13-22中的任一项所述的方法,其中在生成的训练数据上训练视觉语音识别神经网络包括,对于多个训练示例中的每一个:
根据视觉语音识别神经网络参数的当前值使用视觉语音识别神经网络来处理所述训练示例中包括的训练视频,以针对输出序列中的每个输出位置,为可能音素的词汇表中的每个音素生成相应的输出分数;
基于输出分数和训练示例中包括的来自可能音素的词汇表的音素的序列,确定连接主义时间分类损失函数的梯度;以及
使用所述梯度来调整视觉语音识别神经网络参数的当前值。
24.一种系统,包括一个或多个计算机和一个或多个存储指令的存储设备,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行如权利要求1-23中的任一项所述的相应方法的操作。
25.存储指令的一个或多个计算机存储介质,所述指令在被一个或多个计算机执行时使所述一个或多个计算机执行如权利要求1-23中的任一项所述的相应方法的操作。
CN201980026370.3A 2018-05-18 2019-05-20 通过音素预测进行视觉语音识别 Active CN112041924B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862673770P 2018-05-18 2018-05-18
US62/673,770 2018-05-18
PCT/EP2019/062942 WO2019219968A1 (en) 2018-05-18 2019-05-20 Visual speech recognition by phoneme prediction

Publications (2)

Publication Number Publication Date
CN112041924A true CN112041924A (zh) 2020-12-04
CN112041924B CN112041924B (zh) 2024-07-02

Family

ID=66690303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980026370.3A Active CN112041924B (zh) 2018-05-18 2019-05-20 通过音素预测进行视觉语音识别

Country Status (4)

Country Link
US (1) US11386900B2 (zh)
EP (1) EP3766065A1 (zh)
CN (1) CN112041924B (zh)
WO (1) WO2019219968A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381069A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 免语音唤醒方法、智能设备和计算机可读存储介质
CN112614212A (zh) * 2020-12-16 2021-04-06 上海交通大学 联合语气词特征的视音频驱动人脸动画实现方法及系统
CN112784696A (zh) * 2020-12-31 2021-05-11 平安科技(深圳)有限公司 基于图像识别的唇语识别方法、装置、设备及存储介质
CN112887789A (zh) * 2021-01-22 2021-06-01 北京百度网讯科技有限公司 视频生成模型的构建和视频生成方法、装置、设备及介质
CN117121099A (zh) * 2021-06-18 2023-11-24 渊慧科技有限公司 自适应视觉语音识别

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210048441A (ko) * 2018-05-24 2021-05-03 워너 브로스. 엔터테인먼트 인크. 디지털 비디오에서의 입 모양과 움직임을 대체 오디오에 매칭
WO2020152657A1 (en) * 2019-01-25 2020-07-30 Soul Machines Limited Real-time generation of speech animation
US11521386B2 (en) * 2019-07-26 2022-12-06 Meta Platforms, Inc. Systems and methods for predicting video quality based on objectives of video producer
US11069357B2 (en) * 2019-07-31 2021-07-20 Ebay Inc. Lip-reading session triggering events
WO2021134277A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN111652165B (zh) * 2020-06-08 2022-05-17 北京世纪好未来教育科技有限公司 口型评测方法、设备及计算机存储介质
CN111898420A (zh) * 2020-06-17 2020-11-06 北方工业大学 一种唇语识别系统
CN112017633B (zh) * 2020-09-10 2024-04-26 北京地平线信息技术有限公司 语音识别方法、装置、存储介质及电子设备
US11682153B2 (en) * 2020-09-12 2023-06-20 Jingdong Digits Technology Holding Co., Ltd. System and method for synthesizing photo-realistic video of a speech
CN112927712B (zh) * 2021-01-25 2024-06-04 网易(杭州)网络有限公司 视频生成方法、装置和电子设备
CN112837401B (zh) * 2021-01-27 2024-04-09 网易(杭州)网络有限公司 一种信息处理方法、装置、计算机设备及存储介质
EP4292082A1 (en) * 2021-04-07 2023-12-20 DeepMind Technologies Limited Interactive decoding of words from phoneme score distributions
CN113223123A (zh) * 2021-05-21 2021-08-06 北京大米科技有限公司 图像处理方法和图像处理装置
CN113382205B (zh) * 2021-05-25 2022-02-15 特斯联科技集团有限公司 一种用于监视器的人工智能多源数据处理系统及方法
CN113542624A (zh) * 2021-05-28 2021-10-22 阿里巴巴新加坡控股有限公司 生成商品对象讲解视频的方法及装置
CN113282791B (zh) * 2021-06-29 2024-05-24 京东科技控股股份有限公司 视频生成方法和装置
US20230017072A1 (en) * 2021-07-08 2023-01-19 Google Llc Systems And Methods For Improved Video Understanding
KR20240034804A (ko) * 2021-07-28 2024-03-14 구글 엘엘씨 자동 회귀 언어 모델 신경망을 사용하여 출력 시퀀스 평가
CN113657253B (zh) * 2021-08-16 2023-12-05 浙江大学 使用注意力引导自适应记忆的实时唇语识别方法和系统
CN113782048B (zh) * 2021-09-24 2024-07-09 科大讯飞股份有限公司 多模态语音分离方法、训练方法及相关装置
CN113825005B (zh) * 2021-09-30 2024-05-24 北京跳悦智能科技有限公司 基于联合训练的人脸视频与音频的同步方法及系统
WO2023057850A1 (en) * 2021-10-04 2023-04-13 Sony Group Corporation Visual speech recognition based on connectionist temporal classification loss
CN114581812B (zh) * 2022-01-12 2023-03-21 北京云辰信通科技有限公司 视觉语言识别方法、装置、电子设备及存储介质
CN114996516A (zh) * 2022-06-02 2022-09-02 上海积图科技有限公司 虚拟数字人动态嘴型的生成方法及相关设备
CN115019772A (zh) * 2022-06-07 2022-09-06 湘潭大学 一种基于视觉信息的粤语语音识别增强方法
CN115331676A (zh) * 2022-09-09 2022-11-11 中诚华隆计算机技术有限公司 一种结合语音和图像的字符记录方法及执行芯片
CN117132939A (zh) * 2023-09-11 2023-11-28 深圳科腾飞宇科技有限公司 一种基于视频处理的对象分析方法及系统
KR102670725B1 (ko) * 2023-09-27 2024-05-30 주식회사 씨와이디정보기술 다수의 상대방 디바이스와 연결되는 음성-텍스트 변환 장치 및 이를 위한 방법

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
US20160314789A1 (en) * 2015-04-27 2016-10-27 Nuance Communications, Inc. Methods and apparatus for speech recognition using visual information
US20160350649A1 (en) * 2015-05-26 2016-12-01 Qiang Zhang Method and apparatus of learning neural network via hierarchical ensemble learning
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
US20160372118A1 (en) * 2015-06-19 2016-12-22 Google Inc. Context-dependent modeling of phonemes
CN106462802A (zh) * 2014-11-14 2017-02-22 谷歌公司 生成映像的自然语言描述
US20170206405A1 (en) * 2016-01-14 2017-07-20 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
CN106991445A (zh) * 2017-04-05 2017-07-28 重庆大学 一种基于深度学习的超声造影肿瘤自动识别与检测方法
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3710205B2 (ja) * 1996-06-05 2005-10-26 沖電気工業株式会社 音声認識装置
US6076039A (en) * 1998-09-03 2000-06-13 Garmin Corporation Navigation device and method for displaying cartographic markers
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
CN101482976B (zh) * 2009-01-19 2010-10-27 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
BRPI0904540B1 (pt) * 2009-11-27 2021-01-26 Samsung Eletrônica Da Amazônia Ltda método para animar rostos/cabeças/personagens virtuais via processamento de voz
KR101153736B1 (ko) * 2010-05-31 2012-06-05 봉래 박 발음기관 애니메이션 생성 장치 및 방법
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
JP5902632B2 (ja) * 2013-01-07 2016-04-13 日立マクセル株式会社 携帯端末装置及び情報処理システム
US20150279364A1 (en) * 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading
US9530404B2 (en) * 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US9922665B2 (en) * 2015-08-06 2018-03-20 Disney Enterprises, Inc. Generating a visually consistent alternative audio for redubbing visual speech
US9807473B2 (en) 2015-11-20 2017-10-31 Microsoft Technology Licensing, Llc Jointly modeling embedding and translation to bridge video and language
US20180131692A1 (en) * 2016-11-09 2018-05-10 Idefend Ltd. System and a method for applying dynamically configurable means of user authentication
JP2018091954A (ja) * 2016-12-01 2018-06-14 オリンパス株式会社 音声認識装置、及び音声認識方法
US10091195B2 (en) * 2016-12-31 2018-10-02 Nok Nok Labs, Inc. System and method for bootstrapping a user binding
KR102061408B1 (ko) * 2017-03-24 2019-12-31 (주)제이엘케이인스펙션 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법
WO2018195485A1 (en) * 2017-04-21 2018-10-25 Mug Life, LLC Systems and methods for automatically creating and animating a photorealistic three-dimensional character from a two-dimensional image
US10375558B2 (en) * 2017-04-24 2019-08-06 Rapidsos, Inc. Modular emergency communication flow management system
US10586368B2 (en) * 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
CN106462802A (zh) * 2014-11-14 2017-02-22 谷歌公司 生成映像的自然语言描述
US20160314789A1 (en) * 2015-04-27 2016-10-27 Nuance Communications, Inc. Methods and apparatus for speech recognition using visual information
US20160350649A1 (en) * 2015-05-26 2016-12-01 Qiang Zhang Method and apparatus of learning neural network via hierarchical ensemble learning
US20160372118A1 (en) * 2015-06-19 2016-12-22 Google Inc. Context-dependent modeling of phonemes
US20170206405A1 (en) * 2016-01-14 2017-07-20 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
US20180121731A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN106991445A (zh) * 2017-04-05 2017-07-28 重庆大学 一种基于深度学习的超声造影肿瘤自动识别与检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOON SON CHUNG 等: "Lip Reading Sentences in the Wild", ARXIV:1611.05358V1 [CS.CV], pages 1 - 12 *
朱妹丽 等: "唇读技术在角色动画交互中的研究与应用", 科研信息化技术与应用, vol. 8, no. 5, 31 December 2017 (2017-12-31), pages 80 - 85 *
马宁 等: "一种基于long short-term memory的唇语识别方法", 中国科学院大学学报, vol. 35, no. 01, 31 January 2018 (2018-01-31), pages 109 - 117 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614212A (zh) * 2020-12-16 2021-04-06 上海交通大学 联合语气词特征的视音频驱动人脸动画实现方法及系统
CN112784696A (zh) * 2020-12-31 2021-05-11 平安科技(深圳)有限公司 基于图像识别的唇语识别方法、装置、设备及存储介质
CN112784696B (zh) * 2020-12-31 2024-05-10 平安科技(深圳)有限公司 基于图像识别的唇语识别方法、装置、设备及存储介质
CN112381069A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 免语音唤醒方法、智能设备和计算机可读存储介质
CN112887789A (zh) * 2021-01-22 2021-06-01 北京百度网讯科技有限公司 视频生成模型的构建和视频生成方法、装置、设备及介质
CN112887789B (zh) * 2021-01-22 2023-02-21 北京百度网讯科技有限公司 视频生成模型的构建和视频生成方法、装置、设备及介质
CN117121099A (zh) * 2021-06-18 2023-11-24 渊慧科技有限公司 自适应视觉语音识别

Also Published As

Publication number Publication date
US11386900B2 (en) 2022-07-12
US20210110831A1 (en) 2021-04-15
WO2019219968A1 (en) 2019-11-21
EP3766065A1 (en) 2021-01-20
CN112041924B (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
CN112041924B (zh) 通过音素预测进行视觉语音识别
US11776530B2 (en) Speech model personalization via ambient context harvesting
EP3469582B1 (en) Neural network-based voiceprint information extraction method and apparatus
EP3665676B1 (en) Speaking classification using audio-visual data
KR102133728B1 (ko) 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
US10127904B2 (en) Learning pronunciations from acoustic sequences
CN110276259A (zh) 唇语识别方法、装置、计算机设备及存储介质
US11100920B2 (en) System and method for end-to-end speech recognition with triggered attention
CN110827801A (zh) 一种基于人工智能的自动语音识别方法及系统
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111402891A (zh) 语音识别方法、装置、设备和存储介质
CN108389573A (zh) 语种识别方法及装置、训练方法及装置、介质、终端
US11681364B1 (en) Gaze prediction
Ferrer et al. Spoken language recognition based on senone posteriors.
KR20200085696A (ko) 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
EP3157004B1 (en) Apparatus and method for normalizing input data of acoustic model and speech recognition apparatus
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
CN111414959B (zh) 图像识别方法、装置、计算机可读介质和电子设备
Haq et al. Using lip reading recognition to predict daily Mandarin conversation
CN111914803A (zh) 一种唇语关键词检测方法、装置、设备及存储介质
CN116312512A (zh) 面向多人场景的视听融合唤醒词识别方法及装置
CN114999633A (zh) 一种基于多模态共享矢量空间的抑郁识别方法及系统
CN115547345A (zh) 声纹识别模型训练及相关识别方法、电子设备和存储介质
US10783873B1 (en) Native language identification with time delay deep neural networks trained separately on native and non-native english corpora

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant