CN116685979A - 校正唇读预测 - Google Patents

校正唇读预测 Download PDF

Info

Publication number
CN116685979A
CN116685979A CN202280009039.2A CN202280009039A CN116685979A CN 116685979 A CN116685979 A CN 116685979A CN 202280009039 A CN202280009039 A CN 202280009039A CN 116685979 A CN116685979 A CN 116685979A
Authority
CN
China
Prior art keywords
words
correction
predicted
correction candidate
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280009039.2A
Other languages
English (en)
Inventor
李钟和
M·弗努克
F·科斯特拉
金时伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Priority claimed from PCT/IB2022/056652 external-priority patent/WO2023007313A1/en
Publication of CN116685979A publication Critical patent/CN116685979A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Machine Translation (AREA)

Abstract

实施方式通常涉及校正唇读预测。在一些实施方式中,一种方法包括接收用户的视频输入,其中在所述视频输入中所述用户正在说话。所述方法还包括根据所述用户的嘴的运动预测一个或多个单词,以提供一个或多个预测的单词。所述方法还包括根据一个或多个预测的单词校正一个或多个校正候选单词。所述方法还包括根据一个或多个预测的单词预测一个或多个句子。

Description

校正唇读预测
相关申请交叉引用
本申请要求于2022年1月10日提交的题为“CORRECTING LIP-READINGPREDICTIONS”的美国专利申请No.17/572,029(020699-119300US/SYP340532US02)的权益,该申请要求于2021年7月28日提交的题为“NATURAL LANGUAGE PROCESSING FORCORRECTING LIP-READING PREDICTION”的美国临时专利申请No.63/203,684(客户参考编号SYP340532US01)的优先权,这些专利申请通过引用并入本文中,如同出于所有目的在本申请中完整阐述一样。
背景技术
在不依赖音频的情况下识别语音的唇读技术可能会导致不准确的预测。例如,唇读技术可能会从正确的表达“I’m cold”中识别出“Im cord”。这是因为深度学习模型依赖于没有音频辅助的嘴唇运动。对于不同的单词,比如“buy”和“bye”,或者“cite”和“site”,说话者的嘴型可能相似。传统方法使用端到端的深度学习模型来进行单词到句子的预测。然而,当前最先进的模型与现实世界的推断之间存在很大差距。例如,模型可能只预测单词或固定结构,比如命令+颜色+介词+字母+数字+副词。
发明内容
实施方式通常涉及校正唇读预测。在一些实施方式中,系统包括一个或多个处理器,并且包括编码在一个或多个非临时性计算机可读存储介质中以供所述一个或多个处理器执行的逻辑。当被执行时,所述逻辑可操作以使所述一个或多个处理器进行操作,所述操作包括:接收用户的视频输入,其中在所述视频输入中所述用户正在说话;根据所述用户的嘴的运动预测一个或多个单词,以提供一个或多个预测的单词;根据所述一个或多个预测的单词校正一个或多个校正候选单词;以及根据所述一个或多个预测的单词预测一个或多个句子。
进一步关于所述系统,在一些实施方式中,所述一个或多个单词的预测基于深度学习。在一些实施方式中,所述一个或多个校正候选单词的校正基于自然语言处理。在一些实施方式中,所述一个或多个校正候选单词的校正基于类比。在一些实施方式中,所述一个或多个校正候选单词的校正基于单词相似度。在一些实施方式中,所述一个或多个校正候选单词的校正基于向量相似度。在一些实施方式中,所述一个或多个校正候选单词的校正基于余弦相似度。
在一些实施方式中,提供一种其上具有程序指令的非临时性计算机可读存储介质。当由一个或多个处理器执行时,所述指令可操作以使所述一个或多个处理器进行操作,所述操作包括:接收用户的视频输入,其中在所述视频输入中所述用户正在说话;根据所述用户的嘴的运动预测一个或多个单词,以提供一个或多个预测的单词;根据所述一个或多个预测的单词校正一个或多个校正候选单词;以及根据所述一个或多个预测的单词预测一个或多个句子。
进一步关于所述计算机可读存储介质,在一些实施方式中,所述一个或多个单词的预测基于深度学习。在一些实施方式中,所述一个或多个校正候选单词的校正基于自然语言处理。在一些实施方式中,所述一个或多个校正候选单词的校正基于类比。在一些实施方式中,所述一个或多个校正候选单词的校正基于单词相似度。在一些实施方式中,所述一个或多个校正候选单词的校正基于向量相似度。在一些实施方式中,所述一个或多个校正候选单词的校正基于余弦相似度。
在一些实施方式中,一种方法包括:接收用户的视频输入,其中在所述视频输入中所述用户正在说话;根据所述用户的嘴的运动预测一个或多个单词,以提供一个或多个预测的单词;根据所述一个或多个预测的单词校正一个或多个校正候选单词;以及根据所述一个或多个预测的单词预测一个或多个句子。
进一步关于所述方法,在一些实施方式中,所述一个或多个单词的预测基于深度学习。在一些实施方式中,所述一个或多个校正候选单词的校正基于自然语言处理。在一些实施方式中,所述一个或多个校正候选单词的校正基于类比。在一些实施方式中,所述一个或多个校正候选单词的校正基于单词相似度。在一些实施方式中,所述一个或多个校正候选单词的校正基于向量相似度。在一些实施方式中,所述一个或多个校正候选单词的校正基于余弦相似度。
参考说明书的其余部分和附图,可以实现对本文中公开的特定实施方式的性质和优点的进一步理解。
附图说明
图1是可以用于本文中所述的实施方式的用于校正唇读预测的示例环境的框图。
图2是按照一些实施方式的用于校正唇读预测的示例流程图。
图3是示出按照一些实施方式的在基于类比的单词预测中使用的单词向量的示例图。
图4是示出按照一些实施方式的在基于单词相似度的单词预测中使用的单词向量的示例图。
图5是示出按照一些实施方式的预测的单词到数字的映射的示例图。
图6是可以用于本文中所述的一些实施方式的示例网络环境的框图。
图7是可以用于本文中所述的一些实施方式的示例计算机系统的框图。
具体实施方式
本文中描述的实施方式使用自然语言处理来校正唇读预测。本文中描述的实施方式解决了传统唇读技术的局限性。此类唇读技术在不依赖音频流的情况下识别语音。这可能导致不正确、不准确或部分预测。例如,可能会识别“ayl biy baek”,而不是正确的表达“I’ll be back.”。可能会识别“Im cord”,而不是正确的表达“I’m cold”。可能会识别“Imfrez”,而不是正确的表达“I’m freezing”。这是因为深度学习模型依赖于没有音频辅助的嘴唇运动。说话者的嘴型在“buy”和“bye”之间,或者在“cite”和“site”之间是相似的。自然语言处理(NLP)可以用于人工智能(AI)深度学习模型,以理解文档的内容,包括文档中语言的上下文细微差别。这适用于书面语言。
本文中描述的实施方式提供一种使用NLP来校正从机器学习输出导出的错误或不准确预测的流水线。例如,在没有音频的情况下,机器学习模型可能根据说话者的嘴唇运动预测“Im cord”。本文中描述的实施方式涉及NLP技术,以将单词“Im cord”作为输入,并将该措辞校正为正确的表达“I’m cold”。本文中描述的实施方式不仅应用于固定结构,而且通过利用NLP应用于非结构化格式。
如本文中更详细所述,在各种实施方式中,系统接收用户的视频输入,其中在视频输入中用户正在说话。系统还从用户的嘴的运动预测一个或多个单词,以提供一个或多个预测的单词。系统还根据一个或多个预测的单词校正一个或多个校正候选单词。系统还根据一个或多个预测的单词预测一个或多个句子。
图1是可以用于本文中所述的实施方式的校正唇读预测的示例环境100的框图。图1的环境100图解说明用于校正唇读预测的总体流水线。在一些实施方式中,环境100包括接收视频输入、并基于来自视频输入的单词预测输出句子预测的系统102。
如本文中更详细所述,在各种实施方式中,系统102的深度学习唇读模块104进行单词预测。系统102的NLP模块106进行校正候选单词的校正,并进行句子单词预测。例如,这里结合图2更详细地描述针对单词预测和句子预测的各种实施方式。
为了便于说明,图1对于系统102、深度学习唇读模块104和NLP模块106中的每一个示出了一个框。框102、104和106可以表示多个系统、深度学习唇读模块和NLP模块。在其他实施方式中,环境100可以不具有所示的所有组件,和/或代替此处所示的那些元件或者除了此处所示的那些元件之外,可以具有其他元件,包括其他类型的元件。
虽然系统102进行本文中描述的实施方式,但是在其他实施方式中,与系统102关联的任何合适的组件或组件的组合或者与系统102关联的任何合适的一个或多个处理器可以便利进行本文中描述的实施方式。
图2是按照一些实施方式的用于校正唇读预测的示例流程图。本文中描述的实施方式提供一种使用NLP来校正深度学习模型的单词预测和预测句子预测的流水线。参考图1和图2两者,方法开始于框202,在框202,诸如系统102之类的系统接收用户的视频输入,其中在视频输入(例如,视频)中用户正在说话。在各种实施方式中,系统从视频中提取图像并识别用户的嘴。例如,系统可以接收3秒的90帧图像,并且唇读模块可以使用唇读模型来识别处于不同姿势的用户的嘴。在一些实施方式中,系统在视频中裁剪用户的嘴以供分析,其中嘴形和嘴的运动是特征区域。
在框204,系统根据用户的嘴的运动预测一个或多个单词,以提供一个或多个预测的单词。在各种实施方式中,系统基于深度学习来预测一个或多个单词。例如,在各种实施方式中,系统102的深度学习唇读模块104应用唇读模型来根据嘴的运动确定或预测单词。
在各种实施方式中,唇读是系统仅仅基于视频(例如,没有语音而仅是视觉信息)来理解正在说什么的过程。由于唇读取决于视觉线索(例如,嘴的运动),因此一些嘴形看起来非常相似。这可能导致不准确。
在上面结合图1的示例中,系统102的深度学习唇读模块104使用用于单词预测的唇读模型来预测单词。例如,深度学习唇读可以预测各个单词,“AYL.”、“BIY.”、“BAEK.”。基于深度学习,这些单词会产生句子“Ayl biy baek”。
在另一个例子中,发音“th”和“f”的嘴的运动可能难以辨认。因此,检测不易察觉的字符和/或单词是重要的。在另一个例子中,单词“too”和“to”的嘴的运动即使不完全相同,看起来也非常接近。在各种实施方式中,系统102的深度学习唇读模块104应用唇读模型来在没有声音的情况下仅使用嘴的运动确定真实值(ground truth)单词预测。
随后,如下结合框206所述,系统102的NLP模块106应用唇读模型来校正任何不准确预测的单词。如本文中更详细所述,NLP模块106利用NLP来准确地确定或预测单词,包括校正不准确的单词预测,并根据一串预测的单词准确地预测表达或句子。
在框206,系统根据一个或多个预测的单词校正一个或多个校正候选单词。虽然深度学习唇读模块104用于预测各个单词,但是NLP模块106用于校正来自唇读模块104的不准确预测的单词,以及预测来自用户的表达或句子。
在各种实施方式中,系统利用NLP技术来解释自然语言,包括语音和文本。NLP使机器能够通过应用各种技术,比如文本相似度、信息检索、文档分类、实体提取、聚类等,从此类文本数据中理解和提取模式。NLP通常用于文本分类、虚拟助手用聊天机器人、文本提取和机器翻译。
在各种实施方式中,系统102的NLP模块106基于自然语言处理来校正一个或多个校正候选单词。校正候选单词可能是看起来不正确的单词。例如,单词预测“AYL.”、“BIY.”和“BAEK.”是在英语字典中找不到的单词,因此是校正候选者。在各种实施方式中,系统102的NLP模块106进行这些校正候选单词的校正。
在各种实施方式中,NLP模块106将接收的每个预测的单词转换或映射到向量或编号(例如,一串数字)。例如,NLP模块106可以将“AYL.”映射到数字100,将“BIY.”映射到数字010,并将“BAEK.”映射到数字001。在各种实施方式中,NLP模块106还将一个或多个其他单词转换或映射到这些向量或数字。例如,NLP模块106可以将“I'll”映射到数字100,将“be”映射到数字010,并将“back”映射到数字001。当NLP模块106接收单词并将该单词映射到向量或数字时,NLP模块106将该向量与其他存储的向量进行比较,并识别最接近的向量。
在该示例实施方式中,NLP模块106确定“AYL.”和“I'll”都映射到向量或数字100,“BIY.”和“be”都映射到向量或数字010,且“BAEK.”和“back”都映射到向量或数字001。因而,NLP模块106将“AYL.”校正为“I'll”,将“BIY.”校正为“be”,并将“BAEK.”校正为“back”。
在框208,系统根据一个或多个预测的单词来预测一个或多个句子。在各种实施方式中,系统102的NLP模块106进行表达或句子单词预测。如上所述,NLP模块106将“AYL.”校正为“I'll”,将“BIY.”校正为“be”,并将“BAEK.”校正为“back”。系统102的NLP模块106随后预测句子“I'll be back”。换句话说,NLP模块106将校正候选者“AYL.BIY.BAEK.”校正为“I'll be back”,这是最接近的表达。
图3和图4提供了针对单词预测的附加示例实施方式。图5提供了针对句子预测的附加示例实施方式。
图3是示出按照一些实施方式的在基于类比的单词预测中使用的单词向量的示例图。在各种实施方式中,系统102的NLP模块106基于类比来校正一个或多个校正候选单词。例如,如上所述,NLP模块106在这种情况下基于单词类比来找到最相似的单词。单词“king”之于单词“queen”就像单词“man”之于“woman”一样。基于单词类比,“king”与“man”相近,而“queen”与“woman”相近。
图4是示出按照一些实施方式的在基于单词相似度的单词预测中使用的单词向量的示例图。在各种实施方式中,系统基于单词相似度来校正一个或多个校正候选单词。例如,如上所述,NLP模块106在这种情况下基于单词含义的相似度来找到最相似的单词。单词“good”和“awesome”彼此相对接近,而单词“bad”和“worst”彼此相对接近。这些配对包含含义相似的单词。
如本文中所示,在各种实施方式中,系统基于向量相似度来校正一个或多个校正候选单词。在各种实施方式中,向量是系统可以比较的编号。系统通过在向量空间中寻找单词向量之间的相似度来进行校正。由于计算机程序处理编号,因此系统将文本数据转换或编码为向量空间中的数字格式,如本文中所述。
在一些实施方式中,系统确定两个单词之间的单词相似度并指定编号范围。例如,编号范围可以是值0到1之间的值。编号范围中的编号值指示这两个单词在语义上的接近程度。例如,值为0可能意味着单词不相近,而是在含义上非常不同。值为0.5可能意味着单词在含义上非常接近,甚至是同义词。在各种实施方式中,系统基于余弦相似度来校正一个或多个校正候选单词。余弦可以定义为两个向量之间的距离,每个向量表示一个单词。参见图4,单词“good”和“awesome”接近。此外,单词“bad”和“worst”接近。这些配对具有余弦相似度。
在各种实施方式中,在编码期间,系统将大的文本语料库作为其输入,并产生向量空间。向量空间的大小可能有所不同,这取决于具体的实施方式。例如,向量空间可能有几百个维度。在各种实施方式中,系统为语料库中的每个唯一单词分配空间中的对应向量。
一旦系统具有给定文本块的向量,系统就计算生成的向量之间的相似度。系统可以利用任何合适的统计技术来确定向量相似度。此类技术是余弦相似度。在另一个例子中,唇读模块104可以预测“Im stop hot”。NLP模块106又可以将“Im stop hot”作为输入,将该输入与向量空间中最相似的句子进行比较。结果,NLP模块106发现并输出“I’m too hot”。
图5是示出按照一些实施方式的预测的单词到数字的映射的示例图。示出的是单词“deep”、“learning”、“is”、“hard”和“fun”。在各种实施方式中,系统的NLP模块将每个预测的单词转换成机器或计算机可读的一系列数字。例如,“deep”映射到数字502(例如,10000),“learning”映射到数字504(例如,01000),“is”映射到数字506(例如,00100),“hard”映射到数字508(例如,00010),以及“fun”映射到数字510(例如,00001)。虽然示出的数字是二进制的,但是也可以使用其他数字方案(例如,十六进制等)。
在各种实施方式中,系统的NLP模块基于单词相似度和/或基于语法规则和词位为单词分配数字。例如,系统可以将单词“hard”和单词“difficult”映射到数字00010。这些单词含义相似。系统可以将单词“fun”和单词“joyful”映射到数字00001。这些单词含义相似。虽然单词“hard”和“fun”是不同的单词,但是系统可以基于语法规则和词位一起分配更接近的数字。例如,“hard”和“fun”是位于单词串“deep”、“learning”、“is”、“hard”和“fun”的末尾的形容词。
在所示的例子中,系统的NLP模块可以预测两个不同但相似的句子。一个句子可能被预测为“Deep learning is hard”。另一个句子可能被预测为“Deep learning is fun”。系统最终可以基于预测的各个单词预测一个句子而不是另一个句子。例如,如果单词串的最后一个单词是“fun”,则系统将最终预测句子“Deep learning is fun”。即使单词串的最后一个单词被深度学习模块错误地预测为“funn”或“fuun”,系统也将把数字00001分配给预测的单词。由于系统还将数字00001分配给单词“fun”,因此系统将使用单词“fun”,因为它是真实的单词。这样,预测的句子(“Deep learning is fun.”)是有意义的,因此会被系统选择。
尽管步骤、操作或计算可以以特定的顺序呈现,但是该顺序在特定的实施方式中可以被改变。步骤的其他排序也是可能的,这取决于特定的实施方式。在一些特定的实施方式中,在本说明书中表示为相继步骤的多个步骤可以同时进行。另外,一些实施方式可以不具有所示的所有步骤,和/或代替这里所示的步骤或者除了这里所示的步骤之外,可以具有其他步骤。
本文中描述的实施方式提供了各种益处。例如,实施方式结合了使用深度学习模型的唇读技术和使用NLP技术的单词校正技术。实施方式利用NLP来校正唇读模型推断的不准确的单词预测。本文中描述的实施方式也适用于嘈杂的环境或存在背景噪声时(例如,在提供免下车服务(drive-through)处接受客户的订单等)。
图6是可以用于本文中所述的一些实施方式的示例网络环境600的框图。在一些实施方式中,网络环境600包括系统602,系统602包括服务器设备604和数据库606。例如,系统602可以用于实施图1的系统102,以及进行本文所述的实施方式。网络环境600还包括客户端设备610、620、630和640,它们可以与系统602通信和/或可以直接地或经由系统602相互通信。网络环境600还包括网络650,系统602和客户端设备610、620、630和640通过网络650进行通信。网络650可以是任何合适的通信网络,比如Wi-Fi网络、蓝牙网络、因特网等。
为了便于说明,图6对于系统602、服务器设备604和网络数据库606中的每一个示出了一个框,而对于客户端设备610、620、630和640示出了四个框。框602、604和606可以表示多个系统、服务器设备和网络数据库。另外,可以有任意数量的客户端设备。在其他实施方式中,环境600可以不具有所示的所有组件,和/或代替此处所示的那些元件或者除了此处所示的那些元件之外,可以具有其他元件,包括其他类型的元件。
虽然系统602的服务器设备604进行本文中描述的实施方式,但是在其他实施方式中,与系统602关联的任何合适的组件或组件的组合或者与系统602关联的任何合适的一个或多个处理器可便利进行本文中描述的实施方式。
在本文中描述的各种实施方式中,系统602的处理器和/或任何客户端设备610、620、630和640的处理器使本文中描述的元素(例如,信息等)显示在一个或多个显示屏上的用户界面中。
图7是可以用于本文中所述的一些实施方式的示例计算机系统700的框图。例如,计算机系统700可以用于实施图6的服务器设备604和/或图1的系统102,以及进行本文中描述的实施方式。在一些实施方式中,计算机系统700可以包括处理器702、操作系统704、存储器706和输入/输出(I/O)接口708。在各种实施方式中,处理器702可以用于实施本文中描述的各种功能和特征,以及进行本文中描述的方法实施方式。尽管处理器702被描述为进行本文中描述的实施方式,但是计算机系统700的任何合适的组件或组件的组合、或者与计算机系统700或任何合适的系统关联的任何合适的一个或多个处理器可以进行所述的步骤。本文中描述的实施方式可以在用户设备、服务器或两者的组合上执行。
计算机系统700还包括软件应用710,软件应用710可以存储在存储器706上或者存储在任何其他合适的存储位置或计算机可读介质上。软件应用710提供使处理器702能够进行本文中描述的实施方式和其他功能的指令。软件应用还可以包括用于进行与一个或多个网络和网络通信关联的各种功能的引擎,比如网络引擎。计算机系统700的组件可以由一个或多个处理器或硬件设备的任何组合,以及硬件、软件、固件等的任何组合来实施。
为了便于说明,图7对于处理器702、操作系统704、存储器706、I/O接口708和软件应用710中的每一个示出了一个框。这些框702、704、706、708和710可以表示多个处理器、操作系统、存储器、I/O接口和软件应用。在各种实施方式中,计算机系统700可以不具有所示的所有组件,和/或代替此处所示的那些元件或者除了此处所示的那些元件之外,可以具有其他元件,包括其他类型的组件。
尽管已经关于其特定实施方式进行了说明,但是这些特定实施方式仅仅是说明性的,而不是限制性的。在例子中举例说明的概念可以应用于其他例子和实施方式。
在各种实施方式中,软件被编码在一个或多个非临时性计算机可读介质中以供一个或多个处理器执行。所述软件在由一个或多个处理器执行时可操作以进行本文中描述的实施方式和其他功能。
任何合适的编程语言都可以用于实施特定实施方式的例程,包括C、C++、C#、Java、JavaScript、汇编语言等。可以采用不同的编程技术,例如过程的或面向对象的。例程可以在单个处理设备或多个处理器上执行。尽管步骤、操作或计算可以以特定的顺序呈现,但是该顺序在不同的特定实施方式中可以被改变。在一些特定的实施方式中,在本说明书中表示为相继步骤的多个步骤可以同时进行。
特定的实施方式可以在非临时性计算机可读存储介质(也称为机器可读存储介质)中实施,以供指令执行系统、装置或设备使用,或者与指令执行系统、装置或设备结合使用。特定的实施方式可以以采用软件或硬件或者两者的组合的控制逻辑的形式来实施。控制逻辑在由一个或多个处理器执行时可操作以进行本文中描述的实施方式和其他功能。例如,诸如硬件存储设备之类的有形介质可以用于存储可包括可执行指令的控制逻辑。
特定的实施方式可以通过使用可编程通用数字计算机和/或通过使用专用集成电路、可编程逻辑器件、现场可编程门阵列、光学、化学、生物、量子或纳米工程系统、组件和机构来实施。通常,特定的实施方式的功能可以通过本领域已知的任何手段来实现。可以使用分布式网络化的系统、组件和/或电路。数据的通信或传送可以是有线的、无线的或通过任何其他手段。
“处理器”可以包括处理数据、信号或其他信息的任何合适的硬件和/或软件系统、机构或组件。处理器可以包括具有通用中央处理单元、多个处理单元、用于实现功能的专用电路或其他系统的系统。处理不需要局限于地理位置或者具有时间限制。例如,处理器可以“实时”、“离线”、以“批处理模式”等进行其功能。处理的各个部分可以由不同(或相同)的处理系统在不同的时间和不同的位置进行。计算机可以是与存储器通信的任何处理器。存储器可以是任何合适的数据存储装置、存储器和/或非临时性计算机可读存储介质,包括电子存储设备,比如随机存取存储器(RAM)、只读存储器(ROM)、磁存储设备(硬盘驱动器等)、闪存、光存储设备(CD、DVD等)、磁盘或光盘,或适合于存储由处理器执行的指令(例如,程序或软件指令)的其他有形介质。例如,诸如硬件存储设备之类的有形介质可以用于存储可包括可执行指令的控制逻辑。指令也可以包含在电子信号中,并作为电子信号提供,例如以从服务器(例如,分布式系统和/或云计算系统)交付的软件即服务(SaaS)的形式。
还要意识到的是,附图/图中所描绘的元件中的一个或多个也可以以更分离或更集成的方式来实施,或者甚至在某些情况下被移除或呈现为不可操作,这按照特定应用是有用的。实施可以存储在机器可读介质中以允许计算机进行上述任何方法的程序或代码也在精神和范围之内。
在本说明书和随后的整个权利要求书中使用的“一”、“一个”和“该”包括复数所指对象,除非上下文另有明确指示。并且,如在本说明书和随后的整个权利要求书中所使用的,“在…中”的含义包括“在…中”和“在…上”,除非上下文另有明确指示。
因此,虽然本文中描述了特定的实施方式,但是在上述公开之内预期各种修改、变更和替换,并且要意识到的是,在一些情况下,在不脱离所阐述的范围和精神的情况下,将采用特定实施方式的一些特征而不对应地使用其他特征。于是,可以进行许多修改,以使特定的状况或材料适应基本范围和精神。

Claims (20)

1.一种系统,包括:
一个或多个处理器;以及
编码在一个或多个非临时性计算机可读存储介质中以供所述一个或多个处理器执行的逻辑,所述逻辑在被执行时,能够操作以使所述一个或多个处理器执行包括以下的操作:
接收用户的视频输入,其中在所述视频输入中所述用户正在说话;
根据所述用户的嘴的运动预测一个或多个单词,以提供一个或多个预测的单词;
根据所述一个或多个预测的单词校正一个或多个校正候选单词;以及
根据所述一个或多个预测的单词预测一个或多个句子。
2.按照权利要求1所述的系统,其中所述一个或多个单词的预测基于深度学习。
3.按照权利要求1所述的系统,其中所述一个或多个校正候选单词的校正基于自然语言处理。
4.按照权利要求1所述的系统,其中所述一个或多个校正候选单词的校正基于类比。
5.按照权利要求1所述的系统,其中所述一个或多个校正候选单词的校正基于单词相似度。
6.按照权利要求1所述的系统,其中所述一个或多个校正候选单词的校正基于向量相似度。
7.按照权利要求1所述的系统,其中所述一个或多个校正候选单词的校正基于余弦相似度。
8.一种其上存储有程序指令的非临时性计算机可读存储介质,所述程序指令在由一个或多个处理器执行时,能够操作以使所述一个或多个处理器执行包括以下的操作:
接收用户的视频输入,其中在所述视频输入中所述用户正在说话;
根据所述用户的嘴的运动预测一个或多个单词,以提供一个或多个预测的单词;
根据所述一个或多个预测的单词校正一个或多个校正候选单词;以及
根据所述一个或多个预测的单词预测一个或多个句子。
9.按照权利要求8所述的计算机可读存储介质,其中所述一个或多个单词的预测基于深度学习。
10.按照权利要求8所述的计算机可读存储介质,其中所述一个或多个校正候选单词的校正基于自然语言处理。
11.按照权利要求8所述的计算机可读存储介质,其中所述一个或多个校正候选单词的校正基于类比。
12.按照权利要求8所述的计算机可读存储介质,其中所述一个或多个校正候选单词的校正基于单词相似度。
13.按照权利要求8所述的计算机可读存储介质,其中所述一个或多个校正候选单词的校正基于向量相似度。
14.按照权利要求8所述的计算机可读存储介质,其中所述一个或多个校正候选单词的校正基于余弦相似度。
15.一种计算机实施的方法,包括:
接收用户的视频输入,其中在所述视频输入中所述用户正在说话;
根据所述用户的嘴的运动预测一个或多个单词,以提供一个或多个预测的单词;
根据所述一个或多个预测的单词校正一个或多个校正候选单词;以及
根据所述一个或多个预测的单词预测一个或多个句子。
16.按照权利要求15所述的方法,其中所述一个或多个单词的预测基于深度学习。
17.按照权利要求15所述的方法,其中所述一个或多个校正候选单词的校正基于自然语言处理。
18.按照权利要求15所述的方法,其中所述一个或多个校正候选单词的校正基于类比。
19.按照权利要求15所述的方法,其中所述一个或多个校正候选单词的校正基于单词相似度。
20.按照权利要求15所述的方法,其中所述一个或多个校正候选单词的校正基于向量相似度。
CN202280009039.2A 2021-07-28 2022-07-20 校正唇读预测 Pending CN116685979A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163203684P 2021-07-28 2021-07-28
US63/203,684 2021-07-28
US17/572,029 US20230031536A1 (en) 2021-07-28 2022-01-10 Correcting lip-reading predictions
US17/572,029 2022-01-10
PCT/IB2022/056652 WO2023007313A1 (en) 2021-07-28 2022-07-20 Correcting lip-reading predictions

Publications (1)

Publication Number Publication Date
CN116685979A true CN116685979A (zh) 2023-09-01

Family

ID=85038102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280009039.2A Pending CN116685979A (zh) 2021-07-28 2022-07-20 校正唇读预测

Country Status (4)

Country Link
US (1) US20230031536A1 (zh)
EP (1) EP4356287A1 (zh)
JP (1) JP2024521873A (zh)
CN (1) CN116685979A (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451121A (zh) * 2017-08-03 2017-12-08 京东方科技集团股份有限公司 一种语音识别方法及其装置
US10915697B1 (en) * 2020-07-31 2021-02-09 Grammarly, Inc. Computer-implemented presentation of synonyms based on syntactic dependency

Also Published As

Publication number Publication date
US20230031536A1 (en) 2023-02-02
EP4356287A1 (en) 2024-04-24
JP2024521873A (ja) 2024-06-04

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
RU2691214C1 (ru) Распознавание текста с использованием искусственного интеллекта
CN113656570B (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
EP3926531B1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN114596566B (zh) 文本识别方法及相关装置
CN111368531B (zh) 翻译文本处理方法、装置、计算机设备和存储介质
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN109753661A (zh) 一种机器阅读理解方法、装置、设备及存储介质
CN114863429A (zh) 基于rpa和ai的文本纠错方法、训练方法及其相关设备
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
CN117034951A (zh) 基于大语言模型的具有特定语言风格的数字人
CN111814496A (zh) 文本处理方法、装置、设备及存储介质
CN113095072A (zh) 文本处理方法及装置
CN114241279A (zh) 图文联合纠错方法、装置、存储介质及计算机设备
CN116680575B (zh) 模型处理方法、装置、设备及存储介质
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN113095066A (zh) 文本处理方法及装置
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN113536797B (zh) 一种切片文档关键信息单模型抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination