BR112022026466A2 - Sistemas e métodos para correlacionar fala e movimento labial - Google Patents

Sistemas e métodos para correlacionar fala e movimento labial

Info

Publication number
BR112022026466A2
BR112022026466A2 BR112022026466A BR112022026466A BR112022026466A2 BR 112022026466 A2 BR112022026466 A2 BR 112022026466A2 BR 112022026466 A BR112022026466 A BR 112022026466A BR 112022026466 A BR112022026466 A BR 112022026466A BR 112022026466 A2 BR112022026466 A2 BR 112022026466A2
Authority
BR
Brazil
Prior art keywords
speech
speaker
lip movement
audio content
systems
Prior art date
Application number
BR112022026466A
Other languages
English (en)
Inventor
Wang Yadong
Jois Rao Shilpa
Original Assignee
Netflix Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netflix Inc filed Critical Netflix Inc
Publication of BR112022026466A2 publication Critical patent/BR112022026466A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

SISTEMAS E MÉTODOS PARA CORRELACIONAR FALA E MOVIMENTO LABIAL. O método implementado por computador divulgado inclui a análise, por um sistema de detecção de fala, de um arquivo de mídia para detectar movimento labial de um locutor que é visualmente renderizado em conteúdo de mídia do arquivo de mídia. O método inclui adicionalmente identificar, pelo sistema de detecção de fala, conteúdo de áudio no arquivo de mídia e melhorar precisão de uma correlação temporal do sistema de detecção de fala. O método pode envolver correlacionar o movimento labial do locutor com o conteúdo de áudio e determinar, com base na correlação entre o movimento labial do locutor e o conteúdo de áudio, que o conteúdo de áudio compreende a fala do locutor. O método pode envolver ainda a gravação, com base na determinação de que o conteúdo de áudio compreende a fala do locutor, a correlação temporal entre a fala e o movimento labial do locutor como metadados do arquivo de mídia. Vários outros métodos, sistemas e meios legíveis por computador são divulgados.
BR112022026466A 2020-06-24 2021-06-22 Sistemas e métodos para correlacionar fala e movimento labial BR112022026466A2 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/911,247 US20210407510A1 (en) 2020-06-24 2020-06-24 Systems and methods for correlating speech and lip movement
PCT/US2021/038515 WO2021262737A1 (en) 2020-06-24 2021-06-22 Systems and methods for correlating speech and lip movement

Publications (1)

Publication Number Publication Date
BR112022026466A2 true BR112022026466A2 (pt) 2023-01-31

Family

ID=77022202

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112022026466A BR112022026466A2 (pt) 2020-06-24 2021-06-22 Sistemas e métodos para correlacionar fala e movimento labial

Country Status (7)

Country Link
US (1) US20210407510A1 (pt)
EP (1) EP4022608A1 (pt)
AU (1) AU2021297802B2 (pt)
BR (1) BR112022026466A2 (pt)
CA (1) CA3146707A1 (pt)
MX (1) MX2022002921A (pt)
WO (1) WO2021262737A1 (pt)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538461B1 (en) * 2021-03-18 2022-12-27 Amazon Technologies, Inc. Language agnostic missing subtitle detection
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
CN113448533B (zh) * 2021-06-11 2023-10-31 阿波罗智联(北京)科技有限公司 提醒音频的生成方法、装置、电子设备和存储介质
US20230125543A1 (en) * 2021-10-26 2023-04-27 International Business Machines Corporation Generating audio files based on user generated scripts and voice components
GB2615095A (en) * 2022-01-27 2023-08-02 Sony Interactive Entertainment Europe Ltd System and method for controlling audio
CN114420124B (zh) * 2022-03-31 2022-06-24 北京妙医佳健康科技集团有限公司 一种语音识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3743391A (en) * 1971-05-14 1973-07-03 D White System for dubbing fresh sound tracks on motion picture films
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
JP2008310382A (ja) * 2007-06-12 2008-12-25 Omron Corp 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
WO2020081872A1 (en) * 2018-10-18 2020-04-23 Warner Bros. Entertainment Inc. Characterizing content for audio-video dubbing and other transformations

Also Published As

Publication number Publication date
AU2021297802B2 (en) 2023-03-16
MX2022002921A (es) 2022-04-06
AU2021297802A1 (en) 2022-03-03
CA3146707A1 (en) 2021-12-30
US20210407510A1 (en) 2021-12-30
WO2021262737A1 (en) 2021-12-30
EP4022608A1 (en) 2022-07-06

Similar Documents

Publication Publication Date Title
BR112022026466A2 (pt) Sistemas e métodos para correlacionar fala e movimento labial
CL2019002787A1 (es) Método y sistema para la evaluación del aliento de un paciente para determinar la concentración de diversos. (divisional solicitud 201800570)
GB201017876D0 (en) Database systems and methods
PH12019501157A1 (en) System and method for detecting replay attack
BRPI0701344A (pt) sistema e método para detectar alteração de imagens
BR112013025032A2 (pt) dispositivo de rastreamento de pessoa, método de rastreamento de pessoa, e meio legível por computador não transitório que armazena programa de rastreamento de pessoa
CY1109638T1 (el) Ενα συστημα ή μεθοδος για την εκτιμηση της περιφερειακης κυκλοφοριας του αιματος ενος υποκειμενου
ATE536553T1 (de) Verfahren zum nachweis grösserer ungünstiger kardiovaskulärer und zerebrovaskulärer ereignisse
BR112014010748A8 (pt) sistema e método para configuração ativada por voz de um dispositivo de controle
GB2472358A (en) Database system and methods
BR112022004158A2 (pt) Sistemas e métodos para geração de sinal de áudio
BR112012017551A2 (pt) Aparelho e método para extrair um sinal direto/ambiente de um sinal downmix e informações paramétricas espaciais
BRPI0517356A (pt) sistemas e métodos de apresentação de resultados de buscas e meio legìvel em computador
SG10201806017WA (en) Disease detection system and disease detection method
BR112013006240A2 (pt) processo para detecção, diferenciação e quantificação de populações de células-t através da tecnologia quantitativa pcr (rt-qpcr) de transcrição reversa, em tempo real
SG11201900264PA (en) Method and device of analysis based on model, and computer readable storage medium
BRPI0607194A2 (pt) método para analisar quantitativamente um microorganismo por marcação de rrna
ATE501166T1 (de) Isotopenmarkiertes einfangmittel und verfahren zur identifizierung reaktiver metaboliten
BR112016019740A2 (pt) monitoramento do estado de inflamação
MX2023001781A (es) Metodos y sistemas para determinar un estado relacionado con el embarazo de un sujeto.
MX2008011971A (es) Dispositivo y metodo para registrar proximidad.
WO2023034358A3 (en) Analyzing social media data to identify markers of coordinated movements, using stance detection, and using clustering techniques
BR112023015956A2 (pt) Dispositivo para examinar um alvo, sistema para examinar um alvo, dispositivo para treinar um modelo de análise para analisar imagens de alvos com base em fluorescência, método para examinar um alvo e método para treinar um modelo de análise para analisar imagens com base em fluorescência de alvos
WO2007124234A3 (en) Systems and methods for displaying a cellular abnormality
WO2008099141A3 (en) Analysing video material