JP7442631B2 - エンドツーエンドのマルチスピーカ視聴覚自動音声認識 - Google Patents
エンドツーエンドのマルチスピーカ視聴覚自動音声認識 Download PDFInfo
- Publication number
- JP7442631B2 JP7442631B2 JP2022522999A JP2022522999A JP7442631B2 JP 7442631 B2 JP7442631 B2 JP 7442631B2 JP 2022522999 A JP2022522999 A JP 2022522999A JP 2022522999 A JP2022522999 A JP 2022522999A JP 7442631 B2 JP7442631 B2 JP 7442631B2
- Authority
- JP
- Japan
- Prior art keywords
- face
- track
- video
- training
- video face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 claims description 79
- 230000007246 mechanism Effects 0.000 claims description 47
- 238000000034 method Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 41
- 230000000007 visual effect Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 21
- 238000013518 transcription Methods 0.000 claims description 21
- 230000035897 transcription Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 16
- 230000001815 facial effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 230000015654 memory Effects 0.000 description 46
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Description
10、10a~j 参加者
10a~g 参加者
10h~j、10k 参加者
12 コンテンツフィード
12a 第1のフィード
12b 第2のフィード
14 発話
14 音声
100 環境
110 ユーザデバイス
111 ディスプレイ
112 オーディオスピーカ
114 データ処理ハードウェア
116 周辺機器
116、116a オーディオキャプチャデバイス
116、116b 画像キャプチャデバイス
118 メモリハードウェア
120 ネットワーク
130 リモートシステム
132 スケーラブル/弾性リソース
134 コンピューティングリソース、データ処理ハードウェア
136 ストレージリソース、メモリハードウェア
200 AV-ASRモデル、ニューラルネットワークモデル
204 マルチスピーカ視聴覚データ、視聴覚データ
210 オーディオ部分、オーディオトラック
210a~n 音響特徴ベクトル
210T トレーニングオーディオトラック
220 ビデオ部分
230 ビデオ顔トラック
230 ビデオトラック
230、230a~c 顔トラック
230a~c ビデオ顔トラック
230T トレーニングビデオ顔トラック
230Ta 第1のトレーニングビデオ顔トラック
230Tb 第2のトレーニングビデオ顔トラック
232C 正しい顔ラベル、正しい話し顔ラベル
232I 誤った顔ラベル、誤った話し方ラベル
248 音声認識結果
250 文字起こし
255 話者ラベル
260 エンコーダ部分
270 注意メカニズム
272 注意加重視覚特徴ベクトル
280 デコーダ部分
300 トレーニングプロセス
302 トレーニングデータセット
320 損失モジュール
325 損失項
400 方法
402 動作、視聴覚データ
404 動作
406 動作
460 エンコーダフロントエンド
470 注意メカニズム
500 コンピューティングデバイス
500a 標準サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ
520 メモリ
530 ストレージデバイス
540 高速インターフェース/コントローラ
550 高速拡張ポート
560 低速インターフェース/コントローラ
570 低速バス
580 ディスプレイ
590 低速拡張ポート
Claims (18)
- 視聴覚データ(204)から音声を文字起こしするための単一の視聴覚自動音声認識(AV-ASR)モデル(200)であって、前記AV-ASRモデル(200)が、
前記視聴覚データ(204)のオーディオトラック(210)および前記視聴覚データ(204)のビデオ部分(220)を受信することであって、前記視聴覚データ(204)の前記ビデオ部分(220)が複数のビデオ顔トラック(230)を備え、前記複数のビデオ顔トラック(230)の各ビデオ顔トラック(230)が、それぞれの人の顔に関連付けられている、受信することと、
前記複数のビデオ顔トラック(230)のうちのビデオ顔トラック(230)ごとに、
前記ビデオ顔トラック(230)に関連付けられる前記それぞれの人の前記顔が前記オーディオトラック(210)の話し顔を備える可能性を示す信頼スコアを決定することと、
前記複数のビデオ顔トラック(230)のうちの各ビデオ顔トラック(230)の視覚特徴ベクトルを生成することと、
前記オーディオトラックの音響特徴ベクトルおよび各ビデオ顔トラック(230)の前記視覚特徴ベクトルを含む、組み合わされた特徴ベクトルを生成することであって、前記組み合わされた特徴ベクトルは、前記オーディオトラック(210)の前記話し顔を備える可能性が最も高い前記ビデオ顔トラック(230)に関連付けられる、ことと、
を行うように構成された注意メカニズム(270)を備えるエンコーダフロントエンド(260)と、
前記オーディオトラック(210)の音声認識結果(248)を決定するために、前記組み合わされた特徴ベクトルを処理するように構成されたデコーダ(280)と
を備え、
前記単一のAV-ASRモデル(200)が、前記複数のビデオ顔トラック(230)のうちのどのビデオ顔トラックが前記オーディオトラック(210)の前記話し顔を備えるかをハード選択するための別個の顔選択システムを含まない、単一の視聴覚自動音声認識(AV-ASR)モデル(200)。 - 前記単一のAV-ASRモデル(200)がシーケンス間モデル(200)を備える、請求項1に記載のAV-ASRモデル(200)。
- 前記単一のAV-ASRモデル(200)が、視聴覚リカレントニューラルネットワークトランスデューサ(RNN-T)モデル(200)を備える、請求項1または2に記載のAV-ASRモデル(200)。
- 前記注意メカニズム(270)が、前記信頼スコアを前記ビデオ顔トラック(230)に利用することで、前記複数のビデオ顔トラック(230)の注意加重視覚特徴ベクトル(272)を出力として生成するように構成され、前記注意加重視覚特徴ベクトル(272)が、前記組み合わされた特徴ベクトルに含まれ、前記オーディオトラック(210)の前記話し顔を備える可能性が最も高い前記それぞれの人の前記顔を含む前記複数のビデオ顔トラック(230)のうちの前記ビデオ顔トラック(230)のソフト選択を表す、請求項1から3のいずれか一項に記載のAV-ASRモデル(200)。
- 前記注意メカニズム(270)が、前記注意メカニズム(270)に、前記最高の信頼スコアに関連付けられる前記複数のビデオ顔トラック(230)のうちの前記ビデオ顔トラック(230)を、前記オーディオトラック(210)の前記話し顔として選択するという難しい決定規則に収束させるように構成された逆温度パラメータを有するソフトマックス層を備える、請求項1から4のいずれか一項に記載のAV-ASRモデル(200)。
- 前記エンコーダフロントエンド(260)が、
1つまたは複数の発話を備えるトレーニングオーディオトラック(210T)と、
前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の正しい話し顔を備える第1のトレーニングビデオ顔トラック(230Ta)と、
1つまたは複数の第2のトレーニングビデオ顔トラック(230Tb)であって、各第2のトレーニングビデオ顔トラック(230Tb)が、前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の誤った話し顔を備える、1つまたは複数の第2のトレーニングビデオ顔トラック(230Tb)と
を備えるトレーニングデータセット(302)においてトレーニングされる、請求項1から5のいずれか一項に記載のAV-ASRモデル(200)。 - トレーニング中に、前記注意メカニズム(270)が、前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の前記正しい話し顔として前記第1のトレーニングビデオ顔トラック(230Ta)をゲート制御する方法を学習するように構成される、請求項6に記載のAV-ASRモデル(200)。
- 前記注意メカニズム(270)がクロスエントロピ損失を用いてトレーニングされる、請求項6または7に記載のAV-ASRモデル(200)。
- 前記デコーダ(280)が、前記オーディオトラック(210)のストリーミング文字起こし(250)を提供するために、前記オーディオトラック(210)の前記音声認識結果(248)をリアルタイムで発信するように構成される、請求項1から8のいずれか一項に記載のAV-ASRモデル(200)。
- 視聴覚データ(204)から音声を文字起こしするための方法(400)であって、
単一の視聴覚自動音声認識(AV-ASR)モデル(200)のエンコーダフロントエンド(260)の注意メカニズム(270)において、
前記視聴覚データ(204)のオーディオトラック(210)および前記視聴覚データ(204)のビデオ部分(220)を受信するステップであって、前記視聴覚データ(204)の前記ビデオ部分(220)が複数のビデオ顔トラック(230)を備え、前記複数のビデオ顔トラック(230)の各ビデオ顔トラック(230)が、それぞれの人の顔に関連付けられている、ステップと、
前記複数のビデオ顔トラック(230)のうちのビデオ顔トラック(230)ごとに、
前記注意メカニズム(270)によって、前記ビデオ顔トラック(230)に関連付けられる前記それぞれの人の前記顔が前記オーディオトラック(210)の話し顔を備える可能性を示す信頼スコアを決定するステップと、
前記注意メカニズム(270)によって、前記複数のビデオ顔トラック(230)のうちの各ビデオ顔トラック(230)の視覚特徴ベクトルを生成するステップと、
前記注意メカニズム(270)によって、前記オーディオトラックの音響特徴ベクトルおよび各ビデオ顔トラック(230)の前記視覚特徴ベクトルを含む、組み合わされた特徴ベクトルを生成するステップであって、前記組み合わされた特徴ベクトルは、前記オーディオトラック(210)の前記話し顔を備える可能性が最も高い前記ビデオ顔トラック(230)に関連付けられる、ステップと、
前記単一のAV-ASRモデル(200)のデコーダ(280)によって前記オーディオトラック(210)の音声認識結果(248)を決定するために、前記組み合わされた特徴ベクトルを処理するステップと
を備え、
前記単一のAV-ASRモデル(200)が、前記複数のビデオ顔トラック(230)のうちのどのビデオ顔トラックが前記オーディオトラック(210)の前記話し顔を備えるかをハード選択するための別個の顔選択システムを含まない、方法(400)。 - 前記単一のAV-ASRモデル(200)がシーケンス間モデル(200)を備える、請求項10に記載の方法(400)。
- 前記単一のAV-ASRモデル(200)が、視聴覚リカレントニューラルネットワークトランスデューサ(RNN-T)モデル(200)を備える、請求項10または11に記載の方法(400)。
- 前記複数のビデオ顔トラック(230)のうちのビデオ顔トラック(230)ごとの前記信頼スコアを決定するステップが、前記信頼スコアを前記ビデオ顔トラック(230)に利用することで、前記複数のビデオ顔トラック(230)の注意加重視覚特徴ベクトル(272)を生成するステップを備え、前記注意加重視覚特徴ベクトル(272)が、前記組み合わされた特徴ベクトルに含まれ、前記オーディオトラック(210)の前記話し顔を備える可能性が最も高い前記それぞれの人の前記顔を含む前記複数のビデオ顔トラック(230)のうちの前記ビデオ顔トラック(230)のソフト選択を表す、請求項10から12のいずれか一項に記載の方法(400)。
- 前記注意メカニズム(270)が、前記注意メカニズム(270)に、前記最高の信頼スコアに関連付けられる前記複数のビデオ顔トラック(230)のうちの前記ビデオ顔トラック(230)を、前記オーディオトラック(210)の前記話し顔として選択するという難しい決定規則に収束させるように構成された逆温度パラメータを有するソフトマックス層を備える、請求項10から13のいずれか一項に記載の方法(400)。
- 1つまたは複数の発話を備えるトレーニングオーディオトラック(210T)と、
前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の正しい話し顔を備える第1のトレーニングビデオ顔トラック(230Ta)と、
1つまたは複数の第2のトレーニングビデオ顔トラック(230Tb)であって、各第2のトレーニングビデオ顔トラック(230Tb)が、前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の誤った話し顔を備える、1つまたは複数の第2のトレーニングビデオ顔トラック(230Tb)と
を備えるトレーニングデータセット(302)において前記エンコーダフロントエンド(260)をトレーニングするステップをさらに備える、請求項10から14のいずれか一項に記載の方法(400)。 - 前記エンコーダフロントエンド(260)をトレーニングするステップが、前記トレーニングオーディオトラック(210T)の前記1つまたは複数の発話の前記正しい話し顔として、前記第1のトレーニングビデオ顔トラック(230Ta)をゲート制御する方法を学習するように前記注意メカニズム(270)をトレーニングするステップを備える、請求項15に記載の方法(400)。
- 前記注意メカニズム(270)がクロスエントロピ損失を用いてトレーニングされる、請求項15または16に記載の方法(400)。
- 前記デコーダ(280)によって、前記オーディオトラック(210)のストリーミング文字起こし(250)を提供するために、前記オーディオトラック(210)の前記音声認識結果(248)をリアルタイムで発信するステップをさらに備える、請求項10から17のいずれか一項に記載の方法(400)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962923096P | 2019-10-18 | 2019-10-18 | |
US62/923,096 | 2019-10-18 | ||
PCT/US2020/054162 WO2021076349A1 (en) | 2019-10-18 | 2020-10-02 | End-to-end multi-speaker audio-visual automatic speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022553233A JP2022553233A (ja) | 2022-12-22 |
JP7442631B2 true JP7442631B2 (ja) | 2024-03-04 |
Family
ID=73014658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022522999A Active JP7442631B2 (ja) | 2019-10-18 | 2020-10-02 | エンドツーエンドのマルチスピーカ視聴覚自動音声認識 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11615781B2 (ja) |
EP (1) | EP4038607A1 (ja) |
JP (1) | JP7442631B2 (ja) |
KR (1) | KR20220084359A (ja) |
CN (1) | CN114616620A (ja) |
WO (1) | WO2021076349A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021104437A1 (de) | 2021-02-24 | 2022-08-25 | KOB GmbH | Textiles Flachmaterial mit integrierten Taschen zur Aufnahme von elektrischen und/oder elektronischen Bauteilen für medizintechnische Mess- und/oder Steuerzwecke |
EP4288960A1 (en) * | 2021-06-18 | 2023-12-13 | DeepMind Technologies Limited | Adaptive visual speech recognition |
CN116758902A (zh) * | 2023-06-01 | 2023-09-15 | 镁佳(北京)科技有限公司 | 一种多人说话场景下音视频识别模型训练及识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000338987A (ja) | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム |
JP2007018006A (ja) | 2006-09-25 | 2007-01-25 | Ntt Docomo Inc | 音声合成システム、音声合成方法、音声合成プログラム |
JP2011186351A (ja) | 2010-03-11 | 2011-09-22 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US9691384B1 (en) * | 2016-08-19 | 2017-06-27 | Google Inc. | Voice action biasing system |
US10672387B2 (en) * | 2017-01-11 | 2020-06-02 | Google Llc | Systems and methods for recognizing user speech |
US10332515B2 (en) * | 2017-03-14 | 2019-06-25 | Google Llc | Query endpointing based on lip detection |
US20190027147A1 (en) * | 2017-07-18 | 2019-01-24 | Microsoft Technology Licensing, Llc | Automatic integration of image capture and recognition in a voice-based query to understand intent |
US10452923B2 (en) * | 2017-11-28 | 2019-10-22 | Visual Semantics, Inc. | Method and apparatus for integration of detected object identifiers and semantic scene graph networks for captured visual scene behavior estimation |
CN108596107A (zh) * | 2018-04-26 | 2018-09-28 | 京东方科技集团股份有限公司 | 基于ar设备的唇语识别方法及其装置、ar设备 |
EP4130941A1 (en) * | 2018-05-04 | 2023-02-08 | Google LLC | Hot-word free adaptation of automated assistant function(s) |
US10593336B2 (en) * | 2018-07-26 | 2020-03-17 | Accenture Global Solutions Limited | Machine learning for authenticating voice |
US10747989B2 (en) * | 2018-08-21 | 2020-08-18 | Software Ag | Systems and/or methods for accelerating facial feature vector matching with supervised machine learning |
WO2020076345A1 (en) * | 2018-10-08 | 2020-04-16 | Google Llc | Selective enrollment with an automated assistant |
US11705133B1 (en) * | 2018-12-06 | 2023-07-18 | Amazon Technologies, Inc. | Utilizing sensor data for automated user identification |
US10504504B1 (en) * | 2018-12-07 | 2019-12-10 | Vocalid, Inc. | Image-based approaches to classifying audio data |
US11152001B2 (en) * | 2018-12-20 | 2021-10-19 | Synaptics Incorporated | Vision-based presence-aware voice-enabled device |
US11183185B2 (en) * | 2019-01-09 | 2021-11-23 | Microsoft Technology Licensing, Llc | Time-based visual targeting for voice commands |
US20220358703A1 (en) * | 2019-06-21 | 2022-11-10 | Deepbrain Ai Inc. | Method and device for generating speech video on basis of machine learning |
US11257493B2 (en) * | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
JP6977004B2 (ja) * | 2019-08-23 | 2021-12-08 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
US20210065712A1 (en) * | 2019-08-31 | 2021-03-04 | Soundhound, Inc. | Automotive visual speech recognition |
US11264009B2 (en) * | 2019-09-13 | 2022-03-01 | Mitsubishi Electric Research Laboratories, Inc. | System and method for a dialogue response generation system |
US11132512B2 (en) * | 2019-11-08 | 2021-09-28 | International Business Machines Corporation | Multi-perspective, multi-task neural network model for matching text to program code |
CN111091824B (zh) * | 2019-11-30 | 2022-10-04 | 华为技术有限公司 | 一种语音匹配方法及相关设备 |
CN110689902B (zh) * | 2019-12-11 | 2020-07-14 | 北京影谱科技股份有限公司 | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 |
CN113572798B (zh) * | 2020-04-29 | 2023-03-28 | 华为技术有限公司 | 设备控制方法、系统、设备和存储介质 |
CN114090986A (zh) * | 2020-07-31 | 2022-02-25 | 华为技术有限公司 | 一种公用设备上识别用户的方法及电子设备 |
CN114356109A (zh) * | 2020-09-27 | 2022-04-15 | 华为终端有限公司 | 文字输入方法、电子设备及计算机可读存储介质 |
US20220115019A1 (en) * | 2020-10-12 | 2022-04-14 | Soundhound, Inc. | Method and system for conversation transcription with metadata |
-
2020
- 2020-10-02 CN CN202080071967.2A patent/CN114616620A/zh active Pending
- 2020-10-02 WO PCT/US2020/054162 patent/WO2021076349A1/en unknown
- 2020-10-02 JP JP2022522999A patent/JP7442631B2/ja active Active
- 2020-10-02 US US17/062,538 patent/US11615781B2/en active Active
- 2020-10-02 KR KR1020227016572A patent/KR20220084359A/ko unknown
- 2020-10-02 EP EP20797313.2A patent/EP4038607A1/en active Pending
-
2023
- 2023-03-21 US US18/187,292 patent/US11900919B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000338987A (ja) | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム |
JP2007018006A (ja) | 2006-09-25 | 2007-01-25 | Ntt Docomo Inc | 音声合成システム、音声合成方法、音声合成プログラム |
JP2011186351A (ja) | 2010-03-11 | 2011-09-22 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2021076349A1 (en) | 2021-04-22 |
US20230223012A1 (en) | 2023-07-13 |
CN114616620A (zh) | 2022-06-10 |
US11615781B2 (en) | 2023-03-28 |
EP4038607A1 (en) | 2022-08-10 |
US11900919B2 (en) | 2024-02-13 |
JP2022553233A (ja) | 2022-12-22 |
US20210118427A1 (en) | 2021-04-22 |
KR20220084359A (ko) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7442631B2 (ja) | エンドツーエンドのマルチスピーカ視聴覚自動音声認識 | |
US11019308B2 (en) | Speaker anticipation | |
Kim et al. | A comparison of online automatic speech recognition systems and the nonverbal responses to unintelligible speech | |
US20190341058A1 (en) | Joint neural network for speaker recognition | |
US10950254B2 (en) | Producing comprehensible subtitles and captions for an effective group viewing experience | |
JP5195106B2 (ja) | 画像修正方法、画像修正システム、及び画像修正プログラム | |
US20190215464A1 (en) | Systems and methods for decomposing a video stream into face streams | |
JP7400100B2 (ja) | 音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション | |
US10938725B2 (en) | Load balancing multimedia conferencing system, device, and methods | |
US11640519B2 (en) | Systems and methods for domain adaptation in neural networks using cross-domain batch normalization | |
US11489894B2 (en) | Rating interface for behavioral impact assessment during interpersonal interactions | |
US20210020181A1 (en) | Automated Audio-to-Text Transcription in Multi-Device Teleconferences | |
US20220310074A1 (en) | Mixture Model Attention for Flexible Streaming and Non-Streaming Automatic Speech Recognition | |
TWI769520B (zh) | 多國語言語音辨識及翻譯方法與相關的系統 | |
JP7400364B2 (ja) | 音声認識システム及び情報処理方法 | |
Kim et al. | Comparison of Automatic Speech Recognition Systems | |
CN113312928A (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
US20230362451A1 (en) | Generation of closed captions based on various visual and non-visual elements in content | |
US11665215B1 (en) | Content delivery system | |
WO2023107124A1 (en) | Building a pragmatic action-item system | |
Ambrose et al. | Sign language recognition using LSTM algorithm | |
JP2024050983A (ja) | 自動音声認識のための多言語再スコアリングモデル |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220614 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230703 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7442631 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |