JP2007528031A - 音声および映像ソースデータを分離および評価する技術 - Google Patents
音声および映像ソースデータを分離および評価する技術 Download PDFInfo
- Publication number
- JP2007528031A JP2007528031A JP2007503119A JP2007503119A JP2007528031A JP 2007528031 A JP2007528031 A JP 2007528031A JP 2007503119 A JP2007503119 A JP 2007503119A JP 2007503119 A JP2007503119 A JP 2007503119A JP 2007528031 A JP2007528031 A JP 2007528031A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- video
- audio
- mouth
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005516 engineering process Methods 0.000 title description 4
- 238000000034 method Methods 0.000 claims abstract description 68
- 230000000007 visual effect Effects 0.000 claims abstract description 55
- 238000001514 detection method Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 claims 1
- 238000002360 preparation method Methods 0.000 claims 1
- 239000012634 fragment Substances 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 7
- 238000000926 separation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
- Burglar Alarm Systems (AREA)
- Emergency Alarm Devices (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
Claims (28)
- 発言する話し手に関連する視覚的特徴を電気的にキャプチャすることと、
音声を電気的にキャプチャすることと、
前記音声の選択部分と前記視覚的特徴とをマッチングすることと、
前記音声の前記残りの部分を前記話し手に関連しない潜在的ノイズとして識別することと、
を備える方法。 - 別の発言する話し手に関連する追加の視覚的特徴を電気的にキャプチャすることと、
前記潜在的ノイズに含まれる前記音声の前記残りの部分のいくつかと、前記追加の発言する話し手とをマッチングすることと、
を更に備える請求項1に記載の方法。 - 前記マッチングすることおよび前記識別することに関連するパラメータを生成し、発言する話し手をモデル化するベイジアン・ネットワークに前記パラメータを提供することを更に備える請求項1に記載の方法。
- 前記視覚的特徴を電気的にキャプチャすることは、発言する前記話し手に関連する電気的映像に対して、前記話し手の顔を検出および監視するようにトレーニングされたニューラル・ネットワークを実行することを更に有する請求項1に記載の方法。
- 前記話し手の口における動きの有無を検出するために、前記話し手の前記検出された顔をフィルタリングすることを更に備える請求項4に記載の方法。
- 前記マッチングすることは、前記キャプチャされた視覚的特徴の一部と、同一のタイムスライスにおける前記キャプチャされた音声の一部とを比較することを更に有する請求項1に記載の方法。
- 前記キャプチャされた視覚的特徴の選択部分が前記話し手は発言していないことを示す間、音声の前記キャプチャをサスペンドすることを更に備える請求項1に記載の方法。
- 第1の話し手および第2の話し手の電気的映像を監視することと、
発言する前記第1および第2の話し手に関連する音声を同時にキャプチャすることと、
いつ前記第1および第2の話し手がそれぞれ各自の口を動かしているかどうかを検出するために、前記映像を分析することと、
前記分析に基づいて、前記キャプチャされた音声の一部を前記第1の話し手にマッチングし、前記キャプチャされた音声の他の部分を前記第2の話し手にマッチングすることと、
を備える方法。 - 後の前記第1および第2の話し手との相互作用のために、前記分析をモデル化することを更に備える請求項8に記載の方法。
- 分析することは、前記第1および第2の話し手の顔を検出するためにニューラル・ネットワークを実行すること、および、いつ前記第1および第2の話し手の各自の口が動いているかまたは動いていないかを検出するためにベクトル分類アルゴリズムを実行することを更に備える請求項8に記載の方法。
- 分析の準備において、前記電気的映像を前記同時にキャプチャされた音声から分離することを更に備える請求項8に記載の方法。
- 前記分析が前記第1および第2の話し手の前記口が動いていることを検出しないとき、音声の前記キャプチャをサスペンドすることを更に備える請求項8に記載の方法。
- 前記キャプチャされた音声の選択部分が前記第1の話し手または前記第2の話し手にマッチングされない場合、前記キャプチャされた音声の前記選択部分をノイズとして識別することを更に備える請求項8に記載の方法。
- マッチングすることは、前記電気的映像の選択部分が監視されたとき、および、前記音声の選択部分がキャプチャされたときに関連する時間依存性を識別することを更に備える請求項8に記載の方法。
- カメラと、
マイクロフォンと、
処理デバイスと
を備え、
前記カメラは、話し手の映像をキャプチャして前記映像を前記処理デバイスに伝達し、
前記マイクロフォンは、前記話し手および前記話し手に関連する環境に関連する音声をキャプチャして前記音声を前記処理デバイスに伝達し、
前記処理デバイスは、前記話し手が発言しているときの前記映像の視覚的特徴を識別し、前記音声の一部を前記視覚的特徴にマッチングするために時間依存性を使用する命令群を有する
システム。 - 前記キャプチャされた映像は、第2の話し手の画像、および、前記第2の話し手に関連する発言を含む音声を有し、前記命令群は、前記視覚的特徴のいくつかが前記第2の話し手が発言していることを示すとき、前記音声のいくつかの部分と前記第2の話し手とをマッチングする請求項15に記載のシステム。
- 前記命令群は、前記キャプチャされた映像から前記話し手の顔を検出するために、ニューラル・ネットワークと相互作用する請求項15に記載のシステム。
- 前記命令群は、前記キャプチャされた映像内において、いつ前記顔に関連する口が動いたのか、または、動かないのかを検出するために、ピクセル・ベクトル・アルゴリズムと相互作用する請求項17に記載のシステム。
- 前記命令群は、後の相互作用において、いつ前記話し手が発言しているかを判定するため、および、発言する前記話し手に関連する適切な音声を判定するために、前記話し手との後の相互作用をモデル化するベイジアン・ネットワークを設定するパラメータデータを生成する請求項18に記載のシステム。
- 命令群が保存されたマシンアクセス可能な媒体であって、
前記命令群は、マシンによりアクセスされることによって、
発言する話し手に関連する音声および映像を分離し、
前記話し手の口が動いていること、または、動いていないことを示す視覚的特徴を前記映像から識別し、
前記音声の一部を、前記口が動いていることを示す前記視覚的特徴の選択部分に関連付ける
媒体。 - 前記音声の他の部分を、前記口が動いていないことを示す、前記視覚的特徴の他の部分に関連付ける命令群を更に有する請求項20に記載の媒体。
- 前記命令群は、
他の話し手の他の口が動いていること、または、動いていないことを示す第2の視覚的特徴を前記映像から識別し、
前記音声の他の部分を、前記他の口が動いていることを示す前記第2の視覚的特徴の選択部分に関連付ける
命令をさらに有する請求項20に記載の媒体。 - 識別するための前記命令群は、
前記話し手の顔を検出するためにニューラル・ネットワークを実行し、
前記検出された顔の中において前記話し手の前記口の動きを検出するためにベクトル・マッチング・アルゴリズムを実行する
命令群を更に有する請求項20に記載の媒体。 - 関連付けるための前記命令群は、前記音声の前記部分がキャプチャされた時間、および、前記映像内の前記視覚的特徴の前記選択部分がキャプチャされた時間に関連する同一のタイムスライスをマッチングする命令群を更に有する請求項20に記載の媒体。
- 顔検出ロジックと、
口検出ロジックと、
音声映像マッチング・ロジックと
を備え、
前記顔検出ロジックは、映像内で話し手の顔を検出し、
前記口検出ロジックは、前記映像の前記顔に含まれる口の動きの有無を検出および監視し、
前記映像マッチング・ロジックは、キャプチャされた音声の一部と、前記口検出ロジックによって識別された全ての口の動作とをマッチングする
コンピュータアクセス可能な媒体に存在する装置。 - 前記装置は、発言する前記話し手をモデル化するベイジアン・ネットワークを設定するために使用される請求項25に記載の装置。
- 前記顔検出ロジックは、ニューラル・ネットワークを備える請求項25に記載の装置。
- 前記装置は、処理デバイス上に存在し、前記処理デバイスは、カメラおよびマイクロフォンに接続される請求項25に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/813,642 | 2004-03-30 | ||
US10/813,642 US20050228673A1 (en) | 2004-03-30 | 2004-03-30 | Techniques for separating and evaluating audio and video source data |
PCT/US2005/010395 WO2005098740A1 (en) | 2004-03-30 | 2005-03-25 | Techniques for separating and evaluating audio and video source data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007528031A true JP2007528031A (ja) | 2007-10-04 |
JP5049117B2 JP5049117B2 (ja) | 2012-10-17 |
Family
ID=34964373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007503119A Expired - Fee Related JP5049117B2 (ja) | 2004-03-30 | 2005-03-25 | 音声および映像ソースデータを分離および評価する技術 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20050228673A1 (ja) |
EP (1) | EP1730667A1 (ja) |
JP (1) | JP5049117B2 (ja) |
KR (2) | KR101013658B1 (ja) |
CN (1) | CN1930575B (ja) |
WO (1) | WO2005098740A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009157905A (ja) * | 2007-12-07 | 2009-07-16 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2020187346A (ja) * | 2019-05-10 | 2020-11-19 | ネイバー コーポレーションNAVER Corporation | オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7587318B2 (en) * | 2002-09-12 | 2009-09-08 | Broadcom Corporation | Correlating video images of lip movements with audio signals to improve speech recognition |
US7359979B2 (en) | 2002-09-30 | 2008-04-15 | Avaya Technology Corp. | Packet prioritization and associated bandwidth and buffer management techniques for audio over IP |
US20040073690A1 (en) | 2002-09-30 | 2004-04-15 | Neil Hepworth | Voice over IP endpoint call admission |
US7978827B1 (en) | 2004-06-30 | 2011-07-12 | Avaya Inc. | Automatic configuration of call handling based on end-user needs and characteristics |
US20060192775A1 (en) * | 2005-02-25 | 2006-08-31 | Microsoft Corporation | Using detected visual cues to change computer system operating states |
US7716048B2 (en) * | 2006-01-25 | 2010-05-11 | Nice Systems, Ltd. | Method and apparatus for segmentation of audio interactions |
US8024189B2 (en) * | 2006-06-22 | 2011-09-20 | Microsoft Corporation | Identification of people using multiple types of input |
KR100835996B1 (ko) | 2006-12-05 | 2008-06-09 | 한국전자통신연구원 | 적응형 발성 화면 분석 방법 및 장치 |
US8218751B2 (en) | 2008-09-29 | 2012-07-10 | Avaya Inc. | Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences |
CN102405463B (zh) * | 2009-04-30 | 2015-07-29 | 三星电子株式会社 | 利用多模态信息的用户意图推理装置及方法 |
KR101581883B1 (ko) * | 2009-04-30 | 2016-01-11 | 삼성전자주식회사 | 모션 정보를 이용하는 음성 검출 장치 및 방법 |
US20100295782A1 (en) | 2009-05-21 | 2010-11-25 | Yehuda Binder | System and method for control based on face ore hand gesture detection |
CN102262880A (zh) * | 2010-05-31 | 2011-11-30 | 苏州闻道网络科技有限公司 | 一种音频提取装置和方法 |
US8601076B2 (en) | 2010-06-10 | 2013-12-03 | Aol Inc. | Systems and methods for identifying and notifying users of electronic content based on biometric recognition |
US9311395B2 (en) | 2010-06-10 | 2016-04-12 | Aol Inc. | Systems and methods for manipulating electronic content based on speech recognition |
US8949123B2 (en) | 2011-04-11 | 2015-02-03 | Samsung Electronics Co., Ltd. | Display apparatus and voice conversion method thereof |
PL403724A1 (pl) * | 2013-05-01 | 2014-11-10 | Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie | System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli i sieci Bayesa |
US9542948B2 (en) * | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
EP3192015A1 (en) | 2014-09-09 | 2017-07-19 | Intel Corporation | Improved fixed point integer implementations for neural networks |
GB2533373B (en) * | 2014-12-18 | 2018-07-04 | Canon Kk | Video-based sound source separation |
CN105991851A (zh) | 2015-02-17 | 2016-10-05 | 杜比实验室特许公司 | 处理电话会议系统中的烦扰 |
US10129608B2 (en) * | 2015-02-24 | 2018-11-13 | Zepp Labs, Inc. | Detect sports video highlights based on voice recognition |
US10109277B2 (en) * | 2015-04-27 | 2018-10-23 | Nuance Communications, Inc. | Methods and apparatus for speech recognition using visual information |
TWI564791B (zh) * | 2015-05-19 | 2017-01-01 | 卡訊電子股份有限公司 | 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體 |
CN105959723B (zh) * | 2016-05-16 | 2018-09-18 | 浙江大学 | 一种基于机器视觉和语音信号处理相结合的假唱检测方法 |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
US10332515B2 (en) * | 2017-03-14 | 2019-06-25 | Google Llc | Query endpointing based on lip detection |
US10593351B2 (en) * | 2017-05-03 | 2020-03-17 | Ajit Arun Zadgaonkar | System and method for estimating hormone level and physiological conditions by analysing speech samples |
US11456005B2 (en) * | 2017-11-22 | 2022-09-27 | Google Llc | Audio-visual speech separation |
US10951859B2 (en) | 2018-05-30 | 2021-03-16 | Microsoft Technology Licensing, Llc | Videoconferencing device and method |
CN109040641B (zh) * | 2018-08-30 | 2020-10-16 | 维沃移动通信有限公司 | 一种视频数据合成方法及装置 |
WO2020172828A1 (zh) * | 2019-02-27 | 2020-09-03 | 华为技术有限公司 | 一种声源分离方法、装置及设备 |
CN111832595B (zh) * | 2019-04-23 | 2022-05-06 | 北京新唐思创教育科技有限公司 | 教师风格的确定方法及计算机存储介质 |
CN110544491A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种实时关联说话人及其语音识别结果的方法及装置 |
CN110517295A (zh) * | 2019-08-30 | 2019-11-29 | 上海依图信息技术有限公司 | 一种结合语音识别的实时人脸轨迹跟踪方法及装置 |
CN110545396A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种基于定位去噪的语音识别方法及装置 |
CN110516755A (zh) * | 2019-08-30 | 2019-11-29 | 上海依图信息技术有限公司 | 一种结合语音识别的身体轨迹实时跟踪方法及装置 |
CN110503957A (zh) * | 2019-08-30 | 2019-11-26 | 上海依图信息技术有限公司 | 一种基于图像去噪的语音识别方法及装置 |
CN110544479A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种去噪的语音识别方法及装置 |
CN110827823A (zh) * | 2019-11-13 | 2020-02-21 | 联想(北京)有限公司 | 语音辅助识别方法、装置、存储介质及电子设备 |
CN113035225B (zh) * | 2019-12-09 | 2023-02-28 | 中国科学院自动化研究所 | 视觉声纹辅助的语音分离方法及装置 |
CN111028833B (zh) * | 2019-12-16 | 2022-08-16 | 广州小鹏汽车科技有限公司 | 一种交互、车辆的交互方法、装置 |
US11688035B2 (en) | 2021-04-15 | 2023-06-27 | MetaConsumer, Inc. | Systems and methods for capturing user consumption of information |
US11836886B2 (en) * | 2021-04-15 | 2023-12-05 | MetaConsumer, Inc. | Systems and methods for capturing and processing user consumption of information |
CN113593529B (zh) * | 2021-07-09 | 2023-07-25 | 北京字跳网络技术有限公司 | 说话人分离算法的评估方法、装置、电子设备和存储介质 |
CN116758902A (zh) * | 2023-06-01 | 2023-09-15 | 镁佳(北京)科技有限公司 | 一种多人说话场景下音视频识别模型训练及识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0643897A (ja) * | 1992-05-26 | 1994-02-18 | Ricoh Co Ltd | 会話認識システム |
JPH1185190A (ja) * | 1997-09-05 | 1999-03-30 | Matsushita Electric Ind Co Ltd | 音声認識装置及び音声認識方法 |
JPH11282492A (ja) * | 1998-03-26 | 1999-10-15 | Matsushita Electric Ind Co Ltd | 音声認識装置、話者検出装置及び画像記録装置 |
JP2003189273A (ja) * | 2001-12-20 | 2003-07-04 | Sharp Corp | 発言者識別装置及び該発言者識別装置を備えたテレビ会議システム |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4975960A (en) * | 1985-06-03 | 1990-12-04 | Petajan Eric D | Electronic facial tracking and detection system and method and apparatus for automated speech recognition |
US5621858A (en) * | 1992-05-26 | 1997-04-15 | Ricoh Corporation | Neural network acoustic and visual speech recognition system training method and apparatus |
US5481543A (en) * | 1993-03-16 | 1996-01-02 | Sony Corporation | Rational input buffer arrangements for auxiliary information in video and audio signal processing systems |
US5506932A (en) * | 1993-04-16 | 1996-04-09 | Data Translation, Inc. | Synchronizing digital audio to digital video |
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
FR2761562B1 (fr) * | 1997-03-27 | 2004-08-27 | France Telecom | Systeme de visioconference |
KR100251453B1 (ko) * | 1997-08-26 | 2000-04-15 | 윤종용 | 고음질 오디오 부호화/복호화장치들 및 디지털다기능디스크 |
US5940118A (en) * | 1997-12-22 | 1999-08-17 | Nortel Networks Corporation | System and method for steering directional microphones |
US6381569B1 (en) * | 1998-02-04 | 2002-04-30 | Qualcomm Incorporated | Noise-compensated speech recognition templates |
US7081915B1 (en) * | 1998-06-17 | 2006-07-25 | Intel Corporation | Control of video conferencing using activity detection |
JP2000175170A (ja) * | 1998-12-04 | 2000-06-23 | Nec Corp | 多地点テレビ会議システム及びその通信方法 |
GB9908545D0 (en) * | 1999-04-14 | 1999-06-09 | Canon Kk | Image processing apparatus |
FR2797343B1 (fr) * | 1999-08-04 | 2001-10-05 | Matra Nortel Communications | Procede et dispositif de detection d'activite vocale |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6683968B1 (en) * | 1999-09-16 | 2004-01-27 | Hewlett-Packard Development Company, L.P. | Method for visual tracking using switching linear dynamic system models |
US6754373B1 (en) * | 2000-07-14 | 2004-06-22 | International Business Machines Corporation | System and method for microphone activation using visual speech cues |
US6707921B2 (en) * | 2001-11-26 | 2004-03-16 | Hewlett-Packard Development Company, Lp. | Use of mouth position and mouth movement to filter noise from speech in a hearing aid |
US7219062B2 (en) * | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
US7165029B2 (en) * | 2002-05-09 | 2007-01-16 | Intel Corporation | Coupled hidden Markov model for audiovisual speech recognition |
US7472063B2 (en) * | 2002-12-19 | 2008-12-30 | Intel Corporation | Audio-visual feature fusion and support vector machine useful for continuous speech recognition |
US7203669B2 (en) * | 2003-03-17 | 2007-04-10 | Intel Corporation | Detector tree of boosted classifiers for real-time object detection and tracking |
US7454342B2 (en) * | 2003-03-19 | 2008-11-18 | Intel Corporation | Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition |
US7343289B2 (en) * | 2003-06-25 | 2008-03-11 | Microsoft Corp. | System and method for audio/video speaker detection |
US20050027530A1 (en) * | 2003-07-31 | 2005-02-03 | Tieyan Fu | Audio-visual speaker identification using coupled hidden markov models |
US7362350B2 (en) * | 2004-04-30 | 2008-04-22 | Microsoft Corporation | System and process for adding high frame-rate current speaker data to a low frame-rate video |
-
2004
- 2004-03-30 US US10/813,642 patent/US20050228673A1/en not_active Abandoned
-
2005
- 2005-03-25 EP EP05731257A patent/EP1730667A1/en not_active Ceased
- 2005-03-25 KR KR1020087022807A patent/KR101013658B1/ko not_active IP Right Cessation
- 2005-03-25 KR KR1020067020637A patent/KR20070004017A/ko not_active Application Discontinuation
- 2005-03-25 CN CN2005800079027A patent/CN1930575B/zh not_active Expired - Fee Related
- 2005-03-25 JP JP2007503119A patent/JP5049117B2/ja not_active Expired - Fee Related
- 2005-03-25 WO PCT/US2005/010395 patent/WO2005098740A1/en not_active Application Discontinuation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0643897A (ja) * | 1992-05-26 | 1994-02-18 | Ricoh Co Ltd | 会話認識システム |
JPH1185190A (ja) * | 1997-09-05 | 1999-03-30 | Matsushita Electric Ind Co Ltd | 音声認識装置及び音声認識方法 |
JPH11282492A (ja) * | 1998-03-26 | 1999-10-15 | Matsushita Electric Ind Co Ltd | 音声認識装置、話者検出装置及び画像記録装置 |
JP2003189273A (ja) * | 2001-12-20 | 2003-07-04 | Sharp Corp | 発言者識別装置及び該発言者識別装置を備えたテレビ会議システム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009157905A (ja) * | 2007-12-07 | 2009-07-16 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2020187346A (ja) * | 2019-05-10 | 2020-11-19 | ネイバー コーポレーションNAVER Corporation | オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 |
JP6999734B2 (ja) | 2019-05-10 | 2022-01-19 | ネイバー コーポレーション | オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
KR101013658B1 (ko) | 2011-02-10 |
CN1930575A (zh) | 2007-03-14 |
US20050228673A1 (en) | 2005-10-13 |
EP1730667A1 (en) | 2006-12-13 |
WO2005098740A1 (en) | 2005-10-20 |
KR20080088669A (ko) | 2008-10-02 |
KR20070004017A (ko) | 2007-01-05 |
JP5049117B2 (ja) | 2012-10-17 |
CN1930575B (zh) | 2011-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5049117B2 (ja) | 音声および映像ソースデータを分離および評価する技術 | |
Afouras et al. | My lips are concealed: Audio-visual speech enhancement through obstructions | |
US10109277B2 (en) | Methods and apparatus for speech recognition using visual information | |
US11630999B2 (en) | Method and system for analyzing customer calls by implementing a machine learning model to identify emotions | |
US9293133B2 (en) | Improving voice communication over a network | |
Chen et al. | The first multimodal information based speech processing (misp) challenge: Data, tasks, baselines and results | |
CN110853646A (zh) | 会议发言角色的区分方法、装置、设备及可读存储介质 | |
JP2011123529A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR20200129934A (ko) | 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치 | |
US10964326B2 (en) | System and method for audio-visual speech recognition | |
JP2007088803A (ja) | 情報処理装置 | |
US9165182B2 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
CN114762039A (zh) | 一种会议数据处理方法及相关设备 | |
Liu et al. | MSDWild: Multi-modal Speaker Diarization Dataset in the Wild. | |
US20230095526A1 (en) | Target speaker mode | |
Gogate et al. | Av speech enhancement challenge using a real noisy corpus | |
CN117854507A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
TWI769520B (zh) | 多國語言語音辨識及翻譯方法與相關的系統 | |
Hung et al. | Towards audio-visual on-line diarization of participants in group meetings | |
KR101369270B1 (ko) | 멀티 채널 분석을 이용한 비디오 스트림 분석 방법 | |
Berghi et al. | Leveraging Visual Supervision for Array-Based Active Speaker Detection and Localization | |
Hung et al. | Associating audio-visual activity cues in a dominance estimation framework | |
CN112397089B (zh) | 语音发出者身份识别方法、装置、计算机设备及存储介质 | |
CN116866509B (zh) | 会议现场画面跟踪方法、装置和存储介质 | |
US20230421702A1 (en) | Distributed teleconferencing using personalized enhancement models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100126 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100423 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100506 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100525 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100601 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100625 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100726 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110601 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110601 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110622 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20110902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120608 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120720 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |