JP2012503401A - システム制御方法及び信号処理システム - Google Patents
システム制御方法及び信号処理システム Download PDFInfo
- Publication number
- JP2012503401A JP2012503401A JP2011527440A JP2011527440A JP2012503401A JP 2012503401 A JP2012503401 A JP 2012503401A JP 2011527440 A JP2011527440 A JP 2011527440A JP 2011527440 A JP2011527440 A JP 2011527440A JP 2012503401 A JP2012503401 A JP 2012503401A
- Authority
- JP
- Japan
- Prior art keywords
- user
- information
- signal
- source
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 title claims description 27
- 230000007704 transition Effects 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 42
- 230000003993 interaction Effects 0.000 claims description 42
- 230000000694 effects Effects 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 4
- 230000010365 information processing Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 43
- 238000004891 communication Methods 0.000 description 21
- 238000004458 analytical method Methods 0.000 description 20
- 108091006146 Channels Proteins 0.000 description 12
- 230000008859 change Effects 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007562 laser obscuration time method Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Selective Calling Equipment (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
Bhou-Gazale, S.及びAssaleh, K.,“A robust endpoint detection of speech for noisy environments with application to automatic speech recognition”,Proc. ICASSP 2002,Orlando,Florida,2002年5月
Davis, A.他,“Statistical voice activity detection using low/variance spectrum estimation and an adaptive threshold”,IEEE Trans. on audio, speech and language processing,14(2) ,2006,pp.412-424
Huang, L,及びYang, C,“A novel approach to robust speech detection in car environments”,IEEE Int. Conf. on Acoustics, Speech and Signal Processing,3(5-9),2000,pp.1751-1754
SADシステム33の機能はまた、マスター電話ユニット8のみに実装されてもよいことがわかる。マスター電話ユニット8は、G.722デコーダ及び出力RTPソケット32を介して提供された信号を受信する。この機能はまた、入力信号処理ユニット31に実装されたエコーキャンセル及び発話拡張アルゴリズムの一部として実装されてもよい。発話活動検出の出力は、しばしばバイナリ値である。これはまた、例えば信頼値でもよい。所定の持続時間間隔での発話活動検出の結果は、ビル4内のネットワークでマスター電話ユニット8に送信される。
1.会話では、会話の大部分のいずれかの時点で唯一の話し手が活動中である。
2.活動中/沈黙中の話し手のチャネルが交互になるように、話し手が交替する。
3.双方のチャネルで連続する沈黙は、参加者の間で活動中の会話の交替が存在しないことを意味する。
4.1つのチャネルで交互にならない発話活動は、チャネル間で会話活動が存在しないが、例えば、2人の通信相手の間の会話が同じ遠隔端末1、2により取得されたことを意味する。
5.発話期間44、45と沈黙期間42、43との間の交替がチャネル間で同期しない場合、当該チャネル間での会話の交替は存在しない。これが、フロー40、41が相互に時間と共に分析される理由である。
g1=0.9
g2=0.99及び
g3=0.995
擬似コードでは、アルゴリズムは以下のように実行する。
1.チャネル1及び2での現在のフレームnのVAD状態を決定し、以下を評価する。
Brdiczka, O.他,“Automatic detection of interaction groups”,Proc. ICMI,2005年10月4-6は、会話の交替(turn-taking)がグループ内で同期しているという仮定に基づいて相互作用グループ構成を検出する手法を開示している。検出器は、会話の仮定で構成されたHMM(Hidden Markov Model)に基づく。検出器の入力は、どの人が話しているか話していないかの情報を含む発話活動ベクトルである。グループ内での発話の寄与の同期は、会話の仮定で構築されたHMMによる可能なグループ構成の検出を可能にする。
US2006/0206329A1は、機械とユーザとの間の相互作用の対話を管理する方法を記載している。一実施例では、機械とユーザとの間の相互作用は、ユーザの可能な発話の開始に応じた少なくとも1つの確率値を決定することにより管理される。応答確率関数は、ユーザが時間tに意味アイテムNを実際に話し始める確率を表す。応答確率関数はまた、音声活動検出(VAD::voice activity detector)アルゴリズムへの音声の開始の前の予測を供給するためにも使用され得る。その結果、VADは、時間が進展すると共に、そのパラメータを絶えず変更する。従って、VADは、低い前の開始の確率を有することが想定される時点で生じる明白な中断に厳しい要件を課し、中断が予想される状況であまり厳格ではない。
Claims (13)
- システムを制御する方法であって、
ユーザの環境において入力装置を介してユーザにより通信された情報を表す少なくとも1つの信号を取得し、第1のソースからの信号は、前記環境において認知できる形式で利用可能であり、
前記第1のソースから生じる情報と前記ユーザから生じる情報との間の遷移が生じることが想定される時点を少なくとも推定し、
推定時間に関して前記システムによる機能の実行をタイミング調整することを含む方法。 - 前記第1のソースから前記信号を取得し、
会話交替モデルに基づいて、相互に、前記ユーザからの情報のフローと、前記第1のソースからの前記信号で伝達される情報のフローとを分析することにより、前記推定を実行することを含む、請求項1に記載の方法。 - 前記少なくとも1つの入力装置からの信号及び前記第1のソースからの信号が少なくとも1つのオーディオ成分を含み、
前記方法は、相互に時間と共にオーディオ情報のフローを分析することを含む、請求項1に記載の方法。 - 前記情報のフローの分析は、前記ユーザにより通信された情報を表す前記少なくとも1つの信号に音声活動アルゴリズムを適用することを含む、請求項2に記載の方法。
- 前記第1のソースからの信号は、前記ユーザの環境において少なくとも前記入力装置へのインタフェースを含む電気通信システムへのオープン接続を有する遠隔電気通信端末から、少なくとも1つの電気通信ネットワークを介して取得される、請求項1に記載の方法。
- 前記電気通信システムは、前記ユーザにより通信される情報を表す信号を取得するために複数の入力装置とインタフェース接続し、認知できる形式で前記第1のソースからの前記信号を再生するために複数の再生装置とインタフェース接続し、
前記システムは、推定時間に関して前記ユーザを見つける機能の実行をタイミング調整するようにされる、請求項5に記載の方法。 - 前記ユーザは、情報が前記ユーザにより通信されることが推定される間隔中に前記入力装置からの信号に少なくとも部分的に基づいて見つけられるようにされる、請求項6に記載の方法。
- 推定時間に関して決定された時間まで、前記ユーザの環境における装置の出力を処理する機能を遅延させることを含む、請求項1に記載の方法。
- 前記遷移が生じることが想定される時点に続く間隔内に前記第1のソース及び前記ユーザのうち少なくとも1つから情報が通信されない場合にのみ、前記システムに対して推定時間に関して決定された時間に機能を実行させることを含む、請求項1に記載の方法。
- 前記第1のソースから生じる情報と前記ユーザから生じる情報との間の遷移が生じることが想定される時点を少なくとも推定する前に、前記入力装置の環境におけるユーザと前記第1のソースとの間での会話の交替に対応するような相互作用を検出する少なくとも1つの基準を使用して、前記第1のソースからの前記信号で伝達される情報のフローと、前記入力装置の1つからの信号で伝達される情報の少なくとも1つのフローとを時間と共に分析することを含む、請求項1に記載の方法。
- 第1のソースからの信号が認知できる形式で利用可能なユーザの環境における少なくとも1つの入力装置へのインタフェースであり、前記ユーザにより通信された情報を表す少なくとも1つの信号を取得するインタフェースと、
前記第1のソースから生じる情報と前記ユーザから生じるとの間の遷移が生じることが想定される時点を少なくとも推定する処理構成と
を含み、
推定時間に関してシステムの機能の実行をタイミング調整するように構成される信号処理システム。 - 請求項1ないし10のうちいずれか1項に記載の方法を実行するように構成された、請求項11に記載の信号処理システム。
- 機械可読媒体に組み込まれた場合、情報処理機能を有するシステムに対して請求項1ないし10のうちいずれか1項に記載の方法を実行させることができる一式の命令を含むコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP08164557 | 2008-09-18 | ||
EP08164557.4 | 2008-09-18 | ||
PCT/IB2009/053981 WO2010032182A2 (en) | 2008-09-18 | 2009-09-11 | Method of controlling a system and signal processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012503401A true JP2012503401A (ja) | 2012-02-02 |
JP5499038B2 JP5499038B2 (ja) | 2014-05-21 |
Family
ID=41683421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011527440A Expired - Fee Related JP5499038B2 (ja) | 2008-09-18 | 2009-09-11 | システム制御方法及び信号処理システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US8731940B2 (ja) |
EP (1) | EP2342884B1 (ja) |
JP (1) | JP5499038B2 (ja) |
CN (1) | CN102160359B (ja) |
TR (1) | TR201901706T4 (ja) |
WO (1) | WO2010032182A2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376304B (zh) * | 2010-08-10 | 2014-04-30 | 鸿富锦精密工业(深圳)有限公司 | 文本朗读系统及其文本朗读方法 |
US9094523B2 (en) | 2012-06-28 | 2015-07-28 | Dolby Laboratories Licensing Corporation | Metric for meeting commencement in a voice conferencing system |
US9082407B1 (en) * | 2014-04-15 | 2015-07-14 | Google Inc. | Systems and methods for providing prompts for voice commands |
US10529359B2 (en) * | 2014-04-17 | 2020-01-07 | Microsoft Technology Licensing, Llc | Conversation detection |
US9922667B2 (en) | 2014-04-17 | 2018-03-20 | Microsoft Technology Licensing, Llc | Conversation, presence and context detection for hologram suppression |
US9602351B2 (en) | 2014-06-06 | 2017-03-21 | Microsoft Technology Licensing, Llc | Proactive handling of network faults |
US9491054B2 (en) * | 2014-06-06 | 2016-11-08 | Microsoft Technology Licensing, Llc | Network-state management service |
US9887878B2 (en) | 2014-06-06 | 2018-02-06 | Microsoft Technology Licensing, Llc | Dynamic scheduling of network updates |
KR20160023089A (ko) * | 2014-08-21 | 2016-03-03 | 엘지전자 주식회사 | 디지털 디바이스 및 그 제어 방법 |
US10055403B2 (en) * | 2016-02-05 | 2018-08-21 | Adobe Systems Incorporated | Rule-based dialog state tracking |
US10692516B2 (en) | 2017-04-28 | 2020-06-23 | International Business Machines Corporation | Dialogue analysis |
US10468031B2 (en) | 2017-11-21 | 2019-11-05 | International Business Machines Corporation | Diarization driven by meta-information identified in discussion content |
US11120802B2 (en) | 2017-11-21 | 2021-09-14 | International Business Machines Corporation | Diarization driven by the ASR based segmentation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08130723A (ja) * | 1994-10-28 | 1996-05-21 | Nec Corp | テレビ会議システム話者判別装置 |
JPH09172496A (ja) * | 1995-12-20 | 1997-06-30 | Hitachi Ltd | 話者判定方法及び話者判定装置 |
JP2005130501A (ja) * | 2003-10-22 | 2005-05-19 | Palo Alto Research Center Inc | 複数人参加型の通信に動的変更可能なプロパティをそれぞれ少なくとも1個有する通信チャネルを提供する方法及びシステム |
JP2007166375A (ja) * | 2005-12-15 | 2007-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 映像音声会議システム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000267690A (ja) * | 1999-03-19 | 2000-09-29 | Toshiba Corp | 音声検知装置及び音声制御システム |
US6424946B1 (en) * | 1999-04-09 | 2002-07-23 | International Business Machines Corporation | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering |
US6219645B1 (en) | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
US6329908B1 (en) | 2000-06-23 | 2001-12-11 | Armstrong World Industries, Inc. | Addressable speaker system |
US7496510B2 (en) * | 2000-11-30 | 2009-02-24 | International Business Machines Corporation | Method and apparatus for the automatic separating and indexing of multi-speaker conversations |
US6996526B2 (en) * | 2002-01-02 | 2006-02-07 | International Business Machines Corporation | Method and apparatus for transcribing speech when a plurality of speakers are participating |
US20030210770A1 (en) | 2002-05-10 | 2003-11-13 | Brian Krejcarek | Method and apparatus for peer-to-peer voice communication using voice recognition and proper noun identification |
HK1059191A2 (en) | 2003-02-26 | 2004-05-28 | Intexact Technologies Ltd | A telephony system and a method of operating same |
KR20050049207A (ko) | 2003-11-21 | 2005-05-25 | 한국전자통신연구원 | 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 |
US7542903B2 (en) | 2004-02-18 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for determining predictive models of discourse functions |
US8315865B2 (en) | 2004-05-04 | 2012-11-20 | Hewlett-Packard Development Company, L.P. | Method and apparatus for adaptive conversation detection employing minimal computation |
WO2006069381A2 (en) * | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking confidence |
US7616750B2 (en) | 2005-02-25 | 2009-11-10 | Microsoft Corporation | Method and system for forwarding telephone calls based on presence information |
WO2007086042A2 (en) | 2006-01-25 | 2007-08-02 | Nice Systems Ltd. | Method and apparatus for segmentation of audio interactions |
US7680099B2 (en) | 2006-08-22 | 2010-03-16 | Nokia Corporation | Jitter buffer adjustment |
-
2009
- 2009-09-11 CN CN200980136673.7A patent/CN102160359B/zh not_active Expired - Fee Related
- 2009-09-11 JP JP2011527440A patent/JP5499038B2/ja not_active Expired - Fee Related
- 2009-09-11 EP EP09787180.0A patent/EP2342884B1/en not_active Revoked
- 2009-09-11 WO PCT/IB2009/053981 patent/WO2010032182A2/en active Application Filing
- 2009-09-11 TR TR2019/01706T patent/TR201901706T4/tr unknown
- 2009-09-11 US US13/119,597 patent/US8731940B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08130723A (ja) * | 1994-10-28 | 1996-05-21 | Nec Corp | テレビ会議システム話者判別装置 |
JPH09172496A (ja) * | 1995-12-20 | 1997-06-30 | Hitachi Ltd | 話者判定方法及び話者判定装置 |
JP2005130501A (ja) * | 2003-10-22 | 2005-05-19 | Palo Alto Research Center Inc | 複数人参加型の通信に動的変更可能なプロパティをそれぞれ少なくとも1個有する通信チャネルを提供する方法及びシステム |
JP2007166375A (ja) * | 2005-12-15 | 2007-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 映像音声会議システム |
Non-Patent Citations (2)
Title |
---|
CSNG199900112008; 堀内靖雄 他: '自発的音声対話における話者交替の制御に関わる発話末の統語的・韻律的特徴' 情報処理学会研究報告 Vol.96, No.21, 19960301, pp.45-50 * |
JPN6014004378; 堀内靖雄 他: '自発的音声対話における話者交替の制御に関わる発話末の統語的・韻律的特徴' 情報処理学会研究報告 Vol.96, No.21, 19960301, pp.45-50 * |
Also Published As
Publication number | Publication date |
---|---|
WO2010032182A2 (en) | 2010-03-25 |
WO2010032182A3 (en) | 2010-06-10 |
EP2342884B1 (en) | 2018-12-05 |
JP5499038B2 (ja) | 2014-05-21 |
CN102160359A (zh) | 2011-08-17 |
US8731940B2 (en) | 2014-05-20 |
US20110191109A1 (en) | 2011-08-04 |
TR201901706T4 (tr) | 2019-02-21 |
CN102160359B (zh) | 2015-07-08 |
EP2342884A2 (en) | 2011-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5499038B2 (ja) | システム制御方法及び信号処理システム | |
JP5526134B2 (ja) | 周辺電話技術システムにおける会話検出 | |
KR101255404B1 (ko) | 컴퓨터 시스템에서 에코 소거를 적용할지를 판정하는 방법,컴퓨터 시스템에서 에코 소거 알고리즘을 구성하는 방법및 에코 소거 알고리즘을 구성하는 컴퓨터 시스템 | |
EP4074025A1 (en) | Leveraging a network of microphones for inferring room location and speaker identity for more accurate transcriptions and semantic context across meetings | |
JP5523551B2 (ja) | 拡張通信ブリッジ | |
TW200818786A (en) | Jitter buffer adjustment | |
US9135928B2 (en) | Audio transmission channel quality assessment | |
EP2868072A1 (en) | Metric for meeting commencement in a voice conferencing system | |
USRE49462E1 (en) | Adaptive noise cancellation for multiple audio endpoints in a shared space | |
US9774743B2 (en) | Silence signatures of audio signals | |
EP3111626A2 (en) | Perceptually continuous mixing in a teleconference | |
CN111199751B (zh) | 一种麦克风的屏蔽方法、装置和电子设备 | |
CN111951813A (zh) | 语音编码控制方法、装置及存储介质 | |
CA2689230C (en) | Method of transmitting data in a communication system | |
US20080059161A1 (en) | Adaptive Comfort Noise Generation | |
US10182207B2 (en) | Handling nuisance in teleconference system | |
JP2007096555A (ja) | 音声会議システム、端末装置及びそれに用いる話者優先レベル制御方法並びにそのプログラム | |
Kim et al. | A main speaker decision for a distributed telepresence system | |
CN118645110A (zh) | 一种音频处理方法及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140310 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5499038 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |