JP5381988B2 - 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム - Google Patents
対話音声認識システム、対話音声認識方法および対話音声認識用プログラム Download PDFInfo
- Publication number
- JP5381988B2 JP5381988B2 JP2010522589A JP2010522589A JP5381988B2 JP 5381988 B2 JP5381988 B2 JP 5381988B2 JP 2010522589 A JP2010522589 A JP 2010522589A JP 2010522589 A JP2010522589 A JP 2010522589A JP 5381988 B2 JP5381988 B2 JP 5381988B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- speech
- speaker
- language
- speak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 59
- 238000004364 calculation method Methods 0.000 claims description 67
- 238000007476 Maximum Likelihood Methods 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 31
- 230000002452 interceptive effect Effects 0.000 claims description 30
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 16
- 238000012790 confirmation Methods 0.000 description 15
- 238000001514 detection method Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241000556720 Manga Species 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
= P(X|W) P(W) 式(2)
図1は、本発明の第1の実施形態の構成例を示すブロック図である。本発明の対話音声認識システムは、音声認識手段110を備える。そして、音声認識手段110は、音響尤度計算手段112と、発話権あり言語尤度計算手段113と、発話権なし言語尤度計算手段114と、最尤仮説探索手段115と、発話権あり言語モデル記憶手段116と、発話権なし言語モデル記憶手段117とを備える。音声認識手段110には音声信号と発話権情報とが入力され、音声認識手段110はその音声信号に対する音声認識結果を出力する。発話権情報については後述する。
まず、音声認識手段110に、音声信号と、その音声信号に対応する発話権情報とのペアが入力される。音声信号は、音響尤度計算手段112に入力され、発話権情報は最尤仮説探索手段115に入力される。
本実施形態では、発話権の有無によって発話される音声の内容に偏りがあることを利用し、入力された音声信号を発した際に話者が発話権を持っていたかどうかに応じて、その偏りを反映した言語モデルを自動的に選択して言語尤度を算出し、最尤な認識結果を探索する。このため、より強力な制約を用いて仮説を探索することができ、より精度の高い音声認識結果を得られることが期待できる。
図3は、本発明の第2の実施形態の構成例を示すブロック図である。第2の実施形態の対話音声認識システムは、第1の音声認識手段211と、第2の音声認識手段212と、発話権あり言語モデル記憶手段127と、発話権なし言語モデル記憶手段128とを備える。
第2の実施形態では、対話に参加する話者それぞれに個別のチャネルを割り当てて音声および発話権情報を入力し、発話権に応じて、各音声認識手段211,212が、発話権あり言語尤度計算手段113と発話権なし言語尤度計算手段114とを切り替えて音声認識処理を行う。従って、第1の実施の形態と同様に対話音声認識精度を向上させることができる。このとき、発話権あり言語モデル22および発話権なし言語モデル23は、二つのチャネル(二つの音声認識手段211,212)で共有されるため、事前のモデル構築作業を簡略化し、音声認識実行時の使用メモリ量を抑えることが出来る。
図4は、本発明の第3の実施形態の構成例を示すブロック図である。第3の実施形態の対話音声認識システムは、第1の音声認識手段211と、第2の音声認識手段212と、発話権あり言語モデル記憶手段127と、発話権なし言語モデル記憶手段128と、発話権判別手段340とを備える。第2の実施形態と同一の要素は、図3と同一の符号を付し、説明を省略する。
本実施形態でも、第1の実施形態や第2の実施形態と同様の効果が得られる。また、本実施の形態においては、発話権は入力音声から自動的に判断されるため、外部に発話権を識別するための機構を設ける必要が無い。
図8は、本発明の第4の実施形態の構成例を示すブロック図である。第4の実施形態の対話音声認識システムは、複数の発話検出手段630と、複数の音声認識手段610と、発話権判別手段620とを備える。発話検出手段630と音声認識手段610とは一対一に対応し、対応する発話検出手段630と音声認識手段610とが組をなす。また、各発話検出手段630には、それぞれ異なる話者の音声信号が入力される。
各発話検出手段630は、それぞれのチャネルの音声信号から実際に発話が行われた区間の音声信号またはその特徴量を、対応する音声認識手段610に入力する。また、各発話検出手段630は、その音声信号または特徴量を、発話を検出した時刻の時刻情報とともに発話権判別手段620にも入力する。
本実施形態では、3名以上の話者が参加する音声対話であっても、発話権に基づく言語制約(発話権あり言語モデルおよび発話権なし言語モデル)を用いて音声認識精度を向上することができる。
23,442,452 発話権なし言語モデル
110,211,212,610 音声認識手段
112,710 音響尤度計算手段
113 発話権あり言語尤度計算手段
114 発話権なし言語尤度計算手段
115 最尤仮説探索手段
116,127 発話権あり言語モデル記憶手段
117,128 発話権なし言語モデル記憶手段
340,620,430 発話権判別手段
410 マイクロフォン
420 受話装置
440 マイク音声用音声認識装置
450 電話音声用音声認識装置
460 表示装置
470 送話装置
630 発話検出手段
702 言語尤度算出手段
703 最尤候補探索手段
Claims (13)
- 複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力され、音声信号に対する音声認識を行う音声認識手段を備え、
前記音声認識手段は、
ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出手段と、
ある単語列が生起する尤度を与える言語尤度算出手段と、
前記音響尤度算出手段および前記言語尤度算出手段が与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索手段とを少なくとも備え、
前記言語尤度算出手段は、
前記音声認識手段に入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与える
ことを特徴とする対話音声認識システム。 - 前記言語尤度算出手段は、
音声信号を発した話者が発話権を有する場合における言語尤度を示す第1の言語モデルから尤度を特定する第1の言語尤度特定手段と、
音声信号を発した話者が発話権を有さない場合における言語尤度を示す第2の言語モデルから尤度を特定する第2の言語尤度特定手段とを有し、
前記最尤候補探索手段は、
発話権情報に応じて、前記第1の言語尤度特定手段が特定した言語尤度および前記第2の言語尤度特定手段が特定した言語尤度の少なくともいずれか一方を用いて、音声認識結果の候補を求める
請求項1に記載の対話音声認識システム。 - 前記最尤候補探索手段は、
前記第1の言語尤度特定手段が特定した言語尤度と、前記第2の言語尤度特定手段が特定した言語尤度とを、発話権情報に応じて補正して併合し、併合後の言語尤度を用いて、音声認識結果の候補を求める
請求項2に記載の対話音声認識システム。 - 前記最尤候補探索手段は、
前記第1の言語尤度特定手段が特定した言語尤度と、前記第2の言語尤度特定手段が特定した言語尤度とを、発話権情報に応じて線形結合し、線形結合後の言語尤度を用いて、音声信号から音声認識結果の候補を求める
請求項2または請求項3に記載の対話音声認識システム。 - 前記最尤候補探索手段は、
発話権を持たない話者の音声信号に対する音声認識を行う際に、前記第2の言語尤度特定手段が特定した言語尤度のうち、直近の時刻で発話権を有するとされた話者の音声に対する音声認識結果に該当する文字列の言語尤度を補正する
請求項2から請求項4のうちのいずれか1項に記載の対話音声認識システム。 - 前記第1の言語モデルおよび前記第2の言語モデルは、音素列に該当する単語、単語の集合、あるいは、単語または単語の集合の連鎖の言語尤度を定める
請求項2から請求項5のうちのいずれか1項に記載の対話音声認識システム。 - 各話者の音声信号の開始時刻および終了時刻に基づいて発話権情報を生成する発話権情報生成手段を備える
請求項1から請求項6のうちのいずれか1項に記載の対話音声認識システム。 - 前記発話権情報生成手段は、
全ての話者の音声信号が無音である状態からいずれかの話者の音声信号が有音となった時刻から、前記話者の音声信号が無音となる時刻までの間に、前記話者が発話権を有していることを示す発話権情報を生成するとともに、発話権情報を有しているとされた話者の音声信号が無音となる時刻に別の話者の音声信号が有音となっているならば、前記時刻から前記別の話者の音声信号が無音となる時刻までの間に、前記別の話者が発話権を有していることを示す発話権情報を生成する
請求項7に記載の対話音声認識システム。 - 前記発話権情報生成手段は、
全ての話者の音声信号が無音である状態からいずれかの話者の音声信号が有音となった時刻から、前記話者の音声信号が無音となる時刻までの間に、前記話者が発話権を有していることを示す発話権情報を生成するとともに、発話権情報を有しているとされた話者の音声信号が無音となる時刻に別の話者の音声信号が有音となっているならば、前記話者の音声信号が有音となった時刻から前記別の話者の音声信号が無音となる時刻までの間に、前記別の話者が発話権を有していることを示す発話権情報を生成する
請求項7に記載の対話音声認識システム。 - 複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行い、
前記音声認識の際には、
ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出を行い、
ある単語列が生起する尤度を与える言語尤度算出を行い、
前記音響尤度算出および前記言語尤度算出で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索を行い、
前記言語尤度算出の際には、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与える
ことを特徴とする対話音声認識方法。 - 前記言語尤度算出の際には、
音声信号を発した話者が発話権を有する場合における言語尤度を示す第1の言語モデルから尤度を特定する第1の言語尤度特定を行い、
音声信号を発した話者が発話権を有さない場合における言語尤度を示す第2の言語モデルから尤度を特定する第2の言語尤度特定を行い、
前記最尤候補探索の際には、発話権情報に応じて、前記第1の言語尤度特定で特定した言語尤度および前記第2の言語尤度特定で特定した言語尤度の少なくともいずれか一方を用いて、音声認識結果の候補を求める
請求項10に記載の対話音声認識方法。 - コンピュータに、
複数の話者による対話での各話者の音声信号と、音声信号を発した話者が発話権を有しているか否か、あるいは、話者が発話権を有する確かさを示す発話権情報とが入力されると、音声信号に対する音声認識を行う音声認識処理を実行させ、
音声認識処理で、
ある音素列から入力された音声信号が生起する尤度を与える音響尤度算出処理、
ある単語列が生起する尤度を与える言語尤度算出処理、および、
前記音響尤度算出処理および前記言語尤度算出処理で与える尤度を用いて音声信号から生起する尤度が最大になる単語列を与える最尤候補探索処理を少なくとも実行させ、
前記言語尤度算出処理では、入力された音声信号を発した話者が発話権を有する場合と有さない場合とで異なる言語尤度を与えさせる
ことを特徴とする対話音声認識用プログラム。 - コンピュータに、
前記言語尤度算出処理で、
音声信号を発した話者が発話権を有する場合における言語尤度を示す第1の言語モデルから尤度を特定する第1の言語尤度特定処理、および、
音声信号を発した話者が発話権を有さない場合における言語尤度を示す第2の言語モデルから尤度を特定する第2の言語尤度特定処理を実行させ、
前記最尤候補探索処理で、
発話権情報に応じて、前記第1の言語尤度特定ステップで特定した言語尤度および前記第2の言語尤度特定ステップで特定した言語尤度の少なくともいずれか一方を用いて、音声認識結果の候補を求めさせる
請求項12に記載の対話音声認識用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010522589A JP5381988B2 (ja) | 2008-07-28 | 2009-05-12 | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008193755 | 2008-07-28 | ||
JP2008193755 | 2008-07-28 | ||
PCT/JP2009/002062 WO2010013371A1 (ja) | 2008-07-28 | 2009-05-12 | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体 |
JP2010522589A JP5381988B2 (ja) | 2008-07-28 | 2009-05-12 | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010013371A1 JPWO2010013371A1 (ja) | 2012-01-05 |
JP5381988B2 true JP5381988B2 (ja) | 2014-01-08 |
Family
ID=41610087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010522589A Active JP5381988B2 (ja) | 2008-07-28 | 2009-05-12 | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8818801B2 (ja) |
JP (1) | JP5381988B2 (ja) |
WO (1) | WO2010013371A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304460B2 (en) | 2016-09-16 | 2019-05-28 | Kabushiki Kaisha Toshiba | Conference support system, conference support method, and computer program product |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8503635B2 (en) * | 2009-09-10 | 2013-08-06 | Felix Calls, Llc | Media optimization using transcription analysis |
US9047562B2 (en) * | 2010-01-06 | 2015-06-02 | Nec Corporation | Data processing device, information storage medium storing computer program therefor and data processing method |
US20110218822A1 (en) * | 2010-03-04 | 2011-09-08 | Koninklijke Philips Electronics N.V. | Remote patient management system adapted for generating a teleconsultation report |
US9015043B2 (en) * | 2010-10-01 | 2015-04-21 | Google Inc. | Choosing recognized text from a background environment |
JP5708155B2 (ja) * | 2011-03-31 | 2015-04-30 | 富士通株式会社 | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム |
JP5877418B2 (ja) * | 2011-12-09 | 2016-03-08 | 株式会社国際電気通信基礎技術研究所 | シナリオ生成装置およびシナリオ生成方法 |
KR101961139B1 (ko) * | 2012-06-28 | 2019-03-25 | 엘지전자 주식회사 | 이동 단말기 및 그것의 음성 인식 방법 |
KR101235694B1 (ko) | 2012-08-14 | 2013-03-05 | 다이알로이드(주) | 음성인식 시스템 및 그 음성인식 방법 |
JP6066471B2 (ja) * | 2012-10-12 | 2017-01-25 | 本田技研工業株式会社 | 対話システム及び対話システム向け発話の判別方法 |
US9460715B2 (en) * | 2013-03-04 | 2016-10-04 | Amazon Technologies, Inc. | Identification using audio signatures and additional characteristics |
US9558743B2 (en) * | 2013-03-15 | 2017-01-31 | Google Inc. | Integration of semantic context information |
JP2014191212A (ja) * | 2013-03-27 | 2014-10-06 | Seiko Epson Corp | 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法 |
US10049656B1 (en) | 2013-09-20 | 2018-08-14 | Amazon Technologies, Inc. | Generation of predictive natural language processing models |
US10199035B2 (en) * | 2013-11-22 | 2019-02-05 | Nuance Communications, Inc. | Multi-channel speech recognition |
KR101559364B1 (ko) * | 2014-04-17 | 2015-10-12 | 한국과학기술원 | 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션 |
KR101583181B1 (ko) * | 2015-01-19 | 2016-01-06 | 주식회사 엔씨소프트 | 응답 스티커 추천방법 및 컴퓨터 프로그램 |
KR20160089152A (ko) * | 2015-01-19 | 2016-07-27 | 주식회사 엔씨소프트 | 화행 분석을 통한 스티커 추천 방법 및 시스템 |
JP6588874B2 (ja) * | 2016-08-01 | 2019-10-09 | 日本電信電話株式会社 | 単語予測装置、プログラム |
US11597519B2 (en) | 2017-10-17 | 2023-03-07 | The Boeing Company | Artificially intelligent flight crew systems and methods |
JP7035476B2 (ja) * | 2017-11-20 | 2022-03-15 | 富士通株式会社 | 音声処理プログラム、音声処理装置、及び音声処理方法 |
CN109859749A (zh) * | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 一种语音信号识别方法和装置 |
CN109273000B (zh) * | 2018-10-11 | 2023-05-12 | 河南工学院 | 一种语音识别方法 |
US11955120B1 (en) * | 2019-01-31 | 2024-04-09 | Alan AI, Inc. | Systems and methods for integrating voice controls into applications |
CN111147444B (zh) * | 2019-11-20 | 2021-08-06 | 维沃移动通信有限公司 | 一种交互方法及电子设备 |
CN112820294B (zh) * | 2021-01-06 | 2024-07-12 | 镁佳(北京)科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003228393A (ja) * | 2002-01-31 | 2003-08-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話装置及び方法、音声対話プログラム並びにその記録媒体 |
JP2005215689A (ja) * | 2004-02-02 | 2005-08-11 | Fuji Xerox Co Ltd | 情報源から情報を認識する方法およびシステム |
WO2008004666A1 (fr) * | 2006-07-07 | 2008-01-10 | Nec Corporation | Dispositif, procédé et programme de reconnaissance vocale |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2871420B2 (ja) | 1993-10-04 | 1999-03-17 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声対話システム |
US20040006748A1 (en) * | 2002-07-03 | 2004-01-08 | Amit Srivastava | Systems and methods for providing online event tracking |
US20040249637A1 (en) * | 2003-06-04 | 2004-12-09 | Aurilab, Llc | Detecting repeated phrases and inference of dialogue models |
JP4558308B2 (ja) * | 2003-12-03 | 2010-10-06 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム |
-
2009
- 2009-05-12 JP JP2010522589A patent/JP5381988B2/ja active Active
- 2009-05-12 US US12/737,582 patent/US8818801B2/en active Active
- 2009-05-12 WO PCT/JP2009/002062 patent/WO2010013371A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003228393A (ja) * | 2002-01-31 | 2003-08-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話装置及び方法、音声対話プログラム並びにその記録媒体 |
JP2005215689A (ja) * | 2004-02-02 | 2005-08-11 | Fuji Xerox Co Ltd | 情報源から情報を認識する方法およびシステム |
WO2008004666A1 (fr) * | 2006-07-07 | 2008-01-10 | Nec Corporation | Dispositif, procédé et programme de reconnaissance vocale |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304460B2 (en) | 2016-09-16 | 2019-05-28 | Kabushiki Kaisha Toshiba | Conference support system, conference support method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
US8818801B2 (en) | 2014-08-26 |
WO2010013371A1 (ja) | 2010-02-04 |
US20110131042A1 (en) | 2011-06-02 |
JPWO2010013371A1 (ja) | 2012-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5381988B2 (ja) | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム | |
US11646027B2 (en) | Multi-layer keyword detection | |
US11776540B2 (en) | Voice control of remote device | |
US10600414B1 (en) | Voice control of remote device | |
US10593328B1 (en) | Voice control of remote device | |
US11580991B2 (en) | Speaker based anaphora resolution | |
JP6772198B2 (ja) | 言語モデルスピーチエンドポインティング | |
US10186265B1 (en) | Multi-layer keyword detection to avoid detection of keywords in output audio | |
EP3433855B1 (en) | Speaker verification method and system | |
US10074369B2 (en) | Voice-based communications | |
US9972318B1 (en) | Interpreting voice commands | |
US10678504B1 (en) | Maintaining context for voice processes | |
JP4838351B2 (ja) | キーワード抽出装置 | |
WO2006054724A1 (ja) | 音声認識装置及び方法ならびにプログラム | |
JP2004198831A (ja) | 音声認識装置および方法、プログラム、並びに記録媒体 | |
Chang et al. | Turn-taking prediction for natural conversational speech | |
JP6070809B1 (ja) | 自然言語処理装置及び自然言語処理方法 | |
JP2007072331A (ja) | 音声対話方法および音声対話システム | |
KR20180127020A (ko) | 자연어 대화체 음성 인식 방법 및 장치 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP2009025579A (ja) | 音声認識装置および音声認識方法 | |
US10854196B1 (en) | Functional prerequisites and acknowledgments | |
US11735178B1 (en) | Speech-processing system | |
KR100622019B1 (ko) | 음성 인터페이스 시스템 및 방법 | |
JP2006172110A (ja) | 応答データ出力装置、応答データ出力方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130916 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5381988 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |