JP2013140226A - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents
音声認識装置、音声認識方法及び音声認識プログラム Download PDFInfo
- Publication number
- JP2013140226A JP2013140226A JP2011290023A JP2011290023A JP2013140226A JP 2013140226 A JP2013140226 A JP 2013140226A JP 2011290023 A JP2011290023 A JP 2011290023A JP 2011290023 A JP2011290023 A JP 2011290023A JP 2013140226 A JP2013140226 A JP 2013140226A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- reply
- detection
- utterance
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 55
- 238000001514 detection method Methods 0.000 claims abstract description 228
- 230000004044 response Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000007423 decrease Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 33
- 238000002372 labelling Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 22
- 230000000694 effects Effects 0.000 description 11
- 238000007796 conventional method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】音声認識装置10は、第1の話者の音声から第1の話者の発話区間を検出するとともに、第2の話者の音声から第2の話者の発話区間を検出する。音声認識装置10は、第1の話者の発話区間における特徴量を算出する。音声認識装置10は、第1の話者の発話区間における特徴量を用いて単語検出を実行する。音声認識装置10は、検出した単語が返事である場合に、一の話者の発話区間を基準に定まる相対時間と、他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部に記憶された返事確率モデルが示す確率のうち第2の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、返事の単語スコアまたは返事の検出閾値を調整する。音声認識装置10は、調整された返事の単語スコアまたは返事の検出閾値を用いて、単語の再検出を実行する。
【選択図】図1
Description
図1は、実施例1に係る音声認識装置の機能的構成を示すブロック図である。図1に示す音声認識装置10は、話者Aおよび話者Bが対話する音声のうち話者Aが発話する音声から話者Bの発話に対する話者Aの返事を検出するものである。なお、以下では、話者Bに対する話者Aの返事を単に「返事」と記載する場合がある。
続いて、本実施例に係る音声認識装置の処理の流れについて説明する。なお、ここでは、音声認識装置10によって実行される(1)発話区間検出処理を説明した後に、(2)音声認識処理を説明することとする。
図6は、実施例1に係る発話区間検出処理の手順を示すフローチャートである。この発話区間検出処理は、話者Aの音声フレームが第1の発話区間検出部12aへ入力された場合または話者Bの音声フレームが第2の発話区間検出部12bへ入力された場合に処理が起動される。なお、第1の発話区間検出部12a及び第2の発話区間検出部12bのいずれにおいても同様の処理が実行されるので、第1の発話区間検出部12aによって発話区間検出処理が実行される場合を例示する。
図7は、実施例1に係る音声認識処理の手順を示すフローチャートである。この処理は、第1の発話区間検出部12aによって話者Aの発話区間が検出された場合に、処理が起動される。
上述してきたように、本実施例に係る音声認識装置10は、話者Aの音声から話者Aの発話区間を検出するとともに、話者Bの音声から話者Bの発話区間を検出する。さらに、本実施例に係る音声認識装置10は、話者Aの発話区間における特徴量を算出する。さらに、本実施例に係る音声認識装置10は、話者Aの発話区間における特徴量を用いて単語検出を行う。さらに、本実施例に係る音声認識装置10は、検出された単語が返事である場合に、返事確率モデルが示す確率のうち話者Bの発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の検出閾値を調整する。さらに、本実施例に係る音声認識装置10は、調整後の返事の検出閾値を用いて、単語の再検出を実行する。
さて、本実施例では、上記の実施例1で用いた返事確率モデルを生成するモデル生成装置について説明する。図10は、実施例2に係るモデル生成装置の機能的構成を示すブロック図である。図10に示すモデル生成装置30は、図1に示した音声認識装置10に比べて、音声入力部31と、検出部32と、モデル生成部33とを有する。なお、図10では、図1に示した音声認識装置10と同様の機能を発揮する機能部については同一の符号を付し、その説明を省略することとする。
図14は、実施例2に係るモデル生成処理の手順を示すフローチャートである。この処理は、図示しないユーザインタフェースや外部装置を介して返事確率モデルの生成要求を受け付けた場合に処理が起動する。
例えば、上記の実施例1では、単語のスコアと比較する閾値である再検出閾値THwを調整する場合を例示したが、開示の装置の適用範囲はこれに限定されない。例えば、開示の装置は、単語スコアSを返事の出現確率Paに応じて調整してもよい。
さらに、上記の実施例1では、返事である単語「はい」のみを例としてあげたが、「いいえ」、「そう」など他の単語についても、それぞれ出現確率を用意して、同様の処理を行うことができる。また、出現確率は、単語単位に用意するだけでなく、返事という1カテゴリで確率を準備・処理することもできる。
さらに、上記の実施例1では、日本語を対象とする場合を例示しが、開示の装置は、日本語以外の言語においても、対話相手の発話を受けて返事を行うという構図が変わらない限り、対話相手の発話区間との相対位置と返事の出現確率の関係に偏りが生じるので、他の言語に適用したとしても同様の効果を得ることができる。例えば、英語における、対話相手の発話を受けての返事としての”Yes”、”No”、”OK”などは、日本語における「はい」、「いいえ」、「オッケー」などと同様に、対話相手の発話区間との相対位置と出現確率の関係に偏りが生じており、日本語と同様の効果が期待できる。
なお、上記の実施例1では、話者Aおよび話者Bの2人が対話を行う場合について例示したが、3人以上が対話を行う場合にも、話者は相手の発話に対して返事を行う構図は変わらないので、同様に適用できる。
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、第1の発話区間検出部12a、第2の発話区間検出部12b、特徴量算出部13、第1の検出部17、調整部18または第2の検出部19を音声認識装置の外部装置としてネットワーク経由で接続するようにしてもよい。また、第1の発話区間検出部12a、第2の発話区間検出部12b、特徴量算出部13、第1の検出部17、調整部18または第2の検出部19を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の音声認識装置の機能を実現するようにしてもよい。
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図15を用いて、上記の実施例と同様の機能を有する音声認識プログラムを実行するコンピュータの一例について説明する。
11 音声入力部
12a 第1の発話区間検出部
12b 第2の発話区間検出部
13 特徴量算出部
14 音響モデル記憶部
15 単語辞書記憶部
16 返事確率記憶部
17 第1の検出部
18 調整部
19 第2の検出部
Claims (6)
- 一の話者の発話区間を基準に定まる相対時間と、前記話者とは異なる他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部と、
第1の話者の音声から当該第1の話者の発話区間を検出する第1の発話区間検出部と、
前記第1の話者とは異なる第2の話者の音声から当該第2の話者の発話区間を検出する第2の発話区間検出部と、
前記第1の発話区間検出部によって検出された第1の話者の発話区間における特徴量を算出する特徴量算出部と、
前記特徴量算出部によって算出された第1の話者の発話区間における特徴量を用いて単語検出を実行する第1の検出部と、
前記第1の検出部によって検出された単語が返事である場合に、前記返事確率記憶部に記憶された返事確率モデルが示す確率のうち前記第2の発話区間検出部によって検出された第2の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の単語スコアまたは当該返事の検出閾値を調整する調整部と、
前記調整部によって調整された返事の単語スコアまたは返事の検出閾値を用いて、前記第1の検出部によって検出された単語の再検出を実行する第2の検出部と
を有することを特徴とする音声認識装置。 - 前記調整部は、前記出現確率が高くなるにしたがって前記返事の検出閾値が低くなるように調整することを特徴とする請求項1に記載の音声認識装置。
- 前記調整部は、前記出現確率が最大値を採る場合に、前記第1の検出部によって単語検出に用いられた検出閾値と同じ値に前記返事の検出閾値を調整することを特徴とする請求項1に記載の音声認識装置。
- 前記調整部は、前記出現確率が低くなるにしたがって前記返事の検出閾値が高くなるように調整することを特徴とする請求項1に記載の音声認識装置。
- コンピュータが、
第1の話者の音声から当該第1の話者の発話区間を検出し、
前記第1の話者とは異なる第2の話者の音声から当該第2の話者の発話区間を検出し、
前記第1の話者の発話区間における特徴量を算出し、
算出された第1の話者の発話区間における特徴量を用いて単語検出を実行し、
検出された単語が返事である場合に、一の話者の発話区間を基準に定まる相対時間と、前記話者とは異なる他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部に記憶された返事確率モデルが示す確率のうち前記第2の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の単語スコアまたは当該返事の検出閾値を調整し、
調整された返事の単語スコアまたは返事の検出閾値を用いて、単語の再検出を実行する
各処理を実行することを特徴とする音声認識方法。 - コンピュータに、
第1の話者の音声から当該第1の話者の発話区間を検出し、
前記第1の話者とは異なる第2の話者の音声から当該第2の話者の発話区間を検出し、
前記第1の話者の発話区間における特徴量を算出し、
算出された第1の話者の発話区間における特徴量を用いて単語検出を実行し、
検出された単語が返事である場合に、一の話者の発話区間を基準に定まる相対時間と、前記話者とは異なる他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部に記憶された返事確率モデルが示す確率のうち前記第2の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の単語スコアまたは当該返事の検出閾値を調整し、
調整された返事の単語スコアまたは返事の検出閾値を用いて、単語の再検出を実行する
各処理を実行させることを特徴とする音声認識プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011290023A JP5810912B2 (ja) | 2011-12-28 | 2011-12-28 | 音声認識装置、音声認識方法及び音声認識プログラム |
US13/711,988 US9031841B2 (en) | 2011-12-28 | 2012-12-12 | Speech recognition apparatus, speech recognition method, and speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011290023A JP5810912B2 (ja) | 2011-12-28 | 2011-12-28 | 音声認識装置、音声認識方法及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013140226A true JP2013140226A (ja) | 2013-07-18 |
JP5810912B2 JP5810912B2 (ja) | 2015-11-11 |
Family
ID=48695614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011290023A Expired - Fee Related JP5810912B2 (ja) | 2011-12-28 | 2011-12-28 | 音声認識装置、音声認識方法及び音声認識プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9031841B2 (ja) |
JP (1) | JP5810912B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019078462A (ja) * | 2017-10-25 | 2019-05-23 | 株式会社パロマ | 加熱調理器 |
JP2020071675A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | 対話要約生成装置、対話要約生成方法およびプログラム |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6335437B2 (ja) * | 2013-04-26 | 2018-05-30 | キヤノン株式会社 | 通信装置、通信方法およびプログラム |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10134386B2 (en) * | 2015-07-21 | 2018-11-20 | Rovi Guides, Inc. | Systems and methods for identifying content corresponding to a language spoken in a household |
US9818405B2 (en) * | 2016-03-15 | 2017-11-14 | SAESTEK Ses ve Iletisim Bilgisayar Tekn. San. Ve Tic. A.S. | Dialog management system |
US10403273B2 (en) * | 2016-09-09 | 2019-09-03 | Oath Inc. | Method and system for facilitating a guided dialog between a user and a conversational agent |
JP2019101385A (ja) * | 2017-12-08 | 2019-06-24 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
US20210201937A1 (en) * | 2019-12-31 | 2021-07-01 | Texas Instruments Incorporated | Adaptive detection threshold for non-stationary signals in noise |
ES2953623T3 (es) * | 2021-01-07 | 2023-11-14 | Deutsche Telekom Ag | Asistente de voz virtual con precisión de reconocimiento mejorada |
US11996087B2 (en) | 2021-04-30 | 2024-05-28 | Comcast Cable Communications, Llc | Method and apparatus for intelligent voice recognition |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003030765A (ja) * | 2001-07-13 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 浴室内人検出装置 |
US20110004624A1 (en) * | 2009-07-02 | 2011-01-06 | International Business Machines Corporation | Method for Customer Feedback Measurement in Public Places Utilizing Speech Recognition Technology |
JP2011242755A (ja) * | 2010-04-22 | 2011-12-01 | Fujitsu Ltd | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0792989A (ja) | 1993-09-22 | 1995-04-07 | Oki Electric Ind Co Ltd | 音声認識方法 |
US6556970B1 (en) * | 1999-01-28 | 2003-04-29 | Denso Corporation | Apparatus for determining appropriate series of words carrying information to be recognized |
US6427137B2 (en) * | 1999-08-31 | 2002-07-30 | Accenture Llp | System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud |
JP4072718B2 (ja) * | 2002-11-21 | 2008-04-09 | ソニー株式会社 | 音声処理装置および方法、記録媒体並びにプログラム |
US8706487B2 (en) | 2006-12-08 | 2014-04-22 | Nec Corporation | Audio recognition apparatus and speech recognition method using acoustic models and language models |
JP5229234B2 (ja) | 2007-12-18 | 2013-07-03 | 富士通株式会社 | 非音声区間検出方法及び非音声区間検出装置 |
JP5385677B2 (ja) | 2009-05-12 | 2014-01-08 | 日本電信電話株式会社 | 対話状態分割装置とその方法、そのプログラムと記録媒体 |
JP2011215421A (ja) * | 2010-03-31 | 2011-10-27 | Toshiba Corp | 音声対話装置 |
-
2011
- 2011-12-28 JP JP2011290023A patent/JP5810912B2/ja not_active Expired - Fee Related
-
2012
- 2012-12-12 US US13/711,988 patent/US9031841B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003030765A (ja) * | 2001-07-13 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 浴室内人検出装置 |
US20110004624A1 (en) * | 2009-07-02 | 2011-01-06 | International Business Machines Corporation | Method for Customer Feedback Measurement in Public Places Utilizing Speech Recognition Technology |
JP2011242755A (ja) * | 2010-04-22 | 2011-12-01 | Fujitsu Ltd | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019078462A (ja) * | 2017-10-25 | 2019-05-23 | 株式会社パロマ | 加熱調理器 |
JP6997437B2 (ja) | 2017-10-25 | 2022-01-17 | 株式会社パロマ | 加熱調理器 |
JP2020071675A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | 対話要約生成装置、対話要約生成方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20130173267A1 (en) | 2013-07-04 |
US9031841B2 (en) | 2015-05-12 |
JP5810912B2 (ja) | 2015-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5810912B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
JP5810946B2 (ja) | 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム | |
KR100854044B1 (ko) | 음성 인식 시스템에서의 발성 끝 검출 | |
US9373321B2 (en) | Generation of wake-up words | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
US20020087306A1 (en) | Computer-implemented noise normalization method and system | |
US20140012578A1 (en) | Speech-recognition system, storage medium, and method of speech recognition | |
US9293140B2 (en) | Speaker-identification-assisted speech processing systems and methods | |
US6985859B2 (en) | Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments | |
US9378755B2 (en) | Detecting a user's voice activity using dynamic probabilistic models of speech features | |
US8392187B2 (en) | Dynamic pruning for automatic speech recognition | |
US20160077792A1 (en) | Methods and apparatus for unsupervised wakeup | |
JP2019101385A (ja) | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム | |
JP5549506B2 (ja) | 音声認識装置及び音声認識方法 | |
JP7191792B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR20180127020A (ko) | 자연어 대화체 음성 인식 방법 및 장치 | |
JP2013235050A (ja) | 情報処理装置及び方法、並びにプログラム | |
JP5672175B2 (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 | |
JP4809913B2 (ja) | 音素分割装置、方法及びプログラム | |
JP5678732B2 (ja) | 分析装置、分析プログラムおよび分析方法 | |
JP5672155B2 (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 | |
JP4391031B2 (ja) | 音声認識装置 | |
Zhang et al. | An advanced entropy-based feature with a frame-level vocal effort likelihood space modeling for distant whisper-island detection | |
JP2021196434A (ja) | 発話検出プログラム、発話検出装置、及び発話検出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150818 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5810912 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |