JP6203343B2 - 音声認識方法及び音声認識装置 - Google Patents
音声認識方法及び音声認識装置 Download PDFInfo
- Publication number
- JP6203343B2 JP6203343B2 JP2016151383A JP2016151383A JP6203343B2 JP 6203343 B2 JP6203343 B2 JP 6203343B2 JP 2016151383 A JP2016151383 A JP 2016151383A JP 2016151383 A JP2016151383 A JP 2016151383A JP 6203343 B2 JP6203343 B2 JP 6203343B2
- Authority
- JP
- Japan
- Prior art keywords
- processing
- section
- voice
- speech
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
まず、音声処理後の音声情報を用いて音声認識処理を行った場合の課題について図1を用いて説明する。図1に示すように、音声情報に対して音声処理を行う際には、予め定められた期間Tのフレーム単位で音声処理が行われる。例えば、音声認識のレスポンスを向上するためには、図1に示すようにM個のフレームを処理する場合、このM個のフレームを処理期間(T×M)の間に処理することで必要がある。つまり、各フレームを時間T以内に処理する必要がある。
本実施の形態に係る音声認識装置は、処理区間に含まれる無音区間の長さに応じて、音声処理の処理モードを変更する。これにより、当該音声認識装置は、音声認識の性能とレスポンスとを適切に調整できる。
本実施の形態では、時系列に入力される音声情報から処理区間を決定する第1の方法について説明する。なお、以下では、先の実施の形態との相違点を主に説明し、重複する説明は省略する。
本実施の形態では、時系列に入力される音声情報から処理区間を決定する第2の方法について説明する。本実施の形態では、無音区間を判定することなく予め定められた長さの区間を処理区間として抽出する。例えば、発話者の発話内容が、「はい」、「いいえ」等の単純な回答と想定される場合等には、有音区間(対象区間)の長さを予想することが可能である。よって、この予想に基づき、予め処理区間、対象区間、及び無音区間の長さを決定しておくことが可能である。
本実施の形態では、音声処理の具体例として雑音抑制処理を行う場合を説明する。図13は、本実施の形態に係る音声認識装置100Cの構成を示すブロック図である。図13に示すように、音声認識装置100Cは、処理モード決定部102の具体例である雑音抑制モード決定部102Cと、音声処理部105の具体例である雑音抑制部105Cとを備える。
本実施の形態では、音声処理の具体例として符号化処理を行う場合を説明する。図14は、本実施の形態に係る音声認識システム100Dの構成を示すブロック図である。この音声認識システム100Dは、音声情報を符号化する音声符号化装置121と、音声認識装置122とを含む。
本実施の形態では、実施の形態2の変形例について説明する。図17は、本実施の形態に係る音声認識装置100Eの構成を示すブロック図である。この音声認識装置100Eは、図6に示す音声認識装置100Aの構成に加え、さらに、無音区間除去部131を備える。
本実施の形態では、実施の形態1の変形例について説明する。図19は、本実施の形態に係る音声認識装置100Fの構成を示すブロック図である。この音声認識装置100Eは、実施の形態1に係る音声認識装置100に対して、処理モード決定部102F及び音声処理部105Fに機能が追加されている。
100D 音声認識システム
101 基準値決定部
101A 閾値決定部
101B 区間決定部
102、102F 処理モード決定部
102C 雑音抑制モード決定部
102D 符号化モード決定部
103 音声取得部
104、104A、104B 終話判定部
105、105F 音声処理部
105C 雑音抑制部
105D 符号化部
106 音声認識部
107 検出部
121 音声符号化装置
123 伝送部
124 復号部
131 無音区間除去部
Claims (9)
- 音声認識方法であって、
処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定ステップと、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、
前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含み、
前記基準値決定ステップでは、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
前記処理モード決定ステップでは、前記閾値に基づいて前記処理モードを決定し、
前記音声認識方法は、さらに、
前記入力区間の音声情報から無音区間を検出する検出ステップを含み、
前記終話判定ステップでは、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
前記音声処理は、前記音声情報の雑音抑圧処理であり、
前記処理モード決定ステップでは、前記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定する
音声認識方法。 - 音声認識方法であって、
処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定ステップと、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、
前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含み、
前記基準値決定ステップでは、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
前記処理モード決定ステップでは、前記閾値に基づいて前記処理モードを決定し、
前記音声認識方法は、さらに、
前記入力区間の音声情報から無音区間を検出する検出ステップを含み、
前記終話判定ステップでは、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
前記音声処理は、前記音声情報の符号化処理であり、
前記処理モード決定ステップでは、前記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定し、
前記音声認識方法は、さらに、
前記音声処理として符号化が実行された音声情報を音声認識装置に伝送する伝送ステップと、
前記音声認識装置にて、伝送された前記音声情報を復号する復号ステップとを含み、
前記音声認識ステップでは、前記音声認識装置により、復号された前記音声情報に対して前記音声認識処理が実行される
音声認識方法。 - 前記音声処理ステップでは、前記対象区間に含まれる無音区間を除去し、前記無音区間を除去した前記対象区間の音声情報に対して前記音声処理を実行する
請求項1又は2記載の音声認識方法。 - 前記音声認識方法は、さらに、
決定された前記処理モードでの前記音声処理の処理時間を計測する処理時間計測ステップと、
計測された前記処理時間に基づき、前記音声処理の処理モードを変更する処理モード変更ステップとを含む
請求項1〜3のいずれか1項に記載の音声認識方法。 - 前記音声処理ステップにおいて前記処理区間の時間長の間に前記対象区間の音声情報に前記音声処理が行われるように、前記処理モード決定ステップでは前記処理モードが決定される
請求項1〜4のいずれか1項に記載の音声認識方法。 - 音声認識装置であって、
処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定部と、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定部と、
前記処理区間を含む入力区間の音声情報を取得する音声取得部と、
前記入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定部と、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理部と、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識部とを備える
前記基準値決定部は、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
前記処理モード決定部は、前記閾値に基づいて前記処理モードを決定し、
前記音声認識装置は、さらに、
前記入力区間の音声情報から無音区間を検出する検出部を備え、
前記終話判定部は、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
前記音声処理は、前記音声情報の雑音抑圧処理であり、
前記処理モード決定部は、前記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定する
音声認識装置。 - 音声認識装置であって、
処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定部と、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定部と、
前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定部と、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理部と、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識部とを備え、
前記基準値決定部は、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
前記処理モード決定部は、前記閾値に基づいて前記処理モードを決定し、
前記音声認識装置は、さらに、
前記入力区間の音声情報から無音区間を検出する検出部を備え、
前記終話判定部は、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出し、
前記音声処理は、前記音声情報の符号化処理であり、
前記処理モード決定部は、前記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定し、
前記音声認識装置は、さらに、
前記音声処理として符号化が実行された音声情報を復号する復号部を含み、
前記音声認識部は、復号された前記音声情報に対して前記音声認識処理を実行する
音声認識装置。 - 請求項1記載の音声認識方法をコンピュータに実行させるための
プログラム。 - 請求項2記載の音声認識方法をコンピュータに実行させるための
プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/344,653 US10079020B2 (en) | 2015-11-19 | 2016-11-07 | Speech recognition method and speech recognition apparatus to improve performance or response of speech recognition |
EP16198319.2A EP3171360B1 (en) | 2015-11-19 | 2016-11-11 | Speech recognition with determination of noise suppression processing mode |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562257368P | 2015-11-19 | 2015-11-19 | |
US62/257,368 | 2015-11-19 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2017097330A JP2017097330A (ja) | 2017-06-01 |
JP2017097330A5 JP2017097330A5 (ja) | 2017-07-13 |
JP6203343B2 true JP6203343B2 (ja) | 2017-09-27 |
Family
ID=58817799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016151383A Active JP6203343B2 (ja) | 2015-11-19 | 2016-08-01 | 音声認識方法及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6203343B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019211599A (ja) * | 2018-06-04 | 2019-12-12 | 本田技研工業株式会社 | 音声認識装置、音声認識方法およびプログラム |
JP7251953B2 (ja) * | 2018-11-19 | 2023-04-04 | トヨタ自動車株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP7131362B2 (ja) * | 2018-12-20 | 2022-09-06 | トヨタ自動車株式会社 | 制御装置、音声対話装置及びプログラム |
JPWO2022070792A1 (ja) * | 2020-09-29 | 2022-04-07 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000276189A (ja) * | 1999-03-25 | 2000-10-06 | Toshiba Corp | 日本語ディクテーションシステム |
JP2003059173A (ja) * | 2001-08-16 | 2003-02-28 | Kenwood Corp | 録音方法及び録音システム |
-
2016
- 2016-08-01 JP JP2016151383A patent/JP6203343B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017097330A (ja) | 2017-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6203343B2 (ja) | 音声認識方法及び音声認識装置 | |
JP6350536B2 (ja) | 音声検出装置、音声検出方法及びプログラム | |
RU2670785C1 (ru) | Способ и устройство для обнаружения голосовой активности | |
JP2019531494A (ja) | 音声品質評価方法及び装置 | |
AU2012206122B2 (en) | Signal processing device, method and program | |
JP6436088B2 (ja) | 音声検出装置、音声検出方法及びプログラム | |
US10269371B2 (en) | Techniques for decreasing echo and transmission periods for audio communication sessions | |
EP4362468A3 (en) | Motion vector prediction method and device, and codec | |
TR201907596T4 (tr) | Ses kodlama usulü ve aygıtı. | |
JP2020067566A (ja) | 情報処理方法、情報処理装置、及び、プログラム | |
JP5764488B2 (ja) | 復号装置及び復号方法 | |
JP2017097330A5 (ja) | ||
EP3171360A1 (en) | Speech recognition method and speech recognition apparatus to improve performance or response of speech recognition | |
JP6843701B2 (ja) | 音響信号処理のパラメータ予測装置及びパラメータ予測方法 | |
JP2005284308A (ja) | オーディオ情報分類装置 | |
JP4102745B2 (ja) | 音声区間検出装置および方法 | |
JP2008186033A (ja) | オーディオ情報分類装置 | |
JP5342621B2 (ja) | 音響モデル生成装置、音響モデル生成方法、プログラム | |
JP6106618B2 (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
TWI275074B (en) | Method for analyzing energy consistency to process data | |
JP7511574B2 (ja) | パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム | |
JP4959025B1 (ja) | 発話区間検出装置及びプログラム | |
Song et al. | Voice Activity Detection Based on Generalized Normal-Laplace Distribution Incorporating Conditional MAP | |
KR20120071925A (ko) | Mdct 계수를 이용한 음성/음향 판정 방법 | |
JP2002268669A (ja) | 音響信号分析方法、音響信号分析装置、音響信号分析プログラム、音響信号分析プログラムを記憶したコンピュータが読取り可能な記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170515 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170515 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20170515 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20170801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170829 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6203343 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |