JP2017097330A - 音声認識方法及び音声認識装置 - Google Patents
音声認識方法及び音声認識装置 Download PDFInfo
- Publication number
- JP2017097330A JP2017097330A JP2016151383A JP2016151383A JP2017097330A JP 2017097330 A JP2017097330 A JP 2017097330A JP 2016151383 A JP2016151383 A JP 2016151383A JP 2016151383 A JP2016151383 A JP 2016151383A JP 2017097330 A JP2017097330 A JP 2017097330A
- Authority
- JP
- Japan
- Prior art keywords
- processing
- section
- voice
- speech
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【解決手段】音声認識方法は、処理区間に含まれる無音区間の長さを決定するための基準値を決定するステップ(S101)と、基準値に応じて、使用する処理モードを決定するステップ(S102〜S104)と、基準値を用いて、処理区間の音声情報を取得するステップ(S105)と、対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行するステップ(S106)と、音声処理が実行された対象区間の音声情報に対して音声認識処理を実行するステップ(S107)とを含む。
【選択図】図3
Description
まず、音声処理後の音声情報を用いて音声認識処理を行った場合の課題について図1を用いて説明する。図1に示すように、音声情報に対して音声処理を行う際には、予め定められた期間Tのフレーム単位で音声処理が行われる。例えば、音声認識のレスポンスを向上するためには、図1に示すようにM個のフレームを処理する場合、このM個のフレームを処理期間(T×M)の間に処理することで必要がある。つまり、各フレームを時間T以内に処理する必要がある。
本実施の形態に係る音声認識装置は、処理区間に含まれる無音区間の長さに応じて、音声処理の処理モードを変更する。これにより、当該音声認識装置は、音声認識の性能とレスポンスとを適切に調整できる。
本実施の形態では、時系列に入力される音声情報から処理区間を決定する第1の方法について説明する。なお、以下では、先の実施の形態との相違点を主に説明し、重複する説明は省略する。
本実施の形態では、時系列に入力される音声情報から処理区間を決定する第2の方法について説明する。本実施の形態では、無音区間を判定することなく予め定められた長さの区間を処理区間として抽出する。例えば、発話者の発話内容が、「はい」、「いいえ」等の単純な回答と想定される場合等には、有音区間(対象区間)の長さを予想することが可能である。よって、この予想に基づき、予め処理区間、対象区間、及び無音区間の長さを決定しておくことが可能である。
本実施の形態では、音声処理の具体例として雑音抑制処理を行う場合を説明する。図13は、本実施の形態に係る音声認識装置100Cの構成を示すブロック図である。図13に示すように、音声認識装置100Cは、処理モード決定部102の具体例である雑音抑制モード決定部102Cと、音声処理部105の具体例である雑音抑制部105Cとを備える。
本実施の形態では、音声処理の具体例として符号化処理を行う場合を説明する。図14は、本実施の形態に係る音声認識システム100Dの構成を示すブロック図である。この音声認識システム100Dは、音声情報を符号化する音声符号化装置121と、音声認識装置122とを含む。
本実施の形態では、実施の形態2の変形例について説明する。図17は、本実施の形態に係る音声認識装置100Eの構成を示すブロック図である。この音声認識装置100Eは、図6に示す音声認識装置100Aの構成に加え、さらに、無音区間除去部131を備える。
本実施の形態では、実施の形態1の変形例について説明する。図19は、本実施の形態に係る音声認識装置100Fの構成を示すブロック図である。この音声認識装置100Eは、実施の形態1に係る音声認識装置100に対して、処理モード決定部102F及び音声処理部105Fに機能が追加されている。
100D 音声認識システム
101 基準値決定部
101A 閾値決定部
101B 区間決定部
102、102F 処理モード決定部
102C 雑音抑制モード決定部
102D 符号化モード決定部
103 音声取得部
104、104A、104B 終話判定部
105、105F 音声処理部
105C 雑音抑制部
105D 符号化部
106 音声認識部
107 検出部
121 音声符号化装置
123 伝送部
124 復号部
131 無音区間除去部
Claims (10)
- 処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定ステップと、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定ステップと、
前記処理区間を含む入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定ステップと、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理ステップと、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識ステップとを含む
音声認識方法。 - 前記基準値決定ステップでは、前記基準値として、前記処理区間の終端を判定するための情報であり、前記第1無音区間の長さを示す閾値を決定し、
前記処理モード決定ステップでは、前記閾値に基づいて前記処理モードを決定し、
前記音声認識方法は、さらに、
前記入力区間の音声情報から無音区間を検出する検出ステップを含み、
前記終話判定ステップでは、無音区間の長さが前記閾値を超えた時刻を、前記処理区間の終端であると判定することで、前記入力区間の音声情報から前記処理区間の音声情報を抽出する
請求項1記載の音声認識方法。 - 前記基準値決定ステップでは、前記基準値として、前記処理区間及び前記対象区間の長さを決定し、
前記処理モード決定ステップでは、決定された前記処理区間の長さと前記対象区間の長さとの差分である前記第1無音区間の長さに基づいて、前記音声処理の処理モードを決定し、
前記終話判定ステップでは、前記入力区間の音声情報から、前記決定された長さの前記処理区間の音声情報を抽出する
請求項1記載の音声認識方法。 - 前記音声処理ステップでは、前記対象区間に含まれる無音区間を除去し、前記無音区間を除去した前記対象区間の音声情報に対して前記音声処理を実行する
請求項1〜3のいずれか1項に記載の音声認識方法。 - 前記音声認識方法は、さらに、
決定された前記処理モードでの前記音声処理の処理時間を計測する処理時間計測ステップと、
計測された前記処理時間に基づき、前記音声処理の処理モードを変更する処理モード変更ステップとを含む
請求項1〜4のいずれか1項に記載の音声認識方法。 - 前記音声処理は、前記音声情報の雑音抑圧処理であり、
前記処理モード決定ステップでは、前記処理モードとして、雑音抑圧アルゴリズム、又は雑音抑圧パラメータを決定する
請求項1〜5のいずれか1項に記載の音声認識方法。 - 前記音声処理は、前記音声情報の符号化処理であり、
前記処理モード決定ステップでは、前記処理モードとして、符号化アルゴリズム、又は符号化パラメータを決定し、
前記音声認識方法は、さらに、
前記音声処理として符号化が実行された音声情報を音声認識装置に伝送する伝送ステップと、
前記音声認識装置にて、伝送された前記音声情報を復号する復号ステップとを含み、
前記音声認識ステップでは、前記音声認識装置により、復号された前記音声情報に対して前記音声認識処理が実行される
請求項1〜5のいずれか1項に記載の音声認識方法。 - 音声処理ステップにおいて前記処理区間の時間長の間に前記対象区間の音声情報に前記音声処理が行われるように、前記処理モード決定ステップでは前記処理モードが決定される
請求項1〜7のいずれか1項に記載の音声認識方法。 - 処理区間に含まれる第1無音区間の長さを決定するための基準値を決定する基準値決定部と、
互いに処理量が異なる複数の音声処理の処理モードから、前記基準値に応じて、使用する処理モードを決定する処理モード決定部と、
前記処理区間を含む入力区間の音声情報を取得する音声取得部と、
前記入力区間の音声情報から、前記基準値を用いて、対象区間と、前記対象区間の後の前記第1無音区間とを含む前記処理区間の音声情報を取得する終話判定部と、
前記処理区間の音声情報のうち前記対象区間の音声情報に対して、決定された前記処理モードで音声処理を実行する音声処理部と、
前記音声処理が実行された前記対象区間の音声情報に対して音声認識処理を実行する音声認識部とを備える
音声認識装置。 - 請求項1記載の音声認識方法をコンピュータに実行させるための
プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/344,653 US10079020B2 (en) | 2015-11-19 | 2016-11-07 | Speech recognition method and speech recognition apparatus to improve performance or response of speech recognition |
EP16198319.2A EP3171360B1 (en) | 2015-11-19 | 2016-11-11 | Speech recognition with determination of noise suppression processing mode |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562257368P | 2015-11-19 | 2015-11-19 | |
US62/257,368 | 2015-11-19 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2017097330A true JP2017097330A (ja) | 2017-06-01 |
JP2017097330A5 JP2017097330A5 (ja) | 2017-07-13 |
JP6203343B2 JP6203343B2 (ja) | 2017-09-27 |
Family
ID=58817799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016151383A Active JP6203343B2 (ja) | 2015-11-19 | 2016-08-01 | 音声認識方法及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6203343B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556104A (zh) * | 2018-06-04 | 2019-12-10 | 本田技研工业株式会社 | 语音识别装置、语音识别方法以及存储程序的存储介质 |
CN111199738A (zh) * | 2018-11-19 | 2020-05-26 | 丰田自动车株式会社 | 语音识别装置、语音识别方法以及语音识别程序 |
JP2020101603A (ja) * | 2018-12-20 | 2020-07-02 | トヨタ自動車株式会社 | 制御装置、音声対話装置、音声認識サーバ及びプログラム |
WO2022070792A1 (ja) * | 2020-09-29 | 2022-04-07 | 株式会社Nttドコモ | パラメータ設定システム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000276189A (ja) * | 1999-03-25 | 2000-10-06 | Toshiba Corp | 日本語ディクテーションシステム |
JP2003059173A (ja) * | 2001-08-16 | 2003-02-28 | Kenwood Corp | 録音方法及び録音システム |
-
2016
- 2016-08-01 JP JP2016151383A patent/JP6203343B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000276189A (ja) * | 1999-03-25 | 2000-10-06 | Toshiba Corp | 日本語ディクテーションシステム |
JP2003059173A (ja) * | 2001-08-16 | 2003-02-28 | Kenwood Corp | 録音方法及び録音システム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556104A (zh) * | 2018-06-04 | 2019-12-10 | 本田技研工业株式会社 | 语音识别装置、语音识别方法以及存储程序的存储介质 |
CN110556104B (zh) * | 2018-06-04 | 2023-05-30 | 本田技研工业株式会社 | 语音识别装置、语音识别方法以及存储程序的存储介质 |
CN111199738A (zh) * | 2018-11-19 | 2020-05-26 | 丰田自动车株式会社 | 语音识别装置、语音识别方法以及语音识别程序 |
JP2020086010A (ja) * | 2018-11-19 | 2020-06-04 | トヨタ自動車株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2020101603A (ja) * | 2018-12-20 | 2020-07-02 | トヨタ自動車株式会社 | 制御装置、音声対話装置、音声認識サーバ及びプログラム |
JP7131362B2 (ja) | 2018-12-20 | 2022-09-06 | トヨタ自動車株式会社 | 制御装置、音声対話装置及びプログラム |
WO2022070792A1 (ja) * | 2020-09-29 | 2022-04-07 | 株式会社Nttドコモ | パラメータ設定システム |
Also Published As
Publication number | Publication date |
---|---|
JP6203343B2 (ja) | 2017-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6203343B2 (ja) | 音声認識方法及び音声認識装置 | |
JP6350536B2 (ja) | 音声検出装置、音声検出方法及びプログラム | |
JP2019531494A (ja) | 音声品質評価方法及び装置 | |
JP6436088B2 (ja) | 音声検出装置、音声検出方法及びプログラム | |
RU2670785C1 (ru) | Способ и устройство для обнаружения голосовой активности | |
US10269371B2 (en) | Techniques for decreasing echo and transmission periods for audio communication sessions | |
JP2017515140A5 (ja) | ||
EP4362468A3 (en) | Motion vector prediction method and device, and codec | |
JP2020067566A (ja) | 情報処理方法、情報処理装置、及び、プログラム | |
JP5764488B2 (ja) | 復号装置及び復号方法 | |
JP2017097330A5 (ja) | ||
EP3171360A1 (en) | Speech recognition method and speech recognition apparatus to improve performance or response of speech recognition | |
JP6843701B2 (ja) | 音響信号処理のパラメータ予測装置及びパラメータ予測方法 | |
JP2005284308A (ja) | オーディオ情報分類装置 | |
JP2004310047A (ja) | 音声区間検出装置および方法 | |
JP2008186033A (ja) | オーディオ情報分類装置 | |
JP2013235050A (ja) | 情報処理装置及び方法、並びにプログラム | |
JP5342621B2 (ja) | 音響モデル生成装置、音響モデル生成方法、プログラム | |
TWI275074B (en) | Method for analyzing energy consistency to process data | |
CN112992175A (zh) | 一种语音区分方法及其语音记录装置 | |
JP7511574B2 (ja) | パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム | |
JP4959025B1 (ja) | 発話区間検出装置及びプログラム | |
RU2400831C1 (ru) | Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием | |
JP2024108744A (ja) | 埋め込み表現生成システム | |
JP2011205398A (ja) | 音処理装置及びプログラム、並びに、音信号特性分析装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170515 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170515 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20170515 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20170801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170829 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6203343 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |