JP2011013543A - 音声認識装置とその方法と、プログラム - Google Patents
音声認識装置とその方法と、プログラム Download PDFInfo
- Publication number
- JP2011013543A JP2011013543A JP2009158783A JP2009158783A JP2011013543A JP 2011013543 A JP2011013543 A JP 2011013543A JP 2009158783 A JP2009158783 A JP 2009158783A JP 2009158783 A JP2009158783 A JP 2009158783A JP 2011013543 A JP2011013543 A JP 2011013543A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- acoustic model
- speech recognition
- utterance
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】発話分割部は、フレーム毎に音声/非音声判定を行い各フレームを音声区間と非音声区間とに分類してその音声区間を発話区間として出力する。音響モデル選択部は、発話区間の各フレームの音声特徴量と各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して尤度の高いフレーム数が多い音響モデルを発話区間毎に選択する。音声認識部は、発話区間毎に選択された音響モデルで音声認識処理を行う。
【選択図】図2
Description
〔この発明の考え〕
図1にこの発明の考えを示す。図1は、上から音声信号、音声特徴量、発話分割部の出力、音響モデル選択部の出力を表す。音声特徴量は、音声信号を例えばMFCC分析処理してフレーム毎に得られる値である。発話分割部の出力は、その音声特徴量を例えば音声GMMと無音HMM(Hidden Mixture Model:隠れマルコフモデル )と比較し、音声GMMの方が高い尤度を示せばそのフレームを音声、無音HMMの方が高い尤度を示せば無音として、各フレームを音声区間と非音声区間に分類したものである。なお、作図の都合で、音声信号に対する1個のフレームを表す□を大きく表現している。また、音声特徴量は、隣接するフレーム同士を例えば10ms程度の幅シフトさせて、一部がオーバーラップしたフレーム毎に求めるのが一般的であるが、そのフレームシフトの様子は省略している。
図4に発話分割部21のより具体的な動作フローを示して説明する。発話分割部21が、発話分割処理を開始すると、まず始めに初期化を行う(ステップS210)。初期化は、発話区間の開始時刻及び終了時刻や、動作制御用のカウンタのリセットのことである。
図5に音響モデル選択部24のより具体的な動作フローを示して説明する。音響モデル選択部24は、発話区間を入力として最初に動作制御に必要なカウンタ等の初期化を行う(ステップS240)。そして、音響モデルAを代表するA−GMM(例えば男性音声を代表する男性GMM)と音響モデルBを代表するモデルB−GMM(例えば女性音声を代表する女性GMM)のそれぞれと、発話区間の各フレームの音声特徴量とを照合してモデルA尤度PtAとモデルB尤度PtBを得る(ステップS241)。この時、無音HMMが、最も高い尤度となっている無音フレームを無視しても良い。
この発明の効果を検証する目的で検証実験を行った。男女各2名の3570発話からなる64個の音声ファイルを用いて連続音声認識を行い、従来の音声認識方法による音声認識結果とこの発明の方法による結果とを比較する実験を行った。従来の音声認識方法は男女並列認識とした。この発明の方法は、実施例3の音声認識装置300の方法と、音声認識装置300に教師なし適応を加えた方法とした。その結果を表1に示す。比較は文字認識率と文字正解精度で行った。
を逸脱しない範囲で適宜変更が可能である。なお、上記方法及び装置において説明した処
理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力
あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Claims (9)
- 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎に音声/非音声判定を行い各フレームを音声区間と非音声区間とに分類し、経過時間で隣接する上記音声区間を発話区間として分割して出力する発話分割部と、
上記発話区間のフレーム毎の音声特徴量と複数の音響モデルのそれぞれを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して尤度の高い音響モデルを上記発話区間の音響モデルとして選択する音響モデル選択部と、
上記発話区間毎に選択された音響モデルで音声認識処理を行う音声認識処理部と、
を具備する音声認識装置。 - 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎に音声/非音声判定を行い各フレームを音声区間と非音声区間とに分類し、経過時間で隣接する上記音声区間を発話区間として分割して出力する発話分割部と、
上記発話区間の音声特徴量と各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して尤度の高い音響モデルを上記発話区間の音響モデルとして選択する音響モデル選択部と、
上記音声特徴量と上記選択された音響モデルで音声認識処理した結果を適応用ラベルとして出力する音声認識処理部と、
上記適応用ラベルを入力として上記選択された音響モデルを学習し、適応音響モデルを生成する教師なし適応部と、
上記適応音響モデルを記録する適応後音響モデルパラメータメモリと、
上記音声ディジタル信号を入力とし、上記適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第2音声認識処理部と、
を具備する音声認識装置。 - 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎の音声特徴量と各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、上記発話区間毎の音響モデルを選択する発話分割モデル選択部と、
上記発話区間毎に選択された音響モデルで音声認識処理を行う音声認識処理部と、
を具備する音声認識装置。 - 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎の音声特徴量と各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、上記発話区間毎の音響モデルを選択する発話分割モデル選択部と、
上記音声特徴量と上記選択された音響モデルを参照して上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理部と、
上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応部と、
上記適応音響モデルを記録する適応後音響モデルパラメータメモリと、
上記音声ディジタル信号を入力とし、上記適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第2音声認識処理部と、
を具備する音声認識装置。 - 請求項1乃至4の何れかに記載した音声認識装置において、
更に
上記発話分割で分割された発話時刻が隣接する発話区間同士、若しくは同じ音響モデルが選択された発話区間同士を連結する発話連結部を備えることを特徴とする音声認識装置。 - 請求項1乃至5の何れかに記載した音声認識装置において、
上記音響モデル選択部は、
音響モデルを選択する際に、フレーム数が同数若しくはフレーム数の差が所定数以下の音響モデルに対してそれぞれの中間の音響モデルを選択する中間音響モデル選択手段を含むことを特徴とする音声認識装置。 - 特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
発話分割部が、上記フレーム毎に音声/非音声判定を行い各フレームを音声区間と非音声区間とに分類し、経過時間で隣接する上記音声区間を発話区間として分割して出力する発話分割過程と、
音響モデル選択部が、上記フレーム毎の音声特徴量と複数の音響モデルのそれぞれを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して尤度の高い音響モデルを上記発話区間の音響モデルとして選択する音響モデル選択過程と、
音声認識処理部が、上記発話区間毎に選択された音響モデルで音声認識処理を行う音声認識処理過程と、
を備える音声認識方法。 - 特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
発話分割部が、上記フレーム毎に音声/非音声判定を行い各フレームを音声区間と非音声区間とに分類し、経過時間で隣接する上記音声区間を発話区間として分割して出力する発話分割過程と、
音響モデル選択部が、上記発話区間の音声特徴量と各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して尤度の高い音響モデルを上記発話区間の音響モデルとして選択する音響モデル選択過程と、
音声認識処理部が、上記音声特徴量と上記選択された音響モデルで音声認識処理した結果を適応用ラベルとして出力する音声認識処理過程と、
教師なし適応部が、上記適応用ラベルを入力として上記選択された音響モデルを学習し、適応音響モデルを生成する教師なし適応過程と、
第2音声認識処理部が、上記音声ディジタル信号を入力とし、適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第2音声認識処理過程と、
を備える音声認識方法。 - 請求項1乃至6の何れかに記載した音声認識装置としてコンピュータを機能させるための装置プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009158783A JP4852129B2 (ja) | 2009-07-03 | 2009-07-03 | 音声認識装置とその方法と、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009158783A JP4852129B2 (ja) | 2009-07-03 | 2009-07-03 | 音声認識装置とその方法と、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011013543A true JP2011013543A (ja) | 2011-01-20 |
JP4852129B2 JP4852129B2 (ja) | 2012-01-11 |
Family
ID=43592474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009158783A Active JP4852129B2 (ja) | 2009-07-03 | 2009-07-03 | 音声認識装置とその方法と、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4852129B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859749A (zh) * | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 一种语音信号识别方法和装置 |
US20220189463A1 (en) * | 2020-12-16 | 2022-06-16 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
JP7452095B2 (ja) | 2020-02-27 | 2024-03-19 | 沖電気工業株式会社 | データ処理装置、データ処理方法およびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005345772A (ja) * | 2004-06-03 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
JP2006139185A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
JP2009069305A (ja) * | 2007-09-11 | 2009-04-02 | Fujitsu Ten Ltd | 音響エコー削除装置および車載装置 |
JP2009128490A (ja) * | 2007-11-21 | 2009-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 |
-
2009
- 2009-07-03 JP JP2009158783A patent/JP4852129B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005345772A (ja) * | 2004-06-03 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
JP2006139185A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
JP2009069305A (ja) * | 2007-09-11 | 2009-04-02 | Fujitsu Ten Ltd | 音響エコー削除装置および車載装置 |
JP2009128490A (ja) * | 2007-11-21 | 2009-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859749A (zh) * | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 一种语音信号识别方法和装置 |
JP7452095B2 (ja) | 2020-02-27 | 2024-03-19 | 沖電気工業株式会社 | データ処理装置、データ処理方法およびプログラム |
US20220189463A1 (en) * | 2020-12-16 | 2022-06-16 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP4852129B2 (ja) | 2012-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shriberg et al. | Prosody-based automatic segmentation of speech into sentences and topics | |
EP1936606B1 (en) | Multi-stage speech recognition | |
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
EP1909263B1 (en) | Exploitation of language identification of media file data in speech dialog systems | |
JP5066483B2 (ja) | 言語理解装置 | |
US20030216912A1 (en) | Speech recognition method and speech recognition apparatus | |
JP2011033680A (ja) | 音声処理装置及び方法、並びにプログラム | |
JP2007057844A (ja) | 音声認識システムおよび音声処理システム | |
JP2007240589A (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP4852129B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
CN111078937B (zh) | 语音信息检索方法、装置、设备和计算机可读存储介质 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
Breslin et al. | Continuous asr for flexible incremental dialogue | |
JP4962930B2 (ja) | 発音評定装置、およびプログラム | |
JPH08241096A (ja) | 音声認識方法 | |
JP4226273B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
EP2948943B1 (en) | False alarm reduction in speech recognition systems using contextual information | |
Wu et al. | Application of simultaneous decoding algorithms to automatic transcription of known and unknown words | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
JP5235849B2 (ja) | 音声認識装置とその方法と、プログラム | |
Hüning et al. | Speech Recognition Methods and their Potential for Dialogue Systems in Mobile Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110719 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110720 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111011 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4852129 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141028 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |