JP4843646B2 - 音声認識装置とその方法と、プログラムと記録媒体 - Google Patents
音声認識装置とその方法と、プログラムと記録媒体 Download PDFInfo
- Publication number
- JP4843646B2 JP4843646B2 JP2008156501A JP2008156501A JP4843646B2 JP 4843646 B2 JP4843646 B2 JP 4843646B2 JP 2008156501 A JP2008156501 A JP 2008156501A JP 2008156501 A JP2008156501 A JP 2008156501A JP 4843646 B2 JP4843646 B2 JP 4843646B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- adjustment parameter
- score
- output probability
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
このように調整パラメータを用いて音響モデルと音響特徴量とのミスマッチを減らす音響分析パラメータ生成方法を用いることで、雑音に対して頑健な音声認識装置とすることが出来る。この音響分析パラメータ生成方法は、例えば非特許文献1にスペクトルサブトラクション法として示されている。
松本 弘「雑音環境下の音声認識手法」、平成15年9月10日、情報処理学会、インターネット<URL:http://https//www.ipsj.or.jp/10jigyo/fit/fit2003/fit2003program/html/>
この発明は、このような点に鑑みてなされたものであり、高速・省メモリ化できる音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体を提供することを目的とする。
音響分析パラメータ生成装置100とそれを含んだ音声認識装置200のそれぞれは、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
出力確率計算部10は、調整パラメータ管理部14が出力する調整パラメータを用いて算出されたフレーム単位の音響特徴量と、音響モデルパラメータメモリ73に記録された音響モデルとを入力としてフレーム毎の各状態の出力確率を計算する(ステップS10)。音響モデルと各状態については後述する。
状態sから得られる出力確率P(s,ot(αi))は式(1)で求められる。
図5に、状態sとフレームtとの時系列の関係を示す。横軸は時間経過でありフレーム
番号で表す。縦軸は、各フレームの状態sである。各状態sは図3に示したように混合正
規分布からなる。●は各フレーム内で出力確率スコアが最大になる最尤状態P(sbest,ot(αi))である。各フレームの最尤状態P(sbest,ot(αi))を時系列で見たのが、●を線で結んだ最尤状態系列である。
また、更に、計算量を削減する方法として、音声GMMと無音モデルに対応する状態尤度を用いて出力確率計算部10が出力確率を計算するようにしても良い。通常、音声GMMは状態数1で表現されることが多く、また無音モデルを3状態とすると、合わせて4状態となり、モノフォンを用いた90状態から統計量を蓄積する方法に比べて更に計算量を削減することが可能である。
この実施例3の最尤状態系列を求める計算も、図5に示す縦軸方向の全ての状態sについて行うが、一度、最尤状態系列を求めた後は、各フレーム毎に最尤状態系列の1状態のみの出力確率を計算するものである。つまり、最初に求めた最尤状態系列を2回目以降も用いることで計算量を削減する考えである。
この発明の技術思想に基づく音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (11)
- 音響特徴量を正規化するための調整パラメータαを複数種類備え、各調整パラメータαiを所定フレームに対して出力する調整パラメータ管理部と、
離散化された音声信号を入力として算出され各調整パラメータαiごとに上記調整パラメータαiを用いて正規化されたフレーム単位の音響特徴量と音響モデルとを入力として上記フレーム毎の各状態の出力確率を各調整パラメータαiごとに計算する出力確率計算部と、
上記出力確率の最尤状態系列を上記所定フレーム数に渡って累積して出力確率スコアSCORE(αi)を各調整パラメータαiごとに求めるスコア計算部と、
上記各調整パラメータαiごとの出力確率スコアSCORE(αi)を評価して上記出力確率スコアSCORE(αi)が最大になる上記調整パラメータαiを出力するスコア評価部と、
上記離散化された音声信号を入力として、上記スコア評価部が出力する調整パラメータα i を用いてフレーム単位で正規化した音響特徴量を算出する特徴量算出部と、
上記音響モデルと言語モデルとを入力として、上記特徴量算出部が出力する上記音響特徴量と上記音響モデルとの状態尤度と、言語モデルに基づく言語尤度と、の総和が最も高い音声認識結果候補を出力する音声認識部と、
を具備する音声認識装置。 - 請求項1に記載した音声認識装置において、
上記調整パラメータαiは、声道長正規化のパラメータであることを特徴とする音声認識装置。 - 請求項1又は2に記載した音声認識装置において、
上記音響モデルを環境独立音素モデルに絞って上記出力確率計算部に出力する計算対象状態取得部を具備することを特徴とする音声認識装置。 - 請求項1乃至3の何れかに記載した音声認識装置において、
上記最尤状態系列を記録する最尤状態系列記録部を備え、
上記出力確率計算部は上記最尤状態系列のみの出力確率を計算することを特徴とする音声認識装置。 - 調整パラメータ管理部が、音響特徴量を正規化するための調整パラメータαを複数種類備え、各調整パラメータαiを所定フレームに対して出力する調整パラメータ管理過程と、
出力確率計算部が、離散化された音声信号を入力として算出され各調整パラメータαiごとに上記調整パラメータαiを用いて正規化されたフレーム単位の音響特徴量と音響モデルとを入力として、上記フレーム毎の各状態の出力確率を各調整パラメータαiごとに計算する出力確率計算過程と、
スコア計算部が、上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアSCORE(αi)を各調整パラメータαiごとに求めるスコア計算過程と、
スコア評価部が、上記各調整パラメータαiごとの出力確率スコアSCORE(αi)を評価して上記出力確率スコアSCORE(αi)が最大になる上記調整パラメータαiを出力するスコア評価過程と、
特徴量算出部が、上記離散化された音声信号を入力として、上記スコア評価部が出力する調整パラメータα i を用いてフレーム単位で正規化した音響特徴量を算出する特徴量算過程と、
音声認識部が、上記音響モデルと言語モデルとを入力として、上記特徴量算出部が出力する上記音響特徴量と上記音響モデルとの状態尤度と、言語モデルに基づく言語尤度と、の総和が最も高い音声認識結果候補を出力する音声認識過程と、
を含む音声認識方法。 - 請求項5に記載した音声認識方法において、
上記調整パラメータαiは、声道長正規化のパラメータであることを特徴とする音声認識方法。 - 請求項5又は6に記載した音声認識方法において、
計算対象状態取得部が、上記音響モデルを環境独立音素モデルに絞って上記出力確率計算部に出力する計算対象状態取得過程を含むことを特徴とする音声認識方法。 - 請求項5又は6に記載した音声認識において、
計算対象状態取得部が、上記音響モデルを音声GMMと無音モデルから生成して上記出力確率計算部に出力する計算対象状態取得過程を含むことを特徴とする音声認識方法。 - 請求項5乃至8の何れかに記載した音声認識方法において、
最尤状態系列記録部が、上記最尤状態系列を記録する最尤状態系列記録過程を含み、
上記出力確率計算過程は、上記最尤状態系列のみの出力確率を計算する過程であることを特徴とする音声認識方法。 - 請求項5乃至9の何れかに記載した音声認識方法の各過程をコンピュータに実行させるためのプログラム。
- 請求項10に記載した何れかの方法プログラムを記録したコンピュータで読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008156501A JP4843646B2 (ja) | 2008-06-16 | 2008-06-16 | 音声認識装置とその方法と、プログラムと記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008156501A JP4843646B2 (ja) | 2008-06-16 | 2008-06-16 | 音声認識装置とその方法と、プログラムと記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009300837A JP2009300837A (ja) | 2009-12-24 |
JP4843646B2 true JP4843646B2 (ja) | 2011-12-21 |
Family
ID=41547784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008156501A Active JP4843646B2 (ja) | 2008-06-16 | 2008-06-16 | 音声認識装置とその方法と、プログラムと記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4843646B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5166195B2 (ja) * | 2008-10-14 | 2013-03-21 | 日本電信電話株式会社 | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 |
CN110634474B (zh) * | 2019-09-24 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音识别方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4461557B2 (ja) * | 2000-03-09 | 2010-05-12 | パナソニック株式会社 | 音声認識方法および音声認識装置 |
JP4245617B2 (ja) * | 2006-04-06 | 2009-03-25 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
-
2008
- 2008-06-16 JP JP2008156501A patent/JP4843646B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009300837A (ja) | 2009-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
US20060129392A1 (en) | Method for extracting feature vectors for speech recognition | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
WO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JP2006146090A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US7315819B2 (en) | Apparatus for performing speaker identification and speaker searching in speech or sound image data, and method thereof | |
JP7191792B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP2008129527A (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
JP5852550B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP5961530B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP5089651B2 (ja) | 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体 | |
KR101890303B1 (ko) | 가창 음성 생성 방법 및 그에 따른 장치 | |
JP4981850B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP2011039434A (ja) | 音声認識装置およびその特徴量正規化方法 | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP5136621B2 (ja) | 情報検索装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110405 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110602 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110705 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110809 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110927 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111007 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4843646 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141014 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |