JP2009300837A - 音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体 - Google Patents
音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体 Download PDFInfo
- Publication number
- JP2009300837A JP2009300837A JP2008156501A JP2008156501A JP2009300837A JP 2009300837 A JP2009300837 A JP 2009300837A JP 2008156501 A JP2008156501 A JP 2008156501A JP 2008156501 A JP2008156501 A JP 2008156501A JP 2009300837 A JP2009300837 A JP 2009300837A
- Authority
- JP
- Japan
- Prior art keywords
- output probability
- adjustment parameter
- acoustic
- acoustic analysis
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】この発明の音響分析パラメータ生成装置の出力確率計算部は、調整パラメータを用いて算出されたフレーム単位の音響特徴量と音響モデルとを入力としてフレーム毎の各状態の出力確率を計算する。スコア計算部が、出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求める。スコア評価部は、出力確率スコアを評価して出力確率スコアが最大になる調整パラメータを最適調整パラメータ候補として出力する。最適調整パラメータ候補記録部が、その最適調整パラメータ候補を記録する。所定フレーム数に対して調整パラメータをそれぞれ出力した後に記録した最適調整パラメータ候補を調整パラメータとして出力する。
【選択図】図1
Description
このように調整パラメータを用いて音響モデルと音響特徴量とのミスマッチを減らす音響分析パラメータ生成方法を用いることで、雑音に対して頑健な音声認識装置とすることが出来る。この音響分析パラメータ生成方法は、例えば非特許文献1にスペクトルサブトラクション法として示されている。
松本 弘「雑音環境下の音声認識手法」、平成15年9月10日、情報処理学会、インターネット<URL:http://https//www.ipsj.or.jp/10jigyo/fit/fit2003/fit2003program/html/>
この発明は、このような点に鑑みてなされたものであり、高速・省メモリ化できる音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体を提供することを目的とする。
音響分析パラメータ生成装置100とそれを含んだ音声認識装置200のそれぞれは、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
出力確率計算部10は、調整パラメータ管理部14が出力する調整パラメータを用いて算出されたフレーム単位の音響特徴量と、音響モデルパラメータメモリ73に記録された音響モデルとを入力としてフレーム毎の各状態の出力確率を計算する(ステップS10)。音響モデルと各状態については後述する。
状態sから得られる出力確率P(s,ot(αi))は式(1)で求められる。
図5に、状態sとフレームtとの時系列の関係を示す。横軸は時間経過でありフレーム
番号で表す。縦軸は、各フレームの状態sである。各状態sは図3に示したように混合正
規分布からなる。●は各フレーム内で出力確率スコアが最大になる最尤状態P(sbest,ot(αi))である。各フレームの最尤状態P(sbest,ot(αi))を時系列で見たのが、●を線で結んだ最尤状態系列である。
また、更に、計算量を削減する方法として、音声GMMと無音モデルに対応する状態尤度を用いて出力確率計算部10が出力確率を計算するようにしても良い。通常、音声GMMは状態数1で表現されることが多く、また無音モデルを3状態とすると、合わせて4状態となり、モノフォンを用いた90状態から統計量を蓄積する方法に比べて更に計算量を削減することが可能である。
この実施例3の最尤状態系列を求める計算も、図5に示す縦軸方向の全ての状態sについて行うが、一度、最尤状態系列を求めた後は、各フレーム毎に最尤状態系列の1状態のみの出力確率を計算するものである。つまり、最初に求めた最尤状態系列を2回目以降も用いることで計算量を削減する考えである。
この発明の技術思想に基づく音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (10)
- 調整パラメータを用いて算出されたフレーム単位の音響特徴量と音響モデルとを入力として上記フレーム毎の各状態の出力確率を計算する出力確率計算部と、
上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求めるスコア計算部と、
上記出力確率スコアを評価して上記出力確率スコアが最大になる上記調整パラメータを最適調整パラメータ候補として出力するスコア評価部と、
上記最適調整パラメータ候補を記録する最適調整パラメータ候補記録部と、
上記調整パラメータを複数個備え、上記所定フレーム数に対して上記複数の調整パラメータをそれぞれ出力した後に上記最適調整パラメータ候補を上記調整パラメータとして出力する調整パラメータ管理部と、
を具備する音響分析パラメータ生成装置。 - 請求項1に記載した音響分析パラメータ生成装置において、
上記音響モデルを環境独立音素モデルに絞って上記出力確率計算部に出力する計算対象状態取得部を具備することを特徴とする音響分析パラメータ生成装置。 - 請求項1又は2に記載した音響分析パラメータ生成装置において、
上記最尤状態系列を記録する最尤状態系列記録部を備え、
上記出力確率計算部は上記最尤状態系列のみの出力確率を計算することを特徴とする音響分析パラメータ生成装置。 - 出力確率計算部が、調整パラメータを用いて算出されたフレーム単位の音響特徴量と音響モデルとを入力として、上記フレーム毎の各状態の出力確率を計算する出力確率計算過程と、
スコア計算部が、上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求めるスコア計算過程と、
スコア評価部が、上記出力確率スコアを評価して上記出力確率スコアが最大になる上記調整パラメータを最適調整パラメータ候補として出力するスコア評価過程と、
最適調整パラメータ候補記録部が、上記最適調整パラメータ候補を記録する最適調整パラメータ候補記録過程と、
調整パラメータ管理部が、上記調整パラメータを複数個備え上記所定フレーム数に対して上記調整パラメータをそれぞれ出力した後に上記最適調整パラメータ候補を上記調整パラメータとして出力する調整パラメータ管理過程と、
を含む音響分析パラメータ生成方法。 - 請求項4に記載した音響分析パラメータ生成方法において、
計算対象状態取得部が、上記音響モデルを環境独立音素モデルに絞って上記出力確率計算部に出力する計算対象状態取得過程を含むことを特徴とする音響分析パラメータ生成方法。 - 請求項4に記載した音響分析パラメータ生成方法において、
計算対象状態取得部が、上記音響モデルを音声GMMと無音モデルから生成して上記出力確率計算部に出力する計算対象状態取得過程を含むことを特徴とする音響分析パラメータ生成方法。 - 請求項4乃至6の何れかに記載した音響分析パラメータ生成方法において、
最尤状態系列記録部が、上記最尤状態系列を記録する最尤状態系列記録過程を含み、
上記出力確率計算過程は、上記最尤状態系列のみの出力確率を計算する過程であることを特徴とする音響分析パラメータ生成方法。 - 請求項4乃至7の何れかに記載した音響分析パラメータ生成方法を用いたことを特徴とする音声認識装置。
- 請求項4乃至7の何れかに記載した音響分析パラメータ生成方法をコンピュータに機能させるための方法プログラム。
- 請求項9に記載した何れかの方法プログラムを記録したコンピュータで読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008156501A JP4843646B2 (ja) | 2008-06-16 | 2008-06-16 | 音声認識装置とその方法と、プログラムと記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008156501A JP4843646B2 (ja) | 2008-06-16 | 2008-06-16 | 音声認識装置とその方法と、プログラムと記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009300837A true JP2009300837A (ja) | 2009-12-24 |
JP4843646B2 JP4843646B2 (ja) | 2011-12-21 |
Family
ID=41547784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008156501A Active JP4843646B2 (ja) | 2008-06-16 | 2008-06-16 | 音声認識装置とその方法と、プログラムと記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4843646B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010096808A (ja) * | 2008-10-14 | 2010-04-30 | Nippon Telegr & Teleph Corp <Ntt> | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 |
CN110634474A (zh) * | 2019-09-24 | 2019-12-31 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音识别方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001255886A (ja) * | 2000-03-09 | 2001-09-21 | Matsushita Electric Ind Co Ltd | 音声認識方法および音声認識装置 |
JP2007279349A (ja) * | 2006-04-06 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
-
2008
- 2008-06-16 JP JP2008156501A patent/JP4843646B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001255886A (ja) * | 2000-03-09 | 2001-09-21 | Matsushita Electric Ind Co Ltd | 音声認識方法および音声認識装置 |
JP2007279349A (ja) * | 2006-04-06 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010096808A (ja) * | 2008-10-14 | 2010-04-30 | Nippon Telegr & Teleph Corp <Ntt> | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 |
CN110634474A (zh) * | 2019-09-24 | 2019-12-31 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4843646B2 (ja) | 2011-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100845428B1 (ko) | 휴대용 단말기의 음성 인식 시스템 | |
US20060129392A1 (en) | Method for extracting feature vectors for speech recognition | |
WO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JP2006146090A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
WO2005096271A1 (ja) | 音声認識装置及び音声認識方法 | |
US11823669B2 (en) | Information processing apparatus and information processing method | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP2005345496A (ja) | 音声処理装置、音声処理方法およびそのプログラム | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
JP5852550B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP2008129527A (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP4239479B2 (ja) | 音声認識装置、音声認識方法、および、音声認識プログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP5961530B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
KR101890303B1 (ko) | 가창 음성 생성 방법 및 그에 따른 장치 | |
JP5089651B2 (ja) | 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110405 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110602 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110705 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110809 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110927 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111007 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4843646 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141014 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |