JP4379050B2 - 音声認識装置、音声認識高速化方法、および、プログラム - Google Patents
音声認識装置、音声認識高速化方法、および、プログラム Download PDFInfo
- Publication number
- JP4379050B2 JP4379050B2 JP2003307378A JP2003307378A JP4379050B2 JP 4379050 B2 JP4379050 B2 JP 4379050B2 JP 2003307378 A JP2003307378 A JP 2003307378A JP 2003307378 A JP2003307378 A JP 2003307378A JP 4379050 B2 JP4379050 B2 JP 4379050B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- frame
- speech recognition
- predetermined
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
入力された音声について複数の所定長フレーム毎に抽出した特徴量と、所定の混合ガウス分布を含む隠れマルコフモデルとに基づいて、各音素の状態遷移確率を算出する確率算出手段と、
算出された状態遷移確率をガウス分布毎の所定の重み付け係数に基づいて累積し、各隠れマルコフモデル毎の尤度を算出する尤度算出手段と、
当該フレームより前のフレームで算出された尤度の累積値を順次算出する累積尤度算出手段と、
前記累積尤度算出手段が算出した累積尤度に基づいて、前記入力された音声の音声認識をおこなう音声認識手段と、
を備える音声認識装置において、
各フレームについて、前記累積尤度算出手段が算出した累積尤度に基づいて、各フレームの音声が重要であるか否かを判別し、重要でないと判別したフレームを所定のフレームとして識別するフレーム識別手段を備え、
前記確率算出手段、前記尤度算出手段、および、前記累積尤度算出手段は、前記フレーム識別手段が識別した前記所定のフレームでは所定の演算動作を省略する、
ことを特徴とする。
前記フレーム識別手段は、
各隠れマルコフモデル毎に付与された重要度を示す情報を記憶する重要度情報記憶手段をさらに備え、
前記重要度情報記憶手段に記憶された重要度情報に基づいて、各フレームの音声が重要であるか否かを判別することが望ましい。
前記尤度算出手段は、前記識別された所定フレームにおける尤度演算を省略し、
前記累積尤度算出手段は、当該所定フレームの直前のフレームで算出された尤度を用いて、当該所定フレームにおける累積尤度を算出することが望ましい。
所定の装置による隠れマルコフモデルを用いた音声認識を高速化する音声認識高速化方法であって、
所定の重み付け係数で重み付けされた混合ガウス分布を含む複数の隠れマルコフモデルを取得するモデル取得ステップと、
対象音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出する特徴量抽出ステップと、
各フレームにおいて抽出された特徴量に基づいて、各ガウス分布毎に状態遷移確率を算出する確率算出ステップと、
算出された状態遷移確率をガウス分布毎の重み付け係数に基づいて累積し、各隠れマルコフモデル毎の尤度を算出する尤度算出ステップと、
算出された各隠れマルコフモデル毎の尤度と、当該フレームの直前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出する累積尤度算出ステップと、
前記算出された累積尤度に基づいて音声認識を行う音声認識ステップと、
子音を示すフレームのうち、各子音の状態数に基づいて当該子音が重要であるか否かを判別することにより、重要でない音声を含むフレームにおける尤度算出を省略することを決定する省略要否決定ステップと、
を備え、
該算出動作の省略が決定されたフレームにおける当該算出動作を省略する、
ことを特徴とする。
コンピュータを
所定の重み付け係数で重み付けされた混合ガウス分布を含む複数の隠れマルコフモデルを取得し、
対象音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出し、
各フレームにおいて抽出された特徴量に基づいて、各ガウス分布毎に状態遷移確率を算出し、
算出された状態遷移確率をガウス分布毎の重み付け係数に基づいて累積し、各隠れマルコフモデル毎の尤度を算出し、
算出された各隠れマルコフモデル毎の尤度と、当該フレームの直前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出し、
前記算出された累積尤度に基づいて音声認識を行う音声認識装置であって、
子音を示すフレームのうち、各子音の状態数に基づいて当該子音が重要であるか否かを判別することにより、重要でない子音を含むフレームにおける尤度算出を省略することを決定し、該算出動作の省略が決定されたフレームにおける当該算出動作を省略する、
ことを特徴とする音声認識装置として機能させる。
図1は、本発明の実施の形態にかかる音声認識装置の構成を示すブロック図である。図示するように、音声認識装置100は、制御部110と、入力制御部120と、出力制御部130と、プログラム格納部140と、記憶部150と、から構成される。
(1)「特徴抽出プログラム」:入力制御部120で変換された音声信号の特徴量(特徴パラメータ)を抽出するプログラム
(2)「尤度算出プログラム」:各フレーム毎の尤度を算出するとともに、累積尤度を算出するプログラム
(3)「音声認識プログラム」:算出された累積尤度と音響モデルとに基づいて音声認識するプログラム
上記第1の実施の形態では、フレーム番号に基づいて演算省略をおこなったが、各フレームで示される音声に基づいて演算省略をおこなってもよい。この場合の音声認識装置100の処理を、第2の実施の形態として以下に説明する。なお、音声認識装置100の構成は上記第1の実施の形態と同一である。
上記第2の実施の形態では、子音か母音かを判別し、子音に付随する母音である場合には尤度計算を省略するものとしたが、子音であっても音素単位では認識の際に重要でないものもある。このような部分の演算処理を省略することで、音声認識処理のさらなる高速化を図ることができる。
Claims (5)
- 入力された音声について複数の所定長フレーム毎に抽出した特徴量と、所定の混合ガウス分布を含む隠れマルコフモデルとに基づいて、各音素の状態遷移確率を算出する確率算出手段と、
算出された状態遷移確率をガウス分布毎の所定の重み付け係数に基づいて累積し、各隠れマルコフモデル毎の尤度を算出する尤度算出手段と、
当該フレームより前のフレームで算出された尤度の累積値を順次算出する累積尤度算出手段と、
前記累積尤度算出手段が算出した累積尤度に基づいて、前記入力された音声の音声認識をおこなう音声認識手段と、
を備える音声認識装置において、
各フレームについて、前記累積尤度算出手段が算出した累積尤度に基づいて、各フレームの音声が重要であるか否かを判別し、重要でないと判別したフレームを所定のフレームとして識別するフレーム識別手段を備え、
前記確率算出手段、前記尤度算出手段、および、前記累積尤度算出手段は、前記フレーム識別手段が識別した前記所定のフレームでは所定の演算動作を省略する、
ことを特徴とする音声認識装置。 - 前記フレーム識別手段は、
各隠れマルコフモデル毎に付与された重要度を示す情報を記憶する重要度情報記憶手段をさらに備え、
前記重要度情報記憶手段に記憶された重要度情報に基づいて、各フレームの音声が重要であるか否かを判別する、
ことを特徴とする請求項1に記載の音声認識装置。 - 前記尤度算出手段は、前記識別された所定フレームにおける尤度演算を省略し、
前記累積尤度算出手段は、当該所定フレームの直前のフレームで算出された尤度を用いて、当該所定フレームにおける累積尤度を算出する、
ことを特徴とする請求項1または2に記載の音声認識装置。 - 所定の装置による隠れマルコフモデルを用いた音声認識を高速化する音声認識高速化方法であって、
所定の重み付け係数で重み付けされた混合ガウス分布を含む複数の隠れマルコフモデルを取得するモデル取得ステップと、
対象音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出する特徴量抽出ステップと、
各フレームにおいて抽出された特徴量に基づいて、各ガウス分布毎に状態遷移確率を算出する確率算出ステップと、
算出された状態遷移確率をガウス分布毎の重み付け係数に基づいて累積し、各隠れマルコフモデル毎の尤度を算出する尤度算出ステップと、
算出された各隠れマルコフモデル毎の尤度と、当該フレームの直前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出する累積尤度算出ステップと、
前記算出された累積尤度に基づいて音声認識を行う音声認識ステップと、
子音を示すフレームのうち、各子音の状態数に基づいて当該子音が重要であるか否かを判別することにより、重要でない音声を含むフレームにおける尤度算出を省略することを決定する省略要否決定ステップと、
を備え、
該算出動作の省略が決定されたフレームにおける当該算出動作を省略する、
ことを特徴とする音声認識高速化方法。 - コンピュータを
所定の重み付け係数で重み付けされた混合ガウス分布を含む複数の隠れマルコフモデルを取得し、
対象音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出し、
各フレームにおいて抽出された特徴量に基づいて、各ガウス分布毎に状態遷移確率を算出し、
算出された状態遷移確率をガウス分布毎の重み付け係数に基づいて累積し、各隠れマルコフモデル毎の尤度を算出し、
算出された各隠れマルコフモデル毎の尤度と、当該フレームの直前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出し、
前記算出された累積尤度に基づいて音声認識を行う音声認識装置であって、
子音を示すフレームのうち、各子音の状態数に基づいて当該子音が重要であるか否かを判別することにより、重要でない子音を含むフレームにおける尤度算出を省略することを決定し、該算出動作の省略が決定されたフレームにおける当該算出動作を省略する、
ことを特徴とする音声認識装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003307378A JP4379050B2 (ja) | 2003-08-29 | 2003-08-29 | 音声認識装置、音声認識高速化方法、および、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003307378A JP4379050B2 (ja) | 2003-08-29 | 2003-08-29 | 音声認識装置、音声認識高速化方法、および、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005077682A JP2005077682A (ja) | 2005-03-24 |
JP4379050B2 true JP4379050B2 (ja) | 2009-12-09 |
Family
ID=34410177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003307378A Expired - Fee Related JP4379050B2 (ja) | 2003-08-29 | 2003-08-29 | 音声認識装置、音声認識高速化方法、および、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4379050B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007193813A (ja) * | 2006-01-20 | 2007-08-02 | Mitsubishi Electric Research Laboratories Inc | データサンプルを複数のクラスのうちの1つに分類する方法及びデータサンプルを2つのクラスのうちの1つに分類する方法 |
JP5315976B2 (ja) * | 2008-12-19 | 2013-10-16 | カシオ計算機株式会社 | 音声認識装置、音声認識方法、および、プログラム |
US11348572B2 (en) | 2017-10-23 | 2022-05-31 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
-
2003
- 2003-08-29 JP JP2003307378A patent/JP4379050B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005077682A (ja) | 2005-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP4224250B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP2005043666A (ja) | 音声認識装置 | |
JP2006526160A (ja) | 語彙強調予測 | |
US20230036020A1 (en) | Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score | |
US7181391B1 (en) | Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system | |
CN107610693B (zh) | 文本语料库的构建方法和装置 | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP2662112B2 (ja) | 発声された単語のモデル化方法および装置 | |
JP4298672B2 (ja) | 混合分布hmmの状態の出力確率計算方法および装置 | |
JP4859125B2 (ja) | 発音評定装置、およびプログラム | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
JP4379050B2 (ja) | 音声認識装置、音声認識高速化方法、および、プログラム | |
Taubert et al. | A comparison of text selection algorithms for sequence-to-sequence neural tts | |
US8200478B2 (en) | Voice recognition device which recognizes contents of speech | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP4610451B2 (ja) | 音声認識装置及びプログラム | |
JP4586386B2 (ja) | 素片接続型音声合成装置及び方法 | |
WO2012032748A1 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2004191705A (ja) | 音声認識装置 | |
JP2017198790A (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
JP5344396B2 (ja) | 言語学習装置、言語学習プログラム及び言語学習方法 | |
KR20060043023A (ko) | 음성 합성 장치, 음성 합성 방법, 및 음성 합성 프로그램을기억한 기억 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090825 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090907 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4379050 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131002 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |