JP3430265B2 - 日本語音声認識方法 - Google Patents

日本語音声認識方法

Info

Publication number
JP3430265B2
JP3430265B2 JP26516592A JP26516592A JP3430265B2 JP 3430265 B2 JP3430265 B2 JP 3430265B2 JP 26516592 A JP26516592 A JP 26516592A JP 26516592 A JP26516592 A JP 26516592A JP 3430265 B2 JP3430265 B2 JP 3430265B2
Authority
JP
Japan
Prior art keywords
language model
likelihood
recognition
statistical language
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26516592A
Other languages
English (en)
Other versions
JPH06118985A (ja
Inventor
昭一 松永
清宏 鹿野
智一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP26516592A priority Critical patent/JP3430265B2/ja
Publication of JPH06118985A publication Critical patent/JPH06118985A/ja
Application granted granted Critical
Publication of JP3430265B2 publication Critical patent/JP3430265B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は、日本語音声認識方法に
係り、特に入力音声を特徴パラメータの時系列とし、日
本語テキストデータベースより作成された生起順序に関
する統計的言語モデルを用いて入力音声の特徴パラメー
タについて複数の音声認識候補を選出し、これら各音声
認識候補について、隠れマルコフモデルの標準パターン
と入力音声の特徴パラメータとをそれぞれ照合して、生
起の尤度と類似の尤度との総合尤度の高い候補を認識結
果とする日本語音声認識方法に関する。 【0002】 【従来の技術】従来、統計的言語モデルを用いて自然言
語解析性能や音声認識性能を向上させる試みが行われて
きた。例えば、日本語音声認識に関する統計的言語モデ
ル(例えば、Bahl, L.他、 A Statistical Approach to
Continuous Speech Recognition“IEEE”Trans. On PA
MI(1983)) 及び日本語統計モデル( 例えば、山田他「か
な漢字の文字連鎖情報を利用した統計的言語モデル」電
子情報通信学会技術報告SP91-26(1991)) 等がある。 【0003】従来の隠れマルコフモデル及び統計的言語
モデルを用いた音声認識方法として、学習用テキストデ
ータベースより、音素の生起順序に関する統計的言語モ
デルと隠れマルコフモデルの音素標準パターンを予め作
成しておき、入力音声に対し、統計的言語モデルを用い
て、既に認識した直前の複数の音素から、次に生起する
確率の高い複数の音素候補を選出し、これら選出した音
素候補のそれぞれについてその音素標準パターンと入力
音声とを照合して、生起尤度と標準パターンとの類似度
の総合的尤度の最も高い音素を認識結果として出力する
ことが提案されている。 【0004】 【発明が解決しようとする課題】しかしながら、従来の
隠れマルコフモデル及び統計的言語モデルを用いた音声
認識方法では、任意の音声を認識しようとする場合に
は、認識探索範囲が膨大であり、多くの処理時間が必要
となる問題がある。 【0005】本発明は、上記の点に鑑みなされたもの
で、任意の音声の認識を効率よく高速化することができ
る日本語音声認識方法を提供することを目的とする。 【0006】 【課題を解決するための手段】図1は本発明の原理を説
明するための図を示す。 【0007】本発明は、入力音声の時系列の特徴パラメ
ータに変換し、入力音声の時系列の特徴パラメータにつ
いて、複数の音声認識候補を選出し、これら各音声認識
候補について、隠れマルコフモデルの標準パターンと特
徴パラメータとをそれぞれ照合した類似の尤度と、学習
テキストデータベース20より作成された生起順序に関
する統計的言語モデルを用いて求めた生起の尤度との
合尤度の高い候補を認識結果とする日本語音声認識方法
において、統計的言語モデルとして、学習テキストデー
タベース20から仮名及び漢字の生起順序に関する統計
的言語モデル21を作成し(ステップ100)、学習テ
キストデータベース20と統計的言語モデル21を用い
て、学習テキストデータベース20とは別の新規のテキ
ストデータを自動的に作成し(ステップ101)、新規
のテキストデータと学習テキストデータベース20
り、入力音声の認識探索範囲を設定し(ステップ10
2)、入力音声の認識候補文字列が認識探索範囲に含ま
れている場合に、統計的言語モデル21から求められる
文字の出現順序に関する生起尤度と、文字の音素列の標
準パターンとの類似性を示す尤度との和を総合尤度とし
て求め、総合尤度から認識結果文字を出力する。 【0008】 【作用】本発明は、学習用の日本語テキストデータベー
スから得られた統計的言語モデルと学習用の日本語テキ
ストデータベースより生成された新規テキストにより入
力された音声の認識探索範囲を制約する。これにより、
全入力音声の特徴パラメータを認識する必要がないた
め、認識処理の高速化が図れる。 【0009】 【実施例】図2は本発明の一実施例のブロック図を示
す。 【0010】本発明の方法は以下に示すシステム構成に
より実施する。本発明は、入力端子1、特徴抽出部2、
認識部3、標準パターンメモリ4、学習用テキストデー
タベース5、統計的言語モデル6、新規に作成したテキ
ストデータ7、認識探索範囲設定部8、文字テーブル
9、文字音素交換規則10、認識結果出力部11により
構成される。 【0011】入力端子1は、入力音声を入力する。特徴
抽出部2は、入力音声信号をディジタル信号に変換し、
LPCケプストラム分析し、1フレーム毎に特徴パラメ
ータに変換する。認識部3は入力音声の特徴パラメータ
の類似度を求める。標準パターンメモリ4は、音素標準
パターンが記憶されているメモリであり、学習用テキス
トデータベース5より特徴パラメータと同一の形式で、
隠れマルコフモデルの音素標準パターンが生成され、記
憶されている。統計的言語モデルメモリ6は、文字の生
起順序に関する統計的言語モデルが生成され、記憶され
る。新規テキストデータ7は、学習用テキストデータベ
ース5と統計的言語モデル6により新規に作成される。
認識探索範囲設定部8は学習用テキストデータベース
と新規テキストデータ7より認識探索範囲を設定し、
の認識探索範囲は、例えば、文字の2つ組、あるいは3
つ組みで設定される。文字テーブル9は複数の文字候補
に対応する標準パターンを標準パターンメモリ4から読
み出すための認識対象となる仮名及び漢字の文字候補が
登録されている。文字音素変換規則10は、文字テーブ
ル9を用いて選出した文字候補を文字音素列に変換する
ための規則である。 【0012】図3は本発明の一実施例の動作を説明する
ためのフローチャートを示す。 【0013】ステップ1:予め、学習用テキストデータ
ベース5より、特徴抽出部2が変換した特徴パラメータ
と同一の形式で隠れマルコフモデルの音素標準パターン
を生成し、標準パターンメモリ4に記憶しておく。 【0014】ステップ2:学習用テキストデータベース
5より文字の生起順序に関する統計的言語モデル6を生
成し、メモリに記憶しておく。 【0015】ステップ3:学習用テキストデータベース
5とその統計的言語モデル6より新規テキストデータ7
を作成する。学習用テキストデータベース5と新規テキ
ストデータ7より認識探索範囲設定部8は、入力音声の
認識探索範囲を設定する。認識探索範囲は、例えば、文
字の2つ組、或いは3つ組である。 【0016】ここまでのステップは予め処理されている
ものとして、以下の各ステップを説明する。 【0017】ステップ4:入力端子1より音声を入力す
る。 【0018】ステップ5:入力端子1より入力された音
声は、特徴抽出部2において、ディジタル信号に変換さ
れ、さらにLPCケプストラム分析された後、1フレー
ム(1時点、例えば10ミリ秒)毎に時系列に特徴パラ
メータに変換される。この特徴パラメータは例えばLP
Cケプストラム係数がある。 【0019】ステップ6:認識部3は、入力音声(特徴
パラメータ)の文字候補が認識探索範囲設定部8で設定
された認識探索範囲に含まれているか判断し、認識探索
範囲外であれば、ステップ4に移行する。 【0020】ステップ7:入力音声の文字候補で文字テ
ーブル9を参照し、登録されている文字候補に対応する
入力音声の文字候補でない場合にはステップ4に移行す
る。 【0021】ステップ8:認識部3は、入力音声の文字
候補が文字テーブルに対応する文字候補である場合は、
その文字候補を文字音素変換規則10により音素のパタ
ーンに変換する。 【0022】ステップ9:ステップ8で変換されたパタ
ーンを用いて標準パターンメモリ4から類似するパター
ンを読み出す。 【0023】ステップ10:認識部3は、標準パターン
メモリ4とパターン(入力音声の特徴パラメータ)の類
似度(尤度)を求める。 【0024】ステップ11:認識部3は、上記の文字候
補の生起尤度を統計的言語モデル6より求める。 【0025】ステップ12:認識部3は、認識文字を得
る。 【0026】ステップ13:認識部3は、入力音声より
選出された仮名・漢字候補の音素列と標準パターンメモ
リ4内の標準パターンとの照合を行い、その類似性によ
る総合尤度より認識結果文字を得る処理(ステップ4〜
ステップ12)を入力音声の音声区間が終わるまで繰り
返す。 【0027】ステップ14:認識部3は、最後にそれま
でに得られた認識結果文字列を認識結果出力部11に送
り、その順に仮名・漢字系列として出力する。 【0028】即ち、入力音声のi番目の文字を認識する
には、認識部3は、統計的言語モデル6から文字(仮名
・漢字)の出現順序に関するトライグラムを用いて(i
−2)番目と(i−1)番目との各文字の認識結果に基
づいて、(i−2)番目、(i−1)番目、i番目の文
字系列が認識探索範囲に存在すれば、i番目に出現する
文字の類似度を求め、その文字の音素列の標準パターン
との類似性を示す尤度との和を総合尤度とする。 【0029】次に、新規テキストデータ7の作成方法を
説明する。 【0030】図4は、本発明の一実施例の学習テキスト
を説明するための図である。 【0031】新規テキストの作成方法は、まず、予めM
個の文節からなる学習テキストを与える。いま、m番目
の文節がN個の文字より構成されており、n番目とn+
1番目の文字の境界がその文節を分割する尤度を γ(n,m)=α(n,m)+β(n+1,m) と定義する。上記のαは語頭から分割点dまでの尤度で
あり、βは語尾から分割点dまでの尤度である。ここで
は、文字トライグラムを用いて、 【数1】 ここで、wi はi番目の文字、トライグラム確率P(w
i |wi-1 ,wi-2 )はwi-1 ,wi-2 の後に文字wi
が出現する条件付確率であり、学習テキストより求めた
ものである(但し、i<1あるいはi>Nにおける文字
i は文の始終端を示す)。即ち、αは順方向の平均対
数確率で、βは逆向きの確率である。つまり、文節の分
割点として尤度が高い程、文節を分割する尤度γの値は
大きい。 【0032】この分割点dのすべての集合をVとする
と、生成アルゴリズムは以下のようになる。 【0033】図5は本発明の一実施例の新規にテキスト
を生成するアルゴリズムを示すフローチャートである。
また、図6は本発明の一実施例の新規テキストの作成の
例を示す。 【0034】ステップ100:分割点dのすべての集合
Vにおいて、文節を分割する尤度γ(n,m)を最大と
する(nmax ,mmax )を求める。図6(a)のテキス
トの例においては、最大値をnmax =5,mmax =1と
する。 【0035】ステップ101:閾値をγthとすると、ス
テップ100の尤度γ(n,m)が閾値γthより低けれ
ば処理を終了する。 【0036】ステップ102:mmax 番目の文節から文
頭からの文字系列と同じ文字系列(1からnmax まで)
を持つ文節を選択する。 【0037】ステップ103:尤度γ(n,m)が閾値
γthより低ければ、ステップ105に移行し、高ければ
ステップ10に移行する。 【0038】ステップ104:ステップ10におい
て、尤度γ(n,m)が閾値γthより高ければ、mmax
番目の文節の文頭からの文字列w1 ,…,…,wnmax
と同じ系列を持つすべての文節でγ(nmax ,m)が閾
値以上の文節の語尾wnmax+1……wN (m) をテーブル
Bに登録する。図6(b)においては「に」がテーブル
Bに登録される。 【0039】ステップ105:選択すべき文節がすべて
終了した場合にはステップ106に移行し、まだ、文節
が残っている場合にはステップ102に移行する。 【0040】ステップ106:mmax 番目の文節の文末
から文字系列と同じ文字系列を持つ文節を選択する。 【0041】ステップ107:文節末が文字列wn
max+1 ……wN max と同じ系列を持つ文節で、γ(n
max ,m)が閾値以下である場合には、ステップ109
に移行する。 【0042】ステップ108:文節末が文字列wn
max+1 ……wn max と同じ系列を持つ文節の頭部(1
から)テーブルAに登録する。図6(b)において、
「内閣総理大臣」がテーブルAに登録される。 【0043】ステップ109:選択すべき文節が全て終
了していない場合にはステップ106に戻る。 【0044】ステップ110:選択すべき文節が全て終
了した場合には、テーブルAとテーブルBの全組み合わ
せによる新規テキストを生成する。即ち、テーブルAの
要素と、テーブルBの要素の全ての組み合わせで得られ
る文節が新規に生成されることになる。図6(c)にお
いて、「内閣総理大臣に」が生成される。 【0045】ステップ111:分割点dの全ての集合V
について、V=V−{nmax,max}とし、さらに、テ
ーブルAとテーブルBをクリアしてステップ100に戻
る。 【0046】なお、本発明は上記の実施例に限定される
ことなく、例えば、学習テキストは文節単位だけでな
く、文章であってもよい。 【0047】統計的言語モデルもトライグラムに限ら
ず、バイグラムの統計量でもよい。 【0048】さらに、探索範囲の設定は、文字の2つ
組、4つ組であってもよい。 【0049】 【発明の効果】上述のように本発明によれば、学習用テ
キストデータとそれに基づいて作成した新規テキストを
用いて認識探索範囲を設定するので、認識処理を高速に
行うことができる。また、学習用テキストデータのみで
探索範囲を設定するよりも効率よく設定することが予期
される。 【0050】日本語の文節テキストを用いて上記の本発
明の方法を適用した場合について評価した。ここでは分
割点を文字境界としている。まず、学習テキスト500
0、10000、15000文節を用いてテキストを作
成した。評価用12000文節における文字の2つ組、
3つ組に対する学習テキストより得られる2つ組、3つ
組のカバー率を調べた。この結果、学習テキストのみで
はカバーできなかった部分の1/3を新規にカバーで
き、新規テキストを用いることが有効であることが示さ
れた。 【0051】次に、音声認識実験で本発明の方法を適用
した場合について評価した。学習テキストは15000
文節であり、これにより新規テキストを作成し、探索範
囲は文字の3つ組を用いて設定した。特定話者の222
文節を認識した結果、探索範囲の設定を行わない場合
は、文節認識性能は75.5%であった。一方、本発明
の方法により探索範囲を設定すると、認識性能は78.
7%に向上し、処理速度は三倍に向上した。
【図面の簡単な説明】 【図1】本発明の原理を説明するための図である。 【図2】本発明の一実施例のブロック図である。 【図3】本発明の一実施例の動作を説明するためのフロ
ーチャートである。 【図4】本発明の一実施例の学習テシウトを説明するた
めの図である。 【図5】本発明の一実施例の新規にテキストを生成する
アルゴリズムを示すフローチャートである。 【図6】本発明の一実施例の新規テキストの作成の例を
示す図である。 【符号の説明】 1 入力端子 2 特徴抽出部 3 認識部 4 標準パターンメモリ 5 学習用テキストデータベース 6 統計的言語モデル 7 新規テキストデータ 8 認識探索範囲設定部 9 文字テーブル 10 文字音素変換規則 20 日本語テキストデータベース 21 統計的言語モデル 22 新規テキストデータベース
フロントページの続き (56)参考文献 特開 平6−118984(JP,A) 山田智一,松永昭一,鹿野清宏,か な・漢字連鎖統計モデルを用いた日本語 Dictationシステム,電子情報 通信学会技術研究報告[音声],日本, 1992年6月30日,SP92−32,p.63− 68 松永昭一,山田智一,鹿野清宏,学習 用テキストからの認識探索空間の自動作 成,日本音響学会平成4年度秋季研究発 表会講演論文集,日本,1992年10月5 日,2−1−15,p.107−108 (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 15/14 G10L 15/18 G06K 9/72 JICSTファイル(JOIS)

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】 入力音声を時系列の特徴パラメータに変
    換し、該入力音声の時系列の特徴パラメータについて、
    複数の音声認識候補を選出し、これら各音声認識候補に
    ついて、隠れマルコフモデルの標準パターンと該特徴パ
    ラメータとをそれぞれ照合した類似の尤度と、学習テキ
    ストデータベースより作成された生起順序に関する統計
    的言語モデルを用いて求めた生起の尤度との総合尤度の
    高い候補を認識結果とする日本語音声認識方法におい
    て、 前記統計的言語モデルとして、前記学習テキストデータ
    ベースから仮名及び漢字の生起順序に関する統計的言語
    モデルを作成し、 前記学習テキストデータベースと前記統計的言語モデル
    を用いて、該学習テキストデータベースとは別の新規の
    テキストデータを自動的に作成し、 前記新規のテキストデータと前記学習テキストデータベ
    ースより、前記入力音声の認識探索範囲を設定し、 入力音声の認識候補文字列が前記認識探索範囲に含まれ
    ている場合に、前記統計的言語モデルから求められる文
    字の出現順序に関する生起尤度と、該文字の音素列の標
    準パターンとの類似性を示す尤度との和を総合尤度とし
    て求め、 前記総合尤度から認識結果文字を出力することを特徴と
    する日本語音声認識方法。
JP26516592A 1992-10-02 1992-10-02 日本語音声認識方法 Expired - Fee Related JP3430265B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26516592A JP3430265B2 (ja) 1992-10-02 1992-10-02 日本語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26516592A JP3430265B2 (ja) 1992-10-02 1992-10-02 日本語音声認識方法

Publications (2)

Publication Number Publication Date
JPH06118985A JPH06118985A (ja) 1994-04-28
JP3430265B2 true JP3430265B2 (ja) 2003-07-28

Family

ID=17413511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26516592A Expired - Fee Related JP3430265B2 (ja) 1992-10-02 1992-10-02 日本語音声認識方法

Country Status (1)

Country Link
JP (1) JP3430265B2 (ja)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
山田智一,松永昭一,鹿野清宏,かな・漢字連鎖統計モデルを用いた日本語Dictationシステム,電子情報通信学会技術研究報告[音声],日本,1992年6月30日,SP92−32,p.63−68
松永昭一,山田智一,鹿野清宏,学習用テキストからの認識探索空間の自動作成,日本音響学会平成4年度秋季研究発表会講演論文集,日本,1992年10月5日,2−1−15,p.107−108

Also Published As

Publication number Publication date
JPH06118985A (ja) 1994-04-28

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
CN109410914B (zh) 一种赣方言语音和方言点识别方法
US6754626B2 (en) Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US5949961A (en) Word syllabification in speech synthesis system
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
JP3299408B2 (ja) 動的特徴を使用した音声認識方法及び装置
EP3489951B1 (en) Voice dialogue apparatus, voice dialogue method, and program
US5764851A (en) Fast speech recognition method for mandarin words
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
JP3444108B2 (ja) 音声認識装置
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2938865B1 (ja) 音声認識装置
JP3430265B2 (ja) 日本語音声認識方法
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP3240691B2 (ja) 音声認識方法
JP3009709B2 (ja) 日本語音声認識方法
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JPH0612091A (ja) 日本語音声認識方法
JP2001188556A (ja) 音声認識方法及び装置
JPH04291399A (ja) 音声認識方法
JP3001334B2 (ja) 認識用言語処理装置
JP3818154B2 (ja) 音声認識方法
JPH06118984A (ja) 日本語テキスト自動拡張方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees