JP2974621B2

JP2974621B2 - 音声認識用単語辞書作成装置及び連続音声認識装置

Info

Publication number: JP2974621B2
Application number: JP8247631A
Authority: JP
Inventors: 芳典匂坂
Original assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Current assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date: 1996-09-19
Filing date: 1996-09-19
Publication date: 1999-11-10
Anticipated expiration: 2016-09-19
Also published as: JPH1097293A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識のための
音声認識用単語辞書作成装置と、上記音声認識用単語辞
書作成装置によって作成された単語辞書を参照して、入
力される発声音声文の音声信号に基づいて連続的に音声
認識する連続音声認識装置とに関する。

【０００２】

【従来の技術】従来から、本特許出願人は、自然発話の
音声認識を目的として、連続音声認識系（以下、第１の
従来例という。）の開発を進めている（例えば、従来技
術文献１「Nagai,Takami,Sagayama,“The SSS-LR Conti
nuous Speech Recognition System: Integrating SSS-D
erivrd Allopohne Models and a Phoneme-Context-Depe
ndent LR Parser",Proc.of ICSLP92,pp.1511-1514,1992
年」及び従来技術文献２「Shimizu,Monzen,Singer,Mats
unaga,“Time-Synchronous Continuous Speech Recogni
zer Driven by a Context-Free Grammar",Proc.of ICAS
SP95,pp.584-587,1995年」参照。）。この第１の従来例
では、入力される発生音声文の音声信号に基づいて、音
素隠れマルコフモデル（以下、隠れマルコフモデルをＨ
ＭＭという。）と単語辞書を用いて、発声開始からの単
語の履歴及び文法状態を管理しながら、音声認識を行っ
ている。

【０００３】自然発話音声では、読み上げ発声では起こ
らないような、大きな発声変形を生じることがある。例
えば、／ｓｏｕｄｅｓｕｋａ／（そうですか）→／ｓｏ
ｓｋａ／，／ｔａｎｇｉ／（単位）→／ｔａｉｎｇ／と
いう例が生じることがある。このような発声を音声認識
しようとした場合、言語的な辞書表記に基づいて、音素
モデルを連結して得られる単語モデルを用いても、正し
い認識結果は得られない。つまり、言語的な発音系列と
実際に発声される音響的な発音系列のミスマッチを緩和
する機構が必要であり、これまでにもいくつかの研究が
なされている（例えば、従来技術文献３「N.Jain et a
l.,“Creating speaker-specific phonetic templates
with a speaker-independent phonetic recognizer:imp
licationsfor voice dialing",Proceedings of ICASSP-
96,pp.881-884,1996年」参照。）。

【０００４】例えば、従来技術文献４「脇田由美ほか，
“複数音素にわたるＨＭＭの誤認識特性を用いた語彙候
補の追加”，電子情報通信学会研究技術報告，ＳＰ９５
−３０，ｐｐ．４１−４７，１９９５年６月参照。」
（以下、従来例という。）においては、学習データから
抽出された話者特有の誤認識特性を利用して、Ｎ−Ｂｅ
ｓｔ候補（すなわち、最良のＮ個の候補）に入らなかっ
た正解候補を新たに追加する、音声認識のためのモデル
を提案している。このモデルは、次の特徴を有してい
る。（ａ）前後のコンテキストを考慮しながら誤認識特性を
抽出するために、抽出される誤認識系列は音素系列では
なく、ＨＭＭの状態系列として表現する。（ｂ）音素という単位に拘束されずに、誤認識特性の抽
出及び正解系列の予測を行うため、抽出する誤認識系列
に含まれる音素数には制限を与えない。

【０００５】

【発明が解決しようとする課題】従来例のモデルにおい
ては、コンテキストに依存した発声変形を取り扱うこと
ができるが、従来例において考慮しているコンテキスト
は、処理すべき当該音素よりも前の１音素と、後の１音
素のみであり、より長いコンテキストを考慮していない
ので、より長いコンテキストで発声変形に対して対処す
ることができず、音声認識することはできないという問
題点があった。また、従来例においては、出現頻度が多
い誤認識の音素変換テーブルを用いて、誤認識の結果を
変更することにより、音素認識率を改善しているが、従
来例を単語認識に適用することはできないという問題点
があった。

【０００６】本発明の第１の目的は以上の問題点を解決
し、従来例に比較してより長いコンテキストにおける発
話音声の発声変形に対して対処することができ、しかも
単語認識率を大幅に向上させることができる音声認識用
単語辞書を作成可能な音声認識用単語辞書作成装置を提
供することにある。

【０００７】本発明の第２の目的は、従来例に比較して
より長いコンテキストにおける発話音声の発声変形に対
してより高い単語認識率で音声認識することができる連
続音声認識装置を提供することにある。

【０００８】

【課題を解決するための手段】本発明に係る請求項１記
載の音声認識用単語辞書作成装置は、発声音声文の音声
信号から抽出された音声特徴パラメータのデータと、そ
れに対応して書き起こされた発声内容のローマ字表記の
言語的発音系列である音素記号系列とに基づいて、上記
音声特徴パラメータのデータを所定の音素認識法により
音素認識して、音素認識された音素認識結果の音素系列
の音響的発音系列である音声記号系列と、上記書き起こ
された音素記号系列とのパターンマッチングをとること
により、音素の置換、脱落及び挿入を含むパターンマッ
チング結果を学習データとして用いて、処理すべき当該
音素と、当該音素よりも前の複数の音素と、当該音素よ
りも後の複数の音素とを入力とする入力層と、少なくと
も１層の中間層と、各音素の置換と各音素の挿入と脱落
との処理を出力とする出力層とを備えたニューラルネッ
トワークからなる発音ネットワークを学習することによ
り、発音ネットワークを作成する第１の作成手段と、入
力される音素記号系列に基づいて、上記第１の作成手段
によって作成された発音ネットワークを参照して、上記
入力される音素記号系列を上記発音ネットワークの入力
層に入力したときに、上記発音ネットワークの出力層か
らの出力値が最大である処理を上記入力される音素記号
系列に対して実行して得られる音声記号系列を、音声認
識用単語辞書として作成して、記憶装置に出力して記憶
する第２の作成手段とを備えたことを特徴とする。

【０００９】また、請求項２記載の音声認識用単語辞書
作成装置は、請求項１記載の音声認識用単語辞書作成装
置において、上記第２の作成手段は、上記得られた音声
記号系列が上記入力された音素記号系列と異なるとき
に、上記入力された音素記号系列をさらに、音声認識用
単語辞書として、記憶装置に出力して記憶することを特
徴とする。

【００１０】さらに、請求項３記載の音声認識用単語辞
書作成装置は、請求項１記載の音声認識用単語辞書作成
装置において、上記第２の作成手段は、上記入力される
音素記号系列を上記発音ネットワークの入力層に入力し
たときに、上記発音ネットワークの出力層からの出力値
が最大Ｎ個の処理を上記入力される音素記号系列に対し
て実行して得られる複数Ｎ個の音声記号系列を、音声認
識用単語辞書として作成して、記憶装置に出力して記憶
することを特徴とする。

【００１１】本発明に係る請求項４記載の連続音声認識
装置は、入力される発声音声文の音声信号に基づいて上
記発声音声文の単語仮説を検出し尤度を計算することに
より、連続的に音声認識する音声認識手段を備えた連続
音声認識装置において、上記音声認識手段は、請求項
１、２又は３記載の音声認識用単語辞書作成装置によっ
て作成された音声認識用単語辞書を参照して、上記発声
音声文の単語仮説を検出し尤度を計算することにより、
連続的に音声認識することを特徴とする。

【００１２】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図１は、本発明に係る一
実施形態である連続音声認識システムの構成を示すブロ
ック図である。本実施形態においては、発声内容のロー
マ字表記を言語的発音系列（以下、音素記号系列とい
う。）とし、音素タイプライタ型の音声認識結果の音素
系列を音響的発音系列（以下、音声記号系列と呼ぶ）と
見なしたとき、これらの対応関係を発音ネットワークと
して構築するための方法及び装置について説明する。ま
た、当該発音ネットワークを参照して、自然発話の音声
認識を行う連続音声認識装置１０について説明する。

【００１３】図１において、この実施形態の連続音声認
識システムは、（ａ）音声特徴パラメータメモリ３１内
の音声特徴パラメータに対して、音素隠れマルコフ網
（以下、隠れマルコフ網をＨＭｎｅｔという。）メモリ
４１内の音素ＨＭｎｅｔを参照して、音素認識を行い認
識結果と、音素記号系列メモリ４２内の音素記号列とを
対応付けて、図３に示すニューラルネットワークを学習
することにより、発音ネットワークを作成して発音ネッ
トワークメモリ３２に出力して記憶する発音ネットワー
ク作成装置２０と、（ｂ）音素記号系列メモリ３３内の
音素記号系列に基づいて、発音ネットワークを参照して
当該発音ネットワークの出力値が最大のものから得られ
る音声記号系列を求めて単語辞書（すなわち、認識語彙
に対する発音辞書である。）として単語辞書メモリ１２
に記憶する辞書作成装置５０と、（ｃ）入力される自然
発話の発声音声文の音声信号に基づいて、単語辞書メモ
リ１２内の単語辞書を参照して単語照合を行うことによ
り音声認識を実行して音声認識結果を出力する連続音声
認識装置１０とを備えて構成される。

【００１４】本実施形態において用いる発音ネットワー
クに基づく認識用単語辞書は、（１）音声記号系列（学
習データ）の生成及び音素記号系列との対応づけ、
（２）発音ネットワークの構築、（３）ネットワークを
利用した認識語彙に対する単語辞書の作成、の３つの手
順により作成される。以下、これらについて詳述する。

【００１５】まず、音声記号系列の生成及び音素記号系
列との対応付けは、次のように行なう。（１）音素タイプライタ型の音素認識を実行して音声記
号系列を得る。（２）書き起こし読み系列（音素記号系列）と文字列レ
ベルのＤＰパターンマッチングをとる。例えば、次の表
１に示すように、実行する。

【表１】 ────────────────────────── ａｒａｊｕｒｕ（音素記号系列）ａｗａｕｒｉｕ（音声記号系列） ────────────────────────── 表１のようなパターンマッチングの対応関係がとられた
場合、ｒ→ｗ（に置換）、ｊ→“ ”（脱落）、ｒ→ｒ
ｉ（ｉを挿入）となる。

【００１６】本実施形態では、本出願人が所有する“Ａ
ＴＲＴｒａｖｅｌＡｒｒａｎｇｅｍｅｎｔＣｏｒ
ｐｕｓ”のテキストデータベース（例えば、従来技術文
献５「A.Nakamura et al.,“Japanese speech database
for robust speech recognition",Proceedings of ICS
LP-96,1996年」参照。）の中の男声１名から作成した３
混合分布、４００状態の特定話者ＨＭｎｅｔ（例えば、
従来技術文献６「鷹見淳一ほか，“逐次状態分割法によ
る隠れマルコフ網の自動生成”，電子情報通信学会論文
誌（Ｄ−II），Ｊ７６−Ｄ−II，１０，ｐｐ．２１５５
−２１６４，１９９３年１０月」参照。）を用いて、同
一話者の発声データを音素タイプライタ型の認識システ
ムで認識した結果（１，５３０発声、１００，４１８音
素）を音声記号系列とした。

【００１７】本実施形態では、図３に示す構造をもつニ
ューラルネットワークを用いて発音ネットワークを構築
した。表２は、発音ネットワークを学習するときのニュ
ーラルネットワーク学習用データとその出力結果の一例
である。

【００１８】

【表２】ニューラルネットワーク学習用データとその出力結果の一例 ─────────────────────────────────── Ｌ(m-2) Ｌ(m-1) Ｌ(m) Ｌ(m+1) Ｌ(m+2) Ａ(m)（意義） ─────────────────────────────────── ｑａｒａｊｗ（に置換）ａｒａｊｕａ（正解）ｒａｊｕｒｘ（脱落）ａｊｕｒｕｕ（正解）ｊｕｒｕｑｒ，ｉ（ｉを挿入） ─────────────────────────────────── （注）ｑは無音を表し、ｘは脱落を表わす。

【００１９】表２に示すように、発音ネットワークの入
力は、処理すべき当該音素（以下、当該音素という。）
の前後２音素ずつのコンテキストを考慮した５音素の音
素記号系列｛Ｌ（ｍ−２），Ｌ（ｍ−１），Ｌ（ｍ），
Ｌ（ｍ＋１），Ｌ（ｍ＋２）｝であり、発音ネットワー
クの出力は中心音素Ｌ（ｍ）に対応するタイプライタ型
音素認識部２１で得られた音声記号系列Ａ（ｍ）であ
る。ここで、音声記号系列Ａ（ｍ）は、置換先の音素、
挿入先の音素、又は脱落ｘのいずれかである。

【００２０】発音ネットワークは、図３に示すように、
入力層１００と、中間層２００と、出力層３００との３
層構造を有している。ここで、入力層１００は、２６個
の先々行音素Ｌ（ｍ−２）と、２６個の先行音素Ｌ（ｍ
−１）と、無音を除く２５個の当該音素Ｌ（ｍ）と、２
６個の後続音素Ｌ（ｍ＋１）と、２６個の後々続音素Ｌ
（ｍ＋２）との合計２６×４＋２５＝１２９個の入力ユ
ニットを有する。ここで、各２６個の音素は、ａ，ｂ，
ｃｈ，ｄ，ｅ，ｇ，ｈ，ｉ，ｊ，ｋ，ｍ，ｎ，ｎｇ，
ｏ，ｐ，ｑ，ｒ，ｓ，ｓｈ，ｔ，ｔｓ，ｕ，ｗ，ｚ，ｚ
ｈ，ｘ（無音を表わす。）であり、２５個の音素は、無
音ｘを除く２５個の音素である。そして、該当する入力
ユニットにデータ“１”が入力される一方、該当しない
入力ユニットにデータ“０”が入力される。例えば、先
々行音素Ｌ（ｍ−２）が音素ａであるときは、２６個の
先々行音素Ｌ（ｍ−２）の入力ユニットのうちの音素ａ
に対応する入力ユニットにデータ“１”が入力される一
方、その他の２５個の各入力ユニットにデータ“０”が
入力される。また、中間層２００は１層であって１００
個のユニットを有する。さらに、出力層３００は、２６
個の音素の置換と、２６個の音素の挿入と、１個の脱落
ｘとの処理を表わす合計２６×２＋１＝５３個の出力ユ
ニットを有する。出力層３００の各出力ユニットから
は、当該ユニットに対応する音声記号系列が出力される
確率数値が出力される。ここで、入力層１００のすべて
のユニットはそれぞれ中間層２００のすべてのユニット
に対して重み係数を有して接続され、中間層２００のす
べてのユニットはそれぞれ出力層３００のすべてのユニ
ットに対して重み係数を有して接続される。なお、本実
施形態において、ｘは入力ユニットにおいて無音を意味
する一方、出力ユニットにおいて脱落を意味する。

【００２１】本実施形態の発音ネットワークにおいて
は、入力層１００及び出力層３００において、２５個又
は２６個の音素に応じてその数に応じたユニットを有し
ているが、本発明はこれに限らず、ユニット数を増減し
てもよい。また、中間層２００は１層であって１００個
のユニットを有しているが、本発明はこれに限らず、複
数層を有してもよく、各層のユニット数は任意の複数で
あってもよい。

【００２２】次いで、上記発音ネットワークを用いて、
音素記号系列を入力としたときの出力を音声記号系列と
して単語辞書を作成する。このとき、以下の３種類の方
法で辞書を作成した。（ａ）発音ネットワークの出力値が最大のものから得ら
れる音声記号系列を登録する（Ａｃｏｕｓｔｉｃ：
Ａ）。以下、第１の実施形態という。すなわち、音素記
号系列を入力としたときに発音ネットワークの出力値が
最大値である処理を、上記入力された音素記号系列に対
して行った音声記号系列を登録する。（ｂ）上記（ａ）で得られた音声記号系列が入力された
音素記号系列と異なる場合、音素記号系列も単語辞書に
登録する（Ｈｙｂｒｉｄ：Ｈ）。以下、第２の実施形態
という。（ｃ）発音ネットワークの出力値に基づいて、最大Ｎ個
の音声記号系列候補を複数の発音の音声記号系列として
登録する（ＭｕｌｔｉｐｌｅＰｒｏｎｕｎｃｉａｔｉ
ｏｎ：ＭＰ）。以下、第３の実施形態という。

【００２３】ここで、第３の実施形態は、語彙の音素数
が５乃至９のときにＮ＝２とし、語彙の音素数が１０乃
至１４のときにＮ＝４とし、語彙の音素数が１５以上の
場合Ｎ＝８とし、発音ネットワークの出力値が小さい候
補（出力値＜０．０３）は登録しないという方法をとっ
た。また、全ての単語辞書の作成は、５音素以上の音素
数ｍからなる語彙の３音素目から（ｍ−３）音素目の音
素に対してそれぞれ発音ネットワークを適用した。一例
として、従来例の「鴨川旅館｛k a m o g a wa r j o k
a ng｝」に対する前述の辞書表記を表３に示す。

【００２４】

【表３】辞書表記の例 ─────────────────────────────────── 辞書表記 ─────────────────────────────────── 従来例（Ｌ） k a m o g a w a r j o k a ng ─────────────────────────────────── 第１の実施形態（Ａ） k a m o a a r j o k a ng ─────────────────────────────────── 第２の実施形態（Ｈ） k a m o a a r j o k a ng k a m o g a w a r j o k a ng（音素記号系列） ─────────────────────────────────── 第３の実施形態（ＭＰ） k a m o a a r j o k a ng k a m o a w a r j o k a ng k a m o a m a r j o k a ng ───────────────────────────────────

【００２５】次いで、以上で述べた発音ネットワークの
作成方法と単語辞書の作成方法を用いた、発音ネットワ
ーク作成装置２０と、単語辞書作成装置５０との構成及
び動作について説明する。

【００２６】図１において、発音ネットワーク作成装置
２０は、音素タイプライタ型音素認識部２１と、文字列
ＤＰマッチング部２２と、ニューラルネットワーク学習
部２３と、音素タイプライタ型音素認識部２１に接続さ
れた音素ＨＭｎｅｔメモリ４１と、文字列ＤＰマッチン
グ部２２に接続された音素記号系列メモリ４２とを備え
る。音声特徴パラメータデータメモリ３１には、後述す
るマイクロホン１と特徴抽出部２を用いて、入力される
自然発話の発声音声文の音声を音声信号に変換した後、
ＬＰＣ分析することにより、１７次元のケプストラム係
数と、１７次元のΔケプストラム係数とを含む３４次元
の音声特徴パラメータデータが予め記憶される一方、こ
れに対応して人間により書き起こされた上記発声音声文
の音素記号系列のデータが音素記号系列メモリ４２に記
憶される。

【００２７】音素タイプライタ型音素認識部２１は、音
声特徴パラメータデータメモリ３１内の複数の音声特徴
パラメータデータに基づいて、音素ＨＭｎｅｔメモリ４
１内の音素ＨＭｎｅｔを参照して、公知の音素タイプラ
イタ型音素認識処理を実行することにより、表１に示す
ような音声記号系列を得て、文字列ＤＰマッチング部２
２に出力する。文字列ＤＰマッチング部２２は、入力さ
れる音声記号系列と、これに対応する、音素記号系列メ
モリ４２内の音素記号系列とのパターンマッチングを、
公知の動的計画法を用いて実行することにより、時間正
規化を行う。これによって得られた、入力される音声記
号系列と、これに対応する音素記号系列との間のマッチ
ング結果が、表２に示すようにニューラルネットワーク
用学習データとなる。この学習データは、ニューラルネ
ットワーク学習部２３に出力される。ニューラルネット
ワーク学習部２３は、上記学習データに基づいて、公知
のバック・プロパゲーション・アルゴリズムを用いて、
図３に示すニューラルネットワークの発音ネットワーク
における各ユニットにおける重み係数を繰り返し変更す
ることにより、当該発音ネットワークを学習させ、学習
後の発音ネットワークを発音ネットワークメモリ３２に
出力して書き込む。

【００２８】従って、発音ネットワーク作成装置２０
は、発声音声文の音声信号から抽出された音声特徴パラ
メータのデータと、それに対応して書き起こされた発声
内容のローマ字表記の言語的発音系列である音素記号系
列とに基づいて、上記音声特徴パラメータのデータを所
定の音素認識法により音素認識して、音素認識された音
素認識結果の音素系列の音響的発音系列である音声記号
系列と、上記書き起こされた音素記号系列とのパターン
マッチングをとることにより、音素の置換、脱落及び挿
入を含むパターンマッチング結果を学習データとして用
いて、処理すべき当該音素と、当該音素よりも前の複数
の音素と、当該音素よりも後の複数の音素とを入力とす
る入力層１００と、少なくとも１層の中間層２００と、
各音素の置換と各音素の挿入と脱落との処理を出力とす
る出力層３００とを備えたニューラルネットワークから
なる発音ネットワークを学習することにより、発音ネッ
トワークを作成する。

【００２９】単語辞書作成装置５０には、単語辞書を作
成するための複数の音素記号系列を予め記憶する音素記
号系列メモリ３３が接続される。単語辞書作成装置５０
は、音素記号系列メモリ３３内の音素記号系列に基づい
て、上述の３つの方法のうちの１つの単語辞書作成処理
を実行して、音声記号系列を単語辞書として単語辞書メ
モリ１２に出力して書き込む。ここで、第１乃至第３の
実施形態の単語辞書メモリ１２のファイル構成の一例を
表４乃至表６に示す。

【００３０】

【表４】第１の実施形態の単語辞書メモリ１２のファイル構成 ─────────────────────────────────── ＩＤ表記読み ─────────────────────────────────── ００１鴨川旅館 k a m o a a r j o k a ng ───────────────────────────────────

【表５】第２の実施形態の単語辞書メモリ１２のファイル構成 ─────────────────────────────────── ＩＤ表記読み ─────────────────────────────────── ００１鴨川旅館 k a m o a a r j o k a ng k a m o g a w a r j o k a ng（音素記号系列） ───────────────────────────────────

【表６】第３の実施形態の単語辞書メモリ１２のファイル構成 ─────────────────────────────────── ＩＤ表記読み ─────────────────────────────────── ００１鴨川旅館 k a m o a a r j o k a ng k a m o a w a r j o k a ng k a m o a m a r j o k a ng ───────────────────────────────────

【００３１】第１の実施形態の単語辞書作成装置５０
は、入力される音素記号系列に基づいて、上記作成され
た発音ネットワークを参照して、上記入力される音素記
号系列を上記発音ネットワークの入力層１００に入力し
たときに、上記発音ネットワークの出力層３００からの
出力値が最大である処理を上記入力される音素記号系列
に対して実行して得られる音声記号系列を、音声認識用
単語辞書として作成して、単語辞書メモリ１２に出力し
て記憶する。ここで、第２の実施形態の単語辞書作成装
置５０は、上記得られた音声記号系列が上記入力された
音素記号系列と異なるときに、上記入力された音素記号
系列をさらに、音声認識用単語辞書として、単語辞書メ
モリ１２に出力して記憶する。さらに、第３の実施形態
の単語辞書作成装置５０は、上記入力される音素記号系
列を上記発音ネットワークの入力層１００に入力したと
きに、上記発音ネットワークの出力層３００からの出力
値が最大Ｎ個の処理を上記入力される音素記号系列に対
して実行して得られる複数Ｎ個の音声記号系列を、音声
認識用単語辞書として作成して、単語辞書メモリ１２に
に出力して記憶する。

【００３２】次いで、単語辞書作成装置５０によって実
行される上記単語辞書作成処理について詳述する。

【００３３】図４は、図１の単語辞書装置５０の第１の
実施形態によって実行される第１の単語辞書作成処理を
示すフローチャートである。図４において、まず、ステ
ップＳ１で、複数Ｍ個の音素記号からなる音素記号系列
｛Ｌ（１），Ｌ（２），…，Ｌ（Ｍ）｝を音素記号系列
メモリ３３から読み出して入力し、ステップＳ２で入力
された音素記号系列の音素数をＭとし、ステップＳ３で
音素数Ｍが５以上であるか否かが判断される。ここで、
Ｍ≧５であるときはステップＳ４に進む一方、Ｍ＜５で
あるときはステップＳ１１に進む。ステップＳ４で発音
ネットワークメモリ３２から発音ネットワークを読み込
み、ステップＳ５でパラメータｉ及びｊをそれぞれ３に
初期化し、音素記号Ｌ（１）を音声記号Ａ（１）に代入
し、音素記号Ｌ（２）を音声記号Ａ（２）に代入する。
そして、ステップＳ６で図５の発音ネットワーク探索処
理を実行し、ステップＳ７でパラメータｉを１だけイン
クリメントする。ステップＳ８でパラメータｉが（Ｍ−
２）以下であるか否かが判断される。ここで、ｉ≦Ｍ−
２であるとき、ステップＳ６に戻って発音ネットワーク
探索処理を繰り返す一方、ｉ＞Ｍ−２であるとき、ステ
ップＳ９に進む。

【００３４】ステップＳ１１ではパラメータｊを１に初
期化し、ステップＳ１２で音素記号Ｌ（ｊ）を音声記号
Ａ（ｊ）に代入し、ステップＳ１３でパラメータｊを１
だけインクリメントした後、ステップＳ１４でパラメー
タｊが音素数Ｍ以上であるか否かが判断される。ここ
で、ステップＳ１４でｊ＞ＭのときステップＳ１０に進
む一方、ｊ≦ＭのときステップＳ１２に戻る。

【００３５】ステップＳ９で音素記号Ｌ（Ｍ−１）を音
声記号Ａ（ｊ）に代入し、音素記号Ｌ（Ｍ）を音声記号
Ａ（ｊ＋１）に代入した後、ステップＳ１０で音声記号
系列｛Ａ（１），Ａ（２），…｝を単語辞書メモリ１２
に出力して書き込む。そして、ステップＳ１５で音素記
号系列メモリ３３に音素記号系列のデータがないか否か
が判断され、データがあるときは、ステップＳ１に戻
り、別の音素記号系列について上記の処理を繰り返す。
ステップＳ１５でデータがないときは、当該処理を終了
する。

【００３６】図５は、図４のサブルーチンである発音ネ
ットワーク探索処理（ステップＳ６）を示すフローチャ
ートである。図５において、ステップＳ１６で、Ｌ（ｉ
−２），Ｌ（ｉ−１），Ｌ（ｉ），Ｌ（ｉ＋１），Ｌ
（ｉ＋２）の音素列（文字列）に相当する入力層１００
のユニットに１を入力する一方、それ以外の音素列（文
字列）に相当する入力層１００のユニットに０を入力す
ることにより、発音ネットワークに対する入力処理を実
行する。次いで、ステップＳ１７で発音ネットワークを
用いて出力値を計算し、ステップＳ１８で発音ネットワ
ークの出力値が最大となる出力層３００のユニットＵ１
を探し、当該ユニットＵ１が挿入のユニットのとき、置
換のユニットの中で出力値が最大となるユニットＵ２を
探す。さらに、ステップＳ１９で、発音ネットワークの
出力値が最大となる出力層３００のユニットの中で最大
値を有するユニットが挿入のときは、ユニットＵ１に対
応する音素記号を音声記号Ａ（ｊ）に代入し、ユニット
Ｕ２に対応する音素記号を音声記号Ａ（ｊ＋１）に代入
し、パラメータｊを２だけインクリメントする。また、
発音ネットワークの出力値が最大となる出力層３００の
ユニットの中で最大値を有するユニットが脱落のとき
は、何も実行しない。そして、元のメインルーチンに戻
る。

【００３７】図６は、図１の単語辞書装置５０の第２の
実施形態によって実行される第２の単語辞書作成処理を
示すフローチャートである。図６において、ステップＳ
２１で音素記号系列｛Ｌ（１），Ｌ（２），…，Ｌ
（Ｍ）｝を音素記号系列メモリ３３から読み出して入力
する。次いで、ステップＳ２２で図４の第１の単語辞書
作成処理を実行して音素記号系列｛Ｌ（１），Ｌ
（２），…，Ｌ（Ｍ）｝に対応する音声記号系列｛Ａ
（１），Ａ（２），…｝を求める。ステップＳ２３で音
声記号系列と音素記号系列がすべて一致しているか否か
が判断される。一致しているときは、ステップＳ２５に
進み、一致していないときは、当該単語に音響的な発音
系列の読みを付けるために、ステップＳ２４で音声記号
系列を単語辞書に追加する。ステップＳ２５では、当該
単語に言語的な発音系列の読みを付けるために音素記号
系列を音声記号系列として単語辞書に追加する。さら
に、ステップＳ２６で作成された単語辞書における１種
類又は２種類の音声記号系列を単語辞書メモリ１２に出
力して書き込む。そして、ステップＳ２７で音素記号系
列メモリ３３内に音素記号系列のデータが無いか否かが
判断され、データがあるときはステップＳ２１に戻っ
て、別の音声記号系列について上記の処理を実行する。
一方、データが無いときは、当該処理を終了する。

【００３８】図７は、図１の単語辞書装置５０の第３の
実施形態によって実行される第３の単語辞書作成処理を
示すフローチャートである。図７において、ステップＳ
３１で音素記号系列｛Ｌ（１），Ｌ（２），…，Ｌ
（Ｍ）｝を音素記号系列メモリ３３から読み出して入力
し、ステップＳ３２で音素数Ｍが５≦Ｍ＜１０のときパ
ラメータＮを２に設定し、１０≦Ｍ＜１５のときパラメ
ータＮを４に設定し、１５≦ＭのときパラメータＮを８
に設定する。さらに、ステップＳ３３で、パラメータｎ
を１に初期化し、収束しきい値εを０．０３に設定す
る。次いで、ステップＳ３４で音素記号系列メモリ３３
に記憶された音素記号系列のうち、単語辞書メモリ１２
に登録済みの音声記号系列を除いた、音素記号系列に対
して、図４の第１の単語辞書作成処理を実行して、音素
記号系列｛Ｌ（１），Ｌ（２），…，Ｌ（Ｍ）｝に対応
する音声記号系列候補｛Ａ（１），Ａ（２），…｝を求
める。ステップＳ３５でパラメータｎが１であるか、も
しくは、パラメータｎ≠１で発音ネットワークの出力層
３００の出力値がすべて上記収束しきい値ε以上である
か（以下、判定条件という。）否かが判断される。判定
条件を満足しているときは、ステップＳ３６で音声記号
系列候補を当該装置５０のワーキングメモリ（図示せ
ず。）内の単語辞書に登録する。次いで、ステップＳ３
７でパラメータｎがパラメータＮ未満であるか否かが判
断され、ｎ＜Ｎであるときは、ステップＳ３８でパラメ
ータｎを１だけインクリメントして、ステップＳ３４に
戻り、上記の処理を繰り返す。一方、ステップＳ３５で
判定条件を満足してないとき、もしくは、ステップＳ３
７でｎ≧Ｎであるときは、ステップＳ３９で、上記ワー
キングメモリ内の単語辞書に登録された最大ｎ種類の音
声記号系列候補を単語辞書メモリ１２に出力して書き込
む。さらに、ステップＳ４０で音素記号系列メモリ３３
内に音素記号系列のデータが無いか否かが判断され、デ
ータがあるときはステップＳ３１に戻って上記の処理を
繰り返す一方、データが無いときは当該処理を終了す
る。

【００３９】次いで、連続音声認識装置１０の構成及び
動作について説明する。図１において、音素ＨＭＭメモ
リ１１は、単語照合部４に接続され、所定の音素ＨＭＭ
を予め記憶し、当該音素ＨＭＭは、各状態を含んで表さ
れ、各状態はそれぞれ以下の情報を有する。（ａ）状態番号（ｂ）受理可能なコンテキストクラス（ｃ）先行状態、及び後続状態のリスト（ｄ）出力確率密度分布のパラメータ（ｅ）自己遷移確率及び後続状態への遷移確率なお、本実施形態において用いる音素ＨＭＭは、各分布
がどの話者に由来するかを特定する必要があるため、所
定の話者混合ＨＭＭを変換して作成する。ここで、出力
確率密度関数は３４次元の対角共分散行列をもつ混合ガ
ウス分布である。また、単語辞書メモリ１２は、単語照
合部４に接続され、単語辞書作成装置５０によって作成
された、複数の音声記号系列を表４乃至表６のファイル
書式で含む単語辞書を記憶する。すなわち、単語辞書
は、音素ＨＭＭの各単語毎にシンボルで表した読みを示
す音声記号系列（シンボル列）を格納する。

【００４０】図１の連続音声認識システムにおいて、発
音ネットワーク作成装置２０における音素タイプライタ
型音素認識部２１と文字列ＤＰマッチング部２２とニュ
ーラルネットワーク学習部２３と、単語辞書作成装置５
０と、連続音声認識装置１０における特徴抽出部２３と
単語照合部４と単語仮説絞込部６とは、例えば、ＣＰＵ
を備えたデジタル計算機で構成される。また、各メモリ
３，５，１１，１２，３１，３２，３３，４１，４２は
例えば、ハードディスクメモリで構成される。

【００４１】図１において、自然発話による話者の発声
音声文の発声音声はマイクロホン１に入力されて音声信
号に変換された後、特徴抽出部２に入力される。特徴抽
出部２は、入力された音声信号をＡ／Ｄ変換した後、例
えばＬＰＣ分析を実行し、対数パワー、１６次ケプスト
ラム係数、Δ対数パワー及び１６次Δケプストラム係数
を含む３４次元の特徴パラメータを抽出する。抽出され
た特徴パラメータの時系列はバッファメモリ３を介して
単語照合部４に入力される。

【００４２】単語照合部４は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ３を介して入力される特
徴パラメータのデータに基づいて、音素ＨＭＭメモリ１
１内の音素ＨＭＭと、単語辞書メモリ１２内の単語辞書
とを用いて単語仮説を検出し尤度を計算して出力する。
ここで、単語照合部４は、各時刻の各ＨＭＭの状態毎
に、単語内の尤度と発声開始からの尤度を計算する。尤
度は、単語の識別番号、単語の開始時刻、先行単語の違
い毎に個別にもつ。また、計算処理量の削減のために、
音素ＨＭＭ及び単語辞書とに基づいて計算される総尤度
のうちの低い尤度のグリッド仮説を削減する。単語照合
部４は、その結果の単語仮説と尤度の情報を発声開始時
刻からの時間情報（具体的には、例えばフレーム番号）
とともにバッファメモリ５を介して単語仮説絞込部６に
出力する。

【００４３】単語仮説絞込部６は、単語照合部４からバ
ッファメモリ５を介して出力される単語仮説に基づい
て、終了時刻が等しく開始時刻が異なる同一の単語の単
語仮説に対して、当該単語の先頭音素環境毎に、発声開
始時刻から当該単語の終了時刻に至る計算された総尤度
のうちの最も高い尤度を有する１つの単語仮説で代表さ
せるように単語仮説の絞り込みを行った後、絞り込み後
のすべての単語仮説の単語列のうち、最大の総尤度を有
する仮説の単語列を認識結果として出力する。本実施形
態においては、好ましくは、処理すべき当該単語の先頭
音素環境とは、当該単語より先行する単語仮説の最終音
素と、当該単語の単語仮説の最初の２つの音素とを含む
３つの音素並びをいう。

【００４４】例えば、図２に示すように、（ｉ−１）番
目の単語Ｗ_i-1の次に、音素列ａ₁，ａ₂，…，ａ_nからな
るｉ番目の単語Ｗ_iがくるときに、単語Ｗ_i-1の単語仮説
として６つの仮説Ｗａ，Ｗｂ，Ｗｃ，Ｗｄ，Ｗｅ，Ｗｆ
が存在している。ここで、前者３つの単語仮説Ｗａ，Ｗ
ｂ，Ｗｃの最終音素は／ｘ／であるとし、後者３つの単
語仮説Ｗｄ，Ｗｅ，Ｗｆの最終音素は／ｙ／であるとす
る。終了時刻ｔ_eと先頭音素環境が等しい仮説（図２で
は先頭音素環境が“ｘ／ａ₁／ａ₂”である上から３つの
単語仮説）のうち総尤度が最も高い仮説（例えば、図２
において１番上の仮説）以外を削除する。なお、上から
４番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がｘではなくｙであるので、
上から４番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に１つのみ仮説を残す。図２の例
では、最終音素／ｘ／に対して１つの仮説を残し、最終
音素／ｙ／に対して１つの仮説を残す。

【００４５】以上の実施形態において、発音ネットワー
クの入力は、処理すべき当該音素の前後２音素ずつのコ
ンテキストを考慮した５音素の音素記号系列であるが、
本発明はこれに限らず、発音ネットワークの入力は、処
理すべき当該音素の前後複数音素ずつのコンテキストを
考慮した５音素以上の音素記号系列であってもよい。

【００４６】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の２つの音素とを含
む３つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも１つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。

【００４７】

【実施例】本発明者は、図１の連続音声認識装置の有効
性を確認するために、自然発話データベースを用いて音
声認識の実験を行なった。“トラベル・プランニング”
をタスクとした本出願人が所有する音声言語データベー
ス（例えば、従来技術文献７「Morimoto et al.,“A Sp
eech and Language Database for Speech Translation
Research",Proc.of ICSLP94,pp.1791-1794,1994年」参
照。）の「ホテル予約」に関する対話における、６６３
５語の辞書を用いた。そして、音素記号系列（ローマ字
表記）の従来例の辞書（Ｌｉｎｇｕｉｓｔｉｃ：Ｌ）及
び本実施形態の上記発音ネットワークから得られた第１
乃至第３の実施形態の３種類の単語辞書（Ａ，Ｈ，Ｍ
Ｐ）の合計４種類を評価するために、図１の単語グラフ
に基づく自然発話の連続音声認識装置１０を用いた認識
実験を行なった。

【００４８】発音ネットワークを作成した話者と同一話
者の特定話者モデル（ＳＤ）、不特定話者モデル（Ｓ
Ｉ）、不特定話者モデルから公知のＶＦＳ法を用いて話
者適応を行なったモデル（ＡＳＩ）に対して実験及び評
価を行なった。ここで、ＳＤは２２次元のＭＦＣＣ（Me
l Frequency Cepstrum Coefficientsの略：メル周波数
ケプストラム係数）｛ｍｃ（０），…，ｍｃ（１０），
Δｍｃ（０），…，Δｍｃ（１０）｝をパラメータとす
る３混合４００状態のＨＭｎｅｔであり、ＳＩ及びＡＳ
Ｉは、３４次元のＬＰＣケプストラム｛ｃ（０），…，
ｃ（１６），Δｃ（０），…，Δｃ（１６）｝をパラメ
ータとする５混合４００状態のＨＭｎｅｔを用いた。評
価データは発音ネットワークの作成に対してオープンで
あり、すなわち、発音ネットワークの作成のときに評価
データを使用しておらず、ＳＤは４１発声を含み、ＳＩ
及びＳＤは７話者からなる９８発声を含む。単語辞書
は、繰り返し回数２００回の状態のニューラルネットワ
ークから得られたものを用いた。

【００４９】実験に用いた単語辞書サイズ（延べ語彙
数）及び特定話者に対する認識結果を表７に示す。

【００５０】

【表７】単語辞書サイズと特定話者モデルの単語認識率（％） ─────────────────────────────────── 単語辞書ＬＡＨＭＰ ─────────────────────────────────── 辞書サイズ６，６３５６，６３５７，８５４１４，３２４ ─────────────────────────────────── ＳＤの単語１９．９８２０．８２２１．０７２４．４６認識率 ───────────────────────────────────

【００５１】表７から明らかなように、従来例の単語辞
書Ｌに比べて、発音ネットワークから得られた同じ辞書
サイズの単語辞書Ａ（第１の実施形態）の方が若干だけ
単語認識率が向上していることが分かる。また、単語辞
書Ｈ，ＭＰ（第２及び第３の実施形態）は、従来例の単
語辞書Ｌよりも辞書サイズは増えるが、単語認識率は向
上していることが分かる。次に不特定話者に対する単語
認識率を表８に示す。

【００５２】

【表８】不特定話者モデルの単語認識率（％） ─────────────────────────────────── 単語辞書ＬＡＨＭＰ ─────────────────────────────────── ＳＩ１２．１９１２．８９１６．２０１９．３７ＡＳＩ２７．３９２８．１６３２．４１３２．５６ ───────────────────────────────────

【００５３】表８から明らかなように、特定話者の結果
と同様な結果が得られていることが分かる。この結果よ
り、特定話者の発音ネットワークに基づいて作成された
単語辞書であるにもかかわらず、不特定話者に対しても
有効であることが分かる。

【００５４】前述の実験結果より音声認識性能の面で
は、本実施形態の装置で作成した単語辞書は有効である
ことが分かったが、単語辞書Ｈ（第２の実施形態）や単
語辞書ＭＰ（第３の実施形態）の場合、辞書サイズが増
加するため音声認識の認識時間が増大する可能性があ
る。そこで、連続音声認識装置１０の各部２，４，６と
してヒューレット・パッカード社製ＨＰ７３５型ワーク
ステーションを用いた場合の認識時間を測定した。その
測定結果を表９に示す。

【００５５】

【表９】認識時間の比較（秒） ─────────────────────────────────── モデル発声時間ＬＡＨＭＰ ─────────────────────────────────── ＳＤ 195.5 104.1 103.8 106.7 104.1 ＳＩ 320.7 3,650 2,932 3,021 2,530 ＡＳＩ 320.7 1,497 1,530 1,196 1,138 ───────────────────────────────────

【００５６】表９から明らかなように、辞書サイズが増
加しているにもかかわらず認識時間はほとんどの場合増
加せず、むしろ大幅に高速化している場合もある。これ
は認識対象の発声に対して、適切な表記が単語辞書中に
含まれている場合、尤度が従来例の単語辞書Ｌによる表
記に比べて高くなり、単語仮説を探索するビーム中に含
まれる候補が言語的な単語辞書を用いた場合よりも減少
したためであると考えられる。

【００５７】以上説明したように、自然発話における発
声の揺れや変動を統計的にとらえることを目的として、
音素タイプライタ型の音声認識結果を利用した発音ネッ
トワークの構築方法を発明した。このネットワークは、
音素の置換、脱落、挿入を取り扱うことができる、長い
コンテキスト（本実施形態では、前後５音素）が考慮で
きるという特徴をもつ。この発音ネットワークに基づい
て、音声認識用単語辞書を作成し、自然発話音声認識実
験を行なった結果、従来例のローマ字表記の単語辞書を
用いるのに比べて５乃至７％程度、単語認識率が向上
し、更に認識時間も最大３０％程度低減できることが分
かった。

【００５８】従って、本実施形態によれば、従来例より
長いコンテキストにおける発話音声の発声変形に対して
対処することができ、単語認識率を大幅に向上させるこ
とができる音声認識用単語辞書を作成することができ
る。当該音声認識用単語辞書を用いて音声認識すること
により、音声認識率を従来例に比較して大幅に向上させ
ることができ、しかも、音声認識に係る認識時間（計算
時間）も低減させることができる。

【００５９】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音声認識用単語辞書作成装置によれば、発声音
声文の音声信号から抽出された音声特徴パラメータのデ
ータと、それに対応して書き起こされた発声内容のロー
マ字表記の言語的発音系列である音素記号系列とに基づ
いて、上記音声特徴パラメータのデータを所定の音素認
識法により音素認識して、音素認識された音素認識結果
の音素系列の音響的発音系列である音声記号系列と、上
記書き起こされた音素記号系列とのパターンマッチング
をとることにより、音素の置換、脱落及び挿入を含むパ
ターンマッチング結果を学習データとして用いて、処理
すべき当該音素と、当該音素よりも前の複数の音素と、
当該音素よりも後の複数の音素とを入力とする入力層
と、少なくとも１層の中間層と、各音素の置換と各音素
の挿入と脱落との処理を出力とする出力層とを備えたニ
ューラルネットワークからなる発音ネットワークを学習
することにより、発音ネットワークを作成する第１の作
成手段と、入力される音素記号系列に基づいて、上記第
１の作成手段によって作成された発音ネットワークを参
照して、上記入力される音素記号系列を上記発音ネット
ワークの入力層に入力したときに、上記発音ネットワー
クの出力層からの出力値が最大である処理を上記入力さ
れる音素記号系列に対して実行して得られる音声記号系
列を、音声認識用単語辞書として作成して、記憶装置に
出力して記憶する第２の作成手段とを備える。従って、
従来例より長いコンテキストにおける発話音声の発声変
形に対して対処することができ、単語認識率を大幅に向
上させることができる音声認識用単語辞書を作成するこ
とができる。当該音声認識用単語辞書を用いて音声認識
することにより、音声認識率を従来例に比較して大幅に
向上させることができ、しかも、音声認識に係る認識時
間（計算時間）も低減させることができる。

【００６０】また、請求項２記載の音声認識用単語辞書
作成装置においては、請求項１記載の音声認識用単語辞
書作成装置において、上記第２の作成手段は、上記得ら
れた音声記号系列が上記入力された音素記号系列と異な
るときに、上記入力された音素記号系列をさらに、音声
認識用単語辞書として、記憶装置に出力して記憶する。
従って、従来例より長いコンテキストにおける発話音声
の発声変形に対して対処することができ、単語認識率を
大幅に向上させることができる音声認識用単語辞書を作
成することができる。当該音声認識用単語辞書を用いて
音声認識することにより、音声認識率を従来例に比較し
て大幅に向上させることができ、しかも、音声認識に係
る認識時間（計算時間）も低減させることができる。

【００６１】さらに、請求項３記載の音声認識用単語辞
書作成装置においては、請求項１記載の音声認識用単語
辞書作成装置において、上記第２の作成手段は、上記入
力される音素記号系列を上記発音ネットワークの入力層
に入力したときに、上記発音ネットワークの出力層から
の出力値が最大Ｎ個の処理を上記入力される音素記号系
列に対して実行して得られる複数Ｎ個の音声記号系列
を、音声認識用単語辞書として作成して、記憶装置に出
力して記憶する。従って、従来例より長いコンテキスト
における発話音声の発声変形に対して対処することがで
き、単語認識率を大幅に向上させることができる音声認
識用単語辞書を作成することができる。当該音声認識用
単語辞書を用いて音声認識することにより、音声認識率
を従来例に比較して大幅に向上させることができ、しか
も、音声認識に係る認識時間（計算時間）も低減させる
ことができる。

【００６２】本発明に係る請求項４記載の連続音声認識
装置においては、入力される発声音声文の音声信号に基
づいて上記発声音声文の単語仮説を検出し尤度を計算す
ることにより、連続的に音声認識する音声認識手段を備
えた連続音声認識装置において、上記音声認識手段は、
請求項１、２又は３記載の音声認識用単語辞書作成装置
によって作成された音声認識用単語辞書を参照して、上
記発声音声文の単語仮説を検出し尤度を計算することに
より、連続的に音声認識する。従って、上記音声認識用
単語辞書を用いて音声認識することにより、音声認識率
を従来例に比較して大幅に向上させることができ、しか
も、音声認識に係る認識時間（計算時間）も低減させる
ことができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である、発音ネット
ワーク作成装置２０と、辞書作成装置５０と、連続音声
認識装置１０とを備えた連続音声認識システムの構成を
示すブロック図である。

【図２】図１の連続音声認識装置１０における単語仮
説絞込部６の処理を示すタイミングチャートである。

【図３】図１の発音ネットワーク作成装置２０によっ
て作成された発音ネットワークの構造を示すブロック図
である。

【図４】図１の単語辞書装置５０の第１の実施形態に
よって実行される第１の単語辞書作成処理を示すフロー
チャートである。

【図５】図４のサブルーチンである発音ネットワーク
探索処理（ステップＳ６）を示すフローチャートであ
る。

【図６】図１の単語辞書装置５０の第２の実施形態に
よって実行される第２の単語辞書作成処理を示すフロー
チャートである。

【図７】図１の単語辞書装置５０の第３の実施形態に
よって実行される第３の単語辞書作成処理を示すフロー
チャートである。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３，５…バッファメモリ、４…単語照合部、６…単語仮説絞込部、１０…連続音声認識装置、１１…音素ＨＭＭメモリ、１２…単語辞書メモリ、２０…発音ネットワーク作成装置、２１…音素タイプライタ型音素認識部、２２…文字列ＤＰマッチング部、２３…ニューラルネットワーク学習部、３１…音声特徴パラメータデータメモリ、３２…発音ネットワークメモリ、３３…音素記号系列メモリ、４１…音素ＨＭｎｅｔメモリ、４２…音素記号系列メモリ、５０…単語辞書作成装置。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ１０Ｌ 3/00 ５２１Ｇ１０Ｌ 3/00 ５２１Ｖ５３１５３１Ｍ５３７５３７Ｃ５３７Ｈ５６１５６１ＦＧ０６Ｆ 15/18 ５６０Ｇ０６Ｆ 15/18 ５６０Ｇ (56)参考文献特開平６−289894（ＪＰ，Ａ) 特開平５−188998（ＪＰ，Ａ) 特開平９−198083（ＪＰ，Ａ) 電子情報通信学会論文誌Ｖｏｌ．Ｊ 80−Ｄ−▲ＩＩ▼ Ｎｏ．10「発音ネットワークに基づく発音辞書の自動生成」ｐ．2626−2635（平成９年10月25日発行) 電子情報通信学会技術研究報告［言語理解とコミュニケーション］Ｖｏｌ. 96，Ｎｏ．419，ＮＬＣ96−40，「発音ネットワークに基づく発音辞書の自動生成」ｐ．15−22（1996／12／12) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．96，Ｎｏ．421，ＳＰ96−71, 「発音ネットワークに基づく発音辞書の自動生成」ｐ．15−22（1996／12／12) 電子情報通信学会論文誌Ｖｏｌ．Ｊ 79−Ｄ▲ＩＩ▼ Ｎｏ．12「複数音素にまたがる誤認識特性を用いた音素候補系列追加モデル」ｐ．2086−2095（平成８年12月25日発行) 日本音響学会平成８年度秋季研究発表会講演論文集▲Ｉ▼ ２−３−13「音素タイプライタ出力効果を用いた発音ネットワークの構築」ｐ．73−74（平成８年９月25日発行) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．95，Ｎｏ．123，ＳＰ95−30, 「複数音素にわたるＨＭＭの誤認識特性を用いた語彙候補の追加」ｐ．41−47 （1995／６／23) 日本音響学会平成６年度秋季研究発表会講演論文集▲Ｉ▼ １−Ｒ−11「発音変形ルールの自動生成に基づく音声認識辞書のマルチエントリー化」ｐ．213− 214（平成６年11月１日国会図書館受入) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 539 G10L 3/00 521 G10L 3/00 531 G10L 3/00 537 G10L 3/00 561 G06F 15/18 560 G10L 9/10 301 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】発声音声文の音声信号から抽出された音
声特徴パラメータのデータと、それに対応して書き起こ
された発声内容のローマ字表記の言語的発音系列である
音素記号系列とに基づいて、上記音声特徴パラメータの
データを所定の音素認識法により音素認識して、音素認
識された音素認識結果の音素系列の音響的発音系列であ
る音声記号系列と、上記書き起こされた音素記号系列と
のパターンマッチングをとることにより、音素の置換、
脱落及び挿入を含むパターンマッチング結果を学習デー
タとして用いて、処理すべき当該音素と、当該音素より
も前の複数の音素と、当該音素よりも後の複数の音素と
を入力とする入力層と、少なくとも１層の中間層と、各
音素の置換と各音素の挿入と脱落との処理を出力とする
出力層とを備えたニューラルネットワークからなる発音
ネットワークを学習することにより、発音ネットワーク
を作成する第１の作成手段と、入力される音素記号系列に基づいて、上記第１の作成手
段によって作成された発音ネットワークを参照して、上
記入力される音素記号系列を上記発音ネットワークの入
力層に入力したときに、上記発音ネットワークの出力層
からの出力値が最大である処理を上記入力される音素記
号系列に対して実行して得られる音声記号系列を、音声
認識用単語辞書として作成して、記憶装置に出力して記
憶する第２の作成手段とを備えたことを特徴とする音声
認識用単語辞書作成装置。
【請求項２】上記第２の作成手段は、上記得られた音
声記号系列が上記入力された音素記号系列と異なるとき
に、上記入力された音素記号系列をさらに、音声認識用
単語辞書として、記憶装置に出力して記憶することを特
徴とする請求項１記載の音声認識用単語辞書作成装置。
【請求項３】上記第２の作成手段は、上記入力される
音素記号系列を上記発音ネットワークの入力層に入力し
たときに、上記発音ネットワークの出力層からの出力値
が最大Ｎ個の処理を上記入力される音素記号系列に対し
て実行して得られる複数Ｎ個の音声記号系列を、音声認
識用単語辞書として作成して、記憶装置に出力して記憶
することを特徴とする請求項１記載の音声認識用単語辞
書作成装置。
【請求項４】入力される発声音声文の音声信号に基づ
いて上記発声音声文の単語仮説を検出し尤度を計算する
ことにより、連続的に音声認識する音声認識手段を備え
た連続音声認識装置において、上記音声認識手段は、請求項１、２又は３記載の音声認
識用単語辞書作成装置によって作成された音声認識用単
語辞書を参照して、上記発声音声文の単語仮説を検出し
尤度を計算することにより、連続的に音声認識すること
を特徴とする連続音声認識装置。