JPH1097293A - 音声認識用単語辞書作成装置及び連続音声認識装置 - Google Patents
音声認識用単語辞書作成装置及び連続音声認識装置Info
- Publication number
- JPH1097293A JPH1097293A JP8247631A JP24763196A JPH1097293A JP H1097293 A JPH1097293 A JP H1097293A JP 8247631 A JP8247631 A JP 8247631A JP 24763196 A JP24763196 A JP 24763196A JP H1097293 A JPH1097293 A JP H1097293A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- speech
- symbol sequence
- input
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【課題】 より長いコンテキストにおける発話音声の発
声変形に対して対処することができ、単語認識率を大幅
に向上させることができる音声認識用単語辞書を作成す
る装置及び音声認識装置を提供する。 【解決手段】 発音ネットワーク作成装置20は、発声
音声文の音声信号から抽出された音声特徴パラメータの
データと、それに対応して書き起こされた音素記号系列
とに基づいて、音素の置換、脱落及び挿入を含むパター
ンマッチング結果を学習データとして用いてニューラル
ネットワークからなる発音ネットワークを学習すること
により発音ネットワークを作成する。単語辞書作成装置
50は、入力音素記号系列に基づいて発音ネットワーク
を参照して入力音素記号系列を発音ネットワークの入力
層100に入力したときに出力層300からの出力値が
最大である処理を入力される音素記号系列に対して実行
して得られる音声記号系列を音声認識用単語辞書として
登録する。
声変形に対して対処することができ、単語認識率を大幅
に向上させることができる音声認識用単語辞書を作成す
る装置及び音声認識装置を提供する。 【解決手段】 発音ネットワーク作成装置20は、発声
音声文の音声信号から抽出された音声特徴パラメータの
データと、それに対応して書き起こされた音素記号系列
とに基づいて、音素の置換、脱落及び挿入を含むパター
ンマッチング結果を学習データとして用いてニューラル
ネットワークからなる発音ネットワークを学習すること
により発音ネットワークを作成する。単語辞書作成装置
50は、入力音素記号系列に基づいて発音ネットワーク
を参照して入力音素記号系列を発音ネットワークの入力
層100に入力したときに出力層300からの出力値が
最大である処理を入力される音素記号系列に対して実行
して得られる音声記号系列を音声認識用単語辞書として
登録する。
Description
【0001】
【発明の属する技術分野】本発明は、音声認識のための
音声認識用単語辞書作成装置と、上記音声認識用単語辞
書作成装置によって作成された単語辞書を参照して、入
力される発声音声文の音声信号に基づいて連続的に音声
認識する連続音声認識装置とに関する。
音声認識用単語辞書作成装置と、上記音声認識用単語辞
書作成装置によって作成された単語辞書を参照して、入
力される発声音声文の音声信号に基づいて連続的に音声
認識する連続音声認識装置とに関する。
【0002】
【従来の技術】従来から、本特許出願人は、自然発話の
音声認識を目的として、連続音声認識系(以下、第1の
従来例という。)の開発を進めている(例えば、従来技
術文献1「Nagai,Takami,Sagayama,“The SSS-LR Conti
nuous Speech Recognition System: Integrating SSS-D
erivrd Allopohne Models and a Phoneme-Context-Depe
ndent LR Parser",Proc.of ICSLP92,pp.1511-1514,1992
年」及び従来技術文献2「Shimizu,Monzen,Singer,Mats
unaga,“Time-Synchronous Continuous Speech Recogni
zer Driven by a Context-Free Grammar",Proc.of ICAS
SP95,pp.584-587,1995年」参照。)。この第1の従来例
では、入力される発生音声文の音声信号に基づいて、音
素隠れマルコフモデル(以下、隠れマルコフモデルをH
MMという。)と単語辞書を用いて、発声開始からの単
語の履歴及び文法状態を管理しながら、音声認識を行っ
ている。
音声認識を目的として、連続音声認識系(以下、第1の
従来例という。)の開発を進めている(例えば、従来技
術文献1「Nagai,Takami,Sagayama,“The SSS-LR Conti
nuous Speech Recognition System: Integrating SSS-D
erivrd Allopohne Models and a Phoneme-Context-Depe
ndent LR Parser",Proc.of ICSLP92,pp.1511-1514,1992
年」及び従来技術文献2「Shimizu,Monzen,Singer,Mats
unaga,“Time-Synchronous Continuous Speech Recogni
zer Driven by a Context-Free Grammar",Proc.of ICAS
SP95,pp.584-587,1995年」参照。)。この第1の従来例
では、入力される発生音声文の音声信号に基づいて、音
素隠れマルコフモデル(以下、隠れマルコフモデルをH
MMという。)と単語辞書を用いて、発声開始からの単
語の履歴及び文法状態を管理しながら、音声認識を行っ
ている。
【0003】自然発話音声では、読み上げ発声では起こ
らないような、大きな発声変形を生じることがある。例
えば、/soudesuka/(そうですか)→/so
ska/,/tangi/(単位)→/taing/と
いう例が生じることがある。このような発声を音声認識
しようとした場合、言語的な辞書表記に基づいて、音素
モデルを連結して得られる単語モデルを用いても、正し
い認識結果は得られない。つまり、言語的な発音系列と
実際に発声される音響的な発音系列のミスマッチを緩和
する機構が必要であり、これまでにもいくつかの研究が
なされている(例えば、従来技術文献3「N.Jain et a
l.,“Creating speaker-specific phonetic templates
with a speaker-independent phonetic recognizer:imp
licationsfor voice dialing",Proceedings of ICASSP-
96,pp.881-884,1996年」参照。)。
らないような、大きな発声変形を生じることがある。例
えば、/soudesuka/(そうですか)→/so
ska/,/tangi/(単位)→/taing/と
いう例が生じることがある。このような発声を音声認識
しようとした場合、言語的な辞書表記に基づいて、音素
モデルを連結して得られる単語モデルを用いても、正し
い認識結果は得られない。つまり、言語的な発音系列と
実際に発声される音響的な発音系列のミスマッチを緩和
する機構が必要であり、これまでにもいくつかの研究が
なされている(例えば、従来技術文献3「N.Jain et a
l.,“Creating speaker-specific phonetic templates
with a speaker-independent phonetic recognizer:imp
licationsfor voice dialing",Proceedings of ICASSP-
96,pp.881-884,1996年」参照。)。
【0004】例えば、従来技術文献4「脇田由美ほか,
“複数音素にわたるHMMの誤認識特性を用いた語彙候
補の追加”,電子情報通信学会研究技術報告,SP95
−30,pp.41−47,1995年6月参照。」
(以下、従来例という。)においては、学習データから
抽出された話者特有の誤認識特性を利用して、N−Be
st候補(すなわち、最良のN個の候補)に入らなかっ
た正解候補を新たに追加する、音声認識のためのモデル
を提案している。このモデルは、次の特徴を有してい
る。 (a)前後のコンテキストを考慮しながら誤認識特性を
抽出するために、抽出される誤認識系列は音素系列では
なく、HMMの状態系列として表現する。 (b)音素という単位に拘束されずに、誤認識特性の抽
出及び正解系列の予測を行うため、抽出する誤認識系列
に含まれる音素数には制限を与えない。
“複数音素にわたるHMMの誤認識特性を用いた語彙候
補の追加”,電子情報通信学会研究技術報告,SP95
−30,pp.41−47,1995年6月参照。」
(以下、従来例という。)においては、学習データから
抽出された話者特有の誤認識特性を利用して、N−Be
st候補(すなわち、最良のN個の候補)に入らなかっ
た正解候補を新たに追加する、音声認識のためのモデル
を提案している。このモデルは、次の特徴を有してい
る。 (a)前後のコンテキストを考慮しながら誤認識特性を
抽出するために、抽出される誤認識系列は音素系列では
なく、HMMの状態系列として表現する。 (b)音素という単位に拘束されずに、誤認識特性の抽
出及び正解系列の予測を行うため、抽出する誤認識系列
に含まれる音素数には制限を与えない。
【0005】
【発明が解決しようとする課題】従来例のモデルにおい
ては、コンテキストに依存した発声変形を取り扱うこと
ができるが、従来例において考慮しているコンテキスト
は、処理すべき当該音素よりも前の1音素と、後の1音
素のみであり、より長いコンテキストを考慮していない
ので、より長いコンテキストで発声変形に対して対処す
ることができず、音声認識することはできないという問
題点があった。また、従来例においては、出現頻度が多
い誤認識の音素変換テーブルを用いて、誤認識の結果を
変更することにより、音素認識率を改善しているが、従
来例を単語認識に適用することはできないという問題点
があった。
ては、コンテキストに依存した発声変形を取り扱うこと
ができるが、従来例において考慮しているコンテキスト
は、処理すべき当該音素よりも前の1音素と、後の1音
素のみであり、より長いコンテキストを考慮していない
ので、より長いコンテキストで発声変形に対して対処す
ることができず、音声認識することはできないという問
題点があった。また、従来例においては、出現頻度が多
い誤認識の音素変換テーブルを用いて、誤認識の結果を
変更することにより、音素認識率を改善しているが、従
来例を単語認識に適用することはできないという問題点
があった。
【0006】本発明の第1の目的は以上の問題点を解決
し、従来例に比較してより長いコンテキストにおける発
話音声の発声変形に対して対処することができ、しかも
単語認識率を大幅に向上させることができる音声認識用
単語辞書を作成可能な音声認識用単語辞書作成装置を提
供することにある。
し、従来例に比較してより長いコンテキストにおける発
話音声の発声変形に対して対処することができ、しかも
単語認識率を大幅に向上させることができる音声認識用
単語辞書を作成可能な音声認識用単語辞書作成装置を提
供することにある。
【0007】本発明の第2の目的は、従来例に比較して
より長いコンテキストにおける発話音声の発声変形に対
してより高い単語認識率で音声認識することができる連
続音声認識装置を提供することにある。
より長いコンテキストにおける発話音声の発声変形に対
してより高い単語認識率で音声認識することができる連
続音声認識装置を提供することにある。
【0008】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識用単語辞書作成装置は、発声音声文の音声
信号から抽出された音声特徴パラメータのデータと、そ
れに対応して書き起こされた発声内容のローマ字表記の
言語的発音系列である音素記号系列とに基づいて、上記
音声特徴パラメータのデータを所定の音素認識法により
音素認識して、音素認識された音素認識結果の音素系列
の音響的発音系列である音声記号系列と、上記書き起こ
された音素記号系列とのパターンマッチングをとること
により、音素の置換、脱落及び挿入を含むパターンマッ
チング結果を学習データとして用いて、処理すべき当該
音素と、当該音素よりも前の複数の音素と、当該音素よ
りも後の複数の音素とを入力とする入力層と、少なくと
も1層の中間層と、各音素の置換と各音素の挿入と脱落
との処理を出力とする出力層とを備えたニューラルネッ
トワークからなる発音ネットワークを学習することによ
り、発音ネットワークを作成する第1の作成手段と、入
力される音素記号系列に基づいて、上記第1の作成手段
によって作成された発音ネットワークを参照して、上記
入力される音素記号系列を上記発音ネットワークの入力
層に入力したときに、上記発音ネットワークの出力層か
らの出力値が最大である処理を上記入力される音素記号
系列に対して実行して得られる音声記号系列を、音声認
識用単語辞書として作成して、記憶装置に出力して記憶
する第2の作成手段とを備えたことを特徴とする。
載の音声認識用単語辞書作成装置は、発声音声文の音声
信号から抽出された音声特徴パラメータのデータと、そ
れに対応して書き起こされた発声内容のローマ字表記の
言語的発音系列である音素記号系列とに基づいて、上記
音声特徴パラメータのデータを所定の音素認識法により
音素認識して、音素認識された音素認識結果の音素系列
の音響的発音系列である音声記号系列と、上記書き起こ
された音素記号系列とのパターンマッチングをとること
により、音素の置換、脱落及び挿入を含むパターンマッ
チング結果を学習データとして用いて、処理すべき当該
音素と、当該音素よりも前の複数の音素と、当該音素よ
りも後の複数の音素とを入力とする入力層と、少なくと
も1層の中間層と、各音素の置換と各音素の挿入と脱落
との処理を出力とする出力層とを備えたニューラルネッ
トワークからなる発音ネットワークを学習することによ
り、発音ネットワークを作成する第1の作成手段と、入
力される音素記号系列に基づいて、上記第1の作成手段
によって作成された発音ネットワークを参照して、上記
入力される音素記号系列を上記発音ネットワークの入力
層に入力したときに、上記発音ネットワークの出力層か
らの出力値が最大である処理を上記入力される音素記号
系列に対して実行して得られる音声記号系列を、音声認
識用単語辞書として作成して、記憶装置に出力して記憶
する第2の作成手段とを備えたことを特徴とする。
【0009】また、請求項2記載の音声認識用単語辞書
作成装置は、請求項1記載の音声認識用単語辞書作成装
置において、上記第2の作成手段は、上記得られた音声
記号系列が上記入力された音素記号系列と異なるとき
に、上記入力された音素記号系列をさらに、音声認識用
単語辞書として、記憶装置に出力して記憶することを特
徴とする。
作成装置は、請求項1記載の音声認識用単語辞書作成装
置において、上記第2の作成手段は、上記得られた音声
記号系列が上記入力された音素記号系列と異なるとき
に、上記入力された音素記号系列をさらに、音声認識用
単語辞書として、記憶装置に出力して記憶することを特
徴とする。
【0010】さらに、請求項3記載の音声認識用単語辞
書作成装置は、請求項1記載の音声認識用単語辞書作成
装置において、上記第2の作成手段は、上記入力される
音素記号系列を上記発音ネットワークの入力層に入力し
たときに、上記発音ネットワークの出力層からの出力値
が最大N個の処理を上記入力される音素記号系列に対し
て実行して得られる複数N個の音声記号系列を、音声認
識用単語辞書として作成して、記憶装置に出力して記憶
することを特徴とする。
書作成装置は、請求項1記載の音声認識用単語辞書作成
装置において、上記第2の作成手段は、上記入力される
音素記号系列を上記発音ネットワークの入力層に入力し
たときに、上記発音ネットワークの出力層からの出力値
が最大N個の処理を上記入力される音素記号系列に対し
て実行して得られる複数N個の音声記号系列を、音声認
識用単語辞書として作成して、記憶装置に出力して記憶
することを特徴とする。
【0011】本発明に係る請求項4記載の連続音声認識
装置は、入力される発声音声文の音声信号に基づいて上
記発声音声文の単語仮説を検出し尤度を計算することに
より、連続的に音声認識する音声認識手段を備えた連続
音声認識装置において、上記音声認識手段は、請求項
1、2又は3記載の音声認識用単語辞書作成装置によっ
て作成された音声認識用単語辞書を参照して、上記発声
音声文の単語仮説を検出し尤度を計算することにより、
連続的に音声認識することを特徴とする。
装置は、入力される発声音声文の音声信号に基づいて上
記発声音声文の単語仮説を検出し尤度を計算することに
より、連続的に音声認識する音声認識手段を備えた連続
音声認識装置において、上記音声認識手段は、請求項
1、2又は3記載の音声認識用単語辞書作成装置によっ
て作成された音声認識用単語辞書を参照して、上記発声
音声文の単語仮説を検出し尤度を計算することにより、
連続的に音声認識することを特徴とする。
【0012】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は、本発明に係る一
実施形態である連続音声認識システムの構成を示すブロ
ック図である。本実施形態においては、発声内容のロー
マ字表記を言語的発音系列(以下、音素記号系列とい
う。)とし、音素タイプライタ型の音声認識結果の音素
系列を音響的発音系列(以下、音声記号系列と呼ぶ)と
見なしたとき、これらの対応関係を発音ネットワークと
して構築するための方法及び装置について説明する。ま
た、当該発音ネットワークを参照して、自然発話の音声
認識を行う連続音声認識装置10について説明する。
る実施形態について説明する。図1は、本発明に係る一
実施形態である連続音声認識システムの構成を示すブロ
ック図である。本実施形態においては、発声内容のロー
マ字表記を言語的発音系列(以下、音素記号系列とい
う。)とし、音素タイプライタ型の音声認識結果の音素
系列を音響的発音系列(以下、音声記号系列と呼ぶ)と
見なしたとき、これらの対応関係を発音ネットワークと
して構築するための方法及び装置について説明する。ま
た、当該発音ネットワークを参照して、自然発話の音声
認識を行う連続音声認識装置10について説明する。
【0013】図1において、この実施形態の連続音声認
識システムは、(a)音声特徴パラメータメモリ31内
の音声特徴パラメータに対して、音素隠れマルコフ網
(以下、隠れマルコフ網をHMnetという。)メモリ
41内の音素HMnetを参照して、音素認識を行い認
識結果と、音素記号系列メモリ42内の音素記号列とを
対応付けて、図3に示すニューラルネットワークを学習
することにより、発音ネットワークを作成して発音ネッ
トワークメモリ32に出力して記憶する発音ネットワー
ク作成装置20と、(b)音素記号系列メモリ33内の
音素記号系列に基づいて、発音ネットワークを参照して
当該発音ネットワークの出力値が最大のものから得られ
る音声記号系列を求めて単語辞書(すなわち、認識語彙
に対する発音辞書である。)として単語辞書メモリ12
に記憶する辞書作成装置50と、(c)入力される自然
発話の発声音声文の音声信号に基づいて、単語辞書メモ
リ12内の単語辞書を参照して単語照合を行うことによ
り音声認識を実行して音声認識結果を出力する連続音声
認識装置10とを備えて構成される。
識システムは、(a)音声特徴パラメータメモリ31内
の音声特徴パラメータに対して、音素隠れマルコフ網
(以下、隠れマルコフ網をHMnetという。)メモリ
41内の音素HMnetを参照して、音素認識を行い認
識結果と、音素記号系列メモリ42内の音素記号列とを
対応付けて、図3に示すニューラルネットワークを学習
することにより、発音ネットワークを作成して発音ネッ
トワークメモリ32に出力して記憶する発音ネットワー
ク作成装置20と、(b)音素記号系列メモリ33内の
音素記号系列に基づいて、発音ネットワークを参照して
当該発音ネットワークの出力値が最大のものから得られ
る音声記号系列を求めて単語辞書(すなわち、認識語彙
に対する発音辞書である。)として単語辞書メモリ12
に記憶する辞書作成装置50と、(c)入力される自然
発話の発声音声文の音声信号に基づいて、単語辞書メモ
リ12内の単語辞書を参照して単語照合を行うことによ
り音声認識を実行して音声認識結果を出力する連続音声
認識装置10とを備えて構成される。
【0014】本実施形態において用いる発音ネットワー
クに基づく認識用単語辞書は、(1)音声記号系列(学
習データ)の生成及び音素記号系列との対応づけ、
(2)発音ネットワークの構築、(3)ネットワークを
利用した認識語彙に対する単語辞書の作成、の3つの手
順により作成される。以下、これらについて詳述する。
クに基づく認識用単語辞書は、(1)音声記号系列(学
習データ)の生成及び音素記号系列との対応づけ、
(2)発音ネットワークの構築、(3)ネットワークを
利用した認識語彙に対する単語辞書の作成、の3つの手
順により作成される。以下、これらについて詳述する。
【0015】まず、音声記号系列の生成及び音素記号系
列との対応付けは、次のように行なう。 (1)音素タイプライタ型の音素認識を実行して音声記
号系列を得る。 (2)書き起こし読み系列(音素記号系列)と文字列レ
ベルのDPパターンマッチングをとる。例えば、次の表
1に示すように、実行する。
列との対応付けは、次のように行なう。 (1)音素タイプライタ型の音素認識を実行して音声記
号系列を得る。 (2)書き起こし読み系列(音素記号系列)と文字列レ
ベルのDPパターンマッチングをとる。例えば、次の表
1に示すように、実行する。
【表1】 ────────────────────────── a r a j u r u (音素記号系列) a w a u ri u (音声記号系列) ────────────────────────── 表1のようなパターンマッチングの対応関係がとられた
場合、r→w(に置換)、j→“ ”(脱落)、r→r
i(iを挿入)となる。
場合、r→w(に置換)、j→“ ”(脱落)、r→r
i(iを挿入)となる。
【0016】本実施形態では、本出願人が所有する“A
TR Travel Arrangement Cor
pus”のテキストデータベース(例えば、従来技術文
献5「A.Nakamura et al.,“Japanese speech database
for robust speech recognition",Proceedings of ICS
LP-96,1996年」参照。)の中の男声1名から作成した3
混合分布、400状態の特定話者HMnet(例えば、
従来技術文献6「鷹見淳一ほか,“逐次状態分割法によ
る隠れマルコフ網の自動生成”,電子情報通信学会論文
誌(D−II),J76−D−II,10,pp.2155
−2164,1993年10月」参照。)を用いて、同
一話者の発声データを音素タイプライタ型の認識システ
ムで認識した結果(1,530発声、100,418音
素)を音声記号系列とした。
TR Travel Arrangement Cor
pus”のテキストデータベース(例えば、従来技術文
献5「A.Nakamura et al.,“Japanese speech database
for robust speech recognition",Proceedings of ICS
LP-96,1996年」参照。)の中の男声1名から作成した3
混合分布、400状態の特定話者HMnet(例えば、
従来技術文献6「鷹見淳一ほか,“逐次状態分割法によ
る隠れマルコフ網の自動生成”,電子情報通信学会論文
誌(D−II),J76−D−II,10,pp.2155
−2164,1993年10月」参照。)を用いて、同
一話者の発声データを音素タイプライタ型の認識システ
ムで認識した結果(1,530発声、100,418音
素)を音声記号系列とした。
【0017】本実施形態では、図3に示す構造をもつニ
ューラルネットワークを用いて発音ネットワークを構築
した。表2は、発音ネットワークを学習するときのニュ
ーラルネットワーク学習用データとその出力結果の一例
である。
ューラルネットワークを用いて発音ネットワークを構築
した。表2は、発音ネットワークを学習するときのニュ
ーラルネットワーク学習用データとその出力結果の一例
である。
【0018】
【表2】 ニューラルネットワーク学習用データとその出力結果の一例 ─────────────────────────────────── L(m-2) L(m-1) L(m) L(m+1) L(m+2) A(m)(意義) ─────────────────────────────────── q a r a j w(に置換) a r a j u a(正解) r a j u r x(脱落) a j u r u u(正解) j u r u q r,i(iを挿入) ─────────────────────────────────── (注)qは無音を表し、xは脱落を表わす。
【0019】表2に示すように、発音ネットワークの入
力は、処理すべき当該音素(以下、当該音素という。)
の前後2音素ずつのコンテキストを考慮した5音素の音
素記号系列{L(m−2),L(m−1),L(m),
L(m+1),L(m+2)}であり、発音ネットワー
クの出力は中心音素L(m)に対応するタイプライタ型
音素認識部21で得られた音声記号系列A(m)であ
る。ここで、音声記号系列A(m)は、置換先の音素、
挿入先の音素、又は脱落xのいずれかである。
力は、処理すべき当該音素(以下、当該音素という。)
の前後2音素ずつのコンテキストを考慮した5音素の音
素記号系列{L(m−2),L(m−1),L(m),
L(m+1),L(m+2)}であり、発音ネットワー
クの出力は中心音素L(m)に対応するタイプライタ型
音素認識部21で得られた音声記号系列A(m)であ
る。ここで、音声記号系列A(m)は、置換先の音素、
挿入先の音素、又は脱落xのいずれかである。
【0020】発音ネットワークは、図3に示すように、
入力層100と、中間層200と、出力層300との3
層構造を有している。ここで、入力層100は、26個
の先々行音素L(m−2)と、26個の先行音素L(m
−1)と、無音を除く25個の当該音素L(m)と、2
6個の後続音素L(m+1)と、26個の後々続音素L
(m+2)との合計26×4+25=129個の入力ユ
ニットを有する。ここで、各26個の音素は、a,b,
ch,d,e,g,h,i,j,k,m,n,ng,
o,p,q,r,s,sh,t,ts,u,w,z,z
h,x(無音を表わす。)であり、25個の音素は、無
音xを除く25個の音素である。そして、該当する入力
ユニットにデータ“1”が入力される一方、該当しない
入力ユニットにデータ“0”が入力される。例えば、先
々行音素L(m−2)が音素aであるときは、26個の
先々行音素L(m−2)の入力ユニットのうちの音素a
に対応する入力ユニットにデータ“1”が入力される一
方、その他の25個の各入力ユニットにデータ“0”が
入力される。また、中間層200は1層であって100
個のユニットを有する。さらに、出力層300は、26
個の音素の置換と、26個の音素の挿入と、1個の脱落
xとの処理を表わす合計26×2+1=53個の出力ユ
ニットを有する。出力層300の各出力ユニットから
は、当該ユニットに対応する音声記号系列が出力される
確率数値が出力される。ここで、入力層100のすべて
のユニットはそれぞれ中間層200のすべてのユニット
に対して重み係数を有して接続され、中間層200のす
べてのユニットはそれぞれ出力層300のすべてのユニ
ットに対して重み係数を有して接続される。なお、本実
施形態において、xは入力ユニットにおいて無音を意味
する一方、出力ユニットにおいて脱落を意味する。
入力層100と、中間層200と、出力層300との3
層構造を有している。ここで、入力層100は、26個
の先々行音素L(m−2)と、26個の先行音素L(m
−1)と、無音を除く25個の当該音素L(m)と、2
6個の後続音素L(m+1)と、26個の後々続音素L
(m+2)との合計26×4+25=129個の入力ユ
ニットを有する。ここで、各26個の音素は、a,b,
ch,d,e,g,h,i,j,k,m,n,ng,
o,p,q,r,s,sh,t,ts,u,w,z,z
h,x(無音を表わす。)であり、25個の音素は、無
音xを除く25個の音素である。そして、該当する入力
ユニットにデータ“1”が入力される一方、該当しない
入力ユニットにデータ“0”が入力される。例えば、先
々行音素L(m−2)が音素aであるときは、26個の
先々行音素L(m−2)の入力ユニットのうちの音素a
に対応する入力ユニットにデータ“1”が入力される一
方、その他の25個の各入力ユニットにデータ“0”が
入力される。また、中間層200は1層であって100
個のユニットを有する。さらに、出力層300は、26
個の音素の置換と、26個の音素の挿入と、1個の脱落
xとの処理を表わす合計26×2+1=53個の出力ユ
ニットを有する。出力層300の各出力ユニットから
は、当該ユニットに対応する音声記号系列が出力される
確率数値が出力される。ここで、入力層100のすべて
のユニットはそれぞれ中間層200のすべてのユニット
に対して重み係数を有して接続され、中間層200のす
べてのユニットはそれぞれ出力層300のすべてのユニ
ットに対して重み係数を有して接続される。なお、本実
施形態において、xは入力ユニットにおいて無音を意味
する一方、出力ユニットにおいて脱落を意味する。
【0021】本実施形態の発音ネットワークにおいて
は、入力層100及び出力層300において、25個又
は26個の音素に応じてその数に応じたユニットを有し
ているが、本発明はこれに限らず、ユニット数を増減し
てもよい。また、中間層200は1層であって100個
のユニットを有しているが、本発明はこれに限らず、複
数層を有してもよく、各層のユニット数は任意の複数で
あってもよい。
は、入力層100及び出力層300において、25個又
は26個の音素に応じてその数に応じたユニットを有し
ているが、本発明はこれに限らず、ユニット数を増減し
てもよい。また、中間層200は1層であって100個
のユニットを有しているが、本発明はこれに限らず、複
数層を有してもよく、各層のユニット数は任意の複数で
あってもよい。
【0022】次いで、上記発音ネットワークを用いて、
音素記号系列を入力としたときの出力を音声記号系列と
して単語辞書を作成する。このとき、以下の3種類の方
法で辞書を作成した。 (a)発音ネットワークの出力値が最大のものから得ら
れる音声記号系列を登録する(Acoustic:
A)。以下、第1の実施形態という。すなわち、音素記
号系列を入力としたときに発音ネットワークの出力値が
最大値である処理を、上記入力された音素記号系列に対
して行った音声記号系列を登録する。 (b)上記(a)で得られた音声記号系列が入力された
音素記号系列と異なる場合、音素記号系列も単語辞書に
登録する(Hybrid:H)。以下、第2の実施形態
という。 (c)発音ネットワークの出力値に基づいて、最大N個
の音声記号系列候補を複数の発音の音声記号系列として
登録する(Multiple Pronunciati
on:MP)。以下、第3の実施形態という。
音素記号系列を入力としたときの出力を音声記号系列と
して単語辞書を作成する。このとき、以下の3種類の方
法で辞書を作成した。 (a)発音ネットワークの出力値が最大のものから得ら
れる音声記号系列を登録する(Acoustic:
A)。以下、第1の実施形態という。すなわち、音素記
号系列を入力としたときに発音ネットワークの出力値が
最大値である処理を、上記入力された音素記号系列に対
して行った音声記号系列を登録する。 (b)上記(a)で得られた音声記号系列が入力された
音素記号系列と異なる場合、音素記号系列も単語辞書に
登録する(Hybrid:H)。以下、第2の実施形態
という。 (c)発音ネットワークの出力値に基づいて、最大N個
の音声記号系列候補を複数の発音の音声記号系列として
登録する(Multiple Pronunciati
on:MP)。以下、第3の実施形態という。
【0023】ここで、第3の実施形態は、語彙の音素数
が5乃至9のときにN=2とし、語彙の音素数が10乃
至14のときにN=4とし、語彙の音素数が15以上の
場合N=8とし、発音ネットワークの出力値が小さい候
補(出力値<0.03)は登録しないという方法をとっ
た。また、全ての単語辞書の作成は、5音素以上の音素
数mからなる語彙の3音素目から(m−3)音素目の音
素に対してそれぞれ発音ネットワークを適用した。一例
として、従来例の「鴨川旅館{k a m o g a wa r j o k
a ng}」に対する前述の辞書表記を表3に示す。
が5乃至9のときにN=2とし、語彙の音素数が10乃
至14のときにN=4とし、語彙の音素数が15以上の
場合N=8とし、発音ネットワークの出力値が小さい候
補(出力値<0.03)は登録しないという方法をとっ
た。また、全ての単語辞書の作成は、5音素以上の音素
数mからなる語彙の3音素目から(m−3)音素目の音
素に対してそれぞれ発音ネットワークを適用した。一例
として、従来例の「鴨川旅館{k a m o g a wa r j o k
a ng}」に対する前述の辞書表記を表3に示す。
【0024】
【表3】 辞書表記の例 ─────────────────────────────────── 辞書 表記 ─────────────────────────────────── 従来例(L) k a m o g a w a r j o k a ng ─────────────────────────────────── 第1の実施形態(A) k a m o a a r j o k a ng ─────────────────────────────────── 第2の実施形態(H) k a m o a a r j o k a ng k a m o g a w a r j o k a ng(音素記号系列) ─────────────────────────────────── 第3の実施形態(MP) k a m o a a r j o k a ng k a m o a w a r j o k a ng k a m o a m a r j o k a ng ───────────────────────────────────
【0025】次いで、以上で述べた発音ネットワークの
作成方法と単語辞書の作成方法を用いた、発音ネットワ
ーク作成装置20と、単語辞書作成装置50との構成及
び動作について説明する。
作成方法と単語辞書の作成方法を用いた、発音ネットワ
ーク作成装置20と、単語辞書作成装置50との構成及
び動作について説明する。
【0026】図1において、発音ネットワーク作成装置
20は、音素タイプライタ型音素認識部21と、文字列
DPマッチング部22と、ニューラルネットワーク学習
部23と、音素タイプライタ型音素認識部21に接続さ
れた音素HMnetメモリ41と、文字列DPマッチン
グ部22に接続された音素記号系列メモリ42とを備え
る。音声特徴パラメータデータメモリ31には、後述す
るマイクロホン1と特徴抽出部2を用いて、入力される
自然発話の発声音声文の音声を音声信号に変換した後、
LPC分析することにより、17次元のケプストラム係
数と、17次元のΔケプストラム係数とを含む34次元
の音声特徴パラメータデータが予め記憶される一方、こ
れに対応して人間により書き起こされた上記発声音声文
の音素記号系列のデータが音素記号系列メモリ42に記
憶される。
20は、音素タイプライタ型音素認識部21と、文字列
DPマッチング部22と、ニューラルネットワーク学習
部23と、音素タイプライタ型音素認識部21に接続さ
れた音素HMnetメモリ41と、文字列DPマッチン
グ部22に接続された音素記号系列メモリ42とを備え
る。音声特徴パラメータデータメモリ31には、後述す
るマイクロホン1と特徴抽出部2を用いて、入力される
自然発話の発声音声文の音声を音声信号に変換した後、
LPC分析することにより、17次元のケプストラム係
数と、17次元のΔケプストラム係数とを含む34次元
の音声特徴パラメータデータが予め記憶される一方、こ
れに対応して人間により書き起こされた上記発声音声文
の音素記号系列のデータが音素記号系列メモリ42に記
憶される。
【0027】音素タイプライタ型音素認識部21は、音
声特徴パラメータデータメモリ31内の複数の音声特徴
パラメータデータに基づいて、音素HMnetメモリ4
1内の音素HMnetを参照して、公知の音素タイプラ
イタ型音素認識処理を実行することにより、表1に示す
ような音声記号系列を得て、文字列DPマッチング部2
2に出力する。文字列DPマッチング部22は、入力さ
れる音声記号系列と、これに対応する、音素記号系列メ
モリ42内の音素記号系列とのパターンマッチングを、
公知の動的計画法を用いて実行することにより、時間正
規化を行う。これによって得られた、入力される音声記
号系列と、これに対応する音素記号系列との間のマッチ
ング結果が、表2に示すようにニューラルネットワーク
用学習データとなる。この学習データは、ニューラルネ
ットワーク学習部23に出力される。ニューラルネット
ワーク学習部23は、上記学習データに基づいて、公知
のバック・プロパゲーション・アルゴリズムを用いて、
図3に示すニューラルネットワークの発音ネットワーク
における各ユニットにおける重み係数を繰り返し変更す
ることにより、当該発音ネットワークを学習させ、学習
後の発音ネットワークを発音ネットワークメモリ32に
出力して書き込む。
声特徴パラメータデータメモリ31内の複数の音声特徴
パラメータデータに基づいて、音素HMnetメモリ4
1内の音素HMnetを参照して、公知の音素タイプラ
イタ型音素認識処理を実行することにより、表1に示す
ような音声記号系列を得て、文字列DPマッチング部2
2に出力する。文字列DPマッチング部22は、入力さ
れる音声記号系列と、これに対応する、音素記号系列メ
モリ42内の音素記号系列とのパターンマッチングを、
公知の動的計画法を用いて実行することにより、時間正
規化を行う。これによって得られた、入力される音声記
号系列と、これに対応する音素記号系列との間のマッチ
ング結果が、表2に示すようにニューラルネットワーク
用学習データとなる。この学習データは、ニューラルネ
ットワーク学習部23に出力される。ニューラルネット
ワーク学習部23は、上記学習データに基づいて、公知
のバック・プロパゲーション・アルゴリズムを用いて、
図3に示すニューラルネットワークの発音ネットワーク
における各ユニットにおける重み係数を繰り返し変更す
ることにより、当該発音ネットワークを学習させ、学習
後の発音ネットワークを発音ネットワークメモリ32に
出力して書き込む。
【0028】従って、発音ネットワーク作成装置20
は、発声音声文の音声信号から抽出された音声特徴パラ
メータのデータと、それに対応して書き起こされた発声
内容のローマ字表記の言語的発音系列である音素記号系
列とに基づいて、上記音声特徴パラメータのデータを所
定の音素認識法により音素認識して、音素認識された音
素認識結果の音素系列の音響的発音系列である音声記号
系列と、上記書き起こされた音素記号系列とのパターン
マッチングをとることにより、音素の置換、脱落及び挿
入を含むパターンマッチング結果を学習データとして用
いて、処理すべき当該音素と、当該音素よりも前の複数
の音素と、当該音素よりも後の複数の音素とを入力とす
る入力層100と、少なくとも1層の中間層200と、
各音素の置換と各音素の挿入と脱落との処理を出力とす
る出力層300とを備えたニューラルネットワークから
なる発音ネットワークを学習することにより、発音ネッ
トワークを作成する。
は、発声音声文の音声信号から抽出された音声特徴パラ
メータのデータと、それに対応して書き起こされた発声
内容のローマ字表記の言語的発音系列である音素記号系
列とに基づいて、上記音声特徴パラメータのデータを所
定の音素認識法により音素認識して、音素認識された音
素認識結果の音素系列の音響的発音系列である音声記号
系列と、上記書き起こされた音素記号系列とのパターン
マッチングをとることにより、音素の置換、脱落及び挿
入を含むパターンマッチング結果を学習データとして用
いて、処理すべき当該音素と、当該音素よりも前の複数
の音素と、当該音素よりも後の複数の音素とを入力とす
る入力層100と、少なくとも1層の中間層200と、
各音素の置換と各音素の挿入と脱落との処理を出力とす
る出力層300とを備えたニューラルネットワークから
なる発音ネットワークを学習することにより、発音ネッ
トワークを作成する。
【0029】単語辞書作成装置50には、単語辞書を作
成するための複数の音素記号系列を予め記憶する音素記
号系列メモリ33が接続される。単語辞書作成装置50
は、音素記号系列メモリ33内の音素記号系列に基づい
て、上述の3つの方法のうちの1つの単語辞書作成処理
を実行して、音声記号系列を単語辞書として単語辞書メ
モリ12に出力して書き込む。ここで、第1乃至第3の
実施形態の単語辞書メモリ12のファイル構成の一例を
表4乃至表6に示す。
成するための複数の音素記号系列を予め記憶する音素記
号系列メモリ33が接続される。単語辞書作成装置50
は、音素記号系列メモリ33内の音素記号系列に基づい
て、上述の3つの方法のうちの1つの単語辞書作成処理
を実行して、音声記号系列を単語辞書として単語辞書メ
モリ12に出力して書き込む。ここで、第1乃至第3の
実施形態の単語辞書メモリ12のファイル構成の一例を
表4乃至表6に示す。
【0030】
【表4】 第1の実施形態の単語辞書メモリ12のファイル構成 ─────────────────────────────────── ID 表記 読み ─────────────────────────────────── 001 鴨川旅館 k a m o a a r j o k a ng ───────────────────────────────────
【表5】 第2の実施形態の単語辞書メモリ12のファイル構成 ─────────────────────────────────── ID 表記 読み ─────────────────────────────────── 001 鴨川旅館 k a m o a a r j o k a ng k a m o g a w a r j o k a ng(音素記号系列) ───────────────────────────────────
【表6】 第3の実施形態の単語辞書メモリ12のファイル構成 ─────────────────────────────────── ID 表記 読み ─────────────────────────────────── 001 鴨川旅館 k a m o a a r j o k a ng k a m o a w a r j o k a ng k a m o a m a r j o k a ng ───────────────────────────────────
【0031】第1の実施形態の単語辞書作成装置50
は、入力される音素記号系列に基づいて、上記作成され
た発音ネットワークを参照して、上記入力される音素記
号系列を上記発音ネットワークの入力層100に入力し
たときに、上記発音ネットワークの出力層300からの
出力値が最大である処理を上記入力される音素記号系列
に対して実行して得られる音声記号系列を、音声認識用
単語辞書として作成して、単語辞書メモリ12に出力し
て記憶する。ここで、第2の実施形態の単語辞書作成装
置50は、上記得られた音声記号系列が上記入力された
音素記号系列と異なるときに、上記入力された音素記号
系列をさらに、音声認識用単語辞書として、単語辞書メ
モリ12に出力して記憶する。さらに、第3の実施形態
の単語辞書作成装置50は、上記入力される音素記号系
列を上記発音ネットワークの入力層100に入力したと
きに、上記発音ネットワークの出力層300からの出力
値が最大N個の処理を上記入力される音素記号系列に対
して実行して得られる複数N個の音声記号系列を、音声
認識用単語辞書として作成して、単語辞書メモリ12に
に出力して記憶する。
は、入力される音素記号系列に基づいて、上記作成され
た発音ネットワークを参照して、上記入力される音素記
号系列を上記発音ネットワークの入力層100に入力し
たときに、上記発音ネットワークの出力層300からの
出力値が最大である処理を上記入力される音素記号系列
に対して実行して得られる音声記号系列を、音声認識用
単語辞書として作成して、単語辞書メモリ12に出力し
て記憶する。ここで、第2の実施形態の単語辞書作成装
置50は、上記得られた音声記号系列が上記入力された
音素記号系列と異なるときに、上記入力された音素記号
系列をさらに、音声認識用単語辞書として、単語辞書メ
モリ12に出力して記憶する。さらに、第3の実施形態
の単語辞書作成装置50は、上記入力される音素記号系
列を上記発音ネットワークの入力層100に入力したと
きに、上記発音ネットワークの出力層300からの出力
値が最大N個の処理を上記入力される音素記号系列に対
して実行して得られる複数N個の音声記号系列を、音声
認識用単語辞書として作成して、単語辞書メモリ12に
に出力して記憶する。
【0032】次いで、単語辞書作成装置50によって実
行される上記単語辞書作成処理について詳述する。
行される上記単語辞書作成処理について詳述する。
【0033】図4は、図1の単語辞書装置50の第1の
実施形態によって実行される第1の単語辞書作成処理を
示すフローチャートである。図4において、まず、ステ
ップS1で、複数M個の音素記号からなる音素記号系列
{L(1),L(2),…,L(M)}を音素記号系列
メモリ33から読み出して入力し、ステップS2で入力
された音素記号系列の音素数をMとし、ステップS3で
音素数Mが5以上であるか否かが判断される。ここで、
M≧5であるときはステップS4に進む一方、M<5で
あるときはステップS11に進む。ステップS4で発音
ネットワークメモリ32から発音ネットワークを読み込
み、ステップS5でパラメータi及びjをそれぞれ3に
初期化し、音素記号L(1)を音声記号A(1)に代入
し、音素記号L(2)を音声記号A(2)に代入する。
そして、ステップS6で図5の発音ネットワーク探索処
理を実行し、ステップS7でパラメータiを1だけイン
クリメントする。ステップS8でパラメータiが(M−
2)以下であるか否かが判断される。ここで、i≦M−
2であるとき、ステップS6に戻って発音ネットワーク
探索処理を繰り返す一方、i>M−2であるとき、ステ
ップS9に進む。
実施形態によって実行される第1の単語辞書作成処理を
示すフローチャートである。図4において、まず、ステ
ップS1で、複数M個の音素記号からなる音素記号系列
{L(1),L(2),…,L(M)}を音素記号系列
メモリ33から読み出して入力し、ステップS2で入力
された音素記号系列の音素数をMとし、ステップS3で
音素数Mが5以上であるか否かが判断される。ここで、
M≧5であるときはステップS4に進む一方、M<5で
あるときはステップS11に進む。ステップS4で発音
ネットワークメモリ32から発音ネットワークを読み込
み、ステップS5でパラメータi及びjをそれぞれ3に
初期化し、音素記号L(1)を音声記号A(1)に代入
し、音素記号L(2)を音声記号A(2)に代入する。
そして、ステップS6で図5の発音ネットワーク探索処
理を実行し、ステップS7でパラメータiを1だけイン
クリメントする。ステップS8でパラメータiが(M−
2)以下であるか否かが判断される。ここで、i≦M−
2であるとき、ステップS6に戻って発音ネットワーク
探索処理を繰り返す一方、i>M−2であるとき、ステ
ップS9に進む。
【0034】ステップS11ではパラメータjを1に初
期化し、ステップS12で音素記号L(j)を音声記号
A(j)に代入し、ステップS13でパラメータjを1
だけインクリメントした後、ステップS14でパラメー
タjが音素数M以上であるか否かが判断される。ここ
で、ステップS14でj>MのときステップS10に進
む一方、j≦MのときステップS12に戻る。
期化し、ステップS12で音素記号L(j)を音声記号
A(j)に代入し、ステップS13でパラメータjを1
だけインクリメントした後、ステップS14でパラメー
タjが音素数M以上であるか否かが判断される。ここ
で、ステップS14でj>MのときステップS10に進
む一方、j≦MのときステップS12に戻る。
【0035】ステップS9で音素記号L(M−1)を音
声記号A(j)に代入し、音素記号L(M)を音声記号
A(j+1)に代入した後、ステップS10で音声記号
系列{A(1),A(2),…}を単語辞書メモリ12
に出力して書き込む。そして、ステップS15で音素記
号系列メモリ33に音素記号系列のデータがないか否か
が判断され、データがあるときは、ステップS1に戻
り、別の音素記号系列について上記の処理を繰り返す。
ステップS15でデータがないときは、当該処理を終了
する。
声記号A(j)に代入し、音素記号L(M)を音声記号
A(j+1)に代入した後、ステップS10で音声記号
系列{A(1),A(2),…}を単語辞書メモリ12
に出力して書き込む。そして、ステップS15で音素記
号系列メモリ33に音素記号系列のデータがないか否か
が判断され、データがあるときは、ステップS1に戻
り、別の音素記号系列について上記の処理を繰り返す。
ステップS15でデータがないときは、当該処理を終了
する。
【0036】図5は、図4のサブルーチンである発音ネ
ットワーク探索処理(ステップS6)を示すフローチャ
ートである。図5において、ステップS16で、L(i
−2),L(i−1),L(i),L(i+1),L
(i+2)の音素列(文字列)に相当する入力層100
のユニットに1を入力する一方、それ以外の音素列(文
字列)に相当する入力層100のユニットに0を入力す
ることにより、発音ネットワークに対する入力処理を実
行する。次いで、ステップS17で発音ネットワークを
用いて出力値を計算し、ステップS18で発音ネットワ
ークの出力値が最大となる出力層300のユニットU1
を探し、当該ユニットU1が挿入のユニットのとき、置
換のユニットの中で出力値が最大となるユニットU2を
探す。さらに、ステップS19で、発音ネットワークの
出力値が最大となる出力層300のユニットの中で最大
値を有するユニットが挿入のときは、ユニットU1に対
応する音素記号を音声記号A(j)に代入し、ユニット
U2に対応する音素記号を音声記号A(j+1)に代入
し、パラメータjを2だけインクリメントする。また、
発音ネットワークの出力値が最大となる出力層300の
ユニットの中で最大値を有するユニットが脱落のとき
は、何も実行しない。そして、元のメインルーチンに戻
る。
ットワーク探索処理(ステップS6)を示すフローチャ
ートである。図5において、ステップS16で、L(i
−2),L(i−1),L(i),L(i+1),L
(i+2)の音素列(文字列)に相当する入力層100
のユニットに1を入力する一方、それ以外の音素列(文
字列)に相当する入力層100のユニットに0を入力す
ることにより、発音ネットワークに対する入力処理を実
行する。次いで、ステップS17で発音ネットワークを
用いて出力値を計算し、ステップS18で発音ネットワ
ークの出力値が最大となる出力層300のユニットU1
を探し、当該ユニットU1が挿入のユニットのとき、置
換のユニットの中で出力値が最大となるユニットU2を
探す。さらに、ステップS19で、発音ネットワークの
出力値が最大となる出力層300のユニットの中で最大
値を有するユニットが挿入のときは、ユニットU1に対
応する音素記号を音声記号A(j)に代入し、ユニット
U2に対応する音素記号を音声記号A(j+1)に代入
し、パラメータjを2だけインクリメントする。また、
発音ネットワークの出力値が最大となる出力層300の
ユニットの中で最大値を有するユニットが脱落のとき
は、何も実行しない。そして、元のメインルーチンに戻
る。
【0037】図6は、図1の単語辞書装置50の第2の
実施形態によって実行される第2の単語辞書作成処理を
示すフローチャートである。図6において、ステップS
21で音素記号系列{L(1),L(2),…,L
(M)}を音素記号系列メモリ33から読み出して入力
する。次いで、ステップS22で図4の第1の単語辞書
作成処理を実行して音素記号系列{L(1),L
(2),…,L(M)}に対応する音声記号系列{A
(1),A(2),…}を求める。ステップS23で音
声記号系列と音素記号系列がすべて一致しているか否か
が判断される。一致しているときは、ステップS25に
進み、一致していないときは、当該単語に音響的な発音
系列の読みを付けるために、ステップS24で音声記号
系列を単語辞書に追加する。ステップS25では、当該
単語に言語的な発音系列の読みを付けるために音素記号
系列を音声記号系列として単語辞書に追加する。さら
に、ステップS26で作成された単語辞書における1種
類又は2種類の音声記号系列を単語辞書メモリ12に出
力して書き込む。そして、ステップS27で音素記号系
列メモリ33内に音素記号系列のデータが無いか否かが
判断され、データがあるときはステップS21に戻っ
て、別の音声記号系列について上記の処理を実行する。
一方、データが無いときは、当該処理を終了する。
実施形態によって実行される第2の単語辞書作成処理を
示すフローチャートである。図6において、ステップS
21で音素記号系列{L(1),L(2),…,L
(M)}を音素記号系列メモリ33から読み出して入力
する。次いで、ステップS22で図4の第1の単語辞書
作成処理を実行して音素記号系列{L(1),L
(2),…,L(M)}に対応する音声記号系列{A
(1),A(2),…}を求める。ステップS23で音
声記号系列と音素記号系列がすべて一致しているか否か
が判断される。一致しているときは、ステップS25に
進み、一致していないときは、当該単語に音響的な発音
系列の読みを付けるために、ステップS24で音声記号
系列を単語辞書に追加する。ステップS25では、当該
単語に言語的な発音系列の読みを付けるために音素記号
系列を音声記号系列として単語辞書に追加する。さら
に、ステップS26で作成された単語辞書における1種
類又は2種類の音声記号系列を単語辞書メモリ12に出
力して書き込む。そして、ステップS27で音素記号系
列メモリ33内に音素記号系列のデータが無いか否かが
判断され、データがあるときはステップS21に戻っ
て、別の音声記号系列について上記の処理を実行する。
一方、データが無いときは、当該処理を終了する。
【0038】図7は、図1の単語辞書装置50の第3の
実施形態によって実行される第3の単語辞書作成処理を
示すフローチャートである。図7において、ステップS
31で音素記号系列{L(1),L(2),…,L
(M)}を音素記号系列メモリ33から読み出して入力
し、ステップS32で音素数Mが5≦M<10のときパ
ラメータNを2に設定し、10≦M<15のときパラメ
ータNを4に設定し、15≦MのときパラメータNを8
に設定する。さらに、ステップS33で、パラメータn
を1に初期化し、収束しきい値εを0.03に設定す
る。次いで、ステップS34で音素記号系列メモリ33
に記憶された音素記号系列のうち、単語辞書メモリ12
に登録済みの音声記号系列を除いた、音素記号系列に対
して、図4の第1の単語辞書作成処理を実行して、音素
記号系列{L(1),L(2),…,L(M)}に対応
する音声記号系列候補{A(1),A(2),…}を求
める。ステップS35でパラメータnが1であるか、も
しくは、パラメータn≠1で発音ネットワークの出力層
300の出力値がすべて上記収束しきい値ε以上である
か(以下、判定条件という。)否かが判断される。判定
条件を満足しているときは、ステップS36で音声記号
系列候補を当該装置50のワーキングメモリ(図示せ
ず。)内の単語辞書に登録する。次いで、ステップS3
7でパラメータnがパラメータN未満であるか否かが判
断され、n<Nであるときは、ステップS38でパラメ
ータnを1だけインクリメントして、ステップS34に
戻り、上記の処理を繰り返す。一方、ステップS35で
判定条件を満足してないとき、もしくは、ステップS3
7でn≧Nであるときは、ステップS39で、上記ワー
キングメモリ内の単語辞書に登録された最大n種類の音
声記号系列候補を単語辞書メモリ12に出力して書き込
む。さらに、ステップS40で音素記号系列メモリ33
内に音素記号系列のデータが無いか否かが判断され、デ
ータがあるときはステップS31に戻って上記の処理を
繰り返す一方、データが無いときは当該処理を終了す
る。
実施形態によって実行される第3の単語辞書作成処理を
示すフローチャートである。図7において、ステップS
31で音素記号系列{L(1),L(2),…,L
(M)}を音素記号系列メモリ33から読み出して入力
し、ステップS32で音素数Mが5≦M<10のときパ
ラメータNを2に設定し、10≦M<15のときパラメ
ータNを4に設定し、15≦MのときパラメータNを8
に設定する。さらに、ステップS33で、パラメータn
を1に初期化し、収束しきい値εを0.03に設定す
る。次いで、ステップS34で音素記号系列メモリ33
に記憶された音素記号系列のうち、単語辞書メモリ12
に登録済みの音声記号系列を除いた、音素記号系列に対
して、図4の第1の単語辞書作成処理を実行して、音素
記号系列{L(1),L(2),…,L(M)}に対応
する音声記号系列候補{A(1),A(2),…}を求
める。ステップS35でパラメータnが1であるか、も
しくは、パラメータn≠1で発音ネットワークの出力層
300の出力値がすべて上記収束しきい値ε以上である
か(以下、判定条件という。)否かが判断される。判定
条件を満足しているときは、ステップS36で音声記号
系列候補を当該装置50のワーキングメモリ(図示せ
ず。)内の単語辞書に登録する。次いで、ステップS3
7でパラメータnがパラメータN未満であるか否かが判
断され、n<Nであるときは、ステップS38でパラメ
ータnを1だけインクリメントして、ステップS34に
戻り、上記の処理を繰り返す。一方、ステップS35で
判定条件を満足してないとき、もしくは、ステップS3
7でn≧Nであるときは、ステップS39で、上記ワー
キングメモリ内の単語辞書に登録された最大n種類の音
声記号系列候補を単語辞書メモリ12に出力して書き込
む。さらに、ステップS40で音素記号系列メモリ33
内に音素記号系列のデータが無いか否かが判断され、デ
ータがあるときはステップS31に戻って上記の処理を
繰り返す一方、データが無いときは当該処理を終了す
る。
【0039】次いで、連続音声認識装置10の構成及び
動作について説明する。図1において、音素HMMメモ
リ11は、単語照合部4に接続され、所定の音素HMM
を予め記憶し、当該音素HMMは、各状態を含んで表さ
れ、各状態はそれぞれ以下の情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施形態において用いる音素HMMは、各分布
がどの話者に由来するかを特定する必要があるため、所
定の話者混合HMMを変換して作成する。ここで、出力
確率密度関数は34次元の対角共分散行列をもつ混合ガ
ウス分布である。また、単語辞書メモリ12は、単語照
合部4に接続され、単語辞書作成装置50によって作成
された、複数の音声記号系列を表4乃至表6のファイル
書式で含む単語辞書を記憶する。すなわち、単語辞書
は、音素HMMの各単語毎にシンボルで表した読みを示
す音声記号系列(シンボル列)を格納する。
動作について説明する。図1において、音素HMMメモ
リ11は、単語照合部4に接続され、所定の音素HMM
を予め記憶し、当該音素HMMは、各状態を含んで表さ
れ、各状態はそれぞれ以下の情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施形態において用いる音素HMMは、各分布
がどの話者に由来するかを特定する必要があるため、所
定の話者混合HMMを変換して作成する。ここで、出力
確率密度関数は34次元の対角共分散行列をもつ混合ガ
ウス分布である。また、単語辞書メモリ12は、単語照
合部4に接続され、単語辞書作成装置50によって作成
された、複数の音声記号系列を表4乃至表6のファイル
書式で含む単語辞書を記憶する。すなわち、単語辞書
は、音素HMMの各単語毎にシンボルで表した読みを示
す音声記号系列(シンボル列)を格納する。
【0040】図1の連続音声認識システムにおいて、発
音ネットワーク作成装置20における音素タイプライタ
型音素認識部21と文字列DPマッチング部22とニュ
ーラルネットワーク学習部23と、単語辞書作成装置5
0と、連続音声認識装置10における特徴抽出部23と
単語照合部4と単語仮説絞込部6とは、例えば、CPU
を備えたデジタル計算機で構成される。また、各メモリ
3,5,11,12,31,32,33,41,42は
例えば、ハードディスクメモリで構成される。
音ネットワーク作成装置20における音素タイプライタ
型音素認識部21と文字列DPマッチング部22とニュ
ーラルネットワーク学習部23と、単語辞書作成装置5
0と、連続音声認識装置10における特徴抽出部23と
単語照合部4と単語仮説絞込部6とは、例えば、CPU
を備えたデジタル計算機で構成される。また、各メモリ
3,5,11,12,31,32,33,41,42は
例えば、ハードディスクメモリで構成される。
【0041】図1において、自然発話による話者の発声
音声文の発声音声はマイクロホン1に入力されて音声信
号に変換された後、特徴抽出部2に入力される。特徴抽
出部2は、入力された音声信号をA/D変換した後、例
えばLPC分析を実行し、対数パワー、16次ケプスト
ラム係数、Δ対数パワー及び16次Δケプストラム係数
を含む34次元の特徴パラメータを抽出する。抽出され
た特徴パラメータの時系列はバッファメモリ3を介して
単語照合部4に入力される。
音声文の発声音声はマイクロホン1に入力されて音声信
号に変換された後、特徴抽出部2に入力される。特徴抽
出部2は、入力された音声信号をA/D変換した後、例
えばLPC分析を実行し、対数パワー、16次ケプスト
ラム係数、Δ対数パワー及び16次Δケプストラム係数
を含む34次元の特徴パラメータを抽出する。抽出され
た特徴パラメータの時系列はバッファメモリ3を介して
単語照合部4に入力される。
【0042】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMMメモリ1
1内の音素HMMと、単語辞書メモリ12内の単語辞書
とを用いて単語仮説を検出し尤度を計算して出力する。
ここで、単語照合部4は、各時刻の各HMMの状態毎
に、単語内の尤度と発声開始からの尤度を計算する。尤
度は、単語の識別番号、単語の開始時刻、先行単語の違
い毎に個別にもつ。また、計算処理量の削減のために、
音素HMM及び単語辞書とに基づいて計算される総尤度
のうちの低い尤度のグリッド仮説を削減する。単語照合
部4は、その結果の単語仮説と尤度の情報を発声開始時
刻からの時間情報(具体的には、例えばフレーム番号)
とともにバッファメモリ5を介して単語仮説絞込部6に
出力する。
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMMメモリ1
1内の音素HMMと、単語辞書メモリ12内の単語辞書
とを用いて単語仮説を検出し尤度を計算して出力する。
ここで、単語照合部4は、各時刻の各HMMの状態毎
に、単語内の尤度と発声開始からの尤度を計算する。尤
度は、単語の識別番号、単語の開始時刻、先行単語の違
い毎に個別にもつ。また、計算処理量の削減のために、
音素HMM及び単語辞書とに基づいて計算される総尤度
のうちの低い尤度のグリッド仮説を削減する。単語照合
部4は、その結果の単語仮説と尤度の情報を発声開始時
刻からの時間情報(具体的には、例えばフレーム番号)
とともにバッファメモリ5を介して単語仮説絞込部6に
出力する。
【0043】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、終了時刻が等しく開始時刻が異なる同一の単語の単
語仮説に対して、当該単語の先頭音素環境毎に、発声開
始時刻から当該単語の終了時刻に至る計算された総尤度
のうちの最も高い尤度を有する1つの単語仮説で代表さ
せるように単語仮説の絞り込みを行った後、絞り込み後
のすべての単語仮説の単語列のうち、最大の総尤度を有
する仮説の単語列を認識結果として出力する。本実施形
態においては、好ましくは、処理すべき当該単語の先頭
音素環境とは、当該単語より先行する単語仮説の最終音
素と、当該単語の単語仮説の最初の2つの音素とを含む
3つの音素並びをいう。
ッファメモリ5を介して出力される単語仮説に基づい
て、終了時刻が等しく開始時刻が異なる同一の単語の単
語仮説に対して、当該単語の先頭音素環境毎に、発声開
始時刻から当該単語の終了時刻に至る計算された総尤度
のうちの最も高い尤度を有する1つの単語仮説で代表さ
せるように単語仮説の絞り込みを行った後、絞り込み後
のすべての単語仮説の単語列のうち、最大の総尤度を有
する仮説の単語列を認識結果として出力する。本実施形
態においては、好ましくは、処理すべき当該単語の先頭
音素環境とは、当該単語より先行する単語仮説の最終音
素と、当該単語の単語仮説の最初の2つの音素とを含む
3つの音素並びをいう。
【0044】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
【0045】以上の実施形態において、発音ネットワー
クの入力は、処理すべき当該音素の前後2音素ずつのコ
ンテキストを考慮した5音素の音素記号系列であるが、
本発明はこれに限らず、発音ネットワークの入力は、処
理すべき当該音素の前後複数音素ずつのコンテキストを
考慮した5音素以上の音素記号系列であってもよい。
クの入力は、処理すべき当該音素の前後2音素ずつのコ
ンテキストを考慮した5音素の音素記号系列であるが、
本発明はこれに限らず、発音ネットワークの入力は、処
理すべき当該音素の前後複数音素ずつのコンテキストを
考慮した5音素以上の音素記号系列であってもよい。
【0046】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0047】
【実施例】本発明者は、図1の連続音声認識装置の有効
性を確認するために、自然発話データベースを用いて音
声認識の実験を行なった。“トラベル・プランニング”
をタスクとした本出願人が所有する音声言語データベー
ス(例えば、従来技術文献7「Morimoto et al.,“A Sp
eech and Language Database for Speech Translation
Research",Proc.of ICSLP94,pp.1791-1794,1994年」参
照。)の「ホテル予約」に関する対話における、663
5語の辞書を用いた。そして、音素記号系列(ローマ字
表記)の従来例の辞書(Linguistic:L)及
び本実施形態の上記発音ネットワークから得られた第1
乃至第3の実施形態の3種類の単語辞書(A,H,M
P)の合計4種類を評価するために、図1の単語グラフ
に基づく自然発話の連続音声認識装置10を用いた認識
実験を行なった。
性を確認するために、自然発話データベースを用いて音
声認識の実験を行なった。“トラベル・プランニング”
をタスクとした本出願人が所有する音声言語データベー
ス(例えば、従来技術文献7「Morimoto et al.,“A Sp
eech and Language Database for Speech Translation
Research",Proc.of ICSLP94,pp.1791-1794,1994年」参
照。)の「ホテル予約」に関する対話における、663
5語の辞書を用いた。そして、音素記号系列(ローマ字
表記)の従来例の辞書(Linguistic:L)及
び本実施形態の上記発音ネットワークから得られた第1
乃至第3の実施形態の3種類の単語辞書(A,H,M
P)の合計4種類を評価するために、図1の単語グラフ
に基づく自然発話の連続音声認識装置10を用いた認識
実験を行なった。
【0048】発音ネットワークを作成した話者と同一話
者の特定話者モデル(SD)、不特定話者モデル(S
I)、不特定話者モデルから公知のVFS法を用いて話
者適応を行なったモデル(ASI)に対して実験及び評
価を行なった。ここで、SDは22次元のMFCC(Me
l Frequency Cepstrum Coefficientsの略:メル周波数
ケプストラム係数){mc(0),…,mc(10),
Δmc(0),…,Δmc(10)}をパラメータとす
る3混合400状態のHMnetであり、SI及びAS
Iは、34次元のLPCケプストラム{c(0),…,
c(16),Δc(0),…,Δc(16)}をパラメ
ータとする5混合400状態のHMnetを用いた。評
価データは発音ネットワークの作成に対してオープンで
あり、すなわち、発音ネットワークの作成のときに評価
データを使用しておらず、SDは41発声を含み、SI
及びSDは7話者からなる98発声を含む。単語辞書
は、繰り返し回数200回の状態のニューラルネットワ
ークから得られたものを用いた。
者の特定話者モデル(SD)、不特定話者モデル(S
I)、不特定話者モデルから公知のVFS法を用いて話
者適応を行なったモデル(ASI)に対して実験及び評
価を行なった。ここで、SDは22次元のMFCC(Me
l Frequency Cepstrum Coefficientsの略:メル周波数
ケプストラム係数){mc(0),…,mc(10),
Δmc(0),…,Δmc(10)}をパラメータとす
る3混合400状態のHMnetであり、SI及びAS
Iは、34次元のLPCケプストラム{c(0),…,
c(16),Δc(0),…,Δc(16)}をパラメ
ータとする5混合400状態のHMnetを用いた。評
価データは発音ネットワークの作成に対してオープンで
あり、すなわち、発音ネットワークの作成のときに評価
データを使用しておらず、SDは41発声を含み、SI
及びSDは7話者からなる98発声を含む。単語辞書
は、繰り返し回数200回の状態のニューラルネットワ
ークから得られたものを用いた。
【0049】実験に用いた単語辞書サイズ(延べ語彙
数)及び特定話者に対する認識結果を表7に示す。
数)及び特定話者に対する認識結果を表7に示す。
【0050】
【表7】 単語辞書サイズと特定話者モデルの単語認識率(%) ─────────────────────────────────── 単語辞書 L A H MP ─────────────────────────────────── 辞書サイズ 6,635 6,635 7,854 14,324 ─────────────────────────────────── SDの単語 19.98 20.82 21.07 24.46 認識率 ───────────────────────────────────
【0051】表7から明らかなように、従来例の単語辞
書Lに比べて、発音ネットワークから得られた同じ辞書
サイズの単語辞書A(第1の実施形態)の方が若干だけ
単語認識率が向上していることが分かる。また、単語辞
書H,MP(第2及び第3の実施形態)は、従来例の単
語辞書Lよりも辞書サイズは増えるが、単語認識率は向
上していることが分かる。次に不特定話者に対する単語
認識率を表8に示す。
書Lに比べて、発音ネットワークから得られた同じ辞書
サイズの単語辞書A(第1の実施形態)の方が若干だけ
単語認識率が向上していることが分かる。また、単語辞
書H,MP(第2及び第3の実施形態)は、従来例の単
語辞書Lよりも辞書サイズは増えるが、単語認識率は向
上していることが分かる。次に不特定話者に対する単語
認識率を表8に示す。
【0052】
【表8】 不特定話者モデルの単語認識率(%) ─────────────────────────────────── 単語辞書 L A H MP ─────────────────────────────────── SI 12.19 12.89 16.20 19.37 ASI 27.39 28.16 32.41 32.56 ───────────────────────────────────
【0053】表8から明らかなように、特定話者の結果
と同様な結果が得られていることが分かる。この結果よ
り、特定話者の発音ネットワークに基づいて作成された
単語辞書であるにもかかわらず、不特定話者に対しても
有効であることが分かる。
と同様な結果が得られていることが分かる。この結果よ
り、特定話者の発音ネットワークに基づいて作成された
単語辞書であるにもかかわらず、不特定話者に対しても
有効であることが分かる。
【0054】前述の実験結果より音声認識性能の面で
は、本実施形態の装置で作成した単語辞書は有効である
ことが分かったが、単語辞書H(第2の実施形態)や単
語辞書MP(第3の実施形態)の場合、辞書サイズが増
加するため音声認識の認識時間が増大する可能性があ
る。そこで、連続音声認識装置10の各部2,4,6と
してヒューレット・パッカード社製HP735型ワーク
ステーションを用いた場合の認識時間を測定した。その
測定結果を表9に示す。
は、本実施形態の装置で作成した単語辞書は有効である
ことが分かったが、単語辞書H(第2の実施形態)や単
語辞書MP(第3の実施形態)の場合、辞書サイズが増
加するため音声認識の認識時間が増大する可能性があ
る。そこで、連続音声認識装置10の各部2,4,6と
してヒューレット・パッカード社製HP735型ワーク
ステーションを用いた場合の認識時間を測定した。その
測定結果を表9に示す。
【0055】
【表9】 認識時間の比較(秒) ─────────────────────────────────── モデル 発声時間 L A H MP ─────────────────────────────────── SD 195.5 104.1 103.8 106.7 104.1 SI 320.7 3,650 2,932 3,021 2,530 ASI 320.7 1,497 1,530 1,196 1,138 ───────────────────────────────────
【0056】表9から明らかなように、辞書サイズが増
加しているにもかかわらず認識時間はほとんどの場合増
加せず、むしろ大幅に高速化している場合もある。これ
は認識対象の発声に対して、適切な表記が単語辞書中に
含まれている場合、尤度が従来例の単語辞書Lによる表
記に比べて高くなり、単語仮説を探索するビーム中に含
まれる候補が言語的な単語辞書を用いた場合よりも減少
したためであると考えられる。
加しているにもかかわらず認識時間はほとんどの場合増
加せず、むしろ大幅に高速化している場合もある。これ
は認識対象の発声に対して、適切な表記が単語辞書中に
含まれている場合、尤度が従来例の単語辞書Lによる表
記に比べて高くなり、単語仮説を探索するビーム中に含
まれる候補が言語的な単語辞書を用いた場合よりも減少
したためであると考えられる。
【0057】以上説明したように、自然発話における発
声の揺れや変動を統計的にとらえることを目的として、
音素タイプライタ型の音声認識結果を利用した発音ネッ
トワークの構築方法を発明した。このネットワークは、
音素の置換、脱落、挿入を取り扱うことができる、長い
コンテキスト(本実施形態では、前後5音素)が考慮で
きるという特徴をもつ。この発音ネットワークに基づい
て、音声認識用単語辞書を作成し、自然発話音声認識実
験を行なった結果、従来例のローマ字表記の単語辞書を
用いるのに比べて5乃至7%程度、単語認識率が向上
し、更に認識時間も最大30%程度低減できることが分
かった。
声の揺れや変動を統計的にとらえることを目的として、
音素タイプライタ型の音声認識結果を利用した発音ネッ
トワークの構築方法を発明した。このネットワークは、
音素の置換、脱落、挿入を取り扱うことができる、長い
コンテキスト(本実施形態では、前後5音素)が考慮で
きるという特徴をもつ。この発音ネットワークに基づい
て、音声認識用単語辞書を作成し、自然発話音声認識実
験を行なった結果、従来例のローマ字表記の単語辞書を
用いるのに比べて5乃至7%程度、単語認識率が向上
し、更に認識時間も最大30%程度低減できることが分
かった。
【0058】従って、本実施形態によれば、従来例より
長いコンテキストにおける発話音声の発声変形に対して
対処することができ、単語認識率を大幅に向上させるこ
とができる音声認識用単語辞書を作成することができ
る。当該音声認識用単語辞書を用いて音声認識すること
により、音声認識率を従来例に比較して大幅に向上させ
ることができ、しかも、音声認識に係る認識時間(計算
時間)も低減させることができる。
長いコンテキストにおける発話音声の発声変形に対して
対処することができ、単語認識率を大幅に向上させるこ
とができる音声認識用単語辞書を作成することができ
る。当該音声認識用単語辞書を用いて音声認識すること
により、音声認識率を従来例に比較して大幅に向上させ
ることができ、しかも、音声認識に係る認識時間(計算
時間)も低減させることができる。
【0059】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音声認識用単語辞書作成装置によれば、発声音
声文の音声信号から抽出された音声特徴パラメータのデ
ータと、それに対応して書き起こされた発声内容のロー
マ字表記の言語的発音系列である音素記号系列とに基づ
いて、上記音声特徴パラメータのデータを所定の音素認
識法により音素認識して、音素認識された音素認識結果
の音素系列の音響的発音系列である音声記号系列と、上
記書き起こされた音素記号系列とのパターンマッチング
をとることにより、音素の置換、脱落及び挿入を含むパ
ターンマッチング結果を学習データとして用いて、処理
すべき当該音素と、当該音素よりも前の複数の音素と、
当該音素よりも後の複数の音素とを入力とする入力層
と、少なくとも1層の中間層と、各音素の置換と各音素
の挿入と脱落との処理を出力とする出力層とを備えたニ
ューラルネットワークからなる発音ネットワークを学習
することにより、発音ネットワークを作成する第1の作
成手段と、入力される音素記号系列に基づいて、上記第
1の作成手段によって作成された発音ネットワークを参
照して、上記入力される音素記号系列を上記発音ネット
ワークの入力層に入力したときに、上記発音ネットワー
クの出力層からの出力値が最大である処理を上記入力さ
れる音素記号系列に対して実行して得られる音声記号系
列を、音声認識用単語辞書として作成して、記憶装置に
出力して記憶する第2の作成手段とを備える。従って、
従来例より長いコンテキストにおける発話音声の発声変
形に対して対処することができ、単語認識率を大幅に向
上させることができる音声認識用単語辞書を作成するこ
とができる。当該音声認識用単語辞書を用いて音声認識
することにより、音声認識率を従来例に比較して大幅に
向上させることができ、しかも、音声認識に係る認識時
間(計算時間)も低減させることができる。
1記載の音声認識用単語辞書作成装置によれば、発声音
声文の音声信号から抽出された音声特徴パラメータのデ
ータと、それに対応して書き起こされた発声内容のロー
マ字表記の言語的発音系列である音素記号系列とに基づ
いて、上記音声特徴パラメータのデータを所定の音素認
識法により音素認識して、音素認識された音素認識結果
の音素系列の音響的発音系列である音声記号系列と、上
記書き起こされた音素記号系列とのパターンマッチング
をとることにより、音素の置換、脱落及び挿入を含むパ
ターンマッチング結果を学習データとして用いて、処理
すべき当該音素と、当該音素よりも前の複数の音素と、
当該音素よりも後の複数の音素とを入力とする入力層
と、少なくとも1層の中間層と、各音素の置換と各音素
の挿入と脱落との処理を出力とする出力層とを備えたニ
ューラルネットワークからなる発音ネットワークを学習
することにより、発音ネットワークを作成する第1の作
成手段と、入力される音素記号系列に基づいて、上記第
1の作成手段によって作成された発音ネットワークを参
照して、上記入力される音素記号系列を上記発音ネット
ワークの入力層に入力したときに、上記発音ネットワー
クの出力層からの出力値が最大である処理を上記入力さ
れる音素記号系列に対して実行して得られる音声記号系
列を、音声認識用単語辞書として作成して、記憶装置に
出力して記憶する第2の作成手段とを備える。従って、
従来例より長いコンテキストにおける発話音声の発声変
形に対して対処することができ、単語認識率を大幅に向
上させることができる音声認識用単語辞書を作成するこ
とができる。当該音声認識用単語辞書を用いて音声認識
することにより、音声認識率を従来例に比較して大幅に
向上させることができ、しかも、音声認識に係る認識時
間(計算時間)も低減させることができる。
【0060】また、請求項2記載の音声認識用単語辞書
作成装置においては、請求項1記載の音声認識用単語辞
書作成装置において、上記第2の作成手段は、上記得ら
れた音声記号系列が上記入力された音素記号系列と異な
るときに、上記入力された音素記号系列をさらに、音声
認識用単語辞書として、記憶装置に出力して記憶する。
従って、従来例より長いコンテキストにおける発話音声
の発声変形に対して対処することができ、単語認識率を
大幅に向上させることができる音声認識用単語辞書を作
成することができる。当該音声認識用単語辞書を用いて
音声認識することにより、音声認識率を従来例に比較し
て大幅に向上させることができ、しかも、音声認識に係
る認識時間(計算時間)も低減させることができる。
作成装置においては、請求項1記載の音声認識用単語辞
書作成装置において、上記第2の作成手段は、上記得ら
れた音声記号系列が上記入力された音素記号系列と異な
るときに、上記入力された音素記号系列をさらに、音声
認識用単語辞書として、記憶装置に出力して記憶する。
従って、従来例より長いコンテキストにおける発話音声
の発声変形に対して対処することができ、単語認識率を
大幅に向上させることができる音声認識用単語辞書を作
成することができる。当該音声認識用単語辞書を用いて
音声認識することにより、音声認識率を従来例に比較し
て大幅に向上させることができ、しかも、音声認識に係
る認識時間(計算時間)も低減させることができる。
【0061】さらに、請求項3記載の音声認識用単語辞
書作成装置においては、請求項1記載の音声認識用単語
辞書作成装置において、上記第2の作成手段は、上記入
力される音素記号系列を上記発音ネットワークの入力層
に入力したときに、上記発音ネットワークの出力層から
の出力値が最大N個の処理を上記入力される音素記号系
列に対して実行して得られる複数N個の音声記号系列
を、音声認識用単語辞書として作成して、記憶装置に出
力して記憶する。従って、従来例より長いコンテキスト
における発話音声の発声変形に対して対処することがで
き、単語認識率を大幅に向上させることができる音声認
識用単語辞書を作成することができる。当該音声認識用
単語辞書を用いて音声認識することにより、音声認識率
を従来例に比較して大幅に向上させることができ、しか
も、音声認識に係る認識時間(計算時間)も低減させる
ことができる。
書作成装置においては、請求項1記載の音声認識用単語
辞書作成装置において、上記第2の作成手段は、上記入
力される音素記号系列を上記発音ネットワークの入力層
に入力したときに、上記発音ネットワークの出力層から
の出力値が最大N個の処理を上記入力される音素記号系
列に対して実行して得られる複数N個の音声記号系列
を、音声認識用単語辞書として作成して、記憶装置に出
力して記憶する。従って、従来例より長いコンテキスト
における発話音声の発声変形に対して対処することがで
き、単語認識率を大幅に向上させることができる音声認
識用単語辞書を作成することができる。当該音声認識用
単語辞書を用いて音声認識することにより、音声認識率
を従来例に比較して大幅に向上させることができ、しか
も、音声認識に係る認識時間(計算時間)も低減させる
ことができる。
【0062】本発明に係る請求項4記載の連続音声認識
装置においては、入力される発声音声文の音声信号に基
づいて上記発声音声文の単語仮説を検出し尤度を計算す
ることにより、連続的に音声認識する音声認識手段を備
えた連続音声認識装置において、上記音声認識手段は、
請求項1、2又は3記載の音声認識用単語辞書作成装置
によって作成された音声認識用単語辞書を参照して、上
記発声音声文の単語仮説を検出し尤度を計算することに
より、連続的に音声認識する。従って、上記音声認識用
単語辞書を用いて音声認識することにより、音声認識率
を従来例に比較して大幅に向上させることができ、しか
も、音声認識に係る認識時間(計算時間)も低減させる
ことができる。
装置においては、入力される発声音声文の音声信号に基
づいて上記発声音声文の単語仮説を検出し尤度を計算す
ることにより、連続的に音声認識する音声認識手段を備
えた連続音声認識装置において、上記音声認識手段は、
請求項1、2又は3記載の音声認識用単語辞書作成装置
によって作成された音声認識用単語辞書を参照して、上
記発声音声文の単語仮説を検出し尤度を計算することに
より、連続的に音声認識する。従って、上記音声認識用
単語辞書を用いて音声認識することにより、音声認識率
を従来例に比較して大幅に向上させることができ、しか
も、音声認識に係る認識時間(計算時間)も低減させる
ことができる。
【図1】 本発明に係る一実施形態である、発音ネット
ワーク作成装置20と、辞書作成装置50と、連続音声
認識装置10とを備えた連続音声認識システムの構成を
示すブロック図である。
ワーク作成装置20と、辞書作成装置50と、連続音声
認識装置10とを備えた連続音声認識システムの構成を
示すブロック図である。
【図2】 図1の連続音声認識装置10における単語仮
説絞込部6の処理を示すタイミングチャートである。
説絞込部6の処理を示すタイミングチャートである。
【図3】 図1の発音ネットワーク作成装置20によっ
て作成された発音ネットワークの構造を示すブロック図
である。
て作成された発音ネットワークの構造を示すブロック図
である。
【図4】 図1の単語辞書装置50の第1の実施形態に
よって実行される第1の単語辞書作成処理を示すフロー
チャートである。
よって実行される第1の単語辞書作成処理を示すフロー
チャートである。
【図5】 図4のサブルーチンである発音ネットワーク
探索処理(ステップS6)を示すフローチャートであ
る。
探索処理(ステップS6)を示すフローチャートであ
る。
【図6】 図1の単語辞書装置50の第2の実施形態に
よって実行される第2の単語辞書作成処理を示すフロー
チャートである。
よって実行される第2の単語辞書作成処理を示すフロー
チャートである。
【図7】 図1の単語辞書装置50の第3の実施形態に
よって実行される第3の単語辞書作成処理を示すフロー
チャートである。
よって実行される第3の単語辞書作成処理を示すフロー
チャートである。
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 10…連続音声認識装置、 11…音素HMMメモリ、 12…単語辞書メモリ、 20…発音ネットワーク作成装置、 21…音素タイプライタ型音素認識部、 22…文字列DPマッチング部、 23…ニューラルネットワーク学習部、 31…音声特徴パラメータデータメモリ、 32…発音ネットワークメモリ、 33…音素記号系列メモリ、 41…音素HMnetメモリ、 42…音素記号系列メモリ、 50…単語辞書作成装置。
Claims (4)
- 【請求項1】 発声音声文の音声信号から抽出された音
声特徴パラメータのデータと、それに対応して書き起こ
された発声内容のローマ字表記の言語的発音系列である
音素記号系列とに基づいて、上記音声特徴パラメータの
データを所定の音素認識法により音素認識して、音素認
識された音素認識結果の音素系列の音響的発音系列であ
る音声記号系列と、上記書き起こされた音素記号系列と
のパターンマッチングをとることにより、音素の置換、
脱落及び挿入を含むパターンマッチング結果を学習デー
タとして用いて、処理すべき当該音素と、当該音素より
も前の複数の音素と、当該音素よりも後の複数の音素と
を入力とする入力層と、少なくとも1層の中間層と、各
音素の置換と各音素の挿入と脱落との処理を出力とする
出力層とを備えたニューラルネットワークからなる発音
ネットワークを学習することにより、発音ネットワーク
を作成する第1の作成手段と、 入力される音素記号系列に基づいて、上記第1の作成手
段によって作成された発音ネットワークを参照して、上
記入力される音素記号系列を上記発音ネットワークの入
力層に入力したときに、上記発音ネットワークの出力層
からの出力値が最大である処理を上記入力される音素記
号系列に対して実行して得られる音声記号系列を、音声
認識用単語辞書として作成して、記憶装置に出力して記
憶する第2の作成手段とを備えたことを特徴とする音声
認識用単語辞書作成装置。 - 【請求項2】 上記第2の作成手段は、上記得られた音
声記号系列が上記入力された音素記号系列と異なるとき
に、上記入力された音素記号系列をさらに、音声認識用
単語辞書として、記憶装置に出力して記憶することを特
徴とする請求項1記載の音声認識用単語辞書作成装置。 - 【請求項3】 上記第2の作成手段は、上記入力される
音素記号系列を上記発音ネットワークの入力層に入力し
たときに、上記発音ネットワークの出力層からの出力値
が最大N個の処理を上記入力される音素記号系列に対し
て実行して得られる複数N個の音声記号系列を、音声認
識用単語辞書として作成して、記憶装置に出力して記憶
することを特徴とする請求項1記載の音声認識用単語辞
書作成装置。 - 【請求項4】 入力される発声音声文の音声信号に基づ
いて上記発声音声文の単語仮説を検出し尤度を計算する
ことにより、連続的に音声認識する音声認識手段を備え
た連続音声認識装置において、 上記音声認識手段は、請求項1、2又は3記載の音声認
識用単語辞書作成装置によって作成された音声認識用単
語辞書を参照して、上記発声音声文の単語仮説を検出し
尤度を計算することにより、連続的に音声認識すること
を特徴とする連続音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8247631A JP2974621B2 (ja) | 1996-09-19 | 1996-09-19 | 音声認識用単語辞書作成装置及び連続音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8247631A JP2974621B2 (ja) | 1996-09-19 | 1996-09-19 | 音声認識用単語辞書作成装置及び連続音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1097293A true JPH1097293A (ja) | 1998-04-14 |
JP2974621B2 JP2974621B2 (ja) | 1999-11-10 |
Family
ID=17166385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8247631A Expired - Fee Related JP2974621B2 (ja) | 1996-09-19 | 1996-09-19 | 音声認識用単語辞書作成装置及び連続音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2974621B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132287A (ja) * | 2000-10-20 | 2002-05-09 | Canon Inc | 音声収録方法および音声収録装置および記憶媒体 |
KR100486735B1 (ko) * | 2003-02-28 | 2005-05-03 | 삼성전자주식회사 | 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 |
WO2007138885A1 (ja) * | 2006-05-26 | 2007-12-06 | The University Of Tokyo | 運動データのデータベースの構造および設計法、データベースシステム |
US8918318B2 (en) | 2007-01-16 | 2014-12-23 | Nec Corporation | Extended recognition dictionary learning device and speech recognition system |
CN109256125A (zh) * | 2018-09-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音的离线识别方法、装置与存储介质 |
US10597823B2 (en) | 2013-05-03 | 2020-03-24 | Teijin Aramid B.V. | Crumb made of pulp |
CN116453525A (zh) * | 2023-06-08 | 2023-07-18 | 北京奇趣万物科技有限公司 | 一种音频导读自动生成方法和系统 |
-
1996
- 1996-09-19 JP JP8247631A patent/JP2974621B2/ja not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132287A (ja) * | 2000-10-20 | 2002-05-09 | Canon Inc | 音声収録方法および音声収録装置および記憶媒体 |
KR100486735B1 (ko) * | 2003-02-28 | 2005-05-03 | 삼성전자주식회사 | 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 |
WO2007138885A1 (ja) * | 2006-05-26 | 2007-12-06 | The University Of Tokyo | 運動データのデータベースの構造および設計法、データベースシステム |
JPWO2007138885A1 (ja) * | 2006-05-26 | 2009-10-01 | 国立大学法人 東京大学 | 運動データのデータベースの構造および設計法、データベースシステム |
US8918318B2 (en) | 2007-01-16 | 2014-12-23 | Nec Corporation | Extended recognition dictionary learning device and speech recognition system |
US10597823B2 (en) | 2013-05-03 | 2020-03-24 | Teijin Aramid B.V. | Crumb made of pulp |
CN109256125A (zh) * | 2018-09-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音的离线识别方法、装置与存储介质 |
CN109256125B (zh) * | 2018-09-29 | 2022-10-14 | 阿波罗智联(北京)科技有限公司 | 语音的离线识别方法、装置与存储介质 |
CN116453525A (zh) * | 2023-06-08 | 2023-07-18 | 北京奇趣万物科技有限公司 | 一种音频导读自动生成方法和系统 |
CN116453525B (zh) * | 2023-06-08 | 2023-10-20 | 北京奇趣万物科技有限公司 | 一种音频导读自动生成方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2974621B2 (ja) | 1999-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9812122B2 (en) | Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium | |
US6085160A (en) | Language independent speech recognition | |
JP3672595B2 (ja) | 結合されたストリングモデルの最小誤認率訓練 | |
JP3434838B2 (ja) | ワードスポッティング法 | |
US6317712B1 (en) | Method of phonetic modeling using acoustic decision tree | |
US20100004931A1 (en) | Apparatus and method for speech utterance verification | |
Kumar et al. | Development of Indian language speech databases for large vocabulary speech recognition systems | |
Masuko et al. | Imposture using synthetic speech against speaker verification based on spectrum and pitch | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
KR101424193B1 (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
Billa et al. | Multilingual speech recognition: the 1996 byblos callhome system. | |
Chen et al. | Automatic pronunciation assessment for Mandarin Chinese | |
JP2974621B2 (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
Lee et al. | Improved acoustic modeling for continuous speech recognition | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
Pylkkönen | Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training | |
Rebai et al. | Linto platform: A smart open voice assistant for business environments | |
JPH08123470A (ja) | 音声認識装置 | |
Lee et al. | A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin | |
JP2886118B2 (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
JP2731133B2 (ja) | 連続音声認識装置 | |
JPH08241096A (ja) | 音声認識方法 | |
Athanaselis et al. | Recognising verbal content of emotionally coloured speech | |
Raj et al. | Design and implementation of speech recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110903 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110903 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120903 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120903 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 14 |
|
LAPS | Cancellation because of no payment of annual fees |