JPH06348291A - 単語音声認識方法 - Google Patents
単語音声認識方法Info
- Publication number
- JPH06348291A JPH06348291A JP5138560A JP13856093A JPH06348291A JP H06348291 A JPH06348291 A JP H06348291A JP 5138560 A JP5138560 A JP 5138560A JP 13856093 A JP13856093 A JP 13856093A JP H06348291 A JPH06348291 A JP H06348291A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- segment
- recognition
- dictionary
- phonemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 認識音素列と辞書音素列との類似度を精度よ
く算出する。 【構成】 図2は本発明の一実施例における単語音声認
識方法を実現するための構成を示すブロック図である。
音響分析部10はマイクなどを通じて入力される音声を
フィルタに通してA/D変換する。特徴パラメータ抽出
部12はA/D変換された入力音声を所定のフレーム周
期毎に分析してフレーム毎の特徴パラメータ(LPCケ
プストラム係数)を求めて特徴パラメータ時系列を生成
する。音素認識部14(ニューラルネット)は特徴パラ
メータ時系列をフレーム単位でずらしながらフレーム毎
の音素を識別して音素時系列を生成する。セグメンテー
ション部16は音素時系列から母音区間と子音区間とを
区別して取り出す。音素認識信頼度算出部18は各々の
セグメント内の音素の信頼度を算出する。この音素の信
頼度の情報を用いて認識音素列と辞書音素列との類似度
を算出する。
く算出する。 【構成】 図2は本発明の一実施例における単語音声認
識方法を実現するための構成を示すブロック図である。
音響分析部10はマイクなどを通じて入力される音声を
フィルタに通してA/D変換する。特徴パラメータ抽出
部12はA/D変換された入力音声を所定のフレーム周
期毎に分析してフレーム毎の特徴パラメータ(LPCケ
プストラム係数)を求めて特徴パラメータ時系列を生成
する。音素認識部14(ニューラルネット)は特徴パラ
メータ時系列をフレーム単位でずらしながらフレーム毎
の音素を識別して音素時系列を生成する。セグメンテー
ション部16は音素時系列から母音区間と子音区間とを
区別して取り出す。音素認識信頼度算出部18は各々の
セグメント内の音素の信頼度を算出する。この音素の信
頼度の情報を用いて認識音素列と辞書音素列との類似度
を算出する。
Description
【0001】
【産業上の利用分野】本発明は、入力音声に対して音素
認識を行い、認識音素時系列を音素表記された単語辞書
と照合して単語を認識する単語音声認識方法に関する。
認識を行い、認識音素時系列を音素表記された単語辞書
と照合して単語を認識する単語音声認識方法に関する。
【0002】
【従来の技術】従来、単語音声の認識を行う場合、まず
最初に、入力音声を母音および子音で区別した音素のま
とまりをセグメントとして切り出し、切り出したセグメ
ントに対して一意的に認識音素を決定する。そして、一
つのセグメントに対して一つの認識音素を多数決により
順次決定していくことで認識音素系列を得る。最後に、
認識音素系列と辞書単語の音素列とを比較して類似度の
大きい単語を見つける。その際、認識音素系列と単語辞
書音素列との類似度は、認識される確率を音素間尤度と
して数値化したコンフュージョンマトリクス(以下CM
と呼ぶ)を用いて算出する。このような従来技術として
例えば、特公平1−26080号に示される方法があ
る。この従来の方法では表1に示すようなCMを用いて
いる。このCMの各数字は、単語辞書中の各音素がどの
ような音素に認識されるのかの確率をパーセントで示し
ている。例えば、単語辞書中の音素/a/が/a/と認
識される確率は90%、/o/に認識される確率は3
%、/u/に認識される確率は2%、脱落する確率は2
%であることを示している。
最初に、入力音声を母音および子音で区別した音素のま
とまりをセグメントとして切り出し、切り出したセグメ
ントに対して一意的に認識音素を決定する。そして、一
つのセグメントに対して一つの認識音素を多数決により
順次決定していくことで認識音素系列を得る。最後に、
認識音素系列と辞書単語の音素列とを比較して類似度の
大きい単語を見つける。その際、認識音素系列と単語辞
書音素列との類似度は、認識される確率を音素間尤度と
して数値化したコンフュージョンマトリクス(以下CM
と呼ぶ)を用いて算出する。このような従来技術として
例えば、特公平1−26080号に示される方法があ
る。この従来の方法では表1に示すようなCMを用いて
いる。このCMの各数字は、単語辞書中の各音素がどの
ような音素に認識されるのかの確率をパーセントで示し
ている。例えば、単語辞書中の音素/a/が/a/と認
識される確率は90%、/o/に認識される確率は3
%、/u/に認識される確率は2%、脱落する確率は2
%であることを示している。
【0003】
【表1】
【0004】このCMは音素認識の性能を示しているこ
とになる。これらの認識確率は予め多数のデータで認識
実験を行うことで求められている。CMの値としては、
表1のように音素の認識確率をそのまま用いる場合もあ
るが、音素の認識確率に対応して正規化等の補正が加え
られた尤度値を用いることもある。
とになる。これらの認識確率は予め多数のデータで認識
実験を行うことで求められている。CMの値としては、
表1のように音素の認識確率をそのまま用いる場合もあ
るが、音素の認識確率に対応して正規化等の補正が加え
られた尤度値を用いることもある。
【0005】
【発明が解決しようとする課題】しかしながらこのよう
な従来の方法であると、認識音素列と辞書音素列との類
似度を精度よく算出できないという問題があった。すな
わち従来の方法では、セグメント内に含まれる複数の音
素に対して認識音素が一意的に決定されるため、認識音
素系列を生成した段階で認識音素の信頼性に関する情報
が失われ、その情報が音素間尤度に反映されないことに
なる。ここでいう信頼性は、セグメントに含まれる各音
素がセグメント内の全ての音素に対して占める割合(こ
の値を信頼度とする)により決定される。
な従来の方法であると、認識音素列と辞書音素列との類
似度を精度よく算出できないという問題があった。すな
わち従来の方法では、セグメント内に含まれる複数の音
素に対して認識音素が一意的に決定されるため、認識音
素系列を生成した段階で認識音素の信頼性に関する情報
が失われ、その情報が音素間尤度に反映されないことに
なる。ここでいう信頼性は、セグメントに含まれる各音
素がセグメント内の全ての音素に対して占める割合(こ
の値を信頼度とする)により決定される。
【0006】例えば、あるセグメントに対して認識音素
が/a/と決定されたとしても、従来の方法によれば、
高い信頼性をもって認識音素が/a/と決定された場合
と、それほど高くない信頼性をもって/a/と決定され
た場合とで全く同じ音素間尤度となってしまう。すなわ
ち、あるセグメントに対して、例えば、認識音素が/a
/である信頼度が0.9、/o/である信頼度が0.1
という場合であっても、/a/である信頼度が0.6、
/o/である信頼度が0.4という場合であっても、同
一のCMにより求められる音素間尤度は同じ値になる。
表1に示したCMによれば、辞書音素/a/に対して/
a/と認識される音素間尤度は90%であり、/o/と
認識される音素間尤度は3%であることを基にして類似
度が算出される。つまり認識音素列の各音素にのみ依存
して類似度が算出されるため信頼度に違いがあったとし
てもその情報は全く生かされないことになる。
が/a/と決定されたとしても、従来の方法によれば、
高い信頼性をもって認識音素が/a/と決定された場合
と、それほど高くない信頼性をもって/a/と決定され
た場合とで全く同じ音素間尤度となってしまう。すなわ
ち、あるセグメントに対して、例えば、認識音素が/a
/である信頼度が0.9、/o/である信頼度が0.1
という場合であっても、/a/である信頼度が0.6、
/o/である信頼度が0.4という場合であっても、同
一のCMにより求められる音素間尤度は同じ値になる。
表1に示したCMによれば、辞書音素/a/に対して/
a/と認識される音素間尤度は90%であり、/o/と
認識される音素間尤度は3%であることを基にして類似
度が算出される。つまり認識音素列の各音素にのみ依存
して類似度が算出されるため信頼度に違いがあったとし
てもその情報は全く生かされないことになる。
【0007】本発明はこのような課題を解決するものと
し、認識音素列と辞書音素列との類似度を精度よく算出
することを目的とする。
し、認識音素列と辞書音素列との類似度を精度よく算出
することを目的とする。
【0008】
【課題を解決するための手段】かかる目的を達成するた
めに本発明では図1に例示する通り、以下の構成を採用
している。入力音声を所定のフレーム周期毎に分析して
フレーム毎の特徴パラメータを求めて特徴パラメータ時
系列を生成し、該特徴パラメータ時系列をフレーム単位
でずらしながらフレーム毎の音素を識別して音素時系列
を生成し、該音素時系列から、複数の音素のまとまりを
セグメントとして順次取り出してセグメント系列を生成
し、該セグメント系列に対応する単語を決定する際、セ
グメントに含まれる各音素が該セグメント内の全ての音
素に対して占める割合と、各音素の認識確率に対応した
尤度値とを用いることを特徴とする単語音声認識方法を
要旨としている。
めに本発明では図1に例示する通り、以下の構成を採用
している。入力音声を所定のフレーム周期毎に分析して
フレーム毎の特徴パラメータを求めて特徴パラメータ時
系列を生成し、該特徴パラメータ時系列をフレーム単位
でずらしながらフレーム毎の音素を識別して音素時系列
を生成し、該音素時系列から、複数の音素のまとまりを
セグメントとして順次取り出してセグメント系列を生成
し、該セグメント系列に対応する単語を決定する際、セ
グメントに含まれる各音素が該セグメント内の全ての音
素に対して占める割合と、各音素の認識確率に対応した
尤度値とを用いることを特徴とする単語音声認識方法を
要旨としている。
【0009】
【作用】本発明の単語音声認識方法によれば、入力音声
を所定のフレーム周期毎に分析してフレーム毎の特徴パ
ラメータを求めて特徴パラメータ時系列を生成し、特徴
パラメータ時系列をフレーム単位でずらしながらフレー
ム毎の音素を識別して音素時系列を生成し、音素時系列
から、複数の音素のまとまりをセグメントとして順次取
り出してセグメント系列を生成する。そして、セグメン
ト系列に対応する単語を決定する際、セグメントに含ま
れる各音素が該セグメント内の全ての音素に対して占め
る割合と各音素の認識確率に対応した尤度値とを用い
る。
を所定のフレーム周期毎に分析してフレーム毎の特徴パ
ラメータを求めて特徴パラメータ時系列を生成し、特徴
パラメータ時系列をフレーム単位でずらしながらフレー
ム毎の音素を識別して音素時系列を生成し、音素時系列
から、複数の音素のまとまりをセグメントとして順次取
り出してセグメント系列を生成する。そして、セグメン
ト系列に対応する単語を決定する際、セグメントに含ま
れる各音素が該セグメント内の全ての音素に対して占め
る割合と各音素の認識確率に対応した尤度値とを用い
る。
【0010】すなわち認識音素を一意的に決定してCM
の音素間尤度を読み取るのではなく、セグメントに含ま
れる各音素がセグメント内の全ての音素に対して占める
割合が用いられるので、認識音素の信頼度に見合った音
素間尤度を算出できる。そのため音素間尤度を求める段
階で認識音素の信頼性に関する情報が失われることな
く、類似度を精度よく算出することができる。
の音素間尤度を読み取るのではなく、セグメントに含ま
れる各音素がセグメント内の全ての音素に対して占める
割合が用いられるので、認識音素の信頼度に見合った音
素間尤度を算出できる。そのため音素間尤度を求める段
階で認識音素の信頼性に関する情報が失われることな
く、類似度を精度よく算出することができる。
【0011】
【実施例】以下本発明の実施例について図面を基に詳細
に説明する。図2は本発明の一実施例における単語音声
認識方法を実現するための構成を示すブロック図であ
る。
に説明する。図2は本発明の一実施例における単語音声
認識方法を実現するための構成を示すブロック図であ
る。
【0012】音響分析部10は、マイクなどを通じて入
力される音声をフィルタに通してA/D変換する電気回
路である。特徴パラメータ抽出部12は、A/D変換さ
れた入力音声を所定のフレーム周期毎に分析してフレー
ム毎の特徴パラメータ(本実施例ではLPCケプストラ
ム係数)を求めて特徴パラメータ時系列を生成する論理
回路である。音素認識部14(実施例ではニューラルネ
ット)は、特徴パラメータ時系列をフレーム単位でずら
しながらフレーム毎の音素を識別して音素時系列を生成
する論理回路である。セグメンテーション部16は、音
素時系列から母音区間と子音区間とを区別して取り出す
論理回路である。音素認識信頼度算出部18は、各々の
セグメント内の音素の信頼度を算出する論理回路であ
る。尚特徴パラメータ抽出部12、音素認識部14、セ
グメンテーション部16および音素認識信頼度算出部1
8は、計算機上でソフトウエア処理により実現してもよ
い。またこれらの処理を実現する回路構成等については
音声処理の分野で周知であるため詳細な説明は省略す
る。
力される音声をフィルタに通してA/D変換する電気回
路である。特徴パラメータ抽出部12は、A/D変換さ
れた入力音声を所定のフレーム周期毎に分析してフレー
ム毎の特徴パラメータ(本実施例ではLPCケプストラ
ム係数)を求めて特徴パラメータ時系列を生成する論理
回路である。音素認識部14(実施例ではニューラルネ
ット)は、特徴パラメータ時系列をフレーム単位でずら
しながらフレーム毎の音素を識別して音素時系列を生成
する論理回路である。セグメンテーション部16は、音
素時系列から母音区間と子音区間とを区別して取り出す
論理回路である。音素認識信頼度算出部18は、各々の
セグメント内の音素の信頼度を算出する論理回路であ
る。尚特徴パラメータ抽出部12、音素認識部14、セ
グメンテーション部16および音素認識信頼度算出部1
8は、計算機上でソフトウエア処理により実現してもよ
い。またこれらの処理を実現する回路構成等については
音声処理の分野で周知であるため詳細な説明は省略す
る。
【0013】次に本実施例で音声入力される単語と予め
記憶装置に格納されている辞書単語との類似度を算出す
る処理についてさらに詳しく説明する。図3は音声を入
力して音素時系列22を求めるまでの処理過程を示して
いる。まず最初に、音声認識処理を実行して単語音声と
辞書単語との類似度を算出しようとする者が、例えば日
本語の音声信号を音響分析部10に入力する。ここで
は、入力する音声が「ポプラ」であった場合としての処
理過程を示している。
記憶装置に格納されている辞書単語との類似度を算出す
る処理についてさらに詳しく説明する。図3は音声を入
力して音素時系列22を求めるまでの処理過程を示して
いる。まず最初に、音声認識処理を実行して単語音声と
辞書単語との類似度を算出しようとする者が、例えば日
本語の音声信号を音響分析部10に入力する。ここで
は、入力する音声が「ポプラ」であった場合としての処
理過程を示している。
【0014】まず音響分析部10では入力音声がフィル
タに通されA/D変換される。音響分析部10でディジ
タル化された音声信号は、次に、特徴パラメータ抽出部
12でフレームの分析長毎に認識に必要な特徴パラメー
タ時系列20で表される音声信号に変換される。特徴パ
ラメータ抽出部12としてはさまざまな周知技術があり
どのようなものを用いてもよいが、本実施例ではLPC
ケプストラム係数を算出する構成を採用した。以下この
算出手順について簡単に説明する。
タに通されA/D変換される。音響分析部10でディジ
タル化された音声信号は、次に、特徴パラメータ抽出部
12でフレームの分析長毎に認識に必要な特徴パラメー
タ時系列20で表される音声信号に変換される。特徴パ
ラメータ抽出部12としてはさまざまな周知技術があり
どのようなものを用いてもよいが、本実施例ではLPC
ケプストラム係数を算出する構成を採用した。以下この
算出手順について簡単に説明する。
【0015】まず最初に1フレーム10msec周期毎
に20msecの区間幅で15次のLPC(線形予測)
分析を行い、線形予測係数α1,α2,・・・,α15と残
差パワーEを求める。そして、これよりパワー項C0 を
含むケプストラム係数Cn(0≦n≦15)を以下に示
す数式により算出する。
に20msecの区間幅で15次のLPC(線形予測)
分析を行い、線形予測係数α1,α2,・・・,α15と残
差パワーEを求める。そして、これよりパワー項C0 を
含むケプストラム係数Cn(0≦n≦15)を以下に示
す数式により算出する。
【0016】
【数1】
【0017】続いて、この16個のケプストラム係数C
nを−1から+1の範囲内に正規化して特徴パラメータ
Pnを求め、この特徴パラメータPnをフレームf毎に
求めた特徴パラメータPnf時系列を得る。そして、特徴
パラメータPnf時系列を求めたフレームfの所定フレー
ム数分Pnf-m(またはPnf)を音素認識部14(ニュー
ラルネットワーク)に入力し、その出力として0af,O
if,Ouf,・・・,Onfを得る。
nを−1から+1の範囲内に正規化して特徴パラメータ
Pnを求め、この特徴パラメータPnをフレームf毎に
求めた特徴パラメータPnf時系列を得る。そして、特徴
パラメータPnf時系列を求めたフレームfの所定フレー
ム数分Pnf-m(またはPnf)を音素認識部14(ニュー
ラルネットワーク)に入力し、その出力として0af,O
if,Ouf,・・・,Onfを得る。
【0018】ここで、音素認識部14(ニューラルネッ
トワーク)は、図4に示すような多層パーセプトロン型
ニューラルネットワークで入力層14aは所定フレーム
数分の特徴パラメータ数に等しいニューロン数よりなり
中間1層14b,中間2層14c,出力層14dの4層
構造で、多層ニューロンは前後層のニューロンと全結合
した構造を有している。この際、音素認識部14(ニュ
ーラルネットワーク)には、17個の音素(a、i、
u、e、o、p、t、k、s、h、b、d、g、r、
z、m、n)を識別するように、周知の手順に従って学
習および認識させている。この17個の音素は、母音
(a、i、u、e、o)・無声破裂性子音(p、t、
k)・無声摩擦性子音(s、h)・有声破裂性子音
(b、d、g、r)・有声摩擦性子音(z)・鼻音性子
音(m、n)に分類される。
トワーク)は、図4に示すような多層パーセプトロン型
ニューラルネットワークで入力層14aは所定フレーム
数分の特徴パラメータ数に等しいニューロン数よりなり
中間1層14b,中間2層14c,出力層14dの4層
構造で、多層ニューロンは前後層のニューロンと全結合
した構造を有している。この際、音素認識部14(ニュ
ーラルネットワーク)には、17個の音素(a、i、
u、e、o、p、t、k、s、h、b、d、g、r、
z、m、n)を識別するように、周知の手順に従って学
習および認識させている。この17個の音素は、母音
(a、i、u、e、o)・無声破裂性子音(p、t、
k)・無声摩擦性子音(s、h)・有声破裂性子音
(b、d、g、r)・有声摩擦性子音(z)・鼻音性子
音(m、n)に分類される。
【0019】図5は、音素時系列22から音素認識信頼
度マトリクス26を生成するまでの処理過程を示してい
る。まず音素時系列22は、セグメンテーション部16
により、母音(a、i、u、e、o)または非母音
(p、t、k、s、h、b、d、g、r、z、m、n)
の区間として複数の音素がセグメントW1〜W6にまと
められ、セグメント系列24が生成される。
度マトリクス26を生成するまでの処理過程を示してい
る。まず音素時系列22は、セグメンテーション部16
により、母音(a、i、u、e、o)または非母音
(p、t、k、s、h、b、d、g、r、z、m、n)
の区間として複数の音素がセグメントW1〜W6にまと
められ、セグメント系列24が生成される。
【0020】次に、セグメント系列24のセグメントW
1〜W6に含まれる各音素が該セグメント内の全ての音
素に対して占める割合が音素認識信頼度マトリクス26
として生成される。例えば、セグメントW2の音素列は
/ouaaao/であり、6音素が含まれている。そし
て/a/に注目すると、セグメントW2の6音素の内の
3音素を占めていることから、/a/の信頼度は3÷6
=0.5となる。同様にセグメントW2の/i/の信頼
度は0÷6=0、/u/の信頼度は1÷6=0.17、
/e/の信頼度は0÷6=0、/o/の信頼度は2÷6
=0.33となる。このようにして、全てのセグメント
W1〜W6に対して信頼度が算出され、音素認識信頼度
マトリクス26が生成される。
1〜W6に含まれる各音素が該セグメント内の全ての音
素に対して占める割合が音素認識信頼度マトリクス26
として生成される。例えば、セグメントW2の音素列は
/ouaaao/であり、6音素が含まれている。そし
て/a/に注目すると、セグメントW2の6音素の内の
3音素を占めていることから、/a/の信頼度は3÷6
=0.5となる。同様にセグメントW2の/i/の信頼
度は0÷6=0、/u/の信頼度は1÷6=0.17、
/e/の信頼度は0÷6=0、/o/の信頼度は2÷6
=0.33となる。このようにして、全てのセグメント
W1〜W6に対して信頼度が算出され、音素認識信頼度
マトリクス26が生成される。
【0021】セグメント系列24は、予め記憶装置(図
示せず)に格納されている辞書音素との間で類似度が算
出され、最も類似度が大きくなる単語が認識結果とされ
る。類似度の算出処理は、図6に示すフローチャートに
従って実行される。実施例ではセグメント系列24に対
し、辞書音素として/popura/(ポプラ)との類
似度を算出して比較する場合を示す。
示せず)に格納されている辞書音素との間で類似度が算
出され、最も類似度が大きくなる単語が認識結果とされ
る。類似度の算出処理は、図6に示すフローチャートに
従って実行される。実施例ではセグメント系列24に対
し、辞書音素として/popura/(ポプラ)との類
似度を算出して比較する場合を示す。
【0022】まず最初に、セグメント系列24のセグメ
ントW1(/ptttp/)と辞書音素として/pop
ura/の/p/とを取り出す(ステップ110)。次
に、取り出したセグメントW1とそれに対応する辞書音
素/p/との間の音素間尤度を算出する(ステップ12
0)。この音素間尤度の算出には、音素認識信頼度マト
リクス26の値(信頼度)およびコンフュージョンマト
リクス(CM)の置換尤度が用いられる。音素間尤度の
算出処理およびCMの置換尤度についての詳細は図6お
よび図7に基づき後述する。セグメントW1(/ptt
tp/)と辞書音素/p/との場合の音素間尤度が算出
される。
ントW1(/ptttp/)と辞書音素として/pop
ura/の/p/とを取り出す(ステップ110)。次
に、取り出したセグメントW1とそれに対応する辞書音
素/p/との間の音素間尤度を算出する(ステップ12
0)。この音素間尤度の算出には、音素認識信頼度マト
リクス26の値(信頼度)およびコンフュージョンマト
リクス(CM)の置換尤度が用いられる。音素間尤度の
算出処理およびCMの置換尤度についての詳細は図6お
よび図7に基づき後述する。セグメントW1(/ptt
tp/)と辞書音素/p/との場合の音素間尤度が算出
される。
【0023】セグメントW1と辞書音素/p/との音素
間尤度が算出されると次のセグメントW2および辞書音
素/u/へと移行する(ステップ130)。そして、セ
グメント系列24および辞書音素/popura/の各
々のセグメントおよび辞書音素について同様の処理を繰
り返し、全てについて音素間尤度を算出する(ステップ
140)。
間尤度が算出されると次のセグメントW2および辞書音
素/u/へと移行する(ステップ130)。そして、セ
グメント系列24および辞書音素/popura/の各
々のセグメントおよび辞書音素について同様の処理を繰
り返し、全てについて音素間尤度を算出する(ステップ
140)。
【0024】このようにして求めた音素間尤度を基に、
セグメント系列24および辞書音素/popura/の
類似度が算出される(ステップ150)。類似度の算出
は従来のマッチングアルゴリズムと同様に算出される。
図7は、図6の類似度算出処理で実行される音素間尤度
算出処理(ステップ120)の処理過程を示したフロー
チャートである。
セグメント系列24および辞書音素/popura/の
類似度が算出される(ステップ150)。類似度の算出
は従来のマッチングアルゴリズムと同様に算出される。
図7は、図6の類似度算出処理で実行される音素間尤度
算出処理(ステップ120)の処理過程を示したフロー
チャートである。
【0025】まず最初に、セグメント(認識音素)に含
まれる音素を順に注目音素としてずらしながら、音素認
識信頼度マトリクス26の信頼度と注目音素(認識音
素)に対する辞書音素の置換尤度との積算値を算出する
(ステップ210)。その際、注目音素(認識音素)に
対する辞書音素の置換尤度は、CMを参照して求められ
る。本実施例では、表2に示すCMを用いる。
まれる音素を順に注目音素としてずらしながら、音素認
識信頼度マトリクス26の信頼度と注目音素(認識音
素)に対する辞書音素の置換尤度との積算値を算出する
(ステップ210)。その際、注目音素(認識音素)に
対する辞書音素の置換尤度は、CMを参照して求められ
る。本実施例では、表2に示すCMを用いる。
【0026】
【表2】
【0027】このCMは、認識確率をそのまま用いるの
ではなく、一定の処理に基づき補正を加えている。すな
わち認識確率に対応した尤度値を置換尤度として用いて
いる。この置換尤度を求める手順は次の通りである。ま
ず予め多数のデータで認識実験を行い、各場合の認識結
果から認識確率を求める。この認識確率をそのまま置換
尤度とすることもあるが、類似度計算値が小さくなりす
ぎることを防ぐために、本実施例では、最大認識率の場
合を0.9とし、その他の場合はこれを基準に正規化し
て置換尤度としている。この置換尤度の意味は、変域を
1〜0とすると、1は置換が必ず起こること(認識率1
00%)、0が絶対起こらないこと(認識率0%)に対
応している。
ではなく、一定の処理に基づき補正を加えている。すな
わち認識確率に対応した尤度値を置換尤度として用いて
いる。この置換尤度を求める手順は次の通りである。ま
ず予め多数のデータで認識実験を行い、各場合の認識結
果から認識確率を求める。この認識確率をそのまま置換
尤度とすることもあるが、類似度計算値が小さくなりす
ぎることを防ぐために、本実施例では、最大認識率の場
合を0.9とし、その他の場合はこれを基準に正規化し
て置換尤度としている。この置換尤度の意味は、変域を
1〜0とすると、1は置換が必ず起こること(認識率1
00%)、0が絶対起こらないこと(認識率0%)に対
応している。
【0028】表3はセグメントW2(/ouaaao
/)に対して辞書音素/a/との置換尤度を求める算出
手順を示している。
/)に対して辞書音素/a/との置換尤度を求める算出
手順を示している。
【0029】
【表3】
【0030】この表3に示す通り、セグメントW2に対
して注目音素を/a/とした場合、信頼度(A)は6音
素に対し3音素を占めているので信頼度(A)は3÷6
=0.5となる。図8に示したCMの注目音素(認識音
素)/a/に対する辞書音素/a/の置換尤度(B)は
0.9である。そのため信頼度(A)と置換尤度(B)
との積は0.45となる。
して注目音素を/a/とした場合、信頼度(A)は6音
素に対し3音素を占めているので信頼度(A)は3÷6
=0.5となる。図8に示したCMの注目音素(認識音
素)/a/に対する辞書音素/a/の置換尤度(B)は
0.9である。そのため信頼度(A)と置換尤度(B)
との積は0.45となる。
【0031】次に、注目音素/a/を次の音素/i/に
移行する(ステップ220)。このようにして全ての注
目音素について、信頼度(A)と置換尤度(B)との積
を求める(ステップ230)。全ての注目音素につい
て、信頼度(A)と置換尤度(B)との積を求めると
(ステップ230:Yes)、その積の内で最大の値を
音素間尤度とする(ステップ240)。表3に示す例で
いうならば、注目音素を/a/とした場合の0.45が
最大値であり、この値がセグメントW2(/ouaaa
o/)と辞書音素/a/との音素間尤度となる。
移行する(ステップ220)。このようにして全ての注
目音素について、信頼度(A)と置換尤度(B)との積
を求める(ステップ230)。全ての注目音素につい
て、信頼度(A)と置換尤度(B)との積を求めると
(ステップ230:Yes)、その積の内で最大の値を
音素間尤度とする(ステップ240)。表3に示す例で
いうならば、注目音素を/a/とした場合の0.45が
最大値であり、この値がセグメントW2(/ouaaa
o/)と辞書音素/a/との音素間尤度となる。
【0032】次に実施例のセグメント系列24と、辞書
音素を/popura/(ポプラ)および/tebur
a/(手ぶら)とした場合の類似度を算出する。セグメ
ント系列24に対し、辞書音素/popura/は表4
のように対応する。
音素を/popura/(ポプラ)および/tebur
a/(手ぶら)とした場合の類似度を算出する。セグメ
ント系列24に対し、辞書音素/popura/は表4
のように対応する。
【0033】
【表4】
【0034】そして図6のフローチャートに示した処理
に基づき、セグメントW1〜W6と辞書音素/popu
ra/との類似度を算出する。各セグメントW1〜W6
と各辞書音素との音素間尤度は表5に示す通りになる。
この表5に示す通りセグメントW1および辞書音素/p
/、セグメントW2および辞書音素/o/、セグメント
W3および辞書音素/p/、セグメントW4および辞書
音素/u/、セグメントW5および辞書音素/r/、セ
グメントW6および辞書音素/a/の音素間尤度を図7
のフローチャートに示す処理に従ってそれぞれ求める。
に基づき、セグメントW1〜W6と辞書音素/popu
ra/との類似度を算出する。各セグメントW1〜W6
と各辞書音素との音素間尤度は表5に示す通りになる。
この表5に示す通りセグメントW1および辞書音素/p
/、セグメントW2および辞書音素/o/、セグメント
W3および辞書音素/p/、セグメントW4および辞書
音素/u/、セグメントW5および辞書音素/r/、セ
グメントW6および辞書音素/a/の音素間尤度を図7
のフローチャートに示す処理に従ってそれぞれ求める。
【0035】
【表5】
【0036】求められた各音素間尤度から、セグメント
系列24と辞書音素/popura/との類似度は次の
ように求められる。 2×(0.42+0.3+0.51+0.9+0.68
+0.6)÷(6+6)= 0.568 本実施例における類似度計算は、認識音素列の音素と辞
書音素列の音素とが1対1で対応する場合の通常の方法
により算出している。類似度を算出する方法としては他
にもさまざまなものがあり、どのようなものを用いても
構わない。
系列24と辞書音素/popura/との類似度は次の
ように求められる。 2×(0.42+0.3+0.51+0.9+0.68
+0.6)÷(6+6)= 0.568 本実施例における類似度計算は、認識音素列の音素と辞
書音素列の音素とが1対1で対応する場合の通常の方法
により算出している。類似度を算出する方法としては他
にもさまざまなものがあり、どのようなものを用いても
構わない。
【0037】同様にセグメント系列24と辞書音素/p
opura/との音素間尤度が表6および表7に示すよ
うに求められる。
opura/との音素間尤度が表6および表7に示すよ
うに求められる。
【0038】
【表6】
【0039】
【表7】
【0040】求められた各音素間尤度から、セグメント
系列24と辞書音素/tebura/との類似度は次の
ように求められる。 2×(0.54+0.2+0.4+0.9+0.68+
0.6)÷(6+6)= 0.553 実施例のセグメント系列24に対する類似度を、辞書音
素/popura/と辞書音素/tebura/とで比
較した場合、類似度が大きいのは辞書音素/popur
a/(ポプラ)となり、正確な辞書音素が認識される結
果となる。
系列24と辞書音素/tebura/との類似度は次の
ように求められる。 2×(0.54+0.2+0.4+0.9+0.68+
0.6)÷(6+6)= 0.553 実施例のセグメント系列24に対する類似度を、辞書音
素/popura/と辞書音素/tebura/とで比
較した場合、類似度が大きいのは辞書音素/popur
a/(ポプラ)となり、正確な辞書音素が認識される結
果となる。
【0041】参考のため、実施例と同様の音素時系列2
2に対して、辞書音素/popura/と辞書音素/t
ebura/との間の類似度を、従来の方法で算出した
場合を示す。従来では、セグメントに対する音素の決定
はセグメント内を一番多く占める音素で一意的に決定さ
れる。すなわち図5に示す音素時系列22ならば、セグ
メントW1は音素/t/、セグメントW2は音素/a/
というように多数決で決定される。このような音素の多
数決により音素時系列22に対する認識音素は/tap
ura/と決定される。
2に対して、辞書音素/popura/と辞書音素/t
ebura/との間の類似度を、従来の方法で算出した
場合を示す。従来では、セグメントに対する音素の決定
はセグメント内を一番多く占める音素で一意的に決定さ
れる。すなわち図5に示す音素時系列22ならば、セグ
メントW1は音素/t/、セグメントW2は音素/a/
というように多数決で決定される。このような音素の多
数決により音素時系列22に対する認識音素は/tap
ura/と決定される。
【0042】従来の方法によれば、このように一意的に
決定された認識音素/tapura/に対して、辞書音
素/popura/および辞書音素/tebura/の
音素間尤度を求めることになる。音素間尤度を本実施例
で用いた表2のCMに基づき求めて類似度を算出する。
決定された認識音素/tapura/に対して、辞書音
素/popura/および辞書音素/tebura/の
音素間尤度を求めることになる。音素間尤度を本実施例
で用いた表2のCMに基づき求めて類似度を算出する。
【0043】認識音素/tebura/に対する辞書音
素/popura/は表8に示す対応でCMから音素間
尤度が求められる。
素/popura/は表8に示す対応でCMから音素間
尤度が求められる。
【0044】
【表8】
【0045】各々の音素間尤度から次の計算により認識
音素/tapura/に対する辞書音素/popura
/の類似度が算出される。 2×(0.7+0.2+0.9+0.9+0.9+0.
9)÷(6+6)= 0.75 同様に認識音素/tapura/に対する辞書音素/t
ebura/は表9に示す対応でCMから音素間尤度が
求められる。
音素/tapura/に対する辞書音素/popura
/の類似度が算出される。 2×(0.7+0.2+0.9+0.9+0.9+0.
9)÷(6+6)= 0.75 同様に認識音素/tapura/に対する辞書音素/t
ebura/は表9に示す対応でCMから音素間尤度が
求められる。
【0046】
【表9】
【0047】各々の音素間尤度から次の計算により認識
音素/tapura/に対する辞書音素/tebura
/の類似度が算出される。 2×(0.9+0.4+0.7+0.9+0.9+0.
9)÷(6+6)= 0.78 このため従来の方法によれば、音素時系列22に対して
辞書音素/tebura/の類似度の方が辞書音素/p
opura/の類似度よりも大きくなる。これはセグメ
ント系列24のセグメントW2(/ouaaao/)で
は、eが1つも含まれていないにも関わらず、その信頼
度の情報は無視されて表2のCMから音素間尤度が0.
4と大きくなってしまったことに原因がある。すなわち
本実施例と同じCMを用いても信頼度を無視した従来の
方法では、類似度を精度よく算出することはできない。
表10に本実施例で算出した類似度と従来の技術で算出
した類似度を比較して示す。
音素/tapura/に対する辞書音素/tebura
/の類似度が算出される。 2×(0.9+0.4+0.7+0.9+0.9+0.
9)÷(6+6)= 0.78 このため従来の方法によれば、音素時系列22に対して
辞書音素/tebura/の類似度の方が辞書音素/p
opura/の類似度よりも大きくなる。これはセグメ
ント系列24のセグメントW2(/ouaaao/)で
は、eが1つも含まれていないにも関わらず、その信頼
度の情報は無視されて表2のCMから音素間尤度が0.
4と大きくなってしまったことに原因がある。すなわち
本実施例と同じCMを用いても信頼度を無視した従来の
方法では、類似度を精度よく算出することはできない。
表10に本実施例で算出した類似度と従来の技術で算出
した類似度を比較して示す。
【0048】
【表10】
【0049】以上説明した通り本実施例の単語音声認識
方法によれば、セグメントに含まれる各音素が該セグメ
ント内の全ての音素に対して占める割合、すなわち信頼
度(A)の情報を用いて認識音素列と辞書音素列との類
似度を算出しているので、音素時系列22に対して精度
よく辞書単語を決定することができる。
方法によれば、セグメントに含まれる各音素が該セグメ
ント内の全ての音素に対して占める割合、すなわち信頼
度(A)の情報を用いて認識音素列と辞書音素列との類
似度を算出しているので、音素時系列22に対して精度
よく辞書単語を決定することができる。
【0050】尚本実施例では、認識確率を所定の手順で
加工したCMを用いたが、これは各音素の認識確率に対
応した尤度値であれば、他のCMであっても構わない。
また実施例では、信頼度(A)と置換尤度(B)とを積
算した値を音素間尤度として類似度を算出したが、これ
は例えば、適当な係数をかけたり足し合わせたりする等
の他の方法により類似度を算出してもよい。
加工したCMを用いたが、これは各音素の認識確率に対
応した尤度値であれば、他のCMであっても構わない。
また実施例では、信頼度(A)と置換尤度(B)とを積
算した値を音素間尤度として類似度を算出したが、これ
は例えば、適当な係数をかけたり足し合わせたりする等
の他の方法により類似度を算出してもよい。
【0051】
【発明の効果】以上説明した通り本発明の単語音声認識
方法によれば、セグメントに含まれる各音素がセグメン
ト内の全ての音素に対して占める割合、すなわち信頼度
が用いられて音素間尤度が求められる。そのため認識音
素の信頼性に関する情報が失われることなく、認識音素
列と辞書音素列との類似度を精度よく算出することがで
きる。
方法によれば、セグメントに含まれる各音素がセグメン
ト内の全ての音素に対して占める割合、すなわち信頼度
が用いられて音素間尤度が求められる。そのため認識音
素の信頼性に関する情報が失われることなく、認識音素
列と辞書音素列との類似度を精度よく算出することがで
きる。
【図1】 本発明の構成例示図である。
【図2】 実施例を実現するための構成ブロック図で
ある。
ある。
【図3】 実施例の処理過程を示す第1説明図であ
る。
る。
【図4】 実施例のニューラルネットワークを示す説
明図である。
明図である。
【図5】 実施例の処理過程を示す第2説明図であ
る。。
る。。
【図6】 実施例の類似度算出処理を示すフローチャ
ートである。
ートである。
【図7】 実施例の音素間尤度算出処理を示すフロー
チャートである。
チャートである。
10・・・音響分析部、12・・・特徴パラメータ抽出
部、14・・・音素認識部、16・・・セグメンテーシ
ョン部、18・・・音素認識信頼度算出部、20・・・
特徴パラメータ時系列、22・・・音素時系列、24・
・・セグメント系列、26・・・音素認識信頼度マトリ
クス
部、14・・・音素認識部、16・・・セグメンテーシ
ョン部、18・・・音素認識信頼度算出部、20・・・
特徴パラメータ時系列、22・・・音素時系列、24・
・・セグメント系列、26・・・音素認識信頼度マトリ
クス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 加藤 利文 愛知県刈谷市昭和町1丁目1番地 日本電 装株式会社内
Claims (1)
- 【請求項1】 入力音声を所定のフレーム周期毎に分析
してフレーム毎の特徴パラメータを求めて特徴パラメー
タ時系列を生成し、 該特徴パラメータ時系列をフレーム単位でずらしながら
フレーム毎の音素を識別して音素時系列を生成し、 該音素時系列から、複数の音素のまとまりをセグメント
として順次取り出してセグメント系列を生成し、 該セグメント系列に対応する単語を決定する際、セグメ
ントに含まれる各音素が該セグメント内の全ての音素に
対して占める割合と、各音素の認識確率に対応した尤度
値とを用いることを特徴とする単語音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5138560A JPH06348291A (ja) | 1993-06-10 | 1993-06-10 | 単語音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5138560A JPH06348291A (ja) | 1993-06-10 | 1993-06-10 | 単語音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06348291A true JPH06348291A (ja) | 1994-12-22 |
Family
ID=15225003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5138560A Pending JPH06348291A (ja) | 1993-06-10 | 1993-06-10 | 単語音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06348291A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5732393A (en) * | 1995-02-07 | 1998-03-24 | Toyota Jidosha Kabushiki Kaisha | Voice recognition device using linear predictive coding |
KR100486735B1 (ko) * | 2003-02-28 | 2005-05-03 | 삼성전자주식회사 | 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 |
JP2006522370A (ja) * | 2003-03-31 | 2006-09-28 | ノヴォーリス テクノロジーズ リミテッド | 表音ベース音声認識システム及び方法 |
-
1993
- 1993-06-10 JP JP5138560A patent/JPH06348291A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5732393A (en) * | 1995-02-07 | 1998-03-24 | Toyota Jidosha Kabushiki Kaisha | Voice recognition device using linear predictive coding |
KR100486735B1 (ko) * | 2003-02-28 | 2005-05-03 | 삼성전자주식회사 | 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 |
JP2006522370A (ja) * | 2003-03-31 | 2006-09-28 | ノヴォーリス テクノロジーズ リミテッド | 表音ベース音声認識システム及び方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US5333275A (en) | System and method for time aligning speech | |
Polzehl et al. | Anger recognition in speech using acoustic and linguistic cues | |
JPS59226400A (ja) | 音声認識装置 | |
JPS62217295A (ja) | 音声認識方式 | |
Celin et al. | A weighted speaker-specific confusion transducer-based augmentative and alternative speech communication aid for dysarthric speakers | |
Chuctaya et al. | Isolated automatic speech recognition of Quechua numbers using MFCC, DTW and KNN | |
JP2955297B2 (ja) | 音声認識システム | |
Pandey et al. | Multilingual speaker recognition using ANFIS | |
JP3444108B2 (ja) | 音声認識装置 | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Habeeb et al. | An ensemble technique for speech recognition in noisy environments | |
JPH06348291A (ja) | 単語音声認識方法 | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
JPH01204099A (ja) | 音声認識装置 | |
Shafieian | Hidden Markov model and Persian speech recognition | |
CN114595744A (zh) | 一种基于双模态组合多学习模型识别器的情感的识别方法及装置 | |
Deekshitha et al. | Speech Signal Based Broad Phoneme Classification and Search Space Reduction for Spoken Term Detection | |
Jamil et al. | Sentence boundary detection without speech recognition: A case of an under-resourced language. | |
JPH0968995A (ja) | 音声認識方法 | |
US6038531A (en) | Similar word discrimination method and its apparatus | |
JPH07210197A (ja) | 話者識別方法 | |
JP3291073B2 (ja) | 音声認識方式 | |
Satravaha et al. | Tone classification of syllable-segmented Thai speech based on multilayer perceptron | |
Deekshitha et al. | Implementation of Automatic segmentation of speech signal for phonetic engine in Malayalam |