JP3302923B2 - 音声入力装置 - Google Patents
音声入力装置Info
- Publication number
- JP3302923B2 JP3302923B2 JP10067898A JP10067898A JP3302923B2 JP 3302923 B2 JP3302923 B2 JP 3302923B2 JP 10067898 A JP10067898 A JP 10067898A JP 10067898 A JP10067898 A JP 10067898A JP 3302923 B2 JP3302923 B2 JP 3302923B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- input
- word
- model
- syllable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【発明の属する技術分野】本発明は、音声入力装置に関
し、特に、複数の音声入力により単語認識を行う音声登
録認識装置に関する。
し、特に、複数の音声入力により単語認識を行う音声登
録認識装置に関する。
【0002】
【従来の技術】複数の音声入力により単語認識を行う音
声登録認識装置として、例えば文献1(鹿野清宏、「音
声認識の基礎」、平成8年5月17日、p.32〜34、39〜4
3)等の記載が参照される。
声登録認識装置として、例えば文献1(鹿野清宏、「音
声認識の基礎」、平成8年5月17日、p.32〜34、39〜4
3)等の記載が参照される。
【0003】音声入力装置による単語入力はまだ100
%とはいえず、入力装置に音声認識の信頼性を上げる手
段が必要とされる。
%とはいえず、入力装置に音声認識の信頼性を上げる手
段が必要とされる。
【0004】
【発明が解決しようとする課題】ところで、人間の音声
は、同一人の同一単語の発声であっても、発声の度に環
境や話者の状態によって大きく異なる場合が考えられ
る。特に、一回だけの発声内容を認識しようとする際に
は、その一回の発声の乱れ等が音声波形に大きく影響を
与え、誤認識が生じ易い。
は、同一人の同一単語の発声であっても、発声の度に環
境や話者の状態によって大きく異なる場合が考えられ
る。特に、一回だけの発声内容を認識しようとする際に
は、その一回の発声の乱れ等が音声波形に大きく影響を
与え、誤認識が生じ易い。
【0005】このため、音声入力装置を使用するさまざ
まな局面には、高い認識性能をもつとして、音声入力回
数を多く設定することが可能な局面が存在する。
まな局面には、高い認識性能をもつとして、音声入力回
数を多く設定することが可能な局面が存在する。
【0006】したがって本発明の目的は、そのような場
面において、複数の入力音声を利用して認識率の高い音
声認識を実現する音声入力装置を提供することにある。
面において、複数の入力音声を利用して認識率の高い音
声認識を実現する音声入力装置を提供することにある。
【0007】
【課題を解決するための手段】前記目的を達成するた
め、本発明は、二回以上の発声の情報を総合することに
より、一回だけの発声で起こりやすい、その発声特有の
「ゆれ」の影響を低減し、確度の高い音声入力を実現す
るようにしたものである。また、本発明は、発声様式の
異なる入力を採用することで、個々の発声様式に依存し
て発生する音声波形の「ゆれ」を解消する。
め、本発明は、二回以上の発声の情報を総合することに
より、一回だけの発声で起こりやすい、その発声特有の
「ゆれ」の影響を低減し、確度の高い音声入力を実現す
るようにしたものである。また、本発明は、発声様式の
異なる入力を採用することで、個々の発声様式に依存し
て発生する音声波形の「ゆれ」を解消する。
【0008】より詳細には、本発明は、複数回の入力音
声のそれぞれ一定時間ごとの特徴量を計算する音声分析
手段と、入力として想定されるすべての単語の音声パタ
ン(「単語モデル」という)を保持する辞書部と、前記
特徴量と前記辞書部中の単語モデルとのパタンマッチン
グを行い、前記入力音声の前記単語モデルそれぞれに対
する尤度(「粗尤度」という)を算出して出力するマッ
チング手段と、前記各単語モデルの、前記入力音声すべ
てとの間の前記粗尤度を保持する粗尤度格納部と、前記
単語を、対応する前記単語モデルの前記入力音声との間
の前記粗尤度の加重平均の大きいものから、予め定めた
一定の個数だけ出力する出力手段と、を備え、前記辞書
部が、前記入力として想定されるすべての単語に対し、
当該単語中に出現する音節すべての音声パタン(「音節
モデル」という)を保持し、前記マッチング手段が、前
記入力音声が単語発声である場合に限り、前記特徴量と
前記辞書部中の前記単語モデルとのパタンマッチングを
行い、前記入力音声の各前記単語モデルに対する尤度を
前記粗尤度として出力し、前記入力音声が音節発声であ
る場合に限り、前記特徴量と前記辞書部中の前記音節モ
デルとのパタンマッチングを行い、前記入力音声中の各
音節の前記音節モデルに対する尤度に基づき算出した、
各単語の尤度を、前記粗尤度として出力する。
声のそれぞれ一定時間ごとの特徴量を計算する音声分析
手段と、入力として想定されるすべての単語の音声パタ
ン(「単語モデル」という)を保持する辞書部と、前記
特徴量と前記辞書部中の単語モデルとのパタンマッチン
グを行い、前記入力音声の前記単語モデルそれぞれに対
する尤度(「粗尤度」という)を算出して出力するマッ
チング手段と、前記各単語モデルの、前記入力音声すべ
てとの間の前記粗尤度を保持する粗尤度格納部と、前記
単語を、対応する前記単語モデルの前記入力音声との間
の前記粗尤度の加重平均の大きいものから、予め定めた
一定の個数だけ出力する出力手段と、を備え、前記辞書
部が、前記入力として想定されるすべての単語に対し、
当該単語中に出現する音節すべての音声パタン(「音節
モデル」という)を保持し、前記マッチング手段が、前
記入力音声が単語発声である場合に限り、前記特徴量と
前記辞書部中の前記単語モデルとのパタンマッチングを
行い、前記入力音声の各前記単語モデルに対する尤度を
前記粗尤度として出力し、前記入力音声が音節発声であ
る場合に限り、前記特徴量と前記辞書部中の前記音節モ
デルとのパタンマッチングを行い、前記入力音声中の各
音節の前記音節モデルに対する尤度に基づき算出した、
各単語の尤度を、前記粗尤度として出力する。
【0009】
【発明の実施の形態】本発明の実施の形態について説明
する。通常、音声認識では、パタンマッチングにより入
力音声と既存の単語モデルの間の尤度を計算し、予め想
定した単語モデルの集合の中で最も尤度の高いものを認
識結果とする。ところが、発声の乱れにより、実際に発
声した単語に対応する単語モデルの尤度が低く算出され
ることは良くあることである。
する。通常、音声認識では、パタンマッチングにより入
力音声と既存の単語モデルの間の尤度を計算し、予め想
定した単語モデルの集合の中で最も尤度の高いものを認
識結果とする。ところが、発声の乱れにより、実際に発
声した単語に対応する単語モデルの尤度が低く算出され
ることは良くあることである。
【0010】本発明では、複数回の発声の尤度の平均
値、あるいは最大値を尤度として用いることにより、そ
のような偶然要因により個別の発声の尤度低下の影響を
低減する。
値、あるいは最大値を尤度として用いることにより、そ
のような偶然要因により個別の発声の尤度低下の影響を
低減する。
【0011】また、発声の様式に起因する尤度低下も考
えられる。特定の音節の組みの連接時に現れる「なま
け」等の音響的変化である。本発明では、そのような発
声様式に起因する尤度低下の影響を低減するため、複数
の発声様式による発声の尤度から、前記のような平均値
あるいは最大値を求め、尤度とする方法を用いる。
えられる。特定の音節の組みの連接時に現れる「なま
け」等の音響的変化である。本発明では、そのような発
声様式に起因する尤度低下の影響を低減するため、複数
の発声様式による発声の尤度から、前記のような平均値
あるいは最大値を求め、尤度とする方法を用いる。
【0012】本発明における音声入力装置は、その好ま
しい実施の形態において、複数の音声を入力とし各入力
音声のフレームごとの音響的特徴量を計算し出力する音
声分析手段(図1の101)と、単語モデルを保持する
辞書部(図1の102)と、音声分析手段から出力され
る各入力音声のの特徴量を入力とし入力音声の、各単語
モデルに対する尤度を求め粗尤度として出力するマッチ
ング手段(図1の103)と、前記入力音声と前記単語
モデルのあらゆる組み合わせの前記粗尤度を保持してい
る粗尤度格納部(図1の104)と、各単語モデルにつ
いて、その各入力音声に対する粗尤度の平均値を計算
し、その値の大きい順に単語モデルを順序付け、その順
序に従って一定数の単語モデルを出力する出力手段(図
11の105)と、を備えている。
しい実施の形態において、複数の音声を入力とし各入力
音声のフレームごとの音響的特徴量を計算し出力する音
声分析手段(図1の101)と、単語モデルを保持する
辞書部(図1の102)と、音声分析手段から出力され
る各入力音声のの特徴量を入力とし入力音声の、各単語
モデルに対する尤度を求め粗尤度として出力するマッチ
ング手段(図1の103)と、前記入力音声と前記単語
モデルのあらゆる組み合わせの前記粗尤度を保持してい
る粗尤度格納部(図1の104)と、各単語モデルにつ
いて、その各入力音声に対する粗尤度の平均値を計算
し、その値の大きい順に単語モデルを順序付け、その順
序に従って一定数の単語モデルを出力する出力手段(図
11の105)と、を備えている。
【0013】本発明の実施の形態の動作について説明す
る。
る。
【0014】音声分析手段は、入力音声の一定時間(フ
レーム)ごとに、その区間の音声の周波数分析を行い、
特徴量を算出し、出力する。特徴量としては、音声のパ
ワー、パワー変化量、ケプストラム、ケプストラム変化
量等を使用する。
レーム)ごとに、その区間の音声の周波数分析を行い、
特徴量を算出し、出力する。特徴量としては、音声のパ
ワー、パワー変化量、ケプストラム、ケプストラム変化
量等を使用する。
【0015】辞書部は、認識対象の、すなわち予め想定
した単語すべての単語モデルを保持している。
した単語すべての単語モデルを保持している。
【0016】マッチング手段は、入力となる特徴量と、
辞書中の全単語モデルのパタンマッチングを行い、入力
音声の各単語モデルに対する粗尤度を計算し、出力す
る。
辞書中の全単語モデルのパタンマッチングを行い、入力
音声の各単語モデルに対する粗尤度を計算し、出力す
る。
【0017】粗尤度格納部は、各入力音声についてマッ
チング部が出力した各単語モデルの尤度を記憶してお
く。
チング部が出力した各単語モデルの尤度を記憶してお
く。
【0018】出力手段は、粗尤度格納部に格納されてい
る粗尤度を、単語モデルごとに合計し、平均値を求め
る。その後、その平均値の大きい単語モデルから順に一
定数だけ、当該単語モデルの表す単語を出力する。マッ
チング手段及び出力手段は、音声入力装置を構成するプ
ロセッサ等で実行されるプログラム制御によって実現す
るようにしてもよい。
る粗尤度を、単語モデルごとに合計し、平均値を求め
る。その後、その平均値の大きい単語モデルから順に一
定数だけ、当該単語モデルの表す単語を出力する。マッ
チング手段及び出力手段は、音声入力装置を構成するプ
ロセッサ等で実行されるプログラム制御によって実現す
るようにしてもよい。
【0019】
【実施例】次に、上記した本発明の実施の形態について
さらに詳細に説明すべく、本発明の実施例について図面
を参照して以下に説明する。
さらに詳細に説明すべく、本発明の実施例について図面
を参照して以下に説明する。
【0020】本発明の第1の実施例について説明する。
図1は、本発明の第1の実施例の構成を示す図である。
図1を参照すると、本発明の第1の実施例は、各入力音
声のフレームごとの音響的特徴量を計算し出力する音声
分析部101と、単語モデルを保持する辞書部102
と、音声分析部から出力される各入力音声のの特徴量を
入力とし入力音声の、各単語モデルに対する尤度を求め
粗尤度として出力するマッチング部103と、前記入力
音声と前記単語モデルのあらゆる組み合わせの前記粗尤
度を保持している粗尤度格納部104と、各単語モデル
につき、その各入力音声に対する粗尤度の平均値を計算
し、その値の大きい順に単語モデルを順序付け、その順
序に従って一定数の単語モデルを出力する出力部105
と、を備えて構成されている。
図1は、本発明の第1の実施例の構成を示す図である。
図1を参照すると、本発明の第1の実施例は、各入力音
声のフレームごとの音響的特徴量を計算し出力する音声
分析部101と、単語モデルを保持する辞書部102
と、音声分析部から出力される各入力音声のの特徴量を
入力とし入力音声の、各単語モデルに対する尤度を求め
粗尤度として出力するマッチング部103と、前記入力
音声と前記単語モデルのあらゆる組み合わせの前記粗尤
度を保持している粗尤度格納部104と、各単語モデル
につき、その各入力音声に対する粗尤度の平均値を計算
し、その値の大きい順に単語モデルを順序付け、その順
序に従って一定数の単語モデルを出力する出力部105
と、を備えて構成されている。
【0021】図2は、本発明の第1の実施例の動作を示
すフローチャートである。図1及び図2を参照して、本
発明の第1の実施例の動作について説明する。
すフローチャートである。図1及び図2を参照して、本
発明の第1の実施例の動作について説明する。
【0022】辞書部102は、単語モデルとして、「さ
とう」、「かとう」、「ごとう」の3つを保持している
ものとする。また、出力部105が出力する単語の数
は、2とする。また、入力音声として、「さとう」とい
う発声が3回なされたものとする。
とう」、「かとう」、「ごとう」の3つを保持している
ものとする。また、出力部105が出力する単語の数
は、2とする。また、入力音声として、「さとう」とい
う発声が3回なされたものとする。
【0023】まず、ステップ1において、音声分析部1
01は「さとう」発声の第1回目から、その各フレーム
の特徴量を算出し、出力する。
01は「さとう」発声の第1回目から、その各フレーム
の特徴量を算出し、出力する。
【0024】次にステップ2において、マッチング部1
03は、辞書部102に格納されている各単語モデルに
つき、各フレームの特徴量のパタンマッチングを、上記
文献1にも記載されているように、Viterbi(ビタビ)
法を用いて行い、第1回目の「さとう」入力音声に対す
る各単語モデルの粗尤度を求める。
03は、辞書部102に格納されている各単語モデルに
つき、各フレームの特徴量のパタンマッチングを、上記
文献1にも記載されているように、Viterbi(ビタビ)
法を用いて行い、第1回目の「さとう」入力音声に対す
る各単語モデルの粗尤度を求める。
【0025】次にステップ3において、マッチング部1
03は、第1回目の「さとう」入力音声に対する各単語
モデルの粗尤度を、粗尤度格納部104に格納する。
03は、第1回目の「さとう」入力音声に対する各単語
モデルの粗尤度を、粗尤度格納部104に格納する。
【0026】以後、「さとう」第2回目及び第3回目の
入力音声に対しても、ステップ1からステップ3を繰り
返すことにより、図3に示すように、粗尤度格納部10
4の格納すべき粗尤度を求める。
入力音声に対しても、ステップ1からステップ3を繰り
返すことにより、図3に示すように、粗尤度格納部10
4の格納すべき粗尤度を求める。
【0027】すべての入力音声と単語モデルの組み合わ
せにつき、粗尤度が格納されてから、ステップ4におい
て、出力部105は、図4に示すように、各単語モデル
の全発声に対する粗尤度の平均値を求める。
せにつき、粗尤度が格納されてから、ステップ4におい
て、出力部105は、図4に示すように、各単語モデル
の全発声に対する粗尤度の平均値を求める。
【0028】しかる後、ステップ5において、出力部1
05は前記粗尤度の平均値が大きい2単語「さとう」、
「かとう」を出力する。
05は前記粗尤度の平均値が大きい2単語「さとう」、
「かとう」を出力する。
【0029】本発明の一実施例によれば、一回の発声だ
けによるパタンマッチングでは安定した尤度が得られな
いという弱点を補うものである。
けによるパタンマッチングでは安定した尤度が得られな
いという弱点を補うものである。
【0030】本発明の他の実施例について説明する。前
述したような、偶然要因による尤度の低下の影響を防止
するためならば、複数の発声中から、最も尤度の高い発
声だけを選んで認識すればよい。本発明の第2の実施例
は、図1に示した前記第1の実施例における出力部10
5における平均値を、最大値で置き換えて構成したもの
である。このようにしても、偶然要因による尤度の低下
の影響を防ぐことができる。
述したような、偶然要因による尤度の低下の影響を防止
するためならば、複数の発声中から、最も尤度の高い発
声だけを選んで認識すればよい。本発明の第2の実施例
は、図1に示した前記第1の実施例における出力部10
5における平均値を、最大値で置き換えて構成したもの
である。このようにしても、偶然要因による尤度の低下
の影響を防ぐことができる。
【0031】次に本発明の第3の実施例について説明す
る。尤度の低下は、偶然要因のみによってではなく、発
声様式の違いによっても起こりうる。発声様式の影響を
低減するために、複数の発声様式を用いる方法が考えら
れる。本発明の第3の実施例は、図1に示した前述の実
施例におけるマッチング部103の動作を変更したもの
である。
る。尤度の低下は、偶然要因のみによってではなく、発
声様式の違いによっても起こりうる。発声様式の影響を
低減するために、複数の発声様式を用いる方法が考えら
れる。本発明の第3の実施例は、図1に示した前述の実
施例におけるマッチング部103の動作を変更したもの
である。
【0032】本発明の第3の実施例において、マッチン
グ部105は、入力音声の様式に応じて、マッチング処
理を変更する。入力音声が「さとう」というような単語
発声の場合は、前記した第一の実施例に挙げた動作を行
うが、「さ、…、と、…、う」というような音節発声の
場合は、入力の各音節に対し、音節認識を行い、各音節
の尤度を平均することで、粗尤度を求める。
グ部105は、入力音声の様式に応じて、マッチング処
理を変更する。入力音声が「さとう」というような単語
発声の場合は、前記した第一の実施例に挙げた動作を行
うが、「さ、…、と、…、う」というような音節発声の
場合は、入力の各音節に対し、音節認識を行い、各音節
の尤度を平均することで、粗尤度を求める。
【0033】本発明の第4の実施例は、図1に示した前
述の実施例における辞書部102の内容に、それぞれの
単語に含まれる音節すべてにつき、音節モデルを加える
ことによって得られる。例えば、単語モデル「さとう」
に対して、音節モデル「さ」、「と」及び「う」を加え
るという変更を行うものである。
述の実施例における辞書部102の内容に、それぞれの
単語に含まれる音節すべてにつき、音節モデルを加える
ことによって得られる。例えば、単語モデル「さとう」
に対して、音節モデル「さ」、「と」及び「う」を加え
るという変更を行うものである。
【0034】本発明の第4の実施例の動作について説明
する。本発明の第4の実施例の動作について、前記第1
の実施例と同様、図2に示すフローチャートに従い説明
する。
する。本発明の第4の実施例の動作について、前記第1
の実施例と同様、図2に示すフローチャートに従い説明
する。
【0035】辞書部102は、単語モデル「さとう」、
「かとう」、「ごとう」に加えて、各単語モデルに登場
する音節モデル「さ」、「と」、「う」、「か」、
「ご」の5個を保持する。
「かとう」、「ごとう」に加えて、各単語モデルに登場
する音節モデル「さ」、「と」、「う」、「か」、
「ご」の5個を保持する。
【0036】また、出力部105が出力する単語の数
は、前記第1の実施例と同様、2とする。また、入力音
声として、「さとう」という単語発声が一回、「さ、
…、と、…、う」という音節発声が一回、それぞれなさ
れたものとする。
は、前記第1の実施例と同様、2とする。また、入力音
声として、「さとう」という単語発声が一回、「さ、
…、と、…、う」という音節発声が一回、それぞれなさ
れたものとする。
【0037】単語発声に対するステップ1からステップ
3までの動作は、前記第1の実施例と同一である。
3までの動作は、前記第1の実施例と同一である。
【0038】音節発声においてもステップ1及びステッ
プ3は同一動作であるが、ステップ2が異なる。音節発
声に対するステップ2において、マッチング部103
は、辞書部102に格納されている単語モデルの第一音
節に相当する、「さ」、「か」、「ご」各音節モデル
と、入力の第一音節とのマッチングを、同様に文献1に
記載されるViterbi(ビタビ)法を用いて行い、各音節
モデルに対する入力の第一音節の尤度を求める。
プ3は同一動作であるが、ステップ2が異なる。音節発
声に対するステップ2において、マッチング部103
は、辞書部102に格納されている単語モデルの第一音
節に相当する、「さ」、「か」、「ご」各音節モデル
と、入力の第一音節とのマッチングを、同様に文献1に
記載されるViterbi(ビタビ)法を用いて行い、各音節
モデルに対する入力の第一音節の尤度を求める。
【0039】第二音節は、各単語の第二音節である
「と」の音節モデルと、入力の第二音節とのマッチング
を同様に行う。
「と」の音節モデルと、入力の第二音節とのマッチング
を同様に行う。
【0040】第三音節についても同様にしてマッチング
を行う。その後、マッチング部103は、各単語の粗尤
度として、入力の各音節の、各単語の対応する音節モデ
ルとの尤度の平均値を算出し、出力する。
を行う。その後、マッチング部103は、各単語の粗尤
度として、入力の各音節の、各単語の対応する音節モデ
ルとの尤度の平均値を算出し、出力する。
【0041】以後、ステップ4も同様に行い、粗尤度の
平均値が大きい方から2単語を出力する。
平均値が大きい方から2単語を出力する。
【0042】この実施例を用いると、例に挙げたよう
に、単語発声及び音節発声の二つの発声様式からの情報
を得ることができる。これにより、発声様式に起因する
誤り、たとえば、単語内の音節間における「なまけ」、
音節の語頭における発声の乱れ、等の影響を低減するこ
とができる。
に、単語発声及び音節発声の二つの発声様式からの情報
を得ることができる。これにより、発声様式に起因する
誤り、たとえば、単語内の音節間における「なまけ」、
音節の語頭における発声の乱れ、等の影響を低減するこ
とができる。
【0043】また、これらの手段を用いても防げない誤
認識は、人力で訂正することも考えられる。本発明の第
5の実施例は、前記した実施例に、人力による訂正手段
を与える。
認識は、人力で訂正することも考えられる。本発明の第
5の実施例は、前記した実施例に、人力による訂正手段
を与える。
【0044】図5を参照すると、本発明の第5の実施例
は、各入力音声のフレームごとの音響的特徴量を計算し
出力する音声分析部101と、単語モデルを保持する辞
書部102と、音声分析部から出力される各入力音声の
の特徴量を入力とし入力音声の、各単語モデルに対する
尤度を求め粗尤度として出力するマッチング部103
と、前記入力音声と前記単語モデルのあらゆる組み合わ
せの前記粗尤度を保持している粗尤度格納部104と、
各単語モデルにつき、その各入力音声に対する粗尤度の
平均値を計算し、その値の大きい順に単語モデルを順序
付け、その順序に従って一定数の単語モデルを出力する
出力部105と、人力による前記一定数の選択肢からの
選択を入力する入力手段106と、出力部105からの
出力及び入力手段106からの出力から、最終出力とな
る単語モデルを求め、出力する最終選択部107と、を
備えて構成されている。
は、各入力音声のフレームごとの音響的特徴量を計算し
出力する音声分析部101と、単語モデルを保持する辞
書部102と、音声分析部から出力される各入力音声の
の特徴量を入力とし入力音声の、各単語モデルに対する
尤度を求め粗尤度として出力するマッチング部103
と、前記入力音声と前記単語モデルのあらゆる組み合わ
せの前記粗尤度を保持している粗尤度格納部104と、
各単語モデルにつき、その各入力音声に対する粗尤度の
平均値を計算し、その値の大きい順に単語モデルを順序
付け、その順序に従って一定数の単語モデルを出力する
出力部105と、人力による前記一定数の選択肢からの
選択を入力する入力手段106と、出力部105からの
出力及び入力手段106からの出力から、最終出力とな
る単語モデルを求め、出力する最終選択部107と、を
備えて構成されている。
【0045】図6は、本発明の第5の実施例の動作を示
すフローチャートである。次に、図5及び図6を参照し
て、本発明の第5の実施例の動作について説明する。
すフローチャートである。次に、図5及び図6を参照し
て、本発明の第5の実施例の動作について説明する。
【0046】辞書部102、音声分析部101、マッチ
ング部103、粗尤度格納部104、出力部105の動
作は前述実施例と同一である。ただし、出力部105の
出力は、最終選択部107に対しても行われる。入力手
段106は、1から3までの数字を入力できる入力装置
であるとする。これはキーボードやスイッチ装置のよう
なものでも、別の音声入力装置でもよい。また、入力手
段106を操作する人間は、必ずしも入力音声を発声し
た人物と同一でなくともよい。入力手段106は、入力
された数字を最終選択部107に出力する。
ング部103、粗尤度格納部104、出力部105の動
作は前述実施例と同一である。ただし、出力部105の
出力は、最終選択部107に対しても行われる。入力手
段106は、1から3までの数字を入力できる入力装置
であるとする。これはキーボードやスイッチ装置のよう
なものでも、別の音声入力装置でもよい。また、入力手
段106を操作する人間は、必ずしも入力音声を発声し
た人物と同一でなくともよい。入力手段106は、入力
された数字を最終選択部107に出力する。
【0047】最終選択部107は、出力部105からの
出力とその順番を保持しておき、入力手段106の出力
である数字を順番とする単語モデルを出力する。また、
入力手段106に与えられた入力は数字の1であるとす
る。
出力とその順番を保持しておき、入力手段106の出力
である数字を順番とする単語モデルを出力する。また、
入力手段106に与えられた入力は数字の1であるとす
る。
【0048】まず、ステップ1からステップ5までの動
作を、前述実施例と同一に行う。
作を、前述実施例と同一に行う。
【0049】ステップ6において、入力手段106は与
えられた入力である数字の1を、最終選択部107に出
力する。
えられた入力である数字の1を、最終選択部107に出
力する。
【0050】ステップ7において、最終選択部107
は、数字の1に対応する1番目の出力「さとう」のみ
を、最終出力として出力する。
は、数字の1に対応する1番目の出力「さとう」のみ
を、最終出力として出力する。
【0051】この実施例では、最終選択により入力の確
実性が高まる。最終選択そのものは通常の一回入力の音
声認識にも使用されるが、この実施例では、上位前記一
定数までの単語モデル中に正解が含まれる確率が非常に
高いため、最終選択による確定の確率も高く、正解の含
まれない複数候補から選択を行わなければならない、等
の苦痛を使用者に与える確率は通常の一回入力使用時よ
り著しく低い。
実性が高まる。最終選択そのものは通常の一回入力の音
声認識にも使用されるが、この実施例では、上位前記一
定数までの単語モデル中に正解が含まれる確率が非常に
高いため、最終選択による確定の確率も高く、正解の含
まれない複数候補から選択を行わなければならない、等
の苦痛を使用者に与える確率は通常の一回入力使用時よ
り著しく低い。
【0052】
【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。
記記載の効果を奏する。
【0053】本発明の第1の効果は、一回の発声だけに
よるパタンマッチングでは安定した尤度が得られないと
いう問題点を解消し、偶然要因による尤度の低下の影響
を防ぐことができる、ということである。
よるパタンマッチングでは安定した尤度が得られないと
いう問題点を解消し、偶然要因による尤度の低下の影響
を防ぐことができる、ということである。
【0054】その理由は、本発明においては、複数回の
発声の尤度の平均値、あるいは最大値を尤度として用い
ることにより、そのような偶然要因により個別の発声の
尤度低下の影響を低減するようにしたことによる。
発声の尤度の平均値、あるいは最大値を尤度として用い
ることにより、そのような偶然要因により個別の発声の
尤度低下の影響を低減するようにしたことによる。
【0055】また、本発明の第2の効果は、発声様式に
起因する誤り、たとえば、単語内の音節間における「な
まけ」、音節の語頭における発声の乱れ等の影響を低減
することができる、ということである。
起因する誤り、たとえば、単語内の音節間における「な
まけ」、音節の語頭における発声の乱れ等の影響を低減
することができる、ということである。
【0056】その理由は、本発明においては、そのよう
な発声様式に起因する尤度低下の影響を低減するため、
複数の発声様式による発声の尤度から、前記のような平
均値あるいは最大値を求め、尤度とするようにしたため
である。
な発声様式に起因する尤度低下の影響を低減するため、
複数の発声様式による発声の尤度から、前記のような平
均値あるいは最大値を求め、尤度とするようにしたため
である。
【0057】このように、本発明によれば、偶然要因あ
るいは発声様式に起因する誤りに対し頑健な音声入力装
置を実現することができる。
るいは発声様式に起因する誤りに対し頑健な音声入力装
置を実現することができる。
【図1】本発明の一実施例の構成を示すブロック図であ
る。
る。
【図2】本発明の一実施例の動作を示すフローチャート
である。
である。
【図3】本発明の一実施例における各単語モデルの、各
入力音声との間の粗尤度の一覧を表形式で示す図であ
る。
入力音声との間の粗尤度の一覧を表形式で示す図であ
る。
【図4】本発明の一実施例における各単語モデルの、各
入力音声との間の粗尤度及び粗尤度の平均の一覧を表形
式で示す図である。
入力音声との間の粗尤度及び粗尤度の平均の一覧を表形
式で示す図である。
【図5】本発明の他の実施例の構成を示すブロック図で
ある。
ある。
【図6】本発明の他の実施例の動作を示すフローチャー
トである。
トである。
101 音声分析部 102 辞書部 103 マッチッング部 104 尤度格納部 105 出力部 106 入力手段 107 最終選択部
フロントページの続き (56)参考文献 特開 昭61−94097(JP,A) 特開 平10−340096(JP,A) 特開 平4−77796(JP,A) 特公 昭47−21921(JP,B1) 電子情報通信学会技術研究報告[音声 ]Vol.96,No.449,SP96− 104,「複数サンプルを用いた未知語認 識」p.65−70(1997年1月17日発行) 日本音響学会平成9年度春季研究発表 会講演論文集▲I▼ 1−6−4「複数 サンプルを用いた未知語の音韻系列の推 定」p.7−8(平成9年3月17日発 行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 JICSTファイル(JOIS)
Claims (5)
- 【請求項1】複数回の入力音声のそれぞれ一定時間ごと
の特徴量を計算する音声分析手段と、 入力として想定されるすべての単語の音声パタン(「単
語モデル」という)を保持する辞書部と、 前記特徴量と前記辞書部中の単語モデルとのパタンマッ
チングを行い、前記入力音声の前記単語モデルそれぞれ
に対する尤度(「粗尤度」という)を算出して出力する
マッチング手段と、 前記各単語モデルの、前記入力音声すべてとの間の前記
粗尤度を保持する粗尤度格納部と、 前記単語を、対応する前記単語モデルの前記入力音声と
の間の前記粗尤度の加重平均の大きいものから、予め定
めた一定の個数だけ出力する出力手段と、 を備えた音声入力装置であって、 前記辞書部が、前記入力として想定されるすべての単語
に対し、当該単語中に出現する音節すべての音声パタン
(「音節モデル」という)を保持し、 前記マッチング手段が、前記入力音声が単語発声である
場合に限り、前記特徴量と前記辞書部中の前記単語モデ
ルとのパタンマッチングを行い、前記入力音声の各前記
単語モデルに対する尤度を前記粗尤度として出力し、 前記入力音声が音節発声である場合に限り、前記特徴量
と前記辞書部中の前記音節モデルとのパタンマッチング
を行い、前記入力音声中の各音節の前記音節モデルに対
する尤度に基づき算出した、各単語の尤度を、前記粗尤
度として出力する、ことを特徴とする音声入力装置。 - 【請求項2】複数回の入力音声のそれぞれ一定時間ごと
の特徴量を計算する音声分析手段と、 入力として想定されるすべての単語の音声パタン(「単
語モデル」という)を保持する辞書部と、 前記特徴量と前記辞書部中の前記単語モデルとのパタン
マッチングを行い、前記入力音声の各前記単語モデルに
対する尤度(「粗尤度」という)を算出して出力するマ
ッチング手段と、 前記各単語モデルの、全前記入力音声との間の前記粗尤
度を保持する粗尤度格納部と、 前記単語を、対応する前記単語モデルの前記入力音声と
の間の前記粗尤度の最大値に順序付け、当該順序に従っ
て予め定めた一定の個数だけ出力する出力手段と、 を備えた音声入力装置であって、 前記辞書部が、前記入力として想定されるすべての単語
に対し、当該単語中に出現する音節すべての音声パタン
(「音節モデル」という)を保持し、 前記マッチング手段が、前記入力音声が単語発声である
場合に限り、前記特徴量と前記辞書部中の前記単語モデ
ルとのパタンマッチングを行い、前記入力音声の各前記
単語モデルに対する尤度を前記粗尤度として出力し、 前記入力音声が音節発声である場合に限り、前記特徴量
と前記辞書部中の前記音節モデルとのパタンマッチング
を行い、前記入力音声中の各音節の前記音節モデルに対
する尤度に基づき算出した、各単語の尤度を、前記粗尤
度として出力する、ことを特徴とする音声入力装置。 - 【請求項3】前記マッチング手段が前記音節発声である
入力音声に対して出力する前記粗尤度は当該入力音声中
の各音節の、それぞれ対応する音節モデルに対する尤度
の平均値であることを特徴とする、請求項1又は2記載
の音声入力装置。 - 【請求項4】前記出力手段が出力する単語の個数は1で
あることを特徴とする、請求項1から3のいずれか一に
記載の音声入力装置。 - 【請求項5】前記予め定めた一定の個数の単語モデルの
中からユーザが正解を選択し入力するための入力手段
と、 前記入力手段からの入力及び前記出力部からの出力から
最適な前記単語モデルを1個選び、出力する最終選択手
段と、 をさらに備えることを特徴とする、請求項1乃至4のい
ずれか一に記載の音声入力装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10067898A JP3302923B2 (ja) | 1998-03-27 | 1998-03-27 | 音声入力装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10067898A JP3302923B2 (ja) | 1998-03-27 | 1998-03-27 | 音声入力装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11282485A JPH11282485A (ja) | 1999-10-15 |
JP3302923B2 true JP3302923B2 (ja) | 2002-07-15 |
Family
ID=14280424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10067898A Expired - Fee Related JP3302923B2 (ja) | 1998-03-27 | 1998-03-27 | 音声入力装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3302923B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4346571B2 (ja) | 2005-03-16 | 2009-10-21 | 富士通株式会社 | 音声認識システム、音声認識方法、及びコンピュータプログラム |
-
1998
- 1998-03-27 JP JP10067898A patent/JP3302923B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
日本音響学会平成9年度春季研究発表会講演論文集▲I▼ 1−6−4「複数サンプルを用いた未知語の音韻系列の推定」p.7−8(平成9年3月17日発行) |
電子情報通信学会技術研究報告[音声]Vol.96,No.449,SP96−104,「複数サンプルを用いた未知語認識」p.65−70(1997年1月17日発行) |
Also Published As
Publication number | Publication date |
---|---|
JPH11282485A (ja) | 1999-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Valtchev et al. | MMIE training of large vocabulary recognition systems | |
JP3049259B2 (ja) | 音声認識方法 | |
JP4221379B2 (ja) | 音声特性に基づく電話発信者の自動識別 | |
US5732187A (en) | Speaker-dependent speech recognition using speaker independent models | |
US8301445B2 (en) | Speech recognition based on a multilingual acoustic model | |
JP4202124B2 (ja) | 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置 | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP2004109464A (ja) | 音声認識装置及び音声認識方法 | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
JPH0372998B2 (ja) | ||
JP2006215564A (ja) | 自動音声認識システムにおける単語精度予測方法、及び装置 | |
CN115428066A (zh) | 合成语音处理 | |
US20070129946A1 (en) | High quality speech reconstruction for a dialog method and system | |
JP3302923B2 (ja) | 音声入力装置 | |
JP3039634B2 (ja) | 音声認識装置 | |
JP2003005785A (ja) | 音源の分離方法および分離装置 | |
JP3437492B2 (ja) | 音声認識方法及び装置 | |
JP3006496B2 (ja) | 音声認識装置 | |
EP2107554B1 (en) | Generation of multilingual codebooks for speech recognition | |
JP3868798B2 (ja) | 音声認識装置 | |
JP3505364B2 (ja) | 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置 | |
JP2005091758A (ja) | 話者認識システム及び方法 | |
JP3036509B2 (ja) | 話者照合における閾値決定方法及び装置 | |
JP3526549B2 (ja) | 音声認識装置、方法及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20000418 |
|
LAPS | Cancellation because of no payment of annual fees |