JP3444108B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP3444108B2 JP3444108B2 JP25137396A JP25137396A JP3444108B2 JP 3444108 B2 JP3444108 B2 JP 3444108B2 JP 25137396 A JP25137396 A JP 25137396A JP 25137396 A JP25137396 A JP 25137396A JP 3444108 B2 JP3444108 B2 JP 3444108B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- word
- unit
- voice
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
し、大語彙を単語を対象して認識するものに適用し得
る。
音声認識装置では、類似する単語が多くなるため認識性
能が低下し、また大語彙とのパターン照合を行うため演
算量が膨大となる問題があり、実現が極めて難しいもの
である。従来、大語彙を対象とするこの種の音声認識装
置として、特開平3−84600号公報に開示されたも
のを図9に示す。
一定時間毎に音響分析し、特徴パラメータベクトルS2
と音声信号のパワーS3に変換し出力する。音声区間検
出部2は音響分析部1から受け取る音声信号のパワーS
3の変化により音声信号の音声区間を検出し、音声区間
の検出状況の変化により音声区間検出信号S4を出力す
る。照合部3は音声区間検出信号S4の指示に従い、音
響分析部1から受け取る特徴パラメータベクトルS2の
時系列のうち音声区間のものと単語辞書記憶部5から読
み出される順番で単語辞書S5との照合を行い、入力さ
れた音声信号S1と単語辞書S6が音響的にどの程度近
いかを示す音響スコアを距離値S5として順次出力す
る。
語の読みを表すラベルと使用頻度を表す情報を収め、単
語辞書ソーティング部6は頻度付単語辞書記憶部7の使
用頻度の高い順番に単語情報を並び替え、単語辞書記憶
部5は並び替えた単語情報を記憶する。また図中、S6
は単語辞書、S7は単語辞書、S8は頻度付き単語辞書
である。結果出力部4は音声区間検出信号S4又は外部
から入力される出力要求信号S9が入力された時、既に
受け取った距離値S5のうちまだ出力していないものを
距離値S5によりソーティングして距離値S5の小さな
1つ又は複数の単語を認識結果S10として出力する。
いて説明する。認識に先だって単語辞書ソーティング部
6では頻度付単語辞書記憶部7の内容を読み出し、使用
頻度によりソーティングを行い、使用頻度の高い順番に
単語辞書記憶部5に収める。以下、認識時の動作につい
て説明する。認識装置は10m秒程度の時間を単位として
処理が進められる。この単位時間をフレーム呼ぶ。音響
分析部1はフレーム毎に入力された音声信号S1を音響
分析し、特徴パラメータベクトルS2と音声信号のパワ
ーS3に変換する動作を繰り返す。音響分析の手法とし
ては、例えばLPC(Linear Prediction coeffcient)
分析やFFT(高速フーリエ変換)、フィルタバンクに
よる手法等が用いられる。
音声区間検出部2では音声区間の検出は音声信号のパワ
ーS3を監視し、音声信号のパワーS3がある閾値を越
えたら音声区間の始端とし、閾値より下回ったら音声区
間の終端候補とし、そのまま閾値以下で一定時間継続す
ると終端候補が正しかったものとして終端確定する。こ
の時間は一般的には 0.3秒程度が適当とされている。
0.3秒以内に再び閾値を越えて立ち上がると、先ほど検
出した終端候補を無効とする。
作を、図10を用いて説明する。図10において「ほっ
た」という発声の音声信号のパワーの変化の一例を示
す。横軸は時間、縦軸は音声信号のパワーの大きさを表
す。フレームT1からフレームT2までが「ほ」、フレ
ームT2からフレームT3までが「っ」、フレームT3
からフレームT4までが「た」の発声区間を想定してい
る。図10では音声信号のパワーは雑音レベルからフレ
ームT1時点で閾値P1を越えフレームT2で下回る。
再びフレームT3で閾値P1を越えフレームT4で下回
る。フレームT5はフレームT4から 0.3秒経過した時
点を指す。「っ」は音響的に促音に分類される。普通の
発声では促音は 0.3秒以下の時間長となるため、この例
でもフレームT2とフレームT3の間は 0.3秒以下の時
間とする。上述の音声区間検出部2の動作に従えば、フ
レームT1からフレームT4を音声区間として検出す
る。
4として始端信号、終端候補信号、終端確定信号の3種
類を送出する。図10ではフレームT1とフレームT3
で始端信号を、フレームT2とフレームT4で終端候補
信号を、フレームT5で終端確定信号を送出する。終端
候補信号の後、終端確定信号が送出されずに、始端信号
が送出された場合は、その前の終端候補信号の終端候
補、つまりフレームT2を無効とすることを示す。
特徴パラメータベクトルS2が送られてくるので、音声
区間検出信号S4で指定される始端信号から終端確定信
号までの間、内部に蓄える。音声区間検出部2から音声
区間検出信号S4として終端候補信号を受信したならば
パターン照合を開始する。図10にパターン照合を行う
フレームを斜線で示す。パターン照合の方法はさまざま
あるが、例えばDP(Dynamic Programming )マッチン
グやHMM(Hidden Markov Model )による方法が適用
できる。照合部3は単語辞書記憶部5の単語辞書S6を
並べられている順番に読み出し、内部に蓄えられている
フレームT1からフレームT2の区間の特徴パラメータ
ベクトルS2に対するパターン照合を行い、距離値S5
を結果出力部4に送出する。単語辞書記憶部5の中では
単語辞書S6は頻度の高い順番に並べられているため、
パターン照合は頻度の高い単語から行われることにな
る。
ら音声区間検出信号S4として始端信号を受信した時に
は、フレームT1からフレームT2までの区間が無効で
あるとしパターン照合を中止する。さらに続いてフレー
ムT4で音声区間検出部2から音声区間検出信号S4と
して終端候補信号を受信した時、内部に蓄えているフレ
ームT1からフレームT4の区間の特徴パラメータベク
トルS2に対するパターン照合を行い、入力された音声
信号S1と単語辞書S6がどの程度近いかを示す音響ス
コアとその単語を距離値S5として順次、結果出力部4
に出力する。
る距離値S5に対しその音響スコアにより順次ソーティ
ングを行う。音声区間検出部2からの音声区間検出信号
S4として始端信号を受けた時、それまでにソーティン
グされた距離値S5をクリアする。音声区間検出部2か
らの音声区間検出信号S4として終端確定信号を受けた
時、それまでにソーティングされた距離値S5のうち上
位から1つ又は複数の認識結果S10を出力する。この
出力結果を画面に出力したものを発声者が確認し、正し
い認識結果が含まれていない場合には出力要求信号S9
を入力する。この出力要求信号S9が入力された場合に
は、その時点までにソーティングされた距離値S5のう
ちで、まだ出力していないもののうち上位から1つ又は
複数の単語を認識結果S10として出力する。このなか
に認識結果が含まれていない場合には、さらに上記のシ
ーケンスが繰り返される。
てさらに説明する。フレームT1で結果出力部4は内部
のデータをクリアする。フレームT2から照合部3から
距離値S5が転送されてくるので順次その距離値S5に
よりソーティングを行い内部に蓄える。フレームT3で
ソーティングした結果をクリアする。フレームT4で再
び照合部3から距離値S4が転送されてくるので順次そ
の音響スコアによりソーティングを行い内部に蓄える。
フレームT5でソーティングされた距離値S5のうち上
位から1つ又は複数の単語を認識結果S10として出力
する。図10に認識結果S10を出力している期間を黒
く塗った長方形で示している。フレームT5以降も照合
部3から距離値S5が転送されてくるので順次ソーティ
ングを行い内部に蓄える。フレームT6で外部から出力
要求信号S9が入力されるので、その時点までソーティ
ングされた距離値S5のうち上位から1つあるいは複数
の単語を認識結果S10として出力する。
装置では、大語彙の単語認識を行う場合に頻度の高い単
語の認識結果は発声終了後 0.3秒で出力される。また、
頻度の低い単語もしばらく後に装置に出力要求信号S9
を送ることで認識結果を得ることができる。
識装置は以上のように構成されているので、どのように
丁寧に発声しても頻度の低い単語は発声終了後 0.3秒以
内では認識できない。また、姓名のように数万単語とい
う大語彙を認識しようとする場合、「大野/小野」、
「佐藤/里」など類似した単語が増加するため、認識率
が低下するという問題があった。図11に電話回線を通
して収集した姓を発声する音声データに対する従来の音
声認識装置の認識性能を示す。図中縦軸は誤り率、横軸
はパターン照合に用いた頻度の高い単語数を対数(log
)で示す。図中実線で示したものが従来の音声認識装
置による誤り率であり、点線はパターン照合に用いた単
語辞書記憶部5の単語のなかに正解が含まれていなかっ
た割合を示す。
右に行くほど多くの単語とパターン照合を行っている。
頻度の高い 1,000単語を対象に認識する場合は、正解が
この1,000単語の中に含まれない割合である脱落率が30.
7 唐ニ誤認識の16.5%を合わせて47.2%の発声が不正解
となるが、さらに時間をかけて照合を行い57,711単語を
照合させた場合、 1.3%の脱落と62.1%の誤認識を合わ
せて、63.4%が不正解となることを示している。つま
り、単語数を増やすと極端に認識率が低下し、結果とし
て不正解が増加する問題があった。
ためになされたもので、大語彙の場合でも高い精度で音
声を認識し得る音声認識装置を提供するものである。
話した音声信号を入力し、一定時間毎に音響分析し、特
徴パラメータベクトルと音声信号のパワーとに順次変換
し出力する音響分析部と、その音響分析部から受け取る
音声信号のパワーの変化により音声信号の音声区間を検
出し、その音声区間の検出状況の変化により音声区間検
出信号を出力する音声区間検出部と、音声区間検出信号
の指示に従い音響分析部から出力される特徴パラメータ
ベクトルの時系列のうち音声区間の部分と単語辞書記憶
部に記憶されている単語辞書との照合を行い、入力され
た音声信号と単語辞書とのパターン照合を行い、距離値
として出力する照合部と、音声区間検出信号により指示
された時、既に受け取った距離値をソーティングして距
離値の小さな1つ又は複数の単語を認識結果として出力
する結果出力部とを有する音声認識装置において、認識
対象単語の標準パターンと予め人口に基づき姓名を表す
単語の使用頻度を表す情報を収める頻度付単語辞書記憶
部と、その頻度付単語辞書記憶部の使用頻度を表す情報
から使用頻度の高いものほど小さな値となる使用頻度ス
コアを計算し、単語辞書記憶部に記憶する使用頻度スコ
ア計算部とを備え、照合部において入力された音声信号
と単語辞書が音響的にどの程度近いかを示す音響スコア
に単語辞書記憶部に記憶されているその単語の使用頻度
スコアを規定の割合で加算して距離値とするものであ
る。
頻度スコア計算部は使用頻度スコアが規定の下限値より
小さくならないように設定するものである。
を含む既存のデータベースから同じふり仮名を持つ姓名
を表す単語の頻度から演算した値を上記単語の使用頻度
とみなす使用頻度推定部を備えるものである。
頻度推定部はふり仮名をローマ字表記したものが「O
U」を含む時、規定の割合で「OO」に置き換えた読み
がされるとし、元の単語の使用頻度を規定の割合で減ず
ると共に、新たに「OU」を「OO」で置き換えた単語
を加え、その新たな単語の使用頻度を元の単語の使用頻
度の規定の割合とするものである。
頻度推定部はふり仮名をローマ字表記したものが「E
I」を含む時、規定の割合で「EE」に置き換えた読み
がされるとし、元の単語の使用頻度を規定の割合で減ず
ると共に、新たに「EI」を「EE」で置き換えた単語
を加え、その新たな単語の使用頻度を元の単語の使用頻
度の規定の割合とするものである。
頻度推定部は任意の規定の割合で母音及び撥音が長音化
されるものとし、元の単語の使用頻度を規定の割合で減
ずると共に、新たに母音及び撥音を長音化したもので置
き換えた単語を加え、その新たな単語の使用頻度を元の
単語の使用頻度の規定の割合とするものである。
頻度推定部は任意の規定の割合で音節毎に区切られるも
のとし、元の単語の使用頻度を規定の割合で減ずると共
に、音節毎に区切られた単語を加え、その新たな単語の
使用頻度を元の単語の使用頻度の規定の割合とするもの
である。
頻度推定部は任意の規定の割合で促音が「つ」と発声さ
れるものとし、元の単語の使用頻度を規定の割合で減ず
ると共に、促音が「つ」と発声された単語を加え、その
新たな単語の使用頻度を元の単語の使用頻度の規定の割
合とするものである。
頻度推定部は規定の基準においてデータベースの内容を
分類して、それぞれの分類毎に使用頻度を推定し、使用
頻度スコア計算部は分類毎に使用頻度スコアを演算し、
また同じ規定の基準において分類された話者の音声信号
より学習された標準パターンをもって、未知の話者の音
声信号の話者識別を行い話者がどの分類に近いかを示す
話者識別スコアを出力する話者識別部を備え、照合部は
話者識別スコアとその分類における単語の使用頻度スコ
アと単語の音響スコアを任意の規定の割合で加算して照
合結果とするものである。
明の実施の形態を説明する。
一符号を付けた図1に、この発明による実施の形態1の
音声認識装置を示す。図9について上述した従来の音声
認識装置と同様に、音響分析部1は入力される音声信号
S1を一定時間毎に音響分析し、特徴パラメータベクト
ルS2と音声信号のパワーS3に変換し出力する。音声
区間検出部2は音響分析部1から受け取る音声信号のパ
ワーS3の変化により音声信号S1の音声区間を検出
し、音声区間の検出状況の変化により音声区間検出信号
S4を出力する。
従い音響分析部1から受け取る特徴パラメータベクトル
の時系列のうち音声区間のものと、単語辞書記憶部10
から読み出される順番でスコア付単語辞書S12との照
合を行い、入力された音声信号S1とスコア付単語辞書
S12がどの程度近いかを示す音響スコアと使用頻度ス
コアをある規定の割合で加え距離値S5として順次出力
する。ここでこの実施の形態1の場合、頻度付単語辞書
記憶部7は認識対象単語の読みを表すラベルと使用頻度
を表す情報を収め、使用頻度スコア計算部11は頻度付
単語辞書記憶部7の使用頻度を表す情報に従い頻度付き
単語辞書S8に使用頻度スコアを付加し、使用頻度の高
い順番にスコア付単語辞書S11として出力する。単語
辞書記憶部10は使用頻度の高い順番にスコア付単語辞
書S11を記憶する。
外部から入力される出力要求信号S9が入力された時、
既に受け取った距離値S5のうちまだ出力していないも
のをソーティングして距離値S5の小さな1つ又は複数
の単語を認識結果S10として出力する。
て説明する。認識に先立って、使用頻度スコア計算部1
1では頻度付単語辞書記憶部7の内容を読みだし、使用
頻度からスコア付単語辞書S11を求め、使用頻度の高
い順番に単語辞書記憶部10に記憶する。この使用頻度
スコアの与えかたとしては、例えば次式のような演算式
により求める方法がある。
語wの使用頻度を確率で表したもの、S(w)は単語w
の使用頻度スコアである。S(w)は使用頻度が高い単
語には小さな値、使用頻度の大きな単語には大きな値と
なる。しかし、あまりに使用頻度が小さすぎると使用頻
度スコアが非常に大きな値となり、どんなに丁寧に発声
しても結果出力部4において上位の認識結果として出力
されなくなるため、使用頻度スコアの下限値を設けるこ
とにより、非常に使用頻度の少ない単語でも、音響スコ
アが小さければ認識結果として出力することが可能とな
る構成としても良い。
説明する。音響分析部1、音声区間検出部2、結果出力
部4の動作は、図9〜図11について説明した従来の音
声認識装置と同様のためここでは説明を省略する。ここ
ではこの実施の形態1の特徴である照合部3の動作につ
いて説明する。照合部3では従来の音声認識装置と同様
に単語辞書記憶部10のスコア付単語辞書S12を順番
に読みだしパターン照合を行うが、次式に示すように音
響スコアD(w)に対し使用頻度スコアS(w)を重み
Rで加える。
認識しやすくし、スコアの高い単語は認識しづらくす
る。すなわち、使用頻度の高い単語は認識しやすくし、
使用頻度の低い単語は認識しづらくする効果を与える。
この実施の形態1によれば、図11について上述した認
識実験と同じ条件による認識実験を行った結果、57,711
単語を認識対象語彙とした時の誤り率を63.4%から32.1
%に改善できた。
使用頻度スコア計算部11の機能として使用頻度の高い
順番に並べて単語辞書記憶部10に収めるとして説明を
したが、H/Wが十分に速く全単語候補に対するパター
ン照合が高速に処理可能な場合や、加えて、「孤立単語
音声認識における全探索法・ビームサーチ法・A*探索
法の比較」(平成8年度春季日本音響学会講演論文集、
2−5−10、伊田正樹、中川聖一著)に記載されてい
るビームサーチ法や枝刈り法に代表される演算量削減策
を講じることにより、図10におけるフレームT5まで
にパターン照合で全候補の照合結果を得られる場合に
は、従来の音声認識装置のように分割してパターン照合
を行う必要はなく、加えて使用頻度スコア計算部11の
機能として使用頻度の高い順番に並べて単語辞書記憶部
7に収める必要はない。
能な照合部3を有する音声認識装置を実施の形態2に示
す。この音声認識装置の構成は実施の形態1と同様なの
で、ここでは説明を省略する。このような構成の音声認
識装置の動作について説明する。認識に先立って、使用
頻度スコア計算部11では頻度付単語辞書記憶部7の内
容を読み出し、使用頻度からスコア付単語辞書S11を
求め、単語辞書記憶部10に記憶する。単語辞書記憶部
10には使用頻度の高い順番に並べることは必要なくラ
ンダムに並べて良い。この使用頻度スコアの与え方とし
ては、上述した実施の形態1と同様である。
は、図9〜図11について上述した従来の音声認識装置
と同様であり、ここでは説明を省略する。図2はこの実
施の形態2に基づく音声認識装置の動作を説明するタイ
ミングチャートである。以下この図2を用いて、照合部
3及び結果出力4の動作について説明する。フレームT
5より前の処理は従来の音声認識装置と同様である。こ
の実施の形態2による照合部3では十分に処理能力が高
いため、フレームT5以前にパターン照合の処理を終了
している。そのためフレームT5において、結果出力部
4は音声区間検出部2の音声区間検出信号S4としての
終端確定信号により、照合部3から転送された距離値S
5をソーティングして複合スコアの小さい1つ又は複数
の単語の認識結果S10として出力する。さらに外部か
らの出力要求信号S9があった場合には、先に出力した
認識結果S10を除いて、さらに距離値S5の小さい1
つ又は複数の単語を認識結果S10として出力する。
施の形態2では単語の終端候補が定まった後、一単語づ
つパターン照合を行う方式の音声認識装置について述べ
てきたが、フレーム同期型パターン照合を行う照合部3
を用いても、同様の効果を実現できる。フレーム同期型
パターン照合は全単語辞書に対するパターン照合を同時
に進めて行く方法である、一単語づつパターン照合を行
う方法に比べ、ワークメモリ量は大きく増加するという
欠点はあるが、音声入力と平行してパターン照合を行え
るため、パターン照合を効率的に行えるという特徴を持
つ。フレーム同期パターンパターン照合は、例えば「フ
レーム同期化、ビームサーチ、ベクトル量子化の統合に
よるDPマッチングの高速化」(電子通信学会論文誌
D、Vol.J71-D,No.9,pp1650-1659、迫江博昭、藤井浩
美、吉田和永、亘理誠夫共著)等に記述されている方法
を用いる。
態1の構成と同じであり、ここでは説明を省略する。こ
の実施の形態3としての音声認識装置の動作について説
明する。音響分析部1及び音声区間検出部2の動作は実
施の形態2と同じなので、ここでは説明を省略する。照
合部3及び結果出力部4の動作について、図3を用いて
説明する。まず照合部3の動作について、照合部3は音
声区間検出部2からの音声区間検出信号S4の1つであ
る始端信号によりパターン照合処理を開始し、音声区間
検出信号S4の1つである終端確定信号により動作を終
了する。
から出力される。結果出力部4は音声区間検出信号S4
の1つである終端候補信号により、終端候補のフレーム
の距離値S5をソーティングし、音声区間検出信号S4
の1つである終端確定信号により距離値11の小さな1
つ又は複数の単語を認識結果S10として出力する。図
3には、フレームT2、T4の2つの終端候補信号があ
るが、フレームT5において出力するのは、フレームT
4において得られた認識結果S10である。このように
フレーム同期型のパターン照合を行うことにより、従来
の音声認識装置では演算を行っていなかったフレームT
1からフレームT2及びフレームT3からフレームT4
においても照合部3の処理を行うことができ、効率的な
音声認識装置を実現できる。
既知の単語について述べたが、音声認識装置をある程度
運用すれば、使用頻度が得られる場合があるが、運用初
期の段階では使用頻度を得ることは難しい場合が多い。
しかし、例えば自治体にある住民台帳や企業の持つ顧客
データベースや社員データベースには、住所、姓名、電
話番号、性別、年齢等が記録されている。そのため例え
ば、住民に対する情報サービスシステムなどでは、住民
台帳の内容から単語の使用頻度が推定できる。つまり人
口の割合の多い住所、姓名、電話番号等の単語は使用頻
度は高いと推定する。企業の持つ顧客データベースや社
員データベースに対しても同様の推定が可能である。こ
の実施の形態4では、姓をひとつの例として使用頻度を
推定する音声認識装置について説明する。
成を図1との対応部分に同一符号を付けて図4に示す。
図4において、音響分析部1、音声区間検出部2、照合
部3、結果出力部4、頻度付単語辞書記憶部7、使用頻
度スコア計算部11、単語辞書記憶部10は実施の形態
3と同様なので、ここでは説明を省略する。図におい
て、データベース12は住民の姓が含まれているデータ
ベースであり、この中には姓に対してかな文字でふり仮
名がふられているものとする。また使用頻度推定部13
はデータベース12から名の頻度情報と読みを生成する
ものである。さらにS13は姓情報、S14は頻度付き
単語辞書である。
て説明する。まずデータベース12を検索して、同じふ
り仮名を持つ姓をひとつの単語wとして、単語wに対す
る人口N(w)を調べる。異なる漢字であってもふり仮
名が同じであれば同一の単語wとして計数する。そして
そのような姓を持つ人が多ければ、その姓の使用頻度も
高いと推定し、使用頻度P(w)を次式で求める。
ス12に含まれる全人口である。単語の読みはデータベ
ース12に含まれる読みを用いる。その後のスコア付単
語辞書S11の作成方法や音響分析部1、音声区間検出
部2、照合部3、結果出力部4の動作は実施の形態3に
等しいのでここでは説明を省略する。
頻度付単語辞書記憶部7の単語の読みをデータベース1
2に含まれるふり仮名を用いる例を述べたが、一般的に
データベース12に含まれるふり仮名は書く時のかな文
字がふられており、音声認識装置に入力される発声とは
一致しない場合がある。例えばデータベース12におけ
る「佐藤」のかな文字表記は「さとう」であるが、約80
%の人はこれを「さとー」と長音で発声する。残り約15
%の人は文字通り「さとう」と発声する。「さ、と、
う」と区切って発声する人も存在する。これらは全て
「佐藤」と音声認識すべきなので、自動的にこれらの単
語を加え、使用頻度を推定することにより、認識率を向
上させることが可能となる。
実施の形態4の図4に等しいので、ここでは説明を省略
する。ただし、図4の使用頻度推定部13の動作は実施
の形態4に示したものとは異なり、単語の変形規則を用
いて同じふり仮名に対する異なる読み方の単語を追加す
る機能を持つ。以下この実施の形態5における使用頻度
推定部13の動作を説明する。図5はこの発明における
使用頻度推定部13の動作を示す流れ図である。図にお
いて処理は「START」から始まり「END」で終
る。まず図中ステップST1においてローマ字表記で
「OU」が含まれる単語に対しては、ステップST2に
おいて「OU」を「OO」に変えた単語を追加する。使
用頻度はもとの単語の値に対し 0.8の倍率を乗ずる。も
との「OU」を含む単語の使用頻度は 0.2の倍率を乗じ
る。
記で「EI」が含まれる単語に対しては、ステップST
4において「EI」を「EE」に変えた単語を追加す
る。使用頻度は元の単語の確率に対し 0.7の倍率を乗ず
る。元の「EI」を含む単語の使用頻度は 0.3の倍率を
乗じる。またステップST5において、促音を含む単語
であったなら人により促音を「つ」と発声することがあ
るため、ステップST6において促音を「つ」に変えた
単語を追加する。使用頻度は元の単語の値に対し、0.05
の倍率を乗じる。元の促音を含む単語の使用頻度は、0.
95の倍率を乗じる。
し長音化した単語と切断化した単語を追加する。元の単
語の使用頻度に対し長音化した単語は 0.1の倍率を乗
じ、切断化した単語には0.05の倍率を乗じ使用頻度とす
る。元の単語の使用頻度は0.85の倍率を乗じて変更す
る。ただし、母音及び撥音の長音化においては最後の音
節は長音化しない場合もあるため、このような変形規則
を用いても良い。
的な処理結果を示す。図6はあるデータベース12を用
いたときの実施の形態4に示された使用頻度推定部13
で推定される単語と使用頻度であるとする。これに対
し、この実施の形態5における使用頻度推定部13では
図7に示す20個の単語が推定される。図7において、
ハイフン(−)は母音及び撥音が長音化されていること
を示し、点(・)は音節が切断されていることを示す。
母音及び撥音の長音化では、最期の音節は長音化しない
という変形規則を用いている。
定の倍率を掛けられている。例えば「あべ」は図5のス
テップST7の規則を適用されて母音が長音化された
「あーべ」と音節毎に切断された「あ・べ」が追加され
る。使用頻度は元の使用頻度 0.04598に対し「あべ」が
0.85倍、「あーべ」が0.10倍、「あ・べ」が0.05倍され
ている。ただし、「にった」に関しては音節毎に切断さ
れた単語と、もとの単語が同じとなるため、「にった」
の使用頻度が0.90倍されている。
ータベース12のふり仮名から、様々な発声の変形とそ
の使用頻度を推定するため、良好な認識性能を示す音声
認識装置を実現できる。なお上述の倍率の値は任意の調
査結果から経験的に求めたものであるが、これらはデー
タベースに応じて変更しても良い。
て人口に偏りがある場合がある。例えば名前では男性、
女性で人口が異なる。そのため、音声信号が男性か女性
かの情報を追加すればさらに認識性能を高めることがで
きる。この実施の形態6の音声認識装置の構成を図8に
示す。図において、音響分析部1、音声区間検出部2、
照合部3、結果出力部4、頻度付単語辞書記憶部7、使
用頻度スコア計算部11、単語辞書記憶部10、データ
ベース12、使用頻度推定部13の構成は、上述した実
施の形態5と同様である。
出部2からの音声区間検出信号S4に従い、音響分析部
1からの特徴パラメータベクトルS2を比較し話者識別
を行うものである。ここでは話者識別の対象を、男性、
女性として、性別により姓名のうち名前を男性、女性で
分類して記憶しておくことを一例として説明する。
は、データベース12の同じ名前に対し男性、女性に分
けて別の単語として頻度付き単語辞書S14を作成す
る。以下、使用頻度スコア計算部11でも、別々の単語
としてスコアを計算し、単語辞書記憶部10に格納す
る。これにより、頻度付単語辞書記憶部7、単語辞書記
憶部10の記憶量は2倍になる。また話者識別部14に
は話者識別のための標準パターンが入れられる。話者識
別の方法としては多くのものが提案されているが、ここ
ではベクトル量子化を用いる方法を一例として説明す
る。
2としてそれぞれM個の標準パターンを用意する。この
標準パターンは男性、女性それぞれの音声信号からLB
G(Linde Buzo Gray )アルゴリズム等を用いて学習さ
れる。性別iのm番目の標準パターンをM(i,m)、
フレームtの特徴パラメータベクトル9をL(t)とす
ると、話者識別スコア27であるS2(i)は、次式の
演算式で求められる。
値を意味する。また、
する。式(4)の演算はフレームT4においてまとめて
行うことも可能であるし、フレームT1からフレーム同
期的に行うことも可能である。フレームT1、T4は音
声区間検出信号S4として通知される。このようにして
得られた話者識別スコアS15は照合部3においてR2
の割合で音響スコアと使用頻度スコアに加えられ、男性
用のものと女性用のものと小さなほうが最終的な照合結
果となる。
で用いたものと同じであり、S1(i,w)は性別iの
単語wに対する使用頻度スコアである。
ーンを単語辞書記憶部10の標準パターンとは別のもの
として説明したが、男性用、女性用の単語辞書記憶部1
0の標準パターンを持つマルチテンプレートの音声認識
装置では、これを話者識別用に流用することも可能であ
り、このような構成でも上述と同様の効果を実現でき
る。また上述の説明では性別により話者識別を行う例を
述べたが、年齢や日本人名か英語名かの言語などにより
データベース12を分類して話者識別を行うことも可能
であり、同様に効果を実現できる。
使用頻度から計算した使用頻度スコアを音響スコアに規
定の割合で加えて距離値を得るため、頻度の多い単語の
認識性能を高めることができ、大語彙の場合でも全体と
して認識率を格段的に向上し得る音声認識装置を実現で
きる。
低い単語のスコアの下限値を設けたため、極めて使用頻
度の低い単語でも音響スコアが良好であれば、上位の認
識結果とでき、かくするにつき、大語彙の場合でも全体
として認識率を格段的に向上し得る音声認識装置を実現
できる。
スから使用頻度を推定できるため、使用頻度が明確でな
い単語に対しても、使用頻度スコアを設定でき、かくす
るにつき、大語彙の場合でも全体として認識率を格段的
に向上し得る音声認識装置を実現できる。
スのふり仮名にローマ字表記で「OU」を含む単語があ
る時、これを「OO」と変更した単語を追加し、使用頻
度を規定の割合で設定するため、ふり仮名とは異なる発
声をされた場合も認識でき、かくするにつき、大語彙の
場合でも全体として認識率を格段的に向上し得る音声認
識装置を実現できる。
スのふり仮名にローマ字表記で「EI」を含む単語があ
る時、これを「EE」と変更した単語を追加し、使用頻
度を規定の割合で設定するため、ふり仮名とは異なる発
声をされた場合も認識でき、かくするにつき、大語彙の
場合でも全体として認識率を格段的に向上し得る音声認
識装置を実現できる。
スのふり仮名に対し母音を長音化した単語を追加し、使
用頻度を規定の割合で設定するため、ふり仮名とは異な
る発声をされた場合も認識でき、かくするにつき、大語
彙の場合でも全体として認識率を格段的に向上し得る音
声認識装置を実現できる。
スのふり仮名に対し音節毎に区切られた単語を追加し、
使用頻度を規定の割合で設定するため、ふり仮名とは異
なる発声をされた場合も認識でき、かくするにつき、大
語彙の場合でも全体として認識率を格段的に向上し得る
音声認識装置を実現できる。
スのふり仮名に促音を含む単語がある時、これを「つ」
と変更した単語を追加し、使用頻度を規定の割合で設定
するため、ふり仮名とは異なる発声をされた場合も認識
でき、かくするにつき、大語彙の場合でも全体として認
識率を格段的に向上し得る音声認識装置を実現できる。
てデータベースの内容を分類して使用頻度を推定し、認
識時には話者照合を行い、話者照合スコアを使用頻度ス
コアと音響スコアにある割合で加えるため、良好な認識
性能を得ることができ、かくするにつき、大語彙の場合
でも全体として認識率を格段的に向上し得る音声認識装
置を実現できる。
の構成を示すブロック図である。
の動作の説明に供するタイミングチャートである。
の動作の説明に供するタイミングチャートである。
の構成を示すブロック図である。
の使用頻度推定部の動作を示すフローチャートである。
の使用頻度推定部の処理結果の説明に供する図表であ
る。
の使用頻度推定部の処理結果の説明に供する図表であ
る。
の構成を示すブロック図である。
である。
部の動作の説明に供するタイミングチャートである。
に供する特性曲線図である。
Claims (9)
- 【請求項1】 姓名を発話した音声信号を入力し、一定
時間毎に音響分析し、特徴パラメータベクトルと音声信
号のパワーとに順次変換し出力する音響分析部と、当該
音響分析部から受け取る上記音声信号のパワーの変化に
より上記音声信号の音声区間を検出し、当該音声区間の
検出状況の変化により音声区間検出信号を出力する音声
区間検出部と、上記音声区間検出信号の指示に従い上記
音響分析部から出力される上記特徴パラメータベクトル
の時系列のうち上記音声区間の部分と単語辞書記憶部に
記憶されている単語辞書との照合を行い、入力された上
記音声信号と上記単語辞書とのパターン照合を行い、距
離値として出力する照合部と、上記音声区間検出信号に
より指示された時、既に受け取った上記距離値をソーテ
ィングして上記距離値の小さな1つ又は複数の単語を認
識結果として出力する結果出力部とを有する音声認識装
置において、認識対象単語の標準パターンと予め人口に
基づき姓名を表す単語の使用頻度を表す情報を納める頻
度付単語辞書記憶部と、当該頻度付単語辞書記憶部の使
用頻度を表す情報から使用頻度の高いものほど小さな値
となる使用頻度スコアを計算し、上記単語辞書記憶部に
記憶する使用頻度スコア計算部とを備え、上記照合部に
おいて入力された上記音声信号と単語辞書が音響的にど
の程度近いかを示す音響スコアに上記単語辞書記憶部に
記憶されているその単語の上記使用頻度スコアを規定の
割合で加算して距離値とすることを特徴とする音声認識
装置。 - 【請求項2】 上記使用頻度スコア計算部は上記使用頻
度スコアが規定の下限値より小さくならないように設定
することを特徴とする請求項1に記載の音声認識装置。 - 【請求項3】 人口を含む既存のデータベースから同じ
ふり仮名を持つ姓名を表す単語の頻度から演算した値を
上記単語の使用頻度とみなす使用頻度推定部を備えるこ
とを特徴とする請求項1に記載の音声認識装置。 - 【請求項4】 上記使用頻度推定部はふり仮名をローマ
字表記したものが「OU」を含む時、規定の割合で「O
O」に置き換えた読みがされるとし、元の上記単語の使
用頻度を上記規定の割合で減ずると共に、新たに上記
「OU」を上記「OO」で置き換えた単語を加え、当該
新たな単語の使用頻度を元の上記単語の使用頻度の上記
規定の割合とすることを特徴とする請求項3に記載の音
声認識装置。 - 【請求項5】 上記使用頻度推定部はふり仮名をローマ
字表記したものが「EI」を含む時、規定の割合で「E
E」に置き換えた読みがされるとし、元の上記単語の使
用頻度を上記規定の割合で減ずると共に、新たに上記
「EI」を上記「EE」で置き換えた単語を加え、当該
新たな単語の使用頻度を元の上記単語の使用頻度の上記
規定の割合とすることを特徴とする請求項3に記載の音
声認識装置。 - 【請求項6】 上記使用頻度推定部は任意の規定の割合
で母音及び撥音が長音化されるものとし、元の上記単語
の使用頻度を上記規定の割合で減ずると共に、新たに上
記母音及び撥音を長音化したもので置き換えた単語を加
え、当該新たな単語の使用頻度を元の上記単語の使用頻
度の規定の割合とすることを特徴とする請求項3に記載
の音声認識装置。 - 【請求項7】 上記使用頻度推定部は任意の規定の割合
で音節毎に区切られるものとし、元の単語の使用頻度を
上記規定の割合で減ずると共に、上記音節毎に区切られ
た単語を加え、当該新たな単語の使用頻度を元の上記単
語の使用頻度の規定の割合とすることを特徴とする請求
項3に記載の音声認識装置。 - 【請求項8】 上記使用頻度推定部は任意の規定の割合
で促音が「つ」と発声されるものとし、元の単語の使用
頻度を上記規定の割合で減ずると共に、促音が「つ」と
発声された単語を加え、当該新たな単語の使用頻度を元
の上記単語の使用頻度の上記規定の割合とすることを特
徴とする請求項3に記載の音声認識装置。 - 【請求項9】 上記使用頻度推定部は規定の基準におい
てデータベースの内容を分類して、それぞれの分類毎に
使用頻度を推定し、上記使用頻度スコア計算部は上記分
類毎に使用頻度スコアを演算し、また同じ規定の基準に
おいて分類された話者の音声信号より学習された標準パ
ターンをもって、未知の話者の音声信号の話者識別を行
い上記話者がどの分類に近いかを示す話者認識別スコア
を出力する話者識別部を備え、上記照合部は上記話者識
別スコアと当該分類における単語の使用頻度スコアと単
語の音響スコアを任意の規定の割合で加算して照合結果
とすることを特徴とする請求項3に記載の音声認識装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25137396A JP3444108B2 (ja) | 1996-09-24 | 1996-09-24 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25137396A JP3444108B2 (ja) | 1996-09-24 | 1996-09-24 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1097285A JPH1097285A (ja) | 1998-04-14 |
JP3444108B2 true JP3444108B2 (ja) | 2003-09-08 |
Family
ID=17221876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25137396A Expired - Fee Related JP3444108B2 (ja) | 1996-09-24 | 1996-09-24 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3444108B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099076A (ja) * | 1998-09-25 | 2000-04-07 | Fujitsu Ltd | 音声認識を活用した実行環境設定装置及び方法 |
US7328155B2 (en) * | 2002-09-25 | 2008-02-05 | Toyota Infotechnology Center Co., Ltd. | Method and system for speech recognition using grammar weighted based upon location information |
US7184957B2 (en) | 2002-09-25 | 2007-02-27 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
CN1714390B (zh) * | 2002-11-22 | 2010-12-22 | 微差通信奥地利有限责任公司 | 语音识别设备和方法 |
JP4601306B2 (ja) * | 2003-03-13 | 2010-12-22 | パナソニック株式会社 | 情報検索装置、情報検索方法、およびプログラム |
JP4804052B2 (ja) * | 2005-07-08 | 2011-10-26 | アルパイン株式会社 | 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法 |
WO2009008055A1 (ja) * | 2007-07-09 | 2009-01-15 | Fujitsu Limited | 音声認識装置、音声認識方法、および、音声認識プログラム |
JP5243325B2 (ja) * | 2009-03-30 | 2013-07-24 | Kddi株式会社 | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム |
JP7109349B2 (ja) * | 2018-12-04 | 2022-07-29 | 富士通株式会社 | 発話検出プログラム、発話検出方法、および発話検出装置 |
-
1996
- 1996-09-24 JP JP25137396A patent/JP3444108B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH1097285A (ja) | 1998-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US6236964B1 (en) | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data | |
KR100679044B1 (ko) | 사용자 적응형 음성 인식 방법 및 장치 | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP4224250B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP3444108B2 (ja) | 音声認識装置 | |
US20110224985A1 (en) | Model adaptation device, method thereof, and program thereof | |
JP2005148342A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP4987530B2 (ja) | 音声認識辞書作成装置および音声認識装置 | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2000075886A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP4236502B2 (ja) | 音声認識装置 | |
JP3240691B2 (ja) | 音声認識方法 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
JP3289670B2 (ja) | 音声認識方法および音声認識装置 | |
JP3291073B2 (ja) | 音声認識方式 | |
JP2003345384A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JPH04291399A (ja) | 音声認識方法 | |
Heracleous et al. | A novel approach for modeling non-keyword intervals in a keyword spotter exploiting acoustic similarities of languages | |
Hong | Malaysian English Large Vocabulary Continuous Speech Recognizer: An Improvement Using Acoustic Model Adapation | |
JP2979912B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080627 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080627 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090627 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100627 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100627 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110627 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120627 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130627 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |