JPH1049186A

JPH1049186A - 数字列音声認識方法およびこの方法を実施する装置

Info

Publication number: JPH1049186A
Application number: JP8199284A
Authority: JP
Inventors: Tetsutada Sakurai; 哲真桜井; Yoshio Nakadai; 芳夫中台; Yoshie Shimamura; 佳江島村; Yutaka Nishino; 豊西野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-07-29
Filing date: 1996-07-29
Publication date: 1998-02-20

Abstract

(57)【要約】（修正有）【課題】使用履歴のある数字列の音声パターンを標準
パターンとして使用して実用に供することができる数字
列音声認識方法および装置を提供する。【解決手段】使用履歴のある数字列の音声パターンを
標準パターンとして登録し、その末尾から一部を切り出
した部分パターンと入力数字列音声パターンとの間でパ
ターン照合或は尤度計算を行い距離値の最も小さい或は
最も尤度の大きい部分パターンを選定し、それが一部を
なしているような標準パターンをる登録されている中か
ら選定する。登録は、４桁の数字列なら１００００件の
電話番号の識別をすることができるが、末尾３桁の発声
でも１０００件の照合識別ができ、場合によってはこれ
で充分である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、数字列音声認識
方法およびこの方法を実施する装置に関し、特に数字を
発声した音声を入力してその認識結果を出力する数字列
音声認識方法およびこの方法を実施する装置に関する。

【０００２】

【従来の技術】電話機のダイヤル部のダイヤル或はプッ
シュボタンを手により操作する電話発呼操作は電話を使
用するに際して真っ先に実行すべき操作である。この操
作は、携帯電話に代表される小型電話機器においてプッ
シュボタンの二重押し或は押し間違いの避け難いもので
あり、早急に解決されるべき技術課題とされている。こ
の解決策として音声認識技術を採用する音声ダイヤル装
置に期待がかけられている。

【０００３】音声認識技術は、使用者が任意の場所から
任意のタイミングで発声した任意の長さの音声を１００
％の確率で認識することができれば理想的である。しか
し、電話器は現実に使用される環境条件下において種々
雑多な騒音に曝されている。そして、任意の時刻で発声
された音声を捕捉しようとすると、音声の入力に際して
雑音をも含めて観測される音声信号区間の内から音声の
始端および終端を何度も検出し、複雑なアルゴリズムを
使用して雑音のみを除外する処理を常に実行する必要が
生ずる。この音声始端および終端の検出処理および雑音
除外処理の計算量は膨大なものとなる。音声認識技術に
おいては、この計算量を削除せんとして、音声始端およ
び音声終端を或る一定時間中においてそれぞれ１回のみ
検出する簡易な孤立単語音声認識方式が開発実施されて
いる。

【０００４】ここで、孤立して発声された数字列の音声
を認識する数字列音声認識装置の従来例を図４を参照し
て説明する。図４において、音声入力部１はマイクロホ
ンその他の音声を受信して音声信号波形に変換する部位
である。波形変換部２は音声分析の前処理として音声信
号波形をディジタルの数値に変換する部位である。音声
特徴抽出部３は音声信号波形から音声認識に使用する特
徴を抽出する部位である。起動スイッチ部４は音声認識
に使用する音声区間を検出するに際して音声始端の検出
開始のトリガを与える部位である。音声区間検出部５は
音声特徴抽出部３から入力される音声特徴量より音声始
端および音声終端をそれぞれ１箇所だけ決定する部位で
ある。入力パターン格納部６は音声区間検出部５におい
て決定された音声始端から音声終端に到る音声特徴量を
未知入力パターンとして取り込み格納する部位である。
標準パターン記憶部７は、数字列音声認識に使用される
ラベル名を付与された複数の数字列音声パターンを入力
パターン格納部６と同様の手順を経て取り込み記憶する
部位である。パターンマッチング部或は尤度比較部８
は、入力パターン格納部６に格納された未知の入力音声
パターンと標準パターン記憶部７に記憶される各標準パ
ターンとの間のマッチングを行い、その結果である入力
音声パターンとの間の距離値を出力する部位である。結
果集計部９は各標準パターンについてそれぞれ出力され
た未知入力音声パターンとの間の距離値の内の最も小さ
い距離値を有する標準パターンを導出する部位である。
出力部１１はこの最も小さい距離値を有する標準パター
ンのラベル名を音声認識装置を動作させる上位ホストへ
出力する部位である。１０は辞書データ記憶部であり、
音声認識の手法として隠れマルコフモデル（ＨＭＭ）に
基づく音声認識の手法を採用する場合に必要とする語彙
の標準パターンを格納しておく。この場合、辞書データ
記憶部１０の他にテキストデータ入力部１’も必要とす
る。

【０００５】ここで、図４を参照して数字列音声認識装
置の動作について説明する。標準パターン記憶部７に
は、未知の入力数字列音声パターンを入力パターン格納
部６に取り込み格納する場合と同様の手順を経て分析処
理がなされ、整備された標準パターンが予め記憶されて
いる。数字列音声は、常時、音声入力部１、波形変換部
２、音声特徴抽出部３を介して受信、分析処理され、そ
の分析結果の一部の情報である音声信号の対数パワーに
ついてこれを音声区間検出部５に供給し、音声区間検出
部５において音声区間を検出する情報として使用され
る。ここで、発声者或は音声認識装置を動作させる上位
ホストにより起動スイッチ部４を操作し、音声区間検出
開始のトリガを発生したものとする。音声区間検出部５
はこのトリガにより初期化され、音声特徴抽出部３から
受信する情報である音声信号の対数パワーに対して音声
始端の検出を開始する。音声始端の検出方法としては、
信号パワー値が音声のない状態から或る一定閾値以上の
大きな値で一定時間継続した時に、この信号パワー値の
立ち上がり位置を音声始端とする方法を採用することが
できる。音声区間検出部５は、次いで、音声の信号パワ
ー値の減衰点を検出してこれを音声終端として動作を終
了する。この様にして検出された音声始端から音声終端
に到る区間を入力パターン格納部６に印加し、入力パタ
ーン格納部６はこの区間について音声特徴抽出部３の分
析結果を入力音声パターンとして格納する。パターンマ
ッチング部或は尤度比較部８は、入力パターン格納部６
に分析結果の格納が完了した時点において、入力パター
ン格納部６に格納した入力音声パターンと標準パターン
記憶部７に記憶されている各標準パターンの内容との間
のパターンマッチングを、ＤＰマッチングその他のパタ
ーンマッチング手法により照合し、距離値を計算する。
各標準パターンに対する距離値の計算結果は結果集計部
９において小さい距離値の順に整理され、最も小さい距
離値とされた標準パターンのラベル名が上位ホストに出
力される。

【０００６】ところで、以上の音声認識技術により発声
された電話番号の認識とこれに続く発信操作を実施する
ことは必ずしも容易ではないことが判明しつつある。こ
の困難性は日本語で発声された数字列音声を認識する場
合に特に著しい。ここで、電話番号を日本語で発声して
これを認識する場合について考慮してみる。数字列音声
認識の場合、“イチ”と“ニ”、“イチ”と“シチ”の
如く発音表記により記述した場合に相違部分が僅かであ
るもの同士をも識別することが要請される。電話番号を
入力する場合、約１０桁に亘ってこれらの識別を行う必
要がある。その認識率：Ｐは、各桁の認識率をＰ_iとす
ると、次の式で表現される。

【０００７】Ｐ＝Π_i=1 ¹⁰（Ｐ_i）・・・・・・・・・・（１） “ゼロ”或は“ヨン”の如く他に類似した発音がない数
字の認識率Ｐ₀或はＰ ₄は９９．９％程度の高率が得ら
れる。しかし、“イチー”と“ニー”の如く相互に類似
した発音がある数字の認識率Ｐ₁或はＰ₂は高々９５％
程度であり、発声条件が悪い場合は７０〜８０％に低下
する。これについて、次の電話番号のおよその認識率を
計算により見積ると以下の如くになる。各数字の認識率
として先の数値の内の有利な数値を採用して評価する。

【０００８】ゼロサンサンイチナナナナイチニーニーイチ zero/ san san/ ichi/ nana/ nana/ ichi/ ni/ ni/ ichi Ｐ＝Π（Ｐ_i）＝0.99x 0.99x 0.99x 0.95x 0.99x 0.99x 0.95x 0.95x 0.95x 0.95 ＝０.７４・・・・・・・・・・（２）となる。この電話番号に２回電話をすればその正解を与
える期待値は０. ５５となり、確率の定義から明らかな
如く２回に１回は誤った電話番号にダイヤルされる可能
性があることとなり、実用上極めて問題が多いと言わざ
るを得ない。この例からも明らかな如く、日本語の数字
列音声認識は音声認識の領域において期待されている認
識率である９０〜９９％を実現することは極めて困難で
ある。一方において、数字列の音声認識は、電話番号の
発信その他極めて実用性の高いものであるところから、
認識率の高い数字列音声認識を実現することに対する期
待は極めて大きいものがある。

【０００９】以上の数字列音声認識の技術分野と近縁の
関係にある技術分野という訳ではないが、この発明と同
様な効果を狙った別の分野の先願発明がある。これは、
『出願番号特願平８−２３３７１、出願平成６年７
月６日、発明の名称通信装置』である。この先願発明
の意図するところは、相手先電話番号の内の記憶してい
る数桁を入力することにより、これに基づいて過去の使
用履歴から類似の番号を選択し、表示するというもので
ある。先願発明の実施例は、ＦＡＸにおいてテンキー入
力により２桁以上の数字を入力するものである。音声認
識の分野において、電話番号の如き１０桁の数字列の内
の２桁程度の音声情報と認識候補数字列の一致を見るこ
とは“ワードスポッティング”機能として知られている
ところである。しかし、このワードスポッティング機能
を実施するには、およそ５０ＭＩＰＳ程度の大きな計算
能力を有する中央演算装置ＣＰＵが必要とされ、価格が
数１０万円以上のコンピュータ或はこれと同等の演算装
置を必要とする。これは安価な電話機に対しては不相応
な価格である。

【００１０】ここで、或る電話番号を発信する場合につ
いて説明する。市外にダイヤル発信する場合は、ゼロサンサンイチナナナナイチニーニーイチ zero/ san san/ ichi/ nana/ nana/ ichi/ ni/ ni/ ichi ・・・・・・・・・・（３）という数字列が発声され、市内にダイヤル発信する場合
は、サンイチナナナナイチニーニーイチ san/ ichi/ nana/ nana/ ichi/ ni/ ni/ ichi ・・・・・・・・・・（４）という数字列が発声され、内線にダイヤル発信する場合
は、イチニーニーイチ ichi/ ni/ ni/ ichi ・・・・・・・・・・（５）という数字列が発声されて音声認識の対象とされる。以
下、この内の市内ダイヤルの場合について、数字列音声
の特徴を模式的に示す図２を参照して説明する。図２に
おいて、縦軸は数字列音声のパワー値を対数表示したも
のである。横軸は時間を示し、市内局番程度の数字列の
場合は２秒程度の時間が表示されることとなる。加入者
番号の数字列の末尾の４桁の発声時間は図２の第２の音
声区間に相当する時間であり、使用者により異なるもの
の凡そ０. ８〜１秒程度の短時間である。この音声波形
は、最初に区間Ｐ〜Ｑに亘る鼻息があり、これに続いて
区間Ｑ〜Ｒに亘る局番を示す第１の音声区間があり、更
に区間Ｒ〜Ｓに亘って４桁の加入者番号である第２の音
声区間がある。最後に、区間Ｓ〜Ｔに亘って呼吸音或は
周囲の雑音が表現されている。音声波形は模式的に表現
している。

【００１１】図２において、２本の音声パワーレベルを
実線および波線により表記しているが、これは以下のこ
とに対処するためである。一般に、電話番号その他の識
別番号が発声される環境には、周囲にかなりの雑音が存
在する。これらの雑音を数字列音声の発声と誤認識しな
いためには、対数音声パワーの閾値を適切に設定するこ
とが重要である。真の音声区間の中に雑音が重畳したと
しても、適切な閾値を設定し、或は発声の前と後で閾値
を変更することにより、音声区間検出に影響を与えるこ
となく雑音成分を除去し、雑音に影響されない音声認識
を実行することができるに到る。

【００１２】

【発明が解決しようとする課題】使用者は、発声に際し
て口或は鼻から息その他の小さな有声音を本能的に発声
して自身の発声強度および発声器官の具合を確かめるこ
とが判明している。一般に、余剰語或は不要語と呼ばれ
るこれらの音声波形が認識対象の数字列の前に加わる現
象が音声認識を困難にする一因とされている。この不要
な音声信号波形が付随する問題について再検討するに、
不要音声信号波形は真の音声区間の前に付随することが
多く、これが数字列音声認識に致命的な悪影響を与えて
いることが判っている。即ち、先の例についてみると、フー（鼻息）サンイチナナナナイチニーニーイチ？ san/ ichi/ nana/ nana/ ichi/ ni/ ni/ ichi ・・・・（６）という数字列音声波形信号が入力される結果となり、式
（４）と比較すると、冒頭の鼻息部分の時間が付加され
た分大きく異なり、これに起因して音声認識の評価尺度
であるパターンマッチングの距離値を大きいもの或はＨ
ＭＭにおける尤度を小さいものに算定することとなる。
この算定値が或る閾値を超えるか否か、尤度の場合は或
る閾値以下であるか否かにより当該数字列であるか否か
を判定するアルゴリズムを採用することが音声認識にお
いては一般的である。ところで、電話番号列或は社員証
番号の如き識別番号は、最後の１桁のみが異なる番号が
存在することは避けられない。この様な状況において、
式（４）と式（６）のマッチングが可能な様に閾値を甘
く設定すれば、最後の１桁の相違を識別することができ
ない結果を招くことは明かである。

【００１３】この発明は、この問題を解消した数字列音
声認識方法およびこの方法を実施する装置を提供するも
のである。

【００１４】

【課題を解決するための手段】使用履歴のある数字列の
音声パターンを標準パターンとして登録し、この登録さ
れた数字列の標準パターンの末尾の一部を切り出した部
分パターンと入力数字列音声パターンとの間のパターン
照合或は尤度計算を行い、照合結果である距離値の最も
小さい部分パターン或は最も尤度の大きい部分パターン
を選定し、選定された部分パターンがその一部をなす標
準パターンを使用履歴ある登録された標準パターンの内
から選定する数字列音声認識方法を構成した。

【００１５】そして、標準パターンの数字列の内の末尾
からおよそ１秒の時間内の部分パターンに限定して入力
音声パターンとの間の照合或は尤度計算を行う数字列音
声認識方法を構成した。また、標準パターンの数字列の
末尾から４桁の部分パターンに限定して入力音声パター
ンとの間の照合或は尤度計算を行う数字列音声認識方法
を構成した。

【００１６】更に、発声入力或いはテキスト形式で指定
されて予め登録された単数字毎の音声パターンについ
て、発声或はテキスト形式で指定された単数字毎の音声
パターンの始端および終端の一部を除去した音声パター
ンを作成し、これらを連結して数字列の認識対象の標準
パターンとする数字列音声認識方法を構成した。ここ
で、音声信号を入力する音声入力部１と、入力された音
声信号をディジタル信号に変換する波形変換部２と、変
換されたディジタル信号から音声特徴パターンを抽出す
る音声特徴抽出部３と、音声特徴抽出部３の出力する音
声特徴パターン情報に基づいて音声区間を検出する音声
区間検出部５と、音声区間検出部５を動作させる起動ス
イッチ部４と、区間検出結果に基づいて音声区間の始端
および終端を確定して音声特徴パターンを格納する入力
パターン格納部６と、音声認識に使用する標準パターン
を格納する標準パターン記憶部７と、入力パターン格納
部６に格納した入力音声特徴パターンと標準パターン記
憶部７に記憶されている各標準パターンとを比較して比
較結果を出力する比較部８と、各標準パターンとの間の
最適な比較結果の標準パターンを選択する結果集計部９
と、結果集計部９の選択情報を元にして認識対象として
最も可能性の高い標準パターンのラベル名を出力する結
果集計部９と、辞書データ記憶部１０と、入力パターン
格納部６を比較部８或は辞書データ記憶部１０の何れか
に切り替え接続する切り替えスイッチ１２を有する音声
認識装置において、使用履歴ある数字列の音声パターン
を記録して記録内容を標準パターン記憶部７に入力する
使用情報記録部１３を具備し、標準パターン記憶部７に
使用情報記録部１３から格納登録された数字列の標準パ
ターンをその末尾の一部を切り出した部分パターンに加
工する部分区間決定部１４を具備し、部分区間決定部１
４或は標準パターン記憶部７の何れかを比較部８に切り
替え接続する切り替えスイッチ１５を具備する数字列音
声認識装置を構成した。

【００１７】また、比較部８は入力パターン格納部６に
格納した入力音声特徴パターンと部分区間決定部１４の
出力する各部分パターンとの間のパターンマッチングを
とりこれら比較結果から計算された入力音声特徴パター
ンと部分パターンとの間の最小距離値を比較結果として
出力するパターンマッチング部により構成され、辞書デ
ータ記憶部１０は認識対象語彙の標準パターンを格納す
るものである数字列音声認識装置を構成した。

【００１８】更に、認識対象語彙をテキストベースで登
録するテキストデータ入力部１’を具備し、辞書データ
記憶部１０は入力されたテキストデータを元にして作成
された認識対象語彙を格納するものであり、比較部８は
入力パターン格納部６に格納した入力音声特徴パターン
と部分区間決定部１４の出力する各部分パターンとの間
の尤度を比較してこれら比較結果から計算された入力音
声特徴パターンと部分パターンとの間の最大尤度を出力
する尤度比較部により構成され、標準パターン記憶部７
に格納される標準パターンは認識対象語彙のモデルとさ
れる数字列音声認識装置を構成した。

【００１９】

【発明の実施の形態】この発明の実施の形態を図１を参
照して説明する。図１において、音声入力部１はマイク
ロホンその他の音声を受信して音声信号波形に変換する
部位である。波形変換部２は音声分析の前処理として音
声信号波形をディジタルの数値に変換する部位である。
音声特徴抽出部３は音声信号波形から音声認識に使用す
る特徴を抽出する部位である。起動スイッチ部４は音声
認識に使用する音声区間を検出するに際して音声始端の
検出開始のトリガを与える部位である。音声区間検出部
５は音声特徴抽出部３から入力される音声特徴量より音
声始端および音声終端をそれぞれ１箇所だけ決定する部
位である。入力パターン格納部６は音声区間検出部５に
おいて決定された音声始端から音声終端に到る音声特徴
量を未知入力パターンとして取り込み格納する部位であ
る。標準パターン記憶部７は、数字列音声認識に使用さ
れるラベル名を付与された複数の数字列音声パターンを
入力パターン格納部６と同様の手順を経て取り込み記憶
する部位である。パターンマッチング部或は尤度比較部
８は、入力パターン格納部６に格納された未知の入力音
声パターンと標準パターン記憶部７に記憶される各標準
パターンとの間のマッチングを行い、その結果である入
力音声パターンとの間の距離値を出力するパターンマッ
チング部であり、或は入力パターン格納部６に格納した
入力音声特徴パターンと標準パターン記憶部７の出力す
る各標準パターンとの間の尤度を比較してこれら比較結
果から計算された入力音声特徴パターンと標準パターン
との間の最大尤度を出力する尤度比較部である。結果集
計部９は各標準パターンについてそれぞれ出力された未
知入力音声パターンとの間の距離値の内の最も小さい距
離値を有する標準パターンを導出し、或は最大尤度の標
準パターンを導出する部位である。出力部１１はこの最
も小さい距離値を有する標準パターン、或は最大尤度の
標準パターンのラベル名、例えば１０桁の電話番号数列
を音声認識装置を動作させる上位ホストへ出力する部位
である。

【００２０】特定話者を認識する場合は認識対象語彙群
を事前登録しておく必要があるが、入力パターン格納部
６はこの認識対象語彙群の標準パターンを格納してい
る。１２は選択スイッチであり、認識対象語彙群の標準
パターンを事前に登録するパスをこのスイッチにより選
択する。１’はテキストデータ入力部であり、認識対象
の語彙群を事前登録しておく必要のない不特定話者認識
の場合に認識対象語彙をこれを介してテキストベースで
登録する。テキストデータ入力部１’はＣＤ−ＲＯＭそ
の他のデータ入力装置と置き換えることもできる。辞書
データ記憶部１０には、この様にテキストデータ入力部
１’を介して入力されたテキストデータを元にして作成
された認識対象語彙の辞書が格納されている。

【００２１】ここで、１３は使用情報記録部であり、結
果集計部９の結果を出力部１１を介して記録する部位で
ある。使用情報記録部１３は標準パターン記憶部７に接
続して記録内容を標準パターン記憶部７に転送記憶させ
る。使用情報記録部１３に記録される記録内容は、即
ち、上述した使用履歴のある数字列を意味している。使
用履歴のある数字列を認識対象とすることにより音声認
識率を大きく向上させるという効果を奏す。なお、使用
履歴のある数字列を認識対象としていることを使用者が
意識しない様に自動的に過去の使用数字列を記録して行
くことが得策である。但し、すべての使用情報記録部１
３を更改の対象とする必要はない。例えば掛りつけの医
者の電話番号、最寄りの交番の電話番号その他、使用履
歴は殆どどないが、いざという時に重要な電話番号は更
改対象とせずに使用情報記録部１３に格納することが得
策である。

【００２２】この発明の数字列音声認識は、更に、部分
区間決定部１４、およびこの部分区間決定部１４と標準
パターン記憶部７の何れをパターンマッチング部或は尤
度比較部８に接続するか選択切り替える切り替えスイッ
チ１５を具備する。部分区間決定部１４は標準パターン
記憶部７に接続しており、結果出力部１１から標準パタ
ーン格納部７に転送格納されている使用履歴のある数字
列が更にこの部分区間決定部１４に転送される。この標
準パターン記憶部７に格納される標準パターンは数字列
の全桁、或はその一部、例えば、末尾４桁或は末尾１秒
間分の音声特徴データとすることができる。全桁記録の
方が音声認識の応用が広くなる。一方、使用者が末尾４
桁という短い発声を行った場合に全桁を認識対象とする
と、マッチング或は尤度が本来の値と異なる可能性が生
じる。このために、標準パターンを入力音声の区間に相
当する程度の数字列に加工する必要がある。部分区間決
定部１４はこの加工を実施する部位である。切り替えス
イッチ１５を切り替えることにより、部分区間決定部１
４において作成された標準パターンの一部である部分パ
ターン、例えば、末尾４桁或は末尾１秒分の音声特徴デ
ータか、標準パターン全桁そのものの何れかが認識対象
としてパターンマッチング部或は尤度比較部８に送り込
まれる。

【００２３】以上の数字列音声認識装置の実施例におい
て、標準パターンは、肉声による事前登録或はテキスト
データ形式の登録の何れの場合においても、数字列を標
準パターンとして最初に標準パターン記憶部７に記憶さ
せる操作をする必要がある。この段階は数字列音声認識
の確率を改善するものではない。上述したこの発明は、
使用履歴のある数字列を記録してい使用情報記録部１３
を具備している。記録しておくべき使用履歴のある数字
列の数は、メモリＬＳＩの如き電子的記憶装置が低廉化
したことにより多数とすることができるが、実用上は１
００個ないし２００個程度の規模とすると使い勝手がよ
い。多すぎれば認識装置の製造コスト、重量、占有空間
の増大につながり、販売価格も上昇する。少なければ必
要な数の記憶をすることができない上に、後述する理由
により数字列音声の認識率が低下する。

【００２４】この最近の使用履歴のある数字列を記憶し
てこれを標準パターンとして使用する効果は以下の通り
である。ここで、１００個百の数字列が格納されている
と仮定する。第１の数字列が式（２）と同じ数字列とす
ると、正しく認識される確率は、ゼロサンサンイチナナナナイチニーニーイチ zero/ san san/ ichi/ nana/ nana/ ichi/ ni/ ni/ ichi Ｐ＝Π（Ｐ_i）＝0.99x0.99x 0.99x 0.95x 0.99x 0.99x 0.95x 0.95x 0.95x 0.95 ＝０.７４・・・・・・・・・・（２）’ である。再度、同じ番号に発信する場合を考える。この
場合、従来例においては全く同じ確率である０. ７４に
従って当該数字列が認識される。これに対して、格納さ
れた最近の使用履歴のある数字列１００個の内から一致
するものを探し出すこの発明は、一般的な音声認識にお
ける“孤立発声の単語認識”となり、しかも認識対象候
補が１００個に限定されるところから、その認識確率は
条件が良好であれば０. ９９程度の値が得られ、悪くて
も０. ９５程度の値が得られた。これは、数字列を個々
の数字に分けて認識せず、塊として認識した効果であ
る。この認識率：０. ７４と認識率：０. ９５の差は使
用者に与える影響に大きな差を与える。音声認識の技術
分野において一つの目標とされる認識率：０. ９は使用
者が経験的に我慢し得る認識率であり、この目標を達成
するに、従来は極めて膨大な計算量を駆使する以外に手
はなかった。この膨大な計算量を与える計算装置の価格
とその大きさが数字列音声認識の普及を妨げていた。こ
の様な大きな計算量を駆使することをしない従来の数字
列音声認識技術に期待される認識率は０.７４である。
この様な低い認識率に毎回遭遇する使用者はその音声認
識装置の使用に疑問を呈することは自明の理である。一
方、音声認識の実験に使用したＣＰＵはディジタルシグ
ナルプロセッサー（ＤＳＰ）であり、その演算速度は高
々１０ＭＩＰＳ程度の小さなものであった。それにも関
わらず、２度目以降の認識率として、０. ９５〜０. ９
９の良好な値を得ることができた。この発明において２
度目と３度目に認識に失敗する確率Ｐ₂₃は、条件の悪か
った時の値を用いたとしてもＰ₂₃＝（１−０.９５）×（１−０.９５）＝０.００２５・・・・・・（７）であり、３００回の事例において１回発生するか否かと
いう、極めて満足すべき結果を得ることができる。ここ
で、最初の数字列の音声波形は単数字毎に発声されたも
のであり、２度目に発声される数字列とは若干異なった
音声波形となる。これは、２度目は相互の数字の発声が
連続するため数字毎の合間で発声変形の影響を受けるこ
とによる。大きな影響が認識に及ぶことはなかったが、
より一層の認識率の向上には単語毎に発声された音声波
形の始端および終端の一部を除去した音声波形を作り、
これらを連結して数字列の認識対象の標準パターンとす
ることが実際的である。

【００２５】この発明は、使用情報記録部１３に格納さ
れた最近において使用履歴のある数字列の認識において
末尾の数字列を認識対象としている。ＮＴＴを初めとす
る第一種通信事業者にとっては、顧客が発信した電話番
号数列が市外通話か、市内通話か、或は同じ局番内通話
かを識別するために、９桁或は１０桁の数字をすべて送
出してもらう必要がある。これに対して、顧客が最近使
用した数字列を対象として発声された電話番号がこれら
の何れであるかを特定する場合、必ずしも１０桁の数字
列を必要としない。これは、電話番号或は社員証番号の
如き数字列は上位の桁に共通の情報、即ち、電話番号に
ついては市外の識別番号および局の識別番号、社員証に
ついては所属部課番号或は入社年その他の番号が並び、
個人の特有の番号は後ろの桁に配置されていることによ
る。ここで、局番抜きの４桁の数字列を取り上げる。４
桁の数字列で１００００件の電話番号の識別をすること
ができ、一般の使用者が通常使用する電話番号の件数と
しては充分である。場合によっては、末尾３桁の発声で
１０００件の照合識別をすることができ、これで充分で
あると言うことができる。

【００２６】以上の４桁の数字列の照合は、発声者の発
声速度の影響を受けやすい。丁度、４桁の数字列音声を
標準パターンから切り出すことは少ないとはいえ、認識
装置に新たな処理部を盛り込むことになる。実験によれ
ば、４桁の数字列の発声に要した時間は、早い使用者で
０. ８秒、遅い使用者で１秒程度であった。この発明
は、標準パターンの数字列の末尾から凡そ１秒の時間内
の部分パターンに限定して入力パターンとの間の照合或
は尤度の計算を行うことにより、発声者の発声速度の影
響を受けない数字列音声認識装置を構成することができ
た。この場合に注意すべきことは末尾の数字が欠落して
いることである。末尾の数字に欠落があると、同じ数字
列が最近使用した電話番号の数字列にあるか否かを調べ
るに、ワードスポッティングに類する演算処理が必要と
なり、この発明の効果の一部を損ねことになる。勿論、
偶然に局番は異なるが加入者番号が同じ事例に遭遇する
可能も有り得る。この様な事例においては、“ゴーゴ
ーニーニーイチイチ”と“ゴーロクニー
ニーイチイチ”の如く、局番まで発声して音声認識
を行うことにより何等の障害もない。また、これにより
高い認識率を維持することができる。

【００２７】更に注意すべきこととして、図２における
区間Ｓ〜Ｔに呼吸音が記録された場合について説明す
る。この種の音は極めて短く、１数字の発声時間より短
い。また、発声の最後に呼吸音を出す使用者はすべての
発声において出すことが判明している。この発明が対象
とする音声認識の様な相対比較をして対象を特定する技
術分野においては、この種のことに色々な改善案が提案
されている。例えば、コンマ数秒の短い時間幅の内だけ
未知入力パターンと標準パターンとの間の位置関係を変
えて、末尾からパターン照合を行う方法が一つの解であ
る。この種の方法の採用は計算量の増大を招くので、可
能な限り短い時間の範囲内の変更に留めることが望まし
い。

【００２８】この発明は、図２に示される鼻息、不要
語、或は電話の発信には必要だが最近使用した履歴のあ
る電話番号の識別には不要な市外或は局の番号その他の
数字列の冒頭に付随する音声或は雑音が数字音声認識に
及ぼす影響を軽減するに、図３に示される様に音声波形
の末尾から或る限られた範囲についてパターン照合或は
尤度の計算を行う。その際に、標準パターンの先頭部分
と入力パターンの先頭部分の波形が一致しない事例が生
ずる可能性が高いため、始端にパターンマッチングのフ
リー区間を設けることが実際的である。図３において
は、縦軸に未知入力パターンＢを、横軸に標準パターン
Ａを例示し、標準パターンＡの数字列の先頭にある局番
が認識に及ぼす影響を模式的に示している。この図にお
いて、両パターンの照合はゆらぎ部分にあいまい性をも
たせた上で整合窓の範囲の距離値の計算が行われる。

【００２９】以上の図示説明において、数字列音声認識
の手法はパターンマッチング法であったが、この他にＨ
ＭＭを使用する音声認識手法を採用することができる。
そして、この発明が適用される数字列は電話番号数字列
であったが、その他の数字列として図書の蔵書番号、社
員証に記載される社員固有の番号その他の数字列に適用
して検索、認識その他種々の数字列の選択に効果を発揮
する。

【００３０】

【発明の効果】以上の通りであって、この発明に依れ
ば、従来困難とされていた数字列の音声認識を現実に実
施することができる。この発明の音声認識装置は、最初
に実施する認識結果は従来の数字列音声認識装置による
認識結果と同等の７５％程度の認識率であったが、２度
目以降の音声認識においては、使用履歴の有る数字列に
対して９５〜９９％の高い認識率を示した。数字列音声
認識装置の認識率が９５〜９９％であれば、これは充分
に実用に供することができる。

【００３１】そして、この発明による数字列音声認識に
使用される音声認識装置の主要構成部分は汎用されてい
る音声認識装置そのものであり、これに僅かに信号のパ
スを設定するスイッチ１２およびスイッチ１５、使用情
報記録部１３、部分区間決定部１４を上述された通りに
付加することにより構成することができる。従って、音
声認識装置のハードウェア部分の価格を押し上げること
なしに数字列音声認識を実現することができる。ソフト
ウェア部分も、従来の音声認識アルゴリズムとほぼ同等
のステップ数により実現することができ、これがコスト
アップの要因とはならない。

【００３２】また、数字列を末尾から認識する手順は、
使用者の発声する不要語、鼻息その他の雑音の影響を受
けず、結果として高い認識率の実現に効果がある。この
発明の数字列音声認識方法および装置は、結局、音声ダ
イヤルの利便性を大いに向上させるものということがで
きる。そして、この発明は、電話番号の他に図書の蔵書
番号、社員証に記載される社員固有の番号その他の数字
列に適用して検索、認識その他種々の数字列の選択に効
果を発揮する。

【図面の簡単な説明】

【図１】数字列音声認識装置の実施例を説明するブロッ
ク図。

【図２】数字列音声認識時の音声信号を説明する図。

【図３】数字列音声認識の実施例を模式的に示す図。

【図４】数字列音声認識装置の従来例を説明するブロッ
ク図。

【符号の説明】

１音声入力部１’テキストデータ入力部２波形変換部３音声特徴抽出部４起動スイッチ部５音声区間検出部６入力パターン格納部７標準パターン記憶部８パターンマッチング部或は尤度比較部９結果集計部１０辞書データ記憶部１１出力部１２切り替えスイッチ１３使用情報記録部１４部分区間決定部１５切り替えスイッチ

───────────────────────────────────────────────────── フロントページの続き (72)発明者西野豊東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内

Claims

【特許請求の範囲】

【請求項１】使用履歴のある数字列の音声パターンを
標準パターンとして登録し、この登録された数字列の標
準パターンの末尾の一部を切り出した部分パターンと入
力数字列音声パターンとの間のパターン照合或は尤度計
算を行い、照合結果である距離値の最も小さい部分パタ
ーン或は最も尤度の大きい部分パターンを選定し、選定
された部分パターンがその一部をなす標準パターンを使
用履歴ある登録された標準パターンの内から選定するこ
とを特徴とする数字列音声認識方法。
【請求項２】請求項１に記載される数字列音声認識方
法において、標準パターンの数字列の内の末尾からおよそ１秒の時間
内の部分パターンに限定して入力音声パターンとの間の
照合或は尤度計算を行うことを特徴とする数字列音声認
識方法。
【請求項３】請求項１および請求項２の内の何れかに
記載される数字列音声認識方法において、標準パターンの数字列の末尾から４桁の部分パターンに
限定して入力音声パターンとの間の照合或は尤度計算を
行うことを特徴とする数字列音声認識方法。
【請求項４】請求項１ないし請求項３の内の何れかに
記載される数字列音声認識方法において、発声入力ある
いはテキスト形式で指定されて予め登録された単数字毎
の音声パターンについて、発声或はテキスト形式で指定
された単数字毎の音声パターンの始端および終端の一部
を除去した音声パターンを作成し、これらを連結して数
字列の認識対象の標準パターンとすることを特徴とする
数字列音声認識方法。
【請求項５】音声信号を入力する音声入力部と、入力
された音声信号をディジタル信号に変換する波形変換部
と、変換されたディジタル信号から音声特徴パターンを
抽出する音声特徴抽出部と、音声特徴抽出部の出力する
音声特徴パターン情報に基づいて音声区間を検出する音
声区間検出部と、音声区間検出部を動作させる起動スイ
ッチ部と、区間検出結果に基づいて音声区間の始端およ
び終端を確定して音声特徴パターンを格納する入力パタ
ーン格納部と、音声認識に使用する標準パターンを格納
する標準パターン記憶部と、入力パターン格納部に格納
した入力音声特徴パターンと標準パターン記憶部に記憶
されている各標準パターンとを比較して比較結果を出力
する比較部と、各標準パターンとの間の最適な比較結果
の標準パターンを選択する結果集計部と、結果集計部の
選択情報を元にして認識対象として最も可能性の高い標
準パターンのラベル名を出力する結果集計部と、辞書デ
ータ記憶部と、入力パターン格納部を比較部或は辞書デ
ータ記憶部の何れかに切り替え接続する切り替えスイッ
チを有する音声認識装置において、使用履歴ある数字列の音声パターンを記録して記録内容
を標準パターン記憶部７に入力する使用情報記録部を具
備し、標準パターン記憶部に使用情報記録部から格納登録され
た数字列の標準パターンをその末尾の一部を切り出した
部分パターンに加工する部分区間決定部を具備し、部分区間決定部或は標準パターン記憶部の何れかを比較
部に切り替え接続する切り替えスイッチを具備すること
を特徴とする数字列音声認識装置。
【請求項６】請求項５に記載される数字列音声認識装
置において、比較部は入力パターン格納部に格納した入力音声特徴パ
ターンと部分区間決定部の出力する各部分パターンとの
間のパターンマッチングをとりこれら比較結果から計算
された入力音声特徴パターンと部分パターンとの間の最
小距離値を比較結果として出力するパターンマッチング
部により構成され、辞書データ記憶部は認識対象語彙の標準パターンを格納
するものであることを特徴とする数字列音声認識装置。
【請求項７】請求項５に記載される数字列音声認識装
置において、認識対象語彙をテキストベースで登録するテキストデー
タ入力部を具備し、辞書データ記憶部は入力されたテキストデータを元にし
て作成された認識対象語彙を格納するものであり、比較部は入力パターン格納部に格納した入力音声特徴パ
ターンと部分区間決定部の出力する各部分パターンとの
間の尤度を比較してこれら比較結果から計算された入力
音声特徴パターンと部分パターンとの間の最大尤度を出
力する尤度比較部により構成され、標準パターン記憶部に格納される標準パターンは言語モ
デルから作成される認識対象語彙の辞書であることを特
徴とする数字列音声認識装置。