JPH1049186A - 数字列音声認識方法およびこの方法を実施する装置 - Google Patents

数字列音声認識方法およびこの方法を実施する装置

Info

Publication number
JPH1049186A
JPH1049186A JP8199284A JP19928496A JPH1049186A JP H1049186 A JPH1049186 A JP H1049186A JP 8199284 A JP8199284 A JP 8199284A JP 19928496 A JP19928496 A JP 19928496A JP H1049186 A JPH1049186 A JP H1049186A
Authority
JP
Japan
Prior art keywords
pattern
voice
input
section
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8199284A
Other languages
English (en)
Inventor
Tetsutada Sakurai
哲真 桜井
Yoshio Nakadai
芳夫 中台
Yoshie Shimamura
佳江 島村
Yutaka Nishino
豊 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8199284A priority Critical patent/JPH1049186A/ja
Publication of JPH1049186A publication Critical patent/JPH1049186A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【課題】 使用履歴のある数字列の音声パターンを標準
パターンとして使用して実用に供することができる数字
列音声認識方法および装置を提供する。 【解決手段】 使用履歴のある数字列の音声パターンを
標準パターンとして登録し、その末尾から一部を切り出
した部分パターンと入力数字列音声パターンとの間でパ
ターン照合或は尤度計算を行い距離値の最も小さい或は
最も尤度の大きい部分パターンを選定し、それが一部を
なしているような標準パターンをる登録されている中か
ら選定する。登録は、4桁の数字列なら10000件の
電話番号の識別をすることができるが、末尾3桁の発声
でも1000件の照合識別ができ、場合によってはこれ
で充分である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、数字列音声認識
方法およびこの方法を実施する装置に関し、特に数字を
発声した音声を入力してその認識結果を出力する数字列
音声認識方法およびこの方法を実施する装置に関する。
【0002】
【従来の技術】電話機のダイヤル部のダイヤル或はプッ
シュボタンを手により操作する電話発呼操作は電話を使
用するに際して真っ先に実行すべき操作である。この操
作は、携帯電話に代表される小型電話機器においてプッ
シュボタンの二重押し或は押し間違いの避け難いもので
あり、早急に解決されるべき技術課題とされている。こ
の解決策として音声認識技術を採用する音声ダイヤル装
置に期待がかけられている。
【0003】音声認識技術は、使用者が任意の場所から
任意のタイミングで発声した任意の長さの音声を100
%の確率で認識することができれば理想的である。しか
し、電話器は現実に使用される環境条件下において種々
雑多な騒音に曝されている。そして、任意の時刻で発声
された音声を捕捉しようとすると、音声の入力に際して
雑音をも含めて観測される音声信号区間の内から音声の
始端および終端を何度も検出し、複雑なアルゴリズムを
使用して雑音のみを除外する処理を常に実行する必要が
生ずる。この音声始端および終端の検出処理および雑音
除外処理の計算量は膨大なものとなる。音声認識技術に
おいては、この計算量を削除せんとして、音声始端およ
び音声終端を或る一定時間中においてそれぞれ1回のみ
検出する簡易な孤立単語音声認識方式が開発実施されて
いる。
【0004】ここで、孤立して発声された数字列の音声
を認識する数字列音声認識装置の従来例を図4を参照し
て説明する。図4において、音声入力部1はマイクロホ
ンその他の音声を受信して音声信号波形に変換する部位
である。波形変換部2は音声分析の前処理として音声信
号波形をディジタルの数値に変換する部位である。音声
特徴抽出部3は音声信号波形から音声認識に使用する特
徴を抽出する部位である。起動スイッチ部4は音声認識
に使用する音声区間を検出するに際して音声始端の検出
開始のトリガを与える部位である。音声区間検出部5は
音声特徴抽出部3から入力される音声特徴量より音声始
端および音声終端をそれぞれ1箇所だけ決定する部位で
ある。入力パターン格納部6は音声区間検出部5におい
て決定された音声始端から音声終端に到る音声特徴量を
未知入力パターンとして取り込み格納する部位である。
標準パターン記憶部7は、数字列音声認識に使用される
ラベル名を付与された複数の数字列音声パターンを入力
パターン格納部6と同様の手順を経て取り込み記憶する
部位である。パターンマッチング部或は尤度比較部8
は、入力パターン格納部6に格納された未知の入力音声
パターンと標準パターン記憶部7に記憶される各標準パ
ターンとの間のマッチングを行い、その結果である入力
音声パターンとの間の距離値を出力する部位である。結
果集計部9は各標準パターンについてそれぞれ出力され
た未知入力音声パターンとの間の距離値の内の最も小さ
い距離値を有する標準パターンを導出する部位である。
出力部11はこの最も小さい距離値を有する標準パター
ンのラベル名を音声認識装置を動作させる上位ホストへ
出力する部位である。10は辞書データ記憶部であり、
音声認識の手法として隠れマルコフモデル(HMM)に
基づく音声認識の手法を採用する場合に必要とする語彙
の標準パターンを格納しておく。この場合、辞書データ
記憶部10の他にテキストデータ入力部1’も必要とす
る。
【0005】ここで、図4を参照して数字列音声認識装
置の動作について説明する。標準パターン記憶部7に
は、未知の入力数字列音声パターンを入力パターン格納
部6に取り込み格納する場合と同様の手順を経て分析処
理がなされ、整備された標準パターンが予め記憶されて
いる。数字列音声は、常時、音声入力部1、波形変換部
2、音声特徴抽出部3を介して受信、分析処理され、そ
の分析結果の一部の情報である音声信号の対数パワーに
ついてこれを音声区間検出部5に供給し、音声区間検出
部5において音声区間を検出する情報として使用され
る。ここで、発声者或は音声認識装置を動作させる上位
ホストにより起動スイッチ部4を操作し、音声区間検出
開始のトリガを発生したものとする。音声区間検出部5
はこのトリガにより初期化され、音声特徴抽出部3から
受信する情報である音声信号の対数パワーに対して音声
始端の検出を開始する。音声始端の検出方法としては、
信号パワー値が音声のない状態から或る一定閾値以上の
大きな値で一定時間継続した時に、この信号パワー値の
立ち上がり位置を音声始端とする方法を採用することが
できる。音声区間検出部5は、次いで、音声の信号パワ
ー値の減衰点を検出してこれを音声終端として動作を終
了する。この様にして検出された音声始端から音声終端
に到る区間を入力パターン格納部6に印加し、入力パタ
ーン格納部6はこの区間について音声特徴抽出部3の分
析結果を入力音声パターンとして格納する。パターンマ
ッチング部或は尤度比較部8は、入力パターン格納部6
に分析結果の格納が完了した時点において、入力パター
ン格納部6に格納した入力音声パターンと標準パターン
記憶部7に記憶されている各標準パターンの内容との間
のパターンマッチングを、DPマッチングその他のパタ
ーンマッチング手法により照合し、距離値を計算する。
各標準パターンに対する距離値の計算結果は結果集計部
9において小さい距離値の順に整理され、最も小さい距
離値とされた標準パターンのラベル名が上位ホストに出
力される。
【0006】ところで、以上の音声認識技術により発声
された電話番号の認識とこれに続く発信操作を実施する
ことは必ずしも容易ではないことが判明しつつある。こ
の困難性は日本語で発声された数字列音声を認識する場
合に特に著しい。ここで、電話番号を日本語で発声して
これを認識する場合について考慮してみる。数字列音声
認識の場合、“イチ”と“ニ”、“イチ”と“シチ”の
如く発音表記により記述した場合に相違部分が僅かであ
るもの同士をも識別することが要請される。電話番号を
入力する場合、約10桁に亘ってこれらの識別を行う必
要がある。その認識率:Pは、各桁の認識率をPi とす
ると、次の式で表現される。
【0007】 P=Πi=1 10(Pi ) ・・・・・・・・・・(1) “ゼロ”或は“ヨン”の如く他に類似した発音がない数
字の認識率P0 或はP 4 は99.9%程度の高率が得ら
れる。しかし、“イチー”と“ニー”の如く相互に類似
した発音がある数字の認識率P1 或はP2 は高々95%
程度であり、発声条件が悪い場合は70〜80%に低下
する。これについて、次の電話番号のおよその認識率を
計算により見積ると以下の如くになる。各数字の認識率
として先の数値の内の有利な数値を採用して評価する。
【0008】 ゼロ サン サン イチ ナナ ナナ イチ ニー ニー イチ zero/ san san/ ichi/ nana/ nana/ ichi/ ni/ ni/ ichi P=Π(Pi) =0.99x 0.99x 0.99x 0.95x 0.99x 0.99x 0.95x 0.95x 0.95x 0.95 =0.74 ・・・・・・・・・・(2) となる。この電話番号に2回電話をすればその正解を与
える期待値は0. 55となり、確率の定義から明らかな
如く2回に1回は誤った電話番号にダイヤルされる可能
性があることとなり、実用上極めて問題が多いと言わざ
るを得ない。この例からも明らかな如く、日本語の数字
列音声認識は音声認識の領域において期待されている認
識率である90〜99%を実現することは極めて困難で
ある。一方において、数字列の音声認識は、電話番号の
発信その他極めて実用性の高いものであるところから、
認識率の高い数字列音声認識を実現することに対する期
待は極めて大きいものがある。
【0009】以上の数字列音声認識の技術分野と近縁の
関係にある技術分野という訳ではないが、この発明と同
様な効果を狙った別の分野の先願発明がある。これは、
『出願番号 特願平8−23371、出願 平成6年7
月6日、発明の名称 通信装置』である。この先願発明
の意図するところは、相手先電話番号の内の記憶してい
る数桁を入力することにより、これに基づいて過去の使
用履歴から類似の番号を選択し、表示するというもので
ある。先願発明の実施例は、FAXにおいてテンキー入
力により2桁以上の数字を入力するものである。音声認
識の分野において、電話番号の如き10桁の数字列の内
の2桁程度の音声情報と認識候補数字列の一致を見るこ
とは“ワードスポッティング”機能として知られている
ところである。しかし、このワードスポッティング機能
を実施するには、およそ50MIPS程度の大きな計算
能力を有する中央演算装置CPUが必要とされ、価格が
数10万円以上のコンピュータ或はこれと同等の演算装
置を必要とする。これは安価な電話機に対しては不相応
な価格である。
【0010】ここで、或る電話番号を発信する場合につ
いて説明する。市外にダイヤル発信する場合は、 ゼロ サン サン イチ ナナ ナナ イチ ニー ニー イチ zero/ san san/ ichi/ nana/ nana/ ichi/ ni/ ni/ ichi ・・・・・・・・・・(3) という数字列が発声され、市内にダイヤル発信する場合
は、 サン イチ ナナ ナナ イチ ニー ニー イチ san/ ichi/ nana/ nana/ ichi/ ni/ ni/ ichi ・・・・・・・・・・(4) という数字列が発声され、内線にダイヤル発信する場合
は、 イチ ニー ニー イチ ichi/ ni/ ni/ ichi ・・・・・・・・・・(5) という数字列が発声されて音声認識の対象とされる。以
下、この内の市内ダイヤルの場合について、数字列音声
の特徴を模式的に示す図2を参照して説明する。図2に
おいて、縦軸は数字列音声のパワー値を対数表示したも
のである。横軸は時間を示し、市内局番程度の数字列の
場合は2秒程度の時間が表示されることとなる。加入者
番号の数字列の末尾の4桁の発声時間は図2の第2の音
声区間に相当する時間であり、使用者により異なるもの
の凡そ0. 8〜1秒程度の短時間である。この音声波形
は、最初に区間P〜Qに亘る鼻息があり、これに続いて
区間Q〜Rに亘る局番を示す第1の音声区間があり、更
に区間R〜Sに亘って4桁の加入者番号である第2の音
声区間がある。最後に、区間S〜Tに亘って呼吸音或は
周囲の雑音が表現されている。音声波形は模式的に表現
している。
【0011】図2において、2本の音声パワーレベルを
実線および波線により表記しているが、これは以下のこ
とに対処するためである。一般に、電話番号その他の識
別番号が発声される環境には、周囲にかなりの雑音が存
在する。これらの雑音を数字列音声の発声と誤認識しな
いためには、対数音声パワーの閾値を適切に設定するこ
とが重要である。真の音声区間の中に雑音が重畳したと
しても、適切な閾値を設定し、或は発声の前と後で閾値
を変更することにより、音声区間検出に影響を与えるこ
となく雑音成分を除去し、雑音に影響されない音声認識
を実行することができるに到る。
【0012】
【発明が解決しようとする課題】使用者は、発声に際し
て口或は鼻から息その他の小さな有声音を本能的に発声
して自身の発声強度および発声器官の具合を確かめるこ
とが判明している。一般に、余剰語或は不要語と呼ばれ
るこれらの音声波形が認識対象の数字列の前に加わる現
象が音声認識を困難にする一因とされている。この不要
な音声信号波形が付随する問題について再検討するに、
不要音声信号波形は真の音声区間の前に付随することが
多く、これが数字列音声認識に致命的な悪影響を与えて
いることが判っている。即ち、先の例についてみると、 フー(鼻息)サン イチ ナナ ナナ イチ ニー ニー イチ ? san/ ichi/ nana/ nana/ ichi/ ni/ ni/ ichi ・・・・ (6) という数字列音声波形信号が入力される結果となり、式
(4)と比較すると、冒頭の鼻息部分の時間が付加され
た分大きく異なり、これに起因して音声認識の評価尺度
であるパターンマッチングの距離値を大きいもの或はH
MMにおける尤度を小さいものに算定することとなる。
この算定値が或る閾値を超えるか否か、尤度の場合は或
る閾値以下であるか否かにより当該数字列であるか否か
を判定するアルゴリズムを採用することが音声認識にお
いては一般的である。ところで、電話番号列或は社員証
番号の如き識別番号は、最後の1桁のみが異なる番号が
存在することは避けられない。この様な状況において、
式(4)と式(6)のマッチングが可能な様に閾値を甘
く設定すれば、最後の1桁の相違を識別することができ
ない結果を招くことは明かである。
【0013】この発明は、この問題を解消した数字列音
声認識方法およびこの方法を実施する装置を提供するも
のである。
【0014】
【課題を解決するための手段】使用履歴のある数字列の
音声パターンを標準パターンとして登録し、この登録さ
れた数字列の標準パターンの末尾の一部を切り出した部
分パターンと入力数字列音声パターンとの間のパターン
照合或は尤度計算を行い、照合結果である距離値の最も
小さい部分パターン或は最も尤度の大きい部分パターン
を選定し、選定された部分パターンがその一部をなす標
準パターンを使用履歴ある登録された標準パターンの内
から選定する数字列音声認識方法を構成した。
【0015】そして、標準パターンの数字列の内の末尾
からおよそ1秒の時間内の部分パターンに限定して入力
音声パターンとの間の照合或は尤度計算を行う数字列音
声認識方法を構成した。また、標準パターンの数字列の
末尾から4桁の部分パターンに限定して入力音声パター
ンとの間の照合或は尤度計算を行う数字列音声認識方法
を構成した。
【0016】更に、発声入力或いはテキスト形式で指定
されて予め登録された単数字毎の音声パターンについ
て、発声或はテキスト形式で指定された単数字毎の音声
パターンの始端および終端の一部を除去した音声パター
ンを作成し、これらを連結して数字列の認識対象の標準
パターンとする数字列音声認識方法を構成した。ここ
で、音声信号を入力する音声入力部1と、入力された音
声信号をディジタル信号に変換する波形変換部2と、変
換されたディジタル信号から音声特徴パターンを抽出す
る音声特徴抽出部3と、音声特徴抽出部3の出力する音
声特徴パターン情報に基づいて音声区間を検出する音声
区間検出部5と、音声区間検出部5を動作させる起動ス
イッチ部4と、区間検出結果に基づいて音声区間の始端
および終端を確定して音声特徴パターンを格納する入力
パターン格納部6と、音声認識に使用する標準パターン
を格納する標準パターン記憶部7と、入力パターン格納
部6に格納した入力音声特徴パターンと標準パターン記
憶部7に記憶されている各標準パターンとを比較して比
較結果を出力する比較部8と、各標準パターンとの間の
最適な比較結果の標準パターンを選択する結果集計部9
と、結果集計部9の選択情報を元にして認識対象として
最も可能性の高い標準パターンのラベル名を出力する結
果集計部9と、辞書データ記憶部10と、入力パターン
格納部6を比較部8或は辞書データ記憶部10の何れか
に切り替え接続する切り替えスイッチ12を有する音声
認識装置において、使用履歴ある数字列の音声パターン
を記録して記録内容を標準パターン記憶部7に入力する
使用情報記録部13を具備し、標準パターン記憶部7に
使用情報記録部13から格納登録された数字列の標準パ
ターンをその末尾の一部を切り出した部分パターンに加
工する部分区間決定部14を具備し、部分区間決定部1
4或は標準パターン記憶部7の何れかを比較部8に切り
替え接続する切り替えスイッチ15を具備する数字列音
声認識装置を構成した。
【0017】また、比較部8は入力パターン格納部6に
格納した入力音声特徴パターンと部分区間決定部14の
出力する各部分パターンとの間のパターンマッチングを
とりこれら比較結果から計算された入力音声特徴パター
ンと部分パターンとの間の最小距離値を比較結果として
出力するパターンマッチング部により構成され、辞書デ
ータ記憶部10は認識対象語彙の標準パターンを格納す
るものである数字列音声認識装置を構成した。
【0018】更に、認識対象語彙をテキストベースで登
録するテキストデータ入力部1’を具備し、辞書データ
記憶部10は入力されたテキストデータを元にして作成
された認識対象語彙を格納するものであり、比較部8は
入力パターン格納部6に格納した入力音声特徴パターン
と部分区間決定部14の出力する各部分パターンとの間
の尤度を比較してこれら比較結果から計算された入力音
声特徴パターンと部分パターンとの間の最大尤度を出力
する尤度比較部により構成され、標準パターン記憶部7
に格納される標準パターンは認識対象語彙のモデルとさ
れる数字列音声認識装置を構成した。
【0019】
【発明の実施の形態】この発明の実施の形態を図1を参
照して説明する。図1において、音声入力部1はマイク
ロホンその他の音声を受信して音声信号波形に変換する
部位である。波形変換部2は音声分析の前処理として音
声信号波形をディジタルの数値に変換する部位である。
音声特徴抽出部3は音声信号波形から音声認識に使用す
る特徴を抽出する部位である。起動スイッチ部4は音声
認識に使用する音声区間を検出するに際して音声始端の
検出開始のトリガを与える部位である。音声区間検出部
5は音声特徴抽出部3から入力される音声特徴量より音
声始端および音声終端をそれぞれ1箇所だけ決定する部
位である。入力パターン格納部6は音声区間検出部5に
おいて決定された音声始端から音声終端に到る音声特徴
量を未知入力パターンとして取り込み格納する部位であ
る。標準パターン記憶部7は、数字列音声認識に使用さ
れるラベル名を付与された複数の数字列音声パターンを
入力パターン格納部6と同様の手順を経て取り込み記憶
する部位である。パターンマッチング部或は尤度比較部
8は、入力パターン格納部6に格納された未知の入力音
声パターンと標準パターン記憶部7に記憶される各標準
パターンとの間のマッチングを行い、その結果である入
力音声パターンとの間の距離値を出力するパターンマッ
チング部であり、或は入力パターン格納部6に格納した
入力音声特徴パターンと標準パターン記憶部7の出力す
る各標準パターンとの間の尤度を比較してこれら比較結
果から計算された入力音声特徴パターンと標準パターン
との間の最大尤度を出力する尤度比較部である。結果集
計部9は各標準パターンについてそれぞれ出力された未
知入力音声パターンとの間の距離値の内の最も小さい距
離値を有する標準パターンを導出し、或は最大尤度の標
準パターンを導出する部位である。出力部11はこの最
も小さい距離値を有する標準パターン、或は最大尤度の
標準パターンのラベル名、例えば10桁の電話番号数列
を音声認識装置を動作させる上位ホストへ出力する部位
である。
【0020】特定話者を認識する場合は認識対象語彙群
を事前登録しておく必要があるが、入力パターン格納部
6はこの認識対象語彙群の標準パターンを格納してい
る。12は選択スイッチであり、認識対象語彙群の標準
パターンを事前に登録するパスをこのスイッチにより選
択する。1’はテキストデータ入力部であり、認識対象
の語彙群を事前登録しておく必要のない不特定話者認識
の場合に認識対象語彙をこれを介してテキストベースで
登録する。テキストデータ入力部1’はCD−ROMそ
の他のデータ入力装置と置き換えることもできる。辞書
データ記憶部10には、この様にテキストデータ入力部
1’を介して入力されたテキストデータを元にして作成
された認識対象語彙の辞書が格納されている。
【0021】ここで、13は使用情報記録部であり、結
果集計部9の結果を出力部11を介して記録する部位で
ある。使用情報記録部13は標準パターン記憶部7に接
続して記録内容を標準パターン記憶部7に転送記憶させ
る。使用情報記録部13に記録される記録内容は、即
ち、上述した使用履歴のある数字列を意味している。使
用履歴のある数字列を認識対象とすることにより音声認
識率を大きく向上させるという効果を奏す。なお、使用
履歴のある数字列を認識対象としていることを使用者が
意識しない様に自動的に過去の使用数字列を記録して行
くことが得策である。但し、すべての使用情報記録部1
3を更改の対象とする必要はない。例えば掛りつけの医
者の電話番号、最寄りの交番の電話番号その他、使用履
歴は殆どどないが、いざという時に重要な電話番号は更
改対象とせずに使用情報記録部13に格納することが得
策である。
【0022】この発明の数字列音声認識は、更に、部分
区間決定部14、およびこの部分区間決定部14と標準
パターン記憶部7の何れをパターンマッチング部或は尤
度比較部8に接続するか選択切り替える切り替えスイッ
チ15を具備する。部分区間決定部14は標準パターン
記憶部7に接続しており、結果出力部11から標準パタ
ーン格納部7に転送格納されている使用履歴のある数字
列が更にこの部分区間決定部14に転送される。この標
準パターン記憶部7に格納される標準パターンは数字列
の全桁、或はその一部、例えば、末尾4桁或は末尾1秒
間分の音声特徴データとすることができる。全桁記録の
方が音声認識の応用が広くなる。一方、使用者が末尾4
桁という短い発声を行った場合に全桁を認識対象とする
と、マッチング或は尤度が本来の値と異なる可能性が生
じる。このために、標準パターンを入力音声の区間に相
当する程度の数字列に加工する必要がある。部分区間決
定部14はこの加工を実施する部位である。切り替えス
イッチ15を切り替えることにより、部分区間決定部1
4において作成された標準パターンの一部である部分パ
ターン、例えば、末尾4桁或は末尾1秒分の音声特徴デ
ータか、標準パターン全桁そのものの何れかが認識対象
としてパターンマッチング部或は尤度比較部8に送り込
まれる。
【0023】以上の数字列音声認識装置の実施例におい
て、標準パターンは、肉声による事前登録或はテキスト
データ形式の登録の何れの場合においても、数字列を標
準パターンとして最初に標準パターン記憶部7に記憶さ
せる操作をする必要がある。この段階は数字列音声認識
の確率を改善するものではない。上述したこの発明は、
使用履歴のある数字列を記録してい使用情報記録部13
を具備している。記録しておくべき使用履歴のある数字
列の数は、メモリLSIの如き電子的記憶装置が低廉化
したことにより多数とすることができるが、実用上は1
00個ないし200個程度の規模とすると使い勝手がよ
い。多すぎれば認識装置の製造コスト、重量、占有空間
の増大につながり、販売価格も上昇する。少なければ必
要な数の記憶をすることができない上に、後述する理由
により数字列音声の認識率が低下する。
【0024】この最近の使用履歴のある数字列を記憶し
てこれを標準パターンとして使用する効果は以下の通り
である。ここで、100個百の数字列が格納されている
と仮定する。第1の数字列が式(2)と同じ数字列とす
ると、正しく認識される確率は、 ゼロ サン サン イチ ナナ ナナ イチ ニー ニー イチ zero/ san san/ ichi/ nana/ nana/ ichi/ ni/ ni/ ichi P=Π(Pi ) =0.99x0.99x 0.99x 0.95x 0.99x 0.99x 0.95x 0.95x 0.95x 0.95 =0.74 ・・・・・・・・・・(2)’ である。再度、同じ番号に発信する場合を考える。この
場合、従来例においては全く同じ確率である0. 74に
従って当該数字列が認識される。これに対して、格納さ
れた最近の使用履歴のある数字列100個の内から一致
するものを探し出すこの発明は、一般的な音声認識にお
ける“孤立発声の単語認識”となり、しかも認識対象候
補が100個に限定されるところから、その認識確率は
条件が良好であれば0. 99程度の値が得られ、悪くて
も0. 95程度の値が得られた。これは、数字列を個々
の数字に分けて認識せず、塊として認識した効果であ
る。この認識率:0. 74と認識率:0. 95の差は使
用者に与える影響に大きな差を与える。音声認識の技術
分野において一つの目標とされる認識率:0. 9は使用
者が経験的に我慢し得る認識率であり、この目標を達成
するに、従来は極めて膨大な計算量を駆使する以外に手
はなかった。この膨大な計算量を与える計算装置の価格
とその大きさが数字列音声認識の普及を妨げていた。こ
の様な大きな計算量を駆使することをしない従来の数字
列音声認識技術に期待される認識率は0.74である。
この様な低い認識率に毎回遭遇する使用者はその音声認
識装置の使用に疑問を呈することは自明の理である。一
方、音声認識の実験に使用したCPUはディジタルシグ
ナルプロセッサー(DSP)であり、その演算速度は高
々10MIPS程度の小さなものであった。それにも関
わらず、2度目以降の認識率として、0. 95〜0. 9
9の良好な値を得ることができた。この発明において2
度目と3度目に認識に失敗する確率P23は、条件の悪か
った時の値を用いたとしても P23=(1−0.95)×(1−0.95)=0.0025・・・・・・(7) であり、300回の事例において1回発生するか否かと
いう、極めて満足すべき結果を得ることができる。ここ
で、最初の数字列の音声波形は単数字毎に発声されたも
のであり、2度目に発声される数字列とは若干異なった
音声波形となる。これは、2度目は相互の数字の発声が
連続するため数字毎の合間で発声変形の影響を受けるこ
とによる。大きな影響が認識に及ぶことはなかったが、
より一層の認識率の向上には単語毎に発声された音声波
形の始端および終端の一部を除去した音声波形を作り、
これらを連結して数字列の認識対象の標準パターンとす
ることが実際的である。
【0025】この発明は、使用情報記録部13に格納さ
れた最近において使用履歴のある数字列の認識において
末尾の数字列を認識対象としている。NTTを初めとす
る第一種通信事業者にとっては、顧客が発信した電話番
号数列が市外通話か、市内通話か、或は同じ局番内通話
かを識別するために、9桁或は10桁の数字をすべて送
出してもらう必要がある。これに対して、顧客が最近使
用した数字列を対象として発声された電話番号がこれら
の何れであるかを特定する場合、必ずしも10桁の数字
列を必要としない。これは、電話番号或は社員証番号の
如き数字列は上位の桁に共通の情報、即ち、電話番号に
ついては市外の識別番号および局の識別番号、社員証に
ついては所属部課番号或は入社年その他の番号が並び、
個人の特有の番号は後ろの桁に配置されていることによ
る。ここで、局番抜きの4桁の数字列を取り上げる。4
桁の数字列で10000件の電話番号の識別をすること
ができ、一般の使用者が通常使用する電話番号の件数と
しては充分である。場合によっては、末尾3桁の発声で
1000件の照合識別をすることができ、これで充分で
あると言うことができる。
【0026】以上の4桁の数字列の照合は、発声者の発
声速度の影響を受けやすい。丁度、4桁の数字列音声を
標準パターンから切り出すことは少ないとはいえ、認識
装置に新たな処理部を盛り込むことになる。実験によれ
ば、4桁の数字列の発声に要した時間は、早い使用者で
0. 8秒、遅い使用者で1秒程度であった。この発明
は、標準パターンの数字列の末尾から凡そ1秒の時間内
の部分パターンに限定して入力パターンとの間の照合或
は尤度の計算を行うことにより、発声者の発声速度の影
響を受けない数字列音声認識装置を構成することができ
た。この場合に注意すべきことは末尾の数字が欠落して
いることである。末尾の数字に欠落があると、同じ数字
列が最近使用した電話番号の数字列にあるか否かを調べ
るに、ワードスポッティングに類する演算処理が必要と
なり、この発明の効果の一部を損ねことになる。勿論、
偶然に局番は異なるが加入者番号が同じ事例に遭遇する
可能も有り得る。この様な事例においては、“ゴー ゴ
ー ニー ニー イチ イチ”と“ゴー ロク ニー
ニー イチ イチ”の如く、局番まで発声して音声認識
を行うことにより何等の障害もない。また、これにより
高い認識率を維持することができる。
【0027】更に注意すべきこととして、図2における
区間S〜Tに呼吸音が記録された場合について説明す
る。この種の音は極めて短く、1数字の発声時間より短
い。また、発声の最後に呼吸音を出す使用者はすべての
発声において出すことが判明している。この発明が対象
とする音声認識の様な相対比較をして対象を特定する技
術分野においては、この種のことに色々な改善案が提案
されている。例えば、コンマ数秒の短い時間幅の内だけ
未知入力パターンと標準パターンとの間の位置関係を変
えて、末尾からパターン照合を行う方法が一つの解であ
る。この種の方法の採用は計算量の増大を招くので、可
能な限り短い時間の範囲内の変更に留めることが望まし
い。
【0028】この発明は、図2に示される鼻息、不要
語、或は電話の発信には必要だが最近使用した履歴のあ
る電話番号の識別には不要な市外或は局の番号その他の
数字列の冒頭に付随する音声或は雑音が数字音声認識に
及ぼす影響を軽減するに、図3に示される様に音声波形
の末尾から或る限られた範囲についてパターン照合或は
尤度の計算を行う。その際に、標準パターンの先頭部分
と入力パターンの先頭部分の波形が一致しない事例が生
ずる可能性が高いため、始端にパターンマッチングのフ
リー区間を設けることが実際的である。図3において
は、縦軸に未知入力パターンBを、横軸に標準パターン
Aを例示し、標準パターンAの数字列の先頭にある局番
が認識に及ぼす影響を模式的に示している。この図にお
いて、両パターンの照合はゆらぎ部分にあいまい性をも
たせた上で整合窓の範囲の距離値の計算が行われる。
【0029】以上の図示説明において、数字列音声認識
の手法はパターンマッチング法であったが、この他にH
MMを使用する音声認識手法を採用することができる。
そして、この発明が適用される数字列は電話番号数字列
であったが、その他の数字列として図書の蔵書番号、社
員証に記載される社員固有の番号その他の数字列に適用
して検索、認識その他種々の数字列の選択に効果を発揮
する。
【0030】
【発明の効果】以上の通りであって、この発明に依れ
ば、従来困難とされていた数字列の音声認識を現実に実
施することができる。この発明の音声認識装置は、最初
に実施する認識結果は従来の数字列音声認識装置による
認識結果と同等の75%程度の認識率であったが、2度
目以降の音声認識においては、使用履歴の有る数字列に
対して95〜99%の高い認識率を示した。数字列音声
認識装置の認識率が95〜99%であれば、これは充分
に実用に供することができる。
【0031】そして、この発明による数字列音声認識に
使用される音声認識装置の主要構成部分は汎用されてい
る音声認識装置そのものであり、これに僅かに信号のパ
スを設定するスイッチ12およびスイッチ15、使用情
報記録部13、部分区間決定部14を上述された通りに
付加することにより構成することができる。従って、音
声認識装置のハードウェア部分の価格を押し上げること
なしに数字列音声認識を実現することができる。ソフト
ウェア部分も、従来の音声認識アルゴリズムとほぼ同等
のステップ数により実現することができ、これがコスト
アップの要因とはならない。
【0032】また、数字列を末尾から認識する手順は、
使用者の発声する不要語、鼻息その他の雑音の影響を受
けず、結果として高い認識率の実現に効果がある。この
発明の数字列音声認識方法および装置は、結局、音声ダ
イヤルの利便性を大いに向上させるものということがで
きる。そして、この発明は、電話番号の他に図書の蔵書
番号、社員証に記載される社員固有の番号その他の数字
列に適用して検索、認識その他種々の数字列の選択に効
果を発揮する。
【図面の簡単な説明】
【図1】数字列音声認識装置の実施例を説明するブロッ
ク図。
【図2】数字列音声認識時の音声信号を説明する図。
【図3】数字列音声認識の実施例を模式的に示す図。
【図4】数字列音声認識装置の従来例を説明するブロッ
ク図。
【符号の説明】
1 音声入力部 1’テキストデータ入力部 2 波形変換部 3 音声特徴抽出部 4 起動スイッチ部 5 音声区間検出部 6 入力パターン格納部 7 標準パターン記憶部 8 パターンマッチング部或は尤度比較部 9 結果集計部 10 辞書データ記憶部 11 出力部 12 切り替えスイッチ 13 使用情報記録部 14 部分区間決定部 15 切り替えスイッチ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 西野 豊 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 使用履歴のある数字列の音声パターンを
    標準パターンとして登録し、この登録された数字列の標
    準パターンの末尾の一部を切り出した部分パターンと入
    力数字列音声パターンとの間のパターン照合或は尤度計
    算を行い、照合結果である距離値の最も小さい部分パタ
    ーン或は最も尤度の大きい部分パターンを選定し、選定
    された部分パターンがその一部をなす標準パターンを使
    用履歴ある登録された標準パターンの内から選定するこ
    とを特徴とする数字列音声認識方法。
  2. 【請求項2】 請求項1に記載される数字列音声認識方
    法において、 標準パターンの数字列の内の末尾からおよそ1秒の時間
    内の部分パターンに限定して入力音声パターンとの間の
    照合或は尤度計算を行うことを特徴とする数字列音声認
    識方法。
  3. 【請求項3】 請求項1および請求項2の内の何れかに
    記載される数字列音声認識方法において、 標準パターンの数字列の末尾から4桁の部分パターンに
    限定して入力音声パターンとの間の照合或は尤度計算を
    行うことを特徴とする数字列音声認識方法。
  4. 【請求項4】 請求項1ないし請求項3の内の何れかに
    記載される数字列音声認識方法において、発声入力ある
    いはテキスト形式で指定されて予め登録された単数字毎
    の音声パターンについて、発声或はテキスト形式で指定
    された単数字毎の音声パターンの始端および終端の一部
    を除去した音声パターンを作成し、これらを連結して数
    字列の認識対象の標準パターンとすることを特徴とする
    数字列音声認識方法。
  5. 【請求項5】 音声信号を入力する音声入力部と、入力
    された音声信号をディジタル信号に変換する波形変換部
    と、変換されたディジタル信号から音声特徴パターンを
    抽出する音声特徴抽出部と、音声特徴抽出部の出力する
    音声特徴パターン情報に基づいて音声区間を検出する音
    声区間検出部と、音声区間検出部を動作させる起動スイ
    ッチ部と、区間検出結果に基づいて音声区間の始端およ
    び終端を確定して音声特徴パターンを格納する入力パタ
    ーン格納部と、音声認識に使用する標準パターンを格納
    する標準パターン記憶部と、入力パターン格納部に格納
    した入力音声特徴パターンと標準パターン記憶部に記憶
    されている各標準パターンとを比較して比較結果を出力
    する比較部と、各標準パターンとの間の最適な比較結果
    の標準パターンを選択する結果集計部と、結果集計部の
    選択情報を元にして認識対象として最も可能性の高い標
    準パターンのラベル名を出力する結果集計部と、辞書デ
    ータ記憶部と、入力パターン格納部を比較部或は辞書デ
    ータ記憶部の何れかに切り替え接続する切り替えスイッ
    チを有する音声認識装置において、 使用履歴ある数字列の音声パターンを記録して記録内容
    を標準パターン記憶部7に入力する使用情報記録部を具
    備し、 標準パターン記憶部に使用情報記録部から格納登録され
    た数字列の標準パターンをその末尾の一部を切り出した
    部分パターンに加工する部分区間決定部を具備し、 部分区間決定部或は標準パターン記憶部の何れかを比較
    部に切り替え接続する切り替えスイッチを具備すること
    を特徴とする数字列音声認識装置。
  6. 【請求項6】 請求項5に記載される数字列音声認識装
    置において、 比較部は入力パターン格納部に格納した入力音声特徴パ
    ターンと部分区間決定部の出力する各部分パターンとの
    間のパターンマッチングをとりこれら比較結果から計算
    された入力音声特徴パターンと部分パターンとの間の最
    小距離値を比較結果として出力するパターンマッチング
    部により構成され、 辞書データ記憶部は認識対象語彙の標準パターンを格納
    するものであることを特徴とする数字列音声認識装置。
  7. 【請求項7】 請求項5に記載される数字列音声認識装
    置において、 認識対象語彙をテキストベースで登録するテキストデー
    タ入力部を具備し、 辞書データ記憶部は入力されたテキストデータを元にし
    て作成された認識対象語彙を格納するものであり、 比較部は入力パターン格納部に格納した入力音声特徴パ
    ターンと部分区間決定部の出力する各部分パターンとの
    間の尤度を比較してこれら比較結果から計算された入力
    音声特徴パターンと部分パターンとの間の最大尤度を出
    力する尤度比較部により構成され、 標準パターン記憶部に格納される標準パターンは言語モ
    デルから作成される認識対象語彙の辞書であることを特
    徴とする数字列音声認識装置。
JP8199284A 1996-07-29 1996-07-29 数字列音声認識方法およびこの方法を実施する装置 Pending JPH1049186A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8199284A JPH1049186A (ja) 1996-07-29 1996-07-29 数字列音声認識方法およびこの方法を実施する装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8199284A JPH1049186A (ja) 1996-07-29 1996-07-29 数字列音声認識方法およびこの方法を実施する装置

Publications (1)

Publication Number Publication Date
JPH1049186A true JPH1049186A (ja) 1998-02-20

Family

ID=16405246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8199284A Pending JPH1049186A (ja) 1996-07-29 1996-07-29 数字列音声認識方法およびこの方法を実施する装置

Country Status (1)

Country Link
JP (1) JPH1049186A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003052737A1 (fr) * 2001-12-17 2003-06-26 Asahi Kasei Kabushiki Kaisha Procede de reconnaissance vocale, controleur a distance, terminal d'information, terminal de communication telephonique et systeme de reconnaissance vocale

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003052737A1 (fr) * 2001-12-17 2003-06-26 Asahi Kasei Kabushiki Kaisha Procede de reconnaissance vocale, controleur a distance, terminal d'information, terminal de communication telephonique et systeme de reconnaissance vocale
JP2009104156A (ja) * 2001-12-17 2009-05-14 Asahi Kasei Homes Kk 電話通信端末

Similar Documents

Publication Publication Date Title
USRE38101E1 (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
US7555430B2 (en) Selective multi-pass speech recognition system and method
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
US5913192A (en) Speaker identification with user-selected password phrases
US6438520B1 (en) Apparatus, method and system for cross-speaker speech recognition for telecommunication applications
US20140163988A1 (en) Recognizing the Numeric Language in Natural Spoken Dialogue
RU2393549C2 (ru) Способ и устройство для распознавания речи
JP4173207B2 (ja) 発声音に関する話者の検証を行うためのシステム及び方法
JPWO2016092807A1 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
JPH07210190A (ja) 音声認識方法及びシステム
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
US20010056345A1 (en) Method and system for speech recognition of the alphabet
JPH08248987A (ja) 音声認識方法
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
JPH1049186A (ja) 数字列音声認識方法およびこの方法を実施する装置
JP2820093B2 (ja) 単音節認識装置
JP2003177788A (ja) 音声対話システムおよびその方法
CA2597826C (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
JP4067483B2 (ja) 電話受け付け翻訳システム