JP3111997B2

JP3111997B2 - 音声認識システムおよび単語辞書作成装置

Info

Publication number: JP3111997B2
Application number: JP10250677A
Authority: JP
Inventors: 靖村澤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1998-09-04
Filing date: 1998-09-04
Publication date: 2000-11-27
Anticipated expiration: 2018-09-04
Also published as: JP2000081896A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、ＳＲＣＬなどの
音声認識単位定義言語を用いて音声認識の単位となる語
（「音声認識単位語」）を予め定義したソースプログラム
を作成し、このソースプログラムから音声認識単位語を
登録した単語辞書を作成する単語辞書作成装置、およ
び、単語辞書作成装置と話者の音声と単語辞書に登録さ
れた音声認識単位語とを比較処理することにより音声を
認識する音声認識装置とを有する音声認識システムに関
するものである。

【０００２】

【従来の技術】現在、多くの音声認識システムでは、あ
らかじめ音声認識の単位となる語（以下、「音声認識単
位語」）を登録した単語辞書を単語辞書作成装置で作成
し、この単語辞書に登録された音声認識単位語と話者に
よる音声とを比較して音声を認識する方法が取られてい
る。また、その音声認識単位語を登録する方法としては
ＳＲＣＬ（ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＣ
ｏｎｔｒｏｌＬａｎｇｕａｇｅ）などの音声認識単位
定義言語が使用されている。

【０００３】具体的には、単語辞書作成装置で、管理者
はＳＲＣＬで単語辞書に登録する複数の音声認識単位語
を記述したソースプログラムを作成し、これをコンパイ
ルリンクして単語辞書を作成する。音声認識装置では、
話者の発音を取り込み、解析して単語辞書から該当する
音声認識単位語を選択して出力する。

【０００４】図１３は、アメリカ地名認識用に作られた
アメリカ地名単語辞書のＳＲＣＬで記述されたソースプ
ログラムの一部である。図中、２００は、音声認識単位
語を構成する音声グラマーを記述した部分である。＜地
名＞および＜コード＞は変数を示し、？はあってもなく
てもよいことを示し、｜はＯＲ条件を示している。従っ
て、この場合には、アメリカの「地名」を音声認識単位語
とすること、「地名＋です」を音声認識単位語とするこ
と、および地名に該当する「コード」を音声認識単位語と
することを示している。

【０００５】２０１は、２００の「地名」としてどのよう
な単語があるかを記述した部分である。２０２は、２０
０のコードの音声グラマーを記述した部分であり、＜数
字＞変数２桁で構成されていることを示している。２０
３は、２０２の「数字」としてどのような単語があるかを
記述した部分である。

【０００６】図１３に示したソースプログラムをコンパ
イルリンクして作成した単語辞書を使用した場合、音声
認識装置では、例えば、話者が‘ロサンゼルス’と発音
した場合には、この音声を取り込んで、解析した後にア
メリカ地名辞書とマッチング処理されて、「ロサンゼル
ス」という音声認識単位語が選択されて出力されること
になる。

【０００７】

【発明が解決しようとする課題】通常の話者の発音で
は、複数の単語から音声認識単位語が構成されている場
合には、単語が常に連続して発音されることはなく、そ
の間に何ｍＳ程度の間が空くことが多い。例えば、２桁
の数字からなるコードとして‘４６’を発音した場合に
は、‘よん’という発音と‘ろく’という発音の間に多
少の間が空いてしまうことになる。従って、一般に音声
認識システムでは、この‘よん’の後に一定時間待ち、
次の発音があるか否かを判別した後に音声認識単位語を
選択し出力を行なうという再認識処理が行われている。

【０００８】しかし、従来の音声認識システムでは、再
認識処理をするか否かはソースプログラムから単語辞書
を作成する時に、単語辞書毎にコンパイルオプションで
指定していたために、再認識処理を指定して単語辞書を
作成すると、２以上の単語で構成される音声認識単位語
のうち、特に単語と単語の間で待つ必要がないものまで
一律に待った後に処理されるので、処理が遅くなるとい
う問題があった。例えば、図１３のアメリカ地名辞書を
使用した場合には、話者が‘ロサンゼルスです’と連続
して発音した場合には、そのまま「ロサンゼルスです」と
いう音声認識単位語が選択されて出力される。しかし、
‘ロサンゼルス’と‘です’の間に空きがある場合に
は、音声認識単位語が‘ロサンゼルス’なのか‘ロサン
ゼルスです’なのかを判別する必要から、‘ロサンゼル
ス’を認識した後に‘です’が発音されるかを一定時間
待つことになる。この場合、出力側ではロサンゼルスと
いう地名を知りたいだけであり、一律に‘ロサンゼル
ス’という音声認識単位語を選択してもよいので、‘で
す’を待つ分、出力までの時間が遅延してしまうことに
なる。

【０００９】また、音声認識システムの使用対象となる
人や、方言・言い回し等により、音声認識単位語を構成
する単語と単語の間の発音の間隔は異なるが、従来の音
声認識システムでは、再認識処理を設定した場合に次の
単語の発音を待つ時間は音声認識処理装置で一律に設定
されていたために、音声認識単位語毎に待ち時間を木目
細かく設定することができないという問題があった。例
えば、老人が使用する場合には、単語と単語との空きは
一般人よりも長くなるので、一般人と同じ設定にしたの
では、正しく認識できない確率が高くなる。

【００１０】なお、従来例として特開平６―２０２６８
９号公報に記載された音声認識方法および装置の発明が
ある。これは、話者が発話を中止する可能性のあるステ
ートに継続時間長を設定し、その継続時間以上発話が休
止した場合にその時点までの発話解析結果を出力するも
のである。しかし、この発明では発話の語順を規定する
情報中に独立に継続時間を設定する方法が不明であり、
この設定方法が困難な場合には、木目細かい処理はでき
ない。

【００１１】この発明は、上述の問題を解決するために
なされたものであり、第一の目的は、単語辞書に登録さ
れた音声認識単位語の全部または任意の一部に、再認識
処理をするかいなかを簡単な方法で設定することがで
き、この設定に従って音声認識処理を行う音声認識処理
システムを提供することである。さらに、第二の目的
は、再認識処理を行なう場合の次の単語の発音を待つ時
間を簡単な方法で設定でき、この設定に従って再認識処
理を行う音声認識処理システムを提供することである。

【００１２】

【課題を解決するための手段】この発明にかかる音声認
識システムでは、音声認識単位定義言語を用いて作成さ
れた１以上の単語から構成される音声認識単位語を複数
定義したソースプログラムから、単語辞書を作成する単
語辞書作成装置と、単語辞書を使用して音声認識を行う
音声認識装置とを有し、単語辞書作成装置は、ソースプ
ログラム中に、音声認識単位語毎に全部または任意の一
部で、次の発音があるか否かを判別するために一定時間
待つか否かという情報が設定されている場合には、この
情報を単語辞書の作成時に一括して単語辞書に付加する
単語辞書作成手段を有し、音声認識装置は、単語辞書に
付加された情報に従って、入力した音声を解析し、その
解析結果と単語辞書に登録された音声認識単位語とを用
いて音声認識を行うものとした。

【００１３】さらに、単語辞書には、各音声認識単位語
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別するために一定時間待つか否かの情報が含まれてい
るものとした。

【００１４】また、この発明にかかる単語辞書作成装置
は、ソースプログラム中に、音声認識単位語毎に全部ま
たは任意の一部で、次の発音があるか否かを判別するた
めに一定時間待つか否かという情報が設定されている場
合には、この情報を単語辞書の作成時に一括して単語辞
書に付加する単語辞書作成手段を有しているものとし
た。

【００１５】また、この発明にかかる音声認識システム
では、音声認識単位定義言語を用いて作成された１以上
の単語から構成される音声認識単位語を複数定義したソ
ースプログラムから、単語辞書を作成する単語辞書作成
装置と、単語辞書を使用して音声認識を行う音声認識装
置とを有し、単語辞書作成装置は、ソースプログラム中
に、音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために待つ待ち時間の情報
が設定されている場合には、この待ち時間の情報を単語
辞書の作成時に一括して単語辞書に付加する単語辞書作
成手段を有し、音声認識装置は、単語辞書に付加された
待ち時間の情報に従って、入力した音声を解析し、その
解析結果と前記単語辞書に登録された音声認識単位語と
を用いて音声認識を行うものとした。

【００１６】さらに、単語辞書には、各音声認識単位語
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別する待ち時間の情報が含まれているものとした。

【００１７】また、この発明にかかる単語辞書作成装置
では、ソースプログラム中に、音声認識単位語毎に全部
または任意の一部で、次の発音があるか否かを判別する
ために待つ待ち時間の情報が設定されている場合には、
この待ち時間の情報を単語辞書の作成時に一括して単語
辞書に付加する単語辞書作成手段を有しているものとし
た。

【００１８】

【発明の実施の形態】実施の形態１．図１は、この発明
の実施の形態１における音声認識システムの構成を示し
た構成図である。音声認識システムは、単語辞書作成装
置１と、音声認識装置２とを有している。

【００１９】単語辞書作成装置１は、キーボードやディ
スプレを有し、管理者がＳＲＣＬを使用してソースプロ
グラムを作成するソースプログラム作成部３と、作成さ
れたソースプログラムをコンパイルリンクして単語辞書
を作成する単語辞書作成手段である単語辞書生成部４を
有している。

【００２０】音声認識装置２は、単語辞書作成装置１で
作成された複数の単語辞書を記憶する単語辞書記憶部５
と、その単語辞書記憶部５に記憶された辞書のうちどの
辞書を使用するかを決定する使用単語辞書決定部６と、
音素のパターンを記憶する音響辞書記憶部７と、話者の
発音を取り込む音声入力部８と、取り込まれた話者の音
声を認識する音声認識処理手段である音声認識処理部９
とを有している。

【００２１】次に、単語辞書作成装置１で単語辞書を作
成する方法について説明する。まず、ソースプログラム
作成部３で、管理者はソースプログラムを記述する。図
２は、アメリカ地名認識用に作られたアメリカ地名単語
辞書のＳＲＣＬで記述されたソースプログラムの一部で
ある。

【００２２】図中、２０は、音声認識単位語を構成する
音声グラマーを記述した部分である。＜地名＞および＜
コード＞は変数を示し、？はあってもなくてもよいこと
を示し、｜はＯＲ条件を示している。また、“”は、音
声認識単位語のうち“”で指定された部分は再認識処理
の対象としないことを示している。なお、“”で指定さ
れていない部分は、既定で再認識処理の対象とされる。
従って、この場合には、アメリカの「地名」を音声認識単
位語とすること、「地名＋です」を音声認識単位語とする
こと、地名に該当する「コード」を音声認識単位語とする
こと、および「地名＋です」は再認識処理の対象とはしな
いことを示している。

【００２３】２１は、２０の「地名」としてどのような単
語があるかを記述した部分である。２２は、２０の「コ
ード」の音声グラマーを記述した部分であり、＜数字＞
変数２桁で構成されていることを示している。２３は、
２２の「数字」としてどのよう単語があるかを記述した部
分である。

【００２４】その後に、単語辞書生成部４にソースプロ
グラムを送り、コンパイルリンクして単語辞書を作成す
る。このコンパイルリンクでは、ソースプログラムに記
述された音声認識単位語を、開始・終了および各単語を
示すノードと、その繋がりを示すアークとの情報にして
いる。

【００２５】図３は、アメリカ地名単語辞書でのノード
とアークの関係を示す概念図である。図中、○はノード
を、矢印はアークを表しており、また、矢印のうち点線
は再認識有りを、直線は認識無しを示している。例え
ば、３１で開始を、３２で「地名」の単語を、３３で「地
名」と「です」が再認識無しで接続されていること、３４
で終わりを示している。このように、音声認識単位語は
ノードとアークとでネットワークを構成して単語辞書に
登録されている。

【００２６】次に、音声認識装置２で、上述の方法で作
成された単語辞書を使用して音声認識を行なう動作につ
いて説明する。まず、使用単語辞書決定部６で音声認識
で使用される辞書が決定され、この単語辞書が音声認識
処理部９に送られる。この単語辞書の決定は、アプリケ
ーションプログラム等の要求により行われる。例えば、
話者の要求によりアメリカ旅行計画をスケジュールする
アプリケーションが動作する場合には、アメリカ地名辞
書が選択される等である。次に、音声入力部８から音声
が取り込まれ、音声認識処理部９に送られて解析処理さ
れることになる。

【００２７】ここで、音声認識処理部９の動作を説明す
る前に、動作処理で重要な概念となる始端・終端につい
て説明する。図４は、話者が発音した時の入力パワーと
時間経過との関係を示す相関図である。音声入力部８
は、話者が発音した時のみならず、発音をしていないと
きでも雑音など音があれ取り込んでしまうことになる
が、このような雑音は処理をする必要はない。そこで、
入力パワーのうちあるしきい値をこえ、かつその状態が
ある一定時間以上続くもののみ、話者による発音として
処理すればよく、その話者の発音が開始したと認識する
時を始端、終わりであると認識する時を終端としてい
る。

【００２８】図４では、入力パワーがしきい値Ｐ１をこ
える期間がＴ１以上続く場合に、こえた時を始端とし、
入力パワーがＰ２を下回る期間がＴ２以上続く場合に、
下回った時を終端としている。従って、始端はＳｐ時、
終端はＥｐ時となり、音声認識処理部９では、その間に
音声入力部８から取り込まれた音のみを処理することに
なる。また、音声認識処理部９では、図５の始端・終端
検出処理遷移図に示すような遷移となる。

【００２９】音声認識処理部９では、始端・終端検出処
理、音声認識処理の２つの処理が並行に動作しており、
以下それぞれの処理動作について図６、図７、図８の動
作フロー図に基づいて説明する。

【００３０】図６の始端検出処理では、まず音声入力部
８で取り込んだ音を１０ｍｓ単位で取り込み（ステップ
Ｓ６１）、そのなかに入力パワーがしきい値Ｐ１をこえ
るものがあるか否かを判断する（ステップＳ６２）。ス
テップＳ６２で、しきい値Ｐ１をこえるものがあると判
断された場合には、継続してしきい値Ｐ１をこえる時間
がＴ１以上であるか否かを判断する（ステップＳ６
３）。ステップＳ６３で、継続時間がＴ１以上であると
判断した場合には、しきい値Ｐ１をこえた時を始端と
し、始端検出フラグを１にセットする（ステップＳ６
４）。なお、ステップＳ６２で入力パワーがしきい値Ｐ
１をこえないと判断された場合、継続時間をゼロにセッ
ト（ステップＳ６５）した後にステップＳ６１に戻る。
また、ステップＳ６３で、継続時間がＴ１より小さい場
合には、継続時間をインクルメント（ステップＳ６６）
した後にステップＳ６１に戻り、ステップＳ６３で継続
時間が０である場合には、始端位置のセーブ（ステップ
Ｓ６６）後に、ステップＳ６６を行い、ステップＳ６１
に戻る。

【００３１】図７の終端検出処理では、まず音声入力部
８で取り込んだ音を１０ｍｓ単位で取り込み（ステップ
Ｓ７１）、そのなかに入力パワーがしきい値Ｐ２より小
さくなるものがあるか否かを判断する（ステップＳ７
２）。ステップＳ７２で、しきい値Ｐ２より小さいもの
があると判断された場合には、継続してしきい値Ｐ２よ
り小さくなる時間がＴ２以上であるか否かを判断する
（ステップＳ７３）。ステップＳ７３で、継続時間がＴ
２以上であると判断した場合には、しきい値Ｐ２より小
さくなった時を終端とし、終端検出フラグを１にセット
する（ステップＳ７４）。なお、ステップＳ７２で入力
パワーがしきい値Ｐ２より小さくなることはないと判断
された場合、継続時間をゼロにセット（ステップＳ７
５）して、ステップＳ７１に戻る。また、ステップＳ７
３で、継続時間がＴ２未満である場合には、継続時間を
インクルメント（ステップＳ７６）してステップＳ７１
に戻り、継続時間が０の場合には、終端位置のセーブ
（ステップＳ７７）後に、ステップＳ７６を行い、ステ
ップＳ７１に戻る。

【００３２】次に、音声を解析し、音声認識単位語を識
別する音声認識処理の流れを図８のフロー図に基づいて
説明する。まず、使用するバッファ等をクリアする初期
処理を行なう（ステップＳ８１）。次に、始端検出フラ
グがセットされているか否かを判断する（ステップＳ８
２）。ここで、始端検出フラグがセットされていると判
断された場合には、終端検出フラグがセットされている
か否かを判断する（ステップＳ８３）。

【００３３】終端検出フラグがセットされていないと判
断された場合には、１：入力音声取り込み、２：音響分
析、３：音素パターン選択、４：ビタビ演算の処理を実
施する（ステップＳ８４）。音響分析では音響特性を表
わす特徴ベクトルの抽出を行う。音素パターン選択では
音響辞書記憶部７に記憶された音素パターンとマッチン
グ処理して音素を選択する。ビタビ演算では単語辞書の
単語の音素とマッチング処理して、単語の候補を決定す
る。なお、１から４の処理は、１０ｍｓを単位としたパ
イプライン処理で実現されている。

【００３４】ステップＳ８４の終了後は、再びステップ
Ｓ８３に戻る。ステップＳ８３で、終端検出フラグがセ
ットされていると判断された場合には、バックトラッキ
ング処理される（ステップＳ８５）。バックトラッキン
グ処理とは、単語辞書の音声認識単位語を示すネットワ
ークで、処理したノードがどのノードから遷移してきた
かをさかのぼって求める処理である。ステップＳ８５の
後、単語辞書を検索し、次のノードへのアークが再認識
処理の対象とされているかを判断する（ステップＳ８
６）。ステップＳ８６で、再認識ありと判断された場合
には、候補とされる単語をセーブし（ステップＳ８
７）、再度ステップＳ８１に戻り処理を実施する。例え
ば、図３で、バックトラッキング処理で検出された最終
ノードがＳのノードからの遷移である‘いち’のノード
である場合には、次のアーク（図３で点線となる部分）
には再認識の対象とされていることがわかる。

【００３５】ステップＳ８２で、始端検出フラグがセッ
トされていないと判断した場合には、タイムアウト時間
になったか否かを判断し（ステップＳ８８）、タイムア
ウトとなるまでステップＳ８２とステップＳ８８を繰り
返す。なお、このタイムアウト時間は、最初の認識時に
はアプリケーションプログラム等の要求値が設定され、
再認識時には、予め音声認識装置２に設定されたもので
ある。

【００３６】再認識時にステップＳ８８で、タイムアウ
トとなった場合には、次の単語が発音されなかったこと
であるから、セーブした単語を音声認識単位語として出
力する（ステップＳ８９）。最初の認識時にタイムアウ
トとなった場合には、セーブした単語はないので音声認
識単位語は空である。また、ステップＳ８６で、再認識
なしと判断された場合にも、ステップＳ８５で検出した
単語およびセーブされた単語からなる音声認識単位語を
出力する。

【００３７】例えば、図３で、ステップＳ８４で検出さ
れた単語が‘ニューヨーク’であり、バックトラッキン
グ処理で検出された‘ニューヨーク’のノードがＳのノ
ードからの遷移である場合には、次のアーク（図３で実
線となる部分）には再認識処理の対象としないとされて
いるので、そのまま‘ニューヨーク’を音声認識単位語
として出力することになる。また、図３で、ステップＳ
８４で検出された単語が‘いち’であり、バックトラッ
キング処理で検出された‘いち’のノードが‘いち’の
ノードからの遷移である場合には、次のアーク（図３の
実線となる部分）には再認識処理の対象としないされて
いるので、セーブした‘いち’を付加して、‘いちい
ち’という音声認識単位語が出力されることになる。な
お、図９は、話者が再認識処理の設定された音声認識単
位語を発音した時の入力パワーと時間経過との関係を示
す相関図であり、図中のＴ３が再認識処理が設定された
場合の待ち時間である。

【００３８】このように、再認識処理を行うか否かを音
声認識単位語の全部または任意の一部毎に事前に設定で
きるので、真に再認識が必要な場合には再認識処理をさ
せ、不必要な場合には再認識処理をさせないようにする
ことができ、認識処理効率を高めることができる。

【００３９】また、再認識処理をさせるか否かの情報を
ＳＲＣＬで記述したソースプログラム上に指定し、この
情報は単語辞書作成時に一括して単語辞書に付加される
ので、簡単に再認識処理をするか否かの設定ができる。
さらに、この情報を辞書のアーク情報に含ませているの
で、新規にファイル等を用意する必要もなく、簡単に実
現できる。

【００４０】なお、この実施の形態では、再認識の対象
としない部分を明示指定し、既定は再認識有りとした
が、その逆に、再認識の対象とする部分を明示指定し、
規定は再認識無しとしても当然によい。また、単語辞書
では、再認識するかいなかの情報をアークの情報に含ま
せたが、単語辞書中に別にテーブルを設けてアークとそ
れに対応する再認識するかいなかの情報を対応つけて記
憶させるようにしてもよい。

【００４１】実施の形態２．実施の形態１は、音声認識
単位語の任意の一部で再認識処理をするか否かの設定を
可能であるが再認識処理での待ち時間は個別に変更不可
であったが、実施の形態２は、再認識処理をする場合の
待ち時間を自由に設定可能としたものである。

【００４２】図１０は、この発明の実施の形態２におけ
る音声認識システムにおいて、単語辞書作成装置１のソ
ースプログラム作成部３で作られた、昭和年月日単語辞
書のソースプログラムの一部である。

【００４３】図中、１００は、音声認識単位語を構成す
る音声グラマーを記述した部分である。＜２けた数字＞
および＜日付＞は変数を示し、？はあってもなくてもよ
いことを示している。また、変数を記述するのと同様な
記載の＜無音ｘ＞は、再認識処理で次の単語を待つ時間
を、１００ｍｓの整数倍で示している。例えば、「しょ
うわにじゅうごねんじゅういちがつみっか」などを発声
する場合には、「しょうわ」と「にじゅうご」の間に多少の
空きが入る場合が多いので、＜無音５＞として、再認識
処理の待ち時間を５００ｍｓとし、「ねん」と「じゅうい
ちがつみっか」の間に息継ぎ等すこし多めの空きが入る
場合が多いので、＜無音１０＞とし再認識処理の待ち時
間を１０００ｍｓとしている。なお、ここでは、「しょ
うわ＋２けた数字＋ねん」および、「しょうわ＋２けた数
字＋ねん＋日付」を音声認識単位語としている。

【００４４】１０１は、「２けた数字」の音声グラマーを
記述した部分であり、＜十の位＞と＜一の位＞の変数か
ら構成されている。１０２は、「日付」の音声グラマーを
記述した部分であり、＜月＞と＜日＞の変数から構成さ
れている。なお、「日付」は再認識処理の対象であり、
「月」の単語の発音と「日」の単語の発音の間に１５００ｍ
ｓの待ち時間が設定されることを示している。１０３
は、「十の位」の単語を示した部分であり、同様に１０
４、１０５、１０６はそれぞれ「一の位」の単語を、「月」
の単語を、「日」の単語を示した部分である。

【００４５】このソースプログラムは、単語辞書生成部
４に送られ、コンパイルリンクして単語辞書が作成され
る。単語辞書は、ノードとアークのネットワークで音声
認識単位語が示されており、このアークの情報には、再
認識処理での待ち時間も含まれて設定されている。図１
１は、昭和年月日単語辞書でのノードとアークの関係を
示す概念図である。図１１中、１１３は「しょうわ」のノ
ード１１１と「じゅう」のノード１１２とを接続するアー
クであり、再認識処理の待ち時間として５という数字の
情報を有している。なお、再認識が設定されていない場
合には、アークの情報に再認識処理待ち時間として０と
いう数字が設定されている。

【００４６】次に、この単語辞書を使用した場合の、音
声認識処理部９における音声認識処理について図１２の
フロー図に基づいて説明する。なお、ステップＳ８１か
らステップＳ８８の処理は、図８の実施の形態１におけ
る音声認識処理のフロー図と同様である。ステップＳ８
６で、単語辞書を検索し、次のノードへのアークが再認
識の対象とされていると判断した場合、すなはち該当す
るアークが待ち時間として０以外の数字が設定されてい
る場合には、ステップＳ８７のセーブ処理ののち、アー
ク情報から検出した再認識待ち時間の情報からタイムア
ウト値を設定する（ステップＳ１２０）。この後、ステ
ップＳ８２とステップＳ８８が始端検出フラグのセット
が検出されるまで繰り返されて、その時間がステップＳ
１２０で設定したタイムアウト値を経過した場合には、
タイムアウトとして音声認識単位語が出力されることに
なる。

【００４７】このように、再認識処理を行うか否かのみ
ならず、再認識処理で待つ待ち時間まで事前に設定でき
るようにしたので、音声認識の対象とする人や、方言・
言い回し等を考慮して、最適な音声認識処理を行うこと
ができる。

【００４８】また、待ち時間の設定も、ＳＲＣＬで記述
したソースプログラム上に指定し、この情報は単語辞書
作成時に一括して単語辞書に付加されるので、簡単に待
ち時間の設定ができる。さらに、この情報を辞書のアー
ク情報に含ませているので、新規にファイル等を用意す
る必要もなく、簡単に実現できる。

【００４９】さらにまた、待ち時間の指定も、ＳＲＣＬ
で変数を設定するのと同じ様な記述で可能としたので、
ソースプログラムの記述も簡単になる。

【００５０】なお、この実施の形態では、再認識処理の
待ち時間を、基本時間の整数倍で定義したが、待ち時間
を明示して定義するようにしてもよい。また、単語辞書
では、再認識処理の待ち時間情報をアークの情報に含ま
せたが、単語辞書中に別にテーブルを設けてアークとそ
れに対応する待ち時間情報を対応つけて記憶させるよう
にしてもよい。

【００５１】

【発明の効果】この発明にかかる音声認識システムで
は、音声認識単位定義言語を用いて作成された１以上の
単語から構成される音声認識単位語を複数定義したソー
スプログラムから、単語辞書を作成する単語辞書作成装
置と、単語辞書を使用して音声認識を行う音声認識装置
とを有し、単語辞書作成装置は、ソースプログラム中
に、音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために一定時間待つか否か
という情報が設定されている場合には、この情報を単語
辞書の作成時に一括して単語辞書に付加する単語辞書作
成手段を有し、音声認識装置は、単語辞書に付加された
情報に従って、入力した音声を解析し、その解析結果と
単語辞書に登録された音声認識単位語とを用いて音声認
識を行うものとした。

【００５２】さらに、単語辞書には、各音声認識単位語
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別するために一定時間待つか否かの情報が含まれてい
るものとした。

【００５３】また、この発明にかかる単語辞書作成装置
は、ソースプログラム中に、音声認識単位語毎に全部ま
たは任意の一部で、次の発音があるか否かを判別するた
めに一定時間待つか否かという情報が設定されている場
合には、この情報を単語辞書の作成時に一括して単語辞
書に付加する単語辞書作成手段を有しているものとし
た。

【００５４】これにより、真に再認識が必要な場合には
再認識処理をさせ、不必要な場合には再認識処理をさせ
ないようにすることができ、認識処理効率を高めること
ができる。

【００５５】また、再認識処理をさせるか否かの情報を
ＳＲＣＬで記述したソースプログラム上に指定し、この
情報は単語辞書作成時に一括して単語辞書に付加される
ので、簡単に再認識処理をするか否かの設定ができる。
さらに、この情報を辞書のアーク情報に含ませているの
で、新規にファイル等を用意する必要もなく、簡単に実
現できる。

【００５６】また、この発明にかかる音声認識システム
では、音声認識単位定義言語を用いて作成された１以上
の単語から構成される音声認識単位語を複数定義したソ
ースプログラムから、単語辞書を作成する単語辞書作成
装置と、単語辞書を使用して音声認識を行う音声認識装
置とを有し、単語辞書作成装置は、ソースプログラム中
に、音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために待つ待ち時間の情報
が設定されている場合には、この待ち時間の情報を単語
辞書の作成時に一括して単語辞書に付加する単語辞書作
成手段を有し、音声認識装置は、単語辞書に付加された
待ち時間の情報に従って、入力した音声を解析し、その
解析結果と前記単語辞書に登録された音声認識単位語と
を用いて音声認識を行うものとした。

【００５７】さらに、単語辞書には、各音声認識単位語
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別する待ち時間の情報が含まれているものとした。

【００５８】また、この発明にかかる単語辞書作成装置
では、ソースプログラム中に、音声認識単位語毎に全部
または任意の一部で、次の発音があるか否かを判別する
ために待つ待ち時間の情報が設定されている場合には、
この待ち時間の情報を単語辞書の作成時に一括して単語
辞書に付加する単語辞書作成手段を有しているものとし
た。

【００５９】これにより、音声認識の対象とする人や、
方言・言い回し等を考慮して、最適な音声認識処理を行
うことができる。

【００６０】また、待ち時間の設定も、ＳＲＣＬで記述
したソースプログラム上に指定し、この情報は単語辞書
作成時に一括して単語辞書に付加されるので、簡単に待
ち時間の設定ができる。さらに、この情報を辞書のアー
ク情報に含ませているので、新規にファイル等を用意す
る必要もなく、簡単に実現できる。

【図面の簡単な説明】

【図１】この発明の実施の形態１における音声認識シ
ステム構成図。

【図２】この発明の実施の形態１におけるアメリカ地
名単語辞書ソースプログラム。

【図３】この発明の実施の形態１におけるアメリカ地
名単語辞書でのノードとアークの概念図。

【図４】入力パワーと経過時間との相関図。

【図５】始端・終端検出処理遷移図。

【図６】この発明の実施の形態１における始端検出処
理フロー図。

【図７】この発明の実施の形態１における終端検出処
理フロー図。

【図８】この発明の実施の形態１における音声認識処
理フロー図。

【図９】入力パワーと経過時間との相関図。

【図１０】この発明の実施の形態２における昭和年月
日単語辞書ソースプログラム。

【図１１】この発明の実施の形態２における昭和年月
日単語辞書でのノードとアークの概念図。

【図１２】この発明の実施の形態２における音声認識
処理フロー図。

【図１３】従来のアメリカ地名単語辞書ソースプログ
ラム。

【符号の説明】

１単語辞書作成装置、２音声認識装置、３
ソースプログラム作成部、４単語辞書作成部
（単語辞書作成手段）、９音声認識処理部

フロントページの続き (56)参考文献特開平６−202689（ＪＰ，Ａ) 特開平２−114322（ＪＰ，Ａ) 特開昭61−240296（ＪＰ，Ａ) 特開昭58−97094（ＪＰ，Ａ) 特公平１−19599（ＪＰ，Ｂ２) ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩＥＥＥ／ＥｎｇｉｎｅｅｒｉｎｇｉｎＭｅｄｉｃｉｎａｎｄＢｉｏｌｏｇｙＳｏｃｉｅｔｙ，11ｔｈ，Ｖｏｌ．６，Ｄ．Ｍ．Ｈｏｒｏｗｉｔｚｅｔａｌ，”ＴｈｅＳｔｒｕｃｔｕｒｅａｎｄＦｕｎｃｔｉｏｎｏｆａＳｐｅｅｃｈＣｏｎｔｒｏｌＬａｎｇｕａｇｅｆｏｒＴｅｘｔＰｒｏｃｅｓｓｉｎｇａｎｄＲｏｂｏｔｉｃＣｏｎｔｒｏｌ”，ｐ．1795−1797，1989 古井「ディジタル音声処理」（1985− ９−25）東海大学出版会ｐ．183−185 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00 ＩＮＳＰＥＣ（ＤＩＡＬＯＧ) ＪＩＣＳＴファイル（ＪＯＩＳ) ＷＰＩ（ＤＩＡＬＯＧ) ＩＥＥＥ／ＩＥＥＥｌｅｃｔｒｏｎｉｃＬｉｂｒａｒｙＯｎｌｉｎｅ

Claims

(57)【特許請求の範囲】

【請求項１】音声認識単位定義言語を用いて作成され
た１以上の単語から構成される音声認識単位語を複数定
義したソースプログラムから、単語辞書を作成する単語
辞書作成装置と、前記単語辞書を使用して音声認識を行
う音声認識装置とを有する音声認識システムにおいて、
前記単語辞書作成装置は、前記ソースプログラム中に、
前記音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために一定時間待つか否か
という情報が設定されている場合には、前記情報を前記
単語辞書の作成時に一括して前記単語辞書に付加する単
語辞書作成手段を有し、前記音声認識装置は、前記単語
辞書に付加された前記情報に従って、入力した音声を解
析し、その解析結果と前記単語辞書に登録された音声認
識単位語とを用いて音声認識を行うことを特徴とする音
声認識システム。
【請求項２】単語辞書には、各音声認識単位語がノー
ドの情報と前記ノード間を繋ぐアークの情報との結合と
して登録されており、前記アークの情報には前記音声認
識単位語毎に全部または任意の一部で次の発音があるか
否かを判別するために一定時間待つか否かの情報が含ま
れていることを特徴とする請求項１に記載の音声認識シ
ステム。
【請求項３】音声認識単位定義言語を用いて作成され
た１以上の単語から構成される音声認識単位語を複数定
義したソースプログラムから、単語辞書を作成する単語
辞書作成装置において、前記ソースプログラム中に、前
記音声認識単位語毎に全部または任意の一部で、次の発
音があるか否かを判別するために一定時間待つか否かと
いう情報が設定されている場合には、前記情報を前記単
語辞書の作成時に一括して前記単語辞書に付加する単語
辞書作成手段を有していることを特徴とする単語辞書作
成装置。
【請求項４】音声認識単位定義言語を用いて作成され
た１以上の単語から構成される音声認識単位語を複数定
義したソースプログラムから、単語辞書を作成する単語
辞書作成装置と、前記単語辞書を使用して音声認識を行
う音声認識装置とを有する音声認識システムにおいて、
前記単語辞書作成装置は、前記ソースプログラム中に、
前記音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために待つ待ち時間の情報
が設定されている場合には、前記待ち時間の情報を前記
単語辞書の作成時に一括して前記単語辞書に付加する単
語辞書作成手段を有し、前記音声認識装置は、前記単語
辞書に付加された待ち時間の情報に従って、入力した音
声を解析し、その解析結果と前記単語辞書に登録された
音声認識単位語とを用いて音声認識を行うことを特徴と
する音声認識システム。
【請求項５】単語辞書には、各音声認識単位語がノー
ドの情報と前記ノード間を繋ぐアークの情報との結合と
して登録されており、前記アークの情報には前記音声認
識単位語毎に全部または任意の一部で次の発音があるか
否かを判別する待ち時間の情報が含まれていることを特
徴とする請求項４に記載の音声認識システム。
【請求項６】音声認識単位定義言語を用いて作成され
た１以上の単語から構成される音声認識単位語を複数定
義したソースプログラムから、単語辞書を作成する単語
辞書作成装置において、前記ソースプログラム中に、前
記音声認識単位語毎に全部または任意の一部で、次の発
音があるか否かを判別するために待つ待ち時間の情報が
設定されている場合には、前記待ち時間の情報を前記単
語辞書の作成時に一括して前記単語辞書に付加する単語
辞書作成手段を有していることを特徴とする単語辞書作
成装置。