JP3111997B2 - 音声認識システムおよび単語辞書作成装置 - Google Patents
音声認識システムおよび単語辞書作成装置Info
- Publication number
- JP3111997B2 JP3111997B2 JP10250677A JP25067798A JP3111997B2 JP 3111997 B2 JP3111997 B2 JP 3111997B2 JP 10250677 A JP10250677 A JP 10250677A JP 25067798 A JP25067798 A JP 25067798A JP 3111997 B2 JP3111997 B2 JP 3111997B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- word dictionary
- word
- information
- recognition unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【発明の属する技術分野】この発明は、SRCLなどの
音声認識単位定義言語を用いて音声認識の単位となる語
(「音声認識単位語」)を予め定義したソースプログラム
を作成し、このソースプログラムから音声認識単位語を
登録した単語辞書を作成する単語辞書作成装置、およ
び、単語辞書作成装置と話者の音声と単語辞書に登録さ
れた音声認識単位語とを比較処理することにより音声を
認識する音声認識装置とを有する音声認識システムに関
するものである。
音声認識単位定義言語を用いて音声認識の単位となる語
(「音声認識単位語」)を予め定義したソースプログラム
を作成し、このソースプログラムから音声認識単位語を
登録した単語辞書を作成する単語辞書作成装置、およ
び、単語辞書作成装置と話者の音声と単語辞書に登録さ
れた音声認識単位語とを比較処理することにより音声を
認識する音声認識装置とを有する音声認識システムに関
するものである。
【0002】
【従来の技術】現在、多くの音声認識システムでは、あ
らかじめ音声認識の単位となる語(以下、「音声認識単
位語」)を登録した単語辞書を単語辞書作成装置で作成
し、この単語辞書に登録された音声認識単位語と話者に
よる音声とを比較して音声を認識する方法が取られてい
る。また、その音声認識単位語を登録する方法としては
SRCL(Speech Recognition C
ontrol Language)などの音声認識単位
定義言語が使用されている。
らかじめ音声認識の単位となる語(以下、「音声認識単
位語」)を登録した単語辞書を単語辞書作成装置で作成
し、この単語辞書に登録された音声認識単位語と話者に
よる音声とを比較して音声を認識する方法が取られてい
る。また、その音声認識単位語を登録する方法としては
SRCL(Speech Recognition C
ontrol Language)などの音声認識単位
定義言語が使用されている。
【0003】具体的には、単語辞書作成装置で、管理者
はSRCLで単語辞書に登録する複数の音声認識単位語
を記述したソースプログラムを作成し、これをコンパイ
ルリンクして単語辞書を作成する。音声認識装置では、
話者の発音を取り込み、解析して単語辞書から該当する
音声認識単位語を選択して出力する。
はSRCLで単語辞書に登録する複数の音声認識単位語
を記述したソースプログラムを作成し、これをコンパイ
ルリンクして単語辞書を作成する。音声認識装置では、
話者の発音を取り込み、解析して単語辞書から該当する
音声認識単位語を選択して出力する。
【0004】図13は、アメリカ地名認識用に作られた
アメリカ地名単語辞書のSRCLで記述されたソースプ
ログラムの一部である。図中、200は、音声認識単位
語を構成する音声グラマーを記述した部分である。<地
名>および<コード>は変数を示し、?はあってもなく
てもよいことを示し、|はOR条件を示している。従っ
て、この場合には、アメリカの「地名」を音声認識単位語
とすること、「地名+です」を音声認識単位語とするこ
と、および地名に該当する「コード」を音声認識単位語と
することを示している。
アメリカ地名単語辞書のSRCLで記述されたソースプ
ログラムの一部である。図中、200は、音声認識単位
語を構成する音声グラマーを記述した部分である。<地
名>および<コード>は変数を示し、?はあってもなく
てもよいことを示し、|はOR条件を示している。従っ
て、この場合には、アメリカの「地名」を音声認識単位語
とすること、「地名+です」を音声認識単位語とするこ
と、および地名に該当する「コード」を音声認識単位語と
することを示している。
【0005】201は、200の「地名」としてどのよう
な単語があるかを記述した部分である。202は、20
0のコードの音声グラマーを記述した部分であり、<数
字>変数2桁で構成されていることを示している。20
3は、202の「数字」としてどのような単語があるかを
記述した部分である。
な単語があるかを記述した部分である。202は、20
0のコードの音声グラマーを記述した部分であり、<数
字>変数2桁で構成されていることを示している。20
3は、202の「数字」としてどのような単語があるかを
記述した部分である。
【0006】図13に示したソースプログラムをコンパ
イルリンクして作成した単語辞書を使用した場合、音声
認識装置では、例えば、話者が‘ロサンゼルス’と発音
した場合には、この音声を取り込んで、解析した後にア
メリカ地名辞書とマッチング処理されて、「ロサンゼル
ス」という音声認識単位語が選択されて出力されること
になる。
イルリンクして作成した単語辞書を使用した場合、音声
認識装置では、例えば、話者が‘ロサンゼルス’と発音
した場合には、この音声を取り込んで、解析した後にア
メリカ地名辞書とマッチング処理されて、「ロサンゼル
ス」という音声認識単位語が選択されて出力されること
になる。
【0007】
【発明が解決しようとする課題】通常の話者の発音で
は、複数の単語から音声認識単位語が構成されている場
合には、単語が常に連続して発音されることはなく、そ
の間に何mS程度の間が空くことが多い。例えば、2桁
の数字からなるコードとして‘46’を発音した場合に
は、‘よん’という発音と‘ろく’という発音の間に多
少の間が空いてしまうことになる。従って、一般に音声
認識システムでは、この‘よん’の後に一定時間待ち、
次の発音があるか否かを判別した後に音声認識単位語を
選択し出力を行なうという再認識処理が行われている。
は、複数の単語から音声認識単位語が構成されている場
合には、単語が常に連続して発音されることはなく、そ
の間に何mS程度の間が空くことが多い。例えば、2桁
の数字からなるコードとして‘46’を発音した場合に
は、‘よん’という発音と‘ろく’という発音の間に多
少の間が空いてしまうことになる。従って、一般に音声
認識システムでは、この‘よん’の後に一定時間待ち、
次の発音があるか否かを判別した後に音声認識単位語を
選択し出力を行なうという再認識処理が行われている。
【0008】しかし、従来の音声認識システムでは、再
認識処理をするか否かはソースプログラムから単語辞書
を作成する時に、単語辞書毎にコンパイルオプションで
指定していたために、再認識処理を指定して単語辞書を
作成すると、2以上の単語で構成される音声認識単位語
のうち、特に単語と単語の間で待つ必要がないものまで
一律に待った後に処理されるので、処理が遅くなるとい
う問題があった。例えば、図13のアメリカ地名辞書を
使用した場合には、話者が‘ロサンゼルスです’と連続
して発音した場合には、そのまま「ロサンゼルスです」と
いう音声認識単位語が選択されて出力される。しかし、
‘ロサンゼルス’と‘です’の間に空きがある場合に
は、音声認識単位語が‘ロサンゼルス’なのか‘ロサン
ゼルスです’なのかを判別する必要から、‘ロサンゼル
ス’を認識した後に‘です’が発音されるかを一定時間
待つことになる。この場合、出力側ではロサンゼルスと
いう地名を知りたいだけであり、一律に‘ロサンゼル
ス’という音声認識単位語を選択してもよいので、‘で
す’を待つ分、出力までの時間が遅延してしまうことに
なる。
認識処理をするか否かはソースプログラムから単語辞書
を作成する時に、単語辞書毎にコンパイルオプションで
指定していたために、再認識処理を指定して単語辞書を
作成すると、2以上の単語で構成される音声認識単位語
のうち、特に単語と単語の間で待つ必要がないものまで
一律に待った後に処理されるので、処理が遅くなるとい
う問題があった。例えば、図13のアメリカ地名辞書を
使用した場合には、話者が‘ロサンゼルスです’と連続
して発音した場合には、そのまま「ロサンゼルスです」と
いう音声認識単位語が選択されて出力される。しかし、
‘ロサンゼルス’と‘です’の間に空きがある場合に
は、音声認識単位語が‘ロサンゼルス’なのか‘ロサン
ゼルスです’なのかを判別する必要から、‘ロサンゼル
ス’を認識した後に‘です’が発音されるかを一定時間
待つことになる。この場合、出力側ではロサンゼルスと
いう地名を知りたいだけであり、一律に‘ロサンゼル
ス’という音声認識単位語を選択してもよいので、‘で
す’を待つ分、出力までの時間が遅延してしまうことに
なる。
【0009】また、音声認識システムの使用対象となる
人や、方言・言い回し等により、音声認識単位語を構成
する単語と単語の間の発音の間隔は異なるが、従来の音
声認識システムでは、再認識処理を設定した場合に次の
単語の発音を待つ時間は音声認識処理装置で一律に設定
されていたために、音声認識単位語毎に待ち時間を木目
細かく設定することができないという問題があった。例
えば、老人が使用する場合には、単語と単語との空きは
一般人よりも長くなるので、一般人と同じ設定にしたの
では、正しく認識できない確率が高くなる。
人や、方言・言い回し等により、音声認識単位語を構成
する単語と単語の間の発音の間隔は異なるが、従来の音
声認識システムでは、再認識処理を設定した場合に次の
単語の発音を待つ時間は音声認識処理装置で一律に設定
されていたために、音声認識単位語毎に待ち時間を木目
細かく設定することができないという問題があった。例
えば、老人が使用する場合には、単語と単語との空きは
一般人よりも長くなるので、一般人と同じ設定にしたの
では、正しく認識できない確率が高くなる。
【0010】なお、従来例として特開平6―20268
9号公報に記載された音声認識方法および装置の発明が
ある。これは、話者が発話を中止する可能性のあるステ
ートに継続時間長を設定し、その継続時間以上発話が休
止した場合にその時点までの発話解析結果を出力するも
のである。しかし、この発明では発話の語順を規定する
情報中に独立に継続時間を設定する方法が不明であり、
この設定方法が困難な場合には、木目細かい処理はでき
ない。
9号公報に記載された音声認識方法および装置の発明が
ある。これは、話者が発話を中止する可能性のあるステ
ートに継続時間長を設定し、その継続時間以上発話が休
止した場合にその時点までの発話解析結果を出力するも
のである。しかし、この発明では発話の語順を規定する
情報中に独立に継続時間を設定する方法が不明であり、
この設定方法が困難な場合には、木目細かい処理はでき
ない。
【0011】この発明は、上述の問題を解決するために
なされたものであり、第一の目的は、単語辞書に登録さ
れた音声認識単位語の全部または任意の一部に、再認識
処理をするかいなかを簡単な方法で設定することがで
き、この設定に従って音声認識処理を行う音声認識処理
システムを提供することである。さらに、第二の目的
は、再認識処理を行なう場合の次の単語の発音を待つ時
間を簡単な方法で設定でき、この設定に従って再認識処
理を行う音声認識処理システムを提供することである。
なされたものであり、第一の目的は、単語辞書に登録さ
れた音声認識単位語の全部または任意の一部に、再認識
処理をするかいなかを簡単な方法で設定することがで
き、この設定に従って音声認識処理を行う音声認識処理
システムを提供することである。さらに、第二の目的
は、再認識処理を行なう場合の次の単語の発音を待つ時
間を簡単な方法で設定でき、この設定に従って再認識処
理を行う音声認識処理システムを提供することである。
【0012】
【課題を解決するための手段】この発明にかかる音声認
識システムでは、音声認識単位定義言語を用いて作成さ
れた1以上の単語から構成される音声認識単位語を複数
定義したソースプログラムから、単語辞書を作成する単
語辞書作成装置と、単語辞書を使用して音声認識を行う
音声認識装置とを有し、単語辞書作成装置は、ソースプ
ログラム中に、音声認識単位語毎に全部または任意の一
部で、次の発音があるか否かを判別するために一定時間
待つか否かという情報が設定されている場合には、この
情報を単語辞書の作成時に一括して単語辞書に付加する
単語辞書作成手段を有し、音声認識装置は、単語辞書に
付加された情報に従って、入力した音声を解析し、その
解析結果と単語辞書に登録された音声認識単位語とを用
いて音声認識を行うものとした。
識システムでは、音声認識単位定義言語を用いて作成さ
れた1以上の単語から構成される音声認識単位語を複数
定義したソースプログラムから、単語辞書を作成する単
語辞書作成装置と、単語辞書を使用して音声認識を行う
音声認識装置とを有し、単語辞書作成装置は、ソースプ
ログラム中に、音声認識単位語毎に全部または任意の一
部で、次の発音があるか否かを判別するために一定時間
待つか否かという情報が設定されている場合には、この
情報を単語辞書の作成時に一括して単語辞書に付加する
単語辞書作成手段を有し、音声認識装置は、単語辞書に
付加された情報に従って、入力した音声を解析し、その
解析結果と単語辞書に登録された音声認識単位語とを用
いて音声認識を行うものとした。
【0013】さらに、単語辞書には、各音声認識単位語
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別するために一定時間待つか否かの情報が含まれてい
るものとした。
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別するために一定時間待つか否かの情報が含まれてい
るものとした。
【0014】また、この発明にかかる単語辞書作成装置
は、ソースプログラム中に、音声認識単位語毎に全部ま
たは任意の一部で、次の発音があるか否かを判別するた
めに一定時間待つか否かという情報が設定されている場
合には、この情報を単語辞書の作成時に一括して単語辞
書に付加する単語辞書作成手段を有しているものとし
た。
は、ソースプログラム中に、音声認識単位語毎に全部ま
たは任意の一部で、次の発音があるか否かを判別するた
めに一定時間待つか否かという情報が設定されている場
合には、この情報を単語辞書の作成時に一括して単語辞
書に付加する単語辞書作成手段を有しているものとし
た。
【0015】また、この発明にかかる音声認識システム
では、音声認識単位定義言語を用いて作成された1以上
の単語から構成される音声認識単位語を複数定義したソ
ースプログラムから、単語辞書を作成する単語辞書作成
装置と、単語辞書を使用して音声認識を行う音声認識装
置とを有し、単語辞書作成装置は、ソースプログラム中
に、音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために待つ待ち時間の情報
が設定されている場合には、この待ち時間の情報を単語
辞書の作成時に一括して単語辞書に付加する単語辞書作
成手段を有し、音声認識装置は、単語辞書に付加された
待ち時間の情報に従って、入力した音声を解析し、その
解析結果と前記単語辞書に登録された音声認識単位語と
を用いて音声認識を行うものとした。
では、音声認識単位定義言語を用いて作成された1以上
の単語から構成される音声認識単位語を複数定義したソ
ースプログラムから、単語辞書を作成する単語辞書作成
装置と、単語辞書を使用して音声認識を行う音声認識装
置とを有し、単語辞書作成装置は、ソースプログラム中
に、音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために待つ待ち時間の情報
が設定されている場合には、この待ち時間の情報を単語
辞書の作成時に一括して単語辞書に付加する単語辞書作
成手段を有し、音声認識装置は、単語辞書に付加された
待ち時間の情報に従って、入力した音声を解析し、その
解析結果と前記単語辞書に登録された音声認識単位語と
を用いて音声認識を行うものとした。
【0016】さらに、単語辞書には、各音声認識単位語
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別する待ち時間の情報が含まれているものとした。
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別する待ち時間の情報が含まれているものとした。
【0017】また、この発明にかかる単語辞書作成装置
では、ソースプログラム中に、音声認識単位語毎に全部
または任意の一部で、次の発音があるか否かを判別する
ために待つ待ち時間の情報が設定されている場合には、
この待ち時間の情報を単語辞書の作成時に一括して単語
辞書に付加する単語辞書作成手段を有しているものとし
た。
では、ソースプログラム中に、音声認識単位語毎に全部
または任意の一部で、次の発音があるか否かを判別する
ために待つ待ち時間の情報が設定されている場合には、
この待ち時間の情報を単語辞書の作成時に一括して単語
辞書に付加する単語辞書作成手段を有しているものとし
た。
【0018】
【発明の実施の形態】実施の形態1.図1は、この発明
の実施の形態1における音声認識システムの構成を示し
た構成図である。音声認識システムは、単語辞書作成装
置1と、音声認識装置2とを有している。
の実施の形態1における音声認識システムの構成を示し
た構成図である。音声認識システムは、単語辞書作成装
置1と、音声認識装置2とを有している。
【0019】単語辞書作成装置1は、キーボードやディ
スプレを有し、管理者がSRCLを使用してソースプロ
グラムを作成するソースプログラム作成部3と、作成さ
れたソースプログラムをコンパイルリンクして単語辞書
を作成する単語辞書作成手段である単語辞書生成部4を
有している。
スプレを有し、管理者がSRCLを使用してソースプロ
グラムを作成するソースプログラム作成部3と、作成さ
れたソースプログラムをコンパイルリンクして単語辞書
を作成する単語辞書作成手段である単語辞書生成部4を
有している。
【0020】音声認識装置2は、単語辞書作成装置1で
作成された複数の単語辞書を記憶する単語辞書記憶部5
と、その単語辞書記憶部5に記憶された辞書のうちどの
辞書を使用するかを決定する使用単語辞書決定部6と、
音素のパターンを記憶する音響辞書記憶部7と、話者の
発音を取り込む音声入力部8と、取り込まれた話者の音
声を認識する音声認識処理手段である音声認識処理部9
とを有している。
作成された複数の単語辞書を記憶する単語辞書記憶部5
と、その単語辞書記憶部5に記憶された辞書のうちどの
辞書を使用するかを決定する使用単語辞書決定部6と、
音素のパターンを記憶する音響辞書記憶部7と、話者の
発音を取り込む音声入力部8と、取り込まれた話者の音
声を認識する音声認識処理手段である音声認識処理部9
とを有している。
【0021】次に、単語辞書作成装置1で単語辞書を作
成する方法について説明する。まず、ソースプログラム
作成部3で、管理者はソースプログラムを記述する。図
2は、アメリカ地名認識用に作られたアメリカ地名単語
辞書のSRCLで記述されたソースプログラムの一部で
ある。
成する方法について説明する。まず、ソースプログラム
作成部3で、管理者はソースプログラムを記述する。図
2は、アメリカ地名認識用に作られたアメリカ地名単語
辞書のSRCLで記述されたソースプログラムの一部で
ある。
【0022】図中、20は、音声認識単位語を構成する
音声グラマーを記述した部分である。<地名>および<
コード>は変数を示し、?はあってもなくてもよいこと
を示し、|はOR条件を示している。また、“”は、音
声認識単位語のうち“”で指定された部分は再認識処理
の対象としないことを示している。なお、“”で指定さ
れていない部分は、既定で再認識処理の対象とされる。
従って、この場合には、アメリカの「地名」を音声認識単
位語とすること、「地名+です」を音声認識単位語とする
こと、地名に該当する「コード」を音声認識単位語とする
こと、および「地名+です」は再認識処理の対象とはしな
いことを示している。
音声グラマーを記述した部分である。<地名>および<
コード>は変数を示し、?はあってもなくてもよいこと
を示し、|はOR条件を示している。また、“”は、音
声認識単位語のうち“”で指定された部分は再認識処理
の対象としないことを示している。なお、“”で指定さ
れていない部分は、既定で再認識処理の対象とされる。
従って、この場合には、アメリカの「地名」を音声認識単
位語とすること、「地名+です」を音声認識単位語とする
こと、地名に該当する「コード」を音声認識単位語とする
こと、および「地名+です」は再認識処理の対象とはしな
いことを示している。
【0023】21は、20の「地名」としてどのような単
語があるかを記述した部分である。22は、20の「コ
ード」の音声グラマーを記述した部分であり、<数字>
変数2桁で構成されていることを示している。23は、
22の「数字」としてどのよう単語があるかを記述した部
分である。
語があるかを記述した部分である。22は、20の「コ
ード」の音声グラマーを記述した部分であり、<数字>
変数2桁で構成されていることを示している。23は、
22の「数字」としてどのよう単語があるかを記述した部
分である。
【0024】その後に、単語辞書生成部4にソースプロ
グラムを送り、コンパイルリンクして単語辞書を作成す
る。このコンパイルリンクでは、ソースプログラムに記
述された音声認識単位語を、開始・終了および各単語を
示すノードと、その繋がりを示すアークとの情報にして
いる。
グラムを送り、コンパイルリンクして単語辞書を作成す
る。このコンパイルリンクでは、ソースプログラムに記
述された音声認識単位語を、開始・終了および各単語を
示すノードと、その繋がりを示すアークとの情報にして
いる。
【0025】図3は、アメリカ地名単語辞書でのノード
とアークの関係を示す概念図である。図中、○はノード
を、矢印はアークを表しており、また、矢印のうち点線
は再認識有りを、直線は認識無しを示している。例え
ば、31で開始を、32で「地名」の単語を、33で「地
名」と「です」が再認識無しで接続されていること、34
で終わりを示している。このように、音声認識単位語は
ノードとアークとでネットワークを構成して単語辞書に
登録されている。
とアークの関係を示す概念図である。図中、○はノード
を、矢印はアークを表しており、また、矢印のうち点線
は再認識有りを、直線は認識無しを示している。例え
ば、31で開始を、32で「地名」の単語を、33で「地
名」と「です」が再認識無しで接続されていること、34
で終わりを示している。このように、音声認識単位語は
ノードとアークとでネットワークを構成して単語辞書に
登録されている。
【0026】次に、音声認識装置2で、上述の方法で作
成された単語辞書を使用して音声認識を行なう動作につ
いて説明する。まず、使用単語辞書決定部6で音声認識
で使用される辞書が決定され、この単語辞書が音声認識
処理部9に送られる。この単語辞書の決定は、アプリケ
ーションプログラム等の要求により行われる。例えば、
話者の要求によりアメリカ旅行計画をスケジュールする
アプリケーションが動作する場合には、アメリカ地名辞
書が選択される等である。次に、音声入力部8から音声
が取り込まれ、音声認識処理部9に送られて解析処理さ
れることになる。
成された単語辞書を使用して音声認識を行なう動作につ
いて説明する。まず、使用単語辞書決定部6で音声認識
で使用される辞書が決定され、この単語辞書が音声認識
処理部9に送られる。この単語辞書の決定は、アプリケ
ーションプログラム等の要求により行われる。例えば、
話者の要求によりアメリカ旅行計画をスケジュールする
アプリケーションが動作する場合には、アメリカ地名辞
書が選択される等である。次に、音声入力部8から音声
が取り込まれ、音声認識処理部9に送られて解析処理さ
れることになる。
【0027】ここで、音声認識処理部9の動作を説明す
る前に、動作処理で重要な概念となる始端・終端につい
て説明する。図4は、話者が発音した時の入力パワーと
時間経過との関係を示す相関図である。音声入力部8
は、話者が発音した時のみならず、発音をしていないと
きでも雑音など音があれ取り込んでしまうことになる
が、このような雑音は処理をする必要はない。そこで、
入力パワーのうちあるしきい値をこえ、かつその状態が
ある一定時間以上続くもののみ、話者による発音として
処理すればよく、その話者の発音が開始したと認識する
時を始端、終わりであると認識する時を終端としてい
る。
る前に、動作処理で重要な概念となる始端・終端につい
て説明する。図4は、話者が発音した時の入力パワーと
時間経過との関係を示す相関図である。音声入力部8
は、話者が発音した時のみならず、発音をしていないと
きでも雑音など音があれ取り込んでしまうことになる
が、このような雑音は処理をする必要はない。そこで、
入力パワーのうちあるしきい値をこえ、かつその状態が
ある一定時間以上続くもののみ、話者による発音として
処理すればよく、その話者の発音が開始したと認識する
時を始端、終わりであると認識する時を終端としてい
る。
【0028】図4では、入力パワーがしきい値P1をこ
える期間がT1以上続く場合に、こえた時を始端とし、
入力パワーがP2を下回る期間がT2以上続く場合に、
下回った時を終端としている。従って、始端はSp時、
終端はEp時となり、音声認識処理部9では、その間に
音声入力部8から取り込まれた音のみを処理することに
なる。また、音声認識処理部9では、図5の始端・終端
検出処理遷移図に示すような遷移となる。
える期間がT1以上続く場合に、こえた時を始端とし、
入力パワーがP2を下回る期間がT2以上続く場合に、
下回った時を終端としている。従って、始端はSp時、
終端はEp時となり、音声認識処理部9では、その間に
音声入力部8から取り込まれた音のみを処理することに
なる。また、音声認識処理部9では、図5の始端・終端
検出処理遷移図に示すような遷移となる。
【0029】音声認識処理部9では、始端・終端検出処
理、音声認識処理の2つの処理が並行に動作しており、
以下それぞれの処理動作について図6、図7、図8の動
作フロー図に基づいて説明する。
理、音声認識処理の2つの処理が並行に動作しており、
以下それぞれの処理動作について図6、図7、図8の動
作フロー図に基づいて説明する。
【0030】図6の始端検出処理では、まず音声入力部
8で取り込んだ音を10ms単位で取り込み(ステップ
S61)、そのなかに入力パワーがしきい値P1をこえ
るものがあるか否かを判断する(ステップS62)。ス
テップS62で、しきい値P1をこえるものがあると判
断された場合には、継続してしきい値P1をこえる時間
がT1以上であるか否かを判断する(ステップS6
3)。ステップS63で、継続時間がT1以上であると
判断した場合には、しきい値P1をこえた時を始端と
し、始端検出フラグを1にセットする(ステップS6
4)。なお、ステップS62で入力パワーがしきい値P
1をこえないと判断された場合、継続時間をゼロにセッ
ト(ステップS65)した後にステップS61に戻る。
また、ステップS63で、継続時間がT1より小さい場
合には、継続時間をインクルメント(ステップS66)
した後にステップS61に戻り、ステップS63で継続
時間が0である場合には、始端位置のセーブ(ステップ
S66)後に、ステップS66を行い、ステップS61
に戻る。
8で取り込んだ音を10ms単位で取り込み(ステップ
S61)、そのなかに入力パワーがしきい値P1をこえ
るものがあるか否かを判断する(ステップS62)。ス
テップS62で、しきい値P1をこえるものがあると判
断された場合には、継続してしきい値P1をこえる時間
がT1以上であるか否かを判断する(ステップS6
3)。ステップS63で、継続時間がT1以上であると
判断した場合には、しきい値P1をこえた時を始端と
し、始端検出フラグを1にセットする(ステップS6
4)。なお、ステップS62で入力パワーがしきい値P
1をこえないと判断された場合、継続時間をゼロにセッ
ト(ステップS65)した後にステップS61に戻る。
また、ステップS63で、継続時間がT1より小さい場
合には、継続時間をインクルメント(ステップS66)
した後にステップS61に戻り、ステップS63で継続
時間が0である場合には、始端位置のセーブ(ステップ
S66)後に、ステップS66を行い、ステップS61
に戻る。
【0031】図7の終端検出処理では、まず音声入力部
8で取り込んだ音を10ms単位で取り込み(ステップ
S71)、そのなかに入力パワーがしきい値P2より小
さくなるものがあるか否かを判断する(ステップS7
2)。ステップS72で、しきい値P2より小さいもの
があると判断された場合には、継続してしきい値P2よ
り小さくなる時間がT2以上であるか否かを判断する
(ステップS73)。ステップS73で、継続時間がT
2以上であると判断した場合には、しきい値P2より小
さくなった時を終端とし、終端検出フラグを1にセット
する(ステップS74)。なお、ステップS72で入力
パワーがしきい値P2より小さくなることはないと判断
された場合、継続時間をゼロにセット(ステップS7
5)して、ステップS71に戻る。また、ステップS7
3で、継続時間がT2未満である場合には、継続時間を
インクルメント(ステップS76)してステップS71
に戻り、継続時間が0の場合には、終端位置のセーブ
(ステップS77)後に、ステップS76を行い、ステ
ップS71に戻る。
8で取り込んだ音を10ms単位で取り込み(ステップ
S71)、そのなかに入力パワーがしきい値P2より小
さくなるものがあるか否かを判断する(ステップS7
2)。ステップS72で、しきい値P2より小さいもの
があると判断された場合には、継続してしきい値P2よ
り小さくなる時間がT2以上であるか否かを判断する
(ステップS73)。ステップS73で、継続時間がT
2以上であると判断した場合には、しきい値P2より小
さくなった時を終端とし、終端検出フラグを1にセット
する(ステップS74)。なお、ステップS72で入力
パワーがしきい値P2より小さくなることはないと判断
された場合、継続時間をゼロにセット(ステップS7
5)して、ステップS71に戻る。また、ステップS7
3で、継続時間がT2未満である場合には、継続時間を
インクルメント(ステップS76)してステップS71
に戻り、継続時間が0の場合には、終端位置のセーブ
(ステップS77)後に、ステップS76を行い、ステ
ップS71に戻る。
【0032】次に、音声を解析し、音声認識単位語を識
別する音声認識処理の流れを図8のフロー図に基づいて
説明する。まず、使用するバッファ等をクリアする初期
処理を行なう(ステップS81)。次に、始端検出フラ
グがセットされているか否かを判断する(ステップS8
2)。ここで、始端検出フラグがセットされていると判
断された場合には、終端検出フラグがセットされている
か否かを判断する(ステップS83)。
別する音声認識処理の流れを図8のフロー図に基づいて
説明する。まず、使用するバッファ等をクリアする初期
処理を行なう(ステップS81)。次に、始端検出フラ
グがセットされているか否かを判断する(ステップS8
2)。ここで、始端検出フラグがセットされていると判
断された場合には、終端検出フラグがセットされている
か否かを判断する(ステップS83)。
【0033】終端検出フラグがセットされていないと判
断された場合には、1:入力音声取り込み、2:音響分
析、3:音素パターン選択、4:ビタビ演算の処理を実
施する(ステップS84)。音響分析では音響特性を表
わす特徴ベクトルの抽出を行う。音素パターン選択では
音響辞書記憶部7に記憶された音素パターンとマッチン
グ処理して音素を選択する。ビタビ演算では単語辞書の
単語の音素とマッチング処理して、単語の候補を決定す
る。なお、1から4の処理は、10msを単位としたパ
イプライン処理で実現されている。
断された場合には、1:入力音声取り込み、2:音響分
析、3:音素パターン選択、4:ビタビ演算の処理を実
施する(ステップS84)。音響分析では音響特性を表
わす特徴ベクトルの抽出を行う。音素パターン選択では
音響辞書記憶部7に記憶された音素パターンとマッチン
グ処理して音素を選択する。ビタビ演算では単語辞書の
単語の音素とマッチング処理して、単語の候補を決定す
る。なお、1から4の処理は、10msを単位としたパ
イプライン処理で実現されている。
【0034】ステップS84の終了後は、再びステップ
S83に戻る。ステップS83で、終端検出フラグがセ
ットされていると判断された場合には、バックトラッキ
ング処理される(ステップS85)。バックトラッキン
グ処理とは、単語辞書の音声認識単位語を示すネットワ
ークで、処理したノードがどのノードから遷移してきた
かをさかのぼって求める処理である。ステップS85の
後、単語辞書を検索し、次のノードへのアークが再認識
処理の対象とされているかを判断する(ステップS8
6)。ステップS86で、再認識ありと判断された場合
には、候補とされる単語をセーブし(ステップS8
7)、再度ステップS81に戻り処理を実施する。例え
ば、図3で、バックトラッキング処理で検出された最終
ノードがSのノードからの遷移である‘いち’のノード
である場合には、次のアーク(図3で点線となる部分)
には再認識の対象とされていることがわかる。
S83に戻る。ステップS83で、終端検出フラグがセ
ットされていると判断された場合には、バックトラッキ
ング処理される(ステップS85)。バックトラッキン
グ処理とは、単語辞書の音声認識単位語を示すネットワ
ークで、処理したノードがどのノードから遷移してきた
かをさかのぼって求める処理である。ステップS85の
後、単語辞書を検索し、次のノードへのアークが再認識
処理の対象とされているかを判断する(ステップS8
6)。ステップS86で、再認識ありと判断された場合
には、候補とされる単語をセーブし(ステップS8
7)、再度ステップS81に戻り処理を実施する。例え
ば、図3で、バックトラッキング処理で検出された最終
ノードがSのノードからの遷移である‘いち’のノード
である場合には、次のアーク(図3で点線となる部分)
には再認識の対象とされていることがわかる。
【0035】ステップS82で、始端検出フラグがセッ
トされていないと判断した場合には、タイムアウト時間
になったか否かを判断し(ステップS88)、タイムア
ウトとなるまでステップS82とステップS88を繰り
返す。なお、このタイムアウト時間は、最初の認識時に
はアプリケーションプログラム等の要求値が設定され、
再認識時には、予め音声認識装置2に設定されたもので
ある。
トされていないと判断した場合には、タイムアウト時間
になったか否かを判断し(ステップS88)、タイムア
ウトとなるまでステップS82とステップS88を繰り
返す。なお、このタイムアウト時間は、最初の認識時に
はアプリケーションプログラム等の要求値が設定され、
再認識時には、予め音声認識装置2に設定されたもので
ある。
【0036】再認識時にステップS88で、タイムアウ
トとなった場合には、次の単語が発音されなかったこと
であるから、セーブした単語を音声認識単位語として出
力する(ステップS89)。最初の認識時にタイムアウ
トとなった場合には、セーブした単語はないので音声認
識単位語は空である。また、ステップS86で、再認識
なしと判断された場合にも、ステップS85で検出した
単語およびセーブされた単語からなる音声認識単位語を
出力する。
トとなった場合には、次の単語が発音されなかったこと
であるから、セーブした単語を音声認識単位語として出
力する(ステップS89)。最初の認識時にタイムアウ
トとなった場合には、セーブした単語はないので音声認
識単位語は空である。また、ステップS86で、再認識
なしと判断された場合にも、ステップS85で検出した
単語およびセーブされた単語からなる音声認識単位語を
出力する。
【0037】例えば、図3で、ステップS84で検出さ
れた単語が‘ニューヨーク’であり、バックトラッキン
グ処理で検出された‘ニューヨーク’のノードがSのノ
ードからの遷移である場合には、次のアーク(図3で実
線となる部分)には再認識処理の対象としないとされて
いるので、そのまま‘ニューヨーク’を音声認識単位語
として出力することになる。また、図3で、ステップS
84で検出された単語が‘いち’であり、バックトラッ
キング処理で検出された‘いち’のノードが‘いち’の
ノードからの遷移である場合には、次のアーク(図3の
実線となる部分)には再認識処理の対象としないされて
いるので、セーブした‘いち’を付加して、‘いちい
ち’という音声認識単位語が出力されることになる。な
お、図9は、話者が再認識処理の設定された音声認識単
位語を発音した時の入力パワーと時間経過との関係を示
す相関図であり、図中のT3が再認識処理が設定された
場合の待ち時間である。
れた単語が‘ニューヨーク’であり、バックトラッキン
グ処理で検出された‘ニューヨーク’のノードがSのノ
ードからの遷移である場合には、次のアーク(図3で実
線となる部分)には再認識処理の対象としないとされて
いるので、そのまま‘ニューヨーク’を音声認識単位語
として出力することになる。また、図3で、ステップS
84で検出された単語が‘いち’であり、バックトラッ
キング処理で検出された‘いち’のノードが‘いち’の
ノードからの遷移である場合には、次のアーク(図3の
実線となる部分)には再認識処理の対象としないされて
いるので、セーブした‘いち’を付加して、‘いちい
ち’という音声認識単位語が出力されることになる。な
お、図9は、話者が再認識処理の設定された音声認識単
位語を発音した時の入力パワーと時間経過との関係を示
す相関図であり、図中のT3が再認識処理が設定された
場合の待ち時間である。
【0038】このように、再認識処理を行うか否かを音
声認識単位語の全部または任意の一部毎に事前に設定で
きるので、真に再認識が必要な場合には再認識処理をさ
せ、不必要な場合には再認識処理をさせないようにする
ことができ、認識処理効率を高めることができる。
声認識単位語の全部または任意の一部毎に事前に設定で
きるので、真に再認識が必要な場合には再認識処理をさ
せ、不必要な場合には再認識処理をさせないようにする
ことができ、認識処理効率を高めることができる。
【0039】また、再認識処理をさせるか否かの情報を
SRCLで記述したソースプログラム上に指定し、この
情報は単語辞書作成時に一括して単語辞書に付加される
ので、簡単に再認識処理をするか否かの設定ができる。
さらに、この情報を辞書のアーク情報に含ませているの
で、新規にファイル等を用意する必要もなく、簡単に実
現できる。
SRCLで記述したソースプログラム上に指定し、この
情報は単語辞書作成時に一括して単語辞書に付加される
ので、簡単に再認識処理をするか否かの設定ができる。
さらに、この情報を辞書のアーク情報に含ませているの
で、新規にファイル等を用意する必要もなく、簡単に実
現できる。
【0040】なお、この実施の形態では、再認識の対象
としない部分を明示指定し、既定は再認識有りとした
が、その逆に、再認識の対象とする部分を明示指定し、
規定は再認識無しとしても当然によい。また、単語辞書
では、再認識するかいなかの情報をアークの情報に含ま
せたが、単語辞書中に別にテーブルを設けてアークとそ
れに対応する再認識するかいなかの情報を対応つけて記
憶させるようにしてもよい。
としない部分を明示指定し、既定は再認識有りとした
が、その逆に、再認識の対象とする部分を明示指定し、
規定は再認識無しとしても当然によい。また、単語辞書
では、再認識するかいなかの情報をアークの情報に含ま
せたが、単語辞書中に別にテーブルを設けてアークとそ
れに対応する再認識するかいなかの情報を対応つけて記
憶させるようにしてもよい。
【0041】実施の形態2.実施の形態1は、音声認識
単位語の任意の一部で再認識処理をするか否かの設定を
可能であるが再認識処理での待ち時間は個別に変更不可
であったが、実施の形態2は、再認識処理をする場合の
待ち時間を自由に設定可能としたものである。
単位語の任意の一部で再認識処理をするか否かの設定を
可能であるが再認識処理での待ち時間は個別に変更不可
であったが、実施の形態2は、再認識処理をする場合の
待ち時間を自由に設定可能としたものである。
【0042】図10は、この発明の実施の形態2におけ
る音声認識システムにおいて、単語辞書作成装置1のソ
ースプログラム作成部3で作られた、昭和年月日単語辞
書のソースプログラムの一部である。
る音声認識システムにおいて、単語辞書作成装置1のソ
ースプログラム作成部3で作られた、昭和年月日単語辞
書のソースプログラムの一部である。
【0043】図中、100は、音声認識単位語を構成す
る音声グラマーを記述した部分である。<2けた数字>
および<日付>は変数を示し、?はあってもなくてもよ
いことを示している。また、変数を記述するのと同様な
記載の<無音x>は、再認識処理で次の単語を待つ時間
を、100msの整数倍で示している。例えば、「しょ
うわにじゅうごねんじゅういちがつみっか」などを発声
する場合には、「しょうわ」と「にじゅうご」の間に多少の
空きが入る場合が多いので、<無音5>として、再認識
処理の待ち時間を500msとし、「ねん」と「じゅうい
ちがつみっか」の間に息継ぎ等すこし多めの空きが入る
場合が多いので、<無音10>とし再認識処理の待ち時
間を1000msとしている。なお、ここでは、「しょ
うわ+2けた数字+ねん」および、「しょうわ+2けた数
字+ねん+日付」を音声認識単位語としている。
る音声グラマーを記述した部分である。<2けた数字>
および<日付>は変数を示し、?はあってもなくてもよ
いことを示している。また、変数を記述するのと同様な
記載の<無音x>は、再認識処理で次の単語を待つ時間
を、100msの整数倍で示している。例えば、「しょ
うわにじゅうごねんじゅういちがつみっか」などを発声
する場合には、「しょうわ」と「にじゅうご」の間に多少の
空きが入る場合が多いので、<無音5>として、再認識
処理の待ち時間を500msとし、「ねん」と「じゅうい
ちがつみっか」の間に息継ぎ等すこし多めの空きが入る
場合が多いので、<無音10>とし再認識処理の待ち時
間を1000msとしている。なお、ここでは、「しょ
うわ+2けた数字+ねん」および、「しょうわ+2けた数
字+ねん+日付」を音声認識単位語としている。
【0044】101は、「2けた数字」の音声グラマーを
記述した部分であり、<十の位>と<一の位>の変数か
ら構成されている。102は、「日付」の音声グラマーを
記述した部分であり、<月>と<日>の変数から構成さ
れている。なお、「日付」は再認識処理の対象であり、
「月」の単語の発音と「日」の単語の発音の間に1500m
sの待ち時間が設定されることを示している。103
は、「十の位」の単語を示した部分であり、同様に10
4、105、106はそれぞれ「一の位」の単語を、「月」
の単語を、「日」の単語を示した部分である。
記述した部分であり、<十の位>と<一の位>の変数か
ら構成されている。102は、「日付」の音声グラマーを
記述した部分であり、<月>と<日>の変数から構成さ
れている。なお、「日付」は再認識処理の対象であり、
「月」の単語の発音と「日」の単語の発音の間に1500m
sの待ち時間が設定されることを示している。103
は、「十の位」の単語を示した部分であり、同様に10
4、105、106はそれぞれ「一の位」の単語を、「月」
の単語を、「日」の単語を示した部分である。
【0045】このソースプログラムは、単語辞書生成部
4に送られ、コンパイルリンクして単語辞書が作成され
る。単語辞書は、ノードとアークのネットワークで音声
認識単位語が示されており、このアークの情報には、再
認識処理での待ち時間も含まれて設定されている。図1
1は、昭和年月日単語辞書でのノードとアークの関係を
示す概念図である。図11中、113は「しょうわ」のノ
ード111と「じゅう」のノード112とを接続するアー
クであり、再認識処理の待ち時間として5という数字の
情報を有している。なお、再認識が設定されていない場
合には、アークの情報に再認識処理待ち時間として0と
いう数字が設定されている。
4に送られ、コンパイルリンクして単語辞書が作成され
る。単語辞書は、ノードとアークのネットワークで音声
認識単位語が示されており、このアークの情報には、再
認識処理での待ち時間も含まれて設定されている。図1
1は、昭和年月日単語辞書でのノードとアークの関係を
示す概念図である。図11中、113は「しょうわ」のノ
ード111と「じゅう」のノード112とを接続するアー
クであり、再認識処理の待ち時間として5という数字の
情報を有している。なお、再認識が設定されていない場
合には、アークの情報に再認識処理待ち時間として0と
いう数字が設定されている。
【0046】次に、この単語辞書を使用した場合の、音
声認識処理部9における音声認識処理について図12の
フロー図に基づいて説明する。なお、ステップS81か
らステップS88の処理は、図8の実施の形態1におけ
る音声認識処理のフロー図と同様である。ステップS8
6で、単語辞書を検索し、次のノードへのアークが再認
識の対象とされていると判断した場合、すなはち該当す
るアークが待ち時間として0以外の数字が設定されてい
る場合には、ステップS87のセーブ処理ののち、アー
ク情報から検出した再認識待ち時間の情報からタイムア
ウト値を設定する(ステップS120)。この後、ステ
ップS82とステップS88が始端検出フラグのセット
が検出されるまで繰り返されて、その時間がステップS
120で設定したタイムアウト値を経過した場合には、
タイムアウトとして音声認識単位語が出力されることに
なる。
声認識処理部9における音声認識処理について図12の
フロー図に基づいて説明する。なお、ステップS81か
らステップS88の処理は、図8の実施の形態1におけ
る音声認識処理のフロー図と同様である。ステップS8
6で、単語辞書を検索し、次のノードへのアークが再認
識の対象とされていると判断した場合、すなはち該当す
るアークが待ち時間として0以外の数字が設定されてい
る場合には、ステップS87のセーブ処理ののち、アー
ク情報から検出した再認識待ち時間の情報からタイムア
ウト値を設定する(ステップS120)。この後、ステ
ップS82とステップS88が始端検出フラグのセット
が検出されるまで繰り返されて、その時間がステップS
120で設定したタイムアウト値を経過した場合には、
タイムアウトとして音声認識単位語が出力されることに
なる。
【0047】このように、再認識処理を行うか否かのみ
ならず、再認識処理で待つ待ち時間まで事前に設定でき
るようにしたので、音声認識の対象とする人や、方言・
言い回し等を考慮して、最適な音声認識処理を行うこと
ができる。
ならず、再認識処理で待つ待ち時間まで事前に設定でき
るようにしたので、音声認識の対象とする人や、方言・
言い回し等を考慮して、最適な音声認識処理を行うこと
ができる。
【0048】また、待ち時間の設定も、SRCLで記述
したソースプログラム上に指定し、この情報は単語辞書
作成時に一括して単語辞書に付加されるので、簡単に待
ち時間の設定ができる。さらに、この情報を辞書のアー
ク情報に含ませているので、新規にファイル等を用意す
る必要もなく、簡単に実現できる。
したソースプログラム上に指定し、この情報は単語辞書
作成時に一括して単語辞書に付加されるので、簡単に待
ち時間の設定ができる。さらに、この情報を辞書のアー
ク情報に含ませているので、新規にファイル等を用意す
る必要もなく、簡単に実現できる。
【0049】さらにまた、待ち時間の指定も、SRCL
で変数を設定するのと同じ様な記述で可能としたので、
ソースプログラムの記述も簡単になる。
で変数を設定するのと同じ様な記述で可能としたので、
ソースプログラムの記述も簡単になる。
【0050】なお、この実施の形態では、再認識処理の
待ち時間を、基本時間の整数倍で定義したが、待ち時間
を明示して定義するようにしてもよい。また、単語辞書
では、再認識処理の待ち時間情報をアークの情報に含ま
せたが、単語辞書中に別にテーブルを設けてアークとそ
れに対応する待ち時間情報を対応つけて記憶させるよう
にしてもよい。
待ち時間を、基本時間の整数倍で定義したが、待ち時間
を明示して定義するようにしてもよい。また、単語辞書
では、再認識処理の待ち時間情報をアークの情報に含ま
せたが、単語辞書中に別にテーブルを設けてアークとそ
れに対応する待ち時間情報を対応つけて記憶させるよう
にしてもよい。
【0051】
【発明の効果】この発明にかかる音声認識システムで
は、音声認識単位定義言語を用いて作成された1以上の
単語から構成される音声認識単位語を複数定義したソー
スプログラムから、単語辞書を作成する単語辞書作成装
置と、単語辞書を使用して音声認識を行う音声認識装置
とを有し、単語辞書作成装置は、ソースプログラム中
に、音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために一定時間待つか否か
という情報が設定されている場合には、この情報を単語
辞書の作成時に一括して単語辞書に付加する単語辞書作
成手段を有し、音声認識装置は、単語辞書に付加された
情報に従って、入力した音声を解析し、その解析結果と
単語辞書に登録された音声認識単位語とを用いて音声認
識を行うものとした。
は、音声認識単位定義言語を用いて作成された1以上の
単語から構成される音声認識単位語を複数定義したソー
スプログラムから、単語辞書を作成する単語辞書作成装
置と、単語辞書を使用して音声認識を行う音声認識装置
とを有し、単語辞書作成装置は、ソースプログラム中
に、音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために一定時間待つか否か
という情報が設定されている場合には、この情報を単語
辞書の作成時に一括して単語辞書に付加する単語辞書作
成手段を有し、音声認識装置は、単語辞書に付加された
情報に従って、入力した音声を解析し、その解析結果と
単語辞書に登録された音声認識単位語とを用いて音声認
識を行うものとした。
【0052】さらに、単語辞書には、各音声認識単位語
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別するために一定時間待つか否かの情報が含まれてい
るものとした。
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別するために一定時間待つか否かの情報が含まれてい
るものとした。
【0053】また、この発明にかかる単語辞書作成装置
は、ソースプログラム中に、音声認識単位語毎に全部ま
たは任意の一部で、次の発音があるか否かを判別するた
めに一定時間待つか否かという情報が設定されている場
合には、この情報を単語辞書の作成時に一括して単語辞
書に付加する単語辞書作成手段を有しているものとし
た。
は、ソースプログラム中に、音声認識単位語毎に全部ま
たは任意の一部で、次の発音があるか否かを判別するた
めに一定時間待つか否かという情報が設定されている場
合には、この情報を単語辞書の作成時に一括して単語辞
書に付加する単語辞書作成手段を有しているものとし
た。
【0054】これにより、真に再認識が必要な場合には
再認識処理をさせ、不必要な場合には再認識処理をさせ
ないようにすることができ、認識処理効率を高めること
ができる。
再認識処理をさせ、不必要な場合には再認識処理をさせ
ないようにすることができ、認識処理効率を高めること
ができる。
【0055】また、再認識処理をさせるか否かの情報を
SRCLで記述したソースプログラム上に指定し、この
情報は単語辞書作成時に一括して単語辞書に付加される
ので、簡単に再認識処理をするか否かの設定ができる。
さらに、この情報を辞書のアーク情報に含ませているの
で、新規にファイル等を用意する必要もなく、簡単に実
現できる。
SRCLで記述したソースプログラム上に指定し、この
情報は単語辞書作成時に一括して単語辞書に付加される
ので、簡単に再認識処理をするか否かの設定ができる。
さらに、この情報を辞書のアーク情報に含ませているの
で、新規にファイル等を用意する必要もなく、簡単に実
現できる。
【0056】また、この発明にかかる音声認識システム
では、音声認識単位定義言語を用いて作成された1以上
の単語から構成される音声認識単位語を複数定義したソ
ースプログラムから、単語辞書を作成する単語辞書作成
装置と、単語辞書を使用して音声認識を行う音声認識装
置とを有し、単語辞書作成装置は、ソースプログラム中
に、音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために待つ待ち時間の情報
が設定されている場合には、この待ち時間の情報を単語
辞書の作成時に一括して単語辞書に付加する単語辞書作
成手段を有し、音声認識装置は、単語辞書に付加された
待ち時間の情報に従って、入力した音声を解析し、その
解析結果と前記単語辞書に登録された音声認識単位語と
を用いて音声認識を行うものとした。
では、音声認識単位定義言語を用いて作成された1以上
の単語から構成される音声認識単位語を複数定義したソ
ースプログラムから、単語辞書を作成する単語辞書作成
装置と、単語辞書を使用して音声認識を行う音声認識装
置とを有し、単語辞書作成装置は、ソースプログラム中
に、音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために待つ待ち時間の情報
が設定されている場合には、この待ち時間の情報を単語
辞書の作成時に一括して単語辞書に付加する単語辞書作
成手段を有し、音声認識装置は、単語辞書に付加された
待ち時間の情報に従って、入力した音声を解析し、その
解析結果と前記単語辞書に登録された音声認識単位語と
を用いて音声認識を行うものとした。
【0057】さらに、単語辞書には、各音声認識単位語
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別する待ち時間の情報が含まれているものとした。
がノードの情報とノード間を繋ぐアークの情報との結合
として登録されており、アークの情報には音声認識単位
語毎に全部または任意の一部で次の発音があるか否かを
判別する待ち時間の情報が含まれているものとした。
【0058】また、この発明にかかる単語辞書作成装置
では、ソースプログラム中に、音声認識単位語毎に全部
または任意の一部で、次の発音があるか否かを判別する
ために待つ待ち時間の情報が設定されている場合には、
この待ち時間の情報を単語辞書の作成時に一括して単語
辞書に付加する単語辞書作成手段を有しているものとし
た。
では、ソースプログラム中に、音声認識単位語毎に全部
または任意の一部で、次の発音があるか否かを判別する
ために待つ待ち時間の情報が設定されている場合には、
この待ち時間の情報を単語辞書の作成時に一括して単語
辞書に付加する単語辞書作成手段を有しているものとし
た。
【0059】これにより、音声認識の対象とする人や、
方言・言い回し等を考慮して、最適な音声認識処理を行
うことができる。
方言・言い回し等を考慮して、最適な音声認識処理を行
うことができる。
【0060】また、待ち時間の設定も、SRCLで記述
したソースプログラム上に指定し、この情報は単語辞書
作成時に一括して単語辞書に付加されるので、簡単に待
ち時間の設定ができる。さらに、この情報を辞書のアー
ク情報に含ませているので、新規にファイル等を用意す
る必要もなく、簡単に実現できる。
したソースプログラム上に指定し、この情報は単語辞書
作成時に一括して単語辞書に付加されるので、簡単に待
ち時間の設定ができる。さらに、この情報を辞書のアー
ク情報に含ませているので、新規にファイル等を用意す
る必要もなく、簡単に実現できる。
【図1】 この発明の実施の形態1における音声認識シ
ステム構成図。
ステム構成図。
【図2】 この発明の実施の形態1におけるアメリカ地
名単語辞書ソースプログラム。
名単語辞書ソースプログラム。
【図3】 この発明の実施の形態1におけるアメリカ地
名単語辞書でのノードとアークの概念図。
名単語辞書でのノードとアークの概念図。
【図4】 入力パワーと経過時間との相関図。
【図5】 始端・終端検出処理遷移図。
【図6】 この発明の実施の形態1における始端検出処
理フロー図。
理フロー図。
【図7】 この発明の実施の形態1における終端検出処
理フロー図。
理フロー図。
【図8】 この発明の実施の形態1における音声認識処
理フロー図。
理フロー図。
【図9】 入力パワーと経過時間との相関図。
【図10】 この発明の実施の形態2における昭和年月
日単語辞書ソースプログラム。
日単語辞書ソースプログラム。
【図11】 この発明の実施の形態2における昭和年月
日単語辞書でのノードとアークの概念図。
日単語辞書でのノードとアークの概念図。
【図12】 この発明の実施の形態2における音声認識
処理フロー図。
処理フロー図。
【図13】 従来のアメリカ地名単語辞書ソースプログ
ラム。
ラム。
1 単語辞書作成装置 、 2 音声認識装置 、 3
ソースプログラム作成部 、 4 単語辞書作成部
(単語辞書作成手段) 、 9 音声認識処理部
ソースプログラム作成部 、 4 単語辞書作成部
(単語辞書作成手段) 、 9 音声認識処理部
フロントページの続き (56)参考文献 特開 平6−202689(JP,A) 特開 平2−114322(JP,A) 特開 昭61−240296(JP,A) 特開 昭58−97094(JP,A) 特公 平1−19599(JP,B2) Proceedings of th e Annual Conferenc e of the IEEE/Engi neering in Medicin and Biology Socie ty,11th,Vol.6,D.M.H orowitz et al,”The Structure and Fun ction of a Speech Control Language f or Text Processing and Robotic Contr ol”,p.1795−1797,1989 古井「ディジタル音声処理」(1985− 9−25)東海大学出版会 p.183−185 (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG) IEEE/IEE Electroni c Library Online
Claims (6)
- 【請求項1】 音声認識単位定義言語を用いて作成され
た1以上の単語から構成される音声認識単位語を複数定
義したソースプログラムから、単語辞書を作成する単語
辞書作成装置と、前記単語辞書を使用して音声認識を行
う音声認識装置とを有する音声認識システムにおいて、
前記単語辞書作成装置は、前記ソースプログラム中に、
前記音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために一定時間待つか否か
という情報が設定されている場合には、前記情報を前記
単語辞書の作成時に一括して前記単語辞書に付加する単
語辞書作成手段を有し、前記音声認識装置は、前記単語
辞書に付加された前記情報に従って、入力した音声を解
析し、その解析結果と前記単語辞書に登録された音声認
識単位語とを用いて音声認識を行うことを特徴とする音
声認識システム。 - 【請求項2】 単語辞書には、各音声認識単位語がノー
ドの情報と前記ノード間を繋ぐアークの情報との結合と
して登録されており、前記アークの情報には前記音声認
識単位語毎に全部または任意の一部で次の発音があるか
否かを判別するために一定時間待つか否かの情報が含ま
れていることを特徴とする請求項1に記載の音声認識シ
ステム。 - 【請求項3】 音声認識単位定義言語を用いて作成され
た1以上の単語から構成される音声認識単位語を複数定
義したソースプログラムから、単語辞書を作成する単語
辞書作成装置において、前記ソースプログラム中に、前
記音声認識単位語毎に全部または任意の一部で、次の発
音があるか否かを判別するために一定時間待つか否かと
いう情報が設定されている場合には、前記情報を前記単
語辞書の作成時に一括して前記単語辞書に付加する単語
辞書作成手段を有していることを特徴とする単語辞書作
成装置。 - 【請求項4】 音声認識単位定義言語を用いて作成され
た1以上の単語から構成される音声認識単位語を複数定
義したソースプログラムから、単語辞書を作成する単語
辞書作成装置と、前記単語辞書を使用して音声認識を行
う音声認識装置とを有する音声認識システムにおいて、
前記単語辞書作成装置は、前記ソースプログラム中に、
前記音声認識単位語毎に全部または任意の一部で、次の
発音があるか否かを判別するために待つ待ち時間の情報
が設定されている場合には、前記待ち時間の情報を前記
単語辞書の作成時に一括して前記単語辞書に付加する単
語辞書作成手段を有し、前記音声認識装置は、前記単語
辞書に付加された待ち時間の情報に従って、入力した音
声を解析し、その解析結果と前記単語辞書に登録された
音声認識単位語とを用いて音声認識を行うことを特徴と
する音声認識システム。 - 【請求項5】 単語辞書には、各音声認識単位語がノー
ドの情報と前記ノード間を繋ぐアークの情報との結合と
して登録されており、前記アークの情報には前記音声認
識単位語毎に全部または任意の一部で次の発音があるか
否かを判別する待ち時間の情報が含まれていることを特
徴とする請求項4に記載の音声認識システム。 - 【請求項6】 音声認識単位定義言語を用いて作成され
た1以上の単語から構成される音声認識単位語を複数定
義したソースプログラムから、単語辞書を作成する単語
辞書作成装置において、前記ソースプログラム中に、前
記音声認識単位語毎に全部または任意の一部で、次の発
音があるか否かを判別するために待つ待ち時間の情報が
設定されている場合には、前記待ち時間の情報を前記単
語辞書の作成時に一括して前記単語辞書に付加する単語
辞書作成手段を有していることを特徴とする単語辞書作
成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10250677A JP3111997B2 (ja) | 1998-09-04 | 1998-09-04 | 音声認識システムおよび単語辞書作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10250677A JP3111997B2 (ja) | 1998-09-04 | 1998-09-04 | 音声認識システムおよび単語辞書作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000081896A JP2000081896A (ja) | 2000-03-21 |
JP3111997B2 true JP3111997B2 (ja) | 2000-11-27 |
Family
ID=17211413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10250677A Expired - Fee Related JP3111997B2 (ja) | 1998-09-04 | 1998-09-04 | 音声認識システムおよび単語辞書作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3111997B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4709887B2 (ja) * | 2008-04-22 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
-
1998
- 1998-09-04 JP JP10250677A patent/JP3111997B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
Proceedings of the Annual Conference of the IEEE/Engineering in Medicin and Biology Society,11th,Vol.6,D.M.Horowitz et al,"The Structure and Function of a Speech Control Language for Text Processing and Robotic Control",p.1795−1797,1989 |
古井「ディジタル音声処理」(1985−9−25)東海大学出版会 p.183−185 |
Also Published As
Publication number | Publication date |
---|---|
JP2000081896A (ja) | 2000-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Juang et al. | Automatic recognition and understanding of spoken language-a first step toward natural human-machine communication | |
Juang et al. | Automatic speech recognition–a brief history of the technology development | |
JP3454897B2 (ja) | 音声対話システム | |
US5680510A (en) | System and method for generating and using context dependent sub-syllable models to recognize a tonal language | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JPH06214587A (ja) | 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法 | |
JPH10503033A (ja) | 新ワードのモデル化に基づく音声認識方法及びその装置 | |
Furui | 50 years of progress in speech and speaker recognition | |
Furui | History and development of speech recognition | |
Kadambe et al. | Language identification with phonological and lexical models | |
Hirschberg et al. | Generalizing prosodic prediction of speech recognition errors | |
JP2996019B2 (ja) | 音声認識装置 | |
JP3111997B2 (ja) | 音声認識システムおよび単語辞書作成装置 | |
JP3523382B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2886117B2 (ja) | 音声認識装置 | |
JP2871420B2 (ja) | 音声対話システム | |
Jitsuhiro et al. | Automatic generation of non-uniform context-dependent HMM topologies based on the MDL criterion. | |
JP2880436B2 (ja) | 音声認識装置 | |
JPH07230293A (ja) | 音声認識装置 | |
JP4236502B2 (ja) | 音声認識装置 | |
JP3873418B2 (ja) | 音声スポッティング装置 | |
JP2731133B2 (ja) | 連続音声認識装置 | |
JP2905686B2 (ja) | 音声認識装置 | |
KR100281582B1 (ko) | 인식기 자원을 효율적으로 사용하는 음성인식 방법 | |
JPH04307664A (ja) | 音声理解方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080922 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080922 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090922 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |