JP2819904B2

JP2819904B2 - 連続音声認識装置

Info

Publication number: JP2819904B2
Application number: JP3338655A
Authority: JP
Inventors: 野口淳; 明俊奥村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1991-12-20
Filing date: 1991-12-20
Publication date: 1998-11-05
Anticipated expiration: 2013-11-05
Also published as: JPH05216491A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自動通訳システム、音
声ＱＡシステム等において連続的に発声した音声を認識
する連続音声認識装置に関するものである。

【０００２】

【従来の技術】音声を用いたマンマシンインターフェー
スは、キーボードのように訓練が必要ないため使いやす
くまた自然であるので実用化が強く望まれている。また
音声も単語単位で発話されたものだけでなく、会話文の
ような連続音声を取り扱える方がより使いやすく自然な
ので望まれる。

【０００３】このような、音声を用いたインターフェー
スを自動通訳システム、音声ＱＡシステム等に使用する
場合は入力音声の一言一句を明きらかにするのが主な目
的ではなく、入力音声の意味を取り出すことすなわち入
力音声の意味の理解が必要である。

【０００４】なぜなわば、質問応答システムではユーザ
ーの質問に対して適切に返答するために質問の意味を知
る必要があるし、自動通訳システムでは音声入力に用い
られた言語を英語等の他の言語に適切に変換するために
入力文の意味を明確にする必要があるからである。

【０００５】また、機械翻訳等で用いられている自然言
語の意味を表す枠組として中間表現というものがある。
これは、自然言語の意味を表層言語に依存しない形式で
表すものである。

【０００６】図１１に中間表現の一例を示す。図１１の
中間表現は“私は７日の坂本龍一のコンサートに行きた
い。”という文の意味を表す中間表現である。図１１の
〈コンサート〉、〈７日〉のような文中の単語に対応す
る中間表現内の表記をＣＰと呼ぶ。また、“対象”、
“所有”のように各単語間の関係を表している表記をＣ
ＡＳＥと呼ぶ。図１１で＃文体、＃時制のようにＣＰの
横に付与されている情報を素性情報と呼ぶ。＃文体は文
型を、＃時制は時間を、＃丁寧さは文が丁寧文であるこ
とを表す。また、それぞれの｛｝内の文字、数字は各素
性情報の値を示す。

【０００７】一般に、ある単語Ａがある単語Ｂを構文的
に修飾する時、ＢをＡの構文的ヘッドという。また、一
文中で構文的ヘッドの最上位のものを文の構文的なヘッ
ドという。上述の“私は７日の××××のコンサートに
行きたい。”という文の構文的なヘッドは“行きたい”
になる。

【０００８】また、用言を中心に考えたときにその各要
素を意味的なディペンデント、用言を格要素の意味的な
ヘッドという。例えば上述の“私は７日の坂本龍一のコ
ンサートに行きたい。”という文において、“行きた
い”は、“私”や“コンサート”の意味的なヘッドであ
る。

【０００９】また、依存関係のある二つのＣＰ間で意味
的なヘッドに近い方を親、遠い方を子と呼ぶ。

【００１０】入力音声の認識結果に対して改めて構文解
析、意味解析をおこなうことなく、入力音声の自然言語
としての意味を抽出する音声認識方式としては特願平２
−７２８８９号「連続音声認識方式」（以下文献１と称
す）、特願平０３−０１０２３４号「連続音声認識方
式」（以下文献２と称す）がある。

【００１１】文献１では音声認識用のオートマトンで受
理される単語列中の単語と単語の意味的な関係を、その
単語列がオートマトンに受理されたときにそれぞれの単
語が対応する状態遷移列どうしの意味関係としてあらか
じめ記憶しておくことにより入力音声の音声認識結果に
対して構文解析、意味解析を改めて行なうことなく入力
音声の自然言語としての意味を抽出する音声認識方式を
提案している。

【００１２】文献２では文献１の方式にて、その認識さ
れた文の時制や丁寧文、疑問文等の文の種類を中間表現
中に表す方式や、認識用ネットワークがサブネットを持
つ場合や、入力音声中で主語等が省略されたときに認識
結果から中間表現を作成する際に省略された要素を補う
方式について考察している。

【００１３】

【発明が解決しようとする課題】機械翻訳システム等の
中間表現では文の構文的なヘッドの情報が翻訳のために
必要であるが、しかしながら文献１、２の音声認識方法
では、意味的な関係を表した時に構文的なヘッドになり
えるものが複数ある場合にどれが構文的なヘッドかを記
憶することについては考察されていなかった。したがっ
て、例えば音声認識用ネットワークにて“マドンナのコ
ンサートをホールでひらく。”（この文の構文的ヘッド
は“ひらく”）という音声が認識されたときと“マドン
ナのコンサートをひらいたホール。”（この文の構文的
なヘッドは“ホール”）という音声が認識されたときで
は、いずれもその意味表現が図２９のようになってしま
い区別できなくなる。

【００１４】また、通常、依存関係の向きは親となるＣ
Ｐから子となるＣＰへの向きとなるのであるが、例えば
“マドンナのコンサートが開かれた場所を教えて下さ
い。”をいう音声が認識されたとき、意味表現は図２７
のようになり、上述の文の意味的なヘッドは“教える”
であるから、ＣＰ“場所”とＣＰ“開く”とではＣＰ
“場所”が親となるが、意味的な依存関係の向きはＣＰ
“開く”からＣＰ“場所”の向きとなり、通常と逆の向
きすなわち文の意味的なヘッドに向かう方向となる。文
献１、２の音声認識方法では、認識結果から作成される
中間表現の依存関係の向きに関しては考察されていなか
ったため、このような依存関係が子のＣＰから親のＣＰ
への向きとなるという情報を記述できなかった。

【００１５】また、文献１、２の音声認識方法を多言語
間自動通訳システムを作成するために使用する場合に認
識用ネットワークにおけるある単語と他の単語の間の意
味的な関係及び各単語の素性情報を記憶する手段を中間
表現から文生成を行なう生成言語ごとに用意すれば生成
結果をより自然なものにすることができるが、文献１、
２では考察されていなかった。

【００１６】また、例えば対話中で入力音声が“何枚ご
いりようですか。”であるとする。この発話は意味的に
曖昧なものであり、例えばチケットの予約という状況に
おけるものであれば上述の発話は“（チケットは）何枚
ごいりようですか。”の意味であるし、またもしこの発
話が例えば郵便局で切手を買うという状況におけるもの
であれば上述の発話は“（切手は）何枚ごいりようです
か。”の意味となる。このような意味的に曖昧な発話も
対話の履歴や対話の場面を考慮すれば音声認識結果から
より適切な意味表現を作成することが出来るはずである
が、文献１、２の音声認識方法では、このような点は考
察されていなかった。

【００１７】また、文献１、２の音声認識方法を自動通
訳システムを作成するために使用する場合に認識結果か
ら作成される中間表現に音声合成に必要な情報を付与し
ておくことにより適切な合成音の作成が可能となるはず
であるが、文献１、２では考察されていなかった。

【００１８】本発明の目的は、このような欠点を克服し
た、音声認識の際により自然で多様な文を認識し、かつ
その意味表現を出力することができる連続音声認識装置
を提供することにある。

【００１９】

【課題を解決するための手段】第１の発明による音声認
識装置は、連続音声認識対象の文法を表現する単語に関
するネットワークを記憶する第１の記憶手段と、単語の
標準パターンを前記ネットワークにしたがって結合して
連続音声を認識する連続音声認識手段と、前記ネットワ
ークにおけるある単語と他の単語の間の意味的な関係及
び各単語に対する素性情報を記憶する第２の記憶手段
と、意味的な関係を表した時に文の構文的なヘッドにな
るものを記憶する第３の記憶手段と、前記連続音声認識
手段から生じる認識結果及び前記第２、第３の記憶手段
からその中間表現を出力する手段とを有してなることを
特徴としている。

【００２０】また、第２の発明による音声認識装置は、
前記第１の発明に加え、連続音声認識対象の文法を表現
する単語に関するネットワークにおけるある単語と他の
単語の間の意味的な関係の向きを記憶する第４の記憶手
段を有することを特徴としている。

【００２１】また、第３の発明による音声認識装置は、
前記第１、２の発明に加え、対話の履歴を記憶する第５
の記憶手段と、連続音声認識対象の文法を表現する単語
に関するネットワークにおけるある単語と他の単語の間
の意味的な関係及び各単語に対する素性情報を記憶する
第２の記憶手段と前記第５の記憶手段からその中間表現
を出力する手段とを有することを特徴としている。

【００２２】また、第４の発明による音声認識装置は、
連続音声認識対象の文法を表現する単語に関するネット
ワークを記憶する第１の記憶手段と、単語の標準パター
ンを前記ネットワークにしたがって結合して連続音声を
認識する連続音声認識手段と、前記ネットワークにおけ
るある単語と他の単語の間の意味的な関係及び各単語に
対する素性情報を記憶する各言語ごとに用意された第２
の記憶手段と、前記連続音声認識手段から生じる認識結
果及び前記第２の記憶手段からその中間表現を出力する
手段とを有することを特徴としている。

【００２３】また、第５の発明による音声認識装置は、
対話の場面を切替える手段と、連続音声認識対象の文法
を表現する単語に関するネットワークを記憶する第１の
手段と、単語の標準パターンを前記ネットワークにした
がって結合して連続音声を認識する連続音声認識手段
と、対話の場面ごとに前記ネットワークにおけるある単
語と他の単語の間の意味的な関係及び各単語に対する素
性情報を記憶する第２の記憶手段と、前記連続音声認識
手段から生じる認識結果及び前記第２の記憶手段からそ
の中間表現を出力する手段とを有することを特徴として
いる。

【００２４】また、第６の発明による音声認識装置は、
前記第１、第２、第３、第４、第５の発明に加え、連続
音声認識対象の文法を表現する単語に関するネットワー
クにおける各単語に対する音声合成パラメータを記憶す
る第６の記憶手段を有することを特徴としている。

【００２５】

【作用】本発明による連続音声認識装置の作用について
説明する。

【００２６】文献２に記述された方法であると、例えば
今、音声認識用ネットワークにて“マドンナのコンサー
トをホールでひらく。”という音声が認識されたときと
“マドンナのコンサートをひらいたホール。”という音
声が認識されたときでは、いずれもその意味表現が図２
９のようになってしまい区別できなくなってしまう。そ
こで第１の発明では、意味的な関係を表した時に構文的
なヘッドになるものをあらかじめ構文ヘッド記憶部に記
憶しておき、図６、図７に示すように出力される中間表
現中に構文的なヘッドを明示的に示す情報を付与する。

【００２７】また、通常、依存関係の向きは親となるＣ
Ｐから子となるＣＰへの向きとなるのであるが、いま、
“マドンナのコンサートが開かれた場所を教えて下さ
い。”をいう音声が認識されたものとするとこの時の意
味表現は図２７のようになり、上述の文の意味的なヘッ
ドは“教える”であるから、ＣＰ“場所”とＣＰ“開
く”とではＣＰ“場所”が親となるが、意味的な依存関
係の向きは“開く”からＣＰ“場所”の向きとなり、通
常と逆の向きすなわち文の意味的なヘッドに向かう方向
となる。このような時は、認識用ネットワークにおける
ある単語と他の単語の間の意味的な関係及び各単語に対
する素性情報を記憶する記憶手段中に依存関係の向きを
記述することにより正しく意味表現を作成することがで
きる。

【００２８】また、例えば対話中で入力音声が“Ｉｗ
ｏｕｌｄｌｉｋｅｔｗｏ．”であるとき、ものその
前の発話が“Ｈｏｗｍａｎｙｔｉｃｋｅｔｓｄｏ
ｙｏｕｗａｎｔ？”であるとすると上述の入力音声は
“Ｉｗｏｕｌｄｌｉｋｅｔｗｏｔｉｃｋｅｔ
ｓ．”の意味であるし、もしその前の発話が“Ｈｏｗ
ｍａｎｙｂｏｏｋｓｄｏｙｏｕｗａｎｔ？”で
あるとすると上述の入力音声は“Ｉｗｏｕｌｄｌｉ
ｋｅｔｗｏｂｏｏｋｓ．”の意味となる。このよう
に、対話の履歴により同じ入力音声でも意味が代わるこ
とがあり得る。そこで第３の発明では、対話の履歴を記
憶し、かつ各対話の状況ごとの入力音声に対するある単
語と他の単語の間の意味的な関係及び各単語に対する素
性情報を記憶することにより正しい意味表現を作成する
ことができる。

【００２９】例えば“Ｈｏｗｍａｎｙｔｉｃｋｅｔ
ｓｄｏｙｏｕｗｎａｔ？”という音声が入力され
た後の入力音声が“Ｉｗｏｕｌｄｌｉｋｅｔｗ
ｏ．”であるとき、単語“ｔｉｃｋｅｔ”を補い“Ｉ
ｗｏｕｌｄｌｉｋｅｔｗｏｔｉｃｋｅｔｓ．”に対
応する意味表現を出力する。

【００３０】また、本方式を多言語間自動通訳システム
等に用いる場合、すなわち出力される意味表現から多言
語の文生成を行なう場合に、より自然な生成文を作成す
るためには各生成言語ごとに各生成言語に依存した情報
が必要である。

【００３１】したがって、第４の発明では、各生成言語
ごとに認識用ネットワークにおけるある単語と他の単語
の間の意味的な関係及び各単語に対する素性情報を記憶
する記憶手段を用意し各言語に依存した情報もそれぞれ
与えておくことにより、より自然な生成文の作成が可能
になる。

【００３２】また、例えば対話中で入力音声が“何枚ご
いりようですか。”であるとする。この発話が、例えば
チケットの予約という状況におけるものであれば上述の
発話は“（チケットは）何枚ごいりようですか。”の意
味であるし、またもしこの発話が例えば郵便局で切手を
買うという状況におけるものであれば上述の発話は
“（切手は）何枚ごいりようですか。”の意味となる。
このような場合、あらかじめどういう状況であるかがわ
かっていれば入力音声からより適切な意味表現を作成す
ることができる。

【００３３】そこで第５の発明では、対話の場面スイッ
チを用意しその対話がなされる場面を指定することによ
り、あらかじめ用意された各対話の場面ごとの入力音声
に対するある単語と他の単語の間の意味的な関係及び各
単語に対する素性情報を記憶したものを用いることによ
りもっとも自然な意味表現を作成することができる。ま
た、上述の単語間の意味や関係や各単語の素性情報を記
憶する手段を場面ごとに用意するため、各場面ごとで使
用する上述の記憶手段を削減することができ、処理速度
を速くすることも可能になる。

【００３４】また、本装置を自動通訳システム等に用い
る場合、すなわち出力される意味表現からある言語の文
生成を行ないその結果を音声合成装置によって合成音で
出力する場合、より自然な合成音を得るためには、音声
合成のための情報も必要となる。

【００３５】そこで第６の発明では、認識用ネットワー
クにおけるある単語と他の単語の間の意味的な関係及び
各単語に対する素性情報を記憶する記憶手段と音声合成
パラメータを記憶する記憶手段から意味表現を作成する
ため、より自然な合成音の出力が可能になる。

【００３６】

【実施例】本発明による連続音声認識装置の実施例につ
いて図面を参照して説明する。まず、第１の発明による
一実施例について説明する。図１は第１の発明による一
実施例を示す構成図である。図８はネットワークの一例
を示している。図６、７は図８のネットワークから得ら
れる中間表現の一例を示している。図９は意味関係記憶
部１０５の内容を図示している。図１０は構文ヘッド記
憶部１０７の内容を図示している。

【００３７】音声入力部１０１は、入力される音声デジ
タル信号にし、分析を行ない特徴ベクトルの時系列を求
め連続音声認識部１０４にその結果を出力する。ネット
ワーク記憶部１０２は、音声認識の際に認識対象となる
文または単語列を記憶する。図８はネットワーク記憶部
１０２に記憶される認識用ネットワークの一例を示すも
のである。ネットワーク中にふられた番号はネットワー
ク中の各単語をあらわすアークのＩＤ番号である。この
ようなネットワークを始端から終端までたどることがで
きた時入力音声はこのネットワークにて受理されたとす
る。例えば図８の場合は“坂本龍一のコンサートがホー
ルで開いた”、“バーシアのライブを開いた会場”など
の入力音声を受理することができる。単語標準パターン
記憶部は認識対象の単語の音声の標準パターンをあらか
じめ記憶している。単語標準パターン記憶部１０３に
は、ネットワーク中の単語の標準パターンを記憶してい
る。この標準パターンは例えば音節のようなより小さな
単位を連結したものでも良い。連続音声認識部１０４
は、前記ネットワークをたどることにより生成される単
語列に従い単語標準パターン記憶部１０３に記憶されて
いる標準パターンを連結し、音声入力部１０１から受け
とった入力音声の特徴ベクトルの時系列とのパターンマ
ッチングを行なうことにより入力音声ともっとも音響的
類似性の高い単語列を選択する。連続音声認識部１０４
は、この単語列をあらわす各単語のアークのＩＤの列を
認識結果として中間表現生成部１０６に出力する。中間
表現作成部１０６は入力されたアークＩＤ列と意味関係
記憶部１０５および構文ヘッド記憶部１０７の記憶内容
より中間表現を作成し出力する。

【００３８】次に、中間表現生成部１０６の処理につい
て説明する。いま、入力音声が“マドンナのコンサート
をホールで開いた。”であるとする。このとき図８に示
したアークのＩＤ番号より音声認識結果として“２，
４，５，８，９，１２”というアークＩＤの列が中間表
現作成部１０６にわたされる。

【００３９】中間表現作成部１０６では、図９、１０の
情報とアークのＩＤ列より中間表現を作成する。まずア
ークＩＤ番号の列の先頭の２に対して図９のテーブルを
検索すると、ＩＤ番号２の欄の親ＩＤ番号が１１、１２
である。この中でアークのＩＤ列中にあるのは１２番な
ので、中間表現の親は“開いた”でまたＣＡＳＥの欄か
ら“動作主”の関係であることが分かる。

【００４０】また、素性情報の欄から“＃名詞意味素
性．｛１１１｝”という素性がこの文の中間表現中の
“マドンナ”のところに付与される。ＩＤ番号１２に対
応するＣＰ“開いた”に関しては、図１０の構文ヘッド
記憶部１０７の情報からこのＣＰが構文的なヘッドであ
るという情報が中間表現上に付与される。以上のような
処理を繰り返すことにより図６のような中間表現が得ら
れる。

【００４１】一方、入力音声が“マドンナのコンサート
を開いたホール。”であるとする。このとき図８にしる
したアークのＩＤ番号より音声認識結果として“２，
４，５，８，１１，１３”というアークＩＤ番号の列が
中間表現作成部１０６にわたされる。このときも同様に
図９に示したような意味関係記憶部１０５と図１０に示
したような構文ヘッド記憶部１０７の情報より中間表現
が作成されるが、このアークＩＤ番号の列が入力の時は
図１０の情報によりＣＰ“ホール”が構文的なヘッドで
あるという情報が与えられるので図７のような中間表現
が得られる。

【００４２】次に第２の発明による一実施例について説
明する。図２は第２の発明による一実施例を示す構成図
である。第２の発明は図２における意味関係記憶部２０
５中の認識用ネットワーク中の各単語に対応するＣＰ、
素性情報、各単語間の依存関係の情報および依存関係向
き記憶部２０８中の各依存関係の向きの記憶より中間表
現を作成する。図１２は音声認識に用いるネットワーク
である。また、図１３はこのネットワークに対する意味
関係記憶部２０５中の内容を、図２８はこのネットワー
クに対する依存関係向き記憶部２０８中の内容を図示し
ている。

【００４３】図２７は図１２におけるネットワークから
作成される中間表現の例を示す図である。

【００４４】いま入力文が“マドンナのコンサートが開
かれた場所を教えて下さい。”であるとする。すると音
声認識結果のアークＩＤ番号の列は“１，４，５，７，
８，１０，１２，１３”となる。

【００４５】この結果であるアークＩＤ番号列から、中
間表現を作成していく際に、各ＣＰ間の依存関係を向き
をもし図２８の向きの項が“＋”であれば親となるＣＰ
から子となるＣＰにむけたものとし、もし図２８の向き
の項が“−”であれば子となるＣＰから親のＣＰにむけ
たものとする。例えばＣＰ××××××とその親となる
ＣＰ“開く”は、依存関係が“動作主”であり向きの項
が“＋”であるので依存関係の向きが親ＣＰから子ＣＰ
に向いたものになる。

【００４６】また、ＣＰ“開く”とその親となるＣＰ
“場所”は、依存関係が“場所”であり向きの項が
“−”であるので依存関係の向きが子ＣＰから親ＣＰに
向いたものになる。

【００４７】他の処理は第１の発明と全く同じである。

【００４８】次に第３の発明による一実施例について説
明する。図３は第３の発明による一実施例を示す構成図
である。図１４にネットワークの一実施例を示す。ここ
でネットワークに付与している１０１、１０２、１０３
等の数字は各ネットワークを区別するためのネットワー
クＩＤ番号である。図１５は第３の発明による一実施例
を説明する模式図である。図１６は第３の発明による一
実施例を説明する意味関係記憶部の内容を示す図であ
る。

【００４９】本実施例では、意味関係記憶部３０５から
だけではなく、対話履歴記憶部３０８の内容も用いて中
間表現を作成する。

【００５０】例えば、図１４に示した認識用ネットワー
クを用いた場合、“Ｈｏｗｍｕｃｈｔｉｃｋｅｔｓ
ｄｏｙｏｕｗａｎｔ？”という入力音声が入力さ
れた後に“Ｉｗａｎｔｔｏｗ．”という音声が入力
されたとする。

【００５１】まず、“Ｈｏｗｍｕｃｈｔｉｃｋｅｔ
ｓｄｏｙｏｕｗａｎｔ？”という入力音声が正し
く認識された時に、認識結果よりネットワークＩＤ番号
１０１のネットワークにより認識されたという情報が連
続音声認識部３０４から対話履歴記憶部３０８に渡され
記憶される。次に“Ｉｗａｎｔｔｗｏ．”という音
声が入力されると中間表現生成部３０６では対話履歴記
憶部３０８における前入力音声が発話がネットワークＩ
Ｄ番号１０１のネットワークにより認識されたという情
報と図１６に示した意味関係記憶部３０５の内容により
中間表現を作成する。今、前発話が１０１であるから、
図１６よりＣＰ“ｔｉｃｋｅｔ”がＣＰ“２”の親とな
ることがわかる。この結果、図１５に示した中間表現が
生成される。

【００５２】ここで参照する発話は必ずしも直前のもの
のみに限らず、例えば過去数発話中のネットワークＩＤ
で、意味関係記憶部３０５での判断対象とするものでも
っとも近いものを選ぶといった方法でも良い。

【００５３】他の処理は第１、第２の発明と全く同じで
ある。

【００５４】次に第４の発明による一実施例について説
明する。

【００５５】図１７、１８、１９、２０、２１は、第４
の発明による一実施例を説明する模式図である。

【００５６】第４の発明では、第１の発明に加えて例え
ば図１７のようなネットワークを用いて音声認識を行な
う場合、中間表現から例えば日本語のような単数か複数
かを区別しないような言語を生成するために中間表現を
用いる時は図１９のような中間表現を作成すれば良い
が、英語のように名詞が単数か複数かで冠詞が“ａ”で
あるか“ｔｈｅ”であるかが変わるような言語を生成す
るときには、中間表現には図１８のように“ｂｏｏｋ”
に数量の素性情報を付与する必要がある。

【００５７】したがって、例えば日本語生成用の中間表
現作成には意味関係記憶部１０５中の図２１のような情
報を、英語生成用の中間表現作成には意味関係記憶部１
０５中の図２０のような情報を用いる。

【００５８】このようにして、中間表現を作成すること
により生成言語ごとに冗長な素性情報を削除することが
できるようになるため、中間表現からの文生成をより速
くすることが出来る。

【００５９】他の処理は第１、２の発明と全く同じであ
る。

【００６０】次に第５の発明による一実施例について説
明する。図４は第５の発明による一実施例を示す構成図
である。図２２は第５の発明による一実施例を説明する
音声認識用ネットワークを示す図である。図２３、２４
は第５の発明による一実施例を説明する模式図である。

【００６１】いま、図２２の認識用ネットワークを用い
て音声入力を行なうものとする。このとき、場面がチケ
ット予約の場面であれば、ＣＰ“ｔｉｃｋｅｔ”を、場
面がペンを買う場面であれば、ＣＰ“ｐｅｎ”を補う必
要がある。このような場合、場面切替えスイッチ４０８
から場面切替部４０７に選択された場面の情報が送るこ
とにより、意味関係記憶部４０５では場面がチケット予
約の場面であれば図２３を、場面がペンを買う場面であ
れば図２４を中間表現作成に用いることができる。

【００６２】他の処理は第１の発明と全く同じである。

【００６３】次に第６の発明による一実施例について説
明する。図５は第６の発明による一実施例を示す構成図
である。

【００６４】図１７はネットワークの一例を示してい
る。

【００６５】図２５は意味関係記憶部の内容を図示して
いる。図２６は図１７のネットワークから得られる中間
表現の一例を示している。図３０は音声合成パラメータ
記憶部５１０の内容を図示している。

【００６６】いま、図１７のネットワークを持ちいて音
声認識を行なう際に、“Ｉｗａｎｔａｂｏｏ
ｋ．”という音声が入力されたものとする。この時正し
く認識が行なわれたとすると中間表現生成部５０６に
“１，２，３，４”というアークＩＤ番号の列が渡され
る。この結果と意味関係記憶部５０５および音声合成パ
ラメータ記憶部５１０の情報から中間表現が作成され
る。意味関係記憶部５０５の内容を図２５に示す。ま
た、図３０に示したように、音声合成に用いる音声合成
パラメータの情報を音声合成パラメータ記憶部５１０に
あらかじめ与えておく。このとき図２６に示したような
中間表現が作成される。例えば図３０の場合では、アー
クＩＤ番号４のアークから作成されるＣＰ“ｂｏｏｋ”
に合成の際に強調するという情報を付与する。

【００６７】文生成部５０８ではこの中間表現により文
を生成する。このとき“私は〈〈本〉〉が欲しい。”の
ように強調すべき部分の情報も付与する。この結果を用
いて音声合成部５０９では合成音を作成する。

【００６８】ここで中間表現に付与する音声合成のため
の情報は強調すべき部分の情報に限らずアクセント情報
やポーズの情報でも良い。

【００６９】他の処理は第１の発明と全く同じである。

【００７０】

【発明の効果】以上述べたように本発明によれば、出力
される中間表現中に構文的なヘッドを明示的に示す情報
を付与することにより、より適切な意味表現を出力する
ことができる連続音声認識方式を提供することができ
る。

【００７１】また、本発明によれば、各ＣＰ間の依存関
係の依存関係の向きを記述することにより適切な意味表
現を出力することができる連続音声認識方式を提供する
ことができる。

【００７２】また、本発明によれば、対話の履歴を考慮
することにより各対話の状況ごとの入力音声に対するよ
り適切な意味表現を出力することができる連続音声認識
方式を提供することができる。

【００７３】また、本発明によれば、各生成言語ごとに
認識用ネットワークにおけるある単語と他の単語の間の
意味的な関係及び各単語に対する素性情報を記憶する記
憶手段を用意し各言語に依存した情報もそれぞれ与えて
おくことにより適切な意味表現を出力することができる
連続音声認識方式を提供することができる。

【００７４】また、本発明によれば、対話の場面スイッ
チを用意しその対話がなされる場面を指定することによ
り、より適切な意味表現を出力することができる連続音
声認識方式を提供することができる。

【００７５】また、本発明によれば、出力される意味表
現からより自然な合成音の出力が可能になる連続音声認
識方式を提供することができる。

【図面の簡単な説明】

【図１】第１の発明による一実施例を示す構成図であ
る。

【図２】第２の発明による一実施例を示す構成図であ
る。

【図３】第３の発明による一実施例を示す構成図であ
る。

【図４】第５の発明による一実施例を示す構成図であ
る。

【図５】第６の発明による一実施例を示す構成図であ
る。

【図６】図８におけるネットワークから作成される中間
表現の例を示す図である。

【図７】図８におけるネットワークから作成される中間
表現の例を示す図である。

【図８】第１の発明による一実施例を説明する音声認識
用ネットワークを示す図である。

【図９】第１の発明による一実施例を説明する意味関係
記憶部の内容を示す図である。

【図１０】第１の発明による一実施例を説明する構文ヘ
ッド記憶部の内容を示す図である。

【図１１】中間表現の例を示す図である。

【図１２】第２の発明による一実施例を説明する音声認
識用ネットワークを示す図である。

【図１３】第２の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。

【図１４】第３の発明による一実施例を説明する音声認
識用ネットワークを示す図であるＰ。

【図１５】図１４におけるネットワークから作成される
中間表現の例を示す図である。

【図１６】第３の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。

【図１７】第４、６の発明による一実施例を説明する音
声認識用ネットワークを示す図である。

【図１８】図１７におけるネットワークから作成される
中間表現の例を示す図である。

【図１９】図１７におけるネットワークから作成される
中間表現の例を示す図である。

【図２０】第４の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。

【図２１】第４の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。

【図２２】第５の発明による一実施例を説明する音声認
識用ネットワークを示す図である。

【図２３】第５の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。

【図２４】第５の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。

【図２５】第６の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。

【図２６】図１７におけるネットワークから作成される
中間表現の例を示す図である。

【図２７】図１２におけるネットワークから作成される
中間表現の例を示す図である。

【図２８】図１２のネットワークに対する依存関係向き
記憶部の内容を図示している。

【図２９】図８におけるネットワークから作成される中
間表現の例を示す図である。

【図３０】第６の発明による一実施例を説明する音声合
成パラメータ記憶部の内容を示す図である。

【符号の説明】

１０１音声入力部１０２ネットワーク記憶部１０３単語標準パターン記憶部１０４連続音声認識部１０５意味関係記憶部１０６中間表現生成部１０７構文ヘッド記憶部２０１音声入力部２０２ネットワーク記憶部２０３単語標準パターン記憶部２０４連続音声認識部２０５意味関係記憶部２０６中間表現生成部２０７構文ヘッド記憶部２０８依存関係向き記憶部３０１音声入力部３０２ネットワーク記憶部３０３単語標準パターン記憶部３０４連続音声認識部３０５意味関係記憶部３０６中間表現生成部３０７構文ヘッド記憶部３０８対話履歴記憶部４０１音声入力部４０２ネットワーク記憶部４０３単語標準パターン記憶部４０４連続音声認識部４０５意味関係記憶部４０６中間表現生成部４０７場面切替部４０８場面切替えスイッチ４０９構文ヘッド記憶部５０１音声入力部５０２ネットワーク記憶部５０３単語標準パターン記憶部５０４連続音声認識部５０５意味関係記憶部５０６中間表現生成部５０７構文ヘッド記憶部５０８文生成部５０９音声合成部５１０音声合成パラメータ記憶部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 561 G10L 3/00 551 G10L 3/00 571 G06F 17/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】連続音声認識対象の文法を表現する単語
に関するネットワークを記憶する第１の記憶手段と、単
語の標準パターンを前記ネットワークにしたがって結合
して連続音声を認識する連続音声認識手段と、前記ネッ
トワークにおけるある単語と他の単語の間の意味的な関
係及び各単語に対する素性情報を記憶する第２の記憶手
段と、意味的な関係を表した時に文の構文的なヘッドに
なるものを記憶する第３の記憶手段と、前記連続音声認
識手段から生じる認識結果及び前記第２、第３の記憶手
段からその中間表現を出力する手段とを備えることを特
徴とする連続音声認識装置。
【請求項２】連続音声認識対象の文法を表現する単語
に関するネットワークにおけるある単語と他の単語の間
の意味的な関係の向きを記憶する第４の記憶手段を備え
ることを特徴とする請求項１記載の連続音声認識装置。
【請求項３】対話の履歴を記憶する第５の記憶手段
と、連続音声認識対象の文法を表現する単語に関するネ
ットワークにおけるある単語と他の単語の間の意味的な
関係及び各単語に対する素性情報を記憶する第２の記憶
手段と前記第５の記憶手段からその中間表現を出力する
手段とを備えることを特徴とする請求項１または２記載
の連続音声認識装置。
【請求項４】連続音声認識対象の文法を表現する単語
に関するネットワークを記憶する第１の記憶手段と、単
語の標準パターンを前記ネットワークにしたがって結合
して連続音声を認識する連続音声認識手段と、前記ネッ
トワークにおけるある単語と他の単語の間の意味的な関
係及び各単語に対する素性情報を記憶する各言語ごとに
用意された第２の記憶手段と、前記連続音声認識手段か
ら生じる認識結果及び前記第２の記憶手段からその中間
表現を出力する手段とを備えることを特徴とする連続音
声認識装置。
【請求項５】対話の場面を切替える手段と、連続音声
認識対象の文法を表現する単語に関するネットワークを
記憶する第１の記憶手段と、単語の標準パターンを前記
ネットワークにしたがって結合して連続音声を認識する
連続音声認識手段と、対話の場面ごとに前記ネットワー
クいおけるある単語と他の単語の間の意味的な関係及び
各単語に対する素性情報を記憶する第２の記憶手段と、
前記連続音声認識手段から生じる認識結果及び前記第２
の記憶手段からその中間表現を出力する手段とを備える
ことを特徴とする連続音声認識装置。
【請求項６】連続音声認識対象の文法を表現する単語
に関するネットワークにおける各単語に対する音声合成
パラメータを記憶する第６の記憶手段を備えることを特
徴とする請求項１、２、３、４または５記載の連続音声
認識装置。