JP2819904B2 - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JP2819904B2
JP2819904B2 JP3338655A JP33865591A JP2819904B2 JP 2819904 B2 JP2819904 B2 JP 2819904B2 JP 3338655 A JP3338655 A JP 3338655A JP 33865591 A JP33865591 A JP 33865591A JP 2819904 B2 JP2819904 B2 JP 2819904B2
Authority
JP
Japan
Prior art keywords
word
speech recognition
network
continuous speech
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3338655A
Other languages
English (en)
Other versions
JPH05216491A (ja
Inventor
野口淳
明俊 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3338655A priority Critical patent/JP2819904B2/ja
Publication of JPH05216491A publication Critical patent/JPH05216491A/ja
Application granted granted Critical
Publication of JP2819904B2 publication Critical patent/JP2819904B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自動通訳システム、音
声QAシステム等において連続的に発声した音声を認識
する連続音声認識装置に関するものである。
【0002】
【従来の技術】音声を用いたマンマシンインターフェー
スは、キーボードのように訓練が必要ないため使いやす
くまた自然であるので実用化が強く望まれている。また
音声も単語単位で発話されたものだけでなく、会話文の
ような連続音声を取り扱える方がより使いやすく自然な
ので望まれる。
【0003】このような、音声を用いたインターフェー
スを自動通訳システム、音声QAシステム等に使用する
場合は入力音声の一言一句を明きらかにするのが主な目
的ではなく、入力音声の意味を取り出すことすなわち入
力音声の意味の理解が必要である。
【0004】なぜなわば、質問応答システムではユーザ
ーの質問に対して適切に返答するために質問の意味を知
る必要があるし、自動通訳システムでは音声入力に用い
られた言語を英語等の他の言語に適切に変換するために
入力文の意味を明確にする必要があるからである。
【0005】また、機械翻訳等で用いられている自然言
語の意味を表す枠組として中間表現というものがある。
これは、自然言語の意味を表層言語に依存しない形式で
表すものである。
【0006】図11に中間表現の一例を示す。図11の
中間表現は“私は7日の坂本龍一のコンサートに行きた
い。”という文の意味を表す中間表現である。図11の
〈コンサート〉、〈7日〉のような文中の単語に対応す
る中間表現内の表記をCPと呼ぶ。また、“対象”、
“所有”のように各単語間の関係を表している表記をC
ASEと呼ぶ。図11で#文体、#時制のようにCPの
横に付与されている情報を素性情報と呼ぶ。#文体は文
型を、#時制は時間を、#丁寧さは文が丁寧文であるこ
とを表す。また、それぞれの{}内の文字、数字は各素
性情報の値を示す。
【0007】一般に、ある単語Aがある単語Bを構文的
に修飾する時、BをAの構文的ヘッドという。また、一
文中で構文的ヘッドの最上位のものを文の構文的なヘッ
ドという。上述の“私は7日の××××のコンサートに
行きたい。”という文の構文的なヘッドは“行きたい”
になる。
【0008】また、用言を中心に考えたときにその各要
素を意味的なディペンデント、用言を格要素の意味的な
ヘッドという。例えば上述の“私は7日の坂本龍一のコ
ンサートに行きたい。”という文において、“行きた
い”は、“私”や“コンサート”の意味的なヘッドであ
る。
【0009】また、依存関係のある二つのCP間で意味
的なヘッドに近い方を親、遠い方を子と呼ぶ。
【0010】入力音声の認識結果に対して改めて構文解
析、意味解析をおこなうことなく、入力音声の自然言語
としての意味を抽出する音声認識方式としては特願平2
−72889号「連続音声認識方式」(以下文献1と称
す)、特願平03−010234号「連続音声認識方
式」(以下文献2と称す)がある。
【0011】文献1では音声認識用のオートマトンで受
理される単語列中の単語と単語の意味的な関係を、その
単語列がオートマトンに受理されたときにそれぞれの単
語が対応する状態遷移列どうしの意味関係としてあらか
じめ記憶しておくことにより入力音声の音声認識結果に
対して構文解析、意味解析を改めて行なうことなく入力
音声の自然言語としての意味を抽出する音声認識方式を
提案している。
【0012】文献2では文献1の方式にて、その認識さ
れた文の時制や丁寧文、疑問文等の文の種類を中間表現
中に表す方式や、認識用ネットワークがサブネットを持
つ場合や、入力音声中で主語等が省略されたときに認識
結果から中間表現を作成する際に省略された要素を補う
方式について考察している。
【0013】
【発明が解決しようとする課題】機械翻訳システム等の
中間表現では文の構文的なヘッドの情報が翻訳のために
必要であるが、しかしながら文献1、2の音声認識方法
では、意味的な関係を表した時に構文的なヘッドになり
えるものが複数ある場合にどれが構文的なヘッドかを記
憶することについては考察されていなかった。したがっ
て、例えば音声認識用ネットワークにて“マドンナのコ
ンサートをホールでひらく。”(この文の構文的ヘッド
は“ひらく”)という音声が認識されたときと“マドン
ナのコンサートをひらいたホール。”(この文の構文的
なヘッドは“ホール”)という音声が認識されたときで
は、いずれもその意味表現が図29のようになってしま
い区別できなくなる。
【0014】また、通常、依存関係の向きは親となるC
Pから子となるCPへの向きとなるのであるが、例えば
“マドンナのコンサートが開かれた場所を教えて下さ
い。”をいう音声が認識されたとき、意味表現は図27
のようになり、上述の文の意味的なヘッドは“教える”
であるから、CP“場所”とCP“開く”とではCP
“場所”が親となるが、意味的な依存関係の向きはCP
“開く”からCP“場所”の向きとなり、通常と逆の向
きすなわち文の意味的なヘッドに向かう方向となる。文
献1、2の音声認識方法では、認識結果から作成される
中間表現の依存関係の向きに関しては考察されていなか
ったため、このような依存関係が子のCPから親のCP
への向きとなるという情報を記述できなかった。
【0015】また、文献1、2の音声認識方法を多言語
間自動通訳システムを作成するために使用する場合に認
識用ネットワークにおけるある単語と他の単語の間の意
味的な関係及び各単語の素性情報を記憶する手段を中間
表現から文生成を行なう生成言語ごとに用意すれば生成
結果をより自然なものにすることができるが、文献1、
2では考察されていなかった。
【0016】また、例えば対話中で入力音声が“何枚ご
いりようですか。”であるとする。この発話は意味的に
曖昧なものであり、例えばチケットの予約という状況に
おけるものであれば上述の発話は“(チケットは)何枚
ごいりようですか。”の意味であるし、またもしこの発
話が例えば郵便局で切手を買うという状況におけるもの
であれば上述の発話は“(切手は)何枚ごいりようです
か。”の意味となる。このような意味的に曖昧な発話も
対話の履歴や対話の場面を考慮すれば音声認識結果から
より適切な意味表現を作成することが出来るはずである
が、文献1、2の音声認識方法では、このような点は考
察されていなかった。
【0017】また、文献1、2の音声認識方法を自動通
訳システムを作成するために使用する場合に認識結果か
ら作成される中間表現に音声合成に必要な情報を付与し
ておくことにより適切な合成音の作成が可能となるはず
であるが、文献1、2では考察されていなかった。
【0018】本発明の目的は、このような欠点を克服し
た、音声認識の際により自然で多様な文を認識し、かつ
その意味表現を出力することができる連続音声認識装置
を提供することにある。
【0019】
【課題を解決するための手段】第1の発明による音声認
識装置は、連続音声認識対象の文法を表現する単語に関
するネットワークを記憶する第1の記憶手段と、単語の
標準パターンを前記ネットワークにしたがって結合して
連続音声を認識する連続音声認識手段と、前記ネットワ
ークにおけるある単語と他の単語の間の意味的な関係及
び各単語に対する素性情報を記憶する第2の記憶手段
と、意味的な関係を表した時に文の構文的なヘッドにな
るものを記憶する第3の記憶手段と、前記連続音声認識
手段から生じる認識結果及び前記第2、第3の記憶手段
からその中間表現を出力する手段とを有してなることを
特徴としている。
【0020】また、第2の発明による音声認識装置は、
前記第1の発明に加え、連続音声認識対象の文法を表現
する単語に関するネットワークにおけるある単語と他の
単語の間の意味的な関係の向きを記憶する第4の記憶手
段を有することを特徴としている。
【0021】また、第3の発明による音声認識装置は、
前記第1、2の発明に加え、対話の履歴を記憶する第5
の記憶手段と、連続音声認識対象の文法を表現する単語
に関するネットワークにおけるある単語と他の単語の間
の意味的な関係及び各単語に対する素性情報を記憶する
第2の記憶手段と前記第5の記憶手段からその中間表現
を出力する手段とを有することを特徴としている。
【0022】また、第4の発明による音声認識装置は、
連続音声認識対象の文法を表現する単語に関するネット
ワークを記憶する第1の記憶手段と、単語の標準パター
ンを前記ネットワークにしたがって結合して連続音声を
認識する連続音声認識手段と、前記ネットワークにおけ
るある単語と他の単語の間の意味的な関係及び各単語に
対する素性情報を記憶する各言語ごとに用意された第2
の記憶手段と、前記連続音声認識手段から生じる認識結
果及び前記第2の記憶手段からその中間表現を出力する
手段とを有することを特徴としている。
【0023】また、第5の発明による音声認識装置は、
対話の場面を切替える手段と、連続音声認識対象の文法
を表現する単語に関するネットワークを記憶する第1の
手段と、単語の標準パターンを前記ネットワークにした
がって結合して連続音声を認識する連続音声認識手段
と、対話の場面ごとに前記ネットワークにおけるある単
語と他の単語の間の意味的な関係及び各単語に対する素
性情報を記憶する第2の記憶手段と、前記連続音声認識
手段から生じる認識結果及び前記第2の記憶手段からそ
の中間表現を出力する手段とを有することを特徴として
いる。
【0024】また、第6の発明による音声認識装置は、
前記第1、第2、第3、第4、第5の発明に加え、連続
音声認識対象の文法を表現する単語に関するネットワー
クにおける各単語に対する音声合成パラメータを記憶す
る第6の記憶手段を有することを特徴としている。
【0025】
【作用】本発明による連続音声認識装置の作用について
説明する。
【0026】文献2に記述された方法であると、例えば
今、音声認識用ネットワークにて“マドンナのコンサー
トをホールでひらく。”という音声が認識されたときと
“マドンナのコンサートをひらいたホール。”という音
声が認識されたときでは、いずれもその意味表現が図2
9のようになってしまい区別できなくなってしまう。そ
こで第1の発明では、意味的な関係を表した時に構文的
なヘッドになるものをあらかじめ構文ヘッド記憶部に記
憶しておき、図6、図7に示すように出力される中間表
現中に構文的なヘッドを明示的に示す情報を付与する。
【0027】また、通常、依存関係の向きは親となるC
Pから子となるCPへの向きとなるのであるが、いま、
“マドンナのコンサートが開かれた場所を教えて下さ
い。”をいう音声が認識されたものとするとこの時の意
味表現は図27のようになり、上述の文の意味的なヘッ
ドは“教える”であるから、CP“場所”とCP“開
く”とではCP“場所”が親となるが、意味的な依存関
係の向きは“開く”からCP“場所”の向きとなり、通
常と逆の向きすなわち文の意味的なヘッドに向かう方向
となる。このような時は、認識用ネットワークにおける
ある単語と他の単語の間の意味的な関係及び各単語に対
する素性情報を記憶する記憶手段中に依存関係の向きを
記述することにより正しく意味表現を作成することがで
きる。
【0028】また、例えば対話中で入力音声が“I w
ould like two.”であるとき、ものその
前の発話が“How many tickets do
you want?”であるとすると上述の入力音声は
“I would like two ticket
s.”の意味であるし、もしその前の発話が“How
many books do you want?”で
あるとすると上述の入力音声は“I would li
ke two books.”の意味となる。このよう
に、対話の履歴により同じ入力音声でも意味が代わるこ
とがあり得る。そこで第3の発明では、対話の履歴を記
憶し、かつ各対話の状況ごとの入力音声に対するある単
語と他の単語の間の意味的な関係及び各単語に対する素
性情報を記憶することにより正しい意味表現を作成する
ことができる。
【0029】例えば“How many ticket
s do you wnat?”という音声が入力され
た後の入力音声が“I would like tw
o.”であるとき、単語“ticket”を補い“I
would like twotickets.”に対
応する意味表現を出力する。
【0030】また、本方式を多言語間自動通訳システム
等に用いる場合、すなわち出力される意味表現から多言
語の文生成を行なう場合に、より自然な生成文を作成す
るためには各生成言語ごとに各生成言語に依存した情報
が必要である。
【0031】したがって、第4の発明では、各生成言語
ごとに認識用ネットワークにおけるある単語と他の単語
の間の意味的な関係及び各単語に対する素性情報を記憶
する記憶手段を用意し各言語に依存した情報もそれぞれ
与えておくことにより、より自然な生成文の作成が可能
になる。
【0032】また、例えば対話中で入力音声が“何枚ご
いりようですか。”であるとする。この発話が、例えば
チケットの予約という状況におけるものであれば上述の
発話は“(チケットは)何枚ごいりようですか。”の意
味であるし、またもしこの発話が例えば郵便局で切手を
買うという状況におけるものであれば上述の発話は
“(切手は)何枚ごいりようですか。”の意味となる。
このような場合、あらかじめどういう状況であるかがわ
かっていれば入力音声からより適切な意味表現を作成す
ることができる。
【0033】そこで第5の発明では、対話の場面スイッ
チを用意しその対話がなされる場面を指定することによ
り、あらかじめ用意された各対話の場面ごとの入力音声
に対するある単語と他の単語の間の意味的な関係及び各
単語に対する素性情報を記憶したものを用いることによ
りもっとも自然な意味表現を作成することができる。ま
た、上述の単語間の意味や関係や各単語の素性情報を記
憶する手段を場面ごとに用意するため、各場面ごとで使
用する上述の記憶手段を削減することができ、処理速度
を速くすることも可能になる。
【0034】また、本装置を自動通訳システム等に用い
る場合、すなわち出力される意味表現からある言語の文
生成を行ないその結果を音声合成装置によって合成音で
出力する場合、より自然な合成音を得るためには、音声
合成のための情報も必要となる。
【0035】そこで第6の発明では、認識用ネットワー
クにおけるある単語と他の単語の間の意味的な関係及び
各単語に対する素性情報を記憶する記憶手段と音声合成
パラメータを記憶する記憶手段から意味表現を作成する
ため、より自然な合成音の出力が可能になる。
【0036】
【実施例】本発明による連続音声認識装置の実施例につ
いて図面を参照して説明する。まず、第1の発明による
一実施例について説明する。図1は第1の発明による一
実施例を示す構成図である。図8はネットワークの一例
を示している。図6、7は図8のネットワークから得ら
れる中間表現の一例を示している。図9は意味関係記憶
部105の内容を図示している。図10は構文ヘッド記
憶部107の内容を図示している。
【0037】音声入力部101は、入力される音声デジ
タル信号にし、分析を行ない特徴ベクトルの時系列を求
め連続音声認識部104にその結果を出力する。ネット
ワーク記憶部102は、音声認識の際に認識対象となる
文または単語列を記憶する。図8はネットワーク記憶部
102に記憶される認識用ネットワークの一例を示すも
のである。ネットワーク中にふられた番号はネットワー
ク中の各単語をあらわすアークのID番号である。この
ようなネットワークを始端から終端までたどることがで
きた時入力音声はこのネットワークにて受理されたとす
る。例えば図8の場合は“坂本龍一のコンサートがホー
ルで開いた”、“バーシアのライブを開いた会場”など
の入力音声を受理することができる。単語標準パターン
記憶部は認識対象の単語の音声の標準パターンをあらか
じめ記憶している。単語標準パターン記憶部103に
は、ネットワーク中の単語の標準パターンを記憶してい
る。この標準パターンは例えば音節のようなより小さな
単位を連結したものでも良い。連続音声認識部104
は、前記ネットワークをたどることにより生成される単
語列に従い単語標準パターン記憶部103に記憶されて
いる標準パターンを連結し、音声入力部101から受け
とった入力音声の特徴ベクトルの時系列とのパターンマ
ッチングを行なうことにより入力音声ともっとも音響的
類似性の高い単語列を選択する。連続音声認識部104
は、この単語列をあらわす各単語のアークのIDの列を
認識結果として中間表現生成部106に出力する。中間
表現作成部106は入力されたアークID列と意味関係
記憶部105および構文ヘッド記憶部107の記憶内容
より中間表現を作成し出力する。
【0038】次に、中間表現生成部106の処理につい
て説明する。いま、入力音声が“マドンナのコンサート
をホールで開いた。”であるとする。このとき図8に示
したアークのID番号より音声認識結果として“2,
4,5,8,9,12”というアークIDの列が中間表
現作成部106にわたされる。
【0039】中間表現作成部106では、図9、10の
情報とアークのID列より中間表現を作成する。まずア
ークID番号の列の先頭の2に対して図9のテーブルを
検索すると、ID番号2の欄の親ID番号が11、12
である。この中でアークのID列中にあるのは12番な
ので、中間表現の親は“開いた”でまたCASEの欄か
ら“動作主”の関係であることが分かる。
【0040】また、素性情報の欄から“#名詞意味素
性.{111}”という素性がこの文の中間表現中の
“マドンナ”のところに付与される。ID番号12に対
応するCP“開いた”に関しては、図10の構文ヘッド
記憶部107の情報からこのCPが構文的なヘッドであ
るという情報が中間表現上に付与される。以上のような
処理を繰り返すことにより図6のような中間表現が得ら
れる。
【0041】一方、入力音声が“マドンナのコンサート
を開いたホール。”であるとする。このとき図8にしる
したアークのID番号より音声認識結果として“2,
4,5,8,11,13”というアークID番号の列が
中間表現作成部106にわたされる。このときも同様に
図9に示したような意味関係記憶部105と図10に示
したような構文ヘッド記憶部107の情報より中間表現
が作成されるが、このアークID番号の列が入力の時は
図10の情報によりCP“ホール”が構文的なヘッドで
あるという情報が与えられるので図7のような中間表現
が得られる。
【0042】次に第2の発明による一実施例について説
明する。図2は第2の発明による一実施例を示す構成図
である。第2の発明は図2における意味関係記憶部20
5中の認識用ネットワーク中の各単語に対応するCP、
素性情報、各単語間の依存関係の情報および依存関係向
き記憶部208中の各依存関係の向きの記憶より中間表
現を作成する。図12は音声認識に用いるネットワーク
である。また、図13はこのネットワークに対する意味
関係記憶部205中の内容を、図28はこのネットワー
クに対する依存関係向き記憶部208中の内容を図示し
ている。
【0043】図27は図12におけるネットワークから
作成される中間表現の例を示す図である。
【0044】いま入力文が“マドンナのコンサートが開
かれた場所を教えて下さい。”であるとする。すると音
声認識結果のアークID番号の列は“1,4,5,7,
8,10,12,13”となる。
【0045】この結果であるアークID番号列から、中
間表現を作成していく際に、各CP間の依存関係を向き
をもし図28の向きの項が“+”であれば親となるCP
から子となるCPにむけたものとし、もし図28の向き
の項が“−”であれば子となるCPから親のCPにむけ
たものとする。例えばCP××××××とその親となる
CP“開く”は、依存関係が“動作主”であり向きの項
が“+”であるので依存関係の向きが親CPから子CP
に向いたものになる。
【0046】また、CP“開く”とその親となるCP
“場所”は、依存関係が“場所”であり向きの項が
“−”であるので依存関係の向きが子CPから親CPに
向いたものになる。
【0047】他の処理は第1の発明と全く同じである。
【0048】次に第3の発明による一実施例について説
明する。図3は第3の発明による一実施例を示す構成図
である。図14にネットワークの一実施例を示す。ここ
でネットワークに付与している101、102、103
等の数字は各ネットワークを区別するためのネットワー
クID番号である。図15は第3の発明による一実施例
を説明する模式図である。図16は第3の発明による一
実施例を説明する意味関係記憶部の内容を示す図であ
る。
【0049】本実施例では、意味関係記憶部305から
だけではなく、対話履歴記憶部308の内容も用いて中
間表現を作成する。
【0050】例えば、図14に示した認識用ネットワー
クを用いた場合、“How much tickets
do you want?”という入力音声が入力さ
れた後に“I want tow.”という音声が入力
されたとする。
【0051】まず、“How much ticket
s do you want?”という入力音声が正し
く認識された時に、認識結果よりネットワークID番号
101のネットワークにより認識されたという情報が連
続音声認識部304から対話履歴記憶部308に渡され
記憶される。次に“I want two.”という音
声が入力されると中間表現生成部306では対話履歴記
憶部308における前入力音声が発話がネットワークI
D番号101のネットワークにより認識されたという情
報と図16に示した意味関係記憶部305の内容により
中間表現を作成する。今、前発話が101であるから、
図16よりCP“ticket”がCP“2”の親とな
ることがわかる。この結果、図15に示した中間表現が
生成される。
【0052】ここで参照する発話は必ずしも直前のもの
のみに限らず、例えば過去数発話中のネットワークID
で、意味関係記憶部305での判断対象とするものでも
っとも近いものを選ぶといった方法でも良い。
【0053】他の処理は第1、第2の発明と全く同じで
ある。
【0054】次に第4の発明による一実施例について説
明する。
【0055】図17、18、19、20、21は、第4
の発明による一実施例を説明する模式図である。
【0056】第4の発明では、第1の発明に加えて例え
ば図17のようなネットワークを用いて音声認識を行な
う場合、中間表現から例えば日本語のような単数か複数
かを区別しないような言語を生成するために中間表現を
用いる時は図19のような中間表現を作成すれば良い
が、英語のように名詞が単数か複数かで冠詞が“a”で
あるか“the”であるかが変わるような言語を生成す
るときには、中間表現には図18のように“book”
に数量の素性情報を付与する必要がある。
【0057】したがって、例えば日本語生成用の中間表
現作成には意味関係記憶部105中の図21のような情
報を、英語生成用の中間表現作成には意味関係記憶部1
05中の図20のような情報を用いる。
【0058】このようにして、中間表現を作成すること
により生成言語ごとに冗長な素性情報を削除することが
できるようになるため、中間表現からの文生成をより速
くすることが出来る。
【0059】他の処理は第1、2の発明と全く同じであ
る。
【0060】次に第5の発明による一実施例について説
明する。図4は第5の発明による一実施例を示す構成図
である。図22は第5の発明による一実施例を説明する
音声認識用ネットワークを示す図である。図23、24
は第5の発明による一実施例を説明する模式図である。
【0061】いま、図22の認識用ネットワークを用い
て音声入力を行なうものとする。このとき、場面がチケ
ット予約の場面であれば、CP“ticket”を、場
面がペンを買う場面であれば、CP“pen”を補う必
要がある。このような場合、場面切替えスイッチ408
から場面切替部407に選択された場面の情報が送るこ
とにより、意味関係記憶部405では場面がチケット予
約の場面であれば図23を、場面がペンを買う場面であ
れば図24を中間表現作成に用いることができる。
【0062】他の処理は第1の発明と全く同じである。
【0063】次に第6の発明による一実施例について説
明する。図5は第6の発明による一実施例を示す構成図
である。
【0064】図17はネットワークの一例を示してい
る。
【0065】図25は意味関係記憶部の内容を図示して
いる。図26は図17のネットワークから得られる中間
表現の一例を示している。図30は音声合成パラメータ
記憶部510の内容を図示している。
【0066】いま、図17のネットワークを持ちいて音
声認識を行なう際に、“I want a boo
k.”という音声が入力されたものとする。この時正し
く認識が行なわれたとすると中間表現生成部506に
“1,2,3,4”というアークID番号の列が渡され
る。この結果と意味関係記憶部505および音声合成パ
ラメータ記憶部510の情報から中間表現が作成され
る。意味関係記憶部505の内容を図25に示す。ま
た、図30に示したように、音声合成に用いる音声合成
パラメータの情報を音声合成パラメータ記憶部510に
あらかじめ与えておく。このとき図26に示したような
中間表現が作成される。例えば図30の場合では、アー
クID番号4のアークから作成されるCP“book”
に合成の際に強調するという情報を付与する。
【0067】文生成部508ではこの中間表現により文
を生成する。このとき“私は〈〈本〉〉が欲しい。”の
ように強調すべき部分の情報も付与する。この結果を用
いて音声合成部509では合成音を作成する。
【0068】ここで中間表現に付与する音声合成のため
の情報は強調すべき部分の情報に限らずアクセント情報
やポーズの情報でも良い。
【0069】他の処理は第1の発明と全く同じである。
【0070】
【発明の効果】以上述べたように本発明によれば、出力
される中間表現中に構文的なヘッドを明示的に示す情報
を付与することにより、より適切な意味表現を出力する
ことができる連続音声認識方式を提供することができ
る。
【0071】また、本発明によれば、各CP間の依存関
係の依存関係の向きを記述することにより適切な意味表
現を出力することができる連続音声認識方式を提供する
ことができる。
【0072】また、本発明によれば、対話の履歴を考慮
することにより各対話の状況ごとの入力音声に対するよ
り適切な意味表現を出力することができる連続音声認識
方式を提供することができる。
【0073】また、本発明によれば、各生成言語ごとに
認識用ネットワークにおけるある単語と他の単語の間の
意味的な関係及び各単語に対する素性情報を記憶する記
憶手段を用意し各言語に依存した情報もそれぞれ与えて
おくことにより適切な意味表現を出力することができる
連続音声認識方式を提供することができる。
【0074】また、本発明によれば、対話の場面スイッ
チを用意しその対話がなされる場面を指定することによ
り、より適切な意味表現を出力することができる連続音
声認識方式を提供することができる。
【0075】また、本発明によれば、出力される意味表
現からより自然な合成音の出力が可能になる連続音声認
識方式を提供することができる。
【図面の簡単な説明】
【図1】第1の発明による一実施例を示す構成図であ
る。
【図2】第2の発明による一実施例を示す構成図であ
る。
【図3】第3の発明による一実施例を示す構成図であ
る。
【図4】第5の発明による一実施例を示す構成図であ
る。
【図5】第6の発明による一実施例を示す構成図であ
る。
【図6】図8におけるネットワークから作成される中間
表現の例を示す図である。
【図7】図8におけるネットワークから作成される中間
表現の例を示す図である。
【図8】第1の発明による一実施例を説明する音声認識
用ネットワークを示す図である。
【図9】第1の発明による一実施例を説明する意味関係
記憶部の内容を示す図である。
【図10】第1の発明による一実施例を説明する構文ヘ
ッド記憶部の内容を示す図である。
【図11】中間表現の例を示す図である。
【図12】第2の発明による一実施例を説明する音声認
識用ネットワークを示す図である。
【図13】第2の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。
【図14】第3の発明による一実施例を説明する音声認
識用ネットワークを示す図であるP。
【図15】図14におけるネットワークから作成される
中間表現の例を示す図である。
【図16】第3の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。
【図17】第4、6の発明による一実施例を説明する音
声認識用ネットワークを示す図である。
【図18】図17におけるネットワークから作成される
中間表現の例を示す図である。
【図19】図17におけるネットワークから作成される
中間表現の例を示す図である。
【図20】第4の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。
【図21】第4の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。
【図22】第5の発明による一実施例を説明する音声認
識用ネットワークを示す図である。
【図23】第5の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。
【図24】第5の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。
【図25】第6の発明による一実施例を説明する意味関
係記憶部の内容を示す図である。
【図26】図17におけるネットワークから作成される
中間表現の例を示す図である。
【図27】図12におけるネットワークから作成される
中間表現の例を示す図である。
【図28】図12のネットワークに対する依存関係向き
記憶部の内容を図示している。
【図29】図8におけるネットワークから作成される中
間表現の例を示す図である。
【図30】第6の発明による一実施例を説明する音声合
成パラメータ記憶部の内容を示す図である。
【符号の説明】
101 音声入力部 102 ネットワーク記憶部 103 単語標準パターン記憶部 104 連続音声認識部 105 意味関係記憶部 106 中間表現生成部 107 構文ヘッド記憶部 201 音声入力部 202 ネットワーク記憶部 203 単語標準パターン記憶部 204 連続音声認識部 205 意味関係記憶部 206 中間表現生成部 207 構文ヘッド記憶部 208 依存関係向き記憶部 301 音声入力部 302 ネットワーク記憶部 303 単語標準パターン記憶部 304 連続音声認識部 305 意味関係記憶部 306 中間表現生成部 307 構文ヘッド記憶部 308 対話履歴記憶部 401 音声入力部 402 ネットワーク記憶部 403 単語標準パターン記憶部 404 連続音声認識部 405 意味関係記憶部 406 中間表現生成部 407 場面切替部 408 場面切替えスイッチ 409 構文ヘッド記憶部 501 音声入力部 502 ネットワーク記憶部 503 単語標準パターン記憶部 504 連続音声認識部 505 意味関係記憶部 506 中間表現生成部 507 構文ヘッド記憶部 508 文生成部 509 音声合成部 510 音声合成パラメータ記憶部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 561 G10L 3/00 551 G10L 3/00 571 G06F 17/28 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 連続音声認識対象の文法を表現する単語
    に関するネットワークを記憶する第1の記憶手段と、単
    語の標準パターンを前記ネットワークにしたがって結合
    して連続音声を認識する連続音声認識手段と、前記ネッ
    トワークにおけるある単語と他の単語の間の意味的な関
    係及び各単語に対する素性情報を記憶する第2の記憶手
    段と、意味的な関係を表した時に文の構文的なヘッドに
    なるものを記憶する第3の記憶手段と、前記連続音声認
    識手段から生じる認識結果及び前記第2、第3の記憶手
    段からその中間表現を出力する手段とを備えることを特
    徴とする連続音声認識装置。
  2. 【請求項2】 連続音声認識対象の文法を表現する単語
    に関するネットワークにおけるある単語と他の単語の間
    の意味的な関係の向きを記憶する第4の記憶手段を備え
    ることを特徴とする請求項1記載の連続音声認識装置。
  3. 【請求項3】 対話の履歴を記憶する第5の記憶手段
    と、連続音声認識対象の文法を表現する単語に関するネ
    ットワークにおけるある単語と他の単語の間の意味的な
    関係及び各単語に対する素性情報を記憶する第2の記憶
    手段と前記第5の記憶手段からその中間表現を出力する
    手段とを備えることを特徴とする請求項1または2記載
    の連続音声認識装置。
  4. 【請求項4】 連続音声認識対象の文法を表現する単語
    に関するネットワークを記憶する第1の記憶手段と、単
    語の標準パターンを前記ネットワークにしたがって結合
    して連続音声を認識する連続音声認識手段と、前記ネッ
    トワークにおけるある単語と他の単語の間の意味的な関
    係及び各単語に対する素性情報を記憶する各言語ごとに
    用意された第2の記憶手段と、前記連続音声認識手段か
    ら生じる認識結果及び前記第2の記憶手段からその中間
    表現を出力する手段とを備えることを特徴とする連続音
    声認識装置。
  5. 【請求項5】 対話の場面を切替える手段と、連続音声
    認識対象の文法を表現する単語に関するネットワークを
    記憶する第1の記憶手段と、単語の標準パターンを前記
    ネットワークにしたがって結合して連続音声を認識する
    連続音声認識手段と、対話の場面ごとに前記ネットワー
    クいおけるある単語と他の単語の間の意味的な関係及び
    各単語に対する素性情報を記憶する第2の記憶手段と、
    前記連続音声認識手段から生じる認識結果及び前記第2
    の記憶手段からその中間表現を出力する手段とを備える
    ことを特徴とする連続音声認識装置。
  6. 【請求項6】 連続音声認識対象の文法を表現する単語
    に関するネットワークにおける各単語に対する音声合成
    パラメータを記憶する第6の記憶手段を備えることを特
    徴とする請求項1、2、3、4または5記載の連続音声
    認識装置。
JP3338655A 1991-12-20 1991-12-20 連続音声認識装置 Expired - Fee Related JP2819904B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3338655A JP2819904B2 (ja) 1991-12-20 1991-12-20 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3338655A JP2819904B2 (ja) 1991-12-20 1991-12-20 連続音声認識装置

Publications (2)

Publication Number Publication Date
JPH05216491A JPH05216491A (ja) 1993-08-27
JP2819904B2 true JP2819904B2 (ja) 1998-11-05

Family

ID=18320225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3338655A Expired - Fee Related JP2819904B2 (ja) 1991-12-20 1991-12-20 連続音声認識装置

Country Status (1)

Country Link
JP (1) JP2819904B2 (ja)

Also Published As

Publication number Publication date
JPH05216491A (ja) 1993-08-27

Similar Documents

Publication Publication Date Title
CN102176310B (zh) 具有巨大词汇量的语音识别系统
US20030074196A1 (en) Text-to-speech conversion system
JPH0916602A (ja) 翻訳装置および翻訳方法
KR20080040960A (ko) 대응 문형 패턴 기반 자동통역 방법 및 장치
JP2011504624A (ja) 自動同時通訳システム
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
JP6397641B2 (ja) 自動通訳装置及び方法
CN109859746B (zh) 一种基于tts的语音识别语料库生成方法及系统
JPH0772888A (ja) 情報処理装置
JPH10260976A (ja) 音声対話方法
JP2819904B2 (ja) 連続音声認識装置
JPH08335096A (ja) テキスト音声合成装置
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP2000187495A (ja) 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
JP2003099089A (ja) 音声認識・合成装置および方法
JP2003162524A (ja) 言語処理装置
JP2002132282A (ja) 電子テキスト読み上げ装置
JP3179370B2 (ja) おしゃべりオウム発声装置
JPH08263499A (ja) 自動翻訳装置及び自動通訳装置
JP2001117922A (ja) 翻訳装置および翻訳方法、並びに記録媒体
JP2002123281A (ja) 音声合成装置
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2817406B2 (ja) 連続音声認識方式
JP2001188556A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980728

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070828

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080828

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080828

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090828

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees