JP3009654B1 - 機械翻訳処理装置 - Google Patents

機械翻訳処理装置

Info

Publication number
JP3009654B1
JP3009654B1 JP10313072A JP31307298A JP3009654B1 JP 3009654 B1 JP3009654 B1 JP 3009654B1 JP 10313072 A JP10313072 A JP 10313072A JP 31307298 A JP31307298 A JP 31307298A JP 3009654 B1 JP3009654 B1 JP 3009654B1
Authority
JP
Japan
Prior art keywords
translation
expression
utterance
speech
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10313072A
Other languages
English (en)
Other versions
JP2000137717A (ja
Inventor
英輝 田中
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP10313072A priority Critical patent/JP3009654B1/ja
Application granted granted Critical
Publication of JP3009654B1 publication Critical patent/JP3009654B1/ja
Publication of JP2000137717A publication Critical patent/JP2000137717A/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【要約】 【課題】 従来技術に比較して高い精度で機械翻訳する
ことができ、特に音声翻訳システムにおいて正確に翻訳
することができる機械翻訳処理装置を提供する。 【解決手段】 決定木学習部52は、正解の発話意図タ
グ付きの対訳のコーパスデータに基づいて翻訳結果の表
現を示すクラスと所定の属性とを参照して各属性毎の属
性値を分類しかつクラスを付与した属性表を生成した
後、各属性の属性値に依存して分割されるような複数分
岐形式の木構造を有し、代表表現の翻訳結果の表現を決
定するための翻訳決定木を各代表表現毎に学習すること
により生成する。翻訳処理選択部51は、入力された翻
訳元言語の文字列に基づいて複数の翻訳決定木を用い
て、応答表現テーブル内の応答表現及び過去の発話意図
タグを参照して翻訳処理を行って翻訳先言語の表現の単
語列を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、翻訳元言語の文字
列を、翻訳先言語の単語列に機械翻訳する機械翻訳処理
装置に関する。
【0002】
【従来の技術】機械翻訳システムにおいて適切な訳語の
選択は重要な問題である。訳語の選択を行うには、表現
の変換を記述した何らかの規則を利用する。この種の規
則を、どういう情報を使って記述するかが問題になる
が、従来は下記のような研究が行われている。
【0003】
【表1】 ――――――――――――――――――――――――――――――――――― (1)1文内の情報を使って、人手で翻訳ルールを作成する手法。 (例えば、従来技術文献1「山田節夫ほか,”強調融合機械翻訳”における訳語 選択”,言語処理学会第4回年次大会発表論文集,言語処理学会発行,pp.5 08−511,1988年」参照。) ――――――――――――――――――――――――――――――――――― (2)1文内の情報を使って、機械学習手法を利用して翻訳ルールを自動作成す る手法。 (例えば、従来技術文献2「田中英輝,”動詞訳語選択のための「格フレーム木 」の統計的な学習”,自然学習処理,Vol.2,No.3,pp.49−72 ,1995年7月」参照。) ―――――――――――――――――――――――――――――――――――
【0004】これらの技術は翻訳の規則を人手で獲得す
る、機械学習の手法を使うといった違いがあるが、1つ
の文の中の情報を使うことで翻訳規則を記述する点で一
致している。このような方式を以下「1文方式」と呼
ぶ。
【0005】
【発明が解決しようとする課題】この1文方式では、文
間の情報や表層に出現しない情報を考慮しない。ところ
が翻訳を行う場合には、その発話意図の情報や、話者の
情報といった1文を越えた範囲の情報が必要になる場合
がある。例えば、日英音声翻訳を行う状況で「はい」と
いう表現は「相づち」なのか「肯定」の返事なのかとい
う字面に現われていない発話意図の違いによって「u
h」と「Yes」を訳し分ける必要がある。1文方式で
は「はい」という字面の情報しか利用しないため、どち
らかの訳を選択するしかなく正しく訳し分けることはで
きない。
【0006】また、「I see.」という英語表現を
日本語にする問題を考える。この表現は、話者がホテル
の担当者、あるいは申し込みをしている客によって、
「かしこまりました」と「わかりました」に訳し分ける
必要がある。1文方式では先ほどの理由でどちらかに固
定した訳となり正しく翻訳することができない。
【0007】上記の問題は音声翻訳システムにおける翻
訳で特に、重要となる。音声翻訳では「はい」や「かし
こまりました」などの応答に関する短い発話が多い。こ
のような短い表現には翻訳に利用できる情報が字面以外
にほとんどない。このため文に出現しない情報の役割が
大きくなる。
【0008】本発明の目的は以上の問題点を解決し、従
来技術に比較して高い精度で機械翻訳することができ、
特に音声翻訳システムにおいて正確に翻訳することがで
きる機械翻訳処理装置を提供することにある。
【0009】
【課題を解決するための手段】本発明に係る請求項1記
載の機械翻訳処理装置は、発話意図を分類して各発話意
図に対して付与した標識である発話意図タグ付きの形態
素解析結果を含む入力された翻訳元言語の文字列を、翻
訳先言語の単語列に機械翻訳する機械翻訳処理装置であ
って、正解の発話意図タグが予め付与され、翻訳元言語
と翻訳先言語の対訳のコーパスデータを記憶する第1の
記憶手段と、翻訳元言語の所定の代表表現とそれに属す
る出現表現との対からなる応答表現テーブルを記憶する
第2の記憶手段と、翻訳元言語の代表表現毎に設けら
れ、代表表現を翻訳するための複数の翻訳決定木を記憶
する複数の第3の記憶手段と、以前に処理した過去の発
話意図タグを記憶する発話意図タグスタックメモリと、
上記第1の記憶手段に記憶された対訳のコーパスデータ
に基づいて、翻訳結果の表現を示すクラスと、現在の処
理対象の発話の発話意図タグと、現在の処理対象の発話
の出現表現と、過去の発話意図タグと、話者とを含む属
性とを参照して、各属性毎の属性値を分類しかつクラス
を付与した属性表を生成した後、各属性の属性値に依存
して分割されるような複数分岐形式の木構造を有し、代
表表現の翻訳結果の表現を決定するための翻訳決定木
を、上記各代表表現毎に学習することにより生成してそ
れぞれ複数の第3の記憶手段に記憶する学習手段と、上
記入力された翻訳元言語の文字列に基づいて、上記複数
の第3の記憶手段に記憶された複数の翻訳決定木を用い
て、かつ上記第2の記憶手段に記憶された応答表現テー
ブル及び上記発話意図タグスタックメモリに記憶された
過去の発話意図タグを参照して翻訳処理を行って翻訳先
言語の表現の単語列を出力する制御手段とを備えたこと
を特徴とする。
【0010】また、請求項2記載の機械翻訳処理装置
は、請求項1記載の機械翻訳装置において、上記制御手
段は、上記入力された翻訳元言語の文字列において上記
第2の記憶手段に記憶された応答表現テーブル内の代表
表現に属する出現表現に一致しない表現があるときは、
別の機械翻訳装置を用いて翻訳処理を行って翻訳先言語
の表現の単語列を出力することを特徴とする。
【0011】さらに、請求項3記載の機械翻訳処理装置
は、請求項1又は2記載の機械翻訳装置において、さら
に、発声された音声を音声認識して、音声認識された文
字列を出力する音声認識手段と、上記音声認識手段から
出力される文字列に対して形態素解析処理を行うことに
より文字列を形態素毎に分割しかつ品詞を含む情報を付
与して、形態素解析された文字列を出力する形態素解析
手段と、上記形態素解析手段から出力される形態素解析
された文字列に対して、発話によって達成しようとする
機能である発話意図の認識を行って、発話意図タグ付き
形態素解析結果を含む文字列を上記制御手段に出力する
発話意図認識手段とを備えたことを特徴とする。
【0012】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0013】<第1の実施形態>図1は、本発明に係る
第1の実施形態である発話意図認識システム100の構
成を示すブロック図である。この実施形態の発話意図認
識システム100は、図1に示すように、(a)マイク
ロホン1と、(b)音声認識装置2と、(c)形態素解
析装置3と、(d)発話意図認識装置10とから構成さ
れ、本実施形態は、発話意図認識装置10を備えたこと
を特徴としている。
【0014】発話意図すべき発声話者の音声はマイクロ
ホン1に入力されて音声信号に変換された後、音声認識
装置2に入力される。音声認識装置2は、入力された音
声信号をデジタル音声データにA/D変換した後、所定
の音素隠れマルコフモデルを参照して音素認識した後、
所定の単語辞書及び文法規則を参照して、公知の音声認
識方法により音声認識してその結果(文字列)を形態素
解析装置3に出力する。これに応答して、形態素解析装
置3は、公知の形態素解析方法を用いて、入力された文
字列を形態素単位に分割して、品詞などの形態素情報を
付与して発話意図認識装置10に出力する。形態素解析
装置10の詳細な処理については詳細後述する。
【0015】次いで、発話意図認識装置10の処理につ
いて詳細に説明する。まず、本明細書で用いる用語につ
いて、次の表の通り定義を行う。
【0016】
【表2】 用語の定義 ――――――――――――――――――――――――――――――――――― 用語 定義 ――――――――――――――――――――――――――――――――――― 発話 話者の発声する音声 ターン 1人の話者が継続して発声した発話 発話意図 発話によって達成しようとする機能 発話意図タグ 発話意図を分類して作成した標識 発話意図単位 発話中で1つの発話意図を含む部分 ―――――――――――――――――――――――――――――――――――
【0017】従来例で述べた例をこの用語を使って説明
すると、「えー大丈夫だと思いますが空き室状況をお調
べしますので少々お待ち下さい」という1つのターンの
発話を4つの発話意図単位に分割し、それぞれに発話意
図タグを付与したとなる。また、発話意図タグは旅行会
話用に設定した次の表に示すものを使う。
【0018】
【表3】 発話意図タグの一覧 ――――――――――――――――――――――――――――――――――― 記号 内容 ――――――――――――――――――――――――――――――――――― ACCEPT 承諾 ACKNOWLEDGE 発話を聞いていることの通知 ACTION-REQUEST 動作の要求 ALERT 警告 APOLOGY 謝罪 BELIEVE 信念 CONFIRMATION-QUESTION 確認の質問 DESIRE 話者の希望 DO-YOU-UNDERSTAND-QUESTION 内容が理解できたかどうかの質問 FAREWELL 別れの挨拶1(客側) GOOD-WISHES 別れの挨拶2(ホテル側) GREET 挨拶 INFORM 内容の伝達 INFORMATION-REQUEST 情報の要求 INSTRUCT 命令 NO 否定的回答 OFFER 申し出 OFFER-FOLLOW-UP 申し出の追加 PERMISSION-REQUEST 許可を求める発話 PROMISE 約束 REJECT 拒絶 SUGGEST 提案 TEMPORIZER 「あー」「あのう」などの発話の最初に 発声する間投詞 THANK 感謝 TANKS-RESPONSE 感謝への返答 VOCATIVE 呼び掛け(鈴木さまなど) WH-QUESTION いつ、どこで、何をなどに関する質問 YES 肯定 YN-QUESTION 内容の真偽に関する質問 ―――――――――――――――――――――――――――――――――――
【0019】本実施形態の発話意図認識装置10の処理
を一般的に言えば、「文字列を分割してタグを付与する
作業」である。これは形式的に、形態素解析装置3の形
態素解析処理と同様であるが、形態素解析処理は、入力
される文字列を分割して品詞というタグを付与する作業
である。一方、発話意図タグの付与は、形態素解析済み
の発話文字列を入力として、これを、発話意図単位に分
割して発話意図タグを付与する作業である。すなわち形
態素列が与えられたときに適切な形態素間で分割して各
部分に発話意図タグを付与する作業である。本実施形態
に係る発話意図認識処理では、確率形態素解析方法を用
いて、具体的には1ターンに相当する形態素解析済みの
発話が与えられた場合に、確率の積が最大になるように
与えられた形態素列を発話意図単位に分割して発話意図
タグを付与することを特徴としている。
【0020】次いで、本明細書で用いる記号の定義及び
処理に関する記述方法について説明する。sは文字、m
は形態素、uは発話意図単位、tは発話意図タグを表
す。大文字で表示した場合はそれぞれの系列を表す。す
なわち、Sは文字列、Mは形態素系列、Uは発話意図単
位の系列、T発話意図タグの系列を表す。特に、系列の
添字を明示する場合には、次式のように記述する。
【0021】
【数1】M1 k={m1,m2,…,mk
【数2】U1 n={u1,u2,…,un
【数3】T1 n={t1,t2,…,tn
【0022】なお、発話意図単位uiの形態素の系列を
表示する場合は次式のように記述する。
【0023】
【数4】 ui={m1 (i),…,mx (i),…,mlast(i) (i)
【0024】本実施形態の発話意図認識装置10には、
1つのターンに相当する発話が形態素解析された後、入
力される。本実施形態では、2つ以上のターンを一度に
入力することは考えない。発話意図認識装置10の前段
の形態素解析装置3は、1ターンの発話に相当する入力
文字列Sを音声認識装置2から受け取り、当該文字列S
を形態素単位に分割して、品詞などの属性を付与する。
すなわち、次式のように記述できる。
【0025】
【数5】S→M={m1,m2,…,mk
【0026】この形態素解析処理における属性として
は、以下を考慮する。 (a)品詞。 (b)話者。 (c)ポーズ間隔(ここで、ポーズとは、発話間の沈黙
期間をいう。)。 すなわち、形態素解析装置3は、文字列を受け取りこれ
を形態素に分解してその品詞を含む情報を付与するもの
である。基本的には形態素を登録した形態素辞書と、形
態素間の接続可能性を記述した連接表を用意しておき、
(I)辞書を参照して入力文中の各位置から始まる語を
取りだし、(II)連接可能性を確認しながら取り出され
た語をつないでいく。という2つの処理を繰り返し行う
ことによって実現される。ここで、品詞以外に与えてい
る話者の情報とポーズ間隔の情報は音声認識装置2から
直接得ることを想定している。音声認識装置2は基本的
に形態素解析と等価な処理を含む場合が多い。この場合
には形態素解析を別に設けることなくここで記述した情
報を作成してもよい。
【0027】次いで、発話意図認識装置10では、形態
素列の発話意図単位への分割とその発話意図タグの付与
を行う。すなわち、次式で記述できる。
【0028】
【数6】M={m1,m2,…,mk}→U={u1
2,…,ui,…,un
【0029】また、各発話意図単位uiに対して発話意
図タグtiを付与する。本実施形態で説明する問題を形
式的に定義すると以下のようになる。形態素解析装置3
は、音声認識結果の文字列Sが入力されたときに、これ
を形態素解析する。すなわち、これは次式で表される。
【0030】
【数7】S→M={m1,m2,…,mk
【0031】次いで、発話意図認識装置10は、この形
態素列Mを適切な発話意図単位に分割して、各発話意図
単位に最適な発話意図タグを付与する。すなわち次のよ
うな処理を行う。
【0032】
【数8】M→U={u1,u2,…,ui,…,un} T={t1,t2,…,ti,…,tn
【0033】ここで問題になるのは、どういう発話意図
単位へ分割して、それぞれにどういう発話意図タグを付
与するかである。この処理には極めて多くの解があるた
め、最も適切な解を効率よく見つけることが必須であ
る。適切さの指標としては、次に説明する確率モデルを
採用する。また効率よく解を探索するためには動的計画
法を利用する。
【0034】発話意図タグを付与するために利用する確
率モデルについて説明する。上述したように本発明に係
る実施形態の問題は形態素解析の問題に類似している。
そこで、ここでは、例えば、特開平10−254874
号公報において開示された確率形態素解析の方法を利用
する。なお、ここでは音声認識結果の形態素解析は適切
に終了していることを想定する。形態素解析との類似性
を考慮すると確率モデルは次のようになる。
【0035】
【数9】
【数10】
【数11】
【数12】
【0036】ここで、数12の和を計算する演算子Πの
対象式の2つの積の項についてそれぞれ次式のように数
式の番号を付与する。
【0037】
【数13】P(ui|T1 i-1,U1 i-1,M)
【数14】P(ti|T1 i-1,U1 i,M)
【0038】なお、数10から数11を導出するために
は、
【数15】 P(A,B|C)=P(B|C)P(A|B,C) が成り立つことに注意して、これに次式を代入すればよ
い。
【数16】 A=ti, B=ui,及び C=(U1 i-1,T1 i-1
【0039】ここで、数13で示された確率P(ui|T
1 i-1,U1 i-1,M)は、直前までの発話意図単位系列と発
話意図タグ系列及び形態素列を条件として現在の発話意
図単位uiが発生する確率である。また、数14で示さ
れた確率P(ti|T1 i-1,U1 i,M)は、直前までの発話
意図タグ系列と現在の発話意図単位uiまでの発話意図
単位系列、及び形態素列を条件として現在の発話意図タ
グtiが発生する確率である。
【0040】ところで、この確率モデルは形態素解析の
モデルをそのまま使ったものである。しかしながら、発
話の意図タグ付与の問題は次のような相違点がある。 (相違点I)形態素解析では1文字を読み込んで処理を
行うが、本問題では形態素を1つの単位として読み込
む。このため、1つの形態素の内部での分割の可能性は
ない。 (相違点II)形態素解析では辞書を利用して形態素の区
切り候補を得ることができるが、発話意図タグの付与の
場合には発話意図単位の認定に利用できる辞書がない。
このため、詳細後述するような動的計画法による解の探
索時には、処理位置から後方のすべての形態素境界を発
話意図単位の候補とした処理を行う。
【0041】次いで、発話意図単位の発生確率近似方法
について説明する。上記相違点IIに従うと、任意の形態
素列が与えられたときにそれが発話意図単位として出現
する確率、すなわち、数13の確率を計算する必要が生
ずる。これを、まともにデータから推定することはでき
ない。そこで、数13を2形態素間の分割可能性を与え
る確率を使って次のように近似する。以後、簡略化のた
めに、数13の条件部T1 i-1,U1 i-1,Mをhuと略記す
る。同様に、発話意図単位に対する意図タグを与える数
14の条件部T1 i-1,U1 i,Mをhtと略記する。また、
新たな確率の記号を次のように定義する。
【0042】(1)P(mi▽mi+1):形態素miとm
{i+1}の間で発話が切れる確率。 (2)P(mi→mi+1):形態素miとm{i+1}の
間で発話が続く確率。すなわちP(mi→mi+1)=1−
P(mi▽mi+1) ここで、▽は形態素間が切れることを、→は続くことを
概念的に示す記号である。そして、上記数13は次式の
ように近似することができる。
【0043】
【数17】 P(ui|T1 i-1,U1 i-1,M)=P(ui|hu
【数18】P(ui|T1 i-1,U1 i-1,M)=P(m1 (i),m
2 (i),…,mlast(i)-1 (i)|hu
【数19】 P(ui|T1 i-1,U1 i-1,M) ≒P(mlast(i-1) (i-1)▽m1 (i)|hu) ×P(m1 (i)→m2 (i)|hu) ×P(m2 (i)→m3 (i)|hu) ×… ×P(mlast(i)-1 (i)→mlast(i) (i)|hu) ×P(mlast(i) (i)▽m1 (i+1)|hu
【数20】
【0044】上記20で得られた確率は、uiという発
話意図単位が発声する確率を次式のように、形態素が連
続する確率で近似したものである。
【0045】
【数21】<mlast(i-1) (i-1)▽m1 (i)→m2 (i)→…m
last(i) (i)▽m1 (i+1)
【0046】上記の近似を反映すると、発話の分割と発
話意図タグの付与を行うために使う確率モデルは次式で
表すことができる。
【0047】
【数22】
【0048】ここで、数22の積の演算子Πの演算対象
式の各項を次式のように定義する。
【0049】
【数23】
【数24】P(ti|ht
【0050】ここで、数23は発話意図単位の発生確率
を表し、数24は、その意図単位の取る発話意図タグの
確率を表す。
【0051】次いで、確率決定木の詳細について説明す
る。上述した確率モデルには長い形態素系列と発話意図
タグの履歴huとhtがある。しかしながら、これを考慮
した確率モデルを現実のタグ付きデータから学習するこ
とはほとんど不可能であり、データのスパース性(希薄
性)が問題となる。すなわち、データ量が少ないと、学
習後の確率モデルの精度がきわめて低くなるという問題
が生じる。そこで、上記数23で示した発話意図単位の
発生確率と、数24で示した発話意図タグの確率を計算
するために、スパース性に強い確率決定木を利用する。
以下ではこれらの利用手法について説明する。なお、確
率決定木を学習するための正解データ、すなわち発話を
形態素解析して、正しく発話意図単位に分割した上で発
話意図タグを付与したデータがあるものと仮定する。具
体的には次の表に示す形式の正解タグ付きコーパス(テ
キスト)データがあり、正解タグ付きコーパスメモリ2
0に格納される。このコーパスデータは発話を人手で発
話意図単位に分割して「話者」、「形態素分割結果」、
「発話意図タグ」、「品詞」、「活用」、「ポーズ」の
情報を付加したものである。
【0052】
【表4】
【0053】また、正解タグ付きコーパスデータに基づ
いて確率決定木を学習するための確率決定木学習処理
は、図5を参照して詳細後述するアルゴリズムを利用す
る。
【0054】次いで、発話意図単位の発生確率を与える
確率決定木について説明する。上述のように、発話意図
単位の発生確率は2つの形態素間の分割確率で近似され
ている。これは上記数23に示した通りである。そこで
この確率を計算するのに確率決定木を利用する。形式的
には次式のような形になる。
【0055】
【数25】P(mi▽mi+1|hu)=P(mi▽mi+1
break(hu))
【0056】一般に決定木を学習するには表5に示すよ
うな(属性、属性値、クラス)からなり、各属性毎の属
性値を分類しかつクラスを付与した属性表を作成する必
要がある。ここで、属性値とは、各属性に対応する実際
の値であり、属性値には、形態素、品詞、ポーズ区間が
あり得る。属性表の各行は実際に属性がどういう属性値
を取ったときにどういうクラスになったかを示す事例で
ある。このような属性表を作成するにはまず属性のリス
トを予め決めておく必要がある。この属性表では
{a1,a2,…,an}のn個の属性を利用している。
次に、実際のコーパスデータ中で各属性に対応する属性
値とそのときのクラスを見つけて自動的にこの属性表を
作成する。
【0057】
【表5】 属性表 ――――――――――――――――――――――――――――――――――― a12 …… an クラス ――――――――――――――――――――――――――――――――――― v1112 …… v1n12122 …… v2n13132 …… v3n2 …… …… …… …… …… vm1m2 …… vmnk ―――――――――――――――――――――――――――――――――――
【0058】形態素の分割の確率を与える分割点確率決
定木を学習するには、確率の条件部分huに相当する情
報を属性として利用する。またそのときに、2つの形態
素が切れる、切れないの2値をクラスとして与える。属
性としてはhuの意味する{U1 i-1,T1 i-1,M}の範
囲の情報を使うことができるが、ここでは最も簡単な場
合を説明する。 (1)クラス:隣接する2つの形態素間で発話を切る/
切らない(1/0)(すなわち、分割するか否かを示
す。)。 (2)属性:(a)分割点前後の2形態素。 (b)分割点前後の2形態素の品詞。 (c)分割点のポーズ区間。
【0059】図8に分割に用いる情報の概念図を示す。
この図8ではn=2としている。上記クラスの情報は、
クラスリストとしてクラスリストメモリ21に格納され
る。また、上記の属性の情報は、属性リストとして属性
リストメモリ22に格納される。さらに、分割点確率決
定木を学習するときに作成する属性表は、属性表メモリ
23に格納される。
【0060】図5は、図1の決定木学習部12によって
実行される決定木学習処理を示すフローチャートであ
る。図5において、まず、ステップS11において正解
タグ付きコーパスメモリ20からコーパスデータを読み
込んだ後、ステップS12においてコーパスデータに基
づいて、属性リストとクラスリストとを参照して属性表
を作成して属性表メモリ23に格納する。次いで、ステ
ップS13においてすべての各属性による分割後のエン
トロピーHと、分割前のエントロピーHoを計算する。
これらのエントロピーについては詳細後述する。さら
に、ステップS14においてエントロピーの差(Ho−
H)が最大の属性を選択し、ステップS15において分
割続行判定基準を満たすか否かが判断され、YESのと
きは、ステップS16に進む一方、NOのときはステッ
プS18に進む。ここで、分割続行判定基準とは、以下
の通りである。 (I)選択された属性に基づいて分割したときのエント
ロピーの差(Ho−H)が所定のエントロピーしきい値
Hth以上であり、かつ (II)選択された属性に基づく分割後のクラス数が所定
のクラス数しきい値Dth以上であること。 ステップS15で分割続行判定基準を満足するときは、
ステップS16で、選択された属性の属性値により分割
したノードを作成して、すなわち複数分岐の形式で分割
して、決定木を更新する。そして、ステップS17で
は、上記作成した各ノードを処理対象として、ステップ
S13に戻り、ステップS13からの処理を繰り返す。
一方、ステップS15で分割続行判定基準を満足しない
ときは、ステップS18で、リーフノードのクラスの頻
度分布に応じた分割点確率を上記数25を用いて計算
し、その確率を含む分割点確率決定木を分割点確率決定
木メモリ41に格納した後、当該決定木学習処理を終了
する。
【0061】次いで、決定木学習処理(第1の実施形態
の決定木学習部12及び13、並びに、第2の実施形態
の決定木学習部52で実行される処理)で用いるエント
ロピーについて説明する。
【0062】ここで、あるノード(属性)の下にクラス
集合Cがあるとする。クラス集合Cは分割点確率決定木
であれば1と0のクラスが複数個含まれた集合となる。
タグ候補確率決定木であればクラスである発話意図タグ
の集合となる。さらに、第2の実施形態の翻訳決定木で
あれば、クラスである翻訳表現の集合となる。ここで、
クラス集合Cの要素数をその大きさと呼び、|C|と表
記する。クラス集合Cにk種類のクラスがあるとする。
すなわち、
【数26】C={C1,C2,…,Ci,…,Ck} とする。このクラス集合Ciは同一のクラスを集めたク
ラス集合であることに注意されたい。タグ候補確率決定
木であれば、同じ発話意図タグに分類したものである。
ここで、このクラス集合Cのエントロピーは次式で計算
できる。
【0063】
【数27】
【0064】ここで、エントロピーはクラス集合の「乱
雑さ」に相当する指標である。この値が大きいほどその
クラス集合は乱雑なことなる。
【0065】次いで、分割後のエントロピーについて説
明する。ここで、属性を用いてクラス集合を分割する処
理を考える。クラス集合Cを属性aiを用いて分割する
ことを
【数28】C|ai と表すことにする。具体的には次のような処理を指す。
例えば、後述する表6の属性表の中で、「直前の品詞」
という属性を使ってクラス集合を分割するには、この属
性値が同じもの同士にクラスに分割することを指す。す
なわち「直前の品詞」が「感動詞」であるクラスの集合
「固有名詞」であるクラスの集合などに分割する。
【0066】ここで、クラス集合Cを属性aiを用いて
分割した結果、複数m個のクラス集合になったとする。
すなわち、
【数29】C|ai={B1,B2,…,Bj,…,Bm} となったとする。分割したあとのエントロピーH(C|
i)は次式で計算できる。
【0067】
【数30】 ここで、エントロピーH(C|ai)はクラス集合を属
性で分割したあとの乱雑さを示す指標である。クラス集
合を分割するとエントロピーは必ず減少する(変わらな
い場合もある)ことが知られている。つまり、分割によ
ってクラス集合は必ず「きれい」になるのである。そし
て、属性の有効性は上記2つのエントロピーの差
【数31】Ho(C)−H(C|ai) で評価する。すなわち分割によってクラス集合の乱雑さ
がどれだけ減ったかで評価する。
【0068】従って、決定木学習部12は、正解タグ付
きコーパスメモリ20内の正解タグ付きコーパスデータ
に基づいて、属性リストメモリ21内の属性リストと、
クラスリストメモリ22内のクラスリストとを参照し
て、図5に示した形式の属性表を生成した後、各属性の
属性値に依存して分割されるような複数分岐形式の木構
造を有し、分割点確率を決定するための分割点確率決定
木を学習することにより生成して分割点確率決定木メモ
リ41に格納する。
【0069】以上の実施形態において、前後2形態素の
情報を属性として利用したが、これより長い形態素を利
用することも可能である。最も短い分割点前後1形態素
の情報を使った分割点確率決定木のための属性表の一例
を表6に示す。
【0070】
【表6】 分割点確率決定木のための属性表の一例 ――――――――――――――――――――――――――――――――――― 直前の形態素 直前の品詞 クラス(1/0) /直後の形態素 /直後の品詞 ――――――――――――――――――――――――――――――――――― ありがとうございます 感動詞 1 /ニューヨークシティホテル /固有名詞 ――――――――――――――――――――――――――――――――――― ニューヨークシティホテル 固有名詞 0 /で /助動詞 ――――――――――――――――――――――――――――――――――― で 助動詞 0 /ございま /補助動詞 ――――――――――――――――――――――――――――――――――― ございま 補助動詞 0 /す /語尾 ――――――――――――――――――――――――――――――――――― す 語尾 1 /EWORD /EPOS ――――――――――――――――――――――――――――――――――― あ 間投詞 1 /もしもし /感動詞 ――――――――――――――――――――――――――――――――――― もしもし 感動詞 1 /わたし /代名詞 ――――――――――――――――――――――――――――――――――― わたし 代名詞 0 /田中 /人名 ―――――――――――――――――――――――――――――――――――
【0071】また、表6の属性表を用いて生成した分割
点確率決定木の一例を図9に示す。図9に示すように、
当該分割点確率決定木は、ルートノード300を出発点
とし、各属性301乃至303で複数分岐の形式で分割
された木構造を有し、最後のリーフノード311乃至3
18において各分割点のクラス(すなわち、分割するか
しないかのクラスに分類したときのクラス)に対する頻
度確率である分割確率が付与されている。この例では、
リーフノード314及び318が比較的高い分割確率を
示している。
【0072】次いで、発話意図タグを付与するためのタ
グ候補確率決定木の学習処理について説明する。上記数
24で示された確率を与える確率決定木を作成するに
は、過去の履歴情報htを属性として、そのときの発話
意図タグをクラスとしたデータを作成して学習すれば良
い。ここでも過去の履歴の情報は{U1 i,T1 i-1,M}
の範囲であればよいが、ここでは次のような情報を使っ
てデータを作成する手法を説明する。
【0073】
【数32】P(ti|Dtag(ti-1,ui,M))
【0074】上記数32は1つ前の発話タグと現発話意
図単位(正確には、現在の処理対象の発話意図単位をい
う。)を使って現在の発話意図タグの確率を与える式で
ある。このタグ候補確率決定木を学習するには次のよう
なデータを作成する。 (1)クラス:発話意図タグ (2)属性:(a)現発話意図単位uiに含まれる手が
かり形態素リスト。 (b)直前の発話意図単位の発話意図タグti-1。 (c)現在の話者。
【0075】上記クラスの情報は、クラスリストとして
クラスリストメモリ31に格納される。また、上記の属
性の情報は、属性リストとして属性リストメモリ32に
格納される。さらに、タグ候補確率決定木を学習すると
きに作成する属性表は、属性表メモリ33に格納され
る。
【0076】ところで、現発話意図単位uiを正直に表
現するとすれば、そこに含まれる形態素列をそのままを
使うことになる。しかしながら、このようなデータは極
めてスパースであり意味のある確率を計算することがで
きない。そこで、予め発話意図タグを予測するのに有効
な形態素を求めておき、これを使って計算をする。発話
意図タグを予測するのに有効な形態素は各発話意図タグ
との関連性の強い形態素である。そこで、例えば、表4
に示した、発話意図タグの付いた正解タグ付きコーパス
データ(正解タグ付きコーパスメモリ20に格納されて
いる。)を利用して、各発話意図タグとの関連性の強い
上位複数n個の形態素を抽出する。ここでは、このよう
な形態素のことを「手がかり形態素」と呼ぶ。関連性の
計算にはχ2値を利用した独立性の検定手法を利用する
(例えば、従来技術文献3「東京大学教養学部統計学教
室編,”統計学入門”,第12章,pp.245−25
0,東京大学出版会,1991年」参照。)。具体的に
は次のような処理で各形態素と各発話意図タグのχ2
を計算する。
【0077】図4は、図1の手がかり形態素抽出部11
によって実行される手がかり形態素抽出処理を示すフロ
ーチャートである。図4において、まず、ステップS1
において正解タグ付きコーパスメモリ20からコーパス
データを読み込んだ後、ステップS2においてコーパス
中の全形態素に対する各形態素mの相対頻度を計算す
る。ここで、発話意図タグtを付与された発話意図単位
中の形態素の総数に、この相対頻度を掛けた値をEとす
る。Eは発話意図タグtと形態素mが独立であると仮定
した場合に、発話意図タグtを持つ発話意図単位中に形
態素mが出現すると考えられる期待度数である。また、
発話意図タグtを付与された発話意図単位中に形態素m
が実際に出現した数をOとする。次いで、ステップS3
において次式に従って発話意図タグtと各形態素mとの
独立性の度合いを示す指標値χt,m 2を計算する。
【0078】
【数33】χt,m 2=(O−E)2/E
【0079】数33で示される値は、発話意図タグtと
形態素mが独立であると仮定して期待される度数と、実
際に観測された度数の差を評価したものである。そして
この値が大きいほど独立性が低いこと、つまり関連性が
高いことを示す。次いで、ステップS4において各発話
意図タグtに対して、発話意図タグtとの指標値χt, m 2
の高い順に所定の複数n個の形態素を抽出して、手がか
り形態素リストメモリ34及び属性リストメモリ31に
格納する。すなわち、発話意図タグtとのχ2値の高い
順に複数n個の形態素(n−bestの形態素)を抽出
することで手がかり形態素を得ることができる。例え
ば、n=5で発話意図タグPROMISEと関連性の強
い形態素と発話意図タグAPOLOGYとの関連性の強
い形態素を求めると次の表のようになる。
【0080】
【表7】 関連性の強い形態素(手がかり形態素)の例 ――――――――――――――――――――――――――――――――――― PROMISE APOLOGY ――――――――――――――――――――――――――――――――――― 連絡(サ変名詞) 恐れ入ります(副詞) そのように(副詞) 申し訳ございません(感動詞) しだい(接続助詞) せ(助動詞) 見つか(本動詞) 待(本動詞) 探(本動詞) つ(語尾) ―――――――――――――――――――――――――――――――――――
【0081】このような手がかり形態素をすべての発話
意図タグについて求めて、それらの互いに異なる、手が
かり形態素リストを作成する。これらの手がかり形態素
は、表7から明らかなように、約束(PROMISE)
や謝罪(APOLOGY)などの発話意図を特定する力
が強い形態素である。現在の例には重なりがないので、
10個の形態素をすべてを使って属性リストを作成して
属性リストメモリ31に格納する。正解タグ付きコーパ
スメモリ20内の正解タグ付きコーパスデータである正
解データを使って学習する場合には、この属性に相当す
る形態素が出現するか、しないかを属性値とする。例え
ば、「連絡させて頂きます」という発話に対しては属性
「連絡」の属性値を「出現」とする。
【0082】従って、手がかり形態素抽出部11は、正
解タグ付きコーパスメモリ20内の正解タグ付きコーパ
スデータに基づいて、クラスリストメモリ32内の各発
話意図タグを参照して、各発話意図に対して関連性が強
い手がかり形態素を抽出して手がかり形態素リストメモ
リ34及び属性リストメモリ31に格納する。次いで、
決定木学習部13は、図5の決定木学習処理と同様の処
理(異なるのは、属性、クラス、属性表が異なり、ステ
ップS18に対応するステップでは、リーフノードのク
ラス(発話意図タグ)の頻度分布に応じた付与確率を上
記数32を用いて計算して、その確率を含むタグ候補確
率決定木を生成する。)を実行することにより、正解タ
グ付きコーパスメモリ20内の正解タグ付きコーパスデ
ータに基づいて、属性リストメモリ21内の属性リスト
と、クラスリストメモリ22内のクラスリストとを参照
して、図5に示した形式の属性表を生成した後、各属性
の属性値に依存して分割されるような複数分岐形式の木
構造を有し、発話意図タグ候補の確率を決定するための
タグ候補確率決定木を学習することにより生成してタグ
候補確率決定木メモリ42に格納する。
【0083】表7の手がかり形態素を利用した場合に生
成された属性表の一例を表8に示す。表8の中の「Cu
e」は手がかり形態素である。また、「T」、「F」は
それぞれ出現、非出現を示す。
【0084】
【表8】 タグ候補確率決定木のための属性表の一例 ――――――――――――――――――――――――――――――――――― 話者 直前の発話意図タグ Cue1 Cue2 Cue3 Cue4 … 発話意図タグ ――――――――――――――――――――――――――――――――――― ホテル ACKNOWLEDGE T F F F … INFORM ――――――――――――――――――――――――――――――――――― ホテル INFORM F F F F … ACTION-REQUEST ――――――――――――――――――――――――――――――――――― 客 ACTION-REQUEST F F F T … INFORM ―――――――――――――――――――――――――――――――――――
【0085】さらに、決定木学習部13によって生成さ
れたタグ候補確率決定木の一例を図10に示す。図10
に示すように、当該タグ候補確率決定木は、ルートノー
ド400を出発点とし、各属性401乃至404で複数
分岐の形式で分割された木構造を有し、最後のリーフノ
ード411乃至414において各発話意図タグのクラス
に対する頻度確率である発話意図タグの付与確率が付与
されている。この例では、リーフノード414が比較的
高い付与確率を示している。
【0086】さらに、図11の処理例を参照して、分割
点確率及びタグ候補確率付与部14及び最適解探索部1
5の処理の詳細について以下に説明する。これらの処理
では、最適な発話意図単位への分割と、発話意図タグの
付与は確率形態素解析と同じ手法で探索して決定する。
確率形態素解析には、最適な形態素分割とその品詞付与
結果を1つだけ求める手法と、スコアの高い上位の任意
のn個の解を求める手法がある。そのどちらの手法も使
うことができるが、ここでは最適解だけを求める手法に
ついて動作の処理を説明する。なお、ここでは最適解を
求めるアルゴリズムを単に探索アルゴリズムと呼ぶ。
【0087】図11に「はい、ワシントンホテルでござ
います」という発話の処理例を示す。この発話は、「は
い」、「ワシントンホテル」、「で」、「ございます」
と形態素解析されている。この入力に対して最適な分割
点と分割した発話意図単位に対する発話意図タグを付与
するのが目的である。この場合の正解は次の表の通りで
ある。
【0088】
【表9】 処理例における発話意図タグ付与の正解 ――――――――――――――――――――――――――――――――――― 「はい」 GREET 「ワシントンホテルでございます」 INFORM ―――――――――――――――――――――――――――――――――――
【0089】図11の上部に示したDP1からDP4ま
での位置が形態素の境界であり可能な分割点候補であ
る。また、図中の矢印AR1乃至AR10はそれぞれ、
1つの発話意図単位の候補を示す。分割候補点には、そ
こに至る最適スコア(最大確率)を記憶する変数
opt、分割点直前の最適な発話意図単位(矢印)を記
憶する変数Aopt、及びその最適発話意図単位に与える
最適なタグ候補を格納する変数Toptがある。
【0090】ここで、各矢印AR1乃至AR10に対し
てはその範囲の発話意図単位が発生する確率と発話意図
タグ候補の確率を、分割点確率決定木メモリ41内の分
割点確率決定木と、タグ候補確率決定木メモリ42内の
タグ候補確率決定木とを用いて、上述のように計算する
ことができる。解として求めるのは開始位置DP0から
終了位置DP4までに至る「重ならない矢印の組み合わ
せ」の中で、確率の積が最大になるものである。解候補
の矢印の組み合わせとしては<1,7>,<1,5,9
>などの組み合わせがある。実際には計算の都合上、確
率を対数変換しておき、この値の和が最大になるものを
求める。なお、確率を対数変換したものをスコアと呼
ぶ。すべてを枚挙的に計算するのは計算量の点で問題と
なるため、形態素解析と同様に、公知の動的計画法を用
いて実行する。具体的には図の上の矢印から下に順番に
次の計算を行う。
【0091】(ステップSS1)矢印の範囲の発話意図
単位が発生する対数スコアを計算する。 (ステップSS2)矢印の範囲の発話意図単位の発話意
図タグの候補のスコアを計算し、最大スコアとなる候補
タグをTcanとする。 (ステップSS3)上記2つのスコアの和Sarrowを計
算する。 (ステップSS4)矢印の開始の分割点のもつ最適スコ
アSoptとSarrowの和Stmpを計算する (ステップSS5)和Stmpが矢印の終点位置の最適ス
コアSoptより大きければSopt←Stmpとする。すなわ
ち、和Stmpを最適スコアSoptとして代入する。また、
矢印の終点位置の最適発話意図単位(矢印)Aoptを現
在の発話意図単位(矢印)に置き換える。さらにTopt
←Tcanとするように置き換える。
【0092】以上の処理を各矢印毎に実行して、所定の
複数n個の最適解又は最適の1個の最適解である発話意
図タグを探索して、発話意図タグ付き形態素解析結果と
して出力する。ここで、上記ステップSS5の処理の更
新作業が行われるために、分割点には最適スコアとそれ
を与える最適発話意図単位、及びその発話意図タグが常
に1つ登録されている(なお、正確には最初は何も登録
されていない。)。現在の例で矢印AR10までの処理
が終了すると、分割候補点DP4には1つの最適スコ
ア、直前最適発話意図単位、及びその発話意図タグが格
納されているはずである。これは矢印<4,7,9,1
0>の中の最大スコアを持つものである。
【0093】ここで考案した確率計算法が正しい解を与
えているならば、最適な矢印はAR7でその発話意図タ
グは「INFORM」のはずである。また、矢印AR7
の開始点DP1の最適な発話意図単位(矢印)はAR1
となっているはずで、(DP1に入る矢印はこれだけで
ある。)その発話意図タグは「GREET」のはずであ
る。結果として矢印<1,7>という解が得られること
になる。また、<GREET,INFORM>という発
話意図タグが得られることになる。
【0094】従って、分割点確率及びタグ候補確率付与
部14は、入力される形態素解析された文字列に対し
て、分割点確率決定木とタグ候補確率決定木とを用い
て、形態素に分割すべき分割点確率と、発話意図タグを
付与すべきタグ候補確率とを計算する。これに応答し
て、最適解探索部15は、候補となる発話意図単位で、
上記2つの確率の積がより大きい又は最大となる、所定
の複数n個の最適解又は最適の1個の最適解である発話
意図タグを探索して、発話意図タグ付き形態素解析結果
として出力する。
【0095】以上の実施形態において、音声認識装置
2、形態素解析装置3、手がかり形態素抽出部11、決
定木学習部12及び13、分割点確率及びタグ候補確率
付与部14、並びに最適解探索部15は、例えばデジタ
ル計算機などの中央演算処理装置で構成され、また、各
メモリ20、21、22、23、31、32、33、3
4、41、42は、例えばハードディスクメモリなどの
記憶装置で構成される。
【0096】以上説明したように、本実施形態によれ
ば、正解タグ付きコーパスデータに基づいて手がかり形
態素を抽出した後、正解タグ付きコーパスデータに基づ
いて分割点確率決定木を学習することにより生成する一
方、正解タグ付きコーパスデータと手がかり形態素とに
基づいてタグ候補確率決定木を学習することにより生成
し、入力される形態素解析された文字列に対して上記分
割点確率決定木を用いて分割点確率を計算するととも
に、上記タグ候補確率決定木を用いてタグ候補確率を計
算して、これら2つの確率の積がより大きくなる発話意
図タグを探索して付与することができる。従って、話者
が発声した長い発話を分割して、従来例に比較してより
正確に発話意図を認識できる。この結果、従来方法に比
較して高い精度で発話意図を認識することができる。
【0097】<第1の実施形態の変形例>以上の実施形
態では、日本語の発話意図を認識する装置について説明
しているが、本発明はこれに限らず、英語やその他の言
語の発話意図の認識に利用可能である。
【0098】上述の発話意図は発話の機能を代表する情
報である。一方、発話には伝えたい「内容」がある。こ
の内容に相当する情報を話題と呼んでいる。本来、発話
は機能と話題の両方で成立しており、両方を使った言語
処理手法が考えられている。例えば最初に用いた例「え
ー大丈夫だと思いますが空き室状況をお調べしますので
少々お待ち下さい」という発話には下記のような発話意
図と話題が含まれていると考えられる。
【0099】
【表10】 ――――――――――――――――――――――――――――――――――― 発話意図部分 発話意図 話題 ――――――――――――――――――――――――――――――――――― えー 注意喚起(ACKNOWLEDGE) なし(NULL) ――――――――――――――――――――――――――――――――――― 大丈夫だと思いますが 信念(BELIEVE) 成功(SUCCESS) ――――――――――――――――――――――――――――――――――― 空き室状況をお調べしますので 伝達(INFORM) 空き室状況 (ROOM-STAT) ――――――――――――――――――――――――――――――――――― 少々お待ち下さい 動作要求(ACTION-REQUEST) 待つ(WAIT) ―――――――――――――――――――――――――――――――――――
【0100】話題を表すタグについても話題タグとして
事前に設定しておくことが必要である。そして、発話の
中の1つの話題を担っている部分を話題単位とし、これ
にタグを与えることが考えられる。上記の例は発話意図
単位が話題単位と一致すると考えたものであるが、必ず
しも一致しなくても良い。このような形で話題を取り扱
う場合に、発話の話題を認識する問題が発生する。これ
に対しては本発明の手法と同様の発話意図の認識方式を
使うことで発話の分割と話題の認定が可能になる。すな
わち、本実施形態の発話意図認識装置10は、発話話題
認識装置にも応用可能である。
【0101】<第2の実施形態>図2は、本発明に係る
第2の実施形態である音声認識及び機械翻訳システム2
00の構成を示すブロック図である。この実施形態の音
声認識及び機械翻訳システム200は、図2に示すよう
に、(a)マイクロホン1と、(b)音声認識装置2
と、(c)形態素解析装置3と、(d)発話意図認識装
置10と、(e)機械翻訳処理装置50と、から構成さ
れ、本実施形態は、機械翻訳処理装置50を備え、特
に、発話意図認識装置10から入力される発話意図タグ
が付与された形態素解析結果を含む翻訳元言語の文字列
に基づいて、翻訳元言語から翻訳先言語に翻訳処理を行
って翻訳結果の単語列を出力する翻訳処理選択部51を
備えたことを特徴としている。図2において、図1と同
様のものは同一の符号を付しており、その詳細な説明を
省略する。なお、本実施形態においては、翻訳元言語と
して日本語を用い、翻訳先言語として英語を用いるが、
本発明はこれに限定されない。
【0102】本実施形態で用いる用語の定義を以下に行
う。なお、第1の実施形態と同じ用語についてはその説
明を省略する。 (1)1文方式:翻訳を行う場合に1つの発話文に出現
した字面の情報だけを使う方式をいう。 (2)発話意図単位:第1の実施形態と同様に、発話中
で1つの発話意図を含む部分をいう。1つの発話には複
数の意図を含む可能性がある。本実施形態では、発話意
図単位が処理単位となる。通常、機械翻訳処理では文を
単位に処理を行うため、本実施形態では文と発話意図単
位を同等なものとして扱う。 (3)発話状況:発話文の字面に出現しない情報で、本
実施形態では発声した「話者」と「発話意図」の情報を
指す。 (4)応答表現:発話文に出現する「肯定」、「否
定」、「躊躇」などを意味する比較的短い表現である。
【0103】応答表現の実例を次の表に示す。
【0104】
【表11】 応答表現の例 ――――――――――― はい わかりました かしこまりました 承知しました いいえ そうですね そうですか ―――――――――――
【0105】なお、第2の実施形態においても、発話意
図タグは、第1の実施形態の表3に示された発話意図タ
グを用いる。
【0106】翻訳処理選択部51には、以下のメモリ及
び装置が接続される。 (a)応答表現テーブルを記憶した応答表現テーブルメ
モリ71; (b)代表表現を翻訳するための翻訳決定木メモリ70
−1乃至70−N; (c)前の処理で用いた発話意図タグを順次時系列的に
記憶する発話意図タグスタックメモリ72;及び、 (d)公知の機械翻訳装置。 以下、翻訳処理選択部51の処理を説明する前に、これ
らのメモリ及び装置について説明する。
【0107】上記応答表現テーブルは、翻訳元言語の言
語表現の中で翻訳を行うために、発話状況の情報が必要
になる応答表現を収集して作成した表であり、その一例
を次の表に示す。
【0108】
【表12】 応答表現テーブルの例 ――――――――――――――――――――――――――――――――――― 代表表現 はい かしこまりました わかりました ――――――――――――――――――――――――――――――――――― 出現表現 はい かしこまりました わかりました はい、そうです はい、かしこまりました はい、わかりました じゃあ、わかりました ―――――――――――――――――――――――――――――――――――
【0109】表12から明らかなように、応答表現テー
ブルにおいて、応答表現は、「代表表現」と「出現表
現」から構成される。例えば、代表表現「はい」は実際
の発話の中で「はい、そうです」、「はい」という形で
出現するため、これを代表表現「はい」の下にまとめ
る。この表には、代表表現として「はい」「かしこまり
ました」「わかりました」を収録し、それらに属する知
りうる限りの出現表現を予め登録している。このような
作業の結果、複数n個の代表表現からなる応答表現テー
ブルを作ることができる。
【0110】次いで、翻訳決定木の学習処理について説
明する。応答表現テーブルに格納された代表表現を翻訳
するには、代表表現毎に生成した翻訳決定木70−1乃
至70−Nを用いる。応答表現は複数N個の代表表現か
らなるため、翻訳決定木もN個準備する。これらの翻訳
決定木は、決定木学習部52により、属性リストメモリ
61内の属性リストと、クラスリストメモリ62内のク
ラスリストとを参照して、正解タグ付き対訳コーパスメ
モリ60内の正解の発話意図タグが付与された翻訳元言
語と翻訳先言語との対訳のコーパスデータ(テキストデ
ータ)に基づいて以下に示すように学習して生成する。
当該学習処理においても、第1の実施形態と同様に、表
5の属性表を生成する。この表の各行は実際にこの属性
がどういう値を取り、そのときのクラスが何であったか
を記述する。これらの行を事例と呼ぶ。この表では{a
1,a2,…,an}のn個の属性を利用している。何を
属性として利用するかは事前に属性リストの形で与える
必要がある。
【0111】各応答表現の翻訳用決定木の学習には、属
性リストとして下記を使う。またクラスは翻訳表現であ
る。 (1)クラス:翻訳先言語での翻訳表現(文字列)。 (2)属性リスト:(a)現発話の発話意図タグ。 (b)現発話の出現表現。 (c)過去の発話意図タグ。 (d)話者。
【0112】ここで、現発話とは、現在処理対象の発話
をいう。決定木学習部52では、このような属性リス
ト、及びクラスの実際の値を正解タグ付き対訳コーパス
データから抽出して属性表を作成する。また、正解タグ
付き対訳コーパスデータの一例を次の表に示す。
【0113】
【表13】
【0114】表13から明らかなように、当該コーパス
データは、発話を発話意図単位に分割して、「話者」、
「形態素分割結果」、「発話意図タグ」、「品詞」、
「活用」、「ポーズ」の情報を付加したものである。こ
の情報に加えて応答表現には「翻訳」を加えてある。こ
の例の「かしこまりました」の翻訳は「Okay」とな
っている。なお、ポーズは形態素間の無音区間のミリ秒
を記したものである。このようなコーパスがあれば先に
示した属性リスト及びクラスの値を決めることができ翻
訳決定木学習用の属性表を作成できる。日本語の応答表
現「はい」を翻訳する決定木学習に使う属性表の一例の
一部を次の表に示す。
【0115】
【表14】 「はい」の翻訳決定木のための属性表 ――――――――――――――――――――――――――――――――――― 出現表現 話者 現発話の発話意図タク゛ 直前発話の発話意図タク゛ クラス(翻訳) ――――――――――――――――――――――――――――――――――― はい 客 ACCEPT INFORMATION-REQUEST Okay ――――――――――――――――――――――――――――――――――― はい 客 ACKNOWLEDGE WH-QUESTION null ――――――――――――――――――――――――――――――――――― はい ホテル ACKNOWLEDGE INFORM I see ――――――――――――――――――――――――――――――――――― はい 客 YES CONFIRMATION-QUESTION Yes, that’s right ――――――――――――――――――――――――――――――――――― … … … … … ――――――――――――――――――――――――――――――――――― はい ホテル ACKNOWLEDGE INFORM I see ―――――――――――――――――――――――――――――――――――
【0116】図6は、図2の決定木学習部52によって
実行される決定木学習処理を示すフローチャートであ
る。図6において、まず、ステップS21において正解
タグ付き対訳コーパスメモリ60からコーパスデータを
読み込み、ステップS22においてコーパスデータに基
づいて、属性リストメモリ61内の属性リストと、クラ
スリストメモリ62内のクラスリストとを参照して属性
表を作成して属性表メモリ63に格納する。次いで、ス
テップS23においてすべての各属性による分割後のエ
ントロピーHと、分割前のエントロピーHoを計算し、
ステップS24においてエントロピーの差(H0−H)
が最大の属性を選択し、ステップS25において分割続
行判定基準を満たすか否かが判断される。ここで、エン
トロピー及び分割続行判定基準は、第1の実施形態と同
様である。
【0117】ステップS25でYESのときはステップ
S26に進む一方、NOのときはステップS28に進
む。ステップS26では、選択された属性値により分割
したノードを作成して決定木を更新し、ステップS27
において作成したノードを処理対象としてステップS2
3に戻り、ステップS23からの処理を繰り返す。一
方、ステップS28において属性表メモリ63内の属性
表に基づいてリーフノードのクラスである翻訳表現を決
定し、その翻訳表現を含む翻訳決定木を翻訳決定木メモ
リ(70−1乃至70−Nのうちの1つ)に格納する。
この決定木学習処理は、代表表現毎に実行されて、代表
表現に対応してN個の翻訳決定木70−1乃至70−N
が生成されて格納される。
【0118】図12に当該決定木学習処理により学習し
た「はい」の翻訳用決定木の一例を示す。図12から明
らかなように、当該翻訳決定木は、ルートノード500
を出発点とし、各属性501乃至502で複数分岐の形
式で分割された木構造を有し、最後のリーフノード51
1乃至516において各クラスである翻訳表現が付与さ
れている。
【0119】図13に当該決定木学習処理により学習し
た「かしこまりました」の翻訳用決定木の一例を示す。
図13から明らかなように、当該翻訳決定木は、ルート
ノード600を出発点とし、各属性601乃至602で
複数分岐の形式で分割された木構造を有し、最後のリー
フノード611乃至616において各クラスである翻訳
表現が付与されている。
【0120】図14に当該決定木学習処理により学習し
た「わかりました」の翻訳用決定木の一例を示す。図1
4から明らかなように、当該翻訳決定木は、ルートノー
ド700を出発点とし、各属性701乃至702で複数
分岐の形式で分割された木構造を有し、最後のリーフノ
ード711乃至714において各クラスである翻訳表現
が付与されている。
【0121】次いで、図2の翻訳処理選択部51に接続
された公知の機械翻訳装置53の詳細について説明す
る。図3は、図2の機械翻訳装置53の構成を示すブロ
ック図である。図3に示すように、機械翻訳装置53
は、(a)形態素解析部82と、(b)構文解析部82
と、(c)構文変換部83と、(d)言語生成部84
と、を備えて構成される。
【0122】形態素解析部82は、翻訳処理選択部51
から入力される翻訳元言語の表現(文字列)を単語単位
に分割してその活用形や品詞を認識して構文解析部82
に出力する。この作業には、翻訳元言語の単語と品詞を
登録した辞書を使う。なお、この辞書には単語の意味に
応じた目標言語の対訳も登録することにより、対訳辞書
とし、対訳辞書メモリ91に格納される。次いで、構文
解析部82は、入力される形態素解析結果に基づいて、
品詞や単語間のつながりを記述した、構文解析規則メモ
リ92内の構文解析規則を利用して、翻訳元言語の入力
文の文法的な構造を木構造で表現して構文変換部83に
出力する。次いで、構文変換部83は、入力されたデー
タに基づいて、翻訳元言語の文法構造を、翻訳元言語と
翻訳先言語の文法構造の変換規則を記述した、構文変換
規則メモリ93内の構文変換規則を利用して翻訳先言語
の文法構造に変換して言語生成部84に出力する。ここ
では、語順の変換や態の変換などに相当する処理を行
う。さらに、言語生成部84は、対訳辞書メモリ91内
の対訳辞書を参照して、変換された文法構造から対訳辞
書の訳語を使って翻訳先言語の表現の単語列を生成し
て、図2の翻訳処理選択部51に出力する。
【0123】発話意図タグスタックメモリ72は、スタ
ック型の記憶装置であって、過去の発話意図タグを順次
時系列的に直前の発話意図タグを上位にして格納する。
例えば、格納個所が2つあれば過去2つの発話意図タグ
を格納できる。スタックの大きさは翻訳決定木で使う過
去のタグの範囲にあわせて決定する。
【0124】図7は、図2の翻訳処理選択部51によっ
て実行される翻訳処理選択処理を示すフローチャートで
ある。図7において、まず、ステップS31において発
話意図認識装置10から翻訳元言語の1つの発話意図単
位の表現を読み込み、次いで、ステップS32乃至S3
4においてそれぞれ、順次、応答表現テーブルメモリ7
1に格納された代表表現PP1乃至PPNの出現表現に
一致するか否かが判断される。ステップS32でYES
であれば、ステップS35において翻訳決定木70−1
を用いて翻訳して翻訳結果の表現を一時メモリに記憶し
た後、ステップS39で発話意図タグスタックメモリ7
2に現在の発話の発話意図タグを格納してステップS4
0でステップS35で翻訳した翻訳先言語の翻訳表現を
出力してステップS41に進む。また、ステップS33
でYESであれば、ステップS36において翻訳決定木
70−2を用いて翻訳して翻訳結果の表現を一時メモリ
に記憶した後、ステップS39で発話意図タグスタック
メモリ72に現在の発話の発話意図タグを格納してステ
ップS40でステップS36で翻訳した翻訳先言語の翻
訳表現を出力してステップS41に進む。さらに、他の
代表表現PP3乃至PPN−1についても同様に処理さ
れ、ステップS34でYESであれば、ステップS37
において翻訳決定木70−Nを用いて翻訳して翻訳結果
の表現を一時メモリに記憶した後、ステップS39で発
話意図タグスタックメモリ72に現在の発話の発話意図
タグを格納してステップS40でステップS37で翻訳
した翻訳先言語の翻訳表現を出力してステップS41に
進む。
【0125】なお、ステップS35乃至S37では、属
性によっては、現在の処理よりも以前に処理した発話意
図タグを必要とする場合があり、発話意図タグスタック
メモリ72内のデータを参照して翻訳決定木を用いて翻
訳を行う。
【0126】一方、ステップS32乃至S34でNOで
あるときは、ステップS38で機械翻訳装置53を用い
て翻訳を行って翻訳結果の表現を一時メモリに記憶した
後、ステップS39で発話意図タグスタックメモリ72
に現在の発話の発話意図タグを格納して、ステップS4
0でステップS39で翻訳した翻訳先言語の翻訳表現を
出力してステップS41に進む。さらに、ステップS4
1で次の入力された表現があるか否かが判断され、YE
Sのときは、ステップS31に戻って上記の処理を繰り
返す。ステップS41でNOであれば、当該翻訳処理選
択処理を終了する。
【0127】すなわち、翻訳処理選択部51には、発話
意図認識装置10からの発話意図タグ付き形態素解析結
果を含む翻訳元言語の文字列が入力され、これは、1つ
のターンの発話を発話意図単位に分割してそれぞれに発
話意図タグを付与したものである。翻訳処理選択部51
は、この入力データに対して応答表現であるかどうかを
判定して、そうであれば決定木を使った翻訳を行い、上
述の公知の機械翻訳装置53を利用した翻訳を行う。こ
のような切り替えを行うために、図7の翻訳処理選択処
理で、応答表現テーブルの出現表現と入力が一致するか
どうかを順次検査している。そして、一致した場合に
は、その応答表現(代表表現)に対応する決定木を利用
して翻訳する。翻訳決定木は上述のように、各応答表現
毎に、現在の入力の発話意図タグ、過去の発話意図タ
グ、出現表現、話者の情報を利用して学習して得られた
ものである。このため、翻訳決定木によって翻訳する場
合に過去の発話の発話意図タグが必要になる場合があ
る。そこでこれらを記憶するためのスタック型記憶装置
である発話意図タグスタックメモリ72を用意してい
る。一方、入力がどの応答表現にも一致しない場合(ス
テップS32乃至S34でNO)には公知の機械翻訳装
置53を利用して翻訳する。機械翻訳装置53を使った
場合も、翻訳決定木で翻訳した場合も翻訳が終わった段
階で発話意図タグを発話意図タグメモリに登録する。
【0128】次いで、翻訳処理処理装置50の動作例に
ついて説明する。現在、応答表現テーブルメモリ71内
の応答表現である代表表現に、「はい」、「かしこまり
ました」、「わかりました」があるとして、それぞれの
翻訳決定木が図12乃至図14の翻訳決定木であるよう
に学習されているとする。応答表現テーブルの内容は表
12に従うものとする。ここで、下記のような対話がホ
テルの担当者と客の間で行われたとする。
【0129】
【表15】 ――――――――――――――――――――――――――――――――――― ホテル:それでいつがご希望でしょうか ――――――――――――――――――――――――――――――――――― 客:はい三日から五日までお願いします ―――――――――――――――――――――――――――――――――――
【0130】これらの対話はホテルと客のターンは、第
1の実施形態の発話意図認識装置10によって、発話意
図単位に分割されてそれぞれ発話意図のタグが付与され
る。その結果は次のようになる。
【0131】
【表16】 ――――――――――――――――――――――――――――――――――― 発話意図 話者 :発話意図単位 発話意図タグ 単位の番号 ――――――――――――――――――――――――――――――――――― T1 ホテル:それでいつがご希望でしょうか WH-QUESTION ――――――――――――――――――――――――――――――――――― T2 客 :はい ACKNOWLEDGE ――――――――――――――――――――――――――――――――――― T3 :三日から五日までお願いします ACTION-REQUEST ―――――――――――――――――――――――――――――――――――
【0132】このデータに対して、機械翻訳処理装置5
0内の翻訳処理選択部51によって下記の処理が実行さ
れる。 (1)発話意図単位T1は表12の応答表現テーブルか
らどの応答表現にも該当しないことがわかる。そこで通
常の機械翻訳装置53を利用して英訳を行う。 (2)発話意図単位T1の発話意図タグ「WH−QUE
STION」が発話意図タグスタックメモリ72のトッ
プに格納される。 (3)発話意図単位T2の翻訳を開始する。 (4)発話意図単位T2は応答表現である代表表現「は
い」によって代表されていることが応答表現テーブルメ
モリ71内の応答表現テーブルによって判明する。 (5)図12に示す代表表現「はい」の翻訳用決定木に
よって翻訳する。現発話の発話意図タグは「ACKNO
WLEDGE」であるのでその枝を選択する。また、1
つ前の発話意図タグは発話意図タグスタックメモリ72
をポップすることで「WH−QUESTION」である
ことが判明する。この結果、翻訳決定木による翻訳は
「null(訳さない)」となる。 (6)発話意図タグ「ACKNOWLEDGE」を発話
意図タグスタックメモリ72の先頭に格納し、発話意図
単位T3の処理に移る。これは応答表現テーブルにない
ため機械翻訳装置53を用いて翻訳する。
【0133】以上説明したように、従来技術では発話状
況を考慮した翻訳ができなかった。このため上述したよ
うな例では、代表表現「はい」に対しておそらく「Ye
s」という翻訳を行うものと思われる。これに比較して
本実施形態の機械翻訳処理装置50を使えば、この「は
い」が使われた状況を判断して「翻訳しない」という結
果を得る。このように、発話の状況を利用することでよ
り正確に翻訳できるようになる。従って、本実施形態に
よれば、表現が使用された状況を考慮して、より高い精
度で翻訳することができる。これにより、特に、発話音
声を翻訳する音声翻訳システムにおいて正確に翻訳する
ことができる。
【0134】以上の実施形態において、翻訳処理選択部
51、決定木学習部52及び機械翻訳装置53は、例え
ばデジタル計算機などの中央演算処理装置で構成され、
また、各メモリ60乃至63および71は、例えばハー
ドディスクメモリなどの記憶装置で構成される。
【0135】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の機械翻訳処理装置によれば、発話意図を分類し
て各発話意図に対して付与した標識である発話意図タグ
付きの形態素解析結果を含む入力された翻訳元言語の文
字列を、翻訳先言語の単語列に機械翻訳する機械翻訳処
理装置であって、正解の発話意図タグが予め付与され、
翻訳元言語と翻訳先言語の対訳のコーパスデータを記憶
する第1の記憶手段と、翻訳元言語の所定の代表表現と
それに属する出現表現との対からなる応答表現テーブル
を記憶する第2の記憶手段と、翻訳元言語の代表表現毎
に設けられ、代表表現を翻訳するための複数の翻訳決定
木を記憶する複数の第3の記憶手段と、以前に処理した
過去の発話意図タグを記憶する発話意図タグスタックメ
モリと、上記第1の記憶手段に記憶された対訳のコーパ
スデータに基づいて、翻訳結果の表現を示すクラスと、
現在の処理対象の発話の発話意図タグと、現在の処理対
象の発話の出現表現と、過去の発話意図タグと、話者と
を含む属性とを参照して、各属性毎の属性値を分類しか
つクラスを付与した属性表を生成した後、各属性の属性
値に依存して分割されるような複数分岐形式の木構造を
有し、代表表現の翻訳結果の表現を決定するための翻訳
決定木を、上記各代表表現毎に学習することにより生成
してそれぞれ複数の第3の記憶手段に記憶する学習手段
と、上記入力された翻訳元言語の文字列に基づいて、上
記複数の第3の記憶手段に記憶された複数の翻訳決定木
を用いて、かつ上記第2の記憶手段に記憶された応答表
現テーブル及び上記発話意図タグスタックメモリに記憶
された過去の発話意図タグを参照して翻訳処理を行って
翻訳先言語の表現の単語列を出力する制御手段とを備え
る。従来技術では発話状況を考慮した翻訳ができなかっ
た。このため上述したような例では、代表表現「はい」
に対しておそらく「Yes」という翻訳を行うものと思
われる。これに比較して本発明に係る機械翻訳処理装置
を使えば、この「はい」が使われた状況を判断して「翻
訳しない」という結果を得る。このように、発話の状況
を利用することでより正確に翻訳できるようになる。従
って、本発明によれば、表現が使用された状況を考慮し
て、より高い精度で翻訳することができる。これによ
り、特に、発話音声を翻訳する音声翻訳システムにおい
て正確に翻訳することができる。
【0136】また、請求項2記載の機械翻訳処理装置に
よれば、請求項1記載の機械翻訳装置において、上記制
御手段は、上記入力された翻訳元言語の文字列において
上記第2の記憶手段に記憶された応答表現テーブル内の
代表表現に属する出現表現に一致しない表現があるとき
は、別の機械翻訳装置を用いて翻訳処理を行って翻訳先
言語の表現の単語列を出力する。従って、請求項1記載
の制御手段において翻訳すべき表現が出現表現に一致し
ない表現があるときであっても、機械翻訳することがで
き、より高い精度で翻訳することができる。
【0137】さらに、請求項3記載の機械翻訳処理装置
によれば、請求項1又は2記載の機械翻訳装置におい
て、さらに、発声された音声を音声認識して、音声認識
された文字列を出力する音声認識手段と、上記音声認識
手段から出力される文字列に対して形態素解析処理を行
うことにより文字列を形態素毎に分割しかつ品詞を含む
情報を付与して、形態素解析された文字列を出力する形
態素解析手段と、上記形態素解析手段から出力される形
態素解析された文字列に対して、発話によって達成しよ
うとする機能である発話意図の認識を行って、発話意図
タグ付き形態素解析結果を含む文字列を上記制御手段に
出力する発話意図認識手段とを備える。従って、発話音
声を翻訳する音声翻訳システムにおいて正確に翻訳する
ことができる。
【図面の簡単な説明】
【図1】 本発明に係る第1の実施形態である発話意図
認識システム100の構成を示すブロック図である。
【図2】 本発明に係る第2の実施形態である音声認識
及び機械翻訳システム200の構成を示すブロック図で
ある。
【図3】 図2の機械翻訳装置53の構成を示すブロッ
ク図である。
【図4】 図1の手がかり形態素抽出部11によって実
行される手がかり形態素抽出処理を示すフローチャート
である。
【図5】 図1の決定木学習部12によって実行される
決定木学習処理を示すフローチャートである。
【図6】 図2の決定木学習部52によって実行される
決定木学習処理を示すフローチャートである。
【図7】 図2の翻訳処理選択部51によって実行され
る翻訳処理選択処理を示すフローチャートである。
【図8】 図1の発話意図認識装置10において用いら
れる分割に使う情報を示す図である。
【図9】 図1の分割点確率決定木メモリ41に格納さ
れる分割点確率決定木の一例を示す図である。
【図10】 図1のタグ候補確率決定木メモリ42に格
納されるタグ候補確率決定木の一例を示す図である。
【図11】 図1の発話意図認識装置10の処理例を示
す図である。
【図12】 図2の翻訳決定木メモリ70−1に格納さ
れる代表表現「はい」の翻訳決定木の一例を示す図であ
る。
【図13】 図2の翻訳決定木メモリ70−2に格納さ
れる代表表現「かしこまりました」の翻訳決定木の一例
を示す図である。
【図14】 図2の翻訳決定木メモリ70−3に格納さ
れる代表表現「わかりました」の翻訳決定木の一例を示
す図である。
【符号の説明】
1…マイクロホン、 2…音声認識装置、 3…形態素解析装置、 10…発話意図認識装置、 11…手がかり形態素抽出部、 12,13…決定木学習部、 14…分割点確率及びタグ候補確率付与部、 15…最適解探索部、 21…属性リストメモリ、 22…クラスリストメモリ、 23…属性表メモリ、 31…属性リストメモリ、 32…クラスリストメモリ、 33…属性表メモリ、 41…分割点確率決定木メモリ、 42…タグ候補確率決定木メモリ、 51…翻訳処理選択部、 52…決定木学習部、 53…機械翻訳装置、 61…属性リストメモリ、 62…クラスリストメモリ、 63…属性表メモリ、 70−1,70−2,…,70−N…翻訳決定木メモ
リ、 71…応答表現テーブルメモリ、 72…発話意図タグスタックメモリ、 81…形態素解析部、 82…構文解析部、 83…構文変換部、 84…言語生成部、 91…対訳単語辞書メモリ、 92…構文解析規則メモリ、 93…構文変換規則メモリ、 100…発話意図認識システム、 200…音声認識及び機械翻訳システム。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 鈴木雅実、外1名、“日英対話コーパ スへの談話レベルの情報付与と翻訳への 利用”、電子情報通信学会技術研究報告 (NLC93 31−41)、平成5年、第93 巻、第132号、p.57−64 (58)調査した分野(Int.Cl.7,DB名) G06F 17/28 G10L 3/00

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 発話意図を分類して各発話意図に対して
    付与した標識である発話意図タグ付きの形態素解析結果
    を含む入力された翻訳元言語の文字列を、翻訳先言語の
    単語列に機械翻訳する機械翻訳処理装置であって、 正解の発話意図タグが予め付与され、翻訳元言語と翻訳
    先言語の対訳のコーパスデータを記憶する第1の記憶手
    段と、 翻訳元言語の所定の代表表現とそれに属する出現表現と
    の対からなる応答表現テーブルを記憶する第2の記憶手
    段と、 翻訳元言語の代表表現毎に設けられ、代表表現を翻訳す
    るための複数の翻訳決定木を記憶する複数の第3の記憶
    手段と、 以前に処理した過去の発話意図タグを記憶する発話意図
    タグスタックメモリと、 上記第1の記憶手段に記憶された対訳のコーパスデータ
    に基づいて、翻訳結果の表現を示すクラスと、現在の処
    理対象の発話の発話意図タグと、現在の処理対象の発話
    の出現表現と、過去の発話意図タグと、話者とを含む属
    性とを参照して、各属性毎の属性値を分類しかつクラス
    を付与した属性表を生成した後、各属性の属性値に依存
    して分割されるような複数分岐形式の木構造を有し、代
    表表現の翻訳結果の表現を決定するための翻訳決定木
    を、上記各代表表現毎に学習することにより生成してそ
    れぞれ複数の第3の記憶手段に記憶する学習手段と、 上記入力された翻訳元言語の文字列に基づいて、上記複
    数の第3の記憶手段に記憶された複数の翻訳決定木を用
    いて、かつ上記第2の記憶手段に記憶された応答表現テ
    ーブル及び上記発話意図タグスタックメモリに記憶され
    た過去の発話意図タグを参照して翻訳処理を行って翻訳
    先言語の表現の単語列を出力する制御手段とを備えたこ
    とを特徴とする機械翻訳処理装置。
  2. 【請求項2】 上記制御手段は、上記入力された翻訳元
    言語の文字列において上記第2の記憶手段に記憶された
    応答表現テーブル内の代表表現に属する出現表現に一致
    しない表現があるときは、別の機械翻訳装置を用いて翻
    訳処理を行って翻訳先言語の表現の単語列を出力するこ
    とを特徴とする請求項1記載の機械翻訳処理装置。
  3. 【請求項3】 上記機械翻訳処理装置はさらに、 発声された音声を音声認識して、音声認識された文字列
    を出力する音声認識手段と、 上記音声認識手段から出力される文字列に対して形態素
    解析処理を行うことにより文字列を形態素毎に分割しか
    つ品詞を含む情報を付与して、形態素解析された文字列
    を出力する形態素解析手段と、 上記形態素解析手段から出力される形態素解析された文
    字列に対して、発話によって達成しようとする機能であ
    る発話意図の認識を行って、発話意図タグ付き形態素解
    析結果を含む文字列を上記制御手段に出力する発話意図
    認識手段とを備えたことを特徴とする請求項1又は2記
    載の機械翻訳処理装置。
JP10313072A 1998-11-04 1998-11-04 機械翻訳処理装置 Expired - Fee Related JP3009654B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10313072A JP3009654B1 (ja) 1998-11-04 1998-11-04 機械翻訳処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10313072A JP3009654B1 (ja) 1998-11-04 1998-11-04 機械翻訳処理装置

Publications (2)

Publication Number Publication Date
JP3009654B1 true JP3009654B1 (ja) 2000-02-14
JP2000137717A JP2000137717A (ja) 2000-05-16

Family

ID=18036867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10313072A Expired - Fee Related JP3009654B1 (ja) 1998-11-04 1998-11-04 機械翻訳処理装置

Country Status (1)

Country Link
JP (1) JP3009654B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6140236B2 (ja) 2015-09-30 2017-05-31 ファナック株式会社 機械学習装置及び電動機用着磁装置
JP2017199363A (ja) * 2016-04-21 2017-11-02 国立研究開発法人情報通信研究機構 機械翻訳装置及び機械翻訳のためのコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鈴木雅実、外1名、"日英対話コーパスへの談話レベルの情報付与と翻訳への利用"、電子情報通信学会技術研究報告(NLC93 31−41)、平成5年、第93巻、第132号、p.57−64

Also Published As

Publication number Publication date
JP2000137717A (ja) 2000-05-16

Similar Documents

Publication Publication Date Title
US6374224B1 (en) Method and apparatus for style control in natural language generation
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
JP2848458B2 (ja) 言語翻訳システム
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP2001005488A (ja) 音声対話システム
WO2000045377A9 (en) A method and apparatus for performing spoken language translation
WO2000045290A1 (en) A method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US20060129393A1 (en) System and method for synthesizing dialog-style speech using speech-act information
JP2000200273A (ja) 発話意図認識装置
CN114120985A (zh) 智能语音终端的安抚交互方法、系统、设备及存储介质
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Julia et al. Dialog act classification using acoustic and discourse information of maptask data
JP3009654B1 (ja) 機械翻訳処理装置
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
JP2871557B2 (ja) 音声認識装置
JP3009636B2 (ja) 音声言語解析装置
JP2004347732A (ja) 言語自動識別方法及び装置
JP2003162524A (ja) 言語処理装置
JPH11143493A (ja) 音声言語理解装置及び音声言語理解システム
JP2880436B2 (ja) 音声認識装置
JP2001013992A (ja) 音声理解装置
US20230143110A1 (en) System and metohd of performing data training on morpheme processing rules
JP2905686B2 (ja) 音声認識装置
JPH10232693A (ja) 音声認識装置
KR20240029461A (ko) 사투리 자동 번역 시스템

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees