JP2003345797A - 言語変換装置及びプログラム記録媒体 - Google Patents
言語変換装置及びプログラム記録媒体Info
- Publication number
- JP2003345797A JP2003345797A JP2003131271A JP2003131271A JP2003345797A JP 2003345797 A JP2003345797 A JP 2003345797A JP 2003131271 A JP2003131271 A JP 2003131271A JP 2003131271 A JP2003131271 A JP 2003131271A JP 2003345797 A JP2003345797 A JP 2003345797A
- Authority
- JP
- Japan
- Prior art keywords
- language
- sentence
- phrase
- rule
- rules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
音声認識が一部誤りを起こした場合、目的言語への変換
が不可能となり、さらに、変換に必要なフレーズ辞書作
成やフレーズ間規則作成は人手で行なわなければなら
ず、開発効率が悪く手間がかかる。 【解決手段】 原言語文と目的言語文とが対になった対
訳コーパスから単語または単語列に対する文法的または
意味的制約規則を学習して得られた言語規則を格納する
格納手段3、4と、格納された言語規則を用いて入力音
声の音声認識を行い、言語変換の対象となる文で認識結
果を出力する音声認識部7と、音声認識部7で用いられ
たのと同じ言語規則を用いて言語変換の対象となる文を
言語変換された文に変換する言語変換部9とを備えたこ
とを特徴とする。
Description
力テキストを、他言語または他の文体型などに変換して
出力する言語変換装置に関する。
である、入力音声を他言語に翻訳(以下通訳と呼ぶ)す
る装置を例にして説明する。
声文を単語テキスト列で表示された出力文に変換するた
めの音声認識と、単語テキスト列で表示された文を入力
し他言語文に翻訳する言語翻訳とを順次実行することで
通訳を実現している。さらに上記言語翻訳部は、入力文
の統語的または意味的構造を解析する言語解析部と、解
析結果に基づいて他言語に変換する言語変換部と、翻訳
結果から自然な出力文を生成する出力文生成部とから構
成されている。
識した場合や、文にあいづちや言い直しなどが挿入され
たり、文として不完結なまま発声を終えてしまうなど、
発声文自体が統語的または意味的にも不自然な場合は、
音声認識結果を言語解析部に入力しても解析が失敗し、
結果的に翻訳結果が出力されないという問題があった。
割し、フレーズ内とフレーズ間とを分けて規則化し、不
完結な発声にはフレーズ内規則のみを用いて解析し、解
析結果の出力を可能にするように構成することである。
(たとえば 非特許文献1参照。)。図14は従来のフ
レーズ内及びフレーズ間規則例である。この例では、コ
ーパス例301の「今晩 シングルの部屋の予約 お願
いね」に対して、フレーズ内規則は、書き言葉にも共通
な文法規則に基づきフレーズ内規則302のような木構
造で記述し、フレーズ間規則は、学習用コーパスにおけ
るフレーズ間の隣接確率で記述されている。例えばフレ
ーズ間規則はフレーズ間規則303のように記述され
る。
レーズ内規則を当てはめ、フレーズの終端では、各フレ
ーズ毎に隣接確率の高いフレーズ候補が隣接するように
フレーズを接続しながら入力文解析が行われる。このよ
うな文解析方法では、文の一部が誤認識を起こし通常の
文全体の解析が失敗する場合でも、誤認識を含まない部
分のフレーズ解析は正しく行われるため、解析された部
分フレーズのみを翻訳することにより、翻訳結果を部分
的に出力できる枠組みになっている。
文法に則って言語解析を行うのではなく、従来の文法で
は解析できないような発声文も含めた発声文例から、対
応する原言語文と目的言語文の対訳フレーズを抽出し、
このフレーズ対をなるべく一般化した形で記述された対
訳フレーズ辞書を作成し、この辞書を用いて言語解析と
言語変換とを行う方法も提案されている(たとえば、非
特許文献2参照。)。図15は従来の言語変換規則作成
装置である。通訳を行う前に、予め発声文対訳コーパス
から対訳フレーズ辞書を作成する。ここでも、一部の単
語が誤ったり省略されたりすることを考慮し、発声文例
をフレーズ毎に分割し、フレーズ内規則とフレーズ間の
依存規則とを作成している。まず形態素解析部360
で、原言語文と目的言語文との形態素解析を行ない、各
文を形態素列に変換する。次にフレーズ決定部361
で、原言語及び目的言語の形態素例をフレーズ単位に分
割し、フレーズ内規則とフレーズ間の依存関係規則を作
成する。この際のフレーズ単位は、意味的にまとまった
単位であることに加えて、対訳において対応関係が明ら
かな部分文であることを考慮して人手で決定される。た
とえば、「部屋の予約をお願いしたいんですが」「 I'd
like to reserve a room」という対訳文例は、(a)「部
屋の予約」「reserve a room」,(b)「をお願いしたいん
ですが」「I'd like to」という(a)(b)2つの対訳フレ
ーズに分割され、「(a)を(b)する」「(b) to (a)」とい
う依存関係が規則化される。上記対訳フレーズは対訳フ
レーズ辞書362に、フレーズ間の依存関係を対訳の形
で表されたものはフレーズ間規則テーブル363に各々
保管される。このような処理が対訳コーパスに含まれた
全発声文分について行われる。このフレーズの分割と依
存関係は、文の意味的情報やどの程度文法的に崩れてい
ないかの度合いなどのファクターから決定されるため、
自動的に各文について決定することが難しく、従来は人
手で決定されている。
II、Vol.J79−D−II(12)
誌 Vol.35、no.3、1994年3月
従来例における文解析手段においては、扱っているフレ
ーズは原言語のみに依存した言語依存フレーズであり、
目的言語のフレーズ単位とは合わない場合が多い。その
ため、原言語においては正しいフレーズを言語変換部に
入力しても、結局は受理できない場合が多い、という問
題を有している。この第1の従来例の枠組みは、言語非
依存フレーズを用いても可能な枠組みではあるが、その
場合は、言語非依存フレーズの解析を人手で作成する必
要があり、開発に時間がかかる、人手の作成基準の揺れ
が規則性能を歪ませるという新たな問題が生じる。
辞書作成方法においては、発声文の意味的情報や文法的
情報を自動的に解析できる手段がないために、人手で作
成しなければならない。そのため、開発に時間がかか
り、人手の作成基準の揺れが規則性能を歪ませるという
問題点がある。たとえば、通訳装置の目標となるタスク
を変更したり、原言語及び目的言語の言語種が変更にな
った場合は、一度構築した規則を適応できずにはじめか
ら規則を作成しなければならず、開発効率が悪く手間が
かかる。
間規則363は、対訳コーパスの対応関係を重視してフ
レーズ単位を決定しており、音声認識部364が認識す
るのに適切なフレーズ単位であるかどうかの評価がなさ
れているものではない。音声認識にとって適切なフレー
ズかどうかを人手で判断しながらフレーズ単位を決める
ことは困難であり、決定されたフレーズを用いて認識し
た場合、認識率が確保できる保証がない、という課題を
有している。
力音声文に未学習部分があったり、音声認識が一部誤り
を起こしても、必ず目的言語への変換を可能とし、さら
に、変換に必要なフレーズ辞書作成やフレーズ間規則
を、なるべく人手をかけずに自動的に作成できる言語変
換装置、及びプログラム記録媒体を提供することにあ
る。
ために、第1の本発明は、音声またはテキストで入力さ
れる言語変換の対象となる文(以下、原言語文と呼ぶ、
これに対応して言語変換された文を目的言語文と呼ぶ)
と、目的言語文とが対になった学習用データベース(以
下、対訳コーパスと呼ぶ)から単語または単語列に対す
る文法的または意味的制約規則を学習して得られた言語
規則を格納する格納手段と、格納された前記言語規則を
用いて入力音声の音声認識を行い、言語変換の対象とな
る文で認識結果を出力する音声認識部と、前記音声認識
部で用いられたのと同じ前記言語規則を用いて言語変換
の対象となる文を言語変換された文に変換する言語変換
部とを備えたことを特徴とする言語変換装置である。
言語変換の対象となる文と、変換された文とが共に意味
的なまとまりを形成する部分(体型非依存フレーズと呼
ぶ)に分割し、前記体型非依存フレーズ内の言語規則と
前記体型非依存フレーズ間の言語規則とを分けて規則化
されて作られるものであることを特徴とする第1の本発
明の言語変換装置である。
前記体型非依存フレーズ内の文法的または意味的規則と
前記体型非依存フレーズ間の共起または連接関係を規則
化されて作られるものであることを特徴とする第2の本
発明の言語変換装置である。
用いられたのと同じ言語規則を用いて前記言語変換され
た文を音声合成する音声合成部とを備えたことを特徴と
する第1の本発明の言語変換装置である。
ち、目的言語文が同じである言語規則を同じカテゴリー
としてまとめられた言語規則群に対して、前記言語規則
群に含まれる言語規則の言語変換の対象となる文の音響
的規則間距離を算出する規則間距離算出部と、音声認識
の認識レベルを上げるために、算出された前記距離が近
い言語規則どうしをマージすることで前記規則群の最適
化を行う最適規則作成部と、を備えたことを特徴とする
第1〜4の本発明のいずれかの言語変換装置である。
のいずれかの言語変換装置の各構成要素の機能をコンピ
ュータに実行するためのプログラムを格納していること
を特徴とするプログラム記録媒体である。
いて図面を参照して説明する。
態について説明する。
例として、従来例同様、異なる言語間の変換を行う通訳
装置を用いて説明する。図1は本実施の形態の通訳装置
のブロック図である。
前に、言語解析部2で予め対訳コーパスや対訳単語辞書
などを有している学習用データベース1から発声文の原
言語及び目的言語の言語規則を学習する。言語規則の学
習例を図3に示す。
グが付与されている対訳コーパスを用いて原言語文及び
目的言語文の内容語を品詞化する。さらに、原言語にお
けるフレーズと目的言語におけるフレーズとが一まとま
りとして対応している場合に、その一まとまりを体型非
依存フレーズとしてその境界を区切る。すなわち、原言
語における体型依存フレーズと目的言語における体型依
存フレーズとが一まとまりとして対応している場合に、
その一まとまりを体型非依存フレーズの境界とする。原
言語の体型依存フレーズに対応する目的言語の体型依存
フレーズがひとまとまりとして対応しない場合には、対
応する部分が一まとまりとして存在するまで体型依存フ
レーズの連結やフレーズ境界の修正を行い体型非依存フ
レーズとする。図3において、対訳コーパスの文「今
晩、部屋の予約をしたいんですが」「I'd like to room
-reservation tonight」26が、内容語の品詞化30
で、「<普通名詞>|<普通名詞>の<サ変名詞>|を
したいんですが」27のように品詞化されている。また
「<普通名詞>」、「<普通名詞>の<サ変名詞>」、
「をしたいんですが」のように体型非依存フレーズとし
て境界を区切られている。次に各体型非依存フレーズに
おいて、品詞と単語の混合列、および品詞で表されてい
る部分の単語名、さらに各体型非依存フレーズの対訳コ
ーパスにおける出現頻度を体型非依存フレーズ内規則3
として記述する。対訳コーパスの全文に対して上記規則
を記述する。図3においては、上述した内容は、フレー
ズ内規則の記述31により3に記述される。図3の3に
おいて、規則1は、日本語が「<普通名詞>」であり、
英語が「<noun>」である。品詞の内容としては、日本
語が「今晩」、英語が「tonight」となっている。対訳
コーパスに現れていれば、「明日」、「tomorrow」等も
規則1に記述されるものである。
型非依存フレーズ間規則4として記述する。たとえば、
共起関係をフレーズbi-gramとして規則化する場合は、
各体型非依存フレーズの隣接頻度を記述しておく。
間規則の記述32が、28を記述することを意味する。
28がフレーズbi-gramの例である。規則番号対が例え
ば「(規則1)(規則2)」となっており、その出現頻
度が4となっている。これは対訳コーパスから学習する
過程で、規則1と規則2が文中にならんで出現する回数
が4回あったことを意味する。規則2と規則3が文中で
ならんで出現する回数は28の例では6回あったことに
なる。
造も体型非依存フレーズ間規則4に記述しておく。これ
は図3において、フレーズ間規則の記述32が29を記
述することである。つまりフレーズ間規則の記述32
が、日本語と英語で体型非依存フレーズが現れる順序が
違うので、順序関係の対応をつけるために25で言語構
造をツリー状にして対応をとっている。
4で不足している目的言語規則を記述しておく。たとえ
ば、日英翻訳の場合には、冠詞および不定冠詞規則や三
人称単数化規則などがその内容として記述されている。
フレーズ間言語規則4が本発明の格納手段の例である。
はマイクロホン6から入力され音声認識部7に入力され
る。音声認識部では、たとえば、体型非依存フレーズ内
言語規則3として記述されている品詞および単語の混合
列と体型非依存フレーズ間言語規則4としてのフレーズ
bi-gramとにより、時系列に沿って順次認識単語候補が
予測される。予め学習されている音響モデル8と入力音
声との距離値をベースとした音響スコアとフレーズbi-g
ramによる言語スコアとの和を認識スコアとし、Nbest-s
earchにより認識候補である連続単語列が決定される。
このように決定された連続単語列は言語変換部9に入力
される。フレーズ内言語規則3、フレーズ間言語規則4
では、予め原言語と目的言語とが対応しながら規則化さ
れている。言語変換部9では、上記規則を用いて、本連
続単語列は目的言語のフレーズ列に変換され出力され
る。この際、入力された原言語フレーズ列が、既に学習
されたフレーズ間の構文構造に当てはまる場合には、目
的言語のフレーズ列は構文構造に沿って修正された後出
力される。
入力され、文法的な不自然さを修正する。例えば、定冠
詞や不定冠詞の付与、代名詞、動詞における3人称化や
複数化や過去形化などの最適化などが行われる。修正後
の目的言語翻訳結果文はたとえばテキストとして出力さ
れる。
る言語規則を学習する際に、原言語と目的言語とがとも
に意味をもつ一かたまりとなった部分を単位として規則
化を行い、この規則の制約に基づいて認識を行うことに
より、入力音声文に未学習部分があったり、音声認識が
一部誤りを起こしても、全文に対する翻訳結果が全く出
力されないという問題点を解決し、正しく認識された部
分については、適切な翻訳結果を出力できる言語変換装
置を実現できる。
1つの例として通訳装置を例にあげて説明したが、これ
は他の言語変換装置、例えばくだけた発話文を書き言葉
のようなテキスト文に変換する言語変換装置において
も、同様に使用することが出来る。
態について図面を参照しながら説明する。本実施の形態
でも、第1の実施の形態同様、通訳装置を用いて説明す
る。図2は本実施の形態の通訳装置のブロック図であ
る。
前に、予め言語規則作成部11で対訳コーパスや対訳単
語辞書を有している学習データベース1から発声文の原
言語及び目的言語のフレーズ内言語規則12、フレーズ
間言語規則13を学習する。学習される規則は、第1の
実施の形態における言語規則の学習と同様である。次に
学習された言語規則の最適化を行う。最適化の例を図4
に示す。
いて、目的言語フレーズが同じであるフレーズを同カテ
ゴリーとしてまとめる。図4において、12は言語規則
であり、規則間距離算出14で、33のようにカテゴリ
ーとしてまとめる。規則1、規則2、規則3は目的言語
規則が「I'd like to」と同じであるので、同カテゴリ
ーになる。また、規則4は、目的言語規則が「please」
となっているので、規則1、規則2、規則3とは別のカ
テゴリーに分類される。次に同カテゴリーに含まれる原
言語フレーズ間の音響的距離を規則間距離算出部14で
算出する。図4において、15が原言語フレーズ間の音
響的距離を算出した例である。15では、規則1と規則
2の距離は7となっており、規則1と規則3の距離は2
となっている。
の音響的距離は次のように算出する。まず、カテゴリー
内の全ての目的言語フレーズにおける混合列の品詞部分
に、同品詞であれば同じ単語を当てはめ、全ての混合列
を単語列に変換する。次に各単語列の発音が類似してい
るかを調べるために、各単語列の文字列の違いに対する
距離を、(数1)を用いて算出し、規則間距離テーブル
15に記述する。n個の単語からなるフレーズX=[ x
1,x2,x3,...xn](xは各単語)とm個の単語からなるフ
レーズY=[ y1,y2,y3,..ym]との間の距離をD(Xn,Ym)と
して、
値以内であるフレーズの中で、最も出現数の多い規則の
みを残し、他の規則を消去する。たとえば、図4の例で
は、上記一定値を2とした場合、33において、同カテ
ゴリーである規則1と規則3との規則間距離は2であ
り、上記一定値2以下である。従って、この2つの規則
の出現頻度の多い規則1を採用し、規則3を規則から削
除する。それに合わせて出現数も書き換える。
ての規則に対して上記最適規則化を行った後、消去され
なかった言語規則のみをフレーズ内最適言語規則17と
して保管する。最適化された規則に従い、フレーズ間規
則13の中の除去された規則を採用した規則で書き換
え、合わせて出現数も修正する。図4において、最適規
則作成16により規則3は削除され、規則1として1本
化される。それにあわせて、規則1の出現数は、17の
ように削除された規則3との和である15となってい
る。
た上記言語規則で不足している目的言語規則を記述して
おく。たとえば、日英翻訳の場合には、冠詞および不定
冠詞規則や三人称単数化規則などがその内容として記述
されている。
はマイクロホン6から入力され音声認識部7に入力され
る。音声認識部では、たとえば、体型非依存フレーズ内
言語規則17として記述されている品詞および列単語の
混合列と体型非依存フレーズ間言語規則18としてのフ
レーズ隣接頻度とにより、時系列に沿って順次認識単語
候補が予測される。予め学習されている音響モデル8と
入力音声との距離値をベースとした音響スコアとフレー
ズbi-gramによる言語スコアとの和を認識スコアとし、N
best-searchにより認識候補である連続単語列が決定さ
れる。このように決定された連続単語列は言語変換部9
に入力される。言語規則17、18では、予め原言語と
目的言語とが対応しながら規則化されている。言語変換
部9では、上記規則を用いて、本連続単語列は目的言語
のフレーズ列に変換され出力される。この際、入力され
た原言語フレーズ列が、既に学習されたフレーズ間の構
文構造に当てはまる場合には、目的語のフレーズ列は構
文構造に沿って修正された後出力される。
に入力され、文法的な不自然さを修正する。たとえば、
定冠詞や不定冠詞の付与、代名詞、動詞における3人称
化や複数化や過去形化などの最適化などが行われる。修
正後の目的言語翻訳結果文はたとえばテキストとして出
力される。
る言語規則を学習する際に、原言語と目的言語とがとも
に意味をもつ一かたまりとなった部分を単位として規則
化を行った後、規則化されている目的言語部分が同じで
ある原言語フレーズが音響的に類似している場合には、
類似している中から最も出現頻度の高い規則のみを採用
し残りの規則を消去することにより、なるべく言語規則
の性能を落とさずに、体型非依存フレーズを単位にする
ことによる規則数の増加を押さえ、従って高性能な認識
及び言語変換を可能にする通訳装置を実現するものであ
る。なお、本実施の形態では、言語変換装置の1つの例
として通訳装置を例にあげて説明したが、これは他の言
語変換装置、例えばくだけた発話文を書き言葉のような
テキスト文に変換する言語変換装置においても、同様に
使用することが出来る。
変換装置の一例として、従来例同様、異なる言語間の変
換を行う通訳装置を用いて説明する。図5は本実施の形
態の通訳装置のブロック図である。
101、内容語定義表103、対訳単語辞書107、形
態素解析部102、品詞化部104、フレーズ抽出部1
05、フレーズ決定部106は、対訳フレーズ間規則表
108、対訳フレーズ辞書109は、本発明の言語変換
規則作成装置の例である。また、本実施の形態の対訳フ
レーズ辞書109は本発明の請求項6記載のフレーズ辞
書の例である。
前に、形態素解析部102で対訳コーパス101内の原
言語文の形態素解析を行うことで原言語文のみ品詞タグ
が付与された対訳コーパスを作成する。たとえば、図6
の120の「部屋の予約をお願いしたいんですが」の発
声文例では、121のような品詞タグが原言語文に与え
られる。次に、品詞化部104で、上記コーパスの品詞
タグ付き原言語文において、一部の単語名を品詞名に置
きかえた品詞化対訳コーパスを作成する。この際に品詞
名に変換される単語は以下の条件を満たすものとする。 (1)内容語テーブルに記載の品詞に対応する単語であ
る。 (2)対訳単語辞書に登録されている単語で、対訳単語
辞書の目的言語訳に相当する単語が、コーパス内の相当
する目的言語対訳文に存在する。
語テーブルに記載されている一般名詞、さ変名詞、動詞
の中で、対訳単語辞書107に登録されている「部屋」
と「予約」のみが品詞化され、122のようにこれらの
単語を品詞名に置き換えたコーパスが作成される。さら
に、相当する目的言語対訳文内の単語名も123のよう
に日本語品詞名に置き換える。
換えられたコーパスについて、フレーズ抽出部105
は、原言語文、目的言語文別々に、各単語または品詞の
2連鎖出現頻度(以後 bi-gramと呼ぶ)を算出する。算
出式を(数2)に示す。
対象にbi-gramを算出した後、フレーズ抽出部5で、最
も出現頻度の高かった2単語または品詞対を1つの単語
とみなして連結し、再度bi-gramを算出する。これによ
り、たとえば頻度高く隣接する「お」「願い」、「願
い」「し」、「し」「ます」などの単語対が連結され、
「お願いします」というフレーズ候補が形成される。目
的言語では「I'd」「like」、「like」「to」の単語対
が連結される。全原言語文及び目的言語文別々に、以上
の連結とbi-gram算出とを、bi-gramの値が全て一定閾値
を超えなくなるまで繰り返す。そして、連結された単語
も含めた個々の単語をフレーズ候補として抽出する。
目的言語文対において、各フレーズが同時に出現してい
る頻度を算出する。i番目の原言語フレーズをJ[i]、
j番目の目的言語フレーズをE[j]とすると、フレーズ
J[i]とE[j]との共起頻度K[i,j]は、算出式を
(数3)にて算出される。
て記述された3つの対訳文130のうち、原言語フレー
ズの「お願いします」と目的言語フレーズの「I'd like
to」との共起頻度は2/(2+3)、「したいんです
が」と目的言語フレーズの共起頻度は1/ (1+3)とな
る。この頻度が一定値以上のフレーズ対を対訳フレーズ
として決定し、頻度と共にフレーズ番号を付けて対訳フ
レーズ辞書109に登録する。さらに、対訳フレーズと
して決定されなかったフレーズ候補の中で、既に品詞化
されている単語は、それ単独で対訳フレーズとして対訳
フレーズ辞書109に登録する。それ以外の部分は、対
訳対の中で各々の単語列どうしを一対としてフレーズ辞
書に登録する。
対訳フレーズ辞書109に登録される。
後、一文に共起するフレーズ番号を記録し、フレーズ番
号対として対訳フレーズ間規則表108に登録する。図
7の例では132となる。
ramを求め、これも対訳フレーズ間規則表108に記録
する。すなわち、原言語コーパスを、対訳フレーズ辞書
に登録されたフレーズ番号列で表し、フレーズ番号で表
されたコーパスを用いてフレーズbi-gramを求め、これ
も対訳フレーズ間規則表8に記録する。フレーズiに続
くフレーズjの出現確立を表すフレーズbi-gramは(数
4)で表される。
3とフレーズ1のフレーズbi-gramを求める。またフレ
ーズ4、フレーズ5、フレーズ2のフレーズ間規則に関
してはフレーズ4、フレーズ5及びフレーズ5、フレー
ズ2のbi-gramをそれぞれ求め、対訳フレーズ間規則表
108に記録する。
は音声認識部110に入力される。音声認識部113で
は、たとえば、対訳フレーズ辞書109にフレーズとし
て記述されている単語のネットワークと対訳フレーズ間
規則表108にて記述されているフレーズbi-gramとに
より、時系列に沿って順次認識単語候補が予測される。
予め学習されている音響モデル113と入力音声との距
離値をベースとした音響スコアとフレーズbi-gramによ
る言語スコアとの和を認識スコアとし、Nbest-searchに
より認識候補である連続単語列が決定される。
1に入力される。言語変換部111では、入力された連
続単語列を対訳フレーズ辞書109内のフレーズ列に変
換し、各フレーズ列に相当するフレーズ間規則を探索す
る。そして、各フレーズの対訳である目的言語フレーズ
と目的言語のフレーズ間規則とから、入力原言語認識結
果文を目的言語文に変換する。
110と言語変換部111とでともに対訳フレーズ辞書
109と対訳フレーズ間規則表108が使用される。
2に入力され、統語的な不自然さを修正する。たとえ
ば、定冠詞や不定冠詞の付与、代名詞、動詞における3
人称化や複数化や過去形化などの最適化などが行われ
る。修正後の目的言語翻訳結果文はたとえばテキストと
して出力される。
言語フレーズが対応した形で規則を記述しておき、この
フレーズの単位で認識を行ないうことで、入力文の一部
が未知部分文であったり、音声認識が一部誤ったとして
も、正しく認識および解析された部分は適切に処理され
出力される言語変換装置を可能にする。また、原言語文
及び目的言語文各々における単語または品詞の隣接頻度
と、対訳における頻度の高い単語列または品詞列の共起
関係を用いて自動的に対訳フレーズとフレーズ間規則を
決定し、この対訳フレーズ規則を用いて通訳を行うこと
により、なるべく人手をかけずに、自動的に効率よくし
かも品質の高い対訳フレーズ辞書を生成できる言語規則
作成装置を可能とする。
1つの例として通訳装置を例にあげて説明したが、これ
は他の言語変換装置、例えばくだけた発話文を書き言葉
のようなテキスト文に変換する言語変換装置において
も、同様に使用することが出来る。
換装置の一例として、第3の実施の形態同様、異なる言
語間の変換を行う通訳装置を用いて説明する。図8は本
実施の形態の通訳装置のブロック図である。
101、内容語定義表103、対訳単語辞書107、形
態素解析部102、品詞化部104、フレーズ抽出部1
42、フレーズ決定部143は、対訳フレーズ間規則表
145、対訳フレーズ辞書144、フレーズ定義表14
1は、本発明の言語変換規則作成装置の例である。ま
た、本実施の形態の対訳フレーズ辞書144は本発明の
請求項6記載のフレーズ辞書の例である。
前に、第3の実施の形態同様、形態素解析後、品詞タグ
が付与された対訳コーパスを作成する。
ーズとして抽出したい単語または品詞列を規則化して記
述してあるフレーズ定義表141に従い、規則に相当す
る単語または品詞を連結する。たとえば図9の141の
例では、「動詞+助動詞」や「格助詞+動詞」などの規
則により、「を+(動詞)+たい」が単語として連結され
る。このように、上記の一部の内容語が品詞名に置き換
えられ、さらに上記のような単語または品詞列が連結さ
れ一単語とみなされたコーパスについて、原言語文、目
的言語文別々に、各単語または品詞の2連鎖出現頻度
(以後 bi-gramと呼ぶ)を算出する。算出式は(数2)
と同様である。
えなくなるまで、第3の実施の形態と同等に、処理を繰
り返す。そして、連結された単語も含めた個々の単語を
フレーズ候補として抽出し、フレーズ決定部で、第3の
実施の形態と同様に対訳フレーズ辞書144と対訳フレ
ーズ間規則表145を作成する。図9の151はフレー
ズ定義表141に従って単語または品詞が連結されたコ
ーパスの例であり、152が作成された対訳フレーズ辞
書144の例である。
である。
るフレーズとみなしたい単語または品詞列の規則に従っ
て単語または品詞を連結した後、原言語文及び目的言語
文各々における単語または品詞の隣接頻度と、対訳にお
ける頻度の高い単語列または品詞列の共起関係を用いて
自動的に対訳フレーズとフレーズ間規則を決定し、この
対訳フレーズ規則を用いて言語または文体変換とを行う
ことにより、人手を最小限度に押さえた範囲で、さらに
効率よく品質の高い対訳フレーズ辞書を生成できる言語
変換規則作成装置を提供することが出来る。
発明の対応するフレーズの例である。
の1つの例として通訳装置を例にあげて説明したが、こ
れは他の言語変換装置、例えばくだけた発話文を書き言
葉のようなテキスト文に変換する言語変換装置において
も、同様に使用することが出来る。
言語規則を構築する際に、コーパスの一部の単語を品詞
化することで、より一般的で品質の高い規則の構築を実
現しているが、品詞化の代わりに意味コード化すること
でも同様の効果が期待できる。以下に図10を参照しな
がら、本実施の形態を説明する。本実施の形態でも、異
なる言語間の変換を行う通訳装置を用いて説明する。
201、分類語彙表216、対訳単語辞書207、形態
素解析部202、意味コード化部215、フレーズ抽出
部205、フレーズ決定部206は、対訳フレーズ間規
則表208、対訳フレーズ辞書209は、本発明の言語
変換規則作成装置の例である。また、本実施の形態の対
訳フレーズ辞書209は本発明の請求項6記載のフレー
ズ辞書の例である。
形態同様、形態素解析部202で対訳コーパス201内
の原言語文の形態素解析を行うことで品詞タグが原言語
文に与えられる。次に、意味コード化部215で、原言
語文の形態素列において、各形態素と分類語彙表216
に書かれている単語とを比較し、分類語彙表216で意
味コードが与えられている単語と一致した形態素につい
ては、形態素名を意味コードに置きかえることで、入力
形態素列を一部の形態素が意味コード化された形態素列
に変換する。この際に意味コード化される形態素には以
下の条件を満たすものとする。(条件)対訳単語辞書に
登録されている単語で、対訳単語辞書の目的言語訳に相
当する単語が、コーパス内の相当する目的言語対訳文に
存在する。
ておりしかも分類語彙表でコードが与えられている「部
屋」と「予約」のみが意味コード化され、2132のよ
うにこれらの形態素を意味コードに置き換えた形態素列
が作成される。さらに、相当する目的言語対訳文内の単
語名も2133のように意味コードに置き換える。
置き換えられたコーパスについて、フレーズ抽出部20
5で、原言語文、目的言語文別々に、各単語または意味
コードの2連鎖出現頻度を算出する。算出式を(数5)
に示す。
対象にbi-gramを算出した後、フレーズ抽出部で、最も
出現頻度の高かった2単語または意味コード対を1つの
単語とみなして連結し、再度bi-gramを算出する。これ
により、たとえば頻度高く隣接する「お」「願い」、
「願い」「し」、「し」「ます」などの単語対が連結さ
れ、「お願いします」というフレーズ候補が形成され
る。目的言語では「I'd」「like」、「like」「to」の
単語対が連結される。
連結とbi-gram算出とを、bi-gramの値が全て一定閾値を
超えなくなるまで繰り返す。そして、連結された単語も
含めた個々の単語をフレーズ候補として抽出する。
定部206にて対訳フレーズを決定し、対訳フレーズ辞
書209に登録する。さらに第3の実施の形態と同様に
フレーズ間言語規則及びフレーズbi-gramを作成し、対
訳フレーズ間規則表208に登録する。
する。
目的言語フレーズが対応した形で規則を記述しておき、
このフレーズの単位で認識を行ないうことで、入力文の
一部が未知部分文であったり、音声認識が一部誤ったと
しても、正しく認識および解析された部分は適切に処理
され出力される言語変換装置を可能にする。また、原言
語文及び目的言語文各々における単語または意味コード
の隣接頻度と、対訳における頻度の高い単語列または意
味コード列の共起関係を用いて自動的に対訳フレーズと
フレーズ間規則を決定し、この対訳フレーズ規則を用い
て通訳を行うことにより、なるべく人手をかけずに、自
動的に効率よくしかも品質の高い対訳フレーズ辞書を生
成できる言語規則作成装置を可能とする。
1つの例として通訳装置を例にあげて説明したが、これ
は他の言語変換装置、例えばくだけた発話文を書き言葉
のようなテキスト文に変換する言語変換装置においても
同様に使用することが出来る。
言語規則を構築する際に、隣接頻度の高い単語または品
詞、意味コードを連結してフレーズを作成していたが、
フレーズを作成した後に、文複雑度を評価することで、
より品質が高く、認識率を保証できるフレーズを形成す
ることができる。
則作成装置の実施の形態を説明する。
辞書は本発明の請求項6記載のフレーズ辞書の例であ
る。
コード化部213で一部の形態素を意味コードに変換し
た対訳コーパスを作成する。さらに、フレーズ抽出部
で、原言語文、目的言語文別々に、各単語または意味コ
ードのbi-gramを算出する。算出式は(数5)と同様で
ある。
えなくなるまで、先の実施の形態と同等に、処理を繰り
返す。そして、連結された単語も含めた個々の単語をフ
レーズ候補として抽出する。
18で、各単語または意味コードのbi-gramを算出し、b
i-gramの値によって連結処理を行う際に、各単語対を連
結した場合と連結しない場合との文複雑度を算出し比較
する。文複雑度は(数6)で算出されるものである。
単語または意味コードを連結することで文複雑度が増加
するものについては、フレーズ候補から除去する。
を対象に、先の実施の形態と同条件でフレーズを決定
し、対訳フレーズ辞書209とフレーズ間規則表208
を決定する。
定する際に、意味コードによる単語クラス化された対訳
コーパスの文複雑度を用いて決定することにより、コー
パスから対訳フレーズを自動的に抽出することを可能と
し、人手をなるべく用いずに、効率よく品質の高い対訳
フレーズ辞書を生成できる。また、文複雑度の尺度が、
音声認識に適切なフレーズかどうかの尺度と密接に関係
があるため、認識精度を保証しながら、自動的にフレー
ズ抽出することが可能となる。
味コード化したコーパスを扱ってフレーズ抽出する例を
説明したが、品詞化したコーパスを扱ってフレーズ抽出
する場合でも同様の効果が期待できる。
が付与された対訳コーパスを扱ってフレーズ定義表によ
りフレーズを抽出する例を説明したが、第5の実施の形
態で説明したように一部の単語を意味コード化したコー
パスを扱って、フレーズ定義表によりフレーズを抽出す
る場合でも同様の効果が期待できる。
換装置は、音声認識部、言語変換部、出力文生成部から
構成されるとして説明したが、これに限らない。図13
に示すように、出力文生成部212が出力した翻訳結果
文を音声合成する音声合成部を設けても構わない。そし
てこの音声合成部は、音声合成する際に音声認識部21
0、言語変換部211で用いられたのと同じ対訳フレー
ズ間規則表208、対訳フレーズ辞書209を用いて音
声合成を行う。このようにすれば入力音声文に未学習部
分があったり、音声認識が一部誤りを起こしても、全文
に対する音声合成結果が全く出力されないという問題点
を解決し、正しく認識された部分については、適切な音
声を出力できることが期待できる。
変換規則作成装置の各構成要素の全部または一部の機能
を専用のハードウェアを用いて実現しても構わないし、
またコンピュータのプログラムによってソフトウェア的
に実現しても構わない。
変換規則作成装置の各構成要素の全部または一部の機能
をコンピュータに実行させるためのプログラムを格納し
ていることを特徴とするプログラム記録媒体も本発明に
属する。
に、本発明は、必ず目的言語文に変換可能な認識結果を
出力でき、従って、入力文の一部が未知部分文であった
り、音声認識が一部誤ったとしても、正しく認識および
解析された部分は適切に処理され出力されることを可能
にする言語変換装置及びプログラム記録媒体を提供する
ことが出来る。
があったり、音声認識が一部誤りを起こしても、正しく
認識され適切な解析規則が当てはまった部分のみの変換
が可能であり、部分的な変換結果を必ず出力することを
可能にする言語変換装置及びプログラム記録媒体を提供
することが出来る。
置の構成を示すブロック図
置の構成を示すブロック図
作成を説明する図
則の作成を説明する図
置及び言語規則作成装置の構成を示すブロック図
則の作成を説明する図
ズ間規則表と対訳フレーズ辞書の例を示す図。
置及び言語規則作成装置の構成を示すブロック図
義表の例を説明する図
装置及び言語規則作成装置の構成を示すブロック図
の作成を説明する図
規則作成装置の構成を示すブロック図
示すブロック図
例を示す図
Claims (6)
- 【請求項1】 音声またはテキストで入力される言語変
換の対象となる文(以下、原言語文と呼ぶ、これに対応
して言語変換された文を目的言語文と呼ぶ)と、目的言
語文とが対になった学習用データベース(以下、対訳コ
ーパスと呼ぶ)から単語または単語列に対する文法的ま
たは意味的制約規則を学習して得られた言語規則を格納
する格納手段と、 格納された前記言語規則を用いて入力音声の音声認識を
行い、言語変換の対象となる文で認識結果を出力する音
声認識部と、 前記音声認識部で用いられたのと同じ前記言語規則を用
いて言語変換の対象となる文を言語変換された文に変換
する言語変換部とを備えたことを特徴とする言語変換装
置。 - 【請求項2】 前記言語規則は、言語変換の対象となる
文と、変換された文とが共に意味的なまとまりを形成す
る部分(体型非依存フレーズと呼ぶ)に分割し、前記体
型非依存フレーズ内の言語規則と前記体型非依存フレー
ズ間の言語規則とを分けて規則化されて作られるもので
あることを特徴とする請求項1記載の言語変換装置。 - 【請求項3】 前記言語規則は、前記体型非依存フレー
ズ内の文法的または意味的規則と前記体型非依存フレー
ズ間の共起または連接関係を規則化されて作られるもの
であることを特徴とする請求項2記載の言語変換装置。 - 【請求項4】 前記言語変換部で用いられたのと同じ言
語規則を用いて前記言語変換された文を音声合成する音
声合成部とを備えたことを特徴とする請求項1記載の言
語変換装置。 - 【請求項5】 前記言語規則のうち、目的言語文が同じ
である言語規則を同じカテゴリーとしてまとめられた言
語規則群に対して、前記言語規則群に含まれる言語規則
の言語変換の対象となる文の音響的規則間距離を算出す
る規則間距離算出部と、 音声認識の認識レベルを上げるために、算出された前記
距離が近い言語規則どうしをマージすることで前記規則
群の最適化を行う最適規則作成部と、を備えたことを特
徴とする請求項1〜4のいずれかに記載の言語変換装
置。 - 【請求項6】 請求項1〜5のいずれかに記載の言語変
換装置の各構成要素の機能をコンピュータに実行するた
めのプログラムを格納していることを特徴とするプログ
ラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003131271A JP2003345797A (ja) | 1998-06-04 | 2003-05-09 | 言語変換装置及びプログラム記録媒体 |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15555098 | 1998-06-04 | ||
JP10-155550 | 1998-06-04 | ||
JP3925399 | 1999-02-17 | ||
JP11-39253 | 1999-02-17 | ||
JP4118699 | 1999-02-19 | ||
JP11-41186 | 1999-02-19 | ||
JP2003131271A JP2003345797A (ja) | 1998-06-04 | 2003-05-09 | 言語変換装置及びプログラム記録媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15648499A Division JP3441400B2 (ja) | 1998-06-04 | 1999-06-03 | 言語変換規則作成装置、及びプログラム記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003345797A true JP2003345797A (ja) | 2003-12-05 |
Family
ID=29783279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003131271A Pending JP2003345797A (ja) | 1998-06-04 | 2003-05-09 | 言語変換装置及びプログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003345797A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008102794A (ja) * | 2006-10-19 | 2008-05-01 | Fujitsu Ltd | フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 |
JP2017142757A (ja) * | 2016-02-12 | 2017-08-17 | 日本電信電話株式会社 | 情報処理方法、装置、及びプログラム |
-
2003
- 2003-05-09 JP JP2003131271A patent/JP2003345797A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008102794A (ja) * | 2006-10-19 | 2008-05-01 | Fujitsu Ltd | フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 |
US8630839B2 (en) | 2006-10-19 | 2014-01-14 | Fujitsu Limited | Computer product for phrase alignment and translation, phrase alignment device, and phrase alignment method |
JP2017142757A (ja) * | 2016-02-12 | 2017-08-17 | 日本電信電話株式会社 | 情報処理方法、装置、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO1999063456A1 (fr) | Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme | |
US6278968B1 (en) | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system | |
US6442524B1 (en) | Analyzing inflectional morphology in a spoken language translation system | |
US6223150B1 (en) | Method and apparatus for parsing in a spoken language translation system | |
US6243669B1 (en) | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation | |
US6282507B1 (en) | Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection | |
US6266642B1 (en) | Method and portable apparatus for performing spoken language translation | |
US6356865B1 (en) | Method and apparatus for performing spoken language translation | |
US6374224B1 (en) | Method and apparatus for style control in natural language generation | |
JP4439431B2 (ja) | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム | |
US8566076B2 (en) | System and method for applying bridging models for robust and efficient speech to speech translation | |
JP2001101187A (ja) | 翻訳装置および翻訳方法、並びに記録媒体 | |
JP3441400B2 (ja) | 言語変換規則作成装置、及びプログラム記録媒体 | |
Gao et al. | MARS: A statistical semantic parsing and generation-based multilingual automatic translation system | |
JP3009636B2 (ja) | 音声言語解析装置 | |
JP4007413B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP3825645B2 (ja) | 表現変換方法及び表現変換装置 | |
JP2003345797A (ja) | 言語変換装置及びプログラム記録媒体 | |
JP3737817B2 (ja) | 表現変換方法及び表現変換装置 | |
JP4033093B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP2001117922A (ja) | 翻訳装置および翻訳方法、並びに記録媒体 | |
JP2001100788A (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
JP2001117583A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP3972697B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP4033088B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061020 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061114 |