JP2836159B2

JP2836159B2 - 同時通訳向き音声認識システムおよびその音声認識方法

Info

Publication number: JP2836159B2
Application number: JP2019654A
Authority: JP
Inventors: 博行梶
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1990-01-30
Filing date: 1990-01-30
Publication date: 1998-12-14
Anticipated expiration: 2013-12-14
Also published as: EP0440197A2; US5526259A; JPH03224055A; DE69129163D1; EP0440197A3; DE69129163T2; EP0440197B1

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音声認識技術に係わり、特に、同時通訳音
声タイプライタに適用するのに好適な同時通訳向き音声
認識システムおよびその音声認識方法に関するものであ
る。

〔従来の技術〕

従来より、テキストをコンピュータあるいはワードプ
ロセッサ等に入力する効率的な方法として、音声入力が
考えられている。確かに、音声を入力するだけで、文字
に変換されれば最も効率的である。

しかしながら、音声認識の困難性のために、従来は、
実用に供し得る音声タイプライタは存在しない。例え
ば、特開昭63−182735号公報に記載されている音声入力
ワードプロセッサにおいては、操作者のキーボード入力
の代りに、文字列を単位として音声入力を行い、語への
変換候補を画面に表示して、最終選択を操作者が行って
いる。これによって、キー入力の手間を大幅に軽減し、
文書入力の高速化を図ろうとしている。ところが、実際
には、音声認識における曖昧性の解消が操作者の役割と
なり、最終選択の段階で時間がかかってしまう。

一方、キーボードによる入力方法は、既に実用化され
ている。膨大な数の漢字を含む日本語テキストの入力方
法としては、キーボードから仮名入力するか、ローマ字
入力するか、あるいは特殊な入力として漢字を２つの仮
名や数字を含むコードに割り当てて、そのコードを入力
する２ストローク方法等がある。しかしながら、２スト
ローク方法は高速入力が可能であるが、漢字に対応する
コードの記憶に時間がかかり過ぎ、コードを１字毎に参
照してから入力するのでは、時間がかかり過ぎるという
問題がある。また、仮名入力やローマ字入力の方法で
は、文節分かち書きが前提となっていたり、同音異語か
らの正しい語の選択が操作者の役割となっているため、
あまり能率的とは言えなかった。

〔発明が解決しようとする課題〕

このように、従来の音声タイプライタでは、音声認識
における曖昧性を操作者が解消しなければならず、そこ
で時間がかかってしまう。また、キーボードによる仮名
またはローマ字入力の方法では、同音異語からの正しい
語の選択が操作者の役割となっており、やはり能率的で
はない。

本発明の目的は、同時通訳音声タイプライタ等におい
て、元の音声（原音声情報）の音声認識の結果と、それ
を通訳した音声（通訳音声情報）の音声認識の結果とを
組み合わせて、それぞれに含まれる曖昧性の解消を図る
ことにより、最終的な音声認識の精度を大きく向上させ
る同時通訳向き音声認識システムおよびその音声認識方
法を提供することにある。

〔課題を解決するための手段〕

上記目的を達成するために、本発明の同時通訳向き音
声認識システムおよびその音声認識方法は、第１言語の
音声（原音声情報）の認識と、この原音声情報の第２言
語への通訳結果である音声（通訳音声情報）の認識とを
平行して行なう同時通訳向き音声認識システムであっ
て、第１言語の単語に対する第２言語の訳語を対応付け
た単語対訳情報を予め２言語辞書として記憶装置に記憶
しておき、第１音韻認識機能と第１表音記号・文字変換
機能により、入力された原音声情報に対応して複数の単
語候補を抽出し、また、第２音韻認識機能と第２表音記
号・文字変換機能により、原音声情報の通訳結果の通訳
音声情報に対応して複数の単語候補を抽出し、このよう
にしてそれぞれ抽出された単語候補の対で単語対訳情報
に含まれている対を、最尤解選択機能により、２言語辞
書を検索して抽出し、そして、第１表音記号・文字変換
機能により、最尤解選択機能が抽出した単語候補の対に
含まれている単語を優先的に選択して原音声情報に対応
する単語列を決定し、また、第２表音信号・文字変換機
能により、最尤解選択機能が抽出した単語候補対に含ま
れている単語を優先的に選択して通訳音声情報に対応す
る単語列を決定することを特徴とする。

〔作用〕

本発明においては、第１言語での音声（原音声情報）
の認識と、この原音声情報を通訳した音声（通訳音声情
報）の認識とを同時に行なう場合に、それぞれの認識結
果の突き合わせを行なうことにより、それぞれの認識結
果の曖昧性を解消して、両方の認識精度を向上させる。

〔実施例〕

以下、本発明の実施例を、図面により詳細に説明す
る。

ここでは、第１の参考例として翻訳用音声タイプライ
タを、第２の参考例として仮名漢字変換方式の翻訳用ワ
ードプロセッサを、また、それらの変形例として、機械
翻訳の結果を後編集するため、翻訳テキストの断片を入
力する装置と、テキストの要約を入力する装置とを、そ
れぞれ説明する。次に、第３の参考例として、画像のコ
メント文を入力してそれを文字化する装置を説明する。
これは、例えば医用画像に対する医者の所見や、リモー
トセンシング画像に対する専門家の解釈を入力するシス
テムに適用が可能である。さらに、第４の参考例として
音声入力機能付文字認識装置を、そして、本発明に係わ
る実施例として同時通訳音声タイプライタを、それぞれ
説明する。

第１図は、第１の参考例を示す翻訳用音声タイプライ
タの機能ブロック図であり、第２図は、そのハードウェ
ア構成図である。

本実施例の音声タイプライタを実現する機能の構成を
示すと、第１図のようになる。すなわち、原テキストを
表示して操作者に参照させる２言語テキスト表示機能13
と、原テキストを解析する原テキスト解析機能11と、口
述する操作者の音声を表音記号列に変換する音韻認識機
能41と、表音記号列を文字列に変換する表音記号・文字
変換機能12と、これらに付随する原テキストファイル23
と、２言語辞書21と、目標言語辞書22と、翻訳テキスト
ファイル24とから構成されている。

これらの機能を遂行するハードウェアは、中央処理装
置１と、記憶装置２と、マイクロホン３と、音響処理装
置４と、CRTディスプレイ５と、キーボード６と、OCR7
と、プリンタ８とから構成される。第１図に示す原テキ
スト解析機能11と表音記号・文字変換機能12と２言語テ
キスト表示機能13は、いずれもプログラムモジュールで
あって、第２図の中央処理装置１により遂行される。ま
た、第１図の音韻認識機能41は、第２図の音響処理装置
４により遂行される。また、２言語辞書21、目標言語辞
書22、原テキストファイル23および翻訳テキストファイ
ル24は、いずれも第２図の記憶装置２に記憶されてい
る。

ここで、２言語辞書21と原テキスト解析機能11と翻訳
テキスト変換機能（音韻認識機能41）と表音記号・文字
変換機能12を合わせた機能）の作用を述べる。

２言語辞書21は、基本的には原言語の見出し語に対し
て目標言語の対訳語を収録した辞書であるが、本発明の
目的を達成するために対訳語を網羅的に収録しておく。
さらに、対訳語に限らず、見出し語が原テキストに含ま
れるときに、翻訳テキストに使用される可能性がある語
を広く収録しておく。

原テキスト解析機能11は、原テキストを形態素解析し
て、原テキストを構成する語を認識した後、原テキスト
を構成する語をキーとして２言語辞書21を検索し、原テ
キストを構成する語に対応付けられた目標言語の語の集
合を求める。２言語辞書21には、前述のように見出し語
に関連のある目標言語の語が広範囲に収録されている。
従って、操作者がそのような翻訳テキストを作成した場
合でも、原テキスト解析機能11が求めた語集合は、翻訳
テキストを構成する語をかなりの確率で含むことが予想
される。この語集合を、翻訳テキスト構成語候補集合91
と呼ぶ。

音韻認識機能41は、音声波形を解析して、セグメンテ
ーションと特徴パラメータ抽出を行い、各セグメントを
音韻記号のような表音記号でラベル付けする。ここで、
セグメンテーション、表音記号のラベル付けのいずれに
関しても、曖昧性が生じるのが通常である。従って、音
韻認識機能41は、各セグメントに複数の表音記号を尤度
とともに付与し、テキスト全体に対してはラティス形式
（複数の表音記号列の束の形）の解を出力する。音韻認
識機能41については、例えば、『白井良明編‘パターン
理解’（オーム社、昭和62年発行）』に記載されている
技術により実現できる。

表音記号・文字変換機能12は、ラティスに含まれる表
音記号列の中で語にまとめられる部分を探し、その部分
を語に置き換える処理を繰り返すことにより、翻訳テキ
ストの文字表現を得る。この処理は、大きく分けて２つ
のフェーズから成る。

第１のフェーズでは、原テキスト解析機能11の出力で
ある翻訳テキスト構成語候補集合91に含まれる語の表現
記号表現と一致する部分があれば、その部分を語と認識
する。ここで、翻訳テキスト構成語候補集合91に含まれ
る語は、原テキストの語と密接に関係する語であるか
ら、音響的に多少尤度が低くても選択する。

第２のフェーズでは、翻訳テキスト構成語候補集合91
の範囲では、語に変換できなかった区間の処理である。
すなわち、語の候補を目標言語の語彙全体に広げて、第
１のフェーズで語に変換できなかった区間の表音記号列
の中で、語の表音記号表現と一致する部分を探し、一致
する部分を語と認識する。ここで、１つの区間が複数の
語列に変換できるときには、できる限り少数の語からな
るものを優先して選択する。また、表音記号の尤度に基
づいて語の尤度を算出し、尤度の高い語を優先的に選択
する。このようにして、最終的に正解の可能性の高い語
列に変換する。なお、どの語の表現記号表現とも一致し
ない区間があれば、それは表音記号のままに残してお
く。

次に、操作者から見た翻訳用音声タイプライタの動作
を説明する。

先ず原テキストがOCR7を介して原テキストファイル23
に格納される。

この音声タイプライタの処理単位は文であり、操作者
がキーボード６から口述翻訳開始を指示すると、２言語
テキスト表示機能13が原テキストファイル23から１文だ
けを読み出して、これをCRTディスプレイ５の原文表示
領域に表示する。原テキスト解析機能11は、前述の処理
を実行して、翻訳テキスト構成語候補集合91を求める。

CRTディスプレイ５に表示された原文94を参照するこ
とにより、操作者がこれを翻訳し、その翻訳文95を口述
すると、マイクロホン３がこの音声を電気信号に変換す
る。この電気信号を受けた音韻認識機能41、続いて表音
記号・文字変換機能12が、それぞれ前述の処理を実行し
て、翻訳文の文字表記93を得た後、これを翻訳テキスト
ファイル24に格納する。

翻訳文が翻訳テキストファイル24に格納されると、２
言語テキスト表示機能13が翻訳文96をCRTディスプレイ
５の翻訳文領域に表示する。そこで、操作者は、画面を
参照することにより、正しく文字化されたか否かを確認
する。誤りがあれば、操作者はキーボード６から次候補
の表示を要求するか、再入力することを指示する。再入
力の場合には、装置は原文の表示をそのままにして、音
声入力の待機状態に移るので、操作者は前回よりもさら
に注意深く発声して音声入力する。その後、文字化され
た結果に誤りがなければ、操作者はキーボード６から次
の文の翻訳に移ることを知らせる。これにより、２言語
テキスト表示機能13は、CRTディスプレイ５の原文表示
領域に次の文を表示して、それ以降は前の文のときと全
く同じように処理する。なお、翻訳テキストファイル24
に格納された翻訳テキストは、プリンタ８により印刷さ
れる。

第３図は、第１図における２言語辞書のレコード構造
と内容の例を示す図である。

ここでは、原言語が英語で、目標言語が日本語の場合
が示されている。すなわち、２言語辞書21のレコード
は、原言語を見出し語2101としており、目標言語情報と
しては見出し語の対訳語と見出し語から連想される語を
含む。目標言語情報は、語の数2102と各語の表音記号表
現2103、文字表現（漢字仮名混じり文における通常の表
記）2104を含む。２言語辞書21のレコードは、見出し語
2101をキーとして検索することができる。

第４図は、第１図における目標言語辞書のレコードの
構造と内容の例を示す図である。

目標言語辞書22のレコードは、目標言語の表音記号表
現と文字表現（漢字仮名混じり文における通常の表記）
からなる。同一の表音記号表現を持つ語が複数個存在す
ることもあるため、１つのレコードには、１つの表音記
号表現2201と、文字表現の数2202と、その数だけの文字
表現2203とが記憶されている。目標言語辞書22のレコー
ドは、表音記号表現2201をキーとして検索することがで
きる。

第５図は、第１図における原テキスト解析機能11の処
理フローチャートである。

操作者がキーボード６から口述翻訳開始を指示するこ
とにより、１つの文の処理が開始される。先ず、原文中
の処理位置を示す原文位置インジケータが文頭を指すよ
うに初期化する（ステップ1101）。次に、翻訳テキスト
構成語候補集合91の格納エリアをクリアする（ステップ
1102）。次に、原文位置インジケータが文末を指すよう
になるまで、それ以降の処理（ステップ1104〜1110）を
繰り返し行う（ステップ1103）。

先ず、原文中の原文位置インジケータが指す位置から
語を切り出し（ステップ1104）、切り出した語をキーと
して２言語辞書21を検索する（ステップ1105）。検索に
成功したときには（ステップ1106）、検索したレコード
中の目標言語情報（表音記号表現2103と文字表現2104）
を翻訳テキスト構成語候補の格納エリアに登録し（ステ
ップ1107）、原文位置インジケータが次の語の先頭位置
を指すように更新して（ステップ1108）、原文からの語
の切り出し処理に戻る（ステップ1104）。また、２言語
辞書21の検索に失敗したときには（ステップ1106）、原
文中の語が変化形がある可能性があるため、語尾変形処
理を施こした後（ステップ1110）、再度２言語辞書21を
検索する（ステップ1105）。なお、語尾変形処理として
は、名詞複数形のｓ、動詞過去形・過去分詞形のed、等
の規則変化に対応した処理が準備されている。例えば、
原文から切り出された語の末尾がedであれば、edを削除
した文字列あるいはｄのみを削除した文字列とする。こ
のような語尾変形処理を、２言語辞書21の検索に成功す
るまで順次適用していく。どの語尾変形処理によって
も、検索に失敗したときには（ステップ1109）、その語
から翻訳テキスト構成語を予測できなかったものとし
て、原文位置インジケータの更新を行う（ステップ110
8）。

第６図は、第１図における翻訳テキスト構成語候補集
合の例を示す図である。

原テキスト解析機能11から出力される翻訳テキスト構
成語候補集合91は、第６図に示すように、目標言語の表
音記号表現9101と文字表現9102の対の集合である。

表音記号・文字変換機能12の説明の前に、それが扱う
ラティスについて説明する。ラティスの構成要素には、
音韻セグメントと語セグメントの２つがある。

第７図（ａ）は、音韻セグメントのレコードフォーマ
ットを示す図であり、第７図（ｂ）は、語セグメントの
レコードフォーマットを示す図である。

音韻セグメントのレコードは、第７（ａ）図に示すよ
うに、そのセグメントを他のセグメントと区別するため
のセグメント識別番号9201、音韻セグメントであること
を示すセグメントタイプ9202、そのセグメントに与えら
れた表音記号を示す表音記号9203、そのセグメントの表
音信号の確からしさを示す尤度9204、そのセグメントに
前接する音韻セグメントのセグメント識別番号を示す前
接音韻セグメントリスト9205、そのセグメントに後接す
る音韻セグメントのセグメント識別番号を示す後接音韻
セグメントリスト9206、そのセグメントに前接する語セ
グメントのセグメント識別番号を示す前接語セグメント
リスト9207、そのセグメントに後接する語セグメントの
セグメント識別番号を示す後接語セグメントリスト9208
から構成されている。

音韻セグメントは、音韻認識機能41の認識の結果とし
て生成されるもので、前接語セグメントリスト9207、後
接語セグメントリスト9208以外は、音韻認識機能41によ
り値がセットされる。

音韻認識機能41から出力される音韻ラティス92の例
を、第10図（３）に示す。

この例で、『け』『げ』『ん』『こ』『と』『お』
『う』『の』『も』『し』『め』『げ』『き』『り』
『に』は、それぞれが音韻セグメントであり、各々が第
７図（ａ）に示すようなフォーマットのレコードを持っ
ている。

語セグメントのレコードは、第７図（ｂ）に示すよう
に、そのセグメントを他のセグメントと区別するための
セグメント識別番号9211、語セグメントであることを示
すセグメントタイプ9212、そのセグメントの語の文字表
現を示す文字表現9213、そのセグメントの語の確からし
さを示す尤度9214、そのセグメントに前接する音韻セグ
メントのセグメント識別番号を示す前接音韻セグメント
リスト9215、そのセグメントに後接する音韻セグメント
のセグメント識別番号を示す後接音韻セグメントリスト
9216、そのセグメントに前接する語セグメントのセグメ
ント識別番号を示す前接語セグメントリスト9217、その
セグメントに後接する語セグメントのセグメント識別番
号を示す後接語セグメントリスト9218、および語セグメ
ントグループ識別番号9219から構成される。語セグメン
トは、表音記号・文字変換機能12が処理の過程で生成す
る。語セグメントグループ識別番号9219は、表音記号・
文字変換機能12が翻訳テキスト構成語候補集合に含まれ
る語を音韻ラティスから認識した場合、隣接する語セグ
メントをグループ化する役割を持つ。

１つの文に対するラティスは、音韻認識機能41により
認識された音韻に対応する音韻セグメント、表音記号・
文字変換機能12により認識された語に対応する語セグメ
ントの他に、処理の都合上、文の始点、終点をそれぞれ
表わすダミーのセグメントが２つ作成される。ダミーの
セグメントは、処理の都合により、音韻セグメントとし
て扱われたり、あるいは語セグメントとして扱われたり
する。すなわち、実際には、音韻ではないけれども、先
頭と終了の箇所で特殊な処理を行うためである。

第８図は、第１図における表音記号・文字変換機能の
処理フローチャートである。

表音記号・文字変換機能12の処理は、２つのフェーズ
に分割される。

第１のフェーズでは、音韻認識機能41の出力である音
韻ラティス92の中で、翻訳テキスト構成語候補集合91に
含まれる語を優先的に認識する（ステップ1201〜120
3）。

第２のフェーズでは、音韻ラティス92の中の第１のフ
ェーズで語に変換できなかった区間に対して、目標言語
辞書22を参照して語の認識を行う（ステップ1204〜121
3）。

すなわち、第１のフェーズでは、ラティス中の音韻セ
グメント列で翻訳テキスト構成語候補集合91に含まれる
語と一致するものを全て検索し（ステップ1201）、検索
した音韻セグメント列のそれぞれに対応して、語セグメ
ントを生成した後、音韻ラティスに接続する（ステップ
1202）。次に、生成した語セグメントの中で互いに隣接
するものを探して、隣接することをラティスのデータ構
造中に明示する（ステップ1203）。

なお、ステップ1202では、生成する語セグメントの内
容を次のように決定する。セグメント識別番号9211は、
他のセグメントと異なる番号を与える。セグメントタイ
プ9212は‘語セグメント’にする。そして、文字表現92
13は、翻訳テキスト構成語候補集合91中の該当語の文字
表現9102をコピーする。尤度9214は、その語セグメント
にまとめられる音韻セグメント列を構成する各音韻セグ
メントの尤度9204の和を計算して記入する。前接音韻セ
グメントリスト9215は、その音韻セグメント列の先頭音
韻セグメントの前接音韻セグメントリスト9205をコピー
する。これと同時に、その音韻セグメント列の先頭音韻
セグメントの前接音韻セグメントリスト9205に書かれて
いる各音韻セグメントの後接語セグメントリスト9208
に、いま生成中の語セグメントのセグメント識別番号92
11を書き込む。後接音韻セグメントリスト9216は、その
音韻セグメント列の最終音韻セグメントの後接音韻セグ
メントリスト9206をコピーする。これと同時に、その音
韻セグメント列の最終音韻セグメントの後接音韻セグメ
ントリスト9206に書かれている各音韻セグメントの前接
セグメントリスト9207に、いま生成中の語セグメントの
セグメント識別番号9211を書き込む。語セグメントグル
ープ識別番号9219は、自分自身のセグメント番号9211と
同じにする。

第９図（ａ）（ｂ）は、第８図におけるステップ1203
の処理の説明図である。

第９図（ａ）に示すように、語セグメントａの後接音
韻セグメントリスト9216に書かれた音韻セグメントで、
語セグメントｂの前接音韻セグメントリスト9215に書か
れた音韻セグメントに後接するものがあれば、語セグメ
ントａに語セグメントｂが後接していると判定して、第
９図（ｂ）に示す構造に変更する。すなわち、語セグメ
ントａの後接語セグメントリスト9218に語セグメントｂ
のセグメント識別番号9211を、語セグメントｂの前接語
セグメントリスト9217に語セグメントａの識別番号9211
を書き込む。

次に、第２のフェーズでは、後接語セグメントを持た
ない語セグメントに対して、後接する音韻セグメント列
を語セグメントに変換する処理を、後方の語セグメント
に到達するまで繰り返す。すなわち、先ずラティス中の
始点および語セグメントで、後接語セグメントリスト92
18が空であるものを探し、それらの語セグメントグルー
プ識別番号9219を処理未了語セグメントグループリスト
に登録する（ステップ1204）。そして、処理未了語セグ
メントリストが空になるまで（ステップ1205）、処理未
了語セグメントリストから語セグメントグループ識別番
号を１つだけ選択する（ステップ1206）。そして、選択
した語セグメントグループ識別番号を持つ語セグメント
に対して、それに後接する音韻セグメント列と表音記号
表現2201が一致する語を目標言語辞書22から検索する
（ステップ1207）。検索に成功すれば（ステップ120
8）、検索した語に対する語セグメントのレコードを生
成する（ステップ1209）。検索に失敗したならば（ステ
ップ1208）、いま処理中の語セグメントは後接語セグメ
ントを持たないことを意味するので、それを繰り返し探
す処理を避けるために、その語セグメントの語セグメン
トグループ識別番号9219をnilにする（ステップ121
0）。

また、語セグメントを生成する処理（ステップ1209）
で、生成した語セグメントが既に存在する語セグメント
で異なる語セグメントグループ識別番号を持つものに前
接することがわかると（ステップ1211）、生成した語セ
グメントの語セグメントグループ識別番号9219を処理未
了語セグメントリストから削除する（ステップ1212）。

処理未了語セグメントリストが空になると（ステップ
1205）、通常は、始点から終点に至る語セグメント列が
少なくとも１つはできたことを意味する。なお、どのよ
うな語列にも一致する表音記号列がない区間があるとき
には、その区間は語セグメントが途切れている。処理未
了語セグメントリストが空になると、最も少ない数のセ
グメントで始点と終点を結ぶセグメント列を選択する。
そのようなセグメント列が複数ある場合には、セグメン
ト列を構成する各セグメントの尤度の和が最大のものを
選択する（ステップ1213）。表音記号・文字変換機能12
は、選択したセグメント列上の語セグメントの文字表現
9213（音韻セグメントの場合には表音記号9203）を順に
並べて、これを出力とする。

なお、ステップ1209の語セグメントの生成処理は、ス
テップ1202,1203の処理とほぼ同一であるが、次の２つ
の点のみ異なっている。すなわち、第１に異なる点は、
生成する語セグメントの文字表記9213として、目標言語
辞書22から検索したレコードの語の文字表現2203をコピ
ーすることである。ここで、目標言語辞書22のレコード
は、一般に複数の文字表現2203を含むため（同音異語が
あるため）、各文字表現に対応した複数の語セグメント
を生成するものとする。第２に異なる点は、語セグメン
トグループ識別番号9219を、前接語セグメントのグルー
プ識別番号9219と同じにすることである。

第10図（１）〜（４）は、本例の音声タイプライタに
より、口述された翻訳文が漢字仮名混じり文に変換され
る例を示す図である。

同図（１）に示すように、原文は『deadline for man
uscripts』という名詞句である。同図（２）に示すよう
に、操作者が『げんこうのしめきり』と発声したとす
る。いま、２言語辞書21と目標言語辞書22の内容が、そ
れぞれ第３図および第４図に示すものであるとすると、
原テキスト解析機能11が出力する翻訳テキスト構成語候
補集合91は第６図に示すような集合となる。また、音韻
認識機能41が出力する音韻ラティス92が、第10図（３）
に示すようなラティスであるとする。そして、図におい
て、複数のセグメントが並列になっている場合には、上
方のセグメントの方が尤度が高いものとする。このと
き、表音記号・文字変換機能12の変換結果は、第10図
（４）に示すようになり、『原稿の締切り』とCRTに表
示される。この表示中で、『の』だけが反転表示、つま
り他が白ならば黒、他が黒ならば白で表示されている。
『の』については、次候補として『も』の可能性が残っ
ているため、反転表示しているのである。

なお、第10図の例における表音記号・文字変換機能12
の処理を、さらに詳細に説明する。

例えば、『げんこう』と発声した部分に対しては、音
響的には『けんこお』が最尤解であって、さらに『けん
こう』、『けんとお』、『けんとう』、『げんこお』、
『げんとお』、『げんとう』等の可能性があることを、
第10図（３）の音韻ラティスが表わしている。表音記号
・文字変換機能12は、これらの中から翻訳テキスト構成
語候補集合91に含まれている『げんこう』を選択して、
翻訳テキスト構成語候補集合91が示す文字表現『原稿』
に変換する。このようにして、『げんこう』が音響的に
は尤度が最大ではないにもかかわらず選択されている。
また、『げんこう』に対して『原稿』、『現行』、『言
行』のような同音異語の問題も生じていない。

このように、本例の音声タイプライタにおいては、音
声認識における曖昧性（音韻の曖昧性と同音異語）が解
消されるので、実用的な認識率が達成できる。

次に、第２の参考例について説明する。

本参考例では、仮名漢字変換方式の翻訳用ワードプロ
セッサの場合を述べる。

第11図は、本参考例の翻訳用ワードプロセッサのハー
ドウェア構成図である。

本例の翻訳用ワードプロセッサは、中央処理装置101
と、記憶装置102と、キーボード103と、CRTディスプレ
イ104と、第１フロッピーディスク駆動装置105と、第２
フロッピーディスク駆動装置106と、プリンタ107から構
成されている。

第12図は、第11図に示す翻訳用ワードプロセッサの機
能ブロック図である。

第12図に示す原テキスト解析機能1011、仮名漢字変換
機能1012、２言語テキスト表示機能1013および翻訳テキ
ストセーブ機能1014は、いずれもプログラムモジュール
であって、中央処理装置101の演算回路により実行され
ることにより各機能を遂行する。

記憶装置102には、２言語辞書1021および目標言語辞
書1022が記憶され、さらに仮名漢字変換処理の途中で翻
訳文データを格納する翻訳文バッファ1023の領域が確保
されている。

また、第１フロッピーディスク駆動装置105と第２フ
ロッピーディスク駆動装置106にセットされたフロッピ
ーディスクを、それぞれ原テキストファイル1051、翻訳
テキストファイル1061として用いる。

次に、翻訳用ワードプロセッサの動作を説明する。

先ず、２言語テキスト表示機能1013は、原テキストフ
ァイル1051から原テキストを読み出し、CRTディスプレ
イ104の原テキスト表示領域に表示する。この場合、処
理すべき１文のみを反転表示する。

原テキスト解析機能1011は反転表示された文を形態素
解析し、２言語辞書1021を検索することにより、翻訳テ
キスト構成語候補集合901を求める。

一方、CRTディスプレイ104に表示された原テキストの
うち反転表示された文904を操作者が翻訳し、翻訳文905
をキーボード103から仮名入力する。入力された仮名デ
ータは、翻訳文バッファ1023に格納される。仮名漢字変
換機能1012は、翻訳文バッファ1023の内容を読み出し
て、仮名文字の部分に対して仮名漢字変換を実行する。
そして、変換できたときには、翻訳文バッファ1023中の
該当する仮名文字データを漢字仮名混じり表記データに
置き換える。仮名漢字変換機能1012は、翻訳テキスト構
成語候補集合901に含まれる語を優先して選択し、翻訳
テキスト構成語候補集合901に含まれる語に変換できな
いことが判明した場合、その部分を目標言語辞書1022を
参照して漢字仮名混じり文に変換する。

２言語テキスト表示機能1013は、常時翻訳バッファ10
23を監視しており、最新のバッファ内容をCRTディスプ
レイ104の翻訳文表示領域に表示する。また、キーボー
ド103から入力された記号が文末記号であることを検出
すると、原テキスト表示領域の反転表示する文を次の文
に変更する。

翻訳テキストセーブ機能1014も、翻訳文バッファ1023
を常時監視しており、文末記号を検出すると、翻訳文バ
ッファ1023の内容を翻訳テキストファイル1061にセーブ
した後、翻訳文バッファ1023をクリアする。

第13図は、第12図における仮名漢字変換機能の処理フ
ローチャートである。

２言語辞書1021と目標言語辞書1022と原テキスト解析
機能1011は、第１の実施例で説明したものと全く同一で
あるため、説明を省略する。第13図において、BUFは翻
訳文バッファ1023を示し、バッファの第ｉ番目の文字を
BUF（ｉ）、バッファの第ｉ番目から第ｊ番目の文字列
をBUF（i,・・・,j）で示す。また、バッファ中の仮名
漢字変換が済んでいない部分の先頭文字の位置を示す未
変換部インジケータをＩ、バッファ中の最後の文字の位
置を示す最終文字インジケータをＪとする。

仮名漢字変換機能1012は、翻訳文バッファ1023が翻訳
テキストセーブ機能1014によりクリアされたことを検知
すると、最終文字インジメータＪを初期値０にリセット
し（ステップ101201）、また未変換部インジケータＩを
初期値１にリセットする（ステップ101202）。この後、
キーボード103からの入力を待つ（ステップ101203）。
そして、入力があると、入力が文末記号になるまでステ
ップ101204〜101216の処理を繰り返し行う。新たに仮名
文字が入力されると、先頭位置インジケータＪを１だけ
進め（ステップ101204）、BUF（Ｊ）に入力された仮名
文字を格納する（ステップ101205）。続いて、BUF（I,
・・・・,J）の仮名漢字変換を実行する。先ず、BUF
（I,・・・,J）の後方のできる限り長い仮名文字列と仮
名表記が一致する語を翻訳テキスト構成語候補集合901
から検索する。このために、変数ｘを０から１ずつ増加
させながら、ｘがＪ−Ｉになるまで、BUF（Ｉ＋x,・・
・,J）と表音記号表現が一致する語を翻訳テキスト構成
語候補集合901から検索する（ステップ101206,101207,1
01208,101209,101210）。ｘがＪ−Ｉになるまでの値に
ついて、いずれも検索に失敗したときには（ステップ10
1208,121209）、次の仮名でのキー入力を待つ（ステッ
プ101203）。

翻訳テキスト構成語候補集合901からの検索に成功し
たときには（ステップ101208）、BUF内の仮名文字列を
漢字列に置き換えた後、次の仮名入力を待つ（ステップ
101211〜101216,101203）。ここで、ｘが０のとき、す
なわちBUF（I,・・・・,J）全体が翻訳テキスト構成語
候補集合901中の語であった場合、翻訳テキスト構成語
候補集合901に示されている漢字表記（第６図の文字表
現9102）を直ちにBUFに格納する。すなわち、長さｚの
漢字表記をBUF（I,・・・,I＋ｚ−１）に格納し（ステ
ップ101215）、ＩおよびＪが格納した漢字表記の次の位
置を指すように更新する（ステップ101216）。また、ｘ
＞０のとき、すなわちBUF（I,・・・,J）の後方の一部
が翻訳テキスト構成語候補集合901中の語であったとき
には、未変換部分であるBUF（I,・・・・,I＋ｘ−１）
について、目標言語辞書1022を用いて仮名漢字変換を実
行する（ステップ101212）。この仮名漢字変換は、従来
の方法により行うが、変換精度を向上するために、変換
後の語数が少ないものを優先する等の処理を行う。次
に、BUF（I,・・・,I＋ｘ−１）の仮名漢字変換の結果
が長さｙの文字列であるとすると、これをBUF（I,・・
・・,I＋ｙ−１）に格納して（ステップ101213）、Ｉお
よびＪを格納した漢字列の次を指すように更新する（ス
テップ101214）。その後、翻訳テキスト構成語候補集合
901から検索され、BUFへの格納が保留されていた語の漢
字表記を前述と同じようにBUFに格納し（ステップ10121
5）、ＩとＪを格納した漢字列の次を指すように更新す
る（ステップ101216）。

最後に、キーボード103から入力された記号が末尾記
号になると（ステップ101203）、文末部分が仮名漢字変
換済みか否かを判定し（ステップ101217）、変換済みで
なければ、目標言語辞書1022を用いて仮名漢字変換を行
い（ステップ101218）、変換された結果をBUFに格納し
て（ステップ101219）、処理を終了する。

第14図は、本参考例による翻訳用ワードプロセッサの
仮名漢字変換例を示す図である。

仮名で入力された翻訳文が、漢字仮名混じり文に変換
される場合を示す。操作者が画面で見る原文は、第14図
（１）に示すように、『deadline for manuscripts』と
いう名詞句である。操作者はこれを翻訳して、キーボー
ド103から第14図（２）に示すように、『げんこうのて
いしゅつきげん』と仮名で入力したものとする。

いま、２言語辞書1021、目標言語辞書1022が、それぞ
れ第３図および第４図に示す内容であるとすれば、原テ
キスト解析機能1011は第６図に示すような翻訳テキスト
構成語候補集合901を出力する。

第14図（３）には、仮名文字を１字入力する度に、CR
Tディスプレイ104の翻訳文表示が変化する状態を示して
いる。ここで、『げんこう』と『きげん』の部分に見ら
れるように、同音異語の問題が予め原テキスト解析を行
うことにより、解決されている。すなわち、従来の仮名
漢字変換処理では、『げんこう』に対して『原稿』『現
行』『言行』等が、『きげん』に対しては『期限』『起
源』『紀元』等が、それぞれ候補となる。しかし、本発
明では、原テキスト解析機能1011が『原稿』と『期限』
をそれぞれ予測することにより、他の候補は棄却されて
しまう。なお、『のていしゅつ』の部分のように、原テ
キスト解析機能1011が予測する語と一致しない部分につ
いては、同音異語の問題が生じることもある。

本例の他の利点として、原テキスト解析機能1011が予
測する語と仮名表記が一致する部分を高い確信度で語と
判定できるので、べた入力の仮名文字列の場合でも、語
に分割する処理が高精度で行える。その結果、仮名漢字
変換処理における操作者の負担は格段に軽減される。

尚、これらの例では、翻訳テキストの全文を、音声ま
たは仮名で入力するものであるが、機械翻訳の結果を後
編集するときのように、翻訳テキストの断片を入力す
る、すなわち、翻訳テキスト中に挿入したり置き換える
文や語句を、音声で入力する翻訳テキスト編集装置が考
えられる。例えば、『manuscript』を機械翻訳が『手書
き』と翻訳したが、操作者が『原稿』に修正するため
『げんこう』と口述入力したとする。この時、原テキス
ト中の『manuscript』から『原稿』が予測されているの
で、『げんこう』は『原稿』に変換される。このよう
に、原テキストを解析して、挿入や置換する文や句を構
成する語を予測することにより、挿入・置換する文や語
句の音声認識および漢字仮名変換の精度を向上できる。

また、他の変形例として、翻訳ではなく、テキストの
要約を入力する装置も実現できる。要約を構成する語の
大部分は、原テキストに含まれる語であることが多いた
め、原テキストを構成する語を要約テキストを構成する
語の候補と考えて、要約テキストの音声認識あるいは仮
名漢字変換に利用できる。

すなわち、文の要点だけで文を作成する際に、重要な
単語、例えば『誰が』『何時に』『どこで』『何をした
か』という語は、全て原テキスト中に含まれているの
で、原テキストから予測情報を利用することにより、要
約テキストの音声認識や仮名漢字変換を高精度で実現で
きる。

次に、第３の参考例として、画像のコメント文入力装
置を詳述する。この装置は、専門家が画像を分析して、
コメントを音声で口述することにより、これを文字化す
る装置である。

第15図は、第３の参考例を示す画像コメント文入力装
置のハードウェア構成図である。

コメント文入力装置は、中央処理装置210と、記憶装
置220と、マイクロホン230と、音響処理装置240と、画
像スキャナ250と、画像記憶装置260と、画像表示装置27
0と、プリンタ280とから構成されている。

第16図は、第15図における画像コメント文入力装置の
機能ブロック図である。

画像解析機能211と表音記号・文字変換機能212と画像
表示機能213とは、いずれもプログラムモジュールであ
って、中央処理装置212により機能が遂行される。ま
た、音韻認識機能241は、音響処理装置240により機能が
遂行される。

画像・言語変換辞書221と単語辞書222とコメント文フ
ァイル223は、いずれも記憶装置220にそれらの領域が確
保されている。また、画像ファイル261は、メモリ容量
が膨大となるため、画像記憶装置260の領域を使用して
格納される。なお、画像は、画像スキャナ250を介して
画像ファイル261に格納される。

以下、画像コメント文入力装置の動作を説明する。

先ず、画像表示機能213は画像ファイル261から操作者
が選んだ画像データを読み出し、その画像データを画像
表示装置270に表示する。次に、画像解析機能211は、表
示された画像の特徴抽出を行い、画像・言語変換辞書22
1を参照することにより、コメント文構成語候補集合291
を求める。ここで、画像・言語変換辞書221は、画像の
特徴パターンとその特徴パターンから連想される用語を
対応付ける辞書であって、応用分野毎に用意されてい
る。用語の情報としては、その表音記号表現と文字表現
を含んでいる。画像解析機能211は、画像・言語変換辞
書221中の特徴パターンとのパターンマッチングによ
り、画像に含まれる特徴パターンを検出して、その特徴
パターンに対応する用語の情報をコメント文構成語候補
集合291の格納エリアに出力する。

一方、画像表示装置270の画面に表示された画像294を
見ながら、操作者はコメント文、例えば画像の解釈や所
見等295を口述することにより、マイクロホン230が音声
を電気信号に変換する。音韻認識機能241は入力した電
気信号の音声波形を解析し、セグメンテーションおよび
特徴パラメータの抽出を行って、入力音声を音韻ラティ
ス292に変換する。

次に、表音記号・文字変換機能212は、音韻認識機能2
41の出力である音韻ラティス292を語列に変換する。そ
の際に、画像解析機能211の出力であるコメント文構成
語候補集合291に含まれる語を優先して選択する。コメ
ント文構成語候補集合291に含まれる語に変換できない
区間に対しては、単語辞書222を参照して語列に変換す
る。単語辞書222は、第１の実施例に示した目標言語辞
書と同じものであるため、内容の説明は省略する。コメ
ント文構成語候補集合291、単語辞書222の内容には、い
ずれも語の文字表現が含まれているので、音韻ラティス
292から変換された語列を基に、直ちにコメント文の文
字表記293を作成して、コメント文ファイル223に格納す
る。なお、コメント文ファイル223に格納されたコメン
ト文は、プリンタ280により印刷される。

本例と第１の参考例とを比較すると、いずれも口述テ
キストを文字に変換する点で同一であるが、第１の参考
例では、翻訳テキスト構成語を原テキストから予測する
のに対して、本例では、原画像からコメント文構成語を
予測する点のみが異なっている。従って、本例でも、音
声から文字への変換が高精度で行われることは説明を要
しない。画像データの解析は、あるレベルまでは計算機
で行うことができるが、それ以上は限界があり、最終的
には専門家の判断に頼らなければならないことが多い。
本例によれば、このような要望に対して、専門家が自然
な状態で口述した音声を入力することにより、確実に判
断結果を入力することができる。

次に、第４の参考例として、音声入力機能付き文字認
識装置について説明する。

これは、文字認識装置において、文字認識の第１解と
次の解の尤度差がそれほど違わない場合に、その文字を
操作者に表示して、操作者がその文字ないしその文字を
含む単語の読みを音声で与えることにより、正解の選択
を可能にしたものである。操作者が読みを発声すると、
それによって音声認識を行い、先の文字認識の結果と併
用して解を求める。操作者が全文を発声することなく、
表示された一部の文字ないし単語を見て発声するだけで
あるため、殆んど手間がかからず、文字認識の結果と音
声認識の結果とを組み合わせることで、それぞれが含む
曖昧性を解消するので、認識率が格段に向上する。

第17図は、第４の参考例を示す音声入力機能付き文字
認識装置のハードウェア構成図である。

本例の文字認識装置は、中央処理装置310と、記憶装
置320と、文字スキャナ330と、フロッピーディスク駆動
装置340と、CRTディスプレイ350と、マイクロホン360
と、音響処理装置370とで構成されている。

第18図は、第17図における音声入力機能付き文字認識
装置の機能ブロック図である。

文字認識機能311とテキストデータ管理機能312と文字
図形表示機能313と文字単語認識機能314と音声単語認識
機能315と最尤単語選択機能316とは、いずれもプログラ
ムモジュールであって、中央処理装置310の演算回路に
より実行されることによって、それぞれの機能を遂行す
る。

また、記憶装置320には、文字認識辞書321と単語辞書
322が格納される他に、図形バッファ323およびテキスト
バッファ324の領域が確保されている。また、フロッピ
ーディスク駆動装置340にセットしたフロッピーディス
クは、テキストファイル341として用いられる。

次に、音声入力機能付き文字認識機能の動作の概要を
説明する。

先ず、文字スキャナ330は、図形としての文字を読み
取り、読み取った文字を図形バッファ323に順次格納し
ていく。

文字認識機能311は、図形バッファ323内の文字パター
ンを文字認識辞書321を参照することにより認識する。
テキストデータ管理機能312は、認識された文字の中
で、曖昧性があるものを検出し、文字図形表示機能313
によりCRTディスプレイ350に出力して、操作者にその文
字を含む語の読みを口述させる。文字単語認識機能314
は、曖昧性のある文字に対して単語辞書322を参照する
ことにより最尤単語選択機能316に第１単語候補集合391
を出力する。

一方、音声単語認識装置315は、操作者が口述した音
声を認識することにより、第２単語候補集合395を最尤
単語選択機能316に出力する。

次に、最尤単語選択機能316は、文字単語認識機能314
からの第１単語候補集合391および音声単語認識機能315
からの第２単語候補集合395を受け取り、これらに共通
に含まれる語を選択する。最尤単語選択機能316の選択
結果に基づいて、テキストデータ管理機能312はテキス
トバッファ324内のテキストデータを更新する。

次に、各機能の動作を詳細に説明する。

文字認識機能311は、図形バッファ323から１文字ずつ
図形データを取り出して、その特徴抽出を行い、文字認
識辞書321を参照することにより文字認識を行う。文字
認識辞書321は、図形としての文字の特徴パターンと文
字コードとを対応付けるものである。文字認識機能311
は、図形バッファ323から読み出した図形データと文字
認識辞書321中の特徴パターンのマッチングをとり、一
致度が最大の特徴パターンに対応する文字コードを第１
の解として選び、これをテキストバッファ324に出力す
る。しかしながら、第１の解と一致度の差が予め定めた
値以下の特徴パターンが複数個存在する場合には、曖昧
性があると判断して、それらの特徴パターンにそれぞれ
対応する複数の文字コードをテキストバッファ324に出
力する。テキストバッファ324に出力される文字コード
とともに、パターンの一致度を解の尤度とみなして、こ
れも同時にテキストバッファ324に出力する。

次に、テキストデータ管理機能312は、テキストバッ
ファ324を常時監視しており、曖昧性のある結果（文字
コードと一致度）がテキストバッファ324に書き込まれ
ると、テキスト中のその位置を文字図形表示機能313お
よび文字単語認識機能314の両者に通知する。

文字図形表示機能313は、文字認識処理で曖昧性が生
じた位置を通知されると、図形バッファ323からその前
後を含む図形データを読み出し、CRTディスプレイ350に
表示する。曖昧性のある文字のみをブリンク表示し、そ
の他の文字は通常の表示をする。

次に、文字単語認識機能314は、文字認識で曖昧性の
生じた位置が通知されると、テキストバッファ324から
その前後を含むテキストデータを読み出し、文字認識で
曖昧性が生じた文字を含む文字列をキーとして単語辞書
322を検索する。単語辞書322は、この文字認識装置が対
象とする言語の語彙を集めたものであり、各語の文字表
現と表音記号表現とを対応付けて記憶している。単語辞
書322は、文字単語認識機能314の検知要求を満たすため
に、文字表現をキーとして検索できるとともに、音声単
語認識機能315の検索要求を満たすために、表音記号表
現をキーとしても検索できるように構成される。文字単
語認識機能314は、テキストデータに含まれる文字列の
全ての可能性について単語辞書322の検索を行い、検索
に成功した文字列（単語）の集合を出力する。このと
き、単語を構成する文字の尤度をテキストバッファ324
から読み出し、その和を計算し、単語の尤度として併せ
て出力する。文字単語認識機能314が出力する単語集合
を、第１単語候補集合391と呼ぶ。

一方、文字図形表示機能313によりCRTディスプレイ35
0の画面上に文字392がブリンク表示されると、操作者は
それを見て、その文字を含む単語の読み393を発声す
る。マイクロホン360は、その読み393の音声を電気信号
に変換する。

音韻認識機能371は、読み393の音声波形を解析し、セ
グメンテーション、特徴パラメータの抽出を行い、入力
音声を音韻ラティス394に変換する。音韻ラティス394
は、音声を表音記号列に変換する際に、セグメンテーシ
ョンおよびセグメントの表音記号によるラベルづけにお
ける曖昧性を考慮し、可能性のある表音記号列を全て含
んだ形にしている。

次に、音声単語認識機能315は、音韻認識機能371の出
力である音韻ラティス394に含まれる表音記号列の各々
をキーとして、単語辞書322を検索する。検索に成功し
た全ての表音記号列に対して、その表音記号列に対応す
る単語の文字表現を単語辞書322から読み出して、それ
らを第２単語候補集合395として出力する。この際に、
音韻ラティス394を参照して、単語が対応する表音記号
列を構成する各表音記号の尤度の和を求め、これを単語
の尤度として併せて出力する。

次に、最尤単語選択機能316は、第１単語候補集合391
と第２単語候補集合395に共通に含まれる単語を検索す
る。共通に含まれる単語が１つ存在すれば、それを解と
して選択し、テキストデータ管理機能312に通知する。
共通に含まれる単語が複数個存在する場合には、第１単
語候補集合391における尤度と第２単語候補集合395にお
ける尤度の和が最大のものを解として選択し、これをテ
キストデータ管理機能312に通知する。共通に含まれる
単語が１つも存在しないときには、その旨をテキストデ
ータ管理機能312に通知する。

テキストデータ管理機能312は、最尤単語選択機能316
から処理結果の通知を受けると、それに応じてテキスト
バッファ324内のテキストデータを更新する。最尤単語
選択機能316が解を得て、それをテキストデータ管理機
能312に通知すると、管理機能312はその解と両立しない
文字をテキストデータから削除する。最尤単語選択機能
316が解を得ることができなかったときには、文字認識
機能311が最も高い尤度を与えた文字に選択し、競合す
る他の解を削除する。このようにして、テキストデータ
管理機能312はテキストバッファ324中のテキストデータ
を更新した後、更新されたテキストデータをテキストバ
ッファ324からテキストファイル341に転送する。

本例の音声入力機能付き文字認識装置は、このように
して音声認識と文字認識の組み合わせにより、曖昧性を
解消している。例えば、『一方』という語を文字認識し
た場合、解の候補として、例えば『一万』、『一方』、
『一力』が得られる。これに対して、操作者が『いっぽ
う』と発音して読みを与えた場合には、音声認識でも曖
昧性が生じる。例えば、『いっぽ』、『いっぽう』、
『いほう』、『いっほう』が得られ、これをキーとして
単語辞書322を検索すると、解の候補としては、『一
歩』、『一方』、『一報』、『違法』、『異邦』が得ら
れる。文字認識による解の候補と音声認識による解の候
補に共通に含まれているのは、これらのうち『一方』の
みであるため、この単語が解と決定される。

このように、本例では、文字認識装置に対する人間の
介入は、装置が提示する語を読むという自然な形で行う
ことができる。従来からよく用いられる方法として、装
置が表示する複数の候補から正しいものを選択する方法
があるが、候補が多くなると正解を探すために時間がか
かるという問題がある。本例は、装置が提示する語を読
むだけであるため、極めて効率的で簡易な方法と言え
る。

次に、本発明の実施例として、同時通訳音声タイプラ
イタについて説明する。

これは、第１言語の話者による原テキストと、それを
同時通訳者が翻訳した翻訳テキストの両方を、音声から
文字に変換する装置である。

第19図は、本発明の実施例を示す同時通訳音声タイプ
ライタのハードウェア構成図である。

本実施例の同時通訳音声タイプライタは、中央処理装
置410と、記憶装置420と、第１マイクロホン430と、第
１音響処理装置440と、第１フロッピーディスク駆動装
置450と、第２マイクロホン460と、第２音響処理装置47
0と、第２フロッピーディスク駆動装置480とで構成され
ている。

第20図は、第19図における同時通訳音声タイプライタ
の機能ブロック図である。

第１表音記号・文字変換機能411と第２表音記号・文
字変換機能412と最尤解選択機能413は、いずれもプログ
ラムモジュールであって、中央処理装置410の演算回路
により実行されることにより、その機能が遂行される。
また、第１音韻認識機能441と第２音韻認識機能471は、
それぞれ第１音響処理装置440、第２音響処理装置470に
よりその機能が遂行される。また、第１言語辞書421と
第２言語辞書422と２言語辞書423は、いずれも記憶装置
420に格納されている。また、第１言語テキストファイ
アル451と第２言語テキストファイル481として、それぞ
れ第１フロッピーディスク駆動装置450、第２フロッピ
ーディスク駆動装置480にセットしたフロッピーディス
クが用いられる。

次に、同時通訳音声タイプライタの動作を説明する。

原話者が第１言語の原テキストを口述すると、第１マ
イクロホン430は、その音声を電気信号に変換する。第
１音韻認識機能441は、原テキストの音声波形を解析
し、セグメンテーション、特徴パラメータ抽出を行い、
音韻ラティスに変換する。次に、第１表音記号・文字変
換機能411は、第１言語辞書421を参照して、音韻ラティ
スを単語ラティスに変換する。単語ラティスは、複数の
単語列を束の形にしたものであって、音声認識の結果
を、曖昧性を含んだ形で表現している。

一方、原話者により口述される第１言語の原テキスト
を同時通訳者が第２言語に翻訳して口述すると、第２マ
イクロホン460は、その音声を電気信号に変換する。第
２音韻認識機能471は、翻訳テキストの音声波形を解析
し、セグメンテーション、特徴パラメータ抽出を行い、
音韻ラティスに変換する。次に、第２表音記号・文字変
換機能412は、第２言語辞書422を参照して、音韻ラティ
スを単語ラティスに変換する。

次に、最尤解選択機能413は、第１表音記号・文字変
換機能411から原テキストの単語ラティスを、第２表音
記号・文字変換機能412から翻訳テキストの単語ラティ
スをそれぞれ受け取り、両者の突き合わせを行う。すな
わち、原テキストの単語ラティスに含まれる各単語を２
言語辞書423から検索して、各単語に対する第２言語の
訳語を求め、さらに、各訳語が翻訳テキストの単語ラテ
ィスに含まれるか否かをチェックする。このようにし
て、原テキストの単語ラティスと翻訳テキストの単語ラ
ティスに含まれている対訳関係を全て抽出する。抽出し
た対訳関係に含まれている第１言語の単語の集合を、第
１表音記号・文字変換機能411に通知する。この単語集
合を、第１言語最尤単語集合と呼ぶ。同じく抽出した対
訳関係に含まれている第２言語の単語の集合を、第２表
音記号・文字変換機能412に通知する。この単語集合
を、第２言語最尤単語集合と呼ぶ。

次に、第１表音記号・文字変換機能411は、最尤解選
択機能413から第１言語最尤単語集合を受け取ると、原
テキストの単語ラティスから最尤単語列を求める。すな
わち、第１言語最尤単語集合に含まれる単語を優先的に
残し、それと競合する単語は削除することにより、単語
ラティスを１つの単語列に縮退させる。なお、第１言語
最尤単語集合に含まれる単語どうしが競合する区間や、
第１言語最尤単語集合に含まれる単語がない区間につい
ては、音韻的に尤度の高い単語を残す。このようにして
得られた単語列を、第１言語テキストファイル451に出
力する。

全く同じようにして、第２表音記号・文字変換機能41
2は、最尤解選択機能413から第２言語最尤単語集合を受
け取ると、翻訳テキストの単語ラティスから最尤単語列
を求める。すなわち、第２言語最尤単語集合に含まれる
単語を優先的に残し、それと競合する単語は削除するこ
とにより、単語ラティスを１つの単語列に縮退させる。
なお、第２言語最尤単語集合に含まれる単語どうしが競
合する区間や、第２言語最尤単語集合に含まれる単語が
ない区間については、音韻的に尤度の高い単語を残す。
このようにして得られた単語列を、第２言語テキストフ
ァイル481に出力する。

本実施例の同時通訳音声タイプライタでは、原テキス
トの音声認識の結果と翻訳テキストの音声認識の結果と
を組合わせて、それぞれに含まれる曖昧性の解消を図る
ことにより、最終的な音声認識の精度を大きく向上させ
る。

このように、本発明では、組合せる対象によって種々
の装置が実現できる。すなわち、文字による原テキスト
と音声による翻訳テキストの組合せにより、翻訳テキス
トを音声から文字表記に変換する翻訳用音声タイプライ
タが実現できる。また、テキストとその要約の組合せに
より、テキストの要約を口述したり、仮名やローマ字で
入力して文字表記に変換する要約テキスト入力装置が実
現できる。また、画像とそれに対するコメント文の組合
せにより、画像に対するコメント文を口述したり、仮名
やローマ字で入力して文字表記に変換する画像コメント
文入力装置が実現できる。また、図形としての文字と文
字あるいは単語の読みの組合せにより、高精度の文字認
識装置が実現できる。また、第１言語の音声とその第２
言語への同時通訳音声との組合せにより、同時通訳音声
タイプライタが実現できる。

〔発明の効果〕

以上説明したように、本発明によれば、相互に関連を
もつ複数の対象をそれぞれ解析して、変換あるいは認識
を行って解を求め、それらに共通する解を選ぶことによ
り、１つの対象のみを解析する場合に比較して、変換あ
るいは認識の精度を著しく向上させることが可能であ
る。

【図面の簡単な説明】

第１図は、本発明の第１の参考例を示す翻訳用音声タイ
プライタの機能ブロック図、第２図は第１図における翻
訳用音声タイプライタのハードウェア構成図、第３図は
第１図における２言語辞書のレコードの例を示す図、第
４図は第１図における目標言語辞書のレコードの例を示
す図、第５図は第１図における原テキスト解析機能の処
理フローチャート、第６図は第１図における翻訳テキス
ト構成語候補集合を示す図、第７図は第１図におけるラ
ティス構成要素のデータ構造を示す図、第８図は第１図
における表音記号・文字変換機能の処理フローチャー
ト、第９図は第１図における隣接する語セグメントに対
する処理の説明図、第10図は第１図における音声から漢
字仮名混じり文への変換例を示す図、第11図は第２の参
考例を示す翻訳用ワードプロセッサのハードウェア構成
図、第12図は第11図における翻訳用ワードプロセッサの
機能ブロック図、第13図は第11図における仮名漢字変換
機能の処理フローチャート、第14図は第11図における仮
名漢字変換例を示す図、第15図は第３の参考例を示す画
像のコメント文入力装置のハードウェア構成図、第16図
は第15図における画像のコメント文入力装置の機能ブロ
ック図、第17図は第４の参考例の音声入力機能付き文字
認識装置のハードウェア構成図、第18図は第17図におけ
る音声入力機能付き文字認識装置の機能ブロック図、第
19図は本発明の実施例の同時通訳音声タイプライタのハ
ードウェア構成図、第20図は第19図における同時通訳音
声タイプライタの機能ブロック図である。 1,101,210,310,410:中央処理装置、2,102,220,320,420:
記憶装置、3,230,360:マイクロホン、430,460:第１およ
び第２マイクロホン、4,240,370:音響処理装置、440,47
0:第１および第２音響処理装置、5,104,350:CRTディス
プレイ、6,103:キーボード、7:OCR、8,107,280:プリン
タ、11:原テキスト解析機能、12,212:表音記号・文字変
換機能、411,412:第１および第２表音記号・文字変換機
能、13:2言語テキスト表示機能、21,1021,423:2言語辞
書、22,1022:目標言語辞書、23,1051:原テキストファイ
ル、24,1061:翻訳テキストファイル、41,241,371:音韻
認識機能、441,471:第１および第２音韻認識機能、105,
106:第１および第２フロッピーディスク駆動装置、340:
フロッピーディスク駆動装置、450,480:第１および第２
フロッピーディスク駆動装置、1011:原テキスト解析機
能、1012:仮名漢字変換機能、1013:2言語テキスト表示
機能、1014:翻訳テキストセーブ機能、1023:翻訳文バッ
ファ、250:画像スキャナ、260:画像記憶装置、270:画像
表示装置、211:画像解析機能、213:画像表示機能、221:
画像・言語変換辞書、222,322:単語辞書、223:コメント
文ファイル、261:画像ファイル、330:文字スキャナ、32
1:文字認識辞書、324:テキストバッファ、341:テキスト
ファイル、323:図形バッファ、314:文字単語認識機能、
316:最尤単語選択機能、315:音声単語認識機能、311:文
字認識機能、312:テキストデータ管理機能、313:文字図
形表示機能、413:最尤解選択機能、421:第１言語辞書、
422:第２言語辞書、451:第１言語テキストファイル、48
1:第２言語テキストファイル。

Claims

(57)【特許請求の範囲】

【請求項１】第１言語の音声（原音声情報）の認識と、
該原音声情報の第２言語への通訳結果である音声（通訳
音声情報）の認識とを行なう同時通訳向き音声認識シス
テムであって、上記第１言語の単語に対する上記第２言語の訳語を対応
付けた単語対訳情報を予め記憶する記憶手段と、入力された上記原音声情報に対応して複数の単語候補を
抽出する第１の処理手段と、上記入力された原音声情報の通訳結果である通訳音声情
報に対応して複数の単語候補を抽出する第２の処理手段
と、上記第１の処理手段が抽出した単語候補と上記第２の処
理手段が抽出した単語候補との対で上記単語対訳情報に
含まれている対を上記記憶手段を検索して抽出する第３
の処理手段と、該第３の処理手段が抽出した単語候補の対に含まれてい
る単語を優先的に選択して上記原音声情報に対応する単
語列を決定する第４の処理手段と、上記第３の処理手段が抽出した単語候補対に含まれてい
る単語を優先的に選択して上記通訳音声情報に対応する
単語列を決定する第５の処理手段とを有することを特徴とする同時通訳向き音声認識システ
ム。
【請求項２】第１言語の音声（原音声情報）の認識と、
該原音声情報の第２言語への通訳結果である音声（通訳
音声情報）の認識とを行なう同時通訳向き音声認識シス
テムの音声認識方法であって、上記第１言語の単語に対する上記第２言語の訳語を対応
付けた単語対訳情報を記憶装置に予め記憶するステップ
と、入力された上記原音声情報に対応して複数の単語候補を
第１の処理手段により抽出するステップと、上記入力された原音声情報の通訳結果である通訳音声情
報に対応して複数の単語候補を第２の処理手段により抽
出するステップと、上記第１の処理手段により抽出した単語候補と上記第２
の処理手段により抽出した単語候補との対で上記単語対
訳情報に含まれている対を第３の処理手段により上記記
憶装置を検索して抽出するステップと、上記第３の処理手段により抽出した単語候補の対に含ま
れている単語を第４の処理手段により優先的に選択して
上記原音声情報に対応する単語列を決定するステップ
と、上記第３の処理手段により抽出した単語候補対に含まれ
ている単語を第５の処理手段により優先的に選択して上
記通訳音声情報に対応する単語列を決定するステップとを有することを特徴とする同時通訳向き音声認識システ
ムの音声認識方法。