JP2836159B2 - 同時通訳向き音声認識システムおよびその音声認識方法 - Google Patents

同時通訳向き音声認識システムおよびその音声認識方法

Info

Publication number
JP2836159B2
JP2836159B2 JP2019654A JP1965490A JP2836159B2 JP 2836159 B2 JP2836159 B2 JP 2836159B2 JP 2019654 A JP2019654 A JP 2019654A JP 1965490 A JP1965490 A JP 1965490A JP 2836159 B2 JP2836159 B2 JP 2836159B2
Authority
JP
Japan
Prior art keywords
word
character
text
segment
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2019654A
Other languages
English (en)
Other versions
JPH03224055A (ja
Inventor
博行 梶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019654A priority Critical patent/JP2836159B2/ja
Priority to EP91101211A priority patent/EP0440197B1/en
Priority to DE69129163T priority patent/DE69129163T2/de
Publication of JPH03224055A publication Critical patent/JPH03224055A/ja
Priority to US08/231,901 priority patent/US5526259A/en
Application granted granted Critical
Publication of JP2836159B2 publication Critical patent/JP2836159B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声認識技術に係わり、特に、同時通訳音
声タイプライタに適用するのに好適な同時通訳向き音声
認識システムおよびその音声認識方法に関するものであ
る。
〔従来の技術〕
従来より、テキストをコンピュータあるいはワードプ
ロセッサ等に入力する効率的な方法として、音声入力が
考えられている。確かに、音声を入力するだけで、文字
に変換されれば最も効率的である。
しかしながら、音声認識の困難性のために、従来は、
実用に供し得る音声タイプライタは存在しない。例え
ば、特開昭63−182735号公報に記載されている音声入力
ワードプロセッサにおいては、操作者のキーボード入力
の代りに、文字列を単位として音声入力を行い、語への
変換候補を画面に表示して、最終選択を操作者が行って
いる。これによって、キー入力の手間を大幅に軽減し、
文書入力の高速化を図ろうとしている。ところが、実際
には、音声認識における曖昧性の解消が操作者の役割と
なり、最終選択の段階で時間がかかってしまう。
一方、キーボードによる入力方法は、既に実用化され
ている。膨大な数の漢字を含む日本語テキストの入力方
法としては、キーボードから仮名入力するか、ローマ字
入力するか、あるいは特殊な入力として漢字を2つの仮
名や数字を含むコードに割り当てて、そのコードを入力
する2ストローク方法等がある。しかしながら、2スト
ローク方法は高速入力が可能であるが、漢字に対応する
コードの記憶に時間がかかり過ぎ、コードを1字毎に参
照してから入力するのでは、時間がかかり過ぎるという
問題がある。また、仮名入力やローマ字入力の方法で
は、文節分かち書きが前提となっていたり、同音異語か
らの正しい語の選択が操作者の役割となっているため、
あまり能率的とは言えなかった。
〔発明が解決しようとする課題〕
このように、従来の音声タイプライタでは、音声認識
における曖昧性を操作者が解消しなければならず、そこ
で時間がかかってしまう。また、キーボードによる仮名
またはローマ字入力の方法では、同音異語からの正しい
語の選択が操作者の役割となっており、やはり能率的で
はない。
本発明の目的は、同時通訳音声タイプライタ等におい
て、元の音声(原音声情報)の音声認識の結果と、それ
を通訳した音声(通訳音声情報)の音声認識の結果とを
組み合わせて、それぞれに含まれる曖昧性の解消を図る
ことにより、最終的な音声認識の精度を大きく向上させ
る同時通訳向き音声認識システムおよびその音声認識方
法を提供することにある。
〔課題を解決するための手段〕
上記目的を達成するために、本発明の同時通訳向き音
声認識システムおよびその音声認識方法は、第1言語の
音声(原音声情報)の認識と、この原音声情報の第2言
語への通訳結果である音声(通訳音声情報)の認識とを
平行して行なう同時通訳向き音声認識システムであっ
て、第1言語の単語に対する第2言語の訳語を対応付け
た単語対訳情報を予め2言語辞書として記憶装置に記憶
しておき、第1音韻認識機能と第1表音記号・文字変換
機能により、入力された原音声情報に対応して複数の単
語候補を抽出し、また、第2音韻認識機能と第2表音記
号・文字変換機能により、原音声情報の通訳結果の通訳
音声情報に対応して複数の単語候補を抽出し、このよう
にしてそれぞれ抽出された単語候補の対で単語対訳情報
に含まれている対を、最尤解選択機能により、2言語辞
書を検索して抽出し、そして、第1表音記号・文字変換
機能により、最尤解選択機能が抽出した単語候補の対に
含まれている単語を優先的に選択して原音声情報に対応
する単語列を決定し、また、第2表音信号・文字変換機
能により、最尤解選択機能が抽出した単語候補対に含ま
れている単語を優先的に選択して通訳音声情報に対応す
る単語列を決定することを特徴とする。
〔作用〕
本発明においては、第1言語での音声(原音声情報)
の認識と、この原音声情報を通訳した音声(通訳音声情
報)の認識とを同時に行なう場合に、それぞれの認識結
果の突き合わせを行なうことにより、それぞれの認識結
果の曖昧性を解消して、両方の認識精度を向上させる。
〔実施例〕
以下、本発明の実施例を、図面により詳細に説明す
る。
ここでは、第1の参考例として翻訳用音声タイプライ
タを、第2の参考例として仮名漢字変換方式の翻訳用ワ
ードプロセッサを、また、それらの変形例として、機械
翻訳の結果を後編集するため、翻訳テキストの断片を入
力する装置と、テキストの要約を入力する装置とを、そ
れぞれ説明する。次に、第3の参考例として、画像のコ
メント文を入力してそれを文字化する装置を説明する。
これは、例えば医用画像に対する医者の所見や、リモー
トセンシング画像に対する専門家の解釈を入力するシス
テムに適用が可能である。さらに、第4の参考例として
音声入力機能付文字認識装置を、そして、本発明に係わ
る実施例として同時通訳音声タイプライタを、それぞれ
説明する。
第1図は、第1の参考例を示す翻訳用音声タイプライ
タの機能ブロック図であり、第2図は、そのハードウェ
ア構成図である。
本実施例の音声タイプライタを実現する機能の構成を
示すと、第1図のようになる。すなわち、原テキストを
表示して操作者に参照させる2言語テキスト表示機能13
と、原テキストを解析する原テキスト解析機能11と、口
述する操作者の音声を表音記号列に変換する音韻認識機
能41と、表音記号列を文字列に変換する表音記号・文字
変換機能12と、これらに付随する原テキストファイル23
と、2言語辞書21と、目標言語辞書22と、翻訳テキスト
ファイル24とから構成されている。
これらの機能を遂行するハードウェアは、中央処理装
置1と、記憶装置2と、マイクロホン3と、音響処理装
置4と、CRTディスプレイ5と、キーボード6と、OCR7
と、プリンタ8とから構成される。第1図に示す原テキ
スト解析機能11と表音記号・文字変換機能12と2言語テ
キスト表示機能13は、いずれもプログラムモジュールで
あって、第2図の中央処理装置1により遂行される。ま
た、第1図の音韻認識機能41は、第2図の音響処理装置
4により遂行される。また、2言語辞書21、目標言語辞
書22、原テキストファイル23および翻訳テキストファイ
ル24は、いずれも第2図の記憶装置2に記憶されてい
る。
ここで、2言語辞書21と原テキスト解析機能11と翻訳
テキスト変換機能(音韻認識機能41)と表音記号・文字
変換機能12を合わせた機能)の作用を述べる。
2言語辞書21は、基本的には原言語の見出し語に対し
て目標言語の対訳語を収録した辞書であるが、本発明の
目的を達成するために対訳語を網羅的に収録しておく。
さらに、対訳語に限らず、見出し語が原テキストに含ま
れるときに、翻訳テキストに使用される可能性がある語
を広く収録しておく。
原テキスト解析機能11は、原テキストを形態素解析し
て、原テキストを構成する語を認識した後、原テキスト
を構成する語をキーとして2言語辞書21を検索し、原テ
キストを構成する語に対応付けられた目標言語の語の集
合を求める。2言語辞書21には、前述のように見出し語
に関連のある目標言語の語が広範囲に収録されている。
従って、操作者がそのような翻訳テキストを作成した場
合でも、原テキスト解析機能11が求めた語集合は、翻訳
テキストを構成する語をかなりの確率で含むことが予想
される。この語集合を、翻訳テキスト構成語候補集合91
と呼ぶ。
音韻認識機能41は、音声波形を解析して、セグメンテ
ーションと特徴パラメータ抽出を行い、各セグメントを
音韻記号のような表音記号でラベル付けする。ここで、
セグメンテーション、表音記号のラベル付けのいずれに
関しても、曖昧性が生じるのが通常である。従って、音
韻認識機能41は、各セグメントに複数の表音記号を尤度
とともに付与し、テキスト全体に対してはラティス形式
(複数の表音記号列の束の形)の解を出力する。音韻認
識機能41については、例えば、『白井良明編‘パターン
理解’(オーム社、昭和62年発行)』に記載されている
技術により実現できる。
表音記号・文字変換機能12は、ラティスに含まれる表
音記号列の中で語にまとめられる部分を探し、その部分
を語に置き換える処理を繰り返すことにより、翻訳テキ
ストの文字表現を得る。この処理は、大きく分けて2つ
のフェーズから成る。
第1のフェーズでは、原テキスト解析機能11の出力で
ある翻訳テキスト構成語候補集合91に含まれる語の表現
記号表現と一致する部分があれば、その部分を語と認識
する。ここで、翻訳テキスト構成語候補集合91に含まれ
る語は、原テキストの語と密接に関係する語であるか
ら、音響的に多少尤度が低くても選択する。
第2のフェーズでは、翻訳テキスト構成語候補集合91
の範囲では、語に変換できなかった区間の処理である。
すなわち、語の候補を目標言語の語彙全体に広げて、第
1のフェーズで語に変換できなかった区間の表音記号列
の中で、語の表音記号表現と一致する部分を探し、一致
する部分を語と認識する。ここで、1つの区間が複数の
語列に変換できるときには、できる限り少数の語からな
るものを優先して選択する。また、表音記号の尤度に基
づいて語の尤度を算出し、尤度の高い語を優先的に選択
する。このようにして、最終的に正解の可能性の高い語
列に変換する。なお、どの語の表現記号表現とも一致し
ない区間があれば、それは表音記号のままに残してお
く。
次に、操作者から見た翻訳用音声タイプライタの動作
を説明する。
先ず原テキストがOCR7を介して原テキストファイル23
に格納される。
この音声タイプライタの処理単位は文であり、操作者
がキーボード6から口述翻訳開始を指示すると、2言語
テキスト表示機能13が原テキストファイル23から1文だ
けを読み出して、これをCRTディスプレイ5の原文表示
領域に表示する。原テキスト解析機能11は、前述の処理
を実行して、翻訳テキスト構成語候補集合91を求める。
CRTディスプレイ5に表示された原文94を参照するこ
とにより、操作者がこれを翻訳し、その翻訳文95を口述
すると、マイクロホン3がこの音声を電気信号に変換す
る。この電気信号を受けた音韻認識機能41、続いて表音
記号・文字変換機能12が、それぞれ前述の処理を実行し
て、翻訳文の文字表記93を得た後、これを翻訳テキスト
ファイル24に格納する。
翻訳文が翻訳テキストファイル24に格納されると、2
言語テキスト表示機能13が翻訳文96をCRTディスプレイ
5の翻訳文領域に表示する。そこで、操作者は、画面を
参照することにより、正しく文字化されたか否かを確認
する。誤りがあれば、操作者はキーボード6から次候補
の表示を要求するか、再入力することを指示する。再入
力の場合には、装置は原文の表示をそのままにして、音
声入力の待機状態に移るので、操作者は前回よりもさら
に注意深く発声して音声入力する。その後、文字化され
た結果に誤りがなければ、操作者はキーボード6から次
の文の翻訳に移ることを知らせる。これにより、2言語
テキスト表示機能13は、CRTディスプレイ5の原文表示
領域に次の文を表示して、それ以降は前の文のときと全
く同じように処理する。なお、翻訳テキストファイル24
に格納された翻訳テキストは、プリンタ8により印刷さ
れる。
第3図は、第1図における2言語辞書のレコード構造
と内容の例を示す図である。
ここでは、原言語が英語で、目標言語が日本語の場合
が示されている。すなわち、2言語辞書21のレコード
は、原言語を見出し語2101としており、目標言語情報と
しては見出し語の対訳語と見出し語から連想される語を
含む。目標言語情報は、語の数2102と各語の表音記号表
現2103、文字表現(漢字仮名混じり文における通常の表
記)2104を含む。2言語辞書21のレコードは、見出し語
2101をキーとして検索することができる。
第4図は、第1図における目標言語辞書のレコードの
構造と内容の例を示す図である。
目標言語辞書22のレコードは、目標言語の表音記号表
現と文字表現(漢字仮名混じり文における通常の表記)
からなる。同一の表音記号表現を持つ語が複数個存在す
ることもあるため、1つのレコードには、1つの表音記
号表現2201と、文字表現の数2202と、その数だけの文字
表現2203とが記憶されている。目標言語辞書22のレコー
ドは、表音記号表現2201をキーとして検索することがで
きる。
第5図は、第1図における原テキスト解析機能11の処
理フローチャートである。
操作者がキーボード6から口述翻訳開始を指示するこ
とにより、1つの文の処理が開始される。先ず、原文中
の処理位置を示す原文位置インジケータが文頭を指すよ
うに初期化する(ステップ1101)。次に、翻訳テキスト
構成語候補集合91の格納エリアをクリアする(ステップ
1102)。次に、原文位置インジケータが文末を指すよう
になるまで、それ以降の処理(ステップ1104〜1110)を
繰り返し行う(ステップ1103)。
先ず、原文中の原文位置インジケータが指す位置から
語を切り出し(ステップ1104)、切り出した語をキーと
して2言語辞書21を検索する(ステップ1105)。検索に
成功したときには(ステップ1106)、検索したレコード
中の目標言語情報(表音記号表現2103と文字表現2104)
を翻訳テキスト構成語候補の格納エリアに登録し(ステ
ップ1107)、原文位置インジケータが次の語の先頭位置
を指すように更新して(ステップ1108)、原文からの語
の切り出し処理に戻る(ステップ1104)。また、2言語
辞書21の検索に失敗したときには(ステップ1106)、原
文中の語が変化形がある可能性があるため、語尾変形処
理を施こした後(ステップ1110)、再度2言語辞書21を
検索する(ステップ1105)。なお、語尾変形処理として
は、名詞複数形のs、動詞過去形・過去分詞形のed、等
の規則変化に対応した処理が準備されている。例えば、
原文から切り出された語の末尾がedであれば、edを削除
した文字列あるいはdのみを削除した文字列とする。こ
のような語尾変形処理を、2言語辞書21の検索に成功す
るまで順次適用していく。どの語尾変形処理によって
も、検索に失敗したときには(ステップ1109)、その語
から翻訳テキスト構成語を予測できなかったものとし
て、原文位置インジケータの更新を行う(ステップ110
8)。
第6図は、第1図における翻訳テキスト構成語候補集
合の例を示す図である。
原テキスト解析機能11から出力される翻訳テキスト構
成語候補集合91は、第6図に示すように、目標言語の表
音記号表現9101と文字表現9102の対の集合である。
表音記号・文字変換機能12の説明の前に、それが扱う
ラティスについて説明する。ラティスの構成要素には、
音韻セグメントと語セグメントの2つがある。
第7図(a)は、音韻セグメントのレコードフォーマ
ットを示す図であり、第7図(b)は、語セグメントの
レコードフォーマットを示す図である。
音韻セグメントのレコードは、第7(a)図に示すよ
うに、そのセグメントを他のセグメントと区別するため
のセグメント識別番号9201、音韻セグメントであること
を示すセグメントタイプ9202、そのセグメントに与えら
れた表音記号を示す表音記号9203、そのセグメントの表
音信号の確からしさを示す尤度9204、そのセグメントに
前接する音韻セグメントのセグメント識別番号を示す前
接音韻セグメントリスト9205、そのセグメントに後接す
る音韻セグメントのセグメント識別番号を示す後接音韻
セグメントリスト9206、そのセグメントに前接する語セ
グメントのセグメント識別番号を示す前接語セグメント
リスト9207、そのセグメントに後接する語セグメントの
セグメント識別番号を示す後接語セグメントリスト9208
から構成されている。
音韻セグメントは、音韻認識機能41の認識の結果とし
て生成されるもので、前接語セグメントリスト9207、後
接語セグメントリスト9208以外は、音韻認識機能41によ
り値がセットされる。
音韻認識機能41から出力される音韻ラティス92の例
を、第10図(3)に示す。
この例で、『け』『げ』『ん』『こ』『と』『お』
『う』『の』『も』『し』『め』『げ』『き』『り』
『に』は、それぞれが音韻セグメントであり、各々が第
7図(a)に示すようなフォーマットのレコードを持っ
ている。
語セグメントのレコードは、第7図(b)に示すよう
に、そのセグメントを他のセグメントと区別するための
セグメント識別番号9211、語セグメントであることを示
すセグメントタイプ9212、そのセグメントの語の文字表
現を示す文字表現9213、そのセグメントの語の確からし
さを示す尤度9214、そのセグメントに前接する音韻セグ
メントのセグメント識別番号を示す前接音韻セグメント
リスト9215、そのセグメントに後接する音韻セグメント
のセグメント識別番号を示す後接音韻セグメントリスト
9216、そのセグメントに前接する語セグメントのセグメ
ント識別番号を示す前接語セグメントリスト9217、その
セグメントに後接する語セグメントのセグメント識別番
号を示す後接語セグメントリスト9218、および語セグメ
ントグループ識別番号9219から構成される。語セグメン
トは、表音記号・文字変換機能12が処理の過程で生成す
る。語セグメントグループ識別番号9219は、表音記号・
文字変換機能12が翻訳テキスト構成語候補集合に含まれ
る語を音韻ラティスから認識した場合、隣接する語セグ
メントをグループ化する役割を持つ。
1つの文に対するラティスは、音韻認識機能41により
認識された音韻に対応する音韻セグメント、表音記号・
文字変換機能12により認識された語に対応する語セグメ
ントの他に、処理の都合上、文の始点、終点をそれぞれ
表わすダミーのセグメントが2つ作成される。ダミーの
セグメントは、処理の都合により、音韻セグメントとし
て扱われたり、あるいは語セグメントとして扱われたり
する。すなわち、実際には、音韻ではないけれども、先
頭と終了の箇所で特殊な処理を行うためである。
第8図は、第1図における表音記号・文字変換機能の
処理フローチャートである。
表音記号・文字変換機能12の処理は、2つのフェーズ
に分割される。
第1のフェーズでは、音韻認識機能41の出力である音
韻ラティス92の中で、翻訳テキスト構成語候補集合91に
含まれる語を優先的に認識する(ステップ1201〜120
3)。
第2のフェーズでは、音韻ラティス92の中の第1のフ
ェーズで語に変換できなかった区間に対して、目標言語
辞書22を参照して語の認識を行う(ステップ1204〜121
3)。
すなわち、第1のフェーズでは、ラティス中の音韻セ
グメント列で翻訳テキスト構成語候補集合91に含まれる
語と一致するものを全て検索し(ステップ1201)、検索
した音韻セグメント列のそれぞれに対応して、語セグメ
ントを生成した後、音韻ラティスに接続する(ステップ
1202)。次に、生成した語セグメントの中で互いに隣接
するものを探して、隣接することをラティスのデータ構
造中に明示する(ステップ1203)。
なお、ステップ1202では、生成する語セグメントの内
容を次のように決定する。セグメント識別番号9211は、
他のセグメントと異なる番号を与える。セグメントタイ
プ9212は‘語セグメント’にする。そして、文字表現92
13は、翻訳テキスト構成語候補集合91中の該当語の文字
表現9102をコピーする。尤度9214は、その語セグメント
にまとめられる音韻セグメント列を構成する各音韻セグ
メントの尤度9204の和を計算して記入する。前接音韻セ
グメントリスト9215は、その音韻セグメント列の先頭音
韻セグメントの前接音韻セグメントリスト9205をコピー
する。これと同時に、その音韻セグメント列の先頭音韻
セグメントの前接音韻セグメントリスト9205に書かれて
いる各音韻セグメントの後接語セグメントリスト9208
に、いま生成中の語セグメントのセグメント識別番号92
11を書き込む。後接音韻セグメントリスト9216は、その
音韻セグメント列の最終音韻セグメントの後接音韻セグ
メントリスト9206をコピーする。これと同時に、その音
韻セグメント列の最終音韻セグメントの後接音韻セグメ
ントリスト9206に書かれている各音韻セグメントの前接
セグメントリスト9207に、いま生成中の語セグメントの
セグメント識別番号9211を書き込む。語セグメントグル
ープ識別番号9219は、自分自身のセグメント番号9211と
同じにする。
第9図(a)(b)は、第8図におけるステップ1203
の処理の説明図である。
第9図(a)に示すように、語セグメントaの後接音
韻セグメントリスト9216に書かれた音韻セグメントで、
語セグメントbの前接音韻セグメントリスト9215に書か
れた音韻セグメントに後接するものがあれば、語セグメ
ントaに語セグメントbが後接していると判定して、第
9図(b)に示す構造に変更する。すなわち、語セグメ
ントaの後接語セグメントリスト9218に語セグメントb
のセグメント識別番号9211を、語セグメントbの前接語
セグメントリスト9217に語セグメントaの識別番号9211
を書き込む。
次に、第2のフェーズでは、後接語セグメントを持た
ない語セグメントに対して、後接する音韻セグメント列
を語セグメントに変換する処理を、後方の語セグメント
に到達するまで繰り返す。すなわち、先ずラティス中の
始点および語セグメントで、後接語セグメントリスト92
18が空であるものを探し、それらの語セグメントグルー
プ識別番号9219を処理未了語セグメントグループリスト
に登録する(ステップ1204)。そして、処理未了語セグ
メントリストが空になるまで(ステップ1205)、処理未
了語セグメントリストから語セグメントグループ識別番
号を1つだけ選択する(ステップ1206)。そして、選択
した語セグメントグループ識別番号を持つ語セグメント
に対して、それに後接する音韻セグメント列と表音記号
表現2201が一致する語を目標言語辞書22から検索する
(ステップ1207)。検索に成功すれば(ステップ120
8)、検索した語に対する語セグメントのレコードを生
成する(ステップ1209)。検索に失敗したならば(ステ
ップ1208)、いま処理中の語セグメントは後接語セグメ
ントを持たないことを意味するので、それを繰り返し探
す処理を避けるために、その語セグメントの語セグメン
トグループ識別番号9219をnilにする(ステップ121
0)。
また、語セグメントを生成する処理(ステップ1209)
で、生成した語セグメントが既に存在する語セグメント
で異なる語セグメントグループ識別番号を持つものに前
接することがわかると(ステップ1211)、生成した語セ
グメントの語セグメントグループ識別番号9219を処理未
了語セグメントリストから削除する(ステップ1212)。
処理未了語セグメントリストが空になると(ステップ
1205)、通常は、始点から終点に至る語セグメント列が
少なくとも1つはできたことを意味する。なお、どのよ
うな語列にも一致する表音記号列がない区間があるとき
には、その区間は語セグメントが途切れている。処理未
了語セグメントリストが空になると、最も少ない数のセ
グメントで始点と終点を結ぶセグメント列を選択する。
そのようなセグメント列が複数ある場合には、セグメン
ト列を構成する各セグメントの尤度の和が最大のものを
選択する(ステップ1213)。表音記号・文字変換機能12
は、選択したセグメント列上の語セグメントの文字表現
9213(音韻セグメントの場合には表音記号9203)を順に
並べて、これを出力とする。
なお、ステップ1209の語セグメントの生成処理は、ス
テップ1202,1203の処理とほぼ同一であるが、次の2つ
の点のみ異なっている。すなわち、第1に異なる点は、
生成する語セグメントの文字表記9213として、目標言語
辞書22から検索したレコードの語の文字表現2203をコピ
ーすることである。ここで、目標言語辞書22のレコード
は、一般に複数の文字表現2203を含むため(同音異語が
あるため)、各文字表現に対応した複数の語セグメント
を生成するものとする。第2に異なる点は、語セグメン
トグループ識別番号9219を、前接語セグメントのグルー
プ識別番号9219と同じにすることである。
第10図(1)〜(4)は、本例の音声タイプライタに
より、口述された翻訳文が漢字仮名混じり文に変換され
る例を示す図である。
同図(1)に示すように、原文は『deadline for man
uscripts』という名詞句である。同図(2)に示すよう
に、操作者が『げんこうのしめきり』と発声したとす
る。いま、2言語辞書21と目標言語辞書22の内容が、そ
れぞれ第3図および第4図に示すものであるとすると、
原テキスト解析機能11が出力する翻訳テキスト構成語候
補集合91は第6図に示すような集合となる。また、音韻
認識機能41が出力する音韻ラティス92が、第10図(3)
に示すようなラティスであるとする。そして、図におい
て、複数のセグメントが並列になっている場合には、上
方のセグメントの方が尤度が高いものとする。このと
き、表音記号・文字変換機能12の変換結果は、第10図
(4)に示すようになり、『原稿の締切り』とCRTに表
示される。この表示中で、『の』だけが反転表示、つま
り他が白ならば黒、他が黒ならば白で表示されている。
『の』については、次候補として『も』の可能性が残っ
ているため、反転表示しているのである。
なお、第10図の例における表音記号・文字変換機能12
の処理を、さらに詳細に説明する。
例えば、『げんこう』と発声した部分に対しては、音
響的には『けんこお』が最尤解であって、さらに『けん
こう』、『けんとお』、『けんとう』、『げんこお』、
『げんとお』、『げんとう』等の可能性があることを、
第10図(3)の音韻ラティスが表わしている。表音記号
・文字変換機能12は、これらの中から翻訳テキスト構成
語候補集合91に含まれている『げんこう』を選択して、
翻訳テキスト構成語候補集合91が示す文字表現『原稿』
に変換する。このようにして、『げんこう』が音響的に
は尤度が最大ではないにもかかわらず選択されている。
また、『げんこう』に対して『原稿』、『現行』、『言
行』のような同音異語の問題も生じていない。
このように、本例の音声タイプライタにおいては、音
声認識における曖昧性(音韻の曖昧性と同音異語)が解
消されるので、実用的な認識率が達成できる。
次に、第2の参考例について説明する。
本参考例では、仮名漢字変換方式の翻訳用ワードプロ
セッサの場合を述べる。
第11図は、本参考例の翻訳用ワードプロセッサのハー
ドウェア構成図である。
本例の翻訳用ワードプロセッサは、中央処理装置101
と、記憶装置102と、キーボード103と、CRTディスプレ
イ104と、第1フロッピーディスク駆動装置105と、第2
フロッピーディスク駆動装置106と、プリンタ107から構
成されている。
第12図は、第11図に示す翻訳用ワードプロセッサの機
能ブロック図である。
第12図に示す原テキスト解析機能1011、仮名漢字変換
機能1012、2言語テキスト表示機能1013および翻訳テキ
ストセーブ機能1014は、いずれもプログラムモジュール
であって、中央処理装置101の演算回路により実行され
ることにより各機能を遂行する。
記憶装置102には、2言語辞書1021および目標言語辞
書1022が記憶され、さらに仮名漢字変換処理の途中で翻
訳文データを格納する翻訳文バッファ1023の領域が確保
されている。
また、第1フロッピーディスク駆動装置105と第2フ
ロッピーディスク駆動装置106にセットされたフロッピ
ーディスクを、それぞれ原テキストファイル1051、翻訳
テキストファイル1061として用いる。
次に、翻訳用ワードプロセッサの動作を説明する。
先ず、2言語テキスト表示機能1013は、原テキストフ
ァイル1051から原テキストを読み出し、CRTディスプレ
イ104の原テキスト表示領域に表示する。この場合、処
理すべき1文のみを反転表示する。
原テキスト解析機能1011は反転表示された文を形態素
解析し、2言語辞書1021を検索することにより、翻訳テ
キスト構成語候補集合901を求める。
一方、CRTディスプレイ104に表示された原テキストの
うち反転表示された文904を操作者が翻訳し、翻訳文905
をキーボード103から仮名入力する。入力された仮名デ
ータは、翻訳文バッファ1023に格納される。仮名漢字変
換機能1012は、翻訳文バッファ1023の内容を読み出し
て、仮名文字の部分に対して仮名漢字変換を実行する。
そして、変換できたときには、翻訳文バッファ1023中の
該当する仮名文字データを漢字仮名混じり表記データに
置き換える。仮名漢字変換機能1012は、翻訳テキスト構
成語候補集合901に含まれる語を優先して選択し、翻訳
テキスト構成語候補集合901に含まれる語に変換できな
いことが判明した場合、その部分を目標言語辞書1022を
参照して漢字仮名混じり文に変換する。
2言語テキスト表示機能1013は、常時翻訳バッファ10
23を監視しており、最新のバッファ内容をCRTディスプ
レイ104の翻訳文表示領域に表示する。また、キーボー
ド103から入力された記号が文末記号であることを検出
すると、原テキスト表示領域の反転表示する文を次の文
に変更する。
翻訳テキストセーブ機能1014も、翻訳文バッファ1023
を常時監視しており、文末記号を検出すると、翻訳文バ
ッファ1023の内容を翻訳テキストファイル1061にセーブ
した後、翻訳文バッファ1023をクリアする。
第13図は、第12図における仮名漢字変換機能の処理フ
ローチャートである。
2言語辞書1021と目標言語辞書1022と原テキスト解析
機能1011は、第1の実施例で説明したものと全く同一で
あるため、説明を省略する。第13図において、BUFは翻
訳文バッファ1023を示し、バッファの第i番目の文字を
BUF(i)、バッファの第i番目から第j番目の文字列
をBUF(i,・・・,j)で示す。また、バッファ中の仮名
漢字変換が済んでいない部分の先頭文字の位置を示す未
変換部インジケータをI、バッファ中の最後の文字の位
置を示す最終文字インジケータをJとする。
仮名漢字変換機能1012は、翻訳文バッファ1023が翻訳
テキストセーブ機能1014によりクリアされたことを検知
すると、最終文字インジメータJを初期値0にリセット
し(ステップ101201)、また未変換部インジケータIを
初期値1にリセットする(ステップ101202)。この後、
キーボード103からの入力を待つ(ステップ101203)。
そして、入力があると、入力が文末記号になるまでステ
ップ101204〜101216の処理を繰り返し行う。新たに仮名
文字が入力されると、先頭位置インジケータJを1だけ
進め(ステップ101204)、BUF(J)に入力された仮名
文字を格納する(ステップ101205)。続いて、BUF(I,
・・・・,J)の仮名漢字変換を実行する。先ず、BUF
(I,・・・,J)の後方のできる限り長い仮名文字列と仮
名表記が一致する語を翻訳テキスト構成語候補集合901
から検索する。このために、変数xを0から1ずつ増加
させながら、xがJ−Iになるまで、BUF(I+x,・・
・,J)と表音記号表現が一致する語を翻訳テキスト構成
語候補集合901から検索する(ステップ101206,101207,1
01208,101209,101210)。xがJ−Iになるまでの値に
ついて、いずれも検索に失敗したときには(ステップ10
1208,121209)、次の仮名でのキー入力を待つ(ステッ
プ101203)。
翻訳テキスト構成語候補集合901からの検索に成功し
たときには(ステップ101208)、BUF内の仮名文字列を
漢字列に置き換えた後、次の仮名入力を待つ(ステップ
101211〜101216,101203)。ここで、xが0のとき、す
なわちBUF(I,・・・・,J)全体が翻訳テキスト構成語
候補集合901中の語であった場合、翻訳テキスト構成語
候補集合901に示されている漢字表記(第6図の文字表
現9102)を直ちにBUFに格納する。すなわち、長さzの
漢字表記をBUF(I,・・・,I+z−1)に格納し(ステ
ップ101215)、IおよびJが格納した漢字表記の次の位
置を指すように更新する(ステップ101216)。また、x
>0のとき、すなわちBUF(I,・・・,J)の後方の一部
が翻訳テキスト構成語候補集合901中の語であったとき
には、未変換部分であるBUF(I,・・・・,I+x−1)
について、目標言語辞書1022を用いて仮名漢字変換を実
行する(ステップ101212)。この仮名漢字変換は、従来
の方法により行うが、変換精度を向上するために、変換
後の語数が少ないものを優先する等の処理を行う。次
に、BUF(I,・・・,I+x−1)の仮名漢字変換の結果
が長さyの文字列であるとすると、これをBUF(I,・・
・・,I+y−1)に格納して(ステップ101213)、Iお
よびJを格納した漢字列の次を指すように更新する(ス
テップ101214)。その後、翻訳テキスト構成語候補集合
901から検索され、BUFへの格納が保留されていた語の漢
字表記を前述と同じようにBUFに格納し(ステップ10121
5)、IとJを格納した漢字列の次を指すように更新す
る(ステップ101216)。
最後に、キーボード103から入力された記号が末尾記
号になると(ステップ101203)、文末部分が仮名漢字変
換済みか否かを判定し(ステップ101217)、変換済みで
なければ、目標言語辞書1022を用いて仮名漢字変換を行
い(ステップ101218)、変換された結果をBUFに格納し
て(ステップ101219)、処理を終了する。
第14図は、本参考例による翻訳用ワードプロセッサの
仮名漢字変換例を示す図である。
仮名で入力された翻訳文が、漢字仮名混じり文に変換
される場合を示す。操作者が画面で見る原文は、第14図
(1)に示すように、『deadline for manuscripts』と
いう名詞句である。操作者はこれを翻訳して、キーボー
ド103から第14図(2)に示すように、『げんこうのて
いしゅつきげん』と仮名で入力したものとする。
いま、2言語辞書1021、目標言語辞書1022が、それぞ
れ第3図および第4図に示す内容であるとすれば、原テ
キスト解析機能1011は第6図に示すような翻訳テキスト
構成語候補集合901を出力する。
第14図(3)には、仮名文字を1字入力する度に、CR
Tディスプレイ104の翻訳文表示が変化する状態を示して
いる。ここで、『げんこう』と『きげん』の部分に見ら
れるように、同音異語の問題が予め原テキスト解析を行
うことにより、解決されている。すなわち、従来の仮名
漢字変換処理では、『げんこう』に対して『原稿』『現
行』『言行』等が、『きげん』に対しては『期限』『起
源』『紀元』等が、それぞれ候補となる。しかし、本発
明では、原テキスト解析機能1011が『原稿』と『期限』
をそれぞれ予測することにより、他の候補は棄却されて
しまう。なお、『のていしゅつ』の部分のように、原テ
キスト解析機能1011が予測する語と一致しない部分につ
いては、同音異語の問題が生じることもある。
本例の他の利点として、原テキスト解析機能1011が予
測する語と仮名表記が一致する部分を高い確信度で語と
判定できるので、べた入力の仮名文字列の場合でも、語
に分割する処理が高精度で行える。その結果、仮名漢字
変換処理における操作者の負担は格段に軽減される。
尚、これらの例では、翻訳テキストの全文を、音声ま
たは仮名で入力するものであるが、機械翻訳の結果を後
編集するときのように、翻訳テキストの断片を入力す
る、すなわち、翻訳テキスト中に挿入したり置き換える
文や語句を、音声で入力する翻訳テキスト編集装置が考
えられる。例えば、『manuscript』を機械翻訳が『手書
き』と翻訳したが、操作者が『原稿』に修正するため
『げんこう』と口述入力したとする。この時、原テキス
ト中の『manuscript』から『原稿』が予測されているの
で、『げんこう』は『原稿』に変換される。このよう
に、原テキストを解析して、挿入や置換する文や句を構
成する語を予測することにより、挿入・置換する文や語
句の音声認識および漢字仮名変換の精度を向上できる。
また、他の変形例として、翻訳ではなく、テキストの
要約を入力する装置も実現できる。要約を構成する語の
大部分は、原テキストに含まれる語であることが多いた
め、原テキストを構成する語を要約テキストを構成する
語の候補と考えて、要約テキストの音声認識あるいは仮
名漢字変換に利用できる。
すなわち、文の要点だけで文を作成する際に、重要な
単語、例えば『誰が』『何時に』『どこで』『何をした
か』という語は、全て原テキスト中に含まれているの
で、原テキストから予測情報を利用することにより、要
約テキストの音声認識や仮名漢字変換を高精度で実現で
きる。
次に、第3の参考例として、画像のコメント文入力装
置を詳述する。この装置は、専門家が画像を分析して、
コメントを音声で口述することにより、これを文字化す
る装置である。
第15図は、第3の参考例を示す画像コメント文入力装
置のハードウェア構成図である。
コメント文入力装置は、中央処理装置210と、記憶装
置220と、マイクロホン230と、音響処理装置240と、画
像スキャナ250と、画像記憶装置260と、画像表示装置27
0と、プリンタ280とから構成されている。
第16図は、第15図における画像コメント文入力装置の
機能ブロック図である。
画像解析機能211と表音記号・文字変換機能212と画像
表示機能213とは、いずれもプログラムモジュールであ
って、中央処理装置212により機能が遂行される。ま
た、音韻認識機能241は、音響処理装置240により機能が
遂行される。
画像・言語変換辞書221と単語辞書222とコメント文フ
ァイル223は、いずれも記憶装置220にそれらの領域が確
保されている。また、画像ファイル261は、メモリ容量
が膨大となるため、画像記憶装置260の領域を使用して
格納される。なお、画像は、画像スキャナ250を介して
画像ファイル261に格納される。
以下、画像コメント文入力装置の動作を説明する。
先ず、画像表示機能213は画像ファイル261から操作者
が選んだ画像データを読み出し、その画像データを画像
表示装置270に表示する。次に、画像解析機能211は、表
示された画像の特徴抽出を行い、画像・言語変換辞書22
1を参照することにより、コメント文構成語候補集合291
を求める。ここで、画像・言語変換辞書221は、画像の
特徴パターンとその特徴パターンから連想される用語を
対応付ける辞書であって、応用分野毎に用意されてい
る。用語の情報としては、その表音記号表現と文字表現
を含んでいる。画像解析機能211は、画像・言語変換辞
書221中の特徴パターンとのパターンマッチングによ
り、画像に含まれる特徴パターンを検出して、その特徴
パターンに対応する用語の情報をコメント文構成語候補
集合291の格納エリアに出力する。
一方、画像表示装置270の画面に表示された画像294を
見ながら、操作者はコメント文、例えば画像の解釈や所
見等295を口述することにより、マイクロホン230が音声
を電気信号に変換する。音韻認識機能241は入力した電
気信号の音声波形を解析し、セグメンテーションおよび
特徴パラメータの抽出を行って、入力音声を音韻ラティ
ス292に変換する。
次に、表音記号・文字変換機能212は、音韻認識機能2
41の出力である音韻ラティス292を語列に変換する。そ
の際に、画像解析機能211の出力であるコメント文構成
語候補集合291に含まれる語を優先して選択する。コメ
ント文構成語候補集合291に含まれる語に変換できない
区間に対しては、単語辞書222を参照して語列に変換す
る。単語辞書222は、第1の実施例に示した目標言語辞
書と同じものであるため、内容の説明は省略する。コメ
ント文構成語候補集合291、単語辞書222の内容には、い
ずれも語の文字表現が含まれているので、音韻ラティス
292から変換された語列を基に、直ちにコメント文の文
字表記293を作成して、コメント文ファイル223に格納す
る。なお、コメント文ファイル223に格納されたコメン
ト文は、プリンタ280により印刷される。
本例と第1の参考例とを比較すると、いずれも口述テ
キストを文字に変換する点で同一であるが、第1の参考
例では、翻訳テキスト構成語を原テキストから予測する
のに対して、本例では、原画像からコメント文構成語を
予測する点のみが異なっている。従って、本例でも、音
声から文字への変換が高精度で行われることは説明を要
しない。画像データの解析は、あるレベルまでは計算機
で行うことができるが、それ以上は限界があり、最終的
には専門家の判断に頼らなければならないことが多い。
本例によれば、このような要望に対して、専門家が自然
な状態で口述した音声を入力することにより、確実に判
断結果を入力することができる。
次に、第4の参考例として、音声入力機能付き文字認
識装置について説明する。
これは、文字認識装置において、文字認識の第1解と
次の解の尤度差がそれほど違わない場合に、その文字を
操作者に表示して、操作者がその文字ないしその文字を
含む単語の読みを音声で与えることにより、正解の選択
を可能にしたものである。操作者が読みを発声すると、
それによって音声認識を行い、先の文字認識の結果と併
用して解を求める。操作者が全文を発声することなく、
表示された一部の文字ないし単語を見て発声するだけで
あるため、殆んど手間がかからず、文字認識の結果と音
声認識の結果とを組み合わせることで、それぞれが含む
曖昧性を解消するので、認識率が格段に向上する。
第17図は、第4の参考例を示す音声入力機能付き文字
認識装置のハードウェア構成図である。
本例の文字認識装置は、中央処理装置310と、記憶装
置320と、文字スキャナ330と、フロッピーディスク駆動
装置340と、CRTディスプレイ350と、マイクロホン360
と、音響処理装置370とで構成されている。
第18図は、第17図における音声入力機能付き文字認識
装置の機能ブロック図である。
文字認識機能311とテキストデータ管理機能312と文字
図形表示機能313と文字単語認識機能314と音声単語認識
機能315と最尤単語選択機能316とは、いずれもプログラ
ムモジュールであって、中央処理装置310の演算回路に
より実行されることによって、それぞれの機能を遂行す
る。
また、記憶装置320には、文字認識辞書321と単語辞書
322が格納される他に、図形バッファ323およびテキスト
バッファ324の領域が確保されている。また、フロッピ
ーディスク駆動装置340にセットしたフロッピーディス
クは、テキストファイル341として用いられる。
次に、音声入力機能付き文字認識機能の動作の概要を
説明する。
先ず、文字スキャナ330は、図形としての文字を読み
取り、読み取った文字を図形バッファ323に順次格納し
ていく。
文字認識機能311は、図形バッファ323内の文字パター
ンを文字認識辞書321を参照することにより認識する。
テキストデータ管理機能312は、認識された文字の中
で、曖昧性があるものを検出し、文字図形表示機能313
によりCRTディスプレイ350に出力して、操作者にその文
字を含む語の読みを口述させる。文字単語認識機能314
は、曖昧性のある文字に対して単語辞書322を参照する
ことにより最尤単語選択機能316に第1単語候補集合391
を出力する。
一方、音声単語認識装置315は、操作者が口述した音
声を認識することにより、第2単語候補集合395を最尤
単語選択機能316に出力する。
次に、最尤単語選択機能316は、文字単語認識機能314
からの第1単語候補集合391および音声単語認識機能315
からの第2単語候補集合395を受け取り、これらに共通
に含まれる語を選択する。最尤単語選択機能316の選択
結果に基づいて、テキストデータ管理機能312はテキス
トバッファ324内のテキストデータを更新する。
次に、各機能の動作を詳細に説明する。
文字認識機能311は、図形バッファ323から1文字ずつ
図形データを取り出して、その特徴抽出を行い、文字認
識辞書321を参照することにより文字認識を行う。文字
認識辞書321は、図形としての文字の特徴パターンと文
字コードとを対応付けるものである。文字認識機能311
は、図形バッファ323から読み出した図形データと文字
認識辞書321中の特徴パターンのマッチングをとり、一
致度が最大の特徴パターンに対応する文字コードを第1
の解として選び、これをテキストバッファ324に出力す
る。しかしながら、第1の解と一致度の差が予め定めた
値以下の特徴パターンが複数個存在する場合には、曖昧
性があると判断して、それらの特徴パターンにそれぞれ
対応する複数の文字コードをテキストバッファ324に出
力する。テキストバッファ324に出力される文字コード
とともに、パターンの一致度を解の尤度とみなして、こ
れも同時にテキストバッファ324に出力する。
次に、テキストデータ管理機能312は、テキストバッ
ファ324を常時監視しており、曖昧性のある結果(文字
コードと一致度)がテキストバッファ324に書き込まれ
ると、テキスト中のその位置を文字図形表示機能313お
よび文字単語認識機能314の両者に通知する。
文字図形表示機能313は、文字認識処理で曖昧性が生
じた位置を通知されると、図形バッファ323からその前
後を含む図形データを読み出し、CRTディスプレイ350に
表示する。曖昧性のある文字のみをブリンク表示し、そ
の他の文字は通常の表示をする。
次に、文字単語認識機能314は、文字認識で曖昧性の
生じた位置が通知されると、テキストバッファ324から
その前後を含むテキストデータを読み出し、文字認識で
曖昧性が生じた文字を含む文字列をキーとして単語辞書
322を検索する。単語辞書322は、この文字認識装置が対
象とする言語の語彙を集めたものであり、各語の文字表
現と表音記号表現とを対応付けて記憶している。単語辞
書322は、文字単語認識機能314の検知要求を満たすため
に、文字表現をキーとして検索できるとともに、音声単
語認識機能315の検索要求を満たすために、表音記号表
現をキーとしても検索できるように構成される。文字単
語認識機能314は、テキストデータに含まれる文字列の
全ての可能性について単語辞書322の検索を行い、検索
に成功した文字列(単語)の集合を出力する。このと
き、単語を構成する文字の尤度をテキストバッファ324
から読み出し、その和を計算し、単語の尤度として併せ
て出力する。文字単語認識機能314が出力する単語集合
を、第1単語候補集合391と呼ぶ。
一方、文字図形表示機能313によりCRTディスプレイ35
0の画面上に文字392がブリンク表示されると、操作者は
それを見て、その文字を含む単語の読み393を発声す
る。マイクロホン360は、その読み393の音声を電気信号
に変換する。
音韻認識機能371は、読み393の音声波形を解析し、セ
グメンテーション、特徴パラメータの抽出を行い、入力
音声を音韻ラティス394に変換する。音韻ラティス394
は、音声を表音記号列に変換する際に、セグメンテーシ
ョンおよびセグメントの表音記号によるラベルづけにお
ける曖昧性を考慮し、可能性のある表音記号列を全て含
んだ形にしている。
次に、音声単語認識機能315は、音韻認識機能371の出
力である音韻ラティス394に含まれる表音記号列の各々
をキーとして、単語辞書322を検索する。検索に成功し
た全ての表音記号列に対して、その表音記号列に対応す
る単語の文字表現を単語辞書322から読み出して、それ
らを第2単語候補集合395として出力する。この際に、
音韻ラティス394を参照して、単語が対応する表音記号
列を構成する各表音記号の尤度の和を求め、これを単語
の尤度として併せて出力する。
次に、最尤単語選択機能316は、第1単語候補集合391
と第2単語候補集合395に共通に含まれる単語を検索す
る。共通に含まれる単語が1つ存在すれば、それを解と
して選択し、テキストデータ管理機能312に通知する。
共通に含まれる単語が複数個存在する場合には、第1単
語候補集合391における尤度と第2単語候補集合395にお
ける尤度の和が最大のものを解として選択し、これをテ
キストデータ管理機能312に通知する。共通に含まれる
単語が1つも存在しないときには、その旨をテキストデ
ータ管理機能312に通知する。
テキストデータ管理機能312は、最尤単語選択機能316
から処理結果の通知を受けると、それに応じてテキスト
バッファ324内のテキストデータを更新する。最尤単語
選択機能316が解を得て、それをテキストデータ管理機
能312に通知すると、管理機能312はその解と両立しない
文字をテキストデータから削除する。最尤単語選択機能
316が解を得ることができなかったときには、文字認識
機能311が最も高い尤度を与えた文字に選択し、競合す
る他の解を削除する。このようにして、テキストデータ
管理機能312はテキストバッファ324中のテキストデータ
を更新した後、更新されたテキストデータをテキストバ
ッファ324からテキストファイル341に転送する。
本例の音声入力機能付き文字認識装置は、このように
して音声認識と文字認識の組み合わせにより、曖昧性を
解消している。例えば、『一方』という語を文字認識し
た場合、解の候補として、例えば『一万』、『一方』、
『一力』が得られる。これに対して、操作者が『いっぽ
う』と発音して読みを与えた場合には、音声認識でも曖
昧性が生じる。例えば、『いっぽ』、『いっぽう』、
『いほう』、『いっほう』が得られ、これをキーとして
単語辞書322を検索すると、解の候補としては、『一
歩』、『一方』、『一報』、『違法』、『異邦』が得ら
れる。文字認識による解の候補と音声認識による解の候
補に共通に含まれているのは、これらのうち『一方』の
みであるため、この単語が解と決定される。
このように、本例では、文字認識装置に対する人間の
介入は、装置が提示する語を読むという自然な形で行う
ことができる。従来からよく用いられる方法として、装
置が表示する複数の候補から正しいものを選択する方法
があるが、候補が多くなると正解を探すために時間がか
かるという問題がある。本例は、装置が提示する語を読
むだけであるため、極めて効率的で簡易な方法と言え
る。
次に、本発明の実施例として、同時通訳音声タイプラ
イタについて説明する。
これは、第1言語の話者による原テキストと、それを
同時通訳者が翻訳した翻訳テキストの両方を、音声から
文字に変換する装置である。
第19図は、本発明の実施例を示す同時通訳音声タイプ
ライタのハードウェア構成図である。
本実施例の同時通訳音声タイプライタは、中央処理装
置410と、記憶装置420と、第1マイクロホン430と、第
1音響処理装置440と、第1フロッピーディスク駆動装
置450と、第2マイクロホン460と、第2音響処理装置47
0と、第2フロッピーディスク駆動装置480とで構成され
ている。
第20図は、第19図における同時通訳音声タイプライタ
の機能ブロック図である。
第1表音記号・文字変換機能411と第2表音記号・文
字変換機能412と最尤解選択機能413は、いずれもプログ
ラムモジュールであって、中央処理装置410の演算回路
により実行されることにより、その機能が遂行される。
また、第1音韻認識機能441と第2音韻認識機能471は、
それぞれ第1音響処理装置440、第2音響処理装置470に
よりその機能が遂行される。また、第1言語辞書421と
第2言語辞書422と2言語辞書423は、いずれも記憶装置
420に格納されている。また、第1言語テキストファイ
アル451と第2言語テキストファイル481として、それぞ
れ第1フロッピーディスク駆動装置450、第2フロッピ
ーディスク駆動装置480にセットしたフロッピーディス
クが用いられる。
次に、同時通訳音声タイプライタの動作を説明する。
原話者が第1言語の原テキストを口述すると、第1マ
イクロホン430は、その音声を電気信号に変換する。第
1音韻認識機能441は、原テキストの音声波形を解析
し、セグメンテーション、特徴パラメータ抽出を行い、
音韻ラティスに変換する。次に、第1表音記号・文字変
換機能411は、第1言語辞書421を参照して、音韻ラティ
スを単語ラティスに変換する。単語ラティスは、複数の
単語列を束の形にしたものであって、音声認識の結果
を、曖昧性を含んだ形で表現している。
一方、原話者により口述される第1言語の原テキスト
を同時通訳者が第2言語に翻訳して口述すると、第2マ
イクロホン460は、その音声を電気信号に変換する。第
2音韻認識機能471は、翻訳テキストの音声波形を解析
し、セグメンテーション、特徴パラメータ抽出を行い、
音韻ラティスに変換する。次に、第2表音記号・文字変
換機能412は、第2言語辞書422を参照して、音韻ラティ
スを単語ラティスに変換する。
次に、最尤解選択機能413は、第1表音記号・文字変
換機能411から原テキストの単語ラティスを、第2表音
記号・文字変換機能412から翻訳テキストの単語ラティ
スをそれぞれ受け取り、両者の突き合わせを行う。すな
わち、原テキストの単語ラティスに含まれる各単語を2
言語辞書423から検索して、各単語に対する第2言語の
訳語を求め、さらに、各訳語が翻訳テキストの単語ラテ
ィスに含まれるか否かをチェックする。このようにし
て、原テキストの単語ラティスと翻訳テキストの単語ラ
ティスに含まれている対訳関係を全て抽出する。抽出し
た対訳関係に含まれている第1言語の単語の集合を、第
1表音記号・文字変換機能411に通知する。この単語集
合を、第1言語最尤単語集合と呼ぶ。同じく抽出した対
訳関係に含まれている第2言語の単語の集合を、第2表
音記号・文字変換機能412に通知する。この単語集合
を、第2言語最尤単語集合と呼ぶ。
次に、第1表音記号・文字変換機能411は、最尤解選
択機能413から第1言語最尤単語集合を受け取ると、原
テキストの単語ラティスから最尤単語列を求める。すな
わち、第1言語最尤単語集合に含まれる単語を優先的に
残し、それと競合する単語は削除することにより、単語
ラティスを1つの単語列に縮退させる。なお、第1言語
最尤単語集合に含まれる単語どうしが競合する区間や、
第1言語最尤単語集合に含まれる単語がない区間につい
ては、音韻的に尤度の高い単語を残す。このようにして
得られた単語列を、第1言語テキストファイル451に出
力する。
全く同じようにして、第2表音記号・文字変換機能41
2は、最尤解選択機能413から第2言語最尤単語集合を受
け取ると、翻訳テキストの単語ラティスから最尤単語列
を求める。すなわち、第2言語最尤単語集合に含まれる
単語を優先的に残し、それと競合する単語は削除するこ
とにより、単語ラティスを1つの単語列に縮退させる。
なお、第2言語最尤単語集合に含まれる単語どうしが競
合する区間や、第2言語最尤単語集合に含まれる単語が
ない区間については、音韻的に尤度の高い単語を残す。
このようにして得られた単語列を、第2言語テキストフ
ァイル481に出力する。
本実施例の同時通訳音声タイプライタでは、原テキス
トの音声認識の結果と翻訳テキストの音声認識の結果と
を組合わせて、それぞれに含まれる曖昧性の解消を図る
ことにより、最終的な音声認識の精度を大きく向上させ
る。
このように、本発明では、組合せる対象によって種々
の装置が実現できる。すなわち、文字による原テキスト
と音声による翻訳テキストの組合せにより、翻訳テキス
トを音声から文字表記に変換する翻訳用音声タイプライ
タが実現できる。また、テキストとその要約の組合せに
より、テキストの要約を口述したり、仮名やローマ字で
入力して文字表記に変換する要約テキスト入力装置が実
現できる。また、画像とそれに対するコメント文の組合
せにより、画像に対するコメント文を口述したり、仮名
やローマ字で入力して文字表記に変換する画像コメント
文入力装置が実現できる。また、図形としての文字と文
字あるいは単語の読みの組合せにより、高精度の文字認
識装置が実現できる。また、第1言語の音声とその第2
言語への同時通訳音声との組合せにより、同時通訳音声
タイプライタが実現できる。
〔発明の効果〕
以上説明したように、本発明によれば、相互に関連を
もつ複数の対象をそれぞれ解析して、変換あるいは認識
を行って解を求め、それらに共通する解を選ぶことによ
り、1つの対象のみを解析する場合に比較して、変換あ
るいは認識の精度を著しく向上させることが可能であ
る。
【図面の簡単な説明】
第1図は、本発明の第1の参考例を示す翻訳用音声タイ
プライタの機能ブロック図、第2図は第1図における翻
訳用音声タイプライタのハードウェア構成図、第3図は
第1図における2言語辞書のレコードの例を示す図、第
4図は第1図における目標言語辞書のレコードの例を示
す図、第5図は第1図における原テキスト解析機能の処
理フローチャート、第6図は第1図における翻訳テキス
ト構成語候補集合を示す図、第7図は第1図におけるラ
ティス構成要素のデータ構造を示す図、第8図は第1図
における表音記号・文字変換機能の処理フローチャー
ト、第9図は第1図における隣接する語セグメントに対
する処理の説明図、第10図は第1図における音声から漢
字仮名混じり文への変換例を示す図、第11図は第2の参
考例を示す翻訳用ワードプロセッサのハードウェア構成
図、第12図は第11図における翻訳用ワードプロセッサの
機能ブロック図、第13図は第11図における仮名漢字変換
機能の処理フローチャート、第14図は第11図における仮
名漢字変換例を示す図、第15図は第3の参考例を示す画
像のコメント文入力装置のハードウェア構成図、第16図
は第15図における画像のコメント文入力装置の機能ブロ
ック図、第17図は第4の参考例の音声入力機能付き文字
認識装置のハードウェア構成図、第18図は第17図におけ
る音声入力機能付き文字認識装置の機能ブロック図、第
19図は本発明の実施例の同時通訳音声タイプライタのハ
ードウェア構成図、第20図は第19図における同時通訳音
声タイプライタの機能ブロック図である。 1,101,210,310,410:中央処理装置、2,102,220,320,420:
記憶装置、3,230,360:マイクロホン、430,460:第1およ
び第2マイクロホン、4,240,370:音響処理装置、440,47
0:第1および第2音響処理装置、5,104,350:CRTディス
プレイ、6,103:キーボード、7:OCR、8,107,280:プリン
タ、11:原テキスト解析機能、12,212:表音記号・文字変
換機能、411,412:第1および第2表音記号・文字変換機
能、13:2言語テキスト表示機能、21,1021,423:2言語辞
書、22,1022:目標言語辞書、23,1051:原テキストファイ
ル、24,1061:翻訳テキストファイル、41,241,371:音韻
認識機能、441,471:第1および第2音韻認識機能、105,
106:第1および第2フロッピーディスク駆動装置、340:
フロッピーディスク駆動装置、450,480:第1および第2
フロッピーディスク駆動装置、1011:原テキスト解析機
能、1012:仮名漢字変換機能、1013:2言語テキスト表示
機能、1014:翻訳テキストセーブ機能、1023:翻訳文バッ
ファ、250:画像スキャナ、260:画像記憶装置、270:画像
表示装置、211:画像解析機能、213:画像表示機能、221:
画像・言語変換辞書、222,322:単語辞書、223:コメント
文ファイル、261:画像ファイル、330:文字スキャナ、32
1:文字認識辞書、324:テキストバッファ、341:テキスト
ファイル、323:図形バッファ、314:文字単語認識機能、
316:最尤単語選択機能、315:音声単語認識機能、311:文
字認識機能、312:テキストデータ管理機能、313:文字図
形表示機能、413:最尤解選択機能、421:第1言語辞書、
422:第2言語辞書、451:第1言語テキストファイル、48
1:第2言語テキストファイル。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】第1言語の音声(原音声情報)の認識と、
    該原音声情報の第2言語への通訳結果である音声(通訳
    音声情報)の認識とを行なう同時通訳向き音声認識シス
    テムであって、 上記第1言語の単語に対する上記第2言語の訳語を対応
    付けた単語対訳情報を予め記憶する記憶手段と、 入力された上記原音声情報に対応して複数の単語候補を
    抽出する第1の処理手段と、 上記入力された原音声情報の通訳結果である通訳音声情
    報に対応して複数の単語候補を抽出する第2の処理手段
    と、 上記第1の処理手段が抽出した単語候補と上記第2の処
    理手段が抽出した単語候補との対で上記単語対訳情報に
    含まれている対を上記記憶手段を検索して抽出する第3
    の処理手段と、 該第3の処理手段が抽出した単語候補の対に含まれてい
    る単語を優先的に選択して上記原音声情報に対応する単
    語列を決定する第4の処理手段と、 上記第3の処理手段が抽出した単語候補対に含まれてい
    る単語を優先的に選択して上記通訳音声情報に対応する
    単語列を決定する第5の処理手段と を有することを特徴とする同時通訳向き音声認識システ
    ム。
  2. 【請求項2】第1言語の音声(原音声情報)の認識と、
    該原音声情報の第2言語への通訳結果である音声(通訳
    音声情報)の認識とを行なう同時通訳向き音声認識シス
    テムの音声認識方法であって、 上記第1言語の単語に対する上記第2言語の訳語を対応
    付けた単語対訳情報を記憶装置に予め記憶するステップ
    と、 入力された上記原音声情報に対応して複数の単語候補を
    第1の処理手段により抽出するステップと、 上記入力された原音声情報の通訳結果である通訳音声情
    報に対応して複数の単語候補を第2の処理手段により抽
    出するステップと、 上記第1の処理手段により抽出した単語候補と上記第2
    の処理手段により抽出した単語候補との対で上記単語対
    訳情報に含まれている対を第3の処理手段により上記記
    憶装置を検索して抽出するステップと、 上記第3の処理手段により抽出した単語候補の対に含ま
    れている単語を第4の処理手段により優先的に選択して
    上記原音声情報に対応する単語列を決定するステップ
    と、 上記第3の処理手段により抽出した単語候補対に含まれ
    ている単語を第5の処理手段により優先的に選択して上
    記通訳音声情報に対応する単語列を決定するステップと を有することを特徴とする同時通訳向き音声認識システ
    ムの音声認識方法。
JP2019654A 1990-01-30 1990-01-30 同時通訳向き音声認識システムおよびその音声認識方法 Expired - Lifetime JP2836159B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019654A JP2836159B2 (ja) 1990-01-30 1990-01-30 同時通訳向き音声認識システムおよびその音声認識方法
EP91101211A EP0440197B1 (en) 1990-01-30 1991-01-30 Method and apparatus for inputting text
DE69129163T DE69129163T2 (de) 1990-01-30 1991-01-30 Verfahren und Vorrichtung zur Texteingabe
US08/231,901 US5526259A (en) 1990-01-30 1994-04-22 Method and apparatus for inputting text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019654A JP2836159B2 (ja) 1990-01-30 1990-01-30 同時通訳向き音声認識システムおよびその音声認識方法

Publications (2)

Publication Number Publication Date
JPH03224055A JPH03224055A (ja) 1991-10-03
JP2836159B2 true JP2836159B2 (ja) 1998-12-14

Family

ID=12005235

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019654A Expired - Lifetime JP2836159B2 (ja) 1990-01-30 1990-01-30 同時通訳向き音声認識システムおよびその音声認識方法

Country Status (4)

Country Link
US (1) US5526259A (ja)
EP (1) EP0440197B1 (ja)
JP (1) JP2836159B2 (ja)
DE (1) DE69129163T2 (ja)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978421B1 (en) * 1994-06-19 2005-12-20 Mitsuhiro Aida Handwriting text input system
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5745875A (en) * 1995-04-14 1998-04-28 Stenovations, Inc. Stenographic translation system automatic speech recognition
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
JPH09185487A (ja) * 1995-12-29 1997-07-15 Nec Corp 音声認識方式
US5737725A (en) * 1996-01-09 1998-04-07 U S West Marketing Resources Group, Inc. Method and system for automatically generating new voice files corresponding to new text from a script
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
US5764851A (en) * 1996-07-24 1998-06-09 Industrial Technology Research Institute Fast speech recognition method for mandarin words
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
KR19980035431A (ko) * 1996-11-13 1998-08-05 김광호 다국어 입력 설정 변환 방법
US6098085A (en) * 1997-03-17 2000-08-01 At&T Corp. Word-serial reader for network devices having limited display capabilities
KR100213910B1 (ko) 1997-03-26 1999-08-02 윤종용 한영 자동 변환기 및 방법
US6006185A (en) * 1997-05-09 1999-12-21 Immarco; Peter System and device for advanced voice recognition word spotting
US6629074B1 (en) 1997-08-14 2003-09-30 International Business Machines Corporation Resource utilization indication and commit mechanism in a data processing system and method therefor
WO1999046762A1 (en) * 1998-03-09 1999-09-16 Kelvin Lp Automatic speech translator
JP2000276482A (ja) 1999-03-25 2000-10-06 Matsushita Electric Ind Co Ltd 文書検索装置及び文書検索方法
US6205342B1 (en) * 1999-03-31 2001-03-20 Sony Corporation User interface for text message creation
US6754619B1 (en) * 1999-11-15 2004-06-22 Sony Corporation Digital recording and playback system with voice recognition capability for concurrent text generation
US7155517B1 (en) 2000-09-28 2006-12-26 Nokia Corporation System and method for communicating reference information via a wireless terminal
WO2002028603A1 (fr) * 2000-10-05 2002-04-11 Sony Corporation Robot et procede de commande de celui-ci
KR20010008073A (ko) * 2000-11-07 2001-02-05 조용범 음성 인식 및 번역 전용 에이직을 이용한 휴대용 다국어번역 단말장치
US20020091509A1 (en) * 2001-01-02 2002-07-11 Yacov Zoarez Method and system for translating text
US7136803B2 (en) * 2001-09-25 2006-11-14 Apple Computer, Inc. Japanese virtual dictionary
US20030149566A1 (en) * 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US6714441B1 (en) * 2002-09-17 2004-03-30 Micron Technology, Inc. Bridge-type magnetic random access memory (MRAM) latch
US6928495B2 (en) * 2002-09-27 2005-08-09 Broadcom Corporation Method and system for an adaptive multimode media queue
WO2004042620A1 (en) * 2002-11-04 2004-05-21 Deepq Technologies, A General Partnership Document processing based on a digital document image input with a confirmatory receipt output
EP1677207A4 (en) * 2003-03-14 2010-05-05 Fujitsu Ltd TRANSLATION ASSISTING DEVICE
US7406662B2 (en) * 2003-11-10 2008-07-29 Microsoft Corporation Data input panel character conversion
US20050125218A1 (en) * 2003-12-04 2005-06-09 Nitendra Rajput Language modelling for mixed language expressions
US8935316B2 (en) * 2005-01-14 2015-01-13 Citrix Systems, Inc. Methods and systems for in-session playback on a local machine of remotely-stored and real time presentation layer protocol data
US20060159432A1 (en) 2005-01-14 2006-07-20 Citrix Systems, Inc. System and methods for automatic time-warped playback in rendering a recorded computer session
US7548849B2 (en) * 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US8166418B2 (en) * 2006-05-26 2012-04-24 Zi Corporation Of Canada, Inc. Device and method of conveying meaning
US20080046824A1 (en) * 2006-08-16 2008-02-21 Microsoft Corporation Sorting contacts for a mobile computer device
CN101512518B (zh) * 2006-09-07 2015-06-24 日本电气株式会社 自然语言处理系统和词典登录系统
JP2008152670A (ja) * 2006-12-19 2008-07-03 Fujitsu Ltd 翻訳文入力支援プログラム、該プログラムを記録した記憶媒体、翻訳文入力支援装置、および翻訳文入力支援方法
US20090326913A1 (en) * 2007-01-10 2009-12-31 Michel Simard Means and method for automatic post-editing of translations
JP5178119B2 (ja) * 2007-09-28 2013-04-10 キヤノン株式会社 画像処理装置および画像処理方法
US20090093506A1 (en) * 2007-10-04 2009-04-09 Cooper Garth J S Copper antagonist compositions
US7788095B2 (en) * 2007-11-18 2010-08-31 Nice Systems, Ltd. Method and apparatus for fast search in call-center monitoring
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US20100070482A1 (en) * 2008-09-12 2010-03-18 Murali-Krishna Punaganti Venkata Method, system, and apparatus for content search on a device
US8818992B2 (en) 2008-09-12 2014-08-26 Nokia Corporation Method, system, and apparatus for arranging content search results
US8326601B2 (en) * 2009-02-11 2012-12-04 Microsoft Corporation Queue based mechanism to support multi-language chat rooms
CN102411563B (zh) 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
US9852732B2 (en) * 2010-10-07 2017-12-26 Avaya Inc. System and method for near real-time identification and definition query
US8615159B2 (en) * 2011-09-20 2013-12-24 Citrix Systems, Inc. Methods and systems for cataloging text in a recorded session
CN103365834B (zh) * 2012-03-29 2017-08-18 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
US9361883B2 (en) * 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9600473B2 (en) * 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN104239323B (zh) * 2013-06-17 2019-03-26 腾讯科技(深圳)有限公司 数据输出的方法及装置
JP6417649B2 (ja) * 2013-08-22 2018-11-07 株式会社リコー 文章処理装置、文章表示システム、プログラム
JP6233798B2 (ja) 2013-09-11 2017-11-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation データを変換する装置及び方法
US9372848B2 (en) 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
US10943075B2 (en) * 2018-02-22 2021-03-09 Entigenlogic Llc Translating a first language phrase into a second language phrase
CN117094329B (zh) * 2023-10-13 2024-02-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种用于解决语音歧义的语音翻译方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3646576A (en) * 1970-01-09 1972-02-29 David Thurston Griggs Speech controlled phonetic typewriter
US4193119A (en) * 1977-03-25 1980-03-11 Xerox Corporation Apparatus for assisting in the transposition of foreign language text
JPS5723176A (en) * 1980-07-18 1982-02-06 Sharp Corp Electronic translator
JPS5924452B2 (ja) * 1980-09-22 1984-06-09 株式会社日立製作所 日本文入力装置
US4507750A (en) * 1982-05-13 1985-03-26 Texas Instruments Incorporated Electronic apparatus from a host language
JPS593629A (ja) * 1982-06-30 1984-01-10 Fujitsu Ltd 音声入力文書作成装置
IT1156544B (it) * 1982-11-08 1987-02-04 Olivetti & Co Spa Metodo ed apparecchiatura di riconoscimento fonetico di parole
JPS59132039A (ja) * 1983-01-17 1984-07-30 Nec Corp カナ文字列評定方法
JPS59132038A (ja) * 1983-01-17 1984-07-30 Nec Corp カナ文字列評定方法
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
JPS6084667A (ja) * 1983-10-17 1985-05-14 Mitsubishi Electric Corp 文章組立装置
US5091950A (en) * 1985-03-18 1992-02-25 Ahmed Moustafa E Arabic language translating device with pronunciation capability using language pronunciation rules
JPS6231467A (ja) * 1985-08-01 1987-02-10 Toshiba Corp 文章作成装置
JPS63182735A (ja) * 1987-01-26 1988-07-28 Nec Corp 音声入力ワ−ドプロセツサ
US4896358A (en) * 1987-03-17 1990-01-23 Itt Corporation Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems
JP2727076B2 (ja) * 1987-05-01 1998-03-11 株式会社リコー 翻訳支援装置
JPH01167898A (ja) * 1987-12-04 1989-07-03 Internatl Business Mach Corp <Ibm> 音声認識装置
US4984177A (en) * 1988-02-05 1991-01-08 Advanced Products And Technologies, Inc. Voice language translator
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering

Also Published As

Publication number Publication date
EP0440197A2 (en) 1991-08-07
US5526259A (en) 1996-06-11
JPH03224055A (ja) 1991-10-03
DE69129163D1 (de) 1998-05-07
EP0440197A3 (en) 1992-01-29
DE69129163T2 (de) 1998-12-03
EP0440197B1 (en) 1998-04-01

Similar Documents

Publication Publication Date Title
JP2836159B2 (ja) 同時通訳向き音声認識システムおよびその音声認識方法
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
JP4058071B2 (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
US5852801A (en) Method and apparatus for automatically invoking a new word module for unrecognized user input
EP0830668B1 (en) Systems and methods for word recognition
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JP2005150841A (ja) 情報処理方法及び情報処理装置
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP4738847B2 (ja) データ検索装置および方法
JP3104661B2 (ja) 日本語文章作成装置
US20050125224A1 (en) Method and apparatus for fusion of recognition results from multiple types of data sources
JP2001229180A (ja) コンテンツ検索装置
JP2000259645A (ja) 音声処理装置及び音声データ検索装置
JP4008344B2 (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
JP3721397B2 (ja) 話し言葉の書き言葉への変換装置
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
JPH08212216A (ja) 自然言語処理装置および自然言語処理方法
JP2000285112A (ja) 予測入力装置及び予測入力方法並びに記録媒体
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JPH11250063A (ja) 検索装置及び検索方法
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
JP3048793B2 (ja) 文字変換装置
JP2730308B2 (ja) 自然言語解析方式