JP2780726B2

JP2780726B2 - 翻訳システムの翻訳対象文の認識方法

Info

Publication number: JP2780726B2
Application number: JP3079821A
Authority: JP
Inventors: 俊之杉尾; 惠太岡田; 久明松下
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1991-04-12
Filing date: 1991-04-12
Publication date: 1998-07-30
Anticipated expiration: 2013-07-30
Also published as: JPH0594474A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、情報処理装置上に構築
された翻訳システムが翻訳の対象とする単位である、意
味や文脈で区切られた文を、入力符号列から自動的に認
識する翻訳システムの翻訳対象文の認識方法に関するも
のである。

【０００２】

【従来の技術】従来の認識方法による翻訳対象文の認識
は、翻訳の対象として入力される任意の言語を、特定の
制御コード（復帰改行コードなど）を用いて物理的に区
切り、これを単位として強制的に文とする方法で行われ
ていた。

【０００３】また、この種の方法には、特開平１−２３
０１７９号公報記載の「自動翻訳システムの原文・訳文
ファイル対応方法」に開示されるものがあり、この方法
は、意味、文脈で区切られた論理的な文を翻訳対象文の
単位とするために、翻訳システムの使用者に、文の区切
りの候補となる文字列を指定させ、これにより疑似的な
翻訳対象文を認識するものであった。

【０００４】

【発明が解決しようとする課題】しかしながら、上述の
いずれの方法であっても、認識された翻訳対象文が、翻
訳システムに対して真に入力妥当な文であるかの検証
を、実際に翻訳を行う以前の段階で実施しているものは
なく、候補として挙げられる翻訳対象文を実際に翻訳し
て確認するか、翻訳処理の一部分である翻訳対象文の形
態素解析手段を切り出し実行して確認する必要があり、
結局、翻訳処理の一部分を複数回（翻訳対象文の認識、
確認で１回、真の翻訳処理で１回以上）実施することと
なり、翻訳処理の効率を著しく低下させてしまう。この
ため、技術的に満足できる翻訳処理は得られなかった。

【０００５】この発明は上述した問題点に鑑みなされた
もので、翻訳システムに対して入力妥当な論理的な翻訳
対象文の認識を、真の翻訳処理によらずに高速に効率よ
く実施できる翻訳システムの翻訳対象文の認識方法を提
供することを目的とする。

【０００６】前記課題を解決するために本発明は、文字
符号列から、翻訳システムが翻訳対象とし得る文を構成
している符号列部分を認識する翻訳システムの翻訳対象
文の認識方法において、以下のようにしたことを特徴と
する。

【０００７】すなわち、（１）文の終了符号列の可能性
がある正論理文区切りと、文区切りとすることを積極的
に否定する符号列でなる負論理文区切りとを格納してい
る翻訳対象文認識知識を予め備え、（２）処理対象符号
列を正論理文区切り及び負論理文区切りとそれぞれ照合
し、照合結果を符号列の内容によらない照合結果表現用
の内部形式で表現すると共に、少なくとも処理対象符号
列と正論理文区切りとの一致している内部形式で表現さ
れている照合結果を、処理対象符号列と負論理文区切り
との内部形式で表現されている照合結果に応じて部分的
に否定して解析結果を得る照合処理と、（３）所定パタ
ーンに一致する解析結果中の部分を検索して、その検索
部分を１次文区切りとして抽出する１次文区切り抽出処
理と、（４）１次文区切りとして抽出されなかった、負
論理文区切りによって否定された正論理文区切りデータ
の部分符号列を未確定符号列として抽出する未確定符号
列抽出処理と、（５）未確定符号列が存在する場合に、
未確定符号列と正論理文区切りとの再照合を行い、解析
結果を再照合結果に応じて修正する再照合処理と、
（６）所定パターンに一致する修正された解析結果中の
部分を検索して、その検索部分を２次文区切りとして抽
出する２次文区切り抽出処理とを有することを特徴とす
る。

【０００８】

【作用】前記方法により、予め用意された使用者の翻訳
対象文認識のための経験や知識（論理文区切りとしては
不適切な負論理文区切りも含む）を知識表現しておき、
入力符号列における翻訳対象文を認識するようにしたこ
とにより、翻訳システムに対して入力妥当な論理的な翻
訳対象文の認識を、実際の翻訳によらずに高速で効率よ
く行うことができる。

【０００９】

【実施例】以下、本発明の一実施例を添付図面に基づい
て説明する。

【００１０】図１は本実施例の翻訳対象文の認識方法の
手順を示す説明図である。図中の１は翻訳対象文を認識
するための経験や知識（翻訳対象文認識知識）を、２は
翻訳対象文を認識するための経験や知識を表現する手段
（翻訳対象文認識知識表現手段）を、３は翻訳対象文を
認識するための経験や知識を獲得する手段（翻訳対象文
認識知識獲得手段）を、４は任意の言語が表現されてい
る入力媒体（任意言語入力媒体）を、５は入力媒体４に
表現されている任意の言語を計算機用の符号に変換する
手段（任意言語符号変換手段）を、６は変換された計算
機用の符号の体系を特定する手段（符号体系特定手段）
を、７は翻訳対象文認識知識獲得手段３で獲得した翻訳
対象文を認識するための経験や知識を使って、符号体系
特定手段６で特定した符号から実際に翻訳対象文を認識
する手段（翻訳対象文認識手段）を、８は認識した文を
整形する手段（認識文整形手段）を、９は整形した認識
文の符号の体系を指示された体系に変換する手段（認識
文符号体系変換手段）を、１０は変換された符号を任意
の出力媒体の形式に表現する手段（任意媒体表現手段）
を、１１は認識された文が表現される出力媒体（認識文
出力媒体）をそれぞれ示している。

【００１１】翻訳対象文を認識するにあたり、翻訳対象
文認識知識１は、翻訳対象文認識知識表現手段２によっ
て予め準備される。

【００１２】最初に、任意言語符号変換手段５を通じて
任意言語入力媒体４を計算機に取り込み、計算機用の符
号を得る。この符号変換手段５は各種媒体に表現される
イメージデータや音声データを計算機で扱う符号列（ａ
ｓｃｉｉコード体系、日本語コード体系など）に変換す
ることにより実現される。

【００１３】得られた符号の体系は任意言語入力媒体４
の種類によって様々であるので、符号体系特定手段６が
その言語体系、符号体系などを特定する。ここで、言語
体系とは、英語、日本語などの言語族の体系であり、符
号体系とは、７ビットコード体系（ａｓｃｉｉなど）、
８ビットコード体系（ＪＩＳコード、Ｓｈｉｆｔ−ＪＩ
Ｓコード、ＥＵＣコードなど、主に日本語コード体系に
関わるもの）など計算器用の符号に関するものである。
言語体系の特定は、言語特有の単語や文字の頻度分布の
違いに着目して行う。例えば、漢字が任意の閾値を超え
る出現頻度を持つ文書であれば、漢字言語（日本語、中
国語など）であると判断し、アルファベットが任意の閾
値を超える出現頻度を持つ文書であれば、西洋言語（英
語、ドイツ語など）であると判断する。さらに、言語特
有の単語や文字の出現頻度を調べれば、例えば、ひらが
なの助詞「てにをは」などの出現頻度が高ければ、日本
語と判断できるし、漢字のみしか出現しなければ、中国
語であると言語体系を特定できる。同様に、冠詞「ａ，
ｔｈｅ」などの出現頻度が高ければ英語であると判断で
きるし、冠詞「ｄｅｒ」などの出現頻度が高ければドイ
ツ語であると判断できる。符号体系の特定は、符号化法
の規格への合致を調査して行う。例えば、文字コードの
基本ユニットである１バイトの最上位ビットがＯＮ／Ｏ
ＦＦ（１か０）であるかで、８ビットコード体系か７ビ
ットコード体系かが判別できる。８ビットコード体系で
は、一般的には２バイトで１文字のコードを構成してお
り、上位バイト（１バイト目）のビット配列の規定によ
り、例えば、ＥＵＣコードやシフトＪＩＳコードなどの
判別が可能となる。

【００１４】特定される前の符号の体系の情報から翻訳
対象文認識知識獲得手段３が、翻訳対象文認識知識表現
手段２によって予め表現されている翻訳対象文認識知識
１の必要かつ十分な認識知識を獲得する。さらに、翻訳
対象文認識手段７は、翻訳対象文認識知識獲得手段３で
獲得した認識知識を利用して、符号体系特定手段６で特
定された計算機用の符号から翻訳の対象となる文を実際
に認識する。次に、認識文整形手段８が認識された文の
体裁を整える整形を行う。整形された文の符号の体系は
特定されたものであるので、認識文符号体系変換手段９
が指示された体系に変換する。最後に、任意媒体表現手
段１０が変換された符号体系の認識文を出力媒体に適合
する形式に表現し、認識文出力媒体１１が出力される。

【００１５】図２は翻訳対象文認識知識表現手段２によ
って表現される翻訳対象文認識知識１の表現形式の一例
である。

【００１６】図２に示すように翻訳対象文認識知識１
は、任意の複数言語（例えば、英語、日本語などで、こ
こでは仮に第１言語、第２言語、…第ｎ言語とする）に
対応してそれぞれｎ種類の知識から構成される。知識表
現の一般形は、キーワードとそのデータ部の対が基本と
なり、一行に一対の知識を定義する。また、それぞれの
行のキーワードにより知識の属性を区別することができ
る。さらに、記号（＃）で始まる行は、コメントとして
扱う。

【００１７】それぞれの言語に対応する知識は、ＬＡＮ
Ｇ＿ＩＳキーワードのデータ部に規定される。この例で
は、便宜上第１言語を表すＦＩＲＳＴと記述されている
が、実際には、ＥＮＧＬＩＳＨやＪＡＰＡＮＥＳＥなど
と具体的な言語名が記述される。

【００１８】さらに、翻訳対象文認識知識１の中心とな
る知識は、文を認識する際にその区切りを規定する文字
列（正論理文区切り）の知識と、正論理文区切りで文と
認識される場合でも特定文字列であれば文を区切らない
ことを規定する文字列（負論理文区切り）の知識とで構
成される。正論理文区切りは「？」「！」等で画一的に
文を区切る。即ち、文を区切る方向に作用する。これに
対して負論理文区切りは例外条件であり、文を区切らな
い方向に作用する。即ち、正論理文区切りで区切る１文
だけでは意味が通じない等の文に対して、翻訳対象文認
識知識獲得手段３による経験、知識に基づいて、文を区
切らない方向に作用する。この負論理文区切りを導入す
ることにより、これまで物理的な規則で画一的に行われ
ていた翻訳対象文の認識に、これまでに蓄積された文認
識の経験を容易に加味することができるようになる。

【００１９】正論理文区切りの表現方法は、ＰＳＤ＿Ｎ
ＵＭキーワードのデータ部にその文区切り文字列の数
を、ＰＳＤ＿ＤＡＴキーワードのデータ部に文区切りの
文字列を規定する。同様に、負論理文区切りの表現方法
は、ＮＳＤ＿ＮＵＭキーワードのデータ部にその文区切
り文字列の数を、ＮＳＤ＿ＤＡＴキーワードのデータ部
に文区切りの文字列を規定する。それぞれの文区切り文
字列は、複数文字列の規定が可能であり、括弧（［）と
括弧（］）に囲まれた簡易正規表現（連続する符号列の
先頭と最後だけを標記する記法）も行うことができる。
さらに、計算機符号に特有の制御コード（コントロール
コード）の標記も、記号（＾）に続けてアルファベット
を記述する方法を採用し便宜を図っている。

【００２０】図３は翻訳対象文認識知識獲得手段３での
処理を示すフローチャートである。図３において、まず
符号体系特定手段６から渡された入力言語の符号体系の
情報をもとに認識知識の種類を選択する（ステップ３０
１）。具体的には、図２にあるｎ枚の言語平面に表現さ
れた認識知識から１枚の言語平面を選択することとな
る。次に、選択した認識知識からＰＳＤ＿ＮＵＭキーワ
ードのデータ部にある正論理文区切りの数を得る（ステ
ップ３０２）。次に、正論理文区切りのデータ部を１つ
格納するための領域を計算機上に確保する（ステップ３
０３）。ＰＳＤ＿ＤＡＴキーワードのデータ部にある正
論理文区切りを認識知識から得てステップ３０２で確保
した領域に格納する（ステップ３０４）。ここで、ステ
ップ３０２で得た正論理文区切り数番目の正論理文区切
りを格納したか否かを判断し（ステップ３０５）、格納
していなければ、ステップ３０３〜３０５を繰り返す。
正論理文区切り数番目の正論理文区切りを格納していれ
ばステップ３０６へ進み、選択した認識知識からＮＳＤ
＿ＮＵＭキーワードのデータ部にある負論理文区切りの
数を得る。

【００２１】次に、負論理文区切りのデータ部を１つ格
納するための領域を計算機上に確保する（ステップ３０
７）。ＮＳＤ＿ＤＡＴキーワードのデータ部にある負論
理文区切りを認識知識から得て、ステップ３０７で確保
した領域に格納する（ステップ３０８）。次いで、ステ
ップ３０６で得た負論理文区切り数番目の負論理文区切
りを格納したか否かを判断し（ステップ３０９）、格納
していなければ、ステップ３０７〜３０９を繰り返す。
負論理文区切り数番目の負論理文区切りを格納していれ
ばこの手段を終了する（ステップ３１０）。

【００２２】図４は、前記翻訳対象文認識手段７での処
理を示すフローチャートである。図４において、まず、
符号体系特定手段６で特定された入力符号列が渡されて
くる。ここで、入力された符号列が処理されずに残って
いるかどうかを判断する（ステップ７０１）。入力され
た符号列が残っていない場合は、後述するステップ７１
６へ進む。入力された符号列が残っている場合は、符号
列から解析の対象となるサブ符号列を物理的に一行切り
だす（ステップ７０２）。ここで、物理的な一行とは便
宜的に解析範囲を定めたものであり、方法の規定はな
い。物理的な一行として、１度に切り出す符号列のサイ
ズを規定してもよいし、ある決められた物理符号までを
切り出してもよい。

【００２３】次に、前回の解析の結果、次の入力符号列
を待たないと解析できない符号列が格納されているバッ
ファ（以下、「ペンディングバッファ」という）に符号
列が残っているかどうかを判断する（ステップ７０
３）。ペンディングバッファに符号列が存在しなけれ
ば、入力符号列だけを解析バッファに格納する（ステッ
プ７０４）。ステップ７０３においてペンディングバッ
ファに符号列が存在するなら、ペンディングバッファ内
の符号列とステップ７０２で得た入力符号列（物理一
行）を接続し、文認識解析用のバッファ（以下、「解析
バッファ」という）に格納する（ステップ７０５）。

【００２４】次に解析バッファに格納された符号列と前
記翻訳対象文認識知識獲得手段３で獲得した負論理文区
切り文字列との照合を行う（ステップ７０６）。照合の
結果は負論理内部形式に変換される（ステップ７０
７）。同様に解析バッファに格納された符号列と前記翻
訳対象文認識知識獲得手段３で獲得した正論理文区切り
文字列との照合を行い（ステップ７０８）、照合の結果
は正論理内部形式に変換される（ステップ７０９）。正
論理および負論理文区切りの照合は最長一致ファースト
マッチの戦略で、内部形式は以下に示す定義に基づき展
開される。

【００２５】

【表１】

【００２６】次に、負論理内部形式と正論理内部形式を
比較し、後述する１次文区切りを確定するとともに未確
定符号列を抽出する（ステップ７１０）。このとき、正
論理文区切りを否定する方向で負論理文区切りを上書き
することにより以下のような解析結果を得る。

【００２７】負論理内部形式： 00000999999000000000990009000009990 ↓上書き正論理内部形式： 00000000122300001230000100001223000 ↓ 解析結果： 00000999999300001230990109001229990 上記の解析結果のコードのうち、以下のパターンの符号
列が１次文区切りである。

【００２８】１で始まり２が０個以上繰り返され３で終端する符号列：〜１２・・２３〜０に接続する１：〜１０〜また、未確定符号列は、上記１次文区切り以外の以下の
パターンの符号列である。

【００２９】１で始まり１個以上の２で終端し９に接続する符号列：〜１２・・２９〜９に接続する１：〜１９〜９に続く２で始まり９に接続する符号列：〜９２〜９〜９に続く３で始まり９に接続する符号列：〜９３〜９〜ここで、解析の結果として未確定符号列が存在するなら
ステップ７１４へ進む。存在しないなら、ステップ７１
０で確定した１次文区切りに従って解析バッファから翻
訳対象文に相当する符号列を順次切りだして出力バッフ
ァへ格納する（ステップ７１２）。さらに、解析バッフ
ァには次の符号列を入力しないと翻訳対象文として確定
できない符号列が残っている場合があるので、その符号
列をペンディングバッファに格納し（ステップ７１
３）、ステップ７０１に戻り、上述の処理を繰り返す。

【００３０】また、ステップ７１１で、未確定符号列が
存在すると判断されステップ７１４へ進んだ場合、その
未確定符号列と正論理文区切りデータの再照合を行い、
ステップ７１０で確定した１次文区切りを含めた２次文
区切りを確定する（ステップ７１４）。ここでは、１次
文区切りの解析時に負論理文区切りデータによって否定
された正論理文区切りデータの部分符号列の再検査を行
うことにより、より正確な文の区切りを確定することを
目的とする。照合の方法および内部形式の解析方法は１
次文区切りの場合と同様である。

【００３１】次に、確定した２次文区切りに従って解析
バッファから翻訳対象文に相当する符号列を順次切り出
して出力バッファに格納すし（ステップ７１５）、前述
のステップ７１３へ進む。

【００３２】前記の解析結果の例では、最終的に翻訳対
象文は以下のように切り出される。解析結果：00000999999300001230990109001229990 上記の下線部が未確定符号列であり、その符号列と正論
理文区切りデータの再照合を行った結果、後者の未確定
符号列が１次文区切りの解析時とは違う正論理文区切り
と照合したとすると、最終的な解析結果は以下のように
なる（下線部が２次文区切り）。

【００３３】解析結果：00000999999000001230990109001309990 従って、出力バッファに格納される翻訳対象文の符号列
は、内部形式で表現すると以下のようになる。

【００３４】第１文： 0000099999900000123 第２文： 09901 第３文： 090013 解析バッファに残る符号列： 09990 以上のように、［ステップ７０２〜７１１，７１２，７
１３］または［ステップ７０２〜７１１，７１４，７１
５，７１３］のシーケンスを繰返し、最終的に、ステッ
プ７０１の判断で入力された符号列が残っていない場合
は、出力バッファに格納されている認定された翻訳対象
文の符号列を出力する（ステップ７１６）。さらに、ペ
ンディングバッファに符号列が残されているか否かを判
断し（ステップ７１７）、符号列が残されていなけれ
ば、そのままこの処理を終了する（ステップ７１９）。
また、符号列が残されているならば、後処理としてペン
ディングバッファ内の符号列を強制的に翻訳対象文とし
て出力し（ステップ７１８）、この処理を終了する。

【００３５】以上のように、予め用意され蓄積された使
用者の翻訳対象文認識のための経験、知識及び負論理文
区切りを加味して認識等を行うため、翻訳システムに対
して入力妥当な論理的な翻訳対象文の認識を、実際の翻
訳処理（真の翻訳処理）によらずに高速に効率よく行う
ことができるようになる。

【００３６】

【発明の効果】以上、詳細に説明したように本発明によ
れば、予め用意された使用者の翻訳対象文認識のための
経験や知識（論理文区切りとしては不適切な負論理文区
切りも含む）を知識表現しておき、入力符号列における
翻訳対象文を認識するようにしたことにより、翻訳シス
テムに対して入力妥当な論理的な翻訳対象文の認識を、
実際の翻訳処理（真の翻訳処理）によらずに高速で効率
よく行うことができるようになる。

【図面の簡単な説明】

【図１】本実施例の翻訳対象文の認識方法手順を示す説
明図である。

【図２】翻訳対象文認識知識の表現形式例を示す説明図
である。

【図３】翻訳対象文認識知識獲得手段を示すフローチャ
ートである。

【図４】翻訳対象文認識手段を示すフローチャート（そ
の１）である。

【図５】翻訳対象文認識手段を示すフローチャート（そ
の２）である。

【図６】翻訳対象文認識手段を示すフローチャート（そ
の３）である。

【符号の説明】

１翻訳対象文認識知識２翻訳対象文認識知識表現手段３翻訳対象文認識知識獲得手段４任意言語入力媒体５任意言語符号変換手段６符号体系特定手段７翻訳対象文認識手段８認識文整形手段９認識文符号体系変換手段１０任意媒体表現手段１１認識文出力媒体

フロントページの続き (56)参考文献特開昭63−136269（ＪＰ，Ａ) 特開昭61−282965（ＪＰ，Ａ) 特開昭60−105038（ＪＰ，Ａ) 特開平２−25973（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/20 - 17/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】文字符号列から、翻訳システムが翻訳対
象とし得る文を構成している符号列部分を認識する翻訳
システムの翻訳対象文の認識方法において、文の終了符号列の可能性がある正論理文区切りと、文区
切りとすることを積極的に否定する符号列でなる負論理
文区切りとを格納している翻訳対象文認識知識を予め備
え、処理対象符号列を正論理文区切り及び負論理文区切りと
それぞれ照合し、照合結果を符号列の内容によらない照
合結果表現用の内部形式で表現すると共に、処理対象符
号列と正論理文区切りとの一致している内部形式で表現
されている照合結果を、処理対象符号列と負論理文区切
りとの内部形式で表現されている照合結果に応じて部分
的に否定して解析結果を得る照合処理と、所定パターンに一致する解析結果中の部分を検索して、
その検索部分を１次文区切りとして抽出する１次文区切
り抽出処理と、１次文区切りとして抽出されなかった、負論理文区切り
によって否定された正論理文区切りデータの部分符号列
を未確定符号列として抽出する未確定符号列抽出処理
と、未確定符号列が存在する場合に、未確定符号列と正論理
文区切りとの再照合を行い、解析結果を再照合結果に応
じて修正する再照合処理と、所定パターンに一致する修正された解析結果中の部分を
検索して、その検索部分を２次文区切りとして抽出する
２次文区切り抽出処理とを有することを特徴とする翻訳
システムの翻訳対象文の認識方法。
【請求項２】翻訳対象文認識知識が、更新可能なもの
であることを特徴とする請求項１に記載の翻訳システム
の翻訳対象文の認識方法。
【請求項３】入力符号列の符号体系を特定する符号体
系特定知識を予め格納しておき、上記照合処理の前に、
入力符号列の符号体系を特定し、必要ならば入力符号列
の符号体系を変換して照合処理に引き渡す体系特定処理
を実行することを特徴とする請求項１又は２に記載の翻
訳システムの翻訳対象文の認識方法。
【請求項４】上記翻訳対象文認識知識として言語体系
毎に分離して格納しておくと共に、入力符号列の言語体
系を特定する言語体系特定知識を予め格納しておき、上記体系特定処理では入力符号列の言語体系も特定し、
上記照合処理では特定された言語体系についての上記翻
訳対象文認識知識を用いて照合処理することを特徴とす
る請求項３に記載の翻訳システムの翻訳対象文の認識方
法。