JPH08235180A - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JPH08235180A
JPH08235180A JP7038701A JP3870195A JPH08235180A JP H08235180 A JPH08235180 A JP H08235180A JP 7038701 A JP7038701 A JP 7038701A JP 3870195 A JP3870195 A JP 3870195A JP H08235180 A JPH08235180 A JP H08235180A
Authority
JP
Japan
Prior art keywords
division
sentence
translation
text
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7038701A
Other languages
English (en)
Inventor
Hidezo Kugimiya
秀造 釘宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP7038701A priority Critical patent/JPH08235180A/ja
Publication of JPH08235180A publication Critical patent/JPH08235180A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 機械翻訳装置に文章を入力するのに先立っ
て、入力テキストを分割するためのテキスト自動分割装
置において、翻訳処理に最適な位置で分割を行うことが
可能となる。また、ユーザが分割時の最大文字数/単語
数を指定できる。さらに、翻訳終了後、分割されたテキ
ストを分割記号を挿入して元の形に結合できる。 【構成】 入力手段61から入力された文章を分割手段
62の一文切り出し部62Aによって1文に切り出し、
翻訳単位切り出し部62Bによって、分割規則に応じて
切り出し、翻訳手段63によって、翻訳を行い出力手段
65より出力を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、機械翻訳システムに関
し、特に、機械翻訳の前処理として、ソース言語のテキ
ストを分割するためのテキスト自動分割装置、更に、機
械翻訳の後処理として、ソース言語とターゲット言語の
テキストを元の一文に結合するための結合手段に関す
る。
【0002】
【従来の技術】従来の機械翻訳システムでは、ピリオド
などで区切られた一文を翻訳単位として翻訳を行ってい
た。すなわち、入力されたテキストを一文毎に自動的に
分割した後、機械翻訳を行なっていた。
【0003】しかしながら、特許文献などのように一文
の長さが非常に長く、複雑な場合、翻訳処理に長い時間
を要すると共に翻訳結果も非常に長いものとなり、ユー
ザにとっては訳文と原文との対応が分かりづらく、ま
た、内容を理解するのも容易ではない。さらに、機械翻
訳システムは文が長く複雑になるにつれて解釈を間違え
る可能性が高くなりその結果誤った翻訳結果を出力して
しまうという可能性も高くなってしまう。
【0004】このような問題点の対策として、機械翻訳
を行なう前にユーザがエディタなどによって入力テキス
トを分割することが考えられる。つまり、機械翻訳処理
を行う前処理として、入力文をユーザが適当な長さ、ま
たは意味的に分割しても問題のない箇所で分割して機械
翻訳処理を行うという方法である。
【0005】しかしながら、ユーザが分割を行なう方式
では、ユーザが最適な分割位置を考えなくてはならず、
そのためにはユーザが入力テキストの言語に関する知識
を有することが必要となり、さらに入力テキストが扱っ
ている分野に関する知識をも必要とされる。また、分割
操作のための時間もかかってしまうなど、ユーザの負担
が大きく、システム全体としての翻訳効率は悪くなって
しまう。
【0006】
【発明が解決しようとする課題】上述のように、機械翻
訳装置における入力文字数(単語数)の制限によって、
様々な問題が発生する。ユーザが前処理として分割する
場合においては、ユーザが、原文を確認して、ある程度
の意味をとりながら分割を行うために、多大な労力を要
する。この労力は文章が長くなればなるほど飛躍的に増
加してしまう。
【0007】また、システムが自動的に制限文字数(単
語数)で切り出す場合においては、意味的に考慮されて
いないために、完全な文でない状態で切り出されて翻訳
結果に影響をおよぼすことがあった。
【0008】さらに、分割された文について翻訳結果を
出力する際に、どの部分で分割されたわからないといっ
た問題もあった。
【0009】よって、本発明では分割しても意味的に問
題のない規則を格納し、それに基づいて分割し、かつ分
割後の文字数(単語数)をカウントし、所定の文字数
(単語数)を越えないように分割を自動的に行うことに
よって、上記課題を解決する。
【0010】
【課題を解決するための手段】
[請求項1の課題を解決するための手段]第1言語で記
述された文書を、所望の第2言語に翻訳する機械翻訳装
置において、意味的に分割可能な分割規則を格納した分
割規則格納手段と、第1言語で記述された文書を一文ご
とに分割して切り出す一文切り出し手段と、前記一文切
り出し手段によって切り出された文字列の文字数または
単語数をカウントするカウント手段と、前記カウント手
段によってカウントされた文字数または単語数が、所定
の文字数または単語数を越えているかどうか判断するカ
ウント判断手段と、前記カウント判断手段において、前
記カウント手段によってカウントされた文字数または単
語数が前記所定数を越えている場合に、その値を越えな
いように、前記分割規則を用いて一文を翻訳単位に分割
して切り出す翻訳単位切り出し手段とを具備する。
【0011】[請求項2の課題を解決するための手段]
第1言語で記述された文を、所望の第2言語に翻訳する
機械翻訳装置において、文書を翻訳単位に分割する際の
最大文字数または最大単語数である最大分割長を複数格
納した最大分割長格納手段と、前記最大分割長に対応し
て意味的に分割可能な分割規則を格納した分割規則格納
部と、前記最大分割長格納手段から一つを選択指定する
最大分割長指定手段と、第1言語で記述された文書を一
文ごとに分割して切り出す一文切り出し手段と、前記前
記一文切り出し手段によって切り出された文字列に対し
て、前記最大分割長指定手段において指定された最大分
割長に対応する分割規則を用いて分割し、分割された文
字列が前記指定された最大分割長を越えている場合は、
前記分割規則より一段階下位の分割規則を用いて一文を
翻訳単位に分割して切り出す翻訳単位切り出し手段とを
具備する。
【0012】[請求項3の課題を解決するための手段]
前記翻訳単位切り出し手段によって分割された文の翻訳
処理が終了した後、翻訳結果を出力する際、元の一文に
まとめるための結合手段と、一文にまとまった形式で原
文と訳文を対応表示する時、翻訳単位と対応する訳文の
双方の区切り部分に分割記号を挿入するための分割記号
挿入手段を具備する。
【0013】[請求項4の課題を解決するための手段]
前記結合手段により元の一文に結合する際、結合するか
どうかをユーザが指定する結合指定手段を具備する。
【0014】[請求項5の課題を解決するための手段]
前記分割記号挿入手段により分割記号を挿入する際、区
切り部分に分割記号を挿入するかどうかをユーザが指定
する分割記号挿入指定手段を含む請求項3に記載の機械
翻訳装置。
【0015】
【作用】
[請求項1の作用]請求項1に記載のテキスト自動分割
装置においては、一文切り出し手段により連続している
テキストが一文毎に分割されて翻訳単位として切り出さ
れる。そして、切り出された一文の長さが翻訳装置に設
定されている特定の単語数/文字数を越えた場合、分割
規則を用いて翻訳単位切り出し手段により、一文がフレ
ーズの区切り等翻訳処理を行なうのに最適な位置で切り
出される。
【0016】従って、入力テキストが機械翻訳に与えら
れる前に、翻訳処理を施すのに適した区切りの位置で分
割される。
【0017】[請求項2の作用]請求項2に記載のテキ
スト自動分割装置においては、請求項1に記載の装置に
よる作用に加えて、分割して切り出される翻訳単位の最
大単語数/文字数の指定を、分割長指定手段を用いて行
い、まずその指定に基づいた段階の分割規則により分割
を行い、指定した最大単語数(文字数)を越えているか
どうかチェックし、越えている場合は一つ下位の段階の
分割規則を用いて翻訳単位切り出し手段によって、一文
がフレーズの区切り等翻訳処理を行うのに最適な位置で
切り出される。
【0018】従って、入力テキストが機械翻訳に与えら
れる前に、ユーザが直接テキストを操作することなく、
翻訳処理を施すのに適した区切りの位置で分割される。
【0019】[請求項3の作用]請求項3に記載の機械
翻訳装置においては、分割された各々の翻訳単位の翻訳
処理が終了した後、翻訳結果を出力する際、結合手段に
より、分割された翻訳単位が元の一文にまとめられる。
そして、表示手段により、元の一文にまとめた形式で原
文と訳文とが対応表示される。更に、分割記号挿入手段
により、翻訳単位の区切り部分に分割記号が挿入され
る。
【0020】従って、ユーザが翻訳結果をより理解し易
くなると共に、ユーザが分割された翻訳単位を元の文の
形に結合して区切り部分には分割記号を挿入するという
操作を行なう必要がなくなり、ユーザが翻訳結果の後編
集を行なう際の負担を軽減することができる。
【0021】[請求項4の作用]請求項4に記載の機械
翻訳装置においては、請求項3に記載の装置による作用
に加えて、分割された各々の翻訳単位の翻訳処理が終了
した後、翻訳結果を出力する際、分割された翻訳単位を
元の一文にまとめるかどうかのユーザ指定を、結合指定
部を用いて行なわれる。
【0022】従って、ユーザが所望する翻訳結果の表示
形式を得ることができると共に、ユーザが翻訳結果をよ
り理解し易くなり、また、ユーザの後編集処理の負担を
軽減することができる。
【0023】[請求項5の作用]請求項5に記載の機械
翻訳装置においては、請求項3に記載の装置による作用
に加えて、分割された各々の翻訳単位の翻訳処理が終了
した後、翻訳結果を出力する際、元の一文にまとめた形
式で原文と訳文を対応表示する時、翻訳単位の区切り部
分に分割記号を挿入するかどうかのユーザ指定を、分割
記号挿入指定部を用いて行なわれる。
【0024】従って、ユーザが所望する翻訳結果の表示
形式を得ることができると共に、ユーザが翻訳結果をよ
り理解し易くなり、また、ユーザの後編集処理の負担を
軽減することができる。
【0025】
【実施例】
[請求項1の実施例]以下、本発明を図示の実施例によ
り詳細に説明する。
【0026】本実施例では、ソース言語が英語、ターゲ
ット言語が日本語であるような機械翻訳装置を例にとり
説明するが、本発明は英日機械翻訳装置に限定されるも
のではなく、一般的に二つの言語間の機械翻訳装置に適
用可能である。
【0027】実施例の説明の前に、機械翻訳の概念につ
いて簡単に説明する。機械翻訳において行なわれる解析
処理には様々な解析レベルがある。機械翻訳は、図1の
左上に示されるソース言語が入力されると、各レベルの
処理を順に行なって最終的に図1の右上に示されるター
ゲット言語を得るための処理である。ソース言語が入力
されると、まずレベルL1の辞書引き処理、レベルL2
の形態素解析処理、レベルL3の構文解析処理、…と、
処理が進められ、最終的にレベルL10の形態素生成処
理が行なわれてターゲット言語が生成される。
【0028】機械翻訳はどのレベルの解析処理まで行な
うかにより、大きく次の2つにわけられる。1つは、レ
ベルL6のソース言語およびターゲット言語のどちらに
も依存しない概念(中間言語とよぶ)まで解析し、そこ
から、レベルL7の文脈生成、レベルL8の意味生成、
レベルL9の構文生成、レベルL10の形態素生成と生
成を進めて、ターゲット言語を生成していくピボット方
式である。
【0029】もう1つは、上述のレベルL2〜L5のい
ずれかまで解析を行ってソース言語の内部構造を得、次
に、この得られたソース言語の内部構造と同レベルのタ
ーゲット言語の内部構造に変換した後、ターゲット言語
を生成するトランスファー方式である。
【0030】ここで、上記各解析について説明する。
【0031】<辞書引き、形態素解析>形態素が格納さ
れた辞書を参照しながら、入力された文章を各形態素列
(単語列)に分割し、この各単語に対する品詞などの文
法情報および訳語を得、さらに、時制・人称・数などを
解析する。
【0032】<構文解析>後述するようにして単語間の
係り受けなどの、文章の構造(構造解析木)を決定す
る。
【0033】<意味解析>複数の構文解析の結果から意
味的に正しいものとそうでないものを判別する。
【0034】<文脈解析>話題を理解し、省略やあい昧
さを取り去る。
【0035】以下で説明する機械翻訳装置の翻訳モジュ
ールにおいては、レベルL3までの構文解析処理を行う
ものとする。すなわち、本実施例の機械翻訳装置は、図
3に示されるような構造を有する。この翻訳装置は、入
力されるソース言語のテキストに対して、後続する機械
翻訳処理が容易となるように分割を行なうための分割部
10と、分割されたソース言語に対して辞書引き・形態
素解析処理を行なうための辞書引き・形態素解析部11
と、形態素解析された入力文章に対して構文解析を行な
うための構文解析部12と、構文解析の結果を変換して
ターゲット言語の構造解析木を生成するための変換部1
3と、変換部13によって生成されたターゲット言語の
構造解析木に基づき、ターゲット言語の翻訳文を生成す
るための翻訳文生成部14とを含む。各部11〜14で
行なわれる処理については、実施例において詳しく説明
する。
【0036】図2は、この発明の一実施例のテキスト自
動分割装置を含む機械翻訳装置の機能構成を示すブロッ
ク図である。
【0037】図2において、61はキーボードからなる
入力手段(入力装置)であり、入力原文の文字入力、文
書編集、翻訳に対する指示等の入力をする。
【0038】62は一文切り出し部62Aと、分割規則
格納部62B1、適用箇所検出部62B2、分割規則適
用部62B3を含む翻訳単位切り出し部62Bからなる
分割手段であり、入力された原文に対して、一文切り出
し部により連続したテキストが一文毎に切り出される。
一文の長さが翻訳装置に設定されている特定の単語数/
文字数を越えた場合には、分割規則格納部に格納された
分割規則群を用いて、適用箇所検出部により分割規則を
適用すべき箇所を検出し、分割規則適用部により分割規
則を適用することにより分割処理を実行する。
【0039】63は翻訳手段(翻訳部)であり、分割さ
れた原文テキストに対して翻訳処理を実行する。ここで
の翻訳処理では部分翻訳機能を適用する。64は原文記
憶部64A、訳文記憶部64Bからなる記憶手段であ
り、原文記憶部には、入力された原文、分割された原文
が記憶され、訳文記憶部には、翻訳された訳文が記憶さ
れる。65は表示装置あるいはプリンタからなる出力手
段であり、原文テキスト、訳文テキスト等を表示出力あ
るいはプリント出力する。
【0040】図4は、この発明の一実施例のテキスト自
動分割装置を含む機械翻訳装置のブロック図である。図
4を参照して、この機械翻訳装置は、メインCPU(中
央処理装置)1と、メインCPU1が接続されたバス7
と、バス7に接続されたメインメモリ2と、バス7に接
続されたCRT(陰極線管)やLCD(液晶表示装置)
などからなる表示装置3と、キーボード4と、バス7に
接続された翻訳モジュール5と、翻訳モジュール5に接
続された翻訳用の辞書・文法規則および木構造変換規則
などの知識ベースを格納しているメモリ6と、バス7に
接続され、入力されるソース言語のテキストに対して所
定の分割処理を行なうためのテキスト自動分割装置21
と、バス7に接続されたハードディスク17とを含む。
【0041】テキスト自動分割装置21は、それぞれバ
ス7に接続された分割モジュール8と、分割のための複
数の規則を格納するためのハードディスクなどからなる
記憶装置9を含む。
【0042】分割モジュール8は、ソース言語のテキス
トが入力されると、それを所定の手順に従って機械翻訳
に適した形に分割して出力するためのものである。図5
を参照して、分割モジュール8は、バス7に接続され、
バス7を介して例えばディスク17などから入力される
ソース言語(本実施例の場合は英語)のテキストを、一
文毎に分割し、また、後述するような分割プログラムに
従って分割して出力する処理を行なうための分割CPU
18と、分割プログラムを格納するメモリ19と、分割
モジュール8に入力されるソース言語のテキストおよび
処理途中のテキストを格納するためのバッファX50を
含む。分割プログラムは分割CPU18によって実行さ
れる。記憶装置9には、分割規則群が格納されている。
【0043】図6に示すように、分割規則群9に格納さ
れている規則は次のようなものである。各規則は、入力
されるソース言語のテキスト中において検索すべき文字
列と、その文字列が発見された場合にこの規則を適用す
べきか否かを決定するための条件と、文字列が発見さ
れ、適用すべき条件が満たされた場合にテキストのどの
位置で分割処理を施すかについての情報からなってい
る。
【0044】例えば図6に示される規則1においては、
検索文字列として英文特許文献に特徴的に現れる「wh
erein」という文字列が指定されている。規則1の
適用条件としては特に何も指定されていない。そして、
分割位置として「前」が指定されている。したがって、
文字列「wherein」が入力テキスト中に発見され
た場合には、規則1が指定する位置、すなわち、文字列
「wherein」の前で分割処理が行なわれることに
なる。
【0045】同様にこの分割規則群9には、規則2、3
以下に示されるような文字列を検索し、所定の条件が成
立した場合にその文字列の前あるいは後で入力テキスト
を分割することを示す規則が含まれる。また図6では、
検索文字列として「,」のみとなる規則N1が規則群の
最後部に設けられている。このように検索文字列の文字
数が少ない場合には、できるだけ規則群の末尾の方に配
置することが望ましい。なぜなら、同じ文字を含むより
長い文字列を検索することを条件とする規則が他に存在
する可能性があるためである。
【0046】図7には、図6に示される各規則によって
入力テキストがどのように分割されるかの実際の例が示
されている。
【0047】各規則は、記憶装置9(図5参照)内に、
図9に示されるような形式で格納されている。図9を参
照して、各規則は記憶装置9内にレコード25として、
互いにレコードセパレータ26を隔てて記録されてい
る。レコードセパレータとしては例えば「改行」コード
等が用いられる。
【0048】各レコード25には、検索文字列を格納す
るフィールド27と、条件をチェックするためのプログ
ラム名を格納するフィールド28と、文字列が発見され
条件が満たされた場合にテキストに対して分割処理を行
なう分割位置を格納するためのフィールド29が、各々
フィールドセパレータ30を介して記録されている。
【0049】条件チェックプログラムは、例えば入力文
を入力パラメタとし、所定の条件が満足されているか否
かを示すフラグを出力パラメタとして動作するプログラ
ムである。分割処理プログラムは同様に、分割前の文字
列を入力とし、分割の終った文字列を出力とするプログ
ラムである。これらプログラムはいずれも図5に示され
るメモリ9に格納されている。
【0050】なお、本実施例では、このテキスト自動分
割装置は、機械翻訳装置に組み込まれたものとして説明
されているが、この装置のみを単独としてもよく、機械
翻訳装置とは別個の装置として動作させてもよい。
【0051】図8には図6とは異なる分割規則群が示さ
れている。この規則群に含まれる規則は、図6の規則と
一部共通のものもあるし、異なったものもある。図8を
参照して、この分割規則群では、検索文字列として指定
されるのは、たとえば、「which」、「who」な
どの関係代名詞や「if」、「whenever」など
の従属接続詞である。また、別の分割規則群では、たと
えば、「in」、「on」などの前置詞が検索文字列と
して指定されるものもある。
【0052】このように、分割規則群を複数作成してお
き、各規則群には、機械翻訳プログラムがパーソナルコ
ンピュータのような小型のマシンからワークステーショ
ンや大型計算機までどのような規模の計算機上で実行さ
れるかによって、各ハードウエアの性能に応じて最も適
切に機械翻訳が行なえるように分割を行なうための規則
を予め用意しておき、各マシンの処理速度や記憶容量な
どの性能に応じた規則群を個々の機械翻訳装置にインス
トールして利用できるようにしておくのである。すなわ
ち、パーソナルコンピュータで機械翻訳を行なう場合に
は、翻訳単位の長さの制限を短くしてたくさんの分割が
行なわれるようにしておき、大型機の場合は翻訳単位を
長くしてほとんど分割されないようにするのである。
【0053】翻訳モジュール5は、ソース言語が入力さ
れると、それを翻訳してターゲット言語を出力するもの
である。図10を参照して、翻訳モジュール5は、バス
7に接続され、バス7を介して入力されるソース言語
(本実施例の場合は英語)を、所定の翻訳プログラムに
従って翻訳してターゲット言語(本実施例の場合は日本
語)としてバス7に出力するための翻訳CPU15と、
バス7に接続され、翻訳CPU15で実行される翻訳プ
ログラムを格納するための翻訳プログラムメモリ16
と、入力されたソース言語の原文を各単語ごとに格納す
るためのバッファA52と、バッファAに格納された各
単語につき、メモリ6に含まれる辞書を参照して得た各
単語の品詞、訳語などの情報を格納するためのバッファ
53Bと、ソース言語の構造解析木に関する情報を格納
するためのバッファC54と、バッファCに格納された
ソース言語の構造解析木が変換されたターゲット言語の
構造解析木を格納するためのバッファD55と、バッフ
ァDに格納されたターゲット言語の構造解析木に適切な
助詞や助動詞などを補充して、ターゲット言語の形とし
て整えられた文章を格納するためのバッファE56とを
含む。
【0054】以下、図4〜図19を参照して、本実施例
のテキスト自動分割装置を含む機械翻訳装置による英日
翻訳の動作を説明する。
【0055】機械翻訳の対象となる英文のテキストは予
めハードディスク17内にファイルとして格納されてい
る。分割後の英文テキストおよび機械翻訳後の和文テキ
ストのいずれも同様に、ハードディスク17に新たなフ
ァイルとして格納される。
【0056】翻訳単位の切り出しでは、まず図15の分
割CPU18により、一文切り出し処理が行なわれ、連
続したテキストが一文ごとに分割される。ここでは、通
常の機械翻訳装置で行われているように「ピリオ
ド(.)」や「クエスチョンマーク(?)」までが一文
として切り出される。
【0057】次に、同じく図15の分割CPU18によ
り、この一文の長さをカウントする処理が行なわれる。
そして、切り出された一文の長さが翻訳装置に設定され
ている特定の単語数/文字数を越えた場合には以下に述
べる分割処理が行なわれることになる。
【0058】図11を参照して、テキストの分割は以下
のようにして行なわれる。
【0059】まずステップS1においては、ディスク1
7内の被処理テキストが読み込まれ、テキスト内に、分
割の対象となる入力文が残っているかどうかの判断が行
なわれる。残っていない場合にはすべての入力テキスト
に対して分割処理が終了したということであるから処理
は終了する。入力文が残っている場合には処理はステッ
プS2に進む。
【0060】ステップS2においては、入力テキストの
一文が読み込まれ、図5に示されるバッファXに格納さ
れる。
【0061】ステップS3においては、入力されたテキ
ストの一文に対して適用すべき分割規則を調べるため
に、まず、規則群の内の先頭の規則に規則ポインタをセ
ットする処理が行なわれる。
【0062】ステップS4において、規則ポインタによ
って指し示された位置に、適用すべき規則があるかどう
かについての判断が行なわれる。適用すべき規則がない
場合には、選択された規則群の最終位置まで規則の適用
が終ったということであるから、入力文に対する分割処
理は終了したものと判断され、処理はステップS14に
進む。規則がある場合にはステップS5以下の処理が行
なわれる。
【0063】ステップS14では、バッファXに格納さ
れている、分割後の文章を、図4に示されるディスク1
7内に確保された、分割後のテキスト格納用のファイル
に追加出力する処理が行なわれる。ステップS14の処
理の後、ステップS1に進み、入力テキストの次の文以
下の処理が繰り返し行なわれる。
【0064】ステップS5以下においては、バッファX
(図5)に格納された一文の先頭から最後までに対し
て、規則群の規則を適用すべきかどうかについて、すべ
ての規則について判断する処理が行なわれる。
【0065】ステップS5では、バッファX(図5)に
格納された入力テキストの内の一文の文頭に文字列ポイ
ンタがセットされる ステップS6において、文字列ポインタで指し示される
位置に、入力文の文字列の残りがあるかどうかの判断が
行なわれる。残りがない場合には入力文の最終位置まで
到達したということであるから、現在適用を検討中の規
則についての処理は終了したものと判断されて、ステッ
プS13以下の処理に進む。入力文の残りがある場合は
さらにその残りの文字列と現在調査中の規則の検索文字
列とを比較する必要があることから処理はステップS7
以下に進む。
【0066】ステップS7においては、入力文と、現在
適用を検討中の規則について予め定められた検索文字列
(図6参照)とを比較する処理が行なわれる。
【0067】ステップS8では、比較の結果両者が一致
したか否かの判断が行なわれる。一致しない場合には現
在検討中の規則を適用することはできないということで
あるから、処理はステップS13に進み次の規則の適用
を検討する過程に進む。両者が一致している場合には処
理はステップS9に進む。
【0068】ステップS9においては、現在適用を検討
中の規則に対して予め定められた条件の評価が、入力文
に対して行なわれる。たとえば、図6に示される規則3
の場合には、この文字列が文頭にあるかどうかの判断が
所定の条件チェックプログラム(図9参照)によって行
なわれる。
【0069】ステップS10では、ステップS9におい
て行なわれた条件チェックの結果、入力文が所定の条件
を満たしているかどうかについての判断が行なわれる。
満たしていない場合には、現在までのところこの規則を
適用できないということであるから処理は再びステップ
S6に進み、以後の処理が繰り返し行なわれる。条件が
満たされている場合には処理はステップS11に進む。
【0070】ステップS11においては、当該規則につ
いて予め定められた分割を実行する処理が行なわれる。
この分割処理は、図9に示される、当該規則について定
められた分割プログラムにこの入力文を引き渡してこの
プログラムを実行し、その出力として分割後の文を得る
ことにより行なわれる。
【0071】ステップS12では、入力文の文字列ポイ
ンタを、ステップS10で条件が一致したアドレスの次
にセットする処理が行なわれ、処理は再びステップS6
に戻る。そして更にステップS6以下の処理を繰り返し
行なうことにより、一文の中に同一の規則を適用すべき
箇所が二箇所以上ある場合にももれなく分割処理が行な
われる。
【0072】ステップS6、ステップS8からステップ
S13に処理が進んだ場合、ステップS13では現在適
用を検討中の規則を、これ以上入力文に対して適用する
余地がないということであるから、次の規則についてそ
の適用可能性を検討するために、規則ポインタを次の規
則にセットする処理が行なわれる。ステップS13の
後、処理はステップS4に戻る。
【0073】このように、入力された一文についてステ
ップS5〜S13の処理を各規則ごとに繰り返して行な
い、かつ、入力テキストのすべての入力文にに対してス
テップS1〜S4およびステップS14の処理を繰り返
し行なうことにより、図4に示されるディスク17内の
所定のファイルに格納されていた入力テキストは一文ず
つ順次図5に示されるバッファXに格納され、分割処理
が行なわれた後、図4に示されるディスク17内の分割
処理後のテキストを格納するためのファイルに次々と出
力されていく。そして入力テキストのすべての入力文に
対して分割が終了すれば、ディスク17内には、分割後
の入力テキスト文が得られることになる。
【0074】図4に示されるディスク17に格納されて
いる、分割処理後の入力テキストは、次のように機械翻
訳される。ここでは「This is a pen.」
という英文を日本語に翻訳する場合を例に説明する。ま
ず、この分割処理後の入力テキストから、一文が図10
に示される翻訳モジュールに読み込まれる。読み込まれ
た分割処理後の入力テキストの一文は形態素解析によっ
て形態素に分解され、図12に示されるようにバッファ
A(図10参照)に格納される。
【0075】続いて翻訳プログラム16に基づく翻訳C
PU15の制御の下に、図3に示される辞書引き・形態
素解析部11によって、バッファAに格納された原文の
各単語につき、メモリ6に格納されている辞書を参照す
ることにより各単語の品詞や訳語などの情報が得られ
る。この情報は図10に示されるバッファBに格納され
る。これらの情報のうち、品詞情報は図13に示される
ように格納される。すなわち、「this」は多品詞語
であって代名詞、指示形容詞の二つの品詞を持つ。また
「is」の品詞は動詞である。同様に「a」「pen」
についても各々の品詞がバッファBに格納される。「t
his」は多品詞語であるが、文中での品詞が何である
かについては、図3に示される構文解析部12に相当す
る処理によって後に一意に決定される。
【0076】翻訳プログラムのうち図3に示される構文
解析部12に相当する処理においては、メモリ6に格納
された辞書および文法規則に従って、各単語間の係り受
け関係を示す構造解析木がたとえば図14に示されるよ
うに決定される。この構文解析結果は図14のバッファ
Cに格納される。
【0077】構造解析木の決定は次のようにして行なわ
れる。メモリ6に格納された文法規則の内、英語に関す
る文法規則は次の表1に示されるようなものから成り立
っている。
【0078】表1 文 → 主部、述部 主部 → 名詞句 述部 → 動詞、名詞句 名詞句 → 代名詞 名詞句 → 冠詞、名詞 これらの規則のうち、例えば、1つ目の規則は「文と
は、主部と述部からできている」ということを表す。他
の規則についても同様である。これらの規則にしたがっ
て構造解析木が決定されるのである。なお、このような
文法規則は日本語についても同じように用意されてお
り、英語の文法規則と日本語の文法規則との間で対応づ
けがなされている。
【0079】翻訳プログラムのうち、図3に示される変
換部13に相当する処理においては、入力された英文の
構造解析木(図14参照)の構造が、図15に示される
日本文に対する構文解析木の構造に変換される。この変
換においては、上述の構文解析部12が利用したのと同
様に、メモリ6に格納されている「木構造変換規則」が
用いられる。この変換は、図1でいえばレベルL3から
ターゲット言語のレベルL9への変換に相当する。得ら
れた結果は図10に示されるバッファDに格納される。
この説明において用いられている例文「This is
a pen.」は、この変換によって日本語文字列
「これ ペン である。」に変換されたことになる。
【0080】翻訳プログラムのうち図3の翻訳文生成部
14に相当する処理を行なう部分は、得られた日本語文
字「これ ペン である。」に適切な助詞「は」や助動詞
をつけることにより、図16に示されるような文法的な
日本語の形にし、図10に示されるバッファEに格納す
る。この処理は、図1に示されるレベルL9からレベル
L10への変換に相当する。得られた日本文「これはペ
ンである。」は、図10に示される翻訳モジュール5か
ら出力され、ディスク17内の翻訳文用のファイルとメ
インメモリ2とに格納されると共に、表示装置3に表示
される。
【0081】上述の説明では翻訳単位の英文テキストが
ピリオドで終っている完全な文の場合であったが、分割
が施されるとテキストの末尾はカンマで終っていたり、
あるいは、何も記号がないというのが通常である。この
場合普通に翻訳を実行したのでは、翻訳に失敗して分割
された訳文が出力されるという結果になることが多い。
このような翻訳失敗という事態を避けるため、通常の翻
訳装置には部分翻訳機能が備えられており前置詞句や従
属説などのように文として完結していないものを翻訳す
ることができる。通常の翻訳ではユーザが部分翻訳の実
行を指示しなければならないが、本発明では、テキスト
自動分割装置での分割が終了した後、図10の翻訳モジ
ュールにおいて翻訳処理が実行される段階で翻訳CPU
15の制御により翻訳プログラム16が部分翻訳を行な
う。こうすることにより、ユーザの手を煩わせることな
く自動的に部分翻訳が実行できるのである。
【0082】図17に、ある米国特許文献のクレームの
原文と、この原文に対して分割を行なわずに翻訳した結
果とを示す。また、図18には本発明に係るテキスト自
動分割装置によって図17に示される英文テキストを分
割した結果と、その分割された英文テキストを翻訳した
結果とを示す。
【0083】図17、図18を参照して明らかなよう
に、元々の英文のクレームの長大な一文は、本発明に係
るテキスト自動分割装置によって図18に示されるよう
に3つの文に分割された。前述のように、一文が短くな
るほど翻訳精度は向上し、かつ翻訳時間も短縮される。
本発明を用いて行なった翻訳の結果、図17、図18に
示されるように、得られた日本語の文章としては、テキ
スト分割を行なって後に翻訳をしたものの方がはるかに
正確で、かつ分かり易い。また英文テキストを分割する
処理そのものに要する時間はわずかであって、翻訳処理
全体に要する時間は本発明に係るテキスト自動分割装置
を利用することによって大幅に短縮される。
【0084】また、図19に、本発明に係るテキスト自
動分割装置によって、他の分割規則群を適用して英文テ
キストを分割した結果の例を示す。
【0085】以上、本発明に係るテキスト自動分割装置
を、機械翻訳装置に組み込んだ形で説明した。しかし、
本発明はこれには限定されず、このテキスト自動分割装
置を単独のシステムとしてたとえばパーソナルコンピュ
ータなどの上で実現し、既存の機械翻訳装置に対する入
力テキストを作成するために利用しても良い。
【0086】[請求項2の実施例]図20は、この発明
の一実施例のテキスト自動分割装置を含む機械翻訳装置
の機能構成を示すブロック図である。
【0087】図20において、71はキーボードからな
る入力手段(入力装置)であり、入力原文の文字入力、
文書編集、翻訳に対する指示等の入力をする。
【0088】72は一文切り出し部72Aと、分割規則
格納部72B2、適用箇所検出部72B3、分割規則適
用部72B4、分割規則選択部72B5、分割規則変更
部72B6、最大文字数/単語数指定部72B1を含む
翻訳単位切り出し部72Bからなる分割手段であり、入
力された原文に対して、分割規則格納部に格納された分
割規則群を用いて、適用箇所検出部により分割規則を適
用すべき箇所を検出し、分割規則適用部により分割規則
を適用することにより分割処理を実行する。このとき、
最大文字数/単語数指定部においてユーザが最大文字数
/単語数指定を指定し、それに従って、格納部に格納さ
れた複数種類の分割規則群の中から分割規則選択部によ
りひとつを選択する。また、分割規則変更部によりユー
ザが分割規則を変更する。
【0089】73は翻訳手段(翻訳部)であり、分割さ
れた原文テキストに対して翻訳処理を実行する。ここで
の翻訳処理では部分翻訳機能を適用する。
【0090】74は原文記憶部74A、訳文記憶部74
Bからなる記憶手段であり、原文記憶部には、入力され
た原文、分割された原文が記憶され、訳文記憶部には、
翻訳された訳文が記憶される。
【0091】75は表示装置あるいはプリンタからなる
出力手段であり、原文テキスト、訳文テキスト等を表示
出力あるいはプリント出力する。
【0092】図21は、この発明の一実施例のテキスト
自動分割装置を含む機械翻訳装置のブロック図である。
図21を参照して、この機械翻訳装置は、実施例1の機
械翻訳装置と同じく、バス7に接続され、入力されるソ
ース言語のテキストに対して所定の分割処理を行なうた
めのテキスト自動分割装置21を含む。
【0093】テキスト自動分割装置21は、それぞれバ
ス7に接続された分割モジュール8と、分割のための複
数の規則を格納するためのハードディスクなどからなる
記憶装置9と、ユーザの設定した、文を分割する時の最
大単語数/文字数を格納するためのバッファ31を含
む。
【0094】分割モジュール8は、ソース言語のテキス
トが入力されると、それを所定の手順に従って機械翻訳
に適した形に分割して出力するためのものである。図2
2を参照して、分割モジュール8は、バス7に接続さ
れ、バス7を介して例えばディスク17などから入力さ
れるソース言語(本実施例の場合は英語)のテキスト
を、後述するような分割プログラムに従って分割して出
力する処理を行なうための分割CPU18と、分割プロ
グラムを格納するメモリ19と、記憶装置9に格納され
た分割規則群を編集して分割規則を追加したり、削除し
たりするためのエディタプログラムを格納するためのメ
モリ20と、分割モジュール8に入力されるソース言語
のテキストおよび処理途中のテキストを格納するための
バッファXを含む。
【0095】分割プログラムおよびエディタプログラム
はともに、分割CPU18によって実行される。
【0096】記憶装置9には、4種類の分割規則群が格
納されている。すなわち、この分割モジュール8で用い
られる分割規則群は、翻訳単位を一般的な機械翻訳装置
と同程度にして、ほぼ文単位で翻訳する際に用いられる
80単語/1000文字用分割規則群32と、翻訳単位
を短めにして、ほぼ節単位で翻訳する際に用いられる4
0単語/500文字用分割規則群33と、翻訳単位をさ
らに短くして、ほぼフレーズ単位で翻訳する際に用いら
れる20単語/250文字用分割規則群34と、これら
の分割規則群により分割されなかった場合に分割するた
めの補助用分割規則群39とからなる。各分割規則群に
は、所定のポインタを各々の分割規則1に合わせること
によりアクセスできる。各分割規則群の先頭は、記憶装
置9の所定アドレスに固定されている。したがって、ポ
インタを各分割規則群の先頭に合わせることにより、各
分割規則群のいずれでも選択することが可能である。
【0097】これらの規則は実施例1の図6〜図8と同
様の形式であり、同様に適用される。検索文字列として
指定されるのは、たとえば40単語/500文字用分割
規則群33では、「which」、「who」などの関
係代名詞や「if」、「whenever」などの従属
接続詞、20単語/250文字用分割規則群34では、
「in」、「on」などの前置詞である。また、補助用
分割規則群39では、「both 〜 and」「ei
ther 〜 or」「〜, 〜, and」「〜,
〜, or」などの各単語である。
【0098】各規則は、記憶装置9(図22参照)内
に、実施例1と同じく図9に示されるような形式で格納
されている。
【0099】以下、図21〜図25を参照して、本実施
例のテキスト自動分割装置を含む機械翻訳装置による英
日翻訳の動作を説明する。
【0100】特に図23〜図25を参照して、テキスト
の分割は以下のようにして行なわれる。まず図23を参
照して、ステップS21において、ユーザが所望の単語
数/文字数を設定する処理が行なわれる。この処理の詳
細は図24のフローチャートを参照して後述する。
【0101】続いてステップS2で図22に示される3
つの規則群32〜34のうちのひとつを分割の際の規則
群として選択する処理が行なわれる。この処理の詳細は
図25のフローチャートを参照して後述する。
【0102】ステップS3において、選択された規則群
に対して、規則の追加・削除などの変更を行なう必要が
あるかどうかについての判断が行なわれる。この判断は
図21に示される表示装置3上に規則の内容を変更する
かどうかを示すメッセージを表示し、ユーザからその入
力を得ることで行なわれる。規則群の内容を変更する必
要がある場合は処理はステップS4に進み、それ以外の
場合はステップS5に進む。
【0103】ステップS4においては、図22に示され
るメモリ20に格納されているエディタプログラムが分
割CPU18によって実行され、選択された規則群に対
し、新たな規則の追加あるいは不要な規則の削除が行な
われる。このように規則を追加したり削除したりするこ
とにより、ユーザがこのテキスト分割装置を使用してい
く過程において得た経験が規則群の形で整えられていく
こととなり、ユーザが扱う分野のテキストを最適に機械
翻訳できるように分割を行なうことが可能となる。
【0104】ステップS4の後ステップS5に進む。
【0105】以下請求項1の実施例と同様にして、入力
された一文について処理を施していく。ただし、請求項
1の実施例ではステップS11で分割処理実行後すぐに
ステップS12へと進み入力文ポインタを一致アドレス
の次にセットしていたが、本実施例ではステップS35
の分割処理実行の後、ステップS36へと進む。
【0106】ステップS36では、文字列ポインタから
分割位置までの単語数/文字数をカウントし、ステップ
S37でその単語数/文字数がステップS21でユーザ
が設定した値より大きいかどうかの判断が行なわれる。
【0107】ここで単語数/文字数がユーザ設定値より
小さければ、テキストがユーザの設定した単語数/文字
数の範囲内で分割されたということであるからステップ
S41へと進んで文字列ポインタを一致アドレスの次に
セットし、入力文の残りの部分の処理へと進んでいく。
もし、単語数/文字数がユーザ設定値より大きければ、
テキストはユーザの設定した単語数/文字数の範囲内で
は分割されていないということであるから、ステップS
38へと進み、ユーザが設定した単語数/文字数よりも
少ない単語数/文字数用の分割規則群があるかどうかを
判別する。
【0108】ユーザが設定した単語数/文字数よりも少
ない単語数/文字数用の分割規則群がある場合にはステ
ップS39へと進み、ユーザ設定値よりも少ない単語数
/文字数用の分割規則群を使って分割処理を行う。ここ
での分割処理は請求項1の実施例の図11のフローチャ
ートで示す分割処理と同様である。
【0109】分割処理が終了後、再度ステップS36、
S37へと進み、同様に文字列ポインタから分割位置ま
での単語数/文字数をカウントし、その単語数/文字数
がステップS37でユーザの設定した値より大きいかど
うかの判断が行われる。
【0110】今回の分割処理でも単語数/文字数がユー
ザ設定値より大きければ、もう一度ステップS38でさ
らに少ない単語数/文字数用の分割規則群があるかどう
かを判別する。
【0111】さらに少ない単語数/文字数用の分割規則
群がある場合はステップS39でさらに少ない単語数/
文字数用の分割規則群を使って分割処理を行う。
【0112】このようにして繰り返した後、ステップS
38で、ユーザが設定した単語数/文字数よりも少ない
単語数/文字数用の分割規則群がない場合には、ステッ
プS40へと進み、記憶装置9(図22)に示す補助用
分割規則群39を使って分割処理を行う。
【0113】図23に示されるステップS22の処理
は、次のようにして行なわれる。図25を参照して、ま
ずステップS61において、図23のステップS21で
設定された単語数/文字数が単語数=40/文字数=5
00かどうかが判断される。一致した場合には、ステッ
プS62で図22に示される40単語/500文字用分
割規則群33の先頭の規則へのポインタを所定の記憶領
域に記憶する。
【0114】ステップS61で一致しなかった場合には
ステップS63へと進み、図23のステップS21で設
定された単語数/文字数が単語数=20/文字数=25
0かどうかが判断される。一致した場合には、ステップ
S64で図22に示される20単語/250文字用分割
規則群34の先頭の規則へのポインタを所定の記憶領域
に記憶する。
【0115】ステップS63で一致しなかった場合には
ステップS65へと進み、デフォルトの規則群として図
22に示される80単語/1000文字用分割規則群3
2の先頭の規則へのポインタを所定の記憶領域に記憶す
る。
【0116】このように図25に示される処理を行な
い、選択された単語数/文字数に応じた分割規則群の先
頭の規則へのポインタを予め記憶しておき、図23のス
テップS27でこの記憶されたポインタ位置に規則ポイ
ンタをセットすることにより、選択された単語数/文字
数に応じた分割規則群を用いた分割処理を行なうことが
できる。
【0117】図19が、本発明に係るテキスト自動分割
装置によって、20単語/250文字用分割規則群を適
用して英文テキストを分割した結果の例である。
【0118】[実施例3〜5の実施例]図26は、この
発明の一実施例の機械翻訳装置の機能構成を示すブロッ
ク図である。
【0119】図26において、81はキーボードからな
る入力手段(入力装置)であり、入力原文の文字入力、
文書編集、翻訳に対する指示等の入力をする。82は分
割手段であり、実施例1、2で述べた分割処理を実行す
る。
【0120】83は翻訳手段(翻訳部)であり、分割さ
れた原文テキストに対して翻訳処理を実行する。84は
分割記号挿入部84Cを含む結合手段であり、分割され
たテキストを元の文に結合する処理を実行する。分割記
号挿入部では、テキストが結合される際に分割記号を挿
入する。
【0121】85はテキスト対応記憶部85A、原文記
憶部85B、訳文記憶部85Cからなる記憶手段であ
り、テキスト対応記憶部には、分割手段により分割され
たテキストと元の文との対応関係が記憶され、原文記憶
部には、入力された原文、分割された原文が記憶され、
訳文記憶部には、翻訳された訳文が記憶される。
【0122】2606は表示装置あるいはプリンタから
なる出力手段であり、原文テキスト、訳文テキスト等を
表示出力あるいはプリント出力する。
【0123】図27に示す実施例では、図3の翻訳装置
にさらに、翻訳処理が終了した後、翻訳結果を分割が行
なわれる前の一文に結合するための結合部35を含む。
【0124】図28は、この発明の一実施例のテキスト
自動分割装置を含む機械翻訳装置のブロック図である。
図28を参照して、この機械翻訳装置は、請求項1、2
実施例の機械翻訳装置に加えてさらに、バス7に接続さ
れ、ソース言語のテキストおよびターゲット言語のテキ
ストに対して各々所定の結合処理を行なうための結合モ
ジュール36を含む。
【0125】図29を参照して、結合モジュール36
は、バス7に接続され、バス7を介して例えばディスク
17などから入力されるソース言語(本実施例の場合は
英語)のテキストおよびターゲット言語(本実施例の場
合は日本語)のテキストを、後述するような結合プログ
ラムに従って各々結合して出力する処理を行なうための
結合CPU37と、結合プログラムを格納するメモリ3
8と、結合モジュール36に入力されるソース言語およ
びターゲット言語のテキスト、および処理途中のテキス
トを格納するためのバッファY51を含む。結合プログ
ラムは結合CPU37によって実行される。
【0126】以下、図27〜図33を参照して、本実施
例の結合モジュールを含む機械翻訳装置による英日翻訳
の動作を説明する。
【0127】まず、請求項1または2の実施例で述べた
テキスト自動分割装置21で分割を行う際、一文がいく
つのテキストに分割されたかを記憶しておく。
【0128】これは、図示していないが、以下のように
して実現できる。図11のステップS2あるいは図23
のステップS26で一文を読み込むごとに文の番号をカ
ウントしていき、図11のステップS11あるいは図2
3のステップS35またはS40で分割処理が実行され
るごとに、分割されたテキストと文番号を対応させて図
29のバッファY51内のテキスト対応関係を格納する
ための領域に記憶していく。
【0129】この結果は、例えば図17に示す例文が図
18に示すように分割された場合には、図30に示すよ
うな形で記憶される。すなわち図17で7つに分割され
ているテキストは、元々はすべて文番号1の文であった
という対応関係が記憶されている。分割処理の後、翻訳
モジュール5による翻訳処理が行なわれ、訳文が得られ
る。図31を参照して、分割されている英文テキストと
翻訳処理の結果得られた訳文テキストの結合は以下のよ
うにして行なわれる。
【0130】まず、ステップS71で、ディスク17内
の分割されている原文テキストが読み込まれ、原文ポイ
ンタが原文テキストの先頭にセットされる。同様に、ス
テップS72で分割されている訳文テキストが読み込ま
れ、訳文ポインタが訳文テキストの先頭にセットされ
る。
【0131】そして、ステップS73で原文テキストが
残っているかどうかが判別される。残っていない場合に
はすべての原文テキストと訳文テキストに対して結合処
理が終了したということであるから処理は終了する。原
文テキストが残っている場合には処理はステップS74
に進む。ここで原文テキストだけをチェックしているの
は、原文と訳文は一対一に対応しているのでどちらか一
方だけをチェックすれば両方のテキストの有無が判別で
きるからである。
【0132】ステップS74では、原文テキストのひと
つが読み込まれ図29に示されるバッファY内の原文テ
キスト用バッファに格納される。
【0133】ステップS75では、同様に、訳文テキス
トのひとつが読み込まれ図29に示されるバッファY内
の訳文テキスト用バッファに格納される。
【0134】ステップS76において、いま読み込まれ
たテキストの文番号が、図30に示されるテキスト対応
表を参照して、次のテキストに対応する文番号と同じか
どうかが判別される。同じでない場合は現在のテキスト
と次のテキストが元々別の文であったということである
から、いくつかに分割されたテキストを元のひとつの文
に結合する処理が終了したものと判断され、処理はステ
ップS77へと進む。
【0135】ステップS77では、バッファYに格納さ
れている、結合後の文章を、図28に示されるディスク
17内に確保された、結合後の文章格納用のファイルに
追加出力する処理が行なわれる。
【0136】ステップS76において、文番号が同じ場
合には、ステップS80へと進み、分割記号がバッファ
Y内のテキスト用バッファに格納される。こうすること
により文がどのように分割されていたのかが明確にな
り、ユーザが翻訳結果を理解し易くなる。
【0137】この時、図28に示される表示装置3上
に、原文と訳文の双方に関して分割記号を挿入するかど
うかを問い合わせるメッセージを表示し、ユーザからの
指示を受け付けるようにしておけば、テキストを結合す
る際にユーザの指示に従って結合処理が行なわれること
になり、ユーザの望む形の翻訳結果を得ることができ
る。あるいは、文全体について分割記号を挿入する必要
がないとユーザが判断する場合には、結合処理を行なう
前に図28に示される表示装置3上でユーザが指示でき
るようにしておけば、たとえば分割記号挿入指示のフラ
グを0にしておくことにより、ステップS80の分割記
号挿入処理をスキップでき、従って、分割記号は挿入さ
れないことになる。
【0138】ステップS77、S80の処理の後、いず
れも処理はステップS78へと進む。
【0139】ステップS78では、原文ポインタを、次
の原文にセットする処理が行なわれる。続いてステップ
S79で、同様に、訳文ポインタを、次の訳文にセット
する処理が行なわれる。
【0140】そして、処理は再びステップS73に戻
る。このようにステップS73以下の処理を繰り返し行
なうことにより、分割されたテキストが元の一文に結合
されていく。
【0141】図32と図33には、図17の文が図18
に示すように分割されたものを、本発明の結合手段によ
り結合した結果の例を示している。図32は原文と訳文
の双方に分割記号を挿入したもの、図33は原文には分
割記号をせず訳文に分割記号を挿入したものである。同
様に、原文と訳文の双方とも分割記号を挿入しない翻訳
結果を得ることも可能である。このようにしてユーザは
所望の翻訳結果を得ることができ、後編集の際の手間を
省くことができるようになるのである。
【0142】なお、上記結合処理の実施に先だって、図
28に示される表示装置3上で、結合処理を実施するか
同かをユーザに問い合わせるようにしておけば、ユーザ
が結合処理の実施を望まない場合には、結合処理を行な
わないようにすることができ、ユーザが希望するときだ
け結合処理を行なうことができるようになる。
【0143】
【発明の効果】
[請求項1の効果]以上のように請求項1に記載の機械
翻訳装置においては、連続しているテキストが一文毎に
分割されて翻訳単位として切り出される。そして切り出
された一文の長さが翻訳装置に設定されている特定の単
語数/文字数を越えた場合、入力テキスト内において分
割規則を適用すべき箇所があれば、その箇所に分割規則
が適用され、入力テキストが分割される。
【0144】従って、翻訳不能という状態を回避できる
と共に、入力テキストの不完全さから生じる翻訳結果の
誤りを防ぐことができ、また、翻訳精度をより高めるこ
とができる。
【0145】[請求項2の効果]請求項2に記載の機械
翻訳装置においては、分割して切り出される翻訳単位の
最大単語数/文字数を指定することができ、入力テキス
ト内において分割規則を適用すべき箇所があれば、その
箇所に分割規則が適用され、入力テキストが分割され
る。
【0146】従って、ユーザの要望に応じて、翻訳処理
に要する時間を短くすることができ、同時に、入力テキ
ストの係り受け関係の曖昧さから生じる翻訳結果の誤り
を防ぐことができると共に翻訳精度をより高めることが
でき、しかも、ユーザにとって理解し易い翻訳結果を得
ることができるようになる。
【0147】[請求項3の効果]請求項3に記載の機械
翻訳装置においては、分割された各々の翻訳単位の翻訳
処理が終了した後、翻訳結果を出力する際、分割された
翻訳単位が元の一文にまとめられる。また、一文にまと
められた形式で原文と訳文を対応表示する時、翻訳単位
の区切り部分に分割記号が挿入される。
【0148】従って、原文と訳文との対応が取り易くな
り、ユーザが翻訳結果をより理解し易くなると共に、後
編集の際の負担を軽減することができる。
【0149】[請求項4の効果]請求項4に記載の機械
翻訳装置においては、分割された各々の翻訳単位の翻訳
処理が終了した後、翻訳結果を出力する際、分割された
翻訳単位を元の一文にまとめるかどうかをユーザが指定
できる。
【0150】従って、ユーザが所望する翻訳結果の表示
形式を随意得ることができ、後編集の際の負担を軽減す
ることができる。
【0151】[請求項5の効果]請求項5に記載の機械
翻訳装置においては、分割された各々の翻訳単位の翻訳
処理が終了した後、翻訳結果を出力する際、元の一文に
まとめた形式で原文と訳文を対応表示する時、翻訳単位
の区切り部分に分割記号を挿入するかどうかをユーザが
指定できる。
【0152】従って、ユーザが所望する翻訳結果の表示
形式を随意得ることができ、後編集の際の負担を軽減す
ることができる。
【図面の簡単な説明】
【図1】機械翻訳の概念を摸式的に示す図である。
【図2】本発明の一実施例のテキスト自動分割装置を含
む機械翻訳装置の機能構成を示すブロック図である。
【図3】トランスファ方式による機械翻訳の構成を示す
摸式図である。
【図4】本発明の一実施例のテキスト自動分割装置を含
む機械翻訳装置のブロック図である。
【図5】本発明の一実施例に係るテキスト自動分割装置
のブロック図である。
【図6】分割規則群の一例を示す摸式図である。
【図7】図6の分割規則群の各規則の処理の詳細を示す
摸式図である。
【図8】他の分割規則群の一例を示す摸式図である。
【図9】分割規則のフォーマットを示す摸式図である。
【図10】図4に示される翻訳モジュール5の詳細なブ
ロック図である。
【図11】分割モジュールで実行される分割プログラム
のメインルーチンのフローチャートである。
【図12】バッファAの格納内容を摸式的に示す図であ
る。
【図13】バッファBの格納内容を摸式的に示す図であ
る。
【図14】バッファCの格納内容を摸式的に示す図であ
る。
【図15】バッファDの格納内容を摸式的に示す図であ
る。
【図16】バッファEの格納内容を摸式的に示す図であ
る。
【図17】分割前の英文テキストと、この英文テキスト
を機械翻訳した結果得られた日本語テキストを示す摸式
図である。
【図18】図17に示される英文テキストを本発明の一
実施例に係るテキスト自動分割装置によって分割した後
の英文テキストと、分割された英文テキストを機械翻訳
装置で翻訳した結果得られた日本語テキストを摸式的に
示す図である。
【図19】分割前の英文テキストと、この英文テキスト
を分割規則群を使ってテキスト自動分割装置によって分
割した後の英文テキストを示す摸式図である。
【図20】実施例2に係る機械翻訳の構成を示す摸式図
である。
【図21】実施例2に係る分割モジュールを含む機械翻
訳装置のブロック図である。
【図22】実施例2に係る分割モジュールのブロック図
である。
【図23】実施例2に係る分割モジュールで実行される
結合プログラムのフローチャートである。
【図24】図23のステップ2301に対応する単語数
/文字数設定処理のフローチャートである。
【図25】図23のステップ2302に対応する規則群
選択処理のフローチャートである。
【図26】実施例3に係る結合モジュールを含む機械翻
訳装置の機能構成を示すブロック図である。
【図27】実施例3に係る機械翻訳の構成を示す摸式図
である。
【図28】実施例3に係る結合モジュールを含む機械翻
訳装置のブロック図である。
【図29】実施例3に係る結合モジュールのブロック図
である。
【図30】分割されたテキストと元の文の文番号の対応
を示す対応表の内容を摸式的に示す図である。
【図31】実施例3に係る結合モジュールで実行される
結合プログラムのフローチャートである。
【図32】図18に示される英文テキストと日本語テキ
ストを実施例3に係る結合モジュールによって結合した
後の英文テキストと日本語テキストを摸式的に示す図で
ある。
【図33】図18に示される英文テキストと日本語テキ
ストを実施例3に係る結合モジュールによって結合した
後の英文テキストと日本語テキストの別の例を摸式的に
示す図である。
【符合の説明】
1 メインCPU 2 メインメモリ 3 表示装置 4 キーボード 5 翻訳モジュール 6 メモリ 8 分割モジュール 9 分割規則群記憶装置 10 分割部 11 辞書引き・形態素解析部 12 構文解析部 13 変換部 14 翻訳文生成部 15 翻訳CPU 16 翻訳プログラムメモリ 18 分割CPU 19 分割プログラムメモリ 20 エディタプログラムメモリ 21 テキスト自動分割装置 31 最大単語数/文字数記憶装置 32 80単語/1000文字用分割規則意群 33 40単語/500文字用分割規則意群 34 20単語/250文字用分割規則意群 35 結合部 36 結合モジュール 37 結合CPU 38 結合プログラムメモリ 39 補助用分割規則群

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】第1言語で記述された文書を、所望の第2
    言語に翻訳する機械翻訳装置において、意味的に分割可
    能な分割規則を格納した分割規則格納手段と、第1言語
    で記述された文書を一文ごとに分割して切り出す一文切
    り出し手段と、前記一文切り出し手段によって切り出さ
    れた文字列の文字数または単語数をカウントするカウン
    ト手段と、前記カウント手段によってカウントされた文
    字数または単語数が、所定の文字数または単語数を越え
    ているかどうか判断するカウント判断手段と、前記カウ
    ント判断手段において、前記カウント手段によってカウ
    ントされた文字数または単語数が前記所定数を越えてい
    る場合に、その値を越えないように、前記分割規則を用
    いて一文を翻訳単位に分割して切り出す翻訳単位切り出
    し手段とを具備することを特徴とする機械翻訳装置。
  2. 【請求項2】第1言語で記述された文を、所望の第2言
    語に翻訳する機械翻訳装置において、文書を翻訳単位に
    分割する際の最大文字数または最大単語数である最大分
    割長を複数格納した最大分割長格納手段と、前記最大分
    割長に対応して意味的に分割可能な分割規則を格納した
    分割規則格納部と、前記最大分割長格納手段から一つを
    選択指定する最大分割長指定手段と、第1言語で記述さ
    れた文書を一文ごとに分割して切り出す一文切り出し手
    段と、前記前記一文切り出し手段によって切り出された
    文字列に対して、前記最大分割長指定手段において指定
    された最大分割長に対応する分割規則を用いて分割し、
    分割された文字列が前記指定された最大分割長を越えて
    いる場合は、前記分割規則より一段階下位の分割規則を
    用いて一文を翻訳単位に分割して切り出す翻訳単位切り
    出し手段とを具備することを特徴とする機械翻訳装置。
  3. 【請求項3】前記翻訳単位切り出し手段によって分割さ
    れた文の翻訳処理が終了した後、翻訳結果を出力する
    際、元の一文にまとめるための結合手段と、 一文にまとまった形式で原文と訳文を対応表示する時、
    翻訳単位と対応する訳文の双方の区切り部分に分割記号
    を挿入するための分割記号挿入手段を含むことを特徴と
    する請求項1または2に記載の機械翻訳装置。
  4. 【請求項4】前記結合手段により元の一文に結合する
    際、結合するかどうかをユーザが指定する結合指定手段
    を含む請求項3に記載の機械翻訳装置。
  5. 【請求項5】前記分割記号挿入手段により分割記号を挿
    入する際、区切り部分に分割記号を挿入するかどうかを
    ユーザが指定する分割記号挿入指定手段を含む請求項3
    に記載の機械翻訳装置。
JP7038701A 1995-02-27 1995-02-27 機械翻訳装置 Pending JPH08235180A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7038701A JPH08235180A (ja) 1995-02-27 1995-02-27 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7038701A JPH08235180A (ja) 1995-02-27 1995-02-27 機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH08235180A true JPH08235180A (ja) 1996-09-13

Family

ID=12532625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7038701A Pending JPH08235180A (ja) 1995-02-27 1995-02-27 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH08235180A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010113691A1 (ja) * 2009-03-30 2010-10-07 日本電気株式会社 言語解析装置、方法、及びプログラム
CN109992753A (zh) * 2019-03-22 2019-07-09 维沃移动通信有限公司 一种翻译处理方法及终端设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010113691A1 (ja) * 2009-03-30 2010-10-07 日本電気株式会社 言語解析装置、方法、及びプログラム
CN102369524A (zh) * 2009-03-30 2012-03-07 日本电气株式会社 语言分析装置、语言分析方法和语言分析程序
JP5464209B2 (ja) * 2009-03-30 2014-04-09 日本電気株式会社 言語解析装置、方法、及びプログラム
US8977539B2 (en) 2009-03-30 2015-03-10 Nec Corporation Language analysis apparatus, language analysis method, and language analysis program
EP2416256A4 (en) * 2009-03-30 2017-09-20 Nec Corporation Language analysis device, method, and program
CN109992753A (zh) * 2019-03-22 2019-07-09 维沃移动通信有限公司 一种翻译处理方法及终端设备
CN109992753B (zh) * 2019-03-22 2023-09-08 维沃移动通信有限公司 一种翻译处理方法及终端设备

Similar Documents

Publication Publication Date Title
JP2002215617A (ja) 品詞タグ付けをする方法
JPH08190563A (ja) 機械翻訳装置
JPH0644296A (ja) 機械翻訳装置
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
US20010029443A1 (en) Machine translation system, machine translation method, and storage medium storing program for executing machine translation method
CN100361124C (zh) 用于词分析的系统和方法
JP2004246440A (ja) 形態素解析装置、自然言語処理装置、形態素解析方法及びプログラム
US20020129066A1 (en) Computer implemented method for reformatting logically complex clauses in an electronic text-based document
JPH08235180A (ja) 機械翻訳装置
Oostdijk Using the TOSCA analysis system to analyse a software manual corpus
US5640581A (en) CD-ROM information editing apparatus
JP3136973B2 (ja) 言語解析システムおよび方法
JPH0795323B2 (ja) 自然言語処理装置
JPH05225232A (ja) テキスト自動前編集装置
JP2010122823A (ja) テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム
KR20010004090A (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
JPH11282839A (ja) 機械翻訳システム及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH03260764A (ja) 翻訳用辞書登録方式
JP2915225B2 (ja) 文書作成装置
JP2719453B2 (ja) 機械翻訳装置
JP3680489B2 (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3884001B2 (ja) 言語解析システムおよび方法
JP3353873B2 (ja) 機械翻訳装置
JP2002183133A (ja) 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体