JP2007316834A - 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム - Google Patents

日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム Download PDF

Info

Publication number
JP2007316834A
JP2007316834A JP2006144158A JP2006144158A JP2007316834A JP 2007316834 A JP2007316834 A JP 2007316834A JP 2006144158 A JP2006144158 A JP 2006144158A JP 2006144158 A JP2006144158 A JP 2006144158A JP 2007316834 A JP2007316834 A JP 2007316834A
Authority
JP
Japan
Prior art keywords
sentence
style
term
script
easy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006144158A
Other languages
English (en)
Inventor
Hiroyuki Kato
博之 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Engineering Co Ltd
Original Assignee
Mitsubishi Electric Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Engineering Co Ltd filed Critical Mitsubishi Electric Engineering Co Ltd
Priority to JP2006144158A priority Critical patent/JP2007316834A/ja
Publication of JP2007316834A publication Critical patent/JP2007316834A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】日本語文章を機械翻訳するときに用いられる汎用のアプリケーションで機械翻訳がし易いように日本語文章を修正する日本語文章修正装置を提供する。
【解決手段】機械翻訳し易い文章構成、用字・用語およびスタイルがそれぞれ登録された文章構成データベース、用字・用語データベースおよびスタイルデータベースと、読み込む日本語原文章から上記構成、用字・用語またはスタイルに関するルールに反する構成、用字・用語またはスタイルを抽出する修正箇所抽出手段と、上記抽出された構成、用字・用語またはスタイルを表示する表示手段と、外部から入力されたデータを用いて上記抽出された構成、用字・用語またはスタイルを訂正、追加または削除して上記日本語原文章を修正する修正手段と、修正により得られた翻訳易文章を出力する出力手段と、を有する。
【選択図】図1

Description

この発明は、日本語で作成された原文章を機械翻訳し易い日本語の文章に修正する日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラムに関する。
従来、機械翻訳の前に機械翻訳し易い文章に処理するシステムは、入力された文書中の機械翻訳を阻害する用語を検索する第1の検索手段と、該阻害用語が検索された場合、該阻害用語に対応する翻訳しやすい用語を蓄積したデータベースに基づいて、翻訳しやすい用語に置換する置換手段と、入力された文書中の記号を検索するための第2の検索手段と、該記号が検索された場合、該記号の該当個所に翻訳不要処理制御コ−ドを自動挿入する手段と、入力された文書中の長文を検索する第3の検索手段と、長文が検索された場合、該当個所の文章を強制分割処理するための強制文章分割処理制御コ−ドを自動挿入する手段と、前処理の終了した文書を出力する手段を備える(例えば、特許文献1参照)。
特開2003−122748号公報
しかし、前処理された日本語の文章には、制御コードが付与されているので、日本語文章を機械翻訳するときに用いられるアプリケーションが、その制御コードを判別する機能を有するものに限られるという問題がある。
この発明の目的は、日本語文章を機械翻訳するときに用いられる汎用のアプリケーションで機械翻訳がし易いように日本語文章を修正する日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラムを提供することである。
この発明に係わる日本語文章修正装置は、機械翻訳し易い構成に関するルールが登録された文章構成データベースと、機械翻訳し易い用字・用語に関するルールが登録された用字・用語データベースと、機械翻訳し易いスタイルに関するルールが登録されたスタイルデータベースと、読み込む日本語原文章から上記構成、用字・用語またはスタイルに関するルールに反する構成、用字・用語またはスタイルを抽出する修正箇所抽出手段と、上記抽出された構成、用字・用語またはスタイルを表示する表示手段と、外部から入力されたデータを用いて上記抽出された構成、用字・用語またはスタイルを訂正、追加または削除して上記日本語原文章を修正する修正手段と、修正により得られた翻訳易文章を出力する出力手段と、を有する。
この発明に係わる日本語文章修正装置の効果は、制御コードを含まない機械翻訳のし易い日本語文章に修正されるので、汎用の日本語文章を機械翻訳するアプリケーションで機械翻訳することができることである。
実施の形態1.
図1は、この発明の実施の形態1に係わる日本語文章修正装置の機能ブロック図である。図2は、この発明の実施の形態1に係わる日本語文章修正装置の構成図である。
この発明の実施の形態1に係わる日本語文章修正装置1は、図1と図2とに示すように、機械翻訳し易い文章構成に関するルールが登録された文章構成データベース2、機械翻訳し易い用字・用語に関するルールが登録された用字・用語データベース3、機械翻訳し易いスタイルに関するルールが登録されたスタイルデータベース4、読み込む日本語原文章から構成、用字・用語またはスタイルに関するルールに反する構成、用字・用語またはスタイルを抽出する修正箇所抽出手段5、抽出された構成、用字・用語またはスタイルを表示する表示手段6、外部から入力されたデータを用いて抽出された構成、用字・用語またはスタイルを訂正、追加または削除して日本語原文章を修正する修正手段7、修正により得られた翻訳易文章を出力する出力手段8、を有する。
この実施の形態1に係わる日本語文章修正装置1は、図示しない中央演算処理ユニット(CPU)、CPUの演算処理の手順を格納される図示しないROM、演算処理のデータを一時記憶する図示しないRAM、外部記憶装置11および入出力装置とのインタフェースとなる図示しないインタフェース回路を有するコンピュータ10を備える。
また、この実施の形態1に係わる日本語文章修正装置1は、文章構成データベース2、用字・用語データベース3およびスタイルデータベース4が構成される大容量の外部記憶装置11、表示手段6により制御されて文章を表示するモニタ12、データを入力するキーボード13および図示しないマウスを備える。この外部記憶装置11、モニタ12、キーボード13およびマウスは、コンピュータ10に接続されている。
日本語原文章は、少なくとも1つの文を含み、日本語で書かれている。この日本語原文章は、パーソナルコンピュータに実装された日本語文章作成アプリケーションを用いて作成され、電子データとして出力される。そして、日本語原文章は、例えば、フレキシブルディスク、ICメモリ、HDD、DVDなどの記憶媒体に保存される。
また、翻訳易文章は、日本語原文章と同様に、少なくとも1つの文を含み、日本語で書かれている。また、翻訳易文章は、日本語文章を例えば英語文章に機械翻訳する機能を有する汎用のアプリケーションで電子データとして取り扱われる。そして、翻訳易文章は、例えば、フレキシブルディスク、ICメモリ、HDD、DVDなどの記憶媒体に保存される。
図3は、文章構成データベースに登録されている機械翻訳し易い6つの文章構成に関するルールである。図3には、ルール内容、具体例、説明が記載されている。
文章構成データベース2には、図3に示すように、機械翻訳し易い6つの文章構成に関するルールが登録されている。
第1の構成ルールは、「文は、述語を1つだけ含む。」である。機械翻訳は、述語を中心にして解釈するので、述語または述語らしい語句が、1つの文に2つ以上含まれると機械翻訳が難しい。修正案は、「文を、述語の数だけ作成する」である。
第2の構成ルールは、「文は、終わりに句点(。)がある。」である。機械翻訳は、句点で区切られた範囲を単位として翻訳する。修正案は、「1つだけの主語に対応する1つだけの述語を含む複数の文に分ける。」である。
第3の構成ルールは、「文と文との間には、改行がある。」である。修正案は、「2つの文の間に、改行記号を入れる。」である。
第4の構成ルールは、「箇条書き文、項番付きの場合、閉じ括弧と句点が数字の後にある。」である。修正案は、「箇条書き番号または項番の数字には閉じ括弧と句点を挿入する。」である。
第5の構成ルールは、「文は、1つだけの主語が含まれる。」である。修正案は、「主語を追加または削除する。」である。このようにすると、1つの主語と1つの述語が対応して機械翻訳し易くなる。
第6の構成ルールは、「主語と述語とが対応する。」である。修正案は、「主語に適する述語に修正する。」である。
図4は、用字・用語データベースに登録されている機械翻訳し易い5つの用字・用語に関するルールである。図4には、ルール内容、具体例、説明が記載されている。
用字・用語データベース3には、図4に示すように、機械翻訳し易い5つの文章構成に関するルールが登録されている。
第1の用字・用語ルールは、「文は、敬語を含まない。」である。敬語は、日本語独特の上下関係を表す表現であり、そのまま機械翻訳しても、上下関係が表現されない。また、機械翻訳されても、「不明瞭」、「逃げ腰」、「何か裏に意味がある」などに翻訳される。修正案は、「敬語を削除する。」である。
第2の用字・用語ルールは、「文は、当て字、誤字、脱字を含まない」である。修正案は、「当て字、誤字、脱字を修正する。」である。
第3の用字・用語ルールは、「普通名詞は、漢字で表記される。」である。修正案は、「普通名詞であれば漢字で表記する。」である。このように普通名詞を漢字で表記すると、意味が正確に翻訳される。
第4の用字・用語ルールは、「固有名詞は、アルファベットで表記される。」である。修正案は、「固有名詞であればアルファベットで表記する」である。このように固有名詞をアルファベットで表記すると、固有名詞として翻訳される。
第5の用字・用語ルールは、「文は、パソコン独自の日本語記号を含まない。」である。日本語文書作成アプリケーション用の日本語記号は機械翻訳されない。修正案は、「半角記号に訂正する。」である。
図5は、スタイルデータベースに登録されている機械翻訳し易い3つのスタイルに関するルールである。図5には、ルール内容、具体例、説明が記載されている。
スタイルデータベース4には、図5に示すように、機械翻訳し易い3つのスタイルに関するルールが登録されている。
第1のスタイルルールは、「文は、曖昧な語句を含まない」である。機械翻訳は、曖昧な語句は意図しない語句に翻訳される可能性があり、文に曖昧な語句を含まないようにする。曖昧な語句とは、例えば、「など」、「なりそうな」である。修正案は、「曖昧な語句を訂正する。」である。
第2のスタイルルールは、「文は、分かり易い日本語で表記される。」である。分かり難い文章とは、例えば、「1つの文のなかで二重否定している」、「二重表現している」、または「問いかけの文章である」である。修正案は、「分かり易い日本語で書き直す。」である。
第3のスタイルルールは、「文は、冗長な表現を含まない」である。冗長な表現とは、例えば、「・・・するものとする」、「・・・することを期待する」、「いろいろ」、「さまざま」、「すごく」である。冗長な表現は、文章として読みにくく、意図も伝わらない。修正案は、「単純な表現に訂正する。」である。
修正箇所抽出手段5は、対象の日本語原文章を読み込む。また、修正箇所抽出手段5は、読み込んだ日本語原文章の文が、文章構成、用字・用語およびスタイルに関するルールを満たしているか否かを判断する。また、修正箇所抽出手段5は、文が文章構成、用字・用語およびスタイルに関するルールを満たしていないとき、表示手段6にルールを満たしていない文章構成、用字・用語またはスタイルを満たしていないルール内容と合わせて送る。
表示手段6は、ルールを満たしていない文章構成、用字・用語またはスタイルを受け取ったとき、モニタ12に文の該当する箇所を色を変えて表示する。同時に、ルールの内容を表示する。
修正手段7は、入力されたデータで該当する文章構成、用字・用語またはスタイルを訂正、追加または削除して日本語原文章を修正して翻訳易文章を得る。
出力手段8は、翻訳易文章を記憶媒体に出力する。
図6は、日本語文章修正の手順を示すフローチャートである。
次に、実施の形態1に係わる日本語文章修正の手順について図6を参照して説明する。この手順はプログラムとしてROMに記憶されている。
ステップS101では、修正箇所抽出手段5は、修正対象の日本語原文章を外部から読み込む。
ステップS102では、修正箇所抽出手段5は、読み込んだ日本語原文章の先頭の文を取り込む。
ステップS103では、修正箇所抽出手段5は、取り込んだ文が文章構成データベース2に登録されている機械翻訳し易い構成に関するルール、用字・用語データベース3に登録されている機械翻訳し易い用字・用語に関するルール、およびスタイルデータベース4に登録されている機械翻訳し易いスタイルに関するルールを満たしているか否かを判断する。満たしているときにはステップS108に進む。満たしていないときにはステップS104へ進む。
ステップS104で、修正箇所抽出手段5は、満たしていない文、文の箇所および満たしていないルールを表示手段6に送る。
ステップS105で、表示手段6は、送られてきた文、文の箇所および満たしていないルールをモニタ12の画面に表示する。
そして、日本語原文章を修正する人は、モニタ12の画面に表示された内容をキーボード13およびマウスを用いて修正してデータとして入力する。
ステップS106で、修正手段7は、入力されたデータを用いて文を修正する。
ステップS107で、修正箇所抽出手段5は、取り込んだ文が日本語原文章の最後の文か否かを判断し、最後の文でないときステップS108に進み、最後の文のときステップS109に進む。
ステップS108で、修正箇所抽出手段5は、日本語原文章の次の文を取り込み、ステップS103へ戻る。
ステップS109で、出力手段8は、修正された日本語原文章を外部に出力して日本語文章修正を終了する。
このような実施の形態1に係わる日本語文章修正装置1は、機械翻訳し易い構成、用字・用語およびスタイルに関するルールが予め文章構成データベース2、用字・用語データベース3スタイルデータベース4に登録され、そのルールに基づいて日本語原文章に含まれるルールを満たさない箇所を抽出し、それに従って修正するので、制御コードを含まない機械翻訳のし易い日本語文章に修正され、汎用の日本語文章を機械翻訳するアプリケーションで機械翻訳することができる。
なお、実施の形態1に係わる日本語文章修正装置1は、日本語文章を機械翻訳するアプリケーションが実装されるパソコンと別の装置として説明したが、パソコンに日本語文章修正装置1の外部記憶装置11を装備し、パソコンに日本語文章修正するプログラムを実装することにより、修正した翻訳易文章をそのまま機械翻訳することができる。
また、パソコンに日本語文章を作成するアプリケーションを実装することにより、日本語文章の作成し修正することができるとともに、そのパソコンで機械翻訳を続けて行うことができる。
実施の形態2.
この発明の実施の形態2に係わる日本語文章修正装置は、実施の形態1に係わる日本語文章修正装置1に機械翻訳をし易いルールを満たしていないとき修正候補を文章構成データベース2、用字・用語データベース3およびスタイルデータベース4に登録されている修正候補を表示する機能が追加され、それ以外は同様であるので、同様な部分に同じ符号を付記して説明は省略する。
実施の形態2に係わる日本語文章修正装置では、修正箇所抽出手段5は、取り込んだ文がルールを満たしているか否かを判断し、ルールを満たしていないとき、表示手段6にルールを満たしていない文章構成、用字・用語またはスタイルを満たしていないルール内容と合わせて送る。さらに、ルール内容に対応して登録されている修正候補を表示手段6に送る。表示手段6は、ルールを満たしていない文章構成、用字・用語またはスタイルを受け取ったとき、モニタ12に文の該当する箇所を色を変えて表示するとともに、ルールの内容を表示する。さらに、修正候補を表示する。
そして、日本語原文章を修正する人は、モニタ12の画面に表示された内容をキーボード13およびマウスを用いて修正してデータとして入力する。このとき、修正候補が表示されているので、適切なデータを入力することができる。
この発明の実施の形態1に係わる日本語文章修正装置の機能ブロック図である。 この発明の実施の形態1に係わる日本語文章修正装置の構成図である。 文章構成データベースに登録されている機械翻訳し易い6つの文章構成に関するルールである。 用字・用語データベースに登録されている機械翻訳し易い5つの用字・用語に関するルールである。 スタイルデータベースに登録されている機械翻訳し易い3つのスタイルに関するルールである。 日本語文章修正の手順を示すフローチャートである。
符号の説明
1 日本語文章修正装置、2 文章構成データベース、3 用字・用語データベース、4 スタイルデータベース、5 修正箇所抽出手段、6 表示手段、7 修正手段、8 出力手段、10 コンピュータ、11 外部記憶装置、12 モニタ、13 キーボード。

Claims (3)

  1. 機械翻訳し易い構成に関するルールが登録された文章構成データベースと、
    機械翻訳し易い用字・用語に関するルールが登録された用字・用語データベースと、
    機械翻訳し易いスタイルに関するルールが登録されたスタイルデータベースと、
    読み込む日本語原文章から上記構成、用字・用語またはスタイルに関するルールに反する構成、用字・用語またはスタイルを抽出する修正箇所抽出手段と、
    上記抽出された構成、用字・用語またはスタイルを表示する表示手段と、
    外部から入力されたデータを用いて上記抽出された構成、用字・用語またはスタイルを訂正、追加または削除して上記日本語原文章を修正する修正手段と、
    修正により得られた翻訳易文章を出力する出力手段と、
    を有することを特徴とする日本語文章修正装置。
  2. 日本語原文章を機械翻訳し易い翻訳易文章に修正する日本語文章修正方法において、
    読み込む上記日本語原文章から翻訳し易い構成、用字・用語またはスタイルに関するルールに反する構成、用字・用語またはスタイルを抽出する修正箇所抽出ステップと、
    上記抽出された構成、用字・用語またはスタイルを表示する表示ステップと、
    外部から入力されたデータを用いて上記抽出された構成、用字・用語またはスタイルを訂正、追加または削除して上記日本語原文章を修正する修正ステップと、
    修正により得られた上記翻訳易文章を出力する出力ステップと、
    を有する日本語文章修正方法。
  3. 日本語原文章を機械翻訳し易い翻訳易文章に修正する手順をコンピュータに実行させるプログラムにおいて、
    上記コンピュータは、
    機械翻訳し易い構成に関するルールが登録された文章構成データベースと、
    機械翻訳し易い用字・用語に関するルールが登録された用字・用語データベースと、
    機械翻訳し易いスタイルに関するルールが登録されたスタイルデータベースと、
    を備え、
    上記手順は、
    読み込む上記日本語原文章から翻訳し易い構成、用字・用語またはスタイルに関するルールに反する構成、用字・用語またはスタイルを抽出する手順と、
    上記抽出された構成、用字・用語またはスタイルを表示する手順と、
    外部から入力されたデータを用いて上記抽出された構成、用字・用語またはスタイルを訂正、追加または削除して上記日本語原文章を修正する手順と、
    修正により得られた上記翻訳易文章を出力する手順と、
    を有することを特徴とするプログラム。
JP2006144158A 2006-05-24 2006-05-24 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム Pending JP2007316834A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006144158A JP2007316834A (ja) 2006-05-24 2006-05-24 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006144158A JP2007316834A (ja) 2006-05-24 2006-05-24 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム

Publications (1)

Publication Number Publication Date
JP2007316834A true JP2007316834A (ja) 2007-12-06

Family

ID=38850650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006144158A Pending JP2007316834A (ja) 2006-05-24 2006-05-24 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム

Country Status (1)

Country Link
JP (1) JP2007316834A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014001938A (ja) * 2012-06-15 2014-01-09 Toyota Motor Corp 情報提供装置、情報提供方法及び情報提供システム
CN109614623A (zh) * 2018-12-12 2019-04-12 广东小天才科技有限公司 一种基于句法分析的作文处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014001938A (ja) * 2012-06-15 2014-01-09 Toyota Motor Corp 情報提供装置、情報提供方法及び情報提供システム
CN109614623A (zh) * 2018-12-12 2019-04-12 广东小天才科技有限公司 一种基于句法分析的作文处理方法及系统

Similar Documents

Publication Publication Date Title
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
US8041557B2 (en) Word translation device, translation method, and computer readable medium
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US8005662B2 (en) Translation method, translation output method and storage medium, program, and computer used therewith
US9122674B1 (en) Use of annotations in statistical machine translation
US20160062965A1 (en) Generation of parsable data for deep parsing
EP2031490A2 (en) Electronic dictionary, search method for and electronic dictionary, and search program for an alectronic dictionary
JP4886244B2 (ja) 機械翻訳装置および機械翻訳プログラム
JP2007316834A (ja) 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム
JP2006221532A (ja) 異表記展開方法、辞書登録方法および言語解析方法ならびにプログラム
US7983899B2 (en) Apparatus for and method of analyzing chinese
JP6589704B2 (ja) 文境界推定装置、方法およびプログラム
JP2022074852A (ja) 辞書編集装置、辞書編集方法及び辞書編集プログラム
JP2002288175A (ja) 文書の標準化
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
JP7083473B2 (ja) 入力支援装置
US20240005101A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
JP2009211639A (ja) 文書処理装置
JP2009258887A (ja) 機械翻訳装置及び機械翻訳プログラム
Kanayama et al. Multilingual translation via annotated hub language
JP4881399B2 (ja) 対訳情報作成装置、機械翻訳装置及びプログラム
JP2011186507A (ja) 翻訳前換言規則生成システム、翻訳前換言規則生成方法および翻訳前換言規則生成用プログラム
JP2008102802A (ja) 文書支援システム及び文書支援プログラム
JP3692711B2 (ja) 機械翻訳装置
JP2007323250A (ja) 仮名漢字変換用辞書登録システム、仮名漢字変換用辞書登録処理方法及び仮名漢字変換用辞書登録プログラム