JP2006276917A - Document processing device and document processing method - Google Patents

Document processing device and document processing method Download PDF

Info

Publication number
JP2006276917A
JP2006276917A JP2005090228A JP2005090228A JP2006276917A JP 2006276917 A JP2006276917 A JP 2006276917A JP 2005090228 A JP2005090228 A JP 2005090228A JP 2005090228 A JP2005090228 A JP 2005090228A JP 2006276917 A JP2006276917 A JP 2006276917A
Authority
JP
Japan
Prior art keywords
character string
search
translated
translation
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005090228A
Other languages
Japanese (ja)
Inventor
Masanori Onda
昌徳 恩田
Hiroaki Ikegami
博章 池上
Katsuhiko Itonori
勝彦 糸乘
Hideaki Ashikaga
英昭 足利
Shunichi Kimura
俊一 木村
Masaki Satake
雅紀 佐竹
Masahiro Kato
雅弘 加藤
Hiroki Yoshimura
宏樹 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005090228A priority Critical patent/JP2006276917A/en
Publication of JP2006276917A publication Critical patent/JP2006276917A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a technique for preventing missing of information generated by translating it into another language without giving a user trouble. <P>SOLUTION: A CPU 16 of a document processing device 1 tries to detect a phrase registered from one sentence of text data to become a candidate of translation. When the registered phrase is detected, the CPU 16 performs modification translation process to the one sentence concerned. In specific terms, in advance to the translation of this one sentence, the CPU 16 extracts a phrase which belongs to the predetermined range from this detected phrase from the one sentence concerned. Then the CPU 16 performs the processing to insert a character string enclosing the extracted phrase with parentheses immediately after the translation word of the phrase concerned concurrently with the processing for translating the one sentence concerned into Japanese. The above translation processing is repeatedly carried out also to the subsequent sentences, and same processing is performed to the whole sentence contained in the text data. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、文書データに対して翻訳処理を実行する技術に関し、特に、翻訳処理によって生じる情報の欠落を防止する技術に関する。   The present invention relates to a technique for executing translation processing on document data, and more particularly to a technique for preventing loss of information caused by translation processing.

近年、経済活動の国際化に伴って、短時間かつローコストで文書を翻訳する方法が望まれており、この観点から注目を集めているのが、機械翻訳システムである。
この機械翻訳システムに翻訳対象となる文書データを入力する方法には種々のものが考えられるが、その中の1つとして、翻訳対象となる原稿を光学的に読み取り、読み取られた画像データから文字を認識することで文書データを入力する方法が提案されている(例えば、特許文献1参照)。
In recent years, with the internationalization of economic activities, a method for translating documents in a short time and at a low cost is desired, and a machine translation system is attracting attention from this viewpoint.
There are various methods for inputting document data to be translated into this machine translation system. One of them is to optically read a document to be translated, and to read characters from the read image data. There has been proposed a method of inputting document data by recognizing (see, for example, Patent Document 1).

この特許文献1に開示されている翻訳複写装置では、まず、画像読取手段により原画像が読み取られ、識別手段により絵柄情報と文字情報とに識別される。この識別された情報のうち、文字情報については、翻訳手段によって文字ごとに認識され、その内容が他国語に翻訳された上で原画像とともに出力される構成となっている。従って、この翻訳複写装置によれば、翻訳対象の原稿を複写するだけで、その文字情報を他言語に翻訳したハードコピーを得ることができる。
特開昭62−154845号公報
In the translation copying apparatus disclosed in Patent Document 1, first, an original image is read by an image reading unit, and is discriminated into pattern information and character information by an identification unit. Of the identified information, the character information is recognized for each character by the translation means, and the content is translated into another language and output together with the original image. Therefore, according to this translation and copying apparatus, a hard copy obtained by translating the character information into another language can be obtained simply by copying the document to be translated.
Japanese Patent Laid-Open No. 62-154845

しかしながら、上記の翻訳複写装置のように翻訳対象となる文書をただ単に翻訳するだけでは、翻訳前の語句が有している情報を漏れなく訳出させることができない場合がある。例えば、「Mr. Tanaka」や「Ms. Matsui」といった語句を日本語に翻訳する場合である。これらの語句をただ単に日本語に翻訳する場合には、それぞれ「田中さん」、「松井さん」という日本語に翻訳されてしまい、これらの日本語からは、「田中さん」、「松井さん」が男性であるのか女性であるのかを知ることができない。これは、英語から日本語に翻訳される際に、性別を判断するための情報が欠落してしまうためである。
逆に、「田中さん」や「松井さん」という語句を英語に翻訳する場合には、「Mr./Ms. Tanaka」や「Mr./Ms. Matsui」というような英語に翻訳されてしまう。これは、翻訳対象である「田中さん」や「松井さん」という語句からは、性別を判断することができないためである。
However, simply translating a document to be translated as in the above translation / copying apparatus may fail to translate the information contained in the word before translation without omission. For example, the phrase “Mr. Tanaka” or “Ms. Matsui” is translated into Japanese. If these words are simply translated into Japanese, they will be translated into Japanese, “Tanaka-san” and “Matsui-san” respectively. From these Japanese, “Tanaka-san”, “Matsui-san” Cannot know if she is male or female. This is because information for judging the gender is lost when translated from English to Japanese.
Conversely, when translating the words “Mr. Tanaka” and “Mr. Matsui” into English, they are translated into English such as “Mr./Ms. Tanaka” and “Mr./Ms. Matsui”. This is because the gender cannot be determined from the phrases “Mr. Tanaka” and “Mr. Matsui” to be translated.

本発明は上述した事情に鑑みてなされたものであり、使用者の手を煩わせることなく、他言語へ翻訳されることで生じる情報の欠落を防止する技術を提供することを目的としている。また、本発明は、他言語へ翻訳されることで情報が欠落する語句へ当該他言語の語句から翻訳を行う際に、正確な翻訳を実現する技術を提供することを目的としている。
尚、本明細書では、上述の「Mr.」や「Ms.」のように、翻訳されることで意味が縮退してしまう語句を意味縮退語とよぶことにする。
The present invention has been made in view of the above-described circumstances, and an object of the present invention is to provide a technique for preventing loss of information caused by translation into another language without bothering the user. It is another object of the present invention to provide a technique for realizing accurate translation when translating from a phrase in another language into a phrase that lacks information by being translated into another language.
In the present specification, words such as “Mr.” and “Ms.” described above are referred to as semantically degenerate words.

上述の課題を解決するために、本発明は、検索用の検索文字列を予め記憶する記憶手段と、翻訳対象となる文字列を入力する入力手段と、前記入力手段より入力された文字列から、前記記憶手段に予め記憶されている検索文字列に一致する文字列を検出する検索文字列検出手段と、前記入力手段により入力された文字列を翻訳するとともに、前記検索文字列検出手段によって検索文字列が検出された場合には、当該文字列を翻訳する際に、当該文字列の翻訳語の近傍位置に当該検索文字列を挿入する翻訳手段と、前記翻訳手段により翻訳された文字列を出力する出力手段とを有する文書処理装置を提供する。   In order to solve the above-mentioned problem, the present invention includes a storage unit that stores a search character string for search in advance, an input unit that inputs a character string to be translated, and a character string input from the input unit. , A search character string detection means for detecting a character string that matches a search character string stored in advance in the storage means, and a character string input by the input means, and a search by the search character string detection means When a character string is detected, when translating the character string, a translation unit that inserts the search character string in the vicinity of the translated word of the character string, and a character string translated by the translation unit Provided is a document processing apparatus having output means for outputting.

また本発明は、検索用の検索文字列を記憶する記憶手段と、翻訳対象となる文字列を入力する入力手段と、前記入力手段より入力された文字列から、前記記憶手段に予め記憶されている検索文字列に一致する文字列を検出する検索文字列検出手段と、前記検索文字列検出手段によって検索文字列が検出された場合に、当該検索文字列とこの文字列から所定の範囲に含まれる文字列を、当該検索文字列に対し所定の位置にある語句に対する置換用文字列として認識する置換用文字列認識手段と、前記入力手段から入力された文字列を翻訳するとともに、前記置換用文字列認識手段により認識された置換用文字列がある場合は、前記語句の訳語として置換用文字列を用いる翻訳手段と、前記翻訳手段により翻訳された文字列を出力する出力手段とを有する文書処理装置を提供する。   According to the present invention, a storage means for storing a search character string for search, an input means for inputting a character string to be translated, and a character string input from the input means are stored in advance in the storage means. A search character string detecting unit that detects a character string that matches the search character string, and when the search character string is detected by the search character string detection unit, the search character string is included in a predetermined range from the character string A replacement character string recognizing means for recognizing a character string to be read as a replacement character string for a phrase at a predetermined position with respect to the search character string, and translating the character string input from the input means, If there is a replacement character string recognized by the character string recognition means, a translation means that uses the replacement character string as a translated word of the phrase, and an output means for outputting the character string translated by the translation means; To provide a document processing apparatus having.

また本発明は、文書処理装置が、検索用の検索文字列を記憶する記憶過程と、翻訳対象となる文字列を入力する入力過程と、前記入力過程において入力された文字列から、前記記憶過程において記憶された検索文字列に一致する文字列を検出する検索文字列検出過程と、前記入力過程において入力された文字列を翻訳するとともに、前記検索文字列検出過程において検索文字列が検出された場合には、当該文字列を翻訳する際に、当該文字列の翻訳語の近傍位置に当該検索文字列を挿入する翻訳過程と、前記翻訳過程において翻訳された文字列を出力する出力過程とを実行する文書処理方法を提供する。   According to the present invention, the document processing device stores the search process from the storage process for storing the search character string, the input process for inputting the character string to be translated, and the character string input in the input process. A search character string detection process for detecting a character string that matches the search character string stored in the process, a character string input in the input process is translated, and a search character string is detected in the search character string detection process In this case, when translating the character string, a translation process for inserting the search character string in the vicinity of the translated word of the character string and an output process for outputting the character string translated in the translation process are performed. Provide a document processing method to be executed.

また本発明は、文書処理装置が、検索用の検索文字列を記憶する記憶過程と、翻訳対象となる文字列を入力する入力過程と、前記入力過程において入力された文字列から、前記記憶過程において記憶された検索文字列に一致する文字列を検出する検索文字列検出過程と、前記検索文字列検出過程において検索文字列が検出された場合に、当該検索文字列とこの文字列から所定の範囲に含まれる文字列を、当該検索文字列に対し所定の位置にある語句に対する置換用文字列として認識する置換用文字列認識過程と、前記入力過程において入力された文字列を翻訳するとともに、前記置換用文字列認識過程において認識された置換用文字列がある場合は、前記語句の訳語として置換用文字列を用いる翻訳過程と、前記翻訳過程において翻訳された文字列を出力する出力過程とを実行する文書処理方法を提供する。   According to the present invention, the document processing device stores the search process from the storage process for storing the search character string, the input process for inputting the character string to be translated, and the character string input in the input process. A search character string detecting process for detecting a character string that matches the search character string stored in the search character string, and when a search character string is detected in the search character string detection process, A replacement character string recognition process for recognizing a character string included in the range as a replacement character string for a phrase at a predetermined position with respect to the search character string, and translating the character string input in the input process, If there is a replacement character string recognized in the replacement character string recognition process, a translation process using the replacement character string as a translated word of the phrase, and a translation in the translation process To provide a document processing method for performing an output process for outputting the string.

以下、図面を参照して本発明の一実施形態について説明する。
(1)構成
図1は、本発明の第1実施形態に係る文書処理装置1の構成を示すブロック図である。
文書処理装置1は、使用者によって操作され当該使用者の指示を入力する操作部11、文書処理装置1の原稿台(図示略)にセットされた文書を光学的に読み取って画像データとして入力するスキャナ12、画像データを一時的に記憶するRAM13、RAM13に記憶されている画像データの画像を用紙上に形成し、当該用紙を文書として文書処理装置1外へ排出する印刷部14、データを記憶する不揮発性メモリ15、及び文書処理装置1の各部を制御するCPU16を有している。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
(1) Configuration FIG. 1 is a block diagram showing a configuration of a document processing apparatus 1 according to the first embodiment of the present invention.
The document processing apparatus 1 is operated by a user to input an instruction of the user, an operation unit 11, and a document set on a document table (not shown) of the document processing apparatus 1 is optically read and input as image data. Scanner 12, RAM 13 for temporarily storing image data, image of image data stored in RAM 13 is formed on paper, printing section 14 for discharging the paper as a document to outside document processing apparatus 1, and data stored And a CPU 16 for controlling each part of the document processing apparatus 1.

不揮発性メモリ15は、CPU16が文書処理装置1の各部を制御する際に用いる制御プログラムP11、文書処理装置1に後述する複写翻訳処理を実行させるために用いる複写翻訳プログラムP12、意味縮退語リストLST、及び翻訳用の辞書Dを記憶している。   The nonvolatile memory 15 includes a control program P11 that is used when the CPU 16 controls each unit of the document processing apparatus 1, a copy translation program P12 that is used to cause the document processing apparatus 1 to execute copy translation processing described later, and a semantic degenerate word list LST. And a dictionary D for translation.

図2は、意味縮退語リストLSTの一例を示す図である。図2に示すように、この意味縮退語リストLSTには、予め使用者によって意味縮退語が登録されており、後述する複写翻訳処理が実行される際にCPU16によって参照される。   FIG. 2 is a diagram illustrating an example of the semantic degenerate word list LST. As shown in FIG. 2, meaning-reduced words are registered in advance in the meaning-reduced word list LST by the user, and are referred to by the CPU 16 when a copy translation process described later is executed.

CPU16は、電源(図示略)から電力が供給されると、不揮発性メモリ15から制御プログラムP11を読み出して実行する。この結果、CPU16は文書処理装置1の各部を制御可能な状態となる。
この状態となったCPU16は、操作部11を用いて使用者より翻訳の指示が入力されると、不揮発性メモリ15から複写翻訳プログラムP12を読み出して実行する。この結果、文書処理装置1は以下のような複写翻訳処理を実行する。
まず、CPU16は、文書処理装置1の原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、この画像データをRAM13に書き込む。次にCPU16は、RAM13に記憶されている画像データからOCR(Optical Character Recognition)によってテキストデータを生成する。次にCPU16は、生成されたテキストデータを一文ずつ翻訳することにより当該テキストデータを加工する。この際、当該テキストデータ中に意味縮退語リストLSTに登録されている語句が含まれている場合には、当該検出された語句の有する情報を正確に翻訳文に反映させるための加工翻訳処理が実行される。次に、CPU16は、加工後のテキストデータから画像データを生成し、当該画像データの画像を印刷部14を用いて用紙上に形成し、当該用紙を文書処理装置1外へ排出する。
When power is supplied from a power source (not shown), the CPU 16 reads the control program P11 from the nonvolatile memory 15 and executes it. As a result, the CPU 16 can control each part of the document processing apparatus 1.
In this state, the CPU 16 reads the copy translation program P12 from the non-volatile memory 15 and executes it when a translation instruction is input from the user using the operation unit 11. As a result, the document processing apparatus 1 executes the following copy / translation process.
First, the CPU 16 optically reads a document set on the document table of the document processing apparatus 1 by the scanner 12 and inputs it as image data, and writes the image data in the RAM 13. Next, the CPU 16 generates text data from the image data stored in the RAM 13 by OCR (Optical Character Recognition). Next, the CPU 16 processes the text data by translating the generated text data one sentence at a time. At this time, if the text data includes a word or phrase registered in the semantic degenerate word list LST, a processed translation process for accurately reflecting the information of the detected word or phrase in the translated sentence is performed. Executed. Next, the CPU 16 generates image data from the processed text data, forms an image of the image data on a sheet using the printing unit 14, and discharges the sheet to the outside of the document processing apparatus 1.

(2)動作
(2‐1)動作例1
次に、本実施形態に係る文書処理装置1を用いて、英語で記載された文書を日本語に翻訳する場合について説明する。
尚、以下の説明では、意味縮退語リストLSTには、図2に示す内容が登録されているものとする。
(2) Operation (2-1) Operation example 1
Next, a case where a document written in English is translated into Japanese using the document processing apparatus 1 according to the present embodiment will be described.
In the following description, it is assumed that the contents shown in FIG. 2 are registered in the semantic degenerate word list LST.

まず使用者が、図3に示す英語の文書を文書処理装置1の原稿台にセットし、操作部11を用いて翻訳の指示を入力すると、CPU16は、当該文書に対する複写翻訳処理を開始する。   First, when the user sets an English document shown in FIG. 3 on the manuscript table of the document processing apparatus 1 and inputs an instruction for translation using the operation unit 11, the CPU 16 starts a copy translation process for the document.

図4は、本動作例に係る複写翻訳処理を示すフローチャートである。
まず、CPU16は、原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、この画像データをRAM13に書き込む(ステップSA1)。次にCPU16は、RAM13に記憶されている画像データからOCRによってテキストデータを生成する(ステップSA2)。
FIG. 4 is a flowchart showing a copy translation process according to this operation example.
First, the CPU 16 optically reads a document set on the platen by the scanner 12, inputs it as image data, and writes this image data in the RAM 13 (step SA1). Next, the CPU 16 generates text data by OCR from the image data stored in the RAM 13 (step SA2).

次にCPU16は、生成されたテキストデータに対して翻訳処理を実行する(ステップSA3)。この翻訳処理では、不揮発性メモリ15に記憶されている辞書Dが参照され、テキストデータの翻訳が一文ずつ実行される。以下、この翻訳処理について図5を参照して説明する。
まずCPU16は、翻訳対象となる一文から、意味縮退語リストLSTに登録されている語句の検出を試みる(ステップSB1)。図4に示す文書には、意味縮退語リストLSTに登録されている「Mr.」及び「Ms.」が含まれているため、CPU16は、この「Mr.」及び「Ms.」を検出する(ステップSB1:YES)。意味縮退語が検出された場合には、CPU16は、当該一文に対して加工翻訳処理を実行する(ステップSB2)。具体的には、まずCPU16は、この一文の翻訳に先立ち、検出された「Mr.」及び「Ms.」とこれらの語句から所定の範囲に属する語句を当該一文から抽出する。この所定の範囲は、使用者によって設定可能であり、この実施形態では、検出された語句とこの語句に後続する一単語を含む範囲に設定されているものとする。従って、図4に示す文書の場合では、「Mr. Tanaka」と「Ms. Matsui」がその抽出対象となる。
次にCPU16は、当該一文を日本語へ翻訳する処理と並行して、抽出された「Mr. Tanaka」及び「Ms. Matsui」をそれぞれ括弧で囲んだ文字列を、当該語句の各翻訳語の直後に挿入する、という処理を実行する。尚、当該語句の挿入位置は、翻訳語の直前であってもよいし、翻訳語の下方でもよい。要は、翻訳語の近傍位置であればよい。
Next, the CPU 16 performs a translation process on the generated text data (step SA3). In this translation process, the dictionary D stored in the non-volatile memory 15 is referred to, and the text data is translated sentence by sentence. Hereinafter, this translation processing will be described with reference to FIG.
First, the CPU 16 tries to detect a word / phrase registered in the semantic degenerate word list LST from one sentence to be translated (step SB1). Since the document shown in FIG. 4 includes “Mr.” and “Ms.” registered in the semantic degenerate word list LST, the CPU 16 detects “Mr.” and “Ms.”. (Step SB1: YES). When a semantically degenerate word is detected, the CPU 16 executes a processed translation process on the sentence (step SB2). Specifically, first, the CPU 16 extracts “Mr.” and “Ms.” and words / phrases belonging to a predetermined range from these words / phrases before translation of the sentence / sentences. This predetermined range can be set by the user, and in this embodiment, it is assumed that the predetermined range is set to a range including the detected word and one word following the word. Therefore, in the case of the document shown in FIG. 4, “Mr. Tanaka” and “Ms. Matsui” are extracted.
Next, in parallel with the process of translating the sentence into Japanese, the CPU 16 converts the extracted strings “Mr. Tanaka” and “Ms. Matsui” into parentheses for each translated word of the phrase. The process of inserting immediately after is executed. The insertion position of the word may be immediately before the translated word or below the translated word. In short, it may be in the vicinity of the translated word.

一方、翻訳対象となる一文から、意味縮退語リストLSTに登録されている語句が検出されない場合には(ステップSB1:NO)、通常の翻訳処理が当該一文に対して実行される(ステップSB3)。
以上の翻訳処理は後続する文にも繰り返し実行され、テキストデータに含まれる全文に対して同処理が実行されると(ステップSB4:YES)、CPU16は、翻訳処理を終了する。
On the other hand, when a word registered in the semantically degenerate word list LST is not detected from one sentence to be translated (step SB1: NO), a normal translation process is executed on the one sentence (step SB3). .
The above translation processing is repeatedly executed for subsequent sentences. When the same processing is executed for all sentences included in the text data (step SB4: YES), the CPU 16 ends the translation processing.

次にCPU16は、翻訳処理の結果として得られたテキストデータから画像データを生成し、RAM13に上書きする(ステップSA4、図4)。この結果、RAM13に記憶されている画像データは図6に示す文書の画像データとなる。次にCPU16は、印刷部14を用いて、生成された画像データの画像を用紙上に形成し、当該用紙を文書処理装置1外へ排出する(ステップSA5)。   Next, the CPU 16 generates image data from the text data obtained as a result of the translation process, and overwrites the RAM 13 (step SA4, FIG. 4). As a result, the image data stored in the RAM 13 becomes the image data of the document shown in FIG. Next, the CPU 16 forms an image of the generated image data on a sheet using the printing unit 14, and discharges the sheet to the outside of the document processing apparatus 1 (step SA5).

このように本実施形態の文書処理装置1によれば、意味縮退語が他言語へ翻訳される際に、当該意味縮退語がその翻訳語の直後に自動的に挿入されるため、使用者の手を煩わせることなく、翻訳処理によって生じる情報の欠落を防止することができる。   As described above, according to the document processing apparatus 1 of the present embodiment, when a semantically degenerate word is translated into another language, the semantically degenerate word is automatically inserted immediately after the translated word. The loss of information caused by the translation process can be prevented without trouble.

(2‐2)動作例2
次に、本実施形態に係る文書処理装置1を用いて、日本語で記載された文書を英語に翻訳する場合について説明する。
尚、以下の説明では、意味縮退語リストLSTには、図2に示す内容が登録されているものとする。
(2-2) Operation example 2
Next, a case where a document written in Japanese is translated into English using the document processing apparatus 1 according to the present embodiment will be described.
In the following description, it is assumed that the contents shown in FIG. 2 are registered in the semantic degenerate word list LST.

まず使用者が、図7に示す日本語の文書を文書処理装置1の原稿台にセットし、操作部11を用いて翻訳の指示を入力すると、CPU16は、当該文書に対する複写翻訳処理を開始する。この文書に記載されている日本語の語句には、図7に示すように、当該語句の翻訳語が括弧書きで付記されているものとする。ただし、この翻訳語を囲む記号は図7に示すような丸括弧に限らずその他の記号であってもよいし、そもそもこの翻訳語を記号で囲まなくともよい。   First, when the user sets a Japanese document shown in FIG. 7 on the manuscript table of the document processing apparatus 1 and inputs a translation instruction using the operation unit 11, the CPU 16 starts a copy translation process for the document. . As shown in FIG. 7, it is assumed that the translated word of the word is appended in parentheses to the Japanese word or phrase described in this document. However, the symbols surrounding the translated word are not limited to the parentheses as shown in FIG. 7, and may be other symbols.

以下、図4を参照して本動作例に係る複写翻訳処理について説明する。
まずCPU16は、原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、この画像データをRAM13に書き込む(ステップSA1)。次にCPU16は、RAM13に記憶されている画像データからOCRによってテキストデータを生成する(ステップSA2)。
Hereinafter, the copy translation process according to this operation example will be described with reference to FIG.
First, the CPU 16 optically reads a document set on the platen by the scanner 12, inputs it as image data, and writes this image data in the RAM 13 (step SA1). Next, the CPU 16 generates text data by OCR from the image data stored in the RAM 13 (step SA2).

次にCPU16は、生成されたテキストデータに対して翻訳処理を実行する(ステップSA3)。この翻訳処理では、不揮発性メモリ15に記憶されている辞書Dが参照され、テキストデータの翻訳が一文ずつ実行される。以下、この翻訳処理について図5を参照して説明する。
まずCPU16は、翻訳対象となる一文から、意味縮退語リストLSTに登録されている語句であり、且つ括弧で囲まれた語句の検出を試みる(ステップSB1)。図7に示す文書には、意味縮退語リストLSTに登録されている「Mr.」及び「Ms.」が含まれているため、CPU16は、この「Mr.」及び「Ms.」を検出する(ステップSB1:YES)。このように意味縮退語が検出された場合には、CPU16は、当該一文に対して加工翻訳処理を実行する(ステップSB2)。具体的には、まずCPU16は、検出した各語句について、当該語句を囲む括弧に含まれる語句を抽出する、という処理を実行する。この図7に示す文書の場合では、「Mr. Tanaka」と「Ms. Matsui」がその抽出対象となる。次にCPU16は、これらの抽出された語句について、それぞれの当該語句から所定の位置にある語句と置き換える、という処理を実行する。図7に示す文書の場合では、まず「田中さん」が「Mr. Tanaka」に置き換えられ、さらに「松井さん」が「Ms. Matsui」に置き換えられることになる。この置き換え処理が完了すると、CPU16は、当該一文を英語に翻訳する処理を行う。
Next, the CPU 16 performs a translation process on the generated text data (step SA3). In this translation process, the dictionary D stored in the non-volatile memory 15 is referred to, and the text data is translated sentence by sentence. Hereinafter, this translation processing will be described with reference to FIG.
First, the CPU 16 tries to detect a word / phrase registered in the semantic degenerate word list LST and enclosed in parentheses from a sentence to be translated (step SB1). Since the document shown in FIG. 7 includes “Mr.” and “Ms.” registered in the semantic degenerate word list LST, the CPU 16 detects “Mr.” and “Ms.”. (Step SB1: YES). When a semantically degenerate word is detected in this way, the CPU 16 executes a processed translation process for the sentence (step SB2). Specifically, first, the CPU 16 performs a process of extracting a phrase included in parentheses surrounding the detected phrase for each detected phrase. In the case of the document shown in FIG. 7, “Mr. Tanaka” and “Ms. Matsui” are extracted. Next, the CPU 16 executes a process of replacing these extracted words / phrases with words / phrases located at predetermined positions from the respective words / phrases. In the case of the document shown in FIG. 7, “Mr. Tanaka” is first replaced with “Mr. Tanaka”, and “Ms. Matsui” is replaced with “Ms. Matsui”. When the replacement process is completed, the CPU 16 performs a process of translating the sentence into English.

一方、翻訳対象となる一文から、意味縮退語リストLSTに登録されている語句が検出されない場合には(ステップSB1:NO)、通常の翻訳処理が当該一文に対して実行される(ステップSB3)。
以上の翻訳処理は後続する文にも繰り返し実行され、テキストデータに含まれる全文に対して同処理が実行されると(ステップSB4:YES)、CPU16は、翻訳処理を終了する。
On the other hand, when a word registered in the semantically degenerate word list LST is not detected from one sentence to be translated (step SB1: NO), a normal translation process is executed on the one sentence (step SB3). .
The above translation processing is repeatedly executed for subsequent sentences. When the same processing is executed for all sentences included in the text data (step SB4: YES), the CPU 16 ends the translation processing.

次にCPU16は、翻訳処理の結果として得られたテキストデータから画像データを生成し、RAM13に上書きする(ステップSA4、図4)。この結果、RAM13に記憶されている画像データは図8に示す文書の画像データとなる。次にCPU16は、印刷部14を用いて、生成された画像データの画像を用紙上に形成し、当該用紙を文書処理装置1外へ排出する(ステップSA5)。   Next, the CPU 16 generates image data from the text data obtained as a result of the translation process, and overwrites the RAM 13 (step SA4, FIG. 4). As a result, the image data stored in the RAM 13 becomes the image data of the document shown in FIG. Next, the CPU 16 forms an image of the generated image data on a sheet using the printing unit 14, and discharges the sheet to the outside of the document processing apparatus 1 (step SA5).

このように本実施形態の文書処理装置1によれば、他言語で記載された文書を意味縮退語に翻訳する際に、当該文書の所定の位置に記載された意味縮退語とその翻訳文とを置き換えた上で自動的に翻訳処理を行うため、使用者の手を煩わせることなく、翻訳処理によって生じる情報の欠落を防止することができる。   As described above, according to the document processing apparatus 1 of the present embodiment, when a document written in another language is translated into a semantic degenerate word, the semantic degenerate word described in a predetermined position of the document, its translation sentence, Since the translation process is automatically performed after replacing the information, it is possible to prevent the loss of information caused by the translation process without bothering the user.

(3)変形例
本発明の実施の形態は、以下に述べるように変形してもよい。
例えば、上述の実施形態の説明では、意味縮退語リストLSTに予め意味縮退語が登録されているものとして説明を行っているが、文書処理装置1に複写登録プログラムをもたせ、意味縮退語を記載した文書を文書処理装置1を用いて複写することによって意味縮退語を登録してもよい。以下、この登録処理方法について説明する。
まず、文書処理装置1のCPU16は、操作部11を用いて複写の指示が入力されると、不揮発性メモリ15から複写登録プログラムを読み出して実行する。この複写登録処理では、CPU16は、文書処理装置1の原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、RAM13に書き込む。ここで読み取られる文書には、使用者が登録を希望する意味縮退語が所定の形式に従って記載されているものとする。次に、CPU16は、RAM13に記憶されている画像データから意味縮退語を抽出し意味縮退語リストLSTに登録する処理と、印刷部14を用いて、当該画像データの画像を用紙上に形成して当該用紙文書処理装置1外へ排出する処理を並列に実行する。
この結果、文書を複写するだけで、意味縮退語リストLSTに意味縮退語を登録することができる。
(3) Modifications Embodiments of the present invention may be modified as described below.
For example, in the description of the above-described embodiment, the description has been made assuming that the semantic degenerate word is registered in the semantic degenerate word list LST in advance. However, the document processing apparatus 1 is provided with a copy registration program and the semantic degenerate word is described. The semantically degenerate word may be registered by copying the document using the document processing apparatus 1. Hereinafter, this registration processing method will be described.
First, when a copy instruction is input using the operation unit 11, the CPU 16 of the document processing apparatus 1 reads out and executes a copy registration program from the nonvolatile memory 15. In this copy registration process, the CPU 16 optically reads a document set on the document table of the document processing apparatus 1 by the scanner 12, inputs it as image data, and writes it in the RAM 13. In the document read here, it is assumed that a semantic degenerate word that the user desires to register is written according to a predetermined format. Next, the CPU 16 uses the printing unit 14 to form an image of the image data on a sheet by extracting the semantically degenerate word from the image data stored in the RAM 13 and registering it in the semantic degenerate word list LST. Thus, processing for discharging the paper document processing apparatus 1 to the outside is executed in parallel.
As a result, by simply copying the document, the semantically degenerate word can be registered in the semantically degenerate word list LST.

また、上述の実施形態では、英語から日本語に翻訳される場合と、逆に日本語から英語に翻訳する場合を例に本発明の適用例について説明しているが、本発明によって翻訳される翻訳語及び被翻訳語は、これらの言語に限らず、いずれの言語であってもよい。   Further, in the above-described embodiment, the application example of the present invention has been described by taking the case of translating from English to Japanese and vice versa. However, the present invention is translated by the present invention. The translated word and the translated word are not limited to these languages, and may be any language.

また、文書処理装置1は、複写機として機能する装置に限らず、文書を光学的に読み取って画像データを出力するスキャナ装置や、文書を光学的に読み取って画像データを送信するファクシミリ装置、又は文書の画像データを入力して文書を印刷するプリンタであってもよい。
また、文書処理装置1は、文書のテキストデータを入力して翻訳後のテキストデータを返信する翻訳装置として機能する装置であってもよい。
The document processing device 1 is not limited to a device that functions as a copying machine, but a scanner device that optically reads a document and outputs image data, a facsimile device that optically reads a document and transmits image data, or It may be a printer that inputs image data of a document and prints the document.
Further, the document processing apparatus 1 may be an apparatus that functions as a translation apparatus that inputs text data of a document and sends back translated text data.

また、上述の動作例1の翻訳処理に関する説明では、検出された意味縮退語と当該語句から所定の範囲に属する語句とが抽出され、当該意味縮退語の翻訳語の直後に挿入されるものとして説明を行っているが、抽出及び挿入される語句は意味縮退語のみでもよい。例えば、動作例1を例にとると、意味縮退語リストLSTに登録されている「Mr.」及び「Ms.」のみが抽出され、これらの語句の翻訳語である「さん」の直後に挿入されることになる。その結果、翻訳後の一文は、「田中さん(Mr.)と松井さん(Ms.)」となる。   Further, in the description related to the translation processing of the operation example 1 described above, it is assumed that the detected semantic degenerate word and the phrase belonging to the predetermined range are extracted from the word and inserted immediately after the translated word of the semantic degenerate word. Although the explanation is given, the extracted and inserted words may be only semantically degenerate words. For example, taking operation example 1 as an example, only "Mr." and "Ms." registered in the semantically degenerate word list LST are extracted and inserted immediately after "san", which is the translated word of these phrases. Will be. As a result, one sentence after translation becomes “Mr. Tanaka (Mr.) and Ms. Matsui (Ms.)”.

また、上述の動作例2の翻訳処理に関する説明では、検出された意味縮退語と当該語句を囲む括弧に含まれる語句を抽出し、この抽出された語句と、当該語句から所定の範囲に属する語句とを置き換えるものとして説明を行ったが、この置換対象となった語句の組を置換語句リストとして文書処理装置1に登録させ、次回以降の翻訳処理においては、当該置換語句リストを参照して置換処理を実行するようにしてもよい。図9は、この置換語句リストの一例を示す図である。
この構成によれば、一度置換処理が行われた語句については、置換語句リストを参照することで置換語句が特定されるため、図7に示すように日本語の語句の後に当該語句の翻訳語を付記せずとも、正確な翻訳を実現することができる。
Further, in the description related to the translation processing of the above-described operation example 2, the detected semantically degenerate word and the phrase included in parentheses surrounding the phrase are extracted, and the extracted phrase and the phrase belonging to a predetermined range from the phrase In the above description, the document processing apparatus 1 is registered with the word / phrase group to be replaced as a replacement word list, and the replacement process is performed by referring to the replacement word / phrase list in the subsequent translation processing. Processing may be executed. FIG. 9 is a diagram illustrating an example of the replacement phrase list.
According to this configuration, for a word / phrase that has been replaced once, the replacement word / phrase is specified by referring to the replacement word / phrase list, so that the translated word of the word / phrase after the Japanese word / phrase as shown in FIG. Accurate translation can be realized without adding.

本発明の一実施形態に係る文書処理装置1の構成を示すブロック図である。It is a block diagram which shows the structure of the document processing apparatus 1 which concerns on one Embodiment of this invention. 文書処理装置1内の意味縮退語リストLSTの一例を示す図である。It is a figure which shows an example of the semantic degenerate word list LST in the document processing apparatus. 文書処理装置1に入力される文書の一例を示す図である。3 is a diagram illustrating an example of a document input to the document processing apparatus 1. FIG. 文書処理装置1が行う複写翻訳処理を示すフローチャートである。4 is a flowchart showing a copy / translation process performed by the document processing apparatus 1; 文書処理装置1が行う翻訳処理を示すフローチャートである。It is a flowchart which shows the translation process which the document processing apparatus 1 performs. 文書処理装置1により形成される文書の一例を示す図である。3 is a diagram illustrating an example of a document formed by the document processing apparatus 1. FIG. 文書処理装置1に入力される文書の一例を示す図である。3 is a diagram illustrating an example of a document input to the document processing apparatus 1. FIG. 文書処理装置1により形成される文書の一例である。2 is an example of a document formed by the document processing apparatus 1; 本発明の一変形例に係る語句置換リストの一例を示す図である。It is a figure which shows an example of the phrase replacement list which concerns on one modification of this invention.

符号の説明Explanation of symbols

1…文書処理装置、11…操作部、12…スキャナ、13…RAM、14…印刷部、15…不揮発性メモリ、16…CPU、D…辞書、LST…意味縮退語リスト、P11…制御プログラム、P12…複写翻訳プログラム。 DESCRIPTION OF SYMBOLS 1 ... Document processing apparatus, 11 ... Operation part, 12 ... Scanner, 13 ... RAM, 14 ... Printing part, 15 ... Nonvolatile memory, 16 ... CPU, D ... Dictionary, LST ... Semantic degenerate word list, P11 ... Control program, P12: Copy translation program.

Claims (4)

検索用の検索文字列を予め記憶する記憶手段と、
翻訳対象となる文字列を入力する入力手段と、
前記入力手段より入力された文字列から、前記記憶手段に予め記憶されている検索文字列に一致する文字列を検出する検索文字列検出手段と、
前記入力手段により入力された文字列を翻訳するとともに、前記検索文字列検出手段によって検索文字列が検出された場合には、当該文字列を翻訳する際に、当該文字列の翻訳語の近傍位置に当該検索文字列を挿入する翻訳手段と、
前記翻訳手段により翻訳された文字列を出力する出力手段と
を有する文書処理装置。
Storage means for storing a search character string for search in advance;
An input means for inputting a character string to be translated;
Search character string detection means for detecting a character string that matches a search character string stored in advance in the storage means from a character string input from the input means;
When the character string input by the input means is translated and the search character string is detected by the search character string detection means, when the character string is translated, the position near the translated word of the character string A translation means for inserting the search character string into
A document processing apparatus comprising: output means for outputting a character string translated by the translation means.
検索用の検索文字列を記憶する記憶手段と、
翻訳対象となる文字列を入力する入力手段と、
前記入力手段より入力された文字列から、前記記憶手段に予め記憶されている検索文字列に一致する文字列を検出する検索文字列検出手段と、
前記検索文字列検出手段によって検索文字列が検出された場合に、当該検索文字列とこの文字列から所定の範囲に含まれる文字列を、当該検索文字列に対し所定の位置にある語句に対する置換用文字列として認識する置換用文字列認識手段と、
前記入力手段から入力された文字列を翻訳するとともに、前記置換用文字列認識手段により認識された置換用文字列がある場合は、前記語句の訳語として置換用文字列を用いる翻訳手段と、
前記翻訳手段により翻訳された文字列を出力する出力手段と
を有する文書処理装置。
Storage means for storing a search character string for search;
An input means for inputting a character string to be translated;
Search character string detection means for detecting a character string that matches a search character string stored in advance in the storage means from a character string input from the input means;
When a search character string is detected by the search character string detection means, the search character string and a character string included in a predetermined range from the character string are replaced with a phrase at a predetermined position with respect to the search character string A replacement character string recognition means for recognizing as a character string,
Translating the character string input from the input means, and if there is a replacement character string recognized by the replacement character string recognition means, a translation means using a replacement character string as a translated word of the phrase;
A document processing apparatus comprising: output means for outputting a character string translated by the translation means.
文書処理装置が、
検索用の検索文字列を記憶する記憶過程と、
翻訳対象となる文字列を入力する入力過程と、
前記入力過程において入力された文字列から、前記記憶過程において記憶された検索文字列に一致する文字列を検出する検索文字列検出過程と、
前記入力過程において入力された文字列を翻訳するとともに、前記検索文字列検出過程において検索文字列が検出された場合には、当該文字列を翻訳する際に、当該文字列の翻訳語の近傍位置に当該検索文字列を挿入する翻訳過程と、
前記翻訳過程において翻訳された文字列を出力する出力過程と
を実行する文書処理方法。
The document processing device
A storage process for storing a search character string for search;
An input process for inputting a character string to be translated;
A search character string detection step of detecting a character string matching the search character string stored in the storage step from the character string input in the input step;
When the character string input in the input process is translated and the search character string is detected in the search character string detection process, when the character string is translated, the position near the translated word of the character string The translation process of inserting the search string into
And a document processing method for executing an output process of outputting a character string translated in the translation process.
文書処理装置が、
検索用の検索文字列を記憶する記憶過程と、
翻訳対象となる文字列を入力する入力過程と、
前記入力過程において入力された文字列から、前記記憶過程において記憶された検索文字列に一致する文字列を検出する検索文字列検出過程と、
前記検索文字列検出過程において検索文字列が検出された場合に、当該検索文字列とこの文字列から所定の範囲に含まれる文字列を、当該検索文字列に対し所定の位置にある語句に対する置換用文字列として認識する置換用文字列認識過程と、
前記入力過程において入力された文字列を翻訳するとともに、前記置換用文字列認識過程において認識された置換用文字列がある場合は、前記語句の訳語として置換用文字列を用いる翻訳過程と、
前記翻訳過程において翻訳された文字列を出力する出力過程と
を実行する文書処理方法。
The document processing device
A storage process for storing a search character string for search;
An input process for inputting a character string to be translated;
A search character string detection step of detecting a character string matching the search character string stored in the storage step from the character string input in the input step;
When a search character string is detected in the search character string detection process, the search character string and a character string included in a predetermined range from the character string are replaced with a phrase at a predetermined position with respect to the search character string A replacement character string recognition process to be recognized as a character string;
Translating the character string input in the input process and, if there is a replacement character string recognized in the replacement character string recognition process, a translation process using a replacement character string as a translated word of the phrase;
And a document processing method for executing an output process of outputting a character string translated in the translation process.
JP2005090228A 2005-03-25 2005-03-25 Document processing device and document processing method Pending JP2006276917A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005090228A JP2006276917A (en) 2005-03-25 2005-03-25 Document processing device and document processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005090228A JP2006276917A (en) 2005-03-25 2005-03-25 Document processing device and document processing method

Publications (1)

Publication Number Publication Date
JP2006276917A true JP2006276917A (en) 2006-10-12

Family

ID=37211668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005090228A Pending JP2006276917A (en) 2005-03-25 2005-03-25 Document processing device and document processing method

Country Status (1)

Country Link
JP (1) JP2006276917A (en)

Similar Documents

Publication Publication Date Title
JP4311365B2 (en) Document processing apparatus and program
JP5372110B2 (en) Information output device, information output method, and computer program
JPH07210558A (en) Machine translation device
JP2006277103A (en) Document translating method and its device
JP2006276911A (en) Electronic equipment and program
JP2006276915A (en) Translating processing method, document translating device and program
US7623716B2 (en) Language translation device, image processing apparatus, image forming apparatus, language translation method and storage medium
JP4947861B2 (en) Natural language processing apparatus, control method therefor, and program
US9529792B2 (en) Glossary management device, glossary management system, and recording medium for glossary generation
JP2006252048A (en) Translation device, translation program and translation method
JP2006276903A (en) Document processing device
JP4720309B2 (en) Document reading system
JP2006276905A (en) Translation device, image processing device, image forming device, and translation method and program
JP2007052613A (en) Translation device, translation system and translation method
JP2006276917A (en) Document processing device and document processing method
US20050251743A1 (en) Learning apparatus, program therefor and storage medium
JP2006252164A (en) Chinese document processing device
JP4424056B2 (en) Document processing apparatus and program
JP2007087056A (en) Translation device and program
RU172882U1 (en) DEVICE FOR AUTOMATIC TEXT TRANSLATION
JP2005339039A (en) Document processor and document processing method
Sudarma et al. Transliteration Balinese Latin Text Becomes Aksara Bali Using Rule Base And Levenshtein Distance Approach
JP4645065B2 (en) Document processing apparatus and program
JP2009205209A (en) Document image processor and document image processing program
JP2004199483A (en) Image output apparatus