JP2007087189A - Translation device and program - Google Patents

Translation device and program Download PDF

Info

Publication number
JP2007087189A
JP2007087189A JP2005276286A JP2005276286A JP2007087189A JP 2007087189 A JP2007087189 A JP 2007087189A JP 2005276286 A JP2005276286 A JP 2005276286A JP 2005276286 A JP2005276286 A JP 2005276286A JP 2007087189 A JP2007087189 A JP 2007087189A
Authority
JP
Japan
Prior art keywords
index
translation
document
index part
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005276286A
Other languages
Japanese (ja)
Inventor
Masatoshi Tagawa
昌俊 田川
Michihiro Tamune
道弘 田宗
Kiyoshi Tashiro
潔 田代
Hiroshi Masuichi
博 増市
Kyosuke Ishikawa
恭輔 石川
Atsushi Ito
篤 伊藤
Naoko Sato
直子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005276286A priority Critical patent/JP2007087189A/en
Publication of JP2007087189A publication Critical patent/JP2007087189A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an inexpensive easy-to-use translation device translating and outputting a necessary part alone. <P>SOLUTION: This translation device is provided with an image input part 12 inputting image data including a translation source document, a translation part 14 performing translation of a character recognition result of the image data, an output part 15 outputting a translation result, and a control part 18 controlling the respective parts. The control part 18 carries out a primary output process, in which only an index part in the translation source document is extracted and an index list showing its translation sentence is outputted, and a secondary output process, in which main text corresponding to the index part selected from the index list by the user is translated and outputted. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、機械翻訳を用いて、ユーザが求める内容の翻訳を行う翻訳装置に関する。   The present invention relates to a translation apparatus that translates content requested by a user using machine translation.

国際的なビジネスの発展と、通信ネットワークの広がりにより、多くの情報が、原語で入手可能になってきている。そして、それらの情報を有効に利用することは、個人的なレベルでも、社会的なレベルでも重要性を増しつつある。しかしながら、そのような情報の利用は、他国の言語による多くの情報の中から、必要なあるいは興味のある情報を選択するという困難な作業を伴う。   With the development of international business and the spread of communication networks, a lot of information has become available in the original language. And the effective use of such information is becoming increasingly important at both the personal and social levels. However, the use of such information involves a difficult task of selecting necessary or interesting information from a lot of information in other languages.

このような場合に、コンピュータによる機械翻訳を用いることが考えられる。実際に、外国語情報を定常的に機械翻訳し、利用者に利用できる状態で提供することは、多くの組織や、インターネットのようなオープンな領域でも日常的に行われていることである。しかしながら、このようにして提供される情報は、多数の利用者に共通の関心が有る情報に限定されることが一般的である。   In such a case, it is conceivable to use machine translation by a computer. In fact, routine machine translation of foreign language information and providing it in a state where it can be used by users is a common practice in many organizations and in open areas such as the Internet. However, the information provided in this way is generally limited to information that has a common interest among many users.

個別のユーザに対して、機械翻訳による翻訳サービスを行うシステムも既に存在する。ユーザは、このような翻訳サービスを、所定の外国語情報の中から自分が必要とする情報を収集する目的で利用することができる。しかしながら、不必要な情報を翻訳しても、役に立たないばかりか、翻訳コストが大きくなりまた、翻訳後であっても、多くの情報から必要な情報を探すために時間を要する。
例えば、特許文献1には、翻訳対象の文章に以前に翻訳した文章と同一部分があった場合には、過去の翻訳文を利用することによって無駄な翻訳作業を行うことを回避し翻訳コストを低減させる技術が開示されているが、このような技術を用いたとしても、個別のユーザに対して不必要と判断される情報の翻訳を回避することは不可能である。
特開平3−282965号公報
There are already systems for providing translation services by machine translation for individual users. The user can use such a translation service for the purpose of collecting information he / she needs from predetermined foreign language information. However, translating unnecessary information is not only useful, but also increases translation costs, and it takes time to search for necessary information from a large amount of information even after translation.
For example, in Patent Document 1, when a sentence to be translated has the same part as a sentence that has been previously translated, it is possible to avoid unnecessary translation work by using a past translation sentence, thereby reducing the translation cost. Although a technique for reducing is disclosed, even if such a technique is used, it is impossible to avoid translation of information judged to be unnecessary for individual users.
Japanese Patent Laid-Open No. 3-282965

本発明は、前記事情に鑑みて為されたもので、翻訳元文書の中から、必要と判断される部分のみ、手軽にかつ低コストで翻訳して出力することを可能にする技術を提供することを目的とする。   The present invention has been made in view of the above circumstances, and provides a technique that enables easy and low-cost translation and output of only a portion determined to be necessary from a translation source document. For the purpose.

上記課題を解決するために、本発明は、文書を表す文書画像データが入力される入力手段と、前記入力手段へ入力された文書画像データにレイアウト解析を施し、その文書画像データの表す文書のインデックス部とそのインデックス部に対応する本文とを抽出する抽出手段と、前記抽出手段により抽出されたインデックス部とそのインデックスに対応する本文とを互いに対応付けて記憶する記憶手段と、前記記憶手段に記憶されているインデックス部を予め指定された翻訳先言語へ翻訳し、その翻訳結果をリスト形式に配列して為るインデックスリストを出力する一方、そのインデックスリストに配列されているインデックス部の翻訳文うちでユーザにより選択されたインデックス部を特定する特定手段と、前記特定手段により特定されたインデックス部に対応する本文を前記記憶手段から読み出し、前記翻訳先言語へ翻訳して出力する出力手段と、を有することを特徴とする翻訳装置を提供する。   In order to solve the above-described problems, the present invention provides an input unit that receives document image data representing a document, and performs layout analysis on the document image data that is input to the input unit. Extracting means for extracting an index part and a text corresponding to the index part; storage means for storing the index part extracted by the extracting means and the text corresponding to the index in association with each other; and The stored index part is translated into a pre-designated target language and the result of the translation is arranged in a list format. While the index list is output, the translated text of the index part arranged in the index list A specifying means for specifying the index portion selected by the user, and an identifier specified by the specifying means. Reading the text that corresponds to the index unit from said storage means, to provide a translation apparatus characterized by and an output means for outputting the translated into the target language.

このような翻訳装置によれば、翻訳元文書中のインデックス部のみの翻訳文がリスト形式で配列されたインデックスリストが出力さえ、そのインデックスリストに配列されているインデックス部のうちでユーザによって選択されたインデックス部に対応する本文のみが翻訳されて出力される。これにより、翻訳作業量を軽減してコストを低減しつつ、ユーザに必要な情報のみを簡便に選択して翻訳することが可能になる。   According to such a translation apparatus, even an output of an index list in which translated sentences of only the index part in the translation source document are arranged in a list format is selected by the user from among the index parts arranged in the index list. Only the text corresponding to the index part is translated and output. This makes it possible to easily select and translate only the information necessary for the user while reducing the translation work amount and reducing the cost.

より好ましい態様においては、前記インデックスリストには、インデックス部の翻訳文の各々に所定のアノーテーションマークが付されており、前記特定手段は、所定のチェックマークが前記アノーテーションマークに付されているか否かを判定し、前記チェックマークが付されている場合に、そのアノーテーションマークに対応するインデックス部を前記ユーザにより選択されたと特定することを特徴とすることを特徴とする。
このような態様においては、ユーザから翻訳装置への選択指示が、インデックス部の翻訳文に付されたアノーテーションマークを介して行われるので、作業が容易かつ確実になされる。
In a more preferred aspect, in the index list, a predetermined annotation mark is attached to each translated sentence of the index portion, and the specifying means is configured to check whether the predetermined check mark is attached to the annotation mark. It is determined whether or not the index portion corresponding to the annotation mark is selected by the user when the check mark is added.
In such an aspect, since the selection instruction from the user to the translation apparatus is performed via the annotation mark attached to the translated sentence in the index portion, the operation is easily and reliably performed.

また、上記課題を解決するために、本発明は、コンピュータ装置を、文書を表す文書画像データが入力される入力手段と、前記入力手段へ入力された文書画像データにレイアウト解析を施し、その文書画像データの表す文書のインデックス部とそのインデックス部に対応する本文とを抽出する抽出手段と、前記抽出手段により抽出されたインデックス部とそのインデックスに対応する本文とを互いに対応付けて記憶する記憶手段と、前記記憶手段に記憶されているインデックス部を予め指定された翻訳先言語へ翻訳し、その翻訳結果をリスト形式に配列して為るインデックスリストを出力する一方、そのインデックスリストに配列されているインデックス部の翻訳文うちでユーザにより選択されたインデックス部を特定する特定手段と、前記特定手段により特定されたインデックス部に対応する本文を前記記憶手段から読み出し、前記翻訳先言語へ翻訳して出力する出力手段として機能させることを特徴とするプログラムを提供する。
このようなプログラムによれば、一般的なコンピュータ装置に上記翻訳装置と同一の機能を付与することが可能になる。
In order to solve the above-described problem, the present invention provides a computer apparatus that performs input analysis on document image data representing a document, and performs layout analysis on the document image data input to the input unit. Extraction means for extracting the index part of the document represented by the image data and the text corresponding to the index part, and storage means for storing the index part extracted by the extraction means and the text corresponding to the index in association with each other The index part stored in the storage means is translated into a pre-specified translation language, and an index list obtained by arranging the translation results in a list format is output, while being arranged in the index list. A specifying means for specifying an index part selected by a user among translated sentences of the index part, Reading the text that corresponds to the index portion specified by the constant unit from the storage unit, provides a program for causing to function as an output means for outputting the translated into the target language.
According to such a program, it becomes possible to give the same function as that of the translation apparatus to a general computer apparatus.

本発明によれば、翻訳元文書の中から、必要と判断される部分のみ、手軽にかつ低コストで翻訳して出力することが可能になる。   According to the present invention, it is possible to easily translate and output only a portion determined to be necessary from a translation source document at low cost.

以下、図面を参照してこの発明の実施の形態を説明する。
[構成]
図1は、本実施形態に係る翻訳装置1の構成を示す図である。
この翻訳装置1は、ユーザの使用言語とは異なる言語(以下、翻訳元言語)で記載された入力文書(以下、翻訳元文書)を入力した後、そのうちの必要な箇所をユーザに選択させ、ユーザの使用言語(以下、翻訳先言語)に翻訳して出力するものである。この実施の形態では、入力文書も出力文書も紙の形であるが、これに限られるものではない。
Embodiments of the present invention will be described below with reference to the drawings.
[Constitution]
FIG. 1 is a diagram illustrating a configuration of a translation apparatus 1 according to the present embodiment.
The translation device 1 inputs an input document (hereinafter referred to as a translation source document) described in a language (hereinafter referred to as a translation source language) different from the language used by the user, and then causes the user to select a necessary part of the input document. It is translated into the user's language (hereinafter referred to as the target language) and output. In this embodiment, both the input document and the output document are paper, but the present invention is not limited to this.

翻訳装置1は、ユーザに操作されて指示を入力する操作部11、紙文書の画像を読み取ってその画像を表す画像データ(以下、文書画像データ)を取得するイメージスキャナ等の画像入力部12、画像入力部12により取得された文書画像データを一時的に記憶する記憶部(RAM)13、記憶部13に記憶された文書画像データの表す文書を翻訳先言語に翻訳する翻訳部14、および翻訳処理を受けたデータを出力する出力部15と、各種のデータテーブルやプログラムを記憶する主記憶部16、およびこれらの各部の動作を制御し、データを授受し、その間にデータを加工する制御部18を有する。なお、これらの各部は、ハードウエア部分とソフトウエア部分とを含んでおり、ソフトウエア部分については、機能をベースとして仮想的に構築したものである。   The translation apparatus 1 includes an operation unit 11 that is operated by a user to input an instruction, an image input unit 12 such as an image scanner that reads an image of a paper document and acquires image data representing the image (hereinafter, document image data), A storage unit (RAM) 13 that temporarily stores document image data acquired by the image input unit 12, a translation unit 14 that translates a document represented by the document image data stored in the storage unit 13, and a translation An output unit 15 that outputs processed data, a main storage unit 16 that stores various data tables and programs, and a control unit that controls the operation of each unit, exchanges data, and processes data therebetween 18 Each of these parts includes a hardware part and a software part, and the software part is virtually constructed based on the function.

操作部11には、キーボード、マウス等の入力手段や、液晶ディスプレイ等の表示手段が設けられている。主記憶部16は、図示しない電源から電力が供給されなくともデータを保持することが可能な不揮発性メモリであり、後述の動作を導くプログラム、翻訳元言語と翻訳先言語とが対応付けられている翻訳用の辞書D等を記憶している。辞書Dは、ユーザのニーズに応じた複数種類の言語に対応しており、それらの中から選択して用いられる。   The operation unit 11 is provided with input means such as a keyboard and a mouse, and display means such as a liquid crystal display. The main storage unit 16 is a non-volatile memory that can retain data even when power is not supplied from a power source (not shown), and a program that guides operations described later, a source language, and a target language are associated with each other. A dictionary D for translation is stored. The dictionary D corresponds to a plurality of types of languages according to the user's needs, and is selected and used from them.

[動作]
電源から装置に電力が供給されると、制御部18は、主記憶部16からプログラムPを読み出して実行し、これによって、翻訳装置1の各部を制御することができる状態となる。このプログラムPにしたがって作動している制御部18が行う翻訳文提供処理は、2つの工程からなっている。すなわち、第1の工程は、翻訳元文書から見出しや表題などのインデックス部を抽出し、それらインデックス部のリストであるインデックスリストを作成して出力する工程(インデックスリスト出力工程)である。そして、第2の工程は、上記第1工程にて作成したインデックスリストに対してユーザから指示されたインデックス部に対応する本文を上記翻訳元文書から抽出し、翻訳先言語に翻訳して、適当な形式で出力する工程(翻訳文出力工程)である。
[Operation]
When power is supplied from the power source to the apparatus, the control unit 18 reads out and executes the program P from the main storage unit 16, thereby allowing each unit of the translation apparatus 1 to be controlled. The translated sentence providing process performed by the control unit 18 operating according to the program P includes two steps. That is, the first step is a step (index list output step) in which index parts such as headings and titles are extracted from the translation source document, and an index list that is a list of the index parts is created and output. Then, in the second step, the body corresponding to the index portion designated by the user is extracted from the translation source document with respect to the index list created in the first step, and is translated into the translation destination language. This is a process (translation sentence output process) of outputting in a simple format.

以下では、まず、インデックスリスト作成工程について、図2のフロー図と、図3の翻訳元文書例、図4のインデックスリスト例を参照して説明する。なお、図3には、便宜的に日本語の文書を翻訳元文書として例示するが、以下では、この翻訳元文書が日本語以外の言語(例えば、英語や中国語)の文書であると仮定して説明する。   In the following, first, the index list creation step will be described with reference to the flowchart of FIG. 2, the translation source document example of FIG. 3, and the index list example of FIG. FIG. 3 illustrates a Japanese document as a translation source document for convenience. In the following, it is assumed that this translation source document is a document in a language other than Japanese (for example, English or Chinese). To explain.

制御部18は、まず、ユーザに対して翻訳先言語および必要な場合には翻訳元言語の特定のための入力を促し、ユーザはこれを操作部11を介して入力する(ステップ1)。次に、ユーザは翻訳元文書である原稿(本動作例では、図3に示す文書)を画像入力部12の原稿台(図示省略)にセットし、操作部11を介して読み取り開始の指示を出す(ステップ2)。制御部18は、原稿台に原稿がセットされたことを確認し、その原稿台にセットされている紙文書の文書画像データを画像入力部12によって取得し、取得した文書画像データを記憶部13に書き込んで記憶する(ステップ3)。
次に、制御部18は、ステップ3にて記憶部13に書き込んだ文書画像データに対してレイアウト解析を施し(ステップ4)、テキスト部と図形その他のグラフィック部とに分け、それぞれを記憶部13へ書き込む。
First, the control unit 18 prompts the user to input the target language and, if necessary, for specifying the source language, and the user inputs this via the operation unit 11 (step 1). Next, the user sets a manuscript that is a translation source document (the document shown in FIG. 3 in this operation example) on the manuscript table (not shown) of the image input unit 12, and issues an instruction to start reading via the operation unit 11. (Step 2). The control unit 18 confirms that the document is set on the document table, acquires the document image data of the paper document set on the document table by the image input unit 12, and stores the acquired document image data in the storage unit 13. Is written and stored (step 3).
Next, the control unit 18 performs layout analysis on the document image data written in the storage unit 13 in step 3 (step 4), and divides the document image data into a text unit and graphics and other graphic units. Write to.

次に、制御部18は、ステップS4にて記憶部13へ書き込んだテキスト部から、文書の表題と、インデックス部およびそのインデックス部に対応する本文と、そのいずれにも属さない、例えば図や表のタイトルや説明等に分けて抽出し(ステップ5)、インデックス部とインデックス部に対応する本文とを互いに対応付けて図5に示す管理テーブルを生成しその管理テーブルに翻訳元文書を一意に識別する識別子(本動作例では、その文書の表題)を対応付けて記憶部13へ書き込む。なお、制御部18は、上記管理テーブルを生成する際には、インデックス部とそのインデックス部に対応する本文とを対応付け、翻訳元文書におけるインデックス部の記載順に配列して上記管理テーブルを生成する。この管理テーブルは、ユーザによって選択されたインデックス部に対応する本文を、後述する翻訳文出力工程にて特定する際に利用される。なお、本実施形態では、上記識別子として表題を用いる場合について説明するが、翻訳元文書毎に固有の整理番号や固有のバーコードを割り当て、それら整理番号やバーコードを上記識別子として用いるようにしても良い。
また、管理テーブルにインデックス部とそのインデックス部に対応する本文とを書き込む際にそれらにOCR処理を施してから書き込むようにしても勿論良い。
Next, the control unit 18 determines from the text portion written in the storage unit 13 in step S4, the title of the document, the index portion and the body corresponding to the index portion, and none of them, for example, a figure or table 5 is divided into titles and descriptions (step 5), the index part and the text corresponding to the index part are associated with each other to generate the management table shown in FIG. 5, and the translation source document is uniquely identified in the management table Identifier (in this operation example, the title of the document) is written in association with the storage unit 13. When generating the management table, the control unit 18 associates the index part with the text corresponding to the index part, and arranges the index part in the order of description of the index part in the translation source document to generate the management table. . This management table is used when the text corresponding to the index part selected by the user is specified in the translated text output process described later. In this embodiment, a case where a title is used as the identifier will be described. However, a unique reference number or unique barcode is assigned to each translation source document, and the reference number or barcode is used as the identifier. Also good.
Of course, when the index part and the text corresponding to the index part are written in the management table, the index part and the text corresponding to the index part are written after being subjected to OCR processing.

なお、制御部18が、文書の表題と、インデックス部およびそのインデックス部に対応する本文と、そのいずれにも属さない、例えば図や表のタイトルや説明等に分けて、それらをテキスト部から抽出する際には、それらの特徴に基づいて分類しつつ抽出する。より詳細に説明すると、文書の表題は、文書の最初に有り、他の文章より大きい文字サイズで記載されている、という特性を有している。また、インデックス部は、翻訳元文書のレイアウトにおいて、本文とは異なる幾つかの特徴を持っている。例えば、章、節、という表記の直後に存在し、本文に比較して文字が大きく、本文とは切り離された短い文章である、等である。一方、図や表のタイトルや説明は、図や表の近辺にレイアウトされているという特徴を有している。制御部18は、これら特徴に基づいてテキスト部を、インデックス部とそのインデックス部に対応する本文や、そのいずれにも属さない、例えば図や表のタイトルや説明等に分類する。なお、インデックス部に対応する本文とは、そのインデックス部に後続する文章であって、その文章に後続して次のインデックス部がある場合には、該次のインデックス部の直前までの部分である。   The control unit 18 extracts the title of the document, the index part and the body corresponding to the index part, and the title and description of a figure or table, for example, which do not belong to them, and extracts them from the text part. In this case, the extraction is performed while classifying based on the features. More specifically, the title of the document has the property that it is at the beginning of the document and is written in a larger character size than other sentences. The index part has several features different from the main text in the layout of the translation source document. For example, it exists immediately after the notation of chapter or section, has a larger character than the text, and is a short sentence separated from the text. On the other hand, the titles and explanations of figures and tables have a feature that they are laid out in the vicinity of the figures and tables. Based on these characteristics, the control unit 18 classifies the text part into an index part, a body corresponding to the index part, and a title or description of a figure or a table that does not belong to any of them. Note that the text corresponding to the index part is a sentence that follows the index part, and if there is a next index part that follows the sentence, it is a part up to immediately before the next index part. .

次に、ステップ5で得られた表題(本動作例では、前述した管理テーブルに対応付けられている識別子)とその管理テーブルに格納されているインデックス部について、OCR(Optical Character Recognition)を行ってテキストデータを生成し(ステップ6)、そのテキストデータを記憶部13へ書き込む。さらに、制御部18は、得られた表題とインデックス部のテキストデータを翻訳する(ステップ7)。図3の翻訳元文書の例では、表題は「○○レポート」であり、インデックス部としては、「まえがき」、「A社情報」、「B社製品の特徴」、「C社情報」、「D市場過去3年売上高」、「E社売上表」、「F社情報」、「あとがき」が有る。   Next, OCR (Optical Character Recognition) is performed on the title obtained in step 5 (in this operation example, the identifier associated with the management table described above) and the index portion stored in the management table. Text data is generated (step 6), and the text data is written into the storage unit 13. Further, the control unit 18 translates the obtained title and text data of the index part (step 7). In the example of the translation source document in FIG. 3, the title is “XX report”, and the index part is “Preface”, “Company A information”, “Characteristics of Company B product”, “Company C information”, “ "D market sales for the past 3 years", "E company sales table", "Company F information", and "postcard".

次に、制御部18は、ステップS7にて翻訳した表題とインデックス部とを用いて、図4に示すような所定のフォーマットのインデックスリストを作成する(ステップ8)。インデックスリストは、少なくとも翻訳元文書を特定するための識別子である表題の翻訳文が含まれているとともに、その翻訳元文書の本文のうち翻訳すべき箇所をユーザに選択させる際の指標となるインデックス部の翻訳文(それぞれを項目という)がその翻訳元文書における記載順に配列されて含まれている。なお、既に同じ表題の文書のインデックスリストを出力している場合には、「○○レポート2」のように番号を付すようにしても良い。   Next, the control unit 18 creates an index list of a predetermined format as shown in FIG. 4 using the title and index part translated in step S7 (step 8). The index list includes at least a translated sentence with a title that is an identifier for identifying the translation source document, and an index serving as an index when the user selects a portion to be translated in the text of the translation source document Parts of translated sentences (each of which is called an item) are arranged in the order of description in the translation source document. When an index list of documents with the same title has already been output, a number such as “XX report 2” may be added.

インデックスリストの各項目には、アノーテーションマーク(図4に示すインデックスリストでは、“◇”がアノーテーションマークである)が組み合わせられている。このアノーテーションマークは、ユーザの選択内容を翻訳装置1に伝達するためのものであり、例えば、ユーザは、本文の翻訳を所望する項目についてのアノーテーションマークにチェックを入れる(例えば、塗りつぶす)ことで、項目の選択を翻訳装置1へ伝達するようになっている。なお、図4に示す出力例では、各項目に対して2つのアノーテーションマークが対応付けられており、1番目のアノーテーションマークは翻訳の要否、2番目のアノーテーションマークは要約作成の要否を指示するものである。この例では、項目として、「A社情報」、「B社製品の特徴」、「C社情報」、「D市場過去3年売上高」、「E社売上表」、「F社情報」が記載されている。この例では、「まえがき」と「あとがき」(およびそれに類似する「要約」等のインデックス)は、実質的に新たな情報を含んでいないので、インデックスリストから削除するようになっている。   Each item in the index list is combined with an annotation mark (in the index list shown in FIG. 4, “◇” is an annotation mark). This annotation mark is used to transmit the user's selection contents to the translation apparatus 1. For example, the user checks (for example, fills) the annotation mark for an item for which the body text is desired to be translated. Thus, the selection of the item is transmitted to the translation apparatus 1. In the output example shown in FIG. 4, two annotation marks are associated with each item, the first annotation mark indicates whether or not translation is necessary, and the second annotation mark indicates that a summary is necessary. No. In this example, the items are “Company A information”, “Product characteristics of Company B”, “Company C information”, “D market sales for the past 3 years”, “Company E sales table”, and “Company F information”. Are listed. In this example, “Foreword” and “Afterword” (and similar indexes such as “Summary”) do not substantially contain new information, and are deleted from the index list.

インデックスリストには、この他に、翻訳文の出力方法を指示する部分が有り、図4に示す出力例では、カラー印刷、節約印刷(例えば、2upなど1枚の記録材に複数頁分の翻訳文を印刷する態様)、拡大印刷、原文の追記等の要否を指示することができるようになっている。また、制御部が自由記述を解釈する機能を有する場合には、図示するように、追加的な希望を記述可能な記述領域を設けても良い。内容としては、地名に対応する地図を挿入する、処理のコストについての金額情報を表示する、等である。   In addition to this, the index list includes a part for instructing a translation output method. In the output example shown in FIG. 4, color printing, saving printing (for example, translation for a plurality of pages on one recording material such as 2 up) It is possible to instruct whether or not it is necessary to print the sentence), enlargement printing, and additional writing of the original sentence. Further, when the control unit has a function of interpreting a free description, a description area where additional hope can be described may be provided as illustrated. The contents include inserting a map corresponding to the place name, displaying money amount information about the processing cost, and so on.

制御部18は、以上のような内容のインデックスリストを作成し、これをイメージ化して、データを出力部15に送り、印刷用紙などの記録材に印刷する(ステップ9)。これで、インデックスリスト出力工程が終わる。ユーザは、上記のようにして出力されたインデックスリストに記載されている項目(すなわち、各インデックス部の翻訳文)を参照して、その項目に対応する本文の翻訳の要否を判断し、必要な指示をアノーテーションマークのチェック又は記述領域への記述によって行う。そして、これをスキャナに読み取らせることにより、その指示を入力する。   The control unit 18 creates an index list with the above contents, images it, sends the data to the output unit 15, and prints it on a recording material such as printing paper (step 9). This completes the index list output process. The user refers to the item (that is, the translated text of each index part) described in the index list output as described above, determines whether the text corresponding to the item needs to be translated, and is necessary. This instruction is performed by checking annotation marks or writing in the description area. Then, the instruction is input by causing the scanner to read this.

以下、第2の工程である翻訳文出力工程について、図6を参照して説明する。
画像入力部12を介してインデックスリストに対応する画像データが入力されると(ステップ11)、制御部18は、そのインデックスリストからそのインデックスリストに対応する文書画像データを表す識別子(本実施形態では、表題)を抽出し(ステップ12)、対応する翻訳元文書の原文の有無を確認する(ステップ13)。具体的には、制御部18は、その識別子に対応する管理テーブルが記憶部13に格納されているか否かを確認する。
Hereinafter, the translated text output process as the second process will be described with reference to FIG.
When image data corresponding to the index list is input via the image input unit 12 (step 11), the control unit 18 identifies an identifier (in this embodiment) representing document image data corresponding to the index list from the index list. , Title) is extracted (step 12), and the presence or absence of the original text of the corresponding translation source document is confirmed (step 13). Specifically, the control unit 18 checks whether or not a management table corresponding to the identifier is stored in the storage unit 13.

そして、制御部18は、ステップ13の判定結果が“No”である場合(すなわち、該当する翻訳元文書が無い場合)には、その旨を表示して処理を終了し、逆に、その判定結果が“Yes”である場合には、翻訳の要否に関するアノーテーションマークのチェックの検出を行う(ステップ14)。   When the determination result in step 13 is “No” (that is, when there is no corresponding translation source document), the control unit 18 displays that fact and ends the process. If the result is “Yes”, an annotation mark check relating to the necessity of translation is detected (step 14).

次いで、制御部18は、チェックマーク(本実施形態では、塗りつぶし)の有無を判断し(ステップ15)、チェックが有る場合(すなわち、アノーテーションマークが塗潰されている場合)には、対応する本文を前述した管理テーブルから読み出し、OCR処理を施してテキストデータに変換した後に翻訳して記憶する(ステップ16)。さらにその項目の要約指示の有無を検出し(ステップ17)、要である場合には要約を作成する(ステップ18)。
なお、チェックマークが付されているアノーテーションマークに対応する本文を管理テーブルから読み出す際には、制御部18は、まず、チェックマークが付されているアノーテーションマークのインデックスリスト内での記載順を特定することによって、そのアノーテーションマークに対応するインデックス部を特定し、そのインデックス部に対応する本文を管理テーブルから読み出す。
Next, the control unit 18 determines whether or not there is a check mark (painting in this embodiment) (step 15), and if there is a check (that is, if the annotation mark is painted), it responds. The text is read from the management table described above, converted into text data by performing OCR processing, and then translated and stored (step 16). Further, the presence / absence of a summary instruction for the item is detected (step 17), and if necessary, a summary is created (step 18).
When the text corresponding to the annotation mark with the check mark is read from the management table, the control unit 18 first determines the order in which the annotation mark with the check mark is written in the index list. The index part corresponding to the annotation mark is specified, and the text corresponding to the index part is read from the management table.

以降、制御部18は、ステップS16にて作成した翻訳文と原文の図表等と、作成した場合には要約とをレイアウトしたイメージを作成し(ステップ19)、全部のアノーテーションマークについてチェックの有無を検出したかどうかを判断し(ステップ20)、否である場合にはステップ13に戻ってそれ以降の工程を繰り返す。チェックがされた項目の全部について翻訳文が作成されると、制御部18は、ステップA19で作成したイメージを印刷し(ステップ21)、翻訳文出力工程が終了する。図7は、「A社情報」、「D市場過去3年売上高」、「F社情報」を選択した場合の翻訳文出力の例を示すものである。   Thereafter, the control unit 18 creates an image in which the translated sentence and the original sentence chart created in step S16 and the summary if created are laid out (step 19), and whether or not all annotation marks are checked. Is detected (step 20), and if not, the process returns to step 13 to repeat the subsequent steps. When the translated text is created for all of the checked items, the control unit 18 prints the image created in step A19 (step 21), and the translated text output process ends. FIG. 7 shows an example of translation output when “Company A information”, “D market sales for the past three years”, and “Company F information” are selected.

以上、この発明を実施の形態に沿って説明したが、本発明はこれに限定されるものではない。この例では、入力文書として紙文書を用いたが、電子化されたデータを用いることができる。このようなデータは、磁気ディスクのような媒体や、インターネット等の通信回線を用いて入力が可能であり、入力部はそれらに対応したものが使用される。   As described above, the present invention has been described along the embodiment, but the present invention is not limited to this. In this example, a paper document is used as the input document, but digitized data can be used. Such data can be input using a medium such as a magnetic disk or a communication line such as the Internet, and an input unit corresponding to them is used.

また、インデックスリスト出力として、紙文書を用いたが、操作部11のディスプレイ等適宜の表示手段を用いることができる。この場合、アノーテーションマークはマウス等で入力可能なチェックボックスを採用するようにすれば良い。このようなインデックスリスト出力およびこれへの指示の方法は、インターネット等の通信回線を介しても可能である。同様に、翻訳文出力も、その翻訳文を表す電子データ(例えば、翻訳文の画像を表す画像データやその翻訳文のテキストデータ)を磁気ディスクのような記録媒体に書き込んで提供するとしても良く、また、係る電子データをインターネット等の通信回線を介して提供するとしても良い。   Further, although a paper document is used as the index list output, an appropriate display means such as a display of the operation unit 11 can be used. In this case, the annotation mark may be a check box that can be input with a mouse or the like. Such an index list output and an instruction method for the index list can also be performed via a communication line such as the Internet. Similarly, the translated sentence output may be provided by writing electronic data representing the translated sentence (for example, image data representing the image of the translated sentence or text data of the translated sentence) on a recording medium such as a magnetic disk. In addition, such electronic data may be provided via a communication line such as the Internet.

また、上述した実施形態では、本発明に係る翻訳装置に特徴的な翻訳文提供処理を制御部18に実行させるためのプログラムが、翻訳装置1の主記憶部16に予め格納されている場合について説明した。しかしながら、CD−ROMや磁気ディスクなどのコンピュータ装置読取り可能な記録媒体に上記プログラムを書き込んで提供するとしても勿論良い。このような記録媒体を用いて上記プログラムを一般的なコンピュータ装置へインストールすることによって、そのコンピュータ装置に上記翻訳文提供処理を実行させること(すなわち、そのコンピュータ装置に本発明に係る翻訳装置と同一の機能を付与すること)が可能になる。   In the embodiment described above, a program for causing the control unit 18 to execute a translated sentence providing process characteristic of the translation apparatus according to the present invention is stored in the main storage unit 16 of the translation apparatus 1 in advance. explained. However, it goes without saying that the program may be written and provided on a computer-readable recording medium such as a CD-ROM or a magnetic disk. By installing the program on a general computer device using such a recording medium, the computer device is caused to execute the translated sentence providing process (that is, the computer device is the same as the translation device according to the present invention). Can be added).

本発明の1実施形態に係る翻訳装置1の構成を示すブロック図である。It is a block diagram which shows the structure of the translation apparatus 1 which concerns on one Embodiment of this invention. 同翻訳装置1の制御部18が実行するインデックスリスト出力工程の流れを示すフロー図である。It is a flowchart which shows the flow of the index list output process which the control part 18 of the translation apparatus 1 performs. 翻訳元文書の例を示す図である。It is a figure which shows the example of a translation origin document. 同インデックスリスト出力処理により出力されるインデックスリストの例を示す図である。It is a figure which shows the example of the index list output by the index list output process. 同インデックスリスト出力工程にて記憶部13へ書き込まれる管理テーブルの例を示す図である。It is a figure which shows the example of the management table written in the memory | storage part 13 in the index list output process. 同制御部18が実行する翻訳文出力工程の流れを示すフロー図である。It is a flowchart which shows the flow of the translation output process which the control part 18 performs. 同翻訳文出力工程により出力される翻訳文の例を示す図である。It is a figure which shows the example of the translation sentence output by the same translation output process.

符号の説明Explanation of symbols

12 画像入力部
14 翻訳部
15 出力部
18 制御部
12 Image input unit 14 Translation unit 15 Output unit 18 Control unit

Claims (3)

文書を表す文書画像データが入力される入力手段と、
前記入力手段へ入力された文書画像データにレイアウト解析を施し、その文書画像データの表す文書のインデックス部とそのインデックス部に対応する本文とを抽出する抽出手段と、
前記抽出手段により抽出されたインデックス部とそのインデックスに対応する本文とを互いに対応付けて記憶する記憶手段と、
前記記憶手段に記憶されているインデックス部を予め指定された翻訳先言語へ翻訳し、その翻訳結果をリスト形式に配列して為るインデックスリストを出力する一方、そのインデックスリストに配列されているインデックス部の翻訳文うちでユーザにより選択されたインデックス部を特定する特定手段と、
前記特定手段により特定されたインデックス部に対応する本文を前記記憶手段から読み出し、前記翻訳先言語へ翻訳して出力する出力手段と、
を有することを特徴とする翻訳装置。
Input means for inputting document image data representing a document;
An extraction unit that performs layout analysis on the document image data input to the input unit, and extracts a document index part represented by the document image data and a body corresponding to the index part;
Storage means for storing the index part extracted by the extraction means and the text corresponding to the index in association with each other;
The index part stored in the storage means is translated into a pre-specified translation language, and an index list formed by arranging the translation results in a list format is output, while the indexes arranged in the index list A specifying means for specifying the index part selected by the user among the translations of the part;
An output unit that reads out the text corresponding to the index part specified by the specifying unit from the storage unit, translates it into the target language, and outputs it;
A translation apparatus comprising:
前記インデックスリストには、インデックス部の翻訳文の各々に所定のアノーテーションマークが付されており、
前記特定手段は、
所定のチェックマークが前記アノーテーションマークに付されているか否かを判定し、前記チェックマークが付されている場合に、そのアノーテーションマークに対応するインデックス部を前記ユーザにより選択されたと特定する
ことを特徴とする請求項1に記載の翻訳装置。
In the index list, a predetermined annotation mark is attached to each translated sentence in the index part,
The specifying means is:
It is determined whether or not a predetermined check mark is attached to the annotation mark, and when the check mark is attached, it is specified that the index portion corresponding to the annotation mark is selected by the user. The translation apparatus according to claim 1.
コンピュータ装置を、
文書を表す文書画像データが入力される入力手段と、
前記入力手段へ入力された文書画像データにレイアウト解析を施し、その文書画像データの表す文書のインデックス部とそのインデックス部に対応する本文とを抽出する抽出手段と、
前記抽出手段により抽出されたインデックス部とそのインデックスに対応する本文とを互いに対応付けて記憶する記憶手段と、
前記記憶手段に記憶されているインデックス部を予め指定された翻訳先言語へ翻訳し、その翻訳結果をリスト形式に配列して為るインデックスリストを出力する一方、そのインデックスリストに配列されているインデックス部の翻訳文うちでユーザにより選択されたインデックス部を特定する特定手段と、
前記特定手段により特定されたインデックス部に対応する本文を前記記憶手段から読み出し、前記翻訳先言語へ翻訳して出力する出力手段、
として機能させることを特徴とするプログラム。
Computer equipment,
Input means for inputting document image data representing a document;
An extraction unit that performs layout analysis on the document image data input to the input unit, and extracts a document index part represented by the document image data and a body corresponding to the index part;
Storage means for storing the index part extracted by the extraction means and the text corresponding to the index in association with each other;
The index part stored in the storage means is translated into a pre-specified translation language, and an index list formed by arranging the translation results in a list format is output, while the indexes arranged in the index list A specifying means for specifying the index part selected by the user among the translations of the part;
An output unit that reads out the text corresponding to the index part specified by the specifying unit from the storage unit, translates it into the target language, and outputs it;
A program characterized by functioning as
JP2005276286A 2005-09-22 2005-09-22 Translation device and program Pending JP2007087189A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005276286A JP2007087189A (en) 2005-09-22 2005-09-22 Translation device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005276286A JP2007087189A (en) 2005-09-22 2005-09-22 Translation device and program

Publications (1)

Publication Number Publication Date
JP2007087189A true JP2007087189A (en) 2007-04-05

Family

ID=37974101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005276286A Pending JP2007087189A (en) 2005-09-22 2005-09-22 Translation device and program

Country Status (1)

Country Link
JP (1) JP2007087189A (en)

Similar Documents

Publication Publication Date Title
US8179556B2 (en) Masking of text in document reproduction
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US6533822B2 (en) Creating summaries along with indicators, and automatically positioned tabs
US7168040B2 (en) Document processing apparatus and method for analysis and formation of tagged hypertext documents
JP4311365B2 (en) Document processing apparatus and program
US20060217956A1 (en) Translation processing method, document translation device, and programs
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
US20060217958A1 (en) Electronic device and recording medium
JP5661663B2 (en) Information extraction device
JP4666996B2 (en) Electronic filing system and electronic filing method
US20060218495A1 (en) Document processing device
CN109445900B (en) Translation method and device for picture display
JP2002073598A (en) Document processor and method of processing document
JP6988101B2 (en) Information processing equipment, programs and information processing methods
JP2006276912A (en) Device, method, and program for editing document
JP2007087189A (en) Translation device and program
JP4561156B2 (en) Document processing device
JP2007304867A (en) Translation support system, instruction data generation device, translated sentence data generation device, and program for them
JPH11149486A (en) Electronic dictionary, retrieving device and information retrieving method
JP2006277108A (en) Information providing method, document editing device and program
JP4302161B2 (en) Machine translation apparatus and machine translation program
JPH06301713A (en) Bilingual display method and document display device and digital copying device
JP2024006384A (en) Information processor and information processing program
Contributors LaTeX
JP2004248245A (en) Document processing apparatus