JP2020135523A - Information processor, information processing method and program - Google Patents

Information processor, information processing method and program Download PDF

Info

Publication number
JP2020135523A
JP2020135523A JP2019029326A JP2019029326A JP2020135523A JP 2020135523 A JP2020135523 A JP 2020135523A JP 2019029326 A JP2019029326 A JP 2019029326A JP 2019029326 A JP2019029326 A JP 2019029326A JP 2020135523 A JP2020135523 A JP 2020135523A
Authority
JP
Japan
Prior art keywords
data
structured
text
layout
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019029326A
Other languages
Japanese (ja)
Other versions
JP7283112B2 (en
Inventor
聡 田端
Satoshi Tabata
聡 田端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2019029326A priority Critical patent/JP7283112B2/en
Publication of JP2020135523A publication Critical patent/JP2020135523A/en
Application granted granted Critical
Publication of JP7283112B2 publication Critical patent/JP7283112B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To enable appropriate translation of a text included in non-structured data.SOLUTION: An information processor 1 includes: an acquisition part configured to acquire non-structured data including a text of a first language; a generation part configured to use a discriminator that discriminates respective elements composing the non-structured data to generate structured data in which the respective elements including the text are structured; and a conversion part configured to convert the structured text into a second language. Accordingly, a text included in non-structured data can appropriately be translated.SELECTED DRAWING: Figure 1

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。 The present invention relates to an information processing device, an information processing method and a program.

近年、文書内のテキストを別言語に翻訳する機械翻訳技術が発展している。例えば特許文献1では、ソース言語をターゲット言語に翻訳する方法であって、ソース言語の文書から抽出されたテキストを翻訳エンジンで翻訳し、翻訳されたテキストを、元のテキストのフォーマット及び構造情報に基づいて編集する方法が開示されている。 In recent years, machine translation technology for translating text in a document into another language has been developed. For example, in Patent Document 1, a method of translating a source language into a target language, in which a text extracted from a document in the source language is translated by a translation engine, and the translated text is converted into the original text format and structural information. A method of editing based on is disclosed.

特表2007−532995公報Special Table 2007-532995

しかしながら、翻訳対象とする元の文書テキストが構造化されていない場合、不適切な翻訳文が作成されるという問題があった。 However, if the original document text to be translated is not structured, there is a problem that an inappropriate translated sentence is created.

一つの側面では、非構造化データに含まれるテキストを適切に翻訳することができる情報処理装置等を提供することを目的とする。 In one aspect, it is an object of the present invention to provide an information processing device or the like capable of appropriately translating text contained in unstructured data.

一つの側面に係る情報処理装置は、第1言語のテキストを含む非構造化データを取得する取得部と、前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成する生成部と、構造化された前記テキストを第2言語に変換する変換部とを備えることを特徴とする。 The information processing apparatus according to one aspect uses an acquisition unit for acquiring unstructured data including the text of the first language and a discriminator for identifying each element constituting the unstructured data to obtain the text. It is characterized by including a generation unit that generates structured data in which each of the elements including the above is structured, and a conversion unit that converts the structured text into a second language.

一つの側面では、非構造化データに含まれるテキストを適切に翻訳することができる。 On one side, the text contained in unstructured data can be properly translated.

文書翻訳システムの構成例を示す模式図である。It is a schematic diagram which shows the structural example of the document translation system. 非構造化データを直接的に翻訳した場合の一例を示す説明図である。It is explanatory drawing which shows an example of the case where the unstructured data is directly translated. 元の文書に従って翻訳後のテキストを配置した場合のページレイアウトの一例を示す説明図である。It is explanatory drawing which shows an example of the page layout when the translated text is arranged according to the original document. サーバの構成例を示すブロック図である。It is a block diagram which shows the configuration example of a server. 構造化テーブルに関する説明図である。It is explanatory drawing about a structured table. 構造化データの生成処理に関する説明図である。It is explanatory drawing about the generation processing of structured data. 文書翻訳処理に関する説明図である。It is explanatory drawing about a document translation process. レイアウト生成処理に関する説明図である。It is explanatory drawing about layout generation processing. レイアウト学習処理に関する説明図である。It is explanatory drawing about layout learning processing. レイアウト学習処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of layout learning processing. 文書翻訳処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of a document translation process. 実施の形態2に係るサーバの構成例を示すブロック図である。It is a block diagram which shows the configuration example of the server which concerns on Embodiment 2. FIG. 構造化学習処理に関する説明図である。It is explanatory drawing about the structured learning process. 構造化学習処理の手順の一例を示すフローチャートである。It is a flowchart which shows an example of the procedure of the structured learning process. 上述した形態のサーバの動作を示す機能ブロック図である。It is a functional block diagram which shows the operation of the server of the above-mentioned form.

以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
図1は、文書翻訳システムの構成例を示す模式図である。本実施の形態では、非構造化データである所定言語(第1言語)の文書を構造化し、構造化された文書内のテキストを別言語(第2言語)に変換することで、非構造化データを対象とした機械翻訳を好適に行う文書翻訳システムについて説明する。文書翻訳システムは、情報処理装置1及び端末2を含む。各装置はインターネット等のネットワークNを介して通信接続されている。
Hereinafter, the present invention will be described in detail with reference to the drawings showing the embodiments thereof.
(Embodiment 1)
FIG. 1 is a schematic diagram showing a configuration example of a document translation system. In the present embodiment, a document in a predetermined language (first language), which is unstructured data, is structured, and the text in the structured document is converted into another language (second language) to be unstructured. A document translation system that preferably performs machine translation on data will be described. The document translation system includes an information processing device 1 and a terminal 2. Each device is communicated and connected via a network N such as the Internet.

なお、以下では説明の便宜上、処理対象とする非構造化データが「文書」であるものとして説明するが、本システムは非構造化データに含まれるテキストの翻訳を実行可能であればよく、処理対象とするデータは文書に限定されない。例えばテキストを含むイラスト画像を処理対象としてもよく、テキストを要素として含む非構造化データを処理可能であればよい。 In the following, for convenience of explanation, the unstructured data to be processed will be described as a "document", but this system may process any text contained in the unstructured data as long as it can be translated. The target data is not limited to documents. For example, an illustration image including text may be processed, and unstructured data including text as an element may be processed.

また、以下の説明では便宜上、元の文書の言語を「ソース言語」と呼び、翻訳後の言語を「ターゲット言語」と呼ぶものとする。 Further, in the following description, for convenience, the language of the original document is referred to as a "source language", and the translated language is referred to as a "target language".

情報処理装置1は、種々の情報処理、情報の送受信を行う装置であり、例えばサーバ装置、パーソナルコンピュータ、多機能端末等である。本実施の形態において情報処理装置1はサーバ装置であるものとし、以下では簡潔のためサーバ1と読み替える。サーバ1は、テキスト、写真、図表等の各要素から構成されるソース言語の文書であって、例えばPDF(登録商標)ファイルのように、各要素を定義付けるメタデータが各要素に付与されていない非構造化データを構造化する処理を行い、各要素に対してメタデータを付与した構造化データ(例えばXMLファイル)を生成する。そしてサーバ1は、テキストを含む各要素の構造化を行った後に、構造化したテキストをターゲット言語に変換(翻訳)する。 The information processing device 1 is a device that performs various information processing and information transmission / reception, and is, for example, a server device, a personal computer, a multifunctional terminal, or the like. In the present embodiment, the information processing device 1 is assumed to be a server device, and will be read as a server 1 below for the sake of brevity. The server 1 is a document in a source language composed of each element such as text, a photograph, and a chart, and the metadata defining each element is not attached to each element like a PDF (registered trademark) file, for example. The process of structuring unstructured data is performed, and structured data (for example, an XML file) to which metadata is added to each element is generated. Then, after structuring each element including the text, the server 1 converts (translates) the structured text into the target language.

図2は、非構造化データを直接的に翻訳した場合の一例を示す説明図である。非構造化データを対象として機械翻訳を行う場合、データ内のテキストにはメタデータが特に付与されていないため、適切な翻訳を行うことが難しい。例えば図2に示すように、単一のパラグラフであるべきテキストが不適切な箇所で改行され、そのまま機械的に翻訳されてしまうことで、不適切な翻訳文が作成されてしまうケースが生じ得る。 FIG. 2 is an explanatory diagram showing an example of a case where unstructured data is directly translated. When machine translation is performed on unstructured data, it is difficult to perform appropriate translation because no metadata is added to the text in the data. For example, as shown in FIG. 2, a text that should be a single paragraph is broken at an inappropriate place and is mechanically translated as it is, so that an inappropriate translated sentence may be created. ..

そこでサーバ1は、非構造化データである文書を構造化し、文書を構成するタイトル、パラグラフ、写真、図表、キャプション等の所定単位の要素毎に分割(識別)した上で翻訳を行う。これにより、図2で例示した事態を防止し、非構造化データを対象とした機械翻訳を好適に実行する。 Therefore, the server 1 structures the document, which is unstructured data, divides (identifies) each element of a predetermined unit such as a title, paragraph, photograph, chart, caption, etc., which constitutes the document, and then translates the document. As a result, the situation illustrated in FIG. 2 is prevented, and machine translation for unstructured data is preferably executed.

上述の処理に加えて、サーバ1は、翻訳後のテキストを含む各要素を、ターゲット言語における文書レイアウトを考慮して再配置したレイアウトデータ、つまり翻訳版文書のページレイアウトを生成する。図3は、元の文書に従って翻訳後のテキストを配置した場合のページレイアウトの一例を示す説明図である。図3に示すように、翻訳後のテキストを含む各要素をそのまま元の文書通りの位置に配置した場合、翻訳の前後における文字数の相違などから、近接する要素(テキストや図表)が互いに重なってしまうなど、不適切なレイアウトで文書ページが作成されてしまうケースが生じ得る。そこでサーバ1は、後述するように、ターゲット言語における既存文書のレイアウトを機械学習によって学習済みの評価モデル(評価器)を用いて、各要素のレイアウトを決定する。これにより、サーバ1は、翻訳した文書を適切なページレイアウトに整えたレイアウトデータを提供する。 In addition to the above processing, the server 1 generates layout data in which each element including the translated text is rearranged in consideration of the document layout in the target language, that is, the page layout of the translated version document. FIG. 3 is an explanatory diagram showing an example of a page layout when the translated text is arranged according to the original document. As shown in FIG. 3, when each element including the translated text is placed at the position as it is in the original document, adjacent elements (text and charts) overlap each other due to the difference in the number of characters before and after the translation. In some cases, the document page may be created with an inappropriate layout. Therefore, as will be described later, the server 1 determines the layout of each element by using the evaluation model (evaluator) that has learned the layout of the existing document in the target language by machine learning. As a result, the server 1 provides layout data in which the translated document is arranged into an appropriate page layout.

端末2は、サーバ1と通信を行うクライアント端末であり、例えばパーソナルコンピュータ等の情報処理端末である。例えばサーバ1は、端末2からアップロードされた文書ファイルに対して上記の処理を行い、機械翻訳を行って各要素を再配置したレイアウトデータを生成し、端末2に出力する。 The terminal 2 is a client terminal that communicates with the server 1, and is, for example, an information processing terminal such as a personal computer. For example, the server 1 performs the above processing on the document file uploaded from the terminal 2, performs machine translation to generate layout data in which each element is rearranged, and outputs the layout data to the terminal 2.

図4は、サーバ1の構成例を示すブロック図である。サーバ1は、制御部11、主記憶部12、通信部13、補助記憶部14を有する。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。
FIG. 4 is a block diagram showing a configuration example of the server 1. The server 1 has a control unit 11, a main storage unit 12, a communication unit 13, and an auxiliary storage unit 14.
The control unit 11 has one or more CPUs (Central Processing Units), MPUs (Micro-Processing Units), GPUs (Graphics Processing Units) and other arithmetic processing units, and stores the program P stored in the auxiliary storage unit 14. By reading and executing, various information processing, control processing, etc. are performed. The main storage unit 12 is a temporary storage area for SRAM (Static Random Access Memory), DRAM (Dynamic Random Access Memory), flash memory, etc., and temporarily stores data necessary for the control unit 11 to execute arithmetic processing. Remember. The communication unit 13 is a communication module for performing processing related to communication, and transmits / receives information to / from the outside.

補助記憶部14は、ハードディスク、大容量メモリ等の不揮発性記憶領域であり、制御部11が処理を実行するために必要なプログラムP、その他のデータを記憶している。また、補助記憶部14は、構造化テーブル141、評価モデル142を記憶している。構造化テーブル141は、ソース言語の文書を構成する各要素を識別し、メタデータを付与するためのルールを規定するテーブル(識別器)である。評価モデル142は、ターゲット言語の文書レイアウトを評価するための評価器であって、上述の如く、機械学習によって生成された学習済みモデルである。 The auxiliary storage unit 14 is a non-volatile storage area such as a hard disk or a large-capacity memory, and stores a program P and other data necessary for the control unit 11 to execute processing. Further, the auxiliary storage unit 14 stores the structured table 141 and the evaluation model 142. The structured table 141 is a table (identifier) that identifies each element constituting the document in the source language and defines rules for assigning metadata. The evaluation model 142 is an evaluator for evaluating the document layout of the target language, and is a trained model generated by machine learning as described above.

なお、補助記憶部14はサーバ1に接続された外部記憶装置であってもよい。また、サーバ1は複数のコンピュータからなるマルチコンピュータであっても良く、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。 The auxiliary storage unit 14 may be an external storage device connected to the server 1. Further, the server 1 may be a multi-computer composed of a plurality of computers, or may be a virtual machine virtually constructed by software.

また、本実施の形態においてサーバ1は上記の構成に限られず、例えば操作入力を受け付ける入力部、画像を表示する表示部等を含んでもよい。また、サーバ1は、CD(Compact Disk)−ROM、DVD(Digital Versatile Disc)−ROM等の可搬型記憶媒体P1を読み取る読取部を備え、可搬型記憶媒体P1からプログラムPを読み取って実行するようにしても良い。あるいはサーバ1は、半導体メモリP2からプログラムPを読み込んでも良い。 Further, in the present embodiment, the server 1 is not limited to the above configuration, and may include, for example, an input unit that accepts operation input, a display unit that displays an image, and the like. Further, the server 1 includes a reading unit that reads a portable storage medium P1 such as a CD (Compact Disk) -ROM, a DVD (Digital Versatile Disc) -ROM, and reads and executes a program P from the portable storage medium P1. You can do it. Alternatively, the server 1 may read the program P from the semiconductor memory P2.

図5は、構造化テーブル141に関する説明図である。図5では、非構造化データである文書を構造化データに変換するためのルールを概念的に図示している。
例えばサーバ1は、不図示の管理者端末から、ソース言語の文書を構造化するためのルールの設定入力を受け付け、構造化テーブル141に格納しておく。具体的には、サーバ1は、非構造化データであるソース言語の文書を構成する各要素を識別する上でのルールと、各要素に付与すべきメタデータとを設定する設定入力を受け付ける。
FIG. 5 is an explanatory diagram of the structured table 141. FIG. 5 conceptually illustrates the rules for converting a document, which is unstructured data, into structured data.
For example, the server 1 receives a rule setting input for structuring a document in a source language from an administrator terminal (not shown) and stores it in the structuring table 141. Specifically, the server 1 accepts a setting input for setting a rule for identifying each element constituting a document in a source language which is unstructured data and metadata to be given to each element.

非構造化データの要素は、文書を構成するテキスト、写真、図表等であり、例えば図5において矩形枠で囲って示すように、文書のタイトル、サブタイトル、本文、写真、図など、文書を構成する基本要素である。メタデータは、各要素を定義付けるタグ情報であり、各要素にタグ付けされるタグ名や、あるいはタグ内の情報として格納される属性値などである。例えば図5に示すように、文書のタイトルに該当する要素であれば「タイトル」、サブタイトルに該当する要素であれば「サブタイトル」がメタデータ(タグ名)として付与される。 The elements of unstructured data are texts, photographs, charts, etc. that compose the document. For example, as shown in FIG. 5 surrounded by a rectangular frame, the document is composed of the title, subtitle, text, photo, figure, etc. It is a basic element to do. The metadata is tag information that defines each element, such as a tag name tagged for each element or an attribute value stored as information in the tag. For example, as shown in FIG. 5, an element corresponding to the title of a document is given a "title", and an element corresponding to a subtitle is given a "subtitle" as metadata (tag name).

サーバ1は、文書を構成する各要素を表すメタデータと、各要素を識別する際に基準とする情報の設定入力を受け付ける。例えばサーバ1は、各要素に対応するテキストの書式、座標値等について基準値の設定入力を受け付ける。例えばサーバ1は、図5に矩形枠で囲って示す各要素について、各要素を記述する際に用いられるテキストのフォント、文字サイズ等の設定入力を受け付ける。また、サーバ1は、各要素に該当する矩形領域の座標値(位置及び範囲)に関する設定入力を受け付ける。 The server 1 accepts metadata representing each element constituting the document and setting input of information used as a reference when identifying each element. For example, the server 1 accepts input for setting reference values for text formats, coordinate values, and the like corresponding to each element. For example, the server 1 accepts setting inputs such as a text font and a character size used when describing each element for each element shown in FIG. 5 surrounded by a rectangular frame. Further, the server 1 accepts a setting input regarding the coordinate values (position and range) of the rectangular area corresponding to each element.

サーバ1は、設定された各要素のメタデータと、各要素に対応する書式、座標値等の情報とを対応付けて構造化テーブル141に格納する。これにより、サーバ1は、書式、レイアウト等の各要素の特徴に応じて、各要素に何れのメタデータを付与すべきかを識別可能となる。 The server 1 stores the metadata of each set element in the structured table 141 in association with the information such as the format and the coordinate value corresponding to each element. As a result, the server 1 can identify which metadata should be added to each element according to the characteristics of each element such as the format and layout.

なお、上記では各要素を識別する際の基準として書式及び座標値を挙げたが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、要素間の距離(行間)などを基準として各要素を識別するようにしてもよい。このように、サーバ1は予め定められたルールに従って各要素を識別し、構造化を行うことができればよく、そのルール内容は特に限定されない。 In the above, the format and the coordinate values are given as the criteria for identifying each element, but the present embodiment is not limited to this. For example, the server 1 may identify each element based on the distance between the elements (line spacing) or the like. In this way, the server 1 only needs to be able to identify and structure each element according to a predetermined rule, and the content of the rule is not particularly limited.

図6は、構造化データの生成処理に関する説明図である。サーバ1は、上記で設定された構造化テーブル141を参照して、非構造化データであるソース言語の文書を構造化する処理を行う。
例えばサーバ1は、端末2からソース言語の文書のアップロードを受け、当該文書を構造化した構造化データを生成する。サーバ1は、構造化テーブル141を参照して、端末2から取得した文書内の各要素を識別し、メタデータを付与する。例えば図6に示すように、サーバ1は、構造化テーブル141に格納されている書式、座標値等に係る基準値を参照して、文書内のタイトル、サブタイトル、本文、写真、図表、キャプションなどの各要素を識別する。そしてサーバ1は、各要素に対して対応するメタデータを付与し、メタデータに従って各要素を相互に関連付けた構造化データを生成する。
FIG. 6 is an explanatory diagram relating to the generation process of structured data. The server 1 refers to the structured table 141 set above, and performs a process of structuring a document in the source language which is unstructured data.
For example, the server 1 receives an upload of a document in the source language from the terminal 2 and generates structured data in which the document is structured. The server 1 refers to the structured table 141, identifies each element in the document acquired from the terminal 2, and adds metadata. For example, as shown in FIG. 6, the server 1 refers to the reference value related to the format, the coordinate value, etc. stored in the structured table 141, and the title, subtitle, text, photograph, chart, caption, etc. in the document. Identify each element of. Then, the server 1 assigns the corresponding metadata to each element, and generates structured data in which the elements are associated with each other according to the metadata.

図7は、文書翻訳処理に関する説明図である。図7では、構造化した文書内の各要素のうち、テキスト要素をターゲット言語に変換(翻訳)する様子を図示している。
サーバ1は、上記で構造化した各要素のうち、テキストであるタイトル、サブタイトル、本文、キャプションなどを、要素単位で個別にターゲット言語に変換する。例えばサーバ1は、所定の翻訳エンジンに対し、タイトル、サブタイトル、本文等の各要素を個別に入力し、ターゲット言語に変換したテキストを出力として取得する。
FIG. 7 is an explanatory diagram relating to the document translation process. FIG. 7 illustrates how the text element is converted (translated) into the target language among the elements in the structured document.
Among the elements structured above, the server 1 individually converts the text title, subtitle, body, caption, etc. into the target language for each element. For example, the server 1 individually inputs each element such as a title, a subtitle, and a text to a predetermined translation engine, and acquires the text converted into the target language as an output.

図7では、「本文」として識別された文書内のあるパラグラフをターゲット言語に変換する際の処理イメージを図示してある。サーバ1は、メタデータとして当該パラグラフに付与したヘッダ及びフッタのタグに従い、各タグの間に位置するテキストを改行せずに一繋ぎの文字列として翻訳エンジンに入力する。そしてサーバ1は、ターゲット言語に変換したテキストを翻訳エンジンから取得する。サーバ1は、上記のヘッダ及びフッタのタグの間に格納されていたテキスト、つまり翻訳前のソース言語のパラグラフを、変換後のテキストに置換して構造化データに格納する。 FIG. 7 illustrates a processing image when converting a paragraph in a document identified as the "body" into a target language. According to the header and footer tags assigned to the paragraph as metadata, the server 1 inputs the text located between the tags into the translation engine as a continuous character string without line breaks. Then, the server 1 acquires the text converted into the target language from the translation engine. The server 1 replaces the text stored between the header and footer tags, that is, the paragraph of the source language before translation, with the text after translation and stores it in the structured data.

サーバ1は、元の文書を構成する各テキストを、メタデータを付与した要素単位でターゲット言語に順次変換し、構造化データに格納する。これによってサーバ1は、最終的に文書内の全てのテキストをターゲット言語に変換した、翻訳後の文書の構造化データを生成する。 The server 1 sequentially converts each text constituting the original document into the target language in element units to which metadata is added, and stores the text in the structured data. As a result, the server 1 finally generates structured data of the translated document in which all the text in the document is converted into the target language.

なお、例えばサーバ1は、各テキスト要素に付与されたメタデータに応じて、テキスト毎に異なる翻訳アルゴリズムで変換を行ってもよい。例えばサーバ1は、各テキストに付与されたメタデータの種類に応じて異なる翻訳エンジンを選択し、ターゲット言語への変換を行う。これにより、例えば特許明細書のように、テキストの記載箇所によっては表現が大きく異なる文書を対象とする場合に、表現の違いを考慮して適切な翻訳を行うことができる。 Note that, for example, the server 1 may perform conversion by a different translation algorithm for each text according to the metadata assigned to each text element. For example, the server 1 selects a different translation engine according to the type of metadata assigned to each text, and performs conversion to the target language. As a result, when a document having a significantly different expression depending on the description location of the text, such as a patent specification, is targeted, appropriate translation can be performed in consideration of the difference in expression.

また、例えばサーバ1は、メタデータに応じて、対応するテキストをターゲット言語に変換(翻訳)するか否か自体を決定するようにしてもよい。これにより、例えば論文末尾に記載される引用文献のように、翻訳不要なテキストが変換される事態を防止できる。このように、サーバ1は、メタデータに応じたターゲット言語への変換を実行可能であればよい。 Further, for example, the server 1 may determine whether or not to convert (translate) the corresponding text into the target language according to the metadata. As a result, it is possible to prevent a situation in which untranslated text is converted, for example, a cited document described at the end of a paper. In this way, the server 1 may be capable of performing conversion to the target language according to the metadata.

図8は、レイアウト生成処理に関する説明図である。図8では、構造化した文書内の各要素であって、翻訳後のテキストを含む各要素を再配置した文書のレイアウトデータを生成する様子を概念的に図示している。図8に基づき、レイアウトデータの生成処理について説明する。
上述の如く、サーバ1は元の文書を構造化した構造化データを生成し、文書内の各テキストをターゲット言語に変換する。サーバ1は、変換後(翻訳後)のテキストを含む各要素を、文書ページに相当する所定領域に再配置し、翻訳後の文書ページに相当するレイアウトデータ(画像)を生成する。
FIG. 8 is an explanatory diagram relating to the layout generation process. FIG. 8 conceptually illustrates how each element in a structured document is generated by rearranging each element including the translated text to generate layout data of the document. The layout data generation process will be described with reference to FIG.
As described above, the server 1 generates structured data in which the original document is structured, and converts each text in the document into the target language. The server 1 rearranges each element including the converted (translated) text in a predetermined area corresponding to the document page, and generates layout data (image) corresponding to the translated document page.

具体的には、サーバ1は、構造化された各要素の配置座標、サイズ等をランダムに決定し、複数パターンのレイアウトデータを生成する。図8では、M通りのレイアウトデータを生成する様子を図示している。サーバ1は、各々のレイアウトパターンで各各要素の座標、サイズ等が異なるようにして、互いにレイアウトが異なるM通りのレイアウト情報を生成する。なお、サーバ1は、元の文書のページ数などに応じて、一又は複数のページに亘るレイアウトデータをM通り生成する。 Specifically, the server 1 randomly determines the arrangement coordinates, sizes, etc. of each structured element, and generates layout data of a plurality of patterns. FIG. 8 illustrates how M ways of layout data are generated. The server 1 generates M different layout information with different layouts by making the coordinates, size, etc. of each element different in each layout pattern. The server 1 generates layout data over one or a plurality of pages in M ways according to the number of pages of the original document and the like.

サーバ1は、ランダムに生成したM通りのレイアウトデータそれぞれについて、レイアウトの確からしさを評価したスコアを算出する。具体的には、サーバ1は、ターゲット言語の既存文書のレイアウトを学習済みの評価モデル142を用いて、生成されたM通りのレイアウトデータそれぞれのスコアを算出する。 The server 1 calculates a score that evaluates the certainty of the layout for each of the randomly generated M layout data. Specifically, the server 1 calculates the score of each of the generated M-like layout data by using the evaluation model 142 in which the layout of the existing document in the target language has been learned.

図9は、レイアウト学習処理に関する説明図である。図9では、機械学習によって評価モデル142を生成する様子を概念的に図示している。本実施の形態では、サーバ1は評価モデル142として、CNN(Convolution Neural Network)に係るニューラルネットワークを生成する。 FIG. 9 is an explanatory diagram relating to the layout learning process. FIG. 9 conceptually illustrates how the evaluation model 142 is generated by machine learning. In the present embodiment, the server 1 generates a neural network related to a CNN (Convolution Neural Network) as an evaluation model 142.

なお、本実施の形態では評価モデル142がCNNであるものとして説明するが、評価モデル142はその他のニューラルネットワーク、SVM(Support Vector Machine)、ベイジアンネットワーク、決定木など、その他の学習済みモデルであってもよい。 In this embodiment, the evaluation model 142 is described as being a CNN, but the evaluation model 142 is another trained model such as another neural network, SVM (Support Vector Machine), Bayesian network, decision tree, etc. You may.

本実施の形態でサーバ1は、ランク学習の手法を用いて評価モデル142を生成する。ランク学習は、データ集合の序列を学習する学習手法である。ディープラーニングによりランク学習を行うニューラルネットワークとしては、例えばDeepLank、SiameseNet等が知られている。ランク学習は公知の学習手法であるため、その詳細な説明は省略する。 In the present embodiment, the server 1 generates the evaluation model 142 by using the rank learning method. Rank learning is a learning method for learning the order of a data set. As a neural network that performs rank learning by deep learning, for example, DeepLank, SiameseNet, and the like are known. Since rank learning is a known learning method, detailed description thereof will be omitted.

例えばサーバ1は、翻訳対象とするソース言語の文書と属性が類似するターゲット言語の既存文書をインターネット上から収集し、収集した既存文書を教師データとして用いる。例えばサーバ1は、論文、マニュアル書、公的文書等の文書分野に応じて、属性の類似性を判定する。サーバ1は、例えば文字認識等の手段で既存文書の分野を把握してもよく、既存文書の取得元であるWebサイト(例えば論文掲載サイト)等から収集した文書の分野を把握してもよい。 For example, the server 1 collects an existing document in a target language whose attributes are similar to the document in the source language to be translated from the Internet, and uses the collected existing document as teacher data. For example, the server 1 determines the similarity of attributes according to a document field such as a paper, a manual, or a public document. The server 1 may grasp the field of the existing document by means such as character recognition, or may grasp the field of the document collected from the website (for example, the article publication site) from which the existing document is acquired. ..

例えばサーバ1は、上記の教師データとして、翻訳対象とするソース言語の文書と同様に、メタデータが付与されていない非構造化データ(例えばPDFファイル)である既存文書を収集する。次にサーバ1は、既存文書をXMLファイル等の構造化データに変換する。例えばサーバ1は、ソース言語の文書を構造化した場合と同様に、ターゲット言語についても構造化のためのルールについて設定入力を受け付け、構造化テーブル141を用意しておく。サーバ1は、ターゲット言語に対応する構造化テーブル141を参照して構造化を行う。 For example, the server 1 collects, as the above-mentioned teacher data, an existing document which is unstructured data (for example, a PDF file) to which no metadata is added, like a document in the source language to be translated. Next, the server 1 converts the existing document into structured data such as an XML file. For example, the server 1 accepts the setting input for the rules for structuring the target language as well as the case where the document in the source language is structured, and prepares the structured table 141. The server 1 structures by referring to the structured table 141 corresponding to the target language.

サーバ1は、ターゲット言語用の構造化テーブル141を参照して、収集した既存文書に含まれる各要素を書式、座標値等から識別し、各要素にメタデータを付与する。これによりサーバ1は、既存文書内のテキスト、写真、図表等を所定の要素単位で構造化する。 The server 1 refers to the structured table 141 for the target language, identifies each element included in the collected existing document from the format, the coordinate value, and the like, and adds metadata to each element. As a result, the server 1 structures texts, photographs, charts, etc. in the existing document in predetermined element units.

サーバ1は、収集した既存文書のページ画像を、レイアウトデータの正解データとして用いる。以下の説明では便宜上、当該レイアウトデータを「既存レイアウトデータ」と呼ぶ。例えばサーバ1は、既存レイアウトデータをスコアが「1」の正解データとして用いる。 The server 1 uses the page image of the collected existing document as the correct answer data of the layout data. In the following description, for convenience, the layout data is referred to as "existing layout data". For example, the server 1 uses the existing layout data as the correct answer data having a score of "1".

さらにサーバ1は、同じページに配置されていた各要素であって、上記で構造化した各要素の配置座標をランダムに入れ替え、各要素の配置を変更した複数のレイアウトデータを生成する。以下の説明では便宜上、当該レイアウトデータを「偽レイアウトデータ」と呼ぶ。サーバ1は、偽レイアウトデータをスコアが「0」の不正解データとして用いる。 Further, the server 1 randomly replaces the arrangement coordinates of each element structured above in each element arranged on the same page, and generates a plurality of layout data in which the arrangement of each element is changed. In the following description, for convenience, the layout data is referred to as "fake layout data". The server 1 uses the fake layout data as incorrect answer data having a score of "0".

サーバ1は、既存レイアウトデータと、既存レイアウトデータから各要素の配置を変更した偽レイアウトデータとをニューラルネットワークに入力し、ランク学習を行う。具体的には、サーバ1は、既存レイアウトデータのスコアと、上記で生成した複数の偽レイアウトデータそれぞれのスコアとを比較し、既存レイアウトデータのスコアが、複数の偽レイアウトデータのいずれのスコアよりも高くなるよう学習を行う。これによりサーバ1は、評価モデル142を生成する。サーバ1は、生成した評価モデル142を用いてレイアウトデータのスコアを算出する。 The server 1 inputs the existing layout data and the false layout data in which the arrangement of each element is changed from the existing layout data into the neural network, and performs rank learning. Specifically, the server 1 compares the score of the existing layout data with the score of each of the plurality of fake layout data generated above, and the score of the existing layout data is higher than the score of any of the plurality of fake layout data. Learn to be high. As a result, the server 1 generates the evaluation model 142. The server 1 calculates the score of the layout data using the generated evaluation model 142.

なお、上記でサーバ1は教師データの一部(偽レイアウトデータ)を自ら生成するものとしたが、教師データは全て人手で作成されたものであってもよい。また、教師データに対し、人手でスコアや順位といった正解値をラベル付けしてもよい。 In the above, the server 1 is supposed to generate a part of the teacher data (fake layout data) by itself, but the teacher data may be all created manually. In addition, the teacher data may be manually labeled with correct values such as scores and rankings.

また、レイアウトの学習処理と生成処理とを行う処理主体(サーバ1)は同一でなくともよい。 Further, the processing entity (server 1) that performs the layout learning process and the generation process does not have to be the same.

図8に戻って説明を続ける。サーバ1は、ソース言語の文書から生成したM通りのレイアウトデータそれぞれを評価モデル142に入力し、各レイアウトデータのスコアを算出する。より詳細には、サーバ1は、M通りのレイアウトについてページ毎にレイアウトデータを評価モデル142に入力し、全ページのスコアを合算したトータルスコアを算出する。 The explanation will be continued by returning to FIG. The server 1 inputs each of the M-like layout data generated from the document in the source language into the evaluation model 142, and calculates the score of each layout data. More specifically, the server 1 inputs layout data into the evaluation model 142 for each page for M different layouts, and calculates a total score by adding the scores of all the pages.

サーバ1は、上記で算出したスコアに基づき、M通りのレイアウトデータの順位を決定する。サーバ1は、決定した順位に応じて、生成したレイアウトデータを端末2に出力する。例えばサーバ1は、最上位のレイアウトデータを端末2に出力する。これによりサーバ1は、テキストをソース言語からターゲット言語に変換した文書ファイルであって、レイアウトを最適化した文書ファイルを提供する。 The server 1 determines the order of layout data according to M based on the score calculated above. The server 1 outputs the generated layout data to the terminal 2 according to the determined order. For example, the server 1 outputs the top-level layout data to the terminal 2. As a result, the server 1 provides a document file in which the text is converted from the source language to the target language and the layout is optimized.

なお、例えばサーバ1は、最上位のレイアウトデータだけでなく、上位所定数のレイアウトデータを出力するようにしてもよい。また、例えばサーバ1は、生成した全てのレイアウトデータを出力し、併せてスコアや順位を提示(出力)するようにしてもよい。このように、サーバ1は、算出したスコア(評価)に応じてレイアウトデータを出力することができればよく、その出力態様は特に限定されない。 For example, the server 1 may output not only the top-level layout data but also a predetermined number of high-level layout data. Further, for example, the server 1 may output all the generated layout data and also present (output) the score and the ranking. As described above, the server 1 only needs to be able to output the layout data according to the calculated score (evaluation), and the output mode is not particularly limited.

また、上記ではレイアウトデータとして文書ファイルを生成して端末2に出力するものとしたが、本実施の形態はこれに限定されず、例えば最上位のレイアウトに係る各テキスト、写真、図表等の座標、サイズなどのデータのみを出力し、文書ファイルの生成は端末2(クライアント)側で実行してもよい。すなわち、サーバ1は、翻訳後の文書レイアウトに関する情報(レイアウトデータ)を出力可能であればよく、文書ファイルの生成は必須ではない。 Further, in the above, a document file is generated as layout data and output to the terminal 2, but the present embodiment is not limited to this, and for example, the coordinates of each text, photograph, chart, etc. related to the top-level layout. , Only data such as size may be output, and the document file may be generated on the terminal 2 (client) side. That is, the server 1 only needs to be able to output information (layout data) regarding the translated document layout, and it is not essential to generate the document file.

以上より、本実施の形態によれば、非構造化データであるソース言語の文書を構造化した上でターゲット言語に変換するため、非構造化データに含まれるテキストを適切に翻訳することができる。また、評価モデル142を用いて、翻訳後のテキストを含む各要素を適切なレイアウトで再配置したレイアウトデータを提供することができる。 From the above, according to the present embodiment, since the document in the source language which is the unstructured data is structured and then converted into the target language, the text contained in the unstructured data can be appropriately translated. .. In addition, the evaluation model 142 can be used to provide layout data in which each element including the translated text is rearranged in an appropriate layout.

図10は、レイアウト学習処理の手順を示すフローチャートである。図10に基づき、機械学習を行って評価モデル142を生成する処理の内容について説明する。
サーバ1の制御部11は、ネットワークNを介して、翻訳対象とするソース言語の文書と分野が共通するターゲット言語の既存文書を収集する(ステップS11)。例えば制御部11は、非構造化データである文書のページ画像(既存レイアウトデータ)を収集する。制御部11は、ターゲット言語に対応する構造化テーブル141を参照して、既存文書に含まれるテキスト、写真、図表等の各要素を識別し、各要素を定義付けるメタデータを付与した構造化データを生成する(ステップS12)。
FIG. 10 is a flowchart showing the procedure of the layout learning process. Based on FIG. 10, the content of the process of performing machine learning to generate the evaluation model 142 will be described.
The control unit 11 of the server 1 collects the existing document of the target language having the same field as the document of the source language to be translated via the network N (step S11). For example, the control unit 11 collects a page image (existing layout data) of a document which is unstructured data. The control unit 11 refers to the structured table 141 corresponding to the target language, identifies each element such as a text, a photograph, a chart, etc. included in the existing document, and provides structured data to which metadata for defining each element is added. Generate (step S12).

制御部11は、既存文書に含まれる各要素を再配置した偽レイアウトデータを生成する(ステップS13)。具体的には、制御部11は、ステップS11で取得した既存文書に含まれる各要素をランダムに再配置し、複数の偽レイアウトデータを生成する。 The control unit 11 generates fake layout data in which each element included in the existing document is rearranged (step S13). Specifically, the control unit 11 randomly rearranges each element included in the existing document acquired in step S11 to generate a plurality of fake layout data.

制御部11は、ステップS11で収集した文書の既存レイアウトデータと、ステップS13で生成した偽レイアウトデータに基づき、レイアウトデータを入力した場合にレイアウトデータのスコア(評価)を出力する評価モデル142を生成する(ステップS14)。具体的には、制御部11は、既存レイアウトデータを正解データとし、偽レイアウトデータを不正解データとしたランク学習を行い、CNNに係る評価モデル142を生成する。制御部11は、一連の処理を終了する。 The control unit 11 generates an evaluation model 142 that outputs a score (evaluation) of the layout data when the layout data is input, based on the existing layout data of the document collected in step S11 and the fake layout data generated in step S13. (Step S14). Specifically, the control unit 11 performs rank learning using the existing layout data as correct answer data and the false layout data as incorrect answer data, and generates an evaluation model 142 related to CNN. The control unit 11 ends a series of processes.

図11は、文書翻訳処理の手順を示すフローチャートである。図11に基づき、非構造化データであるソース言語の文書内のテキストをターゲット言語に翻訳し、翻訳後のテキストを含む各要素を再配置したレイアウトデータを生成する処理の内容について説明する。
サーバ1の制御部11は、非構造化データであるソース言語の文書を端末2から取得する(ステップS31)。制御部11は、ソース言語に対応する構造化テーブル141を参照して、取得した文書を構成するテキスト、写真、図表等の各要素を識別し、各要素に対してメタデータを付与した構造化データを生成する(ステップS32)。
FIG. 11 is a flowchart showing the procedure of the document translation process. Based on FIG. 11, the content of the process of translating the text in the document of the source language which is the unstructured data into the target language and rearranging each element including the translated text to generate the layout data will be described.
The control unit 11 of the server 1 acquires a document in the source language, which is unstructured data, from the terminal 2 (step S31). The control unit 11 refers to the structured table 141 corresponding to the source language, identifies each element such as text, a photograph, a chart, etc. that constitutes the acquired document, and adds metadata to each element. Data is generated (step S32).

制御部11は、構造化された文書内のテキストをターゲット言語に変換する(ステップS33)。この場合に制御部11は、例えばステップS32で文書内の各テキスト(要素)に付与したメタデータを参照して、各テキストをメタデータに応じた翻訳エンジンでターゲット言語に変換するなどしてもよい。 The control unit 11 converts the text in the structured document into the target language (step S33). In this case, the control unit 11 may refer to the metadata given to each text (element) in the document in step S32, and convert each text into the target language by the translation engine corresponding to the metadata. Good.

制御部11は、変換後のテキストを含む文書内の各要素を、元の文書ページに相当する所定領域に再配置したレイアウトデータを生成する(ステップS34)。具体的には、制御部11は、各要素を配置する座標をランダムに決定し、複数のレイアウトデータを生成する。 The control unit 11 generates layout data in which each element in the document including the converted text is rearranged in a predetermined area corresponding to the original document page (step S34). Specifically, the control unit 11 randomly determines the coordinates for arranging each element and generates a plurality of layout data.

制御部11は、既存文書のレイアウトを学習済みの評価モデル142を用いて、ステップS24で生成したレイアウトデータのスコアを算出する(ステップS35)。具体的には、制御部11は、ステップS34で生成した複数のレイアウトデータそれぞれを評価モデル142に入力し、各レイアウトデータのスコアを出力として取得する。制御部11は、算出したスコアに応じて各レイアウトデータの順位付けを行い、最上位のレイアウトデータを端末2に出力する(ステップS36)。制御部11は、一連の処理を終了する。 The control unit 11 calculates the score of the layout data generated in step S24 by using the evaluation model 142 in which the layout of the existing document has been learned (step S35). Specifically, the control unit 11 inputs each of the plurality of layout data generated in step S34 into the evaluation model 142, and acquires the score of each layout data as an output. The control unit 11 ranks each layout data according to the calculated score, and outputs the highest-level layout data to the terminal 2 (step S36). The control unit 11 ends a series of processes.

なお、上記では、評価モデル142がレイアウトデータのスコア(評価値)を出力するものとしたが、レイアウトの適否を示す二値のパラメータを出力するようにしてもよい。すなわち、サーバ1は、評価モデル142を用いてレイアウトデータの評価を取得可能であればよく、取得する評価は連続的な確率値に限定されない。 In the above, the evaluation model 142 outputs the score (evaluation value) of the layout data, but a binary parameter indicating the suitability of the layout may be output. That is, the server 1 may be able to acquire the evaluation of the layout data using the evaluation model 142, and the evaluation to be acquired is not limited to the continuous probability value.

以上より、本実施の形態1によれば、非構造化データに含まれるテキストを適切に翻訳することができる。 From the above, according to the first embodiment, the text included in the unstructured data can be appropriately translated.

また、本実施の形態1によれば、構造化の際に付与したメタデータに応じて翻訳を行うことで、機械翻訳の精度や利便性を向上させることができる。 Further, according to the first embodiment, the accuracy and convenience of machine translation can be improved by performing translation according to the metadata given at the time of structuring.

また、本実施の形態1によれば、既存文書のレイアウトを学習済みの評価モデル142を用いることで、適切なレイアウトに整えた翻訳後の文書を提供することができる。 Further, according to the first embodiment, by using the evaluation model 142 in which the layout of the existing document has been learned, it is possible to provide the translated document arranged in an appropriate layout.

また、本実施の形態1によれば、ランク学習の手法を用いて複数のレイアウトの順位付けを行うことで、レイアウトの評価を好適に行うことができる。 Further, according to the first embodiment, the layout can be preferably evaluated by ranking a plurality of layouts by using the rank learning method.

また、本実施の形態1によれば、翻訳対象とするソース言語の文書(非構造化データ)と属性が類似するターゲット言語の既存文書(サンプル)のレイアウトを学習した評価モデル142を用いることで、レイアウトの評価を好適に行うことができる。 Further, according to the first embodiment, by using the evaluation model 142 that has learned the layout of the existing document (sample) in the target language whose attributes are similar to the document (unstructured data) in the source language to be translated. , The layout can be evaluated suitably.

(実施の形態2)
本実施の形態では、人手でルールが設定された構造化テーブル141に代えて、機械学習によって構築された構造化モデル143を用いて構造化を行う形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図12は、実施の形態2に係るサーバ1の構成例を示すブロック図である。本実施の形態に係るサーバ1の補助記憶部14は、構造化テーブル141に代えて、構造化モデル143を記憶している。構造化モデル143は、機械学習によって構築された学習済みモデルであり、ソース言語の文書内の各要素を識別するための識別器である。
(Embodiment 2)
In the present embodiment, instead of the structured table 141 in which the rules are manually set, the configuration in which the structured model 143 constructed by machine learning is used for structuring will be described. The contents overlapping with the first embodiment are designated by the same reference numerals and the description thereof will be omitted.
FIG. 12 is a block diagram showing a configuration example of the server 1 according to the second embodiment. The auxiliary storage unit 14 of the server 1 according to the present embodiment stores the structured model 143 instead of the structured table 141. The structured model 143 is a trained model constructed by machine learning and is a discriminator for identifying each element in a document in the source language.

図13は、構造化学習処理に関する説明図である。図13では、非構造化データであるソース言語の文書の教師データから構造化モデル143を生成する様子を概念的に図示している。図13に基づき、本実施の形態の概要を説明する。
上述の如く、本実施の形態においてサーバ1は、人手でルールが設定された構造化テーブル141に代えて、機械学習を行うことで構築した構造化モデル143を用いて文書の構造化を行う。例えばサーバ1は、CNNに係るニューラルネットワーク、具体的にはセマンティックセグメンテーションに係るニューラルネットワークを構造化モデル143として生成し、文書の構造化処理に用いる。
FIG. 13 is an explanatory diagram relating to the structured learning process. FIG. 13 conceptually illustrates how the structured model 143 is generated from the teacher data of the document of the source language which is the unstructured data. An outline of the present embodiment will be described with reference to FIG.
As described above, in the present embodiment, the server 1 structures the document by using the structured model 143 constructed by performing machine learning instead of the structured table 141 in which the rules are set manually. For example, the server 1 generates a neural network related to CNN, specifically, a neural network related to semantic segmentation as a structured model 143, and uses it for document structuring processing.

例えばサーバ1は、ソース言語の教師用文書に対し、当該文書を構成するタイトル、本文等の各要素について、メタデータの正解値が関連付けられた教師データを用いて学習を行う。例えば図13に示すように、教師データでは、各要素に相当する領域(矩形枠で図示)に対し、メタデータの正解値に相当するタグ名が関連付けられている。サーバ1は、当該教師データを用いて構造化モデル143を生成する。 For example, the server 1 learns about each element such as the title and the text constituting the document for the teacher in the source language by using the teacher data associated with the correct answer value of the metadata. For example, as shown in FIG. 13, in the teacher data, a tag name corresponding to the correct answer value of the metadata is associated with the area corresponding to each element (shown by a rectangular frame). The server 1 generates the structured model 143 using the teacher data.

サーバ1は、教師用文書のページ画像を構造化モデル143に入力し、当該ページ画像に含まれる各要素を識別した識別結果を出力として取得する。例えばサーバ1は、各要素に相当する画像領域の座標値と、当該領域に含まれる要素に付与すべきメタデータとを出力として取得する。サーバ1は、出力された画像領域の座標値及びメタデータを正解値と比較し、両者が近似するように、構造化モデル143において演算に用いる重み等のパラメータを最適化する。これによりサーバ1は、構造化モデル143を生成する。 The server 1 inputs the page image of the teacher's document into the structured model 143, and acquires the identification result of identifying each element included in the page image as an output. For example, the server 1 acquires the coordinate values of the image area corresponding to each element and the metadata to be given to the elements included in the area as output. The server 1 compares the coordinate values and metadata of the output image area with the correct answer values, and optimizes parameters such as weights used in the calculation in the structured model 143 so that they approximate each other. As a result, the server 1 generates the structured model 143.

端末2からソース言語の文書を取得して翻訳を行う場合、サーバ1は、上記で生成した構造化モデル143を用いて構造化を行う。具体的には、サーバ1は、取得したソース言語の文書のページ画像を構造化モデル143に入力し、各要素を識別した識別結果を取得する。サーバ1は、識別結果に従って文書内の各要素を抽出し、メタデータを付与する。これにより、サーバ1はソース言語の文書を構造化した構造化データを生成する。その後、サーバ1は実施の形態1と同様に、ターゲット言語へのテキスト変換を行い、レイアウトデータを生成する。 When a document in the source language is acquired from the terminal 2 and translated, the server 1 performs structuring using the structuring model 143 generated above. Specifically, the server 1 inputs the page image of the acquired document in the source language into the structured model 143, and acquires the identification result that identifies each element. The server 1 extracts each element in the document according to the identification result and adds metadata. As a result, the server 1 generates structured data in which the document in the source language is structured. After that, the server 1 performs text conversion to the target language and generates layout data as in the first embodiment.

図14は、構造化学習処理の手順の一例を示すフローチャートである。図14に基づき、機械学習によって構造化モデル143を生成する処理の内容について説明する。
サーバ1の制御部11は、構造化モデル143を生成するための教師データであって、非構造化データである教師用文書に対し、当該文書を構成する各要素のメタデータの正解値が関連付けられた教師データを取得する(ステップS201)。制御部11は、取得した教師データを用いて構造化モデル143を生成する(ステップS202)。具体的には、制御部11は、教師用文書のページ画像を構造化モデル143に入力し、各要素に相当する画像領域、及び当該領域に含まれる要素に付与すべきメタデータを識別した識別結果を出力として取得する。制御部11は、取得した識別結果を正解値と比較し、両者が近似するように重み等の各種パラメータを最適化して構造化モデル143を生成する。制御部11は、一連の処理を終了する。
FIG. 14 is a flowchart showing an example of the procedure of the structured learning process. Based on FIG. 14, the contents of the process of generating the structured model 143 by machine learning will be described.
The control unit 11 of the server 1 associates the correct answer value of the metadata of each element constituting the document with the teacher document which is the teacher data for generating the structured model 143 and is the unstructured data. The obtained teacher data is acquired (step S201). The control unit 11 generates a structured model 143 using the acquired teacher data (step S202). Specifically, the control unit 11 inputs the page image of the teacher's document into the structured model 143, and identifies the image area corresponding to each element and the metadata to be given to the element included in the area. Get the result as output. The control unit 11 compares the acquired identification result with the correct answer value, optimizes various parameters such as weights so that the two are approximate, and generates the structured model 143. The control unit 11 ends a series of processes.

以上より、本実施の形態2によれば、機械学習によって構築した構造化モデル143を用いてソース言語の文書の構造化を行うこともできる。 From the above, according to the second embodiment, the document in the source language can be structured by using the structured model 143 constructed by machine learning.

(実施の形態3)
図15は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。
取得部151は、第1言語のテキストを含む非構造化データを取得する。生成部152は、前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成する。変換部153は、構造化された前記テキストを第2言語に変換する。
(Embodiment 3)
FIG. 15 is a functional block diagram showing the operation of the server 1 in the above-described form. When the control unit 11 executes the program P, the server 1 operates as follows.
The acquisition unit 151 acquires unstructured data including the text of the first language. The generation unit 152 generates structured data in which each element including the text is structured by using a discriminator that identifies each element constituting the unstructured data. The conversion unit 153 converts the structured text into a second language.

本実施の形態3は以上の如きであり、その他は実施の形態1及び2と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。 The third embodiment is as described above, and the other parts are the same as those of the first and second embodiments. Therefore, the corresponding parts are designated by the same reference numerals and detailed description thereof will be omitted.

今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。 The embodiments disclosed this time should be considered to be exemplary in all respects and not restrictive. The scope of the present invention is indicated by the scope of claims, not the above-mentioned meaning, and is intended to include all modifications within the meaning and scope equivalent to the scope of claims.

1 サーバ(情報処理装置)
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 構造化テーブル
142 評価モデル
143 構造化モデル
2 端末
1 Server (information processing device)
11 Control unit 12 Main storage unit 13 Communication unit 14 Auxiliary storage unit P program 141 Structured table 142 Evaluation model 143 Structured model 2 Terminal

Claims (7)

第1言語のテキストを含む非構造化データを取得する取得部と、
前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成する生成部と、
構造化された前記テキストを第2言語に変換する変換部と
を備えることを特徴とする情報処理装置。
An acquisition unit that acquires unstructured data including text in the first language,
A generator that generates structured data in which each element including the text is structured by using a classifier that identifies each element that constitutes the unstructured data, and a generator.
An information processing device including a conversion unit that converts the structured text into a second language.
前記生成部は、前記各要素に対し、該要素を定義付けるメタデータを付与した前記構造化データを生成し、
前記変換部は、前記テキストに付与された前記メタデータを参照して前記第2言語に変換する
ことを特徴とする請求項1に記載の情報処理装置。
The generation unit generates the structured data to which the metadata defining the element is added to each element.
The information processing device according to claim 1, wherein the conversion unit refers to the metadata attached to the text and converts the data into the second language.
構造化された前記各要素を所定領域に配置したレイアウトデータを生成するレイアウト生成部と、
複数の前記レイアウトデータのサンプルを学習済みの評価器を用いて、前記レイアウト生成部が生成した前記レイアウトデータの評価を取得する評価部と、
評価結果に応じて前記レイアウトデータを出力する出力部と
を備えることを特徴とする請求項1又は2に記載の情報処理装置。
A layout generator that generates layout data in which each of the structured elements is arranged in a predetermined area,
An evaluation unit that acquires an evaluation of the layout data generated by the layout generation unit using an evaluation device that has learned a plurality of samples of the layout data, and an evaluation unit.
The information processing apparatus according to claim 1 or 2, further comprising an output unit that outputs the layout data according to the evaluation result.
前記レイアウト生成部は、前記各要素の配置が異なる複数の前記レイアウトデータを生成し、
前記評価部は、前記複数のレイアウトデータの順位を取得し、
前記出力部は、前記順位に応じて前記レイアウトデータを出力する
ことを特徴とする請求項3に記載の情報処理装置。
The layout generation unit generates a plurality of the layout data in which the arrangement of each element is different.
The evaluation unit acquires the ranking of the plurality of layout data and obtains the ranking.
The information processing device according to claim 3, wherein the output unit outputs the layout data according to the order.
前記評価部は、前記非構造化データと属性が類似する前記サンプルを学習済みの評価器を用いて、前記レイアウトデータの評価を取得する
ことを特徴とする請求項3に記載の情報処理装置。
The information processing apparatus according to claim 3, wherein the evaluation unit acquires an evaluation of the layout data by using an evaluation device that has learned the sample having similar attributes to the unstructured data.
第1言語のテキストを含む非構造化データを取得し、
前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成し、
構造化された前記テキストを第2言語に変換する
処理をコンピュータに実行させることを特徴とする情報処理方法。
Get unstructured data, including text in the first language,
Using a classifier that identifies each element that constitutes the unstructured data, structured data in which each element including the text is structured is generated.
An information processing method characterized in that a computer executes a process of converting the structured text into a second language.
第1言語のテキストを含む非構造化データを取得し、
前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成し、
構造化された前記テキストを第2言語に変換する
処理をコンピュータに実行させることを特徴とするプログラム。
Get unstructured data, including text in the first language,
Using a classifier that identifies each element that constitutes the unstructured data, structured data in which each element including the text is structured is generated.
A program characterized in that a computer executes a process of converting the structured text into a second language.
JP2019029326A 2019-02-21 2019-02-21 Information processing device, information processing method and program Active JP7283112B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019029326A JP7283112B2 (en) 2019-02-21 2019-02-21 Information processing device, information processing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019029326A JP7283112B2 (en) 2019-02-21 2019-02-21 Information processing device, information processing method and program

Publications (2)

Publication Number Publication Date
JP2020135523A true JP2020135523A (en) 2020-08-31
JP7283112B2 JP7283112B2 (en) 2023-05-30

Family

ID=72263314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019029326A Active JP7283112B2 (en) 2019-02-21 2019-02-21 Information processing device, information processing method and program

Country Status (1)

Country Link
JP (1) JP7283112B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07249040A (en) * 1994-03-09 1995-09-26 Kokusai Denshin Denwa Co Ltd <Kdd> Document structure analyzing method for machine translation and machine translating method using the same, document structure analyzing device, and machine translating device
JPH11250041A (en) * 1998-02-27 1999-09-17 Toshiba Corp Document processor and document processing method
JP2004280597A (en) * 2003-03-17 2004-10-07 Seiko Epson Corp Layout evaluation system and layout evaluation program, and layout evaluation method
JP2010086315A (en) * 2008-09-30 2010-04-15 Canon Inc Information processing apparatus and information processing method
US20170329747A1 (en) * 2016-05-11 2017-11-16 SiteHelix, Inc. System and method for optimizing electronic document layouts
US20180121392A1 (en) * 2016-10-28 2018-05-03 Facebook, Inc. Automatic placement of electronic media content items within an online document

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07249040A (en) * 1994-03-09 1995-09-26 Kokusai Denshin Denwa Co Ltd <Kdd> Document structure analyzing method for machine translation and machine translating method using the same, document structure analyzing device, and machine translating device
JPH11250041A (en) * 1998-02-27 1999-09-17 Toshiba Corp Document processor and document processing method
JP2004280597A (en) * 2003-03-17 2004-10-07 Seiko Epson Corp Layout evaluation system and layout evaluation program, and layout evaluation method
JP2010086315A (en) * 2008-09-30 2010-04-15 Canon Inc Information processing apparatus and information processing method
US20170329747A1 (en) * 2016-05-11 2017-11-16 SiteHelix, Inc. System and method for optimizing electronic document layouts
US20180121392A1 (en) * 2016-10-28 2018-05-03 Facebook, Inc. Automatic placement of electronic media content items within an online document

Also Published As

Publication number Publication date
JP7283112B2 (en) 2023-05-30

Similar Documents

Publication Publication Date Title
WO2021082953A1 (en) Machine reading understanding method and apparatus, storage medium, and device
WO2018207723A1 (en) Abstract generation device, abstract generation method, and computer program
AU2020279921B2 (en) Representative document hierarchy generation
US11954139B2 (en) Deep document processing with self-supervised learning
JP6838209B1 (en) Document image analyzer, document image analysis method and program
JP5469244B2 (en) Selective content extraction
CN108108342B (en) Structured text generation method, search method and device
JP6462970B1 (en) Classification device, classification method, generation method, classification program, and generation program
JP2012185722A (en) Character recognition device, character recognition method, character recognition system and character recognition program
Clausner et al. Efficient and effective OCR engine training
JP5661663B2 (en) Information extraction device
JP7230576B2 (en) Generation device, learning device, generation method and program
Apostolova et al. Combining visual and textual features for information extraction from online flyers
JP7290391B2 (en) Information processing device and program
JP5430312B2 (en) Data processing apparatus, data name generation method, and computer program
JP2020135457A (en) Generation device, learning device, generation method and program
US20210149962A1 (en) Document feature repository management
JP7283112B2 (en) Information processing device, information processing method and program
US11847432B2 (en) System and method for generating accessible user experience design guidance materials
JP7322468B2 (en) Information processing device, information processing method and program
WO2014170965A1 (en) Document processing method, document processing device, and document processing program
CN114331932A (en) Target image generation method and device, computing equipment and computer storage medium
KR20220143538A (en) Method and system for extracting information from semi-structured documents
JP6899367B2 (en) Learning device, validation device, learning method, validation method, learning program, and validation program
KR102542174B1 (en) Digital reference book provision system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230501

R150 Certificate of patent or registration of utility model

Ref document number: 7283112

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150