JP7283112B2

JP7283112B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7283112B2
Application number: JP2019029326A
Authority: JP
Inventors: 聡田端
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2023-05-30
Anticipated expiration: 2039-02-21
Also published as: JP2020135523A

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

近年、文書内のテキストを別言語に翻訳する機械翻訳技術が発展している。例えば特許文献１では、ソース言語をターゲット言語に翻訳する方法であって、ソース言語の文書から抽出されたテキストを翻訳エンジンで翻訳し、翻訳されたテキストを、元のテキストのフォーマット及び構造情報に基づいて編集する方法が開示されている。

特表２００７－５３２９９５公報

しかしながら、翻訳対象とする元の文書テキストが構造化されていない場合、不適切な翻訳文が作成されるという問題があった。

一つの側面では、非構造化データに含まれるテキストを適切に翻訳することができる情報処理装置等を提供することを目的とする。

一つの側面に係る情報処理装置は、第１言語のテキストを含む非構造化データを取得する取得部と、前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成する生成部と、構造化された前記テキストを第２言語に変換する変換部とを備えることを特徴とする。

一つの側面では、非構造化データに含まれるテキストを適切に翻訳することができる。

文書翻訳システムの構成例を示す模式図である。非構造化データを直接的に翻訳した場合の一例を示す説明図である。元の文書に従って翻訳後のテキストを配置した場合のページレイアウトの一例を示す説明図である。サーバの構成例を示すブロック図である。構造化テーブルに関する説明図である。構造化データの生成処理に関する説明図である。文書翻訳処理に関する説明図である。レイアウト生成処理に関する説明図である。レイアウト学習処理に関する説明図である。レイアウト学習処理の手順を示すフローチャートである。文書翻訳処理の手順を示すフローチャートである。実施の形態２に係るサーバの構成例を示すブロック図である。構造化学習処理に関する説明図である。構造化学習処理の手順の一例を示すフローチャートである。上述した形態のサーバの動作を示す機能ブロック図である。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。
（実施の形態１）
図１は、文書翻訳システムの構成例を示す模式図である。本実施の形態では、非構造化データである所定言語（第１言語）の文書を構造化し、構造化された文書内のテキストを別言語（第２言語）に変換することで、非構造化データを対象とした機械翻訳を好適に行う文書翻訳システムについて説明する。文書翻訳システムは、情報処理装置１及び端末２を含む。各装置はインターネット等のネットワークＮを介して通信接続されている。

なお、以下では説明の便宜上、処理対象とする非構造化データが「文書」であるものとして説明するが、本システムは非構造化データに含まれるテキストの翻訳を実行可能であればよく、処理対象とするデータは文書に限定されない。例えばテキストを含むイラスト画像を処理対象としてもよく、テキストを要素として含む非構造化データを処理可能であればよい。

また、以下の説明では便宜上、元の文書の言語を「ソース言語」と呼び、翻訳後の言語を「ターゲット言語」と呼ぶものとする。

情報処理装置１は、種々の情報処理、情報の送受信を行う装置であり、例えばサーバ装置、パーソナルコンピュータ、多機能端末等である。本実施の形態において情報処理装置１はサーバ装置であるものとし、以下では簡潔のためサーバ１と読み替える。サーバ１は、テキスト、写真、図表等の各要素から構成されるソース言語の文書であって、例えばＰＤＦ（登録商標）ファイルのように、各要素を定義付けるメタデータが各要素に付与されていない非構造化データを構造化する処理を行い、各要素に対してメタデータを付与した構造化データ（例えばＸＭＬファイル）を生成する。そしてサーバ１は、テキストを含む各要素の構造化を行った後に、構造化したテキストをターゲット言語に変換（翻訳）する。

図２は、非構造化データを直接的に翻訳した場合の一例を示す説明図である。非構造化データを対象として機械翻訳を行う場合、データ内のテキストにはメタデータが特に付与されていないため、適切な翻訳を行うことが難しい。例えば図２に示すように、単一のパラグラフであるべきテキストが不適切な箇所で改行され、そのまま機械的に翻訳されてしまうことで、不適切な翻訳文が作成されてしまうケースが生じ得る。

そこでサーバ１は、非構造化データである文書を構造化し、文書を構成するタイトル、パラグラフ、写真、図表、キャプション等の所定単位の要素毎に分割（識別）した上で翻訳を行う。これにより、図２で例示した事態を防止し、非構造化データを対象とした機械翻訳を好適に実行する。

上述の処理に加えて、サーバ１は、翻訳後のテキストを含む各要素を、ターゲット言語における文書レイアウトを考慮して再配置したレイアウトデータ、つまり翻訳版文書のページレイアウトを生成する。図３は、元の文書に従って翻訳後のテキストを配置した場合のページレイアウトの一例を示す説明図である。図３に示すように、翻訳後のテキストを含む各要素をそのまま元の文書通りの位置に配置した場合、翻訳の前後における文字数の相違などから、近接する要素（テキストや図表）が互いに重なってしまうなど、不適切なレイアウトで文書ページが作成されてしまうケースが生じ得る。そこでサーバ１は、後述するように、ターゲット言語における既存文書のレイアウトを機械学習によって学習済みの評価モデル（評価器）を用いて、各要素のレイアウトを決定する。これにより、サーバ１は、翻訳した文書を適切なページレイアウトに整えたレイアウトデータを提供する。

端末２は、サーバ１と通信を行うクライアント端末であり、例えばパーソナルコンピュータ等の情報処理端末である。例えばサーバ１は、端末２からアップロードされた文書ファイルに対して上記の処理を行い、機械翻訳を行って各要素を再配置したレイアウトデータを生成し、端末２に出力する。

図４は、サーバ１の構成例を示すブロック図である。サーバ１は、制御部１１、主記憶部１２、通信部１３、補助記憶部１４を有する。
制御部１１は、一又は複数のＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の演算処理装置を有し、補助記憶部１４に記憶されたプログラムＰを読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部１２は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等の一時記憶領域であり、制御部１１が演算処理を実行するために必要なデータを一時的に記憶する。通信部１３は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。

補助記憶部１４は、ハードディスク、大容量メモリ等の不揮発性記憶領域であり、制御部１１が処理を実行するために必要なプログラムＰ、その他のデータを記憶している。また、補助記憶部１４は、構造化テーブル１４１、評価モデル１４２を記憶している。構造化テーブル１４１は、ソース言語の文書を構成する各要素を識別し、メタデータを付与するためのルールを規定するテーブル（識別器）である。評価モデル１４２は、ターゲット言語の文書レイアウトを評価するための評価器であって、上述の如く、機械学習によって生成された学習済みモデルである。

なお、補助記憶部１４はサーバ１に接続された外部記憶装置であってもよい。また、サーバ１は複数のコンピュータからなるマルチコンピュータであっても良く、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。

また、本実施の形態においてサーバ１は上記の構成に限られず、例えば操作入力を受け付ける入力部、画像を表示する表示部等を含んでもよい。また、サーバ１は、ＣＤ（Compact Disk）－ＲＯＭ、ＤＶＤ（Digital Versatile Disc）－ＲＯＭ等の可搬型記憶媒体Ｐ１を読み取る読取部を備え、可搬型記憶媒体Ｐ１からプログラムＰを読み取って実行するようにしても良い。あるいはサーバ１は、半導体メモリＰ２からプログラムＰを読み込んでも良い。

図５は、構造化テーブル１４１に関する説明図である。図５では、非構造化データである文書を構造化データに変換するためのルールを概念的に図示している。
例えばサーバ１は、不図示の管理者端末から、ソース言語の文書を構造化するためのルールの設定入力を受け付け、構造化テーブル１４１に格納しておく。具体的には、サーバ１は、非構造化データであるソース言語の文書を構成する各要素を識別する上でのルールと、各要素に付与すべきメタデータとを設定する設定入力を受け付ける。

非構造化データの要素は、文書を構成するテキスト、写真、図表等であり、例えば図５において矩形枠で囲って示すように、文書のタイトル、サブタイトル、本文、写真、図など、文書を構成する基本要素である。メタデータは、各要素を定義付けるタグ情報であり、各要素にタグ付けされるタグ名や、あるいはタグ内の情報として格納される属性値などである。例えば図５に示すように、文書のタイトルに該当する要素であれば「タイトル」、サブタイトルに該当する要素であれば「サブタイトル」がメタデータ（タグ名）として付与される。

サーバ１は、文書を構成する各要素を表すメタデータと、各要素を識別する際に基準とする情報の設定入力を受け付ける。例えばサーバ１は、各要素に対応するテキストの書式、座標値等について基準値の設定入力を受け付ける。例えばサーバ１は、図５に矩形枠で囲って示す各要素について、各要素を記述する際に用いられるテキストのフォント、文字サイズ等の設定入力を受け付ける。また、サーバ１は、各要素に該当する矩形領域の座標値（位置及び範囲）に関する設定入力を受け付ける。

サーバ１は、設定された各要素のメタデータと、各要素に対応する書式、座標値等の情報とを対応付けて構造化テーブル１４１に格納する。これにより、サーバ１は、書式、レイアウト等の各要素の特徴に応じて、各要素に何れのメタデータを付与すべきかを識別可能となる。

なお、上記では各要素を識別する際の基準として書式及び座標値を挙げたが、本実施の形態はこれに限定されるものではない。例えばサーバ１は、要素間の距離（行間）などを基準として各要素を識別するようにしてもよい。このように、サーバ１は予め定められたルールに従って各要素を識別し、構造化を行うことができればよく、そのルール内容は特に限定されない。

図６は、構造化データの生成処理に関する説明図である。サーバ１は、上記で設定された構造化テーブル１４１を参照して、非構造化データであるソース言語の文書を構造化する処理を行う。
例えばサーバ１は、端末２からソース言語の文書のアップロードを受け、当該文書を構造化した構造化データを生成する。サーバ１は、構造化テーブル１４１を参照して、端末２から取得した文書内の各要素を識別し、メタデータを付与する。例えば図６に示すように、サーバ１は、構造化テーブル１４１に格納されている書式、座標値等に係る基準値を参照して、文書内のタイトル、サブタイトル、本文、写真、図表、キャプションなどの各要素を識別する。そしてサーバ１は、各要素に対して対応するメタデータを付与し、メタデータに従って各要素を相互に関連付けた構造化データを生成する。

図７は、文書翻訳処理に関する説明図である。図７では、構造化した文書内の各要素のうち、テキスト要素をターゲット言語に変換（翻訳）する様子を図示している。
サーバ１は、上記で構造化した各要素のうち、テキストであるタイトル、サブタイトル、本文、キャプションなどを、要素単位で個別にターゲット言語に変換する。例えばサーバ１は、所定の翻訳エンジンに対し、タイトル、サブタイトル、本文等の各要素を個別に入力し、ターゲット言語に変換したテキストを出力として取得する。

図７では、「本文」として識別された文書内のあるパラグラフをターゲット言語に変換する際の処理イメージを図示してある。サーバ１は、メタデータとして当該パラグラフに付与したヘッダ及びフッタのタグに従い、各タグの間に位置するテキストを改行せずに一繋ぎの文字列として翻訳エンジンに入力する。そしてサーバ１は、ターゲット言語に変換したテキストを翻訳エンジンから取得する。サーバ１は、上記のヘッダ及びフッタのタグの間に格納されていたテキスト、つまり翻訳前のソース言語のパラグラフを、変換後のテキストに置換して構造化データに格納する。

サーバ１は、元の文書を構成する各テキストを、メタデータを付与した要素単位でターゲット言語に順次変換し、構造化データに格納する。これによってサーバ１は、最終的に文書内の全てのテキストをターゲット言語に変換した、翻訳後の文書の構造化データを生成する。

なお、例えばサーバ１は、各テキスト要素に付与されたメタデータに応じて、テキスト毎に異なる翻訳アルゴリズムで変換を行ってもよい。例えばサーバ１は、各テキストに付与されたメタデータの種類に応じて異なる翻訳エンジンを選択し、ターゲット言語への変換を行う。これにより、例えば特許明細書のように、テキストの記載箇所によっては表現が大きく異なる文書を対象とする場合に、表現の違いを考慮して適切な翻訳を行うことができる。

また、例えばサーバ１は、メタデータに応じて、対応するテキストをターゲット言語に変換（翻訳）するか否か自体を決定するようにしてもよい。これにより、例えば論文末尾に記載される引用文献のように、翻訳不要なテキストが変換される事態を防止できる。このように、サーバ１は、メタデータに応じたターゲット言語への変換を実行可能であればよい。

図８は、レイアウト生成処理に関する説明図である。図８では、構造化した文書内の各要素であって、翻訳後のテキストを含む各要素を再配置した文書のレイアウトデータを生成する様子を概念的に図示している。図８に基づき、レイアウトデータの生成処理について説明する。
上述の如く、サーバ１は元の文書を構造化した構造化データを生成し、文書内の各テキストをターゲット言語に変換する。サーバ１は、変換後（翻訳後）のテキストを含む各要素を、文書ページに相当する所定領域に再配置し、翻訳後の文書ページに相当するレイアウトデータ（画像）を生成する。

具体的には、サーバ１は、構造化された各要素の配置座標、サイズ等をランダムに決定し、複数パターンのレイアウトデータを生成する。図８では、Ｍ通りのレイアウトデータを生成する様子を図示している。サーバ１は、各々のレイアウトパターンで各各要素の座標、サイズ等が異なるようにして、互いにレイアウトが異なるＭ通りのレイアウト情報を生成する。なお、サーバ１は、元の文書のページ数などに応じて、一又は複数のページに亘るレイアウトデータをＭ通り生成する。

サーバ１は、ランダムに生成したＭ通りのレイアウトデータそれぞれについて、レイアウトの確からしさを評価したスコアを算出する。具体的には、サーバ１は、ターゲット言語の既存文書のレイアウトを学習済みの評価モデル１４２を用いて、生成されたＭ通りのレイアウトデータそれぞれのスコアを算出する。

図９は、レイアウト学習処理に関する説明図である。図９では、機械学習によって評価モデル１４２を生成する様子を概念的に図示している。本実施の形態では、サーバ１は評価モデル１４２として、ＣＮＮ（Convolution Neural Network）に係るニューラルネットワークを生成する。

なお、本実施の形態では評価モデル１４２がＣＮＮであるものとして説明するが、評価モデル１４２はその他のニューラルネットワーク、ＳＶＭ（Support Vector Machine）、ベイジアンネットワーク、決定木など、その他の学習済みモデルであってもよい。

本実施の形態でサーバ１は、ランク学習の手法を用いて評価モデル１４２を生成する。ランク学習は、データ集合の序列を学習する学習手法である。ディープラーニングによりランク学習を行うニューラルネットワークとしては、例えばＤｅｅｐＬａｎｋ、ＳｉａｍｅｓｅＮｅｔ等が知られている。ランク学習は公知の学習手法であるため、その詳細な説明は省略する。

例えばサーバ１は、翻訳対象とするソース言語の文書と属性が類似するターゲット言語の既存文書をインターネット上から収集し、収集した既存文書を教師データとして用いる。例えばサーバ１は、論文、マニュアル書、公的文書等の文書分野に応じて、属性の類似性を判定する。サーバ１は、例えば文字認識等の手段で既存文書の分野を把握してもよく、既存文書の取得元であるＷｅｂサイト（例えば論文掲載サイト）等から収集した文書の分野を把握してもよい。

例えばサーバ１は、上記の教師データとして、翻訳対象とするソース言語の文書と同様に、メタデータが付与されていない非構造化データ（例えばＰＤＦファイル）である既存文書を収集する。次にサーバ１は、既存文書をＸＭＬファイル等の構造化データに変換する。例えばサーバ１は、ソース言語の文書を構造化した場合と同様に、ターゲット言語についても構造化のためのルールについて設定入力を受け付け、構造化テーブル１４１を用意しておく。サーバ１は、ターゲット言語に対応する構造化テーブル１４１を参照して構造化を行う。

サーバ１は、ターゲット言語用の構造化テーブル１４１を参照して、収集した既存文書に含まれる各要素を書式、座標値等から識別し、各要素にメタデータを付与する。これによりサーバ１は、既存文書内のテキスト、写真、図表等を所定の要素単位で構造化する。

サーバ１は、収集した既存文書のページ画像を、レイアウトデータの正解データとして用いる。以下の説明では便宜上、当該レイアウトデータを「既存レイアウトデータ」と呼ぶ。例えばサーバ１は、既存レイアウトデータをスコアが「１」の正解データとして用いる。

さらにサーバ１は、同じページに配置されていた各要素であって、上記で構造化した各要素の配置座標をランダムに入れ替え、各要素の配置を変更した複数のレイアウトデータを生成する。以下の説明では便宜上、当該レイアウトデータを「偽レイアウトデータ」と呼ぶ。サーバ１は、偽レイアウトデータをスコアが「０」の不正解データとして用いる。

サーバ１は、既存レイアウトデータと、既存レイアウトデータから各要素の配置を変更した偽レイアウトデータとをニューラルネットワークに入力し、ランク学習を行う。具体的には、サーバ１は、既存レイアウトデータのスコアと、上記で生成した複数の偽レイアウトデータそれぞれのスコアとを比較し、既存レイアウトデータのスコアが、複数の偽レイアウトデータのいずれのスコアよりも高くなるよう学習を行う。これによりサーバ１は、評価モデル１４２を生成する。サーバ１は、生成した評価モデル１４２を用いてレイアウトデータのスコアを算出する。

なお、上記でサーバ１は教師データの一部（偽レイアウトデータ）を自ら生成するものとしたが、教師データは全て人手で作成されたものであってもよい。また、教師データに対し、人手でスコアや順位といった正解値をラベル付けしてもよい。

また、レイアウトの学習処理と生成処理とを行う処理主体（サーバ１）は同一でなくともよい。

図８に戻って説明を続ける。サーバ１は、ソース言語の文書から生成したＭ通りのレイアウトデータそれぞれを評価モデル１４２に入力し、各レイアウトデータのスコアを算出する。より詳細には、サーバ１は、Ｍ通りのレイアウトについてページ毎にレイアウトデータを評価モデル１４２に入力し、全ページのスコアを合算したトータルスコアを算出する。

サーバ１は、上記で算出したスコアに基づき、Ｍ通りのレイアウトデータの順位を決定する。サーバ１は、決定した順位に応じて、生成したレイアウトデータを端末２に出力する。例えばサーバ１は、最上位のレイアウトデータを端末２に出力する。これによりサーバ１は、テキストをソース言語からターゲット言語に変換した文書ファイルであって、レイアウトを最適化した文書ファイルを提供する。

なお、例えばサーバ１は、最上位のレイアウトデータだけでなく、上位所定数のレイアウトデータを出力するようにしてもよい。また、例えばサーバ１は、生成した全てのレイアウトデータを出力し、併せてスコアや順位を提示（出力）するようにしてもよい。このように、サーバ１は、算出したスコア（評価）に応じてレイアウトデータを出力することができればよく、その出力態様は特に限定されない。

また、上記ではレイアウトデータとして文書ファイルを生成して端末２に出力するものとしたが、本実施の形態はこれに限定されず、例えば最上位のレイアウトに係る各テキスト、写真、図表等の座標、サイズなどのデータのみを出力し、文書ファイルの生成は端末２（クライアント）側で実行してもよい。すなわち、サーバ１は、翻訳後の文書レイアウトに関する情報（レイアウトデータ）を出力可能であればよく、文書ファイルの生成は必須ではない。

以上より、本実施の形態によれば、非構造化データであるソース言語の文書を構造化した上でターゲット言語に変換するため、非構造化データに含まれるテキストを適切に翻訳することができる。また、評価モデル１４２を用いて、翻訳後のテキストを含む各要素を適切なレイアウトで再配置したレイアウトデータを提供することができる。

図１０は、レイアウト学習処理の手順を示すフローチャートである。図１０に基づき、機械学習を行って評価モデル１４２を生成する処理の内容について説明する。
サーバ１の制御部１１は、ネットワークＮを介して、翻訳対象とするソース言語の文書と分野が共通するターゲット言語の既存文書を収集する（ステップＳ１１）。例えば制御部１１は、非構造化データである文書のページ画像（既存レイアウトデータ）を収集する。制御部１１は、ターゲット言語に対応する構造化テーブル１４１を参照して、既存文書に含まれるテキスト、写真、図表等の各要素を識別し、各要素を定義付けるメタデータを付与した構造化データを生成する（ステップＳ１２）。

制御部１１は、既存文書に含まれる各要素を再配置した偽レイアウトデータを生成する（ステップＳ１３）。具体的には、制御部１１は、ステップＳ１１で取得した既存文書に含まれる各要素をランダムに再配置し、複数の偽レイアウトデータを生成する。

制御部１１は、ステップＳ１１で収集した文書の既存レイアウトデータと、ステップＳ１３で生成した偽レイアウトデータに基づき、レイアウトデータを入力した場合にレイアウトデータのスコア（評価）を出力する評価モデル１４２を生成する（ステップＳ１４）。具体的には、制御部１１は、既存レイアウトデータを正解データとし、偽レイアウトデータを不正解データとしたランク学習を行い、ＣＮＮに係る評価モデル１４２を生成する。制御部１１は、一連の処理を終了する。

図１１は、文書翻訳処理の手順を示すフローチャートである。図１１に基づき、非構造化データであるソース言語の文書内のテキストをターゲット言語に翻訳し、翻訳後のテキストを含む各要素を再配置したレイアウトデータを生成する処理の内容について説明する。
サーバ１の制御部１１は、非構造化データであるソース言語の文書を端末２から取得する（ステップＳ３１）。制御部１１は、ソース言語に対応する構造化テーブル１４１を参照して、取得した文書を構成するテキスト、写真、図表等の各要素を識別し、各要素に対してメタデータを付与した構造化データを生成する（ステップＳ３２）。

制御部１１は、構造化された文書内のテキストをターゲット言語に変換する（ステップＳ３３）。この場合に制御部１１は、例えばステップＳ３２で文書内の各テキスト（要素）に付与したメタデータを参照して、各テキストをメタデータに応じた翻訳エンジンでターゲット言語に変換するなどしてもよい。

制御部１１は、変換後のテキストを含む文書内の各要素を、元の文書ページに相当する所定領域に再配置したレイアウトデータを生成する（ステップＳ３４）。具体的には、制御部１１は、各要素を配置する座標をランダムに決定し、複数のレイアウトデータを生成する。

制御部１１は、既存文書のレイアウトを学習済みの評価モデル１４２を用いて、ステップＳ２４で生成したレイアウトデータのスコアを算出する（ステップＳ３５）。具体的には、制御部１１は、ステップＳ３４で生成した複数のレイアウトデータそれぞれを評価モデル１４２に入力し、各レイアウトデータのスコアを出力として取得する。制御部１１は、算出したスコアに応じて各レイアウトデータの順位付けを行い、最上位のレイアウトデータを端末２に出力する（ステップＳ３６）。制御部１１は、一連の処理を終了する。

なお、上記では、評価モデル１４２がレイアウトデータのスコア（評価値）を出力するものとしたが、レイアウトの適否を示す二値のパラメータを出力するようにしてもよい。すなわち、サーバ１は、評価モデル１４２を用いてレイアウトデータの評価を取得可能であればよく、取得する評価は連続的な確率値に限定されない。

以上より、本実施の形態１によれば、非構造化データに含まれるテキストを適切に翻訳することができる。

また、本実施の形態１によれば、構造化の際に付与したメタデータに応じて翻訳を行うことで、機械翻訳の精度や利便性を向上させることができる。

また、本実施の形態１によれば、既存文書のレイアウトを学習済みの評価モデル１４２を用いることで、適切なレイアウトに整えた翻訳後の文書を提供することができる。

また、本実施の形態１によれば、ランク学習の手法を用いて複数のレイアウトの順位付けを行うことで、レイアウトの評価を好適に行うことができる。

また、本実施の形態１によれば、翻訳対象とするソース言語の文書（非構造化データ）と属性が類似するターゲット言語の既存文書（サンプル）のレイアウトを学習した評価モデル１４２を用いることで、レイアウトの評価を好適に行うことができる。

（実施の形態２）
本実施の形態では、人手でルールが設定された構造化テーブル１４１に代えて、機械学習によって構築された構造化モデル１４３を用いて構造化を行う形態について述べる。なお、実施の形態１と重複する内容については同一の符号を付して説明を省略する。
図１２は、実施の形態２に係るサーバ１の構成例を示すブロック図である。本実施の形態に係るサーバ１の補助記憶部１４は、構造化テーブル１４１に代えて、構造化モデル１４３を記憶している。構造化モデル１４３は、機械学習によって構築された学習済みモデルであり、ソース言語の文書内の各要素を識別するための識別器である。

図１３は、構造化学習処理に関する説明図である。図１３では、非構造化データであるソース言語の文書の教師データから構造化モデル１４３を生成する様子を概念的に図示している。図１３に基づき、本実施の形態の概要を説明する。
上述の如く、本実施の形態においてサーバ１は、人手でルールが設定された構造化テーブル１４１に代えて、機械学習を行うことで構築した構造化モデル１４３を用いて文書の構造化を行う。例えばサーバ１は、ＣＮＮに係るニューラルネットワーク、具体的にはセマンティックセグメンテーションに係るニューラルネットワークを構造化モデル１４３として生成し、文書の構造化処理に用いる。

例えばサーバ１は、ソース言語の教師用文書に対し、当該文書を構成するタイトル、本文等の各要素について、メタデータの正解値が関連付けられた教師データを用いて学習を行う。例えば図１３に示すように、教師データでは、各要素に相当する領域（矩形枠で図示）に対し、メタデータの正解値に相当するタグ名が関連付けられている。サーバ１は、当該教師データを用いて構造化モデル１４３を生成する。

サーバ１は、教師用文書のページ画像を構造化モデル１４３に入力し、当該ページ画像に含まれる各要素を識別した識別結果を出力として取得する。例えばサーバ１は、各要素に相当する画像領域の座標値と、当該領域に含まれる要素に付与すべきメタデータとを出力として取得する。サーバ１は、出力された画像領域の座標値及びメタデータを正解値と比較し、両者が近似するように、構造化モデル１４３において演算に用いる重み等のパラメータを最適化する。これによりサーバ１は、構造化モデル１４３を生成する。

端末２からソース言語の文書を取得して翻訳を行う場合、サーバ１は、上記で生成した構造化モデル１４３を用いて構造化を行う。具体的には、サーバ１は、取得したソース言語の文書のページ画像を構造化モデル１４３に入力し、各要素を識別した識別結果を取得する。サーバ１は、識別結果に従って文書内の各要素を抽出し、メタデータを付与する。これにより、サーバ１はソース言語の文書を構造化した構造化データを生成する。その後、サーバ１は実施の形態１と同様に、ターゲット言語へのテキスト変換を行い、レイアウトデータを生成する。

図１４は、構造化学習処理の手順の一例を示すフローチャートである。図１４に基づき、機械学習によって構造化モデル１４３を生成する処理の内容について説明する。
サーバ１の制御部１１は、構造化モデル１４３を生成するための教師データであって、非構造化データである教師用文書に対し、当該文書を構成する各要素のメタデータの正解値が関連付けられた教師データを取得する（ステップＳ２０１）。制御部１１は、取得した教師データを用いて構造化モデル１４３を生成する（ステップＳ２０２）。具体的には、制御部１１は、教師用文書のページ画像を構造化モデル１４３に入力し、各要素に相当する画像領域、及び当該領域に含まれる要素に付与すべきメタデータを識別した識別結果を出力として取得する。制御部１１は、取得した識別結果を正解値と比較し、両者が近似するように重み等の各種パラメータを最適化して構造化モデル１４３を生成する。制御部１１は、一連の処理を終了する。

以上より、本実施の形態２によれば、機械学習によって構築した構造化モデル１４３を用いてソース言語の文書の構造化を行うこともできる。

（実施の形態３）
図１５は、上述した形態のサーバ１の動作を示す機能ブロック図である。制御部１１がプログラムＰを実行することにより、サーバ１は以下のように動作する。
取得部１５１は、第１言語のテキストを含む非構造化データを取得する。生成部１５２は、前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成する。変換部１５３は、構造化された前記テキストを第２言語に変換する。

本実施の形態３は以上の如きであり、その他は実施の形態１及び２と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。

今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１サーバ（情報処理装置）
１１制御部
１２主記憶部
１３通信部
１４補助記憶部
Ｐプログラム
１４１構造化テーブル
１４２評価モデル
１４３構造化モデル
２端末

Claims

第１言語のテキストを含む非構造化データを取得する取得部と、
前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成する生成部と、
構造化された前記テキストを第２言語に変換する変換部と、
構造化された前記各要素を所定領域に配置したレイアウトデータを生成するレイアウト生成部と、
複数の前記レイアウトデータのサンプルを学習済みの評価器を用いて、前記レイアウト生成部が生成した前記レイアウトデータの評価を取得する評価部と、
評価結果に応じて前記レイアウトデータを出力する出力部と
を備え、
前記評価器は、ニューラルネットワークを含み、
既存文書のページ画像を正解データとした既存レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアが、前記既存文書の各要素の配置を変更したページ画像を不正解データとした偽レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアよりも高くなるように前記ニューラルネットワークを学習することを特徴とする情報処理装置。
前記生成部は、前記各要素に対し、該要素を定義付けるメタデータを付与した前記構造化データを生成し、
前記変換部は、前記テキストに付与された前記メタデータを参照して前記第２言語に変換する
ことを特徴とする請求項１に記載の情報処理装置。
前記レイアウト生成部は、前記各要素の配置が異なる複数の前記レイアウトデータを生成し、
前記評価部は、前記複数のレイアウトデータの順位を取得し、
前記出力部は、前記順位に応じて前記レイアウトデータを出力する
ことを特徴とする請求項１又は請求項２に記載の情報処理装置。
第１言語のテキストを含む非構造化データを取得し、
前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成し、
構造化された前記テキストを第２言語に変換し、
構造化された前記各要素を所定領域に配置したレイアウトデータを生成し、
複数の前記レイアウトデータのサンプルを学習済みの評価器を用いて、生成した前記レイアウトデータの評価を取得し、
評価結果に応じて前記レイアウトデータを出力し、
前記評価器は、ニューラルネットワークを含み、
既存文書のページ画像を正解データとした既存レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアが、前記既存文書の各要素の配置を変更したページ画像を不正解データとした偽レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアよりも高くなるように前記ニューラルネットワークを学習する
処理をコンピュータに実行させることを特徴とする情報処理方法。
第１言語のテキストを含む非構造化データを取得し、
前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成し、
構造化された前記テキストを第２言語に変換し、
構造化された前記各要素を所定領域に配置したレイアウトデータを生成し、
複数の前記レイアウトデータのサンプルを学習済みの評価器を用いて、生成した前記レイアウトデータの評価を取得し、
評価結果に応じて前記レイアウトデータを出力し、
前記評価器は、ニューラルネットワークを含み、
既存文書のページ画像を正解データとした既存レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアが、前記既存文書の各要素の配置を変更したページ画像を不正解データとした偽レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアよりも高くなるように前記ニューラルネットワークを学習する
処理をコンピュータに実行させることを特徴とするプログラム。