JP7283112B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7283112B2
JP7283112B2 JP2019029326A JP2019029326A JP7283112B2 JP 7283112 B2 JP7283112 B2 JP 7283112B2 JP 2019029326 A JP2019029326 A JP 2019029326A JP 2019029326 A JP2019029326 A JP 2019029326A JP 7283112 B2 JP7283112 B2 JP 7283112B2
Authority
JP
Japan
Prior art keywords
data
structured
neural network
layout
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019029326A
Other languages
English (en)
Other versions
JP2020135523A (ja
Inventor
聡 田端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2019029326A priority Critical patent/JP7283112B2/ja
Publication of JP2020135523A publication Critical patent/JP2020135523A/ja
Application granted granted Critical
Publication of JP7283112B2 publication Critical patent/JP7283112B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
近年、文書内のテキストを別言語に翻訳する機械翻訳技術が発展している。例えば特許文献1では、ソース言語をターゲット言語に翻訳する方法であって、ソース言語の文書から抽出されたテキストを翻訳エンジンで翻訳し、翻訳されたテキストを、元のテキストのフォーマット及び構造情報に基づいて編集する方法が開示されている。
特表2007-532995公報
しかしながら、翻訳対象とする元の文書テキストが構造化されていない場合、不適切な翻訳文が作成されるという問題があった。
一つの側面では、非構造化データに含まれるテキストを適切に翻訳することができる情報処理装置等を提供することを目的とする。
一つの側面に係る情報処理装置は、第1言語のテキストを含む非構造化データを取得する取得部と、前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成する生成部と、構造化された前記テキストを第2言語に変換する変換部とを備えることを特徴とする。
一つの側面では、非構造化データに含まれるテキストを適切に翻訳することができる。
文書翻訳システムの構成例を示す模式図である。 非構造化データを直接的に翻訳した場合の一例を示す説明図である。 元の文書に従って翻訳後のテキストを配置した場合のページレイアウトの一例を示す説明図である。 サーバの構成例を示すブロック図である。 構造化テーブルに関する説明図である。 構造化データの生成処理に関する説明図である。 文書翻訳処理に関する説明図である。 レイアウト生成処理に関する説明図である。 レイアウト学習処理に関する説明図である。 レイアウト学習処理の手順を示すフローチャートである。 文書翻訳処理の手順を示すフローチャートである。 実施の形態2に係るサーバの構成例を示すブロック図である。 構造化学習処理に関する説明図である。 構造化学習処理の手順の一例を示すフローチャートである。 上述した形態のサーバの動作を示す機能ブロック図である。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
図1は、文書翻訳システムの構成例を示す模式図である。本実施の形態では、非構造化データである所定言語(第1言語)の文書を構造化し、構造化された文書内のテキストを別言語(第2言語)に変換することで、非構造化データを対象とした機械翻訳を好適に行う文書翻訳システムについて説明する。文書翻訳システムは、情報処理装置1及び端末2を含む。各装置はインターネット等のネットワークNを介して通信接続されている。
なお、以下では説明の便宜上、処理対象とする非構造化データが「文書」であるものとして説明するが、本システムは非構造化データに含まれるテキストの翻訳を実行可能であればよく、処理対象とするデータは文書に限定されない。例えばテキストを含むイラスト画像を処理対象としてもよく、テキストを要素として含む非構造化データを処理可能であればよい。
また、以下の説明では便宜上、元の文書の言語を「ソース言語」と呼び、翻訳後の言語を「ターゲット言語」と呼ぶものとする。
情報処理装置1は、種々の情報処理、情報の送受信を行う装置であり、例えばサーバ装置、パーソナルコンピュータ、多機能端末等である。本実施の形態において情報処理装置1はサーバ装置であるものとし、以下では簡潔のためサーバ1と読み替える。サーバ1は、テキスト、写真、図表等の各要素から構成されるソース言語の文書であって、例えばPDF(登録商標)ファイルのように、各要素を定義付けるメタデータが各要素に付与されていない非構造化データを構造化する処理を行い、各要素に対してメタデータを付与した構造化データ(例えばXMLファイル)を生成する。そしてサーバ1は、テキストを含む各要素の構造化を行った後に、構造化したテキストをターゲット言語に変換(翻訳)する。
図2は、非構造化データを直接的に翻訳した場合の一例を示す説明図である。非構造化データを対象として機械翻訳を行う場合、データ内のテキストにはメタデータが特に付与されていないため、適切な翻訳を行うことが難しい。例えば図2に示すように、単一のパラグラフであるべきテキストが不適切な箇所で改行され、そのまま機械的に翻訳されてしまうことで、不適切な翻訳文が作成されてしまうケースが生じ得る。
そこでサーバ1は、非構造化データである文書を構造化し、文書を構成するタイトル、パラグラフ、写真、図表、キャプション等の所定単位の要素毎に分割(識別)した上で翻訳を行う。これにより、図2で例示した事態を防止し、非構造化データを対象とした機械翻訳を好適に実行する。
上述の処理に加えて、サーバ1は、翻訳後のテキストを含む各要素を、ターゲット言語における文書レイアウトを考慮して再配置したレイアウトデータ、つまり翻訳版文書のページレイアウトを生成する。図3は、元の文書に従って翻訳後のテキストを配置した場合のページレイアウトの一例を示す説明図である。図3に示すように、翻訳後のテキストを含む各要素をそのまま元の文書通りの位置に配置した場合、翻訳の前後における文字数の相違などから、近接する要素(テキストや図表)が互いに重なってしまうなど、不適切なレイアウトで文書ページが作成されてしまうケースが生じ得る。そこでサーバ1は、後述するように、ターゲット言語における既存文書のレイアウトを機械学習によって学習済みの評価モデル(評価器)を用いて、各要素のレイアウトを決定する。これにより、サーバ1は、翻訳した文書を適切なページレイアウトに整えたレイアウトデータを提供する。
端末2は、サーバ1と通信を行うクライアント端末であり、例えばパーソナルコンピュータ等の情報処理端末である。例えばサーバ1は、端末2からアップロードされた文書ファイルに対して上記の処理を行い、機械翻訳を行って各要素を再配置したレイアウトデータを生成し、端末2に出力する。
図4は、サーバ1の構成例を示すブロック図である。サーバ1は、制御部11、主記憶部12、通信部13、補助記憶部14を有する。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。
補助記憶部14は、ハードディスク、大容量メモリ等の不揮発性記憶領域であり、制御部11が処理を実行するために必要なプログラムP、その他のデータを記憶している。また、補助記憶部14は、構造化テーブル141、評価モデル142を記憶している。構造化テーブル141は、ソース言語の文書を構成する各要素を識別し、メタデータを付与するためのルールを規定するテーブル(識別器)である。評価モデル142は、ターゲット言語の文書レイアウトを評価するための評価器であって、上述の如く、機械学習によって生成された学習済みモデルである。
なお、補助記憶部14はサーバ1に接続された外部記憶装置であってもよい。また、サーバ1は複数のコンピュータからなるマルチコンピュータであっても良く、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
また、本実施の形態においてサーバ1は上記の構成に限られず、例えば操作入力を受け付ける入力部、画像を表示する表示部等を含んでもよい。また、サーバ1は、CD(Compact Disk)-ROM、DVD(Digital Versatile Disc)-ROM等の可搬型記憶媒体P1を読み取る読取部を備え、可搬型記憶媒体P1からプログラムPを読み取って実行するようにしても良い。あるいはサーバ1は、半導体メモリP2からプログラムPを読み込んでも良い。
図5は、構造化テーブル141に関する説明図である。図5では、非構造化データである文書を構造化データに変換するためのルールを概念的に図示している。
例えばサーバ1は、不図示の管理者端末から、ソース言語の文書を構造化するためのルールの設定入力を受け付け、構造化テーブル141に格納しておく。具体的には、サーバ1は、非構造化データであるソース言語の文書を構成する各要素を識別する上でのルールと、各要素に付与すべきメタデータとを設定する設定入力を受け付ける。
非構造化データの要素は、文書を構成するテキスト、写真、図表等であり、例えば図5において矩形枠で囲って示すように、文書のタイトル、サブタイトル、本文、写真、図など、文書を構成する基本要素である。メタデータは、各要素を定義付けるタグ情報であり、各要素にタグ付けされるタグ名や、あるいはタグ内の情報として格納される属性値などである。例えば図5に示すように、文書のタイトルに該当する要素であれば「タイトル」、サブタイトルに該当する要素であれば「サブタイトル」がメタデータ(タグ名)として付与される。
サーバ1は、文書を構成する各要素を表すメタデータと、各要素を識別する際に基準とする情報の設定入力を受け付ける。例えばサーバ1は、各要素に対応するテキストの書式、座標値等について基準値の設定入力を受け付ける。例えばサーバ1は、図5に矩形枠で囲って示す各要素について、各要素を記述する際に用いられるテキストのフォント、文字サイズ等の設定入力を受け付ける。また、サーバ1は、各要素に該当する矩形領域の座標値(位置及び範囲)に関する設定入力を受け付ける。
サーバ1は、設定された各要素のメタデータと、各要素に対応する書式、座標値等の情報とを対応付けて構造化テーブル141に格納する。これにより、サーバ1は、書式、レイアウト等の各要素の特徴に応じて、各要素に何れのメタデータを付与すべきかを識別可能となる。
なお、上記では各要素を識別する際の基準として書式及び座標値を挙げたが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、要素間の距離(行間)などを基準として各要素を識別するようにしてもよい。このように、サーバ1は予め定められたルールに従って各要素を識別し、構造化を行うことができればよく、そのルール内容は特に限定されない。
図6は、構造化データの生成処理に関する説明図である。サーバ1は、上記で設定された構造化テーブル141を参照して、非構造化データであるソース言語の文書を構造化する処理を行う。
例えばサーバ1は、端末2からソース言語の文書のアップロードを受け、当該文書を構造化した構造化データを生成する。サーバ1は、構造化テーブル141を参照して、端末2から取得した文書内の各要素を識別し、メタデータを付与する。例えば図6に示すように、サーバ1は、構造化テーブル141に格納されている書式、座標値等に係る基準値を参照して、文書内のタイトル、サブタイトル、本文、写真、図表、キャプションなどの各要素を識別する。そしてサーバ1は、各要素に対して対応するメタデータを付与し、メタデータに従って各要素を相互に関連付けた構造化データを生成する。
図7は、文書翻訳処理に関する説明図である。図7では、構造化した文書内の各要素のうち、テキスト要素をターゲット言語に変換(翻訳)する様子を図示している。
サーバ1は、上記で構造化した各要素のうち、テキストであるタイトル、サブタイトル、本文、キャプションなどを、要素単位で個別にターゲット言語に変換する。例えばサーバ1は、所定の翻訳エンジンに対し、タイトル、サブタイトル、本文等の各要素を個別に入力し、ターゲット言語に変換したテキストを出力として取得する。
図7では、「本文」として識別された文書内のあるパラグラフをターゲット言語に変換する際の処理イメージを図示してある。サーバ1は、メタデータとして当該パラグラフに付与したヘッダ及びフッタのタグに従い、各タグの間に位置するテキストを改行せずに一繋ぎの文字列として翻訳エンジンに入力する。そしてサーバ1は、ターゲット言語に変換したテキストを翻訳エンジンから取得する。サーバ1は、上記のヘッダ及びフッタのタグの間に格納されていたテキスト、つまり翻訳前のソース言語のパラグラフを、変換後のテキストに置換して構造化データに格納する。
サーバ1は、元の文書を構成する各テキストを、メタデータを付与した要素単位でターゲット言語に順次変換し、構造化データに格納する。これによってサーバ1は、最終的に文書内の全てのテキストをターゲット言語に変換した、翻訳後の文書の構造化データを生成する。
なお、例えばサーバ1は、各テキスト要素に付与されたメタデータに応じて、テキスト毎に異なる翻訳アルゴリズムで変換を行ってもよい。例えばサーバ1は、各テキストに付与されたメタデータの種類に応じて異なる翻訳エンジンを選択し、ターゲット言語への変換を行う。これにより、例えば特許明細書のように、テキストの記載箇所によっては表現が大きく異なる文書を対象とする場合に、表現の違いを考慮して適切な翻訳を行うことができる。
また、例えばサーバ1は、メタデータに応じて、対応するテキストをターゲット言語に変換(翻訳)するか否か自体を決定するようにしてもよい。これにより、例えば論文末尾に記載される引用文献のように、翻訳不要なテキストが変換される事態を防止できる。このように、サーバ1は、メタデータに応じたターゲット言語への変換を実行可能であればよい。
図8は、レイアウト生成処理に関する説明図である。図8では、構造化した文書内の各要素であって、翻訳後のテキストを含む各要素を再配置した文書のレイアウトデータを生成する様子を概念的に図示している。図8に基づき、レイアウトデータの生成処理について説明する。
上述の如く、サーバ1は元の文書を構造化した構造化データを生成し、文書内の各テキストをターゲット言語に変換する。サーバ1は、変換後(翻訳後)のテキストを含む各要素を、文書ページに相当する所定領域に再配置し、翻訳後の文書ページに相当するレイアウトデータ(画像)を生成する。
具体的には、サーバ1は、構造化された各要素の配置座標、サイズ等をランダムに決定し、複数パターンのレイアウトデータを生成する。図8では、M通りのレイアウトデータを生成する様子を図示している。サーバ1は、各々のレイアウトパターンで各各要素の座標、サイズ等が異なるようにして、互いにレイアウトが異なるM通りのレイアウト情報を生成する。なお、サーバ1は、元の文書のページ数などに応じて、一又は複数のページに亘るレイアウトデータをM通り生成する。
サーバ1は、ランダムに生成したM通りのレイアウトデータそれぞれについて、レイアウトの確からしさを評価したスコアを算出する。具体的には、サーバ1は、ターゲット言語の既存文書のレイアウトを学習済みの評価モデル142を用いて、生成されたM通りのレイアウトデータそれぞれのスコアを算出する。
図9は、レイアウト学習処理に関する説明図である。図9では、機械学習によって評価モデル142を生成する様子を概念的に図示している。本実施の形態では、サーバ1は評価モデル142として、CNN(Convolution Neural Network)に係るニューラルネットワークを生成する。
なお、本実施の形態では評価モデル142がCNNであるものとして説明するが、評価モデル142はその他のニューラルネットワーク、SVM(Support Vector Machine)、ベイジアンネットワーク、決定木など、その他の学習済みモデルであってもよい。
本実施の形態でサーバ1は、ランク学習の手法を用いて評価モデル142を生成する。ランク学習は、データ集合の序列を学習する学習手法である。ディープラーニングによりランク学習を行うニューラルネットワークとしては、例えばDeepLank、SiameseNet等が知られている。ランク学習は公知の学習手法であるため、その詳細な説明は省略する。
例えばサーバ1は、翻訳対象とするソース言語の文書と属性が類似するターゲット言語の既存文書をインターネット上から収集し、収集した既存文書を教師データとして用いる。例えばサーバ1は、論文、マニュアル書、公的文書等の文書分野に応じて、属性の類似性を判定する。サーバ1は、例えば文字認識等の手段で既存文書の分野を把握してもよく、既存文書の取得元であるWebサイト(例えば論文掲載サイト)等から収集した文書の分野を把握してもよい。
例えばサーバ1は、上記の教師データとして、翻訳対象とするソース言語の文書と同様に、メタデータが付与されていない非構造化データ(例えばPDFファイル)である既存文書を収集する。次にサーバ1は、既存文書をXMLファイル等の構造化データに変換する。例えばサーバ1は、ソース言語の文書を構造化した場合と同様に、ターゲット言語についても構造化のためのルールについて設定入力を受け付け、構造化テーブル141を用意しておく。サーバ1は、ターゲット言語に対応する構造化テーブル141を参照して構造化を行う。
サーバ1は、ターゲット言語用の構造化テーブル141を参照して、収集した既存文書に含まれる各要素を書式、座標値等から識別し、各要素にメタデータを付与する。これによりサーバ1は、既存文書内のテキスト、写真、図表等を所定の要素単位で構造化する。
サーバ1は、収集した既存文書のページ画像を、レイアウトデータの正解データとして用いる。以下の説明では便宜上、当該レイアウトデータを「既存レイアウトデータ」と呼ぶ。例えばサーバ1は、既存レイアウトデータをスコアが「1」の正解データとして用いる。
さらにサーバ1は、同じページに配置されていた各要素であって、上記で構造化した各要素の配置座標をランダムに入れ替え、各要素の配置を変更した複数のレイアウトデータを生成する。以下の説明では便宜上、当該レイアウトデータを「偽レイアウトデータ」と呼ぶ。サーバ1は、偽レイアウトデータをスコアが「0」の不正解データとして用いる。
サーバ1は、既存レイアウトデータと、既存レイアウトデータから各要素の配置を変更した偽レイアウトデータとをニューラルネットワークに入力し、ランク学習を行う。具体的には、サーバ1は、既存レイアウトデータのスコアと、上記で生成した複数の偽レイアウトデータそれぞれのスコアとを比較し、既存レイアウトデータのスコアが、複数の偽レイアウトデータのいずれのスコアよりも高くなるよう学習を行う。これによりサーバ1は、評価モデル142を生成する。サーバ1は、生成した評価モデル142を用いてレイアウトデータのスコアを算出する。
なお、上記でサーバ1は教師データの一部(偽レイアウトデータ)を自ら生成するものとしたが、教師データは全て人手で作成されたものであってもよい。また、教師データに対し、人手でスコアや順位といった正解値をラベル付けしてもよい。
また、レイアウトの学習処理と生成処理とを行う処理主体(サーバ1)は同一でなくともよい。
図8に戻って説明を続ける。サーバ1は、ソース言語の文書から生成したM通りのレイアウトデータそれぞれを評価モデル142に入力し、各レイアウトデータのスコアを算出する。より詳細には、サーバ1は、M通りのレイアウトについてページ毎にレイアウトデータを評価モデル142に入力し、全ページのスコアを合算したトータルスコアを算出する。
サーバ1は、上記で算出したスコアに基づき、M通りのレイアウトデータの順位を決定する。サーバ1は、決定した順位に応じて、生成したレイアウトデータを端末2に出力する。例えばサーバ1は、最上位のレイアウトデータを端末2に出力する。これによりサーバ1は、テキストをソース言語からターゲット言語に変換した文書ファイルであって、レイアウトを最適化した文書ファイルを提供する。
なお、例えばサーバ1は、最上位のレイアウトデータだけでなく、上位所定数のレイアウトデータを出力するようにしてもよい。また、例えばサーバ1は、生成した全てのレイアウトデータを出力し、併せてスコアや順位を提示(出力)するようにしてもよい。このように、サーバ1は、算出したスコア(評価)に応じてレイアウトデータを出力することができればよく、その出力態様は特に限定されない。
また、上記ではレイアウトデータとして文書ファイルを生成して端末2に出力するものとしたが、本実施の形態はこれに限定されず、例えば最上位のレイアウトに係る各テキスト、写真、図表等の座標、サイズなどのデータのみを出力し、文書ファイルの生成は端末2(クライアント)側で実行してもよい。すなわち、サーバ1は、翻訳後の文書レイアウトに関する情報(レイアウトデータ)を出力可能であればよく、文書ファイルの生成は必須ではない。
以上より、本実施の形態によれば、非構造化データであるソース言語の文書を構造化した上でターゲット言語に変換するため、非構造化データに含まれるテキストを適切に翻訳することができる。また、評価モデル142を用いて、翻訳後のテキストを含む各要素を適切なレイアウトで再配置したレイアウトデータを提供することができる。
図10は、レイアウト学習処理の手順を示すフローチャートである。図10に基づき、機械学習を行って評価モデル142を生成する処理の内容について説明する。
サーバ1の制御部11は、ネットワークNを介して、翻訳対象とするソース言語の文書と分野が共通するターゲット言語の既存文書を収集する(ステップS11)。例えば制御部11は、非構造化データである文書のページ画像(既存レイアウトデータ)を収集する。制御部11は、ターゲット言語に対応する構造化テーブル141を参照して、既存文書に含まれるテキスト、写真、図表等の各要素を識別し、各要素を定義付けるメタデータを付与した構造化データを生成する(ステップS12)。
制御部11は、既存文書に含まれる各要素を再配置した偽レイアウトデータを生成する(ステップS13)。具体的には、制御部11は、ステップS11で取得した既存文書に含まれる各要素をランダムに再配置し、複数の偽レイアウトデータを生成する。
制御部11は、ステップS11で収集した文書の既存レイアウトデータと、ステップS13で生成した偽レイアウトデータに基づき、レイアウトデータを入力した場合にレイアウトデータのスコア(評価)を出力する評価モデル142を生成する(ステップS14)。具体的には、制御部11は、既存レイアウトデータを正解データとし、偽レイアウトデータを不正解データとしたランク学習を行い、CNNに係る評価モデル142を生成する。制御部11は、一連の処理を終了する。
図11は、文書翻訳処理の手順を示すフローチャートである。図11に基づき、非構造化データであるソース言語の文書内のテキストをターゲット言語に翻訳し、翻訳後のテキストを含む各要素を再配置したレイアウトデータを生成する処理の内容について説明する。
サーバ1の制御部11は、非構造化データであるソース言語の文書を端末2から取得する(ステップS31)。制御部11は、ソース言語に対応する構造化テーブル141を参照して、取得した文書を構成するテキスト、写真、図表等の各要素を識別し、各要素に対してメタデータを付与した構造化データを生成する(ステップS32)。
制御部11は、構造化された文書内のテキストをターゲット言語に変換する(ステップS33)。この場合に制御部11は、例えばステップS32で文書内の各テキスト(要素)に付与したメタデータを参照して、各テキストをメタデータに応じた翻訳エンジンでターゲット言語に変換するなどしてもよい。
制御部11は、変換後のテキストを含む文書内の各要素を、元の文書ページに相当する所定領域に再配置したレイアウトデータを生成する(ステップS34)。具体的には、制御部11は、各要素を配置する座標をランダムに決定し、複数のレイアウトデータを生成する。
制御部11は、既存文書のレイアウトを学習済みの評価モデル142を用いて、ステップS24で生成したレイアウトデータのスコアを算出する(ステップS35)。具体的には、制御部11は、ステップS34で生成した複数のレイアウトデータそれぞれを評価モデル142に入力し、各レイアウトデータのスコアを出力として取得する。制御部11は、算出したスコアに応じて各レイアウトデータの順位付けを行い、最上位のレイアウトデータを端末2に出力する(ステップS36)。制御部11は、一連の処理を終了する。
なお、上記では、評価モデル142がレイアウトデータのスコア(評価値)を出力するものとしたが、レイアウトの適否を示す二値のパラメータを出力するようにしてもよい。すなわち、サーバ1は、評価モデル142を用いてレイアウトデータの評価を取得可能であればよく、取得する評価は連続的な確率値に限定されない。
以上より、本実施の形態1によれば、非構造化データに含まれるテキストを適切に翻訳することができる。
また、本実施の形態1によれば、構造化の際に付与したメタデータに応じて翻訳を行うことで、機械翻訳の精度や利便性を向上させることができる。
また、本実施の形態1によれば、既存文書のレイアウトを学習済みの評価モデル142を用いることで、適切なレイアウトに整えた翻訳後の文書を提供することができる。
また、本実施の形態1によれば、ランク学習の手法を用いて複数のレイアウトの順位付けを行うことで、レイアウトの評価を好適に行うことができる。
また、本実施の形態1によれば、翻訳対象とするソース言語の文書(非構造化データ)と属性が類似するターゲット言語の既存文書(サンプル)のレイアウトを学習した評価モデル142を用いることで、レイアウトの評価を好適に行うことができる。
(実施の形態2)
本実施の形態では、人手でルールが設定された構造化テーブル141に代えて、機械学習によって構築された構造化モデル143を用いて構造化を行う形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図12は、実施の形態2に係るサーバ1の構成例を示すブロック図である。本実施の形態に係るサーバ1の補助記憶部14は、構造化テーブル141に代えて、構造化モデル143を記憶している。構造化モデル143は、機械学習によって構築された学習済みモデルであり、ソース言語の文書内の各要素を識別するための識別器である。
図13は、構造化学習処理に関する説明図である。図13では、非構造化データであるソース言語の文書の教師データから構造化モデル143を生成する様子を概念的に図示している。図13に基づき、本実施の形態の概要を説明する。
上述の如く、本実施の形態においてサーバ1は、人手でルールが設定された構造化テーブル141に代えて、機械学習を行うことで構築した構造化モデル143を用いて文書の構造化を行う。例えばサーバ1は、CNNに係るニューラルネットワーク、具体的にはセマンティックセグメンテーションに係るニューラルネットワークを構造化モデル143として生成し、文書の構造化処理に用いる。
例えばサーバ1は、ソース言語の教師用文書に対し、当該文書を構成するタイトル、本文等の各要素について、メタデータの正解値が関連付けられた教師データを用いて学習を行う。例えば図13に示すように、教師データでは、各要素に相当する領域(矩形枠で図示)に対し、メタデータの正解値に相当するタグ名が関連付けられている。サーバ1は、当該教師データを用いて構造化モデル143を生成する。
サーバ1は、教師用文書のページ画像を構造化モデル143に入力し、当該ページ画像に含まれる各要素を識別した識別結果を出力として取得する。例えばサーバ1は、各要素に相当する画像領域の座標値と、当該領域に含まれる要素に付与すべきメタデータとを出力として取得する。サーバ1は、出力された画像領域の座標値及びメタデータを正解値と比較し、両者が近似するように、構造化モデル143において演算に用いる重み等のパラメータを最適化する。これによりサーバ1は、構造化モデル143を生成する。
端末2からソース言語の文書を取得して翻訳を行う場合、サーバ1は、上記で生成した構造化モデル143を用いて構造化を行う。具体的には、サーバ1は、取得したソース言語の文書のページ画像を構造化モデル143に入力し、各要素を識別した識別結果を取得する。サーバ1は、識別結果に従って文書内の各要素を抽出し、メタデータを付与する。これにより、サーバ1はソース言語の文書を構造化した構造化データを生成する。その後、サーバ1は実施の形態1と同様に、ターゲット言語へのテキスト変換を行い、レイアウトデータを生成する。
図14は、構造化学習処理の手順の一例を示すフローチャートである。図14に基づき、機械学習によって構造化モデル143を生成する処理の内容について説明する。
サーバ1の制御部11は、構造化モデル143を生成するための教師データであって、非構造化データである教師用文書に対し、当該文書を構成する各要素のメタデータの正解値が関連付けられた教師データを取得する(ステップS201)。制御部11は、取得した教師データを用いて構造化モデル143を生成する(ステップS202)。具体的には、制御部11は、教師用文書のページ画像を構造化モデル143に入力し、各要素に相当する画像領域、及び当該領域に含まれる要素に付与すべきメタデータを識別した識別結果を出力として取得する。制御部11は、取得した識別結果を正解値と比較し、両者が近似するように重み等の各種パラメータを最適化して構造化モデル143を生成する。制御部11は、一連の処理を終了する。
以上より、本実施の形態2によれば、機械学習によって構築した構造化モデル143を用いてソース言語の文書の構造化を行うこともできる。
(実施の形態3)
図15は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。
取得部151は、第1言語のテキストを含む非構造化データを取得する。生成部152は、前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成する。変換部153は、構造化された前記テキストを第2言語に変換する。
本実施の形態3は以上の如きであり、その他は実施の形態1及び2と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 サーバ(情報処理装置)
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 構造化テーブル
142 評価モデル
143 構造化モデル
2 端末

Claims (5)

  1. 第1言語のテキストを含む非構造化データを取得する取得部と、
    前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成する生成部と、
    構造化された前記テキストを第2言語に変換する変換部と
    構造化された前記各要素を所定領域に配置したレイアウトデータを生成するレイアウト生成部と、
    複数の前記レイアウトデータのサンプルを学習済みの評価器を用いて、前記レイアウト生成部が生成した前記レイアウトデータの評価を取得する評価部と、
    評価結果に応じて前記レイアウトデータを出力する出力部と
    を備え
    前記評価器は、ニューラルネットワークを含み、
    既存文書のページ画像を正解データとした既存レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアが、前記既存文書の各要素の配置を変更したページ画像を不正解データとした偽レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアよりも高くなるように前記ニューラルネットワークを学習することを特徴とする情報処理装置。
  2. 前記生成部は、前記各要素に対し、該要素を定義付けるメタデータを付与した前記構造化データを生成し、
    前記変換部は、前記テキストに付与された前記メタデータを参照して前記第2言語に変換する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記レイアウト生成部は、前記各要素の配置が異なる複数の前記レイアウトデータを生成し、
    前記評価部は、前記複数のレイアウトデータの順位を取得し、
    前記出力部は、前記順位に応じて前記レイアウトデータを出力する
    ことを特徴とする請求項1又は請求項2に記載の情報処理装置。
  4. 第1言語のテキストを含む非構造化データを取得し、
    前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成し、
    構造化された前記テキストを第2言語に変換し、
    構造化された前記各要素を所定領域に配置したレイアウトデータを生成し、
    複数の前記レイアウトデータのサンプルを学習済みの評価器を用いて、生成した前記レイアウトデータの評価を取得し、
    評価結果に応じて前記レイアウトデータを出力し、
    前記評価器は、ニューラルネットワークを含み、
    既存文書のページ画像を正解データとした既存レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアが、前記既存文書の各要素の配置を変更したページ画像を不正解データとした偽レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアよりも高くなるように前記ニューラルネットワークを学習する
    処理をコンピュータに実行させることを特徴とする情報処理方法。
  5. 第1言語のテキストを含む非構造化データを取得し、
    前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成し、
    構造化された前記テキストを第2言語に変換し、
    構造化された前記各要素を所定領域に配置したレイアウトデータを生成し、
    複数の前記レイアウトデータのサンプルを学習済みの評価器を用いて、生成した前記レイアウトデータの評価を取得し、
    評価結果に応じて前記レイアウトデータを出力し、
    前記評価器は、ニューラルネットワークを含み、
    既存文書のページ画像を正解データとした既存レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアが、前記既存文書の各要素の配置を変更したページ画像を不正解データとした偽レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアよりも高くなるように前記ニューラルネットワークを学習する
    処理をコンピュータに実行させることを特徴とするプログラム。
JP2019029326A 2019-02-21 2019-02-21 情報処理装置、情報処理方法及びプログラム Active JP7283112B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019029326A JP7283112B2 (ja) 2019-02-21 2019-02-21 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019029326A JP7283112B2 (ja) 2019-02-21 2019-02-21 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2020135523A JP2020135523A (ja) 2020-08-31
JP7283112B2 true JP7283112B2 (ja) 2023-05-30

Family

ID=72263314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019029326A Active JP7283112B2 (ja) 2019-02-21 2019-02-21 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7283112B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004280597A (ja) 2003-03-17 2004-10-07 Seiko Epson Corp レイアウト評価システム及びレイアウト評価プログラム、並びにレイアウト評価方法
JP2010086315A (ja) 2008-09-30 2010-04-15 Canon Inc 情報処理装置及び情報処理方法
US20170329747A1 (en) 2016-05-11 2017-11-16 SiteHelix, Inc. System and method for optimizing electronic document layouts
US20180121392A1 (en) 2016-10-28 2018-05-03 Facebook, Inc. Automatic placement of electronic media content items within an online document

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07249040A (ja) * 1994-03-09 1995-09-26 Kokusai Denshin Denwa Co Ltd <Kdd> 機械翻訳用文書構造解析方法並びにそれを用いた機械翻訳方法、文書構造解析装置及び機械翻訳装置
JP3940491B2 (ja) * 1998-02-27 2007-07-04 株式会社東芝 文書処理装置および文書処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004280597A (ja) 2003-03-17 2004-10-07 Seiko Epson Corp レイアウト評価システム及びレイアウト評価プログラム、並びにレイアウト評価方法
JP2010086315A (ja) 2008-09-30 2010-04-15 Canon Inc 情報処理装置及び情報処理方法
US20170329747A1 (en) 2016-05-11 2017-11-16 SiteHelix, Inc. System and method for optimizing electronic document layouts
US20180121392A1 (en) 2016-10-28 2018-05-03 Facebook, Inc. Automatic placement of electronic media content items within an online document

Also Published As

Publication number Publication date
JP2020135523A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
JP2022541199A (ja) データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。
WO2018207723A1 (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
JP5647919B2 (ja) 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
US11954139B2 (en) Deep document processing with self-supervised learning
AU2020279921B2 (en) Representative document hierarchy generation
JP6838209B1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
US11886815B2 (en) Self-supervised document representation learning
Clausner et al. Efficient and effective OCR engine training
Nengroo et al. Accessible images (AIMS): a model to build self-describing images for assisting screen reader users
JP7230576B2 (ja) 生成装置、学習装置、生成方法及びプログラム
JP2019040260A (ja) 情報処理装置及びプログラム
JP2011065255A (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
CN112347742B (zh) 基于深度学习生成文档图像集的方法
JP7283112B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
JP2021179781A (ja) 文抽出装置及び文抽出方法
JP7322468B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR20220143538A (ko) 반정형 문서로부터 정보를 추출하는 방법 및 시스템
JP2007188427A (ja) 話題画像選出方法及び装置及プログラム
JP6509391B1 (ja) 計算機システム
KR102542174B1 (ko) 디지털 참고서 제공 시스템 및 그 방법
KR102591757B1 (ko) 디지털 참고서를 생산하기 위한 PDF 파일을 Semantic HTML 형태로 변환하기 위한 방법 및 장치
KR102610681B1 (ko) 참고서 내에 수록된 문항 컨텐츠에 대한 메타 데이터를 생성하기 위한 방법 및 장치
JP7430219B2 (ja) 文書情報構造化装置、文書情報構造化方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230501

R150 Certificate of patent or registration of utility model

Ref document number: 7283112

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150