JP7283112B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP7283112B2 JP7283112B2 JP2019029326A JP2019029326A JP7283112B2 JP 7283112 B2 JP7283112 B2 JP 7283112B2 JP 2019029326 A JP2019029326 A JP 2019029326A JP 2019029326 A JP2019029326 A JP 2019029326A JP 7283112 B2 JP7283112 B2 JP 7283112B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- structured
- neural network
- layout
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
(実施の形態1)
図1は、文書翻訳システムの構成例を示す模式図である。本実施の形態では、非構造化データである所定言語(第1言語)の文書を構造化し、構造化された文書内のテキストを別言語(第2言語)に変換することで、非構造化データを対象とした機械翻訳を好適に行う文書翻訳システムについて説明する。文書翻訳システムは、情報処理装置1及び端末2を含む。各装置はインターネット等のネットワークNを介して通信接続されている。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。
例えばサーバ1は、不図示の管理者端末から、ソース言語の文書を構造化するためのルールの設定入力を受け付け、構造化テーブル141に格納しておく。具体的には、サーバ1は、非構造化データであるソース言語の文書を構成する各要素を識別する上でのルールと、各要素に付与すべきメタデータとを設定する設定入力を受け付ける。
例えばサーバ1は、端末2からソース言語の文書のアップロードを受け、当該文書を構造化した構造化データを生成する。サーバ1は、構造化テーブル141を参照して、端末2から取得した文書内の各要素を識別し、メタデータを付与する。例えば図6に示すように、サーバ1は、構造化テーブル141に格納されている書式、座標値等に係る基準値を参照して、文書内のタイトル、サブタイトル、本文、写真、図表、キャプションなどの各要素を識別する。そしてサーバ1は、各要素に対して対応するメタデータを付与し、メタデータに従って各要素を相互に関連付けた構造化データを生成する。
サーバ1は、上記で構造化した各要素のうち、テキストであるタイトル、サブタイトル、本文、キャプションなどを、要素単位で個別にターゲット言語に変換する。例えばサーバ1は、所定の翻訳エンジンに対し、タイトル、サブタイトル、本文等の各要素を個別に入力し、ターゲット言語に変換したテキストを出力として取得する。
上述の如く、サーバ1は元の文書を構造化した構造化データを生成し、文書内の各テキストをターゲット言語に変換する。サーバ1は、変換後(翻訳後)のテキストを含む各要素を、文書ページに相当する所定領域に再配置し、翻訳後の文書ページに相当するレイアウトデータ(画像)を生成する。
サーバ1の制御部11は、ネットワークNを介して、翻訳対象とするソース言語の文書と分野が共通するターゲット言語の既存文書を収集する(ステップS11)。例えば制御部11は、非構造化データである文書のページ画像(既存レイアウトデータ)を収集する。制御部11は、ターゲット言語に対応する構造化テーブル141を参照して、既存文書に含まれるテキスト、写真、図表等の各要素を識別し、各要素を定義付けるメタデータを付与した構造化データを生成する(ステップS12)。
サーバ1の制御部11は、非構造化データであるソース言語の文書を端末2から取得する(ステップS31)。制御部11は、ソース言語に対応する構造化テーブル141を参照して、取得した文書を構成するテキスト、写真、図表等の各要素を識別し、各要素に対してメタデータを付与した構造化データを生成する(ステップS32)。
本実施の形態では、人手でルールが設定された構造化テーブル141に代えて、機械学習によって構築された構造化モデル143を用いて構造化を行う形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図12は、実施の形態2に係るサーバ1の構成例を示すブロック図である。本実施の形態に係るサーバ1の補助記憶部14は、構造化テーブル141に代えて、構造化モデル143を記憶している。構造化モデル143は、機械学習によって構築された学習済みモデルであり、ソース言語の文書内の各要素を識別するための識別器である。
上述の如く、本実施の形態においてサーバ1は、人手でルールが設定された構造化テーブル141に代えて、機械学習を行うことで構築した構造化モデル143を用いて文書の構造化を行う。例えばサーバ1は、CNNに係るニューラルネットワーク、具体的にはセマンティックセグメンテーションに係るニューラルネットワークを構造化モデル143として生成し、文書の構造化処理に用いる。
サーバ1の制御部11は、構造化モデル143を生成するための教師データであって、非構造化データである教師用文書に対し、当該文書を構成する各要素のメタデータの正解値が関連付けられた教師データを取得する(ステップS201)。制御部11は、取得した教師データを用いて構造化モデル143を生成する(ステップS202)。具体的には、制御部11は、教師用文書のページ画像を構造化モデル143に入力し、各要素に相当する画像領域、及び当該領域に含まれる要素に付与すべきメタデータを識別した識別結果を出力として取得する。制御部11は、取得した識別結果を正解値と比較し、両者が近似するように重み等の各種パラメータを最適化して構造化モデル143を生成する。制御部11は、一連の処理を終了する。
図15は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。
取得部151は、第1言語のテキストを含む非構造化データを取得する。生成部152は、前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成する。変換部153は、構造化された前記テキストを第2言語に変換する。
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 構造化テーブル
142 評価モデル
143 構造化モデル
2 端末
Claims (5)
- 第1言語のテキストを含む非構造化データを取得する取得部と、
前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成する生成部と、
構造化された前記テキストを第2言語に変換する変換部と、
構造化された前記各要素を所定領域に配置したレイアウトデータを生成するレイアウト生成部と、
複数の前記レイアウトデータのサンプルを学習済みの評価器を用いて、前記レイアウト生成部が生成した前記レイアウトデータの評価を取得する評価部と、
評価結果に応じて前記レイアウトデータを出力する出力部と
を備え、
前記評価器は、ニューラルネットワークを含み、
既存文書のページ画像を正解データとした既存レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアが、前記既存文書の各要素の配置を変更したページ画像を不正解データとした偽レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアよりも高くなるように前記ニューラルネットワークを学習することを特徴とする情報処理装置。 - 前記生成部は、前記各要素に対し、該要素を定義付けるメタデータを付与した前記構造化データを生成し、
前記変換部は、前記テキストに付与された前記メタデータを参照して前記第2言語に変換する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記レイアウト生成部は、前記各要素の配置が異なる複数の前記レイアウトデータを生成し、
前記評価部は、前記複数のレイアウトデータの順位を取得し、
前記出力部は、前記順位に応じて前記レイアウトデータを出力する
ことを特徴とする請求項1又は請求項2に記載の情報処理装置。 - 第1言語のテキストを含む非構造化データを取得し、
前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成し、
構造化された前記テキストを第2言語に変換し、
構造化された前記各要素を所定領域に配置したレイアウトデータを生成し、
複数の前記レイアウトデータのサンプルを学習済みの評価器を用いて、生成した前記レイアウトデータの評価を取得し、
評価結果に応じて前記レイアウトデータを出力し、
前記評価器は、ニューラルネットワークを含み、
既存文書のページ画像を正解データとした既存レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアが、前記既存文書の各要素の配置を変更したページ画像を不正解データとした偽レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアよりも高くなるように前記ニューラルネットワークを学習する
処理をコンピュータに実行させることを特徴とする情報処理方法。 - 第1言語のテキストを含む非構造化データを取得し、
前記非構造化データを構成する各要素を識別する識別器を用いて、前記テキストを含む前記各要素を構造化した構造化データを生成し、
構造化された前記テキストを第2言語に変換し、
構造化された前記各要素を所定領域に配置したレイアウトデータを生成し、
複数の前記レイアウトデータのサンプルを学習済みの評価器を用いて、生成した前記レイアウトデータの評価を取得し、
評価結果に応じて前記レイアウトデータを出力し、
前記評価器は、ニューラルネットワークを含み、
既存文書のページ画像を正解データとした既存レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアが、前記既存文書の各要素の配置を変更したページ画像を不正解データとした偽レイアウトデータを前記ニューラルネットワークに入力した場合に前記ニューラルネットワークが出力するスコアよりも高くなるように前記ニューラルネットワークを学習する
処理をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019029326A JP7283112B2 (ja) | 2019-02-21 | 2019-02-21 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019029326A JP7283112B2 (ja) | 2019-02-21 | 2019-02-21 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020135523A JP2020135523A (ja) | 2020-08-31 |
JP7283112B2 true JP7283112B2 (ja) | 2023-05-30 |
Family
ID=72263314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019029326A Active JP7283112B2 (ja) | 2019-02-21 | 2019-02-21 | 情報処理装置、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7283112B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004280597A (ja) | 2003-03-17 | 2004-10-07 | Seiko Epson Corp | レイアウト評価システム及びレイアウト評価プログラム、並びにレイアウト評価方法 |
JP2010086315A (ja) | 2008-09-30 | 2010-04-15 | Canon Inc | 情報処理装置及び情報処理方法 |
US20170329747A1 (en) | 2016-05-11 | 2017-11-16 | SiteHelix, Inc. | System and method for optimizing electronic document layouts |
US20180121392A1 (en) | 2016-10-28 | 2018-05-03 | Facebook, Inc. | Automatic placement of electronic media content items within an online document |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07249040A (ja) * | 1994-03-09 | 1995-09-26 | Kokusai Denshin Denwa Co Ltd <Kdd> | 機械翻訳用文書構造解析方法並びにそれを用いた機械翻訳方法、文書構造解析装置及び機械翻訳装置 |
JP3940491B2 (ja) * | 1998-02-27 | 2007-07-04 | 株式会社東芝 | 文書処理装置および文書処理方法 |
-
2019
- 2019-02-21 JP JP2019029326A patent/JP7283112B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004280597A (ja) | 2003-03-17 | 2004-10-07 | Seiko Epson Corp | レイアウト評価システム及びレイアウト評価プログラム、並びにレイアウト評価方法 |
JP2010086315A (ja) | 2008-09-30 | 2010-04-15 | Canon Inc | 情報処理装置及び情報処理方法 |
US20170329747A1 (en) | 2016-05-11 | 2017-11-16 | SiteHelix, Inc. | System and method for optimizing electronic document layouts |
US20180121392A1 (en) | 2016-10-28 | 2018-05-03 | Facebook, Inc. | Automatic placement of electronic media content items within an online document |
Also Published As
Publication number | Publication date |
---|---|
JP2020135523A (ja) | 2020-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022541199A (ja) | データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。 | |
WO2018207723A1 (ja) | 要約生成装置、要約生成方法及びコンピュータプログラム | |
JP5647919B2 (ja) | 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム | |
US11954139B2 (en) | Deep document processing with self-supervised learning | |
AU2020279921B2 (en) | Representative document hierarchy generation | |
JP6838209B1 (ja) | 文書画像解析装置、文書画像解析方法およびプログラム | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
US11886815B2 (en) | Self-supervised document representation learning | |
Clausner et al. | Efficient and effective OCR engine training | |
Nengroo et al. | Accessible images (AIMS): a model to build self-describing images for assisting screen reader users | |
JP7230576B2 (ja) | 生成装置、学習装置、生成方法及びプログラム | |
JP2019040260A (ja) | 情報処理装置及びプログラム | |
JP2011065255A (ja) | データ処理装置、データ名生成方法及びコンピュータプログラム | |
CN112347742B (zh) | 基于深度学习生成文档图像集的方法 | |
JP7283112B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN116822634A (zh) | 一种基于布局感知提示的文档视觉语言推理方法 | |
JP2021179781A (ja) | 文抽出装置及び文抽出方法 | |
JP7322468B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR20220143538A (ko) | 반정형 문서로부터 정보를 추출하는 방법 및 시스템 | |
JP2007188427A (ja) | 話題画像選出方法及び装置及プログラム | |
JP6509391B1 (ja) | 計算機システム | |
KR102542174B1 (ko) | 디지털 참고서 제공 시스템 및 그 방법 | |
KR102591757B1 (ko) | 디지털 참고서를 생산하기 위한 PDF 파일을 Semantic HTML 형태로 변환하기 위한 방법 및 장치 | |
KR102610681B1 (ko) | 참고서 내에 수록된 문항 컨텐츠에 대한 메타 데이터를 생성하기 위한 방법 및 장치 | |
JP7430219B2 (ja) | 文書情報構造化装置、文書情報構造化方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230418 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230501 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7283112 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |