JP2022149705A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2022149705A
JP2022149705A JP2021051973A JP2021051973A JP2022149705A JP 2022149705 A JP2022149705 A JP 2022149705A JP 2021051973 A JP2021051973 A JP 2021051973A JP 2021051973 A JP2021051973 A JP 2021051973A JP 2022149705 A JP2022149705 A JP 2022149705A
Authority
JP
Japan
Prior art keywords
order
content
data
information processing
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021051973A
Other languages
English (en)
Inventor
憲晃 三橋
Kenko Mihashi
明生 大門
Akio Daimon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2021051973A priority Critical patent/JP2022149705A/ja
Publication of JP2022149705A publication Critical patent/JP2022149705A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】印刷物データに含まれるコンテンツの出力処理の効率性を向上させることのできる情報処理装置等を提供する。【解決手段】情報処理装置は、複数のコンテンツを含む印刷物データの各コンテンツに対する順番を設定する設定部と、前記設定部で設定した順番と、前記各コンテンツとを関連付けて前記印刷物データから抽出する抽出部と、前記抽出部で抽出した前記順番が関連付けられた前記各コンテンツを、Webデータを生成するためのアプリケーション用に出力する出力部と、を備える。【選択図】図2

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来、DTP(Desktop Publishing)ソフトを用いてカタログ、パンフレット等の印刷物用の印刷物データが作成されている。また、印刷物の内容をWebサイト上で公開するために、DTPソフトを用いて作成した印刷物データを再利用して、Webデータを生成することが行われている。
Webデータの作成は、HTML(Hyper Text Markup Language)言語等の知識を必要とするため、専門知識を有さないユーザにとって容易ではなかった。このような問題を解決するため、例えばCMS(Content Management System)のようなコンテンツ管理システムを使用したコンテンツ配信システムが提案されている(例えば、特許文献1を参照)。CMSは、Webデータを構成するコンテンツ及びレイアウト情報などを一元的に管理することができるソフトウェアである。
特開2006-285326号公報
コンテンツ管理システムを用いてWebデータを作成するためには、印刷物データ内のコンテンツに対して、例えば、複写及び転写といった所定操作によりコンテンツを抽出し、コンテンツ管理システムに登録するといった作業が必要であり、ユーザの工数が増加する。
本開示の目的は、印刷物データに含まれるコンテンツの出力処理の効率性を向上させることのできる情報処理装置等を提供することである。
本開示の一態様に係る情報処理装置は、複数のコンテンツを含む印刷物データの各コンテンツに対する順番を設定する設定部と、前記設定部で設定した順番と、前記各コンテンツとを関連付けて前記印刷物データから抽出する抽出部と、前記抽出部で抽出した前記順番が関連付けられた前記各コンテンツを、Webデータを生成するためのアプリケーション用に出力する出力部と、を備える。
本開示によれば、印刷物データに含まれるコンテンツの出力処理の効率性を向上させることができる。
情報処理装置の構成例を示すブロック図である。 情報処理装置の構成例を示す機能ブロック図である。 画面例を示す模式図である。 画面例を示す模式図である。 画面例を示す模式図である。 画面例を示す模式図である。 出力データの一例を示す概念図である。 Webページの一例を示す概念図である 順番設定に係る処理手順の一例を示すフローチャートである。 タグ設定に係る処理手順の一例を示すフローチャートである。 コンテンツの抽出及び出力に係る処理手順の一例を示すフローチャートである。 第2実施形態における学習モデルの概要を説明する説明図である。 第2実施形態における順番及びタグ設定に係る処理手順の一例を示すフローチャートである。
本開示をその実施形態を示す図面を参照して具体的に説明する。
(第1実施形態)
図1は、情報処理装置1の構成例を示すブロック図である。本実施形態では、印刷物データに含まれる複数のコンテンツに対し順番を割り当て、割り当てた順番に従って印刷物データから各コンテンツを抽出し、抽出した各コンテンツをWebデータを生成するためのコンテンツ管理システム(アプリケーション)に出力する情報処理装置、情報処理方法及びプログラムについて説明する。
本実施形態の情報処理装置1は、制御部10、記憶部11、表示部12及び操作部13を備える。情報処理装置1は複数のコンピュータからなるマルチコンピュータであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
制御部10は、一又は複数のCPU(Central Processing Unit )、GPU(Graphics Processing Unit)等を用いたプロセッサである。制御部10は、内蔵するROM(Read Only Memory)又はRAM(Random Access Memory)等のメモリを用い、各構成部を制御して処理を実行する。
記憶部11は、例えばハードディスク又はSSD(Solid State Drive )等の不揮発性記憶装置である。記憶部11には、プログラム1Pを含む制御部10が参照するプログラム及びデータが記憶されている。制御部10は、プログラム1Pを読み出して実行することによって、汎用的なサーバコンピュータを本開示特有の情報処理装置として機能させる。記憶部11は、複数の記憶装置により構成されていてもよく、情報処理装置1に接続された外部記憶装置であってもよい。また、記憶部11には、学習モデル1Mが記憶されていてもよい。学習モデル1Mについては他の実施形態で詳述する。
記憶部11に記憶されるプログラム1Pは、記録媒体にコンピュータ読み取り可能に記録されている態様であってもよい。記憶部11は、図示しない読出装置によって記録媒体1Aから読み出されたプログラム1Pを記憶する。また、図示しない通信網に接続されている図示しない外部コンピュータからプログラム1Pをダウンロードし、記憶部11に記憶させたものであってもよい。なお、プログラム1Pは、単一のコンピュータ上で、または1つのサイトにおいて配置されるか、もしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。
表示部12は、例えば液晶ディスプレイ又は有機EL(electroluminescence )ディスプレイ等のディスプレイ装置である。表示部12は、制御部10からの指示に従って印刷物データを含む画面情報を表示する。
操作部13は、ユーザの操作を受け付けるインタフェースである。操作部13は、例えばキーボード、ディスプレイ内蔵のタッチパネルデバイス、スピーカ及びマイクロフォン等である。操作部13は、ユーザからの操作入力を受け付け、操作内容に応じた制御信号を制御部10へ送出する。
本実施形態の情報処理装置1には、印刷物データを作成するためのDTP(Desktop Publishing)ソフトウェア、及びコンテンツ管理システム(アプリケーション)がインストールされている。
DTPソフトウェアは、公知のソフトウェアであり、例えばカタログ、パンフレット等の印刷物の文字組版、レイアウトなどの作業を行うための機能を有する。制御部10は、DTPソフトウェアの機能により印刷物データを作成する。印刷物データは、例えばInDesign(登録商標)、Illustrator(登録商標)、PDF(Portable Document Format)等の形式で作成される。印刷物データには、印刷物データに含まれる複数のコンテンツと、当該コンテンツに付随する位置情報及びフォント等の情報とが含まれている。
コンテンツ管理システムは、Webデータを生成するためのアプリケーションの一例である。コンテンツ管理システムは、公知のソフトウェアであり、コンテンツ及びレイアウト情報等を一元的に管理し、Webデータの生成、Webサイトの構築及び情報配信等を行うための機能を有する。このようなコンテンツ管理システムの例としては、例えばCMS(Content Management System )、RSS(Rich Site Summary )等が挙げられる。制御部10は、コンテンツ管理システムの機能によりWebデータを作成する。Webデータは、例えばHTML(Hyper Text Markup Language)、XML(eXtensible Markup Language)等の形式で作成される。
なお、情報処理装置1の記憶部11に記憶され、後述するコンテンツの抽出等を行うプログラム1Pは、これらDTPソフトウェア及びコンテンツ管理システムを含む、又はこれらとアプリケーション間連携するものであってもよい。すなわち、情報処理装置1の制御部10は、当該プログラム1Pを実行することにより、後述する抽出部等の機能部として機能すると共に、当該DTPソフトウェア及びコンテンツ管理システムとしても機能し、印刷物データの生成からWebデータの生成までを一連の処理として実行するものであってもよい。
コンテンツ管理システムにてWebデータを生成するためには、Webデータの生成に必要なコンテンツをコンテンツ管理システムに登録する必要がある。一般的に、印刷物データからのコンテンツの抽出及び登録は、人手を介して行われている。例えば、テキストデータをコピーして貼り付ける、画像データのキャプチャーを取得して貼り付けるといった作業をコンテンツの数に応じて繰り返し行う必要があり、煩雑となる。本実施形態では、後述の処理により、印刷物データの各コンテンツに順番及びタグを設定し、設定した順番及びタグを用いて自動的にコンテンツを抽出することで、コンテンツの出力処理を効率的に実行する。以下では、コンテンツとしてテキストデータを抽出する例を説明するが、コンテンツはテキストデータに限定されるものではなく、画像データを含んでもよい。
図2は、情報処理装置1の構成例を示す機能ブロック図である。図3から図6は画面例を示す模式図、図7は出力データの一例を示す概念図、図8はWebページの一例を示す概念図である。情報処理装置1の制御部10は、記憶部11に記憶されたプログラム1Pを読み出して実行することにより、設定部101、抽出部102、出力データ生成部103及び出力部104として機能する。
図3は、順番及びタグ設定前の印刷物データを含む画面例を示す。制御部10は、DTPソフトウェアの機能により、図3に示す如く印刷物データを含む画面を表示部12に表示する。印刷物データは、例えば、印刷物(文書)の1頁に相当する領域内のレイアウト枠に配置された複数のコンテンツに関する情報を含む。コンテンツには、例えば、タイトル、本文(テキスト)、画像(図)、キャプション(画像の説明文)などが含まれる。図3の例では、印刷物データはInDesign形式で生成されており、印刷物データのコンテンツには、タイトル、本文タイトルA、B、本文A、B、C、画像A、B、C、キャプションA、Bが含まれている。印刷物データは、領域内における各コンテンツ領域(フレーム)の位置、各コンテンツ領域内のコンテンツ(テキストデータ、画像データ等)に関する情報を含む。
設定部101は、複数のコンテンツを含む印刷物データの各コンテンツに対し、順番を設定する。詳細には、コンテンツを含むコンテンツ領域に対し順番を設定する。順番とは、コンテンツ管理システムに各コンテンツを出力する際における出力順序を示す番号である。当該順番は、Webデータにおける各コンテンツの配置順序に対応する。
図3に示す画面が表示されている状態で、例えばツールボタンの起動要求のためのタップ操作等を受け付けると、設定部101は、図4に示すツールボックス20を含む画面を表示する。ツールボックス20は、順番を設定するための順番設定ツールボックス(第1画像)20aと、タグを設定するためのタグ設定ツールボックス20bとを含む。順番設定ツールボックス20aは、例えば、順番設定機能の有効化を受け付けるチェックボックス201a、現在の順番(番号)を表示する順番表示部202a、表示スタイルの変更を受け付けるスタイル変更受付部203a、リスト表示を受け付けるリスト表示受付部204a等を含む。
設定部101は、チェックボックス201aの選択(有効化)を受け付けた場合、順番の設定を開始する。設定部101は、チェックボックス201aが有効化された状態で、順番の設定対象となるコンテンツの選択を受け付ける。具体的には、設定部101は、操作部13を介してユーザの操作を受け付けることにより、順番の設定対象となるコンテンツのコンテンツ領域(フレーム)の選択を受け付ける。設定部101は、選択されたコンテンツのフレームに対し、順番表示部202aに表示される順番を設定する。なお順番設定の初期において、順番表示部202aには最初の順番である1番が表示されている。例えば、図4に示すように、画面上部のタイトルに係るフレームの選択を受け付けた場合、設定部101は、タイトルのフレームに対し1番を割り当てる。設定部101は、設定した順番を示す順番オブジェクト21を、コンテンツに重畳して表示する(図5を参照)。この場合において、設定部101は、スタイル変更受付部203aにより受け付けた表示スタイルに応じて、順番オブジェクト21に係るフォント、サイズ、色等の表示態様を変更するものであってよい。
設定部101は、選択されたコンテンツに順番を設定した後、番号のカウントを1つ増加させるインクルメント処理を行い、増加後の順番を順番設定ツールボックス20aの順番表示部202aに表示する。順番表示部202aには、例えば2番が表示される。設定部101は、2番の設定対象となるコンテンツの選択を受け付ける。例えば、タイトルの下に配置される本文Aに係るフレームの選択を受け付けた場合、設定部101は、本文Aのフレームに対し2番を割り当てる。このように、ユーザは、Webデータの生成に必要な各コンテンツのフレームを、Webデータ上での配置順序に応じて順次選択する。設定部101は、抽出する全てのコンテンツに対し上述の処理を行い順番を設定する。
なお、複数頁からなる印刷物データの各コンテンツに順番を設定する場合、設定部101は、例えば複数頁に亘る全コンテンツの順番が連番となるよう順番を設定してよい。又は、設定部101は、各コンテンツを含む頁の順番(頁番号)と、当該頁内における各コンテンツの順番とを関連付けて設定してもよい。これにより、複数頁に亘る複数のコンテンツの順番が一意に特定される。
設定部101はまた、各コンテンツに対し、タグを設定する。タグは、コンテンツ領域内のコンテンツを分類するための情報である。タグには、例えばタイトル、サブタイトル、本文タイトル、キャプション等が含まれてよい。タグ設定ツールボックス20bは、これらタグの内容を示すタグ名称と、各タグの表示態様とを対応付けて表示する。図4の例では、上述の4種類のタグそれぞれに、異なる色で色付けされた枠オブジェクト22が対応付けられている。図4では、色を区別するため異なるハッチングを用いて示している。
ユーザは、例えばタグ設定ツールボックス20bに表示されるタグ名称のうちコンテンツに付与するタグ名称を、付与対象となるコンテンツのコンテンツ領域にドラッグアンドドロップすることによりタグを付与する。設定部101は、操作部13を介してユーザの操作を受け付けることにより、選択されたタグの種類及び対象となるコンテンツのコンテンツ領域を取得する。設定部101は、取得したコンテンツ領域にタグを設定する。ユーザは、タグ付けする全てのコンテンツに対し上述の操作を行う。タグ付けがなされなかったコンテンツに対しては、設定部101は、例えばタグ設定無しを示すタグを設定する。設定部101は、設定した順番及びタグを各コンテンツ領域に埋め込む。なお、設定部101は、DTPソフトウェアの機能により、上記タグ設定ツールボックス20bの表示及びタグの設定を行うものであってもよい。
図5は、順番及びタグ設定後の印刷物データを含む画面例を示す。なお、図5中の下側の一点鎖線の領域は、上側の一点鎖線の領域を拡大したものである。図5に示すように、順番が設定されたコンテンツ領域には、当該順番を示す順番オブジェクト21が表示される。また、タグが設定されたコンテンツ領域には、当該タグの種類に応じた枠オブジェクト22が表示される。例えば枠オブジェクト22のサイズは、コンテンツ領域のサイズに対応している。
また画面には、順番が設定されたコンテンツ領域を一覧で示すリストボックス(第2画像)23が表示されている。設定部101は、例えばユーザからの表示要求に応じてリストボックス23を表示させる。リストボックス23は、設定された順番と、当該順番のコンテンツ領域に含まれるコンテンツに関する情報(図5の例ではテキストデータ)とを対応付けて表示するリストボックス23を表示する。なお、画像データを含むコンテンツ領域に順番が設定された場合には、リストボックス23は、コンテンツ欄に画像データ、画像データのファイル名、サムネイル、画像データのファイルへのパス等を表示するものであってよい。リストボックス23には、設定されたタグに関する情報(例えばタグ名称)がさらに対応付けられていてもよい。
抽出部102は、設定部101で設定した各コンテンツの順番及びタグと、各コンテンツとを対応付けて印刷物データから抽出する。詳細には、印刷物データの各コンテンツ領域に埋め込まれた順番及びタグと、各コンテンツ領域に含まれるコンテンツとを関連付けて抽出する。
図6は、データ抽出前及びデータ抽出後の画面例を示す。図5に示す画面が表示されている状態で、例えばコンテンツ書き出し(抽出)要求のためのタップ操作等を受け付けると、抽出部102は、図6の上側に示す書き出しツールを含む画面を表示する。抽出部102は、書き出しツール中の「テキスト出力」と表示される出力ボタンのタップ操作を受け付けた場合、各コンテンツ領域のコンテンツの抽出を開始する。抽出部102は、印刷物データに含まれる全てのコンテンツ領域のうち順番が設定されているコンテンツ領域を特定し、特定したコンテンツ領域に埋め込まれた順番を取得する。抽出部102は、取得した順番に従い、各コンテンツ領域のタグ及びコンテンツを抽出する。抽出後、抽出部102は、図6の下側に示すように、データ抽出が終了したことを示す画面を表示させる。データ抽出後の画面には、抽出されたコンテンツ領域内のコンテンツ(図6の例では文字)が削除され、順番オブジェクトのみが含まれる印刷物データが表示される。抽出部102は、抽出したデータを出力データ生成部103へ出力する。
出力データ生成部103は、コンテンツ管理システムに出力(登録)するための出力データを生成する。出力データ生成部103は、抽出部102から受け付けた各コンテンツを、各コンテンツに関連付けられた順番に並べ、タグ付けした出力データを生成する。出力データは、例えばCSV(Comma Separated Values)、JSON(Javascript(登録商標) Object Notation)、XML等、コンテンツ管理システムのプラグイン仕様に沿ったファイル形式で生成される。図7では、CSV形式で生成された出力データの一例を示す。
図7に示す様に、例えば出力データは、タイトルフィールドと、コンテンツフィールドとを含む。タイトルフィールドには、「タイトル」タグが設定されたコンテンツが格納される。コンテンツフィールドには、「タイトル」以外のタグが設定されたコンテンツが格納される。出力データ生成部103は、各コンテンツに関連付けられた順番に従い各コンテンツを昇順に並べ、各コンテンツにタグ付けして各フィールドに格納する。図7の例では、本文タイトルAには「h2」タグが付与され、タグ設定無し(本文)のテキストデータには、段落毎に「p」タグが付与されている。コンテンツの順番は、当該コンテンツが格納されるフィールドの種類及びフィールド内におけるコンテンツの羅列順により、認識可能である。なお、出力データの構成は図7の例に限定されないことは勿論である。出力データは、各コンテンツと、各コンテンツに設定された順番及びタグとが関連付けられていればよい。
出力部104は、出力データ生成部103から受け付けた出力データを、コンテンツ管理システムに出力するためのデータとして記憶部11に記憶する。そして出力部104は、出力データをコンテンツ管理システムに出力(登録)する。コンテンツ管理システムは、登録された出力データを用いて、例えば図8に示すようなWebページを表示するための、HTML形式のWebデータを生成する。出力データに含まれる各コンテンツは、その順番に応じて、予め規定されるレイアウト位置に配置される。図8の例では、出力データの各コンテンツは、昇順に画面の上側から下側に並べられ、各コンテンツのタグに応じた表示態様(例えばフォント、サイズ、色等)にて表示される。
このように、情報処理装置1は、印刷物データに含まれる各コンテンツに対する順番及びタグを設定し、設定に応じて各コンテンツを抽出した出力データを生成し、生成した出力データをコンテンツ管理システムに登録する。ユーザは、印刷物データに対し、順番及びタグ付け操作のみを行うことで、容易に出力データをコンテンツ管理システムに登録し、Webデータを生成することができる。
図9は、順番設定に係る処理手順の一例を示すフローチャートである。情報処理装置1の制御部10は、プログラム1Pに従って以下の処理を実行する。
情報処理装置1の制御部10は、DTPソフトウェアにより生成された印刷物データを取得する(ステップS11)。制御部10は、例えば順番設定ツールの起動要求のためのタップ操作等を受け付け、DTPソフトウェアの機能により表示される印刷物データと共に、順番設定ツールボックス20aを表示部12に表示する(ステップS12)。
制御部10は、順番設定ツールボックス20aにおけるチェックボックス201aの有効化を受け付けた後、操作部13を介して、順番の設定対象となるコンテンツを含むコンテンツ領域の選択を受け付ける(ステップS13)。制御部10は、選択されたコンテンツ領域に対し、順番表示部202aに表示される順番を設定する(ステップS14)。制御部10は、順番を設定したコンテンツ領域上に、当該順番を示す順番オブジェクト21を重畳表示する。
制御部10は、順番のカウントを1つ増加させ(ステップS15)、増加後の順番を順番設定ツールボックス20aの順番表示部202aに表示する。
制御部10は、設定対象となる全てのコンテンツ領域に対し順番の設定が終了したか否かを判定する(ステップS16)。例えば、ユーザにより順番設定ツールボックス20aが閉じられた場合、又はコンテンツ書き出し要求のためのタップ操作が行われた場合、制御部10は、順番の設定が終了したと判定する。
順番の設定が終了したと判定しなかった場合(ステップS16:NO)、制御部10は、ステップS13に処理を戻し、順番の設定を繰り返す。順番の設定が終了したと判定した場合(ステップS16:YES)、ステップS17へ処理を進める。
制御部10は、リストボックス23を表示するか否かを判定する(ステップS17)。制御部10は、例えば、操作部13を介してユーザによるリスト表示受付部204aのタップ操作を受け付けた場合、リストボックス23を表示すると判定する。制御部10は、リスト表示受付部204aのタップ操作を受け付けなかった場合、リストボックス23を表示しないと判定する。
リストボックス23を表示しないと判定した場合(ステップS17:NO)、制御部10は処理を終了する。リストボックス23を表示すると判定した場合(ステップS17:YES)、制御部10は、設定された順番と、当該順番が設定されたコンテンツ領域に含まれるコンテンツとを取得し、これらを対応付けて表示するリストボックス23を生成する。制御部10は、生成したリストボックス23を表示部12に表示し(ステップS18)、一連の処理を終了する。
上述の処理において、リストボックス23の表示は、順番の設定終了後に行われるものに限定されず、順番の設定処理と並行して随時行われるものであってよい。この場合、制御部10は、順番の設定毎にリストボックス23を更新し、新たに順番が設定されたコンテンツを加えたリストボックス23を表示するとよい。
図10は、タグ設定に係る処理手順の一例を示すフローチャートである。情報処理装置1の制御部10は、例えばタグ設定ツールの起動要求のためのタップ操作等を受け付けると、プログラム1Pに従って以下の処理を実行する。なお制御部10は、DTPソフトウェアの機能により以下の処理の一部を実行するものであってもよい。
情報処理装置1の制御部10は、例えば、DTPソフトウェアの機能により表示される印刷物データと共に、タグ設定ツールボックス20bを表示部12に表示する(ステップS21)。
制御部10は、操作部13を介して、タグ設定ツールボックス20bにおけるタグのドラッグアンドドロップを受け付けることにより、選択されたタグの種類及びタグの設定対象となるコンテンツ領域を取得する(ステップS22)。制御部10は、取得したコンテンツ領域にタグを設定する(ステップS23)。制御部10は、タグを設定したコンテンツ領域を囲むように、当該タグの種類に応じた枠オブジェクト22を表示する。
制御部10は、設定対象となる全てのコンテンツ領域に対するタグの設定が終了したか否かを判定する(ステップS24)。例えばユーザによりタグ設定ツールボックス20bが閉じられた場合、又はコンテンツ書き出し要求のためのタップ操作が行われた場合、制御部10は、タグの設定が終了したと判定する。
タグの設定が終了したと判定しなかった場合(ステップS24:NO)、制御部10は、ステップS22に処理を戻し、タグの設定を繰り返す。タグの設定が終了したと判定した場合(ステップS24:YES)、制御部10は、一連の処理を終了する。
図11は、コンテンツの抽出及び出力に係る処理手順の一例を示すフローチャートである。情報処理装置1の制御部10は、例えばコンテンツ書き出し要求のためのタップ操作等を受け付けると、プログラム1Pに従って以下の処理を実行する。
制御部10は、操作部13を介してコンテンツの書き出し(抽出)要求を受け付ける(ステップS31)。具体的には、制御部10は、コンテンツ書き出し要求のためのタップ操作に応じて、書き出しツールを含む画面を表示部12に表示し、書き出しツールを含む画面の出力ボタンを利用してユーザから書き出し要求を受け付ける。
制御部10は、印刷物データに含まれる全てのコンテンツ領域のうち順番が設定されているコンテンツ領域を特定し、特定したコンテンツ領域に含まれるコンテンツデータ(オブジェクト)を印刷物データから取得する(ステップS32)。各コンテンツ領域のコンテンツデータには、コンテンツ、順番及びタグが含まれている。
制御部10は、各コンテンツ領域のコンテンツデータに含まれる順番を取得する(ステップS33)。制御部10は、取得した順番に従い、各コンテンツ領域のコンテンツデータを昇順に並べる(ステップS34)。
制御部10は、各コンテンツ領域のコンテンツデータに含まれるタグ及びコンテンツを抽出する(ステップS35)。コンテンツの抽出後、制御部10は、印刷物データから抽出したコンテンツを削除することにより、抽出したコンテンツが一見して識別可能な画面情報を生成し、表示部12に表示する。
制御部10は、抽出した各コンテンツと、各コンテンツの順番及びタグとを関連付けた出力データを生成し(ステップS36)、生成した出力データを記憶部11に記憶する(ステップS37)。出力データは、出力先であるコンテンツ管理システムに応じたファイル形式で生成される。制御部10は、例えばタグ付けした各コンテンツを、タグの種類に応じたデータフィールドにそれぞれ格納したCSV形式の出力データを生成する。各データフィールドには、各コンテンツに関連付けられた順番に従い各コンテンツが格納されている。
制御部10は、出力データをコンテンツ管理システムに出力し(ステップS38)、一連の処理を終了する。より詳細には、制御部10は、出力データをコンテンツ管理システムに登録し、前記アプリケーションにWebデータを生成させる。
上述の処理により、印刷物データから抽出したコンテンツがコンテンツ管理システムに出力される。コンテンツ管理システムは、出力データを受け付け、受け付けた出力データを用いてWebデータを生成する。
上述の処理において、制御部10は、出力データを直接コンテンツ管理システムに出力するものに限定されない。制御部10は、例えば出力データをコンテンツ管理システム用に、コンテンツ管理システムがアクセス可能な記憶領域に出力するものであってもよい。コンテンツ管理システムは、当該記憶領域にアクセスすることにより、出力データを取得する。
上述の処理において、制御部10は、出力データをコンテンツ管理システムにて登録させるための登録指示をコンテンツ管理システムに出力するものであってもよい。コンテンツ管理システムは、出力された登録指示に応じて、プラグインにより記憶部11から出力データを読み出し、読み出した出力データを登録する。
上述の処理において、制御部10は、出力データとしてCSVファイル等、外部ファイルを生成し、当該外部ファイルをコンテンツ管理システムに出力するものに限定されない。制御部10は、例えばコンテンツ管理システムが有するAPI(Application Programming Interface )を介してプロセス間通信を行うことにより、順番及びタグが関連付けられた各コンテンツを外部ファイル化することなく、出力するものであってもよい。
上述の処理において、制御部10は、ユーザからの登録操作を受け付けることにより、出力データをコンテンツ管理システムに出力するものであってもよい。制御部10は、例えば操作部13を介して、ユーザからの登録操作を受け付ける。この場合において、制御部10は、登録対象となる出力データの選択を受け付ける。制御部10は、選択された出力データを読み出し、コンテンツ管理システムに出力する。
上述の処理において、制御部10は、ユーザからの書き出し要求に応じてコンテンツの抽出処理を実行するものに限定されない。制御部10は、例えば図9及び図10に示す順番及びタグの設定終了後、ユーザからの書き出し要求を取得することなく抽出処理を実行してもよい。制御部10は、予約スケジュールに従い、予め設定された時間に自動で抽出処理を開始してもよい。
上述の処理において、制御部10は、複数頁からなる印刷物データから、1つのWebデータを生成するための1つの出力データを生成する場合、複数頁にまたがる各コンテンツに対し、連続する順番を設定してもよく、各コンテンツを含む頁の順番と当該頁内における各コンテンツの順番とを関連付けて設定してもよい。これにより、複数頁からなる印刷物データに基づき1つのWebデータが効率的に生成される。
上記では、順番設定及びコンテンツ抽出処理を、DTPソフトウェアのプラグインである場合の処理として説明したが、本実施形態は限定されるものではなく、DTPソフトウェアと別に実行されるものであってもよい。また印刷物データは、DTPソフトウェアにより生成されるものに限定されない。情報処理装置1は、例えば不図示の入出力部を介して紙媒体等をスキャンしたデータを取得し、当該データに対し画像解析、OCR(Optical Character Recognition)等の手法を用いてコンテンツの位置及び内容等を対応付けた印刷物データを生成してもよい。
また上記では、出力データの登録処理を、コンテンツ管理システムのプラグインである場合の処理として説明したが、本実施形態は限定されるものではなく、コンテンツ管理システムと独立して実行されるものであってもよい。
上述の処理によれば、情報処理装置1は、設定された順番及びタグを用いて好適に印刷物データからコンテンツを抽出し、コンテンツ管理システムに登録する。情報処理装置1は、順番設定の有無に応じて抽出対象となるコンテンツを特定し、特定したコンテンツのみを抽出する。ユーザは、順番及びタグ付けの操作を行うのみでコンテンツをコンテンツ管理システムに登録することができるため、コンテンツの複写、キャプチャ取得、転写といった操作を不要とし、効率性を向上させることができる。また、ユーザは、順番設定の有無といった容易な方法で抽出対象となるコンテンツを指定し、印刷物データからカスタマイズされたWebデータを効率的に生成することができる。これにより、時間的コストや人的コストを削減するとともに、作業ミスを低減することができる。
(第2実施形態)
第2実施形態では、情報処理装置1が自動で順番及びタグを特定する構成を説明する。第2実施形態の情報処理装置1は、印刷物データのレイアウト枠に配置された複数のコンテンツに対し順番及びタグを特定する処理を実行する。
情報処理装置1の制御部10は、印刷物データに含まれる全てのコンテンツに係るコンテンツ領域(フレーム)の位置及び大きさを取得する。制御部10は、例えば各コンテンツ領域の上部左端の座標に基づき、所定ルールに従い順番を特定する。所定ルールは限定されるものではないが、一例として、コンテンツ領域がY軸方向(印刷物データの縦方向)において上から下に配置される程、番号が大きくなる。Y軸方向の座標が同じ場合において、印刷物が右開きのときは、X軸方向(印刷物データの横方向)において右から左に配置される程、番号が大きくなる。印刷物が左開きのときは、X軸方向において左から右に配置される程、番号が大きくなる。制御部10は、予め生成した上記ルールを記憶部11に記憶しておく。制御部10は、上記ルールを参照して、各コンテンツ領域の座標値を比較することにより、各コンテンツ領域に対する順番を特定する。
制御部10はまた、各コンテンツ領域に含まれるコンテンツデータに基づき、タグの種類を特定する。制御部10は、例えば予めフォントサイズの閾値とタグの種類とを対応付けたテーブルを記憶部11に記憶しておく。制御部10は、上記テーブルを参照して、各コンテンツ領域に含まれるコンテンツのフォントサイズに基づき、各コンテンツ領域に対するタグを特定する。制御部10は、例えばフォントサイズ大きいものから順に、タグの種類タイトル、本文タイトル、本文と特定する。
制御部10は、その他機械学習モデルの手法により順番及びタグを特定してもよい。図12は、第2実施形態における学習モデル1Mの概要を説明する説明図である。学習モデル1Mは、複数のコンテンツを含む印刷物データを入力として、当該印刷物データにおける各コンテンツの順番及びタグを示す情報を出力する機械学習モデルである。制御部10は、学習モデル1Mの構造情報、パラメータ等の学習モデル1Mに関する定義情報を記憶部11に記憶しておく。
学習モデル1Mは、例えばニューラルネットワークである。学習モデル1Mは、印刷物データが入力される入力層と、印刷物データの特徴量を抽出する中間層と、各コンテンツの順番及びタグを示す情報を出力する出力層とを有する。
学習モデル1Mの入力層は、印刷物データの入力を受け付ける複数のノードを有し、入力された印刷物データを中間層に受け渡す。中間層は、入力データの特徴量を抽出する複数のノードを有し、各種パラメータを用いて抽出された特徴量を出力する。出力層は、印刷物データにおける各コンテンツの順番及びタグを出力する複数のノードを有し、中間層から出力された特徴量に基づいて各コンテンツの順番及びタグを識別する。
学習モデル1Mの入力層には、印刷物データに含まれるコンテンツの特徴量を算出するニューラルネットワーク等の抽出モデルを用いて算出されたコンテンツの特徴量が入力されてもよい。抽出モデルは、例えばテキストデータであるコンテンツの特徴量を算出する自然言語処理系のニューラルネットワークと、画像データであるコンテンツの特徴量を算出する画像処理系のニューラルネットワークとの2種類が用意されていてもよい。
学習モデル1Mは、複数のコンテンツを含む印刷物データと、各コンテンツの順番及びタグを示すラベルとが対応付けられた訓練データを用意し、当該訓練データを用いて未学習のニューラルネットワークを機械学習させることにより生成することができる。例えば訓練データは、印刷物データに対し、コンテンツ領域の順番及びタグ並びに座標範囲がラベル付けされたデータである。制御部10は、訓練データに含まれる複数の印刷物データを学習前のニューラルネットワークモデルの入力層に入力し、中間層での演算処理を経て、出力層から出力される順番及びタグ並びに座標範囲を取得する。そして、制御部10は、出力層から出力された順番及びタグ並びに座標範囲と、訓練データに含まれる順番及びタグ並びに座標範囲とを比較し、出力層から出力される順番及びタグ並びに座標範囲が訓練データに含まれる順番及びタグ並びに座標範囲に近づくように、中間層での演算処理に用いるパラメータを最適化する。当該パラメータは、例えばニューロン間の重み(結合係数)などである。パラメータの最適化の方法は特に限定されないが、例えば制御部10は誤差逆伝播法を用いて各種パラメータの最適化を行う。
このように学習された学習モデル1Mによれば、図12に示すように、印刷物データを学習モデル1Mに入力することによって、印刷物データに含まれる各コンテンツ領域の順番及びタグが得られる。なお、学習モデル1Mは、サポートベクタマシン、回帰木等、他の学習アルゴリズムで構築されたモデルであってよい。
学習モデル1Mは、複数のコンテンツを含む印刷物データを入力した場合に、各コンテンツに対する順番又はタグを示す情報を出力するものであってもよい。この場合、制御部10は、各コンテンツに対する順番を出力する第1の学習モデル1Mと、各コンテンツに対するタグを出力する第2の学習モデル1Mとを用いて順番及びタグを特定してもよく、学習モデル1Mと、上記ルールベースの手法とを組み合わせて順番及びタグを特定してもよい。
図13は、第2実施形態における順番及びタグ設定に係る処理手順の一例を示すフローチャートである。情報処理装置1の制御部10は、プログラム1Pに従って以下の処理を実行する。
情報処理装置1の制御部10は、例えばDTPソフトウェアにより生成された印刷物データを取得する(ステップS41)。印刷物データには複数のコンテンツが含まれている。制御部10は、ルールベース又は機械学習の手法により、取得した印刷物データにおける各コンテンツ領域の順番及びタグを特定する(ステップS42)。機械学習手法の場合、制御部10は、学習モデル1Mの入力データとして印刷物データを入力し、学習モデル1Mから出力される各コンテンツ領域の順番及びタグを取得することにより、順番及びタグを特定する。制御部10は、各コンテンツ領域に対し、特定した順番及びタグを設定し(ステップS43)、一連の処理を終了する。
本実施形態によれば、情報処理装置1が自動で順番及びタグを特定する。情報処理装置1は、印刷物データの取得から、コンテンツの抽出、抽出したコンテンツのコンテンツ管理システムへの登録までの一連の処理を自動で実行することができ、より効率性が向上される。
今回開示した実施の形態は、全ての点で例示であって、制限的なものではないと考えられるべきである。各実施例にて記載されている技術的特徴は互いに組み合わせることができ、本発明の範囲は、特許請求の範囲内での全ての変更及び特許請求の範囲と均等の範囲が含まれることが意図される。
1 情報処理装置
10 制御部
11 記憶部
12 表示部
13 操作部
1P プログラム
1M 学習モデル
1A 記録媒体

Claims (15)

  1. 複数のコンテンツを含む印刷物データの各コンテンツに対する順番を設定する設定部と、
    前記設定部で設定した順番と、前記各コンテンツとを関連付けて前記印刷物データから抽出する抽出部と、
    前記抽出部で抽出した前記順番が関連付けられた前記各コンテンツを、Webデータを生成するためのアプリケーション用に出力する出力部と、を備える
    情報処理装置。
  2. 前記印刷物データから抽出した前記各コンテンツを、前記各コンテンツに関連付けられた前記順番に従い並べた出力データを生成する出力データ生成部を備える
    請求項1に記載の情報処理装置。
  3. 前記出力部は、前記順番が関連付けられた前記各コンテンツを前記アプリケーションに登録し、前記アプリケーションに前記Webデータを生成させる
    請求項1又は請求項2に記載の情報処理装置。
  4. 前記抽出部は、前記各コンテンツに付与されたタグと、前記各コンテンツとを関連付けて前記印刷物データから抽出する
    請求項1から請求項3のいずれか1項に記載の情報処理装置。
  5. 前記Webデータは前記タグに基づく態様にて生成される
    請求項4に記載の情報処理装置。
  6. 前記設定部は、選択された前記各コンテンツの領域に対し前記順番を設定し、
    前記抽出部は、前記各コンテンツの領域に含まれる前記各コンテンツを抽出する
    請求項1から請求項5のいずれか1項に記載の情報処理装置。
  7. 前記設定部は、前記各コンテンツの選択を受け付けた順序に応じて前記各コンテンツに対する順番数を増加させることにより前記順番を設定する
    請求項1から請求項6のいずれか1項に記載の情報処理装置。
  8. 前記設定部は、前記印刷物データにおける前記各コンテンツの配置に応じて前記順番を設定する
    請求項1から請求項7のいずれか1項に記載の情報処理装置。
  9. 前記設定部は、前記印刷物データに含まれる前記各コンテンツのうちユーザの選択を受け付けたコンテンツに対し前記順番を設定する
    請求項1から請求項8のいずれか1項に記載の情報処理装置。
  10. 前記設定部は、印刷物データを入力した場合に、前記印刷物データの各コンテンツに対する順番及びタグを出力する学習モデルに前記印刷物データを入力することにより、前記学習モデルから出力される前記順番及びタグを設定する
    請求項1から請求項9のいずれか1項に記載の情報処理装置。
  11. 前記設定部により設定される前記順番を順に表示する第1画像と、前記設定部により設定済みの前記順番及び前記順番が設定されたコンテンツに関する情報を対応付けて表示する第2画像とを表示する
    請求項1から請求項10のいずれか1項に記載の情報処理装置。
  12. 複数頁からなる前記印刷物データに基づき1つの前記Webデータが生成される
    請求項1から請求項11のいずれか1項に記載の情報処理装置。
  13. 前記設定部は、複数頁からなる前記印刷物データに含まれる前記各コンテンツに対し、連続する順番を設定する又は前記各コンテンツを含む頁の順番と当該頁内における前記各コンテンツに対する順番とを関連付けて設定する
    請求項12に記載の情報処理装置。
  14. 複数のコンテンツを含む印刷物データの各コンテンツに対する順番を設定し、
    設定した前記順番と、前記各コンテンツとを関連付けて前記印刷物データから抽出し、
    抽出した前記順番が関連付けられた前記各コンテンツを、Webデータを生成するためのアプリケーション用に出力する
    処理をコンピュータが実行する情報処理方法。
  15. 複数のコンテンツを含む印刷物データの各コンテンツに対する順番を設定し、
    設定した前記順番と、前記各コンテンツとを関連付けて前記印刷物データから抽出し、
    抽出した前記順番が関連付けられた前記各コンテンツを、Webデータを生成するためのアプリケーション用に出力する
    処理をコンピュータに実行させるためのプログラム。
JP2021051973A 2021-03-25 2021-03-25 情報処理装置、情報処理方法及びプログラム Pending JP2022149705A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021051973A JP2022149705A (ja) 2021-03-25 2021-03-25 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021051973A JP2022149705A (ja) 2021-03-25 2021-03-25 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2022149705A true JP2022149705A (ja) 2022-10-07

Family

ID=83464816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021051973A Pending JP2022149705A (ja) 2021-03-25 2021-03-25 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2022149705A (ja)

Similar Documents

Publication Publication Date Title
CN100429646C (zh) 包括手写数据的电子文档的显示装置及方法
US20070130529A1 (en) Automatic generation of user interface descriptions through sketching
JP4945813B2 (ja) 印刷構造化文書
CN103703457A (zh) 收集关于web页面的用户反馈
US20090254813A1 (en) Document processing apparatus and document processing method
US20190146646A1 (en) Information processing system, information processing apparatus, and non-transitory computer readable medium
JP2022149705A (ja) 情報処理装置、情報処理方法及びプログラム
JP6897303B2 (ja) 文書変換プログラム、文書変換方法および文書変換装置
CN114004591A (zh) 自定义表单自动审核方法、装置、电子设备及存储介质
JP5187251B2 (ja) 電子文書処理システム及びプログラム
WO2022029874A1 (ja) データ処理装置、データ処理方法及びデータ処理プログラム
JP4741363B2 (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム
JP4539386B2 (ja) 電子フォーム印刷装置
CN108733637A (zh) 信息处理设备和信息处理方法
JP7241822B2 (ja) 証憑構造分析システム、証憑構造分析方法及び証憑構造分析プログラム
JP2013088777A (ja) ビューワ装置、サーバ装置、表示制御方法、電子コミック編集方法及びプログラム
JP7333759B2 (ja) 画像データ生成システム、画像データ生成方法及びコンピュータプログラム
JP5303967B2 (ja) 組版装置、組版方法、及び組版処理プログラム
WO2022085076A1 (ja) 方法、情報処理装置及びプログラム
JP4508264B2 (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
JP4963633B2 (ja) 情報処理装置及び情報処理方法
JP2001222536A (ja) 特許マップ作成システム及びその作成方法ならびに記録媒体
JP5372330B2 (ja) 出版進捗管理システム、出版進捗管理方法、およびプログラム
JP2021190075A (ja) 案内システム、案内方法、およびコンピュータプログラム
JP2023087805A (ja) 情報処理装置及びプログラム