JP2019040261A

JP2019040261A - 情報処理装置及びプログラム

Info

Publication number: JP2019040261A
Application number: JP2017159663A
Authority: JP
Inventors: 聡田端; Satoshi Tabata; 克俊前沢; Katsutoshi Maezawa
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2017-08-22
Filing date: 2017-08-22
Publication date: 2019-03-14

Abstract

【課題】コンテンツの管理を効率化することができる情報処理装置等を提供する。【解決手段】サーバ（情報処理装置）１は、非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定する設定部１６１と、非構造化データである複数のコンテンツを取得する取得部１６２と、取得した前記コンテンツ夫々から前記各要素を抽出する抽出部１６３と、前記各要素の特徴を抽出する特徴抽出部１６４と、前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与する付与部１６５と、該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する生成部１６６とを備えることを特徴とする。【選択図】図１６

Description

本発明は、情報処理装置及びプログラムに関する。

いわゆるマイクロコンテンツに代表されるように、文書等のコンテンツの一部要素を抜き出して利用するケースが増えている。しかし、文書等のコンテンツデータはいわゆる非構造化データであることが多く、コンテンツ内の各要素が何であるかを示す情報を保持していない。従って、コンテンツデータから各要素を抽出する作業を事前に行う必要がある。

例えば特許文献１では、文書画像を所定の領域毎に分割し、分割した領域内のデータにタグ及び属性値を割り当てることで、マークアップ言語で記述した文書データを生成する文書画像処理装置等が開示されている。

特開２００２−４１４９７号公報

しかしながら、特許文献１に係る発明は、単一のコンテンツを各要素に分割して意味付けを行っているに過ぎず、多数のコンテンツの要素を関連付けて管理するに至っていない。

一つの側面では、コンテンツの管理を効率化することができる情報処理装置等を提供することを目的とする。

一つの側面では、情報処理装置は、非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定する設定部と、非構造化データである複数のコンテンツを取得する取得部と、取得した前記コンテンツ夫々から前記各要素を抽出する抽出部と、前記各要素の特徴を抽出する特徴抽出部と、前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与する付与部と、該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する生成部とを備えることを特徴とする。

一つの側面では、情報処理装置は、前記生成部は、前記各要素の特徴に応じて関連付けを行うことを特徴とする。

一つの側面では、情報処理装置は、前記構造化データを参照して、前記各要素を出力する出力部を備えることを特徴とする。

一つの側面では、情報処理装置は、前記構造化データを参照して、関連付けられた複数の前記要素を検索する検索部を備え、前記出力部は、検索された前記複数の要素を出力することを特徴とする。

一つの側面では、情報処理装置は、非構造化データのサンプルと、該サンプルに含まれる前記各要素に対応する前記タグ情報とを含む教師情報を取得する教師情報取得部を備え、前記特徴抽出部は、前記サンプルに含まれる前記各要素の特徴を抽出し、前記設定部は、抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記ルールを設定することを特徴とする。

一つの側面では、プログラムは、非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定し、非構造化データである複数のコンテンツを取得し、取得した前記コンテンツ夫々から前記各要素を抽出し、前記各要素の特徴を抽出し、前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与し、該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する処理をコンピュータに実行させることを特徴とする。

一つの側面では、コンテンツの管理を効率化することができる。

情報処理システムの概要を示す説明図である。サーバの構成例を示すブロック図である。構造化テーブルのレコードレイアウトの一例を示す説明図である。重要語テーブルのレコードレイアウトの一例を示す説明図である。重要パラグラフテーブルのレコードレイアウトの一例を示す説明図である。構造化ルールの設定処理に関する説明図である。タグ情報の付与処理に関する説明図である。構造化データの生成処理に関する説明図である。サーバが実行する処理手順の一例を示すフローチャートである。実施の形態２に係る構造化ルールの設定処理に関する説明図である。実施の形態２に係るサーバが実行する処理手順の一例を示すフローチャートである。実施の形態３に係る構造化データの生成処理に関する説明図である。実施の形態３に係る検索機能について説明するための説明図である。実施の形態３に係るサーバが実行する処理手順の一例を示すフローチャートである。変形例１に係るマイクロコンテンツの販売処理について説明する説明図である。上述した形態のサーバの動作を示す機能ブロック図である。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。
（実施の形態１）
図１は、情報処理システムの概要を示す説明図である。本実施の形態では、非構造化データを構造化データに変換する処理を行う情報処理システムについて説明する。情報処理システムは、情報処理装置１及び端末２を含む。情報処理装置１及び端末２は、インターネット等のネットワークＮを介して通信接続されている。

情報処理装置１は、種々の情報処理、情報の送受信を行う装置であり、例えばサーバ装置、パーソナルコンピュータ、多機能端末等である。本実施の形態において情報処理装置１はサーバ装置であるものとし、以下では簡潔のためサーバ１と読み替える。サーバ１は、非構造化データであるデジタルコンテンツ、例えば書籍、新聞、雑誌等の文書データを取得し、デジタルコンテンツを構造化した構造化データを生成する処理を行う。

端末２は、サーバ１と通信を行うクライアント端末であり、管理者が操作する端末装置である。サーバ１は、端末２からデジタルコンテンツを取得し、端末２からの要求に従って構造化データの生成処理を行う。

図２は、サーバ１の構成例を示すブロック図である。サーバ１は、制御部１１、主記憶部１２、通信部１３、補助記憶部１４を備える。
制御部１１は、一又は複数のＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）等の演算処理装置を有し、補助記憶部１４に記憶されたプログラムＰを読み出して実行することにより、サーバ１に係る種々の情報処理、制御処理等を行う。主記憶部１２は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等であり、制御部１１が演算処理を実行するために必要なデータを一時的に記憶する。通信部１３は、通信に関する処理を行うための処理回路等を含み、端末２等と情報の送受信を行う。

補助記憶部１４は大容量メモリ、ハードディスク等であり、制御部１１が処理を実行するために必要なプログラムＰ、その他のデータを記憶している。また、補助記憶部１４は、構造化テーブル１４１、重要語テーブル１４２、重要パラグラフテーブル１４３、コンテンツＤＢ１４４を記憶している。構造化テーブル１４１は、非構造化データであるデジタルコンテンツを構造化データに変換するための構造化ルールを規定している。重要語テーブル１４２は、デジタルコンテンツ（文書）のキーワードとなる重要語を規定している。重要パラグラフテーブル１４３は、文書内の重要なパラグラフを特定するためのルールを規定している。コンテンツＤＢ１４４は、デジタルコンテンツを構造化した構造化データを格納するデータベースである。
なお、補助記憶部１４はサーバ１に接続された外部記憶装置であってもよい。また、サーバ１は複数のコンピュータからなるマルチサーバであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。

図３は、構造化テーブル１４１のレコードレイアウトの一例を示す説明図である。構造化テーブル１４１は、要素名列、ルール列を含む。要素名列は、「タイトル」、「サブタイトル」、「本文」などのように、文書ページを構成する各基本要素の要素名（後述するタグ情報）が記憶されている。ルール列は、要素名と対応付けて、各要素名に対応する基本要素を特徴付ける情報が記憶されている。例えばルール列には、各要素に含まれるテキストのフォント、文字サイズ、文書ページ内における各要素の座標値等のデータが記憶されている。

図４は、重要語テーブル１４２のレコードレイアウトの一例を示す説明図である。重要語テーブル１４２は、重要語番号列、重要語列を含む。番号列は、各重要語を識別するための番号を記憶している。重要語列は、文書のキーワードとなる重要語に係る文字列を記憶している。

図５は、重要パラグラフテーブル１４３のレコードレイアウトの一例を示す説明図である。重要パラグラフテーブル１４３は、パラグラフ番号列、冒頭語列、末尾語列を含む。パラグラフ番号列は、各パターンの重要パラグラフを識別するための番号を記憶している。冒頭語列及び末尾語列は、重要なパラグラフを表現する際に頻出する冒頭語及び末尾語を記憶している。後述するように、サーバ１は、当該冒頭語及び末尾語が出現するパラグラフを重要パラグラフとして認識する。

図６は、構造化ルールの設定処理に関する説明図である。図６では、非構造化データを構造化データに変換するための構造化ルールを設定する様子を図示している。
サーバ１は、端末２を介して、非構造化データに含まれる各要素の特徴と、各要素に付与すべきタグ情報とを設定する設定入力を受け付ける。非構造化データは、テキスト及び画像からなる文書データであり、例えばＰＤＦ（Portable Document Format、登録商標）ファイルである。

非構造化データの要素は、文書を所定領域毎に分割したデータであり、例えば図６において矩形枠で囲って示すように、文書のタイトル、サブタイトル、本文、図など、文書を構成する基本要素である。タグ情報は、各要素を定義付けるメタ情報であり、ＸＭＬ（Extensible Markup Language）ファイルにおいて各要素にタグ付けされる要素名又は属性値である。本実施の形態においてタグ情報は、各要素の要素名であるものとする。例えば図６に示すように、文書のタイトルに該当する要素であれば「タイトル」、サブタイトルに該当する要素であれば「サブタイトル」が要素名に該当する。

サーバ１は端末２を介して、構造化ルールの初期設定を受け付ける。具体的には、サーバ１は、文書に含まれる各要素の要素名と、各要素名に該当する要素の特徴とを指定する指定入力を受け付ける。各要素の特徴は、例えば各要素内のテキストの書式、又は各要素のレイアウト等である。例えばサーバ１は、図６に矩形枠で囲って示す各要素について、各要素を記述する際に用いられるテキストのフォント、文字サイズ等の指定入力を受け付ける。また、サーバ１は、各要素に該当する矩形領域の座標値（位置及び範囲）、すなわちレイアウトに関する指定入力を受け付ける。

例えば文書のタイトルについて設定する場合、管理者はまず要素名「タイトル」を入力する。次に管理者は、タイトルに係るテキストとして利用される文字のフォント及びサイズと、文書内でタイトルが記載される位置及び範囲に係る座標値とを指定する。

サーバ１は、上記で指定された各要素の要素名と、各要素の書式、レイアウト等の情報とを対応付け、構造化テーブル１４１に格納する。これにより、サーバ１は、書式、レイアウト等の各要素の傾向（特徴）に応じて、各要素がどの要素名に該当するかを識別可能となる。

なお、上記では各要素の特徴として書式及びレイアウトを挙げたが、本実施の形態はこれに限定されるものではない。例えばサーバ１は、文書内に含まれる表を識別可能とすべく、表を構成する罫線の線種等の指定を受け付けてもよい。

図７は、タグ情報の付与処理に関する説明図である。サーバ１は、構造化データに変換する複数のデジタルコンテンツ（文書）を端末２から取得する。そしてサーバ１は、上記で設定した構造化ルールに基づき、非構造化データである各デジタルコンテンツの各要素にタグ情報を付与する処理を行う。具体的には、サーバ１は、対象とする文書からタイトル、サブタイトル、本文、図などの各要素を抽出し、各要素の書式、レイアウト等の特徴を抽出する。そしてサーバ１は、構造化テーブル１４１を参照して、各要素の書式、レイアウト等に対応するタグ情報を識別する。例えばタイトルに相当するテキスト箇所を抽出した場合、サーバ１は、当該テキストのフォント、文字サイズ、レイアウト等に基づき、当該テキストがタイトルであることを認識する。サーバ１は、デジタルコンテンツの各要素について同様に処理を行い、各要素を識別する。

サーバ１は、各要素にタグ情報を付与する。例えばサーバ１は、文書のタイトルに係るテキスト要素を抽出した場合、当該要素に要素名「ｔｉｔｌｅ」を付与する。サーバ１は他の要素についても同様に処理を行い、要素名を付与する。

また、サーバ１は、文書内のタイトル、本文、図などの基本要素を抽出して要素名を付与するだけでなく、文書内で重要な単語、又は重要なパラグラフを抽出して、重要な単語又はパラグラフである旨のタグ情報を付与する。例えばサーバ１は、文書内のテキストに対して文字認識を行い、重要語テーブル１４２に規定された重要語に該当する単語を抽出する。サーバ１は当該単語に対して、重要語である旨のタグ情報を付与する。これによりサーバ１は、文書のキーワードを特定する。

また、サーバ１は重要パラグラフテーブル１４３を参照して、文書から重要パラグラフを抽出してタグ情報を付与する。例えばサーバ１は、重要なパラグラフを表現（記述）する際に頻出する冒頭及び末尾の単語を、重要パラグラフテーブル１４３に予め設定しておく。サーバ１は、文書内の各パラグラフの冒頭語及び末尾語を重要パラグラフテーブル１４３に規定された単語と比較し、重要パラグラフを特定する。これによりサーバ１は、文書内の特徴的な箇所を抽出する。

このように、サーバ１は、文書内のタイトル、本文、画像、重要語、重要パラグラフ等の各要素を抽出し、タグ情報を付与する。サーバ１は、端末２から取得した各コンテンツについて同様に処理を行い、構造化データを生成するためにタグ情報を付与する。サーバ１は、各要素に付与したタグ情報に基づいて、デジタルコンテンツの構造化データを生成する。

図８は、構造化データの生成処理に関する説明図である。例えばサーバ１は、ＰＤＦファイルである文書をＸＭＬ形式に変換したテキストファイルを生成する。例えばサーバ１は、図８における「文書１」のタイトル、本文、頁番号等に付与したタグ情報を参照して、一の要素（図８では頁番号）に紐付けてその他の要素をテキストファイルに格納する。また、サーバ１は、文書から画像を抽出した場合、抽出した画像をテキストファイルのファイル名と対応付けて画像フォルダに格納する。これによりサーバ１は、デジタルコンテンツの構造化データを生成する。

ここで、サーバ１は単に各コンテンツをそれぞれ構造化するだけでなく、複数のコンテンツの要素を関連付けることで、異なるコンテンツに跨る複合的な構造化データを生成する。

例えばサーバ１は、一のコンテンツを基本コンテンツとし、基本コンテンツから抽出した要素に、他のコンテンツの要素を関連付けてテキストファイルに格納する。図８の例では、太線箇所に示すように、サーバ１は「文書１」を基本コンテンツとして、「文書１」のテキスト要素（本文）に「文書２」、「文書３」のテキスト要素を関連付けてある。このように、サーバ１は基本コンテンツの要素に他のコンテンツの要素を従属させて、複数のコンテンツに跨る要素を階層化させた構造化データを生成する。

例えばサーバ１は、上記で抽出した文書の重要語、又は重要パラグラフを基準に関連付けを行う。具体的には、サーバ１は、各文書内で同じ重要語が出現するテキスト要素を特定し、相互に関連付けてテキストファイルに格納する。また、サーバ１は、各文書の重要パラグラフを相互に関連付けてテキストファイルに格納する。図８の例では、「文書１」のテキスト要素と「文書２」のテキスト要素とに同じ重要語が出現する場合、サーバ１は、基本コンテンツである「文書１」のテキスト要素の下位要素として、「文書２」のテキスト要素を従属させる。また、「文書１」の重要パラグラフを含むテキスト要素と、「文書３」の重要パラグラフを含むテキスト要素を紐付けるべく、サーバ１は、「文書１」のテキスト要素に「文書３」のテキスト要素を従属させる。

このように、サーバ１は、同じ重要語が出現するため関係する可能性が高いテキスト箇所、あるいは各文書の特徴的な箇所同士を関連付ける。異なるコンテンツの要素を関連付けることで、例えば文書検索、出力等を行う際に利便性の高い構造化データが生成される。

なお、上記では文書内の要素を関連付ける方法について、重要語及び重要パラグラフを例に取って簡単に説明したが、本実施の形態はこれに限定されるものではない。例えばサーバ１は、ｔｆ−ｉｄｆ法を用いて複数のコンテンツ（文書）から特徴語を抽出し、同じ特徴語が出現するテキスト要素を相互に関連付けてもよい。また、例えばサーバ１は、コサイン類似度等を用いて、類似するパラグラフを特定して相互に関連付けてもよい。このように、サーバ１は、各要素の特徴に応じて適切に関連付け可能であればよく、関連付けの基準は特に限定されない。

また、上記でサーバ１はテキスト要素のみについての関連付けを行ったが、各コンテンツから抽出した画像についても関連付けを行ってもよい。例えばサーバ１は、各画像の特徴量（例えば画素値等）の差分値を取って類似性を比較し、類似すると判定した画像同士を関連付ける。このように、サーバ１はテキスト以外の要素について関連付けを行ってもよい。

図９は、サーバ１が実行する処理手順の一例を示すフローチャートである。図９に基づき、サーバ１が実行する処理内容について説明する。
サーバ１の制御部１１は、非構造化データに含まれる各要素の特徴と、各要素を定義付けるタグ情報との対応関係を規定する構造化ルールを設定する処理を行う（ステップＳ１１）。具体的には、制御部１１は端末２を介して、各要素の特徴と、タグ情報とを指定する初期設定を受け付ける。例えば制御部１１は、文書のタイトル、サブタイトル、本文等の要素名と、各要素名に対応する要素の書式及びレイアウトとを指定する指定入力を受け付ける。制御部１１は、指定内容を構造化テーブル１４１に格納し、構造化ルールを設定する。

制御部１１は、非構造化データである複数のデジタルコンテンツを端末２から取得する（ステップＳ１２）。デジタルコンテンツは、例えばテキスト又は画像からなる文書データである。制御部１１は、取得したデジタルコンテンツそれぞれから、各デジタルコンテンツに含まれる各要素を抽出する（ステップＳ１３）。

制御部１１は、デジタルコンテンツの各要素の特徴を抽出する（ステップＳ１４）。例えば制御部１１は、各要素に含まれるテキストのフォント、文字サイズ等の書式に関する情報、あるいは各要素の文書内での位置、範囲等のレイアウトに関する情報を抽出する。また、例えば制御部１１は、重要語テーブル１４２を参照し、テキストに含まれる重要語を抽出する。また、例えば制御部１１は、重要パラグラフテーブル１４３を参照して、重要パラグラフを抽出する。

制御部１１は構造化テーブル１４１を参照して、各要素の特徴に応じてタグ情報を付与する（ステップＳ１５）。例えば制御部１１は、各要素の書式、レイアウト等の特徴に応じて、各要素に要素名を付与する。制御部１１は、各コンテンツについてステップＳ１３〜Ｓ１５の処理を行い、各コンテンツを構成する要素の意味付けを行う。

制御部１１は、異なるコンテンツの要素を相互に関連付ける処理を行う（ステップＳ１６）。具体的には、制御部１１は、ステップＳ１４で抽出した各要素の特徴に応じて関連付けを行う。例えば制御部１１は、異なるコンテンツから抽出したテキスト要素のうち、同じ重要語を含むテキスト要素を相互に関連付ける。また、例えば制御部１１は、各コンテンツの重要パラグラフを含むテキスト要素を相互に関連付ける。

制御部１１は、ステップＳ１５で付与したタグ情報に基づき、複数のコンテンツの要素を相互に関連付けた構造化データを生成する（ステップＳ１７）。具体的には、制御部１１はステップＳ１６の処理結果に基づき、一のコンテンツの要素に他のコンテンツの要素を従属させて階層化した構造化データを生成する。例えば制御部１１は、まず基本となる一のコンテンツ（文書）の各要素を、ステップＳ１５で付与した要素名に基づきＸＭＬファイルに格納する。そして制御部１１は、ステップＳ１６の処理内容に応じて、基本コンテンツの要素の下位要素として他のコンテンツの要素を格納する。制御部１１は、生成した構造化データをコンテンツＤＢ１４４に記憶し（ステップＳ１８）、一連の処理を終了する。

なお、上記では対象とするコンテンツが文書であるものとしたが、対象とするコンテンツは非構造化データであればよく、例えば音声データであってもよい。

また、上記ではＸＭＬファイルを生成することにしたが、ＨＴＭＬ、ＳＧＭＬ等の形式のファイルを生成してもよいことは勿論である。

以上より、本実施の形態１によれば、複数のコンテンツに跨って各要素を関連付けた構造化データを生成する。従って、例えば類似する要素同士、あるいは重要な要素同士が紐付けられ、コンテンツの検索、閲覧等に際して利便性の高い構造化データが生成される。これにより、コンテンツの管理を効率化することができる

また、本実施の形態１によれば、一のコンテンツの要素に他のコンテンツの要素を従属させることで、複数のコンテンツを階層化させた、適切な管理を行うことができる。

また、本実施の形態１によれば、要素の特徴、例えば重要語や重要パラグラフ等を基準として関連付けを行うことで、より適切なコンテンツ管理を行うことができる。

（実施の形態２）
実施の形態１では、管理者が手動で構造化ルールを設定する形態について説明した。本実施の形態では、サーバ１が教師用の非構造化データから構造化ルールを自動設定する形態について述べる。なお、実施の形態１と重複する内容については同一の符号を付して説明を省略する。

図１０は、実施の形態２に係る構造化ルールの設定処理に関する説明図である。本実施の形態でサーバ１は、端末２から一点の教師用のサンプル文書を取得し、当該サンプルデータを基に構造化ルールを設定（学習）する。例えばサーバ１は、非構造化データである文書のサンプルに、当該サンプルに含まれる各要素のタグ情報の正解値を関連付けた教師情報を取得する。すなわち、サーバ１は、各要素に既に要素名がラベル付けされ、正解値を保持した教師情報を端末２から取得する。

サーバ１は、サンプル文書から、タイトル、サブタイトル、本文、図などの各要素を抽出する。そしてサーバ１は、サンプルから抽出した各要素の特徴を抽出する。具体的には、サーバ１は、各要素内のテキストの書式、各要素のレイアウト等の特徴を抽出する。

サーバ１は、上記で抽出した各要素の特徴と、教師情報で示される各要素の要素名（タグ情報）とを対応付け、構造化テーブル１４１に格納する。これにより、管理者が手動で初期設定を行う必要なく、サーバ１が自動的に各要素の要素名と特徴との対応関係を学習する。

なお、上記では説明の単純化のため、一点の文書のサンプルから各要素の特徴を学習して構造化ルールを設定することとしたが、本実施の形態はこれに限定されるものではない。サーバ１は、複数の教師情報から要素の特徴とタグ情報との対応関係を学習する機械学習を行い、要素の特徴からタグ情報を識別するモデルデータ（識別器）を生成してもよい。すなわちサーバ１は、複数の教師用のサンプルそれぞれから各要素の特徴量を抽出し、各要素のタグ情報の正解値と比較する。サーバ１は、全ての教師用のサンプルについて比較処理を行い、例えばタイトルに該当する要素の特徴量がどのようなパラメータであるか、複数のサンプルから学習する処理を行う。サーバ１は、当該処理により、要素の特徴量からタグ情報を識別する識別器を生成し、補助記憶部１４に記憶する。機械学習を行うことで、サーバ１はより正確に各要素を識別可能となる。

図１１は、実施の形態２に係るサーバ１が実行する処理手順の一例を示すフローチャートである。図１１に基づき、本実施の形態におけるサーバ１の処理内容について説明する。
サーバ１の制御部１１は、非構造化データのサンプルと、当該サンプルに含まれる各要素のタグ情報の正解値とを含む教師情報を取得する（ステップＳ２０１）。すなわち、制御部１１は、非構造化データの各要素の要素名を既知とした教師用データを取得する。制御部１１は、サンプルに含まれる各要素の特徴を抽出する（ステップＳ２０２）。例えば制御部１１は、サンプル文書に含まれる各要素の書式、レイアウト等の情報を抽出する。

制御部１１は、抽出した各要素の特徴と、教師情報が示す各要素のタグ情報の正解値とに基づき、構造化ルールを設定する（ステップＳ２０３）。具体的には、制御部１１は、ステップＳ２０２で抽出した各要素の書式、レイアウト等の特徴と、教師情報が示す各要素の要素名とを対応付け、構造化テーブル１４１に格納する。制御部１１は、処理をステップＳ１２に移行する。

以上より、本実施の形態２によれば、サーバ１に教師用のデータを与えることで、構造化ルールを自動的に設定可能となり、本システムの利便性を高めることができる。

（実施の形態３）
実施の形態１では、デジタルコンテンツの構造化データを生成する処理について述べた。本実施の形態では、生成した構造化データの具体的な利用例について述べる。
図１２は、実施の形態３に係る構造化データの生成処理に関する説明図である。本実施の形態においてサーバ１は、学術文献（例えば論文）の検索サービスを提供するため、学術文献の文書データを構造化した構造化データを生成する。例えば図１２に示すように、サーバ１は、「文献１」、「文献２」、「文献３」…の各文献からテキスト要素、画像要素を抽出し、タグ情報を付与して構造化データを生成する。この場合にサーバ１は、例えば「文献１」を基本コンテンツとする場合、「文献１」のテキスト要素に関連する「文献２」、「文献３」のテキスト要素を抽出して、「文献１」のテキスト要素に従属させる形で関連付けを行い、テキストファイルに格納して構造化データを生成する。

図１３は、実施の形態３に係る検索機能について説明するための説明図である。サーバ１は、上記で生成した構造化データを参照して、利用者が文献の各テキスト箇所を検索可能な文献検索サービスを提供する。例えば利用者は、利用者端末３を操作して検索タームを入力する。サーバ１は、利用者端末３からの要求を受けて、当該検索タームを含む文献のテキスト要素をコンテンツＤＢ１４４から検索する。

この場合にサーバ１は、検索されたテキスト要素に他の文献のテキスト要素が関連付けられている場合、当該他の文献のテキスト要素も検索結果に含めて利用者端末３に出力する。例えば図１３に示すように、文献１のテキスト要素に関連して文献２、文献３のテキスト要素が格納されている場合、サーバ１は、文献２及び文献３のテキスト要素も併せて出力する。これにより、サーバ１は、関連する可能性が高い複数の文献の記述を検索結果として提示可能となり、利便性の高い検索サービスを提供することができる。

図１４は、実施の形態３に係るサーバ１が実行する処理手順の一例を示すフローチャートである。図１４に基づき、本実施の形態においてサーバ１の検索処理の内容について説明する。
サーバ１の制御部１１は、利用者端末３を介して、検索タームの入力を受け付ける（ステップＳ３０１）。制御部１１は、受け付けた検索タームを基に、当該検索タームを含むデジタルコンテンツ（文献）の要素をコンテンツＤＢ１４４から検索する（ステップＳ３０２）。

制御部１１は、検索した要素に他のコンテンツの要素が関連付けられているか否かを判定する（ステップＳ３０３）。関連付けられていないと判定した場合（Ｓ３０３：ＮＯ）、制御部１１は処理をステップＳ３０５に移行する。関連付けられていると判定した場合（Ｓ３０３：ＹＥＳ）、制御部１１は、関連付けられた他のコンテンツの要素を読み出す（ステップＳ３０４）。

制御部１１は、検索されたコンテンツ要素を利用者端末３に出力する（ステップＳ３０５）。ステップＳ３０４で他のコンテンツの要素が読み出された場合、制御部１１は、読み出した当該他のコンテンツの要素を併せて出力する。制御部１１は、一連の処理を終了する。

以上より、本実施の形態３によれば、構造化データを参照して各要素を出力することで、例えば文献の部分的な検索、閲覧等が可能となる。

また、本実施の形態３によれば、関連する複数のコンテンツ要素を出力（検索）することで、利便性の高いサービスを提供することができる。

（変形例１）
実施の形態３では文献検索サービスを提供する形態について述べたが、サーバ１は、構造化データを他の態様で利用することもできる。
図１５は、変形例１に係るマイクロコンテンツの販売処理について説明する説明図である。変形例３では、サーバ１は、コンテンツから抽出した要素をマイクロコンテンツとして活用し、マイクロコンテンツの販売を行うＥＣサイト上にコンテンツデータを出力する。

例えばサーバ１は、美術雑誌、美術品のカタログ、美術館のパンフレット等の文書データから、掲載されている美術品の画像、タイトル、作者名、画像のキャプション、説明文等の要素を抽出して構造化データを生成する。この場合にサーバ１は、例えば美術品の作者名等をキーワードにして画像同士の関連付けを行い、コンテンツＤＢ１４４に記憶する。サーバ１は、ＥＣサイト上に、関連する美術品の画像を出力する。例えば図１５に示すように、サーバ１は、コンテンツＤＢ１４４で関連付けられた複数の美術品の画像を同一画面に出力すると共に、各美術品のタイトル、キャプション、説明文等の要素をＷｅｂページ上に出力する。このように、サーバ１は、構造化したコンテンツデータを商業的に利用することもできる。

（実施の形態４）
図１６は、上述した形態のサーバ１の動作を示す機能ブロック図である。制御部１１がプログラムＰを実行することにより、サーバ１は以下のように動作する。設定部１６１は、非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定する。取得部１６２は、非構造化データである複数のコンテンツを取得する。抽出部１６３は、取得した前記コンテンツ夫々から前記各要素を抽出する。特徴抽出部１６４は、前記各要素の特徴を抽出する。付与部１６５は、前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与する。生成部１６６は、該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する。

本実施の形態４は以上の如きであり、その他は実施の形態１から３と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。

今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１サーバ（情報処理装置）
１１制御部
１２主記憶部
１３通信部
１４補助記憶部
Ｐプログラム
１４１構造化テーブル
１４２重要語テーブル
１４３重要パラグラフテーブル
１４４コンテンツＤＢ
２端末
３利用者端末

Claims

非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定する設定部と、
非構造化データである複数のコンテンツを取得する取得部と、
取得した前記コンテンツ夫々から前記各要素を抽出する抽出部と、
前記各要素の特徴を抽出する特徴抽出部と、
前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与する付与部と、
該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する生成部と
を備えることを特徴とする情報処理装置。
前記生成部は、前記各要素の特徴に応じて関連付けを行う
ことを特徴とする請求項１に記載の情報処理装置。
前記構造化データを参照して、前記各要素を出力する出力部を備える
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記構造化データを参照して、関連付けられた複数の前記要素を検索する検索部を備え、
前記出力部は、検索された前記複数の要素を出力する
ことを特徴とする請求項３に記載の情報処理装置。
非構造化データのサンプルと、該サンプルに含まれる前記各要素に対応する前記タグ情報とを含む教師情報を取得する教師情報取得部を備え、
前記特徴抽出部は、前記サンプルに含まれる前記各要素の特徴を抽出し、
前記設定部は、抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記ルールを設定する
ことを特徴とする請求項１〜４のいずれか１項に記載の情報処理装置。
非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定し、
非構造化データである複数のコンテンツを取得し、
取得した前記コンテンツ夫々から前記各要素を抽出し、
前記各要素の特徴を抽出し、
前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与し、
該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する
処理をコンピュータに実行させることを特徴とするプログラム。