JP2019040261A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2019040261A
JP2019040261A JP2017159663A JP2017159663A JP2019040261A JP 2019040261 A JP2019040261 A JP 2019040261A JP 2017159663 A JP2017159663 A JP 2017159663A JP 2017159663 A JP2017159663 A JP 2017159663A JP 2019040261 A JP2019040261 A JP 2019040261A
Authority
JP
Japan
Prior art keywords
elements
server
tag information
information
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017159663A
Other languages
English (en)
Inventor
聡 田端
Satoshi Tabata
聡 田端
克俊 前沢
Katsutoshi Maezawa
克俊 前沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2017159663A priority Critical patent/JP2019040261A/ja
Publication of JP2019040261A publication Critical patent/JP2019040261A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】コンテンツの管理を効率化することができる情報処理装置等を提供する。【解決手段】サーバ(情報処理装置)1は、非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定する設定部161と、非構造化データである複数のコンテンツを取得する取得部162と、取得した前記コンテンツ夫々から前記各要素を抽出する抽出部163と、前記各要素の特徴を抽出する特徴抽出部164と、前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与する付与部165と、該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する生成部166とを備えることを特徴とする。【選択図】図16

Description

本発明は、情報処理装置及びプログラムに関する。
いわゆるマイクロコンテンツに代表されるように、文書等のコンテンツの一部要素を抜き出して利用するケースが増えている。しかし、文書等のコンテンツデータはいわゆる非構造化データであることが多く、コンテンツ内の各要素が何であるかを示す情報を保持していない。従って、コンテンツデータから各要素を抽出する作業を事前に行う必要がある。
例えば特許文献1では、文書画像を所定の領域毎に分割し、分割した領域内のデータにタグ及び属性値を割り当てることで、マークアップ言語で記述した文書データを生成する文書画像処理装置等が開示されている。
特開2002−41497号公報
しかしながら、特許文献1に係る発明は、単一のコンテンツを各要素に分割して意味付けを行っているに過ぎず、多数のコンテンツの要素を関連付けて管理するに至っていない。
一つの側面では、コンテンツの管理を効率化することができる情報処理装置等を提供することを目的とする。
一つの側面では、情報処理装置は、非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定する設定部と、非構造化データである複数のコンテンツを取得する取得部と、取得した前記コンテンツ夫々から前記各要素を抽出する抽出部と、前記各要素の特徴を抽出する特徴抽出部と、前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与する付与部と、該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する生成部とを備えることを特徴とする。
一つの側面では、情報処理装置は、前記生成部は、前記各要素の特徴に応じて関連付けを行うことを特徴とする。
一つの側面では、情報処理装置は、前記構造化データを参照して、前記各要素を出力する出力部を備えることを特徴とする。
一つの側面では、情報処理装置は、前記構造化データを参照して、関連付けられた複数の前記要素を検索する検索部を備え、前記出力部は、検索された前記複数の要素を出力することを特徴とする。
一つの側面では、情報処理装置は、非構造化データのサンプルと、該サンプルに含まれる前記各要素に対応する前記タグ情報とを含む教師情報を取得する教師情報取得部を備え、前記特徴抽出部は、前記サンプルに含まれる前記各要素の特徴を抽出し、前記設定部は、抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記ルールを設定することを特徴とする。
一つの側面では、プログラムは、非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定し、非構造化データである複数のコンテンツを取得し、取得した前記コンテンツ夫々から前記各要素を抽出し、前記各要素の特徴を抽出し、前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与し、該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する処理をコンピュータに実行させることを特徴とする。
一つの側面では、コンテンツの管理を効率化することができる。
情報処理システムの概要を示す説明図である。 サーバの構成例を示すブロック図である。 構造化テーブルのレコードレイアウトの一例を示す説明図である。 重要語テーブルのレコードレイアウトの一例を示す説明図である。 重要パラグラフテーブルのレコードレイアウトの一例を示す説明図である。 構造化ルールの設定処理に関する説明図である。 タグ情報の付与処理に関する説明図である。 構造化データの生成処理に関する説明図である。 サーバが実行する処理手順の一例を示すフローチャートである。 実施の形態2に係る構造化ルールの設定処理に関する説明図である。 実施の形態2に係るサーバが実行する処理手順の一例を示すフローチャートである。 実施の形態3に係る構造化データの生成処理に関する説明図である。 実施の形態3に係る検索機能について説明するための説明図である。 実施の形態3に係るサーバが実行する処理手順の一例を示すフローチャートである。 変形例1に係るマイクロコンテンツの販売処理について説明する説明図である。 上述した形態のサーバの動作を示す機能ブロック図である。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
図1は、情報処理システムの概要を示す説明図である。本実施の形態では、非構造化データを構造化データに変換する処理を行う情報処理システムについて説明する。情報処理システムは、情報処理装置1及び端末2を含む。情報処理装置1及び端末2は、インターネット等のネットワークNを介して通信接続されている。
情報処理装置1は、種々の情報処理、情報の送受信を行う装置であり、例えばサーバ装置、パーソナルコンピュータ、多機能端末等である。本実施の形態において情報処理装置1はサーバ装置であるものとし、以下では簡潔のためサーバ1と読み替える。サーバ1は、非構造化データであるデジタルコンテンツ、例えば書籍、新聞、雑誌等の文書データを取得し、デジタルコンテンツを構造化した構造化データを生成する処理を行う。
端末2は、サーバ1と通信を行うクライアント端末であり、管理者が操作する端末装置である。サーバ1は、端末2からデジタルコンテンツを取得し、端末2からの要求に従って構造化データの生成処理を行う。
図2は、サーバ1の構成例を示すブロック図である。サーバ1は、制御部11、主記憶部12、通信部13、補助記憶部14を備える。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、サーバ1に係る種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための処理回路等を含み、端末2等と情報の送受信を行う。
補助記憶部14は大容量メモリ、ハードディスク等であり、制御部11が処理を実行するために必要なプログラムP、その他のデータを記憶している。また、補助記憶部14は、構造化テーブル141、重要語テーブル142、重要パラグラフテーブル143、コンテンツDB144を記憶している。構造化テーブル141は、非構造化データであるデジタルコンテンツを構造化データに変換するための構造化ルールを規定している。重要語テーブル142は、デジタルコンテンツ(文書)のキーワードとなる重要語を規定している。重要パラグラフテーブル143は、文書内の重要なパラグラフを特定するためのルールを規定している。コンテンツDB144は、デジタルコンテンツを構造化した構造化データを格納するデータベースである。
なお、補助記憶部14はサーバ1に接続された外部記憶装置であってもよい。また、サーバ1は複数のコンピュータからなるマルチサーバであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
図3は、構造化テーブル141のレコードレイアウトの一例を示す説明図である。構造化テーブル141は、要素名列、ルール列を含む。要素名列は、「タイトル」、「サブタイトル」、「本文」などのように、文書ページを構成する各基本要素の要素名(後述するタグ情報)が記憶されている。ルール列は、要素名と対応付けて、各要素名に対応する基本要素を特徴付ける情報が記憶されている。例えばルール列には、各要素に含まれるテキストのフォント、文字サイズ、文書ページ内における各要素の座標値等のデータが記憶されている。
図4は、重要語テーブル142のレコードレイアウトの一例を示す説明図である。重要語テーブル142は、重要語番号列、重要語列を含む。番号列は、各重要語を識別するための番号を記憶している。重要語列は、文書のキーワードとなる重要語に係る文字列を記憶している。
図5は、重要パラグラフテーブル143のレコードレイアウトの一例を示す説明図である。重要パラグラフテーブル143は、パラグラフ番号列、冒頭語列、末尾語列を含む。パラグラフ番号列は、各パターンの重要パラグラフを識別するための番号を記憶している。冒頭語列及び末尾語列は、重要なパラグラフを表現する際に頻出する冒頭語及び末尾語を記憶している。後述するように、サーバ1は、当該冒頭語及び末尾語が出現するパラグラフを重要パラグラフとして認識する。
図6は、構造化ルールの設定処理に関する説明図である。図6では、非構造化データを構造化データに変換するための構造化ルールを設定する様子を図示している。
サーバ1は、端末2を介して、非構造化データに含まれる各要素の特徴と、各要素に付与すべきタグ情報とを設定する設定入力を受け付ける。非構造化データは、テキスト及び画像からなる文書データであり、例えばPDF(Portable Document Format、登録商標)ファイルである。
非構造化データの要素は、文書を所定領域毎に分割したデータであり、例えば図6において矩形枠で囲って示すように、文書のタイトル、サブタイトル、本文、図など、文書を構成する基本要素である。タグ情報は、各要素を定義付けるメタ情報であり、XML(Extensible Markup Language)ファイルにおいて各要素にタグ付けされる要素名又は属性値である。本実施の形態においてタグ情報は、各要素の要素名であるものとする。例えば図6に示すように、文書のタイトルに該当する要素であれば「タイトル」、サブタイトルに該当する要素であれば「サブタイトル」が要素名に該当する。
サーバ1は端末2を介して、構造化ルールの初期設定を受け付ける。具体的には、サーバ1は、文書に含まれる各要素の要素名と、各要素名に該当する要素の特徴とを指定する指定入力を受け付ける。各要素の特徴は、例えば各要素内のテキストの書式、又は各要素のレイアウト等である。例えばサーバ1は、図6に矩形枠で囲って示す各要素について、各要素を記述する際に用いられるテキストのフォント、文字サイズ等の指定入力を受け付ける。また、サーバ1は、各要素に該当する矩形領域の座標値(位置及び範囲)、すなわちレイアウトに関する指定入力を受け付ける。
例えば文書のタイトルについて設定する場合、管理者はまず要素名「タイトル」を入力する。次に管理者は、タイトルに係るテキストとして利用される文字のフォント及びサイズと、文書内でタイトルが記載される位置及び範囲に係る座標値とを指定する。
サーバ1は、上記で指定された各要素の要素名と、各要素の書式、レイアウト等の情報とを対応付け、構造化テーブル141に格納する。これにより、サーバ1は、書式、レイアウト等の各要素の傾向(特徴)に応じて、各要素がどの要素名に該当するかを識別可能となる。
なお、上記では各要素の特徴として書式及びレイアウトを挙げたが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、文書内に含まれる表を識別可能とすべく、表を構成する罫線の線種等の指定を受け付けてもよい。
図7は、タグ情報の付与処理に関する説明図である。サーバ1は、構造化データに変換する複数のデジタルコンテンツ(文書)を端末2から取得する。そしてサーバ1は、上記で設定した構造化ルールに基づき、非構造化データである各デジタルコンテンツの各要素にタグ情報を付与する処理を行う。具体的には、サーバ1は、対象とする文書からタイトル、サブタイトル、本文、図などの各要素を抽出し、各要素の書式、レイアウト等の特徴を抽出する。そしてサーバ1は、構造化テーブル141を参照して、各要素の書式、レイアウト等に対応するタグ情報を識別する。例えばタイトルに相当するテキスト箇所を抽出した場合、サーバ1は、当該テキストのフォント、文字サイズ、レイアウト等に基づき、当該テキストがタイトルであることを認識する。サーバ1は、デジタルコンテンツの各要素について同様に処理を行い、各要素を識別する。
サーバ1は、各要素にタグ情報を付与する。例えばサーバ1は、文書のタイトルに係るテキスト要素を抽出した場合、当該要素に要素名「title」を付与する。サーバ1は他の要素についても同様に処理を行い、要素名を付与する。
また、サーバ1は、文書内のタイトル、本文、図などの基本要素を抽出して要素名を付与するだけでなく、文書内で重要な単語、又は重要なパラグラフを抽出して、重要な単語又はパラグラフである旨のタグ情報を付与する。例えばサーバ1は、文書内のテキストに対して文字認識を行い、重要語テーブル142に規定された重要語に該当する単語を抽出する。サーバ1は当該単語に対して、重要語である旨のタグ情報を付与する。これによりサーバ1は、文書のキーワードを特定する。
また、サーバ1は重要パラグラフテーブル143を参照して、文書から重要パラグラフを抽出してタグ情報を付与する。例えばサーバ1は、重要なパラグラフを表現(記述)する際に頻出する冒頭及び末尾の単語を、重要パラグラフテーブル143に予め設定しておく。サーバ1は、文書内の各パラグラフの冒頭語及び末尾語を重要パラグラフテーブル143に規定された単語と比較し、重要パラグラフを特定する。これによりサーバ1は、文書内の特徴的な箇所を抽出する。
このように、サーバ1は、文書内のタイトル、本文、画像、重要語、重要パラグラフ等の各要素を抽出し、タグ情報を付与する。サーバ1は、端末2から取得した各コンテンツについて同様に処理を行い、構造化データを生成するためにタグ情報を付与する。サーバ1は、各要素に付与したタグ情報に基づいて、デジタルコンテンツの構造化データを生成する。
図8は、構造化データの生成処理に関する説明図である。例えばサーバ1は、PDFファイルである文書をXML形式に変換したテキストファイルを生成する。例えばサーバ1は、図8における「文書1」のタイトル、本文、頁番号等に付与したタグ情報を参照して、一の要素(図8では頁番号)に紐付けてその他の要素をテキストファイルに格納する。また、サーバ1は、文書から画像を抽出した場合、抽出した画像をテキストファイルのファイル名と対応付けて画像フォルダに格納する。これによりサーバ1は、デジタルコンテンツの構造化データを生成する。
ここで、サーバ1は単に各コンテンツをそれぞれ構造化するだけでなく、複数のコンテンツの要素を関連付けることで、異なるコンテンツに跨る複合的な構造化データを生成する。
例えばサーバ1は、一のコンテンツを基本コンテンツとし、基本コンテンツから抽出した要素に、他のコンテンツの要素を関連付けてテキストファイルに格納する。図8の例では、太線箇所に示すように、サーバ1は「文書1」を基本コンテンツとして、「文書1」のテキスト要素(本文)に「文書2」、「文書3」のテキスト要素を関連付けてある。このように、サーバ1は基本コンテンツの要素に他のコンテンツの要素を従属させて、複数のコンテンツに跨る要素を階層化させた構造化データを生成する。
例えばサーバ1は、上記で抽出した文書の重要語、又は重要パラグラフを基準に関連付けを行う。具体的には、サーバ1は、各文書内で同じ重要語が出現するテキスト要素を特定し、相互に関連付けてテキストファイルに格納する。また、サーバ1は、各文書の重要パラグラフを相互に関連付けてテキストファイルに格納する。図8の例では、「文書1」のテキスト要素と「文書2」のテキスト要素とに同じ重要語が出現する場合、サーバ1は、基本コンテンツである「文書1」のテキスト要素の下位要素として、「文書2」のテキスト要素を従属させる。また、「文書1」の重要パラグラフを含むテキスト要素と、「文書3」の重要パラグラフを含むテキスト要素を紐付けるべく、サーバ1は、「文書1」のテキスト要素に「文書3」のテキスト要素を従属させる。
このように、サーバ1は、同じ重要語が出現するため関係する可能性が高いテキスト箇所、あるいは各文書の特徴的な箇所同士を関連付ける。異なるコンテンツの要素を関連付けることで、例えば文書検索、出力等を行う際に利便性の高い構造化データが生成される。
なお、上記では文書内の要素を関連付ける方法について、重要語及び重要パラグラフを例に取って簡単に説明したが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、tf−idf法を用いて複数のコンテンツ(文書)から特徴語を抽出し、同じ特徴語が出現するテキスト要素を相互に関連付けてもよい。また、例えばサーバ1は、コサイン類似度等を用いて、類似するパラグラフを特定して相互に関連付けてもよい。このように、サーバ1は、各要素の特徴に応じて適切に関連付け可能であればよく、関連付けの基準は特に限定されない。
また、上記でサーバ1はテキスト要素のみについての関連付けを行ったが、各コンテンツから抽出した画像についても関連付けを行ってもよい。例えばサーバ1は、各画像の特徴量(例えば画素値等)の差分値を取って類似性を比較し、類似すると判定した画像同士を関連付ける。このように、サーバ1はテキスト以外の要素について関連付けを行ってもよい。
図9は、サーバ1が実行する処理手順の一例を示すフローチャートである。図9に基づき、サーバ1が実行する処理内容について説明する。
サーバ1の制御部11は、非構造化データに含まれる各要素の特徴と、各要素を定義付けるタグ情報との対応関係を規定する構造化ルールを設定する処理を行う(ステップS11)。具体的には、制御部11は端末2を介して、各要素の特徴と、タグ情報とを指定する初期設定を受け付ける。例えば制御部11は、文書のタイトル、サブタイトル、本文等の要素名と、各要素名に対応する要素の書式及びレイアウトとを指定する指定入力を受け付ける。制御部11は、指定内容を構造化テーブル141に格納し、構造化ルールを設定する。
制御部11は、非構造化データである複数のデジタルコンテンツを端末2から取得する(ステップS12)。デジタルコンテンツは、例えばテキスト又は画像からなる文書データである。制御部11は、取得したデジタルコンテンツそれぞれから、各デジタルコンテンツに含まれる各要素を抽出する(ステップS13)。
制御部11は、デジタルコンテンツの各要素の特徴を抽出する(ステップS14)。例えば制御部11は、各要素に含まれるテキストのフォント、文字サイズ等の書式に関する情報、あるいは各要素の文書内での位置、範囲等のレイアウトに関する情報を抽出する。また、例えば制御部11は、重要語テーブル142を参照し、テキストに含まれる重要語を抽出する。また、例えば制御部11は、重要パラグラフテーブル143を参照して、重要パラグラフを抽出する。
制御部11は構造化テーブル141を参照して、各要素の特徴に応じてタグ情報を付与する(ステップS15)。例えば制御部11は、各要素の書式、レイアウト等の特徴に応じて、各要素に要素名を付与する。制御部11は、各コンテンツについてステップS13〜S15の処理を行い、各コンテンツを構成する要素の意味付けを行う。
制御部11は、異なるコンテンツの要素を相互に関連付ける処理を行う(ステップS16)。具体的には、制御部11は、ステップS14で抽出した各要素の特徴に応じて関連付けを行う。例えば制御部11は、異なるコンテンツから抽出したテキスト要素のうち、同じ重要語を含むテキスト要素を相互に関連付ける。また、例えば制御部11は、各コンテンツの重要パラグラフを含むテキスト要素を相互に関連付ける。
制御部11は、ステップS15で付与したタグ情報に基づき、複数のコンテンツの要素を相互に関連付けた構造化データを生成する(ステップS17)。具体的には、制御部11はステップS16の処理結果に基づき、一のコンテンツの要素に他のコンテンツの要素を従属させて階層化した構造化データを生成する。例えば制御部11は、まず基本となる一のコンテンツ(文書)の各要素を、ステップS15で付与した要素名に基づきXMLファイルに格納する。そして制御部11は、ステップS16の処理内容に応じて、基本コンテンツの要素の下位要素として他のコンテンツの要素を格納する。制御部11は、生成した構造化データをコンテンツDB144に記憶し(ステップS18)、一連の処理を終了する。
なお、上記では対象とするコンテンツが文書であるものとしたが、対象とするコンテンツは非構造化データであればよく、例えば音声データであってもよい。
また、上記ではXMLファイルを生成することにしたが、HTML、SGML等の形式のファイルを生成してもよいことは勿論である。
以上より、本実施の形態1によれば、複数のコンテンツに跨って各要素を関連付けた構造化データを生成する。従って、例えば類似する要素同士、あるいは重要な要素同士が紐付けられ、コンテンツの検索、閲覧等に際して利便性の高い構造化データが生成される。これにより、コンテンツの管理を効率化することができる
また、本実施の形態1によれば、一のコンテンツの要素に他のコンテンツの要素を従属させることで、複数のコンテンツを階層化させた、適切な管理を行うことができる。
また、本実施の形態1によれば、要素の特徴、例えば重要語や重要パラグラフ等を基準として関連付けを行うことで、より適切なコンテンツ管理を行うことができる。
(実施の形態2)
実施の形態1では、管理者が手動で構造化ルールを設定する形態について説明した。本実施の形態では、サーバ1が教師用の非構造化データから構造化ルールを自動設定する形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図10は、実施の形態2に係る構造化ルールの設定処理に関する説明図である。本実施の形態でサーバ1は、端末2から一点の教師用のサンプル文書を取得し、当該サンプルデータを基に構造化ルールを設定(学習)する。例えばサーバ1は、非構造化データである文書のサンプルに、当該サンプルに含まれる各要素のタグ情報の正解値を関連付けた教師情報を取得する。すなわち、サーバ1は、各要素に既に要素名がラベル付けされ、正解値を保持した教師情報を端末2から取得する。
サーバ1は、サンプル文書から、タイトル、サブタイトル、本文、図などの各要素を抽出する。そしてサーバ1は、サンプルから抽出した各要素の特徴を抽出する。具体的には、サーバ1は、各要素内のテキストの書式、各要素のレイアウト等の特徴を抽出する。
サーバ1は、上記で抽出した各要素の特徴と、教師情報で示される各要素の要素名(タグ情報)とを対応付け、構造化テーブル141に格納する。これにより、管理者が手動で初期設定を行う必要なく、サーバ1が自動的に各要素の要素名と特徴との対応関係を学習する。
なお、上記では説明の単純化のため、一点の文書のサンプルから各要素の特徴を学習して構造化ルールを設定することとしたが、本実施の形態はこれに限定されるものではない。サーバ1は、複数の教師情報から要素の特徴とタグ情報との対応関係を学習する機械学習を行い、要素の特徴からタグ情報を識別するモデルデータ(識別器)を生成してもよい。すなわちサーバ1は、複数の教師用のサンプルそれぞれから各要素の特徴量を抽出し、各要素のタグ情報の正解値と比較する。サーバ1は、全ての教師用のサンプルについて比較処理を行い、例えばタイトルに該当する要素の特徴量がどのようなパラメータであるか、複数のサンプルから学習する処理を行う。サーバ1は、当該処理により、要素の特徴量からタグ情報を識別する識別器を生成し、補助記憶部14に記憶する。機械学習を行うことで、サーバ1はより正確に各要素を識別可能となる。
図11は、実施の形態2に係るサーバ1が実行する処理手順の一例を示すフローチャートである。図11に基づき、本実施の形態におけるサーバ1の処理内容について説明する。
サーバ1の制御部11は、非構造化データのサンプルと、当該サンプルに含まれる各要素のタグ情報の正解値とを含む教師情報を取得する(ステップS201)。すなわち、制御部11は、非構造化データの各要素の要素名を既知とした教師用データを取得する。制御部11は、サンプルに含まれる各要素の特徴を抽出する(ステップS202)。例えば制御部11は、サンプル文書に含まれる各要素の書式、レイアウト等の情報を抽出する。
制御部11は、抽出した各要素の特徴と、教師情報が示す各要素のタグ情報の正解値とに基づき、構造化ルールを設定する(ステップS203)。具体的には、制御部11は、ステップS202で抽出した各要素の書式、レイアウト等の特徴と、教師情報が示す各要素の要素名とを対応付け、構造化テーブル141に格納する。制御部11は、処理をステップS12に移行する。
以上より、本実施の形態2によれば、サーバ1に教師用のデータを与えることで、構造化ルールを自動的に設定可能となり、本システムの利便性を高めることができる。
(実施の形態3)
実施の形態1では、デジタルコンテンツの構造化データを生成する処理について述べた。本実施の形態では、生成した構造化データの具体的な利用例について述べる。
図12は、実施の形態3に係る構造化データの生成処理に関する説明図である。本実施の形態においてサーバ1は、学術文献(例えば論文)の検索サービスを提供するため、学術文献の文書データを構造化した構造化データを生成する。例えば図12に示すように、サーバ1は、「文献1」、「文献2」、「文献3」…の各文献からテキスト要素、画像要素を抽出し、タグ情報を付与して構造化データを生成する。この場合にサーバ1は、例えば「文献1」を基本コンテンツとする場合、「文献1」のテキスト要素に関連する「文献2」、「文献3」のテキスト要素を抽出して、「文献1」のテキスト要素に従属させる形で関連付けを行い、テキストファイルに格納して構造化データを生成する。
図13は、実施の形態3に係る検索機能について説明するための説明図である。サーバ1は、上記で生成した構造化データを参照して、利用者が文献の各テキスト箇所を検索可能な文献検索サービスを提供する。例えば利用者は、利用者端末3を操作して検索タームを入力する。サーバ1は、利用者端末3からの要求を受けて、当該検索タームを含む文献のテキスト要素をコンテンツDB144から検索する。
この場合にサーバ1は、検索されたテキスト要素に他の文献のテキスト要素が関連付けられている場合、当該他の文献のテキスト要素も検索結果に含めて利用者端末3に出力する。例えば図13に示すように、文献1のテキスト要素に関連して文献2、文献3のテキスト要素が格納されている場合、サーバ1は、文献2及び文献3のテキスト要素も併せて出力する。これにより、サーバ1は、関連する可能性が高い複数の文献の記述を検索結果として提示可能となり、利便性の高い検索サービスを提供することができる。
図14は、実施の形態3に係るサーバ1が実行する処理手順の一例を示すフローチャートである。図14に基づき、本実施の形態においてサーバ1の検索処理の内容について説明する。
サーバ1の制御部11は、利用者端末3を介して、検索タームの入力を受け付ける(ステップS301)。制御部11は、受け付けた検索タームを基に、当該検索タームを含むデジタルコンテンツ(文献)の要素をコンテンツDB144から検索する(ステップS302)。
制御部11は、検索した要素に他のコンテンツの要素が関連付けられているか否かを判定する(ステップS303)。関連付けられていないと判定した場合(S303:NO)、制御部11は処理をステップS305に移行する。関連付けられていると判定した場合(S303:YES)、制御部11は、関連付けられた他のコンテンツの要素を読み出す(ステップS304)。
制御部11は、検索されたコンテンツ要素を利用者端末3に出力する(ステップS305)。ステップS304で他のコンテンツの要素が読み出された場合、制御部11は、読み出した当該他のコンテンツの要素を併せて出力する。制御部11は、一連の処理を終了する。
以上より、本実施の形態3によれば、構造化データを参照して各要素を出力することで、例えば文献の部分的な検索、閲覧等が可能となる。
また、本実施の形態3によれば、関連する複数のコンテンツ要素を出力(検索)することで、利便性の高いサービスを提供することができる。
(変形例1)
実施の形態3では文献検索サービスを提供する形態について述べたが、サーバ1は、構造化データを他の態様で利用することもできる。
図15は、変形例1に係るマイクロコンテンツの販売処理について説明する説明図である。変形例3では、サーバ1は、コンテンツから抽出した要素をマイクロコンテンツとして活用し、マイクロコンテンツの販売を行うECサイト上にコンテンツデータを出力する。
例えばサーバ1は、美術雑誌、美術品のカタログ、美術館のパンフレット等の文書データから、掲載されている美術品の画像、タイトル、作者名、画像のキャプション、説明文等の要素を抽出して構造化データを生成する。この場合にサーバ1は、例えば美術品の作者名等をキーワードにして画像同士の関連付けを行い、コンテンツDB144に記憶する。サーバ1は、ECサイト上に、関連する美術品の画像を出力する。例えば図15に示すように、サーバ1は、コンテンツDB144で関連付けられた複数の美術品の画像を同一画面に出力すると共に、各美術品のタイトル、キャプション、説明文等の要素をWebページ上に出力する。このように、サーバ1は、構造化したコンテンツデータを商業的に利用することもできる。
(実施の形態4)
図16は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。設定部161は、非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定する。取得部162は、非構造化データである複数のコンテンツを取得する。抽出部163は、取得した前記コンテンツ夫々から前記各要素を抽出する。特徴抽出部164は、前記各要素の特徴を抽出する。付与部165は、前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与する。生成部166は、該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する。
本実施の形態4は以上の如きであり、その他は実施の形態1から3と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 サーバ(情報処理装置)
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 構造化テーブル
142 重要語テーブル
143 重要パラグラフテーブル
144 コンテンツDB
2 端末
3 利用者端末

Claims (6)

  1. 非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定する設定部と、
    非構造化データである複数のコンテンツを取得する取得部と、
    取得した前記コンテンツ夫々から前記各要素を抽出する抽出部と、
    前記各要素の特徴を抽出する特徴抽出部と、
    前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与する付与部と、
    該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する生成部と
    を備えることを特徴とする情報処理装置。
  2. 前記生成部は、前記各要素の特徴に応じて関連付けを行う
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記構造化データを参照して、前記各要素を出力する出力部を備える
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記構造化データを参照して、関連付けられた複数の前記要素を検索する検索部を備え、
    前記出力部は、検索された前記複数の要素を出力する
    ことを特徴とする請求項3に記載の情報処理装置。
  5. 非構造化データのサンプルと、該サンプルに含まれる前記各要素に対応する前記タグ情報とを含む教師情報を取得する教師情報取得部を備え、
    前記特徴抽出部は、前記サンプルに含まれる前記各要素の特徴を抽出し、
    前記設定部は、抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記ルールを設定する
    ことを特徴とする請求項1〜4のいずれか1項に記載の情報処理装置。
  6. 非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定し、
    非構造化データである複数のコンテンツを取得し、
    取得した前記コンテンツ夫々から前記各要素を抽出し、
    前記各要素の特徴を抽出し、
    前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与し、
    該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する
    処理をコンピュータに実行させることを特徴とするプログラム。
JP2017159663A 2017-08-22 2017-08-22 情報処理装置及びプログラム Pending JP2019040261A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017159663A JP2019040261A (ja) 2017-08-22 2017-08-22 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017159663A JP2019040261A (ja) 2017-08-22 2017-08-22 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2019040261A true JP2019040261A (ja) 2019-03-14

Family

ID=65726501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017159663A Pending JP2019040261A (ja) 2017-08-22 2017-08-22 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2019040261A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196161A (ja) * 1997-09-19 1999-04-09 Toyota Central Res & Dev Lab Inc 文書変換装置
JP2004094434A (ja) * 2002-08-30 2004-03-25 Fujitsu Ltd 言語処理方法、プログラム及び装置
JP2004178010A (ja) * 2002-11-22 2004-06-24 Toshiba Corp 文書処理装置並びにその方法及びプログラム
JP2007219579A (ja) * 2006-02-14 2007-08-30 Profield Co Ltd ドキュメント変換装置、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196161A (ja) * 1997-09-19 1999-04-09 Toyota Central Res & Dev Lab Inc 文書変換装置
JP2004094434A (ja) * 2002-08-30 2004-03-25 Fujitsu Ltd 言語処理方法、プログラム及び装置
JP2004178010A (ja) * 2002-11-22 2004-06-24 Toshiba Corp 文書処理装置並びにその方法及びプログラム
JP2007219579A (ja) * 2006-02-14 2007-08-30 Profield Co Ltd ドキュメント変換装置、およびプログラム

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US8250469B2 (en) Document layout extraction
US20160342578A1 (en) Systems, Methods, and Media for Generating Structured Documents
US10366154B2 (en) Information processing device, information processing method, and computer program product
US9928415B2 (en) Mathematical formula learner support system
JP2013541793A (ja) マルチモード検索クエリー入力手法
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
CN107870915B (zh) 对搜索结果的指示
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP7290391B2 (ja) 情報処理装置及びプログラム
JP2008090404A (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20110107198A1 (en) Information processing apparatus, storage medium, and information processing method
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
US20110252313A1 (en) Document information selection method and computer program product
CN112597410A (zh) 基于规则配置库对网页内容执行结构化提取的方法及装置
JP2006065467A5 (ja)
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
JP2019040261A (ja) 情報処理装置及びプログラム
JP2009098829A (ja) 漫画のコマ検索装置
JP5707937B2 (ja) 電子文書変換装置及び電子文書変換方法
US10789245B2 (en) Semiconductor parts search method using last alphabet deletion algorithm
CN111143719A (zh) 论文在线出版方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220614