JP2019040261A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2019040261A JP2019040261A JP2017159663A JP2017159663A JP2019040261A JP 2019040261 A JP2019040261 A JP 2019040261A JP 2017159663 A JP2017159663 A JP 2017159663A JP 2017159663 A JP2017159663 A JP 2017159663A JP 2019040261 A JP2019040261 A JP 2019040261A
- Authority
- JP
- Japan
- Prior art keywords
- elements
- server
- tag information
- information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 25
- 239000000284 extract Substances 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 28
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
(実施の形態1)
図1は、情報処理システムの概要を示す説明図である。本実施の形態では、非構造化データを構造化データに変換する処理を行う情報処理システムについて説明する。情報処理システムは、情報処理装置1及び端末2を含む。情報処理装置1及び端末2は、インターネット等のネットワークNを介して通信接続されている。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、サーバ1に係る種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための処理回路等を含み、端末2等と情報の送受信を行う。
なお、補助記憶部14はサーバ1に接続された外部記憶装置であってもよい。また、サーバ1は複数のコンピュータからなるマルチサーバであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
サーバ1は、端末2を介して、非構造化データに含まれる各要素の特徴と、各要素に付与すべきタグ情報とを設定する設定入力を受け付ける。非構造化データは、テキスト及び画像からなる文書データであり、例えばPDF(Portable Document Format、登録商標)ファイルである。
サーバ1の制御部11は、非構造化データに含まれる各要素の特徴と、各要素を定義付けるタグ情報との対応関係を規定する構造化ルールを設定する処理を行う(ステップS11)。具体的には、制御部11は端末2を介して、各要素の特徴と、タグ情報とを指定する初期設定を受け付ける。例えば制御部11は、文書のタイトル、サブタイトル、本文等の要素名と、各要素名に対応する要素の書式及びレイアウトとを指定する指定入力を受け付ける。制御部11は、指定内容を構造化テーブル141に格納し、構造化ルールを設定する。
実施の形態1では、管理者が手動で構造化ルールを設定する形態について説明した。本実施の形態では、サーバ1が教師用の非構造化データから構造化ルールを自動設定する形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
サーバ1の制御部11は、非構造化データのサンプルと、当該サンプルに含まれる各要素のタグ情報の正解値とを含む教師情報を取得する(ステップS201)。すなわち、制御部11は、非構造化データの各要素の要素名を既知とした教師用データを取得する。制御部11は、サンプルに含まれる各要素の特徴を抽出する(ステップS202)。例えば制御部11は、サンプル文書に含まれる各要素の書式、レイアウト等の情報を抽出する。
実施の形態1では、デジタルコンテンツの構造化データを生成する処理について述べた。本実施の形態では、生成した構造化データの具体的な利用例について述べる。
図12は、実施の形態3に係る構造化データの生成処理に関する説明図である。本実施の形態においてサーバ1は、学術文献(例えば論文)の検索サービスを提供するため、学術文献の文書データを構造化した構造化データを生成する。例えば図12に示すように、サーバ1は、「文献1」、「文献2」、「文献3」…の各文献からテキスト要素、画像要素を抽出し、タグ情報を付与して構造化データを生成する。この場合にサーバ1は、例えば「文献1」を基本コンテンツとする場合、「文献1」のテキスト要素に関連する「文献2」、「文献3」のテキスト要素を抽出して、「文献1」のテキスト要素に従属させる形で関連付けを行い、テキストファイルに格納して構造化データを生成する。
サーバ1の制御部11は、利用者端末3を介して、検索タームの入力を受け付ける(ステップS301)。制御部11は、受け付けた検索タームを基に、当該検索タームを含むデジタルコンテンツ(文献)の要素をコンテンツDB144から検索する(ステップS302)。
実施の形態3では文献検索サービスを提供する形態について述べたが、サーバ1は、構造化データを他の態様で利用することもできる。
図15は、変形例1に係るマイクロコンテンツの販売処理について説明する説明図である。変形例3では、サーバ1は、コンテンツから抽出した要素をマイクロコンテンツとして活用し、マイクロコンテンツの販売を行うECサイト上にコンテンツデータを出力する。
図16は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。設定部161は、非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定する。取得部162は、非構造化データである複数のコンテンツを取得する。抽出部163は、取得した前記コンテンツ夫々から前記各要素を抽出する。特徴抽出部164は、前記各要素の特徴を抽出する。付与部165は、前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与する。生成部166は、該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する。
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 構造化テーブル
142 重要語テーブル
143 重要パラグラフテーブル
144 コンテンツDB
2 端末
3 利用者端末
Claims (6)
- 非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定する設定部と、
非構造化データである複数のコンテンツを取得する取得部と、
取得した前記コンテンツ夫々から前記各要素を抽出する抽出部と、
前記各要素の特徴を抽出する特徴抽出部と、
前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与する付与部と、
該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する生成部と
を備えることを特徴とする情報処理装置。 - 前記生成部は、前記各要素の特徴に応じて関連付けを行う
ことを特徴とする請求項1に記載の情報処理装置。 - 前記構造化データを参照して、前記各要素を出力する出力部を備える
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記構造化データを参照して、関連付けられた複数の前記要素を検索する検索部を備え、
前記出力部は、検索された前記複数の要素を出力する
ことを特徴とする請求項3に記載の情報処理装置。 - 非構造化データのサンプルと、該サンプルに含まれる前記各要素に対応する前記タグ情報とを含む教師情報を取得する教師情報取得部を備え、
前記特徴抽出部は、前記サンプルに含まれる前記各要素の特徴を抽出し、
前記設定部は、抽出した前記各要素の特徴と、前記教師情報が示す前記タグ情報とに基づき、前記ルールを設定する
ことを特徴とする請求項1〜4のいずれか1項に記載の情報処理装置。 - 非構造化データに含まれる各要素の特徴と、該要素を定義付けるタグ情報との対応関係を規定するルールを設定し、
非構造化データである複数のコンテンツを取得し、
取得した前記コンテンツ夫々から前記各要素を抽出し、
前記各要素の特徴を抽出し、
前記ルールを参照して、前記各要素の特徴に応じて該要素に前記タグ情報を付与し、
該タグ情報に基づき、前記複数のコンテンツ夫々の前記要素を相互に関連付けた構造化データを生成する
処理をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017159663A JP2019040261A (ja) | 2017-08-22 | 2017-08-22 | 情報処理装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017159663A JP2019040261A (ja) | 2017-08-22 | 2017-08-22 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019040261A true JP2019040261A (ja) | 2019-03-14 |
Family
ID=65726501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017159663A Pending JP2019040261A (ja) | 2017-08-22 | 2017-08-22 | 情報処理装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019040261A (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196161A (ja) * | 1997-09-19 | 1999-04-09 | Toyota Central Res & Dev Lab Inc | 文書変換装置 |
JP2004094434A (ja) * | 2002-08-30 | 2004-03-25 | Fujitsu Ltd | 言語処理方法、プログラム及び装置 |
JP2004178010A (ja) * | 2002-11-22 | 2004-06-24 | Toshiba Corp | 文書処理装置並びにその方法及びプログラム |
JP2007219579A (ja) * | 2006-02-14 | 2007-08-30 | Profield Co Ltd | ドキュメント変換装置、およびプログラム |
-
2017
- 2017-08-22 JP JP2017159663A patent/JP2019040261A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196161A (ja) * | 1997-09-19 | 1999-04-09 | Toyota Central Res & Dev Lab Inc | 文書変換装置 |
JP2004094434A (ja) * | 2002-08-30 | 2004-03-25 | Fujitsu Ltd | 言語処理方法、プログラム及び装置 |
JP2004178010A (ja) * | 2002-11-22 | 2004-06-24 | Toshiba Corp | 文書処理装置並びにその方法及びプログラム |
JP2007219579A (ja) * | 2006-02-14 | 2007-08-30 | Profield Co Ltd | ドキュメント変換装置、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
CN110083805B (zh) | 一种将Word文件转换为EPUB文件的方法及系统 | |
JP5353148B2 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
US8250469B2 (en) | Document layout extraction | |
US20160342578A1 (en) | Systems, Methods, and Media for Generating Structured Documents | |
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
US9928415B2 (en) | Mathematical formula learner support system | |
JP2013541793A (ja) | マルチモード検索クエリー入力手法 | |
JP2010073114A6 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
JP2006073012A (ja) | 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法 | |
CN107870915B (zh) | 对搜索结果的指示 | |
US7359896B2 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
JP7290391B2 (ja) | 情報処理装置及びプログラム | |
JP2008090404A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
US20110107198A1 (en) | Information processing apparatus, storage medium, and information processing method | |
CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
US20110252313A1 (en) | Document information selection method and computer program product | |
CN112597410A (zh) | 基于规则配置库对网页内容执行结构化提取的方法及装置 | |
JP2006065467A5 (ja) | ||
JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
JP2019040261A (ja) | 情報処理装置及びプログラム | |
JP2009098829A (ja) | 漫画のコマ検索装置 | |
JP5707937B2 (ja) | 電子文書変換装置及び電子文書変換方法 | |
US10789245B2 (en) | Semiconductor parts search method using last alphabet deletion algorithm | |
CN111143719A (zh) | 论文在线出版方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200625 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210601 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220131 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220614 |