JP2005267344A - Document shaping device, document shaping method, and program - Google Patents
Document shaping device, document shaping method, and program Download PDFInfo
- Publication number
- JP2005267344A JP2005267344A JP2004080074A JP2004080074A JP2005267344A JP 2005267344 A JP2005267344 A JP 2005267344A JP 2004080074 A JP2004080074 A JP 2004080074A JP 2004080074 A JP2004080074 A JP 2004080074A JP 2005267344 A JP2005267344 A JP 2005267344A
- Authority
- JP
- Japan
- Prior art keywords
- data
- object data
- document
- shaping
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、構造化文書を整形する技術に関する。 The present invention relates to a technique for shaping a structured document.
従来、インターネット上に公開されている構造化文書を利用して作成された膨大にあるコンテンツデータの中から、人間が得たい情報を探し出す場合、人間は、検索サイトを利用して、得たい情報に関連するキーワードを入力し、そのキーワードが含まれている可能性のあるコンテンツ先を示すURLを得ることができ、その得られたURL先のコンテンツにアクセスし、そのコンテンツの中から、改めて得たい情報を探し、初めて情報を取得する。 Conventionally, when searching for information that humans want to obtain from a vast amount of content data created using structured documents published on the Internet, humans use search sites to obtain information they want to obtain. You can enter a keyword related to the URL, obtain a URL that indicates the content destination that may contain the keyword, access the content at the URL destination, and obtain a new URL from the content. Find the information you want and get it for the first time.
また、下記の特許文献1には、ブックマーク・セットを使用してインターネットにアクセスする方法が開示されている。
このように、得たい情報を得るためには、得たい情報の含まれるコンテンツ先のURLを探し、そのコンテンツ内を改めて探すという、2段階の処理を踏まなくてはならず、得たい情報を得られるまでに時間がかかる。また、得たい情報が、1つのコンテンツにだけではなく、複数のコンテンツにあると、それぞれのコンテンツにアクセスし、それぞれのコンテンツ内から、得たい情報を探さなくてはならず、非常に手間がかかり、効率的でない。 In this way, in order to obtain the information that you want to obtain, you must go through the two-step process of searching for the URL of the content destination that contains the information you want to obtain, and then searching again within the content. It takes time to get it. Also, if the information you want to get is not only in one piece of content but in multiple pieces of content, you must access each piece of content and search for the information you want to get from within each piece of content. Takes and is not efficient.
本発明の目的は、構造化文書を利用して作成されたコンテンツから、人間が求める情報を、自動的に抽出し、それらを整形することで、情報を得られるまでの時間及び手間を減らすことである。 An object of the present invention is to automatically extract information required by human beings from content created using a structured document and shape them, thereby reducing the time and labor required to obtain the information. It is.
本発明の文書整形装置は、構造化文書内のオブジェクトデータの中でキーワードに関連するオブジェクトデータを抽出する抽出手段と、前記抽出されたオブジェクトデータに関する構造化文書を整形する整形手段とを有することを特徴とする。
また、本発明の文書整形方法は、構造化文書内のオブジェクトデータの中でキーワードに関連するオブジェクトデータを抽出する抽出ステップと、前記抽出したオブジェクトデータに関する構造化文書を整形する整形ステップとを有することを特徴とする。
また、本発明のプログラムは、上記の文書整形方法の各ステップをコンピュータに実行させるためのプログラムである。
The document shaping apparatus according to the present invention includes an extraction unit that extracts object data related to a keyword from object data in a structured document, and a shaping unit that shapes a structured document related to the extracted object data. It is characterized by.
The document formatting method of the present invention includes an extraction step of extracting object data related to a keyword from object data in a structured document, and a formatting step of formatting a structured document related to the extracted object data. It is characterized by that.
The program of the present invention is a program for causing a computer to execute each step of the document shaping method.
ユーザーがキーワードを指定すれば、ユーザーが求める情報を構造化文書から自動的に抽出し、それらを整形することができるので、情報を得られるまでの時間及び手間を減らすことができる。 If the user designates a keyword, information required by the user can be automatically extracted from the structured document and shaped, so that the time and effort required to obtain the information can be reduced.
以下、本発明の実施の形態を、具体例を用いて詳細に説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態における構造化文書整形装置の利用方法の一例である。ユーザーは、本装置104に対して、インターネット108上に混在するコンテンツデータの中から、自分の欲しい情報を得るために、その欲しい情報に関連するキーワード(1つ、またはそれ以上の文字列)を与える指示をキーボードおよびマウスなどの入力デバイスを用いて、パーソナルコンピューター103 (以下PCと略す)に通知する。構造化文書データ抽出および整形出力装置(本装置)104は、PC103の内部に組み込まれているものであり、ユーザーからの指示によって与えられたキーワードを、コンテンツ検索装置106に送信する。キーワードを与えられたコンテンツ検索装置106は、108のインターネットに接続し、キーワードに関連するコンテンツの格納先を示すURL(Uniform Resource Locator)を取得し、本装置104が、それらのURLを受信する。本装置104は、インターネット108に接続し、受信したURL先のコンテンツデータを取得する。本装置104は、取得したコンテンツデータ(1つ、またはそれ以上)の構造を解析し、ユーザーから与えられたキーワードを利用して、コンテンツデータの中から、ユーザーが欲しい情報に関連すると判断できるオブジェクトデータ(テキストデータ、バイナリデータなど)を抽出し、さらに、これらのオブジェクトデータの関連性を見つけ、テキストデータとバイナリデータとの組み合わせや関連付けなどの処理を行い、オブジェクトデータをまとめる。そして、データ自動レイアウト出力装置114に、これらのオブジェクトデータを送信する。データ自動レイアウト出力装置114は、これらのオブジェクトデータを自動的に組み合わせて、整形し、各種印刷機器に対応するデータに変換し、印刷機器116へ整形済みデータが出力され、ユーザーが欲しい情報だけが記載された情報が印刷され、一連の処理の流れが終了する。
Hereinafter, embodiments of the present invention will be described in detail using specific examples.
(First embodiment)
FIG. 1 is an example of a method of using a structured document shaping apparatus according to the first embodiment of the present invention. In order to obtain information desired by the user from the content data mixed on the Internet 108, the user inputs a keyword (one or more character strings) related to the desired information to the
図2は、本実施形態における本装置104全体の処理の流れを示す図である。図2を用いて本実施形態における本装置104内部の処理の流れを説明する。
FIG. 2 is a diagram showing a flow of processing of the
本装置104の内部201の各処理を示したものである。キーワード(1つ、またはそれ以上の文字列)202は、ユーザーが入力したものであって、入力部203で、そのキーワードを受け取る(入力する)。コンテンツ検索装置利用部204は、入力されたキーワードをコンテンツ検索装置(検索サイトなど)106にコンテンツ検索装置106から提供されているAPIなどを利用して、そのキーワードに関連するコンテンツデータがある場所を示すURLをコンテンツ検索装置106から受け取る。通信部205は、その受け取ったURLにインターネットのネットワーク接続でアクセスし、コンテンツデータを取得する。そして、変換処理部206において、取得したコンテンツデータの構造を整える(コンテンツデータがHTML(HyperText Markup Language)で記述されていれば、XHTML(eXtensible HyperText Markup Language)に変換する)ことで、厳密な構造に変換する。解析処理部207において、その構造を整えたコンテンツデータの構造を調べ、構造を意味するツリー構造や、コンテンツを構成しているテキストデータ及び/又はバイナリデータなどのオブジェクトデータを抽出する。比較判断及び抽出処理部208において、その抽出したオブジェクトデータとユーザーが入力したキーワードが関連しているものか、文字列の比較を行い判断し、出力する。また、オブジェクトデータが画像の場合は、画像データがコンテンツデータの中で、どのように構成されているかを解析する。具体的には‘jpeg', 'tif'など画像データに関する記述付近に存在するテキストデータを抽出し、その中にユーザーが入力したキーワードが含まれていれば、その画像がキーワードに関連すると判断する。209のまとめ処理部で、抽出されたオブジェクトデータの中で、コンテンツデータを解析した結果、オブジェクト同士が関連していると判断できれば、それらのオブジェクトデータをXML(eXtensible Markup Language)形式で1つにまとめる。そして、210の付加情報追加処理部において、そのまとめられたオブジェクトデータの重要度を示す優先順位付けを行い、オブジェクトデータが含まれるコンテンツデータがある場所を示すURLを情報として付加する処理などを行う。211の格納処理部において、それらまとめたオブジェクトデータをRAMなどによって構成されるデータ格納領域部212に格納すると共に、画像データなどの実体をインターネットを介して取得し、それらのデータも格納する。最後に213の出力部に格納したことを通知する。通知を受け取った出力部213は、データ格納領域から、通知のあったオブジェクトデータを抜き出し、データ自動レイアウト出力装置214に出力する。
Each process of the
なお、変換処理部206は、削除してもよい。すなわち、構造化文書は、HTMLでもXHTMLでもよい。比較判断及び抽出処理部208は、オブジェクトデータがテキストデータの場合、センテンス単位又はパラグラフ単位で解析し、キーワードが含まれていればキーワードに関連すると判断し、それらの単位でオブジェクトデータを抽出する。
Note that the
上述した207〜210のさらに詳しい処理内容を、図3に示す具体例を用いて説明する。ユーザーから入力されたキーワードが、"abc"、"xyz"、"123"の3つの文字列で、これらに関連するコンテンツデータが、図3中301の構造化文書で記述されていて、このコンテンツデータを示すURLが"http://www.123・・・"である、として説明する。
More detailed processing contents of 207 to 210 described above will be described using a specific example shown in FIG. The keywords input by the user are three character strings “abc”, “xyz”, and “123”, and the content data related to these are described in the
本装置の通信部から、URL:"http://www.123・・・"にアクセスし、構造化文書301で記述されたコンテンツデータを取得する。取得したコンテンツデータを上層から順に解析することで、まず、302のテキストデータに関してキーワードがあるかどうか判断する。このテキストデータの中には、キーワード:"abc"、"xyz"、"123"が含まれていないので、必要のないオブジェクトデータであると判断する。同様にして、303のテキストデータに関し、そのデータ中にキーワードがあるかどうか調べる。テキストデータ303にはキーワードが含まれていないため、これも必要のないオブジェクトデータであると判断する。さらに、304のテキストデータに関し、そのデータ中にキーワードがあるかどうか調べる。ここで"xyz"の文字列を抽出し、必要なオブジェクトデータであると判断する。そしてこのオブジェクトデータ本体(テキストデータ304)と、そのデータ中に含まれているキーワードの個数、解析された順番(ユニークな識別子)を記憶しておく。次に、305のテキストデータに関し、キーワードを調べる。すると"123"の文字列が、1つ含まれているのを見つけ、必要のあるオブジェクトデータであると判断し、このオブジェクトデータと、含まれているキーワードの個数、解析された順番を記憶しておく。次に、306のテキストデータを見つけ、テキストデータ内のキーワード有無を調べる。その結果、"abc"、"xyz"、"123"の3つの文字列を抽出し、テキストデータ306が必要のあるオブジェクトデータであると判断する。そして、このオブジェクトデータ本体(テキストデータ306)と、含まれているキーワードの個数、解析された順番を記憶しておく。同様に、307のテキストデータに関し、キーワードを調べる。すると"abc"、"xyz"の2つの文字列を抽出し、必要のあるオブジェクトデータであると判断する。このオブジェクトデータ本体(テキストデータ307)と、含まれているキーワードの個数、解析された順番を記憶しておく。これらの記憶したオブジェクトデータを、308で示すように、必要な情報を付加し、XML形式でまとめる。
The URL: “http: //www.123...” Is accessed from the communication unit of this apparatus, and the content data described in the
XMLデータ308は、まず<contentsno>タグで、複数あるコンテンツデータの中で、何番目に解析をしたかを記述する。今回の場合は、解析対象となるコンテンツデータは1つなので、"1"である。次に<data>タグによって、それぞれのオブジェクトデータを囲み、その中で、優先順位、キーワードの個数などを付加する。テキストデータ304、305、306、307を、それぞれ比較した結果、キーワードが一番多く含まれているテキストデータ306が一番重要であると判断し、優先順位(<priority>タグ)を一番高く("1")する。同様にして、テキストデータ307が、文字列が次に多く含まれているため、2番目に重要と判断し、優先順位を"2"とする。テキストデータ304と305は共に、キーワードが1つしか含まれていないため、キーワードだけでは、優先順位が決められない。この場合、オブジェクトデータを解析した(探し出した)順番で比較する。すると、テキストデータ304と305では、テキストデータ304の方が先に解析されているので、テキストデータ304の方の優先順位を高くする。最後に<link>タグで、テキストデータ304、305、306、307が含まれるコンテンツデータURLを付加し、1つのXMLデータとしてまとめ、データ格納領域へ格納する。
First, the
(第2の実施形態)
本発明の第2の実施形態を説明する。第1の実施形態では、テキストデータのみの抽出であったが、テキストデータと画像データ(バイナリデータ)の両方を抽出する場合の本装置の詳しい処理内容説明する。ここでは、ユーザーから入力されたキーワードが、"abc"、"xyz"、"123"の3つの文字列で、これらに関連するコンテンツデータが、図4に示す構造化文書401で記述されていて、このコンテンツデータを示すURLが"http://www.456・・・"であるものに対する処理例を説明する。
(Second Embodiment)
A second embodiment of the present invention will be described. In the first embodiment, only text data is extracted, but detailed processing contents of this apparatus when both text data and image data (binary data) are extracted will be described. Here, the keywords inputted by the user are three character strings “abc”, “xyz”, and “123”, and the content data related to these are described in the structured
本装置の通信部から、URL:"http://www.456・・・"にアクセスし、図4の構造化文書401で記述されたコンテンツデータを取得する。そして、取得したコンテンツデータを上層から順に解析する。まず、テキストデータ402に関し、上述のキーワードがあるか否か判定する。このテキストデータ402の中には、キーワード:"abc"、"xyz"、"123"が含まれていないので、必要のないオブジェクトデータであると判断する。次に、画像データ403に関連するデータを見つけ、キーワードを調べる。<img>タグ中のalt属性(代替データ)の文字列内に、キーワード"xyz"、"123"の2つの文字列が含まれているので、必要なオブジェクトデータであると判断し、このオブジェクトデータ本体(画像データに関するテキストデータ403)と、含まれているキーワードの個数、解析された順番を記憶しておく。次に、画像データに関連するデータ404に関し、そのデータ内にキーワードがあるか否かを判定する。データ404である<img>タグ中には、alt属性がないため、このデータだけでは、キーワードに関連するものかどうかわからないので、保留にする。次に、テキストデータ405を見つけ、キーワードの有無を調べる。テキストデータ405の場合、"abc"、"xyz" 、"123"の3つの文字列が抽出されるので、このテキストデータ405を必要のあるオブジェクトデータであると判断する。そして、このオブジェクトデータ(テキストデータ405)と、含まれているキーワードの個数、解析された順番を記憶しておくと共に、このテキストデータ405が、画像データの記述404と隣接しているため、保留にしておいた、画像データを示すデータ404も、キーワードに関連するオブジェクトデータであると判断し、405のテキストデータと関連付けて記憶しておく。すなわち、本処理では、データそのものを解析したときに必要なデータであるか否か判断ができない場合、前後に解析したデータに基づいて必要なデータであるか否か判定している。そして、テキストデータ406に関し、キーワードの有無を調べる。すると"123"の文字列が1つ含まれていることから、必要のあるオブジェクトデータであると判断する。同様に、このオブジェクトデータと、含まれているキーワードの個数、解析された順番を記憶しておく。これらの記憶したオブジェクトデータを、構造化文書407で示すように、必要な情報を付加し、XML形式でまとめる。
URL: “http: //www.456...” Is accessed from the communication unit of this apparatus, and the content data described in the structured
構造化文書407は、まず<contentsno>タグで、複数あるコンテンツデータの中で、何番目に解析をしたかを記述する。今回の場合は、解析対象となるコンテンツデータは1つなので、"1"である。次に<data>タグによって、それぞれのオブジェクトデータを囲み、その中で、優先順位、キーワードの個数などを付加する。オブジェクトデータ403、404、405、406をそれぞれ比較した結果、キーワードが一番多く含まれている405のテキストデータが一番重要であると判断し、優先順位(<priority>タグ)を一番高く("1")する。さらに、このテキストデータ405は、画像データに関するデータ404と関連付けて記憶しているため、同じ<data>タグ内に両者をまとめ、1つの塊にする。次に画像データに関するデータ403のalt属性中の文字列にキーワードが2番目に多く含まれているため、データ403が2番目に重要であると判断し、優先順位を"2"とする。そして、画像データと、alt属性の文字列を2つにわけてまとめる。テキストデータ406には、キーワードが1つしか含まれていないため、優先順位を一番低くする。最後に<link>タグで、オブジェクトデータ403、404、405、406が含まれるコンテンツデータURLを付加し、1つのXMLデータとしてまとめ、データ格納領域へ格納する。
In the structured
(第3の実施形態)
本発明の第3の実施形態を説明する。本実施の形態は、第1の実施形態及び第2の実施形態に対して、特にキーワードの抽出対象がテーブル構造になっている場合の処理例である。本形態に関してもユーザーから入力されたキーワードが、"abc"、"xyz"、"123"の3つの文字列で、これらに関連するコンテンツデータが、図5中501の構造化文書で記述されていて、このコンテンツデータを示すURLが"http://www.789・・・"である、として説明する。
(Third embodiment)
A third embodiment of the present invention will be described. The present embodiment is an example of processing in the case where the keyword extraction target has a table structure, in particular, with respect to the first embodiment and the second embodiment. Also in this embodiment, the keywords input by the user are three character strings “abc”, “xyz”, and “123”, and the content data related to these are described in the structured
まず、本装置から、URL:"http://www.789・・・"にアクセスし、図5中501の構造化文書で記述されたコンテンツデータを取得する。そして、取得したコンテンツデータを上層から順に解析する。まず、テキストデータ502このテキストデータの中には、キーワード:"abc"、"xyz"、"123"が含まれていないので、必要のないオブジェクトデータであると判断する。次に、テキストデータ503に関し、キーワードの有無を調べる。すると"xyz"の文字列が抽出されるので、テキストデータ503が必要のあるオブジェクトデータであると判断される。このオブジェクトデータと、含まれているキーワードの個数、解析された順番を記憶しておく。次に、画像データに関するデータ504に関し、キーワードを調べる。データ504には、<img>タグ中のalt属性がないため、この画像データだけでは、キーワードに関連するものかどうかわからないので、保留にする。同様に、画像データに関するテキストデータ505も保留にする。そして、テキストデータ506に関し、キーワードの有無を調べる。すると"123"、"abc"の2つの文字列が含まれていることから、必要のあるオブジェクトデータであると判断する。そして、このオブジェクトデータ(テキストデータ505)と、含まれているキーワードの個数、解析された順番を記憶しておく。次に、テキストデータ507に関し、キーワードの有無を調べる。すると、"abc"、"xyz"、"123"の3つの文字列が含まれていることから、必要なオブジェクトデータであると判断する。そして、このオブジェクトデータ(テキストデータ507)と、含まれているキーワードの個数、解析された順番を記憶しておく。さらに、オブジェクトデータ504〜507は、コンテンツデータの構造を解析することで、同一の<table>タグで囲まれていることが判定され、508で示すテーブルの形で表示されるものと解釈できる。そして、テキストデータ506は、画像データ504に関する説明であると推測でき、同様にして、507のテキストデータは、505の画像データに関する説明であると推測できるので、両者の関連付けを行う。さらに、画像データに関するデータ504、505もキーワードに関連し、必要のあるオブジェクトデータであると判断できる。これらの記憶したオブジェクトデータを、構造化文書509で示すように、必要な情報を付加し、XML形式でまとめる。すなわち、テーブルタグで囲まれたオブジェクトデータに対して関連性を調べる場合、そのうちの少なくとも1つが必要なデータであると判断した場合、その他のオブジェクトデータに関しても必要であると判断する。
First, URL: “http: //www.789...” Is accessed from this apparatus, and content data described in a structured
構造化文書509は、まず<contentsno>タグで、複数あるコンテンツデータの中で、何番目に解析をしたかを記述する。今回の場合は、解析対象となるコンテンツデータは1つなので、"1"である。次に<data>タグによって、それぞれのオブジェクトデータを囲み、その中で、優先順位、キーワードの個数などを付加する。オブジェクトデータ503、504、505、506、507をそれぞれ比較した結果、キーワードが一番多く含まれているテキストデータ507が一番重要であると判断し、優先順位(<priority>タグ)を一番高く("1")する。さらに、このテキストデータ507は、画像データに関連するデータ505と関連付けられているため、テキストデータ510に示すように、同じ<data>タグ内に両者をまとめ、1つの塊にする。同様に、テキストデータ506が2番目に重要であると判断し、テキストデータ511に示すように、同じ<data>タグ内に506のテキストデータと504の画像データの両者をまとめ、1つの塊にする。テキストデータ503には、キーワードが1つしか含まれていないため、優先順位を一番低くする。最後に<link>タグで、503、504、505、506、507のオブジェクトデータが含まれるコンテンツデータURLを付加し、1つのXMLデータとして、まとめ、データ格納領域へ格納する。
In the structured
なお、本装置104がインターネット上のサーバー103内に組み込まれている場合、ユーザー本装置104へのアクセスする方法は、ユーザーがPC又はモバイル端末機器を利用し、インターネット108を介して、アクセスすることになる。
In addition, when the
図7は、本発明の各実施形態によるコンピュータのハードウエア構成例を示す。本実施形態は、前記第1〜第4の実施形態のPC又はサーバー(本装置104を含む)103をコンピュータで実現する例を示す。PC又はモバイル端末機器603及びコンテンツ検索装置106も同様の構成を有する。
FIG. 7 shows a hardware configuration example of a computer according to each embodiment of the present invention. The present embodiment shows an example in which the PC or server (including the device 104) 103 of the first to fourth embodiments is realized by a computer. The PC or mobile
バス701には、中央処理装置(CPU)702、ROM703、RAM704、ネットワークインタフェース705、入力装置706、出力装置707及び外部記憶装置708が接続されている。
A central processing unit (CPU) 702, a
CPU702は、データの処理又は演算を行うと共に、バス701を介して接続された各種構成要素を制御するものである。ROM703には、予めCPU702の制御手順(コンピュータプログラム)を記憶させておき、このコンピュータプログラムをCPU702が実行することにより、起動する。外部記憶装置708にコンピュータプログラムが記憶されており、そのコンピュータプログラムがRAM704にコピーされて実行される。RAM704は、データの入出力、送受信のためのワークメモリ、各構成要素の制御のための一時記憶として用いられる。外部記憶装置708は、例えばハードディスク記憶装置やCD−ROM等であり、電源を切っても記憶内容が消えない。CPU702は、RAM704内のコンピュータプログラムを実行することにより、第1〜第4の実施形態の処理を行う。
The
ネットワークインタフェース705は、インターネット(図1及び図6)108等のネットワークに接続するためのインタフェースである。入力装置706は、例えばキーボード、マウス等であり、各種指定又は入力等を行うことができる。出力装置707は、ディスプレイ及びプリンタ等である。
The
本実施形態は、コンピュータがプログラムを実行することによって実現することができる。また、プログラムをコンピュータに供給するための手段、例えばかかるプログラムを記録したCD−ROM等のコンピュータ読み取り可能な記録媒体又はかかるプログラムを伝送するインターネット等の伝送媒体も本発明の実施形態として適用することができる。また、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体等のコンピュータプログラムプロダクトも本発明の実施形態として適用することができる。上記のプログラム、記録媒体、伝送媒体及びコンピュータプログラムプロダクトは、本発明の範疇に含まれる。記録媒体としては、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。 This embodiment can be realized by a computer executing a program. Also, means for supplying a program to a computer, for example, a computer-readable recording medium such as a CD-ROM recording such a program, or a transmission medium such as the Internet for transmitting such a program is also applied as an embodiment of the present invention. Can do. A computer program product such as a computer-readable recording medium in which the above program is recorded can also be applied as an embodiment of the present invention. The above program, recording medium, transmission medium, and computer program product are included in the scope of the present invention. As the recording medium, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.
以上のように、各実施形態によれば、インターネット上に公開されている膨大にあるコンテンツから、人間の得たい情報が含まれているコンテンツを探し、取得し、さらに、取得したそれぞれのコンテンツから、人間の得たい情報に関連するテキストデータやバイナリデータなどを抽出し、保存し、改めて、それらのデータを組み合わせて、整形し、出力する装置を提供する。 As described above, according to each embodiment, content including information desired by human beings is searched for and acquired from a large amount of content published on the Internet, and further, from each acquired content. The present invention provides an apparatus for extracting text data and binary data related to information that humans want to obtain, storing, re-combining, shaping, and outputting the data.
インターネット上に混在する情報から、人間が得たい情報を、より効率的に、すばやく取得でき、人間が情報を探すための作業にかかる手間を省くことができる。さらに、コンテンツ全体ではなく、コンテンツデータの中から、自分の知りたい情報だけを見ることができるので、情報を吸収する時間も短縮できる。さらに、このような処理を、今までにない、インターネットサービスの1つのモデルとして確立できる。さらに、必要のないオブジェクトデータは、格納領域にストアをしないため、少ないリソースでのシステム構成が可能となり、より低コストで、システムを実現できる。 Information that a person wants to obtain can be acquired more efficiently and quickly from information mixed on the Internet, and the labor for a person to search for information can be saved. Furthermore, since only the information that the user wants to know can be viewed from the content data, not the entire content, the time for absorbing the information can be shortened. Furthermore, such a process can be established as a model of an Internet service that has never existed before. Furthermore, since unnecessary object data is not stored in the storage area, a system configuration with fewer resources is possible, and the system can be realized at a lower cost.
なお、上記実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。 The above-described embodiments are merely examples of implementation in carrying out the present invention, and the technical scope of the present invention should not be construed in a limited manner. That is, the present invention can be implemented in various forms without departing from the technical idea or the main features thereof.
103 PC
104 構造化文書整形装置
106 コンテンツ検索装置
108 インターネット
114 データ自動レイアウト出力装置
116 印刷機器
201 構造化文書整形装置内部の各処理の流れ
202 ユーザーが入力した文字列キーワード
203 入力部
204 コンテンツ検索装置利用部
205 通信部
206 変換処理部
207 解析処理部
208 比較判断及び抽出処理部
209 まとめ処理部
210 付加情報追加処理部
211 格納処理部
212 データ格納領域部
213 出力部
214 データ自動レイアウト出力装置
301 コンテンツデータ
302 オブジェクトデータ
303 オブジェクトデータ
304 オブジェクトデータ
305 オブジェクトデータ
306 オブジェクトデータ
307 オブジェクトデータ
308 出力データ
401 コンテンツデータ
402 オブジェクトデータ
403 オブジェクトデータ
404 オブジェクトデータ
405 オブジェクトデータ
406 オブジェクトデータ
407 出力データ
501 コンテンツデータ
502 オブジェクトデータ
503 オブジェクトデータ
504 オブジェクトデータ
505 オブジェクトデータ
506 オブジェクトデータ
507 オブジェクトデータ
508 コンテンツデータ表示
509 出力データ
510 オブジェクトデータ組み合わせ
511 オブジェクトデータ組み合わせ
603 PCまたはモバイル端末
701 バス
702 CPU
703 ROM
704 RAM
705 ネットワークインタフェース
706 入力装置
707 出力装置
708 外部記憶装置
103 PC
104 Structured
703 ROM
704 RAM
705
Claims (15)
前記抽出されたオブジェクトデータに関する構造化文書を整形する整形手段と
を有することを特徴とする文書整形装置。 An extraction means for extracting object data related to a keyword from object data in a structured document;
A document shaping apparatus comprising: shaping means for shaping a structured document related to the extracted object data.
前記抽出したオブジェクトデータに関する構造化文書を整形する整形ステップと
を有することを特徴とする文書整形方法。 An extraction step of extracting object data related to the keyword from the object data in the structured document;
A document shaping method, comprising: a shaping step of shaping a structured document relating to the extracted object data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004080074A JP2005267344A (en) | 2004-03-19 | 2004-03-19 | Document shaping device, document shaping method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004080074A JP2005267344A (en) | 2004-03-19 | 2004-03-19 | Document shaping device, document shaping method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005267344A true JP2005267344A (en) | 2005-09-29 |
Family
ID=35091820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004080074A Pending JP2005267344A (en) | 2004-03-19 | 2004-03-19 | Document shaping device, document shaping method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005267344A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011080926A1 (en) * | 2009-12-30 | 2011-07-07 | 株式会社Taggy | Content configuration method |
JP2011138478A (en) * | 2010-08-19 | 2011-07-14 | Taggy Inc | Method for classifying and arranging content in related web page and freely recomposing and displaying the same |
-
2004
- 2004-03-19 JP JP2004080074A patent/JP2005267344A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011080926A1 (en) * | 2009-12-30 | 2011-07-07 | 株式会社Taggy | Content configuration method |
JP2011138441A (en) * | 2009-12-30 | 2011-07-14 | Taggy Inc | Method for classifying and arranging content in related web page and freely recomposing and displaying the same |
JP2011138478A (en) * | 2010-08-19 | 2011-07-14 | Taggy Inc | Method for classifying and arranging content in related web page and freely recomposing and displaying the same |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100461019B1 (en) | web contents transcoding system and method for small display devices | |
JP3824298B2 (en) | Server, web content editing apparatus, program for realizing these using computer, web content editing method and providing method thereof | |
US20050232484A1 (en) | Image processing device, image processing method, and storage medium storing program therefor | |
JP2004145794A (en) | Structured/layered content processor, structured/layered content processing method, and program | |
US10366051B2 (en) | Method and system for file conversion | |
US10810181B2 (en) | Refining structured data indexes | |
JP2005234837A (en) | Structured document processing method, structured document processing system and its program | |
US10558631B2 (en) | Enhancing textual searches with executables | |
KR20090130364A (en) | Method, apparatus and computer-readable recording medium for tagging image contained in web page and providing web search service using tagged result | |
JP2010267247A (en) | Device and method for retrieving information, terminal equipment, and program | |
JP2018173681A (en) | Search result summarizing apparatus, program, and method | |
CN104778232B (en) | Searching result optimizing method and device based on long query | |
KR100940365B1 (en) | Method, apparatus and computer-readable recording medium for tagging image contained in web page and providing web search service using tagged result | |
JP4499179B1 (en) | Terminal device | |
JP2007115276A (en) | Content data generation processing program and content data generation processing program recording medium | |
KR20080049428A (en) | Method and apparatus for providing similarity searching services by semantic web | |
JP2007011973A (en) | Information retrieval device and information retrieval program | |
JP2017220179A (en) | Content processing device, content processing method and program | |
JP2005267344A (en) | Document shaping device, document shaping method, and program | |
JP5688754B2 (en) | Information retrieval apparatus and computer program | |
JP2008102773A (en) | Method for converting data into common format | |
KR101117171B1 (en) | Method, system and computer-readable recording medium for creating data for retrieval | |
US8082259B2 (en) | Information processing apparatus for extracting objects | |
KR100953627B1 (en) | Method, apparatus and computer-readable recording medium for reading text on image contained in web page and providing translation service on same text | |
JP2006221272A (en) | System, method and program for multilingual translation |