JP2014071644A - Information processor - Google Patents
Information processor Download PDFInfo
- Publication number
- JP2014071644A JP2014071644A JP2012216956A JP2012216956A JP2014071644A JP 2014071644 A JP2014071644 A JP 2014071644A JP 2012216956 A JP2012216956 A JP 2012216956A JP 2012216956 A JP2012216956 A JP 2012216956A JP 2014071644 A JP2014071644 A JP 2014071644A
- Authority
- JP
- Japan
- Prior art keywords
- content
- information
- image
- specified
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、閲覧したウェブページの一部分を抽出するための技術に関する。 The present invention relates to a technique for extracting a part of a browsed web page.
閲覧したウェブページの一部分を抽出するための技術がある。例えば、特許文献1には、ユーザが閲覧したウェブページ(閲覧履歴)のサマリを生成するため、閲覧履歴からキーワードを抽出する技術が記載されている。
There is a technique for extracting a part of a browsed web page. For example,
特許文献1の技術で抽出されるウェブページの一部分(すなわちキーワード)は、1個から数個程度の語で表された文の情報であることが普通であり、これだけではユーザはウェブページの内容を詳しく把握することが難しい。
そこで、本発明は、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することを目的とする。
A part (that is, a keyword) of a web page extracted by the technique of
In view of the above, an object of the present invention is to extract a part from which a content can be grasped in more detail from a web page.
上記課題を達成するために、本発明は、ウェブページにおいて表示されるコンテンツの表示の態様を規定する規定情報と、少なくとも1つの前記規定情報により前記態様がそれぞれ規定される少なくとも1つ以上の前記コンテンツとを取得する取得手段と、前記取得手段により取得された規定情報が第1の条件を満たす場合に、当該規定情報により規定された前記態様で表示される前記コンテンツを、前記取得手段により取得されたコンテンツから抽出する抽出手段と、前記抽出手段により抽出されたコンテンツのうち、第2の条件を満たす前記コンテンツを特定する特定手段と、前記特定手段により特定されたコンテンツに応じて、前記ウェブページの一部分を示す部分情報を生成する生成手段とを備えることを特徴とする情報処理装置を提供する。 In order to achieve the above-described object, the present invention provides at least one or more of the above-described information that is defined by definition information that defines a display mode of content displayed on a web page and at least one of the definition information. An acquisition unit that acquires content, and when the specified information acquired by the acquiring unit satisfies a first condition, the content displayed in the form specified by the specified information is acquired by the acquiring unit. Extraction means for extracting from the extracted content; identification means for identifying the content satisfying a second condition among the contents extracted by the extraction means; and the web according to the content identified by the identification means An information processing apparatus comprising: generating means for generating partial information indicating a part of a page Subjected to.
また、前記決められた規定情報に対しては優先順位が定められており、前記抽出手段は、取得された前記規定情報のうち前記優先順位が高いものから所定の順番までに含まれるものを前記第1の条件を満たす規定情報として、当該規定情報によって規定される前記態様で表示される前記コンテンツを抽出してもよい。
さらに、前記抽出手段は、前記コンテンツを、当該コンテンツの前記態様を規定する前記規定情報であって、前記決められた規定情報以外の前記規定情報とともに抽出してもよい。
In addition, a priority order is defined for the determined prescription information, and the extraction means includes the acquired prescription information that is included in a predetermined order from the highest priority order. As the regulation information that satisfies the first condition, the content displayed in the form defined by the regulation information may be extracted.
Furthermore, the extracting means may extract the content together with the defining information that is the defining information that defines the aspect of the content and is other than the determined defining information.
また、前記取得手段は、認証が必要な前記ウェブページの前記コンテンツと前記規定情報とを取得してもよい。
さらに、前記取得手段は、前記規定情報が順番に記述された記述データにより示される当該規定情報を取得し、前記特定手段は、抽出された前記各コンテンツのうち、前記記述データにおいて記述される位置が当該記述データの先頭に近いほうから所定の順番までに含まれるものを、前記第2の条件を満たすコンテンツとして特定してもよい。
Further, the acquisition unit may acquire the content of the web page and authentication information that require authentication.
Further, the acquisition unit acquires the regulation information indicated by the description data in which the regulation information is sequentially described, and the specifying unit is a position described in the description data among the extracted contents. May be specified as content that satisfies the second condition.
また、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツにテキストのコンテンツが含まれている場合に、当該テキストのコンテンツのうち、テキストの量を表す指標が大きいほうから所定の順番までに含まれるものを、前記第2の条件を満たす前記コンテンツとして特定してもよい。
さらに、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツにテキストのコンテンツが含まれている場合に、当該テキストのコンテンツのうち、当該テキストに含まれる特定の文字列の数が多いものから所定の順番までに含まれるものを、前記第2の条件を満たすコンテンツとして特定してもよい。
In addition, when the content displayed in the form defined by the regulation information that satisfies the first condition includes text content, the specifying unit includes the text content of the text content. Content included in a predetermined order from the largest index indicating the amount may be specified as the content that satisfies the second condition.
Furthermore, when the content displayed in the form defined by the definition information that satisfies the first condition includes a text content, the specifying unit includes the text in the text content. Content included in a predetermined order from a large number of specific character strings included in may be specified as content satisfying the second condition.
また、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像のサイズが大きいものから所定の順番に含まれるものを、前記第2の条件を満たすコンテンツとして特定してもよい。
さらに、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像にテキストが対応付けられているものを、前記第2の条件を満たすコンテンツとして特定してもよい。
In addition, when the content displayed in the form defined by the definition information that satisfies the first condition includes content of an image, the specifying unit includes the image of the image. The content that is included in a predetermined order from the largest size may be specified as the content that satisfies the second condition.
Furthermore, when the content displayed is the content defined in the form defined by the definition information that satisfies the first condition, and the content of the image is included in the content of the image, May be specified as content that satisfies the second condition.
また、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像のファイルサイズ、当該画像の画素数、当該画像の横の長さに対する縦の長さの比率または当該画像の1画素あたりのファイルサイズが閾値以上であるものを、前記第2の条件を満たすコンテンツとして特定してもよい。
さらに、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像に対応付けられたアクセス先があり、且つ、当該アクセス先のドメインが前記ウェブページとは異なるものを、前記第2の条件を満たすコンテンツとして特定してもよい。
In addition, when the content displayed in the form defined by the definition information that satisfies the first condition includes content of an image, the specifying unit includes the image of the image. Content satisfying the second condition if the file size, the number of pixels of the image, the ratio of the vertical length to the horizontal length of the image, or the file size per pixel of the image is greater than or equal to a threshold value May be specified.
Furthermore, when the content displayed is the content defined in the form defined by the definition information that satisfies the first condition, and the content of the image is included in the content of the image, May be specified as content satisfying the second condition, and the access destination domain is different from the web page.
本発明によれば、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することができる。 According to the present invention, it is possible to extract from the web page a part that can grasp the content in more detail.
[第1実施形態]
本発明の第1実施形態について、以下、図面を参照して説明する。
[構成]
図1は、ブックマークサービス提供システム1の全体構成を示す図である。ブックマークサービス提供システム1は、ユーザが生成したブックマークを他のユーザと共有するサービスを提供するためのシステムである。ブックマークサービス提供システム1においては、ウェブページにアクセスするためのアクセス先(例えばURL(Uniform Resource Locator)やIP(Internet Protocol)アドレス)と、そのウェブページに含まれるコンテンツの一部分とを含むブックマークが共有される。ここでいうコンテンツとは、テキストや画像、動画、音声などであり、ウェブページの内容を表すものである。
[First Embodiment]
A first embodiment of the present invention will be described below with reference to the drawings.
[Constitution]
FIG. 1 is a diagram showing an overall configuration of a bookmark
図2は、ブックマークサービス提供システム1において共有されるブックマークの一例を示す図である。図2では、ブラウザに表示されたブックマークA1が示されている。ブックマークA1には、ウェブページのタイトルA11と、ウェブページのアクセス先A12と、ウェブページのコンテンツの一部分であるテキストA13とが含まれている。ユーザは、このテキストA13を見ることで、ウェブページの内容の一部分を知ることができる。なお、タイトルD1及び本文D3は、ブックマークにより示されるコンテンツの一部の例であり、他にも、画像、動画及び音声等がコンテンツの一部として示される場合がある。また、図2に示すようなブックマークは、クリップやクリッピングと呼ばれることもある。つまり、本システムにより提供されるサービスは、いわゆるソーシャルクリップサービスやソーシャルクリッピングサービスと呼ばれるものを含んでいる。
FIG. 2 is a diagram illustrating an example of a bookmark shared in the bookmark
ブックマークサービス提供システム1は、ブックマークサーバ装置10と、情報処理装置20と、ウェブサーバ装置40と、ネットワーク2とを備える。ネットワーク2は、移動体通信網又はインターネット等を含むものである。ブックマークサーバ装置10は、前述したブックマークを保持し、登録されたユーザに対して、保持しているブックマークを共有するサービスを提供する装置である。ブックマークサーバ装置10は、登録されたユーザを認証するための情報(以下「認証情報」という。)として、ユーザを識別する識別情報(ユーザIDなど)及びパスワードを記憶しており、これらの認証情報に基づいてユーザを認証する機能を有している。ブックマークサーバ装置10は、ネットワーク2に接続されており、ネットワーク2を介して通信を行う。
The bookmark
情報処理装置20は、ユーザが所持する携帯電話機やスマートフォンなどであり、CPU(Central Processing Unit)を備えたコンピュータである。情報処理装置20は、ネットワーク2を介して移動体通信を行う。情報処理装置20は、本システムで用いられるブラウザ30のプログラムを記憶しており、このプログラムを実行することにより、ブックマークサーバ装置10及びウェブサーバ装置40とデータのやり取りを行う。ユーザがブラウザ30の画面で前述した識別情報及びパスワードを入力することで、ブックマークサーバ装置10による認証が行われる。
The
ウェブサーバ装置40は、ウェブページを提供するいわゆるウェブサーバである。ウェブサーバ装置40は、ウェブページを表すテキストなどのデータ(以下「ウェブページデータ」という。)を保持しており、情報処理装置20からブラウザ30の機能などによってウェブページが要求された場合に、そのウェブページデータを情報処理装置20に送信することで、要求されたウェブページを提供する。
The
図3は、ブックマークサーバ装置10のハードウェア構成を示す図である。ブックマークサーバ装置10は、制御装置11と、記憶装置12と、通信装置13とを備える。制御装置11は、CPU、ROM(Read Only Memory)、RAM(Random Access Memory)及びリアルタイムクロックを備えている。CPUは、RAMをワークエリアとして用いてROMや記憶装置12に記憶されたプログラムを実行することによって、ブックマークサーバ装置10が備える各装置の動作を制御する。リアルタイムクロックは、現在の日時を算出する機能を有している。記憶装置12は、例えばフラッシュメモリやハードディスク等の記憶手段であり、制御装置11が制御に用いるデータやプログラムなどを記憶している。また、記憶装置12は、ブックマークサーバ装置10において用いられる閾値などの定められた数値を示すデータを記憶している。通信装置13は、ネットワーク2を介して通信を行うための通信回路を備えるとともに、制御装置11とデータをやり取りする。制御装置11は、通信装置13を介して情報処理装置20とデータをやり取りする。
FIG. 3 is a diagram illustrating a hardware configuration of the
図4は、情報処理装置20のハードウェア構成を示す図である。情報処理装置20は、制御装置21と、記憶装置22と、操作装置23と、表示装置24と、音声入出力装置25と、通信装置26とを備えたコンピュータである。制御装置21は、CPU、ROM、RAM及びリアルタイムクロックを備えている。CPUは、RAMをワークエリアとして用いてROMや記憶装置22に記憶されたプログラムを実行することによって、情報処理装置20の各装置の動作を制御する。リアルタイムクロックは、現在の日時を算出する機能を有している。記憶装置22は、例えばフラッシュメモリやハードディスク等の記憶手段であり、制御装置21が制御に用いるデータやプログラムなどを記憶している。操作装置23は、複数のキー及びタッチセンサなどの操作子を備え、利用者の操作に応じた操作信号を制御装置21に供給する。制御装置21は、この操作信号に応じた処理を行う。表示装置24は、表示面を有する表示手段であり、制御装置21からの指示に応じて、記憶装置22に記憶されているデータが示す画像などを表示面に表示する。音声入出力装置25は、スピーカ、マイクロフォン及び音声処理回路等を有し、通話に係る音声の入出力を行う。通信装置26は、携帯電話や無線LANなどの規格に基づく無線通信を行うための通信回路を備え、移動体通信や無線LAN通信を行う。
FIG. 4 is a diagram illustrating a hardware configuration of the
図5は、ウェブサーバ装置40のハードウェア構成を示す図である。ウェブサーバ装置40は、制御装置41と、記憶装置42と、通信装置43とを備える。制御装置41は、CPU、ROM及びRAMを備えている。通信装置43は、ネットワーク2を介して通信を行うための通信回路を備える。記憶装置42は、例えばフラッシュメモリやハードディスク等の記憶手段であり、制御装置41が制御に用いるデータやプログラムなどを記憶している。また、記憶装置42は、情報処理装置20等に提供するウェブページのウェブページデータを記憶している。ウェブページデータは、ウェブページに含まれるコンテンツを示すデータ(以下「コンテンツデータ」という。)と、それらのコンテンツの表示の態様を規定する規定情報(HTML(HyperText Markup Language)タグなど)を示すデータとを含んでいる。
FIG. 5 is a diagram illustrating a hardware configuration of the
コンテンツデータとは、コンテンツがテキストであればテキストデータ、画像であれば画像データ、動画であれば動画データ、音声であれば音声データのことである。また、規定情報を示すデータとは、例えば、ウェブページのページソースである。ページソースには、コンテンツのテキストデータも含まれている。コンテンツがテキスト以外である場合には、ページソースには、それらのコンテンツデータ(画像データ、動画データ及び音声データ)が記憶されている場所がURL等で示されている。 Content data is text data if the content is text, image data if it is an image, moving image data if it is a moving image, and sound data if it is a sound. Further, the data indicating the regulation information is, for example, a page source of a web page. The page source also includes text data for the content. When the content is other than text, the page source indicates the location where the content data (image data, moving image data, and audio data) is stored with a URL or the like.
ブックマークサービス提供システム1は、以上のハードウェア構成に基づき、ブックマークを共有するサービスを提供するためのサービス提供処理を行う。情報処理装置20の記憶装置22には、サービス提供処理を行うためのプログラムとして、図1に示すブラウザ30のプログラムが記憶されている。情報処理装置20の制御装置21がそのプログラムを実行してブラウザ30を起動し、図4に示す各装置を制御することで、以下に示す機能が実現される。
図6は、情報処理装置20が実現する機能構成を示す図である。情報処理装置20は、取得部201と、抽出部202と、特定部203と、生成部204とを備える。
The bookmark
FIG. 6 is a diagram illustrating a functional configuration realized by the
取得部201は、ウェブページにおいて表示されるコンテンツの表示の態様を規定する規定情報と、少なくとも1つの規定情報により表示の態様がそれぞれ規定される少なくとも1つ以上のコンテンツとを取得する取得手段である。取得部201は、制御装置21及び通信装置26が協働して実現する機能である。制御装置21は、ブラウザ30の機能により、通信装置26を介してウェブページのアクセス先(URLなど)に対してウェブページを要求するページ要求データを送信する。ページ要求データは、要求されたウェブページを示すウェブページデータ(すなわち少なくとも1つ以上のコンテンツ及び規定情報を示すデータ)を保持するウェブサーバ装置(例えばウェブサーバ装置40)により受信される。ページ要求データを受信したウェブサーバ装置は、要求されたウェブページのウェブページデータを情報処理装置20に対して送信する。こうして送信されてきたウェブページデータは、通信装置26を介して制御装置21に供給される。こうして取得部201が取得するコンテンツ及び規定情報について、図7及び図8を参照して説明する。
The
図7は、ブラウザ30にウェブページが表示されているようすの一例を示す図である。ブラウザ30には、このブラウザの機能(この例では「ファイル」、「編集」、「表示」及び「ブックマーク作成」)を選択するためのメニューB2と、ウェブページのアクセス先B3(「www.xxx.com/xxx.xxx/xxx.htm」)とが表示されている。また、ブラウザ30には、ウェブページのタイトルB1(「◇◇◇◇◇◇」というテキスト)と、ウェブページの本体B4とが表示されている。本体B4には、テキストB41(「□□□□□□□□」)、B42(「▽▽▽・・・▽▽▽」)及びB43(「○○○・・・○○○」)が含まれている。タイトルB1とテキストB41、B42及びB43とは、いずれもこのウェブページのコンテンツである。
FIG. 7 is a diagram illustrating an example of a web page displayed on the
図8は、図7に示すウェブページのページソースの一例を示す図である。このページソースには、コンテンツであるテキスト(タイトルも含む)と、それらのテキストの表示の態様を規定する規定情報とが示されている。例えば、<title>及び</title>に挟まれている「◇◇◇◇◇◇」というテキストC1は、<title>タグによって表示の態様が規定されている。同様に、テキストC3(「□□□□□□□□」)は<h2>タグによって表示の態様が規定されている。また、テキストC4(「▽▽▽・・・▽▽▽」)は<div>タグによって、テキストC5(「○○○・・・○○○」)は<p>タグによって表示の態様が規定されている。「◎◎◎◎◎」というテキストC2は、<meta>タグによって、ウェブページの説明を表す「desctiption」として規定されている。 FIG. 8 is a diagram illustrating an example of the page source of the web page illustrated in FIG. 7. In this page source, text (including a title) that is content and regulation information that defines a display mode of the text are shown. For example, the display mode of a text C1 “◇◇◇◇◇◇” sandwiched between <title> and </ title> is defined by a <title> tag. Similarly, the display mode of the text C3 (“□□□□□□□□”) is defined by the <h2> tag. In addition, the display mode of the text C4 (“▽▽▽ ... ▽▽▽”) is specified by the <div> tag, and the display mode of the text C5 (“OOXX ... OOOO”) is specified by the <p> tag. Has been. The text C2 “◎◎◎◎◎” is defined as “description” representing the description of the web page by the <meta> tag.
テキストC4は、さらに、<font>タグと、<br>タグと、<a>タグとによって、テキストの一部のフォントの大きさと、改行と、他のアクセス先へのリンクとがそれぞれ規定されている。また、テキストC5は、さらに、<STRIKE>タグによって、テキストの一部に取り消し線が規定されている。テキストC3、C4及びC5とは、それら全体の表示の態様が、<body>タグによっても規定されている。このように、ページソースとは、規定情報が順番に記述されているデータ(以下「記述データ」ともいう。)であり、それらの規定情報を示すデータである。
取得部201は、ページソース(記述データ)により示される規定情報及びそのページソースにより示されるコンテンツを取得すると、取得した結果として、ページソースと、取得したコンテンツにテキスト以外のコンテンツが含まれていれば、それらのコンテンツデータ(画像データ等)とを抽出部202に供給する。取得部201は、図7に示すウェブページの規定情報及びコンテンツを取得する場合であれば、図8に示すページソースを取得して、取得したページソースを抽出部202に供給する。以下、本実施形態では、ウェブページにテキストのコンテンツしか含まれていない場合について説明する。
The text C4 further defines the font size of a part of the text, a line feed, and a link to another access destination by the <font> tag, <br> tag, and <a> tag. ing. In addition, the text C5 has a strikethrough defined in a part of the text by a <STRIKE> tag. The text C3, C4, and C5 are defined by the <body> tag as a whole display mode. As described above, the page source is data (hereinafter also referred to as “description data”) in which the regulation information is described in order, and is data that indicates the regulation information.
When the
抽出部202は、取得部201により取得されたコンテンツから、次に述べるコンテンツを抽出する抽出手段である。抽出部202が抽出するコンテンツとは、第1の条件を満たす規定情報により規定された表示の態様で表示されるコンテンツである。第1の条件とは、抽出部202が抽出を行う際に用いる条件として予め定められた条件である。抽出部202は、取得部201により取得された規定情報が第1の条件を満たす場合に、その規定情報により規定された表示の態様で表示されるコンテンツを、取得部201により取得されたコンテンツから抽出する。本実施形態では、第1の条件は、規定情報が、ブックマークサービス提供システム1において予め決められた規定情報である場合に満たされる条件である。抽出部202は、制御装置21及び記憶装置22が協働して実現する機能である。抽出部202が上記抽出を行う方法について以下に説明する。
The
記憶装置22は、前述した第1の条件を満たす規定情報、すなわち予め決められた規定情報を記憶している。この規定情報は、抽出する対象となるコンテンツの表示の態様を規定するものであり、以下では「抽出規定情報」という。ブックマークサービス提供システム1においては、3つの抽出規定情報が定められている。第1の抽出規定情報は、記事や投稿、説明文などの形でウェブページにより伝えられる情報(これを「ページ情報」という。)の表示の態様を規定するものとして予め決められた規定情報であり、例えば、<article>タグ及び<meta>タグ等の規定情報である。また、ウェブページによっては<article>タグがない場合もあるため、そのようなウェブページのページ情報を規定する第1の規定情報として、<body>タグが決められている。第2の抽出規定情報は、第1の抽出規定情報により示されるページ情報部分に存在する段落を示すものとして予め定められた規定情報であり、例えば<p>タグ及び<div>等の規定情報である。また、そのような規定情報以外にも、検索エンジンによって検索されるページ情報(主にそのウェブページの内容を説明する説明文)を規定することが多い<meta>タグのdescriptionが第2の抽出規定情報として決められている。第3の抽出規定情報は、第1及び第2の抽出規定情報によってコンテンツが抽出されなかった場合に用いられる規定情報であり、例えば<title>タグである。
The
制御装置21は、まず、取得部201により取得された規定情報及びコンテンツとして、上述したページソース及びコンテンツデータ(本実施形態ではページソースのみ)が供給されてくる。制御装置21は、供給されたページソースのうち、第1の抽出規定情報によって表示の態様が規定される部分(以下「規定部分」という。)を抜き出す。図8の例では、制御装置21は、<body>タグによって挟まれている規定部分P1を抜き出す。規定部分P1には、テキストC3、C4及びC5というコンテンツと、<font>タグ、<br>タグ、<a>タグ及び<STRIKE>タグという規定情報とが含まれている。また、制御装置21は、<meta name・・・◎◎”>という<meta>タグを抜き出す。
First, the
次に、制御装置21は、第1の抽出規定情報に基づいて抜き出したコンテンツ及び規定情報から、第2の抽出規定情報によって表示の態様が規定される規定部分を抜き出す。制御装置21は、図8の例であれば、規定部分P1から、<div>タグによって挟まれている規定部分P2と、<p>タグによって挟まれている規定部分P3とを抜き出す。規定部分P2には、テキストC4と、<font>タグ、<br>タグ及び<a>タグとが含まれている。規定部分P3には、テキストC5と、<STRIKE>タグとが含まれている。また、制御装置21は、<meta>タグのうち、descriptionを含むものによって、そのdescriptionとして規定されているコンテンツ(図8の例ではテキストC2)を抜き出す。この場合、descriptionを含む<meta>タグが、第2の抽出規定情報である。
Next, the
制御装置21は、上記のとおり抜き出した規定部分に規定情報が含まれている場合、その規定情報を削除する。図8の例では、制御装置21は、規定部分P2に含まれる<font>タグ、<br>タグ及び<a>タグを削除し、規定部分P3に含まれる<STRIKE>タグを削除する。なお、制御装置21は、<meta>タグのdescriptionに対しては、規定情報が含まれていないので、この削除を行わない。このようにして規定情報が削除された規定部分P2は、テキストC4を表すものになり、規定部分P3は、テキストC5を表すものになっている。
なお、制御装置21は、第1及び第2の抽出規定情報による抜き出しを行った結果、コンテンツが残らなかった場合、第3の抽出規定情報である<title>タグにより表示の態様が規定されているテキストC1をページソースから抜き出す。
When the regulation information is included in the regulation part extracted as described above, the
In addition, when the content is not left as a result of extraction by the first and second extraction regulation information, the
以上のとおり、抽出部202は、第1、第2及び第3の抽出規定情報に基づいて抜き出したコンテンツを、予め決められた規定情報(抽出規定情報のこと)により規定された表示の態様で表示されるコンテンツとして、取得部201により取得されたコンテンツから抽出する。抽出部202は、抽出したコンテンツ(図8の例ではテキストC2、C4及びC5)を特定部203に供給する。
As described above, the
特定部203は、抽出部202により抽出されたコンテンツのうち、第2の条件を満たすコンテンツを特定する特定手段である。第2の条件とは、ウェブページの内容を他のコンテンツに比べてより詳しく表したコンテンツであるか否かを判断するための条件として、ブックマークサービス提供システム1において定められているものである。本実施形態においては、コンテンツとして抽出されたテキストのうち、テキストの量を示す指標が最も大きいものが満たすという条件が第2の条件として定められている。ここでいうテキストの量を示す指標とは、例えば、抽出されたテキストの全ての文字数に対する、各テキストの文字数の割合(以下「テキスト割合」という。)である。特定部203は、制御装置21が実現する機能である。制御装置21は、次の方法でこの特定を行う。
The specifying
制御装置21は、コンテンツとして抽出された全てのテキストに対して、それぞれのテキストの量(例えば文字数)を算出する。制御装置21は、図8の例であれば、テキストC2、C4及びC5のテキストの量として、5文字、126文字及び39文字を算出する。そして、制御装置21は、算出されたテキストの量が最も大きいコンテンツを特定する。なお、制御装置21は、算出したテキストの合計に対する、各テキストの文字数の割合(つまりテキスト割合)を算出し、算出されたテキスト割合が最も大きいコンテンツを特定してもよい。また、制御装置21は、テキスト割合に代えて、各テキストのファイルサイズを用いて特定を行ってもよい。これら(テキストの量、テキスト割合及びテキストのファイルサイズ)は、いずれも、テキストの量を表す指標であり、制御装置21は、この指標に基づいて特定を行えばよい。このようにして、特定部203は、抽出された各コンテンツにテキストが含まれている場合に、それらのテキストのうち、テキストの量を表す指標が最も大きいものを、第2の条件を満たすコンテンツとして特定する。特定部203は、図8の例であれば、テキストC2、C4及びC5のテキスト割合として、それぞれ0.03、0.74及び0.23を算出し、テキスト割合が最も大きいテキストC4を、第2の条件を満たすコンテンツとして特定する。特定部203は、特定したコンテンツを生成部204に供給する。
The
生成部204は、特定部203により特定されたコンテンツに応じて、コンテンツの一部分を示す部分情報を生成する生成手段である。生成部204は、制御装置21が実現する機能であり、例えば次の方法でこの生成を行う。制御装置21は、特定されたコンテンツがテキストである場合、その先頭から所定の文字数(例えば100文字)のテキストにより表される情報を、部分情報として生成する。
制御装置21は、こうして生成部204により生成された部分情報と、その部分情報の元になったウェブページのアクセス先と、そのウェブページのタイトルとを示すデータを、図2に示すようなブックマークを示すブックマークデータとして生成し、記憶装置22に記憶させる。
The
The
[動作]
ブックマークサービス提供システム1は、以上の構成に基づき、上述したサービス提供処理を行う。
図9は、サービス提供処理における各装置の動作を示すシーケンス図である。サービス提供処理は、情報処理装置20を所持するユーザが、ブラウザ30を起動し、ウェブページにアクセスする操作を行うことを契機に開始される。情報処理装置20は、この操作が行われると、ウェブページを要求する上述したページ要求データをそのウェブページのアクセス先に送信する(ステップS11)。この例では、情報処理装置20は、ウェブサーバ装置40にページ要求データを送信する。ウェブサーバ装置40は、ページ要求データを受信すると、要求されたウェブページのウェブページデータを情報処理装置20に送信する(ステップS12)。
[Operation]
The bookmark
FIG. 9 is a sequence diagram showing the operation of each device in the service providing process. The service providing process is started when a user having the
情報処理装置20は、ステップS12において受信したウェブページデータから規定情報及び少なくとも1つ以上のコンテンツを取得する(ステップS13)。ステップS11及びS13は、図6に示す取得部201が行う動作である。情報処理装置20は、取得したウェブページデータが示すウェブページを表示する(ステップS14)。情報処理装置20は、例えば、図8に示す規定情報及びコンテンツを取得し、図7に示すウェブページを表示する。この状態で、ユーザがブックマークを作成するために、図7に示すメニューB2の「ブックマーク作成」を選択する操作(ブックマーク作成操作)を行うと、情報処理装置20は、このブックマーク作成操作を受け付けて(ステップS15)、図2に示すようなブックマークを示すブックマークデータを生成する生成処理を開始する。
The
情報処理装置20は、まず、取得したコンテンツから上述した抽出規定情報(予め決められた規定情報)により規定された表示の態様で表示されるコンテンツを抽出する(ステップS16)。ステップS16は、抽出部202が行う動作である。次に、情報処理装置20は、抽出したコンテンツのうち、上述した第2の条件を満たすコンテンツを特定する(ステップS17)。ステップS17は、特定部203が行う動作である。続いて、情報処理装置20は、特定したコンテンツに応じて上述した部分情報を生成する(ステップS18)。ステップS18は、生成部204が行う動作である。情報処理装置20は、生成した部分情報と、表示しているウェブページのタイトル及びアクセス先とを示すブックマークデータを生成する(ステップS19)。情報処理装置20は、生成したブックマークデータを記憶し(ステップS20)、そのブックマークデータをブックマークサーバ装置10に送信する(ステップS21)。ブックマークサーバ装置10は、ステップS21において送信されてきたブックマークデータを保持する(ステップS22)。
First, the
以上のサービス提供処理が実施されることで、ブックマークサーバ装置10が各情報処理装置20で生成されたブックマークデータを保持することになる。ブックマークサーバ装置10は、ブラウザ30を実行する他の情報処理装置20で生成されたブックマークデータも同様にして保持する。ブックマークサーバ装置10は、これらの情報処理装置20からブックマークの一覧を要求された場合に、保持しているブックマークの一覧を生成して、生成した一覧を示す一覧データをその情報処理装置に送信する。情報処理装置が受信した一覧データが示す一覧を表示することで、ユーザは、他のユーザが作成したブックマークを供給することができる。
By performing the service providing process described above, the
情報処理装置20は、上記のとおり、第1及び第2の抽出規定情報により表示の態様が規定されるコンテンツを抽出する。これらに含まれていない規定情報には、例えば、テーブル(表)に関するタグ(<TABLE>タグ、<TD>タグ及び<TH>タグ等)や、ボタンやチェックボックスなどのフォームに関するタグ(<FORM>タグ、<INPUT>タグ及び<LABEL>等)などがある。テーブルは、複数の情報を並べて表示するものであるため、一語から数語程度の語句の表示の態様の規定に用いられることが多い。フォームは、テキストの入力やいくつかの選択肢からいずれかを選択させるといった機能を提供するものであるため、テーブルと同様に、一語から数語程度の語句(例えば「名前:」や「血液型:」など)の表示の態様の規定に用いられることが多い。
As described above, the
一方、第1及び第2の抽出規定情報は、ウェブページの本体に含まれる文章を規定することが多いもの(<div>タグや<p>タグ)と、記事や投書などのページ情報を規定することが多いもの(<article>タグ)とを含んでいる。これらの規定情報により表示の態様が規定されるコンテンツは、複数の文を有する文章であることが多く、そのウェブページの内容を他のコンテンツに比べてより詳しく表していることが多い。また、<meta>タグのdescriptionは、ウェブページの説明文を規定するためのものであるため、そのウェブページの内容を他のコンテンツに比べてより詳しく表していることが多い。このように、情報処理装置20は、ウェブページの内容を他のコンテンツに比べてより詳しく表すことが多いコンテンツを抽出することができる。
On the other hand, the first and second extraction regulation information stipulates information (<div> tag and <p> tag) often included in the text included in the main body of the web page, and page information such as articles and letters. (<Article> tag). The content whose display mode is defined by these defining information is often a sentence having a plurality of sentences, and the contents of the web page are often expressed in more detail than other contents. In addition, the description of the <meta> tag is for defining the description of the web page, and therefore the content of the web page is often expressed in more detail than other content. In this way, the
また、情報処理装置20は、抽出したテキストのうち、第2の条件を満たすもの(本実施形態では、テキストの量が最も多いもの)を特定する。テキストの量が多い文章は、テキストの量が少ない文章よりも詳しい内容を表しやすい。情報処理装置20は、テキストの量が多いテキストを特定することで、テキストの量に関係なくコンテンツを特定する場合に比べて、ウェブページの内容をより詳しく表す部分情報を生成することができる。その結果、本実施形態によれば、テキストの量に関係なくコンテンツを特定する場合に比べて、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することができる。
In addition, the
[第2実施形態]
本発明の第2実施形態について、以下、第1実施形態と異なる点を中心に説明する。第1実施形態では、コンテンツとしてテキストが特定されたが、第2実施形態では、画像が特定される場合について説明する。
本実施形態の抽出部202は、取得部201により取得されたコンテンツに画像のコンテンツが含まれている場合にも、第1実施形態で述べた方法で画像を抽出する。この場合、第2の抽出規定情報として<img>タグが予め決められており、抽出部202は、ページソースのうち第1の抽出規定情報に基づいて抜き出した規定部分から、第2の抽出規定情報である<img>タグを抜き出す。そして、抽出部202は、抜き出した<img>タグが表示の態様を規定している画像データを、取得部201から供給されたコンテンツデータから取り出すことで、その画像データが示す画像を抽出する。抽出部202は、抽出した画像の画像データを特定部203に供給する。
[Second Embodiment]
Hereinafter, the second embodiment of the present invention will be described focusing on differences from the first embodiment. In the first embodiment, text is specified as content. In the second embodiment, a case where an image is specified will be described.
The
特定部203は、抽出部202により抽出された画像の中から、第2の条件を満たすものを特定する。本実施形態では、抽出された画像のうち、画像のサイズ(全体のファイルサイズまたは画素数)が最大のものが満たすという条件が第2の条件として定められている。特定部203は、制御装置21が実現する機能である。制御装置21は、例えば次の方法でこの抽出を行う。
The identifying
制御装置21は、抽出部202から供給された画像データのヘッダを参照して各画像のサイズ(ファイルサイズまたは画素数)を取得する。そして、制御装置21は、取得した画像のサイズが最も大きい画像データを、第2の条件を満たす画像として特定する。画像のサイズが最も大きい画像データが複数ある場合には、制御装置21は、それらの画像データが示す画像の表示の態様を規定する<img>タグが<body>タグにおいて最初に現れるものを、第2の条件を満たす画像として特定する。このようにして、特定部203は、取得部201により取得されたコンテンツに画像のコンテンツが含まれている場合には、それらの画像のうち、画像のサイズが最も大きいものを、判断情報を満たすコンテンツとして特定する。上述した特定を行う。特定部203は、特定した画像を示す画像データを生成部204に供給する。
The
生成部204は、特定部203により特定された画像に応じて部分情報を生成する。生成部204は、例えば、特定部203から供給された画像データが示す画像を予め決められた画素数(例えば縦128×横128画素)の画像に加工した部分情報を生成する。情報処理装置20は、生成部204により生成された部分情報を用いて、図9に示すステップS19においてブックマークデータを生成する。
The
本実施形態で述べた抽出部202による画像の抽出及び特定部203による画像の特定は、コンテンツに画像が含まれている場合に行われる。また、第1実施形態で述べた抽出部202によるテキストの抽出及び特定部203によるテキストの特定は、コンテンツにテキストが含まれている場合に行われる。つまり、コンテンツにテキスト及び画像の両方が含まれている場合には、それぞれの抽出及び特定が行われ、一方だけが含まれている場合には、含まれている方のコンテンツの抽出及び特定が行われる。
The image extraction by the
図10は、本実施形態におけるブックマークの一例を示す図である。図10では、テキスト及び画像の両方の抽出及び特定が行われた場合に生成されるブックマークA2が示されている。ブックマークA2には、図2に示すタイトルA11及びアクセス先A12と、生成部204により生成された部分情報に含まれるテキストA23及び画像A24(縦128×横128画素の画像)とが含まれている。本実施形態によれば、図11に示すようにウェブページに含まれる画像を表したブックマークが生成されるため、ユーザは、ブックマークに画像が含まれていない場合に比べて、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することができる。
FIG. 10 is a diagram illustrating an example of a bookmark in the present embodiment. FIG. 10 shows a bookmark A2 generated when both text and image are extracted and specified. The bookmark A2 includes the title A11 and the access destination A12 illustrated in FIG. 2, and the text A23 and the image A24 (128 × 128 pixels) included in the partial information generated by the
[第3実施形態]
本発明の第3実施形態について、以下、第1及び第2実施形態と異なる点を中心に説明する。第1及び第2実施形態では、どの情報処理装置20にもウェブページを提供するウェブサーバ装置(例えば図1に示すウェブサーバ装置40)から規定情報及び少なくとも1つ以上のコンテンツが取得されたが、第3実施形態では、登録されたユーザとして認証されなければウェブページを提供しないウェブサーバ装置から規定情報及び少なくとも1つ以上のコンテンツが取得される場合について説明する。
[Third Embodiment]
Hereinafter, the third embodiment of the present invention will be described focusing on differences from the first and second embodiments. In the first and second embodiments, the regulation information and at least one or more contents are acquired from a web server device (for example, the
図11は、本実施形態のブックマークサービス提供システム1aの全体構成を示す図である。ブックマークサービス提供システム1aは、図1に示すウェブサーバ装置40に代えて、会員向けウェブサーバ装置40aを備えている。また、情報処理装置20は、専用ブラウザ30aのプログラムを記憶している。ブックマークサービス提供システム1aにおいては、上述したブックマークサーバ装置10による認証は、専用ブラウザ30aのプログラムが実行されている情報処理装置20からしか行えないようになっている。つまり、専用ブラウザ30aは、ブックマークサーバ装置10が提供するサービスを利用するために必要な専用の機能を有するブラウザである。会員向けウェブサーバ装置40aは、登録された会員を認証するための会員情報として、ユーザを識別する識別情報(例えばユーザID)とその識別情報に対応付けられたパスワードとを保持しており、これらの会員情報によってユーザを認証する機能を有している。会員向けウェブサーバ装置40aは、この認証がされた情報処理装置20からのページ要求データに対しては、会員向けのウェブページを示す会員向けウェブページデータを返信するが、この認証がされていない情報処理装置20からのページ要求データに対しては、会員向けウェブページデータを返信しない。このようにして、会員向けウェブサーバ装置40aは、登録された会員に限定して会員向けウェブページを提供するサービスを行っている。このような会員向けウェブサーバ装置には、例えば、医療従事者だけを会員として登録し、医薬品の情報を掲載した会員向けウェブページを提供するものがある。これにより、医療従事者にしか提供が許されていない医薬品の情報を医療従事者にだけ提供することができる。
FIG. 11 is a diagram showing an overall configuration of the bookmark
図12は、本実施形態のサービス提供処理における各装置の動作を示すシーケンス図である。このサービス提供処理は、情報処理装置20を所持するユーザが、図11に示す専用ブラウザ30aを起動する操作を行うことを契機に開始される。情報処理装置20は、この操作が行われると、記憶装置22に記憶されている専用ブラウザ30aのプログラムを実行して、専用ブラウザ30aを起動する(ステップS30)。専用ブラウザ30aを起動すると、情報処理装置20の表示装置24には、認証情報(ユーザの識別情報及びパスワード)を入力するための画面が表示される。ここでユーザが認証情報を入力する操作を行うと、情報処理装置20は、その認証情報の入力を受け付け(ステップS31)、受け付けた認証情報を示す認証情報データをブックマークサーバ装置10に送信する(ステップS32)。ブックマークサーバ装置10は、認証情報データを受信すると、そのデータが示す認証情報(「受信認証情報」という。)に基づいて、登録されたユーザ(登録ユーザ)の認証を行う(ステップS33)。ブックマークサーバ装置10は、記憶している認証情報(「記憶認証情報」という。)と受信認証情報とが一致する場合、受信認証情報に含まれる識別情報により識別されるユーザを登録ユーザとして認証し、認証した旨を通知する通知データを情報処理装置20に送信する(ステップS34)。
FIG. 12 is a sequence diagram showing the operation of each device in the service providing process of this embodiment. This service providing process is started when the user who possesses the
情報処理装置20は、通知データを受信したあと、例えばユーザの操作により会員向けウェブサーバ装置40aが提供する会員向けウェブサイトにアクセスして会員情報を入力するための会員向けウェブページを表示する。ここでユーザが会員情報を入力する操作を行うと、情報処理装置20は、その会員情報を示す会員情報データを会員向けウェブサーバ装置40aに送信する(ステップS35)。会員向けウェブサーバ装置40aは、受信した会員情報に基づいてユーザを登録会員として認証し(ステップS36)、会員向けウェブページデータを情報処理装置20に送信する(ステップS37)。送信されてきた会員向けウェブページデータを情報処理装置20が表示したあとは、ユーザの操作により、情報処理装置20と会員向けウェブサーバ装置40aとの間では、ページ要求データ及び会員向けウェブページデータのやり取りが行われる(ステップS38)。ここで、ユーザがブックマーク作成操作(図7に示すメニューB2の「ブックマーク作成」を選択する操作)を行うと、情報処理装置20は、ブックマーク作成操作を受け付けて(ステップS39)、この操作を受け付けたときに表示している会員向けウェブページのブックマークデータを生成する(ステップS40)。そして、情報処理装置20は、生成したブックマークデータを記憶し(ステップS41)、ブックマークサーバ装置10に送信する(ステップS42)。ブックマークサーバ装置10は、受信したブックマークデータを保持する(ステップS43)。
なお、ステップS31からS34までのブックマークサーバ装置10による認証と、ステップS35からS37までの会員向けウェブサーバ装置40aによる認証とは、順番が逆になる場合もある。例えば、会員向けウェブページを閲覧しているユーザがブックマークを作成したくなったときに、ブックマークサーバ装置10の認証を行うという場合である。
After receiving the notification data, the
Note that the order of the authentication by the
情報処理装置20は、会員として登録されているユーザにより操作されて上記の認証がされることで、会員向けウェブサーバ装置40aから会員向けウェブページデータを取得できるようになる。これにより、図6に示す取得部201は、会員向けウェブサーバ装置40aにより提供されている認証が必要な会員向けウェブページの規定情報及びコンテンツを取得する。一方、ブックマークサーバ装置10は、情報処理装置20とはデータをやり取りするが、会員向けウェブサーバ装置40aとはデータのやり取りを行うことがない。このため、会員向けウェブサーバ装置40aからブックマークサーバ装置10に対して会員向けウェブページが提供されることがなく、ブックマークサーバ装置10は、会員向けウェブページの部分情報を含むブックマークを生成することができない。
The
本変形例では、図12に示す各ステップの動作が行われることで、情報処理装置20において生成された会員向けウェブページの一部分を表すブックマークデータがブックマークサーバ装置10に保持される。このように、本実施形態によれば、会員向けウェブページデータを取得することができないブックマークサーバ装置10において、会員向けウェブページデータの一部分を表すブックマークデータを保持することができる。また、情報処理装置20においても、ブックマークデータを記憶したあとは、会員向けウェブサーバ装置40aによる認証及びブックマークサーバ装置10による認証がされていなくても、記憶したブックマークデータに含まれる部分情報から、会員向けウェブページの内容をユーザに把握させることができる。
In the present modification, bookmark data representing a part of the web page for members generated in the
[変形例]
上述した各実施形態は、本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、上述した各実施形態及び以下に示す各変形例は、必要に応じて組み合わせて実施してもよい。
[Modification]
Each embodiment mentioned above is only an example of implementation of the present invention, and may be changed as follows. Moreover, you may implement combining each embodiment mentioned above and each modification shown below as needed.
(変形例1)
抽出部202は、上述した各実施形態では、ページソースから第1の抽出規定情報に基づいた規定部分を抜き出し、抜き出した規定部分のからさらに第2の抽出規定情報に基づいた規定部分を抜き出したが、これには限らない。例えば、抽出部202は、予め組み合わせが決められた第1の抽出規定情報及び第2の抽出規定情報に基づいた規定部分をページソースから抜き出してもよい。予め組み合わせが決められた第1の抽出規定情報及び第2の抽出規定情報とは、例えば、<article>タグ内の<p>タグや、<body>タグ内の<div>タグなどである。抽出部202は、前者の場合、<article>タグにより挟まれている規定部分の全てを抜き出すのではなく、そのうちの<p>タグにより挟まれている規定部分だけを抜き出し、後者の場合、<body>タグにより挟まれている規定部分の全てを抜き出すのではなく、そのうちの<div>タグにより挟まれている規定部分だけを抜き出す。
(Modification 1)
In each embodiment described above, the
また、ウェブページのページソースでは、<div>タグの中に<div>タグで表示の態様が規定されるコンテンツが含まれて(いわゆるネストがされて)いたり、<div>タグの中に<p>タグで表示の態様が規定されるコンテンツが含まれていたりする場合がある。
図13は、ページソースの一例を示す図である。図13では、<body>タグD1の中に<div>タグD2が含まれており、<div>タグD2の中に<div>タグD31及びD32が含まれている。<div>タグD31の中には、<p>タグD41及びD42が含まれている。<p>タグD41及びD42は、それぞれ「○○○○○」及び「◇◇◇◇◇」というテキストの表示の態様を規定している。<div>タグD32は、「◎◎◎◎◎」というテキストの表示の態様を規定している。抽出部202は、図13のような場合、最も下位の第2の規定情報(その中に他の第2の規定情報が含まれていないもの)によって挟まれている規定部分を抜き出す。抽出部202は、図13の例では、<p>タグD41、D42及び<div>タグD32によって挟まれている規定部分をそれぞれ抜き出す。この場合、抜き出した規定部分に他の規定情報が含まれていないので、抽出部202は、抜き出したこれらの規定部分をそのままコンテンツとして抽出する。
In addition, in the page source of a web page, content whose display mode is defined by the <div> tag is included in the <div> tag (so-called nesting), or the <div> tag includes < In some cases, content whose display mode is defined by the p> tag is included.
FIG. 13 is a diagram illustrating an example of a page source. In FIG. 13, a <body> tag D1 includes a <div> tag D2, and a <div> tag D2 includes <div> tags D31 and D32. The <div> tag D31 includes <p> tags D41 and D42. <P> Tags D41 and D42 define the display mode of the text “XXXXXX” and “◇◇◇◇◇”, respectively. The <div> tag D32 defines the display mode of the text “◎◎◎◎◎”. In the case shown in FIG. 13, the
(変形例2)
抽出部202は、上述した各実施形態では、ページソースから第1の抽出規定情報によって挟まれている規定部分を全て抜き出し、そうして抜き出した規定部分のうち第2の抽出規定情報により挟まれている規定部分も全て抜き出したが、これには限らない。抽出部202は、ブックマークサービス提供システム1において抽出規定情報に対して定められた優先順位に基づいてコンテンツを抽出してもよい。本変形例の抽出部202は、上述した各実施形態と同様に制御装置21及び記憶装置22が協働して実現する機能である。記憶装置22は、抽出規定情報及び優先順位を対応付けたテーブルを記憶している。
(Modification 2)
In each of the above-described embodiments, the
図14は、抽出規定情報及び優先順位を対応付けたテーブルの一例を示す表である。このテーブルでは、「1」から「3」までの3つの「優先順位」に対して、「<article>タグ」、「<body>タグ内の<p>タグ」及び「その他のタグ」3つの「抽出規定情報」が対応付けられている。これらの「優先順位」は、数字が小さいほど、優先順位が高い(つまり「1」が最も優先順位が高い。)ことを表している。制御装置21は、このテーブルを参照して、まず、取得部201により取得された規定情報に<article>タグが含まれていれば、その<article>タグに挟まれている規定部分を抜き出す。<article>タグが含まれていない場合、制御装置21は、この規定情報に<body>タグ内の<p>タグが含まれていれば、その<p>タグに挟まれている規定部分を抜き出す。<body>タグ内の<p>タグも含まれていない場合、制御装置21は、その他の抽出規定情報(<meta>タグのdesctiption、<div>タグ、<p>タグなど)に基づいて規定部分を抜き出す。
FIG. 14 is a table showing an example of a table in which the extraction rule information and the priority order are associated with each other. In this table, three “priorities” from “1” to “3” have three “<article> tag”, “<p> tag” in “<body>” tag, and “other tag” “Extraction rule information” is associated. These “priorities” indicate that the smaller the number, the higher the priority (that is, “1” has the highest priority). With reference to this table, the
本変形例における第1の条件は、取得部201が複数の抽出規定情報(具体的には第1及び第2の抽出規定情報)を取得した場合において、取得された或る抽出規定情報が、その他に取得された抽出規定情報に比べて上記のとおり定められた優先順位が高い場合に満たされる。この第1の条件は、換言すると、取得された抽出規定情報のうち優先順位が最も高いものが満たす条件である。この場合、抽出部202は、取得された抽出規定情報のうち上記の優先順位が最も高いものを第1の条件を満たす抽出規定情報として、その抽出規定情報によって規定される表示の態様で表示されるコンテンツを抽出する。このような本変形例においては、ウェブページの内容を他のコンテンツに比べてより詳しく表すコンテンツの表示の態様を規定する可能性が高い抽出規定情報の順番で優先順位が定められることで、優先順位を定めない場合に比べて、ウェブページの内容をより詳しく表すコンテンツが抽出され、その結果、生成される部分情報がウェブページの内容をより詳しく表したものになる。従って、本変形例によれば、優先順位を定めない場合に比べて、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することができる。
The first condition in this modification is that when the
なお、図14に示すテーブルでは3つの優先順位が定められていたが、これに限らず、2つの優先順位が定められていてもよいし、4つ以上の優先順位が定められていてもよい。また、第1、第2及び第3の抽出規定情報の全てに優先順位が定められていてもよい。その場合、異なる種類の抽出規定情報が同時に抽出されることがなくなる。いずれも場合も、前述した可能性の高さに基づいて優先順位が定められることが望ましい。また、抽出部202は、優先順位が高い方から所定の順番までに含まれる抽出規定情報に基づいた規定部分を抜き出してもよい。この場合、抽出部202は、取得された抽出規定情報のうち上記の優先順位が高いものから所定の順番までに含まれるものを第1の条件を満たす抽出規定情報として、その抽出規定情報によって規定される表示の態様で表示されるコンテンツを抽出する。また、図14では、1つの優先順位に1つの抽出規定情報が対応付けられていたが、複数の抽出規定情報が対応付けられていてもよい。この場合、抽出部202は、1つの優先順位に対応付けられたもののうち、いずれか1つでも抽出規定情報に基づいた規定部分を抜き出すことができれば、その抜き出した規定部分に含まれるコンテンツを抽出することで、優先順位が最も高い抽出規定情報によって規定される態様で表示されるコンテンツを抽出することができる。
In the table shown in FIG. 14, three priorities are defined. However, the present invention is not limited to this, and two priorities may be defined, or four or more priorities may be defined. . Moreover, the priority order may be defined for all of the first, second, and third extraction regulation information. In this case, different types of extraction regulation information are not extracted at the same time. In either case, it is desirable that the priority order be determined based on the high possibility described above. Further, the
(変形例3)
抽出部202は、上述した各実施形態では、ページソースから抜き出した規定部分に規定情報が含まれている場合、その規定情報を削除したが、削除せずにコンテンツとともに抽出してもよい。つまり、抽出部202は、コンテンツを、そのコンテンツの表示の態様を規定する規定情報であり、且つ、抽出規定情報以外の規定情報とともに抽出する。この場合、生成部204は、コンテンツとともに抽出された規定情報を含み、且つ、抽出されたコンテンツを表すページソースを部分情報として生成し、情報処理装置20は、その部分情報を含んだブックマーク(ブックマークデータ)を生成する。
図16は、本変形例において生成されるブックマークの一例を示す図である。図16では、ブラウザに表示されたブックマークA4が示されている。ブックマークA4には、図2に示すA11及びA12に加え、ウェブページのコンテンツであるテキストA41が含まれている。テキストA41は、図7に示すテキストB42と同じように、フォントの拡大及び改行という装飾が施されている。このように、本変形例によれば、ブックマークに含まれるウェブページの一部分をウェブページと同じ表示の態様で表示させることができる。
(Modification 3)
In each embodiment described above, the
FIG. 16 is a diagram illustrating an example of a bookmark generated in the present modification. In FIG. 16, the bookmark A4 displayed on the browser is shown. In addition to A11 and A12 shown in FIG. 2, the bookmark A4 includes a text A41 that is the content of the web page. The text A41 is decorated with font enlargement and line feed, similar to the text B42 shown in FIG. Thus, according to this modification, a part of the web page included in the bookmark can be displayed in the same display manner as the web page.
(変形例4)
抽出部202は、上述した各実施形態では、抽出規定情報に基づいて抜き出した規定部分に規定情報が含まれている場合にその規定情報を削除したが、その他にも、予め決められた規定情報を削除してもよい。抽出部202は、例えば、文字を装飾する規定情報として、<a>タグ、<font>タグ、<strong>タグ及び<table>タグ等を削除する。また、抽出部202は、広告などウェブページの内容と直接関係しないコンテンツを規定する規定情報として、<>の中に所定の文字列を含むタグを削除し、さらに、そのタグによって表示の態様が規定されているコンテンツを削除する。本変形例によれば、部分情報に含めたくない規定情報だけを削除することができる。
(Modification 4)
In each of the above-described embodiments, the
(変形例5)
特定部203は、上述した各実施形態とは異なる第2の条件を用いてもよい。例えば、特定部203は、ページソース(上述した記述データ)においてコンテンツが記述される位置に基づいてコンテンツを特定してもよい。この場合、特定部203は、例えば、抽出された各コンテンツのうち、ページソースにおいて記述される位置がページソースの先頭に最も近いものを、第2の条件を満たすコンテンツとして特定する。図8に示す例において第1実施形態と同様にコンテンツが抽出部202により抽出された場合、テキストC2、C4及びC5が抽出される。この場合、特定部203は、ページソースの先頭に最も近い位置に記述されているテキストC2を、第2の条件を満たすテキストとして特定する。図8の例では、コンテンツがテキストである場合が示されているが、特定部203は、コンテンツが画像や動画である場合も同様にコンテンツを特定する。この場合、特定部203は、コンテンツデータが記憶されている場所の記述がページソースの先頭に最も近いものを、第2の条件を満たすコンテンツとして特定する。
(Modification 5)
The specifying
本変形例では、上記のとおり、ページソースにおいて記述される位置がそのページソースの先頭に最も近いコンテンツが特定される。上述した第1及び第2の抽出規定情報の中では、<head>タグに記述される<meta>タグのdescriptionが、<body>タグに記述される<p>タグや<div>タグ、または<article>タグに比べてページソースの先頭に近い位置に記述されることが多い。このdescriptionは、上述したとおり、ウェブページの説明を規定するためのものであるため、そのウェブページの内容を他のコンテンツに比べてより詳しく表していることが多い。また、ページソースにおいて記述される位置がそのページソースの先頭に近いコンテンツは、それよりも遠いコンテンツに比べて、ウェブページにおいても先頭により近い位置に表示されやすい。そして、ウェブページは、ユーザにその内容を確実に伝えるため、先頭に近い位置に要点が掲載されているもののほうが、先頭から離れた位置に要点が掲載されているものよりも多い。従って、本変形例によれば、ページソース上で記述されている位置に関係なく(つまりdescriptionの内容やウェブページにおける掲載位置を考慮しないで)コンテンツを特定する場合に比べて、ウェブページの要点を表すコンテンツが抽出されやすくなり、その結果、生成される部分情報がウェブページの内容をより詳しく表したものになりやすくなる。よって、本変形例によれば、前述の考慮をしないでコンテンツを特定する場合に比べて、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することができる。 In this modification, as described above, the content whose position described in the page source is closest to the top of the page source is specified. In the first and second extraction regulation information described above, the description of the <meta> tag described in the <head> tag is the <p> tag or the <div> tag described in the <body> tag, or It is often described at a position closer to the top of the page source than the <article> tag. Since the description is for defining the description of the web page as described above, the description of the web page is often expressed in more detail than other contents. Further, content whose position described in the page source is close to the top of the page source is likely to be displayed at a position closer to the top of the web page than content farther than that. In order to reliably convey the content of the web page to the user, there are more web pages with the main points posted at positions closer to the head than those with the main points posted at positions away from the head. Therefore, according to the present modification, the main points of the web page are compared with the case where the content is specified regardless of the position described on the page source (that is, without considering the description contents and the posting position on the web page). As a result, the partial information to be generated is more likely to represent the details of the web page. Therefore, according to the present modification, it is possible to extract a part from the web page that makes it possible to grasp the details in more detail than when the content is specified without taking the above-described consideration into consideration.
(変形例6)
特定部203は、抽出されたコンテンツにテキストのコンテンツが含まれている場合には、そのテキストに含まれる特定の文字列(キーワード)の数に基づいてテキストを特定してもよい。例えば、特定部203は、抽出された各テキストのうち、それらのテキストに含まれる特定の文字列の数が最も多いものを、第2の条件を満たすテキストとして特定する。本変形例の特定部203は、制御装置21及び記憶装置22が協働して実現する機能である。記憶装置22は、予め決められた特定の文字列の一覧を記憶する。制御装置21は、抽出部202により抽出された各テキストに含まれる特定の文字列の数を、周知のテキストマッチング技術を用いて、テキスト毎に計数する。制御装置21は、計数した数が最も多いテキストを、第2の条件を満たすテキストとして特定する。
(Modification 6)
When the extracted content includes text content, the specifying
例えば他のコンテンツのテキストよりもテキストの量が多い引用文を掲載していたり、ウェブページの要点がそのページの後半に掲載されていたりすると、上述したテキストの量や掲載位置からではより詳しいウェブページの内容を表すコンテンツが抽出されない場合がある。このような場合に、ユーザの関心がある語句を表す特定の文字列(例えば消化器科の医療従事者がユーザであれば、消化器科でよく診察される症状の名称やよく用いられる医薬品の名称)を予め定めておくことで、特定の文字列に基づかないでコンテンツを特定する場合に比べて、ウェブページのうちユーザの関心がある一部分を表すコンテンツが特定されやすくなり、その結果、ウェブページがユーザにとって関心がある内容であるか否かをより把握しやいようにすることができる。 For example, if you have quotes that contain more text than other content texts, or if the main points of a web page are posted later in the page, a more detailed Content representing the contents of the page may not be extracted. In such a case, a specific character string representing a word of interest of the user (for example, if the gastroenterologist is a user, the name of a symptom often examined in the gastroenterology department or a commonly used medicine (Name) in advance, it becomes easier to identify content that represents a part of the web page that the user is interested in, compared to the case where content is not identified based on a specific character string. It is possible to make it easier to grasp whether or not the page has contents of interest to the user.
なお、情報処理装置20においては、特定の文字列がユーザの操作により更新(変更、追加及び削除)できるようになっていてもよい。また、情報処理装置20は、次の方法で特定の文字列を更新してもよい。まず、ブックマークサーバ装置10が、各ユーザのブックマーク作成操作により生成されたブックマークデータに含まれる部分情報を抽出し、抽出した部分情報に含まれる語句のうち出現頻度が高いものから決められた順番(例えば10番目)までのものを、ブックマーク作成操作を行ったユーザの識別情報に対応付けて記憶しておく。そして、ブックマークサーバ装置10が、ユーザを認証したときに、認証した識別情報に対応付けて記憶している語句を示す文字列のデータを情報処理装置20に送信して、情報処理装置20が、送信されてきたデータが示す文字列を特定の文字列として更新する。これにより、このような更新を行わない場合に比べて、ユーザが過去に作成したブックマークが示すウェブページと似た内容を含むコンテンツが特定されやすくなり、その結果、ウェブページがユーザにとって関心がある内容であるか否かをより把握しやいようにすることができる。
In the
(変形例7)
特定部203は、上述した各実施形態及び各変形例では、1つのコンテンツを特定したが、これに限らず、複数のコンテンツを特定してもよい。例えば、第1実施形態で述べた方法でテキストを特定する場合、特定部203は、抽出されたテキストのうち、テキストの量を表す指標が最も大きいものを特定する代わりに、抽出されたテキストのうち、テキストの量を表す指標が大きいほうから所定の順番(例えば2番目や3番目)までに含まれるものを、第2の条件を満たす前記テキストとして特定する。また、第2実施形態で述べた方法で画像を特定する場合、特定部203は、抽出された画像のうち、画像のサイズが最大のものを特定する代わりに、画像のサイズが大きいほうから所定の順番までに含まれるものを、第2の条件を満たす画像として特定する。
(Modification 7)
The identifying
また、上記の変形例で述べたようにページソース(記述データ)においてコンテンツが記述される位置に基づいてコンテンツを特定する場合、特定部203は、ページソースにおいて記述される位置がページソースの先頭に最も近いものを特定する代わりに、ページソースにおいて記述される位置がそのページソースの先頭に近いほうから所定の順番までに含まれるものを、第2の条件を満たすコンテンツとして特定する。また、上記の変形例で述べたようにテキストに含まれる特定の文字列の数に基づいてテキストを特定する場合、特定部203は、テキストに含まれる特定の文字列の数が最も多いもの特定する代わりに、テキストに含まれる特定の文字列の数が多いものから所定の順番までに含まれるものを、第2の条件を満たすテキストとして特定する。
Further, as described in the above modification, when specifying content based on the position where the content is described in the page source (description data), the specifying
図15は、本変形例におけるブックマークの一例を示す図である。図15では、ブラウザに表示されたブックマークA3が示されている。ブックマークA3には、図2に示すA11、A12及びA13に加え、ウェブページのコンテンツであるテキストA31が含まれている。テキストA13は、上記のとおり特定されたウェブページのコンテンツの一部であるが、常にコンテンツの内容を他のコンテンツに比べてより詳しく表している、というわけではない。そのような場合に、2つ目のテキストA31がウェブページの内容を他のコンテンツに比べてより詳しく表していれば、ブックマークA3を見たユーザは、コンテンツの内容を、テキストA13だけを見る場合よりもより詳しく把握することができることになる。このように、本変形例によれば、2つ目(または3つ以上)のテキストを特定することで、それらのテキストを特定しない場合に比べて、コンテンツの内容をより詳しく表した情報を生成することができる。 FIG. 15 is a diagram illustrating an example of a bookmark in the present modification. In FIG. 15, the bookmark A3 displayed on the browser is shown. In addition to A11, A12, and A13 shown in FIG. 2, the bookmark A3 includes text A31 that is the content of the web page. The text A13 is a part of the content of the web page specified as described above, but does not always represent the content in more detail than the other content. In such a case, if the second text A31 represents the contents of the web page in more detail than other contents, the user who has viewed the bookmark A3 sees only the text A13 as the contents of the contents. It will be possible to grasp in more detail than. As described above, according to the present modification, by specifying the second (or three or more) texts, information representing the details of the content can be generated in comparison with the case where the texts are not specified. can do.
(変形例8)
生成部204は、上述した各実施形態では、特定されたコンテンツがテキストである場合に、そのテキストの先頭からの所定の文字数のテキストにより表される情報を、部分情報として生成したが、この文字数を変化させるようにしてもよい。例えば、生成部204は、特定されたテキストの数に応じてこの文字数を変化させてもよい。例えば、生成部204は、特定されたテキストが1つである場合は所定の文字数を100文字とし、2つである場合には50文字とし、3つである場合には33文字ずつとして、部分情報を生成する。また、生成部204は、特定部203により例えばテキストの量が多いほうから3番目までのテキストが特定された場合に、テキストの量が最も多いものは所定の文字数を50文字とし、2番目及び3番目のものは所定の文字数を25文字ずつとして、部分情報を生成してもよい。このように、生成部204は、特定されたテキストの数が増えても、部分情報に含まれるテキストの量の合計が同じか、または所定の範囲内となるように所定の文字数を変化させることが望ましい。
(Modification 8)
In each embodiment described above, when the specified content is text, the
また、生成部204は、特定部203により1つのテキストが特定された場合に、そのテキストが所定の文字数以上である場合には、そのテキストから部分情報を生成し、所定の文字数未満である場合には、2つ目のテキストから足りない文字数のテキストを補完して部分情報を生成してもよい。その場合、生成部204は、文字数が足りないことを特定部203に通知し、特定部203は、この通知がされた場合に、2つ目のテキストを特定して生成部204に供給する。生成部204及び特定部203は、この通知及び供給の動作を、文字数が足りるようになるまで繰り返す。これにより、生成部204は、必ず所定の文字数だけコンテンツの内容が表されたブックマークを生成することができる。
In addition, when one text is specified by the specifying
また、生成部204は、特定されたコンテンツに画像が含まれている場合には、その画像のサイズを変化させて部分情報を生成してもよい。生成部204は、例えば図10の例では特定された画像を縦128×横128画素の画像に加工したが、特定された画像が2つである場合には、例えば縦128×横64画素の画像を2つ加工してもよいし、縦90×横90画素の画像を2つ加工してもよい。このように、生成部204は、特定された画像の数が増えても、部分情報に含まれる画像のファイルサイズ(または画素数)の合計が同じか、または所定の範囲内となるように画像のサイズを変化させることが望ましい。
In addition, when the specified content includes an image, the
ブックマークに含めるテキストの量が多くなると、図9に示すステップS21において情報処理装置20からブックマークサーバ装置10に送信されるブックマークデータのデータ量が大きくなり、通信の負荷が増えることになる。また、情報処理装置20の表示装置24に複数のブックマークを表示したときに、1つのブックマークを表示するために必要な画面上の領域が大きくなるため、一度に表示可能なブックマークの数が少なくなる。本変形例によれば、特定されたテキストの数を増やして上記のとおりブックマークがコンテンツの内容をより詳しく表すものにした場合に、通信の負荷が増大することを抑制することができる。
If the amount of text included in the bookmark increases, the amount of bookmark data transmitted from the
(変形例9)
また、抽出部202は、第1の条件を満たす抽出規定情報(例えば<img>タグ)により規定された表示の態様で表示されるコンテンツに画像のコンテンツが含まれている場合に、それらの画像(以下「抽出画像」という。)から、さらなる抽出を行ってもよい。例えば、抽出部202は、それらの抽出画像のうち、画像にテキストが対応付けられているものをさらに抽出してもよい。この場合、抽出部202は、抽出画像のうち、<img>タグのalt属性によって代替テキストが規定されているものをさらに抽出する。代替テキストとは、ウェブページに画像が表示できない場合に、代わりに表示するテキストとして規定されるものである。このように代替テキストが対応付けられている画像は、そうでない画像に比べて、ウェブページ内の画像の中でもより閲覧者に見てもらいたいと意図されて掲載された画像であることが多い。本変形例によれば、代替テキストが対応付けられている画像を抽出することで、代替テキストの対応付けを考慮しないで画像を抽出する場合に比べて、ウェブページの作成者がそのページの中で見せたいと考えている画像が抽出されやすくなり、その結果、ウェブページの作成者の意図をより多く伝えるブックマークを生成することができる。
(Modification 9)
In addition, when the content displayed in the display mode defined by the extraction regulation information (for example, <img> tag) that satisfies the first condition includes image content, the
(変形例10)
抽出部202は、前述した抽出画像のうち、例えば、画像の横の長さに対する縦の長さの比率が一定の値の範囲に含まれるものをさらに抽出してもよい。この場合の抽出部202は、第1実施形態と同様に、制御装置21が実現する機能である。制御装置21には、取得部201により取得されたコンテンツを示すデータとして画像データが供給される。制御装置21は、供給された画像データのヘッダ(画像に関する情報を表したデータ)を参照して画像の縦横の画素数を取得し、取得した画素数から画像の横の長さに対する縦の長さの比率を算出する。制御装置21は、算出した比率が一定の値の範囲(例えば0.5以上5.0未満)に含まれるか否かを判断し、含まれると判断した場合には、その画像データを特定部203に供給する。制御装置21は、取得部201から供給された全ての画像データに対してこの判断を行う。その結果、横の長さに対する縦の長さの比率が一定の値の範囲に含まれる画像を示す画像データが抽出されて特定部203に供給される。このようにして、抽出部202は、上述した抽出を行う。画像は、横の長さに対する縦の長さの比率が小さいほど、横長になる。横長の画像は、バナーのように広告や宣伝に用いられる画像であることが多い。また、この比率が大きいほど縦長の画像になるが、縦長の画像も、横長の画像と同様にウェブページの内容に関係ないものであることが多い。この例では、抽出部202は、それらを除いた画像を抽出することができる。
なお、抽出部202は、上記の比率が閾値以上であるものを、第1の条件を満たすコンテンツとして抽出してもよい。この場合は、抽出部202は、横長の画像を除いた画像を抽出することができる。
(Modification 10)
The
Note that the
抽出部202は、上記の例では、画像の横の長さに対する縦の長さの比率という画像のサイズに基づいて画像を抽出したが、他の画像のサイズに基づいてさらなる抽出を行ってもよい。抽出部202は、例えば、画像のサイズ(ファイルサイズまたは画素数)が閾値以上であるものをさらに抽出してもよい。この場合、抽出部202は、アイコンなどのサイズが小さいものを除いた画像を抽出することができる。また、抽出部202は、画像の1画素あたりのファイルサイズが閾値以上であるものをさらに抽出してもよい。1画素あたりのファイルサイズが大きいほど、高精細な画像を表すことになる。ウェブページでは、重要でない画像ほど低精細な画像を用いることが多い。この例では、抽出部202は、そのようなものを除いた画像を抽出することができる。
In the above example, the
(変形例11)
抽出部202は、前述した抽出画像のうち、その画像に対応付けられたアクセス先があり、且つ、そのアクセス先のドメインがウェブページとは異なるものをさらに抽出してもよい。この場合、抽出部202は、抽出画像のうち、<a>タグによって表示の態様が規定されているもの、すなわち対応付けられたアクセス先があるものをまず抽出する。そして、抽出部202は、抽出したそれらの画像のうち、href属性によって指定されているアクセス先(URL)のドメインと、取得部201によりコンテンツが取得されたウェブページのアクセス先のドメインとを比較して、一致していない画像をさらに抽出する。
(Modification 11)
The
本変形例によれば、ドメインが異なるアクセス先に対応付けられた画像が、そうでない画像(すなわち同じドメインのアクセス先に対応付けられた画像及びアクセス先が対応付けられていない画像)に比べてウェブページの内容をより詳しく表している場合に、上記のようなコンテンツの抽出を行わない場合に比べて、ウェブページの内容をより詳しく表した情報を生成することができる。 According to this modification, an image associated with an access destination with a different domain is compared with an image that is not (that is, an image associated with an access destination of the same domain and an image with no access destination associated). When the content of the web page is expressed in more detail, information that expresses the content of the web page in more detail can be generated compared to the case where the content is not extracted as described above.
(変形例12)
抽出部202は、上述した各変形例では、第1の条件を満たす抽出規定情報(例えば<img>タグ)により規定された表示の態様で表示されるコンテンツに画像のコンテンツが含まれている場合に、画像のさらなる抽出を行ったが、所定の条件が満たされた場合にのみ、このさらなる抽出を行ってもよい。ここでいう条件は、画像の抽出方法を変更するか否かを判断するために決められる条件であり、以下では「変更条件」という。変更条件は、例えば、図14で述べたような優先順位に従ってコンテンツを抽出する場合に、所定の順番(例えば2番目)までの優先順位の規定情報でテキストが抽出されなかったときに満たされる。図14の例のように、他のコンテンツに比べてウェブページの内容をより詳しく表しているコンテンツの表示の態様を規定する規定情報の優先順位を高くするように定められている場合、所定の順番までの優先順位の規定情報でテキストが抽出されないということは、ページソースの記述が特徴的なウェブページであると考えられる。そのため、規定情報に基づいて画像を特定しても、ウェブページの内容を他の画像に比べてより詳しく表した画像を、特定できないことがある。そのため、変更条件が満たされた場合には、抽出部202は、上記の各変形例で述べた方法で画像のさらなる抽出を行う。
(Modification 12)
In each of the above-described modifications, the
(変形例13)
抽出部202は、特定部203が行う特定方法を用いてコンテンツを抽出してもよい。例えば、抽出部202は、ウェブページにおいて表示される位置が先頭に近いほうから所定の順番(例えばコンテンツ全体のうちの半分や4分の1)までに含まれるコンテンツを抽出してもよい。他にも、抽出部202は、取得されたコンテンツにテキストのコンテンツが含まれている場合に、それらのテキストのうち、テキストの量を表す指標が大きいほうから所定の順番(同上)までに含まれるものを抽出してもよい。要するに、抽出部202は、取得されたコンテンツのうち、上述した抽出方法や特定方法で用いられたような条件を満たすものを、全て抽出するものである。
(Modification 13)
The
反対に、特定部203は、抽出部202が行う抽出方法を用いてコンテンツを特定してもよい。例えば、特定部203は、抽出されたコンテンツに画像のコンテンツが含まれている場合に、それらの画像のうち、テキストが対応付けられているものを特定する。このように特定した画像が複数ある場合には、特定部203は、例えば、そのうちのウェブページにおいて表示される位置が最も先頭に近いもの、または、先頭に近いほうから所定の順番までに含まれるものを特定すればよい。要するに、特定部203は、抽出されたコンテンツのうち、上述した抽出方法や特定方法で用いられたような条件を満たすものの中からさらに所定の数(1つまたは数個程度)のコンテンツを特定するものである。
On the contrary, the specifying
(変形例14)
取得部201は、上述した各実施形態とは異なる方法で規定情報及び少なくとも1つ以上のコンテンツを取得してもよい。例えば、取得部201は、一度取得したウェブページデータを所定の期間または所定のデータ量だけ保存しておき、ウェブページデータを保存しているウェブページの要求がされたときには、保存しておいたウェブページデータから規定情報及び少なくとも1つ以上のコンテンツを取得する。
(Modification 14)
The
(変形例15)
本発明は、情報処理装置やブックマークサービス提供システム1のような情報処理システムの他にも、情報処理装置が実施する処理を実現するための情報処理方法としても捉えられるものである。ここでいう処理とは、例えば、図9及び図15にそれぞれ示すサービス提供処理及びコンテンツ抽出処理である。また、本発明は、情報処理装置20のようなコンピュータを、図6に示す各手段として機能させるためのプログラムとしても捉えられるものである。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態でも提供されたりするものであってもよい。
(Modification 15)
In addition to the information processing system such as the information processing apparatus and the bookmark
1…ブックマークサービス提供システム、10…ブックマークサーバ装置、20…情報処理装置、30…専用ブラウザ、40…ウェブサーバ装置、40a…会員向けウェブサーバ装置、11、21…制御装置、12、22…記憶装置、13、26…通信装置、23…操作装置、24…表示装置、25…音声入出力装置、201…取得部、202…抽出部、203…特定部、204…生成部
DESCRIPTION OF
Claims (11)
前記取得手段により取得された規定情報が第1の条件を満たす場合に、当該規定情報により規定された前記態様で表示される前記コンテンツを、前記取得手段により取得されたコンテンツから抽出する抽出手段と、
前記抽出手段により抽出されたコンテンツのうち、第2の条件を満たす前記コンテンツを特定する特定手段と、
前記特定手段により特定されたコンテンツに応じて、前記ウェブページの一部分を示す部分情報を生成する生成手段と
を備えることを特徴とする情報処理装置。 Acquisition means for acquiring definition information defining a display mode of content displayed on a web page, and at least one or more of the contents each of which is specified by at least one of the definition information;
An extraction unit that extracts the content displayed in the form defined by the definition information from the content acquired by the acquisition unit when the definition information acquired by the acquisition unit satisfies a first condition; ,
A specifying means for specifying the content satisfying a second condition among the contents extracted by the extracting means;
An information processing apparatus comprising: generating means for generating partial information indicating a part of the web page according to the content specified by the specifying means.
前記抽出手段は、取得された前記規定情報のうち前記優先順位が高いものから所定の順番までに含まれるものを前記第1の条件を満たす規定情報として、当該規定情報によって規定される前記態様で表示される前記コンテンツを抽出する
ことを特徴とする請求項1に記載の情報処理装置。 A priority order is defined for the determined regulation information,
In the aspect defined by the regulation information, the extraction means includes, as the regulation information satisfying the first condition, information obtained from the highest priority to a predetermined order among the obtained regulation information. The information processing apparatus according to claim 1, wherein the content to be displayed is extracted.
ことを特徴とする請求項1または2に記載の情報処理装置。 The said extraction means is the said regulation information which prescribes | regulates the said aspect of the said content, Comprising: The said regulation information other than the determined regulation information is extracted. The Claim 1 or 2 characterized by the above-mentioned. Information processing device.
ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the acquisition unit acquires the content of the web page that requires authentication and the specified information.
前記特定手段は、抽出された前記各コンテンツのうち、前記記述データにおいて記述される位置が当該記述データの先頭に近いほうから所定の順番までに含まれるものを、前記第2の条件を満たすコンテンツとして特定する
ことを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。 The acquisition means acquires the specified information indicated by the description data in which the specified information is described in order,
The specifying means includes, among the extracted contents, contents that satisfy the second condition, in which a position described in the description data is included in a predetermined order from a position closer to the top of the description data. The information processing apparatus according to claim 1, wherein the information processing apparatus is specified as follows.
ことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。 When the content displayed in the form defined by the definition information satisfying the first condition includes a text content, the specifying unit calculates the amount of text in the text content. The information processing apparatus according to any one of claims 1 to 5, wherein an index that is included in a predetermined order from a larger index is specified as the content that satisfies the second condition.
ことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。 The specifying means includes the text content included in the text when the content displayed in the form specified by the specification information satisfying the first condition includes the text content. 6. The content included in a predetermined order from a large number of specific character strings to be specified is specified as content satisfying the second condition. 6. Information processing device.
ことを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。 If the content of the image is included in the content displayed in the form specified by the specification information that satisfies the first condition, the specifying unit may include the size of the image among the content of the image. The information processing apparatus according to any one of claims 1 to 7, wherein content included in a predetermined order from a large content is specified as content that satisfies the second condition.
ことを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。 When the content of an image is included in the content displayed in the form specified by the specification information satisfying the first condition, the specifying unit includes text in the image out of the content of the image The information processing apparatus according to any one of claims 1 to 8, wherein a content associated with the content is specified as content that satisfies the second condition.
ことを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。 The specifying unit may include a file of the image among the content of the image when the content of the image is included in the content displayed in the form defined by the defining information that satisfies the first condition. Content whose size, the number of pixels of the image, the ratio of the vertical length to the horizontal length of the image, or the file size per pixel of the image is greater than or equal to the threshold is specified as content that satisfies the second condition The information processing apparatus according to any one of claims 1 to 9, wherein:
ことを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。 The specifying unit corresponds to the image of the image content when the content of the image is included in the content displayed in the aspect specified by the specification information satisfying the first condition. The content according to any one of claims 1 to 10, wherein there is an attached access destination and a domain whose access destination is different from the web page is specified as content satisfying the second condition. The information processing apparatus according to item.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012216956A JP5955186B2 (en) | 2012-09-28 | 2012-09-28 | Information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012216956A JP5955186B2 (en) | 2012-09-28 | 2012-09-28 | Information processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014071644A true JP2014071644A (en) | 2014-04-21 |
JP5955186B2 JP5955186B2 (en) | 2016-07-20 |
Family
ID=50746794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012216956A Active JP5955186B2 (en) | 2012-09-28 | 2012-09-28 | Information processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5955186B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016113887A1 (en) * | 2015-01-15 | 2016-07-21 | 富士通株式会社 | Information-processing device, information-processing method, and information-processing program |
JP2018028714A (en) * | 2016-08-15 | 2018-02-22 | 富士ゼロックス株式会社 | Information processing apparatus and program |
JP2020052512A (en) * | 2018-09-25 | 2020-04-02 | 株式会社ぐるなび | Information processing apparatus, information processing method and program |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002278983A (en) * | 2001-03-19 | 2002-09-27 | Toshiba Corp | Summary extracting program, document analysis supporting program, summary extracting method and method and system for supporting document analysis |
US20030101415A1 (en) * | 2001-11-23 | 2003-05-29 | Eun Yeung Chang | Method of summarizing markup-type documents automatically |
JP2004086843A (en) * | 2002-06-27 | 2004-03-18 | Oki Electric Ind Co Ltd | Information extraction device and method |
JP2005196572A (en) * | 2004-01-08 | 2005-07-21 | Japan Science & Technology Agency | Summary making method of multiple documents |
US20100107055A1 (en) * | 2005-07-20 | 2010-04-29 | Orelind Greger J | Extraction of datapoints from markup language documents |
JP2011100403A (en) * | 2009-11-09 | 2011-05-19 | Sony Corp | Information processor, information extraction method, program and information processing system |
-
2012
- 2012-09-28 JP JP2012216956A patent/JP5955186B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002278983A (en) * | 2001-03-19 | 2002-09-27 | Toshiba Corp | Summary extracting program, document analysis supporting program, summary extracting method and method and system for supporting document analysis |
US20030101415A1 (en) * | 2001-11-23 | 2003-05-29 | Eun Yeung Chang | Method of summarizing markup-type documents automatically |
JP2004086843A (en) * | 2002-06-27 | 2004-03-18 | Oki Electric Ind Co Ltd | Information extraction device and method |
JP2005196572A (en) * | 2004-01-08 | 2005-07-21 | Japan Science & Technology Agency | Summary making method of multiple documents |
US20100107055A1 (en) * | 2005-07-20 | 2010-04-29 | Orelind Greger J | Extraction of datapoints from markup language documents |
JP2011100403A (en) * | 2009-11-09 | 2011-05-19 | Sony Corp | Information processor, information extraction method, program and information processing system |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016113887A1 (en) * | 2015-01-15 | 2016-07-21 | 富士通株式会社 | Information-processing device, information-processing method, and information-processing program |
JPWO2016113887A1 (en) * | 2015-01-15 | 2017-08-03 | 富士通株式会社 | Information processing apparatus, information processing method, and information processing program |
JP2018028714A (en) * | 2016-08-15 | 2018-02-22 | 富士ゼロックス株式会社 | Information processing apparatus and program |
JP2020052512A (en) * | 2018-09-25 | 2020-04-02 | 株式会社ぐるなび | Information processing apparatus, information processing method and program |
Also Published As
Publication number | Publication date |
---|---|
JP5955186B2 (en) | 2016-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11256848B2 (en) | Automated augmentation of text, web and physical environments using multimedia content | |
US11372935B2 (en) | Automatically generating a website specific to an industry | |
US10491552B2 (en) | Inserting content into an application from an online synchronized content management system | |
US8639687B2 (en) | User-customized content providing device, method and recorded medium | |
US20150169710A1 (en) | Method and apparatus for providing search results | |
US20080215550A1 (en) | Search support apparatus, computer program product, and search support system | |
US20130031110A1 (en) | Systems and methods for rich query construction | |
US20110119298A1 (en) | Method and apparatus for searching information | |
JP5820320B2 (en) | Information processing terminal and method, and information management apparatus and method | |
WO2014029173A1 (en) | Method, apparatus and device for sequencing search results | |
US20200125221A1 (en) | Coalescing Notifications Associated with Interactive Digital Content | |
US20170351779A1 (en) | System and method for operating a browsing application | |
EP2725539A1 (en) | Information providing device, information providing method, information providing program, information display program, and computer-readable recording medium for storing information providing program | |
US20170109442A1 (en) | Customizing a website string content specific to an industry | |
JP5556461B2 (en) | Information browsing terminal device, information browsing system, information browsing program, and information browsing method | |
JP5955186B2 (en) | Information processing device | |
JP4905249B2 (en) | Bookmark service method and bookmark service server | |
CN103631793B (en) | A kind of method, apparatus and equipment for being ranked up to search result | |
JP4879941B2 (en) | Information management system, advertisement output method and program | |
JP2011002982A (en) | Content providing device, content providing method and content providing program | |
US20130179832A1 (en) | Method and apparatus for displaying suggestions to a user of a software application | |
JP2008071116A (en) | Information delivery system, information delivery device, information delivery method and information delivery program | |
JP2019086931A (en) | Information processing apparatus and computer program | |
US20170147534A1 (en) | Transformation of third-party content for native inclusion in a page | |
JP5954053B2 (en) | Search support system, search support method, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160614 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5955186 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |