JP2014071644A - Information processor - Google Patents

Information processor Download PDF

Info

Publication number
JP2014071644A
JP2014071644A JP2012216956A JP2012216956A JP2014071644A JP 2014071644 A JP2014071644 A JP 2014071644A JP 2012216956 A JP2012216956 A JP 2012216956A JP 2012216956 A JP2012216956 A JP 2012216956A JP 2014071644 A JP2014071644 A JP 2014071644A
Authority
JP
Japan
Prior art keywords
content
information
image
specified
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012216956A
Other languages
Japanese (ja)
Other versions
JP5955186B2 (en
Inventor
Naoyuki Shibuya
直幸 澁谷
Daisuke Tachikawa
大介 立川
Tetsunori Higashida
哲典 東田
Shinichi Hirata
真一 平田
Tadayoshi Fujiki
忠慶 藤木
Yoshiaki Kawanishi
嘉顕 河西
Naoki Takeshita
直樹 竹下
Kiyotaka Hori
清敬 堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2012216956A priority Critical patent/JP5955186B2/en
Publication of JP2014071644A publication Critical patent/JP2014071644A/en
Application granted granted Critical
Publication of JP5955186B2 publication Critical patent/JP5955186B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To extract one part which enables contents of a web page to be comprehended in more detail from the web page.SOLUTION: When receiving a bookmark creation operation (step S15), an information processor 20 extracts content displayed in a display mode prescribed by predetermined prescription information among acquired contents of a web page (step S16). The information processor 20 specifies content satisfying a second condition from the extracted contents (step S17). The second condition is, for example, a condition that is satisfied by content in which a position with description performed in a page source is the closest to a head of the page source in the extracted content. The information processor 20 generates partial information corresponding to the specified content (step S18), and generates and stores a bookmark including the partial information (steps S19 and S20).

Description

本発明は、閲覧したウェブページの一部分を抽出するための技術に関する。   The present invention relates to a technique for extracting a part of a browsed web page.

閲覧したウェブページの一部分を抽出するための技術がある。例えば、特許文献1には、ユーザが閲覧したウェブページ(閲覧履歴)のサマリを生成するため、閲覧履歴からキーワードを抽出する技術が記載されている。   There is a technique for extracting a part of a browsed web page. For example, Patent Document 1 describes a technique for extracting a keyword from a browsing history in order to generate a summary of web pages (browsing history) browsed by a user.

特開2011−100350号公報JP 2011-100350 A

特許文献1の技術で抽出されるウェブページの一部分(すなわちキーワード)は、1個から数個程度の語で表された文の情報であることが普通であり、これだけではユーザはウェブページの内容を詳しく把握することが難しい。
そこで、本発明は、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することを目的とする。
A part (that is, a keyword) of a web page extracted by the technique of Patent Document 1 is usually information of a sentence represented by one to several words, and only this allows the user to read the contents of the web page. It is difficult to grasp in detail.
In view of the above, an object of the present invention is to extract a part from which a content can be grasped in more detail from a web page.

上記課題を達成するために、本発明は、ウェブページにおいて表示されるコンテンツの表示の態様を規定する規定情報と、少なくとも1つの前記規定情報により前記態様がそれぞれ規定される少なくとも1つ以上の前記コンテンツとを取得する取得手段と、前記取得手段により取得された規定情報が第1の条件を満たす場合に、当該規定情報により規定された前記態様で表示される前記コンテンツを、前記取得手段により取得されたコンテンツから抽出する抽出手段と、前記抽出手段により抽出されたコンテンツのうち、第2の条件を満たす前記コンテンツを特定する特定手段と、前記特定手段により特定されたコンテンツに応じて、前記ウェブページの一部分を示す部分情報を生成する生成手段とを備えることを特徴とする情報処理装置を提供する。   In order to achieve the above-described object, the present invention provides at least one or more of the above-described information that is defined by definition information that defines a display mode of content displayed on a web page and at least one of the definition information. An acquisition unit that acquires content, and when the specified information acquired by the acquiring unit satisfies a first condition, the content displayed in the form specified by the specified information is acquired by the acquiring unit. Extraction means for extracting from the extracted content; identification means for identifying the content satisfying a second condition among the contents extracted by the extraction means; and the web according to the content identified by the identification means An information processing apparatus comprising: generating means for generating partial information indicating a part of a page Subjected to.

また、前記決められた規定情報に対しては優先順位が定められており、前記抽出手段は、取得された前記規定情報のうち前記優先順位が高いものから所定の順番までに含まれるものを前記第1の条件を満たす規定情報として、当該規定情報によって規定される前記態様で表示される前記コンテンツを抽出してもよい。
さらに、前記抽出手段は、前記コンテンツを、当該コンテンツの前記態様を規定する前記規定情報であって、前記決められた規定情報以外の前記規定情報とともに抽出してもよい。
In addition, a priority order is defined for the determined prescription information, and the extraction means includes the acquired prescription information that is included in a predetermined order from the highest priority order. As the regulation information that satisfies the first condition, the content displayed in the form defined by the regulation information may be extracted.
Furthermore, the extracting means may extract the content together with the defining information that is the defining information that defines the aspect of the content and is other than the determined defining information.

また、前記取得手段は、認証が必要な前記ウェブページの前記コンテンツと前記規定情報とを取得してもよい。
さらに、前記取得手段は、前記規定情報が順番に記述された記述データにより示される当該規定情報を取得し、前記特定手段は、抽出された前記各コンテンツのうち、前記記述データにおいて記述される位置が当該記述データの先頭に近いほうから所定の順番までに含まれるものを、前記第2の条件を満たすコンテンツとして特定してもよい。
Further, the acquisition unit may acquire the content of the web page and authentication information that require authentication.
Further, the acquisition unit acquires the regulation information indicated by the description data in which the regulation information is sequentially described, and the specifying unit is a position described in the description data among the extracted contents. May be specified as content that satisfies the second condition.

また、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツにテキストのコンテンツが含まれている場合に、当該テキストのコンテンツのうち、テキストの量を表す指標が大きいほうから所定の順番までに含まれるものを、前記第2の条件を満たす前記コンテンツとして特定してもよい。
さらに、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツにテキストのコンテンツが含まれている場合に、当該テキストのコンテンツのうち、当該テキストに含まれる特定の文字列の数が多いものから所定の順番までに含まれるものを、前記第2の条件を満たすコンテンツとして特定してもよい。
In addition, when the content displayed in the form defined by the regulation information that satisfies the first condition includes text content, the specifying unit includes the text content of the text content. Content included in a predetermined order from the largest index indicating the amount may be specified as the content that satisfies the second condition.
Furthermore, when the content displayed in the form defined by the definition information that satisfies the first condition includes a text content, the specifying unit includes the text in the text content. Content included in a predetermined order from a large number of specific character strings included in may be specified as content satisfying the second condition.

また、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像のサイズが大きいものから所定の順番に含まれるものを、前記第2の条件を満たすコンテンツとして特定してもよい。
さらに、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像にテキストが対応付けられているものを、前記第2の条件を満たすコンテンツとして特定してもよい。
In addition, when the content displayed in the form defined by the definition information that satisfies the first condition includes content of an image, the specifying unit includes the image of the image. The content that is included in a predetermined order from the largest size may be specified as the content that satisfies the second condition.
Furthermore, when the content displayed is the content defined in the form defined by the definition information that satisfies the first condition, and the content of the image is included in the content of the image, May be specified as content that satisfies the second condition.

また、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像のファイルサイズ、当該画像の画素数、当該画像の横の長さに対する縦の長さの比率または当該画像の1画素あたりのファイルサイズが閾値以上であるものを、前記第2の条件を満たすコンテンツとして特定してもよい。
さらに、前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像に対応付けられたアクセス先があり、且つ、当該アクセス先のドメインが前記ウェブページとは異なるものを、前記第2の条件を満たすコンテンツとして特定してもよい。
In addition, when the content displayed in the form defined by the definition information that satisfies the first condition includes content of an image, the specifying unit includes the image of the image. Content satisfying the second condition if the file size, the number of pixels of the image, the ratio of the vertical length to the horizontal length of the image, or the file size per pixel of the image is greater than or equal to a threshold value May be specified.
Furthermore, when the content displayed is the content defined in the form defined by the definition information that satisfies the first condition, and the content of the image is included in the content of the image, May be specified as content satisfying the second condition, and the access destination domain is different from the web page.

本発明によれば、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することができる。   According to the present invention, it is possible to extract from the web page a part that can grasp the content in more detail.

ブックマークサービス提供システムの全体構成を示す図である。It is a figure which shows the whole structure of a bookmark service provision system. ブックマークの一例を示す図である。It is a figure which shows an example of a bookmark. ブックマークサーバ装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of a bookmark server apparatus. 情報処理装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of information processing apparatus. ウェブサーバ装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of a web server apparatus. 情報処理装置が実現する機能構成を示す図である。It is a figure which shows the function structure which information processing apparatus implement | achieves. ウェブページの一例を示す図である。It is a figure which shows an example of a web page. 図7に示すウェブページのページソースの一例を示す図である。It is a figure which shows an example of the page source of the web page shown in FIG. サービス提供処理における各装置の動作を示すシーケンス図である。It is a sequence diagram which shows operation | movement of each apparatus in a service provision process. ブックマークの一例を示す図である。It is a figure which shows an example of a bookmark. ブックマークサービス提供システムの全体構成を示す図である。It is a figure which shows the whole structure of a bookmark service provision system. サービス提供処理における各装置の動作を示すシーケンス図である。It is a sequence diagram which shows operation | movement of each apparatus in a service provision process. ページソースの一例を示す図である。It is a figure which shows an example of a page source. 抽出規定情報及び優先順位を対応付けたテーブルの一例を示す表である。It is a table | surface which shows an example of the table which matched extraction regulation information and priority. ブックマークの一例を示す図である。It is a figure which shows an example of a bookmark. ブックマークの一例を示す図である。It is a figure which shows an example of a bookmark.

[第1実施形態]
本発明の第1実施形態について、以下、図面を参照して説明する。
[構成]
図1は、ブックマークサービス提供システム1の全体構成を示す図である。ブックマークサービス提供システム1は、ユーザが生成したブックマークを他のユーザと共有するサービスを提供するためのシステムである。ブックマークサービス提供システム1においては、ウェブページにアクセスするためのアクセス先(例えばURL(Uniform Resource Locator)やIP(Internet Protocol)アドレス)と、そのウェブページに含まれるコンテンツの一部分とを含むブックマークが共有される。ここでいうコンテンツとは、テキストや画像、動画、音声などであり、ウェブページの内容を表すものである。
[First Embodiment]
A first embodiment of the present invention will be described below with reference to the drawings.
[Constitution]
FIG. 1 is a diagram showing an overall configuration of a bookmark service providing system 1. The bookmark service providing system 1 is a system for providing a service for sharing a bookmark generated by a user with other users. In the bookmark service providing system 1, a bookmark including an access destination (for example, a URL (Uniform Resource Locator) or IP (Internet Protocol) address) for accessing a web page and a part of content included in the web page is shared. Is done. The contents here are text, images, moving images, sounds, and the like, and represent the contents of the web page.

図2は、ブックマークサービス提供システム1において共有されるブックマークの一例を示す図である。図2では、ブラウザに表示されたブックマークA1が示されている。ブックマークA1には、ウェブページのタイトルA11と、ウェブページのアクセス先A12と、ウェブページのコンテンツの一部分であるテキストA13とが含まれている。ユーザは、このテキストA13を見ることで、ウェブページの内容の一部分を知ることができる。なお、タイトルD1及び本文D3は、ブックマークにより示されるコンテンツの一部の例であり、他にも、画像、動画及び音声等がコンテンツの一部として示される場合がある。また、図2に示すようなブックマークは、クリップやクリッピングと呼ばれることもある。つまり、本システムにより提供されるサービスは、いわゆるソーシャルクリップサービスやソーシャルクリッピングサービスと呼ばれるものを含んでいる。   FIG. 2 is a diagram illustrating an example of a bookmark shared in the bookmark service providing system 1. FIG. 2 shows a bookmark A1 displayed on the browser. The bookmark A1 includes a web page title A11, a web page access destination A12, and a text A13 that is a part of the content of the web page. The user can know a part of the content of the web page by looking at the text A13. Note that the title D1 and the text D3 are examples of a part of the content indicated by the bookmark, and there are cases where an image, a moving image, audio, and the like are indicated as part of the content. Also, the bookmark as shown in FIG. 2 is sometimes called a clip or clipping. That is, the services provided by this system include what are called social clipping services and social clipping services.

ブックマークサービス提供システム1は、ブックマークサーバ装置10と、情報処理装置20と、ウェブサーバ装置40と、ネットワーク2とを備える。ネットワーク2は、移動体通信網又はインターネット等を含むものである。ブックマークサーバ装置10は、前述したブックマークを保持し、登録されたユーザに対して、保持しているブックマークを共有するサービスを提供する装置である。ブックマークサーバ装置10は、登録されたユーザを認証するための情報(以下「認証情報」という。)として、ユーザを識別する識別情報(ユーザIDなど)及びパスワードを記憶しており、これらの認証情報に基づいてユーザを認証する機能を有している。ブックマークサーバ装置10は、ネットワーク2に接続されており、ネットワーク2を介して通信を行う。   The bookmark service providing system 1 includes a bookmark server device 10, an information processing device 20, a web server device 40, and a network 2. The network 2 includes a mobile communication network or the Internet. The bookmark server device 10 is a device that holds the bookmarks described above and provides a service for sharing the bookmarks that are registered to registered users. The bookmark server device 10 stores identification information (such as a user ID) and a password for identifying a user as information for authenticating a registered user (hereinafter referred to as “authentication information”) and a password. Has a function of authenticating the user based on the above. The bookmark server device 10 is connected to the network 2 and communicates via the network 2.

情報処理装置20は、ユーザが所持する携帯電話機やスマートフォンなどであり、CPU(Central Processing Unit)を備えたコンピュータである。情報処理装置20は、ネットワーク2を介して移動体通信を行う。情報処理装置20は、本システムで用いられるブラウザ30のプログラムを記憶しており、このプログラムを実行することにより、ブックマークサーバ装置10及びウェブサーバ装置40とデータのやり取りを行う。ユーザがブラウザ30の画面で前述した識別情報及びパスワードを入力することで、ブックマークサーバ装置10による認証が行われる。   The information processing apparatus 20 is a mobile phone, a smartphone, or the like possessed by a user, and is a computer including a CPU (Central Processing Unit). The information processing apparatus 20 performs mobile communication via the network 2. The information processing apparatus 20 stores a program of the browser 30 used in the present system, and exchanges data with the bookmark server apparatus 10 and the web server apparatus 40 by executing this program. When the user inputs the identification information and password described above on the screen of the browser 30, authentication by the bookmark server device 10 is performed.

ウェブサーバ装置40は、ウェブページを提供するいわゆるウェブサーバである。ウェブサーバ装置40は、ウェブページを表すテキストなどのデータ(以下「ウェブページデータ」という。)を保持しており、情報処理装置20からブラウザ30の機能などによってウェブページが要求された場合に、そのウェブページデータを情報処理装置20に送信することで、要求されたウェブページを提供する。   The web server device 40 is a so-called web server that provides web pages. The web server device 40 holds data such as text representing a web page (hereinafter referred to as “web page data”), and when a web page is requested from the information processing device 20 by the function of the browser 30 or the like, By transmitting the web page data to the information processing apparatus 20, the requested web page is provided.

図3は、ブックマークサーバ装置10のハードウェア構成を示す図である。ブックマークサーバ装置10は、制御装置11と、記憶装置12と、通信装置13とを備える。制御装置11は、CPU、ROM(Read Only Memory)、RAM(Random Access Memory)及びリアルタイムクロックを備えている。CPUは、RAMをワークエリアとして用いてROMや記憶装置12に記憶されたプログラムを実行することによって、ブックマークサーバ装置10が備える各装置の動作を制御する。リアルタイムクロックは、現在の日時を算出する機能を有している。記憶装置12は、例えばフラッシュメモリやハードディスク等の記憶手段であり、制御装置11が制御に用いるデータやプログラムなどを記憶している。また、記憶装置12は、ブックマークサーバ装置10において用いられる閾値などの定められた数値を示すデータを記憶している。通信装置13は、ネットワーク2を介して通信を行うための通信回路を備えるとともに、制御装置11とデータをやり取りする。制御装置11は、通信装置13を介して情報処理装置20とデータをやり取りする。   FIG. 3 is a diagram illustrating a hardware configuration of the bookmark server device 10. The bookmark server device 10 includes a control device 11, a storage device 12, and a communication device 13. The control device 11 includes a CPU, a ROM (Read Only Memory), a RAM (Random Access Memory), and a real time clock. The CPU controls the operation of each device included in the bookmark server device 10 by executing a program stored in the ROM or the storage device 12 using the RAM as a work area. The real time clock has a function of calculating the current date and time. The storage device 12 is storage means such as a flash memory or a hard disk, and stores data, programs, and the like used for control by the control device 11. The storage device 12 stores data indicating a predetermined numerical value such as a threshold used in the bookmark server device 10. The communication device 13 includes a communication circuit for performing communication via the network 2 and exchanges data with the control device 11. The control device 11 exchanges data with the information processing device 20 via the communication device 13.

図4は、情報処理装置20のハードウェア構成を示す図である。情報処理装置20は、制御装置21と、記憶装置22と、操作装置23と、表示装置24と、音声入出力装置25と、通信装置26とを備えたコンピュータである。制御装置21は、CPU、ROM、RAM及びリアルタイムクロックを備えている。CPUは、RAMをワークエリアとして用いてROMや記憶装置22に記憶されたプログラムを実行することによって、情報処理装置20の各装置の動作を制御する。リアルタイムクロックは、現在の日時を算出する機能を有している。記憶装置22は、例えばフラッシュメモリやハードディスク等の記憶手段であり、制御装置21が制御に用いるデータやプログラムなどを記憶している。操作装置23は、複数のキー及びタッチセンサなどの操作子を備え、利用者の操作に応じた操作信号を制御装置21に供給する。制御装置21は、この操作信号に応じた処理を行う。表示装置24は、表示面を有する表示手段であり、制御装置21からの指示に応じて、記憶装置22に記憶されているデータが示す画像などを表示面に表示する。音声入出力装置25は、スピーカ、マイクロフォン及び音声処理回路等を有し、通話に係る音声の入出力を行う。通信装置26は、携帯電話や無線LANなどの規格に基づく無線通信を行うための通信回路を備え、移動体通信や無線LAN通信を行う。   FIG. 4 is a diagram illustrating a hardware configuration of the information processing apparatus 20. The information processing apparatus 20 is a computer that includes a control device 21, a storage device 22, an operation device 23, a display device 24, a voice input / output device 25, and a communication device 26. The control device 21 includes a CPU, a ROM, a RAM, and a real time clock. The CPU controls the operation of each device of the information processing device 20 by executing a program stored in the ROM or the storage device 22 using the RAM as a work area. The real time clock has a function of calculating the current date and time. The storage device 22 is storage means such as a flash memory or a hard disk, and stores data, programs, and the like used for control by the control device 21. The operation device 23 includes operation elements such as a plurality of keys and touch sensors, and supplies an operation signal corresponding to a user operation to the control device 21. The control device 21 performs processing according to the operation signal. The display device 24 is a display unit having a display surface, and displays an image or the like indicated by data stored in the storage device 22 on the display surface in response to an instruction from the control device 21. The voice input / output device 25 includes a speaker, a microphone, a voice processing circuit, and the like, and performs voice input / output related to a call. The communication device 26 includes a communication circuit for performing wireless communication based on a standard such as a mobile phone and a wireless LAN, and performs mobile communication and wireless LAN communication.

図5は、ウェブサーバ装置40のハードウェア構成を示す図である。ウェブサーバ装置40は、制御装置41と、記憶装置42と、通信装置43とを備える。制御装置41は、CPU、ROM及びRAMを備えている。通信装置43は、ネットワーク2を介して通信を行うための通信回路を備える。記憶装置42は、例えばフラッシュメモリやハードディスク等の記憶手段であり、制御装置41が制御に用いるデータやプログラムなどを記憶している。また、記憶装置42は、情報処理装置20等に提供するウェブページのウェブページデータを記憶している。ウェブページデータは、ウェブページに含まれるコンテンツを示すデータ(以下「コンテンツデータ」という。)と、それらのコンテンツの表示の態様を規定する規定情報(HTML(HyperText Markup Language)タグなど)を示すデータとを含んでいる。   FIG. 5 is a diagram illustrating a hardware configuration of the web server device 40. The web server device 40 includes a control device 41, a storage device 42, and a communication device 43. The control device 41 includes a CPU, a ROM, and a RAM. The communication device 43 includes a communication circuit for performing communication via the network 2. The storage device 42 is storage means such as a flash memory or a hard disk, and stores data, programs, and the like used for control by the control device 41. Further, the storage device 42 stores web page data of a web page provided to the information processing device 20 or the like. The web page data is data indicating data included in the web page (hereinafter referred to as “content data”), and specifying information (HTML (HyperText Markup Language) tag, etc.) that defines the display mode of the content. Including.

コンテンツデータとは、コンテンツがテキストであればテキストデータ、画像であれば画像データ、動画であれば動画データ、音声であれば音声データのことである。また、規定情報を示すデータとは、例えば、ウェブページのページソースである。ページソースには、コンテンツのテキストデータも含まれている。コンテンツがテキスト以外である場合には、ページソースには、それらのコンテンツデータ(画像データ、動画データ及び音声データ)が記憶されている場所がURL等で示されている。   Content data is text data if the content is text, image data if it is an image, moving image data if it is a moving image, and sound data if it is a sound. Further, the data indicating the regulation information is, for example, a page source of a web page. The page source also includes text data for the content. When the content is other than text, the page source indicates the location where the content data (image data, moving image data, and audio data) is stored with a URL or the like.

ブックマークサービス提供システム1は、以上のハードウェア構成に基づき、ブックマークを共有するサービスを提供するためのサービス提供処理を行う。情報処理装置20の記憶装置22には、サービス提供処理を行うためのプログラムとして、図1に示すブラウザ30のプログラムが記憶されている。情報処理装置20の制御装置21がそのプログラムを実行してブラウザ30を起動し、図4に示す各装置を制御することで、以下に示す機能が実現される。
図6は、情報処理装置20が実現する機能構成を示す図である。情報処理装置20は、取得部201と、抽出部202と、特定部203と、生成部204とを備える。
The bookmark service providing system 1 performs a service providing process for providing a service for sharing a bookmark based on the above hardware configuration. The storage device 22 of the information processing device 20 stores a program for the browser 30 shown in FIG. 1 as a program for performing service providing processing. The control device 21 of the information processing device 20 executes the program, starts the browser 30, and controls each device shown in FIG.
FIG. 6 is a diagram illustrating a functional configuration realized by the information processing apparatus 20. The information processing apparatus 20 includes an acquisition unit 201, an extraction unit 202, a specification unit 203, and a generation unit 204.

取得部201は、ウェブページにおいて表示されるコンテンツの表示の態様を規定する規定情報と、少なくとも1つの規定情報により表示の態様がそれぞれ規定される少なくとも1つ以上のコンテンツとを取得する取得手段である。取得部201は、制御装置21及び通信装置26が協働して実現する機能である。制御装置21は、ブラウザ30の機能により、通信装置26を介してウェブページのアクセス先(URLなど)に対してウェブページを要求するページ要求データを送信する。ページ要求データは、要求されたウェブページを示すウェブページデータ(すなわち少なくとも1つ以上のコンテンツ及び規定情報を示すデータ)を保持するウェブサーバ装置(例えばウェブサーバ装置40)により受信される。ページ要求データを受信したウェブサーバ装置は、要求されたウェブページのウェブページデータを情報処理装置20に対して送信する。こうして送信されてきたウェブページデータは、通信装置26を介して制御装置21に供給される。こうして取得部201が取得するコンテンツ及び規定情報について、図7及び図8を参照して説明する。   The acquisition unit 201 is an acquisition unit that acquires specification information that defines a display mode of content displayed on a web page and at least one content that has a display mode specified by at least one specification information. is there. The acquisition unit 201 is a function realized by the control device 21 and the communication device 26 in cooperation. The control device 21 transmits page request data for requesting a web page to an access destination (URL or the like) of the web page via the communication device 26 by the function of the browser 30. The page request data is received by a web server device (for example, the web server device 40) that holds web page data indicating the requested web page (that is, data indicating at least one content and specified information). The web server device that has received the page request data transmits the web page data of the requested web page to the information processing device 20. The web page data transmitted in this way is supplied to the control device 21 via the communication device 26. The content and the regulation information acquired by the acquisition unit 201 will be described with reference to FIGS.

図7は、ブラウザ30にウェブページが表示されているようすの一例を示す図である。ブラウザ30には、このブラウザの機能(この例では「ファイル」、「編集」、「表示」及び「ブックマーク作成」)を選択するためのメニューB2と、ウェブページのアクセス先B3(「www.xxx.com/xxx.xxx/xxx.htm」)とが表示されている。また、ブラウザ30には、ウェブページのタイトルB1(「◇◇◇◇◇◇」というテキスト)と、ウェブページの本体B4とが表示されている。本体B4には、テキストB41(「□□□□□□□□」)、B42(「▽▽▽・・・▽▽▽」)及びB43(「○○○・・・○○○」)が含まれている。タイトルB1とテキストB41、B42及びB43とは、いずれもこのウェブページのコンテンツである。   FIG. 7 is a diagram illustrating an example of a web page displayed on the browser 30. The browser 30 includes a menu B2 for selecting functions of the browser (in this example, “file”, “edit”, “display”, and “bookmark creation”), and a web page access destination B3 (“www.xxx”). .Com / xxx.xxx / xxx.htm ") is displayed. Further, the browser 30 displays a web page title B1 (text “◇◇◇◇◇◇”) and a web page body B4. In the main body B4, texts B41 (“□□□□□□□□”), B42 (“▽▽▽… ▽▽▽”) and B43 (“○○○… ○○○”) are stored. include. The title B1 and the texts B41, B42, and B43 are all the contents of this web page.

図8は、図7に示すウェブページのページソースの一例を示す図である。このページソースには、コンテンツであるテキスト(タイトルも含む)と、それらのテキストの表示の態様を規定する規定情報とが示されている。例えば、<title>及び</title>に挟まれている「◇◇◇◇◇◇」というテキストC1は、<title>タグによって表示の態様が規定されている。同様に、テキストC3(「□□□□□□□□」)は<h2>タグによって表示の態様が規定されている。また、テキストC4(「▽▽▽・・・▽▽▽」)は<div>タグによって、テキストC5(「○○○・・・○○○」)は<p>タグによって表示の態様が規定されている。「◎◎◎◎◎」というテキストC2は、<meta>タグによって、ウェブページの説明を表す「desctiption」として規定されている。   FIG. 8 is a diagram illustrating an example of the page source of the web page illustrated in FIG. 7. In this page source, text (including a title) that is content and regulation information that defines a display mode of the text are shown. For example, the display mode of a text C1 “◇◇◇◇◇◇” sandwiched between <title> and </ title> is defined by a <title> tag. Similarly, the display mode of the text C3 (“□□□□□□□□”) is defined by the <h2> tag. In addition, the display mode of the text C4 (“▽▽▽ ... ▽▽▽”) is specified by the <div> tag, and the display mode of the text C5 (“OOXX ... OOOO”) is specified by the <p> tag. Has been. The text C2 “◎◎◎◎◎” is defined as “description” representing the description of the web page by the <meta> tag.

テキストC4は、さらに、<font>タグと、<br>タグと、<a>タグとによって、テキストの一部のフォントの大きさと、改行と、他のアクセス先へのリンクとがそれぞれ規定されている。また、テキストC5は、さらに、<STRIKE>タグによって、テキストの一部に取り消し線が規定されている。テキストC3、C4及びC5とは、それら全体の表示の態様が、<body>タグによっても規定されている。このように、ページソースとは、規定情報が順番に記述されているデータ(以下「記述データ」ともいう。)であり、それらの規定情報を示すデータである。
取得部201は、ページソース(記述データ)により示される規定情報及びそのページソースにより示されるコンテンツを取得すると、取得した結果として、ページソースと、取得したコンテンツにテキスト以外のコンテンツが含まれていれば、それらのコンテンツデータ(画像データ等)とを抽出部202に供給する。取得部201は、図7に示すウェブページの規定情報及びコンテンツを取得する場合であれば、図8に示すページソースを取得して、取得したページソースを抽出部202に供給する。以下、本実施形態では、ウェブページにテキストのコンテンツしか含まれていない場合について説明する。
The text C4 further defines the font size of a part of the text, a line feed, and a link to another access destination by the <font> tag, <br> tag, and <a> tag. ing. In addition, the text C5 has a strikethrough defined in a part of the text by a <STRIKE> tag. The text C3, C4, and C5 are defined by the <body> tag as a whole display mode. As described above, the page source is data (hereinafter also referred to as “description data”) in which the regulation information is described in order, and is data that indicates the regulation information.
When the acquisition unit 201 acquires the regulation information indicated by the page source (description data) and the content indicated by the page source, the page source and the acquired content include content other than text as the acquisition result. For example, the content data (image data or the like) is supplied to the extraction unit 202. If the obtaining unit 201 obtains the web page regulation information and content shown in FIG. 7, the obtaining unit 201 obtains the page source shown in FIG. 8 and supplies the obtained page source to the extracting unit 202. Hereinafter, in the present embodiment, a case where a web page includes only text content will be described.

抽出部202は、取得部201により取得されたコンテンツから、次に述べるコンテンツを抽出する抽出手段である。抽出部202が抽出するコンテンツとは、第1の条件を満たす規定情報により規定された表示の態様で表示されるコンテンツである。第1の条件とは、抽出部202が抽出を行う際に用いる条件として予め定められた条件である。抽出部202は、取得部201により取得された規定情報が第1の条件を満たす場合に、その規定情報により規定された表示の態様で表示されるコンテンツを、取得部201により取得されたコンテンツから抽出する。本実施形態では、第1の条件は、規定情報が、ブックマークサービス提供システム1において予め決められた規定情報である場合に満たされる条件である。抽出部202は、制御装置21及び記憶装置22が協働して実現する機能である。抽出部202が上記抽出を行う方法について以下に説明する。   The extraction unit 202 is an extraction unit that extracts the content described below from the content acquired by the acquisition unit 201. The content extracted by the extraction unit 202 is content displayed in a display mode defined by the regulation information that satisfies the first condition. The first condition is a condition set in advance as a condition used when the extraction unit 202 performs extraction. When the specified information acquired by the acquiring unit 201 satisfies the first condition, the extracting unit 202 extracts the content displayed in the display mode specified by the specified information from the content acquired by the acquiring unit 201. Extract. In the present embodiment, the first condition is a condition that is satisfied when the regulation information is regulation information predetermined in the bookmark service providing system 1. The extraction unit 202 is a function realized by the control device 21 and the storage device 22 in cooperation. A method by which the extraction unit 202 performs the above extraction will be described below.

記憶装置22は、前述した第1の条件を満たす規定情報、すなわち予め決められた規定情報を記憶している。この規定情報は、抽出する対象となるコンテンツの表示の態様を規定するものであり、以下では「抽出規定情報」という。ブックマークサービス提供システム1においては、3つの抽出規定情報が定められている。第1の抽出規定情報は、記事や投稿、説明文などの形でウェブページにより伝えられる情報(これを「ページ情報」という。)の表示の態様を規定するものとして予め決められた規定情報であり、例えば、<article>タグ及び<meta>タグ等の規定情報である。また、ウェブページによっては<article>タグがない場合もあるため、そのようなウェブページのページ情報を規定する第1の規定情報として、<body>タグが決められている。第2の抽出規定情報は、第1の抽出規定情報により示されるページ情報部分に存在する段落を示すものとして予め定められた規定情報であり、例えば<p>タグ及び<div>等の規定情報である。また、そのような規定情報以外にも、検索エンジンによって検索されるページ情報(主にそのウェブページの内容を説明する説明文)を規定することが多い<meta>タグのdescriptionが第2の抽出規定情報として決められている。第3の抽出規定情報は、第1及び第2の抽出規定情報によってコンテンツが抽出されなかった場合に用いられる規定情報であり、例えば<title>タグである。   The storage device 22 stores the regulation information that satisfies the first condition described above, that is, the regulation information determined in advance. This regulation information regulates the display mode of the content to be extracted, and is hereinafter referred to as “extraction regulation information”. In the bookmark service providing system 1, three pieces of extraction regulation information are defined. The first extraction regulation information is regulation information determined in advance as that which defines the display mode of information (this is referred to as “page information”) conveyed by the web page in the form of articles, posts, explanations, and the like. Yes, for example, regulation information such as <article> tag and <meta> tag. Also, depending on the web page, there may be no <article> tag, so the <body> tag is determined as the first defining information that defines the page information of such a web page. The second extraction regulation information is regulation information predetermined as indicating a paragraph existing in the page information portion indicated by the first extraction regulation information. For example, regulation information such as <p> tag and <div> It is. In addition to such definition information, the description of the <meta> tag is often the second extraction, which often defines page information searched by the search engine (mainly descriptive text explaining the contents of the web page). It is decided as regulation information. The third extraction regulation information is regulation information used when content is not extracted by the first and second extraction regulation information, and is, for example, a <title> tag.

制御装置21は、まず、取得部201により取得された規定情報及びコンテンツとして、上述したページソース及びコンテンツデータ(本実施形態ではページソースのみ)が供給されてくる。制御装置21は、供給されたページソースのうち、第1の抽出規定情報によって表示の態様が規定される部分(以下「規定部分」という。)を抜き出す。図8の例では、制御装置21は、<body>タグによって挟まれている規定部分P1を抜き出す。規定部分P1には、テキストC3、C4及びC5というコンテンツと、<font>タグ、<br>タグ、<a>タグ及び<STRIKE>タグという規定情報とが含まれている。また、制御装置21は、<meta name・・・◎◎”>という<meta>タグを抜き出す。   First, the control device 21 is supplied with the above-described page source and content data (only the page source in this embodiment) as the regulation information and content acquired by the acquisition unit 201. The control device 21 extracts a portion (hereinafter, referred to as “specified portion”) in which the display mode is defined by the first extraction defining information from the supplied page source. In the example of FIG. 8, the control device 21 extracts the specified portion P <b> 1 sandwiched between <body> tags. The prescribed portion P1 includes contents called texts C3, C4, and C5 and prescribed information such as <font> tag, <br> tag, <a> tag, and <STRIKE> tag. Further, the control device 21 extracts a <meta> tag <meta name...

次に、制御装置21は、第1の抽出規定情報に基づいて抜き出したコンテンツ及び規定情報から、第2の抽出規定情報によって表示の態様が規定される規定部分を抜き出す。制御装置21は、図8の例であれば、規定部分P1から、<div>タグによって挟まれている規定部分P2と、<p>タグによって挟まれている規定部分P3とを抜き出す。規定部分P2には、テキストC4と、<font>タグ、<br>タグ及び<a>タグとが含まれている。規定部分P3には、テキストC5と、<STRIKE>タグとが含まれている。また、制御装置21は、<meta>タグのうち、descriptionを含むものによって、そのdescriptionとして規定されているコンテンツ(図8の例ではテキストC2)を抜き出す。この場合、descriptionを含む<meta>タグが、第2の抽出規定情報である。   Next, the control device 21 extracts a specified portion in which a display mode is specified by the second extraction specifying information from the content and the specifying information extracted based on the first extraction specifying information. In the example of FIG. 8, the control device 21 extracts a specified portion P2 sandwiched between <div> tags and a defined portion P3 sandwiched between <p> tags from the defined portion P1. The prescribed portion P2 includes text C4, <font> tag, <br> tag, and <a> tag. The prescribed portion P3 includes text C5 and a <STRIKE> tag. Also, the control device 21 extracts the content (text C2 in the example of FIG. 8) defined as the description by using the <meta> tag including the description. In this case, the <meta> tag including the description is the second extraction regulation information.

制御装置21は、上記のとおり抜き出した規定部分に規定情報が含まれている場合、その規定情報を削除する。図8の例では、制御装置21は、規定部分P2に含まれる<font>タグ、<br>タグ及び<a>タグを削除し、規定部分P3に含まれる<STRIKE>タグを削除する。なお、制御装置21は、<meta>タグのdescriptionに対しては、規定情報が含まれていないので、この削除を行わない。このようにして規定情報が削除された規定部分P2は、テキストC4を表すものになり、規定部分P3は、テキストC5を表すものになっている。
なお、制御装置21は、第1及び第2の抽出規定情報による抜き出しを行った結果、コンテンツが残らなかった場合、第3の抽出規定情報である<title>タグにより表示の態様が規定されているテキストC1をページソースから抜き出す。
When the regulation information is included in the regulation part extracted as described above, the control device 21 deletes the regulation information. In the example of FIG. 8, the control device 21 deletes the <font> tag, the <br> tag, and the <a> tag included in the specified portion P2, and deletes the <STRIKE> tag included in the specified portion P3. Note that the control device 21 does not delete the <meta> tag description because no definition information is included in the description of the <meta> tag. The defined part P2 from which the defined information has been deleted in this way represents the text C4, and the defined part P3 represents the text C5.
In addition, when the content is not left as a result of extraction by the first and second extraction regulation information, the control device 21 defines the display mode by the <title> tag that is the third extraction regulation information. The existing text C1 is extracted from the page source.

以上のとおり、抽出部202は、第1、第2及び第3の抽出規定情報に基づいて抜き出したコンテンツを、予め決められた規定情報(抽出規定情報のこと)により規定された表示の態様で表示されるコンテンツとして、取得部201により取得されたコンテンツから抽出する。抽出部202は、抽出したコンテンツ(図8の例ではテキストC2、C4及びC5)を特定部203に供給する。   As described above, the extraction unit 202 displays the content extracted based on the first, second, and third extraction specification information in a display mode specified by predetermined specification information (extraction specification information). Extracted from the content acquired by the acquisition unit 201 as the content to be displayed. The extracting unit 202 supplies the extracted content (texts C2, C4, and C5 in the example of FIG. 8) to the specifying unit 203.

特定部203は、抽出部202により抽出されたコンテンツのうち、第2の条件を満たすコンテンツを特定する特定手段である。第2の条件とは、ウェブページの内容を他のコンテンツに比べてより詳しく表したコンテンツであるか否かを判断するための条件として、ブックマークサービス提供システム1において定められているものである。本実施形態においては、コンテンツとして抽出されたテキストのうち、テキストの量を示す指標が最も大きいものが満たすという条件が第2の条件として定められている。ここでいうテキストの量を示す指標とは、例えば、抽出されたテキストの全ての文字数に対する、各テキストの文字数の割合(以下「テキスト割合」という。)である。特定部203は、制御装置21が実現する機能である。制御装置21は、次の方法でこの特定を行う。   The specifying unit 203 is a specifying unit that specifies content satisfying the second condition among the contents extracted by the extracting unit 202. The second condition is defined in the bookmark service providing system 1 as a condition for determining whether or not the content of the web page is more detailed than other content. In the present embodiment, a condition that the largest index indicating the amount of text among the text extracted as content is satisfied as the second condition. The index indicating the amount of text here is, for example, the ratio of the number of characters of each text to the total number of characters of the extracted text (hereinafter referred to as “text ratio”). The specifying unit 203 is a function realized by the control device 21. The control device 21 performs this specification by the following method.

制御装置21は、コンテンツとして抽出された全てのテキストに対して、それぞれのテキストの量(例えば文字数)を算出する。制御装置21は、図8の例であれば、テキストC2、C4及びC5のテキストの量として、5文字、126文字及び39文字を算出する。そして、制御装置21は、算出されたテキストの量が最も大きいコンテンツを特定する。なお、制御装置21は、算出したテキストの合計に対する、各テキストの文字数の割合(つまりテキスト割合)を算出し、算出されたテキスト割合が最も大きいコンテンツを特定してもよい。また、制御装置21は、テキスト割合に代えて、各テキストのファイルサイズを用いて特定を行ってもよい。これら(テキストの量、テキスト割合及びテキストのファイルサイズ)は、いずれも、テキストの量を表す指標であり、制御装置21は、この指標に基づいて特定を行えばよい。このようにして、特定部203は、抽出された各コンテンツにテキストが含まれている場合に、それらのテキストのうち、テキストの量を表す指標が最も大きいものを、第2の条件を満たすコンテンツとして特定する。特定部203は、図8の例であれば、テキストC2、C4及びC5のテキスト割合として、それぞれ0.03、0.74及び0.23を算出し、テキスト割合が最も大きいテキストC4を、第2の条件を満たすコンテンツとして特定する。特定部203は、特定したコンテンツを生成部204に供給する。   The control device 21 calculates the amount of each text (for example, the number of characters) for all the text extracted as content. In the example of FIG. 8, the control device 21 calculates 5, 126, and 39 characters as the text amounts of the texts C2, C4, and C5. And the control apparatus 21 specifies the content with the largest amount of the calculated texts. Note that the control device 21 may calculate the ratio of the number of characters of each text (that is, the text ratio) to the calculated total of the texts, and specify the content having the largest calculated text ratio. Further, the control device 21 may specify using the file size of each text instead of the text ratio. These (text amount, text ratio, and text file size) are all indexes representing the amount of text, and the control device 21 may specify based on these indexes. In this way, when the extracted content includes text, the specifying unit 203 selects the text with the largest index indicating the amount of text from among the content that satisfies the second condition. As specified. In the example of FIG. 8, the specifying unit 203 calculates 0.03, 0.74, and 0.23 as the text ratios of the texts C2, C4, and C5, respectively. It is specified as content satisfying the condition 2. The identification unit 203 supplies the identified content to the generation unit 204.

生成部204は、特定部203により特定されたコンテンツに応じて、コンテンツの一部分を示す部分情報を生成する生成手段である。生成部204は、制御装置21が実現する機能であり、例えば次の方法でこの生成を行う。制御装置21は、特定されたコンテンツがテキストである場合、その先頭から所定の文字数(例えば100文字)のテキストにより表される情報を、部分情報として生成する。
制御装置21は、こうして生成部204により生成された部分情報と、その部分情報の元になったウェブページのアクセス先と、そのウェブページのタイトルとを示すデータを、図2に示すようなブックマークを示すブックマークデータとして生成し、記憶装置22に記憶させる。
The generation unit 204 is a generation unit that generates partial information indicating a part of the content according to the content specified by the specifying unit 203. The generation unit 204 is a function realized by the control device 21 and performs this generation by the following method, for example. When the identified content is text, the control device 21 generates information represented by text having a predetermined number of characters (for example, 100 characters) from the beginning as partial information.
The control device 21 stores the data indicating the partial information generated by the generating unit 204, the access destination of the web page that is the basis of the partial information, and the title of the web page as shown in FIG. Is generated as bookmark data and stored in the storage device 22.

[動作]
ブックマークサービス提供システム1は、以上の構成に基づき、上述したサービス提供処理を行う。
図9は、サービス提供処理における各装置の動作を示すシーケンス図である。サービス提供処理は、情報処理装置20を所持するユーザが、ブラウザ30を起動し、ウェブページにアクセスする操作を行うことを契機に開始される。情報処理装置20は、この操作が行われると、ウェブページを要求する上述したページ要求データをそのウェブページのアクセス先に送信する(ステップS11)。この例では、情報処理装置20は、ウェブサーバ装置40にページ要求データを送信する。ウェブサーバ装置40は、ページ要求データを受信すると、要求されたウェブページのウェブページデータを情報処理装置20に送信する(ステップS12)。
[Operation]
The bookmark service providing system 1 performs the service providing process described above based on the above configuration.
FIG. 9 is a sequence diagram showing the operation of each device in the service providing process. The service providing process is started when a user having the information processing apparatus 20 starts up the browser 30 and performs an operation of accessing a web page. When this operation is performed, the information processing apparatus 20 transmits the above-described page request data for requesting a web page to the access destination of the web page (step S11). In this example, the information processing apparatus 20 transmits page request data to the web server apparatus 40. When receiving the page request data, the web server device 40 transmits the web page data of the requested web page to the information processing device 20 (step S12).

情報処理装置20は、ステップS12において受信したウェブページデータから規定情報及び少なくとも1つ以上のコンテンツを取得する(ステップS13)。ステップS11及びS13は、図6に示す取得部201が行う動作である。情報処理装置20は、取得したウェブページデータが示すウェブページを表示する(ステップS14)。情報処理装置20は、例えば、図8に示す規定情報及びコンテンツを取得し、図7に示すウェブページを表示する。この状態で、ユーザがブックマークを作成するために、図7に示すメニューB2の「ブックマーク作成」を選択する操作(ブックマーク作成操作)を行うと、情報処理装置20は、このブックマーク作成操作を受け付けて(ステップS15)、図2に示すようなブックマークを示すブックマークデータを生成する生成処理を開始する。   The information processing apparatus 20 acquires the regulation information and at least one content from the web page data received in Step S12 (Step S13). Steps S11 and S13 are operations performed by the acquisition unit 201 illustrated in FIG. The information processing apparatus 20 displays the web page indicated by the acquired web page data (step S14). For example, the information processing apparatus 20 acquires the regulation information and content shown in FIG. 8 and displays the web page shown in FIG. In this state, when the user performs an operation (bookmark creation operation) for selecting “bookmark creation” in the menu B2 shown in FIG. 7 in order to create a bookmark, the information processing apparatus 20 accepts the bookmark creation operation. (Step S15), a generation process for generating bookmark data indicating a bookmark as shown in FIG. 2 is started.

情報処理装置20は、まず、取得したコンテンツから上述した抽出規定情報(予め決められた規定情報)により規定された表示の態様で表示されるコンテンツを抽出する(ステップS16)。ステップS16は、抽出部202が行う動作である。次に、情報処理装置20は、抽出したコンテンツのうち、上述した第2の条件を満たすコンテンツを特定する(ステップS17)。ステップS17は、特定部203が行う動作である。続いて、情報処理装置20は、特定したコンテンツに応じて上述した部分情報を生成する(ステップS18)。ステップS18は、生成部204が行う動作である。情報処理装置20は、生成した部分情報と、表示しているウェブページのタイトル及びアクセス先とを示すブックマークデータを生成する(ステップS19)。情報処理装置20は、生成したブックマークデータを記憶し(ステップS20)、そのブックマークデータをブックマークサーバ装置10に送信する(ステップS21)。ブックマークサーバ装置10は、ステップS21において送信されてきたブックマークデータを保持する(ステップS22)。   First, the information processing apparatus 20 extracts content displayed in the display mode defined by the above-described extraction regulation information (predetermined regulation information) from the acquired content (step S16). Step S <b> 16 is an operation performed by the extraction unit 202. Next, the information processing apparatus 20 specifies content that satisfies the second condition described above among the extracted content (step S17). Step S17 is an operation performed by the specifying unit 203. Subsequently, the information processing apparatus 20 generates the above-described partial information according to the specified content (step S18). Step S18 is an operation performed by the generation unit 204. The information processing apparatus 20 generates bookmark data indicating the generated partial information, the title of the displayed web page, and the access destination (step S19). The information processing apparatus 20 stores the generated bookmark data (step S20) and transmits the bookmark data to the bookmark server apparatus 10 (step S21). The bookmark server device 10 holds the bookmark data transmitted in step S21 (step S22).

以上のサービス提供処理が実施されることで、ブックマークサーバ装置10が各情報処理装置20で生成されたブックマークデータを保持することになる。ブックマークサーバ装置10は、ブラウザ30を実行する他の情報処理装置20で生成されたブックマークデータも同様にして保持する。ブックマークサーバ装置10は、これらの情報処理装置20からブックマークの一覧を要求された場合に、保持しているブックマークの一覧を生成して、生成した一覧を示す一覧データをその情報処理装置に送信する。情報処理装置が受信した一覧データが示す一覧を表示することで、ユーザは、他のユーザが作成したブックマークを供給することができる。   By performing the service providing process described above, the bookmark server device 10 holds the bookmark data generated by each information processing device 20. The bookmark server device 10 similarly holds bookmark data generated by other information processing devices 20 that execute the browser 30. When a bookmark list is requested from these information processing apparatuses 20, the bookmark server apparatus 10 generates a list of bookmarks that are held, and transmits list data indicating the generated list to the information processing apparatus. . By displaying the list indicated by the list data received by the information processing apparatus, the user can supply bookmarks created by other users.

情報処理装置20は、上記のとおり、第1及び第2の抽出規定情報により表示の態様が規定されるコンテンツを抽出する。これらに含まれていない規定情報には、例えば、テーブル(表)に関するタグ(<TABLE>タグ、<TD>タグ及び<TH>タグ等)や、ボタンやチェックボックスなどのフォームに関するタグ(<FORM>タグ、<INPUT>タグ及び<LABEL>等)などがある。テーブルは、複数の情報を並べて表示するものであるため、一語から数語程度の語句の表示の態様の規定に用いられることが多い。フォームは、テキストの入力やいくつかの選択肢からいずれかを選択させるといった機能を提供するものであるため、テーブルと同様に、一語から数語程度の語句(例えば「名前:」や「血液型:」など)の表示の態様の規定に用いられることが多い。   As described above, the information processing apparatus 20 extracts content whose display mode is defined by the first and second extraction defining information. The regulation information not included in these includes, for example, tags related to tables (<TABLE> tags, <TD> tags, <TH> tags, etc.), tags related to forms such as buttons and check boxes (<FORM > Tag, <INPUT> tag, <LABEL>, etc.). Since the table displays a plurality of pieces of information side by side, the table is often used to define a display mode of words of about one word to several words. Forms provide functions such as entering text and selecting one of several options, so as with tables, words (for example, “name:” or “blood type”) : "Etc.) is often used to define the display mode.

一方、第1及び第2の抽出規定情報は、ウェブページの本体に含まれる文章を規定することが多いもの(<div>タグや<p>タグ)と、記事や投書などのページ情報を規定することが多いもの(<article>タグ)とを含んでいる。これらの規定情報により表示の態様が規定されるコンテンツは、複数の文を有する文章であることが多く、そのウェブページの内容を他のコンテンツに比べてより詳しく表していることが多い。また、<meta>タグのdescriptionは、ウェブページの説明文を規定するためのものであるため、そのウェブページの内容を他のコンテンツに比べてより詳しく表していることが多い。このように、情報処理装置20は、ウェブページの内容を他のコンテンツに比べてより詳しく表すことが多いコンテンツを抽出することができる。   On the other hand, the first and second extraction regulation information stipulates information (<div> tag and <p> tag) often included in the text included in the main body of the web page, and page information such as articles and letters. (<Article> tag). The content whose display mode is defined by these defining information is often a sentence having a plurality of sentences, and the contents of the web page are often expressed in more detail than other contents. In addition, the description of the <meta> tag is for defining the description of the web page, and therefore the content of the web page is often expressed in more detail than other content. In this way, the information processing apparatus 20 can extract content that often represents the details of the web page in more detail than other content.

また、情報処理装置20は、抽出したテキストのうち、第2の条件を満たすもの(本実施形態では、テキストの量が最も多いもの)を特定する。テキストの量が多い文章は、テキストの量が少ない文章よりも詳しい内容を表しやすい。情報処理装置20は、テキストの量が多いテキストを特定することで、テキストの量に関係なくコンテンツを特定する場合に比べて、ウェブページの内容をより詳しく表す部分情報を生成することができる。その結果、本実施形態によれば、テキストの量に関係なくコンテンツを特定する場合に比べて、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することができる。   In addition, the information processing apparatus 20 specifies the extracted text that satisfies the second condition (in this embodiment, the text that has the largest amount). A sentence with a large amount of text is easier to represent a detailed content than a sentence with a small amount of text. The information processing apparatus 20 can generate partial information that expresses the details of the web page in more detail by specifying text with a large amount of text compared to when specifying content regardless of the amount of text. As a result, according to the present embodiment, it is possible to extract from the web page a part that makes it possible to grasp the details in more detail than when specifying the content regardless of the amount of text.

[第2実施形態]
本発明の第2実施形態について、以下、第1実施形態と異なる点を中心に説明する。第1実施形態では、コンテンツとしてテキストが特定されたが、第2実施形態では、画像が特定される場合について説明する。
本実施形態の抽出部202は、取得部201により取得されたコンテンツに画像のコンテンツが含まれている場合にも、第1実施形態で述べた方法で画像を抽出する。この場合、第2の抽出規定情報として<img>タグが予め決められており、抽出部202は、ページソースのうち第1の抽出規定情報に基づいて抜き出した規定部分から、第2の抽出規定情報である<img>タグを抜き出す。そして、抽出部202は、抜き出した<img>タグが表示の態様を規定している画像データを、取得部201から供給されたコンテンツデータから取り出すことで、その画像データが示す画像を抽出する。抽出部202は、抽出した画像の画像データを特定部203に供給する。
[Second Embodiment]
Hereinafter, the second embodiment of the present invention will be described focusing on differences from the first embodiment. In the first embodiment, text is specified as content. In the second embodiment, a case where an image is specified will be described.
The extraction unit 202 of this embodiment extracts an image by the method described in the first embodiment even when the content acquired by the acquisition unit 201 includes image content. In this case, the <img> tag is determined in advance as the second extraction regulation information, and the extraction unit 202 extracts the second extraction regulation from the regulation part extracted based on the first extraction regulation information from the page source. The <img> tag that is information is extracted. The extraction unit 202 extracts the image indicated by the image data by extracting the image data in which the extracted <img> tag defines the display mode from the content data supplied from the acquisition unit 201. The extraction unit 202 supplies the image data of the extracted image to the specifying unit 203.

特定部203は、抽出部202により抽出された画像の中から、第2の条件を満たすものを特定する。本実施形態では、抽出された画像のうち、画像のサイズ(全体のファイルサイズまたは画素数)が最大のものが満たすという条件が第2の条件として定められている。特定部203は、制御装置21が実現する機能である。制御装置21は、例えば次の方法でこの抽出を行う。   The identifying unit 203 identifies an image that satisfies the second condition from the images extracted by the extracting unit 202. In the present embodiment, a condition that an extracted image having the largest image size (total file size or number of pixels) is satisfied as the second condition. The specifying unit 203 is a function realized by the control device 21. The control device 21 performs this extraction, for example, by the following method.

制御装置21は、抽出部202から供給された画像データのヘッダを参照して各画像のサイズ(ファイルサイズまたは画素数)を取得する。そして、制御装置21は、取得した画像のサイズが最も大きい画像データを、第2の条件を満たす画像として特定する。画像のサイズが最も大きい画像データが複数ある場合には、制御装置21は、それらの画像データが示す画像の表示の態様を規定する<img>タグが<body>タグにおいて最初に現れるものを、第2の条件を満たす画像として特定する。このようにして、特定部203は、取得部201により取得されたコンテンツに画像のコンテンツが含まれている場合には、それらの画像のうち、画像のサイズが最も大きいものを、判断情報を満たすコンテンツとして特定する。上述した特定を行う。特定部203は、特定した画像を示す画像データを生成部204に供給する。   The control device 21 refers to the header of the image data supplied from the extraction unit 202 and acquires the size (file size or number of pixels) of each image. And the control apparatus 21 specifies the image data with the largest size of the acquired image as an image which satisfy | fills 2nd conditions. When there are a plurality of image data having the largest image size, the control device 21 determines that the <img> tag that defines the display mode of the image indicated by the image data first appears in the <body> tag, The image satisfying the second condition is specified. In this way, when the content acquired by the acquisition unit 201 includes image content, the specifying unit 203 satisfies the determination information for the image having the largest image size among the images. Identify as content. The above identification is performed. The specifying unit 203 supplies image data indicating the specified image to the generating unit 204.

生成部204は、特定部203により特定された画像に応じて部分情報を生成する。生成部204は、例えば、特定部203から供給された画像データが示す画像を予め決められた画素数(例えば縦128×横128画素)の画像に加工した部分情報を生成する。情報処理装置20は、生成部204により生成された部分情報を用いて、図9に示すステップS19においてブックマークデータを生成する。   The generation unit 204 generates partial information according to the image specified by the specifying unit 203. For example, the generation unit 204 generates partial information obtained by processing the image indicated by the image data supplied from the specifying unit 203 into an image having a predetermined number of pixels (for example, 128 vertical × 128 horizontal). The information processing apparatus 20 uses the partial information generated by the generation unit 204 to generate bookmark data in step S19 shown in FIG.

本実施形態で述べた抽出部202による画像の抽出及び特定部203による画像の特定は、コンテンツに画像が含まれている場合に行われる。また、第1実施形態で述べた抽出部202によるテキストの抽出及び特定部203によるテキストの特定は、コンテンツにテキストが含まれている場合に行われる。つまり、コンテンツにテキスト及び画像の両方が含まれている場合には、それぞれの抽出及び特定が行われ、一方だけが含まれている場合には、含まれている方のコンテンツの抽出及び特定が行われる。   The image extraction by the extraction unit 202 and the image specification by the specifying unit 203 described in the present embodiment are performed when an image is included in the content. Further, the extraction of text by the extraction unit 202 and the specification of text by the specification unit 203 described in the first embodiment are performed when text is included in the content. That is, when both text and images are included in the content, the respective extraction and identification are performed, and when only one is included, the extraction and identification of the included content is performed. Done.

図10は、本実施形態におけるブックマークの一例を示す図である。図10では、テキスト及び画像の両方の抽出及び特定が行われた場合に生成されるブックマークA2が示されている。ブックマークA2には、図2に示すタイトルA11及びアクセス先A12と、生成部204により生成された部分情報に含まれるテキストA23及び画像A24(縦128×横128画素の画像)とが含まれている。本実施形態によれば、図11に示すようにウェブページに含まれる画像を表したブックマークが生成されるため、ユーザは、ブックマークに画像が含まれていない場合に比べて、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することができる。   FIG. 10 is a diagram illustrating an example of a bookmark in the present embodiment. FIG. 10 shows a bookmark A2 generated when both text and image are extracted and specified. The bookmark A2 includes the title A11 and the access destination A12 illustrated in FIG. 2, and the text A23 and the image A24 (128 × 128 pixels) included in the partial information generated by the generation unit 204. . According to the present embodiment, as shown in FIG. 11, a bookmark representing an image included in the web page is generated. Therefore, the user can read the bookmark from the web page as compared with the case where the bookmark does not include an image. A part that makes it possible to grasp the contents in more detail can be extracted.

[第3実施形態]
本発明の第3実施形態について、以下、第1及び第2実施形態と異なる点を中心に説明する。第1及び第2実施形態では、どの情報処理装置20にもウェブページを提供するウェブサーバ装置(例えば図1に示すウェブサーバ装置40)から規定情報及び少なくとも1つ以上のコンテンツが取得されたが、第3実施形態では、登録されたユーザとして認証されなければウェブページを提供しないウェブサーバ装置から規定情報及び少なくとも1つ以上のコンテンツが取得される場合について説明する。
[Third Embodiment]
Hereinafter, the third embodiment of the present invention will be described focusing on differences from the first and second embodiments. In the first and second embodiments, the regulation information and at least one or more contents are acquired from a web server device (for example, the web server device 40 shown in FIG. 1) that provides a web page to any information processing device 20. In the third embodiment, a case will be described in which prescribed information and at least one content are acquired from a web server device that does not provide a web page unless the user is authenticated as a registered user.

図11は、本実施形態のブックマークサービス提供システム1aの全体構成を示す図である。ブックマークサービス提供システム1aは、図1に示すウェブサーバ装置40に代えて、会員向けウェブサーバ装置40aを備えている。また、情報処理装置20は、専用ブラウザ30aのプログラムを記憶している。ブックマークサービス提供システム1aにおいては、上述したブックマークサーバ装置10による認証は、専用ブラウザ30aのプログラムが実行されている情報処理装置20からしか行えないようになっている。つまり、専用ブラウザ30aは、ブックマークサーバ装置10が提供するサービスを利用するために必要な専用の機能を有するブラウザである。会員向けウェブサーバ装置40aは、登録された会員を認証するための会員情報として、ユーザを識別する識別情報(例えばユーザID)とその識別情報に対応付けられたパスワードとを保持しており、これらの会員情報によってユーザを認証する機能を有している。会員向けウェブサーバ装置40aは、この認証がされた情報処理装置20からのページ要求データに対しては、会員向けのウェブページを示す会員向けウェブページデータを返信するが、この認証がされていない情報処理装置20からのページ要求データに対しては、会員向けウェブページデータを返信しない。このようにして、会員向けウェブサーバ装置40aは、登録された会員に限定して会員向けウェブページを提供するサービスを行っている。このような会員向けウェブサーバ装置には、例えば、医療従事者だけを会員として登録し、医薬品の情報を掲載した会員向けウェブページを提供するものがある。これにより、医療従事者にしか提供が許されていない医薬品の情報を医療従事者にだけ提供することができる。   FIG. 11 is a diagram showing an overall configuration of the bookmark service providing system 1a according to the present embodiment. The bookmark service providing system 1a includes a web server device 40a for members instead of the web server device 40 shown in FIG. Further, the information processing apparatus 20 stores a program for the dedicated browser 30a. In the bookmark service providing system 1a, the above-described authentication by the bookmark server device 10 can be performed only from the information processing device 20 in which the program of the dedicated browser 30a is executed. In other words, the dedicated browser 30a is a browser having a dedicated function necessary for using the service provided by the bookmark server device 10. The web server device 40a for members holds identification information (for example, user ID) for identifying a user and a password associated with the identification information as member information for authenticating a registered member. It has a function to authenticate the user with the member information. The member web server device 40a returns the member web page data indicating the member web page to the page request data from the authenticated information processing device 20, but this authentication is not performed. In response to the page request data from the information processing apparatus 20, the web page data for members is not returned. In this way, the web server device for members 40a provides a service for providing a web page for members only to registered members. Such member web server devices include, for example, members that register only medical personnel as members and provide a member web page on which information on pharmaceuticals is posted. This makes it possible to provide only the medical staff with information on medicines that are only allowed to be provided to medical staff.

図12は、本実施形態のサービス提供処理における各装置の動作を示すシーケンス図である。このサービス提供処理は、情報処理装置20を所持するユーザが、図11に示す専用ブラウザ30aを起動する操作を行うことを契機に開始される。情報処理装置20は、この操作が行われると、記憶装置22に記憶されている専用ブラウザ30aのプログラムを実行して、専用ブラウザ30aを起動する(ステップS30)。専用ブラウザ30aを起動すると、情報処理装置20の表示装置24には、認証情報(ユーザの識別情報及びパスワード)を入力するための画面が表示される。ここでユーザが認証情報を入力する操作を行うと、情報処理装置20は、その認証情報の入力を受け付け(ステップS31)、受け付けた認証情報を示す認証情報データをブックマークサーバ装置10に送信する(ステップS32)。ブックマークサーバ装置10は、認証情報データを受信すると、そのデータが示す認証情報(「受信認証情報」という。)に基づいて、登録されたユーザ(登録ユーザ)の認証を行う(ステップS33)。ブックマークサーバ装置10は、記憶している認証情報(「記憶認証情報」という。)と受信認証情報とが一致する場合、受信認証情報に含まれる識別情報により識別されるユーザを登録ユーザとして認証し、認証した旨を通知する通知データを情報処理装置20に送信する(ステップS34)。   FIG. 12 is a sequence diagram showing the operation of each device in the service providing process of this embodiment. This service providing process is started when the user who possesses the information processing apparatus 20 performs an operation for starting the dedicated browser 30a shown in FIG. When this operation is performed, the information processing apparatus 20 executes the program of the dedicated browser 30a stored in the storage device 22 and activates the dedicated browser 30a (step S30). When the dedicated browser 30a is activated, a screen for inputting authentication information (user identification information and password) is displayed on the display device 24 of the information processing device 20. When the user performs an operation for inputting authentication information, the information processing apparatus 20 receives an input of the authentication information (step S31), and transmits authentication information data indicating the received authentication information to the bookmark server apparatus 10 ( Step S32). Upon receiving the authentication information data, the bookmark server device 10 authenticates the registered user (registered user) based on the authentication information indicated by the data (referred to as “reception authentication information”) (step S33). When the stored authentication information (referred to as “stored authentication information”) matches the received authentication information, the bookmark server device 10 authenticates the user identified by the identification information included in the received authentication information as a registered user. Then, notification data for notifying that authentication has been performed is transmitted to the information processing apparatus 20 (step S34).

情報処理装置20は、通知データを受信したあと、例えばユーザの操作により会員向けウェブサーバ装置40aが提供する会員向けウェブサイトにアクセスして会員情報を入力するための会員向けウェブページを表示する。ここでユーザが会員情報を入力する操作を行うと、情報処理装置20は、その会員情報を示す会員情報データを会員向けウェブサーバ装置40aに送信する(ステップS35)。会員向けウェブサーバ装置40aは、受信した会員情報に基づいてユーザを登録会員として認証し(ステップS36)、会員向けウェブページデータを情報処理装置20に送信する(ステップS37)。送信されてきた会員向けウェブページデータを情報処理装置20が表示したあとは、ユーザの操作により、情報処理装置20と会員向けウェブサーバ装置40aとの間では、ページ要求データ及び会員向けウェブページデータのやり取りが行われる(ステップS38)。ここで、ユーザがブックマーク作成操作(図7に示すメニューB2の「ブックマーク作成」を選択する操作)を行うと、情報処理装置20は、ブックマーク作成操作を受け付けて(ステップS39)、この操作を受け付けたときに表示している会員向けウェブページのブックマークデータを生成する(ステップS40)。そして、情報処理装置20は、生成したブックマークデータを記憶し(ステップS41)、ブックマークサーバ装置10に送信する(ステップS42)。ブックマークサーバ装置10は、受信したブックマークデータを保持する(ステップS43)。
なお、ステップS31からS34までのブックマークサーバ装置10による認証と、ステップS35からS37までの会員向けウェブサーバ装置40aによる認証とは、順番が逆になる場合もある。例えば、会員向けウェブページを閲覧しているユーザがブックマークを作成したくなったときに、ブックマークサーバ装置10の認証を行うという場合である。
After receiving the notification data, the information processing device 20 displays a member web page for accessing member web sites provided by the member web server device 40a by user operation and inputting member information, for example. When the user performs an operation to input member information, the information processing apparatus 20 transmits member information data indicating the member information to the member-oriented web server apparatus 40a (step S35). The web server device for members 40a authenticates the user as a registered member based on the received member information (step S36), and transmits web page data for members to the information processing device 20 (step S37). After the information processing device 20 displays the transmitted web page data for members, the page request data and the web page data for members are transferred between the information processing device 20 and the web server device 40a for members by user operation. Are exchanged (step S38). Here, when the user performs a bookmark creation operation (operation for selecting “bookmark creation” in menu B2 shown in FIG. 7), the information processing apparatus 20 accepts the bookmark creation operation (step S39) and accepts this operation. The bookmark data of the web page for the member displayed at the time of generation is generated (step S40). Then, the information processing apparatus 20 stores the generated bookmark data (step S41) and transmits it to the bookmark server apparatus 10 (step S42). The bookmark server device 10 holds the received bookmark data (step S43).
Note that the order of the authentication by the bookmark server device 10 from steps S31 to S34 and the authentication by the member web server device 40a from steps S35 to S37 may be reversed. For example, when the user who browses the web page for members wants to create a bookmark, the bookmark server device 10 is authenticated.

情報処理装置20は、会員として登録されているユーザにより操作されて上記の認証がされることで、会員向けウェブサーバ装置40aから会員向けウェブページデータを取得できるようになる。これにより、図6に示す取得部201は、会員向けウェブサーバ装置40aにより提供されている認証が必要な会員向けウェブページの規定情報及びコンテンツを取得する。一方、ブックマークサーバ装置10は、情報処理装置20とはデータをやり取りするが、会員向けウェブサーバ装置40aとはデータのやり取りを行うことがない。このため、会員向けウェブサーバ装置40aからブックマークサーバ装置10に対して会員向けウェブページが提供されることがなく、ブックマークサーバ装置10は、会員向けウェブページの部分情報を含むブックマークを生成することができない。   The information processing apparatus 20 can acquire web page data for members from the web server apparatus for members 40a by being operated by a user registered as a member and performing the above authentication. As a result, the acquisition unit 201 illustrated in FIG. 6 acquires the provision information and content of the web page for members that is provided by the web server device 40a for members and requires authentication. On the other hand, the bookmark server device 10 exchanges data with the information processing device 20, but does not exchange data with the web server device for members 40a. For this reason, a web page for members is not provided from the web server device for members 40a to the bookmark server device 10, and the bookmark server device 10 can generate a bookmark including partial information of the web pages for members. Can not.

本変形例では、図12に示す各ステップの動作が行われることで、情報処理装置20において生成された会員向けウェブページの一部分を表すブックマークデータがブックマークサーバ装置10に保持される。このように、本実施形態によれば、会員向けウェブページデータを取得することができないブックマークサーバ装置10において、会員向けウェブページデータの一部分を表すブックマークデータを保持することができる。また、情報処理装置20においても、ブックマークデータを記憶したあとは、会員向けウェブサーバ装置40aによる認証及びブックマークサーバ装置10による認証がされていなくても、記憶したブックマークデータに含まれる部分情報から、会員向けウェブページの内容をユーザに把握させることができる。   In the present modification, bookmark data representing a part of the web page for members generated in the information processing apparatus 20 is held in the bookmark server apparatus 10 by performing the operation of each step shown in FIG. Thus, according to the present embodiment, the bookmark server device 10 that cannot acquire the web page data for members can hold the bookmark data representing a part of the web page data for members. Also, in the information processing apparatus 20, after storing the bookmark data, even if the authentication by the member web server apparatus 40a and the authentication by the bookmark server apparatus 10 are not performed, from the partial information included in the stored bookmark data, The content of the web page for members can be grasped by the user.

[変形例]
上述した各実施形態は、本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、上述した各実施形態及び以下に示す各変形例は、必要に応じて組み合わせて実施してもよい。
[Modification]
Each embodiment mentioned above is only an example of implementation of the present invention, and may be changed as follows. Moreover, you may implement combining each embodiment mentioned above and each modification shown below as needed.

(変形例1)
抽出部202は、上述した各実施形態では、ページソースから第1の抽出規定情報に基づいた規定部分を抜き出し、抜き出した規定部分のからさらに第2の抽出規定情報に基づいた規定部分を抜き出したが、これには限らない。例えば、抽出部202は、予め組み合わせが決められた第1の抽出規定情報及び第2の抽出規定情報に基づいた規定部分をページソースから抜き出してもよい。予め組み合わせが決められた第1の抽出規定情報及び第2の抽出規定情報とは、例えば、<article>タグ内の<p>タグや、<body>タグ内の<div>タグなどである。抽出部202は、前者の場合、<article>タグにより挟まれている規定部分の全てを抜き出すのではなく、そのうちの<p>タグにより挟まれている規定部分だけを抜き出し、後者の場合、<body>タグにより挟まれている規定部分の全てを抜き出すのではなく、そのうちの<div>タグにより挟まれている規定部分だけを抜き出す。
(Modification 1)
In each embodiment described above, the extraction unit 202 extracts a specified part based on the first extraction specification information from the page source, and further extracts a specified part based on the second extraction specification information from the extracted specification part. However, it is not limited to this. For example, the extraction unit 202 may extract a specified portion based on the first extraction specification information and the second extraction specification information whose combination is determined in advance from the page source. The first extraction rule information and the second extraction rule information whose combinations are determined in advance are, for example, the <p> tag in the <article> tag and the <div> tag in the <body> tag. In the former case, the extraction unit 202 does not extract all of the defined portions sandwiched between <article> tags, but extracts only the defined portions sandwiched between <p> tags, and in the latter case, < Rather than extracting all the defined parts sandwiched by the body> tag, only the defined parts sandwiched by the <div> tags are extracted.

また、ウェブページのページソースでは、<div>タグの中に<div>タグで表示の態様が規定されるコンテンツが含まれて(いわゆるネストがされて)いたり、<div>タグの中に<p>タグで表示の態様が規定されるコンテンツが含まれていたりする場合がある。
図13は、ページソースの一例を示す図である。図13では、<body>タグD1の中に<div>タグD2が含まれており、<div>タグD2の中に<div>タグD31及びD32が含まれている。<div>タグD31の中には、<p>タグD41及びD42が含まれている。<p>タグD41及びD42は、それぞれ「○○○○○」及び「◇◇◇◇◇」というテキストの表示の態様を規定している。<div>タグD32は、「◎◎◎◎◎」というテキストの表示の態様を規定している。抽出部202は、図13のような場合、最も下位の第2の規定情報(その中に他の第2の規定情報が含まれていないもの)によって挟まれている規定部分を抜き出す。抽出部202は、図13の例では、<p>タグD41、D42及び<div>タグD32によって挟まれている規定部分をそれぞれ抜き出す。この場合、抜き出した規定部分に他の規定情報が含まれていないので、抽出部202は、抜き出したこれらの規定部分をそのままコンテンツとして抽出する。
In addition, in the page source of a web page, content whose display mode is defined by the <div> tag is included in the <div> tag (so-called nesting), or the <div> tag includes < In some cases, content whose display mode is defined by the p> tag is included.
FIG. 13 is a diagram illustrating an example of a page source. In FIG. 13, a <body> tag D1 includes a <div> tag D2, and a <div> tag D2 includes <div> tags D31 and D32. The <div> tag D31 includes <p> tags D41 and D42. <P> Tags D41 and D42 define the display mode of the text “XXXXXX” and “◇◇◇◇◇”, respectively. The <div> tag D32 defines the display mode of the text “◎◎◎◎◎”. In the case shown in FIG. 13, the extraction unit 202 extracts the specified portion sandwiched between the lowest second specified information (that does not include other second specified information). In the example of FIG. 13, the extraction unit 202 extracts the specified portions sandwiched between the <p> tags D41 and D42 and the <div> tag D32. In this case, since the other specified information is not included in the extracted specified part, the extraction unit 202 extracts the extracted specified part as content as it is.

(変形例2)
抽出部202は、上述した各実施形態では、ページソースから第1の抽出規定情報によって挟まれている規定部分を全て抜き出し、そうして抜き出した規定部分のうち第2の抽出規定情報により挟まれている規定部分も全て抜き出したが、これには限らない。抽出部202は、ブックマークサービス提供システム1において抽出規定情報に対して定められた優先順位に基づいてコンテンツを抽出してもよい。本変形例の抽出部202は、上述した各実施形態と同様に制御装置21及び記憶装置22が協働して実現する機能である。記憶装置22は、抽出規定情報及び優先順位を対応付けたテーブルを記憶している。
(Modification 2)
In each of the above-described embodiments, the extraction unit 202 extracts all the specified parts sandwiched by the first extraction regulation information from the page source, and is sandwiched by the second extraction regulation information among the extracted regulation parts. All of the prescribed parts are also extracted, but not limited to this. The extraction unit 202 may extract content based on the priority order determined for the extraction regulation information in the bookmark service providing system 1. The extraction unit 202 of this modification is a function realized by the control device 21 and the storage device 22 in cooperation as in the above-described embodiments. The storage device 22 stores a table in which the extraction regulation information and the priority order are associated with each other.

図14は、抽出規定情報及び優先順位を対応付けたテーブルの一例を示す表である。このテーブルでは、「1」から「3」までの3つの「優先順位」に対して、「<article>タグ」、「<body>タグ内の<p>タグ」及び「その他のタグ」3つの「抽出規定情報」が対応付けられている。これらの「優先順位」は、数字が小さいほど、優先順位が高い(つまり「1」が最も優先順位が高い。)ことを表している。制御装置21は、このテーブルを参照して、まず、取得部201により取得された規定情報に<article>タグが含まれていれば、その<article>タグに挟まれている規定部分を抜き出す。<article>タグが含まれていない場合、制御装置21は、この規定情報に<body>タグ内の<p>タグが含まれていれば、その<p>タグに挟まれている規定部分を抜き出す。<body>タグ内の<p>タグも含まれていない場合、制御装置21は、その他の抽出規定情報(<meta>タグのdesctiption、<div>タグ、<p>タグなど)に基づいて規定部分を抜き出す。   FIG. 14 is a table showing an example of a table in which the extraction rule information and the priority order are associated with each other. In this table, three “priorities” from “1” to “3” have three “<article> tag”, “<p> tag” in “<body>” tag, and “other tag” “Extraction rule information” is associated. These “priorities” indicate that the smaller the number, the higher the priority (that is, “1” has the highest priority). With reference to this table, the control device 21 first extracts the specified portion sandwiched between the <article> tags if the <article> tag is included in the specified information acquired by the acquiring unit 201. If the <article> tag is not included, the control device 21 determines that the specified portion sandwiched between the <p> tags is included in the specified information if the <p> tag in the <body> tag is included. Extract. When the <p> tag in the <body> tag is not included, the control device 21 specifies based on other extraction specifying information (description of <meta> tag, <div> tag, <p> tag, etc.) Extract the part.

本変形例における第1の条件は、取得部201が複数の抽出規定情報(具体的には第1及び第2の抽出規定情報)を取得した場合において、取得された或る抽出規定情報が、その他に取得された抽出規定情報に比べて上記のとおり定められた優先順位が高い場合に満たされる。この第1の条件は、換言すると、取得された抽出規定情報のうち優先順位が最も高いものが満たす条件である。この場合、抽出部202は、取得された抽出規定情報のうち上記の優先順位が最も高いものを第1の条件を満たす抽出規定情報として、その抽出規定情報によって規定される表示の態様で表示されるコンテンツを抽出する。このような本変形例においては、ウェブページの内容を他のコンテンツに比べてより詳しく表すコンテンツの表示の態様を規定する可能性が高い抽出規定情報の順番で優先順位が定められることで、優先順位を定めない場合に比べて、ウェブページの内容をより詳しく表すコンテンツが抽出され、その結果、生成される部分情報がウェブページの内容をより詳しく表したものになる。従って、本変形例によれば、優先順位を定めない場合に比べて、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することができる。   The first condition in this modification is that when the acquisition unit 201 acquires a plurality of extraction rule information (specifically, the first and second extraction rule information), the acquired certain extraction rule information is It is satisfied when the priority order determined as described above is higher than the other extracted regulation information. In other words, the first condition is a condition that is satisfied by the extracted extraction regulation information having the highest priority. In this case, the extraction unit 202 displays the extracted extraction rule information having the highest priority as the extraction rule information satisfying the first condition in the display mode defined by the extraction rule information. Content to be extracted. In this modified example, the priority order is determined in the order of the extraction specification information that is likely to specify the display mode of the content that expresses the details of the web page in more detail than other content. Compared with the case where the ranking is not determined, the content representing the details of the web page in more detail is extracted, and as a result, the generated partial information represents the details of the web page in more detail. Therefore, according to the present modification, it is possible to extract a part from the web page that makes it possible to grasp the details in more detail than when the priority order is not set.

なお、図14に示すテーブルでは3つの優先順位が定められていたが、これに限らず、2つの優先順位が定められていてもよいし、4つ以上の優先順位が定められていてもよい。また、第1、第2及び第3の抽出規定情報の全てに優先順位が定められていてもよい。その場合、異なる種類の抽出規定情報が同時に抽出されることがなくなる。いずれも場合も、前述した可能性の高さに基づいて優先順位が定められることが望ましい。また、抽出部202は、優先順位が高い方から所定の順番までに含まれる抽出規定情報に基づいた規定部分を抜き出してもよい。この場合、抽出部202は、取得された抽出規定情報のうち上記の優先順位が高いものから所定の順番までに含まれるものを第1の条件を満たす抽出規定情報として、その抽出規定情報によって規定される表示の態様で表示されるコンテンツを抽出する。また、図14では、1つの優先順位に1つの抽出規定情報が対応付けられていたが、複数の抽出規定情報が対応付けられていてもよい。この場合、抽出部202は、1つの優先順位に対応付けられたもののうち、いずれか1つでも抽出規定情報に基づいた規定部分を抜き出すことができれば、その抜き出した規定部分に含まれるコンテンツを抽出することで、優先順位が最も高い抽出規定情報によって規定される態様で表示されるコンテンツを抽出することができる。   In the table shown in FIG. 14, three priorities are defined. However, the present invention is not limited to this, and two priorities may be defined, or four or more priorities may be defined. . Moreover, the priority order may be defined for all of the first, second, and third extraction regulation information. In this case, different types of extraction regulation information are not extracted at the same time. In either case, it is desirable that the priority order be determined based on the high possibility described above. Further, the extraction unit 202 may extract a specified portion based on the extraction specification information included in a predetermined order from the highest priority. In this case, the extraction unit 202 defines the extracted extraction rule information included in a predetermined order from the above-described high priority as extraction rule information satisfying the first condition, based on the extraction rule information. The content displayed in the display mode is extracted. In FIG. 14, one piece of extraction rule information is associated with one priority, but a plurality of pieces of extraction rule information may be associated. In this case, the extraction unit 202 extracts the content included in the extracted specified portion if any one of the items associated with one priority order can be extracted based on the extracted specified information. By doing so, it is possible to extract the content displayed in a manner prescribed by the extraction regulation information having the highest priority.

(変形例3)
抽出部202は、上述した各実施形態では、ページソースから抜き出した規定部分に規定情報が含まれている場合、その規定情報を削除したが、削除せずにコンテンツとともに抽出してもよい。つまり、抽出部202は、コンテンツを、そのコンテンツの表示の態様を規定する規定情報であり、且つ、抽出規定情報以外の規定情報とともに抽出する。この場合、生成部204は、コンテンツとともに抽出された規定情報を含み、且つ、抽出されたコンテンツを表すページソースを部分情報として生成し、情報処理装置20は、その部分情報を含んだブックマーク(ブックマークデータ)を生成する。
図16は、本変形例において生成されるブックマークの一例を示す図である。図16では、ブラウザに表示されたブックマークA4が示されている。ブックマークA4には、図2に示すA11及びA12に加え、ウェブページのコンテンツであるテキストA41が含まれている。テキストA41は、図7に示すテキストB42と同じように、フォントの拡大及び改行という装飾が施されている。このように、本変形例によれば、ブックマークに含まれるウェブページの一部分をウェブページと同じ表示の態様で表示させることができる。
(Modification 3)
In each embodiment described above, the extraction unit 202 deletes the regulation information when the regulation information is included in the regulation part extracted from the page source. However, the extraction unit 202 may extract the regulation information together with the content without deleting the regulation information. That is, the extraction unit 202 extracts content together with the definition information that defines the display mode of the content and the definition information other than the extraction definition information. In this case, the generation unit 204 generates, as partial information, a page source that includes the regulation information extracted together with the content and represents the extracted content, and the information processing apparatus 20 includes a bookmark (bookmark including the partial information) Data).
FIG. 16 is a diagram illustrating an example of a bookmark generated in the present modification. In FIG. 16, the bookmark A4 displayed on the browser is shown. In addition to A11 and A12 shown in FIG. 2, the bookmark A4 includes a text A41 that is the content of the web page. The text A41 is decorated with font enlargement and line feed, similar to the text B42 shown in FIG. Thus, according to this modification, a part of the web page included in the bookmark can be displayed in the same display manner as the web page.

(変形例4)
抽出部202は、上述した各実施形態では、抽出規定情報に基づいて抜き出した規定部分に規定情報が含まれている場合にその規定情報を削除したが、その他にも、予め決められた規定情報を削除してもよい。抽出部202は、例えば、文字を装飾する規定情報として、<a>タグ、<font>タグ、<strong>タグ及び<table>タグ等を削除する。また、抽出部202は、広告などウェブページの内容と直接関係しないコンテンツを規定する規定情報として、<>の中に所定の文字列を含むタグを削除し、さらに、そのタグによって表示の態様が規定されているコンテンツを削除する。本変形例によれば、部分情報に含めたくない規定情報だけを削除することができる。
(Modification 4)
In each of the above-described embodiments, the extraction unit 202 deletes the regulation information when the regulation information is included in the regulation part extracted based on the extraction regulation information. May be deleted. For example, the extraction unit 202 deletes the <a> tag, the <font> tag, the <strong> tag, the <table> tag, and the like as the definition information for decorating characters. Further, the extraction unit 202 deletes a tag including a predetermined character string in <> as definition information that defines content such as an advertisement that is not directly related to the content of the web page, and further, the display mode is determined by the tag. Delete the specified content. According to this modification, it is possible to delete only the regulation information that is not desired to be included in the partial information.

(変形例5)
特定部203は、上述した各実施形態とは異なる第2の条件を用いてもよい。例えば、特定部203は、ページソース(上述した記述データ)においてコンテンツが記述される位置に基づいてコンテンツを特定してもよい。この場合、特定部203は、例えば、抽出された各コンテンツのうち、ページソースにおいて記述される位置がページソースの先頭に最も近いものを、第2の条件を満たすコンテンツとして特定する。図8に示す例において第1実施形態と同様にコンテンツが抽出部202により抽出された場合、テキストC2、C4及びC5が抽出される。この場合、特定部203は、ページソースの先頭に最も近い位置に記述されているテキストC2を、第2の条件を満たすテキストとして特定する。図8の例では、コンテンツがテキストである場合が示されているが、特定部203は、コンテンツが画像や動画である場合も同様にコンテンツを特定する。この場合、特定部203は、コンテンツデータが記憶されている場所の記述がページソースの先頭に最も近いものを、第2の条件を満たすコンテンツとして特定する。
(Modification 5)
The specifying unit 203 may use a second condition different from each of the above-described embodiments. For example, the specifying unit 203 may specify the content based on the position where the content is described in the page source (description data described above). In this case, for example, the specifying unit 203 specifies, as the content satisfying the second condition, the extracted content whose position described in the page source is closest to the top of the page source. In the example shown in FIG. 8, when content is extracted by the extraction unit 202 as in the first embodiment, texts C2, C4, and C5 are extracted. In this case, the specifying unit 203 specifies the text C2 described at the position closest to the top of the page source as the text that satisfies the second condition. In the example of FIG. 8, the case where the content is text is shown, but the specifying unit 203 similarly specifies the content even when the content is an image or a moving image. In this case, the specifying unit 203 specifies the content whose description of the location where the content data is stored is closest to the top of the page source as the content that satisfies the second condition.

本変形例では、上記のとおり、ページソースにおいて記述される位置がそのページソースの先頭に最も近いコンテンツが特定される。上述した第1及び第2の抽出規定情報の中では、<head>タグに記述される<meta>タグのdescriptionが、<body>タグに記述される<p>タグや<div>タグ、または<article>タグに比べてページソースの先頭に近い位置に記述されることが多い。このdescriptionは、上述したとおり、ウェブページの説明を規定するためのものであるため、そのウェブページの内容を他のコンテンツに比べてより詳しく表していることが多い。また、ページソースにおいて記述される位置がそのページソースの先頭に近いコンテンツは、それよりも遠いコンテンツに比べて、ウェブページにおいても先頭により近い位置に表示されやすい。そして、ウェブページは、ユーザにその内容を確実に伝えるため、先頭に近い位置に要点が掲載されているもののほうが、先頭から離れた位置に要点が掲載されているものよりも多い。従って、本変形例によれば、ページソース上で記述されている位置に関係なく(つまりdescriptionの内容やウェブページにおける掲載位置を考慮しないで)コンテンツを特定する場合に比べて、ウェブページの要点を表すコンテンツが抽出されやすくなり、その結果、生成される部分情報がウェブページの内容をより詳しく表したものになりやすくなる。よって、本変形例によれば、前述の考慮をしないでコンテンツを特定する場合に比べて、ウェブページから、その内容をより詳しく把握可能とする一部分を抽出することができる。   In this modification, as described above, the content whose position described in the page source is closest to the top of the page source is specified. In the first and second extraction regulation information described above, the description of the <meta> tag described in the <head> tag is the <p> tag or the <div> tag described in the <body> tag, or It is often described at a position closer to the top of the page source than the <article> tag. Since the description is for defining the description of the web page as described above, the description of the web page is often expressed in more detail than other contents. Further, content whose position described in the page source is close to the top of the page source is likely to be displayed at a position closer to the top of the web page than content farther than that. In order to reliably convey the content of the web page to the user, there are more web pages with the main points posted at positions closer to the head than those with the main points posted at positions away from the head. Therefore, according to the present modification, the main points of the web page are compared with the case where the content is specified regardless of the position described on the page source (that is, without considering the description contents and the posting position on the web page). As a result, the partial information to be generated is more likely to represent the details of the web page. Therefore, according to the present modification, it is possible to extract a part from the web page that makes it possible to grasp the details in more detail than when the content is specified without taking the above-described consideration into consideration.

(変形例6)
特定部203は、抽出されたコンテンツにテキストのコンテンツが含まれている場合には、そのテキストに含まれる特定の文字列(キーワード)の数に基づいてテキストを特定してもよい。例えば、特定部203は、抽出された各テキストのうち、それらのテキストに含まれる特定の文字列の数が最も多いものを、第2の条件を満たすテキストとして特定する。本変形例の特定部203は、制御装置21及び記憶装置22が協働して実現する機能である。記憶装置22は、予め決められた特定の文字列の一覧を記憶する。制御装置21は、抽出部202により抽出された各テキストに含まれる特定の文字列の数を、周知のテキストマッチング技術を用いて、テキスト毎に計数する。制御装置21は、計数した数が最も多いテキストを、第2の条件を満たすテキストとして特定する。
(Modification 6)
When the extracted content includes text content, the specifying unit 203 may specify the text based on the number of specific character strings (keywords) included in the text. For example, the specifying unit 203 specifies the text having the largest number of specific character strings included in the extracted text as the text satisfying the second condition. The specifying unit 203 of this modification is a function realized by the control device 21 and the storage device 22 in cooperation. The storage device 22 stores a list of specific character strings determined in advance. The control device 21 counts the number of specific character strings included in each text extracted by the extraction unit 202 for each text using a known text matching technique. The control device 21 identifies the text with the largest number as the text that satisfies the second condition.

例えば他のコンテンツのテキストよりもテキストの量が多い引用文を掲載していたり、ウェブページの要点がそのページの後半に掲載されていたりすると、上述したテキストの量や掲載位置からではより詳しいウェブページの内容を表すコンテンツが抽出されない場合がある。このような場合に、ユーザの関心がある語句を表す特定の文字列(例えば消化器科の医療従事者がユーザであれば、消化器科でよく診察される症状の名称やよく用いられる医薬品の名称)を予め定めておくことで、特定の文字列に基づかないでコンテンツを特定する場合に比べて、ウェブページのうちユーザの関心がある一部分を表すコンテンツが特定されやすくなり、その結果、ウェブページがユーザにとって関心がある内容であるか否かをより把握しやいようにすることができる。   For example, if you have quotes that contain more text than other content texts, or if the main points of a web page are posted later in the page, a more detailed Content representing the contents of the page may not be extracted. In such a case, a specific character string representing a word of interest of the user (for example, if the gastroenterologist is a user, the name of a symptom often examined in the gastroenterology department or a commonly used medicine (Name) in advance, it becomes easier to identify content that represents a part of the web page that the user is interested in, compared to the case where content is not identified based on a specific character string. It is possible to make it easier to grasp whether or not the page has contents of interest to the user.

なお、情報処理装置20においては、特定の文字列がユーザの操作により更新(変更、追加及び削除)できるようになっていてもよい。また、情報処理装置20は、次の方法で特定の文字列を更新してもよい。まず、ブックマークサーバ装置10が、各ユーザのブックマーク作成操作により生成されたブックマークデータに含まれる部分情報を抽出し、抽出した部分情報に含まれる語句のうち出現頻度が高いものから決められた順番(例えば10番目)までのものを、ブックマーク作成操作を行ったユーザの識別情報に対応付けて記憶しておく。そして、ブックマークサーバ装置10が、ユーザを認証したときに、認証した識別情報に対応付けて記憶している語句を示す文字列のデータを情報処理装置20に送信して、情報処理装置20が、送信されてきたデータが示す文字列を特定の文字列として更新する。これにより、このような更新を行わない場合に比べて、ユーザが過去に作成したブックマークが示すウェブページと似た内容を含むコンテンツが特定されやすくなり、その結果、ウェブページがユーザにとって関心がある内容であるか否かをより把握しやいようにすることができる。   In the information processing apparatus 20, a specific character string may be updated (changed, added, and deleted) by a user operation. Further, the information processing apparatus 20 may update a specific character string by the following method. First, the bookmark server device 10 extracts partial information included in the bookmark data generated by the bookmark creation operation of each user, and the order determined from the words / phrases included in the extracted partial information having the highest appearance frequency ( For example, items up to the tenth) are stored in association with the identification information of the user who performed the bookmark creation operation. When the bookmark server device 10 authenticates the user, the bookmark server device 10 transmits data of a character string indicating a phrase stored in association with the authenticated identification information to the information processing device 20. The character string indicated by the transmitted data is updated as a specific character string. This makes it easier to identify content that includes content similar to the web page indicated by the bookmark created by the user in the past, compared with the case where such updating is not performed, and as a result, the web page is of interest to the user. It is possible to make it easier to grasp whether or not the contents are contents.

(変形例7)
特定部203は、上述した各実施形態及び各変形例では、1つのコンテンツを特定したが、これに限らず、複数のコンテンツを特定してもよい。例えば、第1実施形態で述べた方法でテキストを特定する場合、特定部203は、抽出されたテキストのうち、テキストの量を表す指標が最も大きいものを特定する代わりに、抽出されたテキストのうち、テキストの量を表す指標が大きいほうから所定の順番(例えば2番目や3番目)までに含まれるものを、第2の条件を満たす前記テキストとして特定する。また、第2実施形態で述べた方法で画像を特定する場合、特定部203は、抽出された画像のうち、画像のサイズが最大のものを特定する代わりに、画像のサイズが大きいほうから所定の順番までに含まれるものを、第2の条件を満たす画像として特定する。
(Modification 7)
The identifying unit 203 identifies one content in each of the above-described embodiments and modifications, but is not limited thereto, and a plurality of contents may be identified. For example, when the text is specified by the method described in the first embodiment, the specifying unit 203 uses the extracted text instead of specifying the extracted text having the largest index indicating the amount of text. Among these, texts that are included in a predetermined order (for example, second or third) from the largest index indicating the amount of text are specified as the text that satisfies the second condition. Further, when specifying an image by the method described in the second embodiment, the specifying unit 203 determines a predetermined image from the larger image size instead of specifying the extracted image having the largest image size. Are included as an image that satisfies the second condition.

また、上記の変形例で述べたようにページソース(記述データ)においてコンテンツが記述される位置に基づいてコンテンツを特定する場合、特定部203は、ページソースにおいて記述される位置がページソースの先頭に最も近いものを特定する代わりに、ページソースにおいて記述される位置がそのページソースの先頭に近いほうから所定の順番までに含まれるものを、第2の条件を満たすコンテンツとして特定する。また、上記の変形例で述べたようにテキストに含まれる特定の文字列の数に基づいてテキストを特定する場合、特定部203は、テキストに含まれる特定の文字列の数が最も多いもの特定する代わりに、テキストに含まれる特定の文字列の数が多いものから所定の順番までに含まれるものを、第2の条件を満たすテキストとして特定する。   Further, as described in the above modification, when specifying content based on the position where the content is described in the page source (description data), the specifying unit 203 determines that the position described in the page source is the top of the page source. Instead of specifying the content closest to the page source, the content that includes the position described in the page source in the predetermined order from the closest position to the top of the page source is specified as the content that satisfies the second condition. In addition, as described in the above modification, when specifying text based on the number of specific character strings included in the text, the specifying unit 203 specifies the one having the largest number of specific character strings included in the text. Instead, texts that are included in a predetermined order starting from the one with a large number of specific character strings included in the text are specified as text that satisfies the second condition.

図15は、本変形例におけるブックマークの一例を示す図である。図15では、ブラウザに表示されたブックマークA3が示されている。ブックマークA3には、図2に示すA11、A12及びA13に加え、ウェブページのコンテンツであるテキストA31が含まれている。テキストA13は、上記のとおり特定されたウェブページのコンテンツの一部であるが、常にコンテンツの内容を他のコンテンツに比べてより詳しく表している、というわけではない。そのような場合に、2つ目のテキストA31がウェブページの内容を他のコンテンツに比べてより詳しく表していれば、ブックマークA3を見たユーザは、コンテンツの内容を、テキストA13だけを見る場合よりもより詳しく把握することができることになる。このように、本変形例によれば、2つ目(または3つ以上)のテキストを特定することで、それらのテキストを特定しない場合に比べて、コンテンツの内容をより詳しく表した情報を生成することができる。   FIG. 15 is a diagram illustrating an example of a bookmark in the present modification. In FIG. 15, the bookmark A3 displayed on the browser is shown. In addition to A11, A12, and A13 shown in FIG. 2, the bookmark A3 includes text A31 that is the content of the web page. The text A13 is a part of the content of the web page specified as described above, but does not always represent the content in more detail than the other content. In such a case, if the second text A31 represents the contents of the web page in more detail than other contents, the user who has viewed the bookmark A3 sees only the text A13 as the contents of the contents. It will be possible to grasp in more detail than. As described above, according to the present modification, by specifying the second (or three or more) texts, information representing the details of the content can be generated in comparison with the case where the texts are not specified. can do.

(変形例8)
生成部204は、上述した各実施形態では、特定されたコンテンツがテキストである場合に、そのテキストの先頭からの所定の文字数のテキストにより表される情報を、部分情報として生成したが、この文字数を変化させるようにしてもよい。例えば、生成部204は、特定されたテキストの数に応じてこの文字数を変化させてもよい。例えば、生成部204は、特定されたテキストが1つである場合は所定の文字数を100文字とし、2つである場合には50文字とし、3つである場合には33文字ずつとして、部分情報を生成する。また、生成部204は、特定部203により例えばテキストの量が多いほうから3番目までのテキストが特定された場合に、テキストの量が最も多いものは所定の文字数を50文字とし、2番目及び3番目のものは所定の文字数を25文字ずつとして、部分情報を生成してもよい。このように、生成部204は、特定されたテキストの数が増えても、部分情報に含まれるテキストの量の合計が同じか、または所定の範囲内となるように所定の文字数を変化させることが望ましい。
(Modification 8)
In each embodiment described above, when the specified content is text, the generation unit 204 generates information represented by text having a predetermined number of characters from the beginning of the text as partial information. May be changed. For example, the generation unit 204 may change the number of characters according to the number of specified texts. For example, the generation unit 204 sets the predetermined number of characters to 100 when there is one specified text, 50 characters when there are two, and 33 characters when there are three. Generate information. In addition, when the specifying unit 203 specifies, for example, the third to third texts with the largest amount of text, the generating unit 204 sets the predetermined number of characters to 50 characters with the largest number of texts. The third one may generate partial information with a predetermined number of characters of 25 characters each. As described above, the generation unit 204 changes the predetermined number of characters so that the total amount of text included in the partial information is the same or within a predetermined range even if the number of identified texts increases. Is desirable.

また、生成部204は、特定部203により1つのテキストが特定された場合に、そのテキストが所定の文字数以上である場合には、そのテキストから部分情報を生成し、所定の文字数未満である場合には、2つ目のテキストから足りない文字数のテキストを補完して部分情報を生成してもよい。その場合、生成部204は、文字数が足りないことを特定部203に通知し、特定部203は、この通知がされた場合に、2つ目のテキストを特定して生成部204に供給する。生成部204及び特定部203は、この通知及び供給の動作を、文字数が足りるようになるまで繰り返す。これにより、生成部204は、必ず所定の文字数だけコンテンツの内容が表されたブックマークを生成することができる。   In addition, when one text is specified by the specifying unit 203 and the text has a predetermined number of characters or more, the generating unit 204 generates partial information from the text, and if the text is less than the predetermined number of characters Alternatively, partial information may be generated by complementing a text with an insufficient number of characters from the second text. In that case, the generation unit 204 notifies the specification unit 203 that the number of characters is insufficient, and the specification unit 203 specifies the second text and supplies the second text to the generation unit 204 when the notification is received. The generation unit 204 and the specifying unit 203 repeat this notification and supply operation until the number of characters is sufficient. As a result, the generation unit 204 can always generate a bookmark in which the content is represented by a predetermined number of characters.

また、生成部204は、特定されたコンテンツに画像が含まれている場合には、その画像のサイズを変化させて部分情報を生成してもよい。生成部204は、例えば図10の例では特定された画像を縦128×横128画素の画像に加工したが、特定された画像が2つである場合には、例えば縦128×横64画素の画像を2つ加工してもよいし、縦90×横90画素の画像を2つ加工してもよい。このように、生成部204は、特定された画像の数が増えても、部分情報に含まれる画像のファイルサイズ(または画素数)の合計が同じか、または所定の範囲内となるように画像のサイズを変化させることが望ましい。   In addition, when the specified content includes an image, the generation unit 204 may generate partial information by changing the size of the image. For example, in the example of FIG. 10, the generation unit 204 processes the specified image into an image of vertical 128 × horizontal 128 pixels, but when there are two specified images, for example, vertical 128 × horizontal 64 pixels. Two images may be processed, or two images of 90 × 90 pixels may be processed. As described above, the generation unit 204 increases the number of identified images so that the total file size (or the number of pixels) of the images included in the partial information is the same or within a predetermined range. It is desirable to change the size.

ブックマークに含めるテキストの量が多くなると、図9に示すステップS21において情報処理装置20からブックマークサーバ装置10に送信されるブックマークデータのデータ量が大きくなり、通信の負荷が増えることになる。また、情報処理装置20の表示装置24に複数のブックマークを表示したときに、1つのブックマークを表示するために必要な画面上の領域が大きくなるため、一度に表示可能なブックマークの数が少なくなる。本変形例によれば、特定されたテキストの数を増やして上記のとおりブックマークがコンテンツの内容をより詳しく表すものにした場合に、通信の負荷が増大することを抑制することができる。   If the amount of text included in the bookmark increases, the amount of bookmark data transmitted from the information processing apparatus 20 to the bookmark server apparatus 10 in step S21 shown in FIG. 9 increases, and the communication load increases. In addition, when a plurality of bookmarks are displayed on the display device 24 of the information processing apparatus 20, the area on the screen necessary for displaying one bookmark increases, so the number of bookmarks that can be displayed at a time decreases. . According to the present modification, when the number of identified texts is increased and the bookmarks represent the contents in detail as described above, an increase in communication load can be suppressed.

(変形例9)
また、抽出部202は、第1の条件を満たす抽出規定情報(例えば<img>タグ)により規定された表示の態様で表示されるコンテンツに画像のコンテンツが含まれている場合に、それらの画像(以下「抽出画像」という。)から、さらなる抽出を行ってもよい。例えば、抽出部202は、それらの抽出画像のうち、画像にテキストが対応付けられているものをさらに抽出してもよい。この場合、抽出部202は、抽出画像のうち、<img>タグのalt属性によって代替テキストが規定されているものをさらに抽出する。代替テキストとは、ウェブページに画像が表示できない場合に、代わりに表示するテキストとして規定されるものである。このように代替テキストが対応付けられている画像は、そうでない画像に比べて、ウェブページ内の画像の中でもより閲覧者に見てもらいたいと意図されて掲載された画像であることが多い。本変形例によれば、代替テキストが対応付けられている画像を抽出することで、代替テキストの対応付けを考慮しないで画像を抽出する場合に比べて、ウェブページの作成者がそのページの中で見せたいと考えている画像が抽出されやすくなり、その結果、ウェブページの作成者の意図をより多く伝えるブックマークを生成することができる。
(Modification 9)
In addition, when the content displayed in the display mode defined by the extraction regulation information (for example, <img> tag) that satisfies the first condition includes image content, the extraction unit 202 includes those images. Further extraction may be performed from (hereinafter referred to as “extracted image”). For example, the extraction unit 202 may further extract those extracted images in which text is associated with the images. In this case, the extraction unit 202 further extracts an extracted image whose alternative text is defined by the alt attribute of the <img> tag. The alternative text is defined as a text to be displayed instead when an image cannot be displayed on a web page. In this way, images associated with alternative text are often images that are intended to be viewed by a viewer among images on a web page, compared to images that are not. According to this modification, by extracting an image associated with alternative text, the creator of the web page can extract the content of the page compared to the case of extracting an image without considering the association of the alternative text. This makes it easier to extract images that you want to show on, and as a result, you can generate bookmarks that convey more of the intent of the creator of the web page.

(変形例10)
抽出部202は、前述した抽出画像のうち、例えば、画像の横の長さに対する縦の長さの比率が一定の値の範囲に含まれるものをさらに抽出してもよい。この場合の抽出部202は、第1実施形態と同様に、制御装置21が実現する機能である。制御装置21には、取得部201により取得されたコンテンツを示すデータとして画像データが供給される。制御装置21は、供給された画像データのヘッダ(画像に関する情報を表したデータ)を参照して画像の縦横の画素数を取得し、取得した画素数から画像の横の長さに対する縦の長さの比率を算出する。制御装置21は、算出した比率が一定の値の範囲(例えば0.5以上5.0未満)に含まれるか否かを判断し、含まれると判断した場合には、その画像データを特定部203に供給する。制御装置21は、取得部201から供給された全ての画像データに対してこの判断を行う。その結果、横の長さに対する縦の長さの比率が一定の値の範囲に含まれる画像を示す画像データが抽出されて特定部203に供給される。このようにして、抽出部202は、上述した抽出を行う。画像は、横の長さに対する縦の長さの比率が小さいほど、横長になる。横長の画像は、バナーのように広告や宣伝に用いられる画像であることが多い。また、この比率が大きいほど縦長の画像になるが、縦長の画像も、横長の画像と同様にウェブページの内容に関係ないものであることが多い。この例では、抽出部202は、それらを除いた画像を抽出することができる。
なお、抽出部202は、上記の比率が閾値以上であるものを、第1の条件を満たすコンテンツとして抽出してもよい。この場合は、抽出部202は、横長の画像を除いた画像を抽出することができる。
(Modification 10)
The extraction unit 202 may further extract, for example, an image whose ratio of the vertical length to the horizontal length of the image is included in a certain value range among the extracted images described above. The extraction unit 202 in this case is a function realized by the control device 21 as in the first embodiment. Image data is supplied to the control device 21 as data indicating the content acquired by the acquisition unit 201. The control device 21 refers to the header of the supplied image data (data representing information related to the image) to acquire the number of vertical and horizontal pixels of the image, and the vertical length relative to the horizontal length of the image from the acquired number of pixels. Calculate the ratio. The control device 21 determines whether or not the calculated ratio is included in a range of a constant value (for example, 0.5 or more and less than 5.0). 203. The control device 21 makes this determination for all the image data supplied from the acquisition unit 201. As a result, image data indicating an image in which the ratio of the vertical length to the horizontal length is within a certain range is extracted and supplied to the specifying unit 203. In this way, the extraction unit 202 performs the above-described extraction. The image becomes horizontally long as the ratio of the vertical length to the horizontal length is small. A horizontally long image is often an image used for advertisement or promotion like a banner. In addition, the larger the ratio, the longer the image becomes. However, the portrait image is often irrelevant to the contents of the web page as the landscape image. In this example, the extraction unit 202 can extract images excluding them.
Note that the extraction unit 202 may extract content whose ratio is equal to or greater than the threshold as content that satisfies the first condition. In this case, the extraction unit 202 can extract an image excluding a horizontally long image.

抽出部202は、上記の例では、画像の横の長さに対する縦の長さの比率という画像のサイズに基づいて画像を抽出したが、他の画像のサイズに基づいてさらなる抽出を行ってもよい。抽出部202は、例えば、画像のサイズ(ファイルサイズまたは画素数)が閾値以上であるものをさらに抽出してもよい。この場合、抽出部202は、アイコンなどのサイズが小さいものを除いた画像を抽出することができる。また、抽出部202は、画像の1画素あたりのファイルサイズが閾値以上であるものをさらに抽出してもよい。1画素あたりのファイルサイズが大きいほど、高精細な画像を表すことになる。ウェブページでは、重要でない画像ほど低精細な画像を用いることが多い。この例では、抽出部202は、そのようなものを除いた画像を抽出することができる。   In the above example, the extraction unit 202 extracts the image based on the image size, which is the ratio of the vertical length to the horizontal length of the image. However, the extraction unit 202 may perform further extraction based on the size of another image. Good. For example, the extraction unit 202 may further extract an image whose size (file size or number of pixels) is greater than or equal to a threshold value. In this case, the extraction unit 202 can extract an image excluding a small icon such as an icon. Further, the extraction unit 202 may further extract a file having a file size per pixel that is equal to or greater than a threshold value. The larger the file size per pixel, the higher the resolution of the image. Web pages often use less detailed images for less important images. In this example, the extraction unit 202 can extract an image excluding such an image.

(変形例11)
抽出部202は、前述した抽出画像のうち、その画像に対応付けられたアクセス先があり、且つ、そのアクセス先のドメインがウェブページとは異なるものをさらに抽出してもよい。この場合、抽出部202は、抽出画像のうち、<a>タグによって表示の態様が規定されているもの、すなわち対応付けられたアクセス先があるものをまず抽出する。そして、抽出部202は、抽出したそれらの画像のうち、href属性によって指定されているアクセス先(URL)のドメインと、取得部201によりコンテンツが取得されたウェブページのアクセス先のドメインとを比較して、一致していない画像をさらに抽出する。
(Modification 11)
The extraction unit 202 may further extract the above-described extracted image that has an access destination associated with the image and whose access destination domain is different from the web page. In this case, the extraction unit 202 first extracts the extracted image whose display mode is defined by the <a> tag, that is, the one having an associated access destination. Then, the extraction unit 202 compares the domain of the access destination (URL) specified by the href attribute and the access destination domain of the web page from which the content is acquired by the acquisition unit 201 among the extracted images. Then, the images that do not match are further extracted.

本変形例によれば、ドメインが異なるアクセス先に対応付けられた画像が、そうでない画像(すなわち同じドメインのアクセス先に対応付けられた画像及びアクセス先が対応付けられていない画像)に比べてウェブページの内容をより詳しく表している場合に、上記のようなコンテンツの抽出を行わない場合に比べて、ウェブページの内容をより詳しく表した情報を生成することができる。   According to this modification, an image associated with an access destination with a different domain is compared with an image that is not (that is, an image associated with an access destination of the same domain and an image with no access destination associated). When the content of the web page is expressed in more detail, information that expresses the content of the web page in more detail can be generated compared to the case where the content is not extracted as described above.

(変形例12)
抽出部202は、上述した各変形例では、第1の条件を満たす抽出規定情報(例えば<img>タグ)により規定された表示の態様で表示されるコンテンツに画像のコンテンツが含まれている場合に、画像のさらなる抽出を行ったが、所定の条件が満たされた場合にのみ、このさらなる抽出を行ってもよい。ここでいう条件は、画像の抽出方法を変更するか否かを判断するために決められる条件であり、以下では「変更条件」という。変更条件は、例えば、図14で述べたような優先順位に従ってコンテンツを抽出する場合に、所定の順番(例えば2番目)までの優先順位の規定情報でテキストが抽出されなかったときに満たされる。図14の例のように、他のコンテンツに比べてウェブページの内容をより詳しく表しているコンテンツの表示の態様を規定する規定情報の優先順位を高くするように定められている場合、所定の順番までの優先順位の規定情報でテキストが抽出されないということは、ページソースの記述が特徴的なウェブページであると考えられる。そのため、規定情報に基づいて画像を特定しても、ウェブページの内容を他の画像に比べてより詳しく表した画像を、特定できないことがある。そのため、変更条件が満たされた場合には、抽出部202は、上記の各変形例で述べた方法で画像のさらなる抽出を行う。
(Modification 12)
In each of the above-described modifications, the extraction unit 202 includes image content included in the content displayed in the display mode defined by the extraction regulation information (for example, <img> tag) that satisfies the first condition. Further, the image is further extracted, but this further extraction may be performed only when a predetermined condition is satisfied. The condition here is a condition determined to determine whether or not to change the image extraction method, and is hereinafter referred to as a “change condition”. The change condition is satisfied, for example, when the content is extracted according to the priority order as described in FIG. 14 and the text is not extracted with the priority order definition information up to a predetermined order (for example, second). As shown in the example of FIG. 14, when it is determined to increase the priority of the regulation information that defines the display mode of the content that represents the content of the web page in more detail than the other content, The fact that the text is not extracted with the prescription order information up to the order is considered to be a web page characterized by the description of the page source. For this reason, even if an image is specified based on the regulation information, an image showing the details of the web page in more detail than other images may not be specified. For this reason, when the change condition is satisfied, the extraction unit 202 further extracts an image by the method described in each of the above modifications.

(変形例13)
抽出部202は、特定部203が行う特定方法を用いてコンテンツを抽出してもよい。例えば、抽出部202は、ウェブページにおいて表示される位置が先頭に近いほうから所定の順番(例えばコンテンツ全体のうちの半分や4分の1)までに含まれるコンテンツを抽出してもよい。他にも、抽出部202は、取得されたコンテンツにテキストのコンテンツが含まれている場合に、それらのテキストのうち、テキストの量を表す指標が大きいほうから所定の順番(同上)までに含まれるものを抽出してもよい。要するに、抽出部202は、取得されたコンテンツのうち、上述した抽出方法や特定方法で用いられたような条件を満たすものを、全て抽出するものである。
(Modification 13)
The extraction unit 202 may extract content using a specifying method performed by the specifying unit 203. For example, the extraction unit 202 may extract content included in a predetermined order (for example, half or a quarter of the entire content) from the position displayed on the web page close to the top. In addition, when the acquired content includes text content, the extraction unit 202 includes the text from the largest index indicating the amount of text to the predetermined order (same as above). May be extracted. In short, the extraction unit 202 extracts all of the acquired contents that satisfy the conditions used in the above-described extraction method and identification method.

反対に、特定部203は、抽出部202が行う抽出方法を用いてコンテンツを特定してもよい。例えば、特定部203は、抽出されたコンテンツに画像のコンテンツが含まれている場合に、それらの画像のうち、テキストが対応付けられているものを特定する。このように特定した画像が複数ある場合には、特定部203は、例えば、そのうちのウェブページにおいて表示される位置が最も先頭に近いもの、または、先頭に近いほうから所定の順番までに含まれるものを特定すればよい。要するに、特定部203は、抽出されたコンテンツのうち、上述した抽出方法や特定方法で用いられたような条件を満たすものの中からさらに所定の数(1つまたは数個程度)のコンテンツを特定するものである。   On the contrary, the specifying unit 203 may specify the content using the extraction method performed by the extracting unit 202. For example, when the extracted content includes image content, the specifying unit 203 specifies the image associated with the text among the images. When there are a plurality of images specified in this way, the specifying unit 203 includes, for example, the position displayed on the web page that is closest to the top, or from a position close to the top to a predetermined order. You just need to identify things. In short, the specifying unit 203 specifies a predetermined number of contents (one or several) from among the extracted contents that satisfy the conditions such as those used in the extraction method and the specifying method described above. Is.

(変形例14)
取得部201は、上述した各実施形態とは異なる方法で規定情報及び少なくとも1つ以上のコンテンツを取得してもよい。例えば、取得部201は、一度取得したウェブページデータを所定の期間または所定のデータ量だけ保存しておき、ウェブページデータを保存しているウェブページの要求がされたときには、保存しておいたウェブページデータから規定情報及び少なくとも1つ以上のコンテンツを取得する。
(Modification 14)
The acquisition unit 201 may acquire the regulation information and at least one content by a method different from the above-described embodiments. For example, the acquisition unit 201 stores the web page data once acquired for a predetermined period or a predetermined amount of data, and stores it when a request for a web page storing the web page data is made. The specified information and at least one or more contents are acquired from the web page data.

(変形例15)
本発明は、情報処理装置やブックマークサービス提供システム1のような情報処理システムの他にも、情報処理装置が実施する処理を実現するための情報処理方法としても捉えられるものである。ここでいう処理とは、例えば、図9及び図15にそれぞれ示すサービス提供処理及びコンテンツ抽出処理である。また、本発明は、情報処理装置20のようなコンピュータを、図6に示す各手段として機能させるためのプログラムとしても捉えられるものである。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態でも提供されたりするものであってもよい。
(Modification 15)
In addition to the information processing system such as the information processing apparatus and the bookmark service providing system 1, the present invention can also be understood as an information processing method for realizing processing performed by the information processing apparatus. The process here is, for example, a service providing process and a content extracting process shown in FIGS. 9 and 15, respectively. Further, the present invention can also be understood as a program for causing a computer such as the information processing apparatus 20 to function as each unit shown in FIG. Such a program may be provided in the form of a recording medium such as an optical disk storing the program, or may be provided in a form such that the program is downloaded to a computer via a network such as the Internet, and the program can be installed and used. You may do.

1…ブックマークサービス提供システム、10…ブックマークサーバ装置、20…情報処理装置、30…専用ブラウザ、40…ウェブサーバ装置、40a…会員向けウェブサーバ装置、11、21…制御装置、12、22…記憶装置、13、26…通信装置、23…操作装置、24…表示装置、25…音声入出力装置、201…取得部、202…抽出部、203…特定部、204…生成部 DESCRIPTION OF SYMBOLS 1 ... Bookmark service provision system, 10 ... Bookmark server apparatus, 20 ... Information processing apparatus, 30 ... Dedicated browser, 40 ... Web server apparatus, 40a ... Member web server apparatus, 11, 21 ... Control apparatus, 12, 22 ... Memory Device, 13, 26 ... Communication device, 23 ... Operation device, 24 ... Display device, 25 ... Voice input / output device, 201 ... Acquisition unit, 202 ... Extraction unit, 203 ... Identification unit, 204 ... Generation unit

Claims (11)

ウェブページにおいて表示されるコンテンツの表示の態様を規定する規定情報と、少なくとも1つの前記規定情報により前記態様がそれぞれ規定される少なくとも1つ以上の前記コンテンツとを取得する取得手段と、
前記取得手段により取得された規定情報が第1の条件を満たす場合に、当該規定情報により規定された前記態様で表示される前記コンテンツを、前記取得手段により取得されたコンテンツから抽出する抽出手段と、
前記抽出手段により抽出されたコンテンツのうち、第2の条件を満たす前記コンテンツを特定する特定手段と、
前記特定手段により特定されたコンテンツに応じて、前記ウェブページの一部分を示す部分情報を生成する生成手段と
を備えることを特徴とする情報処理装置。
Acquisition means for acquiring definition information defining a display mode of content displayed on a web page, and at least one or more of the contents each of which is specified by at least one of the definition information;
An extraction unit that extracts the content displayed in the form defined by the definition information from the content acquired by the acquisition unit when the definition information acquired by the acquisition unit satisfies a first condition; ,
A specifying means for specifying the content satisfying a second condition among the contents extracted by the extracting means;
An information processing apparatus comprising: generating means for generating partial information indicating a part of the web page according to the content specified by the specifying means.
前記決められた規定情報に対しては優先順位が定められており、
前記抽出手段は、取得された前記規定情報のうち前記優先順位が高いものから所定の順番までに含まれるものを前記第1の条件を満たす規定情報として、当該規定情報によって規定される前記態様で表示される前記コンテンツを抽出する
ことを特徴とする請求項1に記載の情報処理装置。
A priority order is defined for the determined regulation information,
In the aspect defined by the regulation information, the extraction means includes, as the regulation information satisfying the first condition, information obtained from the highest priority to a predetermined order among the obtained regulation information. The information processing apparatus according to claim 1, wherein the content to be displayed is extracted.
前記抽出手段は、前記コンテンツを、当該コンテンツの前記態様を規定する前記規定情報であって、前記決められた規定情報以外の前記規定情報とともに抽出する
ことを特徴とする請求項1または2に記載の情報処理装置。
The said extraction means is the said regulation information which prescribes | regulates the said aspect of the said content, Comprising: The said regulation information other than the determined regulation information is extracted. The Claim 1 or 2 characterized by the above-mentioned. Information processing device.
前記取得手段は、認証が必要な前記ウェブページの前記コンテンツと前記規定情報とを取得する
ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
The information processing apparatus according to claim 1, wherein the acquisition unit acquires the content of the web page that requires authentication and the specified information.
前記取得手段は、前記規定情報が順番に記述された記述データにより示される当該規定情報を取得し、
前記特定手段は、抽出された前記各コンテンツのうち、前記記述データにおいて記述される位置が当該記述データの先頭に近いほうから所定の順番までに含まれるものを、前記第2の条件を満たすコンテンツとして特定する
ことを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
The acquisition means acquires the specified information indicated by the description data in which the specified information is described in order,
The specifying means includes, among the extracted contents, contents that satisfy the second condition, in which a position described in the description data is included in a predetermined order from a position closer to the top of the description data. The information processing apparatus according to claim 1, wherein the information processing apparatus is specified as follows.
前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツにテキストのコンテンツが含まれている場合に、当該テキストのコンテンツのうち、テキストの量を表す指標が大きいほうから所定の順番までに含まれるものを、前記第2の条件を満たす前記コンテンツとして特定する
ことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
When the content displayed in the form defined by the definition information satisfying the first condition includes a text content, the specifying unit calculates the amount of text in the text content. The information processing apparatus according to any one of claims 1 to 5, wherein an index that is included in a predetermined order from a larger index is specified as the content that satisfies the second condition.
前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツにテキストのコンテンツが含まれている場合に、当該テキストのコンテンツのうち、当該テキストに含まれる特定の文字列の数が多いものから所定の順番までに含まれるものを、前記第2の条件を満たすコンテンツとして特定する
ことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
The specifying means includes the text content included in the text when the content displayed in the form specified by the specification information satisfying the first condition includes the text content. 6. The content included in a predetermined order from a large number of specific character strings to be specified is specified as content satisfying the second condition. 6. Information processing device.
前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像のサイズが大きいものから所定の順番に含まれるものを、前記第2の条件を満たすコンテンツとして特定する
ことを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
If the content of the image is included in the content displayed in the form specified by the specification information that satisfies the first condition, the specifying unit may include the size of the image among the content of the image. The information processing apparatus according to any one of claims 1 to 7, wherein content included in a predetermined order from a large content is specified as content that satisfies the second condition.
前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像にテキストが対応付けられているものを、前記第2の条件を満たすコンテンツとして特定する
ことを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。
When the content of an image is included in the content displayed in the form specified by the specification information satisfying the first condition, the specifying unit includes text in the image out of the content of the image The information processing apparatus according to any one of claims 1 to 8, wherein a content associated with the content is specified as content that satisfies the second condition.
前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像のファイルサイズ、当該画像の画素数、当該画像の横の長さに対する縦の長さの比率または当該画像の1画素あたりのファイルサイズが閾値以上であるものを、前記第2の条件を満たすコンテンツとして特定する
ことを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
The specifying unit may include a file of the image among the content of the image when the content of the image is included in the content displayed in the form defined by the defining information that satisfies the first condition. Content whose size, the number of pixels of the image, the ratio of the vertical length to the horizontal length of the image, or the file size per pixel of the image is greater than or equal to the threshold is specified as content that satisfies the second condition The information processing apparatus according to any one of claims 1 to 9, wherein:
前記特定手段は、前記第1の条件を満たす前記規定情報により規定された前記態様で表示される前記コンテンツに画像のコンテンツが含まれている場合に、当該画像のコンテンツのうち、当該画像に対応付けられたアクセス先があり、且つ、当該アクセス先のドメインが前記ウェブページとは異なるものを、前記第2の条件を満たすコンテンツとして特定する
ことを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。
The specifying unit corresponds to the image of the image content when the content of the image is included in the content displayed in the aspect specified by the specification information satisfying the first condition. The content according to any one of claims 1 to 10, wherein there is an attached access destination and a domain whose access destination is different from the web page is specified as content satisfying the second condition. The information processing apparatus according to item.
JP2012216956A 2012-09-28 2012-09-28 Information processing device Active JP5955186B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012216956A JP5955186B2 (en) 2012-09-28 2012-09-28 Information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012216956A JP5955186B2 (en) 2012-09-28 2012-09-28 Information processing device

Publications (2)

Publication Number Publication Date
JP2014071644A true JP2014071644A (en) 2014-04-21
JP5955186B2 JP5955186B2 (en) 2016-07-20

Family

ID=50746794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012216956A Active JP5955186B2 (en) 2012-09-28 2012-09-28 Information processing device

Country Status (1)

Country Link
JP (1) JP5955186B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016113887A1 (en) * 2015-01-15 2016-07-21 富士通株式会社 Information-processing device, information-processing method, and information-processing program
JP2018028714A (en) * 2016-08-15 2018-02-22 富士ゼロックス株式会社 Information processing apparatus and program
JP2020052512A (en) * 2018-09-25 2020-04-02 株式会社ぐるなび Information processing apparatus, information processing method and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278983A (en) * 2001-03-19 2002-09-27 Toshiba Corp Summary extracting program, document analysis supporting program, summary extracting method and method and system for supporting document analysis
US20030101415A1 (en) * 2001-11-23 2003-05-29 Eun Yeung Chang Method of summarizing markup-type documents automatically
JP2004086843A (en) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd Information extraction device and method
JP2005196572A (en) * 2004-01-08 2005-07-21 Japan Science & Technology Agency Summary making method of multiple documents
US20100107055A1 (en) * 2005-07-20 2010-04-29 Orelind Greger J Extraction of datapoints from markup language documents
JP2011100403A (en) * 2009-11-09 2011-05-19 Sony Corp Information processor, information extraction method, program and information processing system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278983A (en) * 2001-03-19 2002-09-27 Toshiba Corp Summary extracting program, document analysis supporting program, summary extracting method and method and system for supporting document analysis
US20030101415A1 (en) * 2001-11-23 2003-05-29 Eun Yeung Chang Method of summarizing markup-type documents automatically
JP2004086843A (en) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd Information extraction device and method
JP2005196572A (en) * 2004-01-08 2005-07-21 Japan Science & Technology Agency Summary making method of multiple documents
US20100107055A1 (en) * 2005-07-20 2010-04-29 Orelind Greger J Extraction of datapoints from markup language documents
JP2011100403A (en) * 2009-11-09 2011-05-19 Sony Corp Information processor, information extraction method, program and information processing system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016113887A1 (en) * 2015-01-15 2016-07-21 富士通株式会社 Information-processing device, information-processing method, and information-processing program
JPWO2016113887A1 (en) * 2015-01-15 2017-08-03 富士通株式会社 Information processing apparatus, information processing method, and information processing program
JP2018028714A (en) * 2016-08-15 2018-02-22 富士ゼロックス株式会社 Information processing apparatus and program
JP2020052512A (en) * 2018-09-25 2020-04-02 株式会社ぐるなび Information processing apparatus, information processing method and program

Also Published As

Publication number Publication date
JP5955186B2 (en) 2016-07-20

Similar Documents

Publication Publication Date Title
US11256848B2 (en) Automated augmentation of text, web and physical environments using multimedia content
US11372935B2 (en) Automatically generating a website specific to an industry
US10491552B2 (en) Inserting content into an application from an online synchronized content management system
US8639687B2 (en) User-customized content providing device, method and recorded medium
US20150169710A1 (en) Method and apparatus for providing search results
US20080215550A1 (en) Search support apparatus, computer program product, and search support system
US20130031110A1 (en) Systems and methods for rich query construction
US20110119298A1 (en) Method and apparatus for searching information
JP5820320B2 (en) Information processing terminal and method, and information management apparatus and method
WO2014029173A1 (en) Method, apparatus and device for sequencing search results
US20200125221A1 (en) Coalescing Notifications Associated with Interactive Digital Content
US20170351779A1 (en) System and method for operating a browsing application
EP2725539A1 (en) Information providing device, information providing method, information providing program, information display program, and computer-readable recording medium for storing information providing program
US20170109442A1 (en) Customizing a website string content specific to an industry
JP5556461B2 (en) Information browsing terminal device, information browsing system, information browsing program, and information browsing method
JP5955186B2 (en) Information processing device
JP4905249B2 (en) Bookmark service method and bookmark service server
CN103631793B (en) A kind of method, apparatus and equipment for being ranked up to search result
JP4879941B2 (en) Information management system, advertisement output method and program
JP2011002982A (en) Content providing device, content providing method and content providing program
US20130179832A1 (en) Method and apparatus for displaying suggestions to a user of a software application
JP2008071116A (en) Information delivery system, information delivery device, information delivery method and information delivery program
JP2019086931A (en) Information processing apparatus and computer program
US20170147534A1 (en) Transformation of third-party content for native inclusion in a page
JP5954053B2 (en) Search support system, search support method, and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160614

R150 Certificate of patent or registration of utility model

Ref document number: 5955186

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250