JP2011150591A - Information display device and program - Google Patents

Information display device and program Download PDF

Info

Publication number
JP2011150591A
JP2011150591A JP2010012220A JP2010012220A JP2011150591A JP 2011150591 A JP2011150591 A JP 2011150591A JP 2010012220 A JP2010012220 A JP 2010012220A JP 2010012220 A JP2010012220 A JP 2010012220A JP 2011150591 A JP2011150591 A JP 2011150591A
Authority
JP
Japan
Prior art keywords
text
information
url
display
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010012220A
Other languages
Japanese (ja)
Other versions
JP5682113B2 (en
Inventor
Takahiro Tomita
高弘 冨田
Wakana Odagiri
わか菜 小田切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2010012220A priority Critical patent/JP5682113B2/en
Publication of JP2011150591A publication Critical patent/JP2011150591A/en
Application granted granted Critical
Publication of JP5682113B2 publication Critical patent/JP5682113B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information display device which can automatically extract and display information with a high probability of necessity for a user in a number of information sites existing on a network. <P>SOLUTION: An access is made to a URL of each previously registered information site, and an individual title (a link text) of a Web page corresponding to each URL is extracted. An access is also made to a link destination URL of the each title, and the text of a page corresponding to the each link destination URL is extracted. The extracted individual title, link destination URL, and text are stored in an extraction result list in association with an ID of the registered URL (SA). The similarity of the text is found between each of URLs and each of IDs stored in the list, and only the individual title corresponding to the text with high similarity (SB) is displayed in an important information list window (SC). When a desired individual tile displayed in the window is focused, its text is read and pop-up displayed. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、Webサイトにある所望の情報を閲覧するための情報表示装置およびプログラムに関する。   The present invention relates to an information display device and a program for browsing desired information on a website.

従来から、LAN(Local Area Network)やWAN(Wide Area Network)、インターネットなど、通信ネットワークにおけるサーバ・クライアント・システムでは、クライアント装置が備えるWebブラウザにより、ネットワーク上の各Webサイトのサーバ装置が生成保存している種々の情報(Webページ)を取得表示して閲覧することが行われる。   Conventionally, in a server / client system in a communication network such as a LAN (Local Area Network), a WAN (Wide Area Network), or the Internet, the server device of each Web site on the network is generated and stored by the Web browser provided in the client device. Acquiring and displaying various information (Web pages) being performed is performed.

特に、インターネット上には、膨大な量のWebサイトが存在し、信頼できる情報か否かを問わず、ありとあらゆる情報が溢れているため、ユーザが本当に必要とする情報を得るのはそれほど簡単ではない。   In particular, there are a huge amount of websites on the Internet, and all kinds of information is overflowing regardless of whether it is reliable information, so it is not so easy to obtain the information that users really need. .

例えば、ユーザが知りたい情報に関してそのキーワードを入力すると、当該キーワードを含む情報を記述している多数のWebページの見出しがリンクテキストとして一覧表示される。ユーザはこの一覧表示されたページ見出しを次々に指定して該当するWebページを開いて表示させ、本当に必要とする情報が含まれるか否か確認している。   For example, when a keyword is input with respect to information that the user wants to know, headings of a large number of Web pages describing information including the keyword are displayed in a list as link text. The user designates the page headings displayed in a list one after another to open and display corresponding Web pages, and confirms whether or not the information that is really necessary is included.

そこで、各種WebサイトのWebページから当該ページに含まれるリンクを抽出し、この抽出されたリンク先コンテンツの紹介文を自動生成するリンク集作成装置が考えられている(例えば、特許文献1参照。)。   In view of this, a link collection creation apparatus is considered that extracts links included in the pages from web pages of various websites and automatically generates an introduction sentence of the extracted link destination content (see, for example, Patent Document 1). ).

特開2003−016082号公報JP 2003-016082 A

前記従来のリンク集作成装置によれば、個々のリンク先を一々指定しながら開く必要なく、その内容の概要を知ることができる。   According to the conventional link collection creation device, it is possible to know the outline of the contents without having to open each link destination while designating each link destination one by one.

しかしながら、このリンク集から得られる情報とは、ユーザにとって必要となる確率の高い情報であるか否かとは無関係な、Webページ上にある各リンクのリンク先に何があるかを紹介するだけのものであり、結局は様々なリンク先の紹介文を次々に見ていく必要がある。   However, the information obtained from this collection of links only introduces what is at the link destination of each link on the Web page, regardless of whether it is highly probable information necessary for the user. After all, it is necessary to look at the introduction text of various link destinations one after another.

本発明は、このような課題に鑑みなされたもので、ネットワーク上に存在する多数の情報サイトにおいて、ユーザにとって必要となる確率の高い情報を自動的に抽出して表示することが可能になる情報表示装置およびプログラムを提供することを目的とする。   The present invention has been made in view of such a problem, and is capable of automatically extracting and displaying information having a high probability that is necessary for a user at a large number of information sites existing on a network. An object is to provide a display device and a program.

請求項1に記載の情報表示装置は、情報元として利用する情報サイトのURLを予め記憶するURL記憶手段と、このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段と、この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段と、この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段と、この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段と、を備えたことを特徴としている。   The information display device according to claim 1 acquires a URL storage unit that stores in advance a URL of an information site used as an information source, and a page of the information site specified by the URL stored by the URL storage unit, Heading information extracting means for extracting the heading information in the page, text extracting means for extracting the text corresponding to the heading information extracted by the heading information extracting means, and similarity of each text extracted by the text extracting means A display target setting unit that determines the degree of similarity and sets a text that is determined to be higher than a preset value as a display target, and a text that is set as a display target by the display target setting unit And a display control means for displaying on the screen.

請求項2に記載の情報表示装置は、前記請求項1に記載の情報表示装置において、前記見出し情報抽出手段により前記記憶されたURLで指定される情報サイトのページから抽出された見出し情報に対応して前記本文抽出手段により抽出された本文を、該当する前記情報サイトの識別情報に対応付けて記憶する抽出情報記憶手段を備え、前記表示対象設定手段は、前記抽出情報記憶手段により記憶された各本文の類似度を異なる情報サイト相互の本文同士で総当たりに判定する類似度判定手段を有し、前記抽出情報記憶手段により記憶された各本文について、前記類似度判定手段により類似度が予め設定された値よりも高いと判定された一方の本文を表示対象に設定し、もう一方の本文を削除する、ことを特徴としている。   The information display device according to claim 2 corresponds to the information display device according to claim 1, which corresponds to the heading information extracted from the page of the information site specified by the stored URL by the heading information extraction unit. And an extraction information storage means for storing the text extracted by the text extraction means in association with the identification information of the corresponding information site, wherein the display target setting means is stored by the extraction information storage means Similarity determination means for determining the brute force between the texts of different information sites between the different information sites, and for each body text stored by the extracted information storage means, the similarity is determined in advance by the similarity determination means. One of the texts determined to be higher than the set value is set as a display target, and the other text is deleted.

請求項3に記載の情報表示装置は、前記請求項1または請求項2に記載の情報表示装置において、前記見出し情報抽出手段による見出し情報の抽出処理と、前記本文抽出手段による本文の抽出処理と、前記表示対象設定手段による表示対象の設定処理と、前記表示制御手段による本文の表示処理とを、予め設定された一定時間毎に繰り返し実行する繰り返し制御手段を備えたことを特徴としている。   The information display device according to claim 3 is the information display device according to claim 1 or 2, wherein heading information extraction processing by the heading information extraction unit, and text extraction processing by the text extraction unit, The display object setting means includes a repetitive control means for repeatedly executing the display target setting process and the text display process by the display control means at predetermined time intervals.

請求項4に記載のプログラムは、電子機器のコンピュータを制御するためのプログラムであって、前記コンピュータを、情報元として利用する情報サイトのURLを予めメモリに記憶させるURL記憶手段、このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段、この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段、この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段、この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段、として機能させることを特徴としている。   The program according to claim 4 is a program for controlling a computer of an electronic device, and URL storage means for storing in advance a URL of an information site that uses the computer as an information source, and the URL storage means Acquires the page of the information site specified by the URL stored by the headline information extracting means for extracting the heading information in the page, and the text for extracting the text corresponding to the heading information extracted by the heading information extracting means Extraction means, display target setting means for determining the similarity of each text extracted by the text extraction means, and setting the text for which the similarity is determined to be higher than a preset value as a display target, the display It is characterized by functioning as display control means for displaying a text set as a display target by the target setting means on a display unit. To have.

本発明によれば、ネットワーク上に存在する多数の情報サイトにおいて、ユーザにとって必要となる確率の高い情報を自動的に抽出して表示することが可能になる情報表示装置およびプログラムを提供できる。   ADVANTAGE OF THE INVENTION According to this invention, the information display apparatus and program which can extract and display the information with a high probability required for a user automatically in many information sites which exist on a network can be provided.

本発明の情報表示装置の実施形態に係る情報端末装置20を使用したサーバ・クライアント・システムの構成を示すブロック図。The block diagram which shows the structure of the server client system which uses the information terminal device 20 which concerns on embodiment of the information display apparatus of this invention. 前記情報端末装置20のURL登録リストメモリ23aに記憶されるURL登録リストを示す図。The figure which shows the URL registration list memorize | stored in the URL registration list memory 23a of the said information terminal device 20. FIG. 前記情報端末装置20の抽出結果リストメモリ23bに記憶されるWeb情報の抽出結果リストを示す図。The figure which shows the extraction result list | wrist of the Web information memorize | stored in the extraction result list memory 23b of the said information terminal device 20. FIG. 前記情報端末装置20において例えばサーバ装置(情報サイトA)10A[http://www.sight.a.co.jp/]から取得されたWebページPの画面表示例を示す図。The figure which shows the example of a screen display of Web page P acquired from server apparatus (information site A) 10A [http://www.sight.a.co.jp/] in the said information terminal device 20, for example. 前記図4におけるWebページPのリンクテキストLtxt1部分を記述したHTMLソースPhtmを示す図。The figure which shows the HTML source Phtm which described the link text Ltxt1 part of the web page P in the said FIG. 前記情報端末装置20による重要情報取得表示処理の概要を示すフローチャート。The flowchart which shows the outline | summary of the important information acquisition display process by the said information terminal device. 前記重要情報取得表示処理に伴う表示対象テキスト取得処理(SA)を示すフローチャート。The flowchart which shows the display object text acquisition process (SA) accompanying the said important information acquisition display process. 前記図5に一部分を示したHTMLソースPhtmにより記述されたリンク先WebページLPの画面表示例を示す図。The figure which shows the example of a screen display of the link destination web page LP described by the HTML source Phtm which showed the part in FIG. 前記重要情報取得表示処理に伴う類似度判定処理(SB)を示すフローチャート。The flowchart which shows the similarity determination process (SB) accompanying the said important information acquisition display process. 前記重要情報取得表示処理に伴う表示処理(SC)を示すフローチャート。The flowchart which shows the display process (SC) accompanying the said important information acquisition display process. 前記重要情報取得表示処理の表示処理(SC)に伴う重要情報の表示動作例を示す図。The figure which shows the example of a display operation | movement of the important information accompanying the display process (SC) of the said important information acquisition display process.

以下図面により本発明の実施の形態について説明する。   Embodiments of the present invention will be described below with reference to the drawings.

図1は、本発明の情報表示装置の実施形態に係る情報端末装置20を使用したサーバ・クライアント・システムの構成を示すブロック図である。   FIG. 1 is a block diagram showing a configuration of a server / client system using an information terminal device 20 according to an embodiment of an information display device of the present invention.

このサーバ・クライアント・システムは、インターネット、WAN、LANなどからなるネットワークN上に接続された複数のサーバ装置(情報サイトA)10A,(情報サイトB)10B,(情報サイトC)10C,…および複数の情報端末装置(クライアント装置)20,…を備える。   The server client system includes a plurality of server devices (information site A) 10A, (information site B) 10B, (information site C) 10C,... Connected on a network N composed of the Internet, WAN, LAN, and the like. A plurality of information terminal devices (client devices) 20,.

サーバ装置(情報サイトA)10A,(情報サイトB)10B,(情報サイトC)10C,…は、各情報サイトに応じたWebコンテンツ生成処理プログラム,登録ユーザ管理処理プログラム,Webページ配信処理プログラムなど、当該サーバ装置10A,10B,10C,…の本体操作により機能する複数のアプリケーションプログラムを有し、例えば情報端末装置20からの指定の情報サイトへのアクセス要求に応じて当該要求された情報サイトにて生成したWebページを同情報端末装置20へ配信する。   The server devices (information site A) 10A, (information site B) 10B, (information site C) 10C,... Are a Web content generation processing program, a registered user management processing program, a Web page distribution processing program, etc. corresponding to each information site. Have a plurality of application programs that function by operating the main body of the server devices 10A, 10B, 10C,..., For example, in response to a request for access to a specified information site from the information terminal device 20, The generated Web page is distributed to the information terminal device 20.

情報端末装置20は、携帯電話,PDA(Personal Digital Assistant),PCなどからなり、インターネット接続処理プログラム、Webブラウザプログラム,Web印刷プログラムなど、当該情報端末装置20の本体操作により機能する複数のアプリケーションプログラムを有する。そして、例えば所望の情報サイトA[http://www.sight_a.co.jp/]のサーバ装置10AにアクセスしてそのWebページを取得し、当該WebページのHTML(Hyper Text Markup Language)のタグ要素から成るツリー構造を解析して画面展開し表示したり印刷したりする。   The information terminal device 20 includes a mobile phone, a PDA (Personal Digital Assistant), a PC, and the like, and a plurality of application programs that function by operating the main body of the information terminal device 20, such as an Internet connection processing program, a Web browser program, and a Web print program. Have For example, the web page is acquired by accessing the server device 10A of the desired information site A [http://www.sight_a.co.jp/], and an HTML (Hyper Text Markup Language) tag of the web page is acquired. Analyzes the tree structure of elements, expands the screen, displays it, and prints it.

情報端末装置20の電子回路は、コンピュータとしてのCPU21を備え、このCPU21には、バス22を介してROMやRAMからなる記憶部23、メモリカードや光ディスクなどの外部記憶媒体24にデータを読み書きする記憶媒体読み書き部25が接続される。   The electronic circuit of the information terminal device 20 includes a CPU 21 as a computer. The CPU 21 reads and writes data from and to a storage unit 23 including a ROM and a RAM and an external storage medium 24 such as a memory card and an optical disk via a bus 22. A storage medium read / write unit 25 is connected.

また、CPU21には、バス22を介してキーボード,マウスなどの入力部26、LCDからなる表示部27、前記サーバ装置10A,10B,10C,…との間でデータを送受信する送受信部28が接続される。   In addition, an input unit 26 such as a keyboard and a mouse, a display unit 27 including an LCD, and a transmission / reception unit 28 that transmits and receives data to and from the server devices 10A, 10B, 10C,. Is done.

CPU21は、記憶部23に予め記憶されているシステムプログラムおよび種々のアプリケーションプログラムに従って回路各部の動作を制御するもので、入力部26からの入力信号に応じて前記種々のアプリケーションプログラムが起動され実行される。   The CPU 21 controls the operation of each part of the circuit in accordance with a system program and various application programs stored in advance in the storage unit 23. The various application programs are activated and executed in response to an input signal from the input unit 26. The

前記サーバ装置10A,10B,10C,…をインターネット(N)上のWebサイト、前記情報端末装置20,…を前記Webサイトにアクセス可能なユーザ端末とした場合、ユーザ端末(20)からWebサイト(10A)へのアクセス要求に応じて、当該Webサイト(10A)においてHTMLにより記述生成されたWebページがアクセス要求元のユーザ端末(20)へ配信され、そのWebブラウザプログラムにより表示部27に展開されて表示される。   When the server devices 10A, 10B, 10C,... Are Web sites on the Internet (N) and the information terminal devices 20,... Are user terminals that can access the Web site, the user terminals (20) In response to the access request to 10A), the Web page described and generated by HTML in the Web site (10A) is distributed to the access request source user terminal (20), and is expanded on the display unit 27 by the Web browser program. Displayed.

また、記憶部23には、URL登録リストメモリ23a、および抽出結果リストメモリ23bが備えられる。   The storage unit 23 includes a URL registration list memory 23a and an extraction result list memory 23b.

図2は、前記情報端末装置20のURL登録リストメモリ23aに記憶されるURL登録リストを示す図である。   FIG. 2 is a diagram showing a URL registration list stored in the URL registration list memory 23 a of the information terminal device 20.

このURL登録リストメモリ23aには、ユーザ操作に応じて、例えば当該ユーザが日頃からアクセスする頻度の比較的高い各サーバ装置(情報サイトA,B,C,…)10A,10b,10C,…のURLが、そのURL_IDに対応付けられて記憶される。   In the URL registration list memory 23a, for example, each server device (information sites A, B, C,...) 10A, 10b, 10C,. The URL is stored in association with the URL_ID.

図3は、前記情報端末装置20の抽出結果リストメモリ23bに記憶されるWeb情報の抽出結果リストを示す図である。   FIG. 3 is a diagram showing an extraction result list of Web information stored in the extraction result list memory 23b of the information terminal device 20. As shown in FIG.

この抽出結果リストメモリ23bには、前記URL登録リストメモリ23aに記憶された各URL_ID毎のURLに対応するWebページから抽出されたタイトル(リンクテキスト)、当該タイトル(リンクテキスト)のリンク先URL、このリンク先URLに対応するWebページから抽出された本文テキストが、該当するURL_IDに関係付けた本文IDに対応付けられて記憶される。   In the extraction result list memory 23b, the title (link text) extracted from the Web page corresponding to the URL for each URL_ID stored in the URL registration list memory 23a, the link destination URL of the title (link text), The body text extracted from the Web page corresponding to the link destination URL is stored in association with the body ID associated with the corresponding URL_ID.

この抽出結果リスト(23b)において、各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度を総当たりに順番に判定する。そして、類似度が規定値より高いと判定された本文テキストについては、その判定に伴い、URL_IDが小さい方の本文テキストに対応付けて要表示マークを付加し、もう一方の本文テキストを削除する。   In this extraction result list (23b), the degree of similarity with the body text associated with other URL_IDs is sequentially determined based on the body text with the smaller URL_ID between URL_IDs. For the body text determined to have a similarity higher than the specified value, a display mark is added in association with the body text with the smaller URL_ID, and the other body text is deleted.

つまり、この抽出結果リスト(23b)において、要表示マークが付加されたところの本文テキストは、ユーザが日頃からアクセスする頻度の比較的高い各サーバ装置(情報サイトA,B,C,…)10A,10b,10C,…のWebページから抽出された全てのタイトル(テキストテキスト)に対応するリンク先の本文テキストの中で、少なくとも2つの情報サイトのWebページに載っているタイトルに対応する類似と判定された本文テキストの一方である。このため、前記要表示マークが付加されたところの本文テキストは、ユーザが日頃からアクセスする頻度の比較的高い各情報サイトA,B,C,…から得られる情報の中でも重要度が高い情報になる。   In other words, in this extraction result list (23b), the text of the text to which the required display mark is added is the server devices (information sites A, B, C,...) 10A that are relatively frequently accessed by the user on a daily basis. , 10b, 10C,..., Similar to the titles corresponding to the titles on the Web pages of at least two information sites among the linked body texts corresponding to all the titles (text texts) extracted from the Web pages. One of the determined body texts. For this reason, the body text where the display mark is added is information having high importance among the information obtained from the information sites A, B, C,. Become.

図4は、前記情報端末装置20において例えばサーバ装置(情報サイトA)10A[http://www.sight.a.co.jp/]から取得されたWebページPの画面表示例を示す図である。   FIG. 4 is a diagram showing a screen display example of the Web page P acquired from the server device (information site A) 10A [http://www.sight.a.co.jp/] in the information terminal device 20, for example. is there.

図5は、前記図4におけるWebページPのリンクテキストLtxt1部分を記述したHTMLソースPhtmを示す図である。   FIG. 5 is a diagram showing an HTML source Phtm describing the link text Ltxt1 portion of the Web page P in FIG.

図4に示すように、情報端末装置20の表示部27に表示させたWebページPはハイパーテキストであり、メインタイトルT「今日の速報ニュース」に属する5項目の個別タイトルが何れもリンクテキストLtxt1〜Ltxt5に設定されている。そして、当該各リンクテキストLtxt1〜Ltxt5は、図5にその一部を示すHTMLソースPhtmにおいて、何れも“A”で括られるタグ要素に記述され、リンク先WebページのURLが対応付けられている。   As shown in FIG. 4, the Web page P displayed on the display unit 27 of the information terminal device 20 is hypertext, and all of the five individual titles belonging to the main title T “Today's breaking news” are linked text Ltxt1. ~ Ltxt5 is set. Each of the link texts Ltxt1 to Ltxt5 is described in a tag element surrounded by “A” in the HTML source Phtm, part of which is shown in FIG. 5, and is associated with the URL of the link destination Web page. .

例えば表示部27に表示されたWebページPにおいて、メインタイトルTに属する1番目の個別タイトルに対応するリンクテキスト「首相、内閣支持率に注文」Ltxt1にフォーカスすると、当該リンクテキストLtxt1を記述したHTMLソースPhtmから、破線aで囲んで示すように、リンク先WebページのURL[http://www.sight_b.co.jp/news002.html]が取得される。   For example, in the Web page P displayed on the display unit 27, when the link text “Order by Prime Minister, Cabinet Support Rate” Ltxt1 corresponding to the first individual title belonging to the main title T is focused, HTML describing the link text Ltxt1 The URL [http://www.sight_b.co.jp/news002.html] of the link destination Web page is acquired from the source Phtm as indicated by being surrounded by a broken line a.

このように、情報端末装置20のWebブラウザプログラムは、その基本機能として、ユーザ指定のWebサイトのサーバ装置10A,10B,10C,…へのアクセスに伴い、そのWebページを取得し、当該WebページのHTMLのタグから成るツリー構造を解析して、記憶部23内のフレームバッファFBに画面展開し表示する機能を有する。   As described above, the Web browser program of the information terminal device 20 acquires the Web page as the basic function in accordance with the access to the server devices 10A, 10B, 10C,... It has a function of analyzing a tree structure made up of HTML tags and expanding and displaying the screen in the frame buffer FB in the storage unit 23.

また、この情報端末装置20は、ユーザ操作に応じてアクセス要求されたWebサイトのサーバ装置からWebページPを取得して表示する機能とは別に、一定時間T1毎に、前記URL登録リストメモリ23a(図2参照)に登録されている各URLのサーバ装置へ自動でアクセスし、各サーバ装置が提供する全てのWebページP…内の個別タイトルであるリンクテキストLtxt1〜Ltxtmを抽出する機能、抽出された各リンクテキストLtxt1〜Ltxtmに対応するリンク先URLを取得する機能、取得された各リンク先URLにアクセスしてその本文テキストを抽出する機能、そして前記登録された各URLのID毎の個別タイトル(リンクテキスト)、リンク先URL、本文テキストを、該当するURL_IDに関係付けた本文IDと対応付けて前記抽出結果リストメモリ23b(図3参照)に登録する機能を有する(図6のステップSA[表示対象テキスト取得処理])。   In addition to the function of acquiring and displaying the Web page P from the server device of the Web site requested to access in response to a user operation, the information terminal device 20 performs the URL registration list memory 23a at a certain time T1. A function that automatically accesses the server device of each URL registered in (see FIG. 2) and extracts link texts Ltxt1 to Ltxtm that are individual titles in all Web pages P provided by each server device. A function of acquiring link destination URLs corresponding to the respective link texts Ltxt1 to Ltxtm, a function of accessing each acquired link destination URL and extracting the body text, and an individual ID for each of the registered URLs Corresponding the title (link text), link destination URL, and body text with the body ID associated with the corresponding URL_ID The extraction result list memory 23b has a function of registering in (see FIG. 3) (step SA [Display text acquisition process] in FIG. 6).

そして、この情報端末装置20は、前記抽出結果リストメモリ23bに登録された各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度を総当たりに順番に判定する機能、この類似度判定に際して、類似度が規定値より高いと判定された本文テキストについては、URL_IDが小さい方の本文テキストに対応付けて要表示マークを付加すると共に、もう一方の本文テキストを削除する機能を有する(図6のステップSB[類似度判定処理])。   Then, the information terminal device 20 uses the similarity between the URL texts registered in the extraction result list memory 23b and the text texts associated with other URL IDs based on the text text with the smaller URL ID. In order to determine the degree of similarity, the body text whose similarity is determined to be higher than the specified value is associated with the body text having the smaller URL_ID, and a required display mark is added. And has a function of deleting the other body text (step SB [similarity determination processing] in FIG. 6).

さらに、この情報端末装置20は、前記抽出結果リストメモリ23bに要表示マークの付加された本文テキストが存在する場合に、当該要表示の本文テキストが対応付けられた個別タイトル(リンクテキスト)を表示部27にウインドウ表示する機能を有する(図6のステップSC[表示処理])。   Further, the information terminal device 20 displays an individual title (link text) associated with the required body text when the body text with the required display mark is present in the extraction result list memory 23b. The window 27 has a function of displaying a window (step SC [display processing] in FIG. 6).

このような予め登録された各Webサイトからの重要情報取得表示機能は、例えば前記Webブラウザプログラムにプラグインあるいはアドオンするプログラムにより実現される。   The function of acquiring and displaying important information from each Web site registered in advance is realized by a program that plugs in or adds to the Web browser program, for example.

次に、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能について説明する。   Next, the important information acquisition / display function by the information terminal device 20 of the server / client system having the above-described configuration will be described.

図6は、前記情報端末装置20による重要情報取得表示処理の概要を示すフローチャートである。   FIG. 6 is a flowchart showing an outline of important information acquisition / display processing by the information terminal device 20.

この重要情報取得表示処理では、前述にその機能の概要を説明した表示対象テキスト取得処理(ステップSA)、類似度判定処理(ステップSB)、表示処理(ステップSC)が、予め設定された一定時間T1毎に繰り返し実行される(ステップSD,SE→SA)。   In this important information acquisition / display processing, the display target text acquisition processing (step SA), similarity determination processing (step SB), and display processing (step SC) whose outline of the function has been described above are performed for a predetermined period of time. It is repeatedly executed every T1 (step SD, SE → SA).

この重要情報取得表示処理により、ユーザが日頃からアクセスする頻度の比較的高い各情報サイトA,B,C,…から得られる情報の中でも重要度が高い情報の個別タイトル(リンクテキスト)を常時ウインドウ表示できるようになる。   By this important information acquisition and display processing, an individual title (link text) of information having high importance among information obtained from each of the information sites A, B, C,. It can be displayed.

以下にその詳細な処理について説明する。   The detailed processing will be described below.

図7は、前記重要情報取得表示処理に伴う表示対象テキスト取得処理(SA)を示すフローチャートである。   FIG. 7 is a flowchart showing a display target text acquisition process (SA) accompanying the important information acquisition display process.

先ず、記憶部23において管理される変数xの値が、前記URL登録リストメモリ23a(図2参照)に登録されたURLの数“n”に初期化され、また同記憶部23において管理する変数yの値が、前記登録されたn個のURLの先頭を指定する値“1”に初期化される(ステップA1)。   First, the value of the variable x managed in the storage unit 23 is initialized to the number “n” of URLs registered in the URL registration list memory 23a (see FIG. 2), and the variable managed in the storage unit 23 The value of y is initialized to a value “1” that designates the top of the registered n URLs (step A1).

すると、前記URL登録リストメモリ23aに登録されたy(=1)番目のURLに従ったサーバ装置(例えば情報サイトA)10Aへアクセスされ、当該情報サイトAのWebページPが取得される。そして、このWebページPに記述されている各個別タイトルのリンクテキストLtxt1〜Ltxtmが抽出され、前記抽出結果リストメモリ23b(図3参照)に前記URLのID(=1)に対応付けられて記憶される(ステップA2)。   Then, the server device (for example, information site A) 10A according to the y (= 1) th URL registered in the URL registration list memory 23a is accessed, and the web page P of the information site A is acquired. Then, link texts Ltxt1 to Ltxtm of each individual title described in the Web page P are extracted, and stored in the extraction result list memory 23b (see FIG. 3) in association with the ID (= 1) of the URL. (Step A2).

なお、前記サーバ装置から取得されたWebページPに記述されている各個別タイトルのリンクテキストLtxt1〜Ltxtmを抽出する処理は、例えば次のように実行される。   In addition, the process which extracts the link text Ltxt1-Ltxtm of each individual title described in the web page P acquired from the said server apparatus is performed as follows, for example.

先ず、WebページPのHTMLのタグからなるツリー構造が解析され、当該WebページP内の「カラム」が抽出される。また前記HTMLの構造解析から、例えば前記「カラム」毎に、周囲の文字列と比較して大きい文字サイズや目立つ文字フォントである「強い」文字列が抽出されてリストアップされる。すると、リストアップされた「強い」文字列同士の位置関係,強弱,個数などから各個別タイトルのリンクテキストLtxt1〜Ltxtmが認定抽出される。   First, a tree structure including HTML tags of the Web page P is analyzed, and “columns” in the Web page P are extracted. In addition, from the HTML structural analysis, for example, for each “column”, a “strong” character string that is larger than a surrounding character string and is a conspicuous character font is extracted and listed. Then, link texts Ltxt1 to Ltxtm of each individual title are certified and extracted from the positional relationship, strength, number, etc. of the listed “strong” character strings.

通常、例えばニュース情報サイトに掲載されるトップニュースなどは、大きめのフォントや太字で個別タイトルが表示されることが多い。従って、前記処理によりタイトル抽出することで、トップニュース等の重要情報についての個別タイトルを抽出することが可能となる。   Normally, for example, top news posted on a news information site often displays individual titles in a large font or bold font. Therefore, it is possible to extract individual titles about important information such as top news by extracting titles by the above processing.

すると、記憶部23において管理される変数nが、前記ステップA2においてy番目(=1)のURLに対応するWebページPから抽出された各個別タイトル(リンクテキストLtxt1〜Ltxtm)の数“m”にセットされる(ステップA3)。   Then, the variable n managed in the storage unit 23 is the number “m” of individual titles (link texts Ltxt1 to Ltxtm) extracted from the Web page P corresponding to the y-th (= 1) URL in step A2. (Step A3).

ここで、前記変数n=0ではない(ステップA4(No))、つまり前記y番目(=1)のURLに対応するWebページPから少なくとも1つ以上の個別タイトル(リンクテキスト)が抽出されたと判断されると、この抽出されたn(=m)個の個別タイトル(リンクテキスト)の各リンク先URLに従い当該各リンク先のWebページLP…(図8参照)が取得される。そして、この各リンク先のWebページLP…からその本文テキストHtxt…が抽出され、前記リンク先URLと共に、前記リンク元のURL_IDおよび当該リンク元のURL_IDに関係付けた本文IDに対応付けられて、前記抽出結果リストメモリ23b(図3参照)に登録される(ステップA5,A6→A4)。   Here, the variable n is not 0 (step A4 (No)), that is, at least one or more individual titles (link text) are extracted from the Web page P corresponding to the y-th (= 1) URL. When it is determined, the Web page LP of each link destination (see FIG. 8) is acquired according to each link destination URL of the extracted n (= m) individual titles (link text). Then, the text text Htxt ... is extracted from each link destination Web page LP ..., and is associated with the link destination URL together with the link source URL_ID and the text ID associated with the link source URL_ID, It is registered in the extraction result list memory 23b (see FIG. 3) (steps A5, A6 → A4).

なお、前記リンク先のWebページLPからその本文テキストHtxtを抽出する処理は、例えば次のように実行される。   The process of extracting the body text Htxt from the linked Web page LP is executed as follows, for example.

図8は、前記図5に一部分を示したHTMLソースPhtmにより記述されたリンク先WebページLPの画面表示例を示す図である。   FIG. 8 is a diagram showing a screen display example of the linked Web page LP described by the HTML source Phtm partially shown in FIG.

リンク先WebページLPのHTMLソースLPhtmには、前記リンク元WebページPにて抽出した個別タイトルのリンクテキスト「首相、内閣支持率に注文」Ltxt1と同一(あるいは類似)の見出しテキスト「首相、内閣支持率に注文」Mtxtを含んでいる“H1”で括られるタグ要素が存在する。   The HTML source LPhtm of the link destination Web page LP includes the headline text “Prime Minister, Cabinet” which is the same (or similar) as the link text “Order from Prime Minister and Cabinet Support Rate” Ltxt1 extracted from the link source Web page P. There is a tag element enclosed in “H1” that contains “order to support rate” Mtxt.

そして、前記見出しテキスト「首相、内閣支持率に注文」Mtxtに対応する本文テキストHtxtは、当該見出しテキスト「首相、内閣支持率に注文」Mtxtを含むタグ要素“H1”以降のタグ要素“P”において、幾つもの読点を有する比較的長い文字列として記述されている。   The body text Htxt corresponding to the heading text “Prime Minister, Order with Cabinet Support Rate” Mtxt is a tag element “P” after the tag element “H1” including the heading text “Order with Prime Minister, Cabinet Support Rate” Mtxt. Are described as a relatively long character string having several readings.

このため、リンク先WebページLPのHTMLソースLPhtmから、前記リンク元WbページPから抽出した個別タイトルのリンクテキストLtxtに対応する本文テキストHtxtを抽出するには、当該リンクテキストLtxtと同一(あるいは類似)の見出しテキストMtxtを含んでいるタグ要素“H1”を検索し、これ以降のタグ要素“P”において、読点を設定個数以上含み且つ設定数以上の文字数からなるテキストを抽出すればよい。   For this reason, in order to extract the body text Htxt corresponding to the link text Ltxt of the individual title extracted from the link source Wb page P from the HTML source LPhtm of the link destination Web page LP, the same (or similar) to the link text Ltxt. The tag element “H1” including the headline text Mtxt) is retrieved, and the text including the set number of punctuation marks and the number of characters greater than the set number is extracted from the tag element “P” thereafter.

こうして、前記ステップA4〜A6の処理に従いy番目(=1)のURLに対応するWebページPの各個別タイトル(リンクテキストLtxt1〜Ltxtm)に対応するリンク先WebページLP1〜LPmの本文テキストHtxt1〜Htxtmが抽出され、例えば図3で示したように、該当するURL_ID“1”の各本文ID“1−1”〜“1−m1”と対応付けられて抽出結果リストメモリ23bに登録されると、変数yの値がインクリメントされて“2”にセットされ(ステップA7)、前記ステップA2以降の処理が繰り返される(ステップA8(No)→A2)。   Thus, according to the processing of steps A4 to A6, the body texts Htxt1 to the link destination Web pages LP1 to LPm corresponding to the individual titles (link texts Ltxt1 to Ltxtm) of the Web page P corresponding to the yth (= 1) URL. When Htxtm is extracted and registered in the extraction result list memory 23b in association with each body ID “1-1” to “1-m1” of the corresponding URL_ID “1”, for example, as shown in FIG. The value of the variable y is incremented and set to “2” (step A7), and the processing after step A2 is repeated (step A8 (No) → A2).

すなわち、次のステップA2の処理により、前記URL登録リストメモリ23aに登録されたy(=2)番目のURLに対応するWebページPの各個別タイトル(リンクテキストLtxt1〜Ltxtm)が抽出される。そして、次のステップA3〜A6の処理により、前記抽出されたy番目(=2)のURLに対応するWebページPの各個別タイトル(リンクテキストLtxt1〜Ltxtm)に対応するリンク先WebページLP1〜LPmの本文テキストHtxt1〜Htxtmが抽出され、前記図3で示したように、該当するURL_ID“2”の各本文ID“2−1”〜“2−m2”と対応付けられて抽出結果リストメモリ23bに登録される。   That is, the individual titles (link texts Ltxt1 to Ltxtm) of the Web page P corresponding to the y (= 2) th URL registered in the URL registration list memory 23a are extracted by the processing of the next step A2. Then, by the processing of the next steps A3 to A6, the linked Web pages LP1 to LP1 corresponding to the individual titles (link texts Ltxt1 to Ltxtm) of the Web page P corresponding to the extracted yth (= 2) URL. LPm body texts Htxt1 to Htxtm are extracted, and as shown in FIG. 3, the extracted result list memory is associated with the body IDs “2-1” to “2-m2” of the corresponding URL_ID “2”. 23b.

さらに続けて、前記変数yの値が順次インクリメントされながら、前記URL登録リストメモリ23aに登録されたn(=x)個全てのURLに従い、前記ステップA2〜A6の処理が繰り返されて抽出結果リスト(23b)が生成された後、ステップA7にてインクリメントされた変数yの値が変数x(=n)の値を上回ったと判断されると(ステップA8(Yes))、前記一連の表示対象テキスト取得処理が終了され、図9における類似度判定処理(SB)へ移行される。   Subsequently, while the value of the variable y is sequentially incremented, the processing in steps A2 to A6 is repeated according to all n (= x) URLs registered in the URL registration list memory 23a, and the extraction result list is displayed. After generating (23b), if it is determined that the value of variable y incremented in step A7 exceeds the value of variable x (= n) (step A8 (Yes)), the series of display target texts The acquisition process ends, and the process proceeds to the similarity determination process (SB) in FIG.

図9は、前記重要情報取得表示処理に伴う類似度判定処理(SB)を示すフローチャートである。   FIG. 9 is a flowchart showing similarity determination processing (SB) accompanying the important information acquisition display processing.

この類似度判定処理に移行されると、先ず、記憶部23にて管理される変数xおよび変数yの値が何れも“1”に初期化される(ステップB1)。変数xは、前記抽出結果リストメモリ23bに登録されたURL_ID毎の各個別タイトル(リンクテキスト)に対応する本文テキストを順番にカウントするための値であり、変数yは、前記URL登録リストメモリ23aに登録されたURL_IDを順番にカウントするための値である。   When the process proceeds to the similarity determination process, first, the values of the variable x and the variable y managed in the storage unit 23 are both initialized to “1” (step B1). The variable x is a value for sequentially counting the body text corresponding to each individual title (link text) for each URL_ID registered in the extraction result list memory 23b, and the variable y is the URL registration list memory 23a. This is a value for sequentially counting the URL_ID registered in.

また、記憶部23にて管理される変数ymaxの値に、前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数が代入される(ステップB2)。   Further, the total number of URLs registered in the URL registration list memory 23a (see FIG. 2) is substituted for the value of the variable ymax managed in the storage unit 23 (step B2).

また、記憶部23にて管理される変数xmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているy(=1)番目のURL_ID“1”に対応するところの本文テキストの総数(m1)が代入される(ステップB3)。   The text text corresponding to the y (= 1) th URL_ID “1” registered in the extraction result list memory 23b (see FIG. 3) is added to the value of the variable xmax managed in the storage unit 23. Is substituted (step B3).

さらに、記憶部23にて管理される変数mの値に、前記変数y+1(=2)が代入される(ステップB4)。   Further, the variable y + 1 (= 2) is substituted for the value of the variable m managed in the storage unit 23 (step B4).

そして、記憶部23にて管理される変数nの値が“1”に初期化されると共に、変数nmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているm(=2)番目のURL_ID“2”に対応するところの本文テキストの総数(m2)が代入される(ステップB5)。   Then, the value of the variable n managed in the storage unit 23 is initialized to “1”, and m (=) registered in the extraction result list memory 23b (see FIG. 3) as the value of the variable nmax. 2) The total number (m2) of body texts corresponding to the second URL_ID “2” is substituted (step B5).

すると、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=2)番目のURL_ID“2”に対応するところのn(=1)番目の本文テキストとの類似度が求められ(ステップB6)、当該類似度が予め設定された規定値(閾値)より高いか否か判断される(ステップB7)。   Then, the x (= 1) th body text corresponding to the y (= 1) th URL_ID “1” registered in the extraction result list memory 23b, and the m (= 2) th URL_ID “2”. The similarity with the n (= 1) -th body text corresponding to "is determined (step B6), and it is determined whether or not the similarity is higher than a preset specified value (threshold value) (step B6). B7).

そして、前記2つの本文テキストの類似度が規定値(閾値)以下であると判断されると(ステップB7(No))、前記m(=2)番目のURL_ID“2”に対応した本文テキストを指定するための変数nの値がインクリメントされて“2”にセットされる(ステップB8)。   If it is determined that the similarity between the two body texts is equal to or less than a specified value (threshold) (step B7 (No)), the body text corresponding to the m (= 2) th URL_ID “2” is selected. The value of the variable n for designating is incremented and set to “2” (step B8).

すると、前記変数n(=2)は、前記m(=2)番目のURL_ID“2”に対応した本文テキストの総数nmax(=m2)を超えたか否か判断され(ステップB9)、未だ超えないと判断されると(ステップB9(No))、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=2)番目のURL_ID“2”に対応するところのn(=2)番目の本文テキストとの類似度が求められ(ステップB6)、当該類似度が予め設定された規定値(閾値)より高いか否か判断される(ステップB7)。   Then, it is determined whether or not the variable n (= 2) has exceeded the total number nmax (= m2) of body texts corresponding to the m (= 2) -th URL_ID “2” (step B9) and has not yet exceeded. Is determined (step B9 (No)), the x (= 1) th body text corresponding to the y (= 1) th URL_ID “1” registered in the extraction result list memory 23b, and , The similarity with the n (= 2) -th body text corresponding to the m (= 2) -th URL_ID “2” is obtained (step B6), and the similarity is set to a predetermined value (threshold value). ) Is determined (step B7).

すなわち、前記ステップB5〜B9の処理が繰り返し実行されることで、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準とし、m(=2)番目のURL_ID“2”に対応するところの各本文テキスト(n(=1)〜nmax(=m2))を比較対象にその類似度が順次求められ、その都度、求められた類似度が規定値(閾値)より高いか否か判断される。   That is, by repeatedly executing the processing of steps B5 to B9, the x (= 1) th corresponding to the y (= 1) th URL_ID “1” registered in the extraction result list memory 23b. With the body text as a reference, the degree of similarity is sequentially obtained by comparing each body text (n (= 1) to nmax (= m2)) corresponding to the m (= 2) -th URL_ID “2”. In each case, it is determined whether or not the obtained similarity is higher than a specified value (threshold value).

そして、例えば前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=2)番目のURL_ID“2”に対応するところのn(=2)番目の本文テキストとの類似度が求められた際に(ステップB6)、当該類似度が規定値(閾値)より高いと判定された場合には(ステップB7(Yes))、前者y(=1)番目のURL_ID“1”に対応するところのx(=1)番目の個別タイトルおよび本文テキストに対応付けて要表示マークが付加され、表示対象に設定される(ステップB10)。   For example, the x (= 1) -th body text corresponding to the y (= 1) -th URL_ID “1” registered in the extraction result list memory 23 b and the m (= 2) -th URL_ID “ When the similarity with the n (= 2) -th body text corresponding to 2 ″ is obtained (step B6), when it is determined that the similarity is higher than a specified value (threshold) ( Step B7 (Yes)), a display-required mark is added in association with the x (= 1) -th individual title and body text corresponding to the former y (= 1) -th URL_ID “1”, and is displayed as a display target. It is set (step B10).

またこれに伴い、後者m(=2)番目のURL_ID“2”に対応するところのn(=2)番目の個別タイトルおよび本文テキストが前記抽出結果リストメモリ23bから削除される(ステップB11)。   Accordingly, the n (= 2) th individual title and body text corresponding to the latter m (= 2) th URL_ID “2” are deleted from the extraction result list memory 23b (step B11).

すると、前記変数mの値がインクリメントされて“3”にセットされ(ステップB12)、当該変数m(=3)は、前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数ymaxを超えたか否か判断される(ステップB13)。   Then, the value of the variable m is incremented and set to “3” (step B12), and the variable m (= 3) is the total number ymax of URLs registered in the URL registration list memory 23a (see FIG. 2). Is judged (step B13).

ここで、前記変数mはymaxを未だ超えないと判断されると(ステップB13(No))、変数nの値が“1”に初期化されると共に、変数nmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているm(=3)番目のURL_ID“3”に対応するところの本文テキストの総数(m3)が代入される(ステップB5)。   Here, if it is determined that the variable m still does not exceed ymax (step B13 (No)), the value of the variable n is initialized to “1”, and the extraction result list is set to the value of the variable nmax. The total number (m3) of body texts corresponding to the m (= 3) th URL_ID “3” registered in the memory 23b (see FIG. 3) is substituted (step B5).

そして、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=3)番目のURL_ID“3”に対応するところのn(=1)番目の本文テキストとの類似度が求められ(ステップB6)、当該類似度が予め設定された規定値(閾値)より高いか否か判断される(ステップB7)。   Then, the x (= 1) th body text corresponding to the y (= 1) th URL_ID “1” registered in the extraction result list memory 23 b and the m (= 3) th URL_ID “3”. The similarity with the n (= 1) -th body text corresponding to "is determined (step B6), and it is determined whether or not the similarity is higher than a preset specified value (threshold value) (step B6). B7).

つまりこれにより、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準とし、m(=3)番目のURL_ID“3”に対応するところの各本文テキスト(n(=1)〜nmax(=m3))を比較対象にその類似度が順次求められ、その都度、前記同様に求められた類似度が規定値(閾値)より高いか否か判断される(ステップB6〜B9)。   In other words, this makes the m (= 3) th text based on the x (= 1) th body text corresponding to the y (= 1) th URL_ID “1” registered in the extraction result list memory 23b. Similarities are sequentially obtained for the respective body texts (n (= 1) to nmax (= m3)) corresponding to the URL_ID “3”, and the similarities obtained in the same manner are obtained each time. It is determined whether or not the value is higher than a specified value (threshold value) (steps B6 to B9).

この後、前記ステップB5〜B13の処理が繰り返されることで、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準とし、URL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。   Thereafter, the processing of steps B5 to B13 is repeated, so that the x (= 1) th corresponding to the y (= 1) th URL_ID “1” registered in the extraction result list memory 23b. Using the body text as a reference, the similarity determination process is repeated with all body texts from URL_ID “2” to URL_ID “n” as comparison targets.

そして、類似度が規定値(閾値)より高いと判定される毎に(ステップB7(Yes))、基準側であるy番目のURL_IDに対応するところのx番目の個別タイトルおよび本文テキストに対応付けて要表示マークが付加されると共に(ステップB10)、比較対象側であるm番目のURL_IDに対応するところのn番目の個別タイトルおよび本文テキストが前記抽出結果リストメモリ23bから削除され(ステップB11)、その時点で当該比較対象側のURL_IDを指定する変数mがインクリメントされる(ステップB12)。   Each time it is determined that the similarity is higher than the specified value (threshold value) (step B7 (Yes)), it is associated with the xth individual title and body text corresponding to the yth URL_ID on the reference side. The required display mark is added (step B10), and the nth individual title and body text corresponding to the mth URL_ID on the comparison target side are deleted from the extraction result list memory 23b (step B11). At that time, the variable m designating the URL_ID on the comparison target side is incremented (step B12).

ここで、2つの異なる文字列(本文テキスト)を比較して類似度を求める具体的手法について説明する。   Here, a specific method for obtaining a similarity by comparing two different character strings (body text) will be described.

2つの異なる文字列を比較して類似度を求める手法としては、レーベンシュタイン距離(2つの文字列を、文字を追加・削除・入れ替えの操作を最小回数で同一にすることができる数)を求める手法やTrigram(文字列を1文字ずつずらして3文字の並びにした時、どの程度の割合で一致する3文字があるか)を求める手法等、各種の手法が既に考えられており、本実施形態ではこれらの手法を用いる。   As a method of calculating the similarity by comparing two different character strings, the Levenshtein distance (the number of characters that can be added, deleted, or replaced with the same number of characters in the minimum number of times) is calculated. Various methods such as a method and a method for obtaining a Trigram (a ratio of three characters when a character string is shifted one character at a time and how many characters match) have already been considered. Then, these methods are used.

そして、前記手法に従い求められた類似度に基づき前記2つの文字列(本文テキスト)が類似しているか否かを判定するための閾値は、チューニングパラメータであり、重要情報の絞り込みを強めにしたいとかその逆である等、利用者の好みに応じて調整する。   The threshold for determining whether or not the two character strings (body text) are similar based on the degree of similarity obtained according to the method is a tuning parameter, and it is desired to strengthen the narrowing down of important information. It is adjusted according to the user's preference, such as the reverse.

こうして、前記ステップB5〜B13の繰り返し処理により、前記y(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準としたURL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が実行され、ステップB12においてインクリメントされた変数mの値が、ステップB13において前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数ymaxを超えたと判断されると(ステップB13(Yes))、前記変数xの値がインクリメントされて“2”にセットされる(ステップB14)。   Thus, URL_ID “2” to URL_ID “n” based on the x (= 1) -th body text corresponding to the y (= 1) -th URL_ID “1” by repeating the steps B5 to B13. Similarity determination processing is performed with all body texts up to "" as comparison targets, and the value of the variable m incremented in step B12 is registered in the URL registration list memory 23a (see FIG. 2) in step B13. If it is determined that the total number of URLs ymax has been exceeded (step B13 (Yes)), the value of the variable x is incremented and set to "2" (step B14).

そして、このインクリメントされた変数xの値が前記xmaxの値、つまり前記抽出結果リストメモリ23b(図3参照)に登録されているy(=1)番目のURL_ID“1”に対応するところの本文テキストの総数(m1)を超えたか否か判断される(ステップB15)。   The text of the incremented variable x corresponds to the value of xmax, that is, the y (= 1) th URL_ID “1” registered in the extraction result list memory 23b (see FIG. 3). It is determined whether or not the total number of texts (m1) has been exceeded (step B15).

ここで、前記インクリメントされた変数x(=2)について前記xmaxの値を超えないと判断されると(ステップB15(No))、前記ステップB4からの処理に戻り、前記変数mの値に、再び前記変数y+1(=2)が代入される。   Here, when it is determined that the incremented variable x (= 2) does not exceed the value of xmax (step B15 (No)), the process returns to the process from step B4, and the value of the variable m is changed to the value of the variable m. The variable y + 1 (= 2) is substituted again.

そして、前記ステップB5〜B13の処理が繰り返されることで、前記y(=1)番目のURL_ID“1”に対応するところのx(=2)番目の本文テキストを基準とし、URL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。   Then, by repeating the processing of steps B5 to B13, the URL_ID “2” to the URL_ID “2” to the URL (ID) corresponding to the y (= 1) th URL_ID “1” is used as a reference. Similarity determination processing in which all body texts up to URL_ID “n” are compared is repeated.

さらに、前記ステップB4〜B15の処理が繰り返されることで、前記y(=1)番目のURL_ID“1”に対応するところの各本文テキストを順番に指定する変数xの値がインクリメントされながら、URL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。   Further, by repeating the processing of the steps B4 to B15, the value of the variable x for sequentially designating each body text corresponding to the y (= 1) -th URL_ID “1” is incremented. Similarity determination processing in which all body texts from “2” to URL_ID “n” are compared is repeated.

そして、前記ステップB14においてインクリメントされた変数xの値が前記xmaxの値、つまり前記抽出結果リストメモリ23b(図3参照)に登録されているy(=1)番目のURL_ID“1”に対応するところの本文テキストの総数(m1)を超えたと判断されると(ステップB15(Yes))、前記類似度判定の基準側のURL_IDを指定するための変数yの値がインクリメントされて“2”にセットされる(ステップB16)。   The value of the variable x incremented in step B14 corresponds to the value of xmax, that is, the y (= 1) th URL_ID “1” registered in the extraction result list memory 23b (see FIG. 3). If it is determined that the total number (m1) of the body text has been exceeded (step B15 (Yes)), the value of the variable y for designating the URL_ID on the reference side of the similarity determination is incremented to “2”. It is set (step B16).

そして、このインクリメントされた変数yの値が前記ymaxの値、つまり前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数を超えたか否か判断される(ステップB17)。   Then, it is determined whether or not the value of the incremented variable y exceeds the value of ymax, that is, the total number of URLs registered in the URL registration list memory 23a (see FIG. 2) (step B17).

ここで、前記インクリメントされた変数y(=2)について前記ymaxの値を超えないと判断されると(ステップB17(No))、前記変数xの値が“1”に初期化される(ステップB18)。   If it is determined that the incremented variable y (= 2) does not exceed the ymax value (step B17 (No)), the value of the variable x is initialized to “1” (step B17). B18).

そして、前記ステップB3からの処理に戻り、前記変数xmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているy(=2)番目のURL_ID“2”に対応するところの本文テキストの総数(m2)が代入される。   Then, returning to the processing from step B3, the value of the variable xmax corresponds to the y (= 2) th URL_ID “2” registered in the extraction result list memory 23b (see FIG. 3). The total number (m2) of body text is substituted.

そして、前記変数mの値に、前記変数y+1(=3)が代入される。   Then, the variable y + 1 (= 3) is substituted for the value of the variable m.

これにより、ステップB5〜B13の処理が繰り返されることで、前記y(=2)番目のURL_ID“2”に対応するところのx(=1)番目の本文テキストを基準とし、URL_ID“3”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。   As a result, the processes in steps B5 to B13 are repeated, so that the x (= 1) th body text corresponding to the y (= 2) th URL_ID “2” is used as a reference, and the URL_ID “3” to Similarity determination processing in which all body texts up to URL_ID “n” are compared is repeated.

さらに、前記ステップB4〜B15の処理が繰り返されることで、前記y(=2)番目のURL_ID“2”に対応するところの各本文テキストを順番に指定する変数xの値がインクリメントされながら、URL_ID“3”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。   Further, by repeating the processing of the steps B4 to B15, the value of the variable x for sequentially designating each body text corresponding to the y (= 2) th URL_ID “2” is incremented. Similarity determination processing in which all body texts from “3” to URL_ID “n” are compared is repeated.

さらに、前記ステップB3〜B18の処理が繰り返されることで、前記類似度判定の基準側のURL_IDを順番に指定する変数yの値がインクリメントされながら、当該インクリメントされたy番目のURL_IDに対応するところの各本文テキストの1つずつを基準に、m(=y+1)番目からymaxまでのURL_IDに対応するところの各本文テキストを比較対象にした類似度判定処理が繰り返される。   Further, by repeating the processes of steps B3 to B18, the value of the variable y for sequentially specifying the URL_ID on the reference side of the similarity determination is incremented, while corresponding to the incremented y-th URL_ID. The similarity determination process is repeated for each body text corresponding to the URL_ID from m (= y + 1) th to ymax, with each body text as a reference.

そしてこの後、前記ステップB16においてインクリメントされた変数yの値が前記ymaxの値、つまり前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数を超えたと判断されると(ステップB17(Yes))、前記一連の類似度判定処理が終了され、図10における表示処理(SC)へ移行される。   Thereafter, when it is determined that the value of the variable y incremented in step B16 exceeds the value of ymax, that is, the total number of URLs registered in the URL registration list memory 23a (see FIG. 2) (step B17). (Yes)), the series of similarity determination processing ends, and the process proceeds to the display processing (SC) in FIG.

これにより、前記抽出結果リストメモリ23bに登録された各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度が総当たりに順番に判定される。そして、この類似度判定に際して、類似度が規定値(閾値)より高いと判定された本文テキストについては、URL_IDが小さい方の本文テキストに対応付けて要表示マークが付加されると共に、もう一方の本文テキストが削除される。   As a result, the degree of similarity between the URL_IDs registered in the extraction result list memory 23b and the body text associated with the other URL_IDs in order is brute in order based on the body text having the smaller URL_ID. Determined. When the similarity is determined, the body text whose similarity is determined to be higher than the specified value (threshold value) is added with a display mark in association with the body text having a smaller URL_ID, and the other text is displayed. The body text is deleted.

なお、前記抽出結果リストメモリ23bより削除されてNULLとなった本文テキストは、いかなるテキストと比較しても(NULLテキスト同士の比較も含め)類似度は0%になる。   The body text deleted from the extraction result list memory 23b and becoming null has a similarity of 0% regardless of any text (including comparison between null texts).

このため、前記抽出結果リストメモリ23bに登録された各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度を総当たりに順番に判定するとしても、この処理が進むほど、類似度が規定値より高いと判定されてその一方が削除される本文テキストが増えるので、当該処理に伴う負荷は次第に軽くなる。   For this reason, the similarity between the URL_IDs registered in the extraction result list memory 23b and the body texts associated with other URL_IDs is determined in order based on the body text having the smaller URL_ID. Even if the determination is made, the more the process proceeds, the more the body text that is determined that the similarity is higher than the specified value and one of them is deleted increases, so the load associated with the process gradually decreases.

図10は、前記重要情報取得表示処理に伴う表示処理(SC)を示すフローチャートである。   FIG. 10 is a flowchart showing a display process (SC) accompanying the important information acquisition display process.

図11は、前記重要情報取得表示処理の表示処理(SC)に伴う重要情報の表示動作例を示す図である。   FIG. 11 is a diagram showing an example of an important information display operation accompanying the display process (SC) of the important information acquisition display process.

この表示処理に移行されると、先ず、前記抽出結果リストメモリ23bに記憶されている抽出結果リストにおいて、要表示マークが付加されている表示対象の項目があるか否か判断される(ステップC1)。   When the display process is started, it is first determined whether or not there is a display target item to which a display-required mark is added in the extraction result list stored in the extraction result list memory 23b (step C1). ).

ここで、前記抽出結果リスト(23b)において要表示マークの付加された表示対象の項目があると判断されると(ステップC1(Yes))、フレームバッファFBに現在描画されている表示画面データがクリアされる(ステップC2)。   Here, when it is determined that there is an item to be displayed with a display required mark added in the extraction result list (23b) (step C1 (Yes)), the display screen data currently drawn in the frame buffer FB is displayed. Cleared (step C2).

そして、前記抽出結果リスト(23b)において要表示マークが付加された項目に記憶されている個別タイトル(リンクテキスト)が読み出され(ステップC3)、前記フレームバッファFBに表示画面データとして描画される(ステップC4)。   Then, the individual title (link text) stored in the item to which the display required mark is added in the extraction result list (23b) is read (step C3) and rendered as display screen data in the frame buffer FB. (Step C4).

これにより、例えば図11(A)に示すように、情報端末装置(携帯電話)20の表示部27には、前記抽出結果リスト(23b)において要表示マークが付加された項目の個別タイトル(リンクテキスト)を一覧にした重要情報一覧ウインドウWが表示される。   As a result, for example, as shown in FIG. 11A, the display unit 27 of the information terminal device (mobile phone) 20 has an individual title (link) of the item to which the required display mark is added in the extraction result list (23b). An important information list window W that lists (text) is displayed.

そして、この重要情報一覧ウインドウWにおいて、例えば図11(B)に示すように、ユーザ操作に応じてユーザ所望の個別タイトル「首相、内閣支持率に注文」にフォーカスfを合わせると、当該フォーカスfを合わせた個別タイトルに対応付けられて前記抽出結果リスト(23b)に記憶されている本文テキスト「◇◇政権発足を受け、○○新聞社が行った…」が読み出され、ポップアップウインドウWpとして表示されるようになる。   Then, in this important information list window W, for example, as shown in FIG. 11B, when the focus f is adjusted to the individual title “Prime Minister, Order to Cabinet Support Rate” in accordance with the user operation, the focus f Is read in association with the individual titles that are combined and stored in the extraction result list (23b). It will be displayed.

なお、前記図7における表示対象テキスト取得処理(ステップSA)、前記図9における類似度判定処理(ステップSB)、前記図10における表示処理(ステップSC)は、予め設定された一定時間T1毎に繰り返し実行され(ステップSD,SE→SA)、常に最新の情報に更新される。   The display target text acquisition process (step SA) in FIG. 7, the similarity determination process (step SB) in FIG. 9, and the display process (step SC) in FIG. 10 are performed every predetermined time T <b> 1. It is repeatedly executed (step SD, SE → SA), and is always updated to the latest information.

したがって、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能によれば、URL登録リストメモリ23aに予め登録したユーザ所望の各情報サイトのURLにアクセスされ、当該各URLに対応するWebページに記述されている個別タイトル(リンクテキスト)が抽出される。またこれに伴い各個別タイトル(リンクテキスト)のリンク先URLにアクセスされ、当該各リンク先URLに対応するWebページに記述された本文テキストが抽出される。そして、前記各登録URLのIDに対応付けて前記抽出された個別タイトル(リンクテキスト)、リンク先URL、本文テキストが抽出結果リストメモリ23bに記憶される。すると、前記抽出結果リスト(23b)に記憶された各URL_IDの相互間で本文テキストの類似度が求められ、当該類似度の高い本文テキストに対応する個別タイトルだけ、重要情報一覧ウインドウWにして表示部27に表示される。そしてウインドウ表示された所望の個別タイトルにフォーカスfを合わせると、当該所望の個別タイトルに対応する本文テキストが読み出されてポップアップウインドウWpにして表示される。   Therefore, according to the important information acquisition and display function by the information terminal device 20 of the server client system having the above-described configuration, the URL of each user-desired information site registered in advance in the URL registration list memory 23a is accessed. An individual title (link text) described in the corresponding Web page is extracted. As a result, the link destination URL of each individual title (link text) is accessed, and the body text described in the Web page corresponding to each link destination URL is extracted. Then, the extracted individual title (link text), link destination URL, and body text are stored in the extraction result list memory 23b in association with the ID of each registered URL. Then, the similarity of the body text is obtained between the URL_IDs stored in the extraction result list (23b), and only the individual title corresponding to the body text having the high similarity is displayed in the important information list window W. Displayed on the unit 27. When the focus f is set to the desired individual title displayed in the window, the body text corresponding to the desired individual title is read and displayed as a pop-up window Wp.

このため、ユーザが予め登録した複数の情報サイトにおいて同時期に掲載されるような、ユーザにとって重要である確率の高い情報のみを抽出して表示させることができる。   For this reason, it is possible to extract and display only information having a high probability of being important to the user, such as being posted at the same time on a plurality of information sites registered in advance by the user.

また、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能によれば、前記抽出結果リストメモリ23bにおいて、類似度が高いと判定された一方の本文テキストが要表示マークを付加した表示対象に設定され、もう一方の本文テキストは削除される。このため、類似度の高い本文テキストが重複して表示対象に設定されることがない。   Further, according to the important information acquisition and display function by the information terminal device 20 of the server / client system having the above-described configuration, one of the body texts determined to have a high similarity in the extraction result list memory 23b has a display-required mark. The added display target is set, and the other body text is deleted. For this reason, body text with a high degree of similarity is not set as a display target in duplicate.

さらに、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能によれば、前記登録URLに対応するWebページからの個別タイトル(リンクテキスト)の抽出処理、抽出された個別タイトルのリンク先URLに対応するWebページからの本文テキストの抽出処理、各登録URL相互間での個別タイトルに対応するリンク先本文テキストの類似度判定処理、類似度が高いと判定された本文テキストとその個別タイトルを表示対象に設定する処理は、一定時間T1毎に繰り返し実行される。このため、ユーザにとって重要である確率の高い情報のみを、常に最新の状態で抽出して表示させることができる。   Furthermore, according to the important information acquisition and display function by the information terminal device 20 of the server / client system having the above-described configuration, the individual title (link text) extraction processing from the Web page corresponding to the registered URL, the extracted individual title Extraction processing of body text from the Web page corresponding to the link destination URL, similarity determination processing of the link destination body text corresponding to individual titles between the registered URLs, and body text determined to have high similarity The process of setting the individual title as a display target is repeatedly executed every certain time T1. For this reason, it is possible to always extract and display only information having a high probability of being important to the user in the latest state.

なお、前記実施形態において記載した情報表示装置(情報端末装置20)による各処理の手法、すなわち、図6のフローチャートに示す重要情報取得表示処理、図7のフローチャートに示す同重要情報取得表示処理に伴う表示対象テキスト取得処理(SA)、図9のフローチャートに示す同重要情報取得表示処理に伴う類似度判定処理(SB)、図10のフローチャートに示す同重要情報取得表示処理に伴う表示処理(SC)などの各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード(ROMカード、RAMカード等)、磁気ディスク(フロッピディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の外部記憶媒体(記録媒体)24に格納して配布することができる。そして、情報端末装置20のコンピュータ(CPU21)は、この外部記憶媒体(記録媒体)24に記憶されたプログラムを記憶装置(23)に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記実施形態において説明した重要情報取得表示機能を実現し、前述した手法による同様の処理を実行することができる。   Note that each processing method by the information display device (information terminal device 20) described in the embodiment, that is, the important information acquisition display processing shown in the flowchart of FIG. 6 and the same important information acquisition display processing shown in the flowchart of FIG. Display target text acquisition process (SA), similarity determination process (SB) associated with the important information acquisition display process shown in the flowchart of FIG. 9, and display process (SC) associated with the important information acquisition display process shown in the flowchart of FIG. ) And the like are programs that can be executed by a computer, such as a memory card (ROM card, RAM card, etc.), a magnetic disk (floppy disk, hard disk, etc.), an optical disk (CD-ROM, DVD, etc.), Can be stored and distributed in an external storage medium (recording medium) 24 such as a semiconductor memory . Then, the computer (CPU 21) of the information terminal device 20 reads the program stored in the external storage medium (recording medium) 24 into the storage device (23), and the operation is controlled by the read program. The important information acquisition / display function described in the embodiment can be realized, and the same processing can be executed by the method described above.

また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク(N)上を伝送させることができ、この通信ネットワーク(N)に接続されたコンピュータ装置(プログラムサーバ)から前記のプログラムデータを取り込んで記憶装置(23)に記憶させ、前述した重要情報取得表示機能を実現することもできる。   Further, program data for realizing each of the above methods can be transmitted on the communication network (N) in the form of a program code, and from a computer device (program server) connected to the communication network (N). The above-mentioned program information can be fetched and stored in the storage device (23) to realize the important information acquisition / display function described above.

なお、本願発明は、前記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が異なる形態にして組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。   Note that the present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the scope of the invention in the implementation stage. Further, the embodiments include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements. For example, even if some constituent requirements are deleted from all the constituent requirements shown in the embodiment or some constituent requirements are combined in different forms, the problems described in the column of the problem to be solved by the invention are not solved. When the effects described in the column “Effects of the Invention” can be obtained, a configuration in which these constituent requirements are deleted or combined can be extracted as an invention.

10A,10B,…サーバ装置
20 …情報端末装置
21 …CPU
22 …バス
23 …記憶部
23a…URL登録リストメモリ
23b…抽出結果リストメモリ
FB …フレームバッファ
24 …外部記憶媒体
25 …記憶媒体読み書き部
26 …入力部
27 …表示部
28 …送受信部
N …通信ネットワーク
P …Webページ
Phtm…WebページのHTMLソース
LP …リンク先Webページ
Ltxt…リンクテキスト
Mtxt…見出しテキスト
Htxt…本文テキスト
W …重要情報一覧ウインドウ
f …フォーカス
Wp …ポップアップウインドウ
10A, 10B, ... Server device 20 ... Information terminal device 21 ... CPU
DESCRIPTION OF SYMBOLS 22 ... Bus 23 ... Memory | storage part 23a ... URL registration list memory 23b ... Extraction result list memory FB ... Frame buffer 24 ... External storage medium 25 ... Storage medium reading / writing part 26 ... Input part 27 ... Display part 28 ... Transmission / reception part N ... Communication network P ... Web page Phtm ... HTML source of Web page LP ... Link destination Web page Ltxt ... Link text Mtxt ... Heading text Htxt ... Body text W ... Important information list window f ... Focus Wp ... Pop-up window

Claims (4)

情報元として利用する情報サイトのURLを予め記憶するURL記憶手段と、
このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段と、
この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段と、
この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段と、
この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段と、
を備えたことを特徴とする情報表示装置。
URL storage means for storing in advance the URL of an information site used as an information source;
A header information extracting unit that acquires a page of an information site specified by the URL stored by the URL storage unit and extracts the header information in the page;
Text extraction means for extracting text corresponding to the header information extracted by the header information extraction means;
Display target setting means for determining the similarity of each text extracted by the text extracting means, and setting the text determined to be higher than a preset value as a display target;
Display control means for displaying the text set as the display target by the display target setting means on the display unit;
An information display device comprising:
前記見出し情報抽出手段により前記記憶されたURLで指定される情報サイトのページから抽出された見出し情報に対応して前記本文抽出手段により抽出された本文を、該当する前記情報サイトの識別情報に対応付けて記憶する抽出情報記憶手段を備え、
前記表示対象設定手段は、
前記抽出情報記憶手段により記憶された各本文の類似度を異なる情報サイト相互の本文同士で総当たりに判定する類似度判定手段を有し、
前記抽出情報記憶手段により記憶された各本文について、前記類似度判定手段により類似度が予め設定された値よりも高いと判定された一方の本文を表示対象に設定し、もう一方の本文を削除する、
ことを特徴とする請求項1に記載の情報表示装置。
The text extracted by the text extracting means corresponding to the heading information extracted from the page of the information site specified by the stored URL by the header information extracting means corresponds to the identification information of the corresponding information site. Provided with extracted information storage means for storing
The display object setting means includes:
Similarity determination means for determining the brute force between the texts of different information sites with respect to the similarity of each text stored by the extracted information storage means,
For each text stored by the extracted information storage means, one text whose similarity is determined to be higher than a preset value by the similarity determination means is set as a display target, and the other text is deleted. To
The information display device according to claim 1.
前記見出し情報抽出手段による見出し情報の抽出処理と、前記本文抽出手段による本文の抽出処理と、前記表示対象設定手段による表示対象の設定処理と、前記表示制御手段による本文の表示処理とを、予め設定された一定時間毎に繰り返し実行する繰り返し制御手段を備えたことを特徴とする請求項1または請求項2に記載の情報表示装置。   The header information extraction process by the header information extraction means, the text extraction process by the text extraction means, the display target setting process by the display target setting means, and the text display process by the display control means are preliminarily performed. The information display device according to claim 1, further comprising a repetitive control unit that repeatedly executes the set constant time. 電子機器のコンピュータを制御するためのプログラムであって、
前記コンピュータを、
情報元として利用する情報サイトのURLを予めメモリに記憶させるURL記憶手段、
このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段、
この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段、
この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段、
この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段、
として機能させるためのプログラム。
A program for controlling a computer of an electronic device,
The computer,
URL storage means for storing in advance a URL of an information site used as an information source in a memory;
A header information extracting unit that acquires a page of an information site specified by the URL stored by the URL storage unit and extracts the header information in the page;
Text extracting means for extracting text corresponding to the header information extracted by the header information extracting means;
Display target setting means for determining the similarity of each text extracted by the text extracting means, and setting the text determined to be higher than a preset value as a display target;
Display control means for displaying the text set as the display object by the display object setting means on the display unit;
Program to function as.
JP2010012220A 2010-01-22 2010-01-22 Information display device and program Active JP5682113B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010012220A JP5682113B2 (en) 2010-01-22 2010-01-22 Information display device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010012220A JP5682113B2 (en) 2010-01-22 2010-01-22 Information display device and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015003982A Division JP2015092398A (en) 2015-01-13 2015-01-13 Information display controller and program

Publications (2)

Publication Number Publication Date
JP2011150591A true JP2011150591A (en) 2011-08-04
JP5682113B2 JP5682113B2 (en) 2015-03-11

Family

ID=44537494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010012220A Active JP5682113B2 (en) 2010-01-22 2010-01-22 Information display device and program

Country Status (1)

Country Link
JP (1) JP5682113B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016536674A (en) * 2013-10-07 2016-11-24 オラクル・インターナショナル・コーポレイション Removing attribute redundancy
CN107844493A (en) * 2016-09-19 2018-03-27 上海泓智信息科技有限公司 A kind of file association method and system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140085A (en) * 2006-11-30 2008-06-19 Toshiba Corp Information sharing system and information sharing program
JP2009500764A (en) * 2005-07-15 2009-01-08 チョンヌン インコーポレイテッド Information retrieval method and apparatus reflecting information value
JP2009042908A (en) * 2007-08-07 2009-02-26 Nec Corp Device for extracting news article, method for specifying news article link and program for extracting news article

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009500764A (en) * 2005-07-15 2009-01-08 チョンヌン インコーポレイテッド Information retrieval method and apparatus reflecting information value
JP2008140085A (en) * 2006-11-30 2008-06-19 Toshiba Corp Information sharing system and information sharing program
JP2009042908A (en) * 2007-08-07 2009-02-26 Nec Corp Device for extracting news article, method for specifying news article link and program for extracting news article

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016536674A (en) * 2013-10-07 2016-11-24 オラクル・インターナショナル・コーポレイション Removing attribute redundancy
US10579602B2 (en) 2013-10-07 2020-03-03 Oracle International Corporation Attribute redundancy removal
CN107844493A (en) * 2016-09-19 2018-03-27 上海泓智信息科技有限公司 A kind of file association method and system
CN107844493B (en) * 2016-09-19 2020-12-29 博彦泓智科技(上海)有限公司 File association method and system

Also Published As

Publication number Publication date
JP5682113B2 (en) 2015-03-11

Similar Documents

Publication Publication Date Title
US10796076B2 (en) Method and system for providing suggested tags associated with a target web page for manipulation by a useroptimal rendering engine
US10515142B2 (en) Method and apparatus for extracting webpage information
US8347225B2 (en) System and method for selectively displaying web page elements
JP2006065395A (en) Hyper link generating device, hyper link generating method, and hyper link generating program
JP2011022914A (en) Information processing device and control program thereof
JP5136087B2 (en) Client device and client control program
JP5109759B2 (en) Information processing apparatus and control program thereof
JP5682113B2 (en) Information display device and program
JP5858479B2 (en) Terminal device and program
JP5338298B2 (en) Page browsing device and program
JP6832584B2 (en) Information processing equipment and computer programs
JP2010134780A (en) Information processing apparatus and control program thereof
JP2007034464A (en) Advertising content presentation system and advertising content presentation program
JP2015092398A (en) Information display controller and program
GB2347260A (en) Learning support method, system and computer readable medium storing learning support program
JP5939711B2 (en) Information processing apparatus and control program thereof
JP5729428B2 (en) Page display device and program
US20030212959A1 (en) System and method for processing Web documents
JP2011221641A (en) Web page conversion display system, web page conversion display method, and web page conversion display program
KR101550418B1 (en) Apparatus and method for generating mobile web
JP5288569B2 (en) Electronic publication processing apparatus, electronic publication processing method, and program
CN117520678A (en) Webpage processing method and device, electronic equipment and storage medium
JP2011238167A (en) Hyperlink rearrangement device, hyperlink rearrangement method and hyperlink rearrangement program
JP5289498B2 (en) Common additional information adding device by category and common additional information adding method by category
KR100689996B1 (en) Transforming system and method of html document

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141229

R150 Certificate of patent or registration of utility model

Ref document number: 5682113

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150