JP2004280203A - Web-adaptable electronic device, page browsing display method and program - Google Patents
Web-adaptable electronic device, page browsing display method and program Download PDFInfo
- Publication number
- JP2004280203A JP2004280203A JP2003067369A JP2003067369A JP2004280203A JP 2004280203 A JP2004280203 A JP 2004280203A JP 2003067369 A JP2003067369 A JP 2003067369A JP 2003067369 A JP2003067369 A JP 2003067369A JP 2004280203 A JP2004280203 A JP 2004280203A
- Authority
- JP
- Japan
- Prior art keywords
- page
- headline
- web
- pages
- linked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、PDA、携帯電話、テレビジョンセット、ディスク搭載型ビデオレコーダなどのプログラム組み込み型のWeb対応電子機器装置、Webコンテンツの閲覧表示方法、およびプログラムに関する。
【0002】
【従来の技術】
一般に、PDA(Personal Digital(Data) Assistants)、携帯電話、テレビジョンセット、ディスク搭載型ビデオレコーダなどのプログラム組み込み型のWeb対応電子機器装置が持つマン・マシンインタフェースは、パーソナルコンピュータのそれに比べると貧弱であると言わざるを得ない。これに対し、Web上のコンテンツは、マウスや、フルキー配列キーボードもしくはこれに類するキーボード、さらには高解像度の表示装置を用いたパーソナルコンピュータによる閲覧表示を想定して作成される場合が多く、このため上記のようなWeb対応電子機器装置でWeb上のコンテンツを閲覧表示しようとすると、ユーザは様々な不具合に遭遇することを避けて通れなかった。
【0003】
たとえば、Web対応電子機器装置では、フルキー配列キーボードからキー数が大幅に削減された簡易キーボードを指やペンなどで操作してURL入力を行う程度のものが多く、キー入力の操作性に劣る点はゆがめない。
【0004】
また、Web対応電子機器装置の表示デバイスは、パーソナルコンピュータのそれよりも解像度が低いものが採用される場合がほとんどである。前述したように、Web上のコンテンツの多くはパーソナルコンピュータに用いられる高解像度の表示デバイスでの閲覧表示を想定して作成されているため、たとえば、図16に示すように、PDAのようなWeb対応電子機器装置161に備えられた解像度の低い表示デバイスでは、全体のWebページ162のごく一部163しか一度表示できない場合が多く、ページ全体を見るには縦横のスクロール操作を繰り返さなければならないなど、ユーザにとって操作が面倒であった。
【0005】
さらに、Web対応電子機器装置に限った問題ではないが、Webページのなかには、ビットマップデータやアニメーションデータ、さらには音声データなどが付加されることによって全体データ容量が大きなものも少なくない。このようにデータ容量の大きいWebページを閲覧しようとした場合、アナログ接続程度の通信環境ではページのダウンロードに長い時間がかかってしまう。
【0006】
このような課題を解決する方法として、ユーザ(ブラウザ)からの指示情報に基づいてユーザの望みWebページをユーザのブラウザに代わって収集し、収集したWebページからテキストを優先して制限容量内・制限時間内で抜き出し、抜き出したテキストデータを一つのファイルデータにまとめてユーザ(ブラウザ)に返すハイパーテキスト収集装置をWeb上に設置する方法が公知の技術として存在する(たとえば特許文献1を参照)。
【0007】
【特許文献1】
特開平10−260890号公報
【0008】
【発明が解決しようとする課題】
しかしながら、かかる公知技術では、ユーザの希望するWebページを指定するためのURLなど様々な指示情報の入力が必要であり、キー入力の操作性に乏しいWeb対応電子機器装置にとっては不向きである。また、上記の公知技術では、多数の異なるWebサイトのコンテンツを収集するために、それらのWebサイト数分のURLをユーザがハイパーテキスト収集装置に対して指定しなければならず、URL入力操作にかなりの時間がかかってしまうことが想像できる。さらに、上記の公知技術は、複数のWebページの中のテキストデータを単に収集してユーザに提供する程度のものである。
【0009】
本発明は、このような事情を鑑みて、多数のWebサイトのコンテンツをユーザによるURLなどの入力操作無しに快適に閲覧表示することのできるWeb対応電子機器装置、Webコンテンツの閲覧表示方法、プログラムを提供することを目的としている。
【0010】
また、本発明は、キーワードをベースとしてユーザが望むWebページを迅速にアクセスすることのできるWeb対応電子機器装置、Webコンテンツの閲覧表示方法、プログラムを提供することを目的としている。
【0011】
さらに、本発明は、共通のキーワードを含む複数のヘッドラインを同時に閲覧表示することのできるWeb対応電子機器装置、Webコンテンツの閲覧表示方法、プログラムを提供することを目的としている。
【0012】
さらに、本発明は、オフラインで、ユーザによるURLなどの入力操作無しに、複数のWebページを閲覧表示することのできるWeb対応電子機器装置、Webコンテンツの閲覧表示方法、プログラムを提供することを目的としている。
【0013】
【課題を解決するための手段】
本発明の主たる観点に係るWeb対応電子機器装置は、上記課題を解決するための手段として、Webにアクセス可能なWeb対応電子機器装置であって、リンク先のページが設定されているヘッドラインを含む複数のページを巡回するページ巡回手段と、前記ページ巡回手段により巡回中の前記複数のページからそれぞれ、前記ヘッドラインのテキスト列を抜き出すヘッドライン生成手段と、前記ヘッドライン生成手段により前記複数のページからそれぞれ抜き出された複数の前記ヘッドラインのテキスト列を構成する単語群の中から所定の判定基準に従って1つ以上のキーワードを判定するキーワード判定手段と、前記キーワード判定手段により判定された1つ以上のキーワード、前記ヘッドライン生成手段により取得された前記ヘッドラインのテキスト列およびこのヘッドラインの前記リンク先ページのソースを用いて、前記キーワードの一覧が記述された1つ以上の第1のページ、この第1のページに記述されている個々のキーワードにそれぞれリンクされ、それぞれ共通のキーワードを含む1つ以上の前記ヘッドラインのテキスト列の一覧が記述された1つ以上の第2のページ、およびこの第2のページに記述されている個々のヘッドラインにそれぞれリンクされ、前記個々のヘッドラインのリンク先ページにおける主要なテキスト列が記述された1つ以上の第3のページを作成するページ再構築手段と、前記ページ再構築手段によって作成された前記各ページの閲覧表示を行う閲覧表示手段とを具備する。
【0014】
この発明により、Web対応電子機器装置向けに最適化されたページの閲覧表示が実現され、たとえば、PDAのような低い解像度の表示デバイスしか持てないWeb対応電子機器装置においてもWebが提供するコンテンツを高い視認性で閲覧表示することができる。
【0015】
また、この発明によれば、キーワードをベースに閲覧したいコンテンツを選択できるので、ユーザにとって興味のあるコンテンツのページに迅速にアクセスできる。加えて、共通のキーワードを含む複数のWebページのヘッドラインを一つの画面で対比して見ることもできるようになる。
【0016】
また、この発明によれば、ページ再構築の際、ヘッドラインの内容に関連の無いたとえばバナーや宣伝などの不要な要素が除かれることによって、Webからのページダウンロードに要する時間の短縮はもちろん、表示応答速度を向上させることができる。
【0017】
さらに、本発明によれば、ユーザによるURL入力のためのキー操作が不要になり、PDA、携帯電話などのWeb対応電子機器装置の操作性を大幅に向上させることができる。
【0018】
また、好ましくは、前記ページ再構築手段は、再構築したページの情報をWeb対応電子機器装置の内部の記憶部に保存するものとする。これにより、Webブラウザからのページの閲覧要求に対して内部記憶部をアクセスして該当するページの情報を読み込むことになり、ページ閲覧表示の平均的な応答速度が向上するとともに、オフラインで、多数のWebサイトのコンテンツの閲覧表示を行うことが可能になる。
【0019】
さらに、好ましくは、前記ページ再構築手段は、前記ヘッドラインのリンク先ページのソースからタグ間に囲まれたテキスト列の文字数がページ内で最も多い部分のテキスト列を前記リンク先ページにおける主要なテキスト部分として判別するものであってよい。これにより、リンク先ページにおける主要なテキスト部分を精度良く判別することができる。
【0020】
さらに、好ましくは、前記ページ巡回手段は、リンク先ページを指定する情報の一覧が記述された、交換可能かつ書き替え可能なリストに従って、複数のページを巡回するものであってよい。これにより、様々なWebページへの巡回が可能になるとともに、ユーザの好みのWebページへの巡回が可能になる。
【0021】
本発明の別の観点に係るページ閲覧表示方法は、上記課題を解決するための手段として、処理演算部、記憶部および表示部を有する電子機器装置にてWebコンテンツを閲覧表示する方法であって、前記処理演算部の制御により、リンク先のページが設定されているヘッドラインを含む複数のページを巡回し、巡回中の前記複数のページからそれぞれ、前記ヘッドラインのテキスト列を抜き出し、それぞれ抜き出された複数の前記ヘッドラインのテキスト列を構成する単語群の中から所定の判定基準に従って1つ以上のキーワードを判定し、この判定した1つ以上のキーワード、前記ヘッドラインのテキスト列およびこのヘッドラインの前記リンク先ページのソースを用いて、キーワードの一覧が記述された1つ以上の第1のページ、この第1のページに記述されている個々のキーワードにそれぞれリンクされ、それぞれ共通のキーワードを含む1つ以上の前記ヘッドラインのテキスト列の一覧が記述された1つ以上の第2のページ、およびこの第2のページに記述されている個々のヘッドラインにそれぞれリンクされ、前記個々のヘッドラインのリンク先ページにおける主要なテキスト列が記述された1つ以上の第3のページを作成して前記記憶部に保存し、この記憶部に保存された前記各ページの情報に基づいて前記表示部に前記各ページを閲覧表示することを特徴とする。この発明により、PDAのような低い解像度の表示デバイスしか持てないWeb対応電子機器装置においてもWebが提供するコンテンツを高い視認性で閲覧表示することができる。また、キーワードをベースに閲覧したいコンテンツを選択できるので、ユーザにとって興味のあるコンテンツのページに迅速にアクセスできる。加えて、共通のキーワードを含む複数のWebページのヘッドラインを一つの画面で対比して見ることもできるようになる。また、ページ再構築の際、ヘッドラインの内容に関連の無いたとえばバナーや宣伝などの不要な要素が除かれることによって、Webからのページダウンロードに要する時間の短縮はもちろん、表示応答速度を向上させることができる。さらに、ユーザによるURL入力のためのキー操作が不要になり、PDA、携帯電話などのWeb対応電子機器装置の操作性を大幅に向上させることができる。
【0022】
さらに、本発明の別の観点に係るプログラムは、上記課題を解決するための手段として、Webにアクセス可能なWeb対応電子機器装置に組み込まれているコンピュータを、リンク先のページが設定されているヘッドラインを含む複数のページを巡回するページ巡回手段と、前記ページ巡回手段により巡回中の前記複数のページからそれぞれ、前記ヘッドラインのテキスト列を抜き出すヘッドライン生成手段と、前記ヘッドライン生成手段により前記複数のページからそれぞれ抜き出された複数の前記ヘッドラインのテキスト列を構成する単語群の中から所定の判定基準に従って1つ以上のキーワードを判定するキーワード判定手段と、前記キーワード判定手段により判定された1つ以上のキーワード、前記ヘッドライン生成手段により取得された前記ヘッドラインのテキスト列およびこのヘッドラインの前記リンク先ページのソースを用いて、前記キーワードの一覧が記述された1つ以上の第1のページ、この第1のページに記述されている個々のキーワードにそれぞれリンクされ、それぞれ共通のキーワードを含む1つ以上の前記ヘッドラインのテキスト列の一覧が記述された1つ以上の第2のページ、およびこの第2のページに記述されている個々のヘッドラインにそれぞれリンクされ、前記個々のヘッドラインのリンク先ページにおける主要なテキスト列が記述された1つ以上の第3のページを作成するページ再構築手段と、前記ページ再構築手段によって作成された前記各ページの閲覧表示を行う閲覧表示手段として機能させることを特徴とするものである。
【0023】
このプログラムでWeb対応電子機器装置に組み込まれているコンピュータを機能させることによって、PDAのような低い解像度の表示デバイスしか持てないWeb対応電子機器装置においてもWebが提供するコンテンツを高い視認性で閲覧表示することができる。また、キーワードをベースに閲覧したいコンテンツを選択できるので、ユーザにとって興味のあるコンテンツのページに迅速にアクセスできる。加えて、共通のキーワードを含む複数のWebページのヘッドラインを一つの画面で対比して見ることもできるようになる。また、ページ再構築の際、ヘッドラインの内容に関連の無いたとえばバナーや宣伝などの不要な要素が除かれることによって、Webからのページダウンロードに要する時間の短縮はもちろん、表示応答速度を向上させることができる。さらに、ユーザによるURL入力のためのキー操作が不要になり、PDA、携帯電話などのWeb対応電子機器装置の操作性を大幅に向上させることができる。
【0024】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。
【0025】
図1は、本発明を適用した実施の一形態であるWeb対応電子機器装置の電気的な構成を示すブロック図である。
【0026】
同図に示すように、このWeb対応電子機器装置100は、処理演算部としてのCPU(Central Processing Unit)1、メインメモリ2、プログラム/データ記憶部3、インターネットなどのネットワーク4との接続を処理するネットワークインタフェース部5、ユーザに情報を視覚的に提供する表示デバイス6、VRAM(Video Random Access Memory)7を用いて表示デバイス6の画面への描画処理を行うグラフィックコントローラ8、ユーザに聴覚的に情報を提供するスピーカ9、ユーザの操作入力部13からの入力を処理するユーザインタフェースコントローラ14、そして以上の各部の間で信号を伝達するためのバス15を備える。
【0027】
CPU1は、たとえばプログラム/データ記憶部3に記憶されたプログラムやデータ、ユーザによる操作入力部13からの入力などに基づき、メインメモリ2をワークエリアとして用いて各種の演算処理や制御を実行する。
【0028】
メインメモリ2は、たとえば、RAM(Random Access Memory)などの、ランダムに読み取りと書き込みが可能な高速なメモリからなる。
【0029】
プログラム/データ記憶部3は、読み取り専用あるいは読み書き可能な不揮発性の記憶装置であり、たとえばROM(Read Only Memory)、フラッシュROM、ディスクドライブなどである。
【0030】
表示デバイス6は、具体的には、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、OEL(Organic Electroluminescence)などである。
【0031】
ユーザの操作入力部13は、具体的には、簡易キーボード、IR(Infrared)リモートコントローラ、ジョグダイヤル、プッシュボタンなどである。
【0032】
ネットワークインタフェース部5は、たとえばアナログモデム、LAN(Local Area Network)、ISDN(Integrated Services Digital Network)、ADSL(Asymmetric Digital Subscriber Line)、FTTH(Fiber−To−The−Home)、Bluetooth、FOMA(W−CDMA)などである。
【0033】
図2は、Webページの巡回収集・再構築時および閲覧表示時にメインメモリ2に設けられる領域の構成を示すものである。Webページの巡回収集・再構築の意味については後で説明する。
【0034】
同図に示すように、Webページの巡回収集・再構築時および閲覧表示時、メインメモリ2には、基本プログラム領域21、ページ巡回・再構築プログラム格納領域22、ページ巡回リスト格納領域23、再構築ページ格納領域24、Webブラウザ領域25、ヘッドライン・URLデータベース格納領域26、単語・品詞データベース格納領域27などが設けられる。
【0035】
基本プログラム領域21は、このWeb対応電子機器装置100を動作させるための基本プログラムが格納される領域である。
【0036】
ページ巡回・再構築プログラム格納領域22は、基本プログラムの下で、複数のWebページを巡回し、それらのWebページのソースからWeb対応電子機器装置100向けに最適化されたページを再構築する処理手順であるプログラムが格納される領域である。
【0037】
ページ巡回リスト格納領域23は、ページ巡回・再構築プログラムによる巡回先の複数のWebページのURLの一覧が記述されたページ巡回リストが格納される領域である。
【0038】
再構築ページ格納領域24は、上記ページ巡回・再構築プログラムによってWeb対応電子機器装置100向けに再構築されたページのHTMLファイルが格納される領域である。
【0039】
Webブラウザ領域25は、利用者からのページ閲覧要求に対して再構築ページ格納領域24に格納されているページのソースを読み込んで、Web対応電子機器装置100向けに再構築されたページの閲覧表示を行うためのプロクラムであるWebブラウザが格納される領域である。
【0040】
ヘッドライン・URLデータベース格納領域26は、ページ巡回・再構築プログラムによるページ再構築の過程で生成される、ヘッドラインのテキスト列とそのヘッドラインのリンク先ページのURLとをレコードとして含むデータベースが格納される領域である。
【0041】
単語・品詞データベース格納領域27は、ページ巡回・再構築プログラムによるページ再構築の過程で生成される、ヘッドラインのテキスト列を構成する個々の単語とその品詞とをレコードとして含むデータベースが格納される領域である。
【0042】
図3は、上記ページ巡回・再構築プログラムのモジュール構成を示す図である。同図に示すように、ページ巡回・再構築プログラムは、ページ巡回エンジン31、ヘッドライン生成エンジン32、形態素解析エンジン33、キーワード生成エンジン34、およびページ再構築エンジン35で構成される。
【0043】
ページ巡回エンジン31は、一定の時間間隔で、予め定義もしくは作成しておいたページ巡回リストの記述内容であるWebページのURLの一覧に従って複数のWebページの巡回を行う。
【0044】
ヘッドライン生成エンジン32は、ページ巡回エンジン31による巡回中のWebページの中からヘッドラインのテキスト列を抜き出すとともに、このヘッドラインのリンク先ページのURLを抜き出し、これらのヘッドラインのテキスト列とURLとを関連付けてデータベース化、すなわちヘッドライン・URLデータベースを作成する。
【0045】
形態素解析エンジン33は、ヘッドライン・URLデータベースに格納されているヘッドラインの文章であるテキスト列に対して形態素解析を行って当該テキスト列を複数の単語に分割するとともに個々の単語の品詞を判定し、これら単語と品詞とを関連付けてデータベース化、すなわち単語・品詞データベースを生成する。
【0046】
キーワード生成エンジン34は、単語・品詞データベースの内容から、たとえば固有名詞、施設名、組織名、人名、正規の人名以外の呼称、都道府県名、区名など、キーワードとなり得る類の品詞と判定された単語をキーワードとして判定する。
【0047】
ページ再構築エンジン35は、ヘッドライン・URLデータベースに格納されているヘッドラインのテキスト列、そのヘッドラインのリンク先ページのソース、およびキーワード生成エンジン34により生成されたキーワードを用いて、本Web対応電子機器装置向けに最適化したページを再構築する。
【0048】
このページ再構築エンジン35によって再構築されたページのソースであるHTMLファイルは、図2に示すメインメモリ2に設定された再構築ページ格納領域24に保存される。
【0049】
次に、このWeb対応電子機器装置におけるページ巡回・再構築プログラムに基づく一連の動作を図4のフローチャートに従い具体例を交えながら説明する。
【0050】
基本プログラムの下でページ巡回・再構築プログラムがメインメモリ2に常駐して動作しているものとする。
【0051】
ページ巡回・再構築プログラムのページ巡回エンジン31は、予め設定された一定の時間間隔で(ステップ401)、ページ巡回リストに載っているURL(Uniform Resource Locator)を決められた順に一つずつ読み込み(ステップ403)、この読み込んだURLのWebページにアクセスする(ステップ404)。
【0052】
図5はページ巡回リスト51の例を示すものである。ページ巡回リスト51には1つ以上のWebページのURLが記述されている。本実施形態では、たとえば「新聞」「スポーツ・芸能」「歌謡曲」といったカテゴリー別のWebページのURLの一覧がページ巡回リスト51に記述されている。このページ巡回リスト51は、予めWeb対応電子機器装置100にプリセットしておくか、あるいは、Web上で定期的に配信されるものを入手するようにすればよい。
【0053】
一つのWebページのソースをWeb対応電子機器装置100が取得したところで、ヘッドライン生成エンジン32は、その取得したWebページのソースの中からヘッドラインのテキスト列とこのヘッドラインのリンク先ページのURLを抜き出す(ステップ405)。
【0054】
図6に新聞のサイトのWebページの例を示す。ここで、ヘッドラインとは、たとえばWebサイトのホームページ60上などに表示される記事などの見出し61のことであり、このヘッドライン(見出し61)の部分には、その詳細な記事内容(テキスト列64)を載せた他のWebページ62へのリンク63が設定されている。
【0055】
Webページのソースの中からヘッドラインのテキスト列を抜き出す具体的な方法としては以下がある。図7は図6のWebページ60の一部62とこれに対応するHTMLソース71を示している。ヘッドライン生成エンジン32は、このHTMLソース71において、アンカーと呼ばれる<a>タグと</a>タグとに挟まれた部分のテキスト列72を対象に、これがヘッドラインであるかどうかの判定を個々に行う。
【0056】
また、この<a>タグと</a>タグとに挟まれたテキスト列72がヘッドラインであるかどうかを判定する具体的な方法としては、そのテキスト列72の文字数が一定の数以上である場合にヘッドラインであることを判定する方法、そのテキスト列72の文字数のページ内での平均値を求め、この平均値を基準とする所定の判定条件に従ってヘッドラインであるかどうかを判定する方法、アンカータグの連続している数(行数)をカウントし、このカウント値が一定以上である場合にこれらのアンカータグにより囲まれたテキスト列72がヘッドラインであると判定する方法などがある。
【0057】
ヘッドライン生成エンジン32は、取得したWebページのソースから上記の方法によりヘッドラインのテキスト列72を抜き出すとともに、アンカータグにhref属性として記述されているリンク先のページのURL73を抜き出し、これらのヘッドラインのテキスト列72とURLとを関連付けてデータベース化を行う。すなわち、メインメモリ2のヘッドライン・URLデータベース格納領域26にヘッドライン・URLデータベースとして格納する(ステップ406)。 以上のようにして、ページ巡回リスト51に記述されている全てのWebページのURLの読み込みが完了したところで(ステップ402のYES)、形態素解析エンジン33が起動される。
【0058】
形態素解析エンジン33は、ヘッドライン・URLデータベースに格納されているヘッドラインの文章であるテキスト列に対して形態素解析を行って、ヘッドラインのテキスト列を複数の単語に分割するとともに、分割した個々の単語の品詞を判定する(ステップ407)。
【0059】
図8は、ヘッドラインの文章の形態素解析の例である。このように形態素解析によって、ヘッドラインのテキスト列80は複数の単語81に分割され、それぞれの単語81の品詞82が判定される。そして形態素解析エンジン33は、判定した単語81とその品詞82を関連付けてメインメモリ2の単語・品詞データベース格納領域27にデータベース化して保存する(ステップ408)。
【0060】
次に、キーワード生成エンジン34が起動される。キーワード生成エンジン34は、単語・品詞データベースの内容から、たとえば固有名詞、施設名、組織名、人名、正規の人名以外の呼称、都道府県名、区名など、キーワードとなり得る類の品詞と判定された単語をキーワードとして抽出する(ステップ409)。また、このキーワード生成においては、辞書にない新語や姓名などもキーワードとして検出できるように、最適化が行われたキーワード選定基準が採用されている。具体的には、たとえば図9に示すように、辞書に無い姓や名などを「さん」という接尾辞を基にキーワードとして選定することができるようなキーワード選定基準91が追加されている。
【0061】
この後、ページ再構築エンジン35が起動される。ページ再構築エンジン35は、ヘッドライン・URLデータベースに格納されているヘッドラインのテキスト列、そのリンク先ページのソース、およびキーワード生成エンジン34により生成されたキーワードを用いて、本Web対応電子機器装置向けに最適化されたページの再構築を行う(ステップ410)。
【0062】
図10は、このページ再構築エンジン35によって再構築されたページとそれらのリンクの例を示したものである。本例では、キーワードの一覧が記述された1つ以上のキーワード一覧ページ101と、それぞれキーワード毎に作成された1つ以上のページであって、それぞれ共通のキーワードを含むヘッドラインの一覧が記述されたヘッドライン一覧ページ102と、それぞれヘッドライン毎に作成された1つ以上のページであって、それぞれ個々のヘッドラインにリンクされたWebページ中の主要なテキスト部分からなる詳細ページ103とが作成される。
【0063】
ここで、キーワード一覧ページ101はそれぞれ、ページ巡回リストに対応して設定されたポータルページ104の個々のカテゴリー項目に1対1に対応してリンクされたページとして作成される。ヘッドライン一覧ページ102は、キーワード一覧ページ101に記述されている個々のキーワードに1対1に対応してリンクされたページとして作成される。
【0064】
また、詳細ページ103は、ヘッドラインのリンク先である実際のWebページのソースの中から、ヘッドラインの内容とは無関係なバナーや宣伝などの要素を除いた主要なテキスト列だけを抽出して作成される。その具体的な方法としては、たとえば図11に示すように、ヘッドラインのリンク先である実際のWebサイト110のHTMLソース111において、タグ間に囲まれたテキストの文字数がページ内で最も多い部分のテキスト列112を抽出するなどの方法がある。その際、タグの種類によって主要なテキストを含む部分を絞り込むことによって、テキスト抽出の処理効率を高めることができる。より具体的には、たとえば図12に示すような、文字数カウントを無視するタグの種類をあらかじめ決めておき、他の種類のタグ間に囲まれたテキストの文字数のカウントのみを行う方法がある。
【0065】
このようにしてページ再構築エンジン35によって再構築された各ページのHTMLソースのファイルは、メインメモリ2の再構築ページ格納領域24に保存される。また、この再構築ページ格納領域24に格納された、再構築ページのHTMLソースのファイルは、システムの再起動後も利用できるように、不揮発性を有するプログラム/データ記憶部3にバックアップされる。
【0066】
この後は、ユーザがWebブラウザを起動することで表示デバイス6の画面に、図10に示すようなポータルページ104が表示される。このポータルページ104には「新聞」「スポーツ・芸能」「歌謡曲」といったカテゴリーを示す項目が表示されており、その中からユーザが操作入力部13によって所望の項目を選択すると、Webブラウザによって、その選択項目にリンクされているキーワード一覧ページ101がメインメモリ2の再構築ページ格納領域24から読み込まれて表示デバイス6の画面に表示される。
【0067】
次に、この表示デバイス6の画面に表示されているキーワード一覧ページ101の中から、ユーザによって所望のキーワードが選択されると、Webブラウザによって、その選択キーワードにリンクされている、ヘッドラインの一覧のページであるページ102がメインメモリ2の再構築ページ格納領域24から読み込まれて表示デバイス6の画面に表示される。
【0068】
さらに、この表示デバイス6の画面に表示されているヘッドライン一覧ページ102の中から、ユーザによって所望のヘッドラインが選択されると、Webブラウザによって、その選択ヘッドラインにリンクされている詳細ページ103がメインメモリ2の再構築ページ格納領域24から読み込まれて表示デバイス6の画面に表示される。
【0069】
このようにしてWeb対応電子機器装置100向けに最適化されたページの閲覧表示が実現される。たとえば、図15に示すように、表示解像度の低いPDAのようなWeb対応電子機器装置150においてもWebが提供するコンテンツを高い視認性で閲覧することができる。
【0070】
また、Web対応電子機器装置100向けに再構築されたページのHTMLソースのファイルはWeb対応電子機器装置100内(メインメモリ2あるいはプログラム/データ記憶部3)に格納されるので、Webブラウザからのページの閲覧要求に対して内部記憶部をアクセスして該当するページのソースを読み込むことになり、ページ閲覧表示の平均的な応答速度が向上するとともに、オフラインで、多数のWebサイトのコンテンツの閲覧表示を行うことが可能になる。
【0071】
さらに、キーワードをベースに閲覧したいコンテンツを選択できるので、ユーザにとって興味のあるコンテンツのページに迅速にアクセスできるようになる。また、共通のキーワードを含む複数のWebページのヘッドラインを一つの画面で対比して見ることができる。
【0072】
また、ページ再構築の際、ヘッドラインの内容に関連の無いたとえばバナーや宣伝などの不要な要素が除かれることによって、Webからのページダウンロードに要する時間の短縮はもちろん、表示応答速度を向上させることができる。
【0073】
さらに、ユーザによるURL入力のためのキー操作などが不要になるので、PDA、携帯電話などのWeb対応電子機器装置の操作性向上に大きく寄与する。
【0074】
以上説明したWeb対応電子機器装置100は、具体的には、PDA、携帯電話などの端末機器や、テレビジョンセット、ディスク搭載型ビデオレコーダなどに代表される様々な種類のデジタル家電機器に採用することができる。
【0075】
テレビジョンセットやディスク搭載型ビデオレコーダのなかには、予めユーザによって入力されたキーワードなどにより番組録画予約を行う機能を搭載したものがある。そこで、図10に示すキーワード一覧ページ101の中から、番組録画予約のためにユーザから入力されたキーワードを検索し、たとえば、図13に示すように、そのキーワードにリンクされたヘッドライン一覧ページ102をテレビジョン140の画面141に表示するようにしてもよい。これにより録画予約番組に関連するWeb上のコンテンツをユーザに提供することができる。
【0076】
なお、以上のWeb対応電子機器装置100で実行されるページ巡回、ヘッドライン生成、形態素解析、キーワード生成、ページ再構築の各処理は、インターネット上に設置したサーバで行うようにすることも可能である。この場合、再構築されたページのHTMLソースをサーバ側に保存しておく。サーバはWeb対応電子機器装置からのリクエストを受けて、保存しておいた再構築されたページを返信する。
【0077】
図14は、この場合のWebシステムの構成を示す図である。窓口サーバ131とWeb対応電子機器装置132とはインターネット133を通じて接続可能とされている。窓口サーバ131は、CPU138、メインメモリ134、プログラム/データ格納部135などを備えている。プログラム/データ格納部135には、先の実施形態のWeb対応電子機器装置100に組み込まれたページ巡回・再構築プログラムと同様の、ページ巡回エンジン、ヘッドライン生成エンジン、形態素解析エンジン、キーワード生成エンジン、Webページ再構築エンジンを含むページ巡回・再構築プログラム136が格納されている。このページ巡回・再構築プログラム136はCPU138によってメインメモリ134にロードされ、解釈実行される。
【0078】
一方、Web対応電子機器装置132にはWebブラウザ137が実装されており、このWebブラウザ137は、窓口サーバ131に対して、再構築されたページの配信サービスをリクエストする。窓口サーバ131はWeb対応電子機器装置132のWebブラウザ137からのリクエストを受けて、ポータルページの配信から、再構築されたページである、キーワード一覧ページ、ヘッドライン一覧ページ、および詳細ページを配信する。
【0079】
以上本発明の実施形態を説明したが、本発明は、上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
【発明の効果】
以上説明したように、本発明によれば、PDAのような低い解像度の表示デバイスしか持てないWeb対応電子機器装置においてもWebが提供するコンテンツを高い視認性で閲覧表示することができる。キーワードをベースに閲覧したいコンテンツを選択できるので、ユーザにとって興味のあるコンテンツのページに迅速にアクセスできる。ページ再構築の際、ヘッドラインの内容に関連の無いたとえばバナーや宣伝などの不要な要素が除かれることによって、Webからのページダウンロードに要する時間の短縮はもちろん、表示応答速度を向上させることができる。ユーザによるURL入力のためのキー操作が不要になり、PDA、携帯電話などのWeb対応電子機器装置の操作性を大幅に向上させることができる、という優れた効果を奏し得る。
【図面の簡単な説明】
【図1】本発明を適用した実施の一形態であるWeb対応電子機器装置の構成を示すブロック図である。
【図2】Webページの巡回収集・再構築時および閲覧表示時に、図1のWeb対応電子機器装置のメインメモリに設けられる領域の構成を示す図である。
【図3】ページ巡回・再構築プログラムのモジュール構成を示す図である。
【図4】図1のWeb対応電子機器装置におけるページ巡回・再構築プログラムに基づく一連の動作を示すフローチャートである。
【図5】ページ巡回リストの例を示す図である。
【図6】新聞のサイトのWebページの例を示す図である。
【図7】図6のWebページの一部とこれに対応するHTMLソースを示す図である。
【図8】ヘッドラインの文章の形態素解析の例を示す図である。
【図9】形態素解析により得られた各単語に対するキーワード選定基準の例を示す図である。
【図10】ページ再構築エンジンによって再構築されたページとそれらのリンクの例を示す図である。
【図11】ヘッドラインのリンク先のページから主要なテキスト列を判別する方法を説明するための図である。
【図12】ヘッドラインのリンク先のページから主要なテキスト列を判別する際の無視するタグの種類の例を示すものである。
【図13】テレビジョンセット、ディスク搭載型ビデオレコーダの表示部に再構築ページであるヘッドライン一覧ページを表示させた様子を示す図である。
【図14】Webページの巡回収集・再構築をサーバで行う場合のWebシステムの構成を示すブロック図である。
【図15】再構築ページをPDAに表示させた様子を示す図である。
【図16】WebページをPDAのようなWeb対応電子機器装置の表示画面にそのまま表示させた場合の例を示す図である。
【符号の説明】
1 CPU
2 メインメモリ
3 プログラム/データ記憶部
4 ネットワーク
6 表示デバイス
13 操作入力部
22 ページ巡回・再構築プログラム格納領域
23 ページ巡回リスト格納領域
24 再構築ページ格納領域
25 ブラウザ領域
26 ヘッドライン・URLデータベース格納領域
27 単語・品詞データベース格納領域
31 ページ巡回エンジン
32 ヘッドライン生成エンジン
33 形態素解析エンジン
34 キーワード生成エンジン
35 ページ再構築エンジン
51 ページ巡回リスト
60 Webページ(ホームページ)
61 見出し(ヘッドライン)
72 ヘッドラインのテキスト列
73 リンク先ページのURL
81 単語
82 品詞
91 キーワード選定基準
100 Web対応電子機器装置
101 キーワード一覧ページ
102 ヘッドライン一覧ページ
103 詳細ページ
104 ポータルページ[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a program-equipped Web-compatible electronic device such as a PDA, a mobile phone, a television set, and a disk-mounted video recorder, a method for browsing and displaying Web contents, and a program.
[0002]
[Prior art]
Generally, the man-machine interface of a Web-compatible electronic device that incorporates a program, such as a PDA (Personal Digital (Data) Assistants), a mobile phone, a television set, and a disk-mounted video recorder, is poorer than that of a personal computer. I have to say that. On the other hand, contents on the Web are often created on the assumption that they are browsed and displayed by a mouse, a full-key layout keyboard or a similar keyboard, or a personal computer using a high-resolution display device. When browsing and displaying contents on the Web with the Web-compatible electronic device as described above, the user cannot avoid passing through various troubles.
[0003]
For example, many Web-compatible electronic devices are designed to operate a simple keyboard with a significantly reduced number of keys from a full-key layout keyboard with a finger or a pen to input a URL, which is inferior in key input operability. Do not distort.
[0004]
In most cases, a display device of a Web-compatible electronic device having a lower resolution than that of a personal computer is used. As described above, most of the contents on the Web are created on the assumption that the contents are browsed and displayed on a high-resolution display device used in a personal computer. Therefore, for example, as shown in FIG. In a display device with a low resolution provided in the compatible
[0005]
Further, the problem is not limited to the Web-compatible electronic apparatus, but some Web pages have a large overall data capacity due to the addition of bitmap data, animation data, and audio data. When an attempt is made to browse a Web page having a large data capacity in this way, it takes a long time to download the page in a communication environment similar to an analog connection.
[0006]
As a method of solving such a problem, a Web page desired by the user is collected on behalf of the user's browser based on instruction information from the user (browser), and text from the collected Web page is prioritized within the limited capacity. There is a known technique of installing a hypertext collection device on the Web that extracts text data within a time limit and returns the extracted text data to one file data to a user (browser) (for example, see Patent Document 1). .
[0007]
[Patent Document 1]
JP-A-10-260890
[0008]
[Problems to be solved by the invention]
However, such a known technique requires input of various instruction information such as a URL for designating a Web page desired by a user, and is not suitable for a Web-compatible electronic device apparatus having poor key input operability. Further, in the above-described known technology, in order to collect contents of many different Web sites, the user has to specify URLs corresponding to the number of the Web sites to the hypertext collection device, and the URL input operation requires I can imagine that it will take a lot of time. Further, the above-described known technique is only for collecting text data in a plurality of Web pages and providing the text data to a user.
[0009]
In view of such circumstances, the present invention provides a Web-enabled electronic device, a Web content browsing and displaying method, and a program that can comfortably browse and display contents of a large number of Web sites without inputting a URL or the like by a user. It is intended to provide.
[0010]
It is another object of the present invention to provide a Web-enabled electronic device, a Web content browsing / displaying method, and a program that allow a user to quickly access a Web page desired by a user based on a keyword.
[0011]
Still another object of the present invention is to provide a Web-enabled electronic device, a Web content browsing and displaying method, and a program that can simultaneously browse and display a plurality of headlines including a common keyword.
[0012]
A further object of the present invention is to provide a Web-enabled electronic device, a Web content browsing and displaying method, and a program, which are capable of browsing and displaying a plurality of Web pages offline without input operation of a URL or the like by a user. And
[0013]
[Means for Solving the Problems]
A Web-enabled electronic device according to a main aspect of the present invention is a Web-enabled electronic device that can access the Web, and includes a headline in which a linked page is set, as means for solving the above-described problem. A page circulating unit that circulates a plurality of pages including, a headline generating unit that extracts a text string of the headline from each of the plurality of pages that are circulating by the page circulating unit, and a plurality of the plurality of pages that are extracted by the headline generating unit. Keyword determining means for determining one or more keywords from a group of words constituting a plurality of headline text strings extracted from a page in accordance with a predetermined determination criterion; One or more keywords, the head obtained by the headline generating means Using the text string of the inline and the source of the linked page of this headline, one or more first pages describing the list of keywords, and individual keywords described in the first page. One or more second pages, each listing a list of one or more headline text strings, each containing a common keyword, and individual headlines described on this second page. Page reconstructing means for creating one or more third pages in which a main text string in the linked page of each individual headline is described, and the page reconstructing means Browsing display means for browsing and displaying each page.
[0014]
According to the present invention, browsing and display of a page optimized for a web-compatible electronic device are realized. For example, even in a web-compatible electronic device having only a low-resolution display device such as a PDA, contents provided by the web can be provided. It can be browsed and displayed with high visibility.
[0015]
Further, according to the present invention, since it is possible to select the content to be viewed based on the keyword, it is possible to quickly access the page of the content of interest to the user. In addition, headlines of a plurality of Web pages including a common keyword can be compared and viewed on one screen.
[0016]
Further, according to the present invention, when the page is reconstructed, unnecessary elements such as banners and advertisements that are not related to the content of the headline are removed, so that the time required for downloading the page from the Web can be shortened. The display response speed can be improved.
[0017]
Further, according to the present invention, the user does not need to perform a key operation for inputting a URL, and the operability of a Web-compatible electronic device such as a PDA and a mobile phone can be greatly improved.
[0018]
Preferably, the page restructuring means stores information of the reconstructed page in a storage unit inside the Web-compatible electronic device. As a result, in response to a page browsing request from the Web browser, the internal storage unit is accessed to read the information of the corresponding page, so that the average response speed of the page browsing display is improved, and a large number of offline pages are displayed. Can browse and display the contents of the Web site.
[0019]
Furthermore, preferably, the page restructuring means converts a text string of a portion where the number of characters of a text string enclosed between tags from the source of the linked page of the headline is the largest in the main page in the linked page. It may be determined as a text part. This makes it possible to accurately determine the main text portion in the linked page.
[0020]
Further preferably, the page circulating means may circulate a plurality of pages according to an exchangeable and rewritable list in which a list of information designating a linked page is described. This makes it possible to circulate to various Web pages and to traverse to Web pages desired by the user.
[0021]
A page browsing display method according to another aspect of the present invention is a method for browsing and displaying Web content in an electronic device having a processing operation unit, a storage unit, and a display unit, as means for solving the above-mentioned problem. Under the control of the processing operation unit, circulates through a plurality of pages including a headline in which a linked page is set, extracts a text string of the headline from each of the circulating pages, and extracts One or more keywords are determined in accordance with a predetermined determination criterion from a group of words constituting the plurality of headline text strings output, and the determined one or more keywords, the headline text string, and the Using the source of the linked page in the headline, one or more first pages describing the list of keywords, And one or more second pages describing a list of one or more headline text strings, each linking to a respective keyword described on that page and each including a common keyword, and the second And one or more third pages that are linked to the individual headlines described in the page and that describe the main text strings in the linked page of the individual headlines, and are stored in the storage unit. The information is stored, and the respective pages are browsed and displayed on the display unit based on the information of the respective pages stored in the storage unit. According to the present invention, the contents provided by the Web can be browsed and displayed with high visibility even in a Web-compatible electronic device having only a low-resolution display device such as a PDA. In addition, since it is possible to select content to be browsed based on a keyword, it is possible to quickly access a page of content that is of interest to the user. In addition, headlines of a plurality of Web pages including a common keyword can be compared and viewed on one screen. In addition, when the page is reconstructed, unnecessary elements that are not related to the content of the headline, such as banners and advertisements, are removed, thereby shortening the time required for downloading the page from the Web and improving the display response speed. be able to. Furthermore, the user does not need to perform a key operation for inputting a URL, and the operability of a Web-compatible electronic device such as a PDA or a mobile phone can be greatly improved.
[0022]
Further, in a program according to another aspect of the present invention, as a means for solving the above-described problem, a computer incorporated in a Web-enabled electronic device that can access the Web is set to a linked page. Page circulating means for circulating a plurality of pages including a headline, headline generating means for extracting a text line of the headline from each of the plurality of pages circulating by the page circulating means, and headline generating means A keyword determination unit that determines one or more keywords from a group of words constituting a text string of the plurality of headlines extracted from the plurality of pages according to a predetermined determination criterion; One or more keywords that have been captured by the headline generation means. One or more first pages in which the list of keywords is described using the text string of the headline and the source of the linked page of the headline described in the first page One or more second pages describing a list of one or more headline text strings, each linked to an individual keyword and each containing a common keyword, and are described on this second page. Page reconstructing means for creating one or more third pages each linked to an individual headline and describing a main text string in a linked page of the individual headline, and the page restructuring means It is characterized by functioning as browsing display means for browsing and displaying each of the created pages.
[0023]
By causing a computer incorporated in the Web-enabled electronic device to function with this program, contents provided by the Web can be browsed with high visibility even in a Web-enabled electronic device that has only a low-resolution display device such as a PDA. Can be displayed. In addition, since it is possible to select content to be browsed based on a keyword, it is possible to quickly access a page of content that is of interest to the user. In addition, headlines of a plurality of Web pages including a common keyword can be compared and viewed on one screen. In addition, when the page is reconstructed, unnecessary elements that are not related to the content of the headline, such as banners and advertisements, are removed, thereby shortening the time required for downloading the page from the Web and improving the display response speed. be able to. Furthermore, the user does not need to perform a key operation for inputting a URL, and the operability of a Web-compatible electronic device such as a PDA or a mobile phone can be greatly improved.
[0024]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0025]
FIG. 1 is a block diagram showing an electrical configuration of a Web-compatible electronic device according to an embodiment of the present invention.
[0026]
As shown in FIG. 1, the Web-enabled
[0027]
The
[0028]
The
[0029]
The program /
[0030]
The
[0031]
The user's
[0032]
The
[0033]
FIG. 2 shows a configuration of an area provided in the
[0034]
As shown in the figure, at the time of cyclic collection / reconstruction and browsing display of Web pages, the
[0035]
The
[0036]
The page patrol / reconstruction
[0037]
The page circulation
[0038]
The reconstructed page storage area 24 is an area for storing an HTML file of a page reconstructed for the Web-enabled
[0039]
The
[0040]
The headline / URL
[0041]
The word / part-of-speech
[0042]
FIG. 3 is a diagram showing a module configuration of the page patrol / reconstruction program. As shown in the figure, the page patrol / reconstruction program includes a
[0043]
The
[0044]
The
[0045]
The morphological analysis engine 33 performs a morphological analysis on a text string which is a sentence of the headline stored in the headline / URL database, divides the text string into a plurality of words, and determines the part of speech of each word. Then, a database is created by associating these words with the parts of speech, that is, a word / speech database is generated.
[0046]
The keyword generation engine 34 determines from the contents of the word / speech database that the words can be keywords, such as proper nouns, facility names, organization names, person names, names other than regular person names, prefecture names, and ward names. The determined word is determined as a keyword.
[0047]
The
[0048]
The HTML file that is the source of the page reconstructed by the
[0049]
Next, a series of operations based on the page patrol / reconstruction program in the Web-compatible electronic device will be described with reference to a flowchart of FIG.
[0050]
It is assumed that a page patrol / reconstruction program resides in the
[0051]
The
[0052]
FIG. 5 shows an example of the
[0053]
When the web-enabled
[0054]
FIG. 6 shows an example of a Web page of a newspaper site. Here, the headline is a
[0055]
A specific method for extracting a headline text string from the source of a Web page is as follows. FIG. 7 shows a
[0056]
As a specific method for determining whether or not the
[0057]
The
[0058]
The morphological analysis engine 33 performs a morphological analysis on a text string that is a sentence of the headline stored in the headline / URL database, and divides the headline text string into a plurality of words, Is determined (step 407).
[0059]
FIG. 8 is an example of a morphological analysis of a headline sentence. As described above, the
[0060]
Next, the keyword generation engine 34 is activated. The keyword generation engine 34 determines from the content of the word / speech database that it can be a keyword, such as a proper noun, a facility name, an organization name, a person name, a name other than a regular person name, a prefecture name, or a ward name. The extracted words are extracted as keywords (step 409). In addition, in this keyword generation, an optimized keyword selection criterion is adopted so that a new word, a first name and a last name which are not in the dictionary can be detected as keywords. Specifically, for example, as shown in FIG. 9, a
[0061]
Thereafter, the
[0062]
FIG. 10 shows an example of pages reconstructed by the
[0063]
Here, each of the keyword list pages 101 is created as a page linked one-to-one to each category item of the
[0064]
Further, the
[0065]
The HTML source file of each page reconstructed by the
[0066]
Thereafter, the
[0067]
Next, when the user selects a desired keyword from the
[0068]
Further, when a desired headline is selected by the user from the
[0069]
In this way, browsing and display of pages optimized for the Web-enabled
[0070]
Further, the HTML source file of the page reconstructed for the Web-enabled
[0071]
Further, since it is possible to select content to be browsed based on a keyword, a user can quickly access a page of content of interest to the user. In addition, headlines of a plurality of Web pages including a common keyword can be compared and viewed on one screen.
[0072]
In addition, when the page is reconstructed, unnecessary elements that are not related to the content of the headline, such as banners and advertisements, are removed, thereby shortening the time required for downloading the page from the Web and improving the display response speed. be able to.
[0073]
Further, since a key operation or the like for inputting a URL by a user becomes unnecessary, it greatly contributes to improvement of operability of a Web-compatible electronic device such as a PDA and a mobile phone.
[0074]
Specifically, the Web-enabled
[0075]
Some television sets and disk-mounted video recorders have a function of making a program recording reservation using a keyword or the like input in advance by a user. Therefore, a keyword input by the user for program recording reservation is searched from the
[0076]
It should be noted that the above-described processes of page cycling, headline generation, morphological analysis, keyword generation, and page reconstruction performed by the Web-enabled
[0077]
FIG. 14 is a diagram showing the configuration of the Web system in this case. The
[0078]
On the other hand, a
[0079]
Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and it goes without saying that various changes can be made without departing from the spirit of the present invention.
【The invention's effect】
As described above, according to the present invention, contents provided by the Web can be browsed and displayed with high visibility even in a Web-compatible electronic device having only a low-resolution display device such as a PDA. Since it is possible to select the content to be viewed based on the keyword, it is possible to quickly access the page of the content of interest to the user. When the page is reconstructed, unnecessary elements that are not related to the content of the headline, such as banners and advertisements, are removed, thereby shortening the time required for downloading the page from the Web and improving the display response speed. it can. This eliminates the need for the user to operate a key for inputting a URL, and can greatly improve the operability of a Web-compatible electronic device such as a PDA and a mobile phone.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a Web-compatible electronic device according to an embodiment of the invention.
FIG. 2 is a diagram showing a configuration of an area provided in a main memory of the Web-enabled electronic device of FIG. 1 at the time of cyclic collection / reconstruction and browsing display of Web pages.
FIG. 3 is a diagram showing a module configuration of a page patrol / reconstruction program.
FIG. 4 is a flowchart showing a series of operations based on a page patrol / reconstruction program in the Web-enabled electronic device shown in FIG. 1;
FIG. 5 is a diagram illustrating an example of a page circulation list.
FIG. 6 is a diagram showing an example of a Web page of a newspaper site.
FIG. 7 is a diagram showing a part of the Web page of FIG. 6 and an HTML source corresponding to the Web page.
FIG. 8 is a diagram illustrating an example of morphological analysis of a sentence of a headline.
FIG. 9 is a diagram showing an example of a keyword selection criterion for each word obtained by morphological analysis.
FIG. 10 is a diagram showing an example of pages reconstructed by a page reconstruction engine and their links.
FIG. 11 is a diagram for explaining a method of determining a main text string from a page linked to by a headline.
FIG. 12 illustrates an example of types of tags to be ignored when determining a main text string from a page linked to by a headline.
FIG. 13 is a diagram showing a state where a headline list page, which is a reconstruction page, is displayed on the display unit of the television set or the disc-mounted video recorder.
FIG. 14 is a block diagram illustrating a configuration of a Web system in a case where cyclic collection and reconstruction of Web pages are performed by a server.
FIG. 15 is a diagram showing a state in which a reconstructed page is displayed on a PDA.
FIG. 16 is a diagram illustrating an example of a case where a Web page is directly displayed on a display screen of a Web-compatible electronic device such as a PDA.
[Explanation of symbols]
1 CPU
2 Main memory
3 Program / data storage unit
4 Network
6 Display device
13 Operation input section
22 Page patrol / reconstruction program storage area
23 Page circulation list storage area
24 Reconstructed page storage area
25 Browser area
26 Headline / URL database storage area
27 Word / speech database storage area
31 page patrol engine
32 Headline Generation Engine
33 Morphological analysis engine
34 Keyword Generation Engine
35 Page Reconstruction Engine
51 Page Tour List
60 Web page (homepage)
61 Headline (Headline)
72 Headline text column
73 URL of landing page
81 words
82 parts of speech
91 Keyword Selection Criteria
100 Web-enabled electronic equipment
101 Keyword List Page
102 Headline List Page
103 Detail Page
104 Portal Page
Claims (6)
リンク先のページが設定されているヘッドラインを含む複数のページを巡回するページ巡回手段と、
前記ページ巡回手段により巡回中の前記複数のページからそれぞれ、前記ヘッドラインのテキスト列を抜き出すヘッドライン生成手段と、
前記ヘッドライン生成手段により前記複数のページからそれぞれ抜き出された複数の前記ヘッドラインのテキスト列を構成する単語群の中から所定の判定基準に従って1つ以上のキーワードを判定するキーワード判定手段と、
前記キーワード判定手段により判定された1つ以上のキーワード、前記ヘッドライン生成手段により取得された前記ヘッドラインのテキスト列およびこのヘッドラインの前記リンク先ページのソースを用いて、前記キーワードの一覧が記述された1つ以上の第1のページ、この第1のページに記述されている個々のキーワードにそれぞれリンクされ、それぞれ共通のキーワードを含む1つ以上の前記ヘッドラインのテキスト列の一覧が記述された1つ以上の第2のページ、およびこの第2のページに記述されている個々のヘッドラインにそれぞれリンクされ、前記個々のヘッドラインのリンク先ページにおける主要なテキスト列が記述された1つ以上の第3のページを作成するページ再構築手段と、
前記ページ再構築手段によって作成された前記各ページの閲覧表示を行う閲覧表示手段と
を具備することを特徴とするWeb対応電子機器装置。A Web-enabled electronic device capable of accessing the Web,
Page circulating means for circulating a plurality of pages including a headline where a linked page is set,
A headline generating unit that extracts a text string of the headline from each of the plurality of pages being circulated by the page circulating unit,
Keyword determination means for determining one or more keywords from a group of words constituting a text string of the plurality of headlines respectively extracted from the plurality of pages by the headline generation means, according to a predetermined determination criterion,
The keyword list is described using one or more keywords determined by the keyword determination unit, a text string of the headline acquired by the headline generation unit, and a source of the linked page of the headline. A list of one or more headline text strings, each linked to one or more of the first pages and the individual keywords described in the first page, each including a common keyword. One or more second pages and one of the headlines described in the second page, each of which is linked to a main text line in a linked page of the respective headline. A page restructuring means for creating the third page,
A web-enabled electronic device, comprising: a browsing display unit for browsing and displaying each of the pages created by the page restructuring unit.
前記処理演算部の制御により、リンク先のページが設定されているヘッドラインを含む複数のページを巡回し、巡回中の前記複数のページからそれぞれ、前記ヘッドラインのテキスト列を抜き出し、それぞれ抜き出された複数の前記ヘッドラインのテキスト列を構成する単語群の中から所定の判定基準に従って1つ以上のキーワードを判定し、この判定した1つ以上のキーワード、前記ヘッドラインのテキスト列およびこのヘッドラインの前記リンク先ページのソースを用いて、キーワードの一覧が記述された1つ以上の第1のページ、この第1のページに記述されている個々のキーワードにそれぞれリンクされ、それぞれ共通のキーワードを含む1つ以上の前記ヘッドラインのテキスト列の一覧が記述された1つ以上の第2のページ、およびこの第2のページに記述されている個々のヘッドラインにそれぞれリンクされ、前記個々のヘッドラインのリンク先ページにおける主要なテキスト列が記述された1つ以上の第3のページを作成して前記記憶部に保存し、この記憶部に保存された前記各ページの情報に基づいて前記表示部に前記各ページを閲覧表示することを特徴とするWebコンテンツの閲覧表示方法。A method of browsing and displaying Web content on an electronic device having a processing operation unit, a storage unit, and a display unit,
Under the control of the processing operation unit, a plurality of pages including a headline in which a linked page is set are circulated, and a text string of the headline is extracted from each of the circulating pages, and each is extracted. One or more keywords are determined in accordance with a predetermined criterion from a group of words constituting the plurality of headline text strings, and the determined one or more keywords, the headline text string and the headline are determined. The source of the linked page of the line is used to link to one or more first pages in which a list of keywords is described, to individual keywords described in the first page, and to use common keywords One or more second pages describing a list of one or more of said headline text columns, including: Creating one or more third pages, each linked to an individual headline described on the second page, and describing a main text string in a linked page of the individual headline, A method of browsing and displaying Web contents, wherein the method is performed by storing the contents in a storage unit and browsing and displaying the respective pages on the display unit based on the information of the respective pages stored in the storage unit.
リンク先のページが設定されているヘッドラインを含む複数のページを巡回するページ巡回手段と、
前記ページ巡回手段により巡回中の前記複数のページからそれぞれ、前記ヘッドラインのテキスト列を抜き出すヘッドライン生成手段と、
前記ヘッドライン生成手段により前記複数のページからそれぞれ抜き出された複数の前記ヘッドラインのテキスト列を構成する単語群の中から所定の判定基準に従って1つ以上のキーワードを判定するキーワード判定手段と、
前記キーワード判定手段により判定された1つ以上のキーワード、前記ヘッドライン生成手段により取得された前記ヘッドラインのテキスト列およびこのヘッドラインの前記リンク先ページのソースを用いて、前記キーワードの一覧が記述された1つ以上の第1のページ、この第1のページに記述されている個々のキーワードにそれぞれリンクされ、それぞれ共通のキーワードを含む1つ以上の前記ヘッドラインのテキスト列の一覧が記述された1つ以上の第2のページ、およびこの第2のページに記述されている個々のヘッドラインにそれぞれリンクされ、前記個々のヘッドラインのリンク先ページにおける主要なテキスト列が記述された1つ以上の第3のページを作成するページ再構築手段と、
前記ページ再構築手段によって作成された前記各ページの閲覧表示を行う閲覧表示手段として機能させることを特徴とするプログラム。A computer incorporated in a Web-enabled electronic device capable of accessing the Web,
Page circulating means for circulating a plurality of pages including a headline where a linked page is set,
A headline generating unit that extracts a text string of the headline from each of the plurality of pages being circulated by the page circulating unit,
Keyword determination means for determining one or more keywords from a group of words constituting a text string of the plurality of headlines respectively extracted from the plurality of pages by the headline generation means, according to a predetermined determination criterion,
The keyword list is described using one or more keywords determined by the keyword determination unit, a text string of the headline acquired by the headline generation unit, and a source of the linked page of the headline. A list of one or more headline text strings, each linked to one or more of the first pages and the individual keywords described in the first page, each including a common keyword. One or more second pages and one of the headlines described in the second page, each of which is linked to a main text line in a linked page of the respective headline. A page restructuring means for creating the third page,
A program that functions as a browsing display unit for browsing and displaying each of the pages created by the page restructuring unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003067369A JP2004280203A (en) | 2003-03-12 | 2003-03-12 | Web-adaptable electronic device, page browsing display method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003067369A JP2004280203A (en) | 2003-03-12 | 2003-03-12 | Web-adaptable electronic device, page browsing display method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004280203A true JP2004280203A (en) | 2004-10-07 |
Family
ID=33284967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003067369A Pending JP2004280203A (en) | 2003-03-12 | 2003-03-12 | Web-adaptable electronic device, page browsing display method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004280203A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100462972C (en) * | 2005-12-08 | 2009-02-18 | 国际商业机器公司 | Document-based information and uniform resource locator (URL) management method and device |
JP2016537697A (en) * | 2013-09-21 | 2016-12-01 | オラクル・インターナショナル・コーポレイション | Method and system for defining off-line capable model graphs |
-
2003
- 2003-03-12 JP JP2003067369A patent/JP2004280203A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100462972C (en) * | 2005-12-08 | 2009-02-18 | 国际商业机器公司 | Document-based information and uniform resource locator (URL) management method and device |
JP2016537697A (en) * | 2013-09-21 | 2016-12-01 | オラクル・インターナショナル・コーポレイション | Method and system for defining off-line capable model graphs |
US10911592B2 (en) | 2013-09-21 | 2021-02-02 | Oracle International Corporation | Method and system for defining an offlinable model graph |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100461019B1 (en) | web contents transcoding system and method for small display devices | |
Buyukkokten et al. | Seeing the whole in parts: text summarization for web browsing on handheld devices | |
KR101153009B1 (en) | Live graphical preview with text summaries | |
US7272787B2 (en) | Web-compatible electronic device, web page processing method, and program | |
JP4248411B2 (en) | Method, system, computer program and storage device for displaying a document | |
US8429158B2 (en) | Method and system for unified searching and incremental searching across and within multiple documents | |
Xie et al. | Efficient browsing of web search results on mobile devices based on block importance model | |
US20080005089A1 (en) | Method of searching for text in browser frames | |
JPH10124413A (en) | Method for priority order down loading of buried web object and device therefor | |
US7174513B1 (en) | System and method for advanced network viewing | |
Ahmadi et al. | User-centric adaptation of Web information for small screens | |
Blekas et al. | Use of RSS feeds for content adaptation in mobile web browsing | |
JP2007280011A (en) | Method and apparatus for presenting web page browse history | |
US8887037B1 (en) | Scroll-free user interface and applications | |
Artail et al. | Device-aware desktop web page transformation for rendering on handhelds | |
US20080120549A1 (en) | System and method for displaying numbered descriptions | |
JP2004295294A (en) | Web-adaptable electronic device, browsing display method for web contents, and program | |
JP3877957B2 (en) | Information consolidation support system | |
JP2004280203A (en) | Web-adaptable electronic device, page browsing display method and program | |
JP2012093901A (en) | Image attached document retrieval device and image attached document retrieval program | |
MacKay et al. | The impact of migration of data to small screens on navigation | |
JP2008046879A (en) | Page display device, page display method and computer program | |
CN110765902B (en) | Digital protection and inheritance device for ancient and old newspapers | |
US20020091735A1 (en) | Method and apparatus for locating geographically classified establishment information | |
KR20040078632A (en) | Apparatus and method for reconstructuring search research result using search engines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060424 |