JP4172164B2 - チューナブル・テキスト・サマリ生成方法及びシステム - Google Patents
チューナブル・テキスト・サマリ生成方法及びシステム Download PDFInfo
- Publication number
- JP4172164B2 JP4172164B2 JP2001123950A JP2001123950A JP4172164B2 JP 4172164 B2 JP4172164 B2 JP 4172164B2 JP 2001123950 A JP2001123950 A JP 2001123950A JP 2001123950 A JP2001123950 A JP 2001123950A JP 4172164 B2 JP4172164 B2 JP 4172164B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- text
- rank
- display
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、チューナブル(調整可能)なディスプレイ特性を必要とする環境に使用するためのテキスト・サマリを生成することに関する。
【0002】
【従来の技術】
ワールドワイドウェブ(World Wide Web:以下、WWWと略称する)は、膨大な量の情報へのアクセスをオファーする。この情報は、個人や企業にそれらの個人的及び職業上の生活にとって重要な情報へのアクセスを提供するために使用される。しかしながら、WWWからの情報を得る際に生じる少なくとも一つの問題は、この情報にアクセスするために必要なHTML(hypertext markup language)ブラウザを実行するには、一般的にパーソナル・コンピュータが必要とされる点にある。
【0003】
すなわち、情報にアクセスするためには、HTMLページを表示することができる、HTMLブラウザ可能ターミナル又はHTMLブラウザ可能コンピュータが必要とされる。このため、情報のユーザが、情報を必要とするときや情報を必要とする場所でなかなか情報にアクセスできないという問題がある。
【0004】
いくつかのPCS(personal communication service:パーソナル通信サービス)テレフォンの製造者は、パーソナル通信サービス(PCS)テレフォンを介してユーザにウェブへのアクセスを提供するために、ミニブラウザを提供することによって、この問題の少なくとも一部に取り組むことを試みた。これらのサービスによって、ウェブ可能テレフォンとパーソナル・オーガナイザとのユーザに情報に略即時のアクセスが提供される。必要とされるときに必要とされる場所で情報を得る能力によってWWWを介して使用可能な情報ソースの価値は大いに高められる。
【0005】
しかしながら、これらのウェブ可能テレフォンとウェブ可能オーガナイザに関わる重要な問題は、小さなサイズのディスプレイである。典型的なウェブページはパーソナルコンピュータで見られるより大きなディスプレイ・サイズを利用するようにデザインされている。ウェブ可能テレフォン・ディスプレイは、現在、パワーと手軽さに対する要求から、約5行のテキストのディスプレイに限定されてい.る。PALM コンピューティング PALM Pilotウェブ可能オーガナイザは、11行までの狭いカラム・テキスト・ディスプレイを提供することができる。このため、ウェブ可能テレフォン・ユーザ又はウェブ可能オーガナイザ・ユーザが、このより小さなディスプレイ環境のためにはデザインされなかったHTMLページにアクセスしようと試みる時、HTMLページは適切に表示されない。
【0006】
【発明が解決しようとする課題】
PCSテレフォンのファシリティ製造者及びサービス・プロバイダは、一般的に、より小型のウェブ可能テレフォン・ディスプレイ専用にデザインされたページのみへのアクセスを可能とすることによって、この問題を処理した。しかしながら、この解決法は、HTMLと代替ウェブ可能装置フォーマットの両方においてそれらの情報へのアクセスを維持しなければならないことから、HTMLと代替のウェブ・サイトのデザイナに対して、メンテナンスの問題を生じる。このようなウェブ可能デバイスフォーマットの一例として、ワイヤレス・アクセス・プロトコル即ちWAPが挙げられる。ウェブ・ページ・デザイナにとってこれらの複数のプラットフォーム・デザイン・プロセスに相当な費用が掛かるため、ウェブ・ページ・デザイナの多くは、単純に代替ウェブ可能デバイス・フォーマットで情報を提供しないと決定する。結果的に、ウェブ可能テレフォン・ユーザがWWW上でこの情報にアクセスすることは不可能である。
【0007】
或いは、AvantGoシステム(AvantGo)等の変換ポータルを提供する製造者及びサービスプロバイダがいる。AvantGo システムは、ウェブ可能デバイスのユーザによって要求されたHTMLページをWAPプロトコル等のウェブ可能デバイス・フォーマットへ変換する。変換されたウェブ・ページは次にブラウザへ送られる。ページ全体がターゲットデバイスのWAPディスプレイに当てはまらない時、ページはセクション別にブラウザへ送られる。この解決法によって、WWW上で使用可能な多数の情報リソースへのアクセスが可能となる。しかしながら、ポータル・ソフトウェアは、オリジナルのHTMLからウェブ可能フォーマットへの変換を提供するにすぎないので、ディスプレイは読み難く、対象となる情報が検索される前に、いくつかのあまり有用ではない情報のスクリーンが頻繁に提供されてしまう。
【0008】
他の関連した問題は、WWWを介して入手可能な情報ソースの絶対数に関する。大型のパーソナル・コンピュータ・ディスプレイへのアクセスを有するユーザにとってさえも、ユーザは、所与の時間内で吸収され得る情報の量に限られる。これは、WWWに関連した、所謂、情報のオーバーロード(過負荷)の問題である。
【0009】
【課題を解決するための手段】
このように、チューナブル・テキスト・サマリ・ディスプレイの作成において使用され得るテキスト・サマリは有用である。例えば、ウェブ可能テレフォン環境において、テキスト・サマリ・ジェネレータは、ユーザのディスプレイの行数に対して最適化されるチューナブル・テキスト・サマリを作成するために使用される。Sprint(スプリント)PCSネットワーク上の、例えば、Samsung Model (サムソン・モデル)No.8600を備えたウェブ可能テレフォン・ユーザは、Samsungの5行テキスト・ディスプレイのブラウジング制約に合わせてチューニングされるサマリを見る。これに対して、PALM Computing PALM Pilot等のウェブ可能オーガナイザでウェブにアクセスするユーザは、PALM Pilotの11行ディスプレイに合わせてチューニングされたディスプレイを見る。NEC(登録商標)E500 15”等のフルサイズのディスプレイでWWWにアクセスするユーザは、完全なHTMLページを見ることが可能である。
【0010】
他の実施の形態において、フルサイズ・ディスプレイのユーザは、要約されたバージョンのテキストを見るために、チューニングされたテキスト・サマリ・ディスプレイの一つを指定することによって、HTMLページの関連性を速やかに決定したり、更なるマテリアルを再検討したりすることができる。
【0011】
本発明のシステム及び方法は、ウェブ可能デバイスのユーザのためのウェブ・ページへのアクセスを増加する。
【0012】
本発明のシステム及び方法は、チューナブル・テキスト・サマリ・ディスプレイ・ジェネレータを提供する。本発明のシステム及び方法は、関連した情報ソースをより速やかに決定する以外に可変ディスプレイ・サイズで見るために最適化されたウェブ・ページのチューナブル・テキスト・サマリ・ディスプレイを提供する際にも有用である。
【0013】
本発明の第1の態様は、所定の談話解析理論による解析を行うように設定されたテキスト解析手段が、サマリ生成手段及び表示手段を含み、ドキュメントに含まれるテキストを、前記所定の談話解析理論に基づいて、調整ノード、従属ノード、バイナリ・ノードのいずれか1つに対応付けられた最小有効ユニットに分割すると共に、前記各最小有効ユニットを解析して、該テキストに関するチューナブル・テキスト・サマリを生成する方法であって、前記サマリ生成手段が、当該談話解析理論に基づいて各最小有効ユニットに対応するノードが調整ノード、従属ノード、バイナリ・ノードのいずれか1つであると解析して、解析された前記最小有効ユニットに基づいて、各最小限ユニットに対応するノードのランクを割り当てると共に前記最小有効ユニットがノードにリンクされたツリー構造を生成することでサマリを生成するステップを実行し、前記表示手段が、当該ドキュメントのサマリが表示されるディスプレイのサイズに基づいて決定され該ツリー構造での表示対象とするランクを表すサマリレベルに基づいて、選択された前記最小有効ユニットを前記ディスプレイに表示するときのサマリとして選択的に表示するステップを実行し、前記サマリを選択的に表示するステップが、更に、前記テキストのツリー構造のランクのうち表示対象とするランクのサマリレベルが選択されるステップと、該テキストのツリー構造のうちルート・ノードから選択されたサマリレベルのノードまでにリンクされた前記最小有効ユニットを表示するステップと、を備えることで前記ディスプレイに表示される前記サマリのレベルを調整可能とした、チューナブル・テキスト・サマリ生成方法である。
【0017】
本発明の第2の態様は、前記サマリを生成するステップが、ルート・ノードを識別し、前記ルート・ノードにランクを割り当てるステップと、ノードにランクが割り当てられる毎に、ランクの割り当てられたノード対するチャイルド・ノードを選択するステップと、を更に備え、前記ランクを割り当てるステップが、選択された各チャイルド・ノードが調整ノード又はバイナリ・ノードである場合に各チャイルド・ノードに親ノードのランクを割り当て、選択された各チャイルド・ノードが従属ノードである場合に各チャイルド・ノードに親ノードのランクを割り当て、前記親ノードのランクを1つインクリメントして、当該インクリメントされたランクを前記従属ノードに割り当てる、第1の態様に記載のチューナブル・テキスト・サマリ生成方法である。
【0020】
本発明の第3の態様は、テキストが1組の置換フィールドを含む動的ページであり、テキストの分割が置換フィールドに対する1組の値を含むテキストをベースとする、第1の態様に記載のチューナブル・テキスト・サマリ生成方法である。
【0021】
本発明の第4の態様は、テキストを含むドキュメントを保持するメモリと、所定の談話解析理論によるテキスト解析を行うように設定され、該ドキュメントに含まれるテキストを、前記所定の談話解析理論に基づいて、調整ノード、従属ノード、バイナリ・ノードのいずれか1つに対応付けられた最小有効ユニットに分割すると共に、前記各最小有効ユニットに対応するノードが調整ノード、従属ノード、バイナリ・ノードのいずれか1つであると解析し、解析された前記最小有効ユニットに基づいて、各最小限ユニットに対応するノードのランクを割り当てると共に前記最小有効ユニットがノードにリンクされたツリー構造を生成することで、該テキストに関するサマリを生成するサマリ生成回路と、当該ドキュメントのサマリが表示されるディスプレイのサイズに基づいて決定され該ツリー構造での表示対象とするランクを表すサマリレベルに基づいて、選択された前記最小有効ユニットを前記ディスプレイに表示するときのサマリとして前記ディスプレイに選択的に表示させるコントローラと、を備え、
前記コントローラが、更に、前記テキストのツリー構造のランクのうち表示対象とするランクのサマリレベルが選択されるユニットを備え、該テキストのツリー構造のうちルート・ノードから前記選択ユニットで選択されたサマリレベルのノードまでにリンクされた前記最小有効ユニットを表示することで、前記ディスプレイに表示される前記サマリレベルを調整可能とした、システムである。
【0025】
本発明の第5の態様は、前記サマリ生成回路が、ルート・ノードを識別し、前記ルート・ノードにランクを割り当て、ノードにランクが割り当てられる毎に、ランクの割り当てられたノード対するチャイルド・ノードを選択し、選択された各チャイルド・ノードが調整ノード又はバイナリ・ノードである場合に各チャイルド・ノードに親ノードのランクを割り当て、選択された各チャイルド・ノードが従属ノードである場合に各チャイルド・ノードに前記親ノードのランクを割り当て、前記親ノードのランクをインクリメントした後に、当該インクリメントされたランクを前記従属ノードに割り当てる、第4の態様に記載のチューナブル・テキスト・サマリを生成するシステムである。
【0028】
本発明の第6の態様は、テキストが1組の置換フィールドを含む動的ページであり、テキストの分割が置換フィールドに対する1組の値を含むテキストをベースとする、第4の態様に記載のチューナブル・テキスト・サマリを生成するシステムである。
【0029】
本発明のこれらの目的とそれ以外の目的と特色と利益とは、本発明のシステム及び方法の種々の例示的な実施の形態の以下の詳細な説明をよめば、一層明確になるであろう。
【0030】
本発明は、同様の構成要素に同様の番号を付した添付図面によって以下に説明され得る。
【0031】
【発明の実施の形態】
図1は、使用されている本発明の例示的な実施の形態のブロック図を示す。ウェブ・サーバ120、プロキシ・サーバ110、及びウェブ可能オーガナイザ150が全てインターネット160に接続されている。5行PCS(personal communication service:パーソナル通信サービス)テレフォン140は、プロキシ・サーバ110を介してインターネット60に接続される、PCSプロバイダ・ネットワーク170に接続される。
【0032】
ウェブ可能PCSテレフォン140のユーザは、ウェブサーバ120から、プロキシサーバ110を介して、HTMLページ180を要求する。HTMLページの作成者(オーサ)は、本発明の技術を用いて、このページを符号化し、このページをアクセスされるべきウェブサーバ120上へ置く。ウェブ可能PCSテレフォン140は情報を使用可能なディスプレイのサイズを示すプロキシ・サーバ110に転送する。この情報は、引き続き使用するためデータベース内でプロキシ・サーバ110によって保持されるか又は現在のウェブ接続のためのみに保持されるかのいずれかである。他の実施の形態においては、ディスプレイ・サイズは、ネットワーク輻輳や使用可能なバンド幅やスクリーン・サイズ等のファクタに依存して、プロキシ・サーバ110、ウェブ・サーバ120、又はウェブ可能PCSテレフォン140によって決定され得る。
【0033】
プロキシ・サーバ110は、次に、この要求をウェブ・サーバ120に送る。HTMLページは次にウェブサーバ120からプロキシ・サーバ110へ転送される。プロキシ・サーバ110において、サマリは、解析され、ターゲットディスプレイのサイズに適したサマリ・レベル以下のランクを有するノードが、選択され、ウェブ可能PCSテレフォン140上のディスプレイ用PCSプロバイダ・ネットワーク170を介してウェブ可能PCSテレフォン140へ出力される。
【0034】
オリジナルのHTMLページ180は、プロキシ・サーバ110によって、ランク0及びそれより下のノードのみが含まれるチューニングされたテキスト・サマリ・ディスプレイ180'に変換される。チューニングされたテキスト・サマリ・ディスプレイ180'は、要求するウェブ可能テレフォン140に戻される。HTMLページ180を処理した結果、チューニングされたテキスト・サマリ・ディスプレイ180'は、6行から4行へ低減された。しかしながら、HTMLページ180のテキストの主なコンテンツは、事実上、変化しなかった。2番目に重要な情報のみがサマリ・プロセスにおいて取り除かれた。例えば、フレーズ"He apologized to his wife for being late"(彼は遅れたことを妻に詫びた)の隣の「+」符号は、更なる情報がドリル・ダウン・フォーマット(drill-down format)において使用可能であることを示す。ユーザは、カーソルを「+」上に置き、「+」を選択することによって、「+」符号によって示されたマテリアルを選択するだけで済む。これに応じて、マテリアルは、フレーズ"+He had to visit his mother."を含むように1レベルだけ拡張される。このフレーズには、やはり、ユーザがこのテキストを次のレベルへ拡張したいとする場合に、更なる情報が使用可能であることを示す「+」の符号が付けられている。このように、この発明のシステム及び方法は、ユーザのディスプレイのサイズに合うように調整されたチューナブル・テキスト・サマリ・ディスプレイを提供すると共に取り除かれたマテリアルのビジュアル表示をユーザに提供する。
【0035】
他の実施の形態においては、ウェブ可能パーソナル・ディジタル・アシスタント即ちPDA150又はウェブ・ブラウザ(Web browser)は、ウェブ・サーバ120からウェブ・ページ180を直接要求する。ウェブ可能パーソナル・ディジタル・アシスタント即ちPDA150又はウェブ・ブラウザは、ウェブ・サーバ120へのアクセス時に又はもっと早い時期に、HTMLページ180内に埋め込まれた情報の処理を可能とするプログラムをダウンロード及び実行しても良い。このプログラムは、図4及び図5に概略的に示された方法に関連するタスクを実行するために必要な増補機能をウェブ可能パーソナル・ディジタル・アシスタント即ちPDA150又はウェブ・ブラウザに提供することが可能な、プラグ・イン・モジュール(plug-in module)、Java applet(ジャバ・アプレット)、Java application (ジャバ・アプリケーション)、又は、任意の他のタイプのコード又はプロセス等のブラウザ拡張を、これらに限定はされないが、含むこともある。ウェブ可能プログラムは、次に、プラグ・イン(plug-in)又はアプレット・コード(applet code)を用いてHTMLページ内で符号化されたサマリを処理することができる。プラグ・イン(plug-in)又はアプレット・コード(applet code)は、使用可能なディスプレイ空間の行数に適切なサマリ・レベルを生成する。このように、プロキシ・サーバ110に関わる費用とネットワークの不都合が回避される。図示されない他の実施の形態において、ディスコース(discourse)の増補構造的表示の自動的な生成は、ディスコースの増補構造的表示により、動的に符号化されるウェブ・ページへのアクセスを可能とする
【0036】
公知であるか今後開発される、HTMLページを処理し、チューナブル・サマリを生成するために多くの種々の技術が本発明の精神又は範囲を逸脱することなく使用され得ることが理解されよう。
【0037】
例えば、図示されない他の例示的な実施の形態において、HTMLページ180がホスト(上位)となるHTTP(hypertext transfer protocol)ウェブ・サーバが更なる処理能力を有することもある。更なる処理能力によって、HTTPウェブ・サーバが、適切なサマリ・レベルのサーバ120による決定に基づいて又はクライアント・デバイスからの特定レベルのサマリに対する要求に基づいてクライアントにサマリを送ることによって、ディスコースの増補構造的表示を既に備えたHTMLページ180を処理することが可能となる。
【0038】
第2の他の例示的な実施の形態において、サーバは、ディスコースの増補構造的表示を自動に生成することができると共に、PDA(パーソナル・ディジタル・アシスタント)150又はHTMLページ180用のデスクトップ・コンピュータ130等のクライアント・デバイスからの要求に応答して、クライアント・デバイスのディスプレイ・サイズに合うように調整された特定のチューナブル・テキスト・サマリ・ディスプレイを提供することができる。
【0039】
第3の他の例示的な実施の形態において、HTTPウェブ・サーバ120は、更なる処理を全く実行せず、クライアント・デバイス130又は150は、要求された特定のチューナブル・テキスト・サマリ・ディスプレイを生成するためにHTMLページ180内で符号化されたディスコースの増補構造的表示を所有する。
【0040】
第4の他の例示的な実施の形態において、プロキシ・サーバ110は、HTTPウェブ・サーバ120とクライアント・デバイスとの間に置かれる。プロキシは、クライアントによるページへの要求を仲介してHTTPウェブ・サーバ120へ取り次ぐ。HTMLページ180は、必要なチューナブル・テキスト・サマリ・ディスプレイを動的に生成するプロキシ110に返却され、必要なチューナブル・テキスト・サマリ・ディスプレイは次にPCSベースのウェブ可能テレフォン等のクライアント・デバイスに戻される。
【0041】
第5の他の例示的な実施の形態において、第4の他の実施の形態のプロキシ・サーバ110は、任意のHTMLページ180からディスコースの増補構造的表示を自動に生成し、クライアント・デバイスのディスプレイ・サイズに適切な特定のチューナブル・テキスト・サマリ・ディスプレイを返す。
【0042】
第6の他の例示的な実施の形態において、プロキシ・サーバ110は、クライアントのためのHTMLページ180へのアクセスを仲介する。HTTPウェブ・サーバ120及びプロキシ・サーバ110は、HTMLページ180を変更せずにパスする。クライアントは、必要なチューナブル・テキスト・サマリ・ディスプレイを生成する。
【0043】
図2は、HTMLページ内に埋め込まれるべきディスコースの増補構造的表示を生成するために使用されるサマリ生成システム200の一つの例示的な実施の形態を示す。
【0044】
サマリ生成システム200は、入力/出力インタフェース210とメモリ236とに接続されるコントローラ230を含む。メモリは、テキスト部231、セグメント部232、テキストビルディング部233、サマリ部234、及びツリー部235のうちの一つを含んでいてもよいし、これらを全く含まないでもよい。入力/出力インターフェース210は、リンク215によって、一つ以上の入力デバイス214とディスプレイ・デバイス212とに接続される。入力/出力インターフェース210、コントローラ230、及びメモリ236は、データ/コントロール・バス205によって、セグメント回路又はルーチン250、解析回路又はルーチン260、ツリー・ビルディング回路又はルーチン270、サマリ生成回路又はルーチン280に接続されている。
【0045】
リンク110は、サマリ生成システム200をデバイス又はコンポーネントに接続させる。リンク110が、ユーザのためのサマリ生成システム200への遠隔アクセスを許容するとともにサマリ生成システム200をウェブ・パブリシング・ツール(Web publishing tools)にインタフェースさせるために使用されてもよいことが理解されよう。リンク110は、直接ケーブル接続、広域ネットワーク又はローカル・エリア・ネットワーク(LAN)に対する接続、イントラネットに対する接続、インターネットに対する接続、又は任意の他の分散処理ネットワーク又はシステムに対する接続を有する、サマリ生成システム200に接続するための任意の知られている又は今後開発されるデバイス又はシステムであってもよい。概して、リンク110は、ユーザをテキスト・サマリ生成システム200に接続するために使用可能な任意の知られている又は今後開発される接続システム又はストラクチャであり得る。
【0046】
コントローラ230は情報をメモリ236に記憶する。メモリ236は、ハードディスク、ディスクドライブ・ストレージ、フロッピディスク・ストレージ、書き換え型光ディスク・ストレージ、バブルメモリ、フラッシュメモリ、静的及び/又は動的RAM、電池式RAM、その他によって、実行されてもよい。コントローラ230は、ディスプレイ212に情報をディスプレイし、一つ以上のユーザ入力デバイス214を介してユーザ入力を受け取る。テキスト・サマリ生成システム200へのユーザ入力は、ボイス入力、キーボード入力、タッチ・センシティブ・スクリーン入力、又は情報をテキスト・サマリ生成システム200へ入力する任意の方法のうちの一つ以上を含んでいてもよい。
【0047】
ユーザは、テキストメモリ(テキスト部)231から解析されるべきテキスト又はウェブ・ぺージを呼び出す。或いは、ユーザは、解析されるべきHTMLテキスト・ファイルを作成するために任意のワードプロセッサ、テキスト処理アプリケーション・テキスト・エディタ、又はHTMLページ・オーサリング・システムを使用してもよい。
【0048】
ユーザは、次に、セグメント回路又はルーチン250を起動することによってテキストをテキスト・ビルディング・ユニットに分割する。異なる言語理論は、異なる基本的なテキスト・ビルディング・ユニットからディスコースを組み立てる。種々の例示的な実施の形態において、リンガイスティック・ディスコース・モデル(Linguistic Discourse Model:言語ディスコース型)は、テキストを解析し、テキスト・ビルディング・ユニットを類別するために使用される。リンガイスティック・ディスコース・モデルについては、本明細書中にそれぞれ参照することによって組み込まれている同時係続出願の米国特許出願第09/609,325号及び第09/630,371号において更に詳細に記述されている。これらの例示的な実施の形態において使用されるリンガイスティック・ディスコース・モデルは、三つの個別型のテキスト・ビルディング・ユニット向けに提供されている。各テキスト・ビルディング・ユニットはテキスト内で最小有効ユニットを表す。センテンスは、単一テキスト・ビルディング・ユニットを有するか、又は単一テキスト・ビルディング・ユニットから形成されてもよい。しかしながら、センテンスは、どちらかというと、いくつかのテキスト・ビルディング・ユニットから形成されがちである。セグメント回路又はルーチン250の編集特性を用いて、ユーザは、解析されるべきテキストをテキスト・ビルディング・ユニットに分割する。種々の例示的な実施の形態において、ライン・ブレーク(行の切れ目)は、各テキスト・ビルディング・ユニット間に挿入される。これが、各行に一つのテキスト・ビルディング・ユニットを置いて、テキスト・ビルディング・ユニットのリストを作成する。しかしながら、一つのテキスト・ビルディング・ユニットを他のテキスト・ビルディング・ユニットから区切ることによって、任意の知られている又は後に開発される区切りの技術(delimiting technique)を使用することができることが理解されよう。例えば、テキストのセグメンテーション(分割)はHTMLページ・オーサリング環境において実行されても良いし、HTML又はXMLタグをテキスト・ビルディング・ユニットのセグメンテーションを示すために使用することができる。
【0049】
セグメント回路250又はユーザ・セグメント・テキストの出力は、テキスト・ビルディング・ユニットの同一リスト内に生じなければならない。或いは、テキストのセグメンテーションは、ユーザの介入なしに、自動に達成される。
【0050】
解析されようとするテキスト・ビルディング・ユニットのリストは、次に、コントローラ230の制御下で、解析回路又はルーチン260に提供される。解析回路又はルーチン260において、ユーザは、テキスト・ビルディング・ユニット・タイプを各テキスト・ビルディング・ユニットに割り当てる。ユーザは、サマリを生成するために使用されるべく選ばれたディスコースの理論に基づいて、テキスト・ビルディング・ユニット毎にテキスト・ビルディング・ユニット・タイプを選択する。判定されたテキスト・ビルディング・ユニットは次にテキスト・ビルディング・ユニット・メモリ部(テキストビルディング部)233に記憶される。或いは、テキスト・ビルディング・ユニット・タイプの割当てはユーザの介入なしで自動に実行され得る。
【0051】
テキスト・ビルディング・ユニットの割当ては、単に記述の都合上、セグメンテーション・ステップに続いて示される。テキスト・ビルディング・ユニット・タイプの割当ては、各テキスト・ビルディング・ユニットが入力される時、例えば、HTMLページがオーサリング(作成)される時、に発生し得る。
【0052】
本発明によるサマリ生成システム及び方法に用いられるディスコース解析の理論は多数ある。このような理論は、限定はされないが、Discourse Structures Theory(ディスコース構造理論)、the Rhetorical Structure Theory(修辞構造理論)、the Systemic Functional Grammar and Tagmemics(システミック機能文法及びタグメミック)を含んでよい。
【0053】
この発明によるシステム及び方法の種々の例示的な実施の形態は、ディスコース解析のリンガイスティック・ディスコース・モデル(Linguistic Discourse Model:言語ディスコース型)理論を使用する。上述されるように、リンガイスティック・ディスコース・モデルは、三つのタイプのテキスト・ビルディング・ユニット、即ち、コンテンツ・テキスト・ビルディング・ユニット、修飾テキスト・ビルディング・ユニット、及びオペレータ・テキスト・ビルディング・ユニットを用意する。コンテンツ・テキスト・ビルディング・ユニットは、いくつかのエンティティの達成又は特性である状態、アクション、又は信念を表現する。コンテンツ・テキスト・ビルディング・ユニットは、表現されても、表現されなくても、コアにおいて動詞を有する。修飾テキスト・ビルディング・ユニットは、テキストに沿って更に符号化される情報のためにコンテキスト・セッティング情報を提供する。オペレータ・テキスト・ビルディング・ユニットは、テキスト編成又は論理ストラクチャのアスペクトに注釈を提供したり、コンテキスト中の何かに対して感情的なリアクションを表現し得る。各テキスト・ビルティング・ユニットは、これらのカテゴリのうちの一つに割当てられる。
【0054】
テキストが、セグメント回路又はルーチン250及び解析回路又はルーチン260によって処理された後、テキストは、次に、コントローラ230の制御下で、ツリー・ビルディング回路又はルーチン270によって処理される。ツリー・ビルディング回路又はルーチン270は、テキストの第1のテキスト・ビルディング・ユニットに対してノードを生成し、このノードをディスコース・ツリーのルート・ノードとしてとして定義付けることによって開始する。更なるフィールドがユーザに見せられることによって、関連フィールドは、テキスト・ビルディング・ユニットをディスコース・ツリー内へリンクさせるために構築されたノードのタイプを識別する。ノードは、ユーザが、解析されているテキスト・ビルディング・ユニットのためのディスコース・ツリー内で挿入ポイントを選択することを可能とする。テキスト・ビルディング・ユニットは、テキスト・サマリ生成システム200内で使用されているディスコースの特定理論に適応したディスコースの構造的表示に付加される。即ち、ディスコースの特定の理論によって、特定のテキスト・ビルディング・ユニットが、異なるポイント及び/又は異なる方法でディスコースの構造的表示に常時に追加され得る。テキスト・サマリ生成システム200の種々の例示的な実施の形態において使用されるリンガイスティック・ディスコース・モデルにおいて、構造的表示は、右側オープンツリーである。
【0055】
種々の例示的な実施の形態において、リンガイスティック・ディスコース・モデルは、テキスト・ビルディング・ユニット間に三つの関係を提供する。即ち、1)調整(coordinations)、2)従属(subordinations)、3)バイナリ(binaries)である。二つのテキスト・ビルディング・ユニットの調整関係は、第2のテキスト・ビルディング・ユニットが、第1のテキスト・ビルディング・ユニットによって事前に開始された又は継続して行われるディスコース・アクティビティを続行する時に存在する。この場合、第2のテキスト・ビルディング・ユニットは、ディスコース・ツリーと、調整ノードを有する第1のテキスト・ビルディング・ユニットとにリンクされる。
【0056】
特に、種々の例示的な実施の形態において、構造的表示又はツリーにおける第1のノードによって表される付加されようとする第2のテキスト・ビルディング・ユニットとテキスト・ビルディング・ユニットとの関係が調整関係である場合、第1又は現存ノードは新しい調整ノードによって置き換えられ、第1のノードは新しい調整ノードのリーフ・ノードとなる。新しい調整ノードは、第1のテキスト・ビルディング・ユニットを表す第1のノードを、新しい調整ノードの左側チャイルド・ノードとして、ディスコース・ツリー内にリンクする。付加されようとする第2のテキスト・ビルディング・ユニットを表す第2のノードは、次に、新しい調整ノードに右側チャイルド・ノードとして新しい調整ノードにリンクされる。いくつかの場合において、後に続くテキスト・ビルディング・ユニットは、調整ノード下の兄弟としてディスコース・ツリーにおいて既に互いに関連づけられたテキスト・ビルディング・ユニットによって実行されるアクティビティを拡張し得る。この場合、第3のテキスト・ビルディング・ユニットを表す第3のノードは、新しい右側チャイルド・ノードとして現存の調整ノード下で付加される。第2のノードは次に中間のチャイルド・ノードになる。
【0057】
テキスト・ビルディング・ユニット間の関係が調整関係でない場合、第2のテキスト・ビルディング・ユニットは、テキスト・ビルディング・ユニットがディスコース・ツリー内のアクティブ・ディスコースを精緻化するか又は妨害するかを判定するために解析される。ディスコース・ツリーの右側端に沿って位置する関係ノード又はテキスト・ビルディング・ユニットを有する場合に、ディスコースはアクティブである。第2のテキスト・ビルディング・ユニットが、アクティブ・コースを精緻化又は妨害する場合、第2のテキスト・ビルディング・ユニットとその前のテキスト・ビルディング・ユニットとの関係が従属関係として定義付けられる。この場合、第1のノードは新しい従属ノードによって置き換えられ、第1のノードは従属ノードのリーフ・ノードとなる。第2のテキスト・ビルディング・ユニットを表す第2のノードは、新しい従属ノードの右側チャイルド・ノードとしてディスコース・ツリー内にリンクされる。
【0058】
第2のテキスト・ビルディング・ユニットとディスコース・ツリーの右側端を形成する第1のテキスト・ビルディング・ユニットとの関係が調整でも従属でもない場合、第2のテキスト・ビルディング・ユニットは、ディスコース・ツリー内の第1のテキスト・ビルディング・ユニットとバイナリ関係を有するものとして分類される。第1又は現存のノードは新しいバイナリ・ノードによって置き換えられ、第1のノードはバイナリ・ノードのリーフ・ノードとなる。第2のテキスト・ビルディング・ユニットを表す第2のノードは、新しいバイナリ・ノードの右側チャイルド・ノードとして、付け加えられる。
【0059】
リンガイスティック・ディスコース・モデルを用いた実施の形態において、ユーザは、テキストを介して進行し、ディスコースの構造的表示は、右側オープンツリーである。従って、テキスト・ビルディング・ユニットを表すノードは、ディスコース・ツリーの右側端のみで、ディスコース・ツリーに付け加えられる。これによって、次のテキスト・ビルディング・ユニットがディスコース・ツリーに付け加えられ得る可能挿入ポイントが早期に判定され、ユーザに提示される。種々の例示的な実施の形態において、挿入ポイントのリストが制約されたドロップダウン選択ボックスの形態でユーザに表示され得る。当然のことながら、ディスコースの他の理論がディスコースの異なる構造的表示を利用することもある。
【0060】
或いは、ツリー・ビルディングは自動に達成され得る。ディスコース・ツリーは、使用されているディスコース理論によるテキストの編成を反映して組み立てられる。
【0061】
ユーザは、次に、サマリ生成回路又はルーチン280を起動させる。サマリ生成回路又はルーチン280は、ツリー・ビルディング回路又はルーチン270が処理を完了した後で自動に呼び出されてもよい。サマリ生成回路又はルーチン280は、ディスコースの構造的表示をとり、これは、リンガイスティック・ディスコース・モデルを用いた種々の例示的な実施の形態において、入力としては、ツリー・ビルディング回路又はルーチン270によって生成される右側オープンツリーであり、各テキスト・ビルディング・ユニットのランクを有するディスコースの増補構造的表示を生成する。他の実施の形態において、ツリー・ビルディング回路又はルーチン270及びサマリ生成回路又はルーチン280の起動は、同時発生する。
【0062】
サマリがサマリ生成回路又はルーチン280によって生成された後、ユーザは次に特定用途向けHTMLタグを用いてHTMLページ内にディスコースの増補構造的表示を符号化してもよい。特定用途向けHTMLタグは、プラグ・イン又はアプレットなしで従来のブラウザによって無視される。プラグ・イン又はアプレットなしの従来のブラウザ又はプロキシ・サーバ110を使用しない従来のブラウザは、これらのブラウザがHTMLページ・ソース・ファイルを直接見ない場合、ディスコース情報の増補構造的表示を見ない。
【0063】
他の実施の形態において、ユーザは、本文のマテリアルのハンド生成サマリをオーサリング・ステップ中にHTMLページ内に直接入力してもよい。ディスコースのハンド生成増補構造的表示の入力は、図8及び図9を参照して、以下に説明されるように、情報を符号化するために特定用途向けHTMLタグ又はHTML COMMENTタグを用いてディスコースの増補構造的表示を保存することによって、任意のHTMLエディタ又はテキスト・エディタを用いて達成され得る。
【0064】
他の実施の形態において、テキストの増補構造的表示へ符号化されたランク情報は、ページから生成されようとするサマリを更に細かくチューニングするためにHTMLページ・オーサ(作成者)によって調整され得る。
【0065】
図3は、本発明によるディスコースの増補構造的表示を生成するために書き込まれたテキストを解析する方法の例示的な実施の形態を概略的に示すフローチャートである。ステップS100で始まり、制御は、ステップS110へ進み、ユーザはテキスト又はウェブ・ページをテキスト編集作業領域内へ取り入れる。テキストがシステムに直接入力され得ること、又は、プリントされた又は手書きのテキストのテキスト認識、音声入力システム、EMACS、UNIXのエディタviのようなワード・プロセッサ、Microsoft 社のWord(登録商標)のようなワード・プロセッサ、HTMLエディタを含む任意の他の方法又は任意の他の知られている又は今後開発される方法又は技術を用いてテキストがシステム内に入力され得ることは、明確であろう。ユーザは、解析のための新しいテキストを生成するために前もって作成されたテキストを更に編集したり、テキスト編集作業領域を使用してもよい。
【0066】
テキストが入力されると、制御はステップS130へ進み、ユーザは書き込まれたテキストをディスクリートなテキスト・ビルディング・ユニットへセグメントするように促される。上述されるように、テキスト・ビルディング・ユニットは、テキスト内の最小有効ビットである。センテンスは、単一テキスト・ビルディング・ユニットを含むか、又は、多数のテキスト・ビルディング・ユニットを含む。
【0067】
本発明による方法の種々の例示的な実施の形態において、ステップS130において、ユーザは、ライン・ブレーク(行の切れ目)を挿入することによってテキストをディスクリートなテキスト・ビルディング・ユニットに分割し、これによって、各テキスト・ビルディング・ユニットが個々の行上に現れる。テキストをテキスト・ビルディング・ユニットにセグメントする他の方法が可能であることは明らかである。例えば、種々の他の例示的な実施の形態において、選択されたHTML及び/又はXML(extended markup language)タグ等によってテキスト内で各テキスト・ビルディング・ユニットを境界付けることによって、テキストはテキスト・ビルディング・ユニットへ分割される。或いは、テキストはユーザの介入なしで自動にセグメントされ得る。
【0068】
次に、ステップS140において、ユーザは解析されるべきテキストの部分を指定する。例えば、ユーザは、HTMLテキストページよりも寧ろ単一パラグラフに関連するサマリを提供したいにすぎないかもしれない。これは、例えば、大量のマテリアルが脚注情報である時に発生し、従って、一般的ではない。しかしながら、通常、テキスト全体は、解析用に選択される。制御は次にステップS150へ進む。
【0069】
ステップS150において、第1のテキスト・ビルディング・ユニットが選択される。次に、ステップS160において、テキスト・ビルディング・ユニット・タイプが、実施されたディスコース理論を用いて選択されたテキスト・ビルディング・ユニットに割当てられる。上述されるように、種々の例示的な実施の形態において、リンガイスティック・ディスコース・モデルは、ディスコースの実施された理論である。ステップS160において、各テキスト・ビルディング・ユニットの解析が行われ、テキスト・ビルディング・ユニットのタイプが割当てられる。次に、ステップS170において、テキスト・ビルディング・ユニット・タイプが最終のテキスト・ビルディング・ユニットに割当てられたか否かが判定される。現在テキスト・ビルディング・ユニットが最終でない場合、制御はステップS180へ進む。さもなければ、制御はステップS210へ進む。
【0070】
ステップS180において、次の未割当てのテキスト・ビルディング・ユニットが選択される。制御は、次に、ステップS160へ戻り、ループが割り当てられる必要のある最終のテキスト・ビルディング・ユニットが処理されるまで進む。制御は、次に、ステップS210へ進む。
【0071】
ステップS210において、任意のテキスト・ビルディング・ユニットが不正確に割当てられたか否かが決定される。任意のテキスト・ビルディング・ユニットが不正確に割当てられた場合、制御はステップS220へ進む。そうでない場合、制御は、ステップS230へ進む。ステップS220において、テキスト・ビルディング・ユニットが、選択される。制御はステップS160へ戻る。
【0072】
ステップS230において、ディスコース・ツリーは、ディスコース・ツリーのルーツ・ノードとして、第1のテキスト・ビルディング・ユニットを表すノードを、挿入することによって、開始される。上述されるように、種々の例示的な実施の形態において実施されるリンガイスティック・ディスコース・モデルは、テキスト・ビルディング・ユニットに三つの関係、即ち、(1)調整、2)従属、及び3)バイナリを提供する。
【0073】
ステップS240において、既にツリー内にあるテキスト・ビルディング・ユニットと次のテキスト・ビルディング・ユニットとの間で関係が定義付けられる。この関係はツリー内に挿入された新しいノードを定義付ける。関連するテキスト・ビルディング・ユニットは、ツリーのチャイルド・ノードを形成する。他の実施の形態において、テキスト・ビルディング・ユニットの関係は、ユーザが介入することなく、定義付けられ得る。
【0074】
次に、ステップS250において、全てのテキスト・ビルディング・ユニットがディスコース・ツリーへ付加されたか否かが判定される。付加すべきテキスト・ビルディング・ユニットが残っている場合、制御はステップS260へ進む。そうでない場合、全てのテキスト・ビルディング・ユニットが割当てられると、制御はステップS270へ進む。ステップS260において、付加すべき次のビルディング・ユニットが選択される。制御は、次に、ステップS240へ戻る。
【0075】
ステップS270において、ディスコースの増補構造的表示が、図4及び図5に示されるような、サマリ生成アルゴリズムに基づいて作成され、以下に説明される。制御はステップS280へ進み、処理が終了する。ディスコースの増補構造的表示が後から見るためにHTMLページ内に埋め込まれ得る。HTML又はXMLタグを用いてHTMLページがセグメントされる例示的な実施の形態に対して、ディスコースの増補構造的表示が、セグメントされたテキスト・ビルディング・ユニットとテキスト・ビルディング・ユニットとの間に許容される関係を指定すると共にランク情報を含むための特定用途向けHTML又はXMLタグをも含むことによって符号化され得る。
【0076】
図4は、テキスト・サマリを生成するための例示的な方法を概略的に示すフローチャートである。本発明によるシステム及び方法の種々の例示的な実施の形態が英語用にデザインされている。異なる言語は異なるサマリ・アルゴリズムを用いて要約されることは明らかである。しかしながら、これらの異なるサマリ・アルゴリズムが言語によって生成されたディスコースの構造的表示の構造を解析すると共にテキスト・ビルディング・ユニットの重要度を識別することによって決定され得ることが明白である。
【0077】
このように、異なる言語用の本発明によるサマリ生成技術の多くの実施は明らかとなる。例えば、英語専用のサマリ・ジェネレータは、テキストにおいて構造的に支配的なテキスト・ユニット内で符号化すべき最も顕著な情報を呼出す英語の慣例上に組み立てられる。
【0078】
英語のサマリ・ジェネレータにおいて、ポイントについてより詳細を提供する情報は、ジェネレータ上で立案されるより詳細でより顕著な情報に埋め込まれたり、従属されるテキスト・ユニットにおいて従来符号化される。他の書込み文化において、異なる戦略も使用される。文書や節における最も顕著な情報をそのままの状態又は以前に言ったことを要約したり、結論づけたりして、テキストの最後に提示される。
【0079】
リンガイスティック・ディスコース・モデルを用いて解析されたテキストにおいて、多少とも顕著な情報の特性展開が決定され、その構造的配置によってより顕著な情報としてマークされた情報を抽出するとともにあまり顕著でない情報としてマークされた情報を符号化することによって、要約ジェネレータが考案され得る。他の言語のためのサマリを生成するためにどのようにしてサマリの生成が適応され得るかが解る。
【0080】
サマリ生成は、図4のステップS300で開始し、英語のテキスト・サマリ生成の例示的なフローチャートを反映する。特定の言語に合わせて調整された要約システムの適切な置き換えによって、任意の言語のテキストは、本発明の方法及びシステムによって要約され得る。制御は、次に、ステップS320へ進み、ツリー内の第1のノードが、最下位のランク、例えば、0に割当てられる。次に、ステップS330において、チャイルド・ノードが再帰的に選択される。次に、ステップS340において、選択されたチャイルド・ノードが従属であるかが判定される。ノードが従属である場合、制御はステップS360へ進む。あるいは、ノードが従属でない場合、制御はステップS350へ進む。
【0081】
ステップS350において、ノードは調整かバイナリのいずれかでなければならない。いずれの場合でも、ステップS350において、選択されたチャイルド・ノードには親ノードのランクが割当てられる。制御は次にステップS380へ進む。
【0082】
ステップS360において、親ノードのランクが従属ノードに割当てられる。次に、ステップS370において、親ノードのランクが、1つインクリメントされ、従属ノードに割当てられる。制御は、次に、ステップS380へ進む。
【0083】
ステップS380において、処理すべきチャイルド・ノードが残っているか否かについて判定される。処理すべきチャイルド・ノードが残っている場合、コントロールはステップS340へ戻り、タイプ判定及びランキングステップが全ての残っているチャイルド・ノードに対して反復される。処理すべきチャイルド・ノードが全く残っていない場合は、制御はステップS390へ進み、処理が終了する。ランク情報とディスコースの構造的表示は、次に、ディスコースの増補構造的表示において保存される。
【0084】
図5は、ユーザが増補HTMLページを要求するときにチューニングされたサマリを生成するための一つの例示的な方法を概略的に示すフローチャートである。制御はステップS400で開始され、ユーザ又はユーザのデバイスがディスプレイに適した必要なサマリ・レベルLを選択するステップS410に直接進む。レベルLは、ユーザのディスプレイに出力するためのノード・ランクを決定するために使用され得る。制御は、ステップS420に進む。ステップS420において、ランクL以下の全てのノードが出力される。次に制御はオプショナルなステップS430へ進み、サマリ・レベルによって句読点が調整される。制御は、次に、ステップS440へ進み、処理が終了する。他の実施の形態において、ユーザは、セッション・レベル変数としてチューナブル・サマリ・レベルを選択し、デバイスは、表示能力に基づいたチューナブル・サマリ・レベルを選択し、レベルは、デバイスによって自動に送られ、又はチューナブル・ディスプレイ・レベルが、例えば、ネットワーク・バンド幅、輻輳、他のファクタを測定する動的プロセスを用いて決定され得る。選択されたチューナブル・サマリ・レベルが選択され、制御は次にステップS420へ進む。
【0085】
ステップS420において、要求されるサマリ・レベルL以下のランクの全てのノードが選択され、出力される。次に、オプショナル・ステップS430において、完成したセンテンスを作成するために句読点が調整され得る。次に、ステップS440において、処理が終了し、制御が呼び出しブラウザに戻る。
【0086】
例示的な実施の形態は、ツリーの構造的な表示に関する要約を記述する。サマリ生成システム200において使用され得るディスコースの他の理論は、テキストの異なる構造的表示を提供してもよい。しかしながら、顕著な情報が識別され得る任意の表示的構造が使用され得る。
【0087】
表1は、6つのテキスト・ビルディング・ユニット1−6へセグメントされたテキストの例を示す。テキスト・ビルディング・ユニット・フィールドは、テキスト・ビルディング・ユニットをユーザによってセグメントされたものとして含む。ユーザは、次に、テキスト・ビルディング・ユニットをディスコース・ツリーにリンクするために使用される関連及びノード・フィールドを見ると共にインターアウトする。
【表1】
【0088】
タイプ・フィールドは、エントリ(入力)"He walked into the kitchen"(彼はキッチンに歩いて入った)に対するテキスト・ビルディング・ユニット・タイプの割当てを示す。これは、コンテンツ・テキスト・ビルディング・ユニットである。種々の例示的な実施の形態において、タイプ割当ては、セルのカーソルを位置決めし、マウスをクリックすることによって実行される。コンテンツ、変更子、又は演算子のタイプの割当てが選択され得る、条件付きドロップ・ダウン選択リストが現れる。テキスト・ビルディング・ユニット・タイプの割当てが行われたとき、ファイルが保存される。
【0089】
必要に応じて補正や更なる見直しが行われた後、テキスト・ビルディング・ユニットはディスコースの構造的表示へ挿入され得る。逐次的テキスト・ビルディング・ユニット毎に、次のテキスト・ビルディング・ユニットとディスコース・ツリー内で挿入ポイントとして作用するテキスト・ビルディング・ユニットとの間の関連フィールド内の関係を指定することもある。上述された構築された関連ノードやノード・フィールドを用いると、次のテキスト・ビルディング・ユニットに対する可能挿入ポイントのドロップ・ダウン・リストをユーザに提供することによって、次のテキスト・ビルディング・ユニットをディスコース・ツリーに容易に挿入することができる。いくつかのケースにおいて、逐次的テキスト・ビルディング・ユニットは、兄弟としてディスコース・ツリー上で既に互いに関連づけられたテキスト・ビルディング・ユニットによって実行されるアクティビティを拡張し得る。この場合、入りテキスト・ビルディング・ユニットが次の同胞としての現存ノード下に付加される。
【0090】
図6は、表1に示されるテキスト・ビルディング・ユニットの例示的なリストに対する例示的なディスコース・ツリーを示す。このツリーも英語によるテキスト・サマリ・ジェネレータによって生成される各ノードのランクを有する。第1のテキスト・ビルディング・ユニットは、「1−6」とラベル付けされた調整ノードによって第2のテキスト・ビルディング・ユニットにリンクされる。これによって、テキスト・ビルディング・ユニットの各々が、0(ゼロ)、即ち、親ノードのランクに割当てられる。従属ノード、"He apologized to his wife" (彼は妻に詫びた)は、従属ノード「3−4」の親ノードのランクを継承する。しかしながら、従属ノードのランク、"He had to visit his mother"(彼は母親のところに行かなければならなかった)は、1つインクリメントされた親ノードのランクに割当てられる。同様に、従属ノード、"His mother likes him to come by"(彼の母親は彼が訪れてくるのを好んだ) のランクは、2つインクリメントされる。
【0091】
このように、サマリ・レベル0(ゼロ)に対しては、ディスコース・ツリーを要約して、"John came in through the back door. He walked into the kitchen. He apologized to his wife for being late. His wife said she didn't mind"(ジョンは裏口から入った。彼はキッチンへ歩いて入った。彼は遅れたことを妻に詫びた。妻はいいのよといった。)が生成される。これらのテキスト・ビルディング・ユニットは選択されたサマリ・レベルよりも高くランク付けされるので、サマリは、従属を表示しない。このように、生成されたサマリは、チューナブル・サマリ・ディスプレイ・フォーマットにおいて最も顕著な情報を提供する。ディスプレイ・サイズが限定されない場合、ユーザは、次に、サマリ・レベルPが所望され、テキストが重要度とぴったり合うように表示されるように指定し得る。
【0092】
図7は、本発明によるサマリ・レベル0(ゼロ)を有するテキストのサマリの例示的な実施の形態である。選択されたサマリ・レベル0(ゼロ)以下のランクを有するノードのみが表示される。オリジナル・テキストは6行含んでいた。しかしながら、生成されたレベル0(ゼロ)のサマリは4行しか含んでおらず、このサマリは、実質的にテキストの意味に影響を与えることなく、2行を取り除いた。
【0093】
図8は、特定用途向けHTMLタグによって符号化されるディスコースの増補構造的表示の例示的な実施の形態である。即ち、HTMLタグ「ディスコース・コネクティブ」と「ディスコース・ユニット」は、HTTPウェブ・サーバ120、プロキシ・サーバ110、又はウェブ使用可能(Web-enabled)デバイス140又は150内のプラグ・イン・コード、アプレット・コード若しくは専用ブラウザによって、解釈される。HTML/XMLスタンダードは、ブラウザが未知のHTML/XMLタグを無視すべきであることを指示する。従って、タグを処理することが不可能であるデバイスはこれらのタグを単純に無視し、ディスプレイはフル・テキスト・ディスプレイのタグ処理を怠る。しかしながら、特定用途向けHTML/XMLタグを解釈することができるデバイスの場合は、HTMLページは、ディスコースの増補構造的表示のコンパクトな符号化を提供する。上述のように、ディスコースの増補構造的表示によって、デバイスのディスプレイ・サイズ専用のチューナブル・テキスト・サマリ・ディスプレイを生成するために、ウェブ・サーバ120、プロキシ・サーバ110、又はプラグ・イン又はアプレット・コードを有するウェブ使用可能デバイス140又は150が許容される。HTMLタグ・エレメント・ネームは、記述的であるにすぎない。理想的には、HTMLタグ・ネームは、読者に構造についてのなんらかの理解をもたらす。しかしながら、システム内のデバイス間にインター・オペラビリティ(相互間操作性)を提供するために同一のHTMLタグ・ネームがディスコースの全ての増補構造的表示内で使用される限り、専用ネームが、例示的な実施の形態のHTMLタグ・ネームと一致する必要はない。
【0094】
図9は、HTMLコメント・タグ“<!--”及び“-->”によって符号化されるディスコースの構造的表示の例示的な実施の形態である。しかしながら、コメント・タグ内のディスコースの増補構造的表示の符号化は、バンド幅の必要条件を削減しクライアント・デバイスへのページの引渡しの速さを増すためにいくつかのプロキシ・サーバが全てのコメント・タグを剥ぎ取るように試みることから、不利となり得る。図8の例示的な実施の形態は、ランク情報の明示的な符号化を示す。ランク情報の明示的な符号化及び調整は、調整されたランク情報を保持することが必要となり、ウェブ・ページ・デザイナーにとって更なるメンテナンスが必要となるので、不利と成り得る。しかしながら、ある環境においては、ランク情報の調整は適切であることもある。従って、ランク情報の符号化は、明示的なランク情報タグをディスコースの増補構造的表示に付加することによって達成され得る。例えば、HTMLページは、PHP、サン・マイクロシステム社(Sun Microsystem)のJava server Pages (ジャバ・サーバ・ページ)(登録商標)及びMicrosoft(マイクロソフト社)のASP(登録商標)等のスクリプト言語によってHTMLテンプレート内の併合フィールドへ置換されたデータベース・レコードからの情報に基づいて動的に生成され得る。ディスコースの増補構造的表示は、各データベース・レコードがテキストに置換される毎に変化し得る。例えば、ウェブ・ベースのカタログ・システムは、置換されたデータベース併合フィールドに隣接するスタティック・テキストを含むこともある。「プライシング(価格設定)」、「シッピング用語」及び「アイテム記述」は、データベース併合フィールド・プライス、シッピング、及び記述に隣接するように配置され得る。このようなページのセグメンテーション(分割)は、特定のデータベース・レコードの置換に基づくことができる。しかしながら、記述フィールド等のレコード同士間で有効に変化するデータベース・フィールドは、オーサ(作成者)によって符号化されるHTMLページのための対応するディスコースの増補構造的表示を変更する。HTMLページ・デザイナは明示的に記述フィールドのランクを符号化して、情報は「+」の場所ホルダによって置換される。これにより、ユーザは、望み通りに、より詳細な記述情報を検索することができる。
【0095】
テキスト・サマリ生成システム200が、プログラムされた汎用コンピュータ上で実施され得ることを理解されたい。しかしながら、テキスト・サマリ生成システム200は、専用コンピュータ、プログラムされたマイクロプロセッサ又はマイクロコントローラ、周辺集積回路エレメント、ASIC(特定用途向け集積回路)又は他の集積回路、ディジタル信号プロセッサ、ディスクリート・エレメント回路等のハードワイヤード電子又は論理回路、PLD(プログラムド・ロジック・デバイス)、PLA(プログラムド・ロジック・アレイ)、FPGA(フィールド・プログラマブル論理アレイ)、又はPAL(プログラマブル・アレイ・ロジック)等のプログラマブル論理デバイス他でも実施され得る。概して、図3乃至図5に示されるフローチャートの一つ以上を順番に実施することが可能な有限状態のマシンを実施することができる任意のデバイスをテキスト・サマリ生成システム200を実施するために使用することができる。
【0096】
テキスト・サマリ生成システム200の処理回路又はルーチンが、回路又はルーチンを有するテキスト・サマリ生成システム200のコンポーネントのいくつか又はすべてが、ネットワーク化された協調環境を介して分散されたり中央に配置され得る協調ネットワーク環境で使用され得ることは明らかである。環境にはウェブ・サーバ、アプリケーション・サーバ、又は任意の他のコンピュータ・システムが含まれる。テキスト・サマリ生成システム200は、一般に、単独、又は、任意数の他の汎用プログラマブル又は専用コンピュータ又はコンポーネントと組み合わされて、ネットワーク化された協調環境、クライアント・サーバ環境、及びウェブ・ベース環境を含む任意のタイプの環境において、使用され得る。
【0097】
変更及び変形が当業者に理解されるであろう。従って、上述されているように、本発明の例示的な実施の形態は、図示のみを目的としており、それらの例に限定することを意図するものではない。本発明の精神及び範囲を逸脱することなく、種々の変更することができるものである。
【図面の簡単な説明】
【図1】図1は、本発明の例示的な実施の形態のブロック図である。
【図2】図2は、本発明によるサマリ・ジェネレータの例示的な実施の形態のブロック図である。
【図3】図3は、本発明によるディスコースの増補構造的表示を生成するために書き込まれたテキストを解析する方法の一つの例示的な実施の形態を概略的に示すフローチャートである。
【図4】図4は、本発明によるテキスト・サマリを生成する方法の一つの例示的な実施の形態を概略的に示すフローチャートである。
【図5】図5は、本発明による指定されたサマリ・レベルのためのチューナブル・テキスト・サマリを表示する方法の一つの例示的な実施の形態を概略的に示すフローチャートである。
【図6】図6は、本発明によるテキストのディスコース増補構造的表示の一つの例示的な実施の形態を示す図である。
【図7】図7は、本発明によるサマリレベル0(ゼロ)に対するテキストのサマリの一つの例示的な実施の形態を示す図である。
【図8】図8は、本発明によるHTMLを用いて符号化されたテキストの増補構造的表示の一つの例示的な実施の形態を示す図である。
【図9】図9は、本発明によるHTML内のコメントタグを用いて符号化されたテキストの増補構造的表示の一つの例示的な実施の形態を示す図である。
【符号の説明】
200 サマリ生成システム
210 入力/出力インタフェース
236 メモリ
230 コントローラ
231 テキスト部
232 セグメント部
233 テキストビルディング部
Claims (6)
- 所定の談話解析理論による解析を行うように設定されたテキスト解析手段が、サマリ生成手段及び表示手段を含み、ドキュメントに含まれるテキストを、前記所定の談話解析理論に基づいて、調整ノード、従属ノード、バイナリ・ノードのいずれか1つに対応付けられた最小有効ユニットに分割すると共に、前記各最小有効ユニットを解析して、該テキストに関するチューナブル・テキスト・サマリを生成する方法であって、
前記サマリ生成手段が、当該談話解析理論に基づいて各最小有効ユニットに対応するノードが調整ノード、従属ノード、バイナリ・ノードのいずれか1つであると解析して、解析された前記最小有効ユニットに基づいて、各最小限ユニットに対応するノードのランクを割り当てると共に前記最小有効ユニットがノードにリンクされたツリー構造を生成することでサマリを生成するステップを実行し、
前記表示手段が、当該ドキュメントのサマリが表示されるディスプレイのサイズに基づいて決定され該ツリー構造での表示対象とするランクを表すサマリレベルに基づいて、選択された前記最小有効ユニットを前記ディスプレイに表示するときのサマリとして選択的に表示するステップを実行し、
前記ディスプレイに表示するときのサマリを選択的に表示するステップが、更に、前記テキストのツリー構造のランクのうち表示対象とするランクのサマリレベルが選択されるステップと、該テキストのツリー構造のうちルート・ノードから選択されたサマリレベルのノードまでにリンクされた前記最小有効ユニットを表示するステップと、を備えることで前記ディスプレイに表示される前記サマリのレベルを調整可能とした、
チューナブル・テキスト・サマリ生成方法。 - 前記サマリを生成するステップが、
ルート・ノードを識別し、前記ルート・ノードにランクを割り当てるステップと、
ノードにランクが割り当てられる毎に、ランクの割り当てられたノード対するチャイルド・ノードを選択するステップと、を更に備え、
前記ランクを割り当てるステップが、選択された各チャイルド・ノードが調整ノード又はバイナリ・ノードである場合に各チャイルド・ノードに親ノードのランクを割り当て、選択された各チャイルド・ノードが従属ノードである場合に各チャイルド・ノードに親ノードのランクを割り当て、前記親ノードのランクを1つインクリメントして、当該インクリメントされたランクを前記従属ノードに割り当てる、
請求項1に記載のチューナブル・テキスト・サマリ生成方法。 - 前記テキストが1組の置換フィールドを含む動的ページであり、テキストの分割が前記置換フィールドに対する1組の値を含むテキストをベースとする、
請求項1に記載のチューナブル・テキスト・サマリ生成方法。 - テキストを含むドキュメントを保持するメモリと、
所定の談話解析理論によるテキスト解析を行うように設定され、該ドキュメントに含まれるテキストを、前記所定の談話解析理論に基づいて、調整ノード、従属ノード、バイナリ・ノードのいずれか1つに対応付けられた最小有効ユニットに分割すると共に、前記各最小有効ユニットに対応するノードが調整ノード、従属ノード、バイナリ・ノードのいずれか1つであると解析し、解析された前記最小有効ユニットに基づいて、各最小限ユニットに対応するノードのランクを割り当てると共に前記最小有効ユニットがノードにリンクされたツリー構造を生成することで、該テキストに関するサマリを生成するサマリ生成回路と、
当該ドキュメントのサマリが表示されるディスプレイのサイズに基づいて決定され該ツリー構造での表示対象とするランクを表すサマリレベルに基づいて、選択された前記最小有効ユニットを前記ディスプレイに表示するときのサマリとして前記ディスプレイに選択的に表示させるコントローラと、を備え、
前記コントローラが、更に、前記テキストのツリー構造のランクのうち表示対象とするランクのサマリレベルが選択されるユニットを備え、該テキストのツリー構造のうちルート・ノードから前記選択ユニットで選択されたサマリレベルのノードまでにリンクされた前記最小有効ユニットを表示することで、前記ディスプレイに表示される前記サマリレベルを調整可能とした、
システム。 - 前記サマリ生成回路が、ルート・ノードを識別し、前記ルート・ノードにランクを割り当て、ノードにランクが割り当てられる毎に、ランクの割り当てられたノード対するチャイルド・ノードを選択し、選択された各チャイルド・ノードが調整ノード又はバイナリ・ノードである場合に各チャイルド・ノードに親ノードのランクを割り当て、選択された各チャイルド・ノードが従属ノードである場合に各チャイルド・ノードに前記親ノードのランクを割り当て、前記親ノードのランクをインクリメントした後に、当該インクリメントされたランクを前記従属ノードに割り当てる、
請求項4に記載のチューナブル・テキスト・サマリを生成するシステム。 - 前記テキストが1組の置換フィールドを含む動的ページであり、テキストの分割が前記置換フィールドに対する1組の値を含むテキストをベースとする、
請求項4に記載のチューナブル・テキスト・サマリを生成するシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US68977900A | 2000-10-13 | 2000-10-13 | |
US689779 | 2000-10-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002123419A JP2002123419A (ja) | 2002-04-26 |
JP4172164B2 true JP4172164B2 (ja) | 2008-10-29 |
Family
ID=24769859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001123950A Expired - Fee Related JP4172164B2 (ja) | 2000-10-13 | 2001-04-23 | チューナブル・テキスト・サマリ生成方法及びシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4172164B2 (ja) |
-
2001
- 2001-04-23 JP JP2001123950A patent/JP4172164B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002123419A (ja) | 2002-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4162209B2 (ja) | 視聴覚障害を有するユーザのアクセシビリティを向上させるためのhtml文書におけるアクティブaltタグ | |
CN1146818C (zh) | Web服务器和处理Web页面请求以及显示HTML页面的方法 | |
KR100461019B1 (ko) | 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법 | |
JP4202041B2 (ja) | 入力モードバイアスを適用するための方法およびシステム | |
JP3924102B2 (ja) | ファイルをカスタマイズする方法および情報処理システム | |
US8775930B2 (en) | Generic frequency weighted visualization component | |
Denoue et al. | An annotation tool for Web browsers and its applications to information retrieval. | |
JP4587634B2 (ja) | ブラウザ内で文書の一部分を拡大する方法、装置、およびプログラム | |
JP4189875B2 (ja) | 密集したハイパーリンクを含む領域を再フォーマットする方法 | |
US6988135B2 (en) | Method and system for specifying a cache policy for caching web pages which include dynamic content | |
US7058944B1 (en) | Event driven system and method for retrieving and displaying information | |
US20030164848A1 (en) | Method and apparatus for summarizing content of a document for a visually impaired user | |
US20020016801A1 (en) | Adaptive profile-based mobile document integration | |
US20020018078A1 (en) | System, method, and article of manufacture for generating a customizable network user interface | |
US8301615B1 (en) | Systems and methods for customizing behavior of multiple search engines | |
US20050102612A1 (en) | Web-enabled XML editor | |
US6941509B2 (en) | Editing HTML DOM elements in web browsers with non-visual capabilities | |
CN1573749A (zh) | 使用外部计划主题的Web网页绘制机制 | |
JP2000066868A (ja) | 表示可能情報信号を適応させる装置および方法 | |
JP2006053926A (ja) | 小型スクリーンコンピューティング装置にコンテンツを表示するシステムと方法 | |
JP2003050766A (ja) | 複数のイメージ解像度を通じてウェブ・イメージにアクセスする方法、装置およびプログラム | |
JP2010518521A (ja) | クライアントデバイスに表示する情報コンテンツを提供する方法及び装置 | |
US7437663B2 (en) | Offline dynamic web page generation | |
US20080282150A1 (en) | Finding important elements in pages that have changed | |
US20020152064A1 (en) | Method, apparatus, and program for annotating documents to expand terms in a talking browser |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040909 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080507 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080722 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080804 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110822 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120822 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120822 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130822 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |