JP4214598B2 - 文書処理方法および装置ならびに記録媒体 - Google Patents
文書処理方法および装置ならびに記録媒体 Download PDFInfo
- Publication number
- JP4214598B2 JP4214598B2 JP03155099A JP3155099A JP4214598B2 JP 4214598 B2 JP4214598 B2 JP 4214598B2 JP 03155099 A JP03155099 A JP 03155099A JP 3155099 A JP3155099 A JP 3155099A JP 4214598 B2 JP4214598 B2 JP 4214598B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- display area
- sentence
- setting
- activity value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/048—Indexing scheme relating to G06F3/048
- G06F2203/04803—Split screen, i.e. subdividing the display area or the window area into separate subareas
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Controls And Circuits For Display Device (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の属する技術分野】
本発明は、文書を処理する文書処理方法および装置ならびに文書を処理する文書処理プログラムが記録された記録媒体、詳しくは、文書の要約を表示する要約ウィンドウのサイズに応じて要約を生成するような文書処理方法および装置ならびに記録媒体に関する。
【0002】
【従来の技術】
従来、インターネットにおいて、ウィンドウ形式でハイパーテキスト型情報を提供するアプリケーションサービスとしてWWW(World Wide Web)が提供されている。
【0003】
WWWは、文書の作成、公開または共有化の文書処理を実行し、新しいスタイルの文書の在り方を示したシステムである。しかし、文書の実際上の利用の観点からは、文書の内容に基づいた文書の分類や要約といった、WWWを越える高度な文書処理が求められている。このような高度な文書処理には、文書の内容の機械的な処理が不可欠である。
【0004】
しかしながら、文書の内容の機械的な処理は、以下のような理由から依然として困難である。第1に、ハイパーテキストを記述する言語であるHTML(Hyper Text Markup Language)は、文書の表現については規定するが、文書の内容についてはほとんど規定しない。第2に、文書間に構成されたハイパーテキストのネットワークは、文書の読者にとって文書の内容を理解するために必ずしも利用しやすいものではない。第3に、一般に文章の著作者は読者の便宜を念頭に置かずに著作するが、文書の読者の便宜が著作者の便宜と調整されることはない。
【0005】
このように、WWWは新しい文書の在り方を示したシステムであるが、文書を機械的に処理しないために、高度な文書処理を行うことができなかった。換言すると、高度な文書処理を実行するためには、文書を機械的に処理することが必要となる。
【0006】
そこで、文書の機械的な処理を目標として、文書の機械的な処理を支援するシステムが自然言語研究の成果に基づいて開発されている。自然言語研究による文書処理の最初のステップとして、文書の著作者等による文書の内部構造についての属性情報、いわゆるタグの付与を前提とした、文書に付与されたタグを利用する機械的な文書処理が提案されている。
【0007】
ところで、ユーザは、たとえばいわゆるサーチエンジンのような情報検索システムを利用して、インターネットを介して提供される膨大な情報から、所望の情報を探し出すようにしている。この情報検索システムは、指定されたキーワードに基づいて情報を検索し、検索した情報をユーザに提供するシステムである。ユーザは、提供された情報から、所望の情報を選択する。
【0008】
このように、容易に情報を検索することができるが、ユーザは、情報検索システムにより、提供された情報を一読し、概略を理解して、それが希望するものであるか否かを判断しなければならない。この作業は、特に、提供された情報の量が多いとき、ユーザにとって大きな負担となる。そこで、最近、テキスト情報、すなわち文書の内容を自動的に要約するシステム、いわゆる、自動要約作成システムが注目されている。
【0009】
自動要約作成システムは、元の情報、すなわち文書の大意を保持したまま、テキスト情報の長さ、複雑さを減らすことにより、要約を作成するシステムであり、ユーザは、その要約を一読することで、文書の概略を理解することができる。
【0010】
通常、自動要約作成システムは、テキスト中の文や単語を一つの単位とし、それに何らかの情報を基に重要度を付与し、順序付けする。そして、上位に順序付けられた文や単語が寄せ集められて、要約が作成される。
【0011】
【発明が解決しようとする課題】
このように、自動要約作成システムにより、文書から容易に要約を作成することは可能だが、従来、自動要約作成システムにより作成される要約の情報量は、文書の情報量や、重要度の設定方法などにより決定されていた。例えば、要約が簡略すぎて、文書の概略を把握できないとき、ユーザは、より詳細な要約を参照することができない。
【0012】
本発明は、上述の実情に鑑みて提案されるものであって、ユーザの要求に対応した要約を作成し、提供することができるような文書処理方法および装置、ならびにユーザの要求に対応した要約を作成し、提供することができるような文書処理プログラムが記録された記録媒体を提供することを目的とする。
【0013】
【発明を解決するための手段】
上述の課題を解決するために、本発明に係る文書処理方法は、複数の要素から構成される階層化された内部構造を有し当該内部構造がタグ付けによる属性情報によって記述された電子文書を処理する文書処理装置の文書処理方法において、設定手段が、上記電子文書の一部又は全体の要約を表示する表示領域の全表示領域内における大きさを設定する設定工程と、決定手段が、上記設定工程で設定された表示領域の大きさに基づいて要約の長さを決定する決定工程と、作成手段が、上記決定工程で決定された決定に対応して、上記表示領域内におさまるように上記タグを参照して上記電子文書の要約を作成する作成工程と、上記作成手段が備える重み付け設定手段が、上記電子文書の上記タグ付けによる内部構造に応じた中心活性値を各要素に重み付けとして設定する重み付け設定工程と、制御手段が、上記作成工程で作成された要約を、上記重み付け設定工程で設定された重みに基づいて上記表示領域に表示させるように制御する制御工程と、変更手段が、変更操作の入力に応じて上記表示領域を変更する変更工程とを有し、上記重み付け設定工程では、上記重み付け設定手段が、上記要素間の関連性に応じた値を上記中心活性値として上記要素毎に算出する活性拡散処理を行うことにより、上記中心活性値を設定するものである。
【0014】
本発明に係る文書処理装置は、複数の要素から構成される階層化された内部構造を有し当該内部構造がタグ付けによる属性情報によって記述された電子文書を処理する文書処理装置において、上記電子文書の一部又は全体の要約を表示する表示領域の全表示領域内における大きさを設定する設定手段と、上記設定手段で設定された表示領域の大きさに基づいて要約の長さを決定する決定手段と、上記決定手段で決定された決定に対応して、上記表示領域内におさまるように上記タグを参照して上記電子文書の要約を作成する作成手段と、上記作成手段が備え、上記電子文書の上記タグ付けによる内部構造に応じた中心活性値をその各要素に重み付けとして設定する重み付け設定手段と、上記作成手段で作成された要約を、上記重み付け設定手段で設定された重みに基づいて上記表示領域に表示させるように制御する制御手段と、変更操作の入力に応じて上記表示領域を変更する変更手段とを有し、上記重み付け設定手段は、上記要素間の関連性に応じた値を上記中心活性値として上記要素毎に算出する活性拡散処理を行うことにより、上記中心活性値を設定するものである。
【0015】
本発明に係る記録媒体は、複数の要素から構成される階層化された内部構造を有し当該内部構造がタグ付けによる属性情報によって記述された電子文書を処理する文書処理をコンピュータに実行させる文書処理プログラムが記録された記録媒体であって、上記文書処理プログラムは、設定手段が、上記電子文書の一部又は全体の要約を表示する表示領域の全表示領域内における大きさを設定する設定工程と、決定手段が、上記設定工程で設定された表示領域の大きさに基づいて要約の長さを決定する決定工程と、作成手段が、上記決定工程で決定された決定に対応して、上記表示領域内におさまるように上記タグを参照して上記電子文書の要約を作成する作成工程と、上記作成手段が備える重み付け設定手段が、上記電子文書の上記タグ付けによる内部構造に応じた中心活性値を、その各要素に重み付けとして設定する重み付け設定工程と、制御手段が、上記作成工程で作成された要約を、上記重み付け設定工程で設定された重みに基づいて上記表示領域に表示させるように制御する制御工程と、変更手段が、変更操作の入力に応じて上記表示領域を変更する変更工程とを有し、上記重み付け設定工程では、上記重み付け設定手段が、上記要素間の関連性に応じた値を上記中心活性値として上記要素毎に算出する活性拡散処理を行うことにより、上記中心活性値を設定するものである。
【0016】
【発明の実施の形態】
以下、図面を参照して、本発明に係る文書処理方法および装置ならびに記録媒体の実施の形態について説明する。
【0017】
本発明の実施の形態としての文書処理装置は、図1に示すように、制御部11およびインターフェース12を備える本体10と、ユーザからの入力を受け付けて本体10に送る入力部20と、外部からの信号を受信して本体10に送る受信部21と、サーバ24と本体10との通信を処理する通信部22と、本体10からの出力を表示する表示部30と、記録媒体32に対して情報を記録/再生する記録/再生部31と、ハードディスク33とを有している。
【0018】
本体10は、制御部11およびインターフェース12を有し、この文書処理装置の主要な部分を構成している。制御部11は、この文書処理装置における処理を集中して実行するCPU13と、揮発性のメモリであるRAM14と、不揮発性のメモリであるROM15とを有している。CPU13は、たとえばROM14に記録された手順にしたがって、必要な場合にはデータを一時的にRAM14に格納して、プログラムを実行するための制御を行う。インターフェース12には、入力部20、受信部21、通信部23、表示部30、記録/再生部31およびハードディスク33が接続される。インターフェース12は、制御部11からの制御の下に、入力部20および受信部21からのデータの入力、表示部30へのデータの送信について、データを送信するタイミングを調整したり、データの形式を変換したりする。
【0019】
入力部20は、この文書処理装置に対するユーザの入力を受け付ける部分である。この入力部20は、たとえばキーボードやマウスにより構成される。ユーザは、この入力部20を用い、キーボードによりキーワードを入力したり、マウスにより表示部30に表示されているテキスト情報である文書のエレメントを選択して入力したりすることができる。ここで、エレメントとは文書を構成する要素であって、たとえば文書、文および語が含まれる。
【0020】
受信部21は、この文書処理装置に外部からたとえば通信回線を介して送信される信号を受信する部分である。この受信部21は、たとえば電子文書である複数の文書を受信する。受信部21は、受信したデータを本体10に送る。
【0021】
通信部17は、たとえばモデム、ターミナルアダプタなどにより構成され、電話回線を介してインターネット23に接続され、インターネット23に接続されているサーボ24にアクセスし、そこからデータを受信することができるようになされている。
【0022】
出力部30は、この文書処理装置からの出力結果を表示するものである。この出力部30は、たとえば陰極線管(cathode ray tube;CRT)や液晶表示装置(liquid crystal display;LCD)から構成され、たとえば単数または複数のウィンドウを表示し、このウィンドウ上に文字、図形等を表示したりする。
【0023】
記録/再生部31は、この文書処理装置の制御部11の制御の下に、たとえばいわゆるフロッピーディスクのような記録媒体32に対して情報の記録/再生を行う。記録媒体32には、たとえばユーザが文書中の任意の部分の重要性を上げるアルゴリズムが記録されている。なお、この記録媒体32についてはさらに後述する。ハードディスク33は、大容量の磁気記録媒体であって、データの記録に用いられる。
【0024】
次に、上述のように構成される文書処理装置の動作について説明する。ユーザが入力部15を操作し、インターネット21を介して通信を行うためのプログラムを起動し、サーバ24(サーチエンジン)のURL(Uniform Resource Locator)を入力すると、制御部11は通信部22を制御し、サーバ24にアクセスさせる。このときサーバ24は、インターネット23を介して文書処理装置の通信部22に、検索画面のデータを出力する。CPU13はこのデータを表示部30に出力し、表示させる。ユーザがこの検索画面上で所定のキーワードなどを入力し、検索を指令すると、通信部22から電話回線、インターネット23を介して、サーチエンジンとしてのサーバ34に検索命令が送信される。
【0025】
サーバ24は、検索命令を受けると、この検索命令を実行し、得られた検索結果をインターネット23を介して通信部22に送信する。制御部11は、通信部21を制御し、サーバ23からの検索結果を受信させ、その一部を表示部30に表示させる。いまの場合、サーバ23からは、「TCP」のキーワードを含む各種の情報が送信され、表示部16には、下記に示すような、文書が表示される。
【0026】
「TCP/IP(Transmission Control Protocol/Internet Protocol)の歴史は、北米の、いや世界のコンピュータネットワークの歴史であるといっても過言ではない。そしてそのTCP/IPの歴史は、ARPANETを抜きにして語ることはできない。ARPANETは正式名称をAdvanced Research Project Agency Network(高等研究計画局ネットワーク)といい、アメリカ国防省DOD(Department of Defence)の国防高等研究計画局(DARPA:Defence Advanced Reserch Project Agency)がスポンサーとなって構築されてきた、実験および研究用のパケット交換ネットワークである。1969年北米西海岸の4箇所の大学、研究機関のホストコンピュータを50kbpsの回線で結んだきわめて小規模なネットワークからARPANETは出発した。
【0027】
当時は1945年に世界初のコンピュータであるENIACがペンシルベニア大学で開発され、1964年にはじめてICを理論素子として実装し、第3世代のコンピュータの歴史を形成したIBMの360シリーズが開発され、やっとコンピュータが産声をあげたばかりあった。この時代背景を考えると、将来のコンピュータ通信の最盛を見越したこのようなプロジェクトは、まさに米国ならではのものであったといえるだろう。」
この文書は、その内部構造をタグ付けによる属性情報によって記述されている。文書処理装置における文書処理は、文書に付与されたタグを参照して行われる。本実施の形態においては、文書の構造を示す統語論的タグとともに、多言語間で文書の機械的な内容理解を可能にするような意味的・語用論的タグを文書に付与している。
【0028】
本実施の形態においては、統語論的なタグ付けとしては、文書のツリー状の内部構造を記述するタグ付けがある。すなわち、本実施の形態においては、図2に示すように、このタグ付けによる内部構造、文書、文、語彙エレメント等の各エレメント、通常リンク、参照・被参照リンク等が、タグとしてあらかじめ文書に付与されている。図中において、白丸“○”は文書の要素すなわちエレメントであり、最下位の白丸は文書における最小レベルの語に対応する、語彙エレメントである。また、実線は語、句、節、文等の文書の構造を示す通常リンク(normal link )である。破線は参照・被参照による係り受け関係を示す参照リンク(reference link)である。文書のタグ付けによる内部構造は、上位から下位への順序で、文書(document)、文書の下位であり段落の上位であるオプションのサブディビジョン(subdivision )、オプションの段落(paragraph)、文(sentence )、文の下位であるサブセンテンシャルセグメント(subsentential segment )、・・・、最下位の語彙エレメントのような階層構造である。
【0029】
本実施の形態においては、意味論・語用論的なタグ付けとしては、係り受け、たとえば代名詞の指示対象、多義語の意味のように統語(syntactic)・意味(semantic)等の情報を記述するタグ付けがある。本実施の形態においては、このようなタグ付けは、HTML(Hyper Text Markup Language)と同様にXML(Extended Markup Language)の形式のタグである。
【0030】
文章のタグ付けによる内部構造の一例を次に示すが、文章へのタグ付けはこの方法に限られないことはもちろんである。
【0031】
たとえば、“Time flies like an arrow.”という文については、
<文><名詞句 語義=“time0”>time</名詞句>
<動詞句><動詞 語義=“fly1”>flies</動詞>
<形容動詞句><形容動詞 語義=like0>like</形容動詞> <名詞句>an <名詞 語義=“arrow0”>arrow</名詞></名詞句>
</形容動詞句></動詞句>.</文>
というようにタグ付けすることができる。ここで<文>、<名詞>、<名詞句>、<動詞>、<動詞句>、<形容動詞>、<形容動詞句>は、それぞれ一文、名詞、名詞句、動詞、動詞句、前置詞句、後置詞句を含む形容詞/形容詞句、形容詞句/形容動詞句のような文の統語構造(syntactic structure )を表している。タグは、エレメントの先端の前および終端の後に対応して配置される。ここでは、エレメントの終端の後ろに配置されるタグは、記号“/”により、文書の最小単位の要素、すなわちエレメントの終端であることを示している。このエレメントは統語的構成素、すなわち句、節、および文を示す。なお、語義=time0は、語timeの有する複数の意味、すなわち複数の語義のうちの第0番目の意味を指している。具体的には、timeには名詞と動詞があるが、ここではtimeが名詞であることを示している。たとえば、語“オレンジ”は色と果物の意味があるが、これらも語義によって区別することができる。
【0032】
先に図2で説明したような文書のタグ付けは、図3のウインドウ101に示すように、その統語構造を表示することができる。このウインドウ101においては、右半分103が語彙エレメントを、左半分102が文の構造を示している。
【0033】
このウィンドウ101には、タグ付けされた次に示すような文書が表示されている。この文書においても、タグによって統語構造が記述されている。次に示す文書は、「A氏のB会が終わったC市で、一部の大衆紙と一般紙がその写真報道を自主規制する方針を紙面で明らかにした。」についてのタグ付けによる内部構造を示すものである。
<文書><文><形容動詞句 関係=“場所”><名詞句><形容動詞句 場所=“C市”>
<形容動詞句 関係=“主語”><名詞句 識別子=“B会”><形容動詞句 関係 “位置”>A氏の</形容動詞句>B会</名詞句>が</形容動詞句>
終わった</形容動詞句><地名 識別子=“C市”>C市</地名></名詞句>で、</形容動詞句><形容動詞句 関係=“主語”><名詞句 識別子=新聞" 統語=“並列”><名詞句><形容動詞句>一部の</形容動詞句>大衆紙</名詞句>と<名詞>一般紙</名詞></名詞句>が</形容動詞句> <形容動詞句 関係=“目的語”><形容動詞句 関係=“内容” 主語=“新聞”><形容動詞句 関係=“目的語”><名詞句><形容動詞句><名詞 共参照=“B”>そ</名詞>の</形容動詞句>写真報道</名詞句>を</形容動詞句>
自主規制する</形容動詞句>方針を</形容動詞句>
<形容動詞句 関係=“場所”>紙面で</形容動詞句>
明らかにした。</文></文書>
この文章においては、「一部の大衆紙と一般紙」のように、統語=“並列” は並列を表す。並列の定義は、係り受け関係を共有すると言うことである。特に何も指定がない場合は、たとえば、<名詞句 関係=x><名詞>A</名詞><名詞>B</名詞></名詞句> はAがBに依存関係のあることを表す。また、関係=x はこの<名詞句>エレメントの関係属性を表している。
【0034】
続いて、タグ付けにおける、統語、意味、修辞についての相互関係を記述する関係属性について説明する。
【0035】
主語、目的語、間接目的語のような文法機能、動作主、被動作者、受益者などのような主題役割、および理由、結果などのような修辞関係はこの関係属性によって表示する。関係属性は関係=*** という形で表される。本実施の形態では、比較的容易な文法機能、すなわち、主語、目的語、間接目的語のような文における当該語の機能について関係属性を記述する。
【0036】
次に、上述のようにタグ付けされた文書を要約する方法について説明する。最初に図4で概略的な流れを示し、後述する図6で詳細に説明する。上記のような文書が表示部30に表示されている状態において、ユーザがその文書の要約を作成したい場合には、入力部20を操作し、自動要約作成モードを指令する。制御部11は、この指令が入力されたときに図4のステップを実行する。
【0037】
はじめに、ステップS1において、制御部11は、ハードディスク33に保存されている自動要約作成プログラムを起動し、表示部30を制御し、図5に示すような自動要約作成プログラムの初期画面を表示させる。この例においては、表示部30に表示されたウィンドウ100は、ドキュメント名表示部101、キーワード入力部102、および実行ボタン103が表示されている表示領域110(上側)、文書が表示される表示領域120(中央)、そして文書の要約が表示される表示領域130(下側)に区分されている。
【0038】
表示領域110のドキュメント名表示部101には、表示領域120に表示される文書のドキュメント名などが表示される。キーワード入力部102には、キーワードが入力される。キーワードがキーワード入力部102に入力されると、そのキーワードに対応した、文書の要約が作成される。実行ボタン103が、オンされると、表示領域120に表示されている文書の要約作成処理が実行される。
【0039】
表示領域120には、文書が表示される。いまの場合、上記した文書が表示領域120に表示される。ユーザは、入力部15を操作して、入手した文書の一部を選択し、それを要約することもできるし、また文章全体を要約することもできる。なお、表示領域120において、表示領域120の右端および下側に設けられている矢印を操作することにより、表示を縦方向または横方向にスクロールすることができる。
【0040】
表示領域130には、要約が表示される。現在、要約は作成されていないので、表示領域130には、何も表示されていない。ユーザは、入力部15を操作して、表示領域130の表示範囲(大きさ)を変更することができる。図5には、表示範囲が広げられた表示領域130が表されている。
【0041】
次に、ステップS2において、ユーザが入力部20を操作し、表示領域110の実行ボタン103をオンすると、ステップS3において、制御部11は、所定の規則に基づいて、文書の中の文または単語などをエレメント、すなわち要素として、エレメントそれぞれに重要度を付与して、その重要度とともにRAM14に供給し、記憶させる。重要度の設定方法には、例えば、Zechnerが提案する、単語にtf*idf法で重み付し、文中に出現する単語の重みの総和を文の重要度とする方法や活性拡散を用いる方法などがある。前者の詳細は、下記に示す文献に説明されている。
【0042】
K.Zechner. Fast generation of abstracts from general domain text corpora by extracting relevant sentences. In Proc. of the 16th International Conference on Computational Linguistics, pp.986-989,1996
本実施の形態においては、重要度として、後述するような活性拡散に基づいた中心活性値を採用することにする。
【0043】
なお、重要度の設定方法は、上記した方法以外の方法を利用することもできる。また、表示領域110のキーワード入力部102にキーワードを入力することにより、そのキーワードに基づいた重要度の設定を行うことができる。
【0044】
ステップS4において、制御部11は、表示領域130の表示範囲の大きさを測定し、ステップS5において、その測定結果と予め指定された文字の大きさに基づいて、表示領域130に表示される要約の長さ(例えば、文字数)を決定する。決定された文字数以内であれば、要約は表示領域130を超えて表示されない。
【0045】
次に、ステップS6において、制御部11は、作成される要約が、ステップS5で決定された文字数を超えないように、RAM13から、重要度の高い順に文または単語を選択する。
【0046】
ステップS7において、制御部11は、ステップS6で選択された文または単語をつなぎ合わせて、要約を作成し、表示部16の表示領域130に表示させる。
【0047】
このようにして、例えば、下記に示すような要約が、表示領域130に表示される。
【0048】
「TCP/IPの歴史は、ARPANETを抜きにして語ることはできない。ARPANETは1969年北米西海岸の4箇所の大学、研究機関のホストコンピュータを50kbpsの回線で結んだ小規模なネットワークからARPANETは出発した。当時は1964年にIBMの360シリーズが開発された。この時代背景を考えると、将来のコンピュータ通信の最盛を見越したこのようなプロジェクトは、まさに米国ならではのものであったといえるだろう。」
ユーザは、文章を一読する代わりに、上記の要約を読み、文章の概要を理解し、文章が所望する情報であるか否かを判定することができる。
【0049】
続いて、要約を作成する処理の図4に示すものより詳細の制御を含む例について図6に示すフローチャートを参照して詳細に説明する。この一連の工程は、ステップS2において実行ボタン103をオンすることによって開始される。
【0050】
文書から要約を作成する処理は、文書のタグ付けによる内部構造に基づいて実行される。上述したように、ウィンドウ100において要約を表示する表示領域130のサイズは変更することができる。文書処理装置の制御部11は、新たにウィンドウ101が表示部30のウィンドウ100に描画されるか表示領域130のサイズが変更され、実行ボタン103が操作されたときには、表示領域130に適合するようにウィンドウ100の表示領域120に表示されている文書から要約を作成する処理を実行する。
【0051】
図6の最初のステップS20では、文書処理装置の制御部11は、活性拡散を行う。本実施の形態においては、活性拡散により得られた中心活性値を重要度として採用することにより、文書の要約を行う。すなわち、タグ付けによる内部構造を与えられた文書においては、活性拡散と呼ばれる処理を行うことにより、各エレメントにタグ付けによる内部構造に応じた中心活性値を付与することができる。活性拡散は、中心活性値の高いエレメントと関わりのあるエレメントにも高い中心活性値を与えるような処理である。すなわち、活性拡散は、照応(共参照)表現とその先行詞の間で中心活性値が等しくなり、それ以外では中心活性値が減衰するような中心活性値についての演算である。この中心活性値は、タグ付けによる内部構造に応じて決定されるので、タグ付けによる内部構造を考慮した文書の分析に利用することができる。
【0052】
なお、このステップS20は、ステップS3の重要度付与に対応している。ここでの重要度とは、中心活性値である。
【0053】
活性拡散は、図7のフローチャートに示す一連の行程にしたがって、文書処理装置の制御部11の制御の下に実行される。
【0054】
最初のステップS31では、制御部11は、各エレメントの初期化を行う。制御部11は、語彙エレメントを除いたすべてのエレメントと語彙エレメントに対して中心活性値の初期値を割り当てる。たとえば、中心活性値の初期値として語彙エレメントを除いたすべてのエレメントに1を、語彙エレメントに零を、それぞれ割り当てればよい。また、制御部11は、各エレメントの中心活性値の初期値に均一ではない値を割り当てることにより、活性拡散の結果得られた中心活性値の初期値の偏りを反映することができる。例えば、ユーザが安心を有するエレメントに対しては、中心活性値の初期値を高く設定することにより、ユーザの関心を反映した中心活性値を得ることができる。
【0055】
参照・被参照関係のエレメントを連結する参照・被参照リンクと、通常リンクに関しては、エレメントを連結するリンクの端点の端点活性値を零に設定する。制御部11は、このようにして付与した端点活性値の初期値をたとえばRAM14に記録する。
【0056】
ステップS32においては、文書処理装置の制御部11は、図8に示すように、文書を構成するエレメントEiを計数するカウンタの初期化を行う。すなわち、エレメントを計数するカウンタのカウント値iを1に設定する。すなわち、このカウンタは、第1番目のエレメントE1を参照している。
【0057】
この図8においては、文書を構成するエレメントとリンクの構造の一部として、エレメントEiおよびエレメントEjが示されている。エレメントEiとエレメントEjとは、中心活性値eiおよびejをそれぞれ有し、リンクLijにて接続されている。リンクLijのエレメントEiに接続する端点はTij、エレメントEjに接続する端点はTjiである。エレメントEiは、リンクLijにより接続されるエレメントEjの他に、リンクLik、LilおよびLimによって図示しないエレメントEk、ElおよびEmにそれぞれ接続している。エレメントEjは、リンクLjiにより接続されるエレメントEiの他に、リンクLjp、LjqおよびLjrによって図示しないエレメントEp、EqおよびErにそれぞれ接続している。
【0058】
ステップS33においては、文書処理装置の制御部11は、カウンタが参照するエレメントについて、新たな中心活性値を計算するリンク処理を実行する。このリンク処理については、さらに後述する。
【0059】
ステップS34においては、文書処理装置の制御部11は、文書中のすべてのエレメントについて新たな中心活性値の計算が完了したか否かを判断する。そして、制御部11は、文書中のすべてのエレメントについて新たな中心活性値の計算が完了したときには“YES”としてステップS35に処理を進め、文書中のすべてのエレメントについて中心活性値の計算が完了していないときには“NO”としてステップS36に処理を進める。
【0060】
具体的には、制御部11は、カウンタのカウント値iが、文書の含むエレメントの総数に達したか否かを判断する。そして、制御部11は、カウンタのカウント値iが文書に含まれるエレメントの総数に達したときには、すべてのエレメントが計算済みとしてステップS35に処理を進め、カウンタのカウント値iが文書に含まれるエレメントの総数に達していないときにはすべてのエレメントについて計算が終了していないとしてステップS37に処理を進める。
【0061】
ステップS37においては、文書処理装置の制御部11は、カウンタのカウント値iを1増加させて、カウンタのカウント値をi+1とする。このことにより、カウンタはi+1番目のエレメント、すなわち次のエレメントを参照する。そして、処理はステップS32に戻り、端点活性値の計算およびこれに続く一連の行程が、次のi+1番目のエレメントについて実行される。
【0062】
具体的には、制御部11は、エレメントを計数するカウンタのカウント値iを1増加する。このことにより、カウンタはステップS32で中心活性値が計算された次のエレメントを参照することになる。
【0063】
ステップS35においては、文書処理装置の制御部11は、文書に含まれるすべてのエレメントの中心活性値の変化分、すなわち新たに計算された中心活性値の元の中心活性値に対する変化分について、文書に含まれるすべてのエレメントについて平均値を計算する。
【0064】
文書処理装置の制御部11は、たとえばRAM14に記録された元の中心活性値と新たに計算した中心活性値を、文書に含まれるすべてのエレメントについて読み出す。制御部11は、新たに計算した中心活性値の元の中心活性値に対するそれぞれの変化分の総和を文書に含まれるエレメントの総数で除することにより、すべてのエレメントの中心活性値の変化分の平均値を計算する。制御部11は、このように計算したすべてのエレメントの中心活性値の変化分の平均値を、たとえばRAM14に記録する。
【0065】
ステップS36においては、制御部11は、ステップS35で計算したすべてのエレメントの中心活性値の変化分の平均値が、予め設定された閾値以内であるか否かを判断する。そして、制御部11は、上記変化分が閾値以内であると“YES”としてこの一連の行程を終了する。上記制御部11は、上記変化分が閾値以内でないときには“NO”として、ステップS32にてカウンタのカウント値iを1に設定して文書のエレメントの中心活性値を計算する一連の行程を再び実行する。この一連の行程にて構成されるステップS32からステップS36に至るループが繰り返される毎に上記変化分は徐々に減少する。
【0066】
続いて、ステップS33にて実行される中心活性値を計算するリンク処理について、図9に示すフローチャートを参照して説明する。
【0067】
ステップS51においては、文書処理装置の制御部11は、文書を構成するエレメントEjを計数するカウンタの初期化を行う。すなわち、エレメントを計数するカウンタのカウント値jを1に設定する。すなわち、このカウンタは、第1番目のエレメントEjを参照している。
【0068】
ステップS52においては、エレメントEiとEjを接続するリンクLijにおいては、制御部11は、タグを参照することにより、そのリンクLijが通常リンクであるか否かを判断する。制御部11は、リンクLijについて、そのリンクが、語に対応する語彙エレメント、文に対応する文エレメント、段落に対応する段落エレメントなどの間の関係を示す通常リンクと、参照・被参照による係り受けの関係を示す参照リンクのいずれであるかを判断する。制御部11は、そのリンクが通常リンクのときには“YES”としてステップS53に処理を進め、そのリンクが参照リンクのときには“NO”としてステップS54に処理を進める。
【0069】
ステップS53においては、通常リンクLijに対して、接続された端点の新たな端点活性値を計算する処理が行われる。この端点活性値の計算について、図9を参照して説明する。
【0070】
ここでは、ステップS52における判別により、リンクLijは通常リンクであることが明らかになっている。通常リンクLijを介してエレメントEiに接続される端点Tijの新たな端点活性値tijは、エレメントEiの端点活性値のうち、リンクLij以外のリンクに接続するすべての端点の端点活性値tik、tilおよびtimと、このエレメントEiがリンクLijにより接続されるエレメントEjの中心活性値ejを加算し、この加算で得た値を文書に含まれるエレメントの総数で除することにより求められる。
【0071】
エレメントEiの端点Tijの端点活性値は、端点Tijを一端とするリンクLijが通常リンクの場合、リンクLijの他端が接続されているエレメントEjの端点の端点活性値のうちそのリンクLijと接続されている端点Tjiを除いたすべての端点の端点活性値、およびそのリンクLijが接続されるエレメントEjの中心活性値ejの和を文書全体に含まれるエレメントの総数で除することにより得られる。このような手順により、活性拡散における中心活性値の収束が保証されることになる。
【0072】
文書処理装置の制御部11は、たとえばRAM14に記録されたデータから、必要な端点活性値および中心活性値を読み出す。制御部11は、読み出された端点活性値および中心活性値について、上述のようにその通常リンクと接続された端点の端点活性値を計算する。そして制御部11は、このように計算した新たな端点活性値を、たとえばRAM14に記録する。
【0073】
ステップS54においては、参照リンクに対して、そのリンクの端点の端点活性値を計算する処理が行われる。
【0074】
ステップS52における判別により、リンクLijは参照リンクであることが明らかになっている。通常リンクLijに関して、エレメントEiに接続する端点Tijの端点活性値tijは、このリンクLijを除いたエレメントEiに接続するすべてのリンクLik、LilおよびLimの端点活性値tik、tilおよびtimと、このエレメントEiがリンクLijにより接続するエレメントEjの中心活性値ejを加算することにより求められる。
【0075】
エレメントEiの端点Tijの端点活性値は、端点Tijを一端とするリンクLijが参照リンクの場合、リンクLijの他端が接続されているエレメントEjの端点の端点活性値のうちそのリンクLijと接続されている端点Tjiを除いたすべての端点の端点活性値、およびそのリンクLijが接続されるエレメントEjの中心活性値ejの和を取ることにより得られる。
【0076】
文書処理装置の制御部11は、たとえばRAM14に記録されたデータから、必要な端点活性値および中心活性値を読み出す。制御部11、読み出された端点活性値および中心活性値を用いて、上述のように参照リンクと接続された端点の新たな端点活性値を計算する。そして制御部11は、このように計算した端点活性値を、たとえばRAM14に記録する。
【0077】
ステップS53における通常リンクの処理、およびステップS54における参照リンクの処理は、ステップS52からステップS56のループにあるように、カウントのカウント値iにより参照されているエレメントEiに接続するすべてのエレメントEjについてのリンクLijに対して実行される。
【0078】
ステップS55においては、文書処理装置の制御部11は、ステップS53またはステップS54での処理に基づいて、エレメントEiの端点活性値を計算する。制御部11は、この計算により得られた端点活性値をたとえばRAM14に記録する。
【0079】
ステップS56においては、エレメントEiに接続するすべてのリンクについて端点活性値tijが計算されたか否かが判別される。そして、すべてのリンクについて端点活性値が計算されているときには“YES”としてステップS57に進み、すべてのリンクについて端点活性値が計算されていないときには“NO”としてステップS58に進む。
【0080】
ステップS57においては、S56にてエレメントEiのすべてのリンクLijについて端点活性値tijが求められたことが判別されたので、エレメントEiの中心活性値eiの更新を実行する。
【0081】
エレメントEiの中心活性値eiの新たな値すなわち更新値は、エレメントEiのすべての端点の端点活性値との和ei’=ei+Σtj’を取ることにより求められる。ここで、“’”は、新たな値という意味である。このように、新たな活性値は、各エレメントにリンクを介して接続する端点の端点活性値の総和を元の活性値に加えることにより得られる。
【0082】
文書処理装置の制御部11は、たとえばRAM14に記録されたデータから必要な端点活性値tijを読み出す。制御部11は、上述したような計算を実行し、そのエレメントEiの中心活性値eiを算出する。そして、制御部11は、計算した新たな中心活性値eiをたとえばRAM14に記録する。
【0083】
活性拡散の結果を用いて、図6においては、上述したステップS20に続いてステップS21では、文書処理装置の制御部11は、表示部30に表示されているウィンドウ51の文書処理部53のサイズ、具体的にはこの文書処理部53に表示可能な最大文字数をwsと設定する。また、文書処理装置の制御部11は、要約の文字列を格納するsを初期化して初期値s0=””と設定する。制御部11は、このように設定した、文書表示部53に表示可能な最大文字数wsおよび要約の文字列を格納するsの初期値s0を、たとえばRAM14に記録する。
【0084】
なお、このステップS21は、ステップS4での表示領域30の表示範囲の測定と、ステップS4での要約文の総文字数の決定に対応している。すなわち、このステップS21では、測定の結果、表示可能な最大文字数wsが与えられている。
【0085】
ステップS22では、文書処理装置の制御部11は、要約の骨格の順次の作成をカウントするカウンタのカウント値iを零に設定する。すなわち、制御部11は、カウント値について、i=0と設定する。制御部11は、このように設定したカウント値iをたとえばRAM14に記録する。
【0086】
ステップS23では、文書処理装置の制御部11は、カウンタのカウント値iについて、文章からi番目に平均中心活性値の高い文の骨格を抽出する。平均中心活性値とは、一つの文を構成する各エレメントの中心活性値を平均したものである。制御部11は、たとえばRAM14に記録した要約を格納するsi-1を読み出し、このsi-1に対して抽出した文の骨格の文字列を加えて、siとする。そして、制御部11は、このようにして得たsiを、たとえばRAM14に記録する。同時に、制御部11は、上記文の骨格に含まれないエレメントの中心活性値順のリストliを作成し、このリストliをたとえばRAM14に記録する。
【0087】
すなわち、このステップS23においては、要約のアルゴリズムは、活性拡散の結果を用いて、平均中心活性値の大きい順に文を選択し、選択された文の骨格の抽出する。文の骨格は、文から抽出した必須要素により構成される。必須要素になりうるのは、エレメントの主辞(head)と、主語(subject)、目的語(object)、間接目的語(indirect object)、所有者(posessor)、原因(cause)、条件(condition)または比較(comparison)の関係属性を有する要素と、等位構造が必須要素のときにはそれに直接含まれるエレメントとが必須要素を構成するものである。そして、文の必須要素をつなげて文の骨格を生成し、要約に加える。
【0088】
ステップS24では、文書処理装置の制御部11は、siの長さがウィンドウ51の要約表示部54の最大文字数wsより大きいか否かを判断する。そして、制御部11は、siの長さが最大文字数wsより大きいときには“YES”としてこの一連の処理を終了する。制御部は、siの長さが最大文字数wsより大きくないときには“NO”として処理をステップS25に進める。すなわち、このステップS24においては、要約が指定された分量に達したときは終了する。まだ余裕がある場合は、次に中心活性値の高い文と省略したエレメントの中心活性値を比較して、高いほうを要約に加えるものである。
【0089】
ステップS29では、文書処理装置の制御部11は、ステップS24でsiの長さが最大文字数wsより大きいと判断されたので、要約をsi-1に設定する。この場合、要約はウィンドウにおさまらないのでsi=s0=“”を出力する。したがって、このときには要約は表示されないこととなる。そして、制御部11は、この一連の工程を終了する。
【0090】
ステップS25では、文書処理装置の制御部11は、i+1番目に平均中心活性値が中心活性値と、ステップS23で作成したリストliの要素の最も中心活性値が高い要素の中心活性値を比較する。そして、制御部11は、i+1番目に平均中心活性値が高い文の中心活性値がリストliの要素の最も中心活性値が高い要素の中心活性値より高いときには“YES”として処理を次のステップS27に進める。制御部11は、i+1番目に平均中心活性値が高い文の中心活性値がリストliの要素の最も中心活性値が高い要素の中心活性値より高くないときには“NO”として処理をステップS26に進める。
【0091】
ステップS26では、文書処理装置の制御部11は、カウンタのカウント値iを1だけ増加させる。そして、制御部11は、処理をステップS23に戻す。
【0092】
ステップS27においては、文書処理装置の制御部11は、リストliの最も中心活性値の高い要素eをsiに加えてssiを生成する。eをliから削除する。そして、制御部11は、このようにして生成したssiをたとえばRAM14に記録する。
【0093】
なお、このステップS27を中心として、ステップS22からステップS28までが、重要度の高い順から文または単語を選択するステップS6に対応している。すなわち、ステップS22からステップS28にいたるステップにより、重要度、すなわち中心活性値の順に文または単語が選択される。
【0094】
ステップS28においては、文書処理装置の制御部11は、ssiの長さがウィンドウ51の要約表示部54の最大文字数wsより大きいか否かを判別する。制御部11は、ssiの長さがwsより大きいときには“YES”としてこの一連の工程を終了する。制御部11は、ssiの長さがwsより大きくないときには“NO”として処理をステップS25に戻す。
【0095】
ステップS30においては、文書処理装置の制御部11は、ステップS28でSSiの長さが最大文字数wsより大きいと判断されたので、要約文をsiに設定する。これにより、最大文字数wsより大きくならないように要約文が生成される。そして、制御部11は、この一連の工程を終了する。
【0096】
なお、ステップS29およびステップS30は、要約を定義するので、要約の作成および表示をおこなうステップS7の一部に対応している。
【0097】
次に、図5に示したような要約が表示部30に表示されたウィンドウ100の表示領域130に表示されている状態において、その要約の情報量を変更する場合の制御部11の動作を、図10のフローチャートを参照して説明する。
【0098】
ステップS61において、制御部11は、ユーザの入力部20の操作に対応して、表示部30に表示されたウィンドウの表示領域130の表示範囲が変更されるまで待機し、表示領域130の表示範囲が変更されると、ステップS62に進み、その表示範囲を確保するとともに測定する。
【0099】
以下、ステップS63乃至S65で行われる処理は、図4のステップS5乃至7で行われる処理と同様の処理であり、表示領域130の表示範囲に対応した要約文が作成され、処理が終了する。例えば、マウスのドラッグ操作により表示領域130の表示範囲が広げられると、下記に示すような、より詳細な要約文が作成され、図11に示すウィンドウ100の表示領域(下側)130に表示される。
【0100】
「TCP/IPの歴史は、ARPANETを抜きにして語ることはできない。ARPANETは、アメリカ国防省DODの国防高等研究計画局がスポンサーとなって構築されてきた、実験および研究用のパケット交換ネットワークである。1969年北米西海岸の4箇所の大学、研究機関のホストコンピュータを50kbpsの回線で結んだきわめて小規模なネットワークからARPANETは出発した。当時は1945年に世界初のコンピュータであるENIACがペンシルベニア大学で開発され、1964年にはじめてICを理論素子として実装したIBMの360シリーズが開発され、やっとコンピュータが産声をあげたばかりあった。この時代背景を考えると、将来のコンピュータ通信の最盛を見越したこのようなプロジェクトは、まさに米国ならではのものであったといえるだろう。」
このように、表示された要約文が簡略すぎて、文書の概略を把握することができない場合、ユーザは、表示領域130の表示範囲を広げることで、より多くの情報量を有するより詳細な要約文を参照することができる。
【0101】
次に、本発明を適用した記録媒体の実施の形態について説明する。この記録媒体32は、複数のエレメントから構成される階層化された内部構造を有し、内部構造に関するタグによる属性情報が付与された電子文書を処理する文書処理プログラムが記録された記録媒体である。この文書処理プログラムは、記電子文書の要約を表示する表示領域を確保する確保処理と、上記確保処理で確保された表示領域の大きさに基づいて要約の長さを決定する決定処理と、決定処理による決定に対応して、電子文書の要約を作成する作成処理と、作成処理で作成された要約を、表示領域に表示させるように制御する制御処理とを有する。
【0102】
そして、上記作成処理は、電子文書の内部構成に基づいてその各要素に重み付けを設定する重み付け設定処理と、重み付け設定処理で設定された重み付けに基づいて、電子文書に重み付けを配分するように演算する重み付け演算処理と、電子文書を構成する文について、重み付け演算処理での演算の結果に基づいて、文を構成する要素の重み付けの平均の重み付けが大きな順序で文を選択する文選択処理と、文選択処理で選択された文から必須構成要素を抽出する必須構成要素抽出処理と、上記必須構成要素抽出処理で抽出した必須構成要素を接続して文の骨格を生成する文骨格生成処理と、文骨格生成処理で生成した文の骨格を要約として出力する出力処理とを有する。ここで、必須要素抽出処理においては、要素の主辞(head)と、主語(subject)、目的語(object)、間接目的語(indirect object)、所有者(posessor)、原因(cause)、条件(condition)または比較(comparison)の関係属性を有する要素と、等位構造が必須のときにはそれに直接含まれる要素とが必須要素を構成する。
【0103】
なお、上記出力処理は、上記文骨格生成処理で生成した文の骨格と、上記文選択処理で選択された文を構成する必須構成要素以外の要素とのいずれかを要約として出力することもできる。
【0104】
また、記録媒体32は、文書の要約を、所定の表示領域に表示させる文書処理プログラムが記録された記録媒体であって、上記文書処理プログラムは、上記文書の要約を表示する上記表示領域の大きさを測定する測定処理と、上記測定処理により測定された上記表示領域の大きさに基づいて、上記要約の長さを決定する決定処理と、上記決定処理による決定に対応して、上記文書の要約を作成する要約作成処理と、上記要約作成処理により作成された上記要約を、上記表示領域に表示させるように表示を制御する制御処理とを有するものである。
【0105】
なお、上記したような処理を行うコンピュータプログラムをユーザに提供する提供媒体としては、磁気ディスク、CD-ROM、固体メモリなどの記録媒体の他、ネットワーク、衛星などの通信媒体を利用することができる。
【0106】
なお、上記例においては、インターネットを介して入手した文書について説明したが、これだけではなく、例えばフロッピーディスクから取り出された文書にも適用でき、文書の要約文を作成することができる。
【0107】
なお、本実施の形態においては、文書へのタグ付けの方法の一例を示したが、本発明がこのタグ付けの方法に限定されないことはもちろんである。また、本実施の形態においては、文書処理装置の受信部21に外部から文書が送信されるとしたが、本発明はこれに限定されない。たとえば、上記文書は、文書処理装置のROM13に書き込まれていたり、記録/再生部31において記録媒体32から読み出されてもよい。
【0108】
また、上述の実施の形態においては、ポインティングデバイスの一例としてマウスを例示した。しかし、本実施の形態におけるポインティングデバイスはマウスに限定されることはな。本実施の形態においては、ポインティングデバイスとして、たとえばスタイラスペンも利用することができる。
【0109】
【発明の効果】
本発明によれば、表示領域の表示範囲に対応して要約文を作成し、表示するようにしたので、ユーザの要求に対応した要約文を提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態を適用した文書処理装置の概略的な構成を示すブロック図である。
【図2】文書のタグによる内部構造を示す図である。
【図3】文書のタグによる内部構造を表示したウィンドウを示す図である。
【図4】要約作成の処理のフローチャートである。
【図5】文書とその要約を表示したウィンドウを示す図である。
【図6】要約作成処理の一部を詳細に示す図である。
【図7】活性拡散の処理のフローチャートである。
【図8】活性拡散の処理を説明する図である。
【図9】活性拡散のリンク処理を示す図である。
【図10】表示領域の変更を示す図である。
【図11】文書とその要約を表示したウィンドウを示す図である。
【符号の説明】
10 本体、11 制御部、12 インターフェース、13 CPU、20 入力部、21 受信部、22 通信部、30 表示部、31 記録/再生部、32 ハードディスク
Claims (6)
- 複数の要素から構成される階層化された内部構造を有し当該内部構造がタグ付けによる属性情報によって記述された電子文書を処理する文書処理装置の文書処理方法において、
設定手段が、上記電子文書の一部又は全体の要約を表示する表示領域の全表示領域内における大きさを設定する設定工程と、
決定手段が、上記設定工程で設定された表示領域の大きさに基づいて要約の長さを決定する決定工程と、
作成手段が、上記決定工程で決定された決定に対応して、上記表示領域内におさまるように上記タグを参照して上記電子文書の要約を作成する作成工程と、
上記作成手段が備える重み付け設定手段が、上記電子文書の上記タグ付けによる内部構造に応じた中心活性値を、その各要素に重み付けとして設定する重み付け設定工程と、
制御手段が、上記作成工程で作成された要約を、上記重み付け設定工程で設定された重みに基づいて上記表示領域に表示させるように制御する制御工程と、
変更手段が、変更操作の入力に応じて上記表示領域を変更する変更工程とを有し、
上記重み付け設定工程では、上記重み付け設定手段が、上記要素間の関連性に応じた値を上記中心活性値として上記要素毎に算出する活性拡散処理を行うことにより、上記中心活性値を設定する文書処理方法。 - 上記作成工程では、
重み付け演算手段が、上記重み付け設定工程で設定された重み付けに基づいて、上記電子文書に重み付けを配分するように演算する重み付け演算工程と、
文選択手段が、上記電子文書を構成する文について、上記重み付け演算工程での演算の結果に基づいて、上記文を構成する要素の重み付けの平均の重み付けが大きな順序で文を選択する文選択工程と、
必須構成要素抽出手段が、上記文選択工程で選択された文から必須構成要素を抽出する必須構成要素抽出工程と、
文骨格生成手段が、上記必須構成要素抽出工程で抽出した必須構成要素を接続して文の骨格を生成する文骨格生成工程と、
出力手段が、上記文骨格生成工程で生成した文の骨格を要約として出力する出力工程とを有する請求項1記載の文書処理方法。 - 上記必須要素抽出工程においては、要素の主辞(head)と、主語(subject)、目的語(object)、間接目的語(indirect object)、所有者(posessor)、原因(cause)、条件(condition)または比較(comparison)の関係属性を有する要素と、等位構造が必須のときにはそれに直接含まれる要素とが必須要素を構成する請求項2記載の文書処理方法。
- 上記出力工程では、上記出力手段が、上記文骨格生成工程で生成した文の骨格に、上記文選択工程で選択された文の要素であって、上記文骨格生成工程で生成された文の骨格以外で最も重み付けの大きい要素をさらに加えて要約として出力する請求項2記載の文書処理方法。
- 複数の要素から構成される階層化された内部構造を有し当該内部構造がタグ付けによる属性情報によって記述された電子文書を処理する文書処理装置において、
上記電子文書の一部又は全体の要約を表示する表示領域の全表示領域内における大きさを設定する設定手段と、
上記設定手段で設定された表示領域の大きさに基づいて要約の長さを決定する決定手段と、
上記決定手段で決定された決定に対応して、上記表示領域内におさまるように上記タグを参照して上記電子文書の要約を作成する作成手段と、
上記作成手段が備え、上記電子文書の上記タグ付けによる内部構造に応じた中心活性値をその各要素に重み付けとして設定する重み付け設定手段と、
上記作成手段で作成された要約を、上記重み付け設定手段で設定された重みに基づいて上記表示領域に表示させるように制御する制御手段と、
変更操作の入力に応じて上記表示領域を変更する変更手段とを有し、
上記重み付け設定手段は、上記要素間の関連性に応じた値を上記中心活性値として上記要素毎に算出する活性拡散処理を行うことにより、上記中心活性値を設定する文書処理装置。 - 複数の要素から構成される階層化された内部構造を有し当該内部構造がタグ付けによる属性情報によって記述された電子文書を処理する文書処理をコンピュータに実行させる文書処理プログラムが記録された記録媒体であって、上記文書処理プログラムは、
設定手段が、上記電子文書の一部又は全体の要約を表示する表示領域の全表示領域内における大きさを設定する設定工程と、
決定手段が、上記設定工程で設定された表示領域の大きさに基づいて要約の長さを決定する決定工程と、
作成手段が、上記決定工程で決定された決定に対応して、上記表示領域内におさまるように上記タグを参照して上記電子文書の要約を作成する作成工程と、
上記作成手段が備える重み付け設定手段が、上記電子文書の上記タグ付けによる内部構造に応じた中心活性値をその各要素に重み付けとして設定する重み付け設定工程と、
制御手段が、上記作成工程で作成された要約を、上記重み付け設定工程で設定された重みに基づいて上記表示領域に表示させるように制御する制御工程と、
変更手段が、変更操作の入力に応じて上記表示領域を変更する変更工程とを有し、
上記重み付け設定工程では、上記重み付け設定手段が、上記要素間の関連性に応じた値を上記中心活性値として上記要素毎に算出する活性拡散処理を行うことにより、上記中心活性値を設定する記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03155099A JP4214598B2 (ja) | 1998-04-02 | 1999-02-09 | 文書処理方法および装置ならびに記録媒体 |
US09/282,349 US7200808B1 (en) | 1998-04-02 | 1999-03-31 | Electronic document processor |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10-89758 | 1998-04-02 | ||
JP8975898 | 1998-04-02 | ||
JP03155099A JP4214598B2 (ja) | 1998-04-02 | 1999-02-09 | 文書処理方法および装置ならびに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11345233A JPH11345233A (ja) | 1999-12-14 |
JP4214598B2 true JP4214598B2 (ja) | 2009-01-28 |
Family
ID=26370036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03155099A Expired - Fee Related JP4214598B2 (ja) | 1998-04-02 | 1999-02-09 | 文書処理方法および装置ならびに記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7200808B1 (ja) |
JP (1) | JP4214598B2 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2368672A (en) * | 2000-04-19 | 2002-05-08 | Ford Global Tech Inc | Online invention disclosure system |
US7069207B2 (en) * | 2001-01-26 | 2006-06-27 | Microsoft Corporation | Linguistically intelligent text compression |
US7610190B2 (en) * | 2003-10-15 | 2009-10-27 | Fuji Xerox Co., Ltd. | Systems and methods for hybrid text summarization |
JP3701294B2 (ja) * | 2004-02-19 | 2005-09-28 | シャープ株式会社 | データ表示装置、データ表示プログラムおよびデータ表示プログラムを記録したコンピュータ読取り可能な記録媒体 |
JP4160548B2 (ja) * | 2004-09-29 | 2008-10-01 | 株式会社東芝 | 文書要約作成システム、方法、及びプログラム |
US7770109B2 (en) * | 2005-12-16 | 2010-08-03 | Microsoft Corporation | Adaptive layout for content |
JP5056810B2 (ja) * | 2009-07-17 | 2012-10-24 | カシオ計算機株式会社 | 情報処理装置およびその制御プログラム |
US9646079B2 (en) | 2012-05-04 | 2017-05-09 | Pearl.com LLC | Method and apparatus for identifiying similar questions in a consultation system |
US9904436B2 (en) | 2009-08-11 | 2018-02-27 | Pearl.com LLC | Method and apparatus for creating a personalized question feed platform |
US9183191B2 (en) | 2009-09-24 | 2015-11-10 | At&T Intellectual Property I, L.P. | Forwarding selected document passages from an electronic reader |
JP2013016106A (ja) * | 2011-07-06 | 2013-01-24 | Kyocera Communication Systems Co Ltd | 要約文生成装置 |
WO2013151322A1 (en) * | 2012-04-06 | 2013-10-10 | Samsung Electronics Co., Ltd. | Method and device for executing object on display |
US9146655B2 (en) | 2012-04-06 | 2015-09-29 | Samsung Electronics Co., Ltd. | Method and device for executing object on display |
US9377937B2 (en) | 2012-04-06 | 2016-06-28 | Samsung Electronics Co., Ltd. | Method and device for executing object on display |
US9275038B2 (en) | 2012-05-04 | 2016-03-01 | Pearl.com LLC | Method and apparatus for identifying customer service and duplicate questions in an online consultation system |
US8280888B1 (en) | 2012-05-04 | 2012-10-02 | Pearl.com LLC | Method and apparatus for creation of web document titles optimized for search engines |
US9501580B2 (en) | 2012-05-04 | 2016-11-22 | Pearl.com LLC | Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website |
JP5884814B2 (ja) * | 2013-11-27 | 2016-03-15 | カシオ計算機株式会社 | 表示処理装置及びプログラム |
JP6200392B2 (ja) * | 2014-09-05 | 2017-09-20 | 日本電信電話株式会社 | 情報提示装置および情報提示プログラム |
US10540439B2 (en) * | 2016-04-15 | 2020-01-21 | Marca Research & Development International, Llc | Systems and methods for identifying evidentiary information |
US20230185954A1 (en) * | 2021-12-15 | 2023-06-15 | Bank Of America Corporation | Transmission of Sensitive Data in a Communication Network |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4864501A (en) | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
JPH01144171A (ja) * | 1987-11-30 | 1989-06-06 | Toshiba Corp | 電子ファイリング装置 |
JP2783558B2 (ja) | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
JPH05242165A (ja) * | 1992-02-28 | 1993-09-21 | Mitsubishi Electric Corp | 画像データベースシステム |
US5384703A (en) | 1993-07-02 | 1995-01-24 | Xerox Corporation | Method and apparatus for summarizing documents according to theme |
US5623679A (en) * | 1993-11-19 | 1997-04-22 | Waverley Holdings, Inc. | System and method for creating and manipulating notes each containing multiple sub-notes, and linking the sub-notes to portions of data objects |
US5963205A (en) * | 1995-05-26 | 1999-10-05 | Iconovex Corporation | Automatic index creation for a word processor |
US5691708A (en) * | 1995-08-14 | 1997-11-25 | Lotus Development Corporation | Text abstraction method and apparatus |
US5867164A (en) * | 1995-09-29 | 1999-02-02 | Apple Computer, Inc. | Interactive document summarization |
JPH09259028A (ja) * | 1996-03-19 | 1997-10-03 | Toshiba Corp | 情報呈示方法 |
US5913215A (en) * | 1996-04-09 | 1999-06-15 | Seymour I. Rubinstein | Browse by prompted keyword phrases with an improved method for obtaining an initial document set |
WO1998047083A1 (en) * | 1997-04-16 | 1998-10-22 | British Telecommunications Public Limited Company | Data summariser |
US6175830B1 (en) * | 1999-05-20 | 2001-01-16 | Evresearch, Ltd. | Information management, retrieval and display system and associated method |
-
1999
- 1999-02-09 JP JP03155099A patent/JP4214598B2/ja not_active Expired - Fee Related
- 1999-03-31 US US09/282,349 patent/US7200808B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7200808B1 (en) | 2007-04-03 |
JPH11345233A (ja) | 1999-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4214598B2 (ja) | 文書処理方法および装置ならびに記録媒体 | |
US7721192B2 (en) | User interface for a resource search tool | |
US5890172A (en) | Method and apparatus for retrieving data from a network using location identifiers | |
JP3703080B2 (ja) | ウェブコンテンツを簡略化するための方法、システムおよび媒体 | |
JP4339554B2 (ja) | 階層データを表示するユーザインタフェースを作成し表示するためのシステムおよび方法 | |
US6785869B1 (en) | Method and apparatus for providing a central dictionary and glossary server | |
WO2001001390A1 (fr) | Trieuse-liseuse electronique | |
JP2002334034A (ja) | コンテンツをクライアントへ提供する方法、装置、及びコンピュータ・プログラム | |
JPH11161682A (ja) | 情報検索装置、情報検索方法及び記録媒体 | |
WO2000043909A1 (fr) | Procede et dispositif de traitement de documents et support d'enregistrement | |
JP3143345B2 (ja) | 文字列検索装置 | |
KR100403947B1 (ko) | 개인용 전자문서를 생성하는 방법, 시스템 및 컴퓨터프로그램 제조물 | |
JP2007025786A (ja) | コンテンツ検索装置、コンテンツ検索プログラムおよびコンテンツ検索方法 | |
JP2806867B2 (ja) | ドキュメントデータベースの構築方法、表示方法、及び表示装置 | |
JP3767763B2 (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2007034960A (ja) | コンテンツ処理装置、コンテンツ処理プログラムおよびコンテンツ処理方法 | |
JP4186321B2 (ja) | 文書処理方法及び装置並びに記録媒体 | |
JP2000099526A (ja) | 文書情報抽出装置 | |
JP2001109762A (ja) | 文書処理方法及び装置並びに記録媒体 | |
JP4320819B2 (ja) | 文書処理方法および装置ならびに記録媒体 | |
JP2000222326A (ja) | 学習支援方法及びシステム及び学習支援プログラムを格納した記憶媒体 | |
JP4000332B2 (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2007133761A (ja) | コンテンツ処理装置、コンテンツ処理プログラムおよびコンテンツ処理方法 | |
JP2001167130A (ja) | 加重値表現構造を含むマルチメディアデータ構造及びマルチメディアディスプレー方法 | |
JP2001043219A (ja) | 文書処理方法及び装置並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080318 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080515 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080811 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081014 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081027 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111114 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |