JP4320819B2 - Document processing method and apparatus, and recording medium - Google Patents

Document processing method and apparatus, and recording medium Download PDF

Info

Publication number
JP4320819B2
JP4320819B2 JP03154899A JP3154899A JP4320819B2 JP 4320819 B2 JP4320819 B2 JP 4320819B2 JP 03154899 A JP03154899 A JP 03154899A JP 3154899 A JP3154899 A JP 3154899A JP 4320819 B2 JP4320819 B2 JP 4320819B2
Authority
JP
Japan
Prior art keywords
document
electronic document
activity value
value
internal structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03154899A
Other languages
Japanese (ja)
Other versions
JP2000231565A (en
Inventor
確 長尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP03154899A priority Critical patent/JP4320819B2/en
Publication of JP2000231565A publication Critical patent/JP2000231565A/en
Application granted granted Critical
Publication of JP4320819B2 publication Critical patent/JP4320819B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、文書を処理する文書処理方法および装置ならびに文書を処理する文書処理プログラムが記録された記録媒体、詳しくは、文書を構成するエレメントの重要度を高めるような文書処理方法および装置ならびに上記エレメントの重要度を高めるようなプログラムが記録された記録媒体に関する。
【0002】
【従来の技術】
従来、インターネットにおいて、ウィンドウ形式でハイパーテキスト型情報を提供するアプリケーションサービスとしてWWW(World Wide Web)が提供されている。
【0003】
WWWは、文書の作成、公開または共有化の文書処理を実行し、新しいスタイルの文書の在り方を示したシステムである。しかし、文書の実際上の利用の観点からは、文書の内容に基づいた文書の分類や要約といった、WWWを越える高度な文書処理が求められている。このような高度な文書処理には、文書の内容の機械的な処理が不可欠である。
【0004】
しかしながら、文書の内容の機械的な処理は、以下のような理由から依然として困難である。第1に、ハイパーテキストを記述する言語であるHTML(Hyper Text Markup Language)は、文書の表現については規定するが、文書の内容についてはほとんど規定しない。第2に、文書間に構成されたハイパーテキストのネットワークは、文書の読者にとって文書の内容を理解するために必ずしも利用しやすいものではない。第3に、一般に文章の著作者は読者の便宜を念頭に置かずに著作するが、文書の読者の便宜が著作者の便宜と調整されることはない。
【0005】
このように、WWWは新しい文書の在り方を示したシステムであるが、文書を機械的に処理しないために、高度な文書処理を行うことができなかった。換言すると、高度な文書処理を実行するためには、文書を機械的に処理することが必要となる。
【0006】
そこで、文書の機械的な処理を目標として、文書の機械的な処理を支援するシステムが自然言語研究の成果に基づいて開発されている。自然言語研究による文書処理の最初のステップとして、文書の著作者等による文書の内部構造についての属性情報、いわゆるタグの付与を前提とした、文書に付与されたタグを利用する機械的な文書処理が提案されている。
【0007】
【発明が解決しようとする課題】
ところで、近年のコンピュータの普及や、ネットワーク化の進展に伴い、文章処理や、文書の内容に依存した索引などで、テキスト文書の作成、要約、ラベル付け、変更などを行う文書処理の高機能化が求められている。このような高機能な文書処理とともに、簡単なユーザインタフェースも求められている。
【0008】
本発明は、上述の実情に鑑みて提案されるものであって、文書の内部構造を構成する要素を選択して重要度を高めるような文書処理方法および装置、ならびに文書の内部構造を構成する要素を選択して重要度を高めるような文書処理プログラムにより、簡単なユーザインターフェースで文書処理を実現することを目的とする。
【0009】
【課題を解決するための手段】
上述の課題を解決するために、本発明に係る文書処理方法は、複数の要素から構成される階層化された内部構造を有し、上記内部構造に関する属性情報がタグ付けによって付与された電子文書を表示する文書処理装置の文書処理方法において、表示手段が上記電子文書を表示する表示工程と、入力手段が、上記表示工程で表示された電子文書を構成する要素を選択し、選択された要素がさらに選択されることに応じて上記内部構造におけるその要素を含む上記階層の上位の要素を当該電子文書において重要度の高い要素として選択するように入力する入力工程と、重み付け設定手段が、上記要素の重要度を示す重み付けを、上記入力工程で選択された要素の上記重み付けが選択されていない要素の上記重み付けに比べて高い値として設定する重み付け設定工程と、要約作成手段が、上記重み付け設定工程で電子文書に設定された重み付けに基づいて上記電子文書の要約を作成する要約作成工程とを有し、上記要約作成工程は、中心活性値演算手段が、上記重み付け設定工程で設定された上記要素の重み付けと、上記電子文書の上記タグ付けによる内部構造における上記要素間の関連性に応じた値からなり上記要素の接続端点に対して付与される端点活性値の総和との合計値を上記電子文書が有する要素の中心活性値として算出する中心活性値演算工程を有し、上記要約作成手段が、上記中心活性値演算工程で算出された中心活性値に基づいて上記電子文書の要約を作成するものである。
【0010】
本発明に係る文書処理装置は、複数の要素から構成される階層化された内部構造を有し、上記内部構造に関する属性情報がタグ付けによって付与された電子文書を表示する文書処理装置において、上記電子文書を表示する表示手段と、上記表示手段で表示された電子文書を構成する要素を選択し、選択された要素がさらに選択されると上記内部構造におけるその要素を含む上記階層の上位の要素を当該電子文書において重要度の高い要素として選択するように入力する入力手段と、上記要素の重要度を示す重み付けを、上記入力手段で選択された要素の上記重み付けが選択されていない要素の上記重み付けに比べて高い値として設定する重み付け設定手段と、上記重み付け設定手段によって電子文書に設定された重み付けに基づいて上記電子文書の要約を作成する要約作成手段とを備え、上記要約作成手段は、上記重み付け設定手段によって設定された上記要素の重み付けと、上記電子文書の上記タグ付けによる内部構造における上記要素間の関連性に応じた値からなり上記要素の接続端点に対して付与される端点活性値の総和との合計値を上記電子文書が有する要素の中心活性値として算出する中心活性値演算手段を備え、上記中心活性値演算手段によって算出された中心活性値に基づいて上記電子文書の要約を作成するものである。
【0011】
本発明に係る記録媒体は、複数の要素から構成される階層化された内部構造を有し、上記内部構造に関する属性情報がタグ付けによって付与された電子文書を表示する処理をコンピュータに実行させるための文書処理プログラムが記録されたコンピュータ読み取り可能な記録媒体であって、上記文書処理プログラムは、上記電子文書を表示する表示処理と、上記表示処理で表示された電子文書を構成する要素を選択し、選択された要素がさらに選択されることに応じて上記内部構造におけるその要素を含む上記階層の上位の要素を当該電子文書において重要度の高い要素として選択するように入力する入力処理と、上記要素の重要度を示す重み付けを、上記入力処理で選択された要素の上記重み付けが選択されていない要素の上記重み付けに比べて高い値として設定する重み付け設定処理と、上記重み付け設定処理で電子文書に設定された重み付けに基づいて上記電子文書の要約を作成する要約作成処理とをコンピュータに実行させるためのプログラムであって、上記要約作成処理は、上記重み付け設定処理で設定された上記要素の重み付けと、上記電子文書の上記タグ付けによる内部構造における上記要素間の関連性に応じた値からなり上記要素の接続端点に対して付与される端点活性値の総和との合計値を上記電子文書が有する要素の中心活性値として算出する中心活性値演算処理を有し、上記中心活性値演算処理で算出された中心活性値に基づいて上記電子文書の要約を作成するものである。
【0012】
【発明の実施の形態】
以下、図面を参照して、本発明に係る文書処理方法および装置ならびに記録媒体の実施の形態について説明する。
【0013】
本発明の実施の形態としての文書処理装置は、図1に示すように、制御部11およびインターフェース12を備える本体10と、ユーザからの入力を受け付けて本体10に送る入力部20と、外部からの信号を受信して本体10に送る受信部21と、本体10からの出力を表示する表示部30と、記録媒体32に対して情報を記録/再生する記録/再生部312とを有している。
【0014】
本体10は、制御部11およびインターフェース12を有し、この文書処理装置の主要な部分を構成している。制御部11は、この文書処理装置における処理を集中して実行するCPU13と、揮発性のメモリであるRAM14と、不揮発性のメモリであるROM15とを有している。CPU13は、たとえばROM14に記録された手順にしたがって、必要な場合にはデータを一時的にRAM14に格納して、プログラムを実行するための制御を行う。インターフェース12には、入力部20、受信部21、表示部31および記録/再生部32が接続される。インターフェース12は、制御部11からの制御の下に、入力部20および受信部21からのデータの入力、表示部30へのデータの送信について、データを送信するタイミングを調整したり、データの形式を変換したりする。
【0015】
入力部20は、この文書処理装置に対するユーザの入力を受け付ける部分である。この入力部20は、たとえばキーボードやマウスにより構成される。ユーザは、この入力部20を用い、キーボードによりキーワードを入力したり、マウスにより表示部30に表示されている文書のエレメントを選択して入力したりすることができる。ここで、エレメントとは文書を構成する要素であって、たとえば文書、文および語が含まれる。
【0016】
受信部21は、この文書処理装置に外部からたとえば通信回線を介して送信される信号を受信する部分である。この受信部21は、たとえば電子文書である複数の文書を受信する。受信部21は、受信したデータを本体10に送る。
【0017】
出力部30は、この文書処理装置からの出力結果を表示するものである。この出力部30は、たとえば陰極線管(cathode ray tube;CRT)や液晶表示装置(liquid crystal display;LCD)から構成され、たとえば単数または複数のウィンドウを表示し、このウィンドウ上に文字、図形等を表示したりする。
【0018】
記録/再生部31は、この文書処理装置の制御部11の制御の下に、たとえばいわゆるフロッピーディスクのような記録媒体32に対して情報の記録/再生を行う。記録媒体32には、たとえばユーザが文書中の任意の部分の重要性を上げるアルゴリズムが記録されている。なお、この記録媒体32についてはさらに後述する。
【0019】
続いて、本実施の形態における文書について説明する。本実施の形態においては、文書は、その内部構造をタグ付けによる属性情報によって記述されている。文書処理装置における文書処理は、文書に付与されたタグを参照して行われる。本実施の形態においては、文書の構造を示す統語論的タグ付けとともに、多言語間で文書の機械的な内容理解を可能にするような意味的・語用論的タグを文書に与えている。
【0020】
本実施の形態においては、統語論的なタグ付けとしては、ツリー状のタグ付けによる内部構造を記述するものがある。すなわち、図2に示すように、本実施の形態においては、このタグ付けによる内部構造、文書、文、語彙エレメント等の各エレメント、通常リンク、参照・被参照リンク等が、タグとしてあらかじめ文書に付与されている。図中において、白丸“○”は文書の要素すなわちエレメントであり、最下位の白丸は文書における最小レベルの語に対応する、語彙エレメントである。また、実線は語、句、節、文等の文書の構造を示す通常リンク(normal link )である。破線は参照・被参照による係り受け関係を示す参照リンク(reference link)である。文書のタグ付けによる内部構造は、上位から下位への順序で、文書(document)、文書の下位であり段落の上位であるオプションのサブディビジョン(subdivision )、オプションの段落(paragraph)、文(sentence )、文の下位であるサブセンテンシャルセグメント(subsentential segment )、・・・、最下位の語彙エレメントのような階層構造である。
【0021】
本実施の形態においては、意味論・語用論的なタグ付けとしては、係り受け、たとえば代名詞の指示対象、多義語の意味のように統語(syntactic)・意味(semantic)等の情報を記述するタグがある。このようなタグ付けは、HTML(Hyper Text Markup Language)と同様にXML(Extended Markup Language)の形式のタグである。
【0022】
文章のタグ付けによる内部構造の一例を次に示すが、文章へのタグ付けはこの方法に限られないことはもちろんである。
【0023】
たとえば、“Time flies like an arrow.”という文については、
<文><名詞句 語義=“time0”>time</名詞句>
<動詞句><動詞 語義=“fly1”>flies</動詞>
<形容動詞句><形容動詞 語義=like0>like</形容動詞> <名詞句>an
<名詞 語義=“arrow0”>arrow</名詞></名詞句>
</形容動詞句></動詞句>.</文>
というようにタグ付けすることができる。ここで<文>、<名詞>、<名詞句>、<動詞>、<動詞句>、<形容動詞>、<形容動詞句>は、それぞれ一文、名詞、名詞句、動詞、動詞句、前置詞句、後置詞句を含む形容詞/形容詞句、形容詞句/形容動詞句のような文の統語構造(syntactic structure )を表している。タグは、エレメントの先端の前および終端の後に対応して配置される。ここでは、エレメントの終端の後ろに配置されるタグは、記号“/”により、文書の最小単位の要素、すなわちエレメントの終端であることを示している。このエレメントは統語的構成素、すなわち句、節、および文を示す。なお、語義=time0は、語timeの有する複数の意味、すなわち複数の語義のうちの第0番目の意味を指している。具体的には、timeには名詞と動詞があるが、ここではtimeが名詞であることを示している。たとえば、語“オレンジ”は色と果物の意味があるが、これらも語義によって区別することができる。
【0024】
先に図2で説明したような文書のタグ付けは、図3のウインドウ101に示すように、その統語構造を表示することができる。このウインドウ101においては、右半分103が語彙エレメントを、左半分102が文の構造を示している。
【0025】
このウィンドウ101には、タグ付けされた次に示すような文書が表示されている。この文書においても、タグによって統語構造が記述されている。次に示す文書は、「A氏のB会が終わったC市で、一部の大衆紙と一般紙がその写真報道を自主規制する方針を紙面で明らかにした。」についてのタグ付けによる内部構造を示すものである。
<文書><文><形容動詞句 関係=“場所”><名詞句><形容動詞句 場所=“C市”>
<形容動詞句 関係=“主語”><名詞句 識別子=“B会”><形容動詞句 関係 “位置”>A氏の</形容動詞句>B会</名詞句>が</形容動詞句>
終わった</形容動詞句><地名 識別子=“C市”>C市</地名></名詞句>で、</形容動詞句><形容動詞句 関係=“主語”><名詞句 識別子=新聞" 統語=“並列”><名詞句><形容動詞句>一部の</形容動詞句>大衆紙</名詞句>と<名詞>一般紙</名詞></名詞句>が</形容動詞句> <形容動詞句 関係=“目的語”><形容動詞句 関係=“内容” 主語=“新聞”><形容動詞句 関係=“目的語”><名詞句><形容動詞句><名詞 共参照=“B”>そ</名詞>の</形容動詞句>写真報道</名詞句>を</形容動詞句>
自主規制する</形容動詞句>方針を</形容動詞句>
<形容動詞句 関係=“場所”>紙面で</形容動詞句>
明らかにした。</文></文書>
この文章においては、「一部の大衆紙と一般紙」のように、統語=“並列” は並列を表す。並列の定義は、係り受け関係を共有すると言うことである。特に何も指定がない場合は、たとえば、<名詞句 関係=x><名詞>A</名詞><名詞>B</名詞></名詞句> はAがBに依存関係のあることを表す。また、関係=x はこの<名詞句>エレメントの関係属性を表している。
【0026】
続いて、タグ付けにおける、統語、意味、修辞についての相互関係を記述する関係属性について説明する。
【0027】
主語、目的語、間接目的語のような文法機能、動作主、被動作者、受益者などのような主題役割、および理由、結果などのような修辞関係はこの関係属性によって表示する。関係属性は関係=*** という形で表される。本実施の形態では、比較的容易な文法機能、すなわち、主語、目的語、間接目的語のような文における当該語の機能について関係属性を記述する。
【0028】
続いて、文書処理装置の表示部30に表示された文書について、文書中のユーザの選択したエレメントの重要度をユーザの操作により高める手順を図4に示すフローチャートを参照して説明する。
【0029】
最初のステップS11においては、制御部11は文書中のエレメントがユーザにより選択されたか否かを判断する。この判断は、ユーザによる入力を受け付けるグラフィックユーザインタフェース(grafic user interface; GUI)を用いた選択により行われる。文書処理装置においては、このGUIとして、図5に示すようなウィンドウ51が表示部30に表示されている。
【0030】
ウィンドウ51は、文書のファイル名を表示するファイル名表示部52と、ファイル名表示部52に表示されたファイル名の文書を表示する文書表示部53と、文書表示部53に表示された文書の要約を表示する要約表示部54を有している。文書表示部53には、ファイル名表示部52にファイル名または文書の先頭部分が表示された文書の全部または一部が表示される。文書表示部53に文書の一部のみが表示されたときには、たとえば文書表示部53に表示されている文書をスクロールすることにより、順次に文書の全体を閲覧することができる。要約表示部53には、この要約表示部54の大きさに対応して、後述する処理によって文書表示部53に表示された文書の要約が表示される。要約表示部53は、また要約が作成されていないので、空白となっている。なお、文書処理部53と要約表示部54のサイズはそれぞれ変更が可能である。このウィンドウ51において取り扱う文書は、たとえば文書処理装置の受信部21で受信されて、記録/再生部31やRAM14に記録されたものである。
【0031】
また、このウインドウ51は、キーワードを入力するキーワード入力部55と、複数のボタンを有するボタン部56とを有している。キーワード入力部55には、キーワードを入力することにより、文書表示部54に表示された語のうちでキーワードと関連度の高い語の重要度が高められる。ボタン部56には、実行した結果をもとに戻す“アンドゥ(Undo)”ボタンと、文書表示部53に表示された文章を要約して要約表示部54に表示する処理を実行する“要約(summarize)”ボタンとを備えている。このうち、“要約”ボタンを選択することにより、たとえば要約表示部54のサイズが変更されたときにも、新たな要約表示部54の新たなサイズに対応するように文書処理部53に表示されている文書の要約が生成され、生成された要約は要約表示部54に表示される。
【0032】
次に、図4に示すフローチャートを用いて、ユーザが“要約”ボタンを選択することにより、所望のエレメントの重要度を上げる処理を説明する。
【0033】
図4に示すフローチャートにおいて、最初のステップS11では、制御部11は、文書処理装置の表示部30に表示されたウィンドウ51において、文書表示部53に表示された文章中のエレメントがユーザによって選択されたか否かを判断する。文書表示部53中のエレメントを選択して入力する文書処理装置の入力部20としては、ポインティングデバイスを用いて、このポインティングデバイスに連動する表示部30に表示されたカーソルを操作することにより行うことができる。たとえば、ポインティングデバイスとしてマウスを採用した場合には、マウスを操作してカーソルを文書処理部53の所望のエレメントにあわせ、マウスでクリックすることによりそのエレメントを選択する。文書表示部53においてエレメントが選択されると、選択されたエレメントを明瞭に示すために、選択されたエレメントがたとえばハイライト表示される。図6においては、ウィンドウ51の文書表示部53においては、選択された最小のエレメントである語彙エレメント“mainframe”57がハイライト表示されている。要約表示部53は、まだ要約が作成されていないので、空白となっている。制御部11は、このようにしてエレメントが選択されると“YES”として処理を次のステップS12に進める。制御部11は、エレメントが選択されないとき、たとえば所定時間内に入力がなかったり、文書表示部53の文章が表示されている部分以外がマウスによってクリックされたときには、“NO”として再びこのステップS11に処理を戻し、エレメントの入力を待つことにする。なお、以下では、説明の便宜のために入力部20のポインティングデバイスとしてはマウスを利用するものとして説明を進める。
【0034】
ステップS12では、文書処理装置の制御部11は、ステップS11において選択されたが、過去にマウスでクリックすることにより選択された語であるか否かが判断される。制御部11は、そのエレメントが過去にマウスでクリックすることにより選択されたエレメントであるときには“YES”として処理をステップS13に進める。制御部11は、そのエレメントが過去にマウスでクリックすることにより選択されたエレメントでないときには、“NO”として処理をステップS14に進める。
【0035】
ステップS13では、文書処理装置の制御部11は、選択されているエレメントが、文章エレメントであるか否かを判別する。制御部11は、レベルが文章エレメントであるときには“YES”として処理をステップS11に戻す。制御部11は、レベルが文章エレメントでないときには“NO”として処理を次のステップS15に進める。
【0036】
ステップS14では、文書処理装置の制御部11は、レベルを、文書の最小のエレメントであって文書のタグ付けによる内部構造の最下位のエレメントである語彙エレメントに設定する。そして、制御部11は、処理をステップS11に戻す。
【0037】
ステップS15では、文書処理装置の制御部11は、レベルを1増加させる。たとえば、このようにレベルが1増加することにより、ステップS11で選択された語彙エレメント“mainframe”57については、図7に示すように、この語彙エレメントを含む次に大きな上位のエレメント“Big mainframe computers”59が選択され、この部分“Big mainframe computers”59がハイライト表示されることになる。同時に、制御部11は、選択された上位のエレメントの重み付け、すなわち中心活性値を選択されていないエレメントよりも高める。そして、制御部11は、処理をステップS11に戻す。
【0038】
ウィンドウ51のボタン部56に表示された“要約”ボタンがマウスのクリックにより選択されると、文書表示部53に表示された文章の要約が要約表示部54に表示される。“要約”ボタンが選択されると、制御部11は、図4に示した一連の工程から処理を割り込みにより脱出するように制御し、要約を作成する処理を開始する。要約は、文書表示部53に表示された文書から、要約表示部54のサイズに合わせて、要約表示部54の領域を満たすように生成される。図8に示すように、要約表示部54に表示された要約には、文書表示部59においてハイライト表示されたエレメント“Big mainframe computers”59に対応するエレメント“Big mainframe computers”60が表示されている。このように、ウィンドウ51の文書表示部53において所望のエレメントを選択して重要度を高めることにより、そのエレメントが要約に含まれる可能性を高くすることができる。なお、要約の生成の詳細については、さらに後述する。
【0039】
以上説明したように、ユーザは、語、句、文のどれでも、当該エレメントを選択することにより、要約に含まれる可能性を高くするようにマークすることができる。GUIのウィンドウ51は、ユーザにこれらのエレメントをマウスやスタイラスペンのようなポインティングデバイスによって選択することを許容する。ユーザはエレメントの上をクリックすることにより容易に選択することができる。クリックの数はその語を含むクリックの数だけより大きなエレメントに対応している。選択されたエレメントは、活性拡散においてより高い中心活性値の初期値を有することになる。
【0040】
上述したように、図5に示したウィンドウ51においては、文書表示部53に表示された文書中のエレメントの選択はマウスによるクリック以外にも、キーワード入力部55にキーワードを入力することによって選択することができる。制御部11は、このようにキーワード入力部55に入力されたキーワードに関連するエレメントの重要度を上げる処理を行う。キーワードとエレメントの関連度は、たとえばROM15に記録されたテーブルを参照することにより得る。この参照は、キーワードが含まれるエレメントをタグ付けによって参照することによりおこなわれる。
【0041】
続いて、ウィンドウ51の要約表示部54に表示される要約を作成する処理について図9に示すフローチャートを参照して説明する。文書から要約を作成する処理は、文書のタグ付けによる内部構造に基づいて実行される。上述したように、ウィンドウ51における文書表示部53と要約表示部54のサイズは、それぞれ変更することができる。文書処理装置の制御部11は、新たにウィンドウ51が表示部30に描画されるか要約表示部54のサイズが変更されたときには、要約ウィンドウ54に適合するようにウィンドウ51の文書表示部53に表示されている文書から要約を作成する処理を実行する。
【0042】
図5から図7に示しGUIのウィンドウが表示された状態でボタン部56の“要約”ボタンがマウスのクリックにより選択されると、図9のフローチャートが文書処理装置の制御部11によって開始される。
【0043】
図9の最初のステップS20では、文書処理装置の制御部11は、活性拡散を行う。タグ付けによる内部構造を与えられた文書においては、活性拡散と呼ばれる処理を行うことにより、各エレメントにタグ付けによる内部構造に応じた中心活性値を付与することができる。活性拡散は、中心活性値の高いエレメントと関わりのあるエレメントにも高い中心活性値を与えるような処理である。すなわち、活性拡散は、照応(共参照)表現とその先行詞の間で中心活性値が等しくなり、それ以外では中心活性値が減衰するような中心活性値についての演算である。この中心活性値は、タグ付けによる内部構造に応じて決定されるので、タグ付けによる内部構造を考慮した文書の分析に利用することができる。
【0044】
活性拡散は、図10のフローチャートに示す一連の行程にしたがって、文書処理装置の制御部11の制御の下に実行される。
【0045】
最初のステップS31では、制御部11は、処理を施す当該エレメントをe0に設定する。ステップS32では、制御部11は、当該エレメントについて入力中心活性値があるか否かについて判別する。ステップS32においては、図4に示したように、ユーザによってたとえば図5に示したようなGUIのウィンドウ51においてエレメントが選択されることにより中心活性値の入力がなされたか否かが判断される。制御部11は、中心活性値の入力がなされたときには“YES”として処理をステップS33に進める。制御部11は、中心活性値の入力がなされないときには“NO”として処理をステップS34に進める。
【0046】
ステップS33では、制御部11は、中心活性値を入力中心活性値に設定する。一方、ステップS34では、制御部11は、中心活性値を0に設定する。このように、入力中心活性値は、クリックされて選択されたエレメントに与えられる。選択されて入力される入力中心活性値は、他のエレメントの中心活性値より大であればよい。なお、多のエレメントの中心活性値は、たとえば“0”とすることができる。
【0047】
ステップS35では、制御部11は、処理を施す当該エレメントを一つ進める。すなわち、エレメントe=e+1と設定する。ステップS36では、制御部11は、当該エレメントが最後のエレメントであるか否かを判断する。そして、そのエレメントが最後のエレメントであるときには“YES”として処理をステップS37にすすめ、そのエレメントが最後のエレメントではないときには“NO”として処理をステップS32に戻す。
【0048】
ステップS37においては、文書処理装置の制御部11は、図11に示すように、文書を構成するエレメントEiを計数するカウンタの初期化を行う。すなわち、エレメントを計数するカウンタのカウント値iを1に設定する。すなわち、このカウンタは、第1番目のエレメントE1を参照している。
【0049】
この図11においては、文書を構成するエレメントとリンクの構造の一部として、エレメントEiおよびエレメントEjが示されている。エレメントEiとエレメントEjとは、中心活性値eiおよびejをそれぞれ有し、リンクLijにて接続されている。リンクLijのエレメントEiに接続する端点はTij、エレメントEjに接続する端点はTjiである。エレメントEiは、リンクLijにより接続されるエレメントEjの他に、リンクLik、LilおよびLimによって図示しないエレメントEk、ElおよびEmにそれぞれ接続している。エレメントEjは、リンクLjiにより接続されるエレメントEiの他に、リンクLjp、LjqおよびLjrによって図示しないエレメントEp、EqおよびErにそれぞれ接続している。
【0050】
ステップS38においては、文書処理装置の制御部11は、カウンタが参照するエレメントについて、新たな中心活性値を計算するリンク処理を実行する。このリンク処理については、さらに後述する。
【0051】
ステップS39においては、文書処理装置の制御部11は、文書中のすべてのエレメントについて新たな中心活性値の計算が完了したか否かを判断する。そして、制御部11は、文書中のすべてのエレメントについて新たな中心活性値の計算が完了したときには“YES”としてステップS40に処理を進め、文書中のすべてのエレメントについて中心活性値の計算が完了していないときには“NO”としてステップS42に処理を進める。
【0052】
具体的には、制御部11は、カウンタのカウント値iが、文書の含むエレメントの総数に達したか否かを判断する。そして、制御部11は、カウンタのカウント値iが文書に含まれるエレメントの総数に達したときには、すべてのエレメントが計算済みとしてステップS40に処理を進め、カウンタのカウント値iが文書に含まれるエレメントの総数に達していないときにはすべてのエレメントについて計算が終了していないとしてステップS42に処理を進める。
【0053】
ステップS42においては、文書処理装置の制御部11は、カウンタのカウント値iを1増加させて、カウンタのカウント値をi+1とする。このことにより、カウンタはi+1番目のエレメント、すなわち次のエレメントを参照する。そして、処理はステップS38に戻り、端点活性値の計算およびこれに続く一連の行程が、次のi+1番目のエレメントについて実行される。
【0054】
具体的には、制御部11は、エレメントを計数するカウンタのカウント値iを1増加する。このことにより、カウンタはステップS38で中心活性値が計算された次のエレメントを参照することになる。
【0055】
ステップS40においては、文書処理装置の制御部11は、文書に含まれるすべてのエレメントの中心活性値の変化分、すなわち新たに計算された中心活性値の元の中心活性値に対する変化分について、文書に含まれるすべてのエレメントについて平均値を計算する。
【0056】
文書処理装置の制御部11は、たとえばRAM14に記録された元の中心活性値と新たに計算した中心活性値を、文書に含まれるすべてのエレメントについて読み出す。制御部11は、新たに計算した中心活性値の元の中心活性値に対するそれぞれの変化分の総和を文書に含まれるエレメントの総数で除することにより、すべてのエレメントの中心活性値の変化分の平均値を計算する。制御部11は、このように計算したすべてのエレメントの中心活性値の変化分の平均値を、たとえばRAM14に記録する。
【0057】
ステップS41においては、制御部11は、ステップS40で計算したすべてのエレメントの中心活性値の変化分の平均値が、予め設定された閾値以内であるか否かを判断する。そして、制御部11は、上記変化分が閾値以内であると“YES”としてこの一連の行程を終了する。上記制御部11は、上記変化分が閾値以内でないときには“NO”として、ステップS37にてカウンタのカウント値iを1に設定して文書のエレメントの中心活性値を計算する一連の行程を再び実行する。この一連の行程にて構成されるステップS37からステップS39に至るループが繰り返される毎に上記変化分は徐々に減少する。
【0058】
続いて、ステップS38にて実行される中心活性値を計算するリンク処理について、図12に示すフローチャートを参照して説明する。
【0059】
ステップS51においては、文書処理装置の制御部11は、文書を構成するエレメントEjを計数するカウンタの初期化を行う。すなわち、エレメントを計数するカウンタのカウント値jを1に設定する。すなわち、このカウンタは、第1番目のエレメントEjを参照している。
【0060】
ステップS52においては、エレメントEiとEjを接続するリンクLijにおいては、制御部11は、タグを参照することにより、そのリンクLijが通常リンクであるか否かを判断する。制御部11は、リンクLijについて、そのリンクが、語に対応する語彙エレメント、文に対応する文エレメント、段落に対応する段落エレメントなどの間の関係を示す通常リンクと、参照・被参照による係り受けの関係を示す参照リンクのいずれであるかを判断する。制御部11は、そのリンクが通常リンクのときには“YES”としてステップS53に処理を進め、そのリンクが参照リンクのときには“NO”としてステップS54に処理を進める。
【0061】
ステップS53においては、通常リンクLijに対して、接続された端点の新たな端点活性値を計算する処理が行われる。この端点活性値の計算について、図11を参照して説明する。
【0062】
ここでは、ステップS52における判別により、リンクLijは通常リンクであることが明らかになっている。通常リンクLijを介して、エレメントEiに接続する端点Tijの新たな端点活性値tijは、エレメントEiの端点活性値のうち,リンクLij以外のリンクに接続するすべての端点の端点活性値tik、tilおよびtimと、このエレメントEiがリンクLijにより接続されるエレメントEjの中心活性値ejを加算し、この加算で得た値を文書に含まれるエレメントの総数で除することにより求められる。
【0063】
エレメントEiの端点Tijの端点活性値は、端点Tijを一端とするリンクLijが通常リンクの場合、リンクLijの他端が接続されているエレメントEjの端点の端点活性値のうちそのリンクLijと接続されている端点Tjiを除いたすべての端点の端点活性値、およびそのリンクLijが接続されるエレメントEjの中心活性値ejの和を文書全体に含まれるエレメントの総数で除することにより得られる。このような手順により、活性拡散における中心活性値の収束が保証されることになる。
【0064】
文書処理装置の制御部11は、たとえばRAM14に記録されたデータから、必要な端点活性値および中心活性値を読み出す。制御部11は、読み出された端点活性値および中心活性値について、上述のようにその通常リンクと接続された端点の端点活性値を計算する。そして制御部11は、このように計算した新たな端点活性値を、たとえばRAM14に記録する。
【0065】
ステップS54においては、参照リンクに対して、そのリンクの端点の端点活性値を計算する処理が行われる。
【0066】
ステップS52における判別により、リンクLijは参照リンクであることが明らかになっている。通常リンクLijに関して、エレメントEiに接続する端点Tijの端点活性値tijは、このリンクLijを除いたエレメントEiに接続するすべてのリンクLik、LilおよびLimの端点活性値tik、tilおよびtimと、このエレメントEiがリンクLijにより接続するエレメントEjの中心活性値ejを加算することにより求められる。
【0067】
エレメントEiの端点Tijの端点活性値は、端点Tijを一端とするリンクLijが参照リンクの場合、リンクLijの他端が接続されているエレメントEjの端点の端点活性値のうちそのリンクLijと接続されている端点Tjiを除いたすべての端点の端点活性値、およびそのリンクLijが接続されるエレメントEjの中心活性値ejの和を取ることにより得られる。
【0068】
文書処理装置の制御部11は、たとえばRAM14に記録されたデータから、必要な端点活性値および中心活性値を読み出す。制御部11、読み出された端点活性値および中心活性値を用いて、上述のように参照リンクと接続された端点の新たな端点活性値を計算する。そして制御部11は、このように計算した端点活性値を、たとえばRAM14に記録する。
【0069】
ステップS53における通常リンクの処理、およびステップS54における参照リンクの処理は、ステップS52からS55のループにおけるカウント値iにより参照されているエレメントEiに接続するすべてのエレメントEjについてのリンクLijに対して実行される。
【0070】
ステップS55においては、文書処理装置の制御部11は、ステップS53またはステップS54での処理に基づいて、エレメントEiの端点活性値を計算する。制御部11は、この計算により得られた端点活性値をたとえばRAM14に記録する。
【0071】
ステップS56においては、エレメントEiに接続するすべてのリンクについて端点活性値tijが計算されたか否かが判別される。そして、すべてのリンクについて端点活性値が計算されているときには“YES”としてステップS57に進み、すべてのリンクについて端点活性値が計算されていないときには“NO”としてステップS58に進む。
【0072】
ステップS57においては、S56にてエレメントEiのすべてのリンクLijについて端点活性値tijが求められたことが判別されたので、エレメントEiの中心活性値eiの更新を実行する。
【0073】
エレメントEiの中心活性値eiの新たな値すなわち更新値は、エレメントEiのすべての端点の中心活性値の和ei’=ei+Σtj’を取ることにより求められる。ここで、“’”は、新たな値という意味である。このように、新たな中心活性値は、各エレメントにリンクを介して接続するすべて端点の端点活性値の総和と元の中心活性値を加えることにより得られる。
【0074】
文書処理装置の制御部11は、たとえばRAM14に記録されたデータから必要な端点活性値tijを読み出す。制御部11は、上述したような計算を実行し、そのエレメントEiの中心活性値eiを算出する。そして、制御部11は、計算した新たな中心活性値eiをたとえばRAM14に記録する。
【0075】
活性拡散の結果を用いて、図9においては、上述したステップS20に続いてステップS21では、文書処理装置の制御部11は、表示部30に表示されているウィンドウ51の文書処理部53のサイズ、具体的にはこの文書処理部53に表示可能な最大文字数をwsと設定する。また、文書処理装置の制御部11は、要約の文字列を格納するsを初期化して初期値s0=””と設定する。制御部11は、このように設定した、文書表示部53に表示可能な最大文字数wsおよび要約の文字列を格納するsの初期値s0を、たとえばRAM14に記録する。
【0076】
ステップS22では、文書処理装置の制御部11は、要約の骨格の順次の作成をカウントするカウンタのカウント値iを零に設定する。すなわち、制御部11は、カウント値について、i=0と設定する。制御部11は、このように設定したカウント値iをたとえばRAM14に記録する。
【0077】
ステップS23では、文書処理装置の制御部11は、カウンタのカウント値iについて、文章からi番目に平均中心活性値の高い文の骨格を抽出する。平均中心活性値とは、一つの文を構成する各エレメントの中心活性値を平均したものである。制御部11は、たとえばRAM14に記録した要約を格納するsi-1を読み出し、このsi-1に対して抽出した文の骨格の文字列を加えて、siとする。そして、制御部11は、このようにして得たsiを、たとえばRAM14に記録する。同時に、制御部11は、上記文の骨格に含まれないエレメントの中心活性値順のリストliを作成し、このリストliをたとえばRAM14に記録する。
【0078】
すはわち、このステップS23においては、要約のアルゴリズムは、活性拡散の結果を用いて、平均中心活性値の大きい順に文を選択し、選択された文の骨格の抽出する。文の骨格は、文から抽出した必須要素により構成される。必須要素になりうるのは、エレメントの主辞(head)と、主語(subject)、目的語(object)、間接目的語(indirect object)、所有者(posessor)、原因(cause)、条件(condition)または比較(comparison)の関係属性を有する要素と、等位構造が必須要素のときにはそれに直接含まれるエレメントとが必須要素を構成するものである。そして、文の必須要素をつなげて文の骨格を生成し、要約に加える。
【0079】
ステップS24では、文書処理装置の制御部11は、siの長さがウィンドウ51の要約表示部54の最大文字数wsより大きいか否かを判断する。そして、制御部11は、siの長さが最大文字数wsより大きいときには“YES”としてこの一連の処理を終了する。制御部は、siの長さが最大文字数wsより大きくないときには“NO”として処理をステップS25に進める。すなわち、このステップS24においては、要約文書が指定された分量に達したときは終了する。まだ余裕がある場合は、次に中心活性値の高い文と省略したエレメントの中心活性値を比較して、高いほうを要約に加えるものである。
【0080】
ステップS29では、文書処理装置の制御部11は、ステップS24でsiの長さが最大文字数wsより大きいと判断されたので、要約文をsi-1に設定する。この場合、要約はウィンドウにおさまらないのでsi=s0=“”を出力する。これは、要約が作成されないことを意味する。そして、制御部11は、この一連の工程を終了する。
【0081】
ステップS25では、文書処理装置の制御部11は、i+1番目に平均中心活性値が中心活性値と、ステップS23で作成したリストliの要素の最も中心活性値が高い要素の中心活性値を比較する。そして、制御部11は、i+1番目に平均中心活性値が高い文の中心活性値がリストliの要素の最も中心活性値が高い要素の中心活性値より高いときには“YES”として処理を次のステップS27に進める。制御部11は、i+1番目に平均中心活性値が高い文の中心活性値がリストliの要素の最も中心活性値が高い要素の中心活性値より高くないときには“NO”として処理をステップS26に進める。
【0082】
ステップS26では、文書処理装置の制御部11は、カウンタのカウント値iを1だけ増加させる。そして、制御部11は、処理をステップS23に戻す。
【0083】
ステップS27においては、文書処理装置の制御部11は、リストliの最も中心活性値の高い要素eをsiに加えてssiを生成する。eをliから削除する。そして、制御部11は、このようにして生成したssiをたとえばRAM14に記録する。
【0084】
ステップS28においては、文書処理装置の制御部11は、ssiの長さがウィンドウ51の要約表示部54の最大文字数wsより大きいか否かを判別する。制御部11は、ssiの長さがwsより大きいときには“YES”としてこの一連の工程を終了する。制御部11は、ssiの長さがwsより大きくないときには“NO”として処理をステップS25に戻す。
【0085】
ステップS30においては、文書処理装置の制御部11は、ステップS28でSSiの長さが最大文字数wsより大きいと判断されたので、要約文をsiに設定する。これにより、最大文字数wsより大きくならないように要約文が生成される。そして、制御部11は、この一連の工程を終了する。
【0086】
例として、上述した手順による要約の作成を、以下の新聞記事に適用することにする。
【0087】
「[素敵にエイジング]/8 ガン転移、押さえられる!?
がんはこの十数年来、わが国の死因の第一位を占めている。その死亡率は年齢が進むとともに増加傾向にある。高齢者の健康を考えるとき、がんの問題を避けて通れない。がんを特徴づけるのは、細胞増殖と転移である。人間の細胞には、自動車でいえばアクセルに当たり、がんをどんどん増殖する「がん遺伝子」と、ブレーキ役の「がん抑制遺伝子」がある。
【0088】
双方のバランスが取れていれば問題はない。正常な調節機能が失われ、細胞内でブレーキが利かない変異が起こると、がんの増殖が始まる。高齢者の場合、長い年月の間にこの変異が蓄積し、がん化の条件を備えた細胞の割合が増え、がん多発につながるわけだ。
【0089】
ところで、もう一つの特徴、転移という性質がなければ、がんはそれほど恐れる必要はない。切除するだけで、完治が可能になるからである。転移を抑制することの重要性がここにある。
【0090】
この転移、がん細胞が増えるだけでは発生しない。がん細胞が細胞と細胞の間にある蛋白(たんぱく)質などを溶かし、自分の進む道をつくって、血管やリンパ間に入り込む。循環しながら新たな“住み家”を探して潜り込む、といった複雑な動きをすることが、近年解明されつつある。
【0091】
最近、ここに新しい役者が加わった。「nm13」と呼ばれる蛋白質である。未解明な部分が多いが、転移を抑制する作用があることが米国の研究で分かった。がんの診断、治療の面から期待が集まっている。
【0092】
なんと、この蛋白質、私たちが十年来、研究を続けてきた「NDPキナーゼ」(細胞構築に必要な素材を提供したり、脳などから指令を受ける譲歩伝達系の一部も構成する)と同一物とわかったのである。以来、私たちの身辺はにわかに慌ただしくなった。
【0093】
なぜ、転移を防ぐことができるのか、どのような作用をするのか、まだ分かっていない。私たちは多くのデータを持っている。その研究成果を生かすチャンスである。偶然とはいえ、こんなところに科学研究の醍醐味(だいごみ)が隠されているのである。」
上述の文章を、図9に示した手順にしたがって要約すると、次に示すようになる。なお、この要約は、ウィンドウ51における要約表示部54の大きさに適合するような長さで作成される。
【0094】
「[素敵にエイジング]/8 ガン転移、押さえられる!?
がんはこの十数年来、わが国の死因の第一位を占めている。その死亡率は増加傾向にある。高齢者の健康を考えるとき、がんの問題を避けて通れない。がんを特徴づけるのは、細胞増殖と転移である。「がん遺伝子」と、ブレーキ役の「がん抑制遺伝子」がある。双方のバランスが取れていれば問題はない。転移という性質がなければ、がんは恐れる必要はない。転移を抑制することの重要性がここにある。この転移、がん細胞が増えるだけでは発生しない。がん細胞が血管やリンパ間に入り込む。新たな“住み家”を探して潜り込む、といった複雑な動きをすることが、解明されつつある。ここに新しい役者が加わった。「nm13」と呼ばれる蛋白質である。転移を抑制する作用があることが分かった。」
次に、文書処理装置の記録/再生部31において記録/再生される記録媒体32について説明する。記録媒体32には、複数のエレメントから構成される階層化された内部構造を有し、上記内部構造に関するタグが付与された文書を表示する文書処理プログラムが記録されている。
【0095】
文書処理プログラムは、文書を表示する表示処理と、表示処理で表示された文書を構成するエレメントを選択し、選択されたエレメントがさらに選択されると内部構造におけるそのエレメントを含む上位の階層のエレメントを選択するように入力する入力処理と、入力処理で選択されたエレメントの重み付け、すなわち中心活性値を選択されていないエレメントに比べて高く設定する中心活性値設定処理とを有する。
【0096】
なお、本実施の形態においては、文書へのタグ付けの方法の一例を示したが、本発明がこのタグ付けの方法に限定されないことはもちろんである。また、本実施の形態においては、文書処理装置の受信部21に外部から文書が送信されるとしたが、本発明はこれに限定されない。たとえば、上記文書は、文書処理装置のROM13に書き込まれていたり、記録/再生部31において記録媒体32から読み出されてもよい。
【0097】
なお、上述の実施の形態においては、ポインティングデバイスの一例としてマウスを例示した。しかし、本実施の形態におけるポインティングデバイスはマウスに限定されることはな。本実施の形態においては、ポインティングデバイスとして、たとえばスタイラスペンも利用することができる。
【0098】
【発明の効果】
上述のように、本発明によると、タグ付けによる内部構造を有する文書について、この文書を構成するエレメントを選択の回数に応じてその階層を高めることにより重要度を上げることができる。この重要度は、要約の作成はこの重要度に基づいて行われるので、ユーザの意向を反映した要約を作成することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態を適用した文書処理装置の概略的な構成を示すブロック図である。
【図2】文章のタグによる内部構造を示す図である。
【図3】文章のタグによる内部構造を表示したウィンドウを示す図である。
【図4】文章の任意の部分の重要度を上げる一連の工程を示すフローチャートである。
【図5】本発明の実施の形態を適用した要約ウィンドウを示す図である。
【図6】要約ウィンドウにおいて語が選択された状態を示す図である。
【図7】要約ウィンドウにおいて選択された領域をさらにクリックした状態を示す図である。
【図8】要約ウィンドウに要約が表示された状態を示す図である。
【図9】ウィンドウサイズに応じて要約を作成する一連の工程を示すフローチャートである。
【図10】活性拡散の一連の工程を示すフローチャートである。
【図11】活性拡散の処理を説明する図である。
【図12】活性拡散のリンク処理の一連の工程を示すフローチャートである。
【符号の説明】
10 本体、11 制御部、12 インターフェース、13 CPU、20 入力部、21 受信部、30 表示部、31 記録/再生部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document processing method and apparatus for processing a document, a recording medium on which a document processing program for processing a document is recorded, and more specifically, a document processing method and apparatus for increasing the importance of elements constituting the document, and the above-mentioned The present invention relates to a recording medium on which a program that increases the importance of an element is recorded.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, on the Internet, WWW (World Wide Web) is provided as an application service that provides hypertext type information in a window format.
[0003]
The WWW is a system that performs document processing for creating, publishing, or sharing a document, and shows a new style of document. However, from the viewpoint of practical use of documents, advanced document processing exceeding WWW, such as document classification and summarization based on document contents, is required. For such advanced document processing, mechanical processing of document contents is indispensable.
[0004]
However, mechanical processing of document contents is still difficult for the following reasons. First, HTML (Hyper Text Markup Language), which is a language for describing hypertext, defines the expression of a document but hardly specifies the contents of the document. Second, a hypertext network formed between documents is not always easy to use for the reader of the document to understand the content of the document. Third, in general, the author of the text writes without regard to the convenience of the reader, but the convenience of the reader of the document is not coordinated with the convenience of the author.
[0005]
As described above, the WWW is a system that indicates a new document. However, since the document is not mechanically processed, advanced document processing cannot be performed. In other words, in order to perform advanced document processing, it is necessary to mechanically process the document.
[0006]
Therefore, with the goal of mechanical processing of documents, a system that supports mechanical processing of documents has been developed based on the results of natural language research. As the first step of document processing by natural language research, mechanical document processing using the tag attached to the document on the premise that the attribute information about the internal structure of the document, so-called tag, is given by the document author Has been proposed.
[0007]
[Problems to be solved by the invention]
By the way, with the spread of computers in recent years and the progress of networking, the enhancement of document processing that creates, summarizes, labels, and changes text documents with text processing and indexing depending on the contents of the document etc. Is required. In addition to such highly functional document processing, a simple user interface is also required.
[0008]
The present invention has been proposed in view of the above-described circumstances, and configures a document processing method and apparatus that increases the importance by selecting elements constituting the internal structure of the document, and configures the internal structure of the document. An object of the present invention is to realize document processing with a simple user interface by a document processing program that increases the importance by selecting an element.
[0009]
[Means for Solving the Problems]
In order to solve the above problems, a document processing method according to the present invention has a hierarchical internal structure composed of a plurality of elements, and an electronic document to which attribute information related to the internal structure is given by tagging. In the document processing method of the document processing apparatus for displaying the document, the display unit displays the electronic document, and the input unit selects the element constituting the electronic document displayed in the display step, and the selected element An input step for selecting an element higher in the hierarchy including the element in the internal structure as a highly important element in the electronic document, and a weight setting unit, The weight indicating the importance of the element is set as a higher value than the weight of the element not selected for the element selected in the input step. A summary setting step, and a summary creation means for creating a summary of the electronic document based on the weight set for the electronic document in the weight setting step, wherein the summary creation step has a central activity The value calculation means includes a value corresponding to the weight of the element set in the weight setting step and the relationship between the elements in the internal structure by the tagging of the electronic document. A central activity value calculation step of calculating a total value of the sum of the end point activity values to be given as a central activity value of an element of the electronic document, and the summary creating means is calculated in the central activity value calculation step. A summary of the electronic document is created based on the central activity value.
[0010]
A document processing apparatus according to the present invention has a hierarchical internal structure composed of a plurality of elements, and the document processing apparatus displays an electronic document to which attribute information related to the internal structure is attached by tagging. A display means for displaying an electronic document, and an element constituting the electronic document displayed by the display means are selected, and when the selected element is further selected, an element in the upper hierarchy including the element in the internal structure Input means for selecting the element as a highly important element in the electronic document, and a weight indicating the importance of the element, and the weight of the element selected by the input means is not selected. A weight setting means for setting a higher value than the weight, and the electronic setting based on the weight set for the electronic document by the weight setting means. Summarizing means for creating a summary of the document, wherein the summarizing means includes the weighting of the element set by the weighting setting means and the relationship between the elements in the internal structure by the tagging of the electronic document. A center activity value calculating means for calculating a total value of the sum of the end point activity values given to the connection end points of the element as a center activity value of the element of the electronic document, A summary of the electronic document is created based on the central activity value calculated by the activity value calculation means.
[0011]
A recording medium according to the present invention has a hierarchical internal structure composed of a plurality of elements, and causes a computer to execute a process of displaying an electronic document to which attribute information related to the internal structure is attached by tagging. The document processing program selects a display process for displaying the electronic document and an element constituting the electronic document displayed by the display process. An input process for inputting to select an element at a higher level of the hierarchy including the element in the internal structure as a highly important element in the electronic document in response to further selection of the selected element; The weight indicating the importance of the element is set to the weight of the element for which the weight of the element selected in the input process is not selected. A program for causing a computer to execute a weight setting process for setting all of the values as high values and a summarization process for generating a summary of the electronic document based on the weights set for the electronic document by the weight setting process. The summary creation process includes a value according to the weighting of the element set in the weighting setting process and the relevance between the elements in the internal structure by the tagging of the electronic document. A central activity value calculation process for calculating a total value of the sum of the end point activity values given to the electronic document as a central activity value of an element of the electronic document, and the central activity value calculated by the central activity value calculation process Based on the above, a summary of the electronic document is created.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of a document processing method and apparatus and a recording medium according to the present invention will be described with reference to the drawings.
[0013]
As shown in FIG. 1, a document processing apparatus according to an embodiment of the present invention includes a main body 10 including a control unit 11 and an interface 12, an input unit 20 that receives input from a user and sends the input to the main body 10, and an external device. A receiving unit 21 that receives and transmits the signal to the main body 10, a display unit 30 that displays the output from the main body 10, and a recording / reproducing unit 312 that records / reproduces information on the recording medium 32 Yes.
[0014]
The main body 10 has a control unit 11 and an interface 12 and constitutes a main part of the document processing apparatus. The control unit 11 includes a CPU 13 that centrally executes processes in the document processing apparatus, a RAM 14 that is a volatile memory, and a ROM 15 that is a nonvolatile memory. For example, according to the procedure recorded in the ROM 14, the CPU 13 temporarily stores data in the RAM 14 when necessary, and performs control for executing the program. An input unit 20, a receiving unit 21, a display unit 31, and a recording / reproducing unit 32 are connected to the interface 12. Under the control of the control unit 11, the interface 12 adjusts the timing of data transmission for data input from the input unit 20 and the reception unit 21 and data transmission to the display unit 30, and the data format Or convert.
[0015]
The input unit 20 is a part that receives user input to the document processing apparatus. The input unit 20 is configured by a keyboard or a mouse, for example. The user can use the input unit 20 to input a keyword using a keyboard, or to select and input a document element displayed on the display unit 30 using a mouse. Here, an element is an element that constitutes a document, and includes, for example, a document, a sentence, and a word.
[0016]
The receiving unit 21 is a part that receives a signal transmitted to the document processing apparatus from the outside via, for example, a communication line. The receiving unit 21 receives a plurality of documents that are electronic documents, for example. The receiving unit 21 sends the received data to the main body 10.
[0017]
The output unit 30 displays the output result from the document processing apparatus. The output unit 30 includes, for example, a cathode ray tube (CRT) or a liquid crystal display (LCD), and displays, for example, one or more windows, and characters, figures, etc. are displayed on the windows. Or display.
[0018]
The recording / reproducing unit 31 records / reproduces information on / from a recording medium 32 such as a so-called floppy disk under the control of the control unit 11 of the document processing apparatus. In the recording medium 32, for example, an algorithm that increases the importance of an arbitrary part in the document is recorded. The recording medium 32 will be further described later.
[0019]
Next, the document in the present embodiment will be described. In the present embodiment, the document describes the internal structure by attribute information by tagging. Document processing in the document processing apparatus is performed with reference to a tag attached to the document. In this embodiment, the semantic tagging indicating the structure of the document is given to the document, and semantic / pragmatic tags that enable the understanding of the mechanical contents of the document between multiple languages are given to the document. .
[0020]
In the present embodiment, syntactic tagging includes description of the internal structure by tree-like tagging. That is, as shown in FIG. 2, in this embodiment, the internal structure by tagging, each element such as a document, sentence, and vocabulary element, normal link, reference / referenced link, etc. are previously stored in the document as tags. Has been granted. In the figure, white circles “◯” are elements of the document, that is, the lowest white circles are vocabulary elements corresponding to the lowest level words in the document. The solid line is a normal link indicating the structure of a document such as a word, phrase, clause, or sentence. A broken line is a reference link indicating a dependency relationship by reference / reference. The internal structure of the document tagging is in order from top to bottom: document, optional subdivision that is subordinate to the document and above the paragraph, optional paragraph, paragraph, sentence (sentence) ), Subsentential segment (subsentential segment) which is the lower part of the sentence,...
[0021]
In this embodiment, as semantic / pragmatic tagging, information such as syntactics / semantics is described as dependency, for example, pronoun indication target, meaning of polysemy There is a tag to do. Such tagging is a tag in the XML (Extended Markup Language) format as in HTML (Hyper Text Markup Language).
[0022]
An example of the internal structure by text tagging is shown below. Of course, text tagging is not limited to this method.
[0023]
For example, for the sentence “Time flies like an arrow.”
<Sentence><noun phrase meaning = “time0”> time </ noun phrase>
<Verb phrase><Verb meaning = “fly1”> flies </ verb>
<Adjective verb phrase><adjective verb meaning = like0> like </ adjective verb><nounphrase> an
<Noun meaning = “arrow0”> arrow </ noun></ noun phrase>
</ Adjective verb phrase></ Verb phrase>. </ Sentence>
And so on. Where <sentence>, <noun>, <noun phrase>, <verb>, <verb phrase>, <adjective verb>, and <adjective verb phrase> are one sentence, noun, noun phrase, verb, verb phrase, and preposition, respectively. It represents the syntactic structure of a sentence such as a phrase, an adjective phrase containing a postpositional phrase, an adjective phrase / adjective phrase. The tags are arranged correspondingly before the end of the element and after the end. Here, the tag placed after the end of the element indicates the minimum unit element of the document, that is, the end of the element, by the symbol “/”. This element represents syntactic constituents, ie phrases, clauses and sentences. Note that the meaning = time0 indicates a plurality of meanings of the word time, that is, the 0th meaning among the plurality of meanings. Specifically, there are nouns and verbs in time, but here we show that time is a noun. For example, the word “orange” has the meanings of color and fruit, but these can also be distinguished by meaning.
[0024]
The tagging of a document as described above with reference to FIG. 2 can display the syntactic structure as shown in the window 101 of FIG. In this window 101, the right half 103 shows vocabulary elements, and the left half 102 shows sentence structures.
[0025]
In this window 101, the following tagged documents are displayed. Also in this document, the syntactic structure is described by tags. The following document is the inside by tagging about “C city where Mr. A's B meeting ended, some public newspapers and general paper self-regulated their photographic coverage on paper.” The structure is shown.
<Document><Sentence><Adjective Verb Phrase Relation = “Place”><NounPhrase><Adjective Verb Phrase Location = “C City”>
<Adjective verb phrase relationship = “subject”><noun phrase identifier = “B-kai”><adjective verb phrase relation “position”> Mr. A's // adjective verb phrase> B-kai </ noun phrase> is // adjective verb Phrase>
</ Adjective verb phrase><place name identifier = “C city”> C city </ place name></ noun phrase></ adject verb phrase><adjective verb phrase relation = “subject”><noun phrase identifier = Newspaper "Syntax =" Parallel "><nounphrase><adjective verb phrase> Some </ adject verb phrases> popular paper </ noun phrase> and <noun> general paper </ noun></ noun phrase></ Adjective verb phrase><adjective verb phrase relation = "object"><adjective verb phrase relation = "content" subject = "newspaper"><adjective verb phrase relation = "object"><nounphrase><adjective verb Phrase><noun co-reference = “B”></noun></ adjective verb phrase> photo report </ noun phrase></ adjective verb phrase>
Self-regulating </ adjective verb phrase> policy </ adjective verb phrase>
<Adjective Verb Phrase Relationship = “Place”> On paper </ Adjective Verb Phrase>
Revealed. </ Sentence></Document>
In this sentence, as in “some popular and general newspapers”, the synonym = “parallel” means parallel. The definition of parallel is to share a dependency relationship. If nothing is specified, for example, <noun phrase relationship = x><noun> A </ noun><noun> B </ noun></ noun phrase> indicates that A is dependent on B To express. Relation = x represents the relation attribute of the <noun phrase> element.
[0026]
Next, a description will be given of relational attributes that describe the interrelationships between syntax, meaning, and rhetorical in tagging.
[0027]
Grammatical functions such as subject, object, indirect object, subject roles such as actors, actees, beneficiaries, and rhetorical relationships such as reasons, results, etc. are displayed by this relation attribute. The relation attribute is represented in the form of relation = ***. In the present embodiment, relational attributes are described for relatively easy grammatical functions, that is, functions of the word in a sentence such as a subject, an object, and an indirect object.
[0028]
Next, with respect to the document displayed on the display unit 30 of the document processing apparatus, a procedure for increasing the importance of the element selected by the user in the document by the user's operation will be described with reference to the flowchart shown in FIG.
[0029]
In the first step S11, the control unit 11 determines whether or not an element in the document has been selected by the user. This determination is made by selection using a graphic user interface (GUI) that receives input from the user. In the document processing apparatus, a window 51 as shown in FIG. 5 is displayed on the display unit 30 as the GUI.
[0030]
The window 51 includes a file name display unit 52 for displaying the file name of the document, a document display unit 53 for displaying the document with the file name displayed on the file name display unit 52, and the document displayed on the document display unit 53. A summary display unit 54 for displaying the summary is provided. The document display unit 53 displays all or part of the document in which the file name or the first part of the document is displayed in the file name display unit 52. When only a part of the document is displayed on the document display unit 53, for example, by scrolling the document displayed on the document display unit 53, the entire document can be browsed sequentially. The summary display unit 53 displays a summary of the document displayed on the document display unit 53 by processing to be described later, corresponding to the size of the summary display unit 54. The summary display section 53 is blank because no summary has been created. Note that the sizes of the document processing unit 53 and the summary display unit 54 can be changed. The document handled in the window 51 is, for example, received by the receiving unit 21 of the document processing apparatus and recorded in the recording / reproducing unit 31 or the RAM 14.
[0031]
The window 51 includes a keyword input unit 55 for inputting a keyword and a button unit 56 having a plurality of buttons. By inputting a keyword into the keyword input unit 55, the importance of a word having a high degree of association with the keyword among the words displayed on the document display unit 54 is increased. The button unit 56 includes an “Undo” button for returning the execution result, and a process for summarizing the text displayed on the document display unit 53 and displaying it on the summary display unit 54. summarize) ”button. Among these, by selecting the “summary” button, for example, when the size of the summary display portion 54 is changed, the summary is displayed on the document processing portion 53 so as to correspond to the new size of the new summary display portion 54. A summary of the current document is generated, and the generated summary is displayed on the summary display unit 54.
[0032]
Next, a process for increasing the importance of a desired element when the user selects the “Summary” button will be described using the flowchart shown in FIG.
[0033]
In the flowchart shown in FIG. 4, in the first step S11, the control unit 11 selects an element in the text displayed on the document display unit 53 by the user in the window 51 displayed on the display unit 30 of the document processing apparatus. It is determined whether or not. The input unit 20 of the document processing apparatus that selects and inputs an element in the document display unit 53 is performed by operating a cursor displayed on the display unit 30 linked to the pointing device using a pointing device. Can do. For example, when a mouse is used as the pointing device, the mouse is operated to move the cursor to a desired element of the document processing unit 53, and the element is selected by clicking with the mouse. When an element is selected in the document display section 53, the selected element is highlighted, for example, in order to clearly show the selected element. In FIG. 6, the vocabulary element “mainframe” 57 which is the smallest selected element is highlighted in the document display section 53 of the window 51. The summary display section 53 is blank because no summary has been created yet. When the element is selected in this way, the control unit 11 determines “YES” and proceeds to the next step S12. When no element is selected, for example, when there is no input within a predetermined time, or when a portion other than the portion where the text is displayed on the document display unit 53 is clicked by the mouse, the control unit 11 again sets “NO” to this step S11. The processing is returned to and the input of the element is waited. In the following description, for convenience of explanation, the description will be made assuming that a mouse is used as the pointing device of the input unit 20.
[0034]
In step S12, the control unit 11 of the document processing apparatus determines whether or not the word is selected in step S11 but has been selected by clicking with the mouse in the past. When the element is an element selected by clicking with the mouse in the past, the control unit 11 determines “YES” and advances the process to step S13. When the element is not an element selected by clicking with the mouse in the past, the control unit 11 proceeds to step S14 as “NO”.
[0035]
In step S13, the control unit 11 of the document processing apparatus determines whether the selected element is a text element. When the level is a text element, the control unit 11 returns “YES” to step S11. When the level is not a text element, the control unit 11 proceeds to the next step S15 as “NO”.
[0036]
In step S14, the control unit 11 of the document processing apparatus sets the level to the vocabulary element that is the minimum element of the document and the lowest element of the internal structure by tagging the document. And the control part 11 returns a process to step S11.
[0037]
In step S15, the control unit 11 of the document processing apparatus increases the level by one. For example, when the level is increased by 1 as described above, the vocabulary element “mainframe” 57 selected in step S11 is, as shown in FIG. “59” is selected, and this portion “Big mainframe computers” 59 is highlighted. At the same time, the control unit 11 increases the weight of the selected upper element, that is, the central activity value higher than that of the element not selected. And the control part 11 returns a process to step S11.
[0038]
When the “summary” button displayed on the button section 56 of the window 51 is selected by clicking the mouse, the summary of the text displayed on the document display section 53 is displayed on the summary display section 54. When the “summary” button is selected, the control unit 11 controls the process to exit from the series of steps shown in FIG. 4 by interruption, and starts a process for creating a summary. The summary is generated from the document displayed on the document display unit 53 so as to fill the area of the summary display unit 54 in accordance with the size of the summary display unit 54. As shown in FIG. 8, the summary displayed on the summary display unit 54 displays an element “Big mainframe computers” 60 corresponding to the element “Big mainframe computers” 59 highlighted on the document display unit 59. Yes. Thus, by selecting a desired element in the document display unit 53 of the window 51 and increasing the importance, the possibility that the element is included in the summary can be increased. Details of the summary generation will be described later.
[0039]
As described above, the user can mark a word, a phrase, or a sentence so as to increase the possibility of being included in the summary by selecting the element. The GUI window 51 allows the user to select these elements with a pointing device such as a mouse or stylus pen. The user can easily select by clicking on the element. The number of clicks corresponds to an element that is larger by the number of clicks that contain the word. The selected element will have a higher central activity value initial value in active diffusion.
[0040]
As described above, in the window 51 shown in FIG. 5, selection of an element in the document displayed on the document display unit 53 is performed by inputting a keyword into the keyword input unit 55 in addition to clicking with the mouse. be able to. The control unit 11 performs a process of increasing the importance of the element related to the keyword input to the keyword input unit 55 in this way. The degree of association between the keyword and the element is obtained by referring to a table recorded in the ROM 15, for example. This reference is performed by referring to the element including the keyword by tagging.
[0041]
Next, a process of creating a summary displayed on the summary display unit 54 of the window 51 will be described with reference to a flowchart shown in FIG. The process of creating a summary from a document is performed based on the internal structure by tagging the document. As described above, the sizes of the document display unit 53 and the summary display unit 54 in the window 51 can be changed. When the window 51 is newly drawn on the display unit 30 or the size of the summary display unit 54 is changed, the control unit 11 of the document processing apparatus displays the document display unit 53 of the window 51 so as to fit the summary window 54. Executes the process of creating a summary from the displayed document.
[0042]
When the “summary” button of the button unit 56 is selected by clicking the mouse in the state in which the GUI window shown in FIGS. 5 to 7 is displayed, the flowchart of FIG. 9 is started by the control unit 11 of the document processing apparatus. .
[0043]
In the first step S20 in FIG. 9, the control unit 11 of the document processing apparatus performs active diffusion. In a document given an internal structure by tagging, a central activity value corresponding to the internal structure by tagging can be given to each element by performing a process called active diffusion. The active diffusion is a process for giving a high central activity value to an element related to an element having a high central activity value. That is, active diffusion is an operation on a central activity value in which the central activity value is equal between the anaphoric (co-reference) expression and its antecedent, and otherwise the central activity value is attenuated. Since this central activity value is determined according to the internal structure by tagging, it can be used for the analysis of documents in consideration of the internal structure by tagging.
[0044]
The active diffusion is executed under the control of the control unit 11 of the document processing apparatus according to a series of steps shown in the flowchart of FIG.
[0045]
In the first step S31, the control unit 11 sets the element to be processed to e 0 Set to. In step S32, the control unit 11 determines whether or not there is an input center activation value for the element. In step S32, as shown in FIG. 4, it is determined whether or not the center activation value has been input by selecting an element in the GUI window 51 as shown in FIG. 5, for example. When the central activation value is input, the control unit 11 determines “YES” and advances the process to step S33. When the central activation value is not input, the control unit 11 determines “NO” and advances the process to step S34.
[0046]
In step S33, the control unit 11 sets the center activity value to the input center activity value. On the other hand, in step S34, the control unit 11 sets the central activity value to zero. In this way, the input center activity value is given to the element selected by clicking. The input center activity value selected and input may be larger than the center activity values of other elements. The central activity value of many elements can be set to “0”, for example.
[0047]
In step S35, the control unit 11 advances the element to be processed by one. That is, element e = e + 1 is set. In step S36, the control unit 11 determines whether or not the element is the last element. Then, when the element is the last element, the process proceeds to step S37 as “YES”, and when the element is not the last element, the process returns to step S32 as “NO”.
[0048]
In step S37, the control unit 11 of the document processing apparatus, as shown in FIG. i The counter that counts is initialized. That is, the count value i of the counter for counting elements is set to 1. That is, this counter is the first element E 1 Refers to.
[0049]
In FIG. 11, as part of the structure of the elements and links constituting the document, element E i And element E j It is shown. Element E i And element E j And the central activity value e i And e j Each with a link L ij Connected at. Link L ij Element E i The end point connected to is T ij , Element E j The end point connected to is T ji It is. Element E i Is the link L ij E connected by j In addition to link L ik , L il And L im Element E (not shown) k , E l And E m Is connected to each. Element E j Is the link L ji E connected by i In addition to link L jp , L jq And L jr Element E (not shown) p , E q And E r Is connected to each.
[0050]
In step S38, the control unit 11 of the document processing apparatus executes link processing for calculating a new center activation value for the element referred to by the counter. This link process will be further described later.
[0051]
In step S39, the control unit 11 of the document processing apparatus determines whether or not the calculation of new center activation values has been completed for all elements in the document. When the calculation of the new central activity value for all elements in the document is completed, the control unit 11 proceeds to step S40 as “YES”, and the calculation of the central activity value for all elements in the document is completed. If not, "NO" is determined and the process proceeds to step S42.
[0052]
Specifically, the control unit 11 determines whether or not the count value i of the counter has reached the total number of elements included in the document. Then, when the count value i of the counter reaches the total number of elements included in the document, the control unit 11 determines that all the elements have been calculated and proceeds to step S40, and proceeds to step S40, where the count value i of the counter is included in the document. If the total number has not been reached, the calculation is not completed for all elements, and the process proceeds to step S42.
[0053]
In step S42, the control unit 11 of the document processing apparatus increments the count value i of the counter by 1, and sets the count value of the counter to i + 1. As a result, the counter refers to the (i + 1) th element, that is, the next element. Then, the process returns to step S38, and the end point activation value calculation and a series of subsequent steps are executed for the next i + 1-th element.
[0054]
Specifically, the control unit 11 increases the count value i of the counter that counts the elements by one. As a result, the counter refers to the next element for which the central activity value has been calculated in step S38.
[0055]
In step S40, the control unit 11 of the document processing apparatus calculates the change in the central activity value of all the elements included in the document, that is, the change in the newly calculated central activity value with respect to the original central activity value. The average value is calculated for all elements contained in.
[0056]
The control unit 11 of the document processing apparatus reads, for example, the original central activity value recorded in the RAM 14 and the newly calculated central activity value for all elements included in the document. The control unit 11 divides the sum of the respective changes of the newly calculated center activity value with respect to the original center activity value by the total number of elements included in the document, so that the change amount of the center activity value of all the elements is calculated. Calculate the average value. The control unit 11 records the average value of the change in the central activity value of all the elements calculated in this way, for example, in the RAM 14.
[0057]
In step S41, the control unit 11 determines whether or not the average value of the change in the central activity value of all the elements calculated in step S40 is within a preset threshold value. And the control part 11 will complete | finish this series of steps as "YES", when the said change is less than a threshold value. When the change is not within the threshold value, the control unit 11 sets “NO” in step S37 and again executes a series of steps for setting the count value i of the counter to 1 and calculating the central activity value of the document element. To do. Each time the loop from step S37 to step S39 configured in this series of steps is repeated, the amount of change gradually decreases.
[0058]
Next, the link process for calculating the central activity value executed in step S38 will be described with reference to the flowchart shown in FIG.
[0059]
In step S51, the control unit 11 of the document processing apparatus performs element E constituting the document. j The counter that counts is initialized. That is, the count value j of the counter for counting elements is set to 1. That is, this counter is the first element E j Refers to.
[0060]
In step S52, the element E i And E j Link L connecting ij In, the control unit 11 refers to the tag so that the link L ij It is determined whether or not is a normal link. The control unit 11 is connected to the link L ij The link is a normal link that indicates the relationship between the vocabulary element that corresponds to the word, the sentence element that corresponds to the sentence, the paragraph element that corresponds to the paragraph, and the reference link that indicates the relationship of dependency by reference / reference It is judged whether it is either. If the link is a normal link, the control unit 11 proceeds to step S53 as “YES”, and proceeds to step S54 as “NO” when the link is a reference link.
[0061]
In step S53, the normal link L ij In contrast, a process for calculating a new end point activation value of the connected end point is performed. The calculation of the endpoint activation value will be described with reference to FIG.
[0062]
Here, the link L is determined by the determination in step S52. ij Is usually a link. Normal link L ij Via element E i End point T connected to ij New end point activation value t ij Is the link L of the end point activation values of the element Ei ij End point activation value t of all end points connected to links other than ik , T il And t im And this element E i Is link L ij E connected by j Center activity value e j And the value obtained by this addition is divided by the total number of elements included in the document.
[0063]
Element E i End point T ij The end point activity value of is the end point T ij Link L with one end ij If L is a regular link, link L ij Element E with the other end connected j Link L of the end point activation values of the end points ij End point T connected to ji End point activity values of all end points except for, and its link L ij To which element E is connected j Center activity value e j Is divided by the total number of elements contained in the entire document. Such a procedure ensures the convergence of the central activity value in active diffusion.
[0064]
The control unit 11 of the document processing apparatus reads out necessary end point activation values and center activation values from data recorded in the RAM 14, for example. The control unit 11 calculates the end point activation value of the end point connected to the normal link as described above for the read end point activation value and center activation value. And the control part 11 records the new endpoint active value calculated in this way, for example in RAM14.
[0065]
In step S54, processing for calculating the end point activation value of the end point of the link is performed on the reference link.
[0066]
Based on the determination in step S52, the link L ij Is a reference link. Normal link L ij Element E i End point T connected to ij End point activation value t ij Is this link L ij Element E excluding i All links L connected to ik , L il And L im End point activation value t ik , T il And t im And this element E i Is link L ij Element E connected by j Center activity value e j Is obtained by adding.
[0067]
Element E i End point T ij The end point activity value of is the end point T ij Link L with one end ij If L is a reference link, link L ij Element E with the other end connected j Link L of the end point activation values of the end points ij End point T connected to ji End point activity values of all end points except for, and its link L ij To which element E is connected j Center activity value e j It is obtained by taking the sum of
[0068]
The control unit 11 of the document processing apparatus reads out necessary end point activation values and center activation values from data recorded in the RAM 14, for example. The control unit 11 calculates a new endpoint activity value of the endpoint connected to the reference link as described above, using the read endpoint activity value and center activity value. Then, the control unit 11 records the end point activation value thus calculated in the RAM 14, for example.
[0069]
The normal link processing in step S53 and the reference link processing in step S54 are the elements E referenced by the count value i in the loop of steps S52 to S55. i All elements E connected to j Link L about ij Is executed against.
[0070]
In step S55, the control unit 11 of the document processing apparatus performs element E based on the processing in step S53 or step S54. i The end point activity value of is calculated. The control unit 11 records the endpoint activation value obtained by this calculation in the RAM 14, for example.
[0071]
In step S56, the element E i End point activation value t for all links connected to ij It is determined whether or not is calculated. Then, when the endpoint activation values are calculated for all links, the process proceeds to step S57 as “YES”, and when the endpoint activation values are not calculated for all links, the process proceeds to step S58 as “NO”.
[0072]
In step S57, element E in S56. i All links of L ij End point activation value t ij Is determined to be required, so element E i Center activity value e i Perform the update.
[0073]
Element E i Center activity value e i The new or updated value of is the element E i Sum of central activity values of all end points of e i '= E i + Σt j 'Requested by taking. Here, “′” means a new value. Thus, a new center activity value is obtained by adding the sum of the endpoint activity values of all the endpoints connected to each element via a link and the original center activity value.
[0074]
The control unit 11 of the document processing apparatus, for example, determines the necessary end point activation value t from the data recorded in the RAM 14. ij Is read. The control unit 11 executes the calculation as described above, and the element E i Center activity value e i Is calculated. Then, the control unit 11 calculates the new center activity value e i Is recorded in the RAM 14, for example.
[0075]
In FIG. 9, in step S21 following step S20 described above, the control unit 11 of the document processing apparatus uses the result of active diffusion in FIG. Specifically, the maximum number of characters that can be displayed on the document processing unit 53 is w. s And set. Further, the control unit 11 of the document processing apparatus initializes s for storing the summary character string and initializes the initial value s. 0 Set “=”. The control unit 11 sets the maximum number of characters w that can be displayed on the document display unit 53 as set above. s And the initial value s of s for storing the summary string 0 Is recorded in the RAM 14, for example.
[0076]
In step S22, the control unit 11 of the document processing apparatus sets the count value i of the counter that counts the sequential creation of the summary skeleton to zero. That is, the control unit 11 sets i = 0 for the count value. The control unit 11 records the count value i set in this way in, for example, the RAM 14.
[0077]
In step S23, the control unit 11 of the document processing apparatus extracts a skeleton of a sentence having the i-th average central activity value from the sentence with respect to the count value i of the counter. The average central activity value is an average of the central activity values of the elements constituting one sentence. The control unit 11 stores the summary recorded in the RAM 14, for example. i-1 Read this i-1 Add the extracted sentence skeleton to s i And Then, the control unit 11 obtains s thus obtained. i Is recorded in the RAM 14, for example. At the same time, the control unit 11 lists the elements in the order of the central activation values of elements not included in the skeleton of the sentence. i Create this list i Is recorded in the RAM 14, for example.
[0078]
That is, in this step S23, the summary algorithm selects sentences in descending order of the average central activity value using the result of activity diffusion, and extracts the skeleton of the selected sentence. The skeleton of the sentence is composed of essential elements extracted from the sentence. The required elements can be the element head, subject, object, indirect object, posessor, cause, condition Alternatively, an element having a relation attribute of comparison and an element directly included in the case where the coordinate structure is an essential element constitute an essential element. Then, the skeleton of the sentence is generated by connecting the essential elements of the sentence and added to the summary.
[0079]
In step S24, the control unit 11 of the document processing apparatus performs s i Is the maximum number of characters w in the summary display section 54 of the window 51 s Judge whether it is larger. And the control part 11 is s i Is the maximum number of characters w s When it is larger, “YES” is set and this series of processing is ended. The control unit is s i Is the maximum number of characters w s If it is not larger, “NO” is determined and the process proceeds to step S25. That is, in step S24, the process ends when the summary document reaches the designated amount. If there is still room, the sentence with the highest central activity value is compared with the central activity value of the omitted element, and the higher one is added to the summary.
[0080]
In step S29, the control unit 11 of the document processing apparatus performs s in step S24. i Is the maximum number of characters w s Since it was determined to be greater than i-1 Set to. In this case, the summary does not fit in the window, so i = S 0 = "" Is output. This means that no summary is created. And the control part 11 complete | finishes this series of processes.
[0081]
In step S25, the control unit 11 of the document processing apparatus determines that the i + 1th average center activity value is the center activity value and the list l created in step S23. i The central activity values of the elements having the highest central activity value are compared. Then, the control unit 11 determines that the central activity value of the sentence having the i + 1th average central activity value is the list l i If the central activation value of the element is higher than the central activation value of the element having the highest value, the process proceeds to the next step S27 as “YES”. The control unit 11 determines that the central activity value of the sentence with the i + 1th average central activity value is the list l i If the center activity value of the element is not higher than the center activity value of the element, the process proceeds to step S26 as “NO”.
[0082]
In step S26, the control unit 11 of the document processing apparatus increases the count value i of the counter by 1. And the control part 11 returns a process to step S23.
[0083]
In step S27, the control unit 11 of the document processing apparatus performs the list l. i The element e with the highest central activity value of i In addition to ss i Is generated. e to l i Delete from. Then, the control unit 11 generates the ss generated in this way. i Is recorded in the RAM 14, for example.
[0084]
In step S28, the control unit 11 of the document processing apparatus performs ss. i Is the maximum number of characters w in the summary display section 54 of the window 51 s It is determined whether it is larger. The control unit 11 is ss i Length of w s If it is larger, “YES” is set and this series of steps is ended. The control unit 11 is ss i Length of w s If it is not greater, “NO” is returned to step S25.
[0085]
In step S30, the control unit 11 of the document processing apparatus performs SS in step S28. i Is the maximum number of characters w s Since it was determined to be greater than i Set to. As a result, the maximum number of characters w s A summary sentence is generated so as not to become larger. And the control part 11 complete | finishes this series of processes.
[0086]
As an example, the creation of a summary according to the procedure described above will be applied to the following newspaper article.
[0087]
“[Nicely Aging] / 8 Can I get cancer transfer?
Cancer has been the leading cause of death in Japan for over a decade. The mortality rate is increasing with age. When you consider the health of the elderly, you cannot avoid the problem of cancer. What characterizes cancer is cell proliferation and metastasis. In human cells, there is an “oncogene” that hits the accelerator in a car and grows more and more cancer, and a “cancer suppressor gene” that acts as a brake.
[0088]
There is no problem if both are balanced. When normal regulatory functions are lost and mutations that do not work in the cell occur, cancer begins to grow. In older people, this mutation accumulates over a long period of time, increasing the proportion of cells with conditions for canceration, leading to more cancer.
[0089]
By the way, without another feature, the nature of metastasis, cancer doesn't have to be so afraid. It is because complete cure is possible only by excision. Here is the importance of suppressing metastasis.
[0090]
This metastasis does not occur just by increasing the number of cancer cells. Cancer cells dissolve proteins (proteins) between cells and create their own path to enter between blood vessels and lymph. In recent years, it has been elucidated that complicated movements such as searching for a new “resident” and immersing while circulating.
[0091]
Recently, new actors have been added here. It is a protein called “nm13”. There are many unexplained parts, but it was found in a US study that it has the effect of suppressing metastasis. Expectations are gathered from the aspect of cancer diagnosis and treatment.
[0092]
This protein, the same as “NDP kinase” (which provides the necessary materials for cell construction and constitutes part of the concession transmission system that receives instructions from the brain, etc.) has been researched for decades. I knew it was a thing. Since then, our personality has become very busy.
[0093]
It is not yet known why it can prevent metastasis and what it does. We have a lot of data. It is an opportunity to make use of the research results. Even though it is a coincidence, the real thrill of scientific research is hidden here. "
The above sentence is summarized according to the procedure shown in FIG. 9 as follows. This summary is created with a length that matches the size of the summary display section 54 in the window 51.
[0094]
“[Nicely Aging] / 8 Can I get cancer transfer?
Cancer has been the leading cause of death in Japan for over a decade. The mortality rate is increasing. When you consider the health of the elderly, you cannot avoid the problem of cancer. What characterizes cancer is cell proliferation and metastasis. There are “oncogenes” and “cancer suppressor genes” that act as brakes. There is no problem if both are balanced. Without the nature of metastasis, cancer does not need to be afraid. Here is the importance of suppressing metastasis. This metastasis does not occur just by increasing the number of cancer cells. Cancer cells enter between blood vessels and lymph. It is being elucidated that it moves in a complex way, searching for a new “resident” and dive in. New actors have joined here. It is a protein called “nm13”. It was found to have an action of suppressing metastasis. "
Next, the recording medium 32 recorded / reproduced by the recording / reproducing unit 31 of the document processing apparatus will be described. The recording medium 32 stores a document processing program that displays a document having a hierarchical internal structure composed of a plurality of elements and a tag related to the internal structure.
[0095]
The document processing program selects a display process for displaying a document and an element constituting the document displayed by the display process, and when the selected element is further selected, the element in the upper hierarchy including the element in the internal structure And an input process for inputting the weight of the element selected in the input process, that is, a central active value setting process for setting the central active value higher than that of the element not selected.
[0096]
In the present embodiment, an example of a tagging method for a document has been shown, but it is needless to say that the present invention is not limited to this tagging method. In the present embodiment, the document is transmitted from the outside to the receiving unit 21 of the document processing apparatus, but the present invention is not limited to this. For example, the document may be written in the ROM 13 of the document processing apparatus or read from the recording medium 32 by the recording / reproducing unit 31.
[0097]
In the above-described embodiment, a mouse is illustrated as an example of a pointing device. However, the pointing device in the present embodiment is not limited to the mouse. In the present embodiment, for example, a stylus pen can be used as the pointing device.
[0098]
【The invention's effect】
As described above, according to the present invention, it is possible to increase the importance of a document having an internal structure by tagging by increasing its hierarchy according to the number of selections of elements constituting the document. Since the importance is created based on the importance, a summary reflecting the user's intention can be created.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a schematic configuration of a document processing apparatus to which an embodiment of the present invention is applied.
FIG. 2 is a diagram showing an internal structure of a sentence tag.
FIG. 3 is a diagram showing a window displaying an internal structure of text tags.
FIG. 4 is a flowchart showing a series of steps for increasing the importance of an arbitrary part of a sentence.
FIG. 5 is a diagram showing a summary window to which an embodiment of the present invention is applied.
FIG. 6 is a diagram showing a state in which a word is selected in the summary window.
FIG. 7 is a diagram illustrating a state in which a region selected in the summary window is further clicked.
FIG. 8 is a diagram showing a state in which a summary is displayed in a summary window.
FIG. 9 is a flowchart showing a series of steps for creating a summary according to a window size.
FIG. 10 is a flowchart showing a series of steps of active diffusion.
FIG. 11 is a diagram for explaining active diffusion processing;
FIG. 12 is a flowchart showing a series of steps of active diffusion link processing;
[Explanation of symbols]
10 main body, 11 control unit, 12 interface, 13 CPU, 20 input unit, 21 receiving unit, 30 display unit, 31 recording / reproducing unit

Claims (6)

複数の要素から構成される階層化された内部構造を有し、上記内部構造に関する属性情報がタグ付けによって付与された電子文書を表示する文書処理装置の文書処理方法において、
表示手段が上記電子文書を表示する表示工程と、
入力手段が、上記表示工程で表示された電子文書を構成する要素を選択し、選択された要素がさらに選択されることに応じて上記内部構造におけるその要素を含む上記階層の上位の要素を当該電子文書において重要度の高い要素として選択するように入力する入力工程と、
重み付け設定手段が、上記要素の重要度を示す重み付けを、上記入力工程で選択された要素の上記重み付けが選択されていない要素の上記重み付けに比べて高い値として設定する重み付け設定工程と、
要約作成手段が、上記重み付け設定工程で電子文書に設定された重み付けに基づいて上記電子文書の要約を作成する要約作成工程とを有し、
上記要約作成工程は、
中心活性値演算手段が、上記重み付け設定工程で設定された上記要素の重み付けと、上記電子文書の上記タグ付けによる内部構造における上記要素間の関連性に応じた値からなり上記要素の接続端点に対して付与される端点活性値の総和との合計値を上記電子文書が有する要素の中心活性値として算出する中心活性値演算工程を有し、上記要約作成手段が、上記中心活性値演算工程で算出された中心活性値に基づいて上記電子文書の要約を作成する文書処理方法。
In a document processing method of a document processing apparatus for displaying an electronic document having a hierarchical internal structure composed of a plurality of elements and having attribute information related to the internal structure added by tagging,
A display step in which the display means displays the electronic document;
The input means selects an element constituting the electronic document displayed in the display step, and in response to further selection of the selected element, selects a higher-order element in the hierarchy including the element in the internal structure. An input process for input to be selected as a highly important element in an electronic document;
A weighting setting step in which the weighting setting means sets the weighting indicating the importance of the element as a higher value than the weighting of the element for which the weighting of the element selected in the input step is not selected;
A summary creating means for creating a summary of the electronic document based on the weight set for the electronic document in the weight setting step;
The above summary creation process
The central activity value calculating means includes a value corresponding to the weighting of the element set in the weighting setting step and the relevance between the elements in the internal structure by the tagging of the electronic document. A central activity value calculating step of calculating a total value of the sum of the end point activity values given to the electronic document as a central activity value of an element of the electronic document, and the summary creating means includes the central activity value calculating step. A document processing method for creating a summary of the electronic document based on the calculated central activity value.
上記要約作成工程は、
文選択手段が、上記電子文書を構成する文について、上記中心活性値演算工程での演算の結果に基づいて、上記文を構成する要素の上記中心活性値の平均中心活性値が大きな順序で文を選択する文選択工程と、
必須構成要素抽出手段が、上記文選択工程で選択された文から必須構成要素を抽出する必須構成要素抽出工程と、
文骨格生成手段が、上記必須構成要素抽出工程で抽出した必須構成要素を接続して文の骨格を生成する文骨格生成工程と、
要約出力手段が、上記文骨格生成工程で生成した文の骨格を要約として出力する要約出力工程とをさらに有する請求項1記載の文書処理方法。
The above summary creation process
The sentence selecting means, for the sentences constituting the electronic document, the sentences having the average central activity value of the central activity values of the elements constituting the sentence in descending order based on the result of the calculation in the central activity value calculation step. A sentence selection step of selecting
An essential component extraction means for extracting an essential component from the sentence selected in the sentence selection step;
A sentence skeleton generation step in which the sentence skeleton generation means connects the essential components extracted in the essential component extraction step to generate a sentence skeleton;
The document processing method according to claim 1, further comprising: a summary output step in which the summary output means outputs the skeleton of the sentence generated in the sentence skeleton generation step as a summary.
上記必須構成要素抽出工程においては、上記必須構成要素抽出手段が、要素の首辞(head)と、主語(subject)、目的語(object)、間接目的語(indirect object)、所有者(posessor)、原因(cause)、条件(condition)または比較(comparison)の関係属性を有する要素と、等位構造が必須のときにはそれに直接含まれる要素が必須要素を構成する請求項2記載の文書処理方法。  In the required component extraction step, the required component extraction means includes the element head, subject, object, indirect object, and posessor. 3. The document processing method according to claim 2, wherein an element having a relationship attribute of cause, condition or comparison and an element directly included in the coordinate structure are essential elements. 上記入力工程においては、上記入力手段がポインティングデバイスを用いて要素を選択する請求項1記載の文書処理方法。  The document processing method according to claim 1, wherein in the input step, the input means selects an element using a pointing device. 複数の要素から構成される階層化された内部構造を有し、上記内部構造に関する属性情報がタグ付けによって付与された電子文書を表示する文書処理装置において、
上記電子文書を表示する表示手段と、
上記表示手段で表示された電子文書を構成する要素を選択し、選択された要素がさらに選択されると上記内部構造におけるその要素を含む上記階層の上位の要素を当該電子文書において重要度の高い要素として選択するように入力する入力手段と、
上記要素の重要度を示す重み付けを、上記入力手段で選択された要素の上記重み付けが選択されていない要素の上記重み付けに比べて高い値として設定する重み付け設定手段と、
上記重み付け設定手段によって電子文書に設定された重み付けに基づいて上記電子文書の要約を作成する要約作成手段とを備え、
上記要約作成手段は、
上記重み付け設定手段によって設定された上記要素の重み付けと、上記電子文書の上記タグ付けによる内部構造における上記要素間の関連性に応じた値からなり上記要素の接続端点に対して付与される端点活性値の総和との合計値を上記電子文書が有する要素の中心活性値として算出する中心活性値演算手段を備え、上記中心活性値演算手段によって算出された中心活性値に基づいて上記電子文書の要約を作成する文書処理装置。
In a document processing apparatus for displaying an electronic document having a hierarchical internal structure composed of a plurality of elements and having attribute information related to the internal structure added by tagging,
Display means for displaying the electronic document;
When an element constituting the electronic document displayed by the display means is selected, and the selected element is further selected, an element higher in the hierarchy including the element in the internal structure is highly important in the electronic document. An input means for input to select as an element;
Weight setting means for setting the weight indicating the importance of the element as a value higher than the weight of the element not selected for the weight selected by the input means;
A summary creation means for creating a summary of the electronic document based on the weight set for the electronic document by the weight setting means,
The summary creation means
The end point activity given to the connection end point of the element consisting of a value according to the weight of the element set by the weight setting means and the relationship between the elements in the internal structure by the tagging of the electronic document A central activity value calculating means for calculating a total value of the sum of the values as a central activity value of an element of the electronic document, and summarizing the electronic document based on the central activity value calculated by the central activity value calculating means Create document processing device.
複数の要素から構成される階層化された内部構造を有し、上記内部構造に関する属性情報がタグ付けによって付与された電子文書を表示する処理をコンピュータに実行させるための文書処理プログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
上記文書処理プログラムは、
上記電子文書を表示する表示処理と、
上記表示処理で表示された電子文書を構成する要素を選択し、選択された要素がさらに選択されることに応じて上記内部構造におけるその要素を含む上記階層の上位の要素を当該電子文書において重要度の高い要素として選択するように入力する入力処理と、
上記要素の重要度を示す重み付けを、上記入力処理で選択された要素の上記重み付けが選択されていない要素の上記重み付けに比べて高い値として設定する重み付け設定処理と、
上記重み付け設定処理で電子文書に設定された重み付けに基づいて上記電子文書の要約を作成する要約作成処理とをコンピュータに実行させるためのプログラムであって、
上記要約作成処理は、
上記重み付け設定処理で設定された上記要素の重み付けと、上記電子文書の上記タグ付けによる内部構造における上記要素間の関連性に応じた値からなり上記要素の接続端点に対して付与される端点活性値の総和との合計値を上記電子文書が有する要素の中心活性値として算出する中心活性値演算処理を有し、上記中心活性値演算処理で算出された中心活性値に基づいて上記電子文書の要約を作成する文書処理プログラムが記録されたコンピュータ読取可能な記録媒体。
A document processing program for causing a computer to execute a process of displaying an electronic document having a hierarchical internal structure composed of a plurality of elements and to which attribute information related to the internal structure is attached by tagging is recorded A computer-readable recording medium,
The above document processing program
Display processing for displaying the electronic document;
Select an element that constitutes the electronic document displayed in the display process, and if the selected element is further selected, the higher-level element including the element in the internal structure is important in the electronic document. Input processing to input to select as a high degree element,
A weight setting process for setting a weight indicating the importance of the element as a higher value than the weight of the element not selected for the element selected in the input process;
A program for causing a computer to execute summary creation processing for creating a summary of the electronic document based on the weight set for the electronic document in the weight setting processing,
The above summary creation process
The end point activity given to the connection end point of the element consisting of a value according to the weight of the element set in the weight setting process and the relationship between the elements in the internal structure by the tagging of the electronic document A central activity value calculation process that calculates a total value of the sum of the values as a central activity value of an element of the electronic document, and based on the central activity value calculated in the central activity value calculation process, A computer-readable recording medium on which a document processing program for creating a summary is recorded.
JP03154899A 1999-02-09 1999-02-09 Document processing method and apparatus, and recording medium Expired - Fee Related JP4320819B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03154899A JP4320819B2 (en) 1999-02-09 1999-02-09 Document processing method and apparatus, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03154899A JP4320819B2 (en) 1999-02-09 1999-02-09 Document processing method and apparatus, and recording medium

Publications (2)

Publication Number Publication Date
JP2000231565A JP2000231565A (en) 2000-08-22
JP4320819B2 true JP4320819B2 (en) 2009-08-26

Family

ID=12334254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03154899A Expired - Fee Related JP4320819B2 (en) 1999-02-09 1999-02-09 Document processing method and apparatus, and recording medium

Country Status (1)

Country Link
JP (1) JP4320819B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262306A (en) * 2007-04-10 2008-10-30 Sharp Corp Layout adjustment device, layout adjustment method, layout adjustment program and recording medium

Also Published As

Publication number Publication date
JP2000231565A (en) 2000-08-22

Similar Documents

Publication Publication Date Title
JP4214598B2 (en) Document processing method and apparatus, and recording medium
US4829423A (en) Menu-based natural language understanding system
US7085999B2 (en) Information processing system, proxy server, web page display method, storage medium, and program transmission apparatus
US7092872B2 (en) Systems and methods for generating analytic summaries
EP1038238B1 (en) Data input and retrieval apparatus
US20040205605A1 (en) Method and system for stylesheet rule creation, combination, and removal
US20110055209A1 (en) System and method for delivering content and advertisments
EP1109151A1 (en) Electronic document processor
JP2005537532A (en) Comprehensive development tool for building natural language understanding applications
JPH07319917A (en) Document data base managing device and document data base system
WO2000043909A1 (en) Method and device for processing documents and recording medium
Riehmann et al. WORDGRAPH: Keyword-in-context visualization for NETSPEAK's wildcard search
EP0118187B1 (en) Menu-based natural language understanding system
Singh Designing intelligent interfaces for users with memory and language limitations
JP2806867B2 (en) Document database construction method, display method, and display device
Verma et al. A framework for the next generation screen readers for visually impaired
JP4320819B2 (en) Document processing method and apparatus, and recording medium
JP4186321B2 (en) Document processing method and apparatus, and recording medium
JP2001109762A (en) Method and device for processing document and recording medium
Bhattacharya et al. Design of an iconic communication aid for individuals in India with speech and motion impairments
Narayanan et al. Iconic sql: Practical issues in the querying of databases through structured iconic expressions
WO2006051957A1 (en) Document processing device and document processing method
JP4345129B2 (en) Document processing method and apparatus, and recording medium
JP4938298B2 (en) Method and program for outputting candidate sentences to be included in text summary
JP4736728B2 (en) Content processing apparatus, content processing program, and content processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090512

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090525

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees