JP2000231565A - 文書処理方法および装置ならびに記録媒体 - Google Patents
文書処理方法および装置ならびに記録媒体Info
- Publication number
- JP2000231565A JP2000231565A JP3154899A JP3154899A JP2000231565A JP 2000231565 A JP2000231565 A JP 2000231565A JP 3154899 A JP3154899 A JP 3154899A JP 3154899 A JP3154899 A JP 3154899A JP 2000231565 A JP2000231565 A JP 2000231565A
- Authority
- JP
- Japan
- Prior art keywords
- document
- internal structure
- electronic document
- sentence
- document processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
ことにより、簡単なインターフェースで文書処理を実現
する。 【解決手段】 複数のエレメントから構成される階層化
された内部構造を有し、タグ付けによる内部構造に関す
る属性情報が付与された電子文書を表示するものであっ
て、表示部20に電子文書を表示し、入力部20で表示
部30で表示された電子文書を構成するエレメントを選
択し、選択されたエレメントがさらに選択されることに
応じて文書の内部構造におけるそのエレメントを含む階
層の上位のエレメントを選択するように入力し、制御部
11は入力部20で選択されたエレメントの重み付けを
選択されていない要素に比べて高く設定する。
Description
書処理方法および装置ならびに文書を処理する文書処理
プログラムが記録された記録媒体、詳しくは、文書を構
成するエレメントの重要度を高めるような文書処理方法
および装置ならびに上記エレメントの重要度を高めるよ
うなプログラムが記録された記録媒体に関する。
ドウ形式でハイパーテキスト型情報を提供するアプリケ
ーションサービスとしてWWW(World Wide Web)が提
供されている。
の文書処理を実行し、新しいスタイルの文書の在り方を
示したシステムである。しかし、文書の実際上の利用の
観点からは、文書の内容に基づいた文書の分類や要約と
いった、WWWを越える高度な文書処理が求められてい
る。このような高度な文書処理には、文書の内容の機械
的な処理が不可欠である。
は、以下のような理由から依然として困難である。第1
に、ハイパーテキストを記述する言語であるHTML
(Hyper Text Markup Language)は、文書の表現につい
ては規定するが、文書の内容についてはほとんど規定し
ない。第2に、文書間に構成されたハイパーテキストの
ネットワークは、文書の読者にとって文書の内容を理解
するために必ずしも利用しやすいものではない。第3
に、一般に文章の著作者は読者の便宜を念頭に置かずに
著作するが、文書の読者の便宜が著作者の便宜と調整さ
れることはない。
を示したシステムであるが、文書を機械的に処理しない
ために、高度な文書処理を行うことができなかった。換
言すると、高度な文書処理を実行するためには、文書を
機械的に処理することが必要となる。
て、文書の機械的な処理を支援するシステムが自然言語
研究の成果に基づいて開発されている。自然言語研究に
よる文書処理の最初のステップとして、文書の著作者等
による文書の内部構造についての属性情報、いわゆるタ
グの付与を前提とした、文書に付与されたタグを利用す
る機械的な文書処理が提案されている。
ピュータの普及や、ネットワーク化の進展に伴い、文章
処理や、文書の内容に依存した索引などで、テキスト文
書の作成、要約、ラベル付け、変更などを行う文書処理
の高機能化が求められている。このような高機能な文書
処理とともに、簡単なユーザインタフェースも求められ
ている。
ものであって、文書の内部構造を構成する要素を選択し
て重要度を高めるような文書処理方法および装置、なら
びに文書の内部構造を構成する要素を選択して重要度を
高めるような文書処理プログラムにより、簡単なユーザ
インターフェースで文書処理を実現することを目的とす
る。
めに、本発明に係る文書処理方法は、複数の要素から構
成される階層化された内部構造を有し、上記内部構造に
関する属性情報が付与された電子文書を表示する文書処
理方法において、上記文書を表示する表示工程と、上記
表示工程で表示された文書を構成する要素を選択し、選
択された要素がさらに選択されることに応じて上記内部
構造におけるその要素を含む上記階層の上位の要素を選
択するように入力する入力工程と、上記入力工程で選択
された要素の重み付けを選択されていない要素に比べて
高く設定する重み付け設定工程とを有するものである。
から構成される階層化された内部構造を有し、上記内部
構造に関する属性情報が付与された電子文書を表示する
文書処理装置において、上記文書を表示する表示手段
と、上記表示手段で表示された文書を構成する要素を選
択し、選択された要素がさらに選択されると上記内部構
造におけるその要素を含む上記階層の上位の要素を選択
するように入力する入力手段と、上記入力手段で選択さ
れた要素の重み付けを選択されていない要素に比べて高
く設定する重み付け設定手段とを有するものである。
構成される階層化された内部構造を有し、上記内部構造
に関する属性情報が付与された電子文書を表示する文書
処理プログラムが記録された記録媒体であって、上記文
書処理プログラムは、上記文書を表示する表示処理と、
上記表示処理で表示された文書を構成する要素を選択
し、選択された要素がさらに選択されると上記内部構造
におけるその要素を含む上記階層の上位の要素を選択す
るように入力する入力処理と、上記入力処理で選択され
た要素の重み付けを選択されていない要素に比べて高く
設定する重み付け設定処理とを有するものである。
係る文書処理方法および装置ならびに記録媒体の実施の
形態について説明する。
は、図1に示すように、制御部11およびインターフェ
ース12を備える本体10と、ユーザからの入力を受け
付けて本体10に送る入力部20と、外部からの信号を
受信して本体10に送る受信部21と、本体10からの
出力を表示する表示部30と、記録媒体32に対して情
報を記録/再生する記録/再生部312とを有してい
る。
ェース12を有し、この文書処理装置の主要な部分を構
成している。制御部11は、この文書処理装置における
処理を集中して実行するCPU13と、揮発性のメモリ
であるRAM14と、不揮発性のメモリであるROM1
5とを有している。CPU13は、たとえばROM14
に記録された手順にしたがって、必要な場合にはデータ
を一時的にRAM14に格納して、プログラムを実行す
るための制御を行う。インターフェース12には、入力
部20、受信部21、表示部31および記録/再生部3
2が接続される。インターフェース12は、制御部11
からの制御の下に、入力部20および受信部21からの
データの入力、表示部30へのデータの送信について、
データを送信するタイミングを調整したり、データの形
式を変換したりする。
ユーザの入力を受け付ける部分である。この入力部20
は、たとえばキーボードやマウスにより構成される。ユ
ーザは、この入力部20を用い、キーボードによりキー
ワードを入力したり、マウスにより表示部30に表示さ
れている文書のエレメントを選択して入力したりするこ
とができる。ここで、エレメントとは文書を構成する要
素であって、たとえば文書、文および語が含まれる。
らたとえば通信回線を介して送信される信号を受信する
部分である。この受信部21は、たとえば電子文書であ
る複数の文書を受信する。受信部21は、受信したデー
タを本体10に送る。
力結果を表示するものである。この出力部30は、たと
えば陰極線管(cathode ray tube;CRT)や液晶表示装置
(liquid crystal display;LCD)から構成され、たとえ
ば単数または複数のウィンドウを表示し、このウィンド
ウ上に文字、図形等を表示したりする。
制御部11の制御の下に、たとえばいわゆるフロッピー
ディスクのような記録媒体32に対して情報の記録/再
生を行う。記録媒体32には、たとえばユーザが文書中
の任意の部分の重要性を上げるアルゴリズムが記録され
ている。なお、この記録媒体32についてはさらに後述
する。
て説明する。本実施の形態においては、文書は、その内
部構造をタグ付けによる属性情報によって記述されてい
る。文書処理装置における文書処理は、文書に付与され
たタグを参照して行われる。本実施の形態においては、
文書の構造を示す統語論的タグ付けとともに、多言語間
で文書の機械的な内容理解を可能にするような意味的・
語用論的タグを文書に与えている。
付けとしては、ツリー状のタグ付けによる内部構造を記
述するものがある。すなわち、図2に示すように、本実
施の形態においては、このタグ付けによる内部構造、文
書、文、語彙エレメント等の各エレメント、通常リン
ク、参照・被参照リンク等が、タグとしてあらかじめ文
書に付与されている。図中において、白丸“○”は文書
の要素すなわちエレメントであり、最下位の白丸は文書
における最小レベルの語に対応する、語彙エレメントで
ある。また、実線は語、句、節、文等の文書の構造を示
す通常リンク(normal link )である。破線は参照・被
参照による係り受け関係を示す参照リンク(reference
link)である。文書のタグ付けによる内部構造は、上位
から下位への順序で、文書(document)、文書の下位で
あり段落の上位であるオプションのサブディビジョン
(subdivision )、オプションの段落(paragraph)、
文(sentence )、文の下位であるサブセンテンシャル
セグメント(subsentential segment )、・・・、最下
位の語彙エレメントのような階層構造である。
的なタグ付けとしては、係り受け、たとえば代名詞の指
示対象、多義語の意味のように統語(syntactic)・意
味(semantic)等の情報を記述するタグがある。このよ
うなタグ付けは、HTML(Hyper Text Markup Langua
ge)と同様にXML(Extended Markup Language)の形
式のタグである。
に示すが、文章へのタグ付けはこの方法に限られないこ
とはもちろんである。
w.”という文については、 <文><名詞句 語義=“time0”>time</名詞句> <動詞句><動詞 語義=“fly1”>flies</動詞> <形容動詞句><形容動詞 語義=like0>like</形
容動詞> <名詞句>an<名詞 語義=“arrow0”>arr
ow</名詞></名詞句> </形容動詞句></動詞句>.</文> というようにタグ付けすることができる。ここで<文
>、<名詞>、<名詞句>、<動詞>、<動詞句>、<
形容動詞>、<形容動詞句>は、それぞれ一文、名詞、
名詞句、動詞、動詞句、前置詞句、後置詞句を含む形容
詞/形容詞句、形容詞句/形容動詞句のような文の統語
構造(syntactic structure )を表している。タグは、
エレメントの先端の前および終端の後に対応して配置さ
れる。ここでは、エレメントの終端の後ろに配置される
タグは、記号“/”により、文書の最小単位の要素、す
なわちエレメントの終端であることを示している。この
エレメントは統語的構成素、すなわち句、節、および文
を示す。なお、語義=time0は、語timeの有する複数の
意味、すなわち複数の語義のうちの第0番目の意味を指
している。具体的には、timeには名詞と動詞があるが、
ここではtimeが名詞であることを示している。たとえ
ば、語“オレンジ”は色と果物の意味があるが、これら
も語義によって区別することができる。
は、図3のウインドウ101に示すように、その統語構
造を表示することができる。このウインドウ101にお
いては、右半分103が語彙エレメントを、左半分10
2が文の構造を示している。
た次に示すような文書が表示されている。この文書にお
いても、タグによって統語構造が記述されている。次に
示す文書は、「A氏のB会が終わったC市で、一部の大
衆紙と一般紙がその写真報道を自主規制する方針を紙面
で明らかにした。」についてのタグ付けによる内部構造
を示すものである。 <文書><文><形容動詞句 関係=“場所”><名詞
句><形容動詞句 場所=“C市”> <形容動詞句 関係=“主語”><名詞句 識別子=
“B会”><形容動詞句 関係 “位置”>A氏の</形容動詞句>B会</名詞
句>が</形容動詞句>終わった</形容動詞句><地
名 識別子=“C市”>C市</地名></名詞句>
で、</形容動詞句><形容動詞句 関係=“主語”>
<名詞句 識別子=新聞" 統語=“並列”><名詞句>
<形容動詞句>一部の</形容動詞句>大衆紙</名詞
句>と<名詞>一般紙</名詞></名詞句>が</形
容動詞句><形容動詞句 関係=“目的語”><形容動
詞句 関係=“内容” 主語=“新聞”><形容動詞句
関係=“目的語”><名詞句><形容動詞句><名詞
共参照=“B”>そ</名詞>の</形容動詞句>写
真報道</名詞句>を</形容動詞句> 自主規制する</形容動詞句>方針を</形容動詞句> <形容動詞句 関係=“場所”>紙面で</形容動詞句
> 明らかにした。</文></文書> この文章においては、「一部の大衆紙と一般紙」のよう
に、統語=“並列”は並列を表す。並列の定義は、係り
受け関係を共有すると言うことである。特に何も指定が
ない場合は、たとえば、<名詞句 関係=x><名詞>
A</名詞><名詞>B</名詞></名詞句> はA
がBに依存関係のあることを表す。また、関係=x はこ
の<名詞句>エレメントの関係属性を表している。
修辞についての相互関係を記述する関係属性について説
明する。
能、動作主、被動作者、受益者などのような主題役割、
および理由、結果などのような修辞関係はこの関係属性
によって表示する。関係属性は関係=*** という形で表
される。本実施の形態では、比較的容易な文法機能、す
なわち、主語、目的語、間接目的語のような文における
当該語の機能について関係属性を記述する。
された文書について、文書中のユーザの選択したエレメ
ントの重要度をユーザの操作により高める手順を図4に
示すフローチャートを参照して説明する。
11は文書中のエレメントがユーザにより選択されたか
否かを判断する。この判断は、ユーザによる入力を受け
付けるグラフィックユーザインタフェース(grafic user
interface; GUI)を用いた選択により行われる。文書処
理装置においては、このGUIとして、図5に示すよう
なウィンドウ51が表示部30に表示されている。
示するファイル名表示部52と、ファイル名表示部52
に表示されたファイル名の文書を表示する文書表示部5
3と、文書表示部53に表示された文書の要約を表示す
る要約表示部54を有している。文書表示部53には、
ファイル名表示部52にファイル名または文書の先頭部
分が表示された文書の全部または一部が表示される。文
書表示部53に文書の一部のみが表示されたときには、
たとえば文書表示部53に表示されている文書をスクロ
ールすることにより、順次に文書の全体を閲覧すること
ができる。要約表示部53には、この要約表示部54の
大きさに対応して、後述する処理によって文書表示部5
3に表示された文書の要約が表示される。要約表示部5
3は、また要約が作成されていないので、空白となって
いる。なお、文書処理部53と要約表示部54のサイズ
はそれぞれ変更が可能である。このウィンドウ51にお
いて取り扱う文書は、たとえば文書処理装置の受信部2
1で受信されて、記録/再生部31やRAM14に記録
されたものである。
を入力するキーワード入力部55と、複数のボタンを有
するボタン部56とを有している。キーワード入力部5
5には、キーワードを入力することにより、文書表示部
54に表示された語のうちでキーワードと関連度の高い
語の重要度が高められる。ボタン部56には、実行した
結果をもとに戻す“アンドゥ(Undo)”ボタンと、文書表
示部53に表示された文章を要約して要約表示部54に
表示する処理を実行する“要約(summarize)”ボタンと
を備えている。このうち、“要約”ボタンを選択するこ
とにより、たとえば要約表示部54のサイズが変更され
たときにも、新たな要約表示部54の新たなサイズに対
応するように文書処理部53に表示されている文書の要
約が生成され、生成された要約は要約表示部54に表示
される。
て、ユーザが“要約”ボタンを選択することにより、所
望のエレメントの重要度を上げる処理を説明する。
のステップS11では、制御部11は、文書処理装置の
表示部30に表示されたウィンドウ51において、文書
表示部53に表示された文章中のエレメントがユーザに
よって選択されたか否かを判断する。文書表示部53中
のエレメントを選択して入力する文書処理装置の入力部
20としては、ポインティングデバイスを用いて、この
ポインティングデバイスに連動する表示部30に表示さ
れたカーソルを操作することにより行うことができる。
たとえば、ポインティングデバイスとしてマウスを採用
した場合には、マウスを操作してカーソルを文書処理部
53の所望のエレメントにあわせ、マウスでクリックす
ることによりそのエレメントを選択する。文書表示部5
3においてエレメントが選択されると、選択されたエレ
メントを明瞭に示すために、選択されたエレメントがた
とえばハイライト表示される。図6においては、ウィン
ドウ51の文書表示部53においては、選択された最小
のエレメントである語彙エレメント“mainframe”57
がハイライト表示されている。要約表示部53は、まだ
要約が作成されていないので、空白となっている。制御
部11は、このようにしてエレメントが選択されると
“YES”として処理を次のステップS12に進める。
制御部11は、エレメントが選択されないとき、たとえ
ば所定時間内に入力がなかったり、文書表示部53の文
章が表示されている部分以外がマウスによってクリック
されたときには、“NO”として再びこのステップS1
1に処理を戻し、エレメントの入力を待つことにする。
なお、以下では、説明の便宜のために入力部20のポイ
ンティングデバイスとしてはマウスを利用するものとし
て説明を進める。
部11は、ステップS11において選択されたが、過去
にマウスでクリックすることにより選択された語である
か否かが判断される。制御部11は、そのエレメントが
過去にマウスでクリックすることにより選択されたエレ
メントであるときには“YES”として処理をステップ
S13に進める。制御部11は、そのエレメントが過去
にマウスでクリックすることにより選択されたエレメン
トでないときには、“NO”として処理をステップS1
4に進める。
部11は、選択されているエレメントが、文章エレメン
トであるか否かを判別する。制御部11は、レベルが文
章エレメントであるときには“YES”として処理をス
テップS11に戻す。制御部11は、レベルが文章エレ
メントでないときには“NO”として処理を次のステッ
プS15に進める。
部11は、レベルを、文書の最小のエレメントであって
文書のタグ付けによる内部構造の最下位のエレメントで
ある語彙エレメントに設定する。そして、制御部11
は、処理をステップS11に戻す。
部11は、レベルを1増加させる。たとえば、このよう
にレベルが1増加することにより、ステップS11で選
択された語彙エレメント“mainframe”57について
は、図7に示すように、この語彙エレメントを含む次に
大きな上位のエレメント“Big mainframe computer
s”59が選択され、この部分“Big mainframe compu
ters”59がハイライト表示されることになる。同時
に、制御部11は、選択された上位のエレメントの重み
付け、すなわち中心活性値を選択されていないエレメン
トよりも高める。そして、制御部11は、処理をステッ
プS11に戻す。
た“要約”ボタンがマウスのクリックにより選択される
と、文書表示部53に表示された文章の要約が要約表示
部54に表示される。“要約”ボタンが選択されると、
制御部11は、図4に示した一連の工程から処理を割り
込みにより脱出するように制御し、要約を作成する処理
を開始する。要約は、文書表示部53に表示された文書
から、要約表示部54のサイズに合わせて、要約表示部
54の領域を満たすように生成される。図8に示すよう
に、要約表示部54に表示された要約には、文書表示部
59においてハイライト表示されたエレメント“Big m
ainframe computers”59に対応するエレメント“Big
mainframe computers”60が表示されている。この
ように、ウィンドウ51の文書表示部53において所望
のエレメントを選択して重要度を高めることにより、そ
のエレメントが要約に含まれる可能性を高くすることが
できる。なお、要約の生成の詳細については、さらに後
述する。
文のどれでも、当該エレメントを選択することにより、
要約に含まれる可能性を高くするようにマークすること
ができる。GUIのウィンドウ51は、ユーザにこれら
のエレメントをマウスやスタイラスペンのようなポイン
ティングデバイスによって選択することを許容する。ユ
ーザはエレメントの上をクリックすることにより容易に
選択することができる。クリックの数はその語を含むク
リックの数だけより大きなエレメントに対応している。
選択されたエレメントは、活性拡散においてより高い中
心活性値の初期値を有することになる。
51においては、文書表示部53に表示された文書中の
エレメントの選択はマウスによるクリック以外にも、キ
ーワード入力部55にキーワードを入力することによっ
て選択することができる。制御部11は、このようにキ
ーワード入力部55に入力されたキーワードに関連する
エレメントの重要度を上げる処理を行う。キーワードと
エレメントの関連度は、たとえばROM15に記録され
たテーブルを参照することにより得る。この参照は、キ
ーワードが含まれるエレメントをタグ付けによって参照
することによりおこなわれる。
に表示される要約を作成する処理について図9に示すフ
ローチャートを参照して説明する。文書から要約を作成
する処理は、文書のタグ付けによる内部構造に基づいて
実行される。上述したように、ウィンドウ51における
文書表示部53と要約表示部54のサイズは、それぞれ
変更することができる。文書処理装置の制御部11は、
新たにウィンドウ51が表示部30に描画されるか要約
表示部54のサイズが変更されたときには、要約ウィン
ドウ54に適合するようにウィンドウ51の文書表示部
53に表示されている文書から要約を作成する処理を実
行する。
表示された状態でボタン部56の“要約”ボタンがマウ
スのクリックにより選択されると、図9のフローチャー
トが文書処理装置の制御部11によって開始される。
理装置の制御部11は、活性拡散を行う。タグ付けによ
る内部構造を与えられた文書においては、活性拡散と呼
ばれる処理を行うことにより、各エレメントにタグ付け
による内部構造に応じた中心活性値を付与することがで
きる。活性拡散は、中心活性値の高いエレメントと関わ
りのあるエレメントにも高い中心活性値を与えるような
処理である。すなわち、活性拡散は、照応(共参照)表現
とその先行詞の間で中心活性値が等しくなり、それ以外
では中心活性値が減衰するような中心活性値についての
演算である。この中心活性値は、タグ付けによる内部構
造に応じて決定されるので、タグ付けによる内部構造を
考慮した文書の分析に利用することができる。
す一連の行程にしたがって、文書処理装置の制御部11
の制御の下に実行される。
は、処理を施す当該エレメントをe0に設定する。ステ
ップS32では、制御部11は、当該エレメントについ
て入力中心活性値があるか否かについて判別する。ステ
ップS32においては、図4に示したように、ユーザに
よってたとえば図5に示したようなGUIのウィンドウ
51においてエレメントが選択されることにより中心活
性値の入力がなされたか否かが判断される。制御部11
は、中心活性値の入力がなされたときには“YES”と
して処理をステップS33に進める。制御部11は、中
心活性値の入力がなされないときには“NO”として処
理をステップS34に進める。
活性値を入力中心活性値に設定する。一方、ステップS
34では、制御部11は、中心活性値を0に設定する。
このように、入力中心活性値は、クリックされて選択さ
れたエレメントに与えられる。選択されて入力される入
力中心活性値は、他のエレメントの中心活性値より大で
あればよい。なお、多のエレメントの中心活性値は、た
とえば“0”とすることができる。
を施す当該エレメントを一つ進める。すなわち、エレメ
ントe=e+1と設定する。ステップS36では、制御
部11は、当該エレメントが最後のエレメントであるか
否かを判断する。そして、そのエレメントが最後のエレ
メントであるときには“YES”として処理をステップ
S37にすすめ、そのエレメントが最後のエレメントで
はないときには“NO”として処理をステップS32に
戻す。
の制御部11は、図11に示すように、文書を構成する
エレメントEiを計数するカウンタの初期化を行う。す
なわち、エレメントを計数するカウンタのカウント値i
を1に設定する。すなわち、このカウンタは、第1番目
のエレメントE1を参照している。
レメントとリンクの構造の一部として、エレメントEi
およびエレメントEjが示されている。エレメントEiと
エレメントEjとは、中心活性値eiおよびejをそれぞ
れ有し、リンクLijにて接続されている。リンクLijの
エレメントEiに接続する端点はTij、エレメントEjに
接続する端点はTjiである。エレメントEiは、リンク
Lijにより接続されるエレメントEjの他に、リンクL
ik、LilおよびLimによって図示しないエレメント
Ek、ElおよびEmにそれぞれ接続している。エレメン
トEjは、リンクLjiにより接続されるエレメントEiの
他に、リンクLjp、LjqおよびLjrによって図示しない
エレメントEp、EqおよびErにそれぞれ接続してい
る。
の制御部11は、カウンタが参照するエレメントについ
て、新たな中心活性値を計算するリンク処理を実行す
る。このリンク処理については、さらに後述する。
の制御部11は、文書中のすべてのエレメントについて
新たな中心活性値の計算が完了したか否かを判断する。
そして、制御部11は、文書中のすべてのエレメントに
ついて新たな中心活性値の計算が完了したときには“Y
ES”としてステップS40に処理を進め、文書中のす
べてのエレメントについて中心活性値の計算が完了して
いないときには“NO”としてステップS42に処理を
進める。
ウント値iが、文書の含むエレメントの総数に達したか
否かを判断する。そして、制御部11は、カウンタのカ
ウント値iが文書に含まれるエレメントの総数に達した
ときには、すべてのエレメントが計算済みとしてステッ
プS40に処理を進め、カウンタのカウント値iが文書
に含まれるエレメントの総数に達していないときにはす
べてのエレメントについて計算が終了していないとして
ステップS42に処理を進める。
の制御部11は、カウンタのカウント値iを1増加させ
て、カウンタのカウント値をi+1とする。このことに
より、カウンタはi+1番目のエレメント、すなわち次
のエレメントを参照する。そして、処理はステップS3
8に戻り、端点活性値の計算およびこれに続く一連の行
程が、次のi+1番目のエレメントについて実行され
る。
計数するカウンタのカウント値iを1増加する。このこ
とにより、カウンタはステップS38で中心活性値が計
算された次のエレメントを参照することになる。
の制御部11は、文書に含まれるすべてのエレメントの
中心活性値の変化分、すなわち新たに計算された中心活
性値の元の中心活性値に対する変化分について、文書に
含まれるすべてのエレメントについて平均値を計算す
る。
AM14に記録された元の中心活性値と新たに計算した
中心活性値を、文書に含まれるすべてのエレメントにつ
いて読み出す。制御部11は、新たに計算した中心活性
値の元の中心活性値に対するそれぞれの変化分の総和を
文書に含まれるエレメントの総数で除することにより、
すべてのエレメントの中心活性値の変化分の平均値を計
算する。制御部11は、このように計算したすべてのエ
レメントの中心活性値の変化分の平均値を、たとえばR
AM14に記録する。
は、ステップS40で計算したすべてのエレメントの中
心活性値の変化分の平均値が、予め設定された閾値以内
であるか否かを判断する。そして、制御部11は、上記
変化分が閾値以内であると“YES”としてこの一連の
行程を終了する。上記制御部11は、上記変化分が閾値
以内でないときには“NO”として、ステップS37に
てカウンタのカウント値iを1に設定して文書のエレメ
ントの中心活性値を計算する一連の行程を再び実行す
る。この一連の行程にて構成されるステップS37から
ステップS39に至るループが繰り返される毎に上記変
化分は徐々に減少する。
心活性値を計算するリンク処理について、図12に示す
フローチャートを参照して説明する。
の制御部11は、文書を構成するエレメントEjを計数
するカウンタの初期化を行う。すなわち、エレメントを
計数するカウンタのカウント値jを1に設定する。すな
わち、このカウンタは、第1番目のエレメントEjを参
照している。
iとEjを接続するリンクLijにおいては、制御部11
は、タグを参照することにより、そのリンクLijが通常
リンクであるか否かを判断する。制御部11は、リンク
Lijについて、そのリンクが、語に対応する語彙エレメ
ント、文に対応する文エレメント、段落に対応する段落
エレメントなどの間の関係を示す通常リンクと、参照・
被参照による係り受けの関係を示す参照リンクのいずれ
であるかを判断する。制御部11は、そのリンクが通常
リンクのときには“YES”としてステップS53に処
理を進め、そのリンクが参照リンクのときには“NO”
としてステップS54に処理を進める。
ijに対して、接続された端点の新たな端点活性値を計算
する処理が行われる。この端点活性値の計算について、
図11を参照して説明する。
より、リンクLijは通常リンクであることが明らかにな
っている。通常リンクLijを介して、エレメントEiに
接続する端点Tijの新たな端点活性値tijは、エレメン
トEiの端点活性値のうち,リンクLij以外のリンクに
接続するすべての端点の端点活性値tik、tilおよびt
imと、このエレメントEiがリンクLijにより接続され
るエレメントEjの中心活性値ejを加算し、この加算で
得た値を文書に含まれるエレメントの総数で除すること
により求められる。
は、端点Tijを一端とするリンクLijが通常リンクの場
合、リンクLijの他端が接続されているエレメントEj
の端点の端点活性値のうちそのリンクLijと接続されて
いる端点Tjiを除いたすべての端点の端点活性値、およ
びそのリンクLijが接続されるエレメントEjの中心活
性値ejの和を文書全体に含まれるエレメントの総数で
除することにより得られる。このような手順により、活
性拡散における中心活性値の収束が保証されることにな
る。
AM14に記録されたデータから、必要な端点活性値お
よび中心活性値を読み出す。制御部11は、読み出され
た端点活性値および中心活性値について、上述のように
その通常リンクと接続された端点の端点活性値を計算す
る。そして制御部11は、このように計算した新たな端
点活性値を、たとえばRAM14に記録する。
対して、そのリンクの端点の端点活性値を計算する処理
が行われる。
クLijは参照リンクであることが明らかになっている。
通常リンクLijに関して、エレメントEiに接続する端
点Ti jの端点活性値tijは、このリンクLijを除いたエ
レメントEiに接続するすべてのリンクLik、Lilおよ
びLimの端点活性値tik、tilおよびtimと、このエレ
メントEiがリンクLijにより接続するエレメントEjの
中心活性値ejを加算することにより求められる。
は、端点Tijを一端とするリンクLijが参照リンクの場
合、リンクLijの他端が接続されているエレメントEj
の端点の端点活性値のうちそのリンクLijと接続されて
いる端点Tjiを除いたすべての端点の端点活性値、およ
びそのリンクLijが接続されるエレメントEjの中心活
性値ejの和を取ることにより得られる。
AM14に記録されたデータから、必要な端点活性値お
よび中心活性値を読み出す。制御部11、読み出された
端点活性値および中心活性値を用いて、上述のように参
照リンクと接続された端点の新たな端点活性値を計算す
る。そして制御部11は、このように計算した端点活性
値を、たとえばRAM14に記録する。
理、およびステップS54における参照リンクの処理
は、ステップS52からS55のループにおけるカウン
ト値iにより参照されているエレメントEiに接続する
すべてのエレメントEjについてのリンクLijに対して
実行される。
の制御部11は、ステップS53またはステップS54
での処理に基づいて、エレメントEiの端点活性値を計
算する。制御部11は、この計算により得られた端点活
性値をたとえばRAM14に記録する。
iに接続するすべてのリンクについて端点活性値tijが
計算されたか否かが判別される。そして、すべてのリン
クについて端点活性値が計算されているときには“YE
S”としてステップS57に進み、すべてのリンクにつ
いて端点活性値が計算されていないときには“NO”と
してステップS58に進む。
レメントEiのすべてのリンクLijについて端点活性値
tijが求められたことが判別されたので、エレメントE
iの中心活性値eiの更新を実行する。
すなわち更新値は、エレメントEiのすべての端点の中
心活性値の和ei’=ei+Σtj’を取ることにより求
められる。ここで、“’”は、新たな値という意味であ
る。このように、新たな中心活性値は、各エレメントに
リンクを介して接続するすべて端点の端点活性値の総和
と元の中心活性値を加えることにより得られる。
AM14に記録されたデータから必要な端点活性値tij
を読み出す。制御部11は、上述したような計算を実行
し、そのエレメントEiの中心活性値eiを算出する。そ
して、制御部11は、計算した新たな中心活性値eiを
たとえばRAM14に記録する。
は、上述したステップS20に続いてステップS21で
は、文書処理装置の制御部11は、表示部30に表示さ
れているウィンドウ51の文書処理部53のサイズ、具
体的にはこの文書処理部53に表示可能な最大文字数を
wsと設定する。また、文書処理装置の制御部11は、
要約の文字列を格納するsを初期化して初期値s
0=””と設定する。制御部11は、このように設定し
た、文書表示部53に表示可能な最大文字数wsおよび
要約の文字列を格納するsの初期値s0を、たとえばR
AM14に記録する。
部11は、要約の骨格の順次の作成をカウントするカウ
ンタのカウント値iを零に設定する。すなわち、制御部
11は、カウント値について、i=0と設定する。制御
部11は、このように設定したカウント値iをたとえば
RAM14に記録する。
部11は、カウンタのカウント値iについて、文章から
i番目に平均中心活性値の高い文の骨格を抽出する。平
均中心活性値とは、一つの文を構成する各エレメントの
中心活性値を平均したものである。制御部11は、たと
えばRAM14に記録した要約を格納するsi-1を読み
出し、このsi-1に対して抽出した文の骨格の文字列を
加えて、siとする。そして、制御部11は、このよう
にして得たsiを、たとえばRAM14に記録する。同
時に、制御部11は、上記文の骨格に含まれないエレメ
ントの中心活性値順のリストliを作成し、このリスト
liをたとえばRAM14に記録する。
は、要約のアルゴリズムは、活性拡散の結果を用いて、
平均中心活性値の大きい順に文を選択し、選択された文
の骨格の抽出する。文の骨格は、文から抽出した必須要
素により構成される。必須要素になりうるのは、エレメ
ントの主辞(head)と、主語(subject)、目的語(objec
t)、間接目的語(indirect object)、所有者(posesso
r)、原因(cause)、条件(condition)または比較(compari
son)の関係属性を有する要素と、等位構造が必須要素の
ときにはそれに直接含まれるエレメントとが必須要素を
構成するものである。そして、文の必須要素をつなげて
文の骨格を生成し、要約に加える。
部11は、siの長さがウィンドウ51の要約表示部5
4の最大文字数wsより大きいか否かを判断する。そし
て、制御部11は、siの長さが最大文字数wsより大き
いときには“YES”としてこの一連の処理を終了す
る。制御部は、siの長さが最大文字数wsより大きくな
いときには“NO”として処理をステップS25に進め
る。すなわち、このステップS24においては、要約文
書が指定された分量に達したときは終了する。まだ余裕
がある場合は、次に中心活性値の高い文と省略したエレ
メントの中心活性値を比較して、高いほうを要約に加え
るものである。
部11は、ステップS24でsiの長さが最大文字数ws
より大きいと判断されたので、要約文をsi-1に設定す
る。この場合、要約はウィンドウにおさまらないのでs
i=s0=“”を出力する。これは、要約が作成されない
ことを意味する。そして、制御部11は、この一連の工
程を終了する。
部11は、i+1番目に平均中心活性値が中心活性値
と、ステップS23で作成したリストliの要素の最も
中心活性値が高い要素の中心活性値を比較する。そし
て、制御部11は、i+1番目に平均中心活性値が高い
文の中心活性値がリストliの要素の最も中心活性値が
高い要素の中心活性値より高いときには“YES”とし
て処理を次のステップS27に進める。制御部11は、
i+1番目に平均中心活性値が高い文の中心活性値がリ
ストliの要素の最も中心活性値が高い要素の中心活性
値より高くないときには“NO”として処理をステップ
S26に進める。
部11は、カウンタのカウント値iを1だけ増加させ
る。そして、制御部11は、処理をステップS23に戻
す。
の制御部11は、リストliの最も中心活性値の高い要
素eをsiに加えてssiを生成する。eをliから削除
する。そして、制御部11は、このようにして生成した
ssiをたとえばRAM14に記録する。
の制御部11は、ssiの長さがウィンドウ51の要約
表示部54の最大文字数wsより大きいか否かを判別す
る。制御部11は、ssiの長さがwsより大きいときに
は“YES”としてこの一連の工程を終了する。制御部
11は、ssiの長さがwsより大きくないときには“N
O”として処理をステップS25に戻す。
の制御部11は、ステップS28でSSiの長さが最大
文字数wsより大きいと判断されたので、要約文をsiに
設定する。これにより、最大文字数wsより大きくなら
ないように要約文が生成される。そして、制御部11
は、この一連の工程を終了する。
を、以下の新聞記事に適用することにする。
押さえられる!? がんはこの十数年来、わが国の死因の第一位を占めてい
る。その死亡率は年齢が進むとともに増加傾向にある。
高齢者の健康を考えるとき、がんの問題を避けて通れな
い。がんを特徴づけるのは、細胞増殖と転移である。人
間の細胞には、自動車でいえばアクセルに当たり、がん
をどんどん増殖する「がん遺伝子」と、ブレーキ役の
「がん抑制遺伝子」がある。
い。正常な調節機能が失われ、細胞内でブレーキが利か
ない変異が起こると、がんの増殖が始まる。高齢者の場
合、長い年月の間にこの変異が蓄積し、がん化の条件を
備えた細胞の割合が増え、がん多発につながるわけだ。
質がなければ、がんはそれほど恐れる必要はない。切除
するだけで、完治が可能になるからである。転移を抑制
することの重要性がここにある。
しない。がん細胞が細胞と細胞の間にある蛋白(たんぱ
く)質などを溶かし、自分の進む道をつくって、血管や
リンパ間に入り込む。循環しながら新たな“住み家”を
探して潜り込む、といった複雑な動きをすることが、近
年解明されつつある。
m13」と呼ばれる蛋白質である。未解明な部分が多い
が、転移を抑制する作用があることが米国の研究で分か
った。がんの診断、治療の面から期待が集まっている。
究を続けてきた「NDPキナーゼ」(細胞構築に必要な
素材を提供したり、脳などから指令を受ける譲歩伝達系
の一部も構成する)と同一物とわかったのである。以
来、私たちの身辺はにわかに慌ただしくなった。
ような作用をするのか、まだ分かっていない。私たちは
多くのデータを持っている。その研究成果を生かすチャ
ンスである。偶然とはいえ、こんなところに科学研究の
醍醐味(だいごみ)が隠されているのである。」上述の
文章を、図9に示した手順にしたがって要約すると、次
に示すようになる。なお、この要約は、ウィンドウ51
における要約表示部54の大きさに適合するような長さ
で作成される。
押さえられる!? がんはこの十数年来、わが国の死因の第一位を占めてい
る。その死亡率は増加傾向にある。高齢者の健康を考え
るとき、がんの問題を避けて通れない。がんを特徴づけ
るのは、細胞増殖と転移である。「がん遺伝子」と、ブ
レーキ役の「がん抑制遺伝子」がある。双方のバランス
が取れていれば問題はない。転移という性質がなけれ
ば、がんは恐れる必要はない。転移を抑制することの重
要性がここにある。この転移、がん細胞が増えるだけで
は発生しない。がん細胞が血管やリンパ間に入り込む。
新たな“住み家”を探して潜り込む、といった複雑な動
きをすることが、解明されつつある。ここに新しい役者
が加わった。「nm13」と呼ばれる蛋白質である。転
移を抑制する作用があることが分かった。」次に、文書
処理装置の記録/再生部31において記録/再生される
記録媒体32について説明する。記録媒体32には、複
数のエレメントから構成される階層化された内部構造を
有し、上記内部構造に関するタグが付与された文書を表
示する文書処理プログラムが記録されている。
示処理と、表示処理で表示された文書を構成するエレメ
ントを選択し、選択されたエレメントがさらに選択され
ると内部構造におけるそのエレメントを含む上位の階層
のエレメントを選択するように入力する入力処理と、入
力処理で選択されたエレメントの重み付け、すなわち中
心活性値を選択されていないエレメントに比べて高く設
定する中心活性値設定処理とを有する。
タグ付けの方法の一例を示したが、本発明がこのタグ付
けの方法に限定されないことはもちろんである。また、
本実施の形態においては、文書処理装置の受信部21に
外部から文書が送信されるとしたが、本発明はこれに限
定されない。たとえば、上記文書は、文書処理装置のR
OM13に書き込まれていたり、記録/再生部31にお
いて記録媒体32から読み出されてもよい。
ンティングデバイスの一例としてマウスを例示した。し
かし、本実施の形態におけるポインティングデバイスは
マウスに限定されることはな。本実施の形態において
は、ポインティングデバイスとして、たとえばスタイラ
スペンも利用することができる。
けによる内部構造を有する文書について、この文書を構
成するエレメントを選択の回数に応じてその階層を高め
ることにより重要度を上げることができる。この重要度
は、要約の作成はこの重要度に基づいて行われるので、
ユーザの意向を反映した要約を作成することができる。
概略的な構成を示すブロック図である。
ウを示す図である。
を示すフローチャートである。
を示す図である。
示す図である。
にクリックした状態を示す図である。
図である。
の工程を示すフローチャートである。
である。
ローチャートである。
13 CPU、20入力部、21 受信部、30 表示
部、31 記録/再生部
Claims (7)
- 【請求項1】 複数の要素から構成される階層化された
内部構造を有し、上記内部構造に関する属性情報が付与
された電子文書を表示する文書処理方法において、 上記電子文書を表示する表示工程と、 上記表示工程で表示された電子文書を構成する要素を選
択し、選択された要素がさらに選択されることに応じて
上記内部構造におけるその要素を含む上記階層の上位の
要素を選択するように入力する入力工程と、 上記入力工程で選択された要素の重み付けを選択されて
いない要素に比べて高く設定する重み付け設定工程とを
有することを特徴とする文書処理方法。 - 【請求項2】 上記重み付け設定工程で電子文書に設定
された重み付けに基づいて、上記電子文書の要約を作成
する要約作成工程をさらに有することを特徴とする請求
項1記載の文書処理方法。 - 【請求項3】 上記要約作成工程は、 上記重み付け設定工程で重み付けが設定された電子文書
について、電子文書の内部構成に基づいて重み付けを配
分するように演算する重み付け演算工程と、 上記電子文書を構成する文について、上記重み付け演算
工程での演算の結果に基づいて、上記文を構成する要素
の重み付けの平均の重み付けが大きな順序で文を選択す
る文選択工程と、 上記文選択工程で選択された文から必須構成要素を抽出
する必須構成要素抽出工程と、 上記必須構成要素抽出工程で抽出した必須構成要素を接
続して文の骨格を生成する文骨格生成工程と、 上記文骨格生成工程で生成した文の骨格を要約として出
力する要約出力工程とを有することを特徴とする請求項
2記載の文書処理方法。 - 【請求項4】 上記必須要素抽出工程においては、要素
の首辞(head)と、主語(subject)、目的語(object)、間
接目的語(indirect object)、所有者(posessor)、原因
(cause)、条件(condition)または比較(comparison)の関
係属性を有する要素と、等位構造が必須のときにはそれ
に直接含まれる要素が必須要素を構成することを特徴と
する請求項3記載の文書処理方法。 - 【請求項5】 上記入力工程においては、ポインティン
グデバイスを用いて要素を選択することを特徴とする請
求項1記載の文書処理方法。 - 【請求項6】 複数の要素から構成される階層化された
内部構造を有し、上記内部構造に関する属性情報が付与
された電子文書を表示する文書処理装置において、 上記電子文書を表示する表示手段と、 上記表示手段で表示された電子文書を構成する要素を選
択し、選択された要素がさらに選択されると上記内部構
造におけるその要素を含む上記階層の上位の要素を選択
するように入力する入力手段と、 上記入力手段で選択された要素の重み付けを選択されて
いない要素に比べて高く設定する重み付け設定手段とを
有することを特徴とする文書処理装置。 - 【請求項7】 複数の要素から構成される階層化された
内部構造を有し、上記内部構造に関する属性情報が付与
された電子文書を表示する文書処理プログラムが記録さ
れた記録媒体であって、上記文書処理プログラムは、 上記電子文書を表示する表示処理と、 上記表示処理で表示された電子文書を構成する要素を選
択し、選択された要素がさらに選択されると上記内部構
造におけるその要素を含む上記階層の上位の要素を選択
するように入力する入力処理と、 上記入力処理で選択された要素の重み付けを選択されて
いない要素に比べて高く設定する重み付け設定処理とを
有することを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03154899A JP4320819B2 (ja) | 1999-02-09 | 1999-02-09 | 文書処理方法および装置ならびに記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03154899A JP4320819B2 (ja) | 1999-02-09 | 1999-02-09 | 文書処理方法および装置ならびに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000231565A true JP2000231565A (ja) | 2000-08-22 |
JP4320819B2 JP4320819B2 (ja) | 2009-08-26 |
Family
ID=12334254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03154899A Expired - Fee Related JP4320819B2 (ja) | 1999-02-09 | 1999-02-09 | 文書処理方法および装置ならびに記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4320819B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008262306A (ja) * | 2007-04-10 | 2008-10-30 | Sharp Corp | レイアウト調整装置、レイアウト調整方法、レイアウト調整プログラム、及び、記録媒体 |
-
1999
- 1999-02-09 JP JP03154899A patent/JP4320819B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008262306A (ja) * | 2007-04-10 | 2008-10-30 | Sharp Corp | レイアウト調整装置、レイアウト調整方法、レイアウト調整プログラム、及び、記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP4320819B2 (ja) | 2009-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10706091B2 (en) | User driven computerized selection, categorization, and layout of live content components | |
Van Eck et al. | VOSviewer manual | |
US7085999B2 (en) | Information processing system, proxy server, web page display method, storage medium, and program transmission apparatus | |
US7191394B1 (en) | Authoring arbitrary XML documents using DHTML and XSLT | |
Van Eck et al. | VOSviewer manual | |
US6131100A (en) | Method and apparatus for a menu system for generating menu data from external sources | |
WO2001001390A1 (fr) | Trieuse-liseuse electronique | |
JP4214598B2 (ja) | 文書処理方法および装置ならびに記録媒体 | |
WO2000058869A1 (en) | A system and method for dynamic knowledge generation and distribution | |
JP2002189595A (ja) | リフレッシュ可能なWebクエリを作成するための統合された方法 | |
JP2002373043A (ja) | ブラウザ内で文書の一部分を拡大する方法、装置、およびプログラム | |
US9817811B2 (en) | Web server system, dictionary system, dictionary call method, screen control display method, and demonstration application generation method | |
WO2006137565A1 (ja) | 文書処理装置及び文書処理方法 | |
WO2000043909A1 (fr) | Procede et dispositif de traitement de documents et support d'enregistrement | |
WO2006051956A1 (ja) | サーバ装置及び検索方法 | |
RU2613026C1 (ru) | Способ подготовки документов на языках разметки при реализации пользовательского интерфейса для работы с данными информационной системы | |
JP4320819B2 (ja) | 文書処理方法および装置ならびに記録媒体 | |
Mason et al. | Experimental adaptive interface | |
WO2006051957A1 (ja) | 文書処理装置及び文書処理方法 | |
Seipp et al. | Enhancing one-handed website operation on touchscreen mobile phones | |
JP2001109762A (ja) | 文書処理方法及び装置並びに記録媒体 | |
JP4186321B2 (ja) | 文書処理方法及び装置並びに記録媒体 | |
WO2005098666A1 (en) | Processing data and documents that use a markup language | |
CN117235397B (zh) | 一种表单数据输入方法、装置、介质 | |
JPH1145279A (ja) | 電子掲示板システム、電子掲示板プログラムが記憶された記憶媒体、及び電子掲示板の活性化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090512 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090525 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120612 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |