JP2001051997A

JP2001051997A - 文書データ作成装置、文書データ作成方法、及び記録媒体

Info

Publication number: JP2001051997A
Application number: JP11227532A
Authority: JP
Inventors: Katashi Nagao; 確長尾
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-08-11
Filing date: 1999-08-11
Publication date: 2001-02-23
Also published as: US20050154971A1; US6981218B1; US7076732B2

Abstract

(57)【要約】【課題】各種の文書処理に好適な文書データ（タグフ
ァイル）を容易に作成できるようにする。【解決手段】原文（プレーンテキスト）を各形態素に
分けるとともに各形態素についての形態素情報を付加
し、また原文に階層的な文書構造を示す文書構造情報を
付加し、さらに原文内の文書部分間における参照関係を
示す参照情報を付加していくことで、文書処理に好適な
文書データ（タグファイル）を作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は電子文書データの作
成処理を行う文書データ作成装置、文書データ作成方
法、及び作成処理のための動作制御プログラムを記録し
た記録媒体に関するものである。

【０００２】

【従来の技術】従来、インターネットにおいて、ウィン
ドウ形式でハイパーテキスト型情報を提供するアプリケ
ーションサービスとしてＷＷＷ（World Wide Web）が提
供されている。

【０００３】ＷＷＷは、文書の作成、公開または共有化
の文書処理を実行し、新しいスタイルの文書の在り方を
示したシステムである。しかし、文書の実際上の利用の
観点からは、文書の内容に基づいた文書の分類や要約と
いった、ＷＷＷを越える高度な文書処理が求められてい
る。このような高度な文書処理には、文書の内容の機械
的な処理が不可欠である。

【０００４】しかしながら、文書の内容の機械的な処理
は、以下のような理由から依然として困難である。第１
に、ハイパーテキストを記述する言語であるＨＴＭＬ
（Hyper Text Markup Language）は、文書の表現につい
ては規定するが、文書の内容についてはほとんど規定し
ない。第２に、文書間に構成されたハイパーテキストの
ネットワークは、文書の読者にとって文書の内容を理解
するために必ずしも利用しやすいものではない。第３
に、一般に文章の著作者は読者の便宜を念頭に置かずに
著作するが、文書の読者の便宜が著作者の便宜と調整さ
れることはない。

【０００５】このように、ＷＷＷは新しい文書の在り方
を示したシステムであるが、文書を機械的に処理しない
ので、高度な文書処理をおこなうことができなかった。
換言すると、高度な文書処理を実行するためには、文書
を機械的に処理することが必要となる。

【０００６】そこで、文書の機械的な処理を目標とし
て、文書の機械的な処理を支援するシステムが自然言語
研究の成果に基づいて開発されている。自然言語研究に
よる文書処理として、文書の著作者等による文書の内部
構造についての属性情報、いわゆるタグの付与を前提と
した、文書に付与されたタグを利用する機械的な文書処
理が提案されている。

【０００７】

【発明が解決しようとする課題】ところで、近年のコン
ピュータの普及や、ネットワーク化の進展に伴い、文章
処理や、文書の内容に依存した索引などで、テキスト文
書の作成、ラベル付け、変更などを行う文書処理の高機
能化が求められている。たとえば、ユーザの要望に応じ
た文書の要約や、文書の分類等が望まれる。そしてこの
ためには、提供される文書ファイルとしてのデータ自体
に、各種の文書処理に必要な情報が付与されていること
が必要となり、従って、そのような文書データを作成す
るオーサリング技術（文書データ作成技術）が求められ
ている。またそのオーサリング技術は、高度な専門知識
を有する人に限られず、広く多数の人が文書データ作成
者となり得るように、作業性がよくまた簡易なものであ
ることも求められる。

【０００８】

【課題を解決するための手段】本発明は、このような事
情に鑑みて提案されたものであって、各種文書処理に好
適な文書データを作成するための文書データ作成技術を
提供することを目的とする。

【０００９】このため本発明の文書データ作成装置は、
処理対象となる原文を解析し、原文を各形態素に分ける
とともに、各形態素についての形態素情報を付加する処
理を行う形態素処理手段と、原文の文書構造を解析し、
原文に階層的な文書構造を示す文書構造情報を付加する
処理を行う文書構造処理手段と、原文に、原文内の文書
部分間における参照関係を示す参照情報を付加する処理
を行う参照関係処理手段とを備えるようにする。これに
より、原文に、形態素情報、文書構造情報、及び参照情
報が付加された文書データを作成できるようにする。ま
た、形態素処理手段、文書構造処理手段、参照関係処理
手段の、全てまたは一部は、それぞれ自動解析処理と入
力対応処理により、各処理を実行するようにする。

【００１０】また入力手段を備え、形態素処理手段は、
形態素の区切りもしくは各形態素に付加すべき形態素情
報を、入力手段からの入力に応じて決定できるようにす
る。特に、形態素処理手段は、表示部に、原文上に形態
素の区切りを示した表示、及び各形態素に付加すべき形
態素情報の候補を示す表示が行われるように表示制御を
行うとともに、表示された形態素の区切の変更、及び形
態素情報の候補の中からの選択決定を、入力手段からの
入力に応じて行う。

【００１１】また、入力手段を備え、文書構造処理手段
は、原文に付加する文書構造情報を入力手段からの入力
に応じて決定できるようにする。特に文書構造処理手段
は、表示部に、原文上に階層的な文書構造を示した表
示、及び文書構造情報の候補を示す表示が行われるよう
に表示制御を行うとともに、表示された文書構造情報の
候補の中からの選択決定もしくは文書構造情報の追加
を、入力手段からの入力に応じて行う。

【００１２】また入力手段を備え、参照関係処理手段
は、原文に付加する参照情報を入力手段からの入力に応
じて決定できるようにする。特に、参照関係処理手段
は、表示部に、原文上に参照関係を示した表示が行われ
るように表示制御を行うとともに、表示された参照関係
の修正もしくは参照情報の追加を、入力手段からの入力
に応じて行う。

【００１３】本発明の文書データ作成方法は、処理対象
となる原文を解析し、原文を各形態素に分けるととも
に、各形態素についての形態素情報を付加する形態素処
理手順と、形態素情報が付加された原文に、原文の文書
構造を解析し、原文に階層的な文書構造を示す文書構造
情報を付加する文書構造処理手順と、文書構造情報が付
加された原文内の文書部分間における参照関係を示す参
照情報を付加する参照関係処理手順と、が行われるよう
にする。これらの手順により原文に、形態素情報、文書
構造情報、及び参照情報が付加された文書データを作成
する。また本発明の記録媒体は、このような各手順を有
する動作制御プログラムが記録されているものとする。

【００１４】また本発明の文書データ作成装置は、処理
対象となる原文についての自動解析を行い、原文に対す
る付加情報を生成する処理を行う自動解析手段と、自動
解析手段による処理結果に対する入力に基づいて、付加
情報の変更又は追加又は削除を行う入力対応処理手段
と、自動解析手段及び入力対応処理手段の処理結果に基
づいて原文に各種の付加情報が付加された文書データを
生成する文書データ生成手段とを備えるようにする。つ
まり付加情報（各種タグ）の付加された文書データの作
成が、自動解析処理と入力対応処理により実現されるよ
うにし、作業者にとって簡易、正確、かつ作業者の意志
を反映した文書データが作成されるようにする。また、
自動解析手段及び入力対応処理手段は、原文の文書構造
において下位の階層から上位の階層に向かって順番に、
付加情報の設定処理を行うものとすることで、効率的か
つ正確な付加情報の設定ができるようにする。

【００１５】本発明の文書データ作成方法としては、処
理対象となる原文についての自動解析を行い、原文に対
する付加情報を生成する処理を行う自動解析手順と、自
動解析手順による処理結果に対する入力に基づいて付加
情報の変更又は追加又は削除を行う入力対応処理手順
と、自動解析手順及び入力対応処理手順の処理結果に基
づいて原文に各種の付加情報が付加された文書データを
生成する文書データ生成手順とが行われるようにする。
またこのとき、自動解析手順及び入力対応処理手順とし
ては、原文の文書構造において下位の階層から上位の階
層に向かって順番に、付加情報の設定処理が行なわれる
ようにする。また本発明の記録媒体は、このような各手
順を有する動作制御プログラムが記録されているものと
する。

【００１６】

【発明の実施の形態】以下、本発明の実施の形態につい
て次の順序で説明する。説明としては、まず文書データ
提供システムの構成を述べ、次に、その文書データ提供
システムにおいて文書データの提供を受ける側となる文
書処理装置、及び文書データ構造について述べていく。
そしてその後に、文書処理装置に対して提供する文書デ
ータを作成する、本発明の文書データ作成装置の実施の
形態としてのオーサリング装置、オーサリング方法、記
録媒体について説明する。１．文書データ提供システムの構成２．文書処理装置の構成３．文書データ構造４．文書データに対する手動分類処理４−１処理手順４−２インデックス作成４−３文書閲覧／分類作成／分類操作４−４分類モデル作成／登録５．文書データに対する自動分類処理５−１処理手順５−２自動分類６．要約作成処理７．読み上げ処理８．オーサリング装置の構成９．オーサリング処理

【００１７】１．文書データ提供システムの構成図１に文書データ提供システムの構成例を示す。本例の
文書データ提供システムは、主に、文書処理装置１、サ
ーバ３、オーサリング装置２、文書プロバイダ４等から
成る。

【００１８】文書プロバイダ４は、提供すべき文書とし
ての元のテキストデータ（原文）、つまり後述するタグ
等が付加されていない通常の文書データ（以下、プレー
ンテキストという）を提供する部位としている。本例で
は文書プロバイダ４は文書作成機能４ａを備え、プレー
ンテキストを作成する。但し、必ずしも文書プロバイダ
４において文書作成機能４ａを備える必要はない。即
ち、文書プロバイダ４はあくまでもプレーンテキストを
提供できる部位であればよく、外部の文書製作者等から
受け取ったプレーンテキストを提供するようにしてもよ
い。

【００１９】そして文書プロバイダ４は、提供すべきプ
レーンテキストを、フロッピーディスクや光ディスク等
の記録媒体８１に保存し、例えばオーサリング装置２に
受け渡すことができる。もしくは有線（例えば一般公衆
回線、専用通信線、インターネットなど）、又は無線
（例えば衛星通信や無線電話回線など）による通信回線
６を介して、プレーンテキストをオーサリング装置２に
送信できる。

【００２０】オーサリング装置２は、例えばオーサリン
グ処理機能２ａ、文書作成機能２ｂ、及びオーサリング
プログラム２ｃなどを備える。オーサリング装置２とし
てのハードウエア構成や処理動作については後述する。
このオーサリング装置２は、例えば記録媒体８１や通信
回線６により供給されたプレーンテキストに対して、オ
ーサリング処理を行い、ユーザー端末となる後述する文
書処理装置１に供給すべき文書データを生成する。この
文書データとは、プレーンテキストに後述する各種のタ
グが付加されたデータである（＝タグファイル）。なお
オーサリング処理機能２ａは、オーサリングプログラム
２ｃに基づいてオーサリング処理を実行する。また、オ
ーサリング装置２には文書作成機能２ｂが設けられるこ
とで、文書プロバイダ４からプレーンテキストの供給を
受けなくても、プレーンテキストを生成し、そのプレー
ンテキストに対してオーサリング処理を行って文書デー
タ（タグファイル）を生成することができる。

【００２１】オーサリングプログラム２ｃは、オーサリ
ング装置２の内部の記憶手段（ＲＡＭ、ＲＯＭ、ハード
ディスク等）に保存されているものであってもよいし、
例えば外部のオーサリングプログラム５が、記録媒体８
１もしくは通信回線６により供給され、オーサリング装
置２内にロードされることで、そのオーサリングプログ
ラム５に基づいてオーサリング処理機能２ａが働くよう
にしてもよい。

【００２２】オーサリング装置２で生成された文書デー
タはサーバ３に供給され、データベース３ａに保存され
る。なお図示していないが、オーサリング装置２からサ
ーバ３への文書データの受け渡しも、記録媒体或いは通
信回線によって行うことができる。

【００２３】データベース３ａに保存された文書データ
は、サーバ３の管理に基づいて、フロッピーディスクや
光ディスク等の記録媒体３２或いは通信回線６によっ
て、一般ユーザー側の文書処理装置１に提供されるもの
となる。一般ユーザーサイドでは、文書処理装置１を用
いることで、提供された文書データについて後述するよ
うに各種の処理を行い、多様かつ高度な文書情報を得る
ことができる。

【００２４】なお、この図１のシステム構成は、説明上
の１モデルにすぎず、実際のシステム構成は多様に考え
られる。例えば文書プロバイダ４、オーサリング装置
２、サーバ３等が多数存在したり、或いは文書プロバイ
ダ４側にオーサリング装置２が構築されたり、さらには
文書プロバイダ４、オーサリング装置２、サーバ３が一
体的な装置により構成されることなど、多様な構成例が
考えられる。

【００２５】２．文書処理装置の構成上記文書データ提供システムにおいて文書データの提
供を受ける側となる文書処理装置１について説明してい
く。

【００２６】文書処理装置１は、図２に示すように、制
御部１１およびインターフェース１２を備える本体１０
と、ユーザからの入力を受けて本体１０に送る入力部２
０と、外部との信号の送受信を行う通信部２１と、本体
１０からの出力を表示する表示部３０と、記録媒体３２
に対して情報を記録／再生する記録／再生部３１と、音
声出力部３３と、ＨＤＤ（ハードディスクドライブ）３
４を有している。

【００２７】本体１０は、制御部１１およびインターフ
ェース１２を有し、この文書処理装置１の主要な部分を
構成している。制御部１１は、この文書処理装置１にお
ける処理を実行するＣＰＵ１３と、揮発性のメモリであ
るＲＡＭ１４と、不揮発性のメモリであるＲＯＭ１５と
を有している。ＣＰＵ１３は、たとえばＲＯＭ１５に記
録された手順にしたがって、必要な場合にはデータを一
時的にＲＡＭ１４に格納して、プログラムを実行するた
めの制御をおこなう。この制御部１１の動作としては、
詳しくはそれぞれ後述していくが、供給された文書デー
タに関する分類処理、要約作成処理、読み上げ動作のた
めの音声読み上げ用ファイルの生成処理、及びこれらの
処理に必要な文書解析などがある。そしてこれらの動作
のために必要なプログラムやアプリケーションソフト
が、ＲＯＭ１５や、ＨＤＤ３４、あるいは記録媒体３２
に記憶されている。なお、制御部１１が用いる文書処理
プログラムは上記のようにあらかじめＲＯＭ１５に格納
されたり、あるいは、記録媒体３２やＨＤＤ３４から取
り込むことが考えられるが、例えば通信部２１（通信回
線６）を介して、インターネット等のネットワークか
ら、外部サーバ等が提供する文書処理プログラムをダウ
ンロードすることも考えられる。

【００２８】インターフェース１２は、制御部１１、入
力部２０、通信部２１、表示部３０、記録／再生部３
１、音声出力部３３、ＨＤＤ３４に接続される。そして
インターフェース１２は、制御部１１の制御の下に、入
力部２０からのデータの入力、通信部２１との間のデー
タの入出力、表示部３０へのデータの出力、記録／再生
部３１に対するデータの入出力、音声出力部３３へのデ
ータの出力、ＨＤＤ３４に対するデータの入出力の各動
作を行う。具体的には制御部１１と上記各部の間でのデ
ータの入出力のタイミングを調整したり、データの形式
を変換することなどを行う。

【００２９】入力部２０は、この文書処理装置１に対す
るユーザの入力を受ける部分である。この入力部２０
は、たとえばキーボードやマウスにより構成される。ユ
ーザは、この入力部２０を用い、キーボードによリキー
ワード等の文字を入力したり、マウスにより表示部３０
に表示されている電子文書のエレメントを選択すること
などができる。なお、以下では文書処理装置１で扱う文
書データを、単に「文書」と称する場合もある。また
「エレメント」とは文書を構成する要素であって、たと
えば文書、文および語が含まれる。

【００３０】通信部２１は、この文書処理装置１に外部
からたとえば通信回線６を介して送信される信号を受信
したり、通信回線６に信号を送信する部位である。この
通信部２１は、例えば上記サーバ３から送信された１又
は複数の文書データ（タグファイル）等を受信し、受信
したデータを本体１０に送る。もちろん通信回線６を介
して外部装置にデータを送信することも可能である。

【００３１】表示部３０は、この文書処理装置１の出力
としての文字や画像情報を表示する部位である。この表
示部３０は、たとえば陰極線管（cathode ray tube；CR
T）や液晶表示装置（Liquid crystal display；LCD）な
どにより構成され、たとえば単数または複数のウィンド
ウを表示し、このウィンドウ上に文字、図形等を表示す
る。

【００３２】記録／再生部３１は、例えばフロッピーデ
ィスクや光ディスクなどの記録媒体３２に対してデータ
の記録／再生を行う。なお、ここでは記録媒体３２の例
としてフロッピーディスク（磁気ディスク）、光ディス
クを例にあげているが、もちろん、光磁気ディスク、メ
モリカード、磁気テープなど、可搬性メディアであれば
記録媒体３２の例として適用できる。そして記録／再生
部３１は、メディアに応じた記録再生装置（ディスクド
ライブ、カードドライブなど）であればよい。

【００３３】記録媒体３２が、文書を処理するための文
書処理プログラムが記録されているものである場合は、
記録／再生部３１は、その記録媒体３２から文書処理プ
ログラムを読み出して制御部１１に供給することができ
る。また記録媒体３２に文書データが記録されていれ
ば、記録／再生部３１でそれを読み出して制御部１１に
供給することができる。即ち文書処理装置１にとって、
通信部２１による文書データの受信とは別の文書データ
の入力態様となる。さらに、制御部１１は当該文書処理
装置１で処理した文書データを記録／再生部３１におい
て記録媒体３２に記録させることもできる。

【００３４】音声出力部３３は、文書処理装置１の出力
としての文書を、読み上げ音声として出力する部位であ
る。即ち音声出力部３３は、制御部１１が文書情報（後
述する読み上げ用ファイル）に基づいた音声合成処理に
より生成した音声信号が供給された際に、その音声信号
の出力処理を行うことで、表示部３０とともに文書処理
装置１の出力手段として機能する。

【００３５】ＨＤＤ３４は、文書処理装置１における大
容量の記録領域を提供する。ＨＤＤ３４は、制御部１１
の制御に基づいて情報の記録／再生を行う。このＨＤＤ
３４は、制御部１１で実行される各種処理のためのアプ
リケーションプログラム、例えば音声合成のためのプロ
グラムなどを格納するために用いられたり、例えば当該
文書処理装置１に取り込まれた文書データ等を格納して
おく部位として用いることなどが可能となる。

【００３６】３．文書データ構造続いて、本例における文書データの構造について説明す
る。本例においては、文書処理は、文書に付与された属
性情報であるタグを参照しておこなわれる。本例で用い
られるタグには、文書の構造を示す統語論的（syntacti
c）タグと、多言語間で文書の機械的な内容理解を可能
にするような意味的（semantic）・語用論的タグとがあ
る。

【００３７】統語論的なタグとしては、文書の内部構造
を記述するものがある。タグ付けによる内部構造は、図
３に示すように、文書、文、語彙エレメント等の各エレ
メントが互いに、通常リンク、参照・被参照リンクによ
りリンクされて構成されている。図中において、白丸
“○”はエレメントを示し、最下位の白丸は文書におけ
る最小レベルの語に対応する語彙エレメントである。ま
た、実線は文書、文、語彙エレメント等のエレメント間
のつながり示す通常リンク（normal link）であり、破
線は参照・被参照による係り受け関係を示す参照リンク
（reference link）である。文書の内部構造は、上位か
ら下位への順序で、文書（documemt）、サブディビジョ
ン（subdivision）、段落（paragraph）、文（sentenc
e）、サブセンテンシャルセグメント（subsentential s
egment）、・・・、語彙エレメントから構成される。こ
のうち、サブディビジョンと段落はオプションである。

【００３８】一方、意味論・語用論的なタグ付けとして
は、多義語の意味のように意味等の情報を記述するもの
がある。本例におけるタグ付けは、ＨＴＭＬ（Hyper Te
xt Markup Language）と同様なＸＭＬ（Extensible Mar
kup Language）の形式によるものである。

【００３９】タグ付けの一例を次に示すが、文書へのタ
グ付けはこの方法に限られない。また、以下では英語と
日本語の文書の例を示すが、タグ付けによる内部構造の
記述は他の言語にも同様に適用することができる。

【００４０】たとえば、“Time flies like an arro
w.”という文については、下記のようなタグ付けをする
ことができる。＜＞が、文書に対して付与されたタグ
である。

【００４１】＜文＞＜名詞句語義＝“time０”＞time＜／名詞句＞＜動詞句＞＜動詞語義＝“fly１”＞flies＜／動詞＞＜副詞句＞＜副詞語義＝like０＞like＜／副詞＞＜
名詞句＞an ＜名詞語義＝“arrow０”＞arrow＜／名詞＞＜／名詞
句＞＜／副詞句＞＜／動詞句＞．＜／文＞

【００４２】ここで＜文＞、＜名詞＞、＜名詞句＞、＜
動詞＞、＜動詞句＞、＜副詞＞、＜副詞句＞は、それぞ
れ文、名詞、名詞句、動詞、動詞句、形容詞／副詞（前
置詞句または後置詞句を含む）、形容詞句／副詞句、を
示している。つまり文の統語構造（syntactic structur
e）を表している。

【００４３】これらのタグは、エレメントの先端の直前
および終端の直後に対応して配置される。エレメントの
終端の直後に配置されるタグは、記号“ ／”によりエ
レメントの終端であることを示している。エレメントと
は統語的構成素、すなわち句、節、および文のことであ
る。なお、語義（word sense）＝“time０”は、語“ti
me”の有する複数の意味、すなわち複数の語義のうちの
第０番目の意味を指している。具体的には、語“time”
には少なくとも名詞、形容詞、動詞の意味があるが、こ
こでは語“time”が名詞（＝第０番目の意味）であるこ
とを示している。同様に、語“オレンジ”は少なくとも
植物の名前、色、果物の意味があるが、これらも語義に
よって区別することができる。

【００４４】本例では、文書データについては、図４に
示すように、表示部３０上のウィンドウ１０１におい
て、その統語構造を表示することができる。このウィン
ドウ１０１においては、右半面１０３に語彙エレメント
が、左半面１０２に文の内部構造がそれぞれ表示されて
いる。

【００４５】例えば図示するようにこのウィンドウ１０
１には、タグ付けにより内部構造が記述された文章「Ａ
氏のＢ会が終わったＣ市で、一部の大衆紙と一般紙がそ
の写真報道を自主規制する方針を紙面で明らかにし
た。」の一部が表示されている。この文書のタグ付けの
例は次のようになる。

【００４６】＜文書＞＜文＞＜副詞句関係＝“場所”＞＜名詞句＞＜副詞句場所＝“Ｃ市 ”＞＜副詞句関係＝“主語”＞＜名詞句識別子＝“Ｂ会”＞＜副詞句関係＝“ 所有”＞＜人名識別子＝“Ａ氏”＞Ａ氏＜／人名＞の＜／副詞句＞＜組織名識別子＝“Ｂ会”＞Ｂ会＜／組織名＞＜／名詞句＞が＜／副詞句＞終わった＜／副詞句＞＜地名識別子＝“Ｃ市”＞Ｃ市＜／地名＞＜／名詞句＞で、＜／副詞句＞＜副詞句関係＝“主語”＞＜名詞句識別子＝“press” 統語＝“並列”＞＜名詞句＞＜副詞句＞一部の＜／副詞句＞大衆紙＜／名詞句＞と＜名詞＞一般紙＜／名詞＞＜／名詞句＞が＜／副詞句＞＜副詞句関係＝“目的語”＞＜副詞句関係＝“内容” 主語＝“press”＞＜副詞句関係＝“目的語”＞＜名詞句＞＜副詞句＞＜名詞共参照＝“Ｂ会” ＞そ＜／名詞＞の＜／副詞句＞写真報道＜／名詞句＞を＜／副詞句＞自主規制する＜／副詞句＞方針を＜／副詞句＞＜副詞句関係＝“位置”＞紙面で＜／副詞句＞明らかにした。＜／文＞＜／文書＞

【００４７】このようにタグ付されることで、各一対の
タグ＜＞〜＜／＞によって文書の構造が表現され
る。例えば＜文書＞〜＜／文書＞で１つの文書の範囲が
示され、同様に＜文＞〜＜／文＞で１つの文の範囲が示
される。また例えば、＜名詞句識別子＝“Ｂ会”＞〜
＜／名詞句＞により、「Ａ氏のＢ会」という部分が「Ｂ
会」を識別子とする名詞句として表現される。即ち上記
タグ付により、図４の左半面１０２に示した文の内部構
造が表現される。

【００４８】さらに、この文書においては、「一部の大
衆紙と一般紙」は、統語＝“並列”というタグにより並
列であることが表されている。並列の定義は、係り受け
関係を共有するということである。特に何も指定がない
場合、たとえば、＜名詞句関係＝ｘ＞＜名詞＞Ａ＜／名
詞＞＜名詞＞Ｂ＜／名詞＞＜／名詞句＞は、ＡがＢに依
存関係のあることを表す。関係＝ｘは関係属性を表す。

【００４９】関係属性は、統語、意味、修辞についての
相互関俵を記述する。主語、目的語、間接目的語のよう
な文法機能、動作主、被動作者、受益者などのような主
題役割、および理由、結果などのような修辞関係はこの
関係属性により記述される。本例では、主語、目的語、
間接目的語のような比較的容易な文法機能について関係
属性を記述する。

【００５０】また、この文書においては、“Ａ氏”、
“Ｂ会”、“Ｃ市”のような固有名詞について、地名、
人名、組織名等のタグにより属性が記述されている。こ
れら地名、人名、組織名等のタグが付与されることで、
その語が固有名詞であることが表現される。

【００５１】４．文書データに対する手動分類処理４−１処理手順本例の文書処理装置１では、例えば通信部２１（又は記
録／再生部３１）により外部から文書データが取り込ま
れると、その文書データを内容に応じて分類する処理を
行う。なお、以下の説明では、外部からの文書データは
通信部２１を介して取り込まれるとして述べていくが、
その説明は、外部からフロッピーディスク等の可搬性メ
ディアの形態で供給され、記録／再生部３１から文書デ
ータが取り込まれる場合も同様となるものである。

【００５２】分類処理としては、文書データ内容に応じ
てユーザーが手動で分類する手動分類処理と、文書処理
装置１が自動的に分類する自動分類処理がある。これら
の分類処理は、後述する分類モデルに基づいて行われる
わけであるが、文書処理装置１においては、初期状態で
は分類モデルは存在しない。そのため初期状態にある時
点では、手動分類処理として、分類モデルの作成を含む
分類処理が必要になる。そして、分類モデルが生成され
た後においては、入力された文書データに対して自動分
類処理が可能となるものである。まずここでは、最初に
実行することが必要とされる手動分類処理について説明
する。即ちこの手動分類処理とは、初期状態にある文書
処理装置１が外部から送られた文書データを受信した際
に、ユーザーの操作に基づいて、制御部１１が分類モデ
ルの作成及び文書データの分類を行う動作となる。

【００５３】まず手動分類処理としての全体の処理手順
を図５に示す。なお、各処理ステップの詳細な処理につ
いては後述する。

【００５４】図５のステップＦ１１は、文書処理装置１
の受信部２１による文書受信処理を示している。このス
テップＦ１１では、受信部２１は、たとえば通信回線を
介して送信された１又は複数の文書を受信する。受信部
２１は、受信した文書を文書処理装置の本体１０に送
る。制御部１１は供給された１又は複数の文書データを
ＲＡＭ１４又はＨＤＤ３４に格納する。

【００５５】ステップＦ１２では、文書処理装置１の制
御部１１は、受信部２１から送られた複数の文書の特徴
を抽出し、それぞれの文書の特徴情報すなわちインデッ
クスを作成する。制御部１１は、作成したインデックス
を、たとえばＲＡＭ１４又はＨＤＤ３４に記憶させる。
後述するがインデックスは、その文書に特徴的な、固有
名詞、固有名詞以外の語義などを含むものであり、文書
の分類や検索に利用できるものである。

【００５６】ステップＦ１３の文書閲覧は、ユーザーの
必要に応じて実行される処理である。つまりユーザーの
操作に応じて行われる。なお、このステップＦ１３や次
のステップＦ１４は、ユーザ操作に基づく処理である。
入力された文書データに対しては、ユーザーは所要の操
作を行うことにより、表示部３０の画面上で、その文書
内容を閲覧することができる。そして文書閲覧中は、ユ
ーザーは画面上のアイコン等に対する操作により、例え
ば後述する要約作成などの各種処理を指示できるが、こ
の手動分類処理に関しては、ステップＦ１４として示す
ように、分類項目の作成及び分類操作としての処理に進
むことになる。ステップＦ１４では、ユーザーが分類項
目（なお本明細書では、分類項目のことをカテゴリとも
いう）を設定する操作を行うことに応じて、制御部１１
は分類項目を生成／表示していく。またユーザーが文書
データを、設定された分類項目に振り分けていく操作も
行うことになり、それに応じて制御部１１は文書データ
の振り分け／表示を行うことになる。

【００５７】ステップＦ１５では、制御部１１は、ステ
ップＦ１４でユーザーが行った分類項目作成及び分類操
作に応じて、分類モデルを作成する。分類モデルは、文
書を分類する複数の分類項目（カテゴリ）から構成され
るとともに、各カテゴリに対して各文書のインデックス
（ステップＦ１２で作成した各文書のインデックス）を
対応づけることで、分類状態を規定するデータである。
このような分類モデルを生成したら、ステップＦ１６
で、その分類モデルを登録する。即ち制御部１１は、分
類モデルをたとえばＲＡＭ１４に記憶させることで登録
を行う。以上の図５の処理により、文書処理状態１が初
期状態にある時に入力された１又は複数の各文書データ
について、手動分類及び分類モデルの作成が行われたこ
とになる。この図５のステップＦ１２以下の処理につい
て詳しく述べていく。

【００５８】４−２インデックス作成ステップＦ１４では、制御部１１は入力された文書デー
タについてインデックスの作成を行う。まず、或る１つ
の文書データに対して作成されたインデックスの具体例
を示す。

【００５９】＜インデックス日付＝“AAAA/BB/CC” 時刻＝“DD:EE:FF” 文書アドレス＝ “1234”＞＜ユーザの操作履歴最大要約サイズ＝“100”＞＜選択エレメントの数＝“10”＞ピクチャーテル＜／選択＞・・・＜／ユーザの操作履歴＞＜要約＞減税規模、触れず−Ｘ首相の会見＜／要約＞＜語語義＝“0003” 中心活性値＝“140.6”＞触れず＜／語＞＜語語義＝“0105” 識別子＝“Ｘ” 中心活性値＝“67.2”＞首相＜／語＞＜人名識別子＝“Ｘ” 語語義＝“6103” 中心活性値＝“150.2”＞Ｘ首相＜／語／人名＞＜語語義＝“5301” 中心活性値＝“120.6”＞求めた＜／語＞＜語語義＝“2350” 識別子＝“Ｘ” 中心活性値＝“31.4”＞首相＜／語＞＜語語義＝“9582” 中心活性値＝“182.3”＞強調した＜／語＞＜語語義＝“2595” 中心活性値＝“93.6”＞触れる＜／語＞＜語語義＝“9472” 中心活性値＝“12.0”＞予告した＜／語＞＜語語義＝“4934” 中心活性値＝“46.7”＞触れなかった＜／語＞＜語語義＝“0178” 中心活性値＝“175.7”＞釈明した＜／語＞＜語語義＝“7248” 識別子＝“Ｘ” 中心活性値＝“130.6”＞私＜／語＞＜語語義＝“3684” 識別子＝“Ｘ” 中心活性値＝“121.9”＞首相＜／語＞＜語語義＝“1824” 中心活性値＝“144.4.”＞訴えた＜／語＞＜語語義＝“7289” 中心活性値＝“176.8”＞見せた＜／語＞＜／インデックス＞

【００６０】このインデックスにおいては、＜インデッ
クス＞および＜／インデックス＞は、インデックスの始
端および終端を、＜日付＞および＜時刻＞はこのインデ
ックスが作成された日付および時刻を、＜要約＞および
＜／要約＞はこのインデックスの内容の要約の始端およ
び終端を、それぞれ示している。また、＜語＞および＜
／語＞は語の始端および終端を示している。さらに例え
ば、語義＝“0003”は、第３番目の語義であることを示
している。他についても同様である。上述したように、
同じ語でも複数の意味を持つ場合があるので、それを区
別するために語義ごとに番号が予め決められており、そ
の該当する語義が番号で表されているものである。

【００６１】また、＜ユーザの操作履歴＞および＜／ユ
ーザの操作履歴＞は、ユーザの操作履歴の始端および終
端を、＜選択＞および＜／選択＞は、選択されたエレメ
ントの始端および終端を、それぞれ示している。最大要
約サイズ＝“100”は、要約の最大のサイズが１００文
字であることを、エレメントの数＝“10”は、選択され
たエレメントの数が１０であることを示している。

【００６２】この例のように、インデックスは、その文
書に特徴的な、固有名詞、固有名詞以外の語義などを含
むものである。例えばこのようなインデックスを作成す
るステップＦ１２の処理を、図６〜図９で説明する。な
お、図６は１つの文書データに対するインデックス作成
処理を示しており、従って複数の文書データについて処
理を行う場合は、各文書データについてこの図６の処理
が行われることになる。また図６のステップＦ３１の詳
細な処理を図８に示し、さらに図８のステップＦ４３の
詳細な処理を図９に示している。

【００６３】上述した図５のステップＦ１２のインデッ
クス作成処理としては、まず図６のステップＦ３１の活
性拡散が行われる。この活性拡散とは、文書データにつ
いて、エレメントの中心活性値を文書の内部構造に基づ
いて拡散することで、中心活性値の高いエレメントと関
わりのあるエレメントにも高い中心活性値を与えるよう
な処理である。即ち、文書を構成する各エレメントに対
して初期値としての中心活性値を与えた後、その中心活
性値を、文書の内部構造、具体的にはリンク構造に基づ
いて拡散する。この中心活性値は、タグ付けによる内部
構造に応じて決定されるので、文書の特徴の抽出等に利
用されるものである。制御部１１は、このステップＦ３
１として、活性拡散を行い、活性拡散の結果として得ら
れた各エレメントの中心活性値を、たとえばＲＡＭ１４
に記憶させることになる。

【００６４】ステップＦ３１の活性拡散について、図７
〜図９で詳しく説明していく。まずエレメントとエレメ
ントのリンク構造の例を図７に示す。図７においては、
文書を構成するエレメントとリンクの構造の一部とし
て、エレメントＥ１、Ｅ２の周辺を示している。Ｅ１〜
Ｅ８はエレメントの例であり、この中でエレメントＥ
１、Ｅ２に注目して説明する。

【００６５】エレメントＥ１の中心活性値はｅ１である
とし、またエレメントＥ２の中心活性値はｅ２であると
する。このエレメントＥ１，Ｅ２は、リンクＬ１２（上
述した通常リンクもしくは参照リンク）にて接続されて
いる。リンクＬ１２のエレメントＥ１に接続する端点を
Ｔ１２、エレメントＥ２に接続する端点をＴ２１とす
る。エレメントＥ１は、さらにエレメントＥ３，Ｅ４，
Ｅ５と、それぞれリンクＬ１３，Ｌ１４，Ｌ１５で接続
されている。各リンクＬ１３，Ｌ１４，Ｌ１５における
エレメントＥ１側の端点をそれぞれＴ１３，Ｔ１４，Ｔ
１５とする。またエレメントＥ２は、エレメントＥ６，
Ｅ７，Ｅ８とも、それぞれリンクＬ２６，Ｌ２７，Ｌ２
８で接続されている。各リンクＬ２６，Ｌ２７，Ｌ２８
におけるエレメントＥ２側の端点をそれぞれＴ２６，Ｔ
２７，Ｔ２８とする。このようなリンク構造の例を用い
ながら、図８、図９の活性拡散処理を説明していく。

【００６６】図８のステップＦ４１で制御部１１は、イ
ンデックス作成対象としての文書データについて活性拡
散を開始するにあたり、まず文書データの全エレメント
について中心活性値の初期設定を行う。中心活性値の初
期値としては、例えば固有名詞や、ユーザーが選択（ク
リック）したエレメント等に高い値を与えるようにす
る。また制御部１１は、参照リンクと通常リンクに関し
て、エレメントを連結するリンクの端点Ｔ(xx)の端点活
性値を０に設定する。制御部１１は、このように付与し
た端点活性値の初期値を、たとえばＲＡＭ１４に記憶さ
せる。

【００６７】ステップＦ４２においては、制御部１１
は、文書を構成するエレメントＥｉを計数するカウンタ
の初期化をおこなう。すなわち、エレメントを計数する
カウンタのカウント値ｉを１に設定する。ｉ＝１の場
合、このカウンタは、第１番目のエレメント（例えば図
７のエレメントＥ１）を参照することになる。

【００６８】ステップＦ４３においては、制御部１１
は、カウンタが参照するエレメントについて、新たな中
心活性値を計算する中心活性値更新処理を実行する。こ
の中心活性値更新処理について、エレメントＥ１につい
ての処理を例に挙げながら、図９で詳しく説明する。こ
の中心活性値更新処理は、エレメントについての端点活
性値を更新し、さらに更新された端点活性値と現在の中
心活性値を用いて、新たな中心活性値を算出する処理と
なる。

【００６９】図９のステップＦ５１では、制御部１１
は、文書を構成するエレメントＥｉ（例えばこの場合Ｅ
１）に一端が接続されたリンクの数を計数するカウンタ
の初期化をおこなう。すなわち、リンクを計数するカウ
ンタのカウント値ｊを１に設定する。ｊ＝１の場合、こ
のカウンタは、エレメントＥｉと接続された第１番目の
リンクＬ（yy）を参照することになる。図７の例では、
エレメントＥ１についての第１のリンクとして例えばリ
ンクＬ１２を参照する。

【００７０】ステップＦ５２で制御部１１は、参照中の
リンク、つまりエレメントＥ１とＥ２を接続するリンク
Ｌ１２について、関係属性のタグを参照することにより
通常リンクであるか否かを判断する。制御部１１は、リ
ンクＬ１２が通常リンクであればステップＦ５３に、一
方リンクＬ１２が参照リンクであればステップＦ５４に
処理を進める。

【００７１】リンクＬ１２が通常リンクと判断されてス
テップＦ５３に進んだ場合は、制御部１１は、エレメン
トＥ１の通常リンクＬ１２に接続された端点Ｔ１２の新
たな端点活性値を計算する処理をおこなう。端点Ｔ１２
の端点活性値ｔ１２は、リンク先のエレメントＥ２の端
点活性値のうち、リンクＬ１２以外のリンクに接続する
すべての端点の各端点活性値（この場合Ｔ２６、Ｔ２
７、Ｔ２８の各端点活性値ｔ２６、ｔ２７，ｔ２８）
と、エレメントＥ２の中心活性値ｅ２を加算し、この加
算で得た値を、文書に含まれるエレメントの総数で除す
ることにより求められる。制御部１１は、この様な演算
を、ＲＡＭ１４から読み出した各端点活性値および各中
心活性値を用いて行うことで、通常リンクと接続された
端点についての新たな端点活性値を算出し、算出した端
点活性値を、ＲＡＭ１４に記憶させる。つまり端点Ｔ１
２の端点活性値ｔ１２を更新する。

【００７２】一方、ステップＦ５２でリンクＬ１２が参
照リンクであると判断され、ステップＦ５４に進んだ場
合は、同じく制御部１１は、通常リンクＬ１２に接続さ
れたエレメントＥ１の端点Ｔ１２の新たな端点活性値を
計算する処理をおこなうことになるが、端点活性値の算
出のための演算は次のようになる。即ちこの場合は、端
点Ｔ１２の端点活性値ｔ１２は、リンク先のエレメント
Ｅ２の端点活性値のうち、リンクＬ１２以外のリンクに
接続するすべての端点の各端点活性値（この場合Ｔ２
６、Ｔ２７、Ｔ２８の各端点活性値ｔ２６、ｔ２７，ｔ
２８）と、エレメントＥ２の中心活性値ｅ２を加算した
値とする。（つまり除算がない点が上記通常リンクの場
合と異なるものとなる）そして制御部１１は、この様な演算を、ＲＡＭ１４から
読み出した各端点活性値および各中心活性値を用いて行
うことで、参照リンクと接続された端点についての新た
な端点活性値を算出し、算出した端点活性値を、ＲＡＭ
１４に記憶させる。つまり端点Ｔ１２の端点活性値ｔ１
２を更新する。

【００７３】このようなステップＦ５３又はＦ５４の処
理を行なったら、制御部１１はステップＦ５５での判別
処理を介して（判別結果がＮＯであれば）ステップＦ５
７に進み、カウント値ｊをインクリメントしてステップ
Ｆ５２に戻る。即ち続いて、カウント値ｊ＝２とされる
ことにより、エレメントＥ１についての第２のリンク
（例えばリンクＬ１３）が参照されることになるため、
上記同様にステップＦ５２以降の処理でリンクＬ１３に
接続される端点Ｔ１３の端点活性値ｔ１３が算出／更新
されることになる。

【００７４】ステップＦ５５では、制御部１１は、現在
カウント値ｉで参照中のエレメントＥｉ（Ｅ１）につい
て、全てのリンクについての新たな端点活性値が計算さ
れたか否かを判別して処理を分岐するものであるため、
端点活性値の更新処理は、参照中のエレメントＥｉの全
ての端点活性値が更新されるまで行われる。つまりステ
ップＦ５７でカウント値ｊがインクリメントされながら
処理が繰り返されることで、例えばエレメントＥ１につ
いては、端点Ｔ１２，Ｔ１３，Ｔ１４，Ｔ１５について
それぞれ端点活性値ｔ１２，ｔ１３，ｔ１４，ｔ１５が
更新されていき、その全てが更新された時点で、処理は
ステップＦ５５からＦ５６に進むことになる。

【００７５】エレメントＥｉについての全ての端点活性
値が求められたことに応じて、ステップＦ５６では、更
新された端点活性値を用いて、エレメントＥｉの新たな
中心活性値ｅｉを算出する。エレメントＥｉの新たな中
心活性値ｅｉは、エレメントＥｉの現在の中心活性値ｅ
ｉとエレメントＥｉのすべての端点の新たな端点活性値
の和で求められる。例えば図７のエレメントＥ１の場合
は、新たな中心活性値ｅ１(new)は、ｅ１(new)＝ｅ１＋ｔ１２＋ｔ１３＋ｔ１４＋ｔ１５となる。

【００７６】制御部１１は、このようにして現在カウン
ト値ｉで参照中のエレメントＥｉの中心活性値ｅｉを算
出する。そして、制御部１１は、計算した新たな中心活
性値ｅｉをＲＡＭ１４に記憶させる。つまりエレメント
Ｅｉの中心活性値ｅｉを更新する。（但しこの時点で
は、後述するステップＦ４５の処理で用いるため、旧中
心活性値も保持しておく）

【００７７】図８のステップＦ４３の中心活性値更新処
理として、以上図９に示したような処理が行われるた
ら、制御部１１の処理は図８のステップＦ４４に進み、
制御部１１は、文書中のすべてのエレメントについて中
心活性値更新処理が完了したか否かを判断する。具体的
には、制御部１１は、カウント値ｉが、文書に含まれる
エレメントの総数に達したか否かを判断する。制御部１
１は、すべてのエレメントについて中心活性値更新処理
が完了していないときは、ステップＦ４７に処理を進
め、カウント値ｉをインクリメントしてステップＦ４３
に戻る。例えば上記のようにエレメントＥ１についての
処理が終わった後であれば、カウント値ｉ＝２とされ
て、今度はエレメントＥ２が参照されることになる。そ
してエレメントＥ２について、ステップＦ４３の中心活
性値更新処理（即ち図９の処理）が上記同様に行われ
る。重複説明となるため詳細は述べないが、図７のリン
ク例でいえば、エレメントＥ２の場合は、図９の処理に
おいて端点Ｔ２１，Ｔ２６，Ｔ２７，Ｔ２８の各端点活
性値ｔ２１，ｔ２６，ｔ２７，ｔ２８が更新された後、
新たな中心活性値ｅ２(new)が、ｅ２(new)＝ｅ２＋ｔ２１＋ｔ２６＋ｔ２７＋ｔ２８として算出され、更新されることになる。

【００７８】図８の処理においては、このようにステッ
プＦ４７でカウント値ｉがインクリメントされて参照エ
レメントが変更されながらステップＦ４３の中心活性値
更新処理が繰り返されることで、文書に含まれる全ての
エレメントの中心活性値が更新されていくことになる。

【００７９】文書中のすべてのエレメントについて中心
活性値の更新が完了したときは、処理はステップＦ４４
からＦ４５に進むことになる。ステップＦ４５において
は、制御部１１は、文書に含まれるすべてのエレメント
の中心活性値の変化分、すなわち新たに計算された中心
活性値の元の中心活性値に対する変化分について平均値
を計算する。例えば制御部１１は、ＲＡＭ１４に記憶さ
れた旧中心活性値と、更新した新たな中心活性値を、文
書に含まれるすべてのエレメントについて読み出す。そ
して各エレメントについて新中心活性値と旧中心活性値
の差分を求め、その差分の総和をエレメントの総数で除
することにより、すべてのエレメントの中心活性値の変
化分の平均値を計算する。制御部１１は、このように計
算したすべてのエレメントの中心活性値の変化分の平均
値を、たとえばＲＡＭ１４に記憶させる。

【００８０】続いてステップＦ４６において制御部１１
は、ステップＦ４５で計算した平均値が、あらかじめ設
定された閾値以内であるか否かを判断する。そして、制
御部１１は、上記平均値が閾値以内である場合は、活性
拡散処理としての一連の行程を終了するが、上記平均値
が閾値以内でないときには、ステップＦ４２にもどっ
て、上述した一連の行程を再び実行する。

【００８１】この一連の活性拡散処理は、中心活性値が
高いエレメントに関連のある（リンクする）エレメント
について、その中心活性値を引き上げていく処理といえ
るものである。ところが、この活性拡散を１回行うのみ
では、インデックス作成処理の目的を考えたときに、本
来中心活性値を引き上げられるべきエレメントの中で、
中心活性値が十分に引き上げられないものが発生する場
合もありうる。例えば、１回の活性拡散では、中心活性
値の初期値が高く設定されたエレメントに直接リンクす
るエレメントについては、或る程度中心活性値が引き上
げられるが、直接リンクしていないエレメントは、それ
がインデックスとして重要なエレメントであっても十分
に中心活性値が引き上げられないことが生ずる。そこ
で、ステップＦ４６の判断を介して、必要に応じて活性
拡散処理を複数回行うようにすることで、全体的に中心
活性値が収束されるようにし、中心活性値が引き上げら
れない重要なエレメントがなるべく生じないようにする
ものである。なお、複数回の活性拡散で、全体的に中心
活性値が収束されていくのは、活性拡散処理で更新され
た各エレメントの中心活性値に基づいて、さらに次の活
性拡散処理で各エレメントの中心活性値が更新されてい
くためである。但し、このような活性拡散処理が多数回
行われすぎると、全エレメントの中心活性値が収束しき
ってほぼ同値となるような事態となり、不適切である。
このため、ステップＦ４５，Ｆ４６の処理として、中心
活性値の変化分の平均値を求めるように、その変化分に
基づいて活性拡散処理の終了タイミングを判断すること
で、インデックス作成に好適な活性拡散が実現されるこ
とになる。

【００８２】以上の図８、図９のような活性拡散処理
（即ち図６のステップＦ３１）が完了したら、制御部１
１の処理は図６のステップＦ３２に進むことになる。ス
テップＦ３２においては、制御部１１は、ステップＦ３
１で得られた各エレメントの中心活性値に基づいて、中
心活性値があらかじめ設定された閾値を超えるエレメン
トを抽出する。制御部１１は、このように抽出したエレ
メントをＲＡＭ１４に記憶させる。

【００８３】続いてステップＦ３３においては、制御部
１１は、ステップＦ３２にて抽出したエレメントをたと
えばＲＡＭ１４から読み出す。そして制御部１１は、こ
の抽出したエレメントの中からすべての固有名詞を取り
出してインデックスに加える。固有名詞は語義を持た
ず、辞書に載っていないなどの特殊の性質を有するので
固有名詞以外の語とは別に扱うものである。なお語義と
は、前述したように、語の有する複数の意味のうちの各
意味に対応したものである。各エレメントが固有名詞で
あるか否かは、文書に付されたタグに基づいて判断する
ことができる。たとえば、図４に示したタグ付けによる
内部構造においては、“Ａ氏”、“Ｂ会”および“Ｃ
市”は、タグによる関係属性がそれぞれ“人名”、“組
織名”および“地名”であるので固有名詞であることが
分かる。そして、制御部１１は、取り出した固有名詞を
インデックスに加え、その結果をＲＡＭ１４に記憶させ
る。

【００８４】次のステップＦ３４においては、制御部１
１は、ステップＦ３２にて抽出したエレメントの中か
ら、固有名詞以外の語義を取り出してインデックスに加
え、その結果をＲＡＭ１４に記憶させる。

【００８５】以上の処理により、例えば上記した具体例
のようなインデックスが生成される。即ちインデックス
は、タグ付けされた文書の特徴を発見して、その特徴を
配列したものとなり、その文書の特徴は、文書の内部構
造に応じて拡散処理された中心活性値に基づいて判断さ
れるものとなる。そしてこのようなインデックスは、文
書を代表するような特徴を表す語義および固有名詞を含
むので、所望の文書を参照する際に用いることができ
る。なお、インデックスには、文書の特徴を表す語義お
よび固有名詞とともに、その文書がＲＡＭ１４（又はＨ
ＤＤ３４）において記憶された位置を示す文書アドレス
を含めておく。

【００８６】４−３文書閲覧／分類作成／分類操作以上の図６〜図９で説明したインデックス作成処理は図
５のステップＦ１２で行われるものとなる。従って図５
の手動分類処理としては、続いてステップＦ１３，Ｆ１
４の処理、即ち上述したようにユーザーによる閲覧及び
手動分類の処理に移る。

【００８７】上述のように、図５のステップＦ１３にお
いては、ユーザーは表示部３０に表示される文書を閲覧
することができる。またステップＦ１４においては、ユ
ーザーが分類項目を設定する操作や、文書データを、設
定された分類項目に振り分けていく操作を行うことがで
きる。このステップＦ１３，Ｆ１４で行われる操作や、
それに対応する制御部１１の処理及び表示部３０の表示
例は以下のようになる。

【００８８】図１０、図１１は表示部３０における表示
の具体例を示している。まず図１０は、詳しくは後述す
る分類モデルに対応した文書分類ウインドウ２０１の表
示例である。即ち、文書分類の表示に用いられるグラフ
ィックユーザインターフェース（graphic user interfa
ce；GUI）の具体例となる。この文書分類ウィンドウ２
０１には、操作用のボタン表示２０２として、画面のウ
ィンドウの状態を初期の位置にもどすポジションリセッ
ト（position reset）ボタン２０２ａと、文書の内容を
閲読するブラウザ（browser）を呼び出すブラウザボタ
ン２０２ｂと、このウィンドウからの脱出（exit）ボタ
ン２０２ｃとが表示される。

【００８９】また、この文書分類ウィンドウ３０１は、
分類モデルに対応する分類項目に応じた小ウインドウと
して、文書分類エリア２０３，２０４，２０５・・・が
形成される。文書分類エリア２０３は、“他のトピック
ス”を表示するエリアとされる。この”他のトピック
ス”の文書分類エリア２０３は、まだ分類されていない
文書が提示される領域となる。例えば図５のステップＦ
１１で受信された各文書（つまりこれから分類しようと
する文書）は、この”他のトピックス”の文書分類エリ
ア２０３に提示される。文書分類エリア２０４は、例え
ば”ビジネスニュース”に分類された文書が提示される
領域となる。文書分類エリア２０５は、例えば”政治ニ
ュース”に分類された文書が提示される領域となる。こ
れら以外にも、図中で符号を付していない文書分類エリ
アは、それぞれ特定の分類項目に応じた文書が提示され
る領域となる。

【００９０】これらの各文書分類エリア２０３，２０４
・・・では、その各文書分類エリアに設定された分類項
目（カテゴリ）に分類された文書が、その文書のアイコ
ンと文書のタイトルにより提示される。タイトルがない
場合には、一文の要約が表示される。また各文書分類エ
リア２０３，２０４・・・の大きさは固定的ではなく、
ユーザーがドラッグ操作などにより各文書分類エリアを
区切る区切枠２１１，２１２，２１３・・・を移動させ
ることにより、各文書分類エリア２０３，２０４・・・
の面積を任意に変更させることができる。文書分類エリ
アの数もユーザーが任意に増減できる。

【００９１】また各文書分類エリア２０３，２０４・・
・のタイトル（例えば「政治ニュース」など）は、ユー
ザーが任意に設定、変更できるものである。なお、この
文書分類エリアの数及び各タイトルは、後述する分類モ
デルの分類項目に応じたものとなる。言い換えれば、ユ
ーザーがこの分類ウインドウ２０１においてマウスやキ
ーボード等による入力部２０からの操作で、文書分類エ
リアの設定や削除、或いはタイトル設定を行うことで、
分類モデルの分類項目の数やタイトルが設定されること
になる。

【００９２】図１１は、ユーザーが文書データの内容を
閲覧する閲覧ウインドウ３０１の例を示している。例え
ばユーザーが、図１０の分類ウインドウ２０１において
或る文書をクリックして選択した状態としたうえで、ブ
ラウザボタン２０２ｂをクリックすることで、制御部１
１は図１１のように選択された文書を表示する閲覧ウイ
ンドウ３０１を開くようにする。

【００９３】この閲覧ウインドウ３０１には、文書デー
タファイルのファイル名を表示するファイル名表示部３
０２、そのファイル名の文書データを表示する文書表示
部３０３、文書表示部３０３に表示された文書の要約文
を表示する要約表示部３０４、キーワードの入力／表示
を行うキーワード表示部３０５が設けられる。また操作
用のボタン表示３０６として、要約文の作成を指示する
ための要約作成ボタン３０６ａ、アンドゥ操作（操作取
消）を行うためのアンドゥボタン３０６ｂ、読み上げ動
作を実行させるための読み上げボタン３０６ｃなどが表
示される。

【００９４】この様な閲覧ウインドウ３０１において、
ユーザーは文書表示部３０３に表示される文書を閲覧す
ることができる。なお、文書の全体を表示しきれないと
きは、文書の一部が表示される。もちろんスクロール操
作を行うことで、全文を閲覧できる。また、ユーザーは
要約作成ボタン３０６ａをクリックすることで、文書表
示部３０３に表示される文書についての要約文を作成さ
せ、要約表示部３０４に表示させることができる。な
お、要約文作成のための制御部１１の処理については後
述する。さらにユーザーは、読み上げボタン３０６ｃを
クリックすることで、文書表示部３０３に表示されてい
る文書の本文又は要約文についての読み上げを実行させ
ることができる。この読み上げ動作についても後述す
る。

【００９５】以上のような分類ウインドウ２０１、閲覧
ウインドウ３０１は、図５の手動分類処理の際に限ら
ず、ユーザーの操作に応じて随時表示部２０に表示され
るものであるが、図５の手動分類処理に関していえば、
ユーザーは受信した文書の種類や内容を、分類ウインド
ウ２０１、閲覧ウインドウ３０１で確認することができ
るものである。具体的には、図５のステップＦ１１で受
信された１又は複数の文書は、ステップＦ１２でのイン
デックス作成処理の後、図１０のような分類ウインドウ
２０１における”他のトピックス”の文書分類エリア２
０３に表示される。この分類ウインドウ２０１におい
て、ユーザーは、文書分類エリア２０３に表示された各
文書を手動で分類していくことになるが、例えば文書の
タイトルだけ等では内容がわからない場合は、図１１の
閲覧ウインドウ３０１により文書内容を確認する。その
ようにユーザの必要に応じて行われる閲覧が図５のステ
ップＦ１３の処理となる。

【００９６】ステップＦ１４としては、ユーザーは分類
ウインドウ２０１上において分類項目の追加、更新、削
除等を任意に行うことができ、その操作に応じて、制御
部１１は表示される文書分類エリア２０３、２０４・・
・の表示態様（数、面積、タイトル等）を変更させてい
く。なお、ユーザーによる分類項目（文書分類エリアの
タイトル）の設定／変更は、それが後述する分類モデル
に反映されることになる。

【００９７】ユーザーは必要に応じて分類項目の設定を
行った後、文書分類エリア２０３に表示されている各文
書を、各文書分類エリアに振り分けていく。つまりユー
ザーの手動により、文書を分類する。具体的には、”他
のトピックス”の文書分類エリア２０３に表示されてい
る文書のアイコンを、例えば入力部２０のマウスを用
い、所望の分類項目（カテゴリ）に対応する文書分類エ
リアにドラッグすることによりおこなう。例えばユーザ
ーは、「スポーツ」というタイトルの文書分類エリアを
設定したうえで、”他のトピックス”の文書分類エリア
２０３に表示されているスポーツ関連の文書のアイコン
を、“スポーツ”の文書分類エリアにドラッグするよう
な操作を行う。このようにして手動で分類された各文書
のアイコンやタイトルは、以降、そのドラッグされた先
の文書分類エリア内で表示される。

【００９８】４−４分類モデル作成／登録以上のようにユーザーによる手動分類操作が行われた
ら、制御部１１は図５のステップＦ１５において、ユー
ザの分類操作に基づいた複数のカテゴリからなる分類モ
デルを作成する。すなわち制御部１１は、各カテゴリに
分類された上記複数の文書のインデックスを集めて、分
類モデルを生成する。そして、分類モデルの各カテゴリ
に上記複数の文書を分類する。

【００９９】分類モデルは、文書を分類する複数の分類
項目（カテゴリ）から構成される。そして各カテゴリに
ついて、分類された文書が示されるデータ形態となる。
各文書については、上記ステップＦ１２などでインデッ
クスが形成されるが、分類モデルは例えば図１２（ａ）
に示すように、各カテゴリについて分類された文書のイ
ンデックスが対応づけられたようなデータ構造となる。
この図１２（ａ）では、カテゴリとして「スポーツ」
「会社」「コンピュータ」・・・等が設定されている
が、これらは上記のように分類ウインドウ２０１におい
てユーザーが設定した分類項目となる。なお、もちろん
ユーザーが設定しなくとも、予め設定されている（つま
り分類ウインドウで文書分類エリアとして表示される）
カテゴリがあってもよい。そして各分類項目にはインデ
ックスＩＤＸ１、ＩＤＸ２・・・が対応づけられるが、
即ち各分類項目には、ユーザーが上記のように分類した
文書のインデックスが対応づけられるものとなる。

【０１００】各分類項目に対応づけられるインデックス
は、分類ウインドウ２０１においてその分類項目の文書
分類エリアに表示されている文書のインデックスであ
る。例えばインデックスＩＤＸ１がカテゴリ「スポー
ツ」に対応づけられているのは、ユーザーが、分類ウイ
ンドウ２０１において「スポーツ」をタイトルとする文
書分類エリアを作成し、さらにインデックスＩＤＸ１の
文書のアイコンを、その「スポーツ」をタイトルとする
文書分類エリアにドラッグするという手動分類を行った
ことに基づくものとなる。

【０１０１】ところで上述のように各文書のインデック
スは、固有名詞、固有名詞以外の語義や文書アドレス等
を含んでいる。そして、例えば図１２（ａ）のように１
つの分類項目には１又は複数のインデックスが対応づけ
られるが、インデックスとして固有名詞、語義、文書ア
ドレス等が含まれるため、分類モデルは図１２（ｂ）の
ようにも表すことができる。

【０１０２】即ち図１２（ｂ）に示すように、分類モデ
ルは、各カテゴリに対応するカテゴリインデックスとし
て、固有名詞、固有名詞以外の語義、文書アドレスの欄
を有する構造となる。そして分類モデルにおいては、各
カテゴリ「スポーツ」「社会」「コンピュータ」「植
物」「美術」「イベント」に対して、固有名詞“Ａ氏、
・・・”、“Ｂ氏、・・・”、“Ｃ社、Ｇ社、・・
・”、“Ｄ種、・・・”、“Ｅ氏、・・・”および“Ｆ
氏”等の固有名詞が割り当てられる。また、“野球（４
５４６）、グランド（２３４３）、・・・”、“労働
（３１１２）、固有（９８２１）、・・・”、“モバイ
ル（２１０２）、・・・”、“桜１（１１１１１）、オ
レンジ１（９９１１）”、“桜２（１１１１２）、オレ
ンジ２（９９１２）”および“桜３（１１１１３）”等
の語義も各カテゴリに割り当てられる。さらに文書アド
レス“ＳＰ１、ＳＰ２、ＳＰ３、・・・”、“Ｓ０１、
Ｓ０２、Ｓ０３、・・・”、“ＣＯ１、ＣＯ２、ＣＯ
３、・・・”、“ＰＬ１、ＰＬ２、ＰＬ３、・・・”、
“ＡＲ１、ＡＲ２、ＡＲ３、・・・”および“ＥＶ１、
ＥＶ２、ＥＶ３、・・・”も各カテゴリに割り当てられ
る。

【０１０３】なお、“桜１”“桜２”“桜３”は、
“桜”の第１の語義（１１１１１）、第２の語義（１１
１１２）、第３の語義（１１１１３）を示している。ま
た、“オレンジ１”“オレンジ２”は、“オレンジ”の
第１の語義（９９１１）、第２の語義（９９１２）を示
している。たとえば“オレンジ１”は植物のオレンジを
表し、“オレンジ２”はオレンジ色を表す。固有名詞以
外の場合に語そのものではなく語義を用いるのは、この
様に、同じ語でも複数の意味を有することがあるからで
ある。

【０１０４】図５のステップＦ１５では、ユーザーの手
動分類操作に応じて例えばこの様な分類モデルが生成さ
れる。そしてステップＦ１６として分類モデルが登録、
即ちＲＡＭ１５（又はＨＤＤ３４）に記録される。この
ように分類モデルが生成／登録されることにより、文書
の分類が行われたことになる。

【０１０５】なお、このように図５におけるステップＦ
１５、Ｆ１６として分類モデルの作成／登録が行われた
後は、後述する自動分類処理や、ユーザーの分類項目の
編集、或いは手動分類操作などに応じて、分類モデルは
逐次更新されていくことになる。分類モデルが更新され
ると、分類モデルに更新日時が記録される。図１２に
は、更新日時として“１９９８年１２月１０日１９時５
６分１０秒”が記録されている。

【０１０６】５．文書データに対する自動分類処理５−１処理手順本例の文書処理装置１では、上記のように一旦分類モデ
ルが作成された後は、例えば通信部２１により外部から
取り込まれた文書データを、自動的に分類していく自動
分類処理が可能となる。即ち以下説明する自動分類処理
とは、文書処理装置１が外部から送られた文書データを
受信した際に、その文書データを分類モデルに対して分
類していく処理となる。なお、この例では、一つの文書
を受信する毎に以下説明する自動分類処理をおこなうこ
ととするか、複数の所定数の文書を受信する度におこな
ってもよいし、ユーザが図９の画面を開く操作をしたと
きにそれまでに受信した全文書に対して自動分類処理を
おこなうようにしてもよい。

【０１０７】自動分類処理としての全体の処理手順を図
１３に示す。図１３のステップＦ２１は、文書処理装置
１の受信部２１による文書受信処理を示している。この
ステップＦ２１では、受信部２１は、たとえば通信回線
を介して送信された１又は複数の文書を受信する。受信
部２１は、受信した文書を文書処理装置の本体１０に送
る。制御部１１は供給された１又は複数の文書データを
ＲＡＭ１４又はＨＤＤ３４に格納する。

【０１０８】続いてステップＦ２２に進み、制御部１１
は、ステップＦ２１で取り込まれた文書についてインデ
ックスを作成する。

【０１０９】ステップＦ２３では、制御部１１は、分類
モデルに基づいて、インデックスを付された各文書を、
分類モデルのいずれかのカテゴリに自動分類する。そし
て、制御部１１は、分類の結果をたとえばＲＡＭ１４に
記憶させる。自動分類の詳細については後述する。

【０１１０】ステップＦ２４では、制御部１１は、ステ
ップＦ２３での新たな文書の自動分類の結果に基づい
て、分類モデルを更新する。そしてステップＦ２５で
は、制御部１１は、ステップＦ２４で更新された分類モ
デルを登録する。例えば分類モデルをＲＡＭ１４に記憶
させる。

【０１１１】以上の図１３の処理により、文書処理状態
１に入力された文書データが、分類モデル上で分類され
るように自動分類処理が行われることになる。すなわち
この自動分類処理においては、受信した文書に対しては
インデックスが作成され、さらに自動分類が行われた
後、そのインデックスを構成している固有名詞、語義、
文書アドレス等が、上記図１２のように分類モデル上で
或るカテゴリーに対応づけられることになる（分類モデ
ルが更新される）。

【０１１２】ステップＦ２１、Ｆ２２の処理は、上述し
た手動分類処理におけるステップＦ１１，Ｆ１２と同様
である。即ちステップＦ２２のインデックス作成処理と
しては、図６〜図９で説明した処理が行われるものであ
り、ここでの繰り返しの説明は避ける。また、ステップ
Ｆ２４の分類モデルの更新は、ステップＦ２３の自動分
類の分類結果に応じてものとなる。以下、上述の手動分
類処理とは異なる処理として、ステップＦ２３の自動分
類について詳細に説明する。

【０１１３】５−２自動分類図１３のステップＦ２３での自動分類の詳しい処理を図
１４に示す。図１４のステップＦ６１では、制御部１１
は、分類モデルのカテゴリＣｉに含まれる固有名詞の集
合と、ステップＦ２１で受信した文書から抽出されイン
デックスに入れられた語のうちの固有名詞の集合とにつ
いて、これらの共通集合の数をＰ（Ｃｉ）とする。そし
て制御部１１は、このようにして算出した数Ｐ（Ｃｉ）
をＲＡＭ１４に記憶させる。

【０１１４】ステップＦ６２においては、制御部１１
は、その文書のインデックス中に含まれる全語義と、各
カテゴリＣｉに含まれる全語義との語義間関連度を、後
述する図１６に示す語義間関連度の表を参照して、語義
間関連度の総和Ｒ（Ｃｉ）を演算する。すなわち制御部
１１は、分類モデルにおける固有名詞以外の語につい
て、全語義間関連度の総和Ｒ（Ｃｉ）を演算する。そし
て制御部１１は、演算した語義間関連度の総和Ｒ（Ｃ
ｉ）をＲＡＭ１４に記憶させる。

【０１１５】ここで語義間関連度について説明してお
く。語義間関連度は、図１５の処理により文書処理装置
１が備える電子辞書に含まれる語義について予め算出
し、その結果を図１６のように保持しておけばよい。つ
まり、制御部１１が予め一度だけ図１５の処理を実行し
ておくようにすることで、図１４の自動分類処理の際に
用いることができる。

【０１１６】制御部１１が予め実行しておく図１５の処
理は次のようになる。まずステップＦ７１において、制
御部１１は、電子辞書内の語の語義の説明を用いて、こ
の辞書を使って語義のネットワークを作成する。すなわ
ち、辞書における各語義の説明とこの説明中に現れる語
義との参照関係から、語義のネットワークを作成する。
ネットワークの内部構造は、上述したようなタグ付けに
より記述される。文書処理装置の制御部１１は、たとえ
ばＲＡＭ１４に記憶された電子辞書について、語義とそ
の説明を順に読み出して、ネットワークを作成する。制
御部１４は、このようにして作成した語義のネットワー
クをＲＡＭ１４に記憶させる。

【０１１７】なお、上記ネットワークは、文書処理装置
の制御部１１が辞書を用いて作成する他に、受信部２１
にて外部から受信したリ、記録／再生部３１にて記録媒
体３２から再生したりすることにより得ることもでき
る。また上記電子辞書は、受信部２１にて外部から受信
したり、記録／再生部３１にて記録媒体３２から再生し
たりすることにより得ることができる。

【０１１８】ステップＦ７２においては、ステップＦ７
１で作成された語義のネットワーク上で、各語義のエレ
メントに対応する中心活性値の拡散処理をおこなう。こ
の活性拡散により、各語義に対応する中心活性値は、上
記辞書により与えられたタグ付けによる内部構造に応じ
て与えられる。中心活性値の拡散処理は、図８で説明し
た処理となる。

【０１１９】ステップＦ７３においては、ステップＦ７
１で作成された語義のネットワークを構成するある一つ
の語義Ｓｉを選択し、続くステップＦ７４においては、
この語義Ｓｉに対応する語彙エレメントＥｉの中心活性
値ｅｉの初期値を変化させ、このときの中心活性値の差
分△ｅｉを計算する。

【０１２０】さらにステップＦ７５においては、ステッ
プＦ７４におけるエレメントＥｉの中心活性値ｅｉの差
分△ｅｉに対応する、他の語義Ｓｊに対応するエレメン
トＥｊの中心活性値ｅｊの差分△ｅｊを求める。ステッ
プＦ７６においては、ステップＦ７５で求めた差分△ｅ
ｊを、ステップＦ７４で求めた△ｅｉで除した商△ｅｊ
／△ｅｉを、語義Ｓｉの語義ｓｊに対する語義間関連度
とする。

【０１２１】ステップＦ７７においては、一の語義Ｓｉ
と他の語義Ｓｊとのすべての対について語義間関連度の
演算が終了したか否かについて判断する。すべての語義
の対について語義間関連度の演算が終了していないとき
には、ステップＦ７３にもどり、語義間関連度の演算が
終了していない対について語義間関連度の演算を継続す
る。このようなステップＦ７３からステップＦ７７のル
ープにおいて、制御部１１は、必要な値をたとえばＲＡ
Ｍ１４から順に読み出して、上述したように語義間関連
度を計算する。制御部１１は、計算した語義間関連度を
たとえばＲＡＭ１４に順に記憶させる。そして、すべて
の語義の対について語義間関連度の演算が終了したとき
には、ステップＦ７７から、この一連の処理を終了す
る。

【０１２２】このような語義間関連度の算出は、或る１
つの語義の中心活性値を変化させた時に、それにつられ
て中心活性値が変化する語義を、関連度が高いものとす
る処理といえる。つまりステップＦ７４で或る語義の中
心活性値を変化させると、それに応じて関連する（リン
クされた）語義の中心活性値が変化するものとなるた
め、その変化の度合いを調べれば、或る語義に対する他
の各語義の関連度がわかるものである。（或るエレメン
トＥｉの中心活性値は、上述した活性拡散の説明におい
て述べたように、リンク先のエレメントの中心活性値と
端点活性値が反映されて、そのエレメントＥｉ端点活性
値が更新されたうえで、そのエレメントＥｉの端点活性
値と現在の中心活性値の和から求められるため、リンク
先との関連度が大きいほど中心活性値の変化量は大きく
なる）このような処理を各語義から他の全ての語義に対して行
っていくことで、すべての語義の対（組み合わせ）につ
いて、関連度を算出することができる。

【０１２３】このように計算された語義間関連度は、図
１６に示すように、それぞれの語義と語義の間に定義さ
れる。この図１６の表においては、語義間関連度は０か
ら１までの値をとるように正規化されている。そしてこ
の表においては一例として“コンピュータ”、“テレ
ビ”、“ＶＴＲ”の間の相互の語義間関連度が示されて
いる。“コンピュータ”と“テレビ”の語義間関連度は
０．５５、“コンピュータ” と“ＶＴＲ”の語義間関
連度は０．２５、“テレビ”と“ＶＴＲ”の語義間関連
度は０．６０である。

【０１２４】以上のように予め算出されていた語義間関
連度を用いて図１４のステップＦ６２の処理が行われた
ら、続いて制御部１１は、ステップＦ６３として、カテ
ゴリＣｉに対する文書の文書分類間関連度Ｒｅｌ（Ｃ
ｉ）をＲｅｌ（Ｃｉ）＝ｍ１Ｐ（Ｃｉ）＋ｎ１Ｒ（Ｃｉ）として算出する。ここで、係数ｍ１、ｎ１は定数で、そ
れぞれの値の文書分類間関連度への寄与の度合いを表す
ものである。制御部１１は、ステップＦ６１で算出した
共通集合の数Ｐ（Ｃｉ）およびステップＦ６２で算出し
た語義間関連度の総和Ｒ（Ｃｉ）を用いて、上記式の演
算を行い、文書分類間関連度Ｒｅｌ（Ｃｉ）を算出す
る。制御部１１は、このように算出した文書分類間関連
度Ｒｅｌ（Ｃｉ）をＲＡＭ１４に記憶させる。

【０１２５】なお、これらの係数ｍ１、ｎ１の値として
は、たとえばｍ１＝１０、ｎ１＝１とすることができ
る。また係数ｍ１、ｎ１の値は、統計的手法を使って推
定することもできる。すなわち、制御部１１は、複数の
係数ｍおよびｎの対について文書分類間関連度Ｒｅｌ
（Ｃｉ）が与えられることで、上記係数を最適化により
求めることができる。

【０１２６】ステップＦ６４においては、制御部１１
は、カテゴリＣｉに対する文書分類間関連度Ｒｅｌ（Ｃ
ｉ）が最大で、その文書分類間関連度Ｒｅｌ（Ｃｉ）の
値がある閾値を越えているとき、そのカテゴリＣｉに文
書を分類する。すなわち制御部１１は、複数のカテゴリ
に対してそれぞれ文書分類間関連度を作成し、最大の文
書分類間関連度が閣値を越えているときには、文書を最
大の文書分類間関連度を有する上記カテゴリＣｉに分類
する。これにより文書が自動的に所要のカテゴリに分類
されることになる。なお最大の文書分類間関連度が閾値
を越えていないときには、文書の分類はおこなわない。

【０１２７】以上のような図１４の処理として、図１３
のステップＦ２３の自動分類が行われたら、ステップＦ
２４、Ｆ２５で、それに応じて分類モデルを更新し、登
録することで、一連の自動分類が完了する。即ち文書処
理装置１に受信された文書データは、自動的に分類され
たことになり、ユーザーは例えば図１０の分類ウインド
ウ２０１において、所要の文書分類エリアにおいて、受
信された文書データを確認できることになる。

【０１２８】６．要約作成処理続いて、文書データについての要約文を作成する処理に
ついて述べる。上述したようにユーザーは、文書を選択
して図１１のような閲覧ウインドウ３０１を開くことに
より、文書の本文を閲覧することができる。例えば上述
した手動分類処理におけるステップＦ１３の時点や、そ
の他任意の時点において、図１０で説明した分類ウイン
ドウ２０１から、閲覧ウインドウ３０１を開くことがで
きる。

【０１２９】例えば分類ウインドウ２０１において或る
文書を選択した状態でブラウザボタン２０２ｂをクリッ
クすることで、図１７のように、文書表示部３０３に選
択された文書の本文が表示された閲覧ウインドウ３０１
が開かれる。なお文書表示部３０３に文書全文が表示で
きないときには、その文書の一部が表示される。また要
約文が作成されていない時点では、図１７のように要約
表示部３０４は空白とされる。

【０１３０】この閲覧ウインドウ３０１において要約作
成ボタン３０６ａがクリックされると、文書表示部３０
３に表示されている文書についての要約文が作成され、
図１８に示すように要約表示部３０４に表示される。つ
まり制御部１１は、ユーザーの要約作成操作に応じて、
以下説明するような要約文作成処理を行い、作成後、そ
れを表示する制御を行うものとなる。文書から要約を作
成する処理は、文書のタグ付けによる内部構造に基づい
て実行される。なお要約文は、要約表示部３０４のサイ
ズに応じて生成される。そして本文表示部３０３と要約
表示部３０４の面積は、ユーザーが仕切枠３１２を移動
させることで変化させることができる。つまり要約文
は、要約作成が指示された時点での要約表示部３０４の
サイズに応じたサイズ（文書長）で作成されることにな
る。

【０１３１】要約作成ボタン３０６ａがクリックされる
ことにより開始される、制御部１１の要約作成処理を図
１８に示す。

【０１３２】図１９のステップＦ８１では、制御部１１
は活性拡散を行う。本例においては、活性拡散により得
られた中心活性値を重要度として採用することにより、
文書の要約を行うものである。すなわち、タグ付けによ
る内部構造を与えられた文書においては、活性拡散を行
うことにより、各エレメントにタグ付けによる内部構造
に応じた中心活性値を付与することができる。ステップ
Ｆ８１で行う活性拡散処理は、図７〜図９で説明したも
のと同様の処理となるが、上述したように活性拡散は、
中心活性値の高いエレメントと関わりのあるエレメント
にも高い中心活性値を与えるような処理である。すなわ
ち、活性拡散は、照応（共参照）表現とその先行詞の間
で中心活性値が等しくなり、それ以外では中心活性値が
減衰するような中心活性値についての演算である。この
中心活性値は、タグ付けによる内部構造に応じて決定さ
れるので、タグ付けによる内部構造を考慮した文書の分
析に利用することができる。

【０１３３】次にステップＦ８２では、制御部１１は、
表示部３０に表示されている閲覧ウィンドウ３０１の要
約表示部３０４のサイズ、具体的にはこの要約表示部３
０４に表示可能な最大文字数をｗｓと設定する。また制
御部１１は、要約の文字列（要約文を保持する内部レジ
スタ）ｓを初期化して初期値ｓ（０）＝””と設定す
る。制御部１１は、このように設定した、最大文字数ｗ
ｓおよび文字列ｓの初期値ｓ（０）を、ＲＡＭ１４に記
録する。

【０１３４】ステップＦ８３では、制御部１１は、文の
骨格の抽出処理をカウントするカウンタのカウント値ｉ
を「１」に設定する。そしてステップＦ８４で制御部１
１は、カウンタのカウント値ｉに基づいて、文章からｉ
番目に平均中心活性値の高い文の骨格を抽出する。平均
中心活性値とは、一つの文を構成する各エレメントの中
心活性値を平均したものである。制御部１１は、たとえ
ばＲＡＭ１４に記録した文字列ｓ（ｉ−１）を読み出
し、この文字列ｓ（ｉ−１）に対して、抽出した文の骨
格の文字列を加えて、Ｓ（ｉ）とする。そして制御部１
１は、このようにして得た文字列ｓ（ｉ）をＲＡＭ１４
に記録する。初回は、文字列ｓ（ｉ−１）は初期値ｓ
（０）であるので、今回抽出した文の骨格が文字列Ｓ
（ｉ）としてＲＡＭ１４に記憶されることになる。また
以降においてステップＦ８４の処理が行われる場合は、
抽出された文の骨格が文字列Ｓ（ｉ）に、それまでの文
字列Ｓ（ｉ）（つまりその時点では文字列Ｓ（ｉ−
１））に追加されていくものとなる。また同時に、制御
部１１はこのステップＦ８４において、上記文の骨格に
含まれないエレメントの中心活性値順のリストＬ（ｉ）
を作成し、このリストＬ（ｉ）をＲＡＭ１４に記録す
る。

【０１３５】すなわち、このステップＦ８４において
は、要約のアルゴリズムは、活性拡散の結果を用いて、
平均中心活性値の大きい順に文を選択し、選択された文
の骨格の抽出する。文の骨格は、文から抽出した必須要
素により構成される。必須要素になりうるのは、エレメ
ントの主辞（head）と、主語（subject）、目的語（obj
ect）、間接目的語（indirect object）、所有者（poss
essor）、原因（cause）、条件（condition）または比
較（comparison）の関係属性を有する要素と、等位構造
が必須要素のときにはそれに直接含まれるエレメントと
が必須要素を構成するものである。そして、文の必須要
素をつなげて文の骨格を生成し、要約に加える。

【０１３６】、ステップＦ８５では制御部１１は、文字
列ｓ（ｉ）の長さが、閲覧ウィンドウ３０１の要約表示
部１０４の最大文字数ｗｓより大きいか否かを判断す
る。このステップＦ８５は、要約表示部３０４のサイズ
に応じた要約文を作成するための判断処理となる。

【０１３７】制御部１１は、文字列ｓ（ｉ）の長さが最
大文字数ｗｓに達していないときは、処理をステップＦ
８６に進める。ステップＦ８６では制御部１１は、文書
中で、（ｉ＋１）番目に平均中心活性値が高い文のエレ
メントの中心活性値と、上記ステップＦ８４で作成した
リストＬ（ｉ）の最も中心活性値が高いエレメントの中
心活性値を比較する。つまり、上記ステップＦ８４にお
いて要約として採用された文の次に平均中心活性値が高
い文（即ち次に要約文に付加する候補となる文）と、ス
テップＦ８４において要約として採用された文の中で骨
格ではないとして要約からは排除されたエレメントの中
心活性値を比較する。

【０１３８】このステップＦ８６の処理は、要約文とし
ての文字列に次に加える部位を、その直前のステップＦ
８４で採用した文において骨格として採用されなかった
ものから選ぶか、或いは他の文から選ぶかを判断する処
理となる。

【０１３９】（ｉ＋１）番目に平均中心活性値が高い文
におけるエレメントの中心活性値よりも、リストＬ
（ｉ）における最も高い中心活性値の方が、中心活性値
が高い値であった場合は、要約文としての文字列に次に
加える部位を、その直前のステップＦ８４で採用した文
において骨格として採用されなかったものから選ぶよう
にする。このため制御部１１の処理はステップＦ８８に
進み、リストＬ（ｉ）における最も中心活性値が高いエ
レメントを、その時点で記憶されている文字列Ｓ（ｉ）
に加え、文字列ＳＳ（ｉ）とする。またこのとき、文字
列ＳＳ（ｉ）に加えたエレメントをリストＬ（ｉ）から
削除する。そして、ステップＦ８９において、文字列Ｓ
Ｓ（ｉ）が、最大文字数ｗｓより大きいか否かを判断
し、大きくなければステップＦ８６に戻る。

【０１４０】ステップＦ８６において、（ｉ＋１）番目
に平均中心活性値が高い文のエレメントとして、リスト
Ｌ（ｉ）における最も高い中心活性値よりも中心活性値
が高いエレメントがあった場合は、要約文としての文字
列に次に加える部位を、その直前のステップＦ８４で採
用した文とは別の文から選ぶこととしてステップＦ８７
でカウント値ｉをインクリメントしてステップＦ８４に
戻ることになる。つまりステップＦ８６で、（ｉ＋１）
番目に平均中心活性値が高い文とされた文について、ス
テップＦ８４で骨格を抽出し、それを文字列Ｓ（ｉ）に
加えるようにする。

【０１４１】以上のように、ステップＦ８４又はステッ
プＦ８８で文の骨格となるエレメントやその他のエレメ
ントとして、中心活性値の高いものを基準として文字列
に加えていきながら、ステップＦ８５又はステップＦ８
９で、文字列Ｓ（ｉ）又はＳＳ（ｉ）を最大文字数ｗｓ
と比較していくことで、最大文字数ｗｓに近いが最大文
字数ｗｓを越えない文字列を作成していくことになる。

【０１４２】例えばステップＦ８５で文字列Ｓ（ｉ）が
最大文字数ｗｓを越えた場合は、制御部１１の処理はス
テップＦ９０に進み、直前のステップＦ８４で骨格を加
える前の文字列Ｓ（ｉ−１）を、要約文とする。つま
り、これはステップＦ８４で文の骨格を加えたことによ
り、最大文字数ｗｓを越えてしまったことになるため、
その骨格を加える前の文字列Ｓ（ｉ−１）が、最大文字
数ｗｓに近いが最大文字数ｗｓを越えない文字列である
と判断して、それを要約文とするものである。

【０１４３】なお、このため初めてステップＦ８４で文
字列Ｓ（ｉ）を生成した時点（ｉ＝１の時点）で、ステ
ップＦ８５で、文字列Ｓ（ｉ）が最大文字数ｗｓを越え
た場合は、文字列Ｓ（ｉ−１）は、ステップＦ８２で設
定した初期値としての文字列Ｓ（０）となるため、実質
的に要約文は作成できなかったことになる。これは、要
約表示部３０４のサイズが小さすぎたことに起因するた
め、ユーザーは画面上で要約表示部３０４の面積を広げ
た上で、再度、要約作成ボタン３０６ａをクリックし
て、図１９の処理が開始されるようにすればよい。

【０１４４】ステップＦ８５で文字列Ｓ（ｉ）が最大文
字数ｗｓを越えていない場合は、上述のように制御部１
１の処理はステップＦ８６に進み、次に文字列に加える
部分を判断することになる。そして上記のようにステッ
プＦ８９に進んだ場合は、文字列ＳＳ（ｉ）が最大文字
数ｗｓを越えたか否かを判別する。ここで文字列ＳＳ
（ｉ）が最大文字数ｗｓを越えた場合は、制御部１１の
処理はステップＦ９１に進み、直前のステップＦ８８で
或るエレメントを加える前の文字列Ｓ（ｉ）を、要約文
とすることになる。つまり、これはステップＦ８８でエ
レメントを加えたことにより、最大文字数ｗｓを越えて
しまったことになるため、そのエレメントを加える前の
文字列Ｓ（ｉ）が、最大文字数ｗｓに近いが最大文字数
ｗｓを越えない文字列であると判断して、それを要約文
とするものである。

【０１４５】以上のような処理により、その時点の要約
表示部３０４のサイズに適合した要約文が作成されるこ
とになる。そしてその要約文の内容は、平均中心活性値
の高い１又は複数の文の骨格、及び骨格以外の中心活性
値の高いエレメントが用いられたものとなる。そしてこ
の様に作成された要約文は、ＲＡＭ１４に記憶されると
ともに、図１８のように要約表示部３０４に表示され
る。

【０１４６】なお、表示された要約文を見てユーザーが
より詳しい要約文を見たいと思った場合、或いはより短
い要約文を見たいと思った場合は、閲覧ウインドウ３０
１の要約表示部３０４のサイズ（面積）を増減した上
で、再度要約作成ボタン３０６ａをクリックすればよ
い。すると、上述した図１９の処理により、その時点の
要約表示部３０４のサイズに応じた文書長の要約書が作
成され、表示されることになる。

【０１４７】７．読み上げ処理文書処理装置１は、以上のように、サーバ３等からタグ
付けされた文書データを受信すると、その本文や要約文
を表示してユーザーに提示できるが、さらに受信した文
書を音声でユーザーに提示することもできる。即ちＣＰ
Ｕ１３により、ＲＯＭ１５やＨＤＤ３４に記録されてい
る電子文書処理プログラムのうちの音声読み上げプログ
ラムを起動することで、図２０に示すような一連の工程
を経ることによって、文書の読み上げを行うことができ
る。まずここでは、簡略化した各工程の説明を行い、そ
の後、具体的な文書例を用いて、各工程の説明を詳細に
行う。

【０１４８】制御部１１の処理として、図２０のステッ
プＦ１０１は、図５のステップＦ１１（又は図１３のス
テップＦ２１）と同様の文書受信／記憶処理である。上
述ののように、受信した文書データ（タグファイル）に
ついては手動又は自動での分類処理が行われるが、それ
と同様に、受信した文書について読み上げ処理も実行可
能という意味で図２０にステップＦ１０１を記したもの
である。ここでは特に処理手順として、分類処理と読み
上げ処理の順序その他を規定するものではない。

【０１４９】なお、文書読み上げ処理の対象となる文書
（受信文書）には、後述するように、音声合成を行うた
めに必要なタグが付与されていることが必要である。図
１で説明したようにタグが付与された文書データ（タグ
ファイル）は、オーサリング装置２において生成される
ものである。従って、オーサリング装置２では、音声合
成を行うために必要なタグも付与する。但し、文書処理
装置１は、タグ付けされた文章を受信したうえで、その
文書に音声合成を行うために必要なタグを新たに付与し
て文書を作成することもできる。つまり音声合成を行う
ために必要なタグについては、オーサリング装置２側で
必ずしも付与する必要はない。

【０１５０】文書処理装置１の文書読み上げ処理として
は続いてステップＦ１０２において、ＣＰＵ１３の制御
のもとに、タグファイルに基づいて読み上げ用ファイル
を生成する。この読み上げ用ファイルは、後述するよう
に、タグファイル中のタグから、読み上げのための属性
情報を導出し、この属性情報を埋め込むことにより生成
される。

【０１５１】続いてステップＦ１０３において文書処理
装置１は、ＣＰＵ１３の制御のもとに、読み上げ用ファ
イルを用いて、音声合成エンジンに適した処理を行う。
なお、この音声合成エンジンは、ハードウェアで構成し
てもよいし、ソフトウェアで実現するようにしてもよ
い。音声合成エンジンをソフトウェアで実現する場合に
は、そのアプリケーションプログラムは、ＲＯＭ１５や
ＨＤＤ３４等に予め記憶されている。

【０１５２】続いて文書処理装置１はステップＦ１０４
において、ユーザが後述するユーザインターフェースを
用いて行う操作に応じて処理を行う。文書処理装置１
は、このような処理を行うことによって、与えられた文
書を読み上げることができる。これらの各工程につい
て、以下詳細に説明する。

【０１５３】まず、ステップＦ１０１におけるタグ付け
された文書の受信又は作成について説明する。文書処理
装置１は、例えば通信部２１から文書（音声合成を行う
ために必要なタグが既に付与されている文書）を受信す
る。または、文書処理装置１は、タグ付けされた文書を
受信し、その文書に音声合成を行うために必要なタグを
新たに付与して文書を作成する。

【０１５４】説明上の例として、以下のような、日本
語、及び英語の文書にタグ付けがなされたタグファイル
が、受信又は作成されものとする。

【０１５５】まずタグファイルの元となる日本語文書
は、次のような文書とする。「［素敵にエイジング］／８ガン転移、抑えられる！？がんはこの十数年、わが国の死因第一位を占めている。
そめ死亡率は年齢が進むとともに増加傾向にある。高齢
者の健康を考えるとき、がんの問題を避けて通れない。
がんを特徴づけるのは、細胞増殖と転移である。人間の
細胞には、自動車でいえばアクセルに当たり、がんをど
んどん増殖する「がん遺伝子」と、ブレーキ役の「がん
抑制遺伝子」がある。双方のバランスが取れていれば問
題はない。正常な調節機能が失われ、細胞内でブレーキ
が利かない変異が起こると、がんの増殖が始まる。高齢
者の場合、長い年月の間にこの変異が蓄積し、がん化の
条件を備えた細胞の割合が増え、がん多発につながるわ
けだ。ところで、もう一つの特徴、転移という性質がな
ければ、がんはそれほど恐れる必要はない。切除するだ
けで、完治が可能になるからである。転移を抑制するこ
との重要性がここにある。この転移、がん細胞が増える
だけでは発生しない。がん細胞が細胞と細胞の間にある
蛋白（たんぱく）質などを溶かし、自分の進む道をつく
って、血管やリンパ管に入り込む。循環しながら新たな
“住み家”を探して潜り込む、といった複雑な動きをす
ることが、近年解明されつつある。」

【０１５６】タグファイルの元となる英語の文書の例は
次のようなものとする「During its centennial year,
The Wall Street Journal will report events of the
past century that stand as milestones of American
business history. THREE COMPUTERS THAT CHANGED the
face of personal computing were Iaunched in 1977.
That year the Apple II, Commodore Pet and Tendy T
RS came to market. The computers were crude by tod
ay's standerds. Apple ll owners, for example,had t
o use their television sets as screens and storedd
ata on audiocassettes.」

【０１５７】文書処理装置１は、このような日本語又は
英語の文書についてタグが付された文書を受信すると、
分類処理や、図１７、図１８等で説明したようにその本
文を表示したり、要約文を作成して表示することができ
る。

【０１５８】ここで上記の日本語又は英語の文書は、そ
れそれ、図２２又は図２３に示すようなタグファイルと
して構成されている。日本語文書のタグファイルとして
は、図２２（ａ）に見出しの部分である「〔素敵にエイ
ジング〕／８ガン転移、抑えられる！？」を抜粋したも
のを示し、図２２（ｂ）に、文書中の最後の段落である
「この転移、がん細胞が・・・・近年解明されつつあ
る。」を抜粋したものを示している。残りの段落につい
ては省略してある。なお、実際のタグファイルは、見出
し部分から最後の段落までが１つのファイルとして構成
されている。

【０１５９】図２２（ａ）に示す見出し部分において、
＜見出し＞というタグは、この部分が見出しであること
を示している。この図２２（ａ）（ｂ）に示すタグファ
イルは基本的には、図３を用いて文書データ構造を説明
した際に用いたタグファイル例と同様にタグが付されて
いるものであり、上述した各タグについての細かい説明
は省略するが、所要各所に、音声合成を行うために必要
なタグが付与されているものである。

【０１６０】音声合成を行うために必要なタグとして
は、例えばまず、図中「例１」の部分に示すように、
「蛋白（たんぱく）」のように元の文書に読み仮名を示
す情報が与えられているときに付与されるものがある。
すなわち、この場合では、「たんぱくたんぱく」と重複
して読み上げてしまうことを防ぐために、発音＝“nul
l”という読み属性情報が記述されており、「（たんぱ
く）」の部分読み上げを禁止するタグが付与されてい
る。また、音声合成を行うために必要なタグとしては、
図中「例２」「例３」に示すように、「リンパ管」のよ
うな専門用語や「住み家」のように、誤った読み上げを
行う可能性のある難訓部分に付与されるものがある。す
なわち、この場合では、「りんぱくだ」や「すみいえ」
と読み上げてしまうことを防ぐために、それぞれ、発音
＝“りんぱかん”、発音＝“すみか”という読み仮名を
示す読み属性情報が記述されている。

【０１６１】一方、図２３に示すタグファイルにおける
音声合成を行うために必要なタグとしては、図中「例
４」として示す部分のように、「ＩＩ」というローマ数
字に対して、発音＝“two”という読み属性情報が記述
されている。これは、「ＩＩ」を「トゥ（two）」と読
み上げさせたい場合に、「セカンド（second）」と読み
上げてしまうことを防ぐために記述されているものであ
る。

【０１６２】また、例えば文書内に引用文が含まれてい
る場合、このようなタグファイルには、図示しないが、
その文が引用文であることを示すタグが付与される。さ
らに、タグファイルには、例えば文書内に疑問文がある
場合、図示しないが、その文が疑問文であることを示す
タグが付与される。

【０１６３】文書処理装置１は、先に図２０に示したス
テップＦ１０１において、例えば以上の例のように、音
声合成を行うために必要なタグが付与された文書を受信
又は作成するものとなる。

【０１６４】つぎに、図２０のステップＦ１０２におけ
る読み上げ用ファイルの生成について説明する。文書処
理装置１は、タグファイル中のタグから、読み上げめた
めの属性情報を導出し、この属性情報を埋め込むことに
よって読み上げ用ファイルを生成する。具体的には、文
書処理装置１は、文書の段落、文、句の先頭を示すタグ
を見つけ出し、これらのタグに対応して読み上げのため
の属性情報を埋め込む。また文書処理装置は、文書の要
約文を作成した場合には、その要約文に含まれる部分の
先頭を文書から見つけ出し、読み上げの際に音量を増大
させる属性情報を埋め込み、要約文に含まれる部分であ
ることを強調することなどもできる。

【０１６５】文書処理装置１は、図２２又は図２３に示
したタグファイルから図２４又は図２５に示すような読
み上げ用ファイルを生成する。なお、図２４（ａ）
（ｂ）は図２２（ａ）（ｂ）に示した部分に対応するも
のである。実際の読み上げ用ファイルは、上述した見出
し部分から最後の段落までが１つのファイルとして構成
されていることは勿論である。

【０１６６】図２４に示す読み上げ用ファイルには、文
書の先頭に対応してCom=Lang***という属性情報が埋め
込まれている。この属性情報は、文書を記述している言
語を示す。ここでは、Com=Lang=JPNという属性情報であ
り、文書を記述している言語が日本語であることを示し
ている。文書処理装置においては、この属性情報を参照
することで、文書毎に言語に応じた適切な音声合成エン
ジンを選択することができる。

【０１６７】また、この読み上げ用ファイルには各所
に、Com=begin_p、Com=begin_s、Com=begin_phという属
性情報が埋め込まれている。これらの属性情報は、それ
ぞれ、文書の段落、文及び句の先頭を示す。文書処理装
置１は、上述したタグファイル中のタグに基づいて、こ
れらの段落、文及び句の先頭を識別する。なお、読み上
げ用ファイルにおいて、例えば上述したタグファイル中
の＜形容動詞句＞＜名詞句＞のように、同じレベルの統
語構造を表すタグが連続して表れる部分に対しては、そ
れぞれに対応する数のCom=begin_phが埋め込まれずに、
まとめられて１つのCom=begin_phが埋め込まれる。

【０１６８】さらに、読み上げ用ファイルには、Com=be
gin_p、Com=begin_s、及びCom=begin_phに対応して、そ
れぞれ、Pau=500、Pau=100及びPau=50という属性情報が
埋め込まれている。これらの属性情報は、それぞれ、読
み上げの際に５００ミリ秒、１００ミリ秒及び５０ミリ
秒の休止期間を設けることを示す。すなわち文書処理装
置１が、文章の段落、文及び句の先頭こおいて、それぞ
れ、５００ミリ秒、１００ミリ秒及び５０ミリ秒の休止
期間を設けて文書を音声合成エンジンにより読み上げる
ようにするための情報である。なお、これらの属性情報
は、Com=begin_p、Com=begin_s及びCom=begin_phに対応
して埋め込まれる。そのため、例えばタグファイル中の
＜副詞句＞＜名詞句＞のように、同じレベルの統語構造
を表すタグが連続して表れる部分は、１つの句として捉
えられ、それぞれに対応する数のPau=50が埋め込まれず
に、まとめられて１つのPau=50が埋め込まれる。また、
例えばタグファイル中の＜段落＞＜文＞＜名詞句＞のよ
うに、異なるレベルの統語構造を表すタグが連続して表
れる部分については、それぞれに対応するPau=***が埋
め込まれる。そのため文書処理装置１は、このような部
分を読み上げる際には、例えば文書の段落、文及び句の
それぞれの休止期間を加算して得られる６５０ミリ秒の
休止期間を設けて読み上げるようにする。このように、
文書処理装置１は、段落、文及び句に対応した休止期間
を設けることで、段落、文及び句の切れ目を考慮した違
和感のない読み上げを行うことができる。なお、この休
止期間は、文書の段落、文及び句の先頭において、それ
ぞれ、６００ミリ秒、１００ミリ秒及び５０ミリ秒であ
る必要はなく、適宜変更することができる。

【０１６９】さらにまた、読み上げ用ファイルにおいて
は、タグファイル中で記述されている発音＝“null”と
いう読み属性情報に対応して、「（たんぱく）」が除か
れているとともに、発音＝“りんぱかん”、発音＝“す
みか”という読み属性情報に対応して、「リンパ管」、
「住み家」が、それぞれ、「りんぱかん」、「すみか」
に置換されている。文書処理装置１は、このような読み
属性情報を埋め込むことで、音声合成エンジンが参照す
る辞書の不備による読み誤りをすることがないようにし
ている。

【０１７０】また、読み上げ用ファイルには、文書内に
含まれた引用文であることを示すタグに基づいて、この
引用文のみを別の音声合成エンジンを用いるように指定
するための属性情報が埋め込まれてもよい。さらに、読
み上げ用ファイルには、疑問文であることを示すタグに
基づいて、その文の語尾のイントネーションを上げるた
めの属性情報が埋め込まれるようにしてもよい。さらに
また、読み上げ用ファイルには、必要に応じて、いわゆ
る「である調」の文体を「ですます調」の文体に変換す
るための属性情報を埋め込むこともできる。なお、この
場合、文書処理装置１は、このような属性情報を読み上
げ用ファイルに埋め込むのではなく、「である調」の文
体を「ですます調」の文体に変換して音声読み上げ用フ
ァイルを生成するようにしてもよい。

【０１７１】一方、図２５に示す読み上げ用ファイルに
は、文書の先頭に対応してCom=Lang=ENGという属性情報
が埋め込まれており、文書を記述している言語が英語で
あることを示している。また、読み上げ用ファイルに
は、Com=Vol=***という属性情報が埋め込まれている。
この属性情報は、読み上げの時の音量を示す。例えば、
Com=Vol=0は、文書処理装置のデフォルトの音量で読み
上げることを示している。また、Com=Vol=80は、デフォ
ルトの音量を８０％増量した音量で読み上げることを示
している。任意の、Com=Vol=***は、次のCom=Vol=***ま
で有効である。さらに、読み上げ用ファイルにおいて
は、タグファイル中で記述されている発音＝“two”と
いう読み属性情報に対応して、「ＩＩ」が「two」に置
換されている。

【０１７２】文書処理装置１は、図２１に示す一連の工
程を経ることによって、このような読み上げ用ファイル
を生成する。まず文書処理装置１は、ステップＦ２０１
において、ＣＰＵ１３によって、受信又は作成したタグ
ファイルを解析する。ここで文書処理装置１は、文書を
記述している言語を判別するとともに、文書の段落、文
及び句の先頭や、読み属性情報をタグに基づいて探し出
す。続いて文書処理装置１は、ステップＦ２０２におい
て、ＣＰＵ１３によって、文書を記述している言語に応
じて文書の先頭にCom=Lang=***という属性情報を埋め込
む。

【０１７３】次に文書処理装置１は、ステップＦ２０３
において、ＣＰＵ１３によって、文書の段落、文及び句
の先頭を読み上げ用ファイルにおける属性情報に置換す
る。すなわち文書処理装置１は、タグファイル中の＜段
落＞、＜文＞及び＜＊＊＊句＞を、それぞれ、Com=begi
n_p、Com=begin_s及びCom=begin_phに置換する。

【０１７４】さらに文書処理装置１は、ステップＦ２０
４において、ＣＰＵ１３によって、同じレベルの統語構
造が表れて同じCom=begin_***が重複しているものを、
１つのCom=begin_***にまとめる。続いて文書処理装置
１は、ステップＦ２０５において、ＣＰＵ１３によっ
て、Com=begin_***に対応してPau=***を埋め込む。すな
わち文書処理装置１は、Com=begin_pの前にPau=500を埋
め込み、Com=begin_sの前にPau=100を埋め込み、Com=be
gin_phの前にPau=50を埋め込む。そして文書処理装置１
は、ステップＦ２０６において、ＣＰＵ１３によって、
読み属性情報に基づいて、正しい読みに置換する。すな
わち文書処理装置１は、発音＝“null”という読み属性
情報に基づいて、「（たんぱく）」を除去するととも
に、発音＝“りんぱかん”、発音＝“すみか”という読
み属性情報に基づいて、「リンパ管」、「住み家」を、
それぞれ、「りんぱかん」、「すみか」に置換する。

【０１７５】文書処理装置１は、先に図２０に示したス
テップＦ１０２において、この図２１に示す処理を行う
ことによって、読み上げ用ファイルを自動的に生成す
る。文書処理装置１は、生成した読み上げ用ファイルを
ＲＡＭ１４に記憶させる。

【０１７６】つぎに、図２０のステップＦ１０３におけ
る読み上げ用ファイルを用いた処理について説明する。
文書処理装置１は、読み上げ用ファイルを用いて、ＲＯ
Ｍ１５やＨＤＤ３４等に予め記憶されている音声合成エ
ンジンに適した処理をＣＰＵ１３の制御のもとに行う。
具体的には、文書処理装置１は、読み上げ用ファイルに
埋め込まれているCom=Lang=***という属性情報に基づい
て、使用する音声合成エンジンを選択する。音声合成エ
ンジンは、言語や男声／女声等の種類に応じて識別子が
付されており、その情報が例えば初期設定ファイルとし
てＨＤＤ３４に記録されている。文書処理装置１は、初
期設定ファイルを参照し、言語に対応した識別子の音声
合成エンジンを選択する。．

【０１７７】また文書処理装置１は、読み上げ用ファイ
ルに埋め込まれているCom=begin_***を音声合成エンジ
ンに適した形式に変換する。例えば文書処理装置１は、
Com=begin_phをMark=10000のように１００００番台の番
号でマーク付けする。またCom=begin_sをMark=1000のよ
うに１０００番台の番号でマーク付けし、Com=begin_p
をMark=100のように１００番台の番号でマーク付けす
る。これは、＜句＞、＜文＞、＜段落＞の先頭が、それ
ぞれ１００００番台、１０００番台、１００番台の番号
で示されることを意味し、このマークによって＜句＞、
＜文＞、＜段落＞の先頭が識別できるようになる。さら
に、読み上げ用ファイルにおいては、音量の属性情報が
Voll=***のようにデフォルトの音量の百分率で表されて
いることから、文書処理装置１は、この属性情報に基づ
いて、百分率の情報を絶対値の情報に変換して求める。

【０１７８】文書処理装置１は、先に図２０に示したス
テップＦ１０３において、このような読み上げ用ファイ
ルを用いた処理を行うことによって、読み上げ用ファイ
ルを音声合成エンジンが文書を読み上げることが可能な
形式に変換するものとなる。

【０１７９】つぎに、図２０のステップＦ１０４におけ
るユーザインターフェースを用いた操作について説明す
る。文書処理装置１は、ユーザが例えば入力部２０のマ
ウス等を操作して先に図１７又は図１８に示した読み上
げボタン３０６ｃをクリックすることによって、音声合
成エンジンを起動する。そして文書処理装置１は、図２
５に示すようなユーザインターフェース用の読み上げウ
インドウ４０１を表示部３０に表示する。

【０１８０】この読み上げウインドウ４０１は、図示す
るように、文書を読み上げさせるための再生ボタン４２
０と、読み上げを停止させるための停止ボタン４２１
と、読み上げを一時停止させるための一時停止ボタン４
２２とを有する。また、この読み上げウインドウ４０１
は、文単位で頭出し、早戻し及び早送りさせるための頭
出しボタン４１１、早戻しボタン４１２及び早送りボタ
ン４１３と、段落単位で頭出し、早戻し及び早送りさせ
るための頭出しボタン４１４、早戻しボタン４１５及び
早送りボタン４１６と、句単位で頭出し、早戻し及び早
送りさせるための頭出しボタン４１７、早戻しボタン４
１８及び早送りボタン４１９とを有する。

【０１８１】さらに、読み上げウインドウ４０１は、読
み上げる対象を全文とするか、上述したようにして作成
された要約文とするかを選択するための選択スイッチ４
２３，４２４を有する。また、読み上げ時に画像を表示
する画像表示エリア４０３が設定され、読み上げている
人のイメージを表示したり、テロップ表示エリア４０２
が設けられ、読み上げ音声に対応して文字がテロップ表
示できるようにされている。

【０１８２】なお、ここでは図示しないが、例えば、音
声を増減させるためのボタンや読み上げの速さを増減さ
せるためのボタン、男声／女声等の声を変化させるため
のボタン等を有していてもよい。

【０１８３】文書処理装置１は、ユーザがこれらの各種
ボタン／スイッチを例えば入力部２０のマウス等を操作
してクリック／選択することに応じて、音声合成エンジ
ンによる読み上げ動作を行う。例えば、文書処理装置１
は、ユーザが再生ボタン４２０をクリックすることによ
って、文書の読み上げを開始する。具体的には制御部１
１は音声合成処理により生成した音声信号を音声出力部
３３に供給し、音声として出力する。また文書処理装置
１は、停止ボタン４２１、一時停止ボタン４２２のクリ
ックにおいて、読み上げ処理の停止や一時停止を行う。

【０１８４】また、読み上げの途中でユーザが頭出しボ
タン４１１を押すことによって、現在読み上げている文
の先頭にジャンプして再び読み上げる。頭出しボタン４
１４、４１７についても同様に、それぞれ現在読み上げ
ている段落や句の先頭にジャンプして再び読み上げを行
う。制御部１１は、この頭出しボタン４１１、４１４、
４１７の操作に関しては、上記したマーク付により、ジ
ャンプ先を認識するものとなる。即ち、文に関する頭出
しボタン４１１が操作された際には、制御部１１は、現
在読み上げている文の途中位置から文を遡っていき、１
０００番台のマークをサーチする。そして１０００番台
のマークが検出されたら、そこから読み上げを再開する
ものとなる。段落や句の場合は、それぞれ１００番台、
１００００番台のマークを探して読み上げを再開するも
のとなる。この様な処理によって、例えば文書中でユー
ザが所望の部分を繰り返し再生させたいといった要求に
応えることができる。

【０１８５】文書処理装置１は、図２０のステップＦ１
０４において、ユーザがこのような読み上げウインドウ
４０１でのユーザインターフェースを用いた操作を行う
ことに応じて、音声合成エンジンにより文書を読み上げ
る。このようにして文書処理装置１は、所望の文書を音
声合成エンジンにより違和感なく読み上げることができ
る。

【０１８６】ところで読み上げる対象の文書としては文
書データの本文でもよいし、要約文であってもよい。本
文か要約文かは、選択スイッチ４２３，４２４のクリッ
クにより選択されるが、いずれにしても、本文又は要約
文としてのタグファイルについて、図２０のステップＦ
１０２，Ｆ１０３の処理が行われることで、音声合成エ
ンジンによる文書読み上げが可能となる。

【０１８７】なお本例では、受信又は作成したタグファ
イルから読み上げ用ファイルを生成するものとしたが、
このような読み上げ用ファイルを生成せずに、タグファ
イルに基づいて直接読み上げを行うようにしてもよい。
この場合、文書処理装置１は、タグファイルを受信又は
作成した後、音声合成エンジンを用い、タグファイルに
付与されている段落、文及び句を示すタグに基づいて、
段落、文及び句の先頭に所定の休止期間を設けて読み上
げる。このようにすることによって、文書処理装置１
は、音声読み上げ用ファイルを生成することなく、タグ
ファイルに基づいて直接読み上げることができる。

【０１８８】８．オーサリング装置の構成以上のように、文書処理装置１では、供給された文書デ
ータに対して、分類モデルへの分類処理、本文又は要約
文の表示処理、ウインドウサイズに応じた要約作成処
理、本文又は要約文の読み上げ処理などが実行可能とさ
れ、ユーザーは文書データとして提供された情報を所望
の手法で見聞きすることができる。上述の説明からわか
るように、文書処理装置１でこれらの処理を行うには、
文書データがタグファイルとして形成されていることが
必要であり、このため図１に示したように、オーサリン
グ装置２において原文であるプレーンテキストについて
オーサリング処理が施されてタグファイルとしての文書
データが形成されるものである。

【０１８９】以下、オーサリング装置２の構成及びオー
サリング処理動作について説明していく。図２７にオー
サリング装置２の構成を示す。

【０１９０】オーサリング装置２は、図２７に示すよう
に、制御部７２およびインターフェース７６を備える本
体７１と、ユーザ（このオーサリング装置２に関してい
うユーザーとは、オーサリング作業者のこと）からの入
力を受けて本体７１に送る入力部７８と、外部との信号
の送受信を行う通信部７７と、本体７１からの出力を表
示する表示部７９と、記録媒体８１に対して情報を記録
／再生する記録／再生部８０と、ＨＤＤ（ハードディス
クドライブ）８２を有している。

【０１９１】本体７１は、制御部７２およびインターフ
ェース７６を有し、このオーサリング装置２の主要な部
分を構成している。制御部７２は、このオーサリング装
置２における処理を実行するＣＰＵ７３と、揮発性のメ
モリであるＲＡＭ７４と、不揮発性のメモリであるＲＯ
Ｍ７５とを有している。制御部７２により実行される処
理とは、プレーンテキストに対するオーサリング処理
（図１のオーサリング処理機能２ａ）、プレーンテキス
トとしてのデータ作成処理（図１の文書作成機能２
ｂ）、外部機器からのプレーンテキストの入力処理、オ
ーサリングを行った文書データの外部機器への出力処
理、及びこれらに伴う表示や操作入力のユーザーインタ
ーフェース処理となる。ＣＰＵ７３は、たとえばＲＯＭ
７５に記憶された各種プログラムにしたがってこれらの
処理を実行する。また必要な場合にはデータを一時的に
ＲＡＭ７４に格納して、プログラムを実行するための制
御をおこなう。

【０１９２】この制御部７２の制御により実現されるオ
ーサリング処理動作については後述するが、オーサリン
グ処理のために必要な、図１に示したオーサリングプロ
グラム２ｃは、ＲＯＭ１５やＨＤＤ３４に記憶されてい
る。或いは上述したように、外部で用意されるオーサリ
ングプログラム５が記録媒体８１や通信回線６によって
オーサリング装置２に提供され、ＲＯＭ１５やＨＤＤ３
４に記憶される。もしくはが記録媒体８１や通信回線６
で提供されるオーサリングプログラムが直接ＲＡＭ７４
に展開され、起動されるようにもできる。

【０１９３】インターフェース７６は、制御部７２、入
力部７８、通信部７７、表示部７９、記録／再生部８
０、ＨＤＤ８２に接続される。そしてインターフェース
７６は、制御部７２の制御の下に、入力部７８からのデ
ータの入力、通信部７７との間のデータの入出力、表示
部７９へのデータの出力、記録／再生部８０に対するデ
ータの入出力、ＨＤＤ８２に対するデータの入出力の各
動作をを行う。具体的には制御部７２と上記各部の間で
のデータの入出力のタイミングを調整したり、データの
形式を変換することなどを行う。

【０１９４】入力部７８は、このオーサリング装置２に
対するユーザの入力を受ける部分である。この入力部７
８は、例えばキーボードやマウスにより構成される。ユ
ーザは、この入力部７８を用い、キーボードによリオー
サリング装置処理のための文字を入力したり、マウスに
より表示部７９に表示されている操作ボタンやアイコン
のクリック、或いは文書エレメントの選択などができ
る。

【０１９５】通信部７７は、このオーサリング装置２に
外部から通信回線６を介して送信される信号を受信した
り、通信回線６に信号を送信する部位である。この通信
部７７は、例えば図１に示した文書プロバイダ４から送
信された１又は複数のプレーンテキスト（タグが付され
ていない文書）や、上記のようにオーサリングプログラ
ム５等を受信し、受信したデータを本体７１に送る。も
ちろん通信部７７から通信回線６を介して外部装置にデ
ータを送信することも可能である。具体的には、オーサ
リング処理を行って生成した文書データをサーバ３に送
信することなどが行われる。

【０１９６】表示部７９は、このオーサリング装置２に
おけるオーサリング作業時の出力としての文字や画像情
報を表示する部位である。この表示部７９は、たとえば
陰極線管や液晶表示装置などにより構成され、たとえば
単数または複数のウィンドウを表示し、このウィンドウ
上に文字、図形等を表示する。

【０１９７】記録／再生部８０は、例えばフロッピーデ
ィスクや光ディスクなどの記録媒体８１に対してデータ
の記録／再生をおこなう。もちろん光磁気ディスク、メ
モリカード、磁気テープなど、他の種の可搬性メディア
も記録媒体８１の例として適用できるものであり、記録
／再生部８０は、メディアに応じた記録再生装置（ディ
スクドライブ、カードドライブなど）であればよい。

【０１９８】記録媒体８１が、オーサリングプログラム
が記録されているものである場合は、記録／再生部８０
は、その記録媒体８１からオーサリングプログラムを読
み出して制御部７２に供給することができる。また記録
媒体８１にプレーンテキストが記録されていれば、記録
／再生部８０でそれを読み出して制御部７２に供給する
ことができる。即ちオーサリング装置２にとって、通信
部７７によるプレーンテキストの受信とは別のプレーン
テキストの入力態様となる。さらに、制御部７２は当該
オーサリング装置２でオーサリング処理した文書データ
を記録／再生部８０において記録媒体８１に記録させ、
例えばサーバ３に提供することなどもできる。

【０１９９】ＨＤＤ８２は、オーサリング装置２におけ
る大容量の記録領域を提供する。ＨＤＤ８２は、制御部
７２の制御に基づいて情報の記録／再生を行う。このＨ
ＤＤ８２は、制御部７２で実行される各種処理のための
プログラム、例えばオーサリングプログラムなどの格納
に用いられたり、例えば当該オーサリング装置２に取り
込まれたプレーンテキストや、オーサリング処理により
生成した文書データ等を格納しておく部位として用いる
ことなどができる。

【０２００】９．オーサリング処理このようなオーサリング装置２で実行されるオーサリン
グ処理について図２８のフローチャートで説明する。こ
のフローチャートは、オーサリングプログラムに基づい
て制御部７２が実行する処理を示すものである。また図
２９〜図４３は、オーサリング処理時の表示部７９で表
示されるオーサリングウインドウ６０１の例であるが、
これらの図も参照しながら説明する。

【０２０１】制御部７２においてオーサリングプログラ
ムが起動されると、制御部７２により図２８のオーサリ
ング処理が開始される。制御部７１は、まずステップＦ
２０１でオーサリング処理対象となる或るプレーンテキ
ストを選択する。例えば文書プロバイダ４から送信され
たプレーンテキストや、或いは当該オーサリング装置２
において作成したプレーンテキストとして、ＲＡＭ７
４、ＨＤＤ８２、記録媒体８１などに格納されている１
又は複数のプレーンテキストを表示部７９に一覧表示
し、ユーザーに選択させる。制御部７２は、ユーザーの
選択操作に応じてオーサリング処理対象としての１つの
プレーンテキストを選択決定する。そして制御部７２
は、決定したプレーンテキストを表示部７９に表示す
る。例えば図２９の表示例のように、オーサリングウイ
ンドウ６０１を表示部７９上に開く。このオーサリング
ウインドウ６０１には、例えば第１の文書表示部６０
２、第２の文書表示部６０３、ファイル名６０４、及び
各種操作ボタン６０５等を表示する。

【０２０２】オーサリングウインドウ６０１では、ファ
イル名６０４として選択されたプレーンテキストのファ
イル名が表示される。そしてプレーンテキストが文書表
示部６０２に表示される。なお、文書表示部６０２，６
０３の各サイズは、仕切枠を移動させることによりユー
ザーが任意に変更可能であり、またオーサリング処理の
進行に伴って自動的に変更されることもある。

【０２０３】このようにプレーンテキストが表示された
状態で、ユーザーがアナライズボタン６０５ａをクリッ
クすることで、制御部７２の処理はステップＦ２０２以
降に進む。まずステップＦ２０２で制御部７２は、プレ
ーンテキストに対して形態素解析を行う。即ちプレーン
テキストとしての文章を、形態素となる文節（又は語）
毎に区切っていくとともに、各形態素についての品詞を
判別する。但し、実際には自動解析によって必ずしも正
確な語の区切や品詞が設定できるものではないため、自
動的に確定できない区切や品詞は、それらの候補を設定
することになる。そしてそのように形態素解析した結果
をオーサリングウインドウ６０１において文書表示部６
０２に、例えば図３０のように表示する。

【０２０４】即ち、解析の結果としての形態素の区切を
文書中でスラッシュ「/」で表示するとともに、例えば
確定部分、未確定部分をスラッシュ「/」の色分けで表
現する。なお、図３０〜図４３としての図面上では、色
の違いを表現できないため、「/」は通常色（文字と同
じ色）で表示されるスラッシュとしており、「●」は、
実際には例えば赤色のスラッシュとして表示される部分
であるとする（以下、スラッシュ「／」、赤スラッシュ
「●」と呼ぶ）。また、後の説明においてスラッシュが
緑色で表示される部分が発生するが、図面上、その部分
は「◆」として表記し、また説明上、緑スラッシュ
「◆」と呼ぶこととする。

【０２０５】図３０のように文書表示部６０２において
は、解析の結果、形態素として区切及び品詞が確定され
た部分はスラッシュ「／」で示される。そして複数の候
補が考えられる部分は、赤スラッシュ「●」及びアンダ
ーラインにより、その部分が示される。また赤スラッシ
ュ「●」のみの部分は、品詞が未定義とされている部分
を示している。

【０２０６】ユーザはこのような解析結果を見て、入力
部７８のマウスやキーボードを用いて、未確定部分を確
定させていく操作を行う。また文の修正等も行うことが
できる。制御部７２は、ステップＦ２０４の処理とし
て、ユーザーの入力に応じた処理、即ち候補の中からの
１つの候補の確定や文の修正に対応した処理を行い、そ
の都度ステップＦ２０２で、結果表示を行う。また文が
追加された場合など必要に応じて再度の形態素解析も行
う。

【０２０７】例えば図３１は、赤スラッシュ「●」及び
アンダーラインにより未確定部分とされている或る形態
素「素敵」を指定した場合の表示例である。即ち制御部
７２はステップＦ２０４の処理として、ユーザーが「素
敵」の部分をクリックすることに応じて、「素敵」の部
分にかかる形態素及び品詞の候補を表示している状態で
ある。なお、図面上では、選択されている部分を反転表
示としているが、実際は赤などの色付表示で選択部分を
提示するようにしてもよい。他の図でも同様である。ユ
ーザーはこのように候補が表示されることに応じて、最
も適切であると思われる候補を選択（クリック）する。
これにより、未確定部分が確定される。例えば図３１の
ように２つの候補が表示されているときに、ユーザー
が、２つ目の候補（「すてきに素敵だ形容詞・・・
・」）を選択することで、未確定部分にかかる形態素の
区切及び品詞が確定され、またこれによって表示は図３
２の状態となる。即ち「素敵に」という形態素が確定部
分としてスラッシュ「／」で示される状態となる。

【０２０８】また図３３は、赤スラッシュ「●」のみの
部分として、品詞が未定義とされている形態素をユーザ
ーが指定した場合の表示例である。即ち制御部７２はス
テップＦ２０４の処理として、ユーザーが「エイジン
グ」の部分をクリックすることに応じて、「エイジン
グ」の部分が未定義語であることをユーザーに提示して
いる状態である。ユーザーはこのような未定義語を定義
する作業を行う。例えばユーザが再度この部分をクリッ
クすることに応じて、制御部７２は図３４に示すような
編集ウインドウ６２０を開き、ユーザーに入力を求め
る。この編集ウインドウ６２０では、タグ名表示６２
１、タグ属性表示６２２、ＯＫボタン６２３、キャンセ
ルボタン６２４などが表示される。未定義の状態では、
図示するようにタグ名表示６２１として「ｓｅｇ」と示
される。これは未定義のエレメントを意味する。そして
タグ属性表示６２２として未定義語とされているエレメ
ント「エイジング」が提示される。これに対してユーザ
ーは定義づけを行う。例えばタグ名表示６２１のプルダ
ウンメニューから「ｎ」を選択した状態を図３５に示
す。「ｎ」とは「名詞」の意味である。この状態でユー
ザーがＯＫボタン６２３をクリックすると、制御部７２
は「エイジング」というエレメントが「名詞」と設定さ
れたとして処理を行う。表示上では、タグ名が変更され
たことを提示するために、スラッシュが緑スラッシュ
「◆」となる。

【０２０９】例えば以上の例のように、ユーザーは解析
結果として表示された形態素について、赤スラッシュ
「●」で示される部分について、未確定の区切や品詞の
確定、未定義語の定義付けを行っていく。また、ユーザ
ーが文の追加や変更を行うことで、制御部７２は再度形
態素解析を行い、解析状況をスラッシュ「／」、赤スラ
ッシュ「●」、アンダーラインで表示する。その時点で
赤スラッシュ「●」が存在していれば、ユーザーはその
部分について未確定の区切や品詞の確定、未定義語の定
義付けを行っていく。

【０２１０】つまりユーザーは、文書表示部６０２に表
示されている文書において赤スラッシュ「●」の部分が
なくなるように、作業を進行させていく。図３７は全て
の形態素の区切及び品詞が確定され、また全ての未定義
語が定義付けされた状態を示す。この時点でステップＦ
２０３で形態素についての処理の完了と判断される。即
ち、この時点では、図３で説明した文書データ構造にお
ける最下層となっている「語」としての区切及び品詞が
全て確定された状態である。換言すれば、「語」単位で
のタグが付与された状態である。

【０２１１】続いて制御部７２は、ステップＦ２０５に
進んで、形態素単位のタグが確定したデータから、より
上位の文書構造のタグを自動生成する処理を行う。即
ち、形態素及びその品詞に基づいて、まず図３における
語→サブセンテンシャルセグメント→文までの構造を示
すタグを付与する。そしてその結果を図３８のように文
書表示部６０２に表示する。ここでは、スラッシュ、ア
ンダーライン、タグ名によって１つのタグが表現される
状態としている。またここでは、赤スラッシュ「●」
は、係り先の候補が複数存在する部分を提示するものと
なっている。

【０２１２】また表示されているタグ名としては、例え
ば次のようなものがある。ｎ：名詞、ｎｐ：名詞句ｖ：動詞、ｖｐ：動詞句ａｊ：形容詞、ａｊｐ：形容詞句ａｄ：副詞、ａｄｐ：副詞句ｉｊ：間投詞、感動詞ｔｉｍｅ：時刻、ｔｉｍｅｐ：時刻句ｎａｍｅ：固有名詞、ｎａｍｅｐ：固有名詞句ｐｅｒｓｎａｍｅ：人名、ｐｅｒｓｎａｍｅｐ：人名句ｏｒｇｎａｍｅ：組織名、ｏｒｇｎａｍｅｐ：組織名句ｇｅｏｇｎａｍｅ：地名、ｇｅｏｇｎａｍｅｐ：地名句ｎｕｍ：数値、ｎｕｍｐ：数値句

【０２１３】なお、これらはタグ名としての一例であ
り、他にも多様なタグが考えられる。またタグ名及び各
タグの定義も一例であって、これに限られるものではな
い。

【０２１４】図３８のように文書表示部６０２において
は、スラッシュ「／」、赤スラッシュ「●」、アンダー
ライン、タグ名により、上位の文書構造、及び係り受け
関係が未確定な部分が提示される。

【０２１５】ユーザはこのような上位の文書構造のタグ
生成結果を見て、入力部７８のマウスやキーボードを用
いて、未確定部分を確定させていく操作を行う。また文
の修正等も行うことができる。制御部７２は、ステップ
Ｆ２０７の処理として、ユーザーの入力に応じた処理、
即ち候補の中からの１つの候補の確定や文の修正に対応
した処理を行い、その都度ステップＦ２０２で、結果表
示を行う。また文が追加された場合など必要に応じて、
破線で示すようにステップＦ２０２に戻って再度の形態
素解析を行う場合もある。

【０２１６】例えば図３９は、ユーザーが、赤スラッシ
ュ「●」及びアンダーラインにより係り先が未確定（候
補が複数ある）と提示されている部分である「正常な」
を指定した場合の表示例である。即ち制御部７２はステ
ップＦ２０７の処理として、ユーザーが「正常な」の部
分をクリックすることに応じて、「正常な」の部分の係
り先の候補を表示している状態である。即ち「正常な」
は、次の「調節」にかかる形容詞であるのか、或いはさ
らに次の「機能」にかかる形容詞であるのかが未確定で
あるとして、係り先候補である「調整」「機能」を表示
している。

【０２１７】ユーザーはこのように候補が表示されるこ
とに応じて、最も適切であると思われる候補を選択（ク
リック）する。これにより係り先が確定される。例えば
ユーザーが「機能」をクリックすることで、「正常な」
は「機能」にかかる形容詞であると確定される。例えば
このようにして、係り先が未確定とされている部分（赤
スラッシュ「●」の部分）を確定させていく作業をユー
ザーは実行し、最終的に赤スラッシュ「●」部分がなく
なるようにしていく。

【０２１８】また、ステップＦ２０５の処理で生成され
るタグは、図３でいう語→サブセンテンシャルセグメン
ト→文までの構造を示すタグであるが、さらに上位のタ
グ、即ち図３でいう「段落」「サブディビジョン」「文
書」としてのタグは、ユーザーがステップＦ２０７での
入力により任意に付加するものとなる。

【０２１９】例えば図４０は、ユーザーが「［素敵にエ
イジング・・・抑えられる！？」の部分を指定した場合
であり、このとき制御部７２は図示するように編集ウイ
ンドウ６２０を開いてユーザーが新規のタグ入力を実行
できる状態とする。ここでは、ユーザーが例えばタグ名
表示６２１のプルダウンメニューから「ｈ１」を選択し
た状態を示している。「ｈ」（「ｈ１」「ｈ２」・・
・）は「題目」の意味である。この状態でユーザーがＯ
Ｋボタン６２３をクリックすると、制御部７２は「［素
敵にエイジング・・・抑えられる！？」の部分が「題目
１」と設定されたとして処理、つまりタグ付けを行う。
表示上では、例えば図４１のように、「［素敵にエイジ
ング・・・抑えられる！？」の部分において、タグが追
加されたことを示す緑スラッシュ「◆」、アンダーライ
ン及びタグ「ｈ１」が表示される。

【０２２０】なおこの図４１では、さらに、文書を構成
する各文についてステップＦ２０５の処理で付されたタ
グも示している。つまり上記係り先の選択が行われた図
３９の表示より上の階層の文構造のタグを表示してい
る。図示するようにステップＦ２０５で付されたタグと
して、それぞれの文について、スラッシュ「／」、アン
ダーライン及び「文」の意味を有するタグ「ｓｕ」が表
示されている。

【０２２１】例えば以上の例のように、ユーザーは
「語」より上位の文書構造としてタグ生成結果の確認、
未確定な係り先の選択、段落（又は題目）、文書などさ
らに上位の文書構造のタグの追加などを行っていく。つ
まりユーザーは、文書表示部６０２に表示されている文
書において少なくとも赤スラッシュ「●」の部分がなく
なるように作業を進行させていくとともに、必要に応じ
て任意に、段落、題目、文書などの単位でのタグ付けを
行う。以上の処理が行われることで、ステップＦ２０６
で文書構造のタグ付けの完了と判断される。即ち、この
時点は、図３で説明した文書データ構造における「語」
〜「文」又は「段落」「サブディビジョン」「文書」と
してのタグが付与された状態である。

【０２２２】なお、この時点以降、タグ付け結果のイメ
ージ（例えば文書処理装置１で表示されるブラウザイメ
ージ）を確認することができる。例えば図４２のよう
に、ジェネレートボタン６０５ｂをクリックすると、文
書表示部６０２における、それまでのタグ付けが行われ
た状態の表示に加えて、文書表示部６０３に、ブラウザ
イメージが表示され、これまでのタグ付けに基づいて一
般ユーザー（文書処理装置１の使用者）に提示される画
面状況を確認できる。例えば上記のように題目としての
タグ「ｈ１」を付加したことで、題目部分が太字で提示
されることが確認できる。また、このように表示イメー
ジが確認できることで、ユーザー（オーサリング作業
者）は、それが適切でないと思えば、ステップＦ２０７
でのタグ或いは文書の修正、さらにはステップＦ２０２
からの形態素解析からのやり直しをすべきことの判断も
可能となる。

【０２２３】ステップＦ２０６でタグ付け完了と判断さ
れた場合は、制御部７２の処理はステップＦ２０８に進
み、図３で説明した参照リンクの設定処理を行う。な
お、図３で説明した通常リンクについては、これまでの
タグ付けから自動的に形成されるものである（つまりス
テップＦ２０６でタグ付け完了と判断された時点で、そ
のタグで示される文書構造に基づいて、通常リンクは形
成されている）。制御部７２はステップＦ２０８では、
参照リンクの付加のための解析を行い、参照リンク設定
の候補を表示する。具体的には、代名詞等に対する指し
先の候補を表示する。例えば図４３に示すように、文書
表示部６０２においてタグ付けされたデータを表示する
とともに、文書表示部６０３に上記のブラウザイメージ
と同様に文書を表示する。そして、例えば図示するよう
に文書表示部６０２で選択されている「双方」という語
の指し先が、「がん遺伝子」と「がん抑制遺伝子」であ
ることが文書表示部６０３において提示されるようにす
る。例えば反転表示や、異なる色による表示などで提示
する。

【０２２４】このような表示状態をユーザーは確認し、
その参照関係が間違っていたら修正を行う。又は、或る
語を選択して、新たに参照関係を付加する操作を行う。
例えば「双方」という語が、「がん遺伝子」と「がん抑
制遺伝子」であることで正しい場合は、それについては
修正操作は必要ない。ところが或る語について提示され
た指し先が間違っている場合は、ユーザーは文書表示部
６０３において正しい指し先を指定する操作を行う。ま
た、文書表示部６０２において或る語を選択したとき
に、文書表示部６０３において指し先が提示されない場
合は、参照リンクが設定されていない場合であるが、ユ
ーザーは必要であれば、その際に文書表示部６０３にお
いて指し先を指定する操作を行うことで、参照リンクを
追加する。

【０２２５】制御部７２は、ステップＦ２１０、Ｆ２０
８の処理として、このようなユーザーの入力に応じた処
理、即ち参照リンクの修正や追加処理を行い、その都度
結果表示を行う。また、この時点でもユーザーが文の追
加、或いはタグの修正要求操作などを行うことができ、
それらの場合は制御部７２は、破線で示すようにステッ
プＦ２０２に戻って再度の形態素解析からの処理を行う
こともできる。

【０２２６】制御部７２は、ユーザーの操作に応じた参
照リンクの確定処理を完了することで、処理をステップ
Ｆ２０９からＦ２１１に進め、その時点で必要なタグが
付加された文書データが完成されたとする。そしてその
文書データを、オーサリング済の文書データとしてＲＡ
Ｍ７４又はＨＤＤ８２に記憶する。このように生成され
た文書データはその後、記録媒体８１もしくは通信回線
６を介してサーバ３側に送られ、データベース３ａに格
納される。そしてサーバ３の管理の元に一般ユーザー側
の端末である文書処理装置１に提供され、文書処理装置
１では上述したように文書データに対して各種の処理
（表示、要約作成・表示、読み上げ等）を実行できるよ
うになる。

【０２２７】以上のように本例のオーサリング装置２で
は、原文（プレーンテキスト）を各形態素に分けるとと
もに各形態素についての形態素情報を付加し、また原文
に階層的な文書構造を示す文書構造情報を付加し、さら
に原文内の文書部分間における参照関係を示す参照情報
を付加していくことで、文書処理に好適な文書データ
（タグファイル）が作成できる。そしてこのオーサリン
グ処理は、まず形態素を解析してから、順に上位階層に
向かって文書構造を設定してことになる。また、区切、
品詞、係り先、指し先については候補が表示され、作業
者が選択していくものとされている。これらのことか
ら、オーサリングのための操作手順は、オーサリング作
業者にわかりやすく、特に高度な文法知識、語学知識が
なくとも、容易にオーサリング作業を進めることができ
る。またこれは、文法知識等がなくとも、文書内容に応
じた正確なタグ付けが可能となることも意味する。また
オーサリング作業時の作業者の入力は、候補の選択や文
中の所要部分の指定などでよいことからも、作業は容易
かつ迅速に実行できる。

【０２２８】また、形態素の区切りもしくは形態素情報
や、文書構造情報、参照情報の変更、追加、修正、文の
追加、修正、削除などを入力手段からのユーザー（オー
サリング実行者）の入力に応じて決定できるようにする
ことで、自動的な処理だけではまかなえない程度の高度
なタグ付加が可能となるとともに、作業者が意図すると
おりのタグファイルを作成できる。さらに、表示部に、
形態素の区切り、形態素情報、文書構造情報、参照情報
についての候補等を表示させることで、ユーザーにとっ
てオーサリング状況が把握しやすくなり、またユーザー
のオーサリング作業の進行を簡易化することができる。

【０２２９】なお、図２８及び図２９〜図４３で説明し
たオーサリング処理は、一例にすぎず、多様な変形例が
考えられる。例えば上記例では、既に作成されたプレー
ンテキストに対してオーサリングを行う場合として説明
したが、作業者が、プレーンテキストを作りながら、同
時進行的にオーサリング処理を行うことも考えられる。
例えば作業者が文を入力していく毎に、形態素解析等が
行われ、その結果が上記スラッシュ、アンダーライン等
で表示されていくようにする。そして、ユーザーは必要
な候補選択作業や文の修正等を行なった後に、続く文書
を入力していくというような作業手順である。

【０２３０】また、オーサリング状況を提示する態様と
しては、もちろん上記のスラッシュ「／」、赤スラッシ
ュ「●」、緑スラッシュ「◆」、アンダーライン、タグ
等の表示に限られるものではなく、提示手法は、オーサ
リングプログラムや表示デバイス、表示用フォント等の
事情に応じて全く任意に設計できるものである。もちろ
ん各種の段階での候補の提示方式なども上記例に限られ
るものではない。

【０２３１】以上本発明の実施の形態としてのオーサリ
ング装置や文書データ提供システムについて説明してき
たが、これらはあくまで一例であり、オーサリング装置
２の構成やオーサリング装置２を含むシステム構成は多
様に考えられる。また、オーサリング装置２における本
体７１、表示部７９、入力部７８、通信部７７、記録／
再生部８０、ＨＤＤ８２などの各デバイスの具体的構
造、接続形態も多様に考えられる。例えば入力部７８を
例に挙げれば、キーボードやマウスだけでなく、タブレ
ット、ライトペン、赤外線等を利用した無線コマンダ装
置等のデバイスも考えられる。もちろん、複数の記録／
再生部を備えたり、プリンタ、音声出力部など、他のハ
ードウエア構成を備えてもよい。また、オーサリング装
置２としては、例えば据置型のパーソナルコンピュー
タ、携帯型のパーソナルコンピュータ、ワークステーシ
ョンなど汎用の情報処理装置を用いて実現できるが、も
ちろん専用装置として構成してもよい。

【０２３２】また実施の形態において、オーサリング
（文書へのタグ付け）の方法の一例を示したが、本発明
がこのタグ付けの方法に限定されないことはもちろんで
ある。さらに、上述の実施の形態においては、タグファ
イルの例として日本語および英語の文章を例示したが、
本発明がこれらの言語に限られないことはいうまでもな
い。このように、本発明は、その趣旨を逸脱しない範囲
で適宜変更が可能であることはいうまでもない。

【０２３３】さらにまた、本発明においては、記録媒体
８１として、上述したオーサリングプログラムが書き込
まれたディスク状記録媒体やテープ状記録媒体等を提供
することが容易に実現できる。即ち本発明の記録媒体が
実現できる。なお、図１に示したＨＤＤ８２としても同
様に本発明の記録媒体とすることができる。そしてその
ような記録媒体によれば、上記してきたオーサリング方
法を実現するプログラムを提供できることになり、例え
ば汎用のパーソナルコンピュータ等を用いて、本発明の
オーサリング装置を容易に実現できる。もちろん記録媒
体としては、フロッピーディスクの他に、光ディスク、
光磁気ディスク、磁気テープ、フラッシュメモリ等によ
るメモリカード、メモリチップ等としてもよい。さらに
本発明のオーサリング方法を実現するプログラムは、例
えばインターネット等のネットワーク通信を介しても提
供することができるものであり、従って、プログラムサ
ーバ側もしくは通信過程における記録媒体としても本発
明は適用できるものである。

【０２３４】

【発明の効果】以上の説明からわかるように本発明で
は、次のような効果が得られる。即ち本発明の文書デー
タ作成装置、文書データ作成方法によれば、原文（プレ
ーンテキスト）を各形態素に分けるとともに各形態素に
ついての形態素情報を付加し、また原文に階層的な文書
構造を示す文書構造情報を付加し、さらに原文内の文書
部分間における参照関係を示す参照情報を付加していく
ことで、文書処理に好適な文書データ（タグファイル）
が作成できるという効果がある。特に、まず形態素を解
析してから階層的な文書構造を順次指定していくことに
なるためオーサリング実行者にもわかりやすい手順で、
かつ正確な文書データ作成が実現できる。さらに自動解
析処理と、ユーザー（オーサリング実行者）の入力操作
等に応じた入力対応処理により形態素処理、文書構造処
理、参照関係処理の全部又は一部を進めていくことも、
ユーザーに正確かつ簡易な文書データ作成作業を提供で
きる。

【０２３５】また、形態素の区切りもしくは形態素情報
や、文書構造情報、参照情報の変更、追加、修正などを
入力手段からのユーザー（オーサリング実行者）の入力
に応じて決定できるようにすることで、自動的な処理だ
けではまかなえない程度の高度なタグ付加が可能となる
とともに、ユーザーの望んだタグファイルを作成でき
る。さらに、表示部に、形態素の区切り、形態素情報、
文書構造情報、参照情報についての候補等を表示させる
ことで、ユーザーにとってオーサリング状況が把握しや
すくなり、またユーザーのオーサリング作業の進行を簡
易化することができる。

【０２３６】また本発明の記録媒体によれば、本発明の
文書データ作成方法を実現するプログラムを提供できる
ことになり、例えば汎用のパーソナルコンピュータ等を
用いて、本発明の文書データ作成装置（オーサリング装
置）を容易に実現できるようになる。これにより、一般
に広く本発明の文書データ作成装置を提供でき、多数の
ユーザーが上記効果を享受できるものとなる。

【０２３７】また本発明の文書データ作成装置及び文書
データ作成方法は、処理対象となる原文についての自動
解析を行なって、原文に対する付加情報を生成する処理
と、自動解析処理結果に対する入力に基づいて、付加情
報の変更又は追加又は削除を行う入力対応処理と、これ
らの自動解析処理及び入力対応処理手段の処理結果に基
づいて原文に各種の付加情報が付加された文書データを
生成する処理が行われるようにしている。つまり付加情
報（各種タグ）の付加された文書データの作成が、自動
解析処理と入力対応処理により実現されるようにし、作
業者にとって簡易、正確、かつ作業者の意志を反映した
文書データが作成できるようになるという効果がある。
また、自動解析処理及び入力対応処理は、原文の文書構
造において下位の階層から上位の階層に向かって順番
に、付加情報の設定処理を行うものとすることで、効率
的かつ正確な付加情報の設定ができる。

【０２３８】また本発明の記録媒体によれば、このよう
な本発明の文書データ作成方法を実現するプログラムを
提供でき、例えば汎用のパーソナルコンピュータ等を用
いて、容易に本発明の文書データ作成装置（オーサリン
グ装置）を実現できる。

【図面の簡単な説明】

【図１】本発明の実施の形態の文書データ提供システム
の説明図である。

【図２】実施の形態の文書処理装置のブロック図であ
る。

【図３】実施の形態で用いる文書構造の説明図である。

【図４】実施の形態の文章構造を表示するウインドウの
説明図である。

【図５】実施の形態の手動分類処理のフローチャートで
ある。

【図６】実施の形態のインデックス作成処理のフローチ
ャートである。

【図７】実施の形態のエレメントの活性値の説明図であ
る。

【図８】実施の形態の活性拡散処理のフローチャートで
ある。

【図９】実施の形態の中心活性値更新処理のフローチャ
ートである。

【図１０】実施の形態の分類ウインドウの説明図であ
る。

【図１１】実施の形態の閲覧ウインドウの説明図であ
る。

【図１２】実施の形態の分類モデルの説明図である。

【図１３】実施の形態の自動分類処理のフローチャート
である。

【図１４】実施の形態の自動分類のフローチャートであ
る。

【図１５】実施の形態の語義間関連度算出処理のフロー
チャートである。

【図１６】実施の形態の語義間関連度の説明図である。

【図１７】実施の形態の閲覧ウインドウの表示例の説明
図である。

【図１８】実施の形態の閲覧ウインドウの要約文を含む
表示例の説明図である。

【図１９】実施の形態の要約作成処理のフローチャート
である。

【図２０】実施の形態の文書読み上げ処理のフローチャ
ートである。

【図２１】実施の形態の読み上げ用ファイル生成処理の
フローチャートである。

【図２２】実施の形態のタグファイル例の説明図であ
る。

【図２３】実施の形態のタグファイル例の説明図であ
る。

【図２４】実施の形態の読み上げ用ファイル例の説明図
である。

【図２５】実施の形態の読み上げ用ファイル例の説明図
である。

【図２６】実施の形態の読み上げウインドウの説明図で
ある。

【図２７】実施の形態のオーサリング装置のブロック図
である。

【図２８】実施の形態のオーサリング処理のフローチャ
ートである。

【図２９】実施の形態のオーサリング処理のプレーンテ
キスト表示例の説明図である。

【図３０】実施の形態のオーサリング処理の形態素解析
時の表示例の説明図である。

【図３１】実施の形態のオーサリング処理の形態素の候
補の表示例の説明図である。

【図３２】実施の形態のオーサリング処理の形態素決定
時の表示例の説明図である。

【図３３】実施の形態のオーサリング処理の未定義語の
表示例の説明図である。

【図３４】実施の形態のオーサリング処理の未定義語の
処理時の表示例の説明図である。

【図３５】実施の形態のオーサリング処理の未定義語の
設定時の表示例の説明図である。

【図３６】実施の形態のオーサリング処理の未定義語の
処理終了時の表示例の説明図である。

【図３７】実施の形態のオーサリング処理の形態素処理
終了時の表示例の説明図である。

【図３８】実施の形態のオーサリング処理の文書構造タ
グ付加時の表示例の説明図である。

【図３９】実施の形態のオーサリング処理の文書構造の
係り先候補の表示例の説明図である。

【図４０】実施の形態のオーサリング処理のタグ追加時
の表示例の説明図である。

【図４１】実施の形態のオーサリング処理のタイトル及
び文のタグの表示例の説明図である。

【図４２】実施の形態のオーサリング処理のタグ付の結
果の表示例の説明図である。

【図４３】実施の形態のオーサリング処理の文の指し先
の表示例の説明図である。

【符号の説明】

１文書処理装置、２オーサリング装置、３サー
バ、４文書プロバイダ、７２制御部、７３ＣＰ
Ｕ、７４ＲＡＭ、７５ＲＯＭ、７６インターフェ
ース、７７通信部、７８入力部、７９表示部、８
０記録再生部、８１記録媒体、８２ＨＤＤ、６０
１オーサリングウインドウ

Claims

【特許請求の範囲】

【請求項１】処理対象となる原文を解析し、前記原文
を各形態素に分けるとともに、各形態素についての形態
素情報を付加する処理を行う形態素処理手段と、前記原文の文書構造を解析し、前記原文に階層的な文書
構造を示す文書構造情報を付加する処理を行う文書構造
処理手段と、前記原文に、前記原文内の文書部分間における参照関係
を示す参照情報を付加する処理を行う参照関係処理手段
と、を備えることで、前記原文に、前記形態素情報、前記文
書構造情報、及び前記参照情報が付加された文書データ
を作成できるようにしたことを特徴とする文書データ作
成装置。
【請求項２】前記形態素処理手段、前記文書構造処理
手段、前記参照関係処理手段の、全てまたは一部は、そ
れぞれ自動解析処理と入力対応処理により、前記各処理
を実行することを特徴とする請求項１に記載の文書デー
タ作成装置。
【請求項３】入力手段を備え、前記形態素処理手段は、形態素の区切り、もしくは各形
態素に付加すべき形態素情報を、前記入力手段からの入
力に応じて決定できるようにしたことを特徴とする請求
項１に記載の文書データ作成装置。
【請求項４】前記形態素処理手段は、表示部に、前記
原文上に形態素の区切りを示した表示、及び各形態素に
付加すべき形態素情報の候補を示す表示が行われるよう
に表示制御を行うとともに、表示された形態素の区切の
変更、及び形態素情報の候補の中からの選択決定を、前
記入力手段からの入力に応じて行うことを特徴とする請
求項３に記載の文書データ作成装置。
【請求項５】入力手段を備え、前記文書構造処理手段は、前記原文に付加する文書構造
情報を前記入力手段からの入力に応じて決定できるよう
にしたことを特徴とする請求項１に記載の文書データ作
成装置。
【請求項６】前記文書構造処理手段は、表示部に、前
記原文上に階層的な文書構造を示した表示、及び文書構
造情報の候補を示す表示が行われるように表示制御を行
うとともに、表示された文書構造情報の候補の中からの
選択決定もしくは文書構造情報の追加を、前記入力手段
からの入力に応じて行うことを特徴とする請求項５に記
載の文書データ作成装置。
【請求項７】入力手段を備え、前記参照関係処理手段は、前記原文に付加する参照情報
を前記入力手段からの入力に応じて決定できるようにし
たことを特徴とする請求項１に記載の文書データ作成装
置。
【請求項８】前記参照関係処理手段は、表示部に、前
記原文上に参照関係を示した表示が行われるように表示
制御を行うとともに、表示された参照関係の修正もしく
は参照情報の追加を、前記入力手段からの入力に応じて
行うことを特徴とする請求項７に記載の文書データ作成
装置。
【請求項９】前記形態素情報は、品詞情報であること
を特徴とする請求項１に記載の文書データ作成装置。
【請求項１０】前記文書構造情報として、語、文節、
文、段落、文書、及びこれらの係り受け関係を示す情報
を付加できることを特徴とする請求項１に記載の文書デ
ータ作成装置。
【請求項１１】処理対象となる原文を解析し、前記原
文を各形態素に分けるとともに、各形態素についての形
態素情報を付加する形態素処理手順と、前記形態素情報が付加された原文に、前記原文の文書構
造を解析し、前記原文に階層的な文書構造を示す文書構
造情報を付加する文書構造処理手順と、前記文書構造情報が付加された原文内の文書部分間にお
ける参照関係を示す参照情報を付加する参照関係処理手
順と、が行われることで、前記原文に、前記形態素情報、前記
文書構造情報、及び前記参照情報が付加された文書デー
タを作成することを特徴とする文書データ作成方法。
【請求項１２】前記形態素処理手順、前記文書構造処
理手順、前記参照関係処理手順の、全てまたは一部は、
それぞれ自動解析処理と入力対応処理により、その手順
における処理を実行することを特徴とする請求項１１に
記載の文書データ作成方法。
【請求項１３】前記形態素処理手順では、形態素の区
切り、もしくは各形態素に付加すべき形態素情報を、操
作入力に応じて決定することを特徴とする請求項１１に
記載の文書データ作成方法。
【請求項１４】前記形態素処理手順では、表示部に、
前記原文上に形態素の区切りを示した表示、及び各形態
素に付加すべき形態素情報の候補を示す表示が行われる
ように表示制御を行うとともに、前記操作入力に応じ
て、表示された形態素の区切の変更、及び形態素情報の
候補の中からの選択決定を行うことを特徴とする請求項
１３に記載の文書データ作成方法。
【請求項１５】前記文書構造処理手順では、前記原文
に付加する文書構造情報を操作入力に応じて決定するこ
とを特徴とする請求項１１に記載の文書データ作成方
法。
【請求項１６】前記文書構造処理手順では、表示部
に、前記原文上に階層的な文書構造を示した表示、及び
文書構造情報の候補を示す表示が行われるように表示制
御を行うとともに、表示された文書構造情報の候補の中
からの選択決定もしくは文書構造情報の追加を、前記操
作入力に応じて行うことを特徴とする請求項１５に記載
の文書データ作成方法。
【請求項１７】前記参照関係処理手順では、前記原文
に付加する参照情報を操作入力に応じて決定することを
特徴とする請求項１１に記載の文書データ作成方法。
【請求項１８】前記参照関係処理手順では、表示部
に、前記原文上に参照関係を示した表示が行われるよう
に表示制御を行うとともに、表示された参照関係の修正
もしくは参照情報の追加を、前記操作入力に応じて行う
ことを特徴とする請求項１７に記載の文書データ作成方
法。
【請求項１９】処理対象となる原文を解析し、前記原
文を各形態素に分けるとともに、各形態素についての形
態素情報を付加する形態素処理手順と、前記形態素情報が付加された原文に、前記原文の文書構
造を解析し、前記原文に階層的な文書構造を示す文書構
造情報を付加する文書構造処理手順と、前記文書構造情報が付加された原文内の文書部分間にお
ける参照関係を示す参照情報を付加する参照関係処理手
順と、が行われることで、前記原文に、前記形態素情報、前記
文書構造情報、及び前記参照情報が付加された文書デー
タを作成できるようにした動作制御プログラムが記録さ
れていることを特徴とする記録媒体。
【請求項２０】前記形態素処理手順、前記文書構造処
理手順、前記参照関係処理手順の、全てまたは一部は、
それぞれ自動解析処理と入力対応処理により、その手順
における処理が実行されるようにした動作制御プログラ
ムが記録されていることを特徴とする請求項１９に記載
の記録媒体。
【請求項２１】前記形態素処理手順では、形態素の区
切り、もしくは各形態素に付加すべき形態素情報を、操
作入力に応じて決定するようにした動作制御プログラム
が記録されていることを特徴とする請求項１９に記載の
記録媒体。
【請求項２２】前記形態素処理手順では、表示部に、
前記原文上に形態素の区切りを示した表示、及び各形態
素に付加すべき形態素情報の候補を示す表示が行われる
ように表示制御を行うとともに、前記操作入力に応じ
て、表示された形態素の区切の変更、及び形態素情報の
候補の中からの選択決定を行うようにした動作制御プロ
グラムが記録されていることを特徴とする請求項２１に
記載の記録媒体。
【請求項２３】前記文書構造処理手順では、前記原文
に付加する文書構造情報を操作入力に応じて決定するよ
うにした動作制御プログラムが記録されていることを特
徴とする請求項１９に記載の記録媒体。
【請求項２４】前記文書構造処理手順では、表示部
に、前記原文上に階層的な文書構造を示した表示、及び
文書構造情報の候補を示す表示が行われるように表示制
御を行うとともに、表示された文書構造情報の候補の中
からの選択決定もしくは文書構造情報の追加を、前記操
作入力に応じて行うようにした動作制御プログラムが記
録されていることを特徴とする請求項２３に記載の記録
媒体。
【請求項２５】前記参照関係処理手順では、前記原文
に付加する参照情報を操作入力に応じて決定するように
した動作制御プログラムが記録されていることを特徴と
する請求項１９に記載の記録媒体。
【請求項２６】前記参照関係処理手順では、表示部
に、前記原文上に参照関係を示した表示が行われるよう
に表示制御を行うとともに、表示された参照関係の修正
もしくは参照情報の追加を、前記操作入力に応じて行う
ようにした動作制御プログラムが記録されていることを
特徴とする請求項２５に記載の記録媒体。
【請求項２７】処理対象となる原文についての自動解
析を行い、原文に対する付加情報を生成する処理を行う
自動解析手段と、前記自動解析手段による処理結果に対する入力に基づい
て、付加情報の変更又は追加又は削除を行う入力対応処
理手段と、前記自動解析手段、及び前記入力対応処理手段の処理結
果に基づいて、原文に各種の付加情報が付加された文書
データを生成する文書データ生成手段と、を備えたことを特徴とする文書データ作成装置。
【請求項２８】前記自動解析手段及び前記入力対応処
理手段は、原文の文書構造において下位の階層から上位
の階層に向かって順番に、付加情報の設定処理を行うこ
とを特徴とする請求項２７に記載の文書データ作成装
置。
【請求項２９】処理対象となる原文についての自動解
析を行い、原文に対する付加情報を生成する処理を行う
自動解析手順と、前記自動解析手順による処理結果に対する入力に基づい
て、付加情報の変更又は追加又は削除を行う入力対応処
理手順と、前記自動解析手順、及び前記入力対応処理手順の処理結
果に基づいて、原文に各種の付加情報が付加された文書
データを生成する文書データ生成手順と、が行われることを特徴とする文書データ作成方法。
【請求項３０】前記自動解析手順及び前記入力対応処
理手順として、原文の文書構造において下位の階層から
上位の階層に向かって順番に、付加情報の設定処理が行
なわれるようにしたことを特徴とする請求項２９に記載
の文書データ作成方法。
【請求項３１】処理対象となる原文についての自動解
析を行い、原文に対する付加情報を生成する処理を行う
自動解析手順と、前記自動解析手順による処理結果に対する入力に基づい
て、付加情報の変更又は追加又は削除を行う入力対応処
理手順と、前記自動解析手順、及び前記入力対応処理手順の処理結
果に基づいて、原文に各種の付加情報が付加された文書
データを生成する文書データ生成手順と、が行われる動作制御プログラムが記録されていることを
特徴とする記録媒体。
【請求項３２】前記自動解析手順及び前記入力対応処
理手順として、原文の文書構造において下位の階層から
上位の階層に向かって順番に、付加情報の設定処理が行
なわれるようにした動作制御プログラムが記録されてい
ることを特徴とする請求項３１に記載の記録媒体。