JP4320491B2 - 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体 - Google Patents

文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体 Download PDF

Info

Publication number
JP4320491B2
JP4320491B2 JP32872899A JP32872899A JP4320491B2 JP 4320491 B2 JP4320491 B2 JP 4320491B2 JP 32872899 A JP32872899 A JP 32872899A JP 32872899 A JP32872899 A JP 32872899A JP 4320491 B2 JP4320491 B2 JP 4320491B2
Authority
JP
Japan
Prior art keywords
document
classification
electronic document
authoring
electronic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32872899A
Other languages
English (en)
Other versions
JP2001147927A (ja
JP2001147927A5 (ja
Inventor
和幸 丸川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP32872899A priority Critical patent/JP4320491B2/ja
Priority to US09/706,170 priority patent/US7120861B1/en
Priority to KR1020000067169A priority patent/KR20010082548A/ko
Publication of JP2001147927A publication Critical patent/JP2001147927A/ja
Priority to US11/187,661 priority patent/US7143349B2/en
Priority to US11/383,897 priority patent/US7941745B2/en
Publication of JP2001147927A5 publication Critical patent/JP2001147927A5/ja
Application granted granted Critical
Publication of JP4320491B2 publication Critical patent/JP4320491B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明はユーザーが使用する端末装置、及びこの端末装置に対して電子文書データの提供を行う文書提供装置から成る文書処理システムや、この文書処理システムにおける端末装置、文書提供装置、及びこの文書処理システムにおける文書処理方法、及びその文書処理方法を実現する動作制御プログラムが記録された記録媒体に関するものである。
【0002】
【従来の技術】
従来、インターネットにおいて、ウィンドウ形式でハイパーテキスト型情報を提供するアプリケーションサービスとしてWWW(World Wide Web)が提供されている。
【0003】
WWWは、文書の作成、公開または共有化の文書処理を実行し、新しいスタイルの文書の在り方を示したシステムである。しかし、文書の実際上の利用の観点からは、文書の内容に基づいた文書の分類や要約といった、WWWを越える高度な文書処理が求められている。このような高度な文書処理には、文書の内容の機械的な処理が不可欠である。
【0004】
しかしながら、文書の内容の機械的な処理は、以下のような理由から依然として困難である。
第1に、ハイパーテキストを記述する言語であるHTML(Hyper Text Markup Language)は、文書の表現については規定するが、文書の内容についてはほとんど規定しない。第2に、文書間に構成されたハイパーテキストのネットワークは、文書の読者にとって文書の内容を理解するために必ずしも利用しやすいものではない。第3に、一般に文章の著作者は読者の便宜を念頭に置かずに著作するが、文書の読者の便宜が著作者の便宜と調整されることはない。
【0005】
このように、WWWは新しい文書の在り方を示したシステムであるが、文書を機械的に処理しないので、高度な文書処理をおこなうことができなかった。換言すると、高度な文書処理を実行するためには、文書を機械的に処理することが必要となる。
【0006】
そこで、文書の機械的な処理を目標として、文書の機械的な処理を支援するシステムが自然言語研究の成果に基づいて開発されている。自然言語研究による文書処理として、文書の著作者等による文書の内部構造についての属性情報、いわゆるタグの付与を前提とした、文書に付与されたタグを利用する機械的な文書処理が提案されている。
【0007】
【発明が解決しようとする課題】
ところで、近年のコンピュータの普及や、ネットワーク化の進展に伴い、文章処理や、文書の内容に依存した索引などで、テキスト文書の作成、ラベル付け、変更などを行う文書処理の高機能化が求められている。たとえば、ユーザの要望に応じた文書の要約や、文書の分類等が望まれる。
そしてこのためには、提供される文書ファイルとしてのデータ自体に、各種の文書処理に必要な情報が付与されていることが必要となり、従って、そのような文書データを作成するオーサリング技術(文書データ作成技術)が求められている。またそのオーサリング技術は、高度な専門知識を有する人に限られず、広く多数の人が文書データ作成者となり得るように、作業性がよくまた簡易なものであることも求められる。
そしてさらに、オーサリングによって生成された文書データが、一般ユーザーに対して容易かつ効率よく提供することができる文書処理システムの構築が要望されている。
また、ユーザーサイドから、或る文書データ或いは分野に関連する文書データを要求したいということが多々あることから、ユーザーサイドから、或る文書又は分野を指定して、それに関連する文書データが提供されるような文書提供システムを構築することも求められる。
【0008】
【課題を解決するための手段】
本発明は、このような事情に鑑みて提案されたものであって、ユーザーが求める分野・種類の文書データを、ユーザーの要望に応じて、容易に提供できる文書処理システムを実現することを目的とする。
【0009】
このため本発明の文書処理システムは、端末装置と、文書提供装置とからなるようにする。
そして上記端末装置は、電子文書をその特徴に基づいて複数の分類項目に分類する分類手段と、上記文書提供装置と通信する通信手段と、上記複数の分類項目に分類されている電子文書又は上記複数の分類項目のいずれかを指定できるようにされた指定入力手段と、上記指定入力手段により指定された電子文書又は分類項目の特徴を示す特徴情報を上記通信手段を介して上記文書提供装置に送信させる制御手段と、を備え、上記端末装置の上記制御手段は、上記指定情報入力手段により指定された電子文書又は分類項目の特徴を示す特徴情報とともに、指定された電子文書又は分類項目の識別子を、上記通信手段を介して上記文書提供装置に送信させ、上記端末装置の上記分類手段は、上記文書提供装置から送信されてきた電子文書について、その特徴に基づいて該当する分類項目を判別するとともに、判別された分類項目が、上記指定入力手段により指定された分類項目、又は指定された電子文書が属する分類項目と一致する場合は、上記文書提供装置から送信されてきた電子文書をその分類項目に分類し、判別された分類項目が、上記指定入力手段により指定された分類項目、又は指定された電子文書が属する分類項目と異なる場合は、操作入力に基づいて、上記文書提供装置から送信されてきた電子文書を或る分類項目に分類するようにする。
また上記文書提供装置は、複数の電子文書を登録可能なデータベースと、上記データベースに登録されている電子文書から所望の電子文書を検索する検索手段と、上記端末装置と通信する通信手段と、上記通信手段が上記特徴情報を受信した時に、上記検索手段により上記データベースに登録されている複数の電子文書から上記特徴情報と関連する電子文書を検索させ、検索された電子文書に関連する情報を上記通信手段により上記端末装置に送信させる制御手段と、を備えるようにする。
【0011】
また上記文書提供装置の上記制御手段は、上記検索された電子文書に関連する情報として、検索により抽出された電子文書自体を、上記通信手段により上記端末装置に送信させる。
【0012】
或いは上記文書提供装置の上記制御手段は、上記検索された電子文書に関連する情報として、検索により抽出された電子文書のリスト情報を、上記通信手段により上記端末装置に送信させる。
これに対して上記端末装置では、上記通信手段により上記リスト情報が送信された際に、そのリスト情報に挙げられた電子文書の中から特定の電子文書を指定する電子文書指定情報が入力される電子文書指定手段が設けられるようにし、上記端末装置の上記制御手段は、上記電子文書指定手段に入力された電子文書指定情報を、上記通信手段を介して上記文書提供装置に送信させるようにする。
また上記文書提供装置の上記制御手段は、上記端末装置から送信されてきた上記電子文書指定情報により指定される電子文書を、上記通信手段により上記端末装置に送信させるようにする。
【0013】
また上記文書提供装置の上記制御手段は、上記検索手段により上記データベースから検索された全ての電子文書について、上記リスト情報を生成して上記端末装置に送信させる。
或いは、上記文書提供装置の上記制御手段は、上記検索手段により上記データベースから検索された電子文書の中で一部の電子文書について、上記リスト情報を生成し、記端末装置に送信させる。
或いは上記文書提供装置の上記制御手段は、上記検索手段により上記データベースから検索された全部又は一部の電子文書についてソート処理を行って上記リスト情報を生成し、上記端末装置に送信させる。
【0014】
上記端末装置の上記分類手段は、上記文書提供装置から送信されてきた電子文書を分類項目に分類することに応じて、分類情報を更新する。
【0015】
また上記文書提供装置には、電子文書を上記端末装置に送信することに応じて、上記端末装置に対して課金処理を行なう課金処理手段を備えるようにする。
【0016】
本発明の端末装置は、電子文書をその特徴に基づいて複数の分類項目に分類する分類手段と、文書提供装置と通信する通信手段と、上記複数の分類項目に分類されている電子文書又は上記複数の分類項目のいずれかを指定できるようにされた指定入力手段と、上記指定入力手段により指定された電子文書又は分類項目の特徴を示す特徴情報を、上記通信手段を介して上記文書提供装置に送信させる制御手段と、を備え、上記制御手段は、上記指定情報入力手段により指定された電子文書又は分類項目の特徴を示す特徴情報とともに、指定された電子文書又は分類項目の識別子を、上記通信手段を介して上記文書提供装置に送信させ、上記分類手段は、上記文書提供装置から送信されてきた電子文書について、その特徴に基づいて該当する分類項目を判別するとともに、判別された分類項目が、上記指定入力手段により指定された分類項目、又は指定された電子文書が属する分類項目と一致する場合は、上記文書提供装置から送信されてきた電子文書をその分類項目に分類し、判別された分類項目が、上記指定入力手段により指定された分類項目、又は指定された電子文書が属する分類項目と異なる場合は、操作入力に基づいて、上記文書提供装置から送信されてきた電子文書を或る分類項目に分類するようにする。
【0018】
本発明の端末装置側の処理に相当する本発明の文書処理方法としては、電子文書をその特徴に基づいて複数の分類項目に分類する分類手順と、上記複数の分類項目に分類されている電子文書又は上記複数の分類項目のいずれかの指定を要求する指定要求手順と、上記指定要求手順により指定された電子文書又は分類項目の特徴を示す特徴情報を、文書提供装置に送信する送信手順と、が行われ、上記送信手順は、上記指定要求手順により指定された電子文書又は分類項目の特徴を示す特徴情報とともに、指定された電子文書又は分類項目の識別子を、上記通信手段を介して上記文書提供装置に送信させ、上記分類手順は、上記文書提供装置から送信されてきた電子文書について、その特徴に基づいて該当する分類項目を判別するとともに、判別された分類項目が、上記指定要求手順により指定された分類項目、又は指定された電子文書が属する分類項目と一致する場合は、上記文書提供装置から送信されてきた電子文書をその分類項目に分類し、判別された分類項目が、上記指定要求手順により指定された分類項目、又は指定された電子文書が属する分類項目と異なる場合は、操作入力に基づいて、上記文書提供装置から送信されてきた電子文書を或る分類項目に分類するようにする。
【0019】
また本発明の文書提供装置側の処理に相当する本発明の文書処理方法としては、端末装置から電子文書又は分類項目の特徴情報を受信した時に、データベースに登録されている複数の電子文書から上記特徴情報と関連する電子文書を検索する検索手順と、上記検索手順で検索された電子文書に関連する情報を上記端末装置に送信する送信手順とが行われ、上記送信手順は、上記指定要求手順により指定された電子文書又は分類項目の特徴を示す特徴情報とともに、指定された電子文書又は分類項目の識別子を、上記通信手段を介して上記文書提供装置に送信させ、上記分類手順は、上記文書提供装置から送信されてきた電子文書について、その特徴に基づいて該当する分類項目を判別するとともに、判別された分類項目が、上記指定要求手順により指定された分類項目、又は指定された電子文書が属する分類項目と一致する場合は、上記文書提供装置から送信されてきた電子文書をその分類項目に分類し、判別された分類項目が、上記指定要求手順により指定された分類項目、又は指定された電子文書が属する分類項目と異なる場合は、操作入力に基づいて、上記文書提供装置から送信されてきた電子文書を或る分類項目に分類するようにする。
【0020】
また本発明の記録媒体としては、上記の端末装置側の処理に相当する文書処理方法としての動作プログラムを記録したものとする。
【0021】
【発明の実施の形態】
以下、本発明の実施の形態について次の順序で説明する。
説明としては以下に示す順序のように、まず第1の実施の形態としての文書処理システムの構成を述べ、次に、その文書処理システムにおいて文書データの提供を受ける側となる文書処理装置、及び文書データ構造について述べていく。そしてその後に、文書処理装置に対して提供する文書データを作成するオーサリング装置を説明する。そしてさらにその後、文書処理システムの動作を説明する。また以上の第1の実施の形態の説明に準拠して、第2、第3の実施の形態も説明する。
[I]第1の実施の形態
1.文書処理システムの構成
2.文書処理装置(ユーザー端末)の構成
3.文書データ構造
4.文書データに対する手動分類処理
4−1 処理手順
4−2 インデックス作成
4−3 文書閲覧/分類作成/分類操作
4−4 分類モデル作成/登録
5.文書データに対する自動分類処理
5−1 処理手順
5−2 自動分類
6.要約作成処理
7.読み上げ処理
8.オーサリング装置の構成
9.オーサリング処理
10.文書処理システムの動作(文書プロバイダからのオーサリング要求)
[II]第2の実施の形態
11.文書処理システムの構成
12.文書処理システムの動作(文書処理装置からのオーサリング要求)
[III]第3の実施の形態
13.文書処理システムの構成
14.文書処理システムの動作(文書処理装置からの逆引検索#1)
15.逆引検索後の分類処理
16.文書処理システムの動作(文書処理装置からの逆引検索#2)
【0022】
[I]第1の実施の形態
1.文書処理システムの構成
図1に第1の実施の形態としての文書処理システムの構成例を示す。
本例の文書処理システムは、主に、文書処理装置1、オーサリング装置2、サーバ3、文書プロバイダ4等から成る。
【0023】
図1には、各部が有する機能を示しているが、文書処理装置1、オーサリング装置2、サーバ3、文書プロバイダ4の全ては、受信/送信機能を有し、図中実線又は破線で示すように、相互に情報の通信が可能とされている。
【0024】
ここで実線で示す通信回線6とは、有線(例えば一般公衆回線、専用通信線、インターネットなど)又は無線(例えば衛星通信や無線電話回線など)による通信回線を示している。
また破線は可搬性の記録媒体32による情報の伝送を示しており、光ディスク、光磁気ディスク、磁気ディスクなどのディスク状記録媒体や、例えばフラッシュメモリなどを搭載したメモリカード、或いはテープメディアなど、各種の記録媒体が相当する。
すなわち図示する各部は、通信回線6又は記録媒体32により、電子文書、タグ付電子文書、識別子、その他の各種制御データを相互に伝送することができる。
なお本例では、オーサリング装置2により電子文書にタグを付してタグ付電子文書を生成するものであるが、タグが付されていない元の電子文書を「プレーンテキスト」、タグが付された電子文書を「タグファイル」ということする。
【0025】
文書プロバイダ4は、提供すべき文書としての元のテキストデータ、つまり後述するタグ等が付加されていない通常の文書データであるプレーンテキストを提供する部位としている。
文書プロバイダ4はプレーンテキスト格納機能を備え、格納してあるプレーンテキストを、通信回線6又は記録媒体32を介してサーバ3又はオーサリング装置2に送信できる。
また文書作成機能を備え、プレーンテキストを作成することもできる。但し、必ずしも文書プロバイダ4において文書作成機能を備える必要はない。即ち、文書プロバイダ4はあくまでもプレーンテキストを提供できる部位であればよく、通信回線6又は記録媒体32を介してシステム外部の文書製作者等から受け取ったプレーンテキストを提供するようにしてもよい。
【0026】
オーサリング装置2は、文書プロバイダ4又はサーバ3から通信回線6又は記録媒体32を介して提供されたプレーンテキストに対してオーサリング処理を行ってタグファイルを生成する部位である。
生成したタグファイルは通信回線6又は記録媒体32を介してサーバ3に送信し、サーバ3内のデータベースに格納させる。
【0027】
このオーサリング装置2としては、上記オーサリング処理を行うためのオーサリング機能を有するほか、詳しくは後述するが、オーサリング対象となるプレーンテキストの受信/要求やサーバ3のデータベースの検索要求などを行ない、また生成されたタグファイルのサーバ3への送信などの制御を実行し、効率的なオーサリング動作を実現するオーサリング制御機能を備える。
また課金機能を備え、オーサリング動作に伴って、オーサリング料金を文書プロバイダ4に課金することも行われる。
【0028】
なお図示していないが、オーサリング装置2に文書作成機能が設けられるようにして、文書プロバイダ4からプレーンテキストの供給を受けなくても、プレーンテキストを生成し、そのプレーンテキストに対してオーサリング処理を行ってタグファイルを生成することができるようにしてもよい。
【0029】
オーサリング装置2においては、オーサリング機能、課金機能、受信送信機能、オーサリング制御機能を実現するための動作制御プログラムが用意されるが、この動作制御プログラムは予め装置内部に保持されることの他、システム外部から通信回線6でダウンロードしたり、或いは記録媒体32により提供を受けるものでもよい。
例えばこのようにシステム外部から提供を受けることで、汎用のパーソナルコンピュータをオーサリング装置として適用することも可能となる。
なおオーサリング装置2としてのハードウエア構成や処理動作については後述する。
【0030】
サーバ3は、データベースを有し、データベースには文書プロバイダ4から送信されてきたプレーンテキストや、オーサリング装置2から送信されてきたタグファイルが格納される。
データベースに保存された文書データ(タグファイル又はプレーンテキスト)は、サーバ3の管理に基づいて、フロッピーディスクや光ディスク等の記録媒体32或いは通信回線6によって、一般ユーザー側の文書処理装置1に提供されるものとなる。
サーバ3はデータベースに対する検索機能も備える。
【0031】
一般ユーザーサイドでは、文書処理機能を備える文書処理装置1を用いることで、サーバ3から提供された文書データについて後述するように各種の処理を行い、多様かつ高度な文書情報を得ることができる。
【0032】
なお、この図1のシステム構成は、説明上の1モデルにすぎず、実際のシステム構成は多様に考えられる。
例えば文書プロバイダ4、オーサリング装置2、サーバ3等が多数存在したり、或いはサーバ3側にオーサリング装置2が構築されたりするなど、多様な構成例が考えられる。
【0033】
2.文書処理装置(ユーザー端末)の構成
上記文書処理システムにおいて 文書データの提供を受ける側となる文書処理装置1について説明していく。
【0034】
文書処理装置1は、図2に示すように、制御部11およびインターフェース12を備える本体10と、ユーザからの入力を受けて本体10に送る入力部20と、外部との信号の送受信を行う通信部21と、本体10からの出力を表示する表示部30と、記録媒体32に対して情報を記録/再生する記録/再生部31と、音声出力部33と、HDD(ハードディスクドライブ)34を有している。
【0035】
本体10は、制御部11およびインターフェース12を有し、この文書処理装置1の主要な部分を構成している。
制御部11は、この文書処理装置1における処理を実行するCPU13と、揮発性のメモリであるRAM14と、不揮発性のメモリであるROM15とを有している。
CPU13は、たとえばROM15に記録された手順にしたがって、必要な場合にはデータを一時的にRAM14に格納して、プログラムを実行するための制御をおこなう。
この制御部11の動作としては、詳しくはそれぞれ後述していくが、供給された文書データに関する分類処理、要約作成処理、読み上げ動作のための音声読み上げ用ファイルの生成処理、及びこれらの処理に必要な文書解析などがある。そしてこれらの動作のために必要なプログラムやアプリケーションソフトが、ROM15や、HDD34、あるいは記録媒体32に記憶されている。
なお、制御部11が用いる文書処理プログラムは上記のようにあらかじめROM15に格納されたり、あるいは、記録媒体32やHDD34から取り込むことが考えられるが、例えば通信部21(通信回線6)を介して、インターネット等のネットワークから、外部サーバ等が提供する文書処理プログラムをダウンロードすることも考えられる。
【0036】
インターフェース12は、制御部11、入力部20、通信部21、表示部30、記録/再生部31、音声出力部33、HDD34に接続される。
そしてインターフェース12は、制御部11の制御の下に、入力部20からのデータの入力、通信部21との間のデータの入出力、表示部30へのデータの出力、記録/再生部31に対するデータの入出力、音声出力部33へのデータの出力、HDD34に対するデータの入出力の各動作を行う。具体的には制御部11と上記各部の間でのデータの入出力のタイミングを調整したり、データの形式を変換することなどを行う。
【0037】
入力部20は、この文書処理装置1に対するユーザの入力を受ける部分である。この入力部20は、たとえばキーボードやマウスにより構成される。ユーザは、この入力部20を用い、キーボードによリキーワード等の文字を入力したり、マウスにより表示部30に表示されている電子文書のエレメントを選択することなどができる。
なお、以下では文書処理装置1で扱う文書データ(タグファイル等)を、単に「文書」と称する場合もある。また「エレメント」とは文書を構成する要素であって、たとえば文書、文および語が含まれる。
【0038】
通信部21は、この文書処理装置1に外部からたとえば通信回線6を介して送信される信号を受信したり、通信回線6に信号を送信する部位である。
この通信部21は、例えば上記サーバ3から送信された1又は複数の文書データ(タグファイル)等を受信し、受信したデータを本体10に送る。もちろん通信回線6を介して外部装置にデータを送信することも可能である。
【0039】
表示部30は、この文書処理装置1の出力としての文字や画像情報を表示する部位である。この表示部30は、たとえば陰極線管(cathode ray tube;CRT)や液晶表示装置(Liquid crystal display;LCD)などにより構成され、たとえば単数または複数のウィンドウを表示し、このウィンドウ上に文字、図形等を表示する。
【0040】
記録/再生部31は、例えばフロッピーディスクや光ディスクなどの記録媒体32に対してデータの記録/再生を行う。
なお、ここでは記録媒体32の例としてフロッピーディスク(磁気ディスク)、光ディスクを例にあげているが、もちろん上述したように、光磁気ディスク、メモリカード、磁気テープなど、可搬性メディアであれば記録媒体32の例として適用できる。そして記録/再生部31は、メディアに応じた記録再生装置(ディスクドライブ、カードドライブなど)であればよい。
【0041】
記録媒体32が、文書を処理するための文書処理プログラムが記録されているものである場合は、記録/再生部31は、その記録媒体32から文書処理プログラムを読み出して制御部11に供給することができる。
また記録媒体32に文書データが記録されていれば、記録/再生部31でそれを読み出して制御部11に供給することができる。即ち文書処理装置1にとって、通信部21による文書データの受信とは別の文書データの入力態様となる。
さらに、制御部11は当該文書処理装置1で処理した文書データを記録/再生部31において記録媒体32に記録させることもできる。
【0042】
音声出力部33は、文書処理装置1の出力としての文書を、読み上げ音声として出力する部位である。
即ち音声出力部33は、制御部11が文書情報(後述する読み上げ用ファイル)に基づいた音声合成処理により生成した音声信号が供給された際に、その音声信号の出力処理を行うことで、表示部30とともに文書処理装置1の出力手段として機能する。
【0043】
HDD34は、文書処理装置1における大容量の記録領域を提供する。HDD34は、制御部11の制御に基づいて情報の記録/再生を行う。
このHDD34は、制御部11で実行される各種処理のためのアプリケーションプログラム、例えば音声合成のためのプログラムなどを格納するために用いられたり、例えば当該文書処理装置1に取り込まれた文書データ等を格納しておく部位として用いることなどが可能となる。
【0044】
3.文書データ構造
続いて、本例における文書データの構造について説明する。本例においては、文書処理は、文書に付与された属性情報であるタグを参照しておこなわれる。本例で用いられるタグには、文書の構造を示す統語論的(syntactic)タグと、多言語間で文書の機械的な内容理解を可能にするような意味的(semantic)・語用論的タグとがある。
【0045】
統語論的なタグとしては、文書の内部構造を記述するものがある。
タグ付けによる内部構造は、図3に示すように、文書、文、語彙エレメント等の各エレメントが互いに、通常リンク、参照・被参照リンクによりリンクされて構成されている。
図中において、白丸“○”はエレメントを示し、最下位の白丸は文書における最小レベルの語に対応する語彙エレメントである。また、実線は文書、文、語彙エレメント等のエレメント間のつながり示す通常リンク(normal link)であり、破線は参照・被参照による係り受け関係を示す参照リンク(reference link)である。
文書の内部構造は、上位から下位への順序で、文書(documemt)、サブディビジョン(subdivision)、段落(paragraph)、文(sentence)、サブセンテンシャルセグメント(subsentential segment)、・・・、語彙エレメントから構成される。このうち、サブディビジョンと段落はオプションである。
【0046】
一方、意味論・語用論的なタグ付けとしては、多義語の意味のように意味等の情報を記述するものがある。
本例におけるタグ付けは、HTML(Hyper Text Markup Language)と同様なXML(Extensible Markup Language)の形式によるものである。
【0047】
タグ付けの一例を次に示すが、文書へのタグ付けはこの方法に限られない。また、以下では英語と日本語の文書の例を示すが、タグ付けによる内部構造の記述は他の言語にも同様に適用することができる。
【0048】
たとえば、“Time flies like an arrow.”という文については、下記のようなタグ付けをすることができる。< >が、文書に対して付与されたタグである。
【0049】
<文><名詞句 語義=“time0”>time</名詞句>
<動詞句><動詞 語義=“fly1”>flies</動詞>
<副詞句><副詞 語義=like0>like</副詞> <名詞句>an
<名詞 語義=“arrow0”>arrow</名詞></名詞句>
</副詞句></動詞句>.</文>
【0050】
ここで<文>、<名詞>、<名詞句>、<動詞>、<動詞句>、<副詞>、<副詞句>は、それぞれ文、名詞、名詞句、動詞、動詞句、形容詞/副詞(前置詞句または後置詞句を含む)、形容詞句/副詞句、を示している。つまり文の統語構造(syntactic structure)を表している。
【0051】
これらのタグは、エレメントの先端の直前および終端の直後に対応して配置される。エレメントの終端の直後に配置されるタグは、記号“ /”によりエレメントの終端であることを示している。エレメントとは統語的構成素、すなわち句、節、および文のことである。
なお、語義(word sense)=“time0”は、語“time”の有する複数の意味、すなわち複数の語義のうちの第0番目の意味を指している。具体的には、語“time”には少なくとも名詞、形容詞、動詞の意味があるが、ここでは語“time”が名詞(=第0番目の意味)であることを示している。同様に、語“オレンジ”は少なくとも植物の名前、色、果物の意味があるが、これらも語義によって区別することができる。
【0052】
本例では、文書データについては、図4に示すように、表示部30上のウィンドウ101において、その統語構造を表示することができる。このウィンドウ101においては、右半面103に語彙エレメントが、左半面102に文の内部構造がそれぞれ表示されている。
【0053】
例えば図示するようにこのウィンドウ101には、タグ付けにより内部構造が記述された文章「A氏のB会が終わったC市で、一部の大衆紙と一般紙がその写真報道を自主規制する方針を紙面で明らかにした。」の一部が表示されている。この文書のタグ付けの例は次のようになる。
【0054】
<文書><文><副詞句 関係=“場所”><名詞句><副詞句 場所=“C市”>
<副詞句 関係=“主語”><名詞句 識別子=“B会”><副詞句 関係=“所有”><人名 識別子=“A氏”>A氏</人名>の</副詞句><組織名 識別子=“B会”>B会</組織名></名詞句>が</副詞句>
終わった</副詞句><地名 識別子=“C市”>C市</地名></名詞句>で、</副詞句><副詞句 関係=“主語”><名詞句 識別子=“press” 統語=“並列”><名詞句><副詞句>一部の</副詞句>大衆紙</名詞句>と<名詞>一般紙</名詞></名詞句>が</副詞句>
<副詞句 関係=“目的語”><副詞句 関係=“内容” 主語=“press”><副詞句 関係=“目的語”><名詞句><副詞句><名詞 共参照=“B会”>そ</名詞>の</副詞句>写真報道</名詞句>を</副詞句>
自主規制する</副詞句>方針を</副詞句>
<副詞句 関係=“位置”>紙面で</副詞句>
明らかにした。</文></文書>
【0055】
このようにタグ付されることで、各一対のタグ< >〜</ >によって文書の構造が表現される。
例えば<文書>〜</文書>で1つの文書の範囲が示され、同様に<文>〜</文>で1つの文の範囲が示される。また例えば、<名詞句 識別子=“B会”>〜</名詞句>により、「A氏のB会」という部分が「B会」を識別子とする名詞句として表現される。
即ち上記タグ付により、図4の左半面102に示した文の内部構造が表現される。
【0056】
さらに、この文書においては、「一部の大衆紙と一般紙」は、統語=“並列”というタグにより並列であることが表されている。並列の定義は、係り受け関係を共有するということである。特に何も指定がない場合、たとえば、<名詞句 関係=x><名詞>A</名詞><名詞>B</名詞></名詞句>は、AがBに依存関係のあることを表す。関係=xは関係属性を表す。
【0057】
関係属性は、統語、意味、修辞についての相互関俵を記述する。主語、目的語、間接目的語のような文法機能、動作主、被動作者、受益者などのような主題役割、および理由、結果などのような修辞関係はこの関係属性により記述される。本例では、主語、目的語、間接目的語のような比較的容易な文法機能について関係属性を記述する。
【0058】
また、この文書においては、“A氏”、“B会”、“C市”のような固有名詞について、地名、人名、組織名等のタグにより属性が記述されている。これら地名、人名、組織名等のタグが付与されることで、その語が固有名詞であることが表現される。
【0059】
4.文書データに対する手動分類処理
4−1 処理手順
本例の文書処理装置1では、例えば通信部21(又は記録/再生部31)により外部から文書データが取り込まれると、その文書データを内容に応じて分類する処理を行う。なお、以下の説明では、外部からの文書データは通信部21を介して取り込まれるとして述べていくが、その説明は、外部からフロッピーディスク等の可搬性メディアの形態で供給され、記録/再生部31から文書データが取り込まれる場合も同様となるものである。
【0060】
分類処理としては、文書データ内容に応じてユーザーが手動で分類する手動分類処理と、文書処理装置1が自動的に分類する自動分類処理がある。
これらの分類処理は、後述する分類モデルに基づいて行われるわけであるが、文書処理装置1においては、初期状態では分類モデルは存在しない。そのため初期状態にある時点では、手動分類処理として、分類モデルの作成を含む分類処理が必要になる。そして、分類モデルが生成された後においては、入力された文書データに対して自動分類処理が可能となるものである。
まずここでは、最初に実行することが必要とされる手動分類処理について説明する。即ちこの手動分類処理とは、初期状態にある文書処理装置1が外部から送られた文書データを受信した際に、ユーザーの操作に基づいて、制御部11が分類モデルの作成及び文書データの分類を行う動作となる。
【0061】
まず手動分類処理としての全体の処理手順を図5に示す。なお、各処理ステップの詳細な処理については後述する。
【0062】
図5のステップF11は、文書処理装置1の受信部21による文書受信処理を示している。このステップF11では、受信部21は、たとえば通信回線を介して送信された1又は複数の文書を受信する。受信部21は、受信した文書を文書処理装置の本体10に送る。制御部11は供給された1又は複数の文書データをRAM14又はHDD34に格納する。
【0063】
ステップF12では、文書処理装置1の制御部11は、受信部21から送られた複数の文書の特徴を抽出し、それぞれの文書の特徴情報すなわちインデックスを作成する。制御部11は、作成したインデックスを、たとえばRAM14又はHDD34に記憶させる。
後述するがインデックスは、その文書に特徴的な、固有名詞、固有名詞以外の語義などを含むものであり、文書の分類や検索に利用できるものである。
【0064】
ステップF13の文書閲覧は、ユーザーの必要に応じて実行される処理である。つまりユーザーの操作に応じて行われる。なお、このステップF13や次のステップF14は、ユーザ操作に基づく処理である。
入力された文書データに対しては、ユーザーは所要の操作を行うことにより、表示部30の画面上で、その文書内容を閲覧することができる。
そして文書閲覧中は、ユーザーは画面上のアイコン等に対する操作により、例えば後述する要約作成などの各種処理を指示できるが、この手動分類処理に関しては、ステップF14として示すように、分類項目の作成及び分類操作としての処理に進むことになる。
ステップF14では、ユーザーが分類項目(なお本明細書では、分類項目のことをカテゴリともいう)を設定する操作を行うことに応じて、制御部11は分類項目を生成/表示していく。またユーザーが文書データを、設定された分類項目に振り分けていく操作も行うことになり、それに応じて制御部11は文書データの振り分け/表示を行うことになる。
【0065】
ステップF15では、制御部11は、ステップF14でユーザーが行った分類項目作成及び分類操作に応じて、分類モデルを作成する。
分類モデルは、文書を分類する複数の分類項目(カテゴリ)から構成されるとともに、各カテゴリに対して各文書のインデックス(ステップF12で作成した各文書のインデックス)を対応づけることで、分類状態を規定するデータである。
このような分類モデルを生成したら、ステップF16で、その分類モデルを登録する。即ち制御部11は、分類モデルをたとえばRAM14に記憶させることで登録を行う。
以上の図5の処理により、文書処理状態1が初期状態にある時に入力された1又は複数の各文書データについて、手動分類及び分類モデルの作成が行われたことになる。
この図5のステップF12以下の処理について詳しく述べていく。
【0066】
4−2 インデックス作成
ステップF14では、制御部11は入力された文書データについてインデックスの作成を行う。
まず、或る1つの文書データに対して作成されたインデックスの具体例を示す。
【0067】
<インデックス 日付=“AAAA/BB/CC” 時刻=“DD:EE:FF” 文書アドレス=“1234”>
<ユーザの操作履歴 最大要約サイズ=“100”>
<選択 エレメントの数=“10”>ピクチャーテル</選択>
・・・
</ユーザの操作履歴>
<要約>減税規模、触れず−X首相の会見</要約>
<語 語義=“0003” 中心活性値=“140.6”>触れず</語>
<語 語義=“0105” 識別子=“X” 中心活性値=“67.2”>首相</語>
<人名 識別子=“X” 語 語義=“6103” 中心活性値=“150.2”>X首相</語 /人名>
<語 語義=“5301” 中心活性値=“120.6”>求めた</語>
<語 語義=“2350” 識別子=“X” 中心活性値=“31.4”>首相</語>
<語 語義=“9582” 中心活性値=“182.3”>強調した</語>
<語 語義=“2595” 中心活性値=“93.6”>触れる</語>
<語 語義=“9472” 中心活性値=“12.0”>予告した</語>
<語 語義=“4934” 中心活性値=“46.7”>触れなかった</語>
<語 語義=“0178” 中心活性値=“175.7”>釈明した</語>
<語 語義=“7248” 識別子=“X” 中心活性値=“130.6”>私</語>
<語 語義=“3684” 識別子=“X” 中心活性値=“121.9”>首相</語>
<語 語義=“1824” 中心活性値=“144.4.”>訴えた</語>
<語 語義=“7289” 中心活性値=“176.8”>見せた</語>
</インデックス>
【0068】
このインデックスにおいては、<インデックス>および</インデックス>は、インデックスの始端および終端を、<日付>および<時刻>はこのインデックスが作成された日付および時刻を、<要約>および</要約>はこのインデックスの内容の要約の始端および終端を、それぞれ示している。
また、<語>および</語>は語の始端および終端を示している。
さらに例えば、語義=“0003”は、第3番目の語義であることを示している。他についても同様である。上述したように、同じ語でも複数の意味を持つ場合があるので、それを区別するために語義ごとに番号が予め決められており、その該当する語義が番号で表されているものである。
【0069】
また、<ユーザの操作履歴>および</ユーザの操作履歴>は、ユーザの操作履歴の始端および終端を、<選択>および</選択>は、選択されたエレメントの始端および終端を、それぞれ示している。最大要約サイズ=“100”は、要約の最大のサイズが100文字であることを、エレメントの数=“10”は、選択されたエレメントの数が10であることを示している。
【0070】
この例のように、インデックスは、その文書に特徴的な、固有名詞、固有名詞以外の語義などを含むものである。
例えばこのようなインデックスを作成するステップF12の処理を、図6〜図9で説明する。なお、図6は1つの文書データに対するインデックス作成処理を示しており、従って複数の文書データについて処理を行う場合は、各文書データについてこの図6の処理が行われることになる。
また図6のステップF31の詳細な処理を図8に示し、さらに図8のステップF43の詳細な処理を図9に示している。
【0071】
上述した図5のステップF12のインデックス作成処理としては、まず図6のステップF31の活性拡散が行われる。
この活性拡散とは、文書データについて、エレメントの中心活性値を文書の内部構造に基づいて拡散することで、中心活性値の高いエレメントと関わりのあるエレメントにも高い中心活性値を与えるような処理である。
即ち、文書を構成する各エレメントに対して初期値としての中心活性値を与えた後、その中心活性値を、文書の内部構造、具体的にはリンク構造に基づいて拡散する。
この中心活性値は、タグ付けによる内部構造に応じて決定されるので、文書の特徴の抽出等に利用されるものである。
制御部11は、このステップF31として、活性拡散を行い、活性拡散の結果として得られた各エレメントの中心活性値を、たとえばRAM14に記憶させることになる。
【0072】
ステップF31の活性拡散について、図7〜図9で詳しく説明していく。
まずエレメントとエレメントのリンク構造の例を図7に示す。
図7においては、文書を構成するエレメントとリンクの構造の一部として、エレメントE1、E2の周辺を示している。E1〜E8はエレメントの例であり、この中でエレメントE1、E2に注目して説明する。
【0073】
エレメントE1の中心活性値はe1であるとし、またエレメントE2の中心活性値はe2であるとする。
このエレメントE1,E2は、リンクL12(上述した通常リンクもしくは参照リンク)にて接続されている。
リンクL12のエレメントE1に接続する端点をT12、エレメントE2に接続する端点をT21とする。
エレメントE1は、さらにエレメントE3,E4,E5と、それぞれリンクL13,L14,L15で接続されている。各リンクL13,L14,L15におけるエレメントE1側の端点をそれぞれT13,T14,T15とする。
またエレメントE2は、エレメントE6,E7,E8とも、それぞれリンクL26,L27,L28で接続されている。各リンクL26,L27,L28におけるエレメントE2側の端点をそれぞれT26,T27,T28とする。
このようなリンク構造の例を用いながら、図8、図9の活性拡散処理を説明していく。
【0074】
図8のステップF41で制御部11は、インデックス作成対象としての文書データについて活性拡散を開始するにあたり、まず文書データの全エレメントについて中心活性値の初期設定を行う。
中心活性値の初期値としては、例えば固有名詞や、ユーザーが選択(クリック)したエレメント等に高い値を与えるようにする。
また制御部11は、参照リンクと通常リンクに関して、エレメントを連結するリンクの端点T(xx)の端点活性値を0に設定する。制御部11は、このように付与した端点活性値の初期値を、たとえばRAM14に記憶させる。
【0075】
ステップF42においては、制御部11は、文書を構成するエレメントEiを計数するカウンタの初期化をおこなう。すなわち、エレメントを計数するカウンタのカウント値iを1に設定する。i=1の場合、このカウンタは、第1番目のエレメント(例えば図7のエレメントE1)を参照することになる。
【0076】
ステップF43においては、制御部11は、カウンタが参照するエレメントについて、新たな中心活性値を計算する中心活性値更新処理を実行する。
この中心活性値更新処理について、エレメントE1についての処理を例に挙げながら、図9で詳しく説明する。
この中心活性値更新処理は、エレメントについての端点活性値を更新し、さらに更新された端点活性値と現在の中心活性値を用いて、新たな中心活性値を算出する処理となる。
【0077】
図9のステップF51では、制御部11は、文書を構成するエレメントEi(例えばこの場合E1)に一端が接続されたリンクの数を計数するカウンタの初期化をおこなう。すなわち、リンクを計数するカウンタのカウント値jを1に設定する。j=1の場合、このカウンタは、エレメントEiと接続された第1番目のリンクL(yy)を参照することになる。図7の例では、エレメントE1についての第1のリンクとして例えばリンクL12を参照する。
【0078】
ステップF52で制御部11は、参照中のリンク、つまりエレメントE1とE2を接続するリンクL12について、関係属性のタグを参照することにより通常リンクであるか否かを判断する。制御部11は、リンクL12が通常リンクであればステップF53に、一方リンクL12が参照リンクであればステップF54に処理を進める。
【0079】
リンクL12が通常リンクと判断されてステップF53に進んだ場合は、制御部11は、エレメントE1の通常リンクL12に接続された端点T12の新たな端点活性値を計算する処理をおこなう。
端点T12の端点活性値t12は、リンク先のエレメントE2の端点活性値のうち、リンクL12以外のリンクに接続するすべての端点の各端点活性値(この場合T26、T27、T28の各端点活性値t26、t27,t28)と、エレメントE2の中心活性値e2を加算し、この加算で得た値を、文書に含まれるエレメントの総数で除することにより求められる。
制御部11は、この様な演算を、RAM14から読み出した各端点活性値および各中心活性値を用いて行うことで、通常リンクと接続された端点についての新たな端点活性値を算出し、算出した端点活性値を、RAM14に記憶させる。つまり端点T12の端点活性値t12を更新する。
【0080】
一方、ステップF52でリンクL12が参照リンクであると判断され、ステップF54に進んだ場合は、同じく制御部11は、通常リンクL12に接続されたエレメントE1の端点T12の新たな端点活性値を計算する処理をおこなうことになるが、端点活性値の算出のための演算は次のようになる。
即ちこの場合は、端点T12の端点活性値t12は、リンク先のエレメントE2の端点活性値のうち、リンクL12以外のリンクに接続するすべての端点の各端点活性値(この場合T26、T27、T28の各端点活性値t26、t27,t28)と、エレメントE2の中心活性値e2を加算した値とする。(つまり除算がない点が上記通常リンクの場合と異なるものとなる)
そして制御部11は、この様な演算を、RAM14から読み出した各端点活性値および各中心活性値を用いて行うことで、参照リンクと接続された端点についての新たな端点活性値を算出し、算出した端点活性値を、RAM14に記憶させる。つまり端点T12の端点活性値t12を更新する。
【0081】
このようなステップF53又はF54の処理を行なったら、制御部11はステップF55での判別処理を介して(判別結果がNOであれば)ステップF57に進み、カウント値jをインクリメントしてステップF52に戻る。
即ち続いて、カウント値j=2とされることにより、エレメントE1についての第2のリンク(例えばリンクL13)が参照されることになるため、上記同様にステップF52以降の処理でリンクL13に接続される端点T13の端点活性値t13が算出/更新されることになる。
【0082】
ステップF55では、制御部11は、現在カウント値iで参照中のエレメントEi(E1)について、全てのリンクについての新たな端点活性値が計算されたか否かを判別して処理を分岐するものであるため、端点活性値の更新処理は、参照中のエレメントEiの全ての端点活性値が更新されるまで行われる。
つまりステップF57でカウント値jがインクリメントされながら処理が繰り返されることで、例えばエレメントE1については、端点T12,T13,T14,T15についてそれぞれ端点活性値t12,t13,t14,t15が更新されていき、その全てが更新された時点で、処理はステップF55からF56に進むことになる。
【0083】
エレメントEiについての全ての端点活性値が求められたことに応じて、ステップF56では、更新された端点活性値を用いて、エレメントEiの新たな中心活性値eiを算出する。
エレメントEiの新たな中心活性値eiは、エレメントEiの現在の中心活性値eiとエレメントEiのすべての端点の新たな端点活性値の和で求められる。例えば図7のエレメントE1の場合は、新たな中心活性値e1(new)は、
e1(new)=e1+t12+t13+t14+t15
となる。
【0084】
制御部11は、このようにして現在カウント値iで参照中のエレメントEiの中心活性値eiを算出する。そして、制御部11は、計算した新たな中心活性値eiをRAM14に記憶させる。つまりエレメントEiの中心活性値eiを更新する。(但しこの時点では、後述するステップF45の処理で用いるため、旧中心活性値も保持しておく)
【0085】
図8のステップF43の中心活性値更新処理として、以上図9に示したような処理が行われるたら、制御部11の処理は図8のステップF44に進み、制御部11は、文書中のすべてのエレメントについて中心活性値更新処理が完了したか否かを判断する。具体的には、制御部11は、カウント値iが、文書に含まれるエレメントの総数に達したか否かを判断する。
制御部11は、すべてのエレメントについて中心活性値更新処理が完了していないときは、ステップF47に処理を進め、カウント値iをインクリメントしてステップF43に戻る。
例えば上記のようにエレメントE1についての処理が終わった後であれば、カウント値i=2とされて、今度はエレメントE2が参照されることになる。
そしてエレメントE2について、ステップF43の中心活性値更新処理(即ち図9の処理)が上記同様に行われる。
重複説明となるため詳細は述べないが、図7のリンク例でいえば、エレメントE2の場合は、図9の処理において端点T21,T26,T27,T28の各端点活性値t21,t26,t27,t28が更新された後、新たな中心活性値e2(new)が、
e2(new)=e2+t21+t26+t27+t28
として算出され、更新されることになる。
【0086】
図8の処理においては、このようにステップF47でカウント値iがインクリメントされて参照エレメントが変更されながらステップF43の中心活性値更新処理が繰り返されることで、文書に含まれる全てのエレメントの中心活性値が更新されていくことになる。
【0087】
文書中のすべてのエレメントについて中心活性値の更新が完了したときは、処理はステップF44からF45に進むことになる。
ステップF45においては、制御部11は、文書に含まれるすべてのエレメントの中心活性値の変化分、すなわち新たに計算された中心活性値の元の中心活性値に対する変化分について平均値を計算する。
例えば制御部11は、RAM14に記憶された旧中心活性値と、更新した新たな中心活性値を、文書に含まれるすべてのエレメントについて読み出す。そして各エレメントについて新中心活性値と旧中心活性値の差分を求め、その差分の総和をエレメントの総数で除することにより、すべてのエレメントの中心活性値の変化分の平均値を計算する。
制御部11は、このように計算したすべてのエレメントの中心活性値の変化分の平均値を、たとえばRAM14に記憶させる。
【0088】
続いてステップF46において制御部11は、ステップF45で計算した平均値が、あらかじめ設定された閾値以内であるか否かを判断する。
そして、制御部11は、上記平均値が閾値以内である場合は、活性拡散処理としての一連の行程を終了するが、上記平均値が閾値以内でないときには、ステップF42にもどって、上述した一連の行程を再び実行する。
【0089】
この一連の活性拡散処理は、中心活性値が高いエレメントに関連のある(リンクする)エレメントについて、その中心活性値を引き上げていく処理といえるものである。
ところが、この活性拡散を1回行うのみでは、インデックス作成処理の目的を考えたときに、本来中心活性値を引き上げられるべきエレメントの中で、中心活性値が十分に引き上げられないものが発生する場合もありうる。例えば、1回の活性拡散では、中心活性値の初期値が高く設定されたエレメントに直接リンクするエレメントについては、或る程度中心活性値が引き上げられるが、直接リンクしていないエレメントは、それがインデックスとして重要なエレメントであっても十分に中心活性値が引き上げられないことが生ずる。
そこで、ステップF46の判断を介して、必要に応じて活性拡散処理を複数回行うようにすることで、全体的に中心活性値が収束されるようにし、中心活性値が引き上げられない重要なエレメントがなるべく生じないようにするものである。
なお、複数回の活性拡散で、全体的に中心活性値が収束されていくのは、活性拡散処理で更新された各エレメントの中心活性値に基づいて、さらに次の活性拡散処理で各エレメントの中心活性値が更新されていくためである。但し、このような活性拡散処理が多数回行われすぎると、全エレメントの中心活性値が収束しきってほぼ同値となるような事態となり、不適切である。
このため、ステップF45,F46の処理として、中心活性値の変化分の平均値を求めるように、その変化分に基づいて活性拡散処理の終了タイミングを判断することで、インデックス作成に好適な活性拡散が実現されることになる。
【0090】
以上の図8、図9のような活性拡散処理(即ち図6のステップF31)が完了したら、制御部11の処理は図6のステップF32に進むことになる。
ステップF32においては、制御部11は、ステップF31で得られた各エレメントの中心活性値に基づいて、中心活性値があらかじめ設定された閾値を超えるエレメントを抽出する。制御部11は、このように抽出したエレメントをRAM14に記憶させる。
【0091】
続いてステップF33においては、制御部11は、ステップF32にて抽出したエレメントをたとえばRAM14から読み出す。そして制御部11は、この抽出したエレメントの中からすべての固有名詞を取り出してインデックスに加える。固有名詞は語義を持たず、辞書に載っていないなどの特殊の性質を有するので固有名詞以外の語とは別に扱うものである。なお語義とは、前述したように、語の有する複数の意味のうちの各意味に対応したものである。
各エレメントが固有名詞であるか否かは、文書に付されたタグに基づいて判断することができる。たとえば、図4に示したタグ付けによる内部構造においては、“A氏”、“B会”および“C市”は、タグによる関係属性がそれぞれ“人名”、“組織名”および“地名”であるので固有名詞であることが分かる。そして、制御部11は、取り出した固有名詞をインデックスに加え、その結果をRAM14に記憶させる。
【0092】
次のステップF34においては、制御部11は、ステップF32にて抽出したエレメントの中から、固有名詞以外の語義を取り出してインデックスに加え、その結果をRAM14に記憶させる。
【0093】
以上の処理により、例えば上記した具体例のようなインデックスが生成される。即ちインデックスは、タグ付けされた文書の特徴を発見して、その特徴を配列したものとなり、その文書の特徴は、文書の内部構造に応じて拡散処理された中心活性値に基づいて判断されるものとなる。
そしてこのようなインデックスは、文書を代表するような特徴を表す語義および固有名詞を含むので、所望の文書を参照する際に用いることができる。
なお、インデックスには、文書の特徴を表す語義および固有名詞とともに、その文書がRAM14(又はHDD34)において記憶された位置を示す文書アドレスを含めておく。
【0094】
4−3 文書閲覧/分類作成/分類操作
以上の図6〜図9で説明したインデックス作成処理は図5のステップF12で行われるものとなる。従って図5の手動分類処理としては、続いてステップF13,F14の処理、即ち上述したようにユーザーによる閲覧及び手動分類の処理に移る。
【0095】
上述のように、図5のステップF13においては、ユーザーは表示部30に表示される文書を閲覧することができる。
またステップF14においては、ユーザーが分類項目を設定する操作や、文書データを、設定された分類項目に振り分けていく操作を行うことができる。
このステップF13,F14で行われる操作や、それに対応する制御部11の処理及び表示部30の表示例は以下のようになる。
【0096】
図10、図11は表示部30における表示の具体例を示している。
まず図10は、詳しくは後述する分類モデルに対応した分類ウインドウ201の表示例である。即ち、文書分類の表示に用いられるグラフィックユーザインターフェース(graphic user interface;GUI)の具体例となる。
この分類ウィンドウ201には、操作用のボタン表示202として、画面のウィンドウの状態を初期の位置にもどすポジションリセット(position reset)ボタン202aと、文書の内容を閲読するブラウザ(browser)を呼び出すブラウザボタン202bと、このウィンドウからの脱出(exit)ボタン202cとが表示される。
また、詳しくは後述する第2の実施の形態、第3の実施の形態において説明するが、ユーザーが文書データ(タグファイル)をサーバ3側に要求する際にデータベースの検索を求める操作を行うためのファイル要求ボタン202dや、逆引検索のための逆引検索ボタン202e、さらにはユーザーが文書(プレーンテキスト)を作成する画面を呼び出す文書作成ボタン202fが表示される。
また後述する逆引検索では、分類項目又は文書データをユーザーが選択するものとなるが、選択操作のために用いる分類項目チェックボックス221、文書データチェックボックス222が、各分類項目及び各文書データの表示に対応して用意されている。
【0097】
また、この分類ウィンドウ301には、分類モデルに対応する分類項目に応じた小ウインドウとして、文書分類エリア203,204,205・・・が形成される。
文書分類エリア203は、“他のトピックス”を表示するエリアとされる。この”他のトピックス”の文書分類エリア203は、まだ分類されていない文書が提示される領域となる。例えば図5のステップF11で受信された各文書(つまりこれから分類しようとする文書)は、この”他のトピックス”の文書分類エリア203に提示される。
文書分類エリア204は、例えば”ビジネスニュース”に分類された文書が提示される領域となる。
文書分類エリア205は、例えば”政治ニュース”に分類された文書が提示される領域となる。
これら以外にも、図中で符号を付していない文書分類エリアは、それぞれ特定の分類項目に応じた文書が提示される領域となる。
【0098】
これらの各文書分類エリア203,204・・・では、その各文書分類エリアに設定された分類項目(カテゴリ)に分類された文書が、その文書のアイコンと文書のタイトルにより提示される。タイトルがない場合には、一文の要約が表示される。
また各文書分類エリア203,204・・・の大きさは固定的ではなく、ユーザーがドラッグ操作などにより各文書分類エリアを区切る区切枠211,212,213・・・を移動させることにより、各文書分類エリア203,204・・・の面積を任意に変更させることができる。文書分類エリアの数もユーザーが任意に増減できる。
【0099】
また各文書分類エリア203,204・・・のタイトル(例えば「政治ニュース」など)は、ユーザーが任意に設定、変更できるものである。
なお、この文書分類エリアの数及び各タイトルは、後述する分類モデルの分類項目に応じたものとなる。言い換えれば、ユーザーがこの分類ウインドウ201においてマウスやキーボード等による入力部20からの操作で、文書分類エリアの設定や削除、或いはタイトル設定を行うことで、分類モデルの分類項目の数やタイトルが設定されることになる。
【0100】
図11は、ユーザーが文書データの内容を閲覧する閲覧ウインドウ301の例を示している。
例えばユーザーが、図10の分類ウインドウ201において或る文書をクリックして選択した状態としたうえで、ブラウザボタン202bをクリックすることで、制御部11は図11のように選択された文書を表示する閲覧ウインドウ301を開くようにする。
【0101】
この閲覧ウインドウ301には、文書データファイルのファイル名を表示するファイル名表示部302、そのファイル名の文書データを表示する文書表示部303、文書表示部303に表示された文書の要約文を表示する要約表示部304、キーワードの入力/表示を行うキーワード表示部305が設けられる。また操作用のボタン表示306として、要約文の作成を指示するための要約作成ボタン306a、アンドゥ操作(操作取消)を行うためのアンドゥボタン306b、読み上げ動作を実行させるための読み上げボタン306cなどが表示される。
【0102】
この様な閲覧ウインドウ301において、ユーザーは文書表示部303に表示される文書を閲覧することができる。なお、文書の全体を表示しきれないときは、文書の一部が表示される。もちろんスクロール操作を行うことで、全文を閲覧できる。
また、ユーザーは要約作成ボタン306aをクリックすることで、文書表示部303に表示される文書についての要約文を作成させ、要約表示部304に表示させることができる。
なお、要約文作成のための制御部11の処理については後述する。
さらにユーザーは、読み上げボタン306cをクリックすることで、文書表示部303に表示されている文書の本文又は要約文についての読み上げを実行させることができる。
この読み上げ動作についても後述する。
【0103】
以上のような分類ウインドウ201、閲覧ウインドウ301は、図5の手動分類処理の際に限らず、ユーザーの操作に応じて随時表示部20に表示されるものであるが、図5の手動分類処理に関していえば、ユーザーは受信した文書の種類や内容を、分類ウインドウ201、閲覧ウインドウ301で確認することができるものである。
具体的には、図5のステップF11で受信された1又は複数の文書は、ステップF12でのインデックス作成処理の後、図10のような分類ウインドウ201における”他のトピックス”の文書分類エリア203に表示される。
この分類ウインドウ201において、ユーザーは、文書分類エリア203に表示された各文書を手動で分類していくことになるが、例えば文書のタイトルだけ等では内容がわからない場合は、図11の閲覧ウインドウ301により文書内容を確認する。そのようにユーザの必要に応じて行われる閲覧が図5のステップF13の処理となる。
【0104】
ステップF14としては、ユーザーは分類ウインドウ201上において分類項目の追加、更新、削除等を任意に行うことができ、その操作に応じて、制御部11は表示される文書分類エリア203、204・・・の表示態様(数、面積、タイトル等)を変更させていく。
なお、ユーザーによる分類項目(文書分類エリアのタイトル)の設定/変更は、それが後述する分類モデルに反映されることになる。
【0105】
ユーザーは必要に応じて分類項目の設定を行った後、文書分類エリア203に表示されている各文書を、各文書分類エリアに振り分けていく。つまりユーザーの手動により、文書を分類する。
具体的には、”他のトピックス”の文書分類エリア203に表示されている文書のアイコンを、例えば入力部20のマウスを用い、所望の分類項目(カテゴリ)に対応する文書分類エリアにドラッグすることによりおこなう。
例えばユーザーは、「スポーツ」というタイトルの文書分類エリアを設定したうえで、”他のトピックス”の文書分類エリア203に表示されているスポーツ関連の文書のアイコンを、“スポーツ”の文書分類エリアにドラッグするような操作を行う。
このようにして手動で分類された各文書のアイコンやタイトルは、以降、そのドラッグされた先の文書分類エリア内で表示される。
【0106】
4−4 分類モデル作成/登録
以上のようにユーザーによる手動分類操作が行われたら、制御部11は図5のステップF15において、ユーザの分類操作に基づいた複数のカテゴリからなる分類モデルを作成する。すなわち制御部11は、各カテゴリに分類された上記複数の文書のインデックスを集めて、分類モデルを生成する。そして、分類モデルの各カテゴリに上記複数の文書を分類する。
【0107】
分類モデルは、文書を分類する複数の分類項目(カテゴリ)から構成される。そして各カテゴリについて、分類された文書が示されるデータ形態となる。
各文書については、上記ステップF12などでインデックスが形成されるが、分類モデルは例えば図12(a)に示すように、各カテゴリについて分類された文書のインデックスが対応づけられたようなデータ構造となる。
この図12(a)では、カテゴリとして「スポーツ」「会社」「コンピュータ」・・・等が設定されているが、これらは上記のように分類ウインドウ201においてユーザーが設定した分類項目となる。なお、もちろんユーザーが設定しなくとも、予め設定されている(つまり分類ウインドウで文書分類エリアとして表示される)カテゴリがあってもよい。
そして各分類項目にはインデックスIDX1、IDX2・・・が対応づけられるが、即ち各分類項目には、ユーザーが上記のように分類した文書のインデックスが対応づけられるものとなる。
【0108】
各分類項目に対応づけられるインデックスは、分類ウインドウ201においてその分類項目の文書分類エリアに表示されている文書のインデックスである。
例えばインデックスIDX1がカテゴリ「スポーツ」に対応づけられているのは、ユーザーが、分類ウインドウ201において「スポーツ」をタイトルとする文書分類エリアを作成し、さらにインデックスIDX1の文書のアイコンを、その「スポーツ」をタイトルとする文書分類エリアにドラッグするという手動分類を行ったことに基づくものとなる。
【0109】
ところで上述のように各文書のインデックスは、固有名詞、固有名詞以外の語義や文書アドレス等を含んでいる。
そして、例えば図12(a)のように1つの分類項目には1又は複数のインデックスが対応づけられるが、インデックスとして固有名詞、語義、文書アドレス等が含まれるため、分類モデルは図12(b)のようにも表すことができる。
【0110】
即ち図12(b)に示すように、分類モデルは、各カテゴリに対応するカテゴリインデックスとして、固有名詞、固有名詞以外の語義、文書アドレスの欄を有する構造となる。
そして分類モデルにおいては、各カテゴリ「スポーツ」「社会」「コンピュータ」「植物」「美術」「イベント」に対して、固有名詞“A氏、・・・”、“B氏、・・・”、“C社、G社、・・・”、“D種、・・・”、“E氏、・・・”および“F氏”等の固有名詞が割り当てられる。
また、“野球(4546)、グランド(2343)、・・・”、“労働(3112)、固有(9821)、・・・”、“モバイル(2102)、・・・”、“桜1(11111)、オレンジ1(9911)”、“桜2(11112)、オレンジ2(9912)”および“桜3(11113)”等の語義も各カテゴリに割り当てられる。
さらに文書アドレス“SP1、SP2、SP3、・・・”、“S01、S02、S03、・・・”、“CO1、CO2、CO3、・・・”、“PL1、PL2、PL3、・・・”、“AR1、AR2、AR3、・・・”および“EV1、EV2、EV3、・・・”も各カテゴリに割り当てられる。
【0111】
なお、“桜1”“桜2”“桜3”は、“桜”の第1の語義(11111)、第2の語義(11112)、第3の語義(11113)を示している。また、“オレンジ1”“オレンジ2”は、“オレンジ”の第1の語義(9911)、第2の語義(9912)を示している。たとえば“オレンジ1”は植物のオレンジを表し、“オレンジ2”はオレンジ色を表す。
固有名詞以外の場合に語そのものではなく語義を用いるのは、この様に、同じ語でも複数の意味を有することがあるからである。
【0112】
図5のステップF15では、ユーザーの手動分類操作に応じて例えばこの様な分類モデルが生成される。そしてステップF16として分類モデルが登録、即ちRAM15(又はHDD34)に記録される。
このように分類モデルが生成/登録されることにより、文書の分類が行われたことになる。
【0113】
なお、このように図5におけるステップF15、F16として分類モデルの作成/登録が行われた後は、後述する自動分類処理や、ユーザーの分類項目の編集、或いは手動分類操作などに応じて、分類モデルは逐次更新されていくことになる。
分類モデルが更新されると、分類モデルに更新日時が記録される。図12には、更新日時として“1998年12月10日19時56分10秒”が記録されている。
【0114】
5.文書データに対する自動分類処理
5−1 処理手順
本例の文書処理装置1では、上記のように一旦分類モデルが作成された後は、例えば通信部21により外部から取り込まれた文書データを、自動的に分類していく自動分類処理が可能となる。
即ち以下説明する自動分類処理とは、文書処理装置1が外部から送られた文書データを受信した際に、その文書データを分類モデルに対して分類していく処理となる。
なお、この例では、一つの文書を受信する毎に以下説明する自動分類処理をおこなうこととするか、複数の所定数の文書を受信する度におこなってもよいし、ユーザが図9の画面を開く操作をしたときにそれまでに受信した全文書に対して自動分類処理をおこなうようにしてもよい。
【0115】
自動分類処理としての全体の処理手順を図13に示す。
図13のステップF21は、文書処理装置1の受信部21による文書受信処理を示している。このステップF21では、受信部21は、たとえば通信回線を介して送信された1又は複数の文書を受信する。受信部21は、受信した文書を文書処理装置の本体10に送る。制御部11は供給された1又は複数の文書データをRAM14又はHDD34に格納する。
【0116】
続いてステップF22に進み、制御部11は、ステップF21で取り込まれた文書についてインデックスを作成する。
【0117】
ステップF23では、制御部11は、分類モデルに基づいて、インデックスを付された各文書を、分類モデルのいずれかのカテゴリに自動分類する。そして、制御部11は、分類の結果をたとえばRAM14に記憶させる。自動分類の詳細については後述する。
【0118】
ステップF24では、制御部11は、ステップF23での新たな文書の自動分類の結果に基づいて、分類モデルを更新する。
そしてステップF25では、制御部11は、ステップF24で更新された分類モデルを登録する。例えば分類モデルをRAM14に記憶させる。
【0119】
以上の図13の処理により、文書処理状態1に入力された文書データが、分類モデル上で分類されるように自動分類処理が行われることになる。
すなわちこの自動分類処理においては、受信した文書に対してはインデックスが作成され、さらに自動分類が行われた後、そのインデックスを構成している固有名詞、語義、文書アドレス等が、上記図12のように分類モデル上で或るカテゴリーに対応づけられることになる(分類モデルが更新される)。
【0120】
ステップF21、F22の処理は、上述した手動分類処理におけるステップF11,F12と同様である。即ちステップF22のインデックス作成処理としては、図6〜図9で説明した処理が行われるものであり、ここでの繰り返しの説明は避ける。
また、ステップF24の分類モデルの更新は、ステップF23の自動分類の分類結果に応じてものとなる。
以下、上述の手動分類処理とは異なる処理として、ステップF23の自動分類について詳細に説明する。
【0121】
5−2 自動分類
図13のステップF23での自動分類の詳しい処理を図14に示す。
図14のステップF61では、制御部11は、分類モデルのカテゴリCiに含まれる固有名詞の集合と、ステップF21で受信した文書から抽出されインデックスに入れられた語のうちの固有名詞の集合とについて、これらの共通集合の数をP(Ci)とする。そして制御部11は、このようにして算出した数P(Ci)をRAM14に記憶させる。
【0122】
ステップF62においては、制御部11は、その文書のインデックス中に含まれる全語義と、各カテゴリCiに含まれる全語義との語義間関連度を、後述する図16に示す語義間関連度の表を参照して、語義間関連度の総和R(Ci)を演算する。
すなわち制御部11は、分類モデルにおける固有名詞以外の語について、全語義間関連度の総和R(Ci)を演算する。そして制御部11は、演算した語義間関連度の総和R(Ci)をRAM14に記憶させる。
【0123】
ここで語義間関連度について説明しておく。
語義間関連度は、図15の処理により文書処理装置1が備える電子辞書に含まれる語義について予め算出し、その結果を図16のように保持しておけばよい。つまり、制御部11が予め一度だけ図15の処理を実行しておくようにすることで、図14の自動分類処理の際に用いることができる。
【0124】
制御部11が予め実行しておく図15の処理は次のようになる。
まずステップF71において、制御部11は、電子辞書内の語の語義の説明を用いて、この辞書を使って語義のネットワークを作成する。
すなわち、辞書における各語義の説明とこの説明中に現れる語義との参照関係から、語義のネットワークを作成する。
ネットワークの内部構造は、上述したようなタグ付けにより記述される。文書処理装置の制御部11は、たとえばRAM14に記憶された電子辞書について、語義とその説明を順に読み出して、ネットワークを作成する。
制御部14は、このようにして作成した語義のネットワークをRAM14に記憶させる。
【0125】
なお、上記ネットワークは、文書処理装置の制御部11が辞書を用いて作成する他に、受信部21にて外部から受信したリ、記録/再生部31にて記録媒体32から再生したりすることにより得ることもできる。
また上記電子辞書は、受信部21にて外部から受信したり、記録/再生部31にて記録媒体32から再生したりすることにより得ることができる。
【0126】
ステップF72においては、ステップF71で作成された語義のネットワーク上で、各語義のエレメントに対応する中心活性値の拡散処理をおこなう。この活性拡散により、各語義に対応する中心活性値は、上記辞書により与えられたタグ付けによる内部構造に応じて与えられる。中心活性値の拡散処理は、図8で説明した処理となる。
【0127】
ステップF73においては、ステップF71で作成された語義のネットワークを構成するある一つの語義Siを選択し、続くステップF74においては、この語義Siに対応する語彙エレメントEiの中心活性値eiの初期値を変化させ、このときの中心活性値の差分△eiを計算する。
【0128】
さらにステップF75においては、ステップF74におけるエレメントEiの中心活性値eiの差分△eiに対応する、他の語義Sjに対応するエレメントEjの中心活性値ejの差分△ejを求める。
ステップF76においては、ステップF75で求めた差分△ejを、ステップF74で求めた△eiで除した商△ej/△eiを、語義Siの語義sjに対する語義間関連度とする。
【0129】
ステップF77においては、一の語義Siと他の語義Sjとのすべての対について語義間関連度の演算が終了したか否かについて判断する。
すべての語義の対について語義間関連度の演算が終了していないときには、ステップF73にもどり、語義間関連度の演算が終了していない対について語義間関連度の演算を継続する。
このようなステップF73からステップF77のループにおいて、制御部11は、必要な値をたとえばRAM14から順に読み出して、上述したように語義間関連度を計算する。制御部11は、計算した語義間関連度をたとえばRAM14に順に記憶させる。
そして、すべての語義の対について語義間関連度の演算が終了したときには、ステップF77から、この一連の処理を終了する。
【0130】
このような語義間関連度の算出は、或る1つの語義の中心活性値を変化させた時に、それにつられて中心活性値が変化する語義を、関連度が高いものとする処理といえる。
つまりステップF74で或る語義の中心活性値を変化させると、それに応じて関連する(リンクされた)語義の中心活性値が変化するものとなるため、その変化の度合いを調べれば、或る語義に対する他の各語義の関連度がわかるものである。(或るエレメントEiの中心活性値は、上述した活性拡散の説明において述べたように、リンク先のエレメントの中心活性値と端点活性値が反映されて、そのエレメントEi端点活性値が更新されたうえで、そのエレメントEiの端点活性値と現在の中心活性値の和から求められるため、リンク先との関連度が大きいほど中心活性値の変化量は大きくなる)
このような処理を各語義から他の全ての語義に対して行っていくことで、すべての語義の対(組み合わせ)について、関連度を算出することができる。
【0131】
このように計算された語義間関連度は、図16に示すように、それぞれの語義と語義の間に定義される。この図16の表においては、語義間関連度は0から1までの値をとるように正規化されている。そしてこの表においては一例として“コンピュータ”、“テレビ”、“VTR”の間の相互の語義間関連度が示されている。“コンピュータ”と“テレビ”の語義間関連度は0.55、“コンピュータ” と“VTR”の語義間関連度は0.25、“テレビ”と“VTR”の語義間関連度は0.60である。
【0132】
以上のように予め算出されていた語義間関連度を用いて図14のステップF62の処理が行われたら、続いて制御部11は、ステップF63として、カテゴリCiに対する文書の文書分類間関連度Rel(Ci)を
Rel(Ci)=m1P(Ci)+n1R(Ci)
として算出する。
ここで、係数m1、n1は定数で、それぞれの値の文書分類間関連度への寄与の度合いを表すものである。
制御部11は、ステップF61で算出した共通集合の数P(Ci)およびステップF62で算出した語義間関連度の総和R(Ci)を用いて、上記式の演算を行い、文書分類間関連度Rel(Ci)を算出する。
制御部11は、このように算出した文書分類間関連度Rel(Ci)をRAM14に記憶させる。
【0133】
なお、これらの係数m1、n1の値としては、たとえばm1=10、n1=1とすることができる。
また係数m1、n1の値は、統計的手法を使って推定することもできる。すなわち、制御部11は、複数の係数mおよびnの対について文書分類間関連度Rel(Ci)が与えられることで、上記係数を最適化により求めることができる。
【0134】
ステップF64においては、制御部11は、カテゴリCiに対する文書分類間関連度Rel(Ci)が最大で、その文書分類間関連度Rel(Ci)の値がある閾値を越えているとき、そのカテゴリCiに文書を分類する。
すなわち制御部11は、複数のカテゴリに対してそれぞれ文書分類間関連度を作成し、最大の文書分類間関連度が閣値を越えているときには、文書を最大の文書分類間関連度を有する上記カテゴリCiに分類する。これにより文書が自動的に所要のカテゴリに分類されることになる。
なお最大の文書分類間関連度が閾値を越えていないときには、文書の分類はおこなわない。
【0135】
以上のような図14の処理として、図13のステップF23の自動分類が行われたら、ステップF24、F25で、それに応じて分類モデルを更新し、登録することで、一連の自動分類が完了する。
即ち文書処理装置1に受信された文書データは、自動的に分類されたことになり、ユーザーは例えば図10の分類ウインドウ201において、所要の文書分類エリアにおいて、受信された文書データを確認できることになる。
【0136】
6.要約作成処理
続いて、文書データについての要約文を作成する処理について述べる。
上述したようにユーザーは、文書を選択して図11のような閲覧ウインドウ301を開くことにより、文書の本文を閲覧することができる。例えば上述した手動分類処理におけるステップF13の時点や、その他任意の時点において、図10で説明した分類ウインドウ201から、閲覧ウインドウ301を開くことができる。
【0137】
例えば分類ウインドウ201において或る文書を選択した状態でブラウザボタン202bをクリックすることで、図17のように、文書表示部303に選択された文書の本文が表示された閲覧ウインドウ301が開かれる。
なお文書表示部303に文書全文が表示できないときには、その文書の一部が表示される。
また要約文が作成されていない時点では、図17のように要約表示部304は空白とされる。
【0138】
この閲覧ウインドウ301において要約作成ボタン306aがクリックされると、文書表示部303に表示されている文書についての要約文が作成され、図18に示すように要約表示部304に表示される。
つまり制御部11は、ユーザーの要約作成操作に応じて、以下説明するような要約文作成処理を行い、作成後、それを表示する制御を行うものとなる。
文書から要約を作成する処理は、文書のタグ付けによる内部構造に基づいて実行される。
なお要約文は、要約表示部304のサイズに応じて生成される。そして本文表示部303と要約表示部304の面積は、ユーザーが仕切枠312を移動させることで変化させることができる。
つまり要約文は、要約作成が指示された時点での要約表示部304のサイズに応じたサイズ(文書長)で作成されることになる。
【0139】
要約作成ボタン306aがクリックされることにより開始される、制御部11の要約作成処理を図18に示す。
【0140】
図19のステップF81では、制御部11は活性拡散を行う。本例においては、活性拡散により得られた中心活性値を重要度として採用することにより、文書の要約を行うものである。すなわち、タグ付けによる内部構造を与えられた文書においては、活性拡散を行うことにより、各エレメントにタグ付けによる内部構造に応じた中心活性値を付与することができる。
ステップF81で行う活性拡散処理は、図7〜図9で説明したものと同様の処理となるが、上述したように活性拡散は、中心活性値の高いエレメントと関わりのあるエレメントにも高い中心活性値を与えるような処理である。すなわち、活性拡散は、照応(共参照)表現とその先行詞の間で中心活性値が等しくなり、それ以外では中心活性値が減衰するような中心活性値についての演算である。この中心活性値は、タグ付けによる内部構造に応じて決定されるので、タグ付けによる内部構造を考慮した文書の分析に利用することができる。
【0141】
次にステップF82では、制御部11は、表示部30に表示されている閲覧ウィンドウ301の要約表示部304のサイズ、具体的にはこの要約表示部304に表示可能な最大文字数をwsと設定する。また制御部11は、要約の文字列(要約文を保持する内部レジスタ)sを初期化して初期値s(0)=””と設定する。制御部11は、このように設定した、最大文字数wsおよび文字列sの初期値s(0)を、RAM14に記録する。
【0142】
ステップF83では、制御部11は、文の骨格の抽出処理をカウントするカウンタのカウント値iを「1」に設定する。
そしてステップF84で制御部11は、カウンタのカウント値iに基づいて、文章からi番目に平均中心活性値の高い文の骨格を抽出する。
平均中心活性値とは、一つの文を構成する各エレメントの中心活性値を平均したものである。
制御部11は、たとえばRAM14に記録した文字列s(i−1)を読み出し、この文字列s(i−1)に対して、抽出した文の骨格の文字列を加えて、S(i)とする。そして制御部11は、このようにして得た文字列s(i)をRAM14に記録する。
初回は、文字列s(i−1)は初期値s(0)であるので、今回抽出した文の骨格が文字列S(i)としてRAM14に記憶されることになる。
また以降においてステップF84の処理が行われる場合は、抽出された文の骨格が文字列S(i)に、それまでの文字列S(i)(つまりその時点では文字列S(i−1))に追加されていくものとなる。
また同時に、制御部11はこのステップF84において、上記文の骨格に含まれないエレメントの中心活性値順のリストL(i)を作成し、このリストL(i)をRAM14に記録する。
【0143】
すなわち、このステップF84においては、要約のアルゴリズムは、活性拡散の結果を用いて、平均中心活性値の大きい順に文を選択し、選択された文の骨格の抽出する。文の骨格は、文から抽出した必須要素により構成される。必須要素になりうるのは、エレメントの主辞(head)と、主語(subject)、目的語(object)、間接目的語(indirect object)、所有者(possessor)、原因(cause)、条件(condition)または比較(comparison)の関係属性を有する要素と、等位構造が必須要素のときにはそれに直接含まれるエレメントとが必須要素を構成するものである。そして、文の必須要素をつなげて文の骨格を生成し、要約に加える。
【0144】
ステップF85では制御部11は、文字列s(i)の長さが、閲覧ウィンドウ301の要約表示部104の最大文字数wsより大きいか否かを判断する。
このステップF85は、要約表示部304のサイズに応じた要約文を作成するための判断処理となる。
【0145】
制御部11は、文字列s(i)の長さが最大文字数wsに達していないときは、処理をステップF86に進める。
ステップF86では制御部11は、文書中で、(i+1)番目に平均中心活性値が高い文のエレメントの中心活性値と、上記ステップF84で作成したリストL(i)の最も中心活性値が高いエレメントの中心活性値を比較する。
つまり、上記ステップF84において要約として採用された文の次に平均中心活性値が高い文(即ち次に要約文に付加する候補となる文)と、ステップF84において要約として採用された文の中で骨格ではないとして要約からは排除されたエレメントの中心活性値を比較する。
【0146】
このステップF86の処理は、要約文としての文字列に次に加える部位を、その直前のステップF84で採用した文において骨格として採用されなかったものから選ぶか、或いは他の文から選ぶかを判断する処理となる。
【0147】
(i+1)番目に平均中心活性値が高い文におけるエレメントの中心活性値よりも、リストL(i)における最も高い中心活性値の方が、中心活性値が高い値であった場合は、要約文としての文字列に次に加える部位を、その直前のステップF84で採用した文において骨格として採用されなかったものから選ぶようにする。
このため制御部11の処理はステップF88に進み、リストL(i)における最も中心活性値が高いエレメントを、その時点で記憶されている文字列S(i)に加え、文字列SS(i)とする。
またこのとき、文字列SS(i)に加えたエレメントをリストL(i)から削除する。
そして、ステップF89において、文字列SS(i)が、最大文字数wsより大きいか否かを判断し、大きくなければステップF86に戻る。
【0148】
ステップF86において、(i+1)番目に平均中心活性値が高い文のエレメントとして、リストL(i)における最も高い中心活性値よりも中心活性値が高いエレメントがあった場合は、要約文としての文字列に次に加える部位を、その直前のステップF84で採用した文とは別の文から選ぶこととしてステップF87でカウント値iをインクリメントしてステップF84に戻ることになる。
つまりステップF86で、(i+1)番目に平均中心活性値が高い文とされた文について、ステップF84で骨格を抽出し、それを文字列S(i)に加えるようにする。
【0149】
以上のように、ステップF84又はステップF88で文の骨格となるエレメントやその他のエレメントとして、中心活性値の高いものを基準として文字列に加えていきながら、ステップF85又はステップF89で、文字列S(i)又はSS(i)を最大文字数wsと比較していくことで、最大文字数wsに近いが最大文字数wsを越えない文字列を作成していくことになる。
【0150】
例えばステップF85で文字列S(i)が最大文字数wsを越えた場合は、制御部11の処理はステップF90に進み、直前のステップF84で骨格を加える前の文字列S(i−1)を、要約文とする。
つまり、これはステップF84で文の骨格を加えたことにより、最大文字数wsを越えてしまったことになるため、その骨格を加える前の文字列S(i−1)が、最大文字数wsに近いが最大文字数wsを越えない文字列であると判断して、それを要約文とするものである。
【0151】
なお、このため初めてステップF84で文字列S(i)を生成した時点(i=1の時点)で、ステップF85で、文字列S(i)が最大文字数wsを越えた場合は、文字列S(i−1)は、ステップF82で設定した初期値としての文字列S(0)となるため、実質的に要約文は作成できなかったことになる。
これは、要約表示部304のサイズが小さすぎたことに起因するため、ユーザーは画面上で要約表示部304の面積を広げた上で、再度、要約作成ボタン306aをクリックして、図19の処理が開始されるようにすればよい。
【0152】
ステップF85で文字列S(i)が最大文字数wsを越えていない場合は、上述のように制御部11の処理はステップF86に進み、次に文字列に加える部分を判断することになる。
そして上記のようにステップF89に進んだ場合は、文字列SS(i)が最大文字数wsを越えたか否かを判別する。
ここで文字列SS(i)が最大文字数wsを越えた場合は、制御部11の処理はステップF91に進み、直前のステップF88で或るエレメントを加える前の文字列S(i)を、要約文とすることになる。
つまり、これはステップF88でエレメントを加えたことにより、最大文字数wsを越えてしまったことになるため、そのエレメントを加える前の文字列S(i)が、最大文字数wsに近いが最大文字数wsを越えない文字列であると判断して、それを要約文とするものである。
【0153】
以上のような処理により、その時点の要約表示部304のサイズに適合した要約文が作成されることになる。そしてその要約文の内容は、平均中心活性値の高い1又は複数の文の骨格、及び骨格以外の中心活性値の高いエレメントが用いられたものとなる。
そしてこの様に作成された要約文は、RAM14に記憶されるとともに、図18のように要約表示部304に表示される。
【0154】
なお、表示された要約文を見てユーザーがより詳しい要約文を見たいと思った場合、或いはより短い要約文を見たいと思った場合は、閲覧ウインドウ301の要約表示部304のサイズ(面積)を増減した上で、再度要約作成ボタン306aをクリックすればよい。
すると、上述した図19の処理により、その時点の要約表示部304のサイズに応じた文書長の要約書が作成され、表示されることになる。
【0155】
7.読み上げ処理
文書処理装置1は、以上のように、サーバ3等からタグ付けされた文書データを受信すると、その本文や要約文を表示してユーザーに提示できるが、さらに受信した文書を音声でユーザーに提示することもできる。
即ちCPU13により、ROM15やHDD34に記録されている電子文書処理プログラムのうちの音声読み上げプログラムを起動することで、図20に示すような一連の工程を経ることによって、文書の読み上げを行うことができる。
まずここでは、簡略化した各工程の説明を行い、その後、具体的な文書例を用いて、各工程の説明を詳細に行う。
【0156】
制御部11の処理として、図20のステップF101は、図5のステップF11(又は図13のステップF21)と同様の文書受信/記憶処理である。上述ののように、受信した文書データ(タグファイル)については手動又は自動での分類処理が行われるが、それと同様に、受信した文書について読み上げ処理も実行可能という意味で図20にステップF101を記したものである。ここでは特に処理手順として、分類処理と読み上げ処理の順序その他を規定するものではない。
【0157】
なお、文書読み上げ処理の対象となる文書(受信文書)には、後述するように、音声合成を行うために必要なタグが付与されていることが必要である。
図1で説明したようにタグが付与された文書データ(タグファイル)は、オーサリング装置2において生成されるものである。従って、オーサリング装置2では、音声合成を行うために必要なタグも付与する。
但し、文書処理装置1は、タグ付けされた文章を受信したうえで、その文書に音声合成を行うために必要なタグを新たに付与して文書を作成することもできる。つまり音声合成を行うために必要なタグについては、オーサリング装置2側で必ずしも付与する必要はない。
【0158】
文書処理装置1の文書読み上げ処理としては続いてステップF102において、CPU13の制御のもとに、タグファイルに基づいて読み上げ用ファイルを生成する。この読み上げ用ファイルは、後述するように、タグファイル中のタグから、読み上げのための属性情報を導出し、この属性情報を埋め込むことにより生成される。
【0159】
続いてステップF103において文書処理装置1は、CPU13の制御のもとに、読み上げ用ファイルを用いて、音声合成エンジンに適した処理を行う。
なお、この音声合成エンジンは、ハードウェアで構成してもよいし、ソフトウェアで実現するようにしてもよい。音声合成エンジンをソフトウェアで実現する場合には、そのアプリケーションプログラムは、ROM15やHDD34等に予め記憶されている。
【0160】
続いて文書処理装置1はステップF104において、ユーザが後述するユーザインターフェースを用いて行う操作に応じて処理を行う。
文書処理装置1は、このような処理を行うことによって、与えられた文書を読み上げることができる。これらの各工程について、以下詳細に説明する。
【0161】
まず、ステップF101におけるタグ付けされた文書の受信又は作成について説明する。
文書処理装置1は、例えば通信部21から文書(音声合成を行うために必要なタグが既に付与されている文書)を受信する。
または、文書処理装置1は、タグ付けされた文書を受信し、その文書に音声合成を行うために必要なタグを新たに付与して文書を作成する。
【0162】
説明上の例として、以下のような、日本語、及び英語の文書にタグ付けがなされたタグファイルが、受信又は作成されものとする。
【0163】
まずタグファイルの元となる日本語文書は、次のような文書とする。
「[素敵にエイジング]/8ガン転移、抑えられる!?
がんはこの十数年、わが国の死因第一位を占めている。そめ死亡率は年齢が進むとともに増加傾向にある。高齢者の健康を考えるとき、がんの問題を避けて通れない。
がんを特徴づけるのは、細胞増殖と転移である。人間の細胞には、自動車でいえばアクセルに当たり、がんをどんどん増殖する「がん遺伝子」と、ブレーキ役の「がん抑制遺伝子」がある。
双方のバランスが取れていれば問題はない。正常な調節機能が失われ、細胞内でブレーキが利かない変異が起こると、がんの増殖が始まる。高齢者の場合、長い年月の間にこの変異が蓄積し、がん化の条件を備えた細胞の割合が増え、がん多発につながるわけだ。
ところで、もう一つの特徴、転移という性質がなければ、がんはそれほど恐れる必要はない。切除するだけで、完治が可能になるからである。転移を抑制することの重要性がここにある。
この転移、がん細胞が増えるだけでは発生しない。がん細胞が細胞と細胞の間にある蛋白(たんぱく)質などを溶かし、自分の進む道をつくって、血管やリンパ管に入り込む。循環しながら新たな“住み家”を探して潜り込む、といった複雑な動きをすることが、近年解明されつつある。」
【0164】
タグファイルの元となる英語の文書の例は次のようなものとする
「During its centennial year, The ABC Journal will report events of the past century that stand as milestones of American business history. THREE COMPUTERS THAT CHANGED the face of personal computing were Iaunched in 1977. That year the PC A II, PC B and PC C came to market. The computers were crude by today's standerds. PC A ll owners, for example,had to use their television sets as screens and stored data on audiocassettes.」
【0165】
文書処理装置1は、このような日本語又は英語の文書についてタグが付された文書を受信すると、分類処理や、図17、図18等で説明したようにその本文を表示したり、要約文を作成して表示することができる。
【0166】
ここで上記の日本語又は英語の文書は、それそれ、図22又は図23に示すようなタグファイルとして構成されている。
日本語文書のタグファイルとしては、図22(a)に見出しの部分である「〔素敵にエイジング〕/8ガン転移、抑えられる!?」を抜粋したものを示し、図22(b)に、文書中の最後の段落である「この転移、がん細胞が・・・・近年解明されつつある。」を抜粋したものを示している。残りの段落については省略してある。
なお、実際のタグファイルは、見出し部分から最後の段落までが1つのファイルとして構成されている。
【0167】
図22(a)に示す見出し部分において、<見出し>というタグは、この部分が見出しであることを示している。
この図22(a)(b)に示すタグファイルは基本的には、図3を用いて文書データ構造を説明した際に用いたタグファイル例と同様にタグが付されているものであり、上述した各タグについての細かい説明は省略するが、所要各所に、音声合成を行うために必要なタグが付与されているものである。
【0168】
音声合成を行うために必要なタグとしては、例えばまず、図中「例1」の部分に示すように、「蛋白(たんぱく)」のように元の文書に読み仮名を示す情報が与えられているときに付与されるものがある。すなわち、この場合では、「たんぱくたんぱく」と重複して読み上げてしまうことを防ぐために、発音=“null”という読み属性情報が記述されており、「(たんぱく)」の部分読み上げを禁止するタグが付与されている。
また、音声合成を行うために必要なタグとしては、図中「例2」「例3」に示すように、「リンパ管」のような専門用語や「住み家」のように、誤った読み上げを行う可能性のある難訓部分に付与されるものがある。すなわち、この場合では、「りんぱくだ」や「すみいえ」と読み上げてしまうことを防ぐために、それぞれ、発音=“りんぱかん”、発音=“すみか”という読み仮名を示す読み属性情報が記述されている。
【0169】
一方、図23に示すタグファイルにおける音声合成を行うために必要なタグとしては、図中「例4」として示す部分のように、「II」というローマ数字に対して、発音=“two”という読み属性情報が記述されている。これは、「II」を「トゥ(two)」と読み上げさせたい場合に、「セカンド(second)」と読み上げてしまうことを防ぐために記述されているものである。
【0170】
また、例えば文書内に引用文が含まれている場合、このようなタグファイルには、図示しないが、その文が引用文であることを示すタグが付与される。さらに、タグファイルには、例えば文書内に疑問文がある場合、図示しないが、その文が疑問文であることを示すタグが付与される。
【0171】
文書処理装置1は、先に図20に示したステップF101において、例えば以上の例のように、音声合成を行うために必要なタグが付与された文書を受信又は作成するものとなる。
【0172】
つぎに、図20のステップF102における読み上げ用ファイルの生成について説明する。
文書処理装置1は、タグファイル中のタグから、読み上げめための属性情報を導出し、この属性情報を埋め込むことによって読み上げ用ファイルを生成する。
具体的には、文書処理装置1は、文書の段落、文、句の先頭を示すタグを見つけ出し、これらのタグに対応して読み上げのための属性情報を埋め込む。また文書処理装置は、文書の要約文を作成した場合には、その要約文に含まれる部分の先頭を文書から見つけ出し、読み上げの際に音量を増大させる属性情報を埋め込み、要約文に含まれる部分であることを強調することなどもできる。
【0173】
文書処理装置1は、図22又は図23に示したタグファイルから図24又は図25に示すような読み上げ用ファイルを生成する。なお、図24(a)(b)は図22(a)(b)に示した部分に対応するものである。実際の読み上げ用ファイルは、上述した見出し部分から最後の段落までが1つのファイルとして構成されていることは勿論である。
【0174】
図24に示す読み上げ用ファイルには、文書の先頭に対応してCom=Lang***という属性情報が埋め込まれている。この属性情報は、文書を記述している言語を示す。ここでは、Com=Lang=JPNという属性情報であり、文書を記述している言語が日本語であることを示している。文書処理装置においては、この属性情報を参照することで、文書毎に言語に応じた適切な音声合成エンジンを選択することができる。
【0175】
また、この読み上げ用ファイルには各所に、Com=begin_p、Com=begin_s、Com=begin_phという属性情報が埋め込まれている。これらの属性情報は、それぞれ、文書の段落、文及び句の先頭を示す。文書処理装置1は、上述したタグファイル中のタグに基づいて、これらの段落、文及び句の先頭を識別する。
なお、読み上げ用ファイルにおいて、例えば上述したタグファイル中の<形容動詞句><名詞句>のように、同じレベルの統語構造を表すタグが連続して表れる部分に対しては、それぞれに対応する数のCom=begin_phが埋め込まれずに、まとめられて1つのCom=begin_phが埋め込まれる。
【0176】
さらに、読み上げ用ファイルには、Com=begin_p、Com=begin_s、及びCom=begin_phに対応して、それぞれ、Pau=500、Pau=100及びPau=50という属性情報が埋め込まれている。これらの属性情報は、それぞれ、読み上げの際に500ミリ秒、100ミリ秒及び50ミリ秒の休止期間を設けることを示す。
すなわち文書処理装置1が、文章の段落、文及び句の先頭こおいて、それぞれ、500ミリ秒、100ミリ秒及び50ミリ秒の休止期間を設けて文書を音声合成エンジンにより読み上げるようにするための情報である。
なお、これらの属性情報は、Com=begin_p、Com=begin_s及びCom=begin_phに対応して埋め込まれる。そのため、例えばタグファイル中の<副詞句><名詞句>のように、同じレベルの統語構造を表すタグが連続して表れる部分は、1つの句として捉えられ、それぞれに対応する数のPau=50が埋め込まれずに、まとめられて1つのPau=50が埋め込まれる。
また、例えばタグファイル中の<段落><文><名詞句>のように、異なるレベルの統語構造を表すタグが連続して表れる部分については、それぞれに対応するPau=***が埋め込まれる。そのため文書処理装置1は、このような部分を読み上げる際には、例えば文書の段落、文及び句のそれぞれの休止期間を加算して得られる650ミリ秒の休止期間を設けて読み上げるようにする。
このように、文書処理装置1は、段落、文及び句に対応した休止期間を設けることで、段落、文及び句の切れ目を考慮した違和感のない読み上げを行うことができる。なお、この休止期間は、文書の段落、文及び句の先頭において、それぞれ、600ミリ秒、100ミリ秒及び50ミリ秒である必要はなく、適宜変更することができる。
【0177】
さらにまた、読み上げ用ファイルにおいては、タグファイル中で記述されている発音=“null”という読み属性情報に対応して、「(たんぱく)」が除かれているとともに、発音=“りんぱかん”、発音=“すみか”という読み属性情報に対応して、「リンパ管」、「住み家」が、それぞれ、「りんぱかん」、「すみか」に置換されている。文書処理装置1は、このような読み属性情報を埋め込むことで、音声合成エンジンが参照する辞書の不備による読み誤りをすることがないようにしている。
【0178】
また、読み上げ用ファイルには、文書内に含まれた引用文であることを示すタグに基づいて、この引用文のみを別の音声合成エンジンを用いるように指定するための属性情報が埋め込まれてもよい。
さらに、読み上げ用ファイルには、疑問文であることを示すタグに基づいて、その文の語尾のイントネーションを上げるための属性情報が埋め込まれるようにしてもよい。
さらにまた、読み上げ用ファイルには、必要に応じて、いわゆる「である調」の文体を「ですます調」の文体に変換するための属性情報を埋め込むこともできる。なお、この場合、文書処理装置1は、このような属性情報を読み上げ用ファイルに埋め込むのではなく、「である調」の文体を「ですます調」の文体に変換して音声読み上げ用ファイルを生成するようにしてもよい。
【0179】
一方、図25に示す読み上げ用ファイルには、文書の先頭に対応してCom=Lang=ENGという属性情報が埋め込まれており、文書を記述している言語が英語であることを示している。
また、読み上げ用ファイルには、Com=Vol=***という属性情報が埋め込まれている。この属性情報は、読み上げの時の音量を示す。例えば、Com=Vol=0は、文書処理装置のデフォルトの音量で読み上げることを示している。また、Com=Vol=80は、デフォルトの音量を80%増量した音量で読み上げることを示している。任意の、Com=Vol=***は、次のCom=Vol=***まで有効である。
さらに、読み上げ用ファイルにおいては、タグファイル中で記述されている発音=“two”という読み属性情報に対応して、「II」が「two」に置換されている。
【0180】
文書処理装置1は、図21に示す一連の工程を経ることによって、このような読み上げ用ファイルを生成する。
まず文書処理装置1は、ステップF201において、CPU13によって、受信又は作成したタグファイルを解析する。ここで文書処理装置1は、文書を記述している言語を判別するとともに、文書の段落、文及び句の先頭や、読み属性情報をタグに基づいて探し出す。
続いて文書処理装置1は、ステップF202において、CPU13によって、文書を記述している言語に応じて文書の先頭にCom=Lang=***という属性情報を埋め込む。
【0181】
次に文書処理装置1は、ステップF203において、CPU13によって、文書の段落、文及び句の先頭を読み上げ用ファイルにおける属性情報に置換する。すなわち文書処理装置1は、タグファイル中の<段落>、<文>及び<***句>を、それぞれ、Com=begin_p、Com=begin_s及びCom=begin_phに置換する。
【0182】
さらに文書処理装置1は、ステップF204において、CPU13によって、同じレベルの統語構造が表れて同じCom=begin_***が重複しているものを、1つのCom=begin_***にまとめる。
続いて文書処理装置1は、ステップF205において、CPU13によって、Com=begin_***に対応してPau=***を埋め込む。すなわち文書処理装置1は、Com=begin_pの前にPau=500を埋め込み、Com=begin_sの前にPau=100を埋め込み、Com=begin_phの前にPau=50を埋め込む。
そして文書処理装置1は、ステップF206において、CPU13によって、読み属性情報に基づいて、正しい読みに置換する。すなわち文書処理装置1は、発音=“null”という読み属性情報に基づいて、「(たんぱく)」を除去するとともに、発音=“りんぱかん”、発音=“すみか”という読み属性情報に基づいて、「リンパ管」、「住み家」を、それぞれ、「りんぱかん」、「すみか」に置換する。
【0183】
文書処理装置1は、先に図20に示したステップF102において、この図21に示す処理を行うことによって、読み上げ用ファイルを自動的に生成する。文書処理装置1は、生成した読み上げ用ファイルをRAM14に記憶させる。
【0184】
つぎに、図20のステップF103における読み上げ用ファイルを用いた処理について説明する。
文書処理装置1は、読み上げ用ファイルを用いて、ROM15やHDD34等に予め記憶されている音声合成エンジンに適した処理をCPU13の制御のもとに行う。
具体的には、文書処理装置1は、読み上げ用ファイルに埋め込まれているCom=Lang=***という属性情報に基づいて、使用する音声合成エンジンを選択する。
音声合成エンジンは、言語や男声/女声等の種類に応じて識別子が付されており、その情報が例えば初期設定ファイルとしてHDD34に記録されている。文書処理装置1は、初期設定ファイルを参照し、言語に対応した識別子の音声合成エンジンを選択する。 .
【0185】
また文書処理装置1は、読み上げ用ファイルに埋め込まれているCom=begin_***を音声合成エンジンに適した形式に変換する。
例えば文書処理装置1は、Com=begin_phをMark=10000のように10000番台の番号でマーク付けする。またCom=begin_sをMark=1000のように1000番台の番号でマーク付けし、Com=begin_pをMark=100のように100番台の番号でマーク付けする。
これは、<句>、<文>、<段落>の先頭が、それぞれ10000番台、1000番台、100番台の番号で示されることを意味し、このマークによって<句>、<文>、<段落>の先頭が識別できるようになる。
さらに、読み上げ用ファイルにおいては、音量の属性情報がVoll=***のようにデフォルトの音量の百分率で表されていることから、文書処理装置1は、この属性情報に基づいて、百分率の情報を絶対値の情報に変換して求める。
【0186】
文書処理装置1は、先に図20に示したステップF103において、このような読み上げ用ファイルを用いた処理を行うことによって、読み上げ用ファイルを音声合成エンジンが文書を読み上げることが可能な形式に変換するものとなる。
【0187】
つぎに、図20のステップF104におけるユーザインターフェースを用いた操作について説明する。
文書処理装置1は、ユーザが例えば入力部20のマウス等を操作して先に図17又は図18に示した読み上げボタン306cをクリックすることによって、音声合成エンジンを起動する。
そして文書処理装置1は、図25に示すようなユーザインターフェース用の読み上げウインドウ401を表示部30に表示する。
【0188】
この読み上げウインドウ401は、図示するように、文書を読み上げさせるための再生ボタン420と、読み上げを停止させるための停止ボタン421と、読み上げを一時停止させるための一時停止ボタン422とを有する。
また、この読み上げウインドウ401は、文単位で頭出し、早戻し及び早送りさせるための頭出しボタン411、早戻しボタン412及び早送りボタン413と、段落単位で頭出し、早戻し及び早送りさせるための頭出しボタン414、早戻しボタン415及び早送りボタン416と、句単位で頭出し、早戻し及び早送りさせるための頭出しボタン417、早戻しボタン418及び早送りボタン419とを有する。
【0189】
さらに、読み上げウインドウ401は、読み上げる対象を全文とするか、上述したようにして作成された要約文とするかを選択するための選択スイッチ423,424を有する。
また、読み上げ時に画像を表示する画像表示エリア403が設定され、読み上げている人のイメージを表示したり、テロップ表示エリア402が設けられ、読み上げ音声に対応して文字がテロップ表示できるようにされている。
【0190】
なお、ここでは図示しないが、例えば、音声を増減させるためのボタンや読み上げの速さを増減させるためのボタン、男声/女声等の声を変化させるためのボタン等を有していてもよい。
【0191】
文書処理装置1は、ユーザがこれらの各種ボタン/スイッチを例えば入力部20のマウス等を操作してクリック/選択することに応じて、音声合成エンジンによる読み上げ動作を行う。
例えば、文書処理装置1は、ユーザが再生ボタン420をクリックすることによって、文書の読み上げを開始する。具体的には制御部11は音声合成処理により生成した音声信号を音声出力部33に供給し、音声として出力する。
また文書処理装置1は、停止ボタン421、一時停止ボタン422のクリックにおいて、読み上げ処理の停止や一時停止を行う。
【0192】
また、読み上げの途中でユーザが頭出しボタン411を押すことによって、現在読み上げている文の先頭にジャンプして再び読み上げる。頭出しボタン414、417についても同様に、それぞれ現在読み上げている段落や句の先頭にジャンプして再び読み上げを行う。
制御部11は、この頭出しボタン411、414、417の操作に関しては、上記したマーク付により、ジャンプ先を認識するものとなる。即ち、文に関する頭出しボタン411が操作された際には、制御部11は、現在読み上げている文の途中位置から文を遡っていき、1000番台のマークをサーチする。そして1000番台のマークが検出されたら、そこから読み上げを再開するものとなる。段落や句の場合は、それぞれ100番台、10000番台のマークを探して読み上げを再開するものとなる。
この様な処理によって、例えば文書中でユーザが所望の部分を繰り返し再生させたいといった要求に応えることができる。
【0193】
文書処理装置1は、図20のステップF104において、ユーザがこのような読み上げウインドウ401でのユーザインターフェースを用いた操作を行うことに応じて、音声合成エンジンにより文書を読み上げる。
このようにして文書処理装置1は、所望の文書を音声合成エンジンにより違和感なく読み上げることができる。
【0194】
ところで読み上げる対象の文書としては文書データの本文でもよいし、要約文であってもよい。本文か要約文かは、選択スイッチ423,424のクリックにより選択されるが、いずれにしても、本文又は要約文としてのタグファイルについて、図20のステップF102,F103の処理が行われることで、音声合成エンジンによる文書読み上げが可能となる。
【0195】
なお本例では、受信又は作成したタグファイルから読み上げ用ファイルを生成するものとしたが、このような読み上げ用ファイルを生成せずに、タグファイルに基づいて直接読み上げを行うようにしてもよい。
この場合、文書処理装置1は、タグファイルを受信又は作成した後、音声合成エンジンを用い、タグファイルに付与されている段落、文及び句を示すタグに基づいて、段落、文及び句の先頭に所定の休止期間を設けて読み上げる。このようにすることによって、文書処理装置1は、音声読み上げ用ファイルを生成することなく、タグファイルに基づいて直接読み上げることができる。
【0196】
8.オーサリング装置の構成
以上のように、文書処理装置1では、供給された文書データに対して、分類モデルへの分類処理、本文又は要約文の表示処理、ウインドウサイズに応じた要約作成処理、本文又は要約文の読み上げ処理などが実行可能とされ、ユーザーは文書データとして提供された情報を所望の手法で見聞きすることができる。
上述の説明からわかるように、文書処理装置1でこれらの処理を行うには、文書データがタグファイルとして形成されていることが必要であり、このため図1に示した文書処理システムにおいて、オーサリング装置2によって原文であるプレーンテキストに対するオーサリング処理が施されて、タグファイルとしての文書データが形成されるものである。
【0197】
以下、オーサリング装置2の構成及びオーサリング処理動作について説明していく。
図27にオーサリング装置2の構成を示す。
【0198】
オーサリング装置2は、図27に示すように、制御部72およびインターフェース76を備える本体71と、ユーザ、すなわちこのオーサリング装置2に関して操作を行うオーサリング作業者からの入力を受けて本体71に送る入力部78と、外部との信号の送受信を行う通信部77と、本体71からの出力を表示する表示部79と、記録媒体32に対して情報を記録/再生する記録/再生部80と、HDD(ハードディスクドライブ)82を有している。
【0199】
本体71は、制御部72およびインターフェース76を有し、このオーサリング装置2の主要な部分を構成している。
制御部72は、このオーサリング装置2における処理を実行するCPU73と、揮発性のメモリであるRAM74と、不揮発性のメモリであるROM75とを有している。制御部72により実行される処理とは、プレーンテキストに対するオーサリング処理、外部機器からのプレーンテキストの入力のための各種処理、オーサリングを行った文書データの外部機器への出力処理、及びこれらに伴う表示や操作入力のユーザーインターフェース処理、課金処理等となる。
すなわち制御部71は、図1で説明したオーサリング機能、課金機能、受信/送信機能、オーサリング制御機能を実現するための各種処理を行う。なお、プレーンテキストとしてのデータ作成処理を実行可能としてもよい。
CPU73は、たとえばROM75に記憶された各種プログラムにしたがってこれらの処理を実行する。また必要な場合にはデータを一時的にRAM74に格納して、プログラムを実行するための制御をおこなう。
【0200】
この制御部72の制御により実現されるオーサリング処理動作については後述するが、オーサリング機能の動作のために必要なオーサリングプログラムやオーサリング制御機能のための制御プログラムなどは、ROM75やHDD82に記憶されている。
或いは上述したように、外部で用意されるオーサリングプログラムや制御プログラムが記録媒体32や通信回線6によってオーサリング装置2に提供され、ROM75やHDD82に記憶される。もしくは記録媒体32や通信回線6で提供されるオーサリングプログラムが直接RAM74に展開され、起動されるようにもできる。
【0201】
インターフェース76は、制御部72、入力部78、通信部77、表示部79、記録/再生部80、HDD82に接続される。
そしてインターフェース76は、制御部72の制御の下に、入力部78からのデータの入力、通信部77との間のデータの入出力、表示部79へのデータの出力、記録/再生部80に対するデータの入出力、HDD82に対するデータの入出力の各動作をを行う。具体的には制御部72と上記各部の間でのデータの入出力のタイミングを調整したり、データの形式を変換することなどを行う。
【0202】
入力部78は、このオーサリング装置2に対するオーサリング作業者の入力を受ける部分である。この入力部78は、例えばキーボードやマウスにより構成される。オーサリング作業者は、この入力部78を用い、キーボードによリオーサリング装置処理のための文字を入力したり、マウスにより表示部79に表示されている操作ボタンやアイコンのクリック、或いは文書エレメントの選択などができる。
【0203】
通信部77は、このオーサリング装置2に外部から通信回線6を介して送信される信号を受信したり、通信回線6に信号を送信する部位である。
この通信部77は、例えば図1に示した文書プロバイダ4から送信された1又は複数のプレーンテキスト(タグが付されていない文書)や、上記のようにオーサリングプログラム、制御プログラム等を受信し、受信したデータを本体71に送る。
もちろん通信部77から通信回線6を介して外部装置にデータを送信することも可能である。具体的には、オーサリング処理を行って生成したタグファイルをサーバ3に送信することなどが行われる。
【0204】
表示部79は、このオーサリング装置2におけるオーサリング作業時の出力としての文字や画像情報を表示する部位である。この表示部79は、たとえば陰極線管や液晶表示装置などにより構成され、たとえば単数または複数のウィンドウを表示し、このウィンドウ上に文字、図形等を表示する。
【0205】
記録/再生部80は、例えばフロッピーディスクや光ディスクなどの記録媒体32に対してデータの記録/再生をおこなう。もちろん光磁気ディスク、メモリカード、磁気テープなど、他の種の可搬性メディアも記録媒体32の例として適用できるものであり、記録/再生部80は、メディアに応じた記録再生装置(ディスクドライブ、カードドライブなど)であればよい。
【0206】
記録媒体32が、オーサリングプログラムや制御プログラムが記録されているものである場合は、記録/再生部80は、その記録媒体32からオーサリングプログラムや制御プログラムを読み出して制御部72に供給することができる。
また記録媒体32にプレーンテキストが記録されていれば、記録/再生部80でそれを読み出して制御部72に供給することができる。即ちオーサリング装置2にとって、通信部77によるプレーンテキストの受信とは別のプレーンテキストの入力態様となる。
さらに、制御部72は当該オーサリング装置2でオーサリング処理した文書データを記録/再生部80において記録媒体32に記録させ、例えばサーバ3に提供することなどもできる。
【0207】
HDD82は、オーサリング装置2における大容量の記録領域を提供する。HDD82は、制御部72の制御に基づいて情報の記録/再生を行う。
このHDD82は、制御部72で実行される各種処理のためのプログラム、例えばオーサリングプログラムなどの格納に用いられたり、例えば当該オーサリング装置2に取り込まれたプレーンテキストや、オーサリング処理により生成したタグファイル等を格納しておく部位として用いることなどができる。
【0208】
9.オーサリング処理
このようなオーサリング装置2で実行されるオーサリング処理について図28のフローチャートで説明する。このフローチャートは、オーサリングプログラムに基づいて制御部72が実行する処理を示すものである。
また図29〜図43は、オーサリング処理時の表示部79で表示されるオーサリングウインドウ601の例であるが、これらの図も参照しながら説明する。
【0209】
制御部72においてオーサリングプログラムが起動されると、制御部72により図28のオーサリング処理が開始される。
制御部71は、まずステップF301でオーサリング処理対象となる或るプレーンテキストを選択する。
例えば文書プロバイダ4から送信されたプレーンテキストとして、RAM74、HDD82、記録媒体32などに格納されている1又は複数のプレーンテキストを表示部79に一覧表示し、オーサリング作業者に選択させる。制御部72は、オーサリング作業者の選択操作に応じてオーサリング処理対象としての1つのプレーンテキストを選択決定する。
そして制御部72は、決定したプレーンテキストを表示部79に表示する。
例えば図29の表示例のように、オーサリングウインドウ601を表示部79上に開く。
このオーサリングウインドウ601には、例えば第1の文書表示部602、第2の文書表示部603、ファイル名604、及び各種操作ボタン605等を表示する。
【0210】
オーサリングウインドウ601では、ファイル名604として選択されたプレーンテキストのファイル名が表示される。そしてプレーンテキストが文書表示部602に表示される。
なお、文書表示部602,603の各サイズは、仕切枠を移動させることによりオーサリング作業者が任意に変更可能であり、またオーサリング処理の進行に伴って自動的に変更されることもある。
【0211】
このようにプレーンテキストが表示された状態で、オーサリング作業者がアナライズボタン605aをクリックすることで、制御部72の処理はステップF302以降に進む。
まずステップF302で制御部72は、プレーンテキストに対して形態素解析を行う。
即ちプレーンテキストとしての文章を、形態素となる文節(又は語)毎に区切っていくとともに、各形態素についての品詞を判別する。但し、実際には自動解析によって必ずしも正確な語の区切や品詞が設定できるものではないため、自動的に確定できない区切や品詞は、それらの候補を設定することになる。
そしてそのように形態素解析した結果をオーサリングウインドウ601において文書表示部602に、例えば図30のように表示する。
【0212】
即ち、解析の結果としての形態素の区切を文書中でスラッシュ「/」で表示するとともに、例えば確定部分、未確定部分をスラッシュ「/」の色分けで表現する。
なお、図30〜図43としての図面上では、色の違いを表現できないため、「/」は通常色(文字と同じ色)で表示されるスラッシュとしており、「●」は、実際には例えば赤色のスラッシュとして表示される部分であるとする(以下、スラッシュ「/」、赤スラッシュ「●」と呼ぶ)。
また、後の説明においてスラッシュが緑色で表示される部分が発生するが、図面上、その部分は「◆」として表記し、また説明上、緑スラッシュ「◆」と呼ぶこととする。
【0213】
図30のように文書表示部602においては、解析の結果、形態素として区切及び品詞が確定された部分はスラッシュ「/」で示される。
そして複数の候補が考えられる部分は、赤スラッシュ「●」及びアンダーラインにより、その部分が示される。
また赤スラッシュ「●」のみの部分は、品詞が未定義とされている部分を示している。
【0214】
オーサリング作業者はこのような解析結果を見て、入力部78のマウスやキーボードを用いて、未確定部分を確定させていく操作を行う。また文の修正等も行うことができる。
制御部72は、ステップF304の処理として、オーサリング作業者の入力に応じた処理、即ち候補の中からの1つの候補の確定や文の修正に対応した処理を行い、その都度ステップF302で、結果表示を行う。また文が追加された場合など必要に応じて再度の形態素解析も行う。
【0215】
例えば図31は、赤スラッシュ「●」及びアンダーラインにより未確定部分とされている或る形態素「素敵」を指定した場合の表示例である。即ち制御部72はステップF304の処理として、オーサリング作業者が「素敵」の部分をクリックすることに応じて、「素敵」の部分にかかる形態素及び品詞の候補を表示している状態である。なお、図面上では、選択されている部分を反転表示としているが、実際は赤などの色付表示で選択部分を提示するようにしてもよい。他の図でも同様である。
オーサリング作業者はこのように候補が表示されることに応じて、最も適切であると思われる候補を選択(クリック)する。これにより、未確定部分が確定される。
例えば図31のように2つの候補が表示されているときに、オーサリング作業者が、2つ目の候補(「すてきに 素敵だ 形容詞・・・・」)を選択することで、未確定部分にかかる形態素の区切及び品詞が確定され、またこれによって表示は図32の状態となる。即ち「素敵に」という形態素が確定部分としてスラッシュ「/」で示される状態となる。
【0216】
また図33は、赤スラッシュ「●」のみの部分として、品詞が未定義とされている形態素をオーサリング作業者が指定した場合の表示例である。即ち制御部72はステップF304の処理として、オーサリング作業者が「エイジング」の部分をクリックすることに応じて、「エイジング」の部分が未定義語であることをオーサリング作業者に提示している状態である。
オーサリング作業者はこのような未定義語を定義する作業を行う。例えばオーサリング作業者が再度この部分をクリックすることに応じて、制御部72は図34に示すような編集ウインドウ620を開き、オーサリング作業者に入力を求める。
この編集ウインドウ620では、タグ名表示621、タグ属性表示622、OKボタン623、キャンセルボタン624などが表示される。
未定義の状態では、図示するようにタグ名表示621として「seg」と示される。これは未定義のエレメントを意味する。そしてタグ属性表示622として未定義語とされているエレメント「エイジング」が提示される。
これに対してオーサリング作業者は定義づけを行う。例えばタグ名表示621のプルダウンメニューから「n」を選択した状態を図35に示す。「n」とは「名詞」の意味である。
この状態でオーサリング作業者がOKボタン623をクリックすると、制御部72は「エイジング」というエレメントが「名詞」と設定されたとして処理を行う。
表示上では、タグ名が変更されたことを提示するために、スラッシュが緑スラッシュ「◆」となる。
【0217】
例えば以上の例のように、オーサリング作業者は解析結果として表示された形態素について、赤スラッシュ「●」で示される部分について、未確定の区切や品詞の確定、未定義語の定義付けを行っていく。また、オーサリング作業者が文の追加や変更を行うことで、制御部72は再度形態素解析を行い、解析状況をスラッシュ「/」、赤スラッシュ「●」、アンダーラインで表示する。その時点で赤スラッシュ「●」が存在していれば、オーサリング作業者はその部分について未確定の区切や品詞の確定、未定義語の定義付けを行っていく。
【0218】
つまりオーサリング作業者は、文書表示部602に表示されている文書において赤スラッシュ「●」の部分がなくなるように、作業を進行させていく。
図37は全ての形態素の区切及び品詞が確定され、また全ての未定義語が定義付けされた状態を示す。
この時点でステップF303で形態素についての処理の完了と判断される。即ち、この時点では、図3で説明した文書データ構造における最下層となっている「語」としての区切及び品詞が全て確定された状態である。換言すれば、「語」単位でのタグが付与された状態である。
【0219】
続いて制御部72は、ステップF305に進んで、形態素単位のタグが確定したデータから、より上位の文書構造のタグを自動生成する処理を行う。
即ち、形態素及びその品詞に基づいて、まず図3における語→サブセンテンシャルセグメント→文までの構造を示すタグを付与する。
そしてその結果を図38のように文書表示部602に表示する。
ここでは、スラッシュ、アンダーライン、タグ名によって1つのタグが表現される状態としている。
またここでは、赤スラッシュ「●」は、係り先の候補が複数存在する部分を提示するものとなっている。
【0220】
また表示されているタグ名としては、例えば次のようなものがある。
n:名詞、np:名詞句
v:動詞、vp:動詞句
aj:形容詞、ajp:形容詞句
ad:副詞、adp:副詞句
ij:間投詞、感動詞
time:時刻、timep:時刻句
name:固有名詞、namep:固有名詞句
persname:人名、persnamep:人名句
orgname:組織名、orgnamep:組織名句
geogname:地名、geognamep:地名句
num:数値、nump:数値句
【0221】
なお、これらはタグ名としての一例であり、他にも多様なタグが考えられる。またタグ名及び各タグの定義も一例であって、これに限られるものではない。
【0222】
図38のように文書表示部602においては、スラッシュ「/」、赤スラッシュ「●」、アンダーライン、タグ名により、上位の文書構造、及び係り受け関係が未確定な部分が提示される。
【0223】
オーサリング作業者はこのような上位の文書構造のタグ生成結果を見て、入力部78のマウスやキーボードを用いて、未確定部分を確定させていく操作を行う。また文の修正等も行うことができる。
制御部72は、ステップF307の処理として、オーサリング作業者の入力に応じた処理、即ち候補の中からの1つの候補の確定や文の修正に対応した処理を行い、その都度ステップF302で、結果表示を行う。
また文が追加された場合など必要に応じて、破線で示すようにステップF302に戻って再度の形態素解析を行う場合もある。
【0224】
例えば図39は、オーサリング作業者が、赤スラッシュ「●」及びアンダーラインにより係り先が未確定(候補が複数ある)と提示されている部分である「正常な」を指定した場合の表示例である。即ち制御部72はステップF307の処理として、オーサリング作業者が「正常な」の部分をクリックすることに応じて、「正常な」の部分の係り先の候補を表示している状態である。
即ち「正常な」は、次の「調節」にかかる形容詞であるのか、或いはさらに次の「機能」にかかる形容詞であるのかが未確定であるとして、係り先候補である「調整」「機能」を表示している。
【0225】
オーサリング作業者はこのように候補が表示されることに応じて、最も適切であると思われる候補を選択(クリック)する。これにより係り先が確定される。
例えばオーサリング作業者が「機能」をクリックすることで、「正常な」は「機能」にかかる形容詞であると確定される。
例えばこのようにして、係り先が未確定とされている部分(赤スラッシュ「●」の部分)を確定させていく作業をオーサリング作業者は実行し、最終的に赤スラッシュ「●」部分がなくなるようにしていく。
【0226】
また、ステップF305の処理で生成されるタグは、図3でいう語→サブセンテンシャルセグメント→文までの構造を示すタグであるが、さらに上位のタグ、即ち図3でいう「段落」「サブディビジョン」「文書」としてのタグは、オーサリング作業者がステップF307での入力により任意に付加するものとなる。
【0227】
例えば図40は、オーサリング作業者が「[素敵にエイジング・・・抑えられる!?」の部分を指定した場合であり、このとき制御部72は図示するように編集ウインドウ620を開いてオーサリング作業者が新規のタグ入力を実行できる状態とする。
ここでは、オーサリング作業者が例えばタグ名表示621のプルダウンメニューから「h1」を選択した状態を示している。「h」(「h1」「h2」・・・)は「題目」の意味である。
この状態でオーサリング作業者がOKボタン623をクリックすると、制御部72は「[素敵にエイジング・・・抑えられる!?」の部分が「題目1」と設定されたとして処理、つまりタグ付けを行う。
表示上では、例えば図41のように、「[素敵にエイジング・・・抑えられる!?」の部分において、タグが追加されたことを示す緑スラッシュ「◆」、アンダーライン及びタグ「h1」が表示される。
【0228】
なおこの図41では、さらに、文書を構成する各文についてステップF305の処理で付されたタグも示している。つまり上記係り先の選択が行われた図39の表示より上の階層の文構造のタグを表示している。図示するようにステップF305で付されたタグとして、それぞれの文について、スラッシュ「/」、アンダーライン及び「文」の意味を有するタグ「su」が表示されている。
【0229】
例えば以上の例のように、オーサリング作業者は「語」より上位の文書構造としてタグ生成結果の確認、未確定な係り先の選択、段落(又は題目)、文書などさらに上位の文書構造のタグの追加などを行っていく。
つまりオーサリング作業者は、文書表示部602に表示されている文書において少なくとも赤スラッシュ「●」の部分がなくなるように作業を進行させていくとともに、必要に応じて任意に、段落、題目、文書などの単位でのタグ付けを行う。
以上の処理が行われることで、ステップF306で文書構造のタグ付けの完了と判断される。即ち、この時点は、図3で説明した文書データ構造における「語」〜「文」又は「段落」「サブディビジョン」「文書」としてのタグが付与された状態である。
【0230】
なお、この時点以降、タグ付け結果のイメージ(例えば文書処理装置1で表示されるブラウザイメージ)を確認することができる。
例えば図42のように、ジェネレートボタン605bをクリックすると、文書表示部602における、それまでのタグ付けが行われた状態の表示に加えて、文書表示部603に、ブラウザイメージが表示され、これまでのタグ付けに基づいて一般ユーザー(文書処理装置1の使用者)に提示される画面状況を確認できる。例えば上記のように題目としてのタグ「h1」を付加したことで、題目部分が太字で提示されることが確認できる。
また、このように表示イメージが確認できることで、オーサリング作業者は、それが適切でないと思えば、ステップF307でのタグ或いは文書の修正、さらにはステップF302からの形態素解析からのやり直しをすべきことの判断も可能となる。
【0231】
ステップF306でタグ付け完了と判断された場合は、制御部72の処理はステップF308に進み、図3で説明した参照リンクの設定処理を行う。
なお、図3で説明した通常リンクについては、これまでのタグ付けから自動的に形成されるものである(つまりステップF306でタグ付け完了と判断された時点で、そのタグで示される文書構造に基づいて、通常リンクは形成されている)。
制御部72はステップF308では、参照リンクの付加のための解析を行い、参照リンク設定の候補を表示する。具体的には、代名詞等に対する指し先の候補を表示する。
例えば図43に示すように、文書表示部602においてタグ付けされたデータを表示するとともに、文書表示部603に上記のブラウザイメージと同様に文書を表示する。
そして、例えば図示するように文書表示部602で選択されている「双方」という語の指し先が、「がん遺伝子」と「がん抑制遺伝子」であることが文書表示部603において提示されるようにする。例えば反転表示や、異なる色による表示などで提示する。
【0232】
このような表示状態をオーサリング作業者は確認し、その参照関係が間違っていたら修正を行う。又は、或る語を選択して、新たに参照関係を付加する操作を行う。
例えば「双方」という語が、「がん遺伝子」と「がん抑制遺伝子」であることで正しい場合は、それについては修正操作は必要ない。ところが或る語について提示された指し先が間違っている場合は、オーサリング作業者は文書表示部603において正しい指し先を指定する操作を行う。
また、文書表示部602において或る語を選択したときに、文書表示部603において指し先が提示されない場合は、参照リンクが設定されていない場合であるが、オーサリング作業者は必要であれば、その際に文書表示部603において指し先を指定する操作を行うことで、参照リンクを追加する。
【0233】
制御部72は、ステップF310、F308の処理として、このようなオーサリング作業者の入力に応じた処理、即ち参照リンクの修正や追加処理を行い、その都度結果表示を行う。
また、この時点でもオーサリング作業者が文の追加、或いはタグの修正要求操作などを行うことができ、それらの場合は制御部72は、破線で示すようにステップF302に戻って再度の形態素解析からの処理を行うこともできる。
【0234】
制御部72は、オーサリング作業者の操作に応じた参照リンクの確定処理を完了することで、処理をステップF309からF311に進め、その時点で必要なタグが付加された文書データが完成されたとする。そしてその文書データを、オーサリング済の文書データとしてRAM74又はHDD82に記憶する。
このように生成された文書データはその後、記録媒体81もしくは通信回線6を介してサーバ3側に送られ、データベース3aに格納される。
そしてサーバ3の管理の元に一般ユーザー側の端末である文書処理装置1に提供され、文書処理装置1では上述したように文書データに対して各種の処理(表示、要約作成・表示、読み上げ等)を実行できるようになる。
【0235】
以上のように本例のオーサリング装置2では、原文(プレーンテキスト)を各形態素に分けるとともに各形態素についての形態素情報を付加し、また原文に階層的な文書構造を示す文書構造情報を付加し、さらに原文内の文書部分間における参照関係を示す参照情報を付加していくことで、文書処理に好適な文書データ(タグファイル)が作成できる。
そしてこのオーサリング処理は、まず形態素を解析してから、順に上位階層に向かって文書構造を設定してことになる。また、区切、品詞、係り先、指し先については候補が表示され、作業者が選択していくものとされている。
これらのことから、オーサリングのための操作手順は、オーサリング作業者にわかりやすく、特に高度な文法知識、語学知識がなくとも、容易にオーサリング作業を進めることができる。またこれは、文法知識等がなくとも、文書内容に応じた正確なタグ付けが可能となることも意味する。
またオーサリング作業時の作業者の入力は、候補の選択や文中の所要部分の指定などでよいことからも、作業は容易かつ迅速に実行できる。
【0236】
また、形態素の区切りもしくは形態素情報や、文書構造情報、参照情報の変更、追加、修正、文の追加、修正、削除などを入力手段からのオーサリング実行者の入力に応じて決定できるようにすることで、自動的な処理だけではまかなえない程度の高度なタグ付加が可能となるとともに、作業者が意図するとおりのタグファイルを作成できる。
さらに、表示部に、形態素の区切り、形態素情報、文書構造情報、参照情報についての候補等を表示させることで、オーサリング作業者にとってオーサリング状況が把握しやすくなり、またオーサリング作業者のオーサリング作業の進行を簡易化することができる。
【0237】
なお、図28及び図29〜図43で説明したオーサリング処理は、一例にすぎず、多様な変形例が考えられる。
例えば上記例では、既に作成されたプレーンテキストに対してオーサリングを行う場合として説明したが、作業者が、プレーンテキストを作りながら、同時進行的にオーサリング処理を行うことも考えられる。例えば作業者が文を入力していく毎に、形態素解析等が行われ、その結果が上記スラッシュ、アンダーライン等で表示されていくようにする。そして、オーサリング作業者は必要な候補選択作業や文の修正等を行なった後に、続く文書を入力していくというような作業手順である。
【0238】
また、オーサリング状況を提示する態様としては、もちろん上記のスラッシュ「/」、赤スラッシュ「●」、緑スラッシュ「◆」、アンダーライン、タグ等の表示に限られるものではなく、提示手法は、オーサリングプログラムや表示デバイス、表示用フォント等の事情に応じて全く任意に設計できるものである。
もちろん各種の段階での候補の提示方式なども上記例に限られるものではない。
【0239】
10.文書処理システムの動作(文書プロバイダからのオーサリング要求)
以上のように、文書プロバイダ4から提供されるプレーンテキストは、オーサリング装置2によってタグファイルとされ、サーバ3のデータベースに格納される。そしてサーバ3からユーザ端末としての文書処理装置にタグファイルが提供されることで、ユーザーサイドでは、文書の分類、本文閲覧、要約作成/閲覧、読み上げなどの各種処理が可能となる。
【0240】
このような文書提供を実現するための図1に示した文書処理システムにおける、各部で送受信されるデータの内容を図44に模式的に示す。
【0241】
文書プロバイダ4はプレーンテキストPTをオーサリング装置2又はサーバ3に対して送信できる。
また文書プロバイダ4はプレーンテキストPTを送信する際には、各プレーンテキストに固有に設定された識別子としての電子文書ID(IDtxt)も同時に送信する。
サーバ3は、文書プロバイダ4からプレーンテキストPTと電子文書ID(IDtxt)を受信した場合は、そのプレーンテキストPTと電子文書ID(IDtxt)をデータベース3aに格納する。
【0242】
文書プロバイダ4からプレーンテキストPTと電子文書ID(IDtxt)がオーサリング装置2に送信される場合は、文書プロバイダ4が、そのプレーンテキストPTについてのオーサリングを求める場合である。
この場合、オーサリング装置2は受信したプレーンテキストPTに対してオーサリング処理を行ってタグファイルTFを生成する。そしてオーサリング装置2は、タグファイルTFと電子文書ID(IDtxt)をサーバ3に送信する。
サーバ3は、オーサリング装置2らタグファイルTFと電子文書ID(IDtxt)を受信した場合は、そのタグファイルTFと電子文書ID(IDtxt)をデータベース3aに格納する。
【0243】
文書プロバイダ4は、あるプレーンテキストPTについてのオーサリングを求める場合に、オーサリング装置2に対して電子文書ID(IDtxt)のみを送信する場合もある。
この場合オーサリング装置2は、サーバ3に対してデータベース検索要求通知Isc及び電子文書ID(IDtxt)を送信する。
サーバ3ではデータベース検索要求通知Iscを受けると、同時に受信した電子文書ID(IDtxt)で示される電子文書(プレーンテキストPT又はタグファイルTF)がデータベース3aに格納されているか否かを検索する。
そしてサーバ3は、検索結果内容をデータベース検索結果通知Ascとしてオーサリング装置2に送信する。
【0244】
オーサリング装置2は、データベース検索結果通知Ascにより、該当する電子文書としてタグファイルTFがデータベース3aに存在することが分かった場合は、文書プロバイダ4に対して、電子文書ID(IDtxt)で示されるタグファイルTFが既にデータベースに存在すること、つまりオーサリングは不要であることを知らせるタグファイル存在通知Itfを送信する。
これにより文書プロバイダ4は、あるプレーンテキストPTについて既にオーサリングが完了してユーザーに提供できる状態にあることを知ることができる。
【0245】
オーサリング装置2は、上記データベース検索要求通知Iscに対する、サーバ3からのデータベース検索結果通知Ascにより、該当する電子文書としてプレーンテキストPTがデータベース3aに存在することが分かった場合は、サーバ3に対して、電子文書ID(IDtxt)で示されるプレーンテキストPTを要求するプレーンテキスト要求通知Iptを送信する。
これに応じてサーバ3はオーサリング装置2に対してプレーンテキストPT(及び電子文書ID(IDtxt))を送信する。
オーサリング装置2は受信したプレーンテキストPTに対してオーサリングを行い、生成したタグファイルTF(及び電子文書ID(IDtxt))をサーバ3に送信する。
サーバ3は、タグファイルTFと電子文書ID(IDtxt)を受信したら、そのタグファイルTFを、電子文書ID(IDtxt)に基づいてプレーンテキストPTに関連づけた状態でデータベース3aに格納する。
【0246】
オーサリング装置2は、上記データベース検索要求通知Iscに対する、サーバ3からのデータベース検索結果通知Ascにより、該当する電子文書としてプレーンテキストPTもタグファイルTFも、データベース3aには存在しないことが分かった場合は、文書プロバイダ4に対して、電子文書ID(IDtxt)で示されるプレーンテキストPTを要求するプレーンテキスト要求通知Iptを送信する。
これに応じて文書プロバイダ4はオーサリング装置2に対してプレーンテキストPT(及び電子文書ID(IDtxt))を送信する。
オーサリング装置2は受信したプレーンテキストPTに対してオーサリングを行い、生成したタグファイルTF(及び電子文書ID(IDtxt))をサーバ3に送信する。
サーバ3は、タグファイルTFと電子文書ID(IDtxt)を受信したら、それらをデータベース3aに格納する。
【0247】
これらのような通信により、文書プロバイダ4があるプレーンテキストPTに対してオーサリングを求め、結果としてオーサリング装置2のオーサリングにより生成されたタグファイルTFがデータベース3aに格納された状態となるまでの処理経路としては、次のパターン[1]〜[4]の4パターンがあり得ることになる。なお▲1▼、▲2▼・・・は、各パターンにおける処理手順を示している。
【0248】
パターン[1]・・・文書プロバイダ4がオーサリング装置2にプレーンテキストPTと電子文書ID(IDtxt)を送信する場合。
▲1▼.文書プロバイダ4がオーサリング装置2にプレーンテキストPTと電子文書ID(IDtxt)を送信する。
▲2▼.オーサリング装置2が受信したプレーンテキストPTに対してオーサリングを行い、タグファイルTFを生成する。
▲3▼.オーサリング装置2がタグファイルTF及び電子文書ID(IDtxt)をサーバ 3に送信する。
▲4▼.サーバ3が受信したタグファイルTF及び電子文書ID(IDtxt)をデータベ ース3aに格納する。
【0249】
パターン[2]・・・文書プロバイダ4がオーサリング装置2に電子文書ID(IDtxt)のみを送信する場合で、データベース3aに該当するタグファイルTFが既に存在する場合。
▲1▼.文書プロバイダ4がオーサリング装置2に電子文書ID(IDtxt)のみを送信 する。
▲2▼.オーサリング装置2は受信した電子文書ID(IDtxt)について、データベー ス3aに該当文書データの存在を確かめる検索要求をサーバ3に対して行う 。
▲3▼.サーバ3は検索を行い、検索結果としてデータベース3aに、該当するタグファイルTFが存在する旨の通知をオーサリング装置2に対して行う。
▲4▼.オーサリング装置2は文書プロバイダ4にタグファイルTFがすでに存在する旨の通知を行う。
【0250】
パターン[3]・・・文書プロバイダ4がオーサリング装置2に電子文書ID(IDtxt)のみを送信する場合で、データベース3aに該当するタグファイルTFもプレーンテキストも存在しない場合。
▲1▼.文書プロバイダ4がオーサリング装置2に電子文書ID(IDtxt)のみを送信 する。
▲2▼.オーサリング装置2は受信した電子文書ID(IDtxt)について、データベー ス3aに該当文書データの存在を確かめる検索要求をサーバ3に対して行う 。
▲3▼.サーバ3は検索を行い、検索結果としてデータベース3aに、該当するタグファイルTFもプレーンテキストPTも存在しない旨の通知をオーサリング装置2に対して行う。
▲4▼.オーサリング装置2は文書プロバイダ4に電子文書ID(IDtxt)で示される プレーンテキストPTの送信を求める。
▲5▼.文書プロバイダ4はオーサリング装置2にプレーンテキストPT及び電子文書ID(IDtxt)を送信する。
▲6▼.オーサリング装置2は受信したプレーンテキストPTに対してオーサリングを行い、タグファイルTFを生成する。
▲7▼.オーサリング装置2はタグファイルTF及び電子文書ID(IDtxt)をサーバ 3に送信する。
▲8▼.サーバ3が受信したタグファイルTF及び電子文書ID(IDtxt)をデータベ ース3aに格納する。
【0251】
パターン[4]・・・文書プロバイダ4がオーサリング装置2に電子文書ID(IDtxt)のみを送信する場合で、データベース3aに該当するプレーンテキストPTが存在した場合。
▲1▼.文書プロバイダ4がオーサリング装置2に電子文書ID(IDtxt)のみを送信 する。
▲2▼.オーサリング装置2は受信した電子文書ID(IDtxt)について、データベー ス3aに該当文書データの存在を確かめる検索要求をサーバ3に対して行う 。
▲3▼.サーバ3は検索を行い、検索結果としてデータベース3aに、該当するプレーンテキストPTが存在する旨の通知をオーサリング装置2に対して行う。
▲4▼.オーサリング装置2はサーバ3に、電子文書ID(IDtxt)で示されるプレー ンテキストPTの送信を求める。
▲5▼.サーバ3はオーサリング装置2にプレーンテキストPT及び電子文書ID( IDtxt)を送信する。
▲6▼.オーサリング装置2は受信したプレーンテキストPTに対してオーサリングを行い、タグファイルTFを生成する。
▲7▼.オーサリング装置2はタグファイルTF及び電子文書ID(IDtxt)をサーバ 3に送信する。
▲8▼.サーバ3は受信したタグファイルTFを、既に格納されている電子文書ID(IDtxt)及びプレーンテキストPTに対応させた状態で、データベース3a に格納する。
【0252】
以上の4パターンの手順で、タグファイルTFがデータベース3aに格納された状態となる。
なお、パターン[1][3][4]の場合、すなわちオーサリング装置2がオーサリング処理を行って、生成したタグファイルTFをサーバ3に送信し、データベース3aに格納させた場合は、オーサリング装置2は、文書プロバイダ4に対して完了通知Icpを送信する。
また本例の文書処理システムでは、オーサリング装置2は、オーサリング処理に伴って、そのオーサリング料金を文書プロバイダ4に課金するものとしている(図44の課金処理KM)。
従って、パターン[1][3][4]の場合で、文書プロバイダ4に対して完了通知Icpを送信した後には、オーサリング装置2は文書プロバイダ4に対してオーサリング料金の課金処理を行うことになる。
【0253】
なお、この4パターンは図44のシステム形態における例であり、実際には文書処理システムの構成に応じて、他のパターンも考えられる。
【0254】
データベース3aにおける電子文書の格納形態としては、例えば図45のようになる。
図45(a)は電子文書ID(IDtxt)とプレーンテキストPTが対応されて格納されている状態である。例えば文書プロバイダ4がサーバ3に対して電子文書ID(IDtxt)とプレーンテキストPTを送信した場合は、データベース3aにはこのように格納される。また上記パターン[4]で、データベース3aに該当するプレーンテキストが存在する場合とは、それ以前に文書プロバイダ4がサーバ3に対して電子文書ID(IDtxt)とプレーンテキストPTを送信していたことで図45(a)のように格納されていた場合のこととなる。
【0255】
図45(b)は電子文書ID(IDtxt)とタグファイルTFが対応されて格納されている状態である。例えばオーサリング装置2がサーバ3に対して電子文書ID(IDtxt)とタグファイルTFを送信した場合は、データベース3aにはこのように格納される。例えば上記パターン[1]の手順▲4▼又はパターン[3]の手順▲8▼による場合はこれに相当する。
【0256】
図45(c)は電子文書ID(IDtxt)とタグファイルTFとプレーンテキストPTが対応されて格納されている状態である。例えば上記パターン[4]の手順▲8▼で、タグファイルTFを既に格納されている電子文書ID(IDtxt)及びプレーンテキストPTに対応させた状態で、データベース3aに格納する場合はこのようになる。
或いは上記パターン[1]又はパターン[3]において、オーサリング装置2がタグファイルTF及び電子文書ID(IDtxt)に加えて、プレーンテキストPTを送信することも考えられるが、そのような場合は、この図45(c)の状態となり得る。
【0257】
なお、図45(d)(e)は、図45(b)(c)の状態において、タグファイルTFが存在することを示す識別子IDtfが付加された例である。
データベース3aにタグファイルTFが格納されることで、そのタグファイルTFをユーザー端末(文書処理装置1)側に提供できるものであるが、従って図45(b)(c)のように、識別子IDtfとして、或る電子文書ID(IDtxt)についてのタグファイルTFの存在が識別されるようにしてもよい。
なお図45(b)(c)の場合は、タグファイルTF自体が、タグファイルTFの存在を示すものとされている。
また上記パターン[2]として示した、データベース3aに該当するタグファイルTFが既に存在する場合とは、この図45(b)(c)、又は図45(d)(e)の格納状態にあることをいう。
【0258】
図45(b)(c)、又は図45(d)(e)の格納状態にある電子文書は、文書処理装置1に対して提供できるものとなる。
この場合サーバ3は、文書処理装置1に対して電子文書ID(IDtxt)とタグファイルTFを送信する。また図45(c)(e)の場合は、同時にプレーンテキストPTを送信するようにしてもよい。
【0259】
以上のように図45を用いて説明したパターン[1]〜[4]の動作を実現するための、オーサリング装置2の処理を図46で説明する。
図46は、オーサリング装置2が文書プロバイダ4からオーサリングの要求を受けた場合の処理を示している。具体的には、オーサリング装置2において図27に示した制御部72が実行する処理となる。
【0260】
制御部72は、文書プロバイダ4からオーサリング要求としての情報を受信した場合は、処理をステップF401からF402に進め、まずその受信内容を確認する。
具体的には、文書プロバイダ4から電子文書ID(IDtxt)とプレーンテキストPTを受信したのか、或いは電子文書ID(IDtxt)のみを受信したのかを判別する処理となる。
【0261】
文書プロバイダ4から電子文書ID(IDtxt)とプレーンテキストPTの両方を受信した場合であったのなら、制御部72は処理をステップF403に進め、受信されたプレーンテキストPTに対するオーサリング処理を行う。すなわち図28で説明した処理を行うことで、タグファイルTFを生成する。
タグファイルTFが生成されたら、制御部72はステップF404として、タグファイルTF(及び電子文書ID(IDtxt))をサーバ3に送信し、データベース3aに格納させる。
これにより上記パターン[1]としての処理が完了されることになる。
そして制御部72は、ステップF405で、データベース3aへのタグファイルTFの登録の完了を通知する(図44の完了通知Icp)。
また制御部72はステップF406として、文書プロバイダ4に対して、オーサリング処理料金の課金処理を行う(図44の課金処理KM)。例えばオーサリングを行った電子文書の電子文書ID(IDtxt)を、課金対象として内部的に登録し、後の事務・経理処理用のデータとする。
以上で一連の処理を終える。
【0262】
文書プロバイダ4からのオーサリング要求が、電子文書ID(IDtxt)のみによるものであった場合は、制御部72は処理をステップF402からステップF407に進め、受信した電子文書ID(IDtxt)について、サーバ3にデータベースの検索要求を行うことになる(図44のデータベース検索要求通知Isc)。
上述したようにサーバ3では、これに応じて電子文書ID(IDtxt)に基づいたデータベース3aの検索を行い、その検索結果をオーサリング装置2に送信してくる(図44のデータベース検索結果通知Asc)。制御部72はステップF408でこの検索結果を受信する。
【0263】
制御部72は受信した検索結果を確認して、データベース3aにおける電子文書ID(IDtxt)に該当するタグファイルTFの有無、及び該当するプレーンテキストPTの有無をステップF409,F410で判別する。
ステップF409において、データベース3aにおける該当するタグファイルTFの存在が確認された場合は、制御部72は処理をステップF415に進め、文書プロバイダ4に対して、今回オーサリング要求された電子文書ID(IDtxt)に関し、既にタグファイルTFがデータベース3aに存在することを通知する(図44のタグファイル存在通知Itf)。そして一連の処理を終える。
つまりオーサリングが不要な上記パターン[2]の動作となる。なお、この場合はオーサリングを行わないため課金処理は行わない。
【0264】
一方、ステップF409において該当するタグファイルTFがデータベース3aに存在しないと判別され、またステップF410において該当するプレーンテキストPTも存在しないと判別された場合は、制御部72は処理をステップF413に進めることとなり、この場合は、制御部72は文書プロバイダ4に対して、電子文書ID(IDtxt)で示されるプレーンテキストPTの送信を要求することになる(図44のプレーンテキスト要求通知Ipt)。
文書プロバイダ4では、これに応じて電子文書ID(IDtxt)に基づいたプレーンテキストPT(及び電子文書ID(IDtxt))をオーサリング装置2に送信してくる。制御部72はステップF414で送信されてきたプレーンテキストPT及び電子文書ID(IDtxt)を受信する。
【0265】
これによってオーサリング装置2ではオーサリングを行うべきプレーンテキストPTを入手できたことになるため、制御部72は処理をステップF403に進め、受信されたプレーンテキストPTに対するオーサリング処理を行う。すなわち図28で説明した処理を行うことで、タグファイルTFを生成する。
タグファイルTFが生成できたら、制御部72はステップF404として、タグファイルTF(及び電子文書ID(IDtxt))をサーバ3に送信し、データベース3aに格納させる。
これにより上記パターン[3]としての処理が完了されることになる。
そして制御部72は、ステップF405で、データベース3aへのタグファイルTFの登録の完了を通知し(図44の完了通知Icp)、また制御部72はステップF406として、文書プロバイダ4に対して、オーサリング処理料金の課金処理を行う(図44の課金処理KM)。
以上で一連の処理を終える。
【0266】
上記ステップF409において該当するタグファイルTFがデータベース3aに存在しないと判別されたが、ステップF410において該当するプレーンテキストPTがデータベース3aに存在すると判別された場合は、制御部72は処理をステップF411に進める。
この場合は、制御部72はサーバ3に対して、電子文書ID(IDtxt)で示されるプレーンテキストPTの送信を要求することになる(図44のプレーンテキスト要求通知Ipt)。
サーバ3では、これに応じて電子文書ID(IDtxt)で示されるプレーンテキストPTをデータベース3aから読み出して、をオーサリング装置2に送信してくる。制御部72はステップF412で送信されてきたプレーンテキストPT及び電子文書ID(IDtxt)を受信する。
【0267】
これによってオーサリング装置2ではオーサリングを行うべきプレーンテキストPTを入手できたことになるため、制御部72は処理をステップF403に進め、受信されたプレーンテキストPTに対して図28で示したオーサリング処理を行ない、タグファイルTFを生成する。
そして制御部72はステップF404として、タグファイルTF(及び電子文書ID(IDtxt))をサーバ3に送信し、データベース3aに格納させる。
これにより上記パターン[4]としての処理が完了されることになる。
そして制御部72は、ステップF405で、データベース3aへのタグファイルTFの登録の完了を通知し(図44の完了通知Icp)、また制御部72はステップF406として、文書プロバイダ4に対して、オーサリング処理料金の課金処理を行う(図44の課金処理KM)。
以上で一連の処理を終える。
【0268】
以上のように、オーサリング装置2における図46の処理によって、上記パターン[1]〜パターン[4]のいづれかの方式で、オーサリング動作が実行され、文書プロバイダがオーサリングを要求したプレーンテキストPTについてのタグファイルTFがデータベース3aに格納された状態となる。
すなわち、文書プロバイダ4が提供するプレーンテキストPTについて、状況に応じて効率よくタグファイルを生成し、データベース3aに記憶することができる。またこれによって文書処理装置1(ユーザー端末)側では、データベース3aから容易にタグ付電子文書の提供を受けることができるようになる。
例えばオーサリング装置2は、文書プロバイダ4からプレーンテキストPTと電子文書ID(IDtxt)の組を受信した際には、そのプレーンテキストPTにタグを付与したタグファイルTFを生成し、サーバ3に送信することで、タグファイルTFをデータベース3aに記憶させることができる。
また文書プロバイダ4から電子文書ID(IDtxt)のみを受信した際には、受信した電子文書ID(IDtxt)で示されるタグファイルTFがデータベース3aに記憶されているか否かを検出し、タグファイルTFが存在する場合は無用なオーサリング処理を行なわない。またデータベース3aにプレーンテキストPTが存在すれば、それを入手してオーサリングを行うことができる。またデータベース3aにプレーンテキストPTも存在しなければ、文書プロバイダ4にプレーンテキストを要求して、オーサリングを行えばよい。
【0269】
さらにオーサリング装置2は、オーサリングを行なった際に、文書プロバイダ4に対して課金処理を行なうようにすることで、オーサリングサービスに関しての適正な課金が可能となり、システムの構築、発展、普及に寄与できる。
【0270】
さらにまた記録媒体32として、上述した図28のオーサリング処理のためのプログラムや、図46のオーサリング制御処理のためのプログラムが書き込まれたディスク状記録媒体やテープ状記録媒体、メモリカード、メモリチップ等を提供することが容易に実現できる。
そしてそのような記録媒体によれば、上記してきた文書処理方法、オーサリング方式を実現するプログラムを提供できることになり、例えば汎用のパーソナルコンピュータ等を用いて、オーサリング装置2を容易に実現できる。
さらに本例のオーサリング処理、オーサリング制御処理を実現するプログラムは、例えばインターネット等のネットワーク通信を介しても提供することができるものであり、従って、プログラムサーバ側もしくは通信過程における記録媒体としても適用できる。
【0271】
[II]第2の実施の形態
11.文書処理システムの構成
続いて第2の実施の形態としての文書処理システムを説明する。なお、上記第1の実施の形態において説明した文書処理装置1での各種文書処理や、オーサリング装置2でのオーサリング処理は、この第2の実施の形態においても同様に実行されるものである。
【0272】
図47は、上記図1と同様にシステム構成を模式的に示すものである。
この場合は、受信/送信機能及びユーザー端末側に対する課金機能を有するサービスプロバイダ5を設けており、このサービスプロバイダ5とサーバ3により、文書処理装置1側にタグファイルを提供するサービス提供部7が構成されるものとしている。
【0273】
文書プロバイダ4、オーサリング装置2、サーバ3の各機能については、図1の例と同様であるが、この例では文書プロバイダ4は、サーバ3のデータベース3aにプレーンテキストPTを格納させる場合に、同時にフラグ(後述するオーサリング可否ID(IDa))を付加することで、そのプレーンテキストPTのオーサリングの許可/禁止を設定するオーサリング可否設定機能を備えるようにしている。
【0274】
また図1の例の場合と同様に、各部は、通信回線6又は記録媒体32により相互に各種データ通信が可能とされている。
なお、この例ではサービスプロバイダ5とサーバ3を分けているが、サーバ3にサービスプロバイダ5としての機能を含めれば、図1の構成であってもかまわないものである。
【0275】
12.文書処理システムの動作(文書処理装置からのオーサリング要求)
第2の実施の形態の文書処理システムの動作について説明していく。上記第1の実施の形態では、文書プロバイダ4からのオーサリング要求があった際の動作としたが、この第2の実施の形態では、文書処理装置1からのオーサリング要求、すなわちユーザーサイドからオーサリングを要求する場合の動作となる。
【0276】
第1の実施の形態のシステムにおいて説明したように、文書プロバイダ4から提供されるプレーンテキストPTは、オーサリング装置2によってタグファイルTFとされ、サーバ3のデータベース3aに格納される。
或いは文書プロバイダ4からプレーンテキストPTが直接サーバ3に供給され、プレーンテキストPTの状態でデータベース3aに格納される。
このようにしてデータベース3aには、各種のプレーンテキストやタグファイルが格納された状態となっているが、本例では、文書処理装置1のユーザーは、データベース3aに格納されている文書データ(プレーンテキストPT又はタグファイルTF)について、任意に選択してタグファイルの送信を要求できるものとしている。
つまり、例えばユーザーがデータベース3aに格納されている或るタグファイルTFを要求した場合は、サービス提供部7は、そのタグファイルTFをデータベース3aから読み出して文書処理装置1に送信する。
また例えばユーザーがデータベース3aに格納されている或るプレーンテキストPTを要求した場合は、サービス提供部7は、そのプレーンテキストPTについてオーサリング装置2によってタグファイルTFとさせ、その生成されたタグファイルTFを文書処理装置1に送信するものとしている。
【0277】
このようにしてユーザが求めたタグファイルTFが文書処理装置1に提供されることで、ユーザーサイドでは、所望の文書データに対して、それを入手し、文書の分類、本文閲覧、要約作成/閲覧、読み上げなどの各種処理を行うことが可能となる。
【0278】
又さらに本例の場合は、ユーザーが文書処理装置1側において作成した文書(プレーンテキスト)を、サービス提供部7側に送信し、オーサリング装置2でのオーサリングを求めることもできる。すなわちユーザーが作成したプレーンテキストPTについてのタグファイルTFを得ることもできるようにしている。
【0279】
このような文書提供を実現するための図47に示した文書処理システムにおける、各部で送受信されるデータの内容を図48に模式的に示す。
【0280】
文書プロバイダ4はプレーンテキストPTをオーサリング装置2又はサーバ3に対して送信できる。
また文書プロバイダ4はプレーンテキストPTを送信する際には、各プレーンテキストに固有に設定された識別子としての電子文書ID(IDtxt)も同時に送信する。
さらに文書プロバイダ4は、サーバ3に対してプレーンテキストPTを送信し、データベース3aに格納させる場合は、オーサリング可否ID(IDa)を付加することができる。
電子文書データに関しては、文書の著作者の意向やその他の事情により、一般ユーザーに対してタグファイルを提供したくない場合もあり得るため、オーサリング可否ID(IDa)により、オーサリングの許可/禁止、つまりタグファイルの提供の許可/禁止を、文書プロバイダ4側から設定できるようにするものである。
【0281】
サーバ3は、文書プロバイダ4からプレーンテキストPTと電子文書ID(IDtxt)、及びオーサリング可否ID(IDa)を受信した場合は、そのプレーンテキストPTと電子文書ID(IDtxt)、オーサリング可否ID(IDa)をデータベース3aに格納する。
【0282】
文書プロバイダ4からプレーンテキストPTと電子文書ID(IDtxt)がオーサリング装置2に送信される場合、もしくは文書プロバイダ4から電子文書ID(IDtxt)のみがオーサリング装置2に送信される場合は、文書プロバイダ4が、そのプレーンテキストPTについてのオーサリングを求める場合である。
これは上記第1の実施の形態において説明したとおりの動作である。すなわちこの場合は、オーサリング装置2は上記パターン[1]〜[4]の動作を行う。
【0283】
また本例では、ユーザーからのオーサリング要求に基づいて、サーバ3がオーサリング装置2にオーサリングを求めることが発生する。
すなわちサーバ3からオーサリング装置2に対して、プレーンテキストPTと電子文書ID(IDtxt)が送信されることにより、オーサリング装置2は受信したプレーンテキストPTに対してオーサリング処理を行ってタグファイルTFを生成する。そしてオーサリング装置2は、タグファイルTFと電子文書ID(IDtxt)をサーバ3に送信する。
サーバ3は、そのタグファイルTFを、既に格納してある電子文書ID(IDtxt)及びプレーンテキストに対応させてデータベース3aに格納する。
【0284】
ユーザーサイドから所望のタグファイルを要求する場合、文書処理装置1からサービスプロバイダ5に対して、タグファイル要求通知Irq及び検索のためのキーワードKWを送信する。
或いは、文書処理装置1からサービスプロバイダ5に対して、タグファイル要求通知Irq及び特定文書を指定する電子文書ID(IDtxt)を送信する。
キーワードKWを送信するのは、ユーザーが所望の文書を特定できない場合である。一方、電子文書ID(IDtxt)を送信するのは、ユーザーが特定の文書を指定して要求する場合である。
【0285】
なお、ユーザーがまだ入手していない文書データを電子文書ID(IDtxt)で指定するためには、データベース3aに格納されている文書データの情報、つまりデータベース3aの一覧リストのような情報を、サービス提供部7から文書処理装置1に定期的に送信するようにすればよい。もちろん、一覧リストをデータとして送信するのではなくとも、例えば新聞やダイレクトメールなどでユーザーサイドに伝達してもよい。つまりユーザーに対して提供可能な文書データの情報が、ユーザーに対して伝達されるのであればどのような伝達形態でもよい。
【0286】
サービスプロバイダ5は、文書処理装置1からタグファイル要求通知Irqと、キーワードKW又は電子文書ID(IDtxt)を受信したら、サーバ3に対して、データベース検索要求通知Iscを送信する。このときデータベース検索のためにキーワードKW又は電子文書ID(IDtxt)も送信する。
サーバ3では、データベース検索要求通知Iscに応じて、キーワードKW又は電子文書ID(IDtxt)に基づいてデータベース3aを検索する。つまり、キーワードKW又は電子文書ID(IDtxt)に相当するタグファイルTF又はプレーンテキストPTがデータベース3aに格納されているか否かを検索する。
【0287】
サーバ3は、該当するタグファイルTFが見つかったら、データベース検索結果通知Ascとともに、タグファイルTF(及び電子文書ID(IDtxt))をサービスプロバイダ5に送信する。
【0288】
またサーバ3は、該当するタグファイルTFは存在しないが該当するプレーンテキストPTが見つかった場合は、そのプレーンテキストPT(及び電子文書ID(IDtxt))をオーサリング装置2に送信してオーサリングを求め、オーサリング結果としてのタグファイルTF(及び電子文書ID(IDtxt))をオーサリング装置2から受信する。そしてデータベース3aに格納する。そして、サービスプロバイダ5に対して、データベース検索結果通知Ascとともに、タグファイルTF(及び電子文書ID(IDtxt))を送信する。
【0289】
またサーバ3は、該当するタグファイルTFもプレーンテキストPTもデータベース3aに存在しなかった場合は、サービスプロバイダ5に対して、データベース検索結果通知Ascを送信する。
【0290】
サービスプロバイダ5は、サーバからタグファイルTFが送信されてきた場合は、文書処理装置1に対して、タグファイルTF(及び電子文書ID(IDtxt))を送信する。
一方、データベース検索結果通知Ascによりデータベース3aに該当するタグファイルTFもプレーンテキストPTも存在しないと判別された場合は、文書処理装置1に対してエラー通知Ieを送信する。
【0291】
ところで文書処理装置1からは、ユーザーサイドで作成したプレーンテキストPTをサービスプロバイダ5に送信し、オーサリングを求めることもできる。この場合、文書処理装置1からは、タグファイル要求通知Irqとともに、プレーンテキストPT、及びそのプレーンテキストPTがユーザーサイドで作成した文書であることを示す作成文書ID(IDb)がサービスプロバイダ5に送信される。
このときサービスプロバイダ5及びサーバ3は、そのプレーンテキストPTをオーサリング装置2に送信してオーサリングを求め、オーサリング結果としてのタグファイルTFをオーサリング装置2から受信する。そして、サービスプロバイダ5から文書処理装置1に、生成されたタグファイルTFを送信する。
【0292】
これらのような通信により、文書処理装置1がサービス提供部7に対して或る電子文書のタグファイルを求め、結果として文書処理装置1にタグファイルTFが提供されるまで(又はエラー終了となるまで)の処理経路としては、次のパターン[11]〜[14]の4パターンがあり得ることになる。▲1▼、▲2▼・・・は、各パターンにおける処理手順である。
なお、以下の説明では、サーバ3とサービスプロバイダ5の動作は、サービス提供部7の動作としてまとめて述べることとする。
【0293】
パターン[11]・・・文書処理装置1が要求した文書データとしてのタグファイルTFがデータベース3aに存在した場合。
▲1▼.文書処理装置1がサービス提供部7に対して、キーワードKW又は電子文書ID(IDtxt)により或るタグファイルTFを要求する。
▲2▼.サービス提供部7はデータベース3aを検索し、要求されたタグファイルTFを抽出する。
▲3▼.サービス提供部7は文書処理装置1に対してタグファイルTFを送信する。
【0294】
パターン[12]・・・文書処理装置1が要求した文書データとしてのプレーンテキストPTがデータベース3aに存在した場合。
▲1▼.文書処理装置1がサービス提供部7に対して、キーワードKW又は電子文書ID(IDtxt)により或るタグファイルTFを要求する。
▲2▼.サービス提供部7はデータベース3aを検索し、要求されたタグファイルTFに相当するプレーンテキストPTを抽出する。
▲3▼.サービス提供部7はオーサリング装置2にプレーンテキストPT及び電子文書ID(IDtxt)を送信しオーサリングを求める。
▲4▼.オーサリング装置2は受信したプレーンテキストPTに対してオーサリングを行い、タグファイルTFを生成する。
▲5▼.オーサリング装置2はタグファイルTF及び電子文書ID(IDtxt)をサービ ス提供部7に送信する。
▲6▼.サービス提供部7は受信したタグファイルTFを既に格納されている電子文書ID(IDtxt)及びプレーンテキストPTに対応させた状態で、データベー ス3aに格納する。
▲7▼.サービス提供部7は文書処理装置1に対してタグファイルTFを送信する。
【0295】
パターン[13]・・・文書処理装置1が要求した文書データとしてのタグファイルTFもプレーンテキストPTもデータベース3aに存在しなかった場合、またはプレーンテキストPTが存在したがオーサリングが禁止されていた場合。
▲1▼.文書処理装置1がサービス提供部7に対して、キーワードKW又は電子文書ID(IDtxt)により或るタグファイルTFを要求する。
▲2▼.サービス提供部7はデータベース3aを検索し、要求された文書データに関してタグファイルTF又はプレーンテキストPTが存在しないとする検索結果を出す。又は検索により抽出されたプレーンテキストPTがオーサリング禁止であることを確認する。
▲3▼.サービス提供部7は文書処理装置1に対してエラー通知を送信する。
【0296】
パターン[14]・・・文書処理装置1がプレーンテキストPTとしての文書データを作成し、それについてのタグファイルTFを要求した場合。
▲1▼.文書処理装置1がサービス提供部7にプレーンテキストPT及び作成文書ID(IDb)を送信し、タグファイルTFを要求する。
▲2▼.サービス提供部7はオーサリング装置2にプレーンテキストPTを送信しオーサリングを求める。
▲3▼.オーサリング装置2は受信したプレーンテキストPTに対してオーサリングを行い、タグファイルTFを生成する。
▲4▼.オーサリング装置2はタグファイルTFをサービス提供部7に送信する。
▲5▼.サービス提供部7は受信したタグファイルTFを文書処理装置1に対して送信する。
【0297】
以上の4パターンの手順で、ユーザーの求めたタグファイルTFが文書処理装置1に提供された状態(又はエラー終了となった状態)となる。
【0298】
また本例の文書処理システムでは、オーサリング装置2は、オーサリング処理に伴って、そのオーサリング料金をサービス提供部7に課金するものとしている(図48の課金処理KM2)。従って、上記パターン[12][14]の場合は、課金処理K2が行われる。
またサービス提供部7は、文書処理装置1にタグファイルTFを提供することに応じて、ユーザーに対して電子文書の提供料金、及び/又はオーサリング料金を課金するものとしている(図48の課金処理KM1)。つまり、上記パターン[12]の場合は、ユーザーに対して電子文書提供料金及びオーサリング料金を課金し、上記パターン[11]の場合は、ユーザーに対して電子文書提供料金のみを課金し、上記パターン[14]の場合は、オーサリング料金のみを課金することとなる。
【0299】
なお、この4パターンは図44のシステム形態における例であり、実際には文書処理システムの構成に応じて、他のパターンも考えられる。
【0300】
データベース3aにおける電子文書の格納形態としては、例えば図49のようになる。
図49(b)〜(e)は、上述した図45(b)〜(e)と同様であるため説明を省略するが、タグファイルTFが存在しない図49(a)の場合は、電子文書ID(IDtxt)と、オーサリング可否ID(IDa)と、プレーンテキストPTが対応されて格納されるものとなる。
オーサリング可否ID(IDa)によって、このプレーンテキストPTについてオーサリングを行い、タグファイルを生成してよいか否かが識別される。
【0301】
上記のように図48を用いて説明したパターン[11]〜[14]の動作を実現するための各部の処理を図50〜図52に示す。図50は文書処理装置1の処理を、図51はサービス提供部7の処理を、図52はオーサリング装置2の処理を、それぞれ示している。
また、図53、図54、図55により、文書処理装置1側でユーザーが或るタグファイルを要求する際の表示部30の表示例を示す。
【0302】
ユーザーは、サービス提供部7に対して或るタグファイルTFの提供を要求する場合は、まず文書処理装置1から、所望のタグファイルTFの電子文書ID(IDtxt)又はキーワードKWを設定し、サービス提供部7に対して検索要求を行うことになる。
或いは、ユーザーが文書処理装置1で作成したプレーンテキストPTをサービス提供部7に送信して、オーサリングを求め、そのオーサリング結果としてのタグファイルTFを要求することになる。
このための処理が、文書処理装置1の制御部11の制御として、図50のステップF501,F502で行われる。
【0303】
具体的な操作例は例えば次のようになる。
ユーザーは、文書処理装置1の表示部30に、図10に示した分類ウインドウ201が開かれている状態において、ファイル要求ボタン202dをクリックする。
すると制御部11は、図53のようなファイル要求ウインドウ250を表示部30に表示させる。
このファイル要求ウインドウ250には、例えば文書ID入力部251、キーワード入力部252、検索範囲入力部253、検索条件入力部254、実行ボタン256、キャンセルボタン257などが表示される。
【0304】
ユーザは文書ID入力部251に電子文書ID(IDtxt)を入力することで、特定の文書データを指定できる。ユーザーが電子文書ID(IDtxt)を入力するためには、上述したようにサービス提供部7から電子文書ID(IDtxt)の一覧リストのような情報が提供されていればよい。
或いは、この図53の表示例及び図50、図51の処理には示していないが、ユーザーが電子文書ID(IDtxt)の入力を求める場合、データベース3aに格納されている文書データのリスト情報が送信され、表示部30に文書データのタイトル等が一覧表示されることで、ユーザーが所望の文書データを選択できるようにしてもよい。その場合は、ユーザーによる電子文書ID(IDtxt)の入力を省略できる。
【0305】
ユーザーが特定の文書データを指定できない場合は、所望の文書をキーワードにより検索を求めることができる。
すなわちキーワード入力部252に1又は複数の任意のキーワードを入力できる。
またキーワードの入力とともに、検索範囲入力部253において日時範囲(文書データ作成日時)を指定したり、検索条件入力部254でアンド条件、オア条件を設定できる。
【0306】
このファイル要求ウインドウ250においてユーザーが電子文書ID(IDtxt)又はキーワード等を入力し、実行ボタン256をクリックした場合は、制御部11の処理はステップF501からF502に進む。なお、キャンセルボタン257がクリックされた場合は、処理がキャンセルされ、例えば図10の分類ウインドウ201に戻る。
【0307】
実行ボタン256のクリックにより制御部11の処理がステップF502に進んだら、制御部11は、サービス提供部7にタグファイル要求通知Irqを送信するとともに、ファイル要求ウインドウ250において設定された電子文書ID(IDtxt)又はキーワードKW等を送信する。
そして以降は、ステップF503、F504として、サービス提供部7からの結果を待つ。ここでは要求したタグファイルTFの送信か、或いはエラー通知Ieを待つことになる。
【0308】
ところで、ユーザーが文書処理装置1側で作成したプレーンテキストPTについてのオーサリングを求める場合は、例えば分類ウインドウ201において文書作成ボタン202fをクリックする。
制御部11はこれに応じて例えば図54に示す文書作成ウインドウ270を表示部30に表示させる。
この文書作成ウインドウ270では、テキスト表示部271、及び各種操作ボタン272等が表示される。操作ボタン272としては、新規作成ボタン272a、保存ボタン272b、上書保存ボタン272c、読込ボタン272d、挿入読込ボタン272e、ファイル要求ボタン272fなどが表示される。
【0309】
ユーザーは、この文書作成ウインドウ270において、いわゆる通常のワードプロセッサ的な使用法により、プレーンテキストPTとしての文書の作成、更新、編集、保存などが可能となる。
すなわち入力部20におけるキーボードやマウスの操作により、新規に文書を作成したり、記録媒体32やHDD34に保存してあった文書を読み出したり、或いはそれらを編集できる。
【0310】
そして、或るプレーンテキストPTがテキスト表示部271に表示されている状態において、ユーザーがそのプレーンテキストPTに対するオーサリングを望む場合は、ファイル要求ボタン272fをクリックする。
すると制御部11は、文書作成ウインドウ270上に、図55に示すように確認ウインドウ280を開くように制御する。ユーザーは確認ウインドウ280において、オーサリング要求を実行する場合は、OKボタン281をクリックする。オーサリング要求を実行しない場合は、キャンセルボタン282をクリックする。
【0311】
OKボタン281がクリックされた場合は、制御部11の処理はステップF501からF502に進む。そして制御部11は、サービス提供部7にタグファイル要求通知Irqを送信するとともに、文書作成ウインドウ270に表示されているプレーンテキストPT、及びそのプレーンテキストPTがユーザーサイドで作成した文書であることを示す作成文書ID(IDb)を送信する。
そして以降は、ステップF503、F504として、サービス提供部7からの結果、つまり要求したタグファイルTFの送信か、或いはエラー通知Ieを待つことになる。
【0312】
サービス提供部7では、文書処理装置1からのタグファイル要求通知Irqを受信したら、処理を図51のステップF601からF602に進め、まずプレーンテキストPT及び作成文書ID(IDb)が同時に送信されてきたものであるか否かを判別する。
そしてタグファイル要求通知Irqとともに電子文書ID(IDtxt)又はキーワードKWが送信されてきた場合であったのなら、サービス提供部7は処理をステップF603に進め、電子文書ID(IDtxt)又はキーワードKWに基づいてデータベース3aの検索を実行する。
電子文書ID(IDtxt)に基づく検索の場合は、図49のようにその電子文書ID(IDtxt)が付されて記憶されている特定のタグファイルTF又はプレーンテキストPTを検索することになる。
またキーワードKWに基づく検索の場合は、データベース3aに記憶されているタグファイルTF又はプレーンテキストPTのうちで、キーワードKW及びユーザーの指定した検索条件に合致するタグファイルTF又はプレーンテキストPTを抽出する。
【0313】
検索結果として、或るタグファイルTFが得られた場合は、サービス提供部7は処理をステップF604からF605に進め、そのタグファイルTFをデータベース3aから読み出す。そしてステップF606として、当該タグファイルTF及び電子文書ID(IDtxt)を文書処理装置1に送信する。
文書処理装置1では、タグファイルTFを受信したら、制御部11は処理を図50のステップF503からF505に進め、そのタグファイルTFをRAM14又はHDD34等に取り込む。
これにより、上記パターン[11]としての動作が完了する。
【0314】
文書処理装置1においては、その後、取り込んだタグファイルTFに対して、図5で示した手動分類処理、又は図13で示した自動分類処理が行われることになり、さらに上述した閲覧、要約作成・表示、読み上げなどの各種文書処理が可能となる。
またサービス提供部7側では、ステップF606での送信後において、ステップF607で、文書処理装置1のユーザーに対する課金処理を行う(図48の課金処理KM1)。この場合は、オーサリング動作は行われていないため、電子文書提供料金のみ課金処理となる。
以上で一連の処理を終える。
【0315】
電子文書ID(IDtxt)又はキーワードKWに基づいたステップF603の検索結果において、タグファイルTFは存在しないが或るプレーンテキストPTが得られた場合は、サービス提供部7は処理をステップF604→F608→F609と進め、そのプレーンテキストPTが、オーサリングが許可されているか否かを確認する。
図49(a)に示したように、プレーンテキストPTのみの文書データに関しては、文書プロバイダ4で設定されたオーサリング可否ID(IDa)が付されており、これによりオーサリングの実行の許可/禁止が示されている。
【0316】
ステップF609においてオーサリング許可が確認されたら、サービス提供部7は処理をステップF610に進め、検索されたプレーンテキストPT及び電子文書ID(IDtxt)をデータベース3aから読み出して、オーサリング装置2に送信し、オーサリングを要求する。
【0317】
オーサリング装置2では、このようにサービス提供部7からオーサリングが要求された場合は、オーサリング装置2の制御部72は図52に示す処理を実行する。すなわちオーサリング要求に応じて処理をステップF701からステップF702に進め、サービス提供部7から送信されてきたプレーンテキストPT及び電子文書ID(IDtxt)を取り込む。
そして制御部72はステップF703で、受信されたプレーンテキストPTに対して図28で示したオーサリング処理を行ない、タグファイルTFを生成する。さらにステップF704で制御部72は、生成したタグファイルTF(及び電子文書ID(IDtxt))をサービス提供部7に送信する。
なお制御部72は、ステップF705で、サービス提供部7に対して、オーサリング処理料金の課金処理を行う(図48の課金処理KM2)。
【0318】
サービス提供部7では、図51のステップF611において、オーサリング装置2から送信されてきたタグファイルTF及び電子文書ID(IDtxt)を受信し、データベース3aに記憶する。つまり既に記憶されているプレーンテキストPTに対応させた状態でタグファイルTFを記憶する。
そしてサービス提供部7は処理をステップF612に進め、そのタグファイルTFをデータベース3aから読み出し、ステップF613で当該タグファイルTF及び電子文書ID(IDtxt)を文書処理装置1に送信する。
文書処理装置1ではタグファイルTFを受信したら、制御部11は処理を図50のステップF503からF505に進め、そのタグファイルTFをRAM14又はHDD34等に取り込む。
これにより、上記パターン[12]としての動作が完了する。
文書処理装置1においては、その後、取り込んだタグファイルTFに対して、図5で示した手動分類処理、又は図13で示した自動分類処理が行われることになり、さらに上述した閲覧、要約作成・表示、読み上げなどの各種文書処理が可能となる。
またサービス提供部7側では、ステップF613での送信後において、ステップF614で、文書処理装置1のユーザーに対する課金処理を行う(図48の課金処理KM1)。この場合は、オーサリング動作が行われているため、電子文書提供料金とオーサリング料金を合わせた課金処理となる。
以上で一連の処理を終える。
【0319】
ところで上記ステップF603での、電子文書ID(IDtxt)又はキーワードKWに基づいた検索結果として、該当するタグファイルTFもプレーンテキストPTも得られない場合もある(F608→F615)。
また、検索により或るプレーンテキストPTが抽出されたが、上記したオーサリング可否ID(IDa)を確認したところ、ステップF609においてそのプレーンテキストPTが、オーサリングが禁止されているものであると判別される場合もある(F609→F615)。
これらの場合は、ユーザーに対してタグファイルTFを提供することができないため、サービス提供部7はステップF615において、文書処理装置1にエラー通知Ieを送信する。
【0320】
文書処理装置1ではエラー通知Ieを受信したら、制御部11は処理を図50のステップF504からF506に進め、エラー処理を行って終了する。エラー処理としては、例えばユーザーに対して、要求したタグファイルTFが得られなかった旨を表示するなどの処理を行う。
以上は、上記パターン[13]としての動作となる。
【0321】
上述したように、文書処理装置1からサービス提供部7に、ユーザー側で作成されたプレーンテキストPTが送信され、オーサリングが求められる場合もある。すなわち上記ステップF602で、プレーンテキストPTの受信が確認された場合である。
このときサービス提供部7は処理をステップF616に進め、受信したプレーンテキストPTをオーサリング装置2に送信し、オーサリングを要求する。
【0322】
オーサリング装置2の制御部72では、このようにサービス提供部7からオーサリングが要求された場合は、上述した図52に示す処理を実行する。すなわちオーサリング要求に応じて処理をステップF701からステップF702に進め、サービス提供部7から送信されてきたプレーンテキストPTを取り込む。
そして制御部72はステップF703で、受信されたプレーンテキストPTに対して図28で示したオーサリング処理を行ない、タグファイルTFを生成し、ステップF704で生成したタグファイルTFをサービス提供部7に送信する。
また制御部72は、ステップF705で、サービス提供部7に対して、オーサリング処理料金の課金処理を行う(図48の課金処理KM2)。
【0323】
サービス提供部7では、図51のステップF617において、オーサリング装置2から送信されてきたタグファイルTFを受信する。但しこの場合は、ユーザーの作成した文書データであるため、データベース3aには記憶しない。(但しユーザーが一般に文書を公開する意志を示す場合は、データベース3aに登録するような処理手順を構築してもよい。)
【0324】
そしてサービス提供部7は処理をステップF618に進め、オーサリング装置2から受信したタグファイルTFを文書処理装置1に送信する。
文書処理装置1ではタグファイルTFを受信したら、制御部11は処理を図50のステップF503からF505に進め、そのタグファイルTFをRAM14又はHDD34等に取り込む。
これにより、上記パターン[14]としての動作が完了する。
文書処理装置1においては、その後、取り込んだタグファイルTFに対して、図5で示した手動分類処理、又は図13で示した自動分類処理が行われることになり、さらに上述した閲覧、要約作成・表示、読み上げなどの各種文書処理が可能となる。
またサービス提供部7側では、ステップF618での送信後において、ステップF619で、文書処理装置1のユーザーに対する課金処理を行う(図48の課金処理KM1)。この場合は、オーサリング動作が行われているが、文書データ自体はユーザが作成したものであるため、オーサリング料金のみの課金処理となる。
以上で一連の処理を終える。
【0325】
以上のように各部における図50、図51、図52の処理により、文書処理装置1側から或るタグファイルTFを要求した場合に、上記パターン[11]〜パターン[14]のいづれかの方式で、必要に応じてオーサリング動作が実行され、タグファイルTFが文書処理装置1に提供される状態となる。又はエラー終了となる。
これによってユーザーは、所望のタグファイルTFを容易に入手することができるシステムが構築され、円滑な文書情報提供が実現される。
またユーザーが作成したプレーンテキストPTについても、タグファイルTFを入手できることになるため、文書処理装置1のユーザーが、当該文書処理システムを有効に利用して、多様かつ独自の文書処理を実現できる。
【0326】
さらにオーサリング装置2は、オーサリングを行なった際に、文書プロバイダ4に対して課金処理を行なうようにすることで、オーサリングサービスに関しての適正な課金が可能となり、システムの構築、発展、普及に寄与できる。
またサービス提供部7は、ユーザーへのタグファイルTFの提供に応じて課金処理を行なうようにすることで、文書提供サービスに関しての適正な課金が可能となり、これもシステムの構築、発展、普及に寄与できる。
また、ユーザーから要求された文書データとしてデータベース3aにタグファイルTFが存在した場合、つまりオーサリングが不要であった場合と、要求された文書データとしてデータベース3aにプレーンテキストPTしか存在しなかった場合、つまりオーサリングが必要であった場合とで、オーサリング料金を含まない/含む、という異なる料金の課金処理を行うことで、システム及びユーザーの双方に対して適正な課金処理が実現される。
さらにユーザー側からプレーンテキストPTが提供された場合は、ユーザーに対してはオーサリング料金のみを課金することで、適切な課金処理となる。
【0327】
さらにまた記録媒体32として、図50の文書処理装置1の処理のためのプログラム、或いは図51のサービス提供部7の処理のためのプログラム、或いは図52のオーサリング装置2におけるオーサリング制御処理のためのプログラムが書き込まれたディスク状記録媒体やテープ状記録媒体、メモリカード、メモリチップ等を提供することが容易に実現できる。
そしてそのような記録媒体によれば、上記してきた文書処理方法を実現するプログラムを提供できることになり、例えば汎用のパーソナルコンピュータ等を用いて、文書処理装置1、サービス提供部7、オーサリング装置2を容易に実現できる。
さらに本例の文書処理システムの動作を実現する各プログラムは、例えばインターネット等のネットワーク通信を介しても提供することができるものであり、従って、プログラムサーバ側もしくは通信過程における記録媒体としても適用できる。
【0328】
なお上記例においてキーワードKWに基づいてデータベース3aの検索を行う場合は、プレーンテキストPT又はタグファイルTFとして、複数の文書データが抽出される場合がある。
上記処理例には示していないが、そのような場合は、複数の文書データが抽出された旨、及び抽出した文書データのリストをサービス提供部7が文書処理装置1に送信し、ユーザーが提供を求める文書データをリストの中から選択できるようにしてもよい。そしてそのユーザーの選択情報が文書処理装置1からサービス提供部7に送信されるようにし、サービス提供部7では選択された文書データがタグファイルTFであれば、それを文書処理装置1に送信する。また選択された文書データがプレーンテキストPTであれば、それについてオーサリング装置2でのオーサリングを求め、その結果得られたタグファイルTFを文書処理装置1に送信するようにするものである。
【0329】
また、上記図51のステップF610又はステップF617でサービス提供部7がオーサリング装置2にオーサリングを求める場合、必ずしもその直後にオーサリングが行われてサービス提供部7がタグファイルTFを入手できるとは限らない。
そこで実際には、ステップF610又はステップF617でオーサリングを求めた場合には、その旨を文書処理装置1のユーザーに通知して一旦各部の通信及び処理を中断する。そしてオーサリング装置2からタグファイルTFが送信されてきた時点で、各部の処理を再開し、サービス提供部6が文書処理装置1にタグファイルTFを送信するようにすることが考えられる。
【0330】
さらに上記例では、ユーザーサイドからは文書処理装置1でユーザーが作成したプレーンテキストPTをサービス提供部7に送信し、そのプレーンテキストPTについてのタグファイルTFを入手できるものとしたが、この場合のプレーンテキストPTは、必ずしもユーザーが文書処理装置1における文書作成機能を用いて作成した文書データでなくてもよい。すなわち記録媒体32或いは通信回線6を介してユーザーサイドが入手したプレーンテキストPTを、例えば図54の文書作成ウインドウ270に呼び出し、それをそのままサービス提供部7に送信して、そのプレーンテキストPTについてのタグファイルTFを入手することも当然可能である。
【0331】
[III]第3の実施の形態
13.文書処理システムの構成
続いて第3の実施の形態としての文書処理システムを説明する。
この第3の実施の形態は、文書処理装置1のユーザーが、特定の分類項目、或いは特定の文書データを指定し、サービス提供部7に検索を要求することで、その分類項目或いは文書データに関連するタグファイルの提供を受けることができるようにするものである。このような動作を、説明上、逆引検索と呼ぶこととする。
つまりユーザーは、既に文書処理装置1に取り込まれている文書データ、或いは分類項目を指定することで、逆引検索として、指定した文書データ又は分類項目に関連するタグファイルを得られることができるようにするものである。
なお分類項目とは、図12で説明した分類モデルに挙げられる分類項目のことで、図10の分類ウインドウ201に表示される各項目に相当する。
【0332】
なお、上記第1の実施の形態において説明した文書処理装置1での各種文書処理や、オーサリング装置2でのオーサリング処理は、この第3の実施の形態においても同様に実行されるものである。
【0333】
図56は、第3の実施の形態のシステム構成を模式的に示すものである。なお、ここではオーサリング処理部2、文書プロバイダ4は示していないが、これらは上記図44、図48と同様であるとする。
また、図48と同様にサービスプロバイダ5とサーバ3によるサービス提供部7を示しているが、図44のように特にサービスプロバイダ5が独立されていない構成でも、本例のサービス提供部7とすることもできる。
【0334】
図示しないオーサリング処理部2、文書プロバイダ4と、サービス提供部7の間の通信情報及び実行される動作は、第1、第2の実施の形態で説明したものと同様であり、従って、サーバ3のデータベース3aにはプレーンテキストPTやタグファイルTFが格納される。
また、文書プロバイダがプレーンテキストPTをデータベース3aに格納させる場合に、上述したオーサリング可否ID(IDa)を付加するようにしてもよい。
【0335】
また通信形態については図示していないが、上述してきた各実施の形態と同様に、文書処理装置1とサービス提供部7、及び図示しないオーサリング処理部2、文書プロバイダ4の間は、通信回線6又は記録媒体32により相互に各種データ通信が可能とされている。
【0336】
14.文書処理システムの動作(文書処理装置からの逆引検索#1)
第3の実施の形態の文書処理システムの動作として、文書処理装置からの逆引検索#1について説明する。なおこの逆引検索#1としての動作例は、オーサリング装置2でのオーサリング動作を伴わない動作例であり、システム動作は基本的には文書処理装置1とサービス提供部7の間の動作となる。
一方、オーサリング装置2でのオーサリング動作を伴なう動作例も考えられるが、それについては逆引検索#2として後述する。
【0337】
第1、第2の実施の形態のシステムにおいて説明したように、サーバ3のデータベース3aには、各種のプレーンテキストPTやタグファイルTFが格納された状態となっているが、本例では、文書処理装置1のユーザーは、或る文書データ又は分類項目を指定して、関連するタグファイルTFをデータベース3aに検索させ、抽出されたタグファイルTFの提供を受けることができるようにしている。
【0338】
そして、このようにしてユーザが求めたタグファイルTFが文書処理装置1に提供されることで、ユーザーサイドでは、指定した文書データもしくは分類項目に関連するものとして新たなタグファイルTFを入手し、そのタグファイルTFについて文書の分類、本文閲覧、要約作成/閲覧、読み上げなどの各種処理を行うことが可能となる。
【0339】
このような逆引検索を実現するために各部で送受信されるデータの内容を図56に示した。
【0340】
文書処理装置1のユーザーからは逆引検索のために分類項目もしくは特定の文書データを指定し、逆引検索実行の操作を行う。
このとき文書処理装置1からサービス提供部7に対して、データベース検索要求通知Isc、及び検索のための特徴データSDを送信する。また指定された分類項目のID(IDct)もしくは、指定された文書データの電子文書ID(IDtxt)も送信する。
特徴データSDとは、指定された分類項目又は文書データの特徴を示す情報であり、具体的な例としては、図6、図12等で説明したインデックスが挙げられる。
【0341】
サービス提供部7は、文書処理装置1からデータベース検索要求通知Iscを受信したら、それに応じて、特徴データSDに基づいてデータベース3aを検索する。この逆引検索#1の動作例としては、データベース3a内のプレーンテキストPTは除外し、タグファイルTFのみを対象として検索することとする。
そしてサービス提供部7は、該当する1又は複数のタグファイルTFが見つかったら、その検索結果としてのリスト情報Lstを生成し、文書処理装置1に送信する。
リスト情報Lstは、抽出された各タグファイルについてのファイル名(及び電子文書ID(IDtxt))のみでもよいし、ファイル名に加えて、概略的な文書内容(短い要約文)或いは文書の一部、特徴データSDからの関連度などを含む情報としてもよい。
なお、検索結果として該当するタグファイルTFが存在しなかった時は、サービス提供部7は文書処理装置1にエラー通知Ieを送信する。この場合文書処理装置1側では、逆引検索動作がエラー終了される。
【0342】
文書処理装置1は、リスト情報Lstを受信したら、その内容を検索結果リストとしてユーザーに提示し、選択を求める。
ユーザーはこれに対し、実際にどのタグファイルTFを求めるかを選択操作することになるが、その選択操作に応じて、文書処理装置1は文書選択情報Selをサービス提供部7に送信する。つまりリスト情報Lstで挙げられたタグファイルTFのうちで、実際にユーザーが求めるタグファイルTFを示した情報である。
なお、ユーザーが検索結果リストを確認して、欲しいタグファイルTFが存在しないと判断したときは、キャンセル操作を行うことになり、その場合は文書処理装置1は、サービス提供部7にキャンセル通知Clを送信する。
【0343】
サービス提供部7は、文書選択情報Selを受信したら、その文書選択情報Selによって示されている1又は複数のタグファイルTF(及び電子文書ID(IDtxt))をデータベース3aから読み出して、文書処理装置1に送信する。なお、このとき逆引検索の基準となった、分類項目のID(IDct)、もしくは電子文書ID(IDtxt)も送信する。
【0344】
サービス提供部7は、キャンセル通知Clを受信した場合は、逆引検索に関する処理を終える。
【0345】
これらのような通信により、文書処理装置1がサービス提供部7に対して逆引検索として或る電子文書又は分類項目に関連するタグファイルTFを求め、結果として検索結果及びユーザーの選択結果に基づいて、特定のタグファイルTFが文書処理装置1に提供されることになる。
【0346】
以上のような逆引検索の動作を実現するための処理として文書処理装置の処理を図57に、またサービス提供部7の処理を図59に示す。なお、図58は文書処理装置1が逆引検索により得たタグファイルTFについての分類処理であり、これについては後述する。
また、図60、図61は、逆引検索の動作過程における文書処理装置1側での表示部30の表示例を示す。
【0347】
ユーザーは、サービス提供部7に対して逆引検索によりタグファイルTFの提供を要求する場合は、まず文書処理装置1において、逆引検索の基準となる分類項目又は文書データを指定する必要がある。
このための処理が、文書処理装置1の制御部11の制御として、図57のステップF801で行われる。
【0348】
具体的な操作例は例えば次のようになる。
文書処理装置1の表示部30に図10に示した分類ウインドウ201が開かれている状態においては、ユーザーは、設定されている分類項目や各分類項目に分類されている文書データを確認できることになる。
例えばこの分類ウインドウ201を利用するようにすることで、ユーザーは任意の分類項目又は文書データを容易に指定できる。
【0349】
図10の例では、「ビジネスニュース」「政治ニュース」などの分類項目が例示されているが、上述したように各分類項目については分類項目チェックボックス221が用意されている。また各文書データについても文書データチェックボックス222が用意されている。
ユーザーはこのような表示に対して、分類項目チェックボックス221をクリックすることで、その分類項目が指定された状態とすることができる。
同様に、文書データチェックボックス222をクリックすることで、その文書データが選択された状態とすることができる。
そして、或る分類項目又は文書データを指定した状態で、逆引検索ボタン202eをクリックする。
すると制御部11は、図60のように、逆引検索の実行確認ウインドウ260を表示部30に表示させる。
この例では、ユーザーが「政治ニュース」という分類項目についての分類項目チェックボックス221をクリックし、図示するようにチェックマーク220が表示された状態で、逆引検索ボタン202eをクリックした場合を示している。
【0350】
図60のように実行確認ウインドウ260においてユーザーがOKボタン261をクリックした場合は、制御部11の処理は図57のステップF801からF802に進む。なお、キャンセルボタン262がクリックされた場合は、処理がキャンセルされ、例えば図10の分類ウインドウ201に戻る。
【0351】
OKボタン261のクリックにより制御部11の処理がステップF802に進んだら、制御部11は、サービス提供部7にデータベース検索要求通知Iscを送信するとともに、上記のように指定された分類項目又は文書データの特徴データSDを送信する。特徴データSDとは指定された分類項目又は文書データについて設定されている1又は複数のインデックスである(図6、図12等参照)。
また、さらに同時に、指定された分類項目を識別するための分類項目のID(IDct)もしくは、指定された文書データの電子文書ID(IDtxt)も送信する。
【0352】
そして以降は、ステップF803、F804として、サービス提供部7からの結果を待つ。ここではリスト情報Lstの送信か、或いはエラー通知Ieを待つことになる。
【0353】
サービス提供部7では、上記の文書処理装置1からの送信により、逆引検索が求められた場合は、処理を図59のステップF901からF902に進め、特徴データSDに基づいてデータベース3aの検索を実行する。ここでは、タグファイルTFを対象として検索を行うことになる。すなわち、特徴データSDに基づいて、ユーザーが指定した分類項目又は文書データに対して関連するタグファイルTFを検索する。
また特徴データSDとしてのインデックスに基づく検索であるため、ここでいう「関連するタグファイル」とは、例えば同じテーマを扱った文書、類似の文書、同一分野の文書、ユーザーが指定した文書データと一連のシリーズを構成する他の文書、同一の分類項目に含まれるような文書、などとなる。
【0354】
検索結果として、特徴データSDに該当する1又は複数のタグファイルTFが得られた場合は、サービス提供部7は処理をステップF903からF905に進め、その1又は複数のタグファイルTFについてのリスト情報Lstを生成する。
ここで生成するリスト情報Lstの内容としては各種の例が考えられる。すなわち上述したように、リスト情報Lstには、抽出された各タグファイルについてのファイル名(及び電子文書ID(IDtxt))のみが含まれるものとしてもよいし、ファイル名に加えて、概略的な文書内容(短い要約文)或いは文書の一部、特徴データSDからの関連度、文書作成日時(データベース3aへの格納日時)などを含む情報としてもよい。関連度とは、図15、図16で説明した語義間関連度に基づいて算出した値としてもよいし、抽出された各タグファイルにおいて、検索のキーとなった1又は複数のインデックスの出現頻度、出現数などから算出される値でもよい。
【0355】
サービス提供部7はリスト情報Lstを生成したら、ステップF906において、そのリスト情報Lstを文書処理装置1に送信する。
なお、サービス提供部7は、抽出された各タグファイルTFを示すリスト情報Lstについて、ファイル名、関連度などに基づいて、リスト上でソートを行うようにしてもよい。
また非常に多数のタグファイルTFがリストに挙げられることもあるため、例えば関連度の高い上位数件或いは10数件のみなど、抽出されたタグファイルTFのうちで一部のタグファイルTFをリスト情報Lstに含ませて、文書処理装置1に送信するようにしてもよい。
また、リスト情報Lstにリストアップされるタグファイル数を、予めユーザーが指定することも考えられる。例えば上記のように逆引検索の要求を行う際に、文書処理装置1からリストアップ数を指定する情報を送信し、サービス提供部7はそれに基づいて送信するリスト情報Lstを作成してもよい。
【0356】
サービス提供部7は、リスト情報Lstを文書処理装置1に送信したら、ステップF907、F908として、文書処理装置1からの文書選択情報Selの送信か、或いはキャンセル通知Clを待つことになる。
【0357】
なおサービス提供部7は、ステップF902の検索結果として該当するタグファイルTFが1つも存在しなかった時は、処理をステップF903からF904に進め、文書処理装置1にエラー通知Ieを送信して処理を終える。
【0358】
文書処理装置1では、エラー通知Ieを受信したら、制御部11は処理を図57のステップF804からF809に進め、エラー処理を行って終了する。エラー処理としては、例えばユーザーに対して、逆引検索に該当するタグファイルTFがデータベース3aに存在しなかった旨を表示するなどの処理を行う。
【0359】
文書処理装置1では、サービス提供部7からのリスト情報Lstを受信した場合は、制御部11は処理を図57のステップF803からF805に進め、図61に示すように、表示部30にリストウインドウ270を表示させ、リスト情報Lstに基づくリスト表示をユーザーに提示する。そしてステップF806,F807で、ユーザーの選択完了又はキャンセル操作を待つ。
【0360】
図61の例は、リストデータLstに、リストアップされた各タグファイルTFについて、少なくともファイル名(及び電子文書ID(IDtxt))、文書作成日時、関連度が含まれていた場合の例であり、従って図示するように、リスト表示部271には、ファイル名表示部分271a、文書作成日時表示部分271b、関連度表示部分271cが用意され、各タグファイルの情報が一覧表示される。
例えばリストデータLstが、関連度の高い順にソートされたデータであったとすると、図示するように関連度の高い順にタグファイルTFが提示される。
【0361】
なお、上述のようにサービス提供部7側で、予じめ関連度の高い上位n件のタグファイルTFのみをリスト情報Lstに含めるようにしたり、或いはソートを行なっておくようにするほか、文書処理装置1側でユーザーが任意にソートや抽出を行うようにすることも考えられる。
例えばサービス提供部7は検索により抽出された全てのタグファイルTFを含むリスト情報Lstを文書処理装置1に送信するようにする。
そして文書処理装置側では、リストウインドウ270上でのユーザーの操作に応じてソートを行うようにするものである。例えば図61の例の場合であれば、ファイル名によるソート、作成日時によるソート、関連度によるソートを、ユーザーが任意に指示できるようにしてもよい。もちろん、作成日時の範囲や、関連度のしきい値をユーザーが入力して、非該当のタグファイルをリスト表示から消すようにすることも有効である。
【0362】
図61のようにリスト表示が提示されると、ユーザーは、その中で所望するタグファイルを選択する。
例えば図示するように各タグファイルについてのチェックボックス275が用意されている場合、必要とするタグファイルTFのチェックボックス275をクリックし、チェックマーク274を表示させる。
1又は複数のタグファイルTFについてチェックマーク274を付す操作を行った後、選択完了ボタン272をクリックすることで、ユーザーの選択操作は完了する。
【0363】
なおユーザーは、リストを確認して必要なタグファイルがないと判断したときは、キャンセルボタン273をクリックすることになる。
キャンセル操作があった場合は、制御部11は処理をステップF807からF808に進め、サービス提供部7に対してキャンセル通知Clを送信する。そして一連の逆引検索の処理を終える。
サービス提供部7では、キャンセル通知Clを受信したら、図59のステップF908から処理を終了する。
【0364】
上記リストウインドウ270において、選択完了ボタン272がクリックされた場合は、制御部11の処理は図57のステップF806からF810に進み、文書選択情報Selをサービス提供部7に送信する。
文書選択情報Selとしては、上記リストウインドウ270においてチェックマーク274が付されたタグファイルTFの電子文書ID(IDtxt)を含むものとする。
制御部11は文書選択情報Selを送信したら、ステップF811でタグファイルTFの受信を待機する。
【0365】
サービス提供部7では、文書選択情報Selを受信したら、処理を図59のステップF907からF909に進め、その文書選択情報Selに含まれている1又は複数の電子文書ID(IDtxt)に相当するタグファイルTFをデータベース3aから読み出す。そしてステップF910として、読み出したタグファイルTF(及び電子文書ID(IDtxt))を文書処理装置1に送信する。なお、このとき指定された分類項目を識別するための分類項目のID(IDct)もしくは、指定された文書データの電子文書ID(IDtxt)も送信する。
【0366】
文書処理装置1では、タグファイルTFを受信したら、制御部11は処理を図57のステップF811からF812に進め、そのタグファイルTFをRAM14又はHDD34等に取り込む。
これにより、逆引検索により要求したタグファイルTFが得られたことになる。
【0367】
文書処理装置1においては、その後、取り込んだタグファイルTFに対して、分類モデルへの分類処理が行われる。これについては図58で後述するが、分類モデルへの分類が行われることで、図10の分類ウインドウ201にも表示され、上述した閲覧、要約作成・表示、読み上げなどの各種文書処理が可能となる。
またサービス提供部7側では、ステップF910での送信後において、ステップF911で、文書処理装置1のユーザーに対する課金処理を行う。すなわち電子文書提供料金を課金する。
以上で一連の処理を終える。
【0368】
以上のように文書処理装置1とサービス提供部7の図57、図59の処理により、文書処理装置1側からの逆引検索要求にかかる動作が実行され、ユーザーが必要とするタグファイルTFが文書処理装置1に提供された状態となる。又はエラー終了、又はキャンセル終了となる。
これによってユーザーは、或る文書データや分類項目に関連するタグファイルTFを容易に入手することができるシステムが構築され、円滑かつ幅広い文書情報提供が実現される。
【0369】
またサービス提供部7は、ユーザーへのタグファイルTFの提供に応じて課金処理を行なうようにすることで、文書提供サービスに関しての適正な課金が可能となり、システムの構築、発展、普及に寄与できる。
【0370】
15.逆引検索後の分類処理
ところで文書処理装置1では、上記逆引検索により取り込まれたタグファイルTFについては、まず分類モデルに分類する処理を行うことになる。
例えば上述した図13の自動分類処理が行われる。
但し、逆引検索の場合は、上述のように分類項目、もしくは既に分類されている或る文書データを指定して、それに関連するタグファイルTFを得るものであるという事情に対応して、自動分類を行う際の処理が一部異なるものとしている。
すなわち、図13の自動分類処理では、ステップF21での取込処理、ステップF22のインデックス作成処理は同様となるが、ステップF23の自動分類は、図14の処理ではなく図58の処理が行われるようにする。
【0371】
なお、図58において、図14と同一の処理ステップは同一のステップ番号を付し、説明を省略する。
この図58の場合は、制御部11は、ステップF63の後に、ステップF65〜F68の処理を行う点で、図14と相違している。
【0372】
図14の説明で述べたように、或るタグファイルTFについてはステップF63までの処理により、分類項目が選定されるわけであるが、この図58の場合はタグファイルをそのまま選定された分類項目に入れるものとはしない。
つまり制御部11は、逆引検索により取り込んだタグファイルTFについては、ステップF63までの文書分類間関連度の処理結果により、ステップF65で、分類先としての分類項目の候補を設定する。
そしてステップF66において、検索データとしての分類項目と、ステップF65で設定した分類項目の候補が一致しているか否かを確認する。
【0373】
ここでいう検索データとしての分類項目とは、上記逆引検索のためにユーザーが或る分類項目を指定した場合は、その分類項目であり、一方逆引検索のためにユーザーが或る文書データを指定した場合は、その文書データが含まれている分類項目のことである。
上述したように逆引検索の結果として、タグファイルTFが送られてくる際には、逆引検索開始時にユーザーが指定した分類項目を識別する分類項目のID(IDct)もしくは、逆引検索開始時にユーザーが指定した文書データの電子文書ID(IDtxt)も送信されてくる。
そこでステップF66では、その送信されてきた分類項目のID(IDct)と、ステップF65で分類先候補として設定した分類項目のID(IDct)が一致しているか否かを確認する。
又は、送信されてきた電子文書ID(IDtxt)が含まれる分類項目のID(IDct)と、ステップF65で分類先候補として設定した分類項目のID(IDct)が一致しているか否かを確認する。
【0374】
ここで、両分類項目が一致した場合は、逆引検索で入手したタグファイルTFを、そのまま分類候補としての分類項目に分類してかまわないため、ステップF64に進んで、分類処理を行う。
ところが、分類項目が一致しなかった場合は、そのまま分類してしまうとユーザーに混乱を来す。
一例を挙げると、「政治ニュース」という分類項目を指定して逆引検索を行って得たタグファイルTFが、自動分類処理により「ビジネスニュース」という分類項目に分類されてしまうこととなってしまうと、ユーザーは入手したタグファイルTFが分類ウインドウ201上で見つけにくい(又は見つけられない)といったことが生ずる可能性もある。
そこで、逆引検索に用いた分類項目と、その結果得られたタグファイルTFについてステップF63までの処理で設定された分類項目が一致しなかった場合は、制御部11は処理をステップF67に進め、表示部30に所要の表示を行って、分類先の候補をユーザーに提示するとともに、分類先の候補をユーザーが任意に変更できるようにする。そしてユーザーに分類先の指定を求める。
【0375】
これに対してユーザーは分類先を指定する入力操作を行い、その操作に応じて制御部は、ステップF68として、ユーザーの指定にかかる分類項目に対して当該タグファイルを分類する処理を行う。
このようにステップF64又はF68での分類処理が行われ、図58の処理、すなわち図13のステップF23の処理を終えたら、続く図13のステップF24によって、分類モデル(図12参照)を更新する。つまりステップF64又はF68での分類処理が有効となるように分類モデルを更新する。そしてステップF25で、更新された分類モデルを例えばRAM14に登録する。
以上の処理により、逆引検索によって得られたタグファイルTFは、所要の分類項目に分類され、またその分類結果は、ユーザーに混乱を来すものではなくなる。
【0376】
16.文書処理システムの動作(文書処理装置からの逆引検索#2)
次に、逆引検索#2の動作例として、基本的には文書処理装置1とサービス提供部7の間の動作となるが、場合によっては、オーサリング装置2でのオーサリング動作を伴なうこととなる動作例について説明する。
なおこの場合のシステム構成及び通信する情報は、上記図56及び図48で説明したとおりとなる。つまり文書処理装置1とサービス提供部7間は、図56のような各種通信が行われる。また、オーサリング動作を伴う場合は、図48において示した、サービス提供部7とオーサリング装置2の間の通信が行われる。
【0377】
オーサリング装置2でのオーサリングが行われるのは、逆引検索を要求された際にデータベース3aから該当するプレーンテキストPTが抽出され、かつユーザーがそのプレーンテキストPTの送信を求めた場合である。
すなわちこの逆引検索#2では、サービス提供部7はデータベース3aにおいてタグファイルTFだけでなく、まだタグファイルTFが生成されていないプレーンテキストPTも検索対象に加えるものとしている。つまり図49(a)のように格納されている文書データも検索対象に含める。
【0378】
この逆引検索#2の動作を実現するための処理として、サービス提供部7の処理を図62に示す。なお文書処理装置1の処理は、上述した図57、図58の処理と同様となるため、図示及び説明を省略する。
【0379】
上記の逆引検索#1の場合と同様に、ユーザーは、サービス提供部7に対して逆引検索によりタグファイルTFの提供を要求する場合は、文書処理装置1において、逆引検索の基準となる分類項目又は文書データを指定する。
それによって文書処理装置1からサービス提供部7に、データベース検索要求通知Isc、指定された分類項目又は文書データの特徴データSD、指定された分類項目の分類項目のID(IDct)もしくは指定された文書データの電子文書ID(IDtxt)が送信される。
【0380】
このような文書処理装置1からの送信により逆引検索が求められた場合は、サービス提供部7では、処理を図62のステップF951からF952に進め、特徴データSDに基づいてデータベース3aの検索を実行する。この場合は、タグファイルTF及びプレーンテキストPTの両方を対象として検索を行うことになる。
そして、特徴データに基づいて、ユーザーが指定した分類項目又は文書データに対して関連するタグファイルTF又はプレーンテキストPTを検索する。
【0381】
検索結果として、特徴データSDに該当する1又は複数のタグファイルTF又はプレーンテキストPTが得られた場合は、サービス提供部7は処理をステップF953に進め、抽出されたプレーンテキストPTの中で、オーサリングが許可されていないプレーンテキストPTを除外する。これは、検索により抽出された文書データ内にプレーンテキストPTが含まれていた場合に、その各プレーンテキストPTについて、上述したオーサリング可否ID(IDa)を確認する処理となる。
【0382】
ステップF952の検索処理及びステップF953の除外処理の結果として、1又は複数の文書データ(タグファイルTF又はプレーンテキストPT)が抽出された場合は、サービス提供部7は処理をステップF954からF955に進め、その1又は複数の文書データについてのリスト情報Lstを生成する。
なお、この場合は、リスト情報Lstの内容としては上述した内容の他、各文書データについてタグファイルTFか、或いはオーサリングが必要となるプレーンテキストPTかを示す情報を付加しておくとよい。
【0383】
サービス提供部7はリスト情報Lstを生成したら、ステップF956において、そのリスト情報Lstを文書処理装置1に送信する。
そしてサービス提供部7は、ステップF957、F958として、文書処理装置1からの文書選択情報Selの送信か、或いはキャンセル通知Clを待つことになる。
【0384】
なおサービス提供部7は、ステップF952の検索処理及びステップF953の除外処理の結果として、該当する文書データが1つも存在しなかった時は、処理をステップF954からF968に進め、文書処理装置1にエラー通知Ieを送信して処理を終える。
図57で説明したように、文書処理装置1では、エラー通知Ieを受信したら、エラー処理を行って処理を終了する。
【0385】
また同じく図57で説明したように、文書処理装置1では、サービス提供部7からのリスト情報Lstを受信した場合は、表示部30にリストウインドウ270を表示してユーザーの選択完了又はキャンセル操作を求める。
そしてその操作に応じて、サービス提供部7に対してキャンセル通知Cl又は文書選択情報Selをサービス提供部7に送信する。
【0386】
サービス提供部7では、キャンセル通知Clを受信したら、図62のステップF958から処理を終了する。
またサービス提供部7では、文書選択情報Selを受信したのであれば、処理をステップF957からF959に進め、文書選択情報Selにおいて指定されている文書データ内に、プレーンテキストPTが含まれているか否かを確認する。
プレーンテキストPTが含まれていなければ、ステップF960で、その文書選択情報Selにより指定されている1又は複数のタグファイルTFをデータベース3aから読み出す。そしてステップF961として、読み出したタグファイルTFとその電子文書ID(IDtxt)、及び分類項目のID(IDct)もしくは最初に指定された文書データの電子文書ID(IDtxt)を文書処理装置1に送信する。
【0387】
図57で説明したように文書処理装置1では、タグファイルTFを受信したら、そのタグファイルTFをRAM14又はHDD34等に取り込むとともに、図58で説明したように分類処理を行う。
サービス提供部7側では、ステップF961での送信後において、ステップF962で、文書処理装置1のユーザーに対する課金処理を行う。すなわち電子文書提供料金を課金する。
【0388】
一方、上記ステップF959において、文書選択情報Selにおいて指定されている文書データとして、プレーンテキストPTが含まれていると判別された場合は、サービス提供部7は処理をステップF963に進め、そのプレーンテキストPT及び電子文書ID(IDtxt)をデータベース3aから読み出して、オーサリング装置2に送信し、オーサリングを要求する。
【0389】
オーサリング装置2では、このようにサービス提供部7からオーサリングが要求された場合は、オーサリング装置2の制御部72は上述した図52に示す処理を実行する。
すなわち図52のステップF701〜F705の処理として、送信されてきたプレーンテキストPTに対して図28で示したオーサリング処理を行ない、タグファイルTFを生成する。そして生成したタグファイルTF(及び電子文書ID(IDtxt))をサービス提供部7に送信するとともに、サービス提供部7に対して、オーサリング処理料金の課金処理を行う。
【0390】
サービス提供部7ではステップF964で、以上のようにしてオーサリング装置2から送信されてきたタグファイルTF及び電子文書ID(IDtxt)を受信し、データベース3aに記憶する。つまり既に記憶されているプレーンテキストPTに対応させた状態でタグファイルTFを記憶する。
【0391】
そしてサービス提供部7は処理をステップF965に進め、文書処理装置1からの文書選択情報Selにより指定されている1又は複数のタグファイルTFをデータベース3aから読み出す。つまりこの時点では、文書選択情報Selにより指定されていたプレーンテキストPTについてタグファイルTFが存在する。
そしてステップF966として、読み出したタグファイルTFとその電子文書ID(IDtxt)、及び分類項目のID(IDct)もしくは最初に指定された文書データの電子文書ID(IDtxt)を文書処理装置1に送信する。
文書処理装置1では、タグファイルTFを受信したら、そのタグファイルTFをRAM14又はHDD34等に取り込むとともに、図58で説明した分類処理を行う。
サービス提供部7側では、ステップF966での送信後において、ステップF967で、文書処理装置1のユーザーに対する課金処理を行う。この場合は、各タグファイルTFについての電子文書提供料金を課金するとともに、当初データベース3aにプレーンテキストPTしか存在しなかった文書データのタグファイルTFについては、オーサリング料金も課金することになる。
【0392】
以上のように文書処理装置1とサービス提供部7の間の動作、及び場合によってはオーサリング装置2の動作を含めて、逆引検索#2としての動作が実現される。
これによってユーザーは、或る文書データや分類項目に関連するタグファイルTFを、より広い範囲で、容易に入手することができる。
【0393】
なお、上述した第2の実施の形態の場合と同様に、サービス提供部7がオーサリング装置2にオーサリングを求める場合、必ずしもその直後にオーサリングが行われてサービス提供部7がタグファイルTFを入手できるとは限らない。
そこで実際には、ステップF963でオーサリングを求めた場合には、その旨を文書処理装置1のユーザーに通知して一旦各部の通信及び処理を中断する。そしてオーサリング装置2からタグファイルTFが送信されてきた時点で、各部の処理を再開し、サービス提供部6が文書処理装置1にタグファイルTFを送信するようにすることが考えられる。
【0394】
また、上述した逆引検索#1、#2としては、データベース3aの検索結果がリスト情報Lstとして一旦ユーザー側に送信され、ユーザーが実際に入手したい文書データを選択するようにしたが、このような動作手順をなくし、検索により抽出された全タグファイルが、そのまま文書処理装置1に送信されるようにすることも考えられる。
【0395】
さらにまた記録媒体32として、上述した図59、又は図62のサービス提供部7の処理のためのプログラムが書き込まれたディスク状記録媒体やテープ状記録媒体、メモリカード、メモリチップ等を提供することが容易に実現できる。
そしてそのような記録媒体によれば、上記してきた逆引検索を実現するプログラムを提供できることになり、例えば汎用のパーソナルコンピュータ等を用いて、サービス提供部7を構成することを容易に実現できる。
さらに本例の逆引検索を実現するプログラムは、例えばインターネット等のネットワーク通信を介しても提供することができるものであり、従って、プログラムサーバ側もしくは通信過程における記録媒体としても適用できる。
【0396】
以上本発明の実施の形態として各種の例を説明してきたが、これらはあくまで一例であり、文書処理システムや各部の構成は多様に考えられる。
また、文書処理装置1やオーサリング装置2における本体10,71、表示部30,79、入力部20,78、通信部21,77、記録/再生部31,80、HDD34,82などの各デバイスの具体的構造、接続形態も多様に考えられる。例えば入力部20,78を例に挙げれば、キーボードやマウスだけでなく、タブレット、ライトペン、赤外線等を利用した無線コマンダ装置等のデバイスも考えられる。
もちろん、複数の記録/再生部を備えたり、プリンタなど、他のハードウエア構成を備えてもよい。
また、文書処理装置1やオーサリング装置2としては、例えば据置型のパーソナルコンピュータ、携帯型のパーソナルコンピュータ、ワークステーションなど汎用の情報処理装置を用いて実現できるが、もちろん専用装置として構成してもよい。
【0397】
また実施の形態において、オーサリング(文書へのタグ付け)の方法の一例を示したが、本発明がこのタグ付けの方法に限定されないことはもちろんである。
さらに、上述の実施の形態においては、タグファイルTFの例として日本語および英語の文章を例示したが、本発明がこれらの言語に限られないことはいうまでもない。
さらに、動画、静止画などのビデオデータが付随する文書データを処理するものであってもよい。
【0398】
また各実施の形態では、オーサリング料金や文書データ提供料金を所定部位から所定部位に課金処理するものとして説明したが、無料のオーサリングシステム、文書データ提供システムとして、これらの課金処理が行われないシステム動作例も考えられる。
【0399】
このように、本発明は、その趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0400】
【発明の効果】
以上の説明からわかるように本発明では、次のような効果が得られる。
即ち本発明の文書処理システム、文書処理方法、端末装置、文書提供装置によれば、端末装置側のユーザーは、分類項目又は文書データを指定することで、その分類項目又は文書データに関連する電子文書を容易に入手することができるという、逆引検索が可能なシステムが構築され、円滑な文書情報提供が実現される。
文書提供装置側からみれば、ユーザーからの指定に応じて、ユーザーが望む電子文書を検索し、提供できることで、電子文書の提供を効率的に実行できるという効果がある。
【0401】
また端末装置からは電子文書又は分類項目の特徴を示す特徴情報とともに、電子文書又は分類項目の識別子を文書提供装置に送信することで、例えば検索結果としての電子文書の提供を受けるときに上記識別子を同時に送信してもらうようにすることで、検索された電子文書の分類の際の処理に有効となる。
【0402】
文書提供装置は、上記検索された電子文書に関連する情報として、検索により抽出された電子文書自体を端末装置に送信することで、検索結果としてユーザーの求める電子文書を即座に提供できる。
また文書提供装置は、検索により抽出された電子文書のリスト情報を、端末装置に送信し、端末装置側ではユーザーがリストの中から特定の電子文書を指定し、文書提供装置では指定された電子文書を端末装置に送信するようにすることで、ユーザーが真に求める電子文書を提供できることになり、ユーザーにとっての利便性や、文書提供動作の効率化を図ることができる。
特に検索において多量の電子文書が抽出される状況を考えると、このようにリスト情報を用いることは非常に好適なものとなる。
【0403】
またリスト情報については、データベースから検索された全ての電子文書について生成することで、広い範囲でユーザーに選択を求めることができる。
また検索された電子文書の中の一部の電子文書について、リスト情報を生成することで、ユーザーにとって選択しやすいものとなる。
また検索された全部又は一部の電子文書についてソート処理を行ってリスト情報を生成することで、ユーザーにとって選択しやすいリストを提供できる。
【0404】
文書提供装置から送信されてきた電子文書については、その特徴に基づいて該当する分類項目を判別するとともに、判別された分類項目が、逆引検索を求める際に指定された分類項目又は指定された電子文書が属する分類項目と一致する場合は、その分類項目に分類することで、適切な自動分類が実行できる。
一方、判別された分類項目が、逆引検索を求める際に指定された分類項目、又は指定された電子文書が属する分類項目と異なる場合は、ユーザーの操作入力に基づいて或る分類項目に分類することで、ユーザーの混乱のない分類が実現できる。
【0405】
また文書提供装置側では、電子文書を端末装置に送信することに応じて、端末装置に対して課金処理を行なうようにしている。これにより、ユーザへの電子文書の提供に応じて適正な課金が可能となるとともに、文書提供を行う文書処理システムの構築、発展、普及に寄与できる。
【0406】
また本発明の記録媒体によれば、本発明の端末装置、文書提供装置を実現するプログラムを提供でき、例えば汎用のパーソナルコンピュータ等を用いて、容易に本発明の端末装置、文書提供装置を実現できるなど、これもシステムの構築、発展、普及に貢献できる。
【図面の簡単な説明】
【図1】本発明の実施の形態の文書処理システムの構成の説明図である。
【図2】実施の形態の文書処理装置のブロック図である。
【図3】実施の形態で用いる文書構造の説明図である。
【図4】実施の形態の文章構造を表示するウインドウの説明図である。
【図5】実施の形態の手動分類処理のフローチャートである。
【図6】実施の形態のインデックス作成処理のフローチャートである。
【図7】実施の形態のエレメントの活性値の説明図である。
【図8】実施の形態の活性拡散処理のフローチャートである。
【図9】実施の形態の中心活性値更新処理のフローチャートである。
【図10】実施の形態の分類ウインドウの説明図である。
【図11】実施の形態の閲覧ウインドウの説明図である。
【図12】実施の形態の分類モデルの説明図である。
【図13】実施の形態の自動分類処理のフローチャートである。
【図14】実施の形態の自動分類のフローチャートである。
【図15】実施の形態の語義間関連度算出処理のフローチャートである。
【図16】実施の形態の語義間関連度の説明図である。
【図17】実施の形態の閲覧ウインドウの表示例の説明図である。
【図18】実施の形態の閲覧ウインドウの要約文を含む表示例の説明図である。
【図19】実施の形態の要約作成処理のフローチャートである。
【図20】実施の形態の文書読み上げ処理のフローチャートである。
【図21】実施の形態の読み上げ用ファイル生成処理のフローチャートである。
【図22】実施の形態のタグファイル例の説明図である。
【図23】実施の形態のタグファイル例の説明図である。
【図24】実施の形態の読み上げ用ファイル例の説明図である。
【図25】実施の形態の読み上げ用ファイル例の説明図である。
【図26】実施の形態の読み上げウインドウの説明図である。
【図27】実施の形態のオーサリング装置のブロック図である。
【図28】実施の形態のオーサリング処理のフローチャートである。
【図29】実施の形態のオーサリング処理のプレーンテキスト表示例の説明図である。
【図30】実施の形態のオーサリング処理の形態素解析時の表示例の説明図である。
【図31】実施の形態のオーサリング処理の形態素の候補の表示例の説明図である。
【図32】実施の形態のオーサリング処理の形態素決定時の表示例の説明図である。
【図33】実施の形態のオーサリング処理の未定義語の表示例の説明図である。
【図34】実施の形態のオーサリング処理の未定義語の処理時の表示例の説明図である。
【図35】実施の形態のオーサリング処理の未定義語の設定時の表示例の説明図である。
【図36】実施の形態のオーサリング処理の未定義語の処理終了時の表示例の説明図である。
【図37】実施の形態のオーサリング処理の形態素処理終了時の表示例の説明図である。
【図38】実施の形態のオーサリング処理の文書構造タグ付加時の表示例の説明図である。
【図39】実施の形態のオーサリング処理の文書構造の係り先候補の表示例の説明図である。
【図40】実施の形態のオーサリング処理のタグ追加時の表示例の説明図である。
【図41】実施の形態のオーサリング処理のタイトル及び文のタグの表示例の説明図である。
【図42】実施の形態のオーサリング処理のタグ付の結果の表示例の説明図である。
【図43】実施の形態のオーサリング処理の文の指し先の表示例の説明図である。
【図44】実施の形態の文書処理システムの通信データの説明図である。
【図45】実施の形態の文書処理システムのデータベースの格納形態の説明図である。
【図46】実施の形態のオーサリング装置の処理のフローチャートである。
【図47】実施の形態の文書処理システムの構成の説明図である。
【図48】実施の形態の文書処理システムの通信データの説明図である。
【図49】実施の形態の文書処理システムのデータベースの格納形態の説明図である。
【図50】実施の形態の文書処理装置の処理のフローチャートである。
【図51】実施の形態のサービス提供部の処理のフローチャートである。
【図52】実施の形態のオーサリング装置の処理のフローチャートである。
【図53】実施の形態のファイル要求ウインドウの説明図である。
【図54】実施の形態の文書作成ウインドウの説明図である。
【図55】実施の形態の文書作成ウインドウからのファイル要求時の表示例の説明図である。
【図56】実施の形態の文書処理システムの逆引検索のための通信データの説明図である。
【図57】実施の形態の逆引検索時の文書処理装置の処理のフローチャートである。
【図58】実施の形態の逆引検索時の自動分類のフローチャートである。
【図59】実施の形態の逆引検索時のサービス提供部の処理のフローチャートである。
【図60】実施の形態の逆引検索時の実行確認ウインドウの説明図である。
【図61】実施の形態のリストウインドウの説明図である。
【図62】実施の形態の逆引検索時のサービス提供部の処理のフローチャートである。
【符号の説明】
1 文書処理装置、2 オーサリング装置、3 サーバ、3a データベース、4 文書プロバイダ、6 通信回線、7 サービス提供部、11,72 制御部、13,73 CPU、14,74 RAM、15,75 ROM、12,76 インターフェース、21,77 通信部、20,78 入力部、30,79表示部、31,80 記録再生部、32 記録媒体、34,82 HDD

Claims (15)

  1. 端末装置と、文書提供装置とを備える文書処理システムにおいて、
    上記端末装置は、
    電子文書をその特徴に基づいて複数の分類項目に分類する分類手段と、
    上記文書提供装置と通信する通信手段と、
    上記複数の分類項目に分類されている電子文書又は上記複数の分類項目のいずれかを指定できるようにされた指定入力手段と、
    上記指定入力手段により指定された電子文書又は分類項目の特徴を示す特徴情報を、上記通信手段を介して上記文書提供装置に送信させる制御手段と、
    を備え、
    上記文書提供装置は、
    複数の電子文書を登録可能なデータベースと、
    上記データベースに登録されている電子文書から所望の電子文書を検索する検索手段と、
    上記端末装置と通信する通信手段と、
    上記通信手段が上記特徴情報を受信した時に、上記検索手段により上記データベースに登録されている複数の電子文書から上記特徴情報と関連する電子文書を検索させ、検索された電子文書に関連する情報を上記通信手段により上記端末装置に送信させる制御手段と、
    を備え
    上記端末装置の上記制御手段は、上記指定情報入力手段により指定された電子文書又は分類項目の特徴を示す特徴情報とともに、指定された電子文書又は分類項目の識別子を、上記通信手段を介して上記文書提供装置に送信させ、
    上記端末装置の上記分類手段は、上記文書提供装置から送信されてきた電子文書について、その特徴に基づいて該当する分類項目を判別するとともに、
    判別された分類項目が、上記指定入力手段により指定された分類項目、又は指定された電子文書が属する分類項目と一致する場合は、上記文書提供装置から送信されてきた電子文書をその分類項目に分類し、
    判別された分類項目が、上記指定入力手段により指定された分類項目、又は指定された電子文書が属する分類項目と異なる場合は、操作入力に基づいて、上記文書提供装置から送信されてきた電子文書を或る分類項目に分類する
    文書処理システム。
  2. 上記文書提供装置の上記制御手段は、上記検索された電子文書に関連する情報として、検索により抽出された電子文書自体を、上記通信手段により上記端末装置に送信させることを特徴とする請求項1に記載の文書処理システム。
  3. 上記文書提供装置の上記制御手段は、上記検索された電子文書に関連する情報として、検索により抽出された電子文書のリスト情報を、上記通信手段により上記端末装置に送信させることを特徴とする請求項1に記載の文書処理システム。
  4. 上記端末装置は、上記通信手段により上記リスト情報が送信された際に、そのリスト情報に挙げられた電子文書の中から特定の電子文書を指定する電子文書指定情報が入力される電子文書指定手段が設けられ、
    上記端末装置の上記制御手段は、上記電子文書指定手段に入力された電子文書指定情報を、上記通信手段を介して上記文書提供装置に送信させることを特徴とする請求項に記載の文書処理システム。
  5. 上記文書提供装置の上記制御手段は、上記端末装置から送信されてきた上記電子文書指定情報により指定される電子文書を、上記通信手段により上記端末装置に送信させることを特徴とする請求項に記載の文書処理システム。
  6. 上記文書提供装置の上記制御手段は、上記検索手段により上記データベースから検索された全ての電子文書について、上記リスト情報を生成し、上記通信手段により上記端末装置に送信させることを特徴とする請求項に記載の文書処理システム。
  7. 上記文書提供装置の上記制御手段は、上記検索手段により上記データベースから検索された電子文書の中で一部の電子文書について、上記リスト情報を生成し、上記通信手段により上記端末装置に送信させることを特徴とする請求項に記載の文書処理システム。
  8. 上記文書提供装置の上記制御手段は、上記検索手段により上記データベースから検索された全部又は一部の電子文書についてソート処理を行って上記リスト情報を生成し、上記通信手段により上記端末装置に送信させることを特徴とする請求項に記載の文書処理システム。
  9. 上記分類手段は、上記文書提供装置から送信されてきた電子文書を分類項目に分類することに応じて、分類情報を更新することを特徴とする請求項1に記載の文書処理システム。
  10. 上記文書提供装置には、電子文書を上記端末装置に送信することに応じて、上記端末装置に対して課金処理を行なう課金処理手段を備えることを特徴とする請求項1に記載の文書処理システム。
  11. 電子文書をその特徴に基づいて複数の分類項目に分類する分類手段と、
    文書提供装置と通信する通信手段と、
    上記複数の分類項目に分類されている電子文書又は上記複数の分類項目のいずれかを指定できるようにされた指定入力手段と、
    上記指定入力手段により指定された電子文書又は分類項目の特徴を示す特徴情報を、上記通信手段を介して上記文書提供装置に送信させる制御手段と、
    を備え
    上記制御手段は、上記指定情報入力手段により指定された電子文書又は分類項目の特徴を示す特徴情報とともに、指定された電子文書又は分類項目の識別子を、上記通信手段を介して上記文書提供装置に送信させ、
    上記分類手段は、上記文書提供装置から送信されてきた電子文書について、その特徴に基づいて該当する分類項目を判別するとともに、
    判別された分類項目が、上記指定入力手段により指定された分類項目、又は指定された電子文書が属する分類項目と一致する場合は、上記文書提供装置から送信されてきた電子文書をその分類項目に分類し、
    判別された分類項目が、上記指定入力手段により指定された分類項目、又は指定された電子文書が属する分類項目と異なる場合は、操作入力に基づいて、上記文書提供装置から送信されてきた電子文書を或る分類項目に分類する
    端末装置。
  12. 上記通信手段により、上記文書提供装置からの、上記特徴情報に基づいて検索された電子文書のリスト情報が受信された際に、そのリスト情報に挙げられた電子文書の中から特定の電子文書を指定する電子文書指定情報が入力される電子文書指定手段が設けられ、
    上記制御手段は、上記電子文書指定手段に入力された電子文書指定情報を、上記通信手段を介して上記文書提供装置に送信させることを特徴とする請求項11に記載の端末装置。
  13. 上記分類手段は、上記文書提供装置から送信されてきた電子文書を分類項目に分類することに応じて、分類情報を更新することを特徴とする請求項11に記載の端末装置。
  14. 電子文書をその特徴に基づいて複数の分類項目に分類する分類手段と、文書提供装置と通信する通信手段と、上記複数の分類項目に分類されている電子文書又は上記複数の分類項目のいずれかを指定できるようにされた指定入力手段と、上記指定入力手段により指定された電子文書又は分類項目の特徴を示す特徴情報を、上記通信手段を介して上記文書提供装置に送信させる制御手段とを備える端末装置の文書処理方法において、
    上記電子文書をその特徴に基づいて上記複数の分類項目に分類する分類手順と、
    上記複数の分類項目に分類されている電子文書又は上記複数の分類項目のいずれかの指定を要求する指定要求手順と、
    上記指定要求手順の要求に応じて指定された電子文書又は分類項目の特徴を示す特徴情報を、文書提供装置に送信する送信手順と、
    が行われ
    上記送信手順は、上記指定要求手順により指定された電子文書又は分類項目の特徴を示す特徴情報とともに、指定された電子文書又は分類項目の識別子を、上記通信手段を介して上記文書提供装置に送信させ、
    上記分類手順は、上記文書提供装置から送信されてきた電子文書について、その特徴に基づいて該当する分類項目を判別するとともに、
    判別された分類項目が、上記指定要求手順により指定された分類項目、又は指定された電子文書が属する分類項目と一致する場合は、上記文書提供装置から送信されてきた電子文書をその分類項目に分類し、
    判別された分類項目が、上記指定要求手順により指定された分類項目、又は指定された電子文書が属する分類項目と異なる場合は、操作入力に基づいて、上記文書提供装置から送信されてきた電子文書を或る分類項目に分類する
    文書処理方法。
  15. 電子文書をその特徴に基づいて複数の分類項目に分類する分類手段と、上記文書提供装置と通信する通信手段と、上記複数の分類項目に分類されている電子文書又は上記複数の分類項目のいずれかを指定できるようにされた指定入力手段と、上記指定入力手段により指定された電子文書又は分類項目の特徴を示す特徴情報を、上記通信手段を介して上記文書提供装置に送信させる制御手段とを備える端末装置の文書処理方法において、
    上記電子文書をその特徴に基づいて上記複数の分類項目に分類する分類手順と、
    上記複数の分類項目に分類されている電子文書又は上記複数の分類項目のいずれかの指定を要求する指定要求手順と、
    上記指定要求手順の要求に応じて指定された電子文書又は分類項目の特徴を示す特徴情報を、文書提供装置に送信する送信手順と、
    が行われ
    上記送信手順は、上記指定要求手順により指定された電子文書又は分類項目の特徴を示す特徴情報とともに、指定された電子文書又は分類項目の識別子を、上記通信手段を介して上記文書提供装置に送信させ、
    上記分類手順は、上記文書提供装置から送信されてきた電子文書について、その特徴に基づいて該当する分類項目を判別するとともに、
    判別された分類項目が、上記指定要求手順により指定された分類項目、又は指定された電子文書が属する分類項目と一致する場合は、上記文書提供装置から送信されてきた電子文書をその分類項目に分類し、
    判別された分類項目が、上記指定要求手順により指定された分類項目、又は指定された電子文書が属する分類項目と異なる場合は、操作入力に基づいて、上記文書提供装置から送信されてきた電子文書を或る分類項目に分類する
    ようにした動作制御プログラムが記録されていることを特徴とする記録媒体。
JP32872899A 1999-11-18 1999-11-18 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体 Expired - Fee Related JP4320491B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP32872899A JP4320491B2 (ja) 1999-11-18 1999-11-18 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
US09/706,170 US7120861B1 (en) 1999-11-18 2000-11-03 Document processing system
KR1020000067169A KR20010082548A (ko) 1999-11-18 2000-11-13 문서처리 시스템
US11/187,661 US7143349B2 (en) 1999-11-18 2005-07-22 Document processing system
US11/383,897 US7941745B2 (en) 1999-11-18 2006-05-17 Method and system for tagging electronic documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32872899A JP4320491B2 (ja) 1999-11-18 1999-11-18 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体

Publications (3)

Publication Number Publication Date
JP2001147927A JP2001147927A (ja) 2001-05-29
JP2001147927A5 JP2001147927A5 (ja) 2007-03-22
JP4320491B2 true JP4320491B2 (ja) 2009-08-26

Family

ID=18213523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32872899A Expired - Fee Related JP4320491B2 (ja) 1999-11-18 1999-11-18 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体

Country Status (3)

Country Link
US (3) US7120861B1 (ja)
JP (1) JP4320491B2 (ja)
KR (1) KR20010082548A (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7500017B2 (en) * 2001-04-19 2009-03-03 Microsoft Corporation Method and system for providing an XML binary format
JP2004220215A (ja) * 2003-01-14 2004-08-05 Hitachi Ltd 計算機を利用した業務誘導支援システムおよび業務誘導支援方法
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP2004348241A (ja) * 2003-05-20 2004-12-09 Hitachi Ltd 情報提供方法、サーバ及びプログラム
JP4673542B2 (ja) * 2003-07-18 2011-04-20 株式会社日立製作所 書類引継装置、書類引継システム及び書類引継方法
JP2005259015A (ja) * 2004-03-15 2005-09-22 Ricoh Co Ltd 文書開示装置、文書開示システム、プログラム及び記憶媒体
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US9330175B2 (en) * 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
CN101124537B (zh) * 2004-11-12 2011-01-26 马克森斯公司 采用术语构建知识关联的知识发现技术
JP4455357B2 (ja) * 2005-01-28 2010-04-21 キヤノン株式会社 情報処理装置及び情報処理方法
EP1693830B1 (en) * 2005-02-21 2017-12-20 Harman Becker Automotive Systems GmbH Voice-controlled data system
US20060271839A1 (en) * 2005-05-24 2006-11-30 David Gottlieb Connecting structured data sets
US7831913B2 (en) * 2005-07-29 2010-11-09 Microsoft Corporation Selection-based item tagging
JP4802672B2 (ja) * 2005-11-14 2011-10-26 株式会社日立製作所 電子文書管理装置、電子文書管理プログラム、電子文書管理システム
US8024653B2 (en) * 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US7676455B2 (en) * 2006-02-03 2010-03-09 Bloomberg Finance L.P. Identifying and/or extracting data in connection with creating or updating a record in a database
JP2007316952A (ja) * 2006-05-25 2007-12-06 Canon Inc 情報処理装置及びその装置におけるデータ管理方法
US20080086490A1 (en) * 2006-10-04 2008-04-10 Sap Ag Discovery of services matching a service request
US20080222517A1 (en) * 2007-03-09 2008-09-11 Task Performance Group, Inc. Applying Patterns to XSD for Extending Functionality to Both XML and non-XML Data Data Structures
JP5067420B2 (ja) * 2007-03-27 2012-11-07 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
CN101364970B (zh) * 2007-08-09 2012-06-20 鸿富锦精密工业(深圳)有限公司 网页资料下载控制系统及方法
US20090083828A1 (en) * 2007-09-26 2009-03-26 Honeywell International, Inc. Method of arming-disarming security panel over un-encrypted communication paths
US8140969B2 (en) * 2007-12-03 2012-03-20 International Business Machines Corporation Displaying synchronously documents to a user
US7917542B2 (en) * 2008-03-04 2011-03-29 Siemens Aktiengesellschaft System and method for minimizing transmitted data between diverse institutions
JP2009277183A (ja) * 2008-05-19 2009-11-26 Hitachi Ltd 情報識別装置及び情報識別システム
US9953651B2 (en) * 2008-07-28 2018-04-24 International Business Machines Corporation Speed podcasting
US9087337B2 (en) * 2008-10-03 2015-07-21 Google Inc. Displaying vertical content on small display devices
US7937386B2 (en) * 2008-12-30 2011-05-03 Complyon Inc. System, method, and apparatus for information extraction of textual documents
US8209629B2 (en) * 2009-01-20 2012-06-26 Microsoft Corporation Context pane with semantic zoom
CN102012900B (zh) * 2009-09-04 2013-01-30 阿里巴巴集团控股有限公司 信息检索方法和系统
US9323769B2 (en) * 2011-03-23 2016-04-26 Novell, Inc. Positional relationships between groups of files
US9767296B2 (en) * 2012-04-02 2017-09-19 Varonis Systems, Inc Requesting access to restricted objects by a remote computer
US9747459B2 (en) * 2012-04-02 2017-08-29 Varonis Systems, Inc Method and apparatus for requesting access to files
KR20140126800A (ko) * 2013-04-22 2014-11-03 한국전자통신연구원 키워드를 이용한 하이퍼링크 표시 장치 및 방법
US10061836B2 (en) 2013-06-04 2018-08-28 Varonis Systems, Ltd. Delegating resembling data of an organization to a linked device
WO2015147798A1 (en) * 2014-03-25 2015-10-01 Interactive Intelligence, Inc. System and method for predicting contact center behavior
US10298756B2 (en) * 2014-03-25 2019-05-21 Interactive Intelligence, Inc. System and method for predicting contact center behavior
KR20150129560A (ko) * 2014-05-12 2015-11-20 한국전자통신연구원 태그 제어 장치 및 방법
JP6600203B2 (ja) * 2015-09-15 2019-10-30 キヤノン株式会社 情報処理装置、情報処理方法、コンテンツ管理システム、およびプログラム
JP2018151854A (ja) * 2017-03-13 2018-09-27 富士ゼロックス株式会社 文書処理装置およびプログラム
US10789281B2 (en) * 2017-06-29 2020-09-29 Xerox Corporation Regularities and trends discovery in a flow of business documents
US11562143B2 (en) * 2017-06-30 2023-01-24 Accenture Global Solutions Limited Artificial intelligence (AI) based document processor
US10650094B2 (en) 2017-11-14 2020-05-12 Adobe Inc. Predicting style breaches within textual content
US11166155B2 (en) * 2019-05-06 2021-11-02 Google Llc Secure communication in mobile digital pages
JP7379987B2 (ja) * 2019-09-20 2023-11-15 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
JPH0749875A (ja) 1993-08-06 1995-02-21 Hitachi Ltd 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
WO1996015505A2 (en) * 1994-11-08 1996-05-23 Vermeer Technologies, Inc. An online service development tool with fee setting capabilities
US6460036B1 (en) * 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5793966A (en) * 1995-12-01 1998-08-11 Vermeer Technologies, Inc. Computer system and computer-implemented process for creation and maintenance of online services
EP0826181A4 (en) * 1995-04-11 2005-02-09 Kinetech Inc IDENTIFYING DATA IN A DATA PROCESSING SYSTEM
US6003048A (en) * 1995-04-27 1999-12-14 International Business Machines Corporation System and method for converting a coordinate based document to a markup language (ML) based document
US6209004B1 (en) * 1995-09-01 2001-03-27 Taylor Microtechnology Inc. Method and system for generating and distributing document sets using a relational database
US5778367A (en) * 1995-12-14 1998-07-07 Network Engineering Software, Inc. Automated on-line information service and directory, particularly for the world wide web
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
US6092035A (en) * 1996-12-03 2000-07-18 Brothers Kogyo Kabushiki Kaisha Server device for multilingual transmission system
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JPH10307816A (ja) * 1997-05-08 1998-11-17 Just Syst Corp 構造化文書処理装置、構造化文書処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10307818A (ja) * 1997-05-08 1998-11-17 Nec Corp 文書変換システム、文書変換方法および文書変換用プログラムを記録した記録媒体
US6035281A (en) * 1997-06-16 2000-03-07 International Business Machines Corporation System and method of multiparty billing for Web access
JPH1139313A (ja) 1997-07-24 1999-02-12 Nippon Telegr & Teleph Corp <Ntt> 文書自動分類システム、文書分類向け知識ベース生成方法及びそのプログラムを記録した記録媒体
JPH1153381A (ja) 1997-08-01 1999-02-26 Toshiba Corp 類似文書検索装置および類似文書検索方法
US6078924A (en) * 1998-01-30 2000-06-20 Aeneid Corporation Method and apparatus for performing data collection, interpretation and analysis, in an information platform
JP3744676B2 (ja) 1998-03-20 2006-02-15 沖電気工業株式会社 情報抽出装置及びその方法
US6539370B1 (en) * 1998-11-13 2003-03-25 International Business Machines Corporation Dynamically generated HTML formatted reports
US7353199B1 (en) * 1999-03-22 2008-04-01 Perfect Web Technologies, Inc. Method of moderating external access to an electronic document authoring development and distribution system
US6986101B2 (en) * 1999-05-06 2006-01-10 International Business Machines Corporation Method and apparatus for converting programs and source code files written in a programming language to equivalent markup language files
JP2001051997A (ja) * 1999-08-11 2001-02-23 Sony Corp 文書データ作成装置、文書データ作成方法、及び記録媒体
US6910182B2 (en) * 2000-01-31 2005-06-21 Xmlcities, Inc. Method and apparatus for generating structured documents for various presentations and the uses thereof
US20020103818A1 (en) * 2000-05-04 2002-08-01 Kirkfire, Inc. Information repository system and method for an internet portal system
SE517132C2 (sv) * 2000-06-27 2002-04-16 Printon Ab Förfarande och system för att skapa ett PDF-dokument
US6691112B1 (en) * 2000-08-01 2004-02-10 Darren Michael Siegal Method for indexing and managing a searchable community of non-HTML information

Also Published As

Publication number Publication date
US7120861B1 (en) 2006-10-10
JP2001147927A (ja) 2001-05-29
US7941745B2 (en) 2011-05-10
US7143349B2 (en) 2006-11-28
KR20010082548A (ko) 2001-08-30
US20050257140A1 (en) 2005-11-17
US20060206464A1 (en) 2006-09-14

Similar Documents

Publication Publication Date Title
JP4320491B2 (ja) 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
JP2001051997A (ja) 文書データ作成装置、文書データ作成方法、及び記録媒体
JP2001043215A (ja) 文書処理装置、文書処理方法、及び記録媒体
US6044365A (en) System for indexing and retrieving graphic and sound data
US6944611B2 (en) Method and apparatus for digital media management, retrieval, and collaboration
US8131747B2 (en) Live search with use restriction
US20050015389A1 (en) Intelligent metadata attribute resolution
US20050066267A1 (en) Information processing system and method, program, and recording medium
WO2001001390A1 (fr) Trieuse-liseuse electronique
JP2005537532A (ja) 自然言語理解アプリケーションを構築するための総合開発ツール
JP4433532B2 (ja) 文書処理装置、文書処理方法、記録媒体
JP3444831B2 (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP4449118B2 (ja) 文書処理装置、文書処理方法、及び記録媒体
JP2001147926A (ja) 文書処理システム、端末装置、サービス提供装置、文書処理方法、記録媒体
JP2010073205A (ja) 文書処理装置、文書処理方法、記録媒体
JP2001014313A (ja) 文書処理装置、文書処理方法、及び記録媒体
JP4798150B2 (ja) 文書処理装置、文書処理方法、及び記録媒体
US7457515B1 (en) Digital data distribution system
JP2001014307A (ja) 文書処理装置、文書処理方法、及び記録媒体
JP2001147915A (ja) 文書処理システム、オーサリング装置、文書処理方法、記録媒体
JP2001034384A (ja) 文書処理装置、文書処理方法、及び記録媒体
JP2001014346A (ja) 携帯端末装置、文書処理システム
JP2001159938A (ja) 文書処理方法、記録媒体、文書処理装置
JP2001022774A (ja) 文書処理装置、文書処理方法、及び記録媒体
JP2010044767A (ja) 文書処理装置、文書処理方法、及び記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090507

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090520

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130612

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees