JP2010211688A - 文書編集装置、データ処理方法及びプログラム - Google Patents

文書編集装置、データ処理方法及びプログラム Download PDF

Info

Publication number
JP2010211688A
JP2010211688A JP2009059317A JP2009059317A JP2010211688A JP 2010211688 A JP2010211688 A JP 2010211688A JP 2009059317 A JP2009059317 A JP 2009059317A JP 2009059317 A JP2009059317 A JP 2009059317A JP 2010211688 A JP2010211688 A JP 2010211688A
Authority
JP
Japan
Prior art keywords
document
character string
input
search
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009059317A
Other languages
English (en)
Inventor
Shuichi Morisawa
秀一 森澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2009059317A priority Critical patent/JP2010211688A/ja
Publication of JP2010211688A publication Critical patent/JP2010211688A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 ユーザが入力している文字列情報から抽出された重要語に関連する文書情報を文書管理装置から自動的に取得することである。
【解決手段】 起動される編集アプリケーションに基づく編集画面に対して、文字が入力されると(S602)、入力された文字列が取得される。そして、入力された文字列の構造を解析して、文書管理装置に登録された文書情報を検索するための重要語を抽出する(S611)。そして、抽出された重要語を文書管理装置に送信する(S612)。そして、文書管理装置での検索結果を取得して文書検索結果画面を表示する(S614)。そして、表示された文書検索結果画面に対する指示に従い、文書入力処理あるいは検索文書の表示処理を行う(616,S617)ことを特徴とする。
【選択図】 図10

Description

本発明は、文書管理装置に登録された文書情報を利用して文書編集を行う文書編集装置に関するものである。
コンピュータを利用することにより、オフィスにおける文書作成はワープロソフト等を用いて電子的に行われることが一般的となっている。更にオフィスのOA化、ネットワーク化により、電子的に作成された文書は必ずしも紙に印刷される過程を経ずにそのまま利用され、記憶装置上に蓄積され、破棄される場合がある。
すなわち、文書はそのライフサイクルを通じて電子的形式で管理されるようになっている。また、インターネットの普及に伴って、電子メール、電子カタログや電子出版物等の電子化された文書情報も大量に流通し、その情報が蓄積され、今後とも、このような電子化された文書の蓄積は加速的に進んでいくと思われる。
そのため、業務の効率化を目的として、オフィス内で文書を共有し、その上でユーザが必要な文書を迅速かつ的確に提供できるよう、文書の管理を行うことが重要である。
ワープロソフトなどで作成された電子データに対する文書共有の方法としては、文書管理システムが既に実用化され、高速かつ効率的に必要な文書を検索できる仕組みが提供されている。
また、紙文書を共有するシステムとして、紙の文書をスキャナなどで読み取り、イメージデータとして管理するイメージ文書管理システムがある。
このような文書管理システムにおいては、ユーザは文書に対するイメージデータを簡単に記憶装置に蓄積でき、かつ、蓄積したイメージデータを効率よく再利用できる手段を求めている。
また、文書管理システムでは、記憶装置に蓄積したイメージデータを再利用するためには、ユーザが必要な情報を含んだイメージデータや電子データを高速かつ効率的に検索する手段が必要不可欠となる。
ユーザが必要な情報を含んだ電子データを高速かつ効率的に検索する手段として、ユーザの必要な内容を含んだ文書を例示し、その文書と類似する文書を検索する類似文書検索が実用化されている。
このように、膨大な量の電子化文書を検索するための手段、手法が様々な技術に基づいて提供されてはいるものの、オフィス内には作成されたまま活用されない文書が多く眠っているのが現状である。また、文書の作成者でさえ、先に作成した文書の存在を忘れてしまって再び同じような内容の文書を作成してしまう場合もあった。
このように作成された文書が十分に活用されていない要因は、蓄積した文書を検索する手順が複雑なため、あるいは検索結果が多数表示されるのでそれらの中からユーザが必要な文書を探し出すのが面倒である等である。
このような事態に遭遇すると、蓄積した文書を探す労力よりも、もう一度同様の文書を作成した方が早いと考えるユーザも少なくない。
また、文書等を検索するには、それぞれの文書が有する属性情報などのメタデータや、文書内容に含まれるテキストデータなどを指定する必要がある。さらに、適切な量の文書を検索結果としてヒットさせるためには、検索条件の指定の仕方に慣れや工夫が必要となる。
一方、文書管理システムにおいて、ユーザがある文書を編集中に、過去に作成された別の文書を参考にしたいと考えたとき、編集中の内容に関連の強い文書を簡単な操作でリアルタイムに検索できると便利である。
さらに、文書管理システムには、記憶装置には蓄積しているが参照されることの少ない埋もれた文書の存在を、再利用に効果的なタイミングでユーザに気付かせる文書管理システムを提供することが生産性向上の観点からも求められている。
また、従来、編集中の文書のある部分に類似した内容を持つ他の文書を、編集作業を中断せずに検索するための技術として、例えば特許文献1に開示されているものが存在する。
電子化文書を蓄積して管理する特許文献1に示す文書管理システムでは、文書の蓄積時に文書を段落毎等にグルーピングしてサブドキュメント化し、サブドキュメント単位でベクタ表現に変換した転置ファイルとして格納しておく必要がある。
そして、ユーザは画面表示されている文書の任意の範囲を指定すると、その範囲の文字列の構造を解析した結果に基づいてクライアントが検索条件を生成する。そして、サーバがクライアントから検索条件を受け付けとると、サーバは検索条件をベクタ表現に変換し、それに基づいて転置ファイル群から該当するサブドキュメントを検索する。
このような技術を用いることにより、文書の編集中にリアルタイムで必要な情報を検索することができ、文書中の必要な箇所を検索対象とすることが可能となる。
特開平11−045255号公報
しかしながら、上述した特許文献1に示される技術では、ユーザが文書中で検索したい場所をその都度範囲指定する必要があり、例えば、編集中の文書近傍から自動的にキーワードを抽出して無意識のうちに検索が実行されるようなことは期待できない。
また、探している文書が記憶装置に存在することを前提としているため、意図的に検索処理をキックする必要があり、文書の作成者が一旦文書編集作業を中断し、検索行為に切り換える必要があるため、効率の良い文書の作成の妨げとなる場合があった。
本発明は、上記の課題を解決するためになされたもので、本発明の目的は、ユーザが入力している文字列情報から抽出された重要語に関連する文書情報を文書管理装置から自動的に取得できる仕組みを提供することである。
上記目的を達成するために、本発明の文書編集装置は、文書管理装置に登録された文書情報を参照して文書編集を行う文書編集装置であって、アプリケーションに対して文字列が入力されたことに応じて、当該入力された文字列を自動的に取得する取得手段と、前記取得手段が取得する前記文字列の構造を解析して前記文書情報を検索するための重要語を抽出する抽出手段と、前記抽出手段により抽出された前記重要語を前記文書管理装置に送信する送信手段と、前記文書管理装置が前記重要語に基づいて検索した文書情報を取得するための検索結果を表示する検索結果表示手段と、を備えることを特徴とする。
本発明によれば、ユーザが入力している文字列情報から抽出された重要語に関連する文書情報を文書管理装置から自動的に取得できる。
本実施形態を示す文書編集装置と文書管理装置とを含む文書管理システムの構成を示す図である。 図1に示した文書管理サーバのハードウエア構成を示すブロック図である。 クライアントPCのハードウエア構成を示すブロック図である。 クライアントPCのソフトウエア資源の構成を示す図である。 文書作成アプリケーションで作成した文書の例を示す図である。 文書管理サーバの文書管理処理に関わる構成を示すブロック図である。 文書管理装置のデータ処理手順を示すフローチャートである。 文書管理サーバの文書内単語統計情報の構造を示す図である。 文書管理サーバの単語統計情報の構造の示す図である。 情報処理装置のデータ処理手順を示すフローチャートである。 ディスプレイに表示されるUIを示す図である。 文書管理装置のデータ処理手順を示すフローチャートである。 ディスプレイに表示される文書編集画面の一例を示す図である。 単語統計情報管理手段が管理する文書内単語統計情報の一例を示す図である。
次に本発明を実施するための最良の形態について図面を参照して説明する。
<システム構成の説明>
〔第1実施形態〕
図1は、本実施形態を示す文書編集装置と文書管理装置とを含む文書管理システムの構成を示す図である。本例の文書管理システムは、文書管理機能を備える文書管理サーバ101、および文書編集機能を備えるクライアントPC(Personal Computer)102をLAN(Local Area Network)103を介して接続した例である。104は例えばハードディスクで構成される外部記憶装置で、クライアントPC102に提供する文書情報や検索に必要な複数の辞書を記憶している。なお、クライアントPC10102は、後述するハードウエア資源と、ソフトウエア資源とを備え、インストールされているアプリケーションを実行して文書編集処理を行う。
図2は、図1に示した文書管理サーバ101のハードウエア構成を示すブロック図である。
図2に示す文書管理システムにおいて、201はマイクロプロセッサとして構成されるCPUで、文書検索処理のための演算、論理判断等を行い、バス216に接続された各構成要素をバス216を介して制御する。
また、CPU201は、ROM202又はHDD211に格納された制御プログラムに基づき後述の各フローチャートに示す処理を実行する。また、CPU201は、文書検索結果をディスプレイ209に表示制御する手段としても動作する。バス216は、CPU201の制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、バス216は、各構成要素間のデータ転送を行う。
ROM202は、読み出し専用の固定メモリであり、CPU201により実行される制御プログラム等を記憶している。RAM203は、書き込み可能なランダムアクセスメモリであり、各構成要素からの各種データの一時記憶に用いる。
キーボード205およびマウス207はそれぞれ、データのリードを制御するキーボードI/F(InterFace)204およびマウスI/F206を介してバス216に接続され、各種データ入力や各種指示に用いる。
ディスプレイ209は、CRT或いは液晶ディスプレイ等から構成されており、ディスプレイI/F208を介してバス216に接続され、文書検索結果の画面等を表示する。
HD(ハードディスク)211はデータのリード/ライトを制御するHDD(ハードディスクドライブ)210を介してバス216に接続される。
HD211は、単語毎にベクトル表現時のそれぞれの次元(分類基準)に対応した特徴量を記憶した特徴量記憶用辞書や、検索条件文から単語を抽出する際の形態素解析に用いる形態素解析用辞書などの複数の辞書を備える。さらに、HD211は、検索対象となる複数の文書ファイルを記憶した文書データベース等を格納している。
CD−ROMドライブ212は外部記憶媒体であるCD−ROM213内に記録されたデータのリードを制御するドライブで、上記HD211と同等に使用することが可能である。
LAN(Local Area Network)215はLAN I/F214を介して外部装置との間でデータ交換を行う装置である。ここで、外部装置とは、図1に示したクライアントPC102等が含まれる。なお、クライアントPCは、後述する図3に示すハードウエア資源を備えている。
かかる各構成要素からなる文書管理システムは、キーボード205またはマウス207からの各種の入力に応じて作動する。そこで、本システムは、キーボード205またはマウス207からの入力が行われると、まずインタラプタ信号がCPU201に送られる。次に、CPU201はインタラプタ信号に従いROM202内に記憶してある各種の制御信号を読み出し、それらの制御信号に従って各種の制御を行う。
図3は、図1に示したクライアントPC(Personal Computer)102のハードウエア構成を示すブロック図である。
図3において、1501はCPUで、ROM1502に記憶される制御プログラムを実行して、バス1514に接続される各デバイスを制御する。1503はRAMで、CPU1501のワークメモリとして機能する。HD(ハードディスク)1511はデータのリード/ライトを制御するHDD(ハードディスクドライブ)1510を介してバス1514に接続される。なお、HDD1510には、オペレーティングシステム(OS)がインストールされ、CPU1501は、当該OSの管理の下で、RAM1503にロードする各種のアプリケーション、デバイスドライバを実行する。
1509はディスプレイで、ディスプレイI/F1508を介してバス1514に接続される。1505はキーボードで、キーボードI/F1504を介してバス1514に接続されている。1507はマウスで、マウスI/F1506を介してバス1514に接続されている。1513はLANで、LAN I/F1512を介してバス1514に接続されている。
HD211は、オペレーティングシステム(OS)を含むアプリケーションがソフトウエア資源として記憶されている。以下、図3を参照して、HD211に格納されているソフトウエア資源について説明する。
図4は、図3に示したクライアントPC102のソフトウエア資源の構成を示す図である。ここで、ソフトウエア資源は、HDD1511にインストールされており、RAM1503にロードされてCPU1501が実行することで、後述する重要語の抽出処理を含む文書検索処理等を実行する。
図4において、抽出エージェント301は、クライアントPC102内に常駐して動作する本文書管理システムの独立モジュールであり、文書管理サーバ101との通信を行う。本実施形態では、抽出エージェント301は、図6に示す検索サービス502のエージェントとして機能するモジュールである。
抽出エージェント301は、クライアントPC102の上で起動された後述する文書作成アプリケーション3108に対して入力された文字列情報を取得して言語的に解析し、その結果を文書管理サーバ101に送信する。
また、抽出エージェント301は、編集文書情報取得手段310、重要語決定手段306、記憶手段308、および通信手段309から構成される。
ここで、編集文書情報取得手段310は、文字列取得手段302、入力文字数計測手段304、入力時間計測手段305、およびページ取得手段307の複数個のモジュールから構成されている。
また、重要語決定手段306は、形態素解析手段303、単語統計情報管理手段311、および単語ランキング付与手段312の各モジュールから構成される。
編集文書情報取得手段310は、ユーザが文書作成アプリケーション3108で編集中の文書に対する入力などの情報を、文書作成アプリケーション3108が提供するアプリケーション開発者用関数群3110を使用して取得する機能を有する。
ここで、文字列取得手段302は、クライアントPC102上で文書作成アプリケーション3108が起動中の場合にそのサービスの動作を検知する。その際、文字列取得手段302は、文書作成アプリケーションのAPI(Application Program Interface)を呼び出す。そして、文字列取得手段302は、呼び出したAPIにより、ユーザが文書作成アプリケーション3108に対して入力する全ての文字列を監視しながら取得して、後述する抽出エージェント301内部の記憶手段308に一時的に記憶する。
このAPIについては、後述のアプリケーション開発者用関数群3110の説明において詳述する。
入力文字数計測手段304は、前述した文字列取得手段302が取得する文書作成アプリケーション3108に入力された文字列の文字数を計測する。入力時間計測手段305は、文書作成アプリケーション3108に対して文字列が入力されるタイミングを常時計測する。
ページ取得手段307は、後述する文書作成アプリケーション3108のアプリケーション開発者用関数群3110の中のページ判別関数3117を呼び出すことにより、編集中の文書のページ情報を取得する。
重要語決定手段306は、文書内の文字列を形態素に分解した後、後述するアルゴリズムに従って意味的に重要と思われる単語を決定する処理を行う。そのうち、形態素解析手段303は、文字列を後述する記憶手段308に記憶された言語辞書を参照しながら言語的に解析し、言語が日本語の場合に形態素に分解する処理を行う。ここで、対象となる文字列とは、文字列取得手段302が記憶手段308に格納した文書作成アプリケーション3108の文字列である。
単語統計情報管理手段311は、編集中の文書から抽出された見出し語となる単語、およびその出現頻度を算出し、当該文書の文書内単語統計情報を得る。さらに、単語統計情報管理手段311は、通信手段309を経由して文書管理サーバ101と通信することによって、文書管理サーバ101に格納されている文書全体の単語統計情報515を取得して管理する。
単語ランキング付与手段312は、単語統計情報管理手段311が算出し管理する各種統計情報から統計的手法により単語の重要度を算出して単語群のランキングを行う。
なお、抽出エージェント301の残りの構成要素のうち、記憶手段308は、上述した言語辞書のほか、既に説明した抽出エージェント301を構成する各構成要素が行った処理の結果を一時的に記憶しておくための場所としても機能する。
なお、言語辞書の容量が大きくてクライアントPC102の記憶容量を越える場合は、図6を用いて説明する通り、文書管理サーバ101が備える言語辞書を参照する構成としてもよい。
具体的には、抽出エージェント301の通信手段309と文書管理サーバ101の通信手段514との間で通信を行うことにより、文書管理サーバ101側の辞書を参照する。
最後に通信手段309は、クライアントPC102と文書管理サーバ101との間で以下の通信処理を行う。1つ目の通信処理は、抽出エージェント301が文書作成アプリケーション3108の管理する文書を解析した結果求めた重要語を文書管理サーバ101に送信する処理である。2つ目の通信処理は、文書管理サーバ101に送信した重要語に対してして文書管理サーバ101側でそれを検索キーとして文書の検索を行った結果を受信する処理である。
文書作成アプリケーション3108は、本発明の構成要素ではないが、本発明における処理と密接に関係するので、オフィス等のPC環境でよく使用される一般的な文書作成ソフトを例にしてその構成を簡単に説明する。
文書データ一時記憶領域3109は、ユーザ操作により表示または編集される文書のデータを一時的に保存しておくためのバッファであり、例えばRAM1503上に確保される。
アプリケーション開発者用関数群3110は、当該文書作成アプリケーション3108と連携して動作するAPI(Application Program Interface)から構成されている。ここで、APIは、アプリケーションソフト全般を開発する開発者ユーザのために当該文書作成アプリケーション3108を作成した開発元により公開されたものである。
以下、APIのうちで本発明における抽出エージェント301が使用するものだけを説明する。
見出しレベル判別関数3111は、文書作成アプリケーションが提供する文字列入力機能を使用してユーザにより入力された見出し文字列の見出しのレベルを判定するためのAPIである。ここで見出しのレベルについて図5を参照して説明する。
図5は、図4に示した文書作成アプリケーション3108で作成した文書の例を示す図である。なお、本例において、文書作成アプリケーション3108がページの概念を持つ場合には、図5で示したものはそのうちのある1ページであるとする。このような文書編集が実行されて文字列が入力された場合、文書内容に応じて異なるサイズの文字が入力され、かつ、文字の入力位置も編集された文書に応じて特定される。したがって、後述する図10に示す処理に従い、入力された文字列の位置やサイズを解析することで、編集されているページで、それぞれの文字列が重要語として対応する見出し語であるかどうかを判別することが可能となる。
図5において、点線の枠401内の文字列は本ページの中で最もフォントの大きさが大きく、またインデントの深さも最も浅いため、見出しのレベルを「1」と定義する。
次に、点線の枠402、404、および枠407内の文字列は、枠401内の文字列の次にフォントの大きさが大きく、またインデントの深さもその次にあたるため、それら3つの文字列の見出しのレベルを「2」と定義する。
同様にして、点線の枠403および枠405内文字列は見出しレベルが「3」、さらに406の枠内の文字列は見出しのレベルを「4」とする。このようにページ中のすべての文字列の中でフォントのサイズの順序、またはフォントサイズそのものの値、および文字列の頭に挿入されたインデントの深さの情報に基づいて見出しレベルが定義される。
ここで文字列のフォントサイズはAPIのうちで後述するフォントサイズ取得関数3113を使用して取得処理が行われる。
図4に戻って、見出し文字列キャプチャ関数3112は、指定した見出しレベルの文字列をページ中から取得する関数である。
フォントサイズ取得関数3113は、指定した見出し文字列のフォントサイズを判定して返す関数である。入力文字数計測関数3114は、クライアントPC102にログインしているユーザが起動中の当該文書作成アプリケーション3108で作成している文書に対して入力した文字の文字数をカウントする関数である。
経過時間計測関数3115は、同じく当該文書作成アプリケーション3108を使用しているユーザが当該文書に対して行う文字入力操作を常時監視して、ある文字が入力されてから次の1文字が入力されるまでに要した時間を計測している。
インデントレベル判別関数3116は、見出し文字列が入力された際に設定されたインデントの深さを判別する関数である。
ページ判別関数3117は、文書作成アプリケーション3108がページの概念を有する場合に限り、ユーザが開いている文書のページ情報を取得して返す関数である。
図6は、図1に示した文書管理サーバ101の文書管理処理に関わる構成を示すブロック図である。
図6において、文書圧縮伸長手段501は、後述する文書記憶手段508に格納された文書原文を圧縮して文書記憶手段508に圧縮文書として格納する。また、文書圧縮伸長手段501は、文書記憶手段508に格納された圧縮文書を伸長する処理を行う。
形態素解析手段513は、文書記憶手段508に格納された圧縮文書を文書圧縮伸長手段501により伸長したものからテキスト部分を取得し、後述する辞書509を参照しながら形態素解析を行い、テキストを形態素に分解する。統計情報抽出手段503は、後述する単語統計情報515、および文書内単語統計情報512を作成する。
通信手段514はクライアントPC内102の抽出エージェント301が有する通信手段309と通信を行う。文書記憶手段508は、文書管理サーバ101に登録された文書を文書圧縮伸長手段501により圧縮して格納する。
単語統計情報515は、文書集合における単語の頻度・分布などを記憶したもので、ある単語の全文書中での総出現頻度や出現文書数を高速に求めることができる。文書内単語統計情報512は、文書ごとの当該文書に含まれる単語の統計情報を記憶する。
辞書509は、図4に示した抽出エージェント301の構成要素である記憶手段308に記憶された言語辞書と同じものである。
検索サービス502は、インデックス作成手段504、全文検索手段505、結果表示手段506、インデックスファイル510、および検索結果記憶手段511から構成される。
インデックス作成手段504は、形態素解析手段513が出力した形態素を文書における出現位置とともにインデックスファイル510に記録する。全文検索手段505は、検索を行うユーザが入力した検索語をインデックスファイル510から検索し、その文書と出現位置のペアからなるリストを後述の結果表示手段506に返す。
結果表示手段506は、全文検索手段505から受け取った文書リストを表示する処理を行う。なお、本実施形態においては、文書管理サーバ101側で検索結果の表示は行わず、文書リストをクライアントPC102に送信して抽出エージェント301により表示するため、ここで説明した結果表示手段506は使用しない。
インデックスファイル510には、文書記憶手段508に格納された全ての文書にわたるインデックス、すなわち形態素の情報が記録される。そのため、各インデックスには文書を一意に識別する文書IDもあわせて記録されているので、ある単語が与えられたとき、その単語を含む文書および文書内におけるその単語の出現位置を素早く検索することができる。
なお、インデックスファイルには形態素単位でインデックスを作成する代わりにテキストのすべての連続するN文字を取り出し、各N文字列を1個のインデックスとしてインデックスファイルに登録する検索システムも知られており、本発明においてはどちらの方法で実施しても構わない。
検索結果記憶手段511は、検索結果を一時的に記憶する場所で、直前に実行した検索結果に対して検索条件を付加して絞込み検索を行う場合に使用する。以上が検索サービスの構成要素である。
最後に要約生成手段507であるが、文書記憶手段508に格納された文書の内容の要約を生成するためのものであり、その方法は良く知られているためここでは説明は省略する。
次に、単語統計情報の作成処理およびインデックス作成処理について図7のフローチャートを参照しながら説明する。
図7は、本実施形態を示す文書管理装置におけるデータ処理手順の一例を示すフローチャートである。本例は、文書管理サーバ101に対して新規に文書が登録された場合、または文書管理サーバ101に格納されている文書が編集され再保存(更新登録)された場合に行われる単語統計情報の作成処理およびインデックス作成処理例である。なお、S1201〜S1205は各ステップを示す。
また、各ステップは、図6に示した文書管理サーバ101が備えるソフトウエアをCPU201が実行することで実現される。なお、インデックス作成処理は、図6に示した文書管理サーバ101のインデックス作成手段504により作成される。
まず、S1201で、文書管理サーバ101のCPU201は、文書記憶手段508に記憶される文書が更新されたかどうかを判断する。ここで、文書が更新されるとタイミングとしては、クライアントPC102上で起動された文書作成アプリケーション3108から文書管理サーバ101に対して新しい文書が登録された場合がある。さらに、文書記憶手段508に格納された文書集合のいずれかの文書がクライアントPC上の文書作成アプリケーションに呼び出され、ユーザにより編集されたのち文書管理サーバに再保存される場合とがある。
ここで、文書が更新されたと文書管理サーバ101のCPU201が判断した場合は、S1202へ進む。
そして、S1202で、形態素解析手段513は、更新された文書に対して形態素解析を行う。次に、S1203で、辞書509を利用して前処理として動作する統計情報抽出手段503が文書集合における単語の頻度・分布などの単語統計情報515を抽出する。次に、S1204で、統計情報抽出手段503が文書ごとの当該文書に含まれる単語の統計情報である文書内単語統計情報512を抽出する。
図8は、図6に示した文書管理サーバ101の文書内単語統計情報512の構造の一例を示す図である。
図9は、図6に示した文書管理サーバ101の単語統計情報515の構造の一例を示す図である。
図9において、単語統計情報515は、統計情報抽出手段503によって抽出された単語の統計情報を、例えば図8に示すようなテーブルとして格納する。このテーブルを利用することにより、例えば単語「アーカイブ」の全文書中での総出現頻度や出現文書数を高速に求めることができる。
また、文書内単語統計情報512は文書ごとの単語の統計情報を、例えば図9に示すようなテーブルとして格納する。これにより、例えば文書番号「00001」には単語「API」が7回、単語「インタフェース」が12回出現する、といった文書ごとの統計情報を高速に求めることができる。
図7に戻り、S1205で、インデックス作成手段504が形態素解析の結果をインデックスファイルに反映する処理を行い、処理を終了する。
次に、図10を参照しながら本発明の動作を説明する
図10は、本実施形態を示す情報処理装置におけるデータ処理手順の一例を示すフローチャートである。本例は、クライアントPC102上で動作する抽出エージェント301で行う処理例である。なお、S601〜S617は各ステップを示す。また、各ステップは、図3に示したCPU1501がRAM1503上に文書作成アプリケーション3108をロードして実行することで実現される。ここで、抽出エージェント301は、クライアントPC102側で動作する文書管理サーバ101のエージェントとして機能し、ユーザが編集中の文書に対する文字入力をアプリケーションが提供するAPIを監視している。
そして、APIを介して監視している文字列が、ページや段落の内容を規定する文字列であると認識することで、単語分割を行いキーワードとして機能する見出し語を抽出する。また、機能の異なる各文書編集アプリケーション間でテキストをインポートとするためのAPIを利用可能であれば、それぞれの文書編集アプリケーションで入力された見出しスタイルや、スライドスタイルから文字列を抽出できる。同様に、それぞれの文書編集アプリケーションで入力されたサブタイトルからも文字列を抽出することができる。
クライアントPC102上で文書作成アプリケーション3108が起動され、文書の編集がユーザにより開始される。
まず、S601で、文字入力モードとなり、図4に示した抽出エージェント301の入力時間計測手段305は、文字が入力されるまでの経過時間の計測を開始する。ユーザがキーボード1505等を操作して文字が入力されると、計測した経過時間の結果を記憶手段308に記憶する。
次に、ユーザがキーボード1505等を操作して新しい1文字が入力されると、直前に入力された文字を入力した時刻から今回入力された文字を入力した時刻との間の経過時間が計測さる。そして、その差分時間の結果が記憶手段308に上書きされる。すなわち、記憶手段308には、入力時間計測手段305が計測した時間、すなわち、直前の入力文字から最新の入力文字を入力するのに要した時間のみが常に更新されて記憶される。
このようして経過時間の計測を開始したら、S602で、ユーザがキーボード1505等を操作して文字の入力があるかどうかを常に監視することで、文字の入力の有無を抽出エージェント301の文字列取得手段302が判断する。
そして、S602で、文字の入力があったと抽出エージェント301の文字列取得手段302が判断した場合、S603へ進む。そして、S603で、抽出エージェント301が入力された文字の見出しレベルの判定処理を行う。
これは、抽出エージェント301の文字列取得手段302が文書作成アプリケーション3108のアプリケーション開発者用関数群3110の見出し文字列キャプチャ関数3112を呼び出すことで実行される。
そして、文字列取得手段302が呼び出した見出し文字列キャプチャ関数3112を用いて入力された文字列を取得し、まずそれを記憶手段308に記憶する。
ここで、もし、入力文字の前にインデントが挿入されていた場合には、その深さをアプリケーション開発者用関数群3110のインデントレベル判別関数3116を呼び出して判別し、その結果を記憶手段308に記録する。
次に、抽出エージェント301の文字列取得手段302が文書作成アプリケーション3108のアプリケーション開発者用関数群3110の見出しレベル判別関数3111を呼び出す。そして、文字列取得手段302が呼び出した見出しレベル判別関数3111を用いて、記憶手段308に記憶した文字の見出しレベルを判定する。
次に、S604で、判定された文字の見出しレベルがこの直前に入力された文字の見出しレベルと同じかどうかを記憶手段308の内容に基づいて文字列取得手段302が判断する。
ここで、判定された文字の見出しレベルがこの直前に入力された文字の見出しレベルと同じであると文字列取得手段302が判断した場合は、当該入力文字に対する処理はここで終了し、S602へ戻り、次の入力文字を同様に監視する。
一方、S604で、文字の見出しレベルが直前に入力された文字の見出しレベルと異なっていると文字列取得手段302が判断した場合には、S605へ進む。
そして、S605で、直前に入力された文字の見出しレベルが予め閾値として定められた所定レベル以上かどうかを文字列取得手段302が判断する。ここで、文字の見出しレベルが所定のレベル未満であると文字列取得手段302が判断した場合は、S602へ戻り、次の入力文字を同様に監視する。
一方、S605で、文字の見出しレベルが所定のレベル以上であると文字列取得手段302が判断した場合は、S611へ進む。なお、S611における重要語の決定処理は後述する。また、本実施形態では、クライアントPC102において、S611で重要語が抽出されたことに応じて、文書管理サーバ101に登録された文書情報を検索する文書検索モードが自動的に設定され、S611以降の処理を実行する。
上述したようにS602では、文字の入力を常時監視している間、抽出エージェント301の入力時間計測手段305は文字が入力されてから次の文字が入力されるまでの経過時間を計測している。ここで、文字の入力がないと抽出エージェント301の文字列取得手段302が判断した場合は、S606へ進む。
そして、S606で、次の文字が入力されるまでの間に予め閾値として定められた所定時間が経過したかどうかを抽出エージェント301の入力時間計測手段305が判断する。そして、入力時間計測手段305が所定時間を経過したと判断した場合は、S607へ進む。
そして、S607で、ページ内の文字列を取得する処理を行う。具体的には、抽出エージェント301の文字列取得手段302がアプリケーション開発者用関数群3110の中の見出し文字列キャプチャ関数3112を繰り返し呼ぶことでページ内の全ての見出しの文字列を取得する。
そして、S608で、文字列取得手段302が取得したページ内の見出し文字列の総数とあらかじめ閾値として定められた文字数との比較判定を行い、所定値(閾値)以上の文字数であるかどうかを判断する。ここで、もしページ内の見出し文字列総数が閾値未満であると文字列取得手段302が判断した場合は、S609へ進み、ユーザが編集中のページ以外のページが当該文書に存在するかをページ取得手段307が判断する。そして、他のページがあるとページ取得手段307が判断した場合は、S607へ戻り、他のページがないと判断した場合は、S602へ戻る。
一方、S608で、もしページ内の見出し文字列総数が閾値以上であると文字列取得手段302が判断した場合は、S610へ進む。
そして、S610で、文字列取得手段302が見出しレベルに関してあらかじめ定められた閾値以上のレベルを持つ見出し文字列のみを選択する。これは、S607で取得したページ内の文字列が記憶手段308に格納されているので、そこから文字列取得手段302が取得する。
なお、S601、S602、S606〜S610へ進む処理と、S603〜S605へ進む処理とで、結果として、入力された文字列の構造を解析して文書検索のための重要語を特定される。これらの処理の違いは、文字が継続して入力されている状態で文字列の構造を解析する通常の場合と、ユーザが文字入力を中断したりする作業に伴い、文字列が一定時間内入力されない場合がある。この場合、入力される文字数を所定時間経過内で監視すると、入力文字数が変動するので、その状態を捉えてS606と、S608では、所定時間間隔の結果の判断と、計測された文字数が所定数以上であるかを判断している。ここで、入力文字数が変動するとは、入力速度が所定値以下に低下した場合、または他の文書をユーザが開こうとした場合に、文書作成に行き詰まったか、他文書を参考にしたいものと判断する。そこで、クライアントPC102は、編集近傍内の文字列を解析して、出現頻度やフォント等を考慮して重要語に対応する単語(見出し語)を抽出する。
このように本実施形態では、どちらの場合でも、結果として、登録された文書情報を検索するための重要語を特定できるように処理するため、上記のように処理を分けている。
なお、文字列の構造を解析するのは、文書内容又は段落内容を意味付ける単語が入力された場合であっても、文書作業効率が変動した状態を検知した場合でも同様に文字列の解析を行う。
次に、S611で、閾値以上のレベルを持つ全ての見出し文字列の中から重要語を決定する処理を行う。本処理の詳細については後述する。
次に、S612で、S611の処理で決定された重要語は、通信手段309により文書管理サーバ101に送信される。
そして、S613で、文字列取得手段302が送信した重要語に基づいて文書管理サーバ101が文書記憶手段508を検索して、当該重要語が存在しているという結果を文書管理サーバ101から受信したかどうかを判断する。なお、文書管理サーバ101で行われる検索処理については後述する。
ここで、重要語が存在するという結果であると文字列取得手段302が判断した場合は、S614へ進む。そして、S614で、文書管理サーバ101からの検索結果情報を図11に一例を示すユーザインタフェースを用いて、ディスプレイ1509に表示する。ここで、検索結果情報とは、抽出された重要語に従い文書管理サーバ101が検索した文書情報を取得するための文書アイコンに対応する。しかも、文書アイコンは、図11に示すように、尺度を縦軸(単語レベルに対応する)、横軸(近似性)にプロットして編集中の文書との類似性を判定した結果として表示される。
一方、S613で、文字列取得手段302が文書管理サーバ101での検索結果が存在しないと判断した場合は、S602へ戻って入力文字を監視する。
次に、S615で、図11に示すユーザインタフェースにおいて、ユーザがマウス1507等を操作して検索停止ボタン904が指示されているかどうかをCPU1501が判断する。ここで、検索停止ボタン904が指示されているとCPU1501が判断した場合は、本処理を終了する。
一方、S615で、検索停止ボタン904が指示されていないとCPU1501が判断した場合は、S616で、図11に示す文書アイコン905―1〜905−4が指示されているかどうかをCPU1501が判断する。ここで、いずれかの文書アイコンが指示されていないと判断した場合は、S602へ戻って、すなわち、文字入力モードに復帰して、入力文字を監視する。
なお、ユーザが図11に示す文書アイコン905―1〜905−4が指示することは、文書管理サーバ101に対して文書情報の検索を要求する指示に対応する。
一方、S616で、ユーザが図11に示す文書アイコン905―1〜905−4が指示していると判断した場合は、検索文書表示を行うためS617へ進む。そして、S617で、ユーザが選択した文書アイコンに対応する文書を文書管理サーバ101から取得して検索文書をディスプレイ1509の編集画面上に表示して、S602へ戻る。なお、表示された文書中で検索時に使用した文字列を、他の文字列と識別可能に表示態様を変更して表示してもよい。
図12は、本実施形態を示す文書管理装置におけるデータ処理手順の一例を示すフローチャートである。本例は、クライアントPC102からS612で送信された重要語に対して、図1に示した文書管理サーバ101で行う文書検索処理例である。なお、S701〜S706は各ステップを示す。また、各ステップは、CPU201がRAM23に検索サービス502等をロードして実行することで実現される。
まず、S701で、文書管理サーバ101は、クライアントPC102の抽出エージェント301からの受信がないかを常に監視している。ここで、抽出エージェント301からの受信が何もないと判断した場合は、本発明に関する処理は何も行わない。
そして、S702で、クライアントPC102の抽出エージェント301から重要語(図10に示すS612で送信される)を受信したら、S703へ進む。
そして、S703で、文書管理サーバ101は文書の検索を行う前に直前に検索が実行された結果が検索結果記憶手段511に残っているかどうかを判断する。ここで、もし検索結果が検索結果記憶手段511に残っていないと判断した場合は、S704へ進む。
そして、S704で、文書管理サーバ101は記憶装置206の文書DB208に格納されている文書群に対して全文検索を実行する。なお、全文検索処理は、検索サービス502の全文検索手段505が以下のような手順で行う。
すなわち、全文検索手段505がインデックスファイル510を検索して、クライアントPC102の抽出エージェント301から、S701で受信した重要語のエントリを探し、もしそのようなエントリがなければ結果は空となる。
ここで、重要語として指定された単語に一致するエントリがインデックスファイル510にあれば、その単語を含む文書の文書IDと文書上での出現位置とのペアをすべて取得する。そして、S706で、そのリストを検索結果として、クライアントPC102の抽出エージェント301に送信して、処理を終了する。
一方、S703で、検索結果記憶手段511に検索結果が存在していると全文検索手段505が判断した場合は、S705へ進む。
そして、S705で、検索対象を記憶装置206に格納されている全ての文書ではなく、検索結果記憶手段511に記憶された文書IDの文書に限定して同様に全文検索(絞り込み検索)を実行して、S706へ進む。
なお、S705の絞り込み検索処理は、インデックスファイル510の中から検索結果記憶手段511に記憶された文書IDを持つものだけを検索し、それらに対して指定された単語がエントリにあるかどうかを検索することが通常の検索処理と異なる部分である。
このようにして、S704の検索処理、またはS705の絞込み検索処理で得られた検索結果がクライアントPC102の抽出エージェント301に対して送信され、図10のS613で検索結果が受信される。
以下、図10に示したS614に戻って、抽出エージェント301が文書管理サーバ101から検索結果を受け取った後の処理として、図11を参照しながら抽出エージェント301側で行われる検索結果表示処理を説明する。
図11において、901は、クライアントPC102に接続された表示画面である。902は、クライアントPC102にログインしているユーザが文書作成アプリケーション3108を起動して文書を開き、編集作業を行っているウィンドウを示している。なお、この際、文字列「ストレージ」は、ユーザが入力している間に、文字列取得手段302により抽出されて、編集アプリケーションのバックグラウンドで、文書管理サーバ101に検索等の指示がなされる。したがって、この状態では、ユーザから検索を指示するという直接的な操作は何ら実行されない。しかしながら、上述した処理により、クライアントPC102と文書管理サーバ101との間で重要語として文字列「ストレージ」が抽出されると、検索結果が表示される。
903は検索結果表示領域であり、文書管理サーバ101が返した検索結果を編集中の文書に対する類似度に応じて、例えば二次元的に文書アイコン905−1〜905−4を配置して表示した例である。
本実施形態では、例えば文書の類似度としては文書内のテキストに含まれる単語レベルで判定するものと、文書内に挿入された画像の近似性から判定するものなどがある。そこで、図11に示すように、尺度を縦軸(単語レベルに対応する)、横軸(近似性)にプロットして編集中の文書との類似性を判定し、検索された文書アイコン905−1〜905−4を二次元に配置する。ここで、画像の近似性を判定するのは、画像が多く使用される文書においては、作成中の画像から部品を抽出して検索条件とし、文書管理サーバ101側では類似検索を行ってその部品を構成要素とする画像を含む文書を検索するためである。この結果、文書管理サーバ101は、検索でヒットした文書を類似度に従って二次元(単語軸、画像軸)のマップ上に文書アイコンを配置した検索結果情報として、クライアントPC102に送信する。
なお、前者の単語レベルでの判定には、本実施形態で説明したような全文検索で指定された検索語を含む度合いによるものがある。他に、単語レベルの判定には、個々の単語を予め固定的に定めたいくつかの基礎的な単語の成分に落としたn次元ベクトルで表現してベクトル演算で類似性を判定するいわゆる概念検索によるものなどがある。なお、これらはいずれも公知技術のため、ここでは説明は省略する。
また、後者の画像の類似性から判定するものとしては、文書をテキスト領域と画像領域に分解抽出し、画像領域の特徴量を算出して同じような特徴量を持つ画像を含む文書を検索する画像検索の技術があり、こちらも公知技術であるため説明は省略する。
図11において、905―1〜905−4は文書アイコンを表しており、検索の結果ヒットした文書がアイコン化されて配置される。なお、検索結果の二次元配置の方法に関してはこれ以外にも公知技術の組合わせで様々な態様が考えられ、本発明は上記方法に限られるわけではない。
906は検索実行ボタンで、編集中の文書に対する文字入力を監視してバックグラウンドで検索を自動的にキックした、文書管理サーバ101による検索結果を編集画面の裏に表示する機能を有効にするボタンとして機能する。
一方、検索停止ボタン904は、編集中の文書に対する文字入力を監視してバックグラウンドで検索を自動的にキックした、文書管理サーバ101による検索結果を編集画面の裏に表示する機能を無効にするボタンとして機能する。
ここで、検索実行ボタン906がユーザにより選択されて、検索実行が選択されている状態では、これまで説明してきたような自動検索が起動し続ける。しかし、検索停止ボタン904がユーザにより選択されると、文書の編集中であってもこのような検索は起動されない。
従って、クライアントPC102において、抽出エージェント301も起動されない。
なお、S615で、検索停止ボタン904がユーザにより選択されると、図10に示す処理を終了する。
また、文書アイコン905−1から905−4のうちのいずれかがユーザにより選択されると、図13に示したように選択された文書アイコンに対応する文書内容が別ウィンドウ907内に表示される。この際、選択された文書アイコンに対応する文書情報を取得する要求がクライアントPC102から文書管理サーバ101に通知される。そして、文書管理サーバ101は、その通知の応答として、選択された文書アイコンに対応する文書情報をクライアントPC102に返送する。
これにより、ユーザは編集中の文書の重要語と同じ単語を含む文書を適正なタイミングで容易に参照することができる。
なお、図6において説明した、要約生成手段507が生成した文書の要約を通信手段514を経由することにより、クライアントPC102側に転送するように構成してもよい。
これにより、ユーザによるマウス1507の操作に従い文書アイコンにマウスカーソルが置かれた場合にその文書の要約を表示すれば、ユーザは文書を開く前に当該文書の概要を知ることが出来るのでより利便性が向上する。
以下、クライアントPC102による図10に示したS611の重要語決定処理の詳細を説明する。
クライアントPC102の抽出エージェント301の重要語決定手段306は、単語統計情報管理手段311と、単語ランキング付与手段312とを備える。ここで、単語統計情報管理手段311は、図4に示したように文書管理サーバ101に格納されている文書全体の単語統計情報515を取得して管理する。また、単語ランキング付与手段312は、単語の重要度を算出する処理を行う。
クライアントPC102は、通信手段309を経由して文書管理サーバ101と通信することで、単語統計情報管理手段311は、当該文書から抽出された見出し語となる単語およびその出現頻度を算出し、当該文書の文書内単語統計情報を得る。
図14は、図4に示した単語統計情報管理手段311管理する文書内単語統計情報の一例を示す図である。ここでは、ユーザが編集中の文書においては閾値以上のレベルを持つ見出し文字列として「API」という単語が7回、「インタフェース」という単語が12回、「アプリケーション」という単語が4回、「アーカイブ」という単語が1回出現したことを示している。
そして、重要語決定手段306は、得られた単語すべてについて通信手段309を経由して文書管理サーバ101に格納されている単語統計情報515を問合せ、当該単語の文書管理サーバ101内全文書における頻度や分布情報を得る。
ここで、文書管理サーバ101から得られた統計情報は、単語ランキング付与手段312に渡され、各単語の重要度が算出される。
ある単語Wの重要度I(W)は、例えば数1に一例を示す計算式に基づいて算出することができる。
(数1)
I(W)=cTF(W)*{1−log(M(W)/N)}
ここで、cは定数を示し、TF(W)は文書における単語Wの出現頻度を示し、M(W)は文書全体において単語Wが出現する文書数を示し、Nは全文書数を示す。ここで、数1の後半の1−log(M(W)/N)
の部分は、単語Wのidf値と呼ばれる指標である。
また、idf値は、単語Wがより多くの文書に出現する(すなわちより一般的な語である)場合にその値が小さくなる。
これにより、対象文書全体において比較的よく出現する語の重要度を低く抑えることができる。さらに、L(W)を考慮することで、特定された文書集合に多く現れる単語の重要度を高くでき、結果その特定文書集合に特徴的な語に高い重要度を与えることができる。
なお、上記算出法において、TF(W)をその単語が含まれる文書の文書サイズ(文字数や含まれる単語の異なり数など)や単語の総出現頻度などで正規化してもよい。
一方、単語ランキング付与手段312は、特定された部分集合中の全文書に含まれる全単語について重要度計算を行い、その後全単語を重要度の順に整列する。
最後に、整列された単語群から特定部分、例えば上位10単語を採用し、単語、もしくは単語とその重要度の組として提示する。
なお、抽出の際に重要度だけでなく、重要度算出に利用した各種統計情報などを同時に提示してもよい。
また、抽出された関連キーワードとその重要度の組を、例えばユーザの履歴として蓄積していくこともできる。このようにすることにより、ユーザの興味の範囲や嗜好などをキーワードとその重みのベクトルとして表現することが可能となり、このベクトルを他の操作、例えば文書集合の検索に利用するなど、広い応用が可能である。
次に文書内単語統計情報および単語統計情報が単語ランキング付与手段312に渡される。単語ランキング付与手段312では、これら統計情報をもとに例えば、数1を用いて各単語の重要度を計算する。
図8、図9、図14の例の場合で、単語「API」および「インタフェース」について重要度を計算すると、以下のようになる。
ただし、ここでは、cを1、Nを10000とする。
I(API)=7*{1−log(4/10000)}=30.786
I(インタフェース)=12*{1−log(250/10000)}
=31.225
このようにして、単語ランキング付与手段312では以上のように求められた重要度により単語を整列し、先頭のものを重要語として採用する。ここで、重要語として採用する個数は、後述するように文書管理サーバ101での検索結果の数により2個以上としてもよい。
また、本発明の目的は、以下の処理を実行することによっても達成される。即ち、上述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出す処理である。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。
101 文書管理サーバ
102 クライアントPC

Claims (9)

  1. 文書管理装置に登録された文書情報を参照して文書編集を行う文書編集装置であって、
    アプリケーションに対して文字列が入力されたことに応じて、当該入力された文字列を自動的に取得する取得手段と、
    前記取得手段が取得する前記文字列の構造を解析して前記文書情報を検索するための重要語を抽出する抽出手段と、
    前記抽出手段により抽出された前記重要語を前記文書管理装置に送信する送信手段と、
    前記文書管理装置が前記重要語に基づいて検索した文書情報を取得するための検索結果を表示する検索結果表示手段と、
    を備えることを特徴とする文書編集装置。
  2. 前記抽出手段は、前記取得手段が取得している文字列、又は前記取得手段が設定された時間内に取得した文字列の構造を解析して、文書内容又は段落内容を意味付ける見出し語を前記重要語として抽出することを特徴とする請求項1記載の文書編集装置。
  3. 前記抽出手段により重要語が抽出されたことに応じて、前記文書管理装置に登録された文書情報を検索する検索モードを設定することを特徴とする請求項1記載の文書編集装置。
  4. 前記検索結果表示手段に表示された前記検索結果に対する指示が文書情報を取得する要求か、前記文字を入力する要求であるかを判断する判断手段と、
    前記検索結果に対する指示が前記文書情報を取得する要求であると前記判断手段が判断した場合、指示される文書情報を前記文書管理装置から取得して表示する検索文書表示手段とを備え、
    前記指示が前記文字を入力する要求であると前記判断手段が判断した場合、検索モードから前記取得手段が前記アプリケーションに対して入力された文字列情報を取得する文字入力モードに戻ることを特徴とする請求項1記載の文書編集装置。
  5. 文書管理装置に登録された文書情報を参照して文書編集を行う文書編集装置におけるデータ処理方法であって、
    アプリケーションに対して文字列が入力されたことに応じて、当該入力された文字列を自動的に取得する取得ステップと、
    前記取得ステップが取得する前記文字列の構造を解析して前記文書情報を検索するための重要語を抽出する抽出ステップと、
    前記抽出ステップにより抽出された前記重要語を前記文書管理装置に送信する送信ステップと、
    前記文書管理装置が前記重要語に基づいて検索した文書情報を取得するための検索結果を表示する検索結果表示ステップと、
    を備えることを特徴とするデータ処理方法。
  6. 前記抽出ステップは、前記取得ステップが取得している文字列、又は前記取得ステップが設定された時間内に取得した文字列の構造を解析して、文書内容又は段落内容を意味付ける見出し語を前記重要語として抽出することを特徴とする請求項5記載のデータ処理方法。
  7. 前記抽出ステップにより重要語が抽出されたことに応じて、前記文書管理装置に登録された文書情報を検索する検索モードを設定することを特徴とする請求項5記載のデータ処理方法。
  8. 前記検索結果表示ステップに表示された前記検索結果に対する指示が文書情報を取得する要求か、前記文字を入力する要求であるかを判断する判断ステップと、
    前記検索結果に対する指示が前記文書情報を取得する要求であると前記判断ステップが判断した場合、指示される文書情報を前記文書管理装置から取得して表示する検索文書表示ステップとを備え、
    前記指示が前記文字を入力する要求であると前記判断ステップが判断した場合、検索モードから前記取得ステップが前記アプリケーションに対して入力された文字列情報を取得する文字入力モードに戻ることを特徴とする請求項5記載のデータ処理方法。
  9. 請求項5乃至8のいずれか1項に記載のデータ処理方法をコンピュータに実行させることを特徴とするプログラム。
JP2009059317A 2009-03-12 2009-03-12 文書編集装置、データ処理方法及びプログラム Withdrawn JP2010211688A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009059317A JP2010211688A (ja) 2009-03-12 2009-03-12 文書編集装置、データ処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009059317A JP2010211688A (ja) 2009-03-12 2009-03-12 文書編集装置、データ処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2010211688A true JP2010211688A (ja) 2010-09-24

Family

ID=42971741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009059317A Withdrawn JP2010211688A (ja) 2009-03-12 2009-03-12 文書編集装置、データ処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2010211688A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017142653A (ja) * 2016-02-10 2017-08-17 京セラコミュニケーションシステム株式会社 リアルタイム・ライティング支援装置
JP2018504727A (ja) * 2015-11-27 2018-02-15 小米科技有限責任公司Xiaomi Inc. 参考文書の推薦方法及び装置
JP2019083477A (ja) * 2017-10-31 2019-05-30 富士通株式会社 データ生成プログラム、データ生成方法および情報処理装置
JP2020095496A (ja) * 2018-12-13 2020-06-18 コニカミノルタ株式会社 文書処理装置および文書処理プログラム
JP2021068082A (ja) * 2019-10-21 2021-04-30 富士通株式会社 ファイルレコメンドシステム、ファイルレコメンドプログラム、ファイルレコメンド方法、及び、ファイルレコメンド装置
JP2022085269A (ja) * 2020-11-27 2022-06-08 株式会社 日立産業制御ソリューションズ 検索装置、プログラムおよび検索方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018504727A (ja) * 2015-11-27 2018-02-15 小米科技有限責任公司Xiaomi Inc. 参考文書の推薦方法及び装置
JP2017142653A (ja) * 2016-02-10 2017-08-17 京セラコミュニケーションシステム株式会社 リアルタイム・ライティング支援装置
JP2019083477A (ja) * 2017-10-31 2019-05-30 富士通株式会社 データ生成プログラム、データ生成方法および情報処理装置
JP2020095496A (ja) * 2018-12-13 2020-06-18 コニカミノルタ株式会社 文書処理装置および文書処理プログラム
JP7263753B2 (ja) 2018-12-13 2023-04-25 コニカミノルタ株式会社 文書処理装置および文書処理プログラム
JP2021068082A (ja) * 2019-10-21 2021-04-30 富士通株式会社 ファイルレコメンドシステム、ファイルレコメンドプログラム、ファイルレコメンド方法、及び、ファイルレコメンド装置
JP7294055B2 (ja) 2019-10-21 2023-06-20 富士通株式会社 ファイルレコメンドシステム、ファイルレコメンドプログラム、ファイルレコメンド方法、及び、ファイルレコメンド装置
JP2022085269A (ja) * 2020-11-27 2022-06-08 株式会社 日立産業制御ソリューションズ 検索装置、プログラムおよび検索方法
JP7456923B2 (ja) 2020-11-27 2024-03-27 株式会社 日立産業制御ソリューションズ 検索装置、プログラムおよび検索方法

Similar Documents

Publication Publication Date Title
US8645184B2 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
US8117177B2 (en) Apparatus and method for searching information based on character strings in documents
US11669576B2 (en) System, method and computer program product for protecting derived metadata when updating records within a search engine
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US7401078B2 (en) Information processing apparatus, document search method, program, and storage medium
JP2010073114A (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US20090187843A1 (en) Apparatus, system, and method for information search
US20130254190A1 (en) Search device, search method, and computer program product
JP2010211688A (ja) 文書編集装置、データ処理方法及びプログラム
JP5226241B2 (ja) タグを付与する方法
US20040010556A1 (en) Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program
JP2010092383A (ja) 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム
CN113495874A (zh) 信息处理装置和计算机可读取介质
JP4135659B2 (ja) フォーマット変換装置およびファイル検索装置
US11768804B2 (en) Deep search embedding of inferred document characteristics
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
JPH10289241A (ja) 画像処理装置及びその制御方法
US10990338B2 (en) Information processing system and non-transitory computer readable medium
JP2000099526A (ja) 文書情報抽出装置
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム
JP2005242455A (ja) コンテンツ検索装置および同装置におけるインデックス作成方法ならびにそのプログラム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP7284371B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2004334690A (ja) 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体
JP2011054006A (ja) 画像のキーワード決定システム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120605