JP2005189954A

JP2005189954A - 文書処理方法、文書処理装置、制御プログラム及び記録媒体

Info

Publication number: JP2005189954A
Application number: JP2003427608A
Authority: JP
Inventors: Eiichiro Toshima; 英一朗戸島
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-12-24
Filing date: 2003-12-24
Publication date: 2005-07-14

Abstract

【課題】認識誤りや入力ミスを含む文書に対し文書処理を施すために有効な特徴語検出法を提案することである。
【解決手段】文書から未知語を検出し、検出された未知語と重要語保持手段に保持されている重要語との一致度を算出し、一致度に基づいて文書の特徴語を検出する。
【選択図】図１８

Description

本発明は、文書の特徴を検出する方法、装置、制御プログラム及び記録媒体に関するものである。

コンピュータ及びネットワークの発達に伴って大量の電子化ドキュメントのデータベースへの蓄積が進展しつつあり、それに伴って大量の電子化文書データベース上のドキュメントに対する電子処理、例えば文書検索への期待が高まってきている。

このような文書検索技術においては、各文書から検索のキーとなるキーワードを抽出する技術が必要となっている。キーワード抽出技術については、これまでにも多数の提案がなされている。

例えば、特許文献１においては、入力文書を形態素解析して複合語を抽出し、複合語から専門用語の特徴に着目して専門用語を抽出するシステムが提案されている。また、特許文献２においては、与えられた文字列データからキーワードを抽出し、それらの出現状態を考慮してキーワードを重み付けして要約に役立てる技術が提案されている。

ここで紹介された技術はすべてもともと電子的に作成された文書（電子文書）に対する処理であり、紙文書をスキャンし文字認識されたテキストに対する処理ではなかった。

最近になって、紙の形で保管されてきた過去のレガシードキュメントを電子化しようという、紙文書デジタル化の動きが加速しつつある。このような紙文書デジタル化において検索処理を行うためにはテキスト情報を抽出する必要があり、ＯＣＲをかけることになる。ところが、ＯＣＲは１００％の精度を保証できないので、認識誤りが紛れ込むことを避けられず、検索漏れが発生する一因となっていた。

例えば、「超写真画質」という文字列を含む紙文書があったとする。この紙文書にＯＣＲをかけると電子テキスト化することができるが、それは若干の認識誤りを含み、例えば、「超写真白質」と認識されているかもしれない。この場合を「超写真画質」でこの文書を検索することはできなくなってしまう。

このようなＯＣＲされた文書に対する検索処理についても、やはり多数の手法が提案されている。

例えば特許文献３は、ＯＣＲされた文書の検索について工夫を提案している。検索インデキシング時に文字認識候補を含めて索引化し、検索時に文字の類似性を考慮しながら検索しようというものである。

しかし、このように、情報が実際に必要な実行時に曖昧性を考慮する方式では、多数の認識候補を保有するメモリに対する負担、検索時の処理に対する負荷がかかり、高度な検索処理に適用するには限界がある。ドキュメントの検索索引を作成する段階で、もっと正確に文書特徴をとらえてキーワードを抽出しておく必要がある。
特開平３−１１６３７４号公報特開平８−３２９１１８号公報特開平６−０８９３３０号公報

本発明が解決しようとしている課題は、認識誤りや入力ミスを含む文書に対し文書処理を施すために有効な特徴語検出法を提案することである。すなわち、認識誤りを回避する特徴語収集方式を実現することにある。

上記課題を解決するために本発明は、文書から特徴を検出する文書処理方法であって、文書から未知語を検出する未知語検出ステップと、前記未知語検出ステップで検出された未知語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップとを有することを特徴とする。

また本発明は文書から特徴を検出する文書処理方法であって、文書から長単位語を検出する長単位語検出ステップと、前記長単位語検出ステップで検出された長単位語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップとを有することを特徴とする。

また本発明は文書から特徴を検出する文書処理方法であって、文書から未知語を検出する未知語検出手段と、前記未知語検出手段で検出された未知語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、前記一致度に基づいて文書の特徴語を検出する特徴語検出手段とを有することを特徴とする。

また本発明は文書から特徴を検出する文書処理装置であって、文書から長単位語を検出する長単位語検出手段と、前記長単位語検出手段で検出された長単位語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、前記一致度に基づいて文書の特徴語を検出する特徴語検出手段とを有することを特徴とする。

本発明によれば、認識誤りあるいは入力ミス等が含まれている文書に対し、重要語保持手段が保持する重要語との一致度に基づいて特徴語を推定するので、文書の特徴を表す語をより確実に検出することができる。

以下、図面を参照しながら本発明に好適な実施形態を詳細に説明する。

図１は本発明を適用した文字処理装置の構成を示すブロック図である。図示の構成において、ＣＰＵはマイクロプロセッサであり、文書検索処理のための演算、論理判断等を行い、バスを介してバスに接続された各構成要素を制御する。マイクロプロセッサＣＰＵが文書検索表示手段としても動作する。ＢＵＳはバスであり、マイクロプロセッサＣＰＵの制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。ＲＡＭは書込み可能なランダムアクセスメモリであって、各構成要素からの各種データの一次記憶に用いる。ＲＯＭは読出し専用の固定メモリである。マイクロプロセッサＣＰＵによるブートプログラムを記憶する。ブートプログラムはシステム起動時にハードディスクに記憶された制御プログラムをＲＡＭにロードし、マイクロプロセッサＣＰＵに実行させる。制御プログラムについては、後にフローチャートを参照して詳述する。

入力装置はキーボード、およびマウス等である。表示装置はＣＲＴ、あるいは液晶ディスプレイ等である。スキャナは紙ドキュメントを読み込んでデジタル化するためのスキャナである。ＨＤはハードディスクであり、ＣＰＵにより実行される制御プログラム、形態素解析を行うための形態素解析辞書、文書の特徴を表現し得る単語を記憶した重要単語辞書、検索・要約・分類等の処理が行われる対象となる文書を記憶した文書データベース、重要単語辞書に格納される重要単語を自動収集できるよう基準となる文書を格納する基準文書データベース、文書を概念検索できるように各単語を概念ベクトル化した単語ベクトル辞書、概念検索を行う際にインデックスとして使用される概念検索索引、キーワード検索処理を行う際にインデックスとして使用されるキーワード検索索引、各文字間の類似性を格納した文字類似度データベース、処理中のワークエリアとして使用される一致重要単語リスト等が格納される。

リムーバブル外部記憶装置はフロップーディスクやＣＤ、ＤＶＤ等の外部記憶にアクセスするためのドライブ等である。上記ＨＤと同様に使用でき、それらの記録媒体を通じて他の文書処理装置とのデータ交換を行う装置である。なお、ハードディスクに記憶される制御プログラムは、これらの外部記憶装置から必要に応じてＨＤにコピーすることもできる。通信装置はネットワークコントローラである。通信回線を介して外部とのデータ交換を行う装置である。

かかる各構成要素からなる本発明文書処理装置においては、入力装置からの各種の入力に応じて作動するものであって、入力装置からの入力が供給されるとまずインタラプト信号がマイクロプロセッサＣＰＵに送られ、それに伴って、ＣＰＵがＲＯＭまたはＲＡＭ内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。

図２は本発明を適用した文書処理装置の文書検索結果を表示する表示装置の画面構成例を示したものである。検索条件パネル２１には、検索指示内容（検索クエリ）が表示される。検索クエリとしては、ユーザの入力する自然文（「フォームの種類」「フォームの種類について知りたい」「フォームのバリエーションを教えてくれ」など）、あるいはユーザの入力する複数のキーワードの羅列（「フォーム、種類」など）、あるいはユーザが指示する既存文書（「文書番号２６７」）等である。検索結果パネル２２には、上記検索クエリによって実行された文書検索結果が表示される。検索結果としては、各文書のＩＤとタイトル、類似度が類似度の順にリストアップされる。

図３は文書の特徴を表現し得る重要単語（キーワード）のリストを格納した重要単語辞書の構成を示したものである。各重要単語にはユニークな単語ＩＤが対応付けられ、その表記が記憶される。専門用語等の複合語も多く登録される。本実施例においては、重要単語辞書は、基準文書から自動収集されて作成される。あるいは、ユーザが個別に編集して作成されたものであるか、あるいは予め準備・作成されたものが提供されるという実施形態も考えられる。本実施例においては自動収集されて作成された重要単語辞書を主体に説明するが、それに対して更にユーザ登録する機能を提供されても差し支えない。

重要単語であるから、日本語において使用されるありとあらゆる単語が収集されたものではなく、ある程度、分野によって偏って使用される単語が登録される。例えば、「人」「日」「事」「物」などの単語は、通常どのような文書であっても使用される単語であり、普通は重要単語として登録されない。必然的に固有名詞や専門用語が重点的に登録されることになる。アルゴリズムの都合上、短い単語の曖昧マッチングは困難であるので、需要単語としては比較的長い単語が望ましい。

例えば、「構文」という専門用語との曖昧マッチングをとる場合を考える。ＯＣＲドキュメントに認識誤りがあり、例えば「構」が誤認識されていると「？文」とのマッチングを取ることになり「散文」「漢文」「悪文」「証文」「英文」等無数の単語の可能性が出てきてしまう。これに対し、例えば「構文解析」という専門用語では、仮にＯＣＲが「構」の部分を誤認識しても他の部分は正常である可能性が高く「？文解析」となる。これであれば、可能性があるのは「構文解析」くらいなので、正しく重要単語を抽出することができる。

図中、単語ＩＤ＝８（「構文の解析」）のように複数文節からなる文字列も含んでいる。これは、短い単語の重要単語を抽出することが困難なので、共起関係を含めた文字列を登録することで、回避しようという仕組みである。この場合「構文」は短すぎるのでその用例である「構文の解析」「構文の関係」などの文字列を登録し、処理するのである。

図４は文書データベースに格納される文書の構成を示した図である。文書はスキャナからスキャンされたビットマップイメージ（スキャンドキュメント）と、それに対してＯＣＲが施されたＯＣＲドキュメントからなり、この両方が対応付けられて文書データベースに格納される。ＯＣＲドキュメントはスキャンドキュメントのビットマップが文字認識された第１候補が格納されており、必然的に認識誤りを含んでいる。図中“ＢＪシリーズ”となるべき文字列は“８○シリーズ”となり、“超写真画質”となるべき文字列は“超写真白質”となってしまっている。なお、文書データベースにおいては、各文書はユニークな文書ＩＤで識別される。

このようなＯＣＲドキュメントに対し通常の形態素解析処理をかけると多数の解析エラー個所（未知語）が発生し、十分な情報が得られない。例えば“ＢＪシリーズ”“超写真画質”という文字列は認識誤りを含んでいるので、このままではこれらの単語を重要単語として抽出できない。結果として「ＢＪシリーズ」等の検索要求に対し、この文書をヒットさせることができないことになる。

図５、図２５は基準文書データベースに格納される基準文書の例を示した図である。基準文書は重要単語を自動収集する目的で使用されるので、できるだけ解析誤りが発生しない文書が望ましい。そこでＯＣＲドキュメントではなく、初めから電子的に作成されたテキストファイルなどのドキュメントが使用される。図５は基準文書の一つの例である。これに形態素解析をかけた場合、形態解析辞書に登録されている単語については単語切りが行われ、単語が登録されていない部分は未知語として出力される。図中、未知語は矩形で囲まれて表示されている。この未知語の部分から重要単語としてふさわしい単語を抽出し重要単語辞書に登録することになる。

また別の基準文書の例を図２５に示す。これに形態素解析をかけた場合、形態解析辞書に登録されている単語については文節切りが行われる。図中「／」で示されるのは文節の境界であるが、形態素解析では単に文節の境界だけでなく文節内の単語構造が出力される。この解析結果に基づいて、複合語（長単位語）が抽出され、このうち重要単語としてふさわしい長単位語が重要単語辞書に登録することになる。図中、重要単語に採用される長単位語の例が矩形で囲まれて表示されている。あらゆる複合語が重要単語に採用されるわけではない。例えば、アルゴリズムの都合上、文字数のある程度長い文字列でないといけないので、ある文字数を超えるもののみが採用される。

図６は単語ベクトル辞書の構成を示したものである。単語ベクトルは、語義ベースの各単語の意味を意味ベクトル（意味分類ごとの特徴量のリスト）であり、単語ベクトル辞書はその集合である。各次元は１つの意味分類を表現する。各単語（語義）は各次元の意味分類をどの程度含意しているかという値（＝特徴量）を記憶する。例えば、次元３は「宇宙・空」、次元４は「取引・売買」、次元７は「身振り・動作」という意味分類をそれぞれ表している。単語７は「フォーム」という単語を表している。単語７の次元３は０であり、これは「フォーム（帳票）」という単語には「宇宙・空」の意味分類に関係する意味を全く持っていないことを意味する。単語７の次元４の値は大きく、次元７の値は小さい。これは「フォーム（帳票）」が「取引・売買」の意味を強く持っているが、「身振り・動作」の意味は弱いことを意味する。これに対し、単語８の次元４は小さく、次元７が大きい。これは「フォーム（姿勢）」が「身振り・動作」の意味を強く持っているが、「取引・売買」の意味は弱いことを意味する。このように単語ベクトル辞書により、語義別の各単語の意味するものが分かる。

文書の意味はその中でどのような単語が使用されたかによって決定されると解釈し、各文書の意味は、その文書を構成する単語の意味ベクトルを加算していくことで求める。このときベクトルの次元は単語の意味ベクトルと同じであり、ある意味分類を表現する。加算されて得られたベクトルをノルム＝１で正規化し、これを文書ベクトルと呼んで文書データベースに格納する。

図７は概念検索索引を示したものである。概念検索索引は、各文書に対して該文書に対応する概念ベクトル（＝文書ベクトル）を記憶するものである。各文書ベクトルは、各文書がどのような意味内容を表現しているかを示す。例えば、文書ＩＤ＝６９４９の次元４、次元７の特徴量はそれぞれ０．００９、０．４２５であり、文書ＩＤ＝６９５３の次元４、次元８の特徴量はそれぞれ０．３６２、０．００８であることが分かる。これにより文書ＩＤ＝６９４９は「取引・売買」の意味分類をほとんど含んでない文章であり、文書ＩＤ＝６９５３は「身振り・動作」の意味分類をほとんど含んでいない文章であることが分かる。

図８は、キーワード検索索引の構成を示した図である。キーワード検索の要求に対して指定キーワードが含まれる文書を検索するときのために準備作成されたインデックスである。各重要単語に対して、その単語を含む文書を列挙した構造となっている。各単語ＩＤに対し、その単語を含む文書の文書ＩＤが位置（文書中での先頭から文字位置）とともに格納される。図から、例えば、単語ＩＤ＝１の単語は、文書ＩＤ＝４の文書の先頭から０文字の文字位置、すなわち、文書の先頭に存在することが分かる。このインデックスを参照することによりどの単語がどの文書のどの位置に存在するかを把握することができる。

なお、この検索索引の構成は論理構成を示しているだけである。実際の検索処理においては高速検索が可能なように適切にフォーマットに構成され、例えば、データの多重化等による高速化等がなされることになる。

図９は一致重要単語リストの構成を示した図である。一致重要単語リストは、ある文書の特徴抽出処理の途中において一時的に管理作成されるテーブルであり、恒久的に存在する情報ではない。１文書の処理ごとに内容がクリアされる。リストはある文書に対してどの単語がどの位置に存在すると考えられるかを、その解釈による一致スコアと一致率とともに示している。９１は単語ＩＤであり、存在すると考えられる重要単語のＩＤを示している。９２は開始位置、９３は終了位置であり、その間に重要単語が存在することを示している。９４は一致スコアであり、該当の重要単語とマッチングをとった場合のスコアが格納される。９５は一致率であり、そのマッチングの妥当性を示す値が格納される。例えば、１行目は単語ＩＤ＝５の単語（図２によれば「ベクトル空間モデル」）が、文書先頭から２１の位置から２９の位置まで存在する可能性があり、その一致スコアは１８、一致率は２であることを示している。

図１０は文字類似度データベースである。ＯＣＲの観点から見て類似した形態を持つ文字をデータベース化したものである。１０１で示す基準文字に対し類似した文字群が１０２で示す類似文字に格納される。例えば、１行目は、「Ｂ」という文字は「８」や「乃」という文字と類似していることを表現している。また２行目は「王」は「壬」や「生」と類似していることを表現している。

図１１は本発明における一致スコアと一致率の算出方法の例を示した図である。一致スコアは比較する文字列の先頭（ｋ＝１）から末尾（ｋ＝ｎ）までのスコアを１からｎまで積算したものであり、各スコアはｋ番目の文字の一致が、不一致のとき０、完全に一致するとき２（すなわち、比較元の文字と比較先の文字が正確に一致したとき）、文字類似度データベースを参照して一致したとき１（すなわち、比較元の文字と比較先の文字は一致しなかったが、文字類似度データベースを調べるとこの２つの文字が類似しているとして登録されていたとき）、とする。これに基づくと「ＢＪシリーズ」と「８○シリーズ」を比較する際には、一致スコア＝１＋０＋２＋２＋２＋２＝９となる。（「Ｂ」と「８」は、図１０に示すように文字類似度データベースにおいて類似している）
一致率は、１文字あたりの一致スコアであり、一致スコアを比較文字数で割ったものである。例えば、先の「ＢＪシリーズ」と「８○シリーズ」の場合は比較文字数が６文字なので、一致率は、９÷６＝１．５と求められる。

図１２は文書と文書の概念的類似性を判定する際の概念類似度の算出方法を示した図である。概念検索処理は、検索クエリに対して概念的に類似するドキュメントを文書データベースから探してくる処理である。本実施例では検索クエリを１つの文書とみなしてその文書ベクトルを求め（＝クエリベクトル）、検索対象文書データベース上の文書の文書ベクトルと該クエリベクトルとの余弦測度を求め、概念類似度としている。

文書ベクトルＸは各次元にｘ１〜ｘｎの値を持つｎ次元のベクトルである。クエリベクトルＱも同様にｎ次元のベクトルである。余弦測度による類似度をＳＤ（Ｘ，Ｑ）、と表すことにする。余弦測度ＳＤ（Ｘ，Ｑ）は両ベクトルの内積を両ベクトルのノルムの積で割った値となる。両ベクトルがノルム＝１で正規化されている本実施例では、ＳＤ（Ｘ，Ｐ）は内積そのものに相当する。よって両ベクトルに対し、同次元特徴量の積の総和で求めることができる。

上述の動作をフローチャートに従って説明する。図１３は本発明文書処理装置の動作、より具体的にはマイクロプロセッサＣＰＵの処理手順を示すフローチャートである。ステップＳ１３−１はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示灯を行う処理である。ステップＳ１３−２はキーボード等の入力装置から何らかのキーが押下され、割り込みが発生するのをマイクロプロセッサＣＰＵにおいて待つ処理である。キーが打鍵されると、ステップＳ１３−３においてマイクロプロセッサＣＰＵがこのキーを判別し、キーの種類に応じて各種の処理に分岐する。各種キーに対応した分岐先の複数の処理をステップＳ１３−４という形でまとめて表現している。図１４、図１７、図２０、図２１で詳述する重要単語収集処理、文書登録処理、キーワード検索実行処理、概念検索実行処理がこの分岐先の一部となる。他の処理としては、詳細は記述されないが、スキャナから文書を読み込んでＯＣＲをかける処理、ドキュメントの要約を行う要約実行処理、分類を行う分類実行処理などがある。ステップＳ１３−５は上記の各処理の結果、変更された部分を表示する表示処理である。表示内容を表示パターンに展開しバッファに出力するといった通常広く行われている処理である。

図１４はステップＳ１３−４の一部である重要単語収集処理を詳細化したフローチャートである。まず、ステップＳ１４−１において、基準文書を１文書取得する。次いでステップＳ１４−２において基準文書が取得し尽くされたかどうかを判定し、終了していればそのままリターンするが、正常に取得できた場合はステップＳ１４−３に進む。ステップＳ１４−３において、取得された基準文書に形態素解析をかける。その結果、解析できた個所は文節列として得られ、解析できなかった個所は未知語として得られる。ステップＳ１４−４において、図１５に詳述する長単位重要単語収集処理を行い、上記生成された文節列から基準を満たす重要単語候補を収集する。次にステップＳ１４−５において、図１６に詳述する未知語重要単語収集処理を行い、上記生成された未知語から基準を満たす重要単語候補を収集する。ステップＳ１４−６において、これまでに得られた重要単語の候補から、総出現頻度がある程度大きく、かつ、適度に局在しているものを残し、残りは捨て去る。ある単語が局在しているかどうかは、例えば、出現確率＝（該当単語が含まれる基準文書数）／（基準文書の総数）で判定することができる。出現確率が例えば、０．８以下のもののみを残せば、適度に局在しているものを残していることになる。ステップＳ１４−７において、この残された重要単語の候補を重要単語辞書に登録する。重要単語採用判定で落とされた単語は登録されない。その後、ステップＳ１４−１にループし、次の基準文書を取得する。

図１５はステップＳ１４−４の長単位重要単語収集処理を詳細化したフローチャートである。まず、ステップＳ１５−１において、該当基準文書から１文節取得する。次いでステップＳ１４−２において文節が既に取得し尽くされたかどうかを判定し、終了していればそのままリターンするが、正常に取得できた場合はステップＳ１５−３に進む。ステップＳ１５−３において、取得された文節が重要単語の品詞の基準、表記の基準を満たしているかどうか判定する。この段階で、例えば、名詞、サ変名詞、接頭語、接尾語、役職名、姓、名などの品詞が残され、形容詞、動詞などの品詞は落とされる。表記のチェックでは、例えば、漢字、カタカナなどがのこされ、ひらがな交じりの単語は落とされる。この判定結果に基づき、ステップＳ１５−４において、ＮＧならばステップＳ１５−１に分岐する。ステップＳ１５−５において、取得された文節が表記長の基準を満たしているかどうか判定する。この段階で、例えば、表記長が５文字以下の単語は落とされる。この判定結果に基づき、ステップＳ１５−６において、ＮＧならばステップＳ１５−１に分岐する。ステップＳ１５−７において、取得された文節が前方の文節との連接品詞の基準を満たしているかどうか判定する。この段階で、例えば、名詞＋接頭語、接尾語＋名詞、名＋姓、役職名＋名詞などの異常な組み合わせが落とされ、姓＋名、接頭語＋名詞、名詞＋接尾語、姓＋役職名などの正常な長単位語のみが残される。この判定結果に基づき、ステップＳ１５−８において、ＮＧならばステップＳ１５−１に分岐する。ステップＳ１５−９において、上記の判定基準をすべてクリアした場合に、前方文節とこの文節の語幹とで合成される長単位語を重要単語の候補として出力する。その後、ステップＳ１５−１にループし、次の文節取得に移る。

図１６はステップＳ１４−４の未知語重要単語収集処理を詳細化したフローチャートである。まず、ステップＳ１６−１において、該当基準文書から未知語を１単語取得する。次いでステップＳ１６−２において未知語が既に取得し尽くされたかどうかを判定し、終了していればそのままリターンするが、正常に取得できた場合はステップＳ１６−３に進む。ステップＳ１６−３において、取得された未知語が重要単語の品詞の基準、表記の基準を満たしているかどうか判定する。なお、未知語であるから品詞はあくまでも推定された品詞である。品詞の推定は、例えば、後続する助詞による行われる。この段階で、例えば、名詞などの品詞が残され、形容詞、動詞などの品詞は落とされる。表記のチェックでは、例えば、漢字、カタカナなどがのこされ、ひらがな交じりの単語は落とされる。この判定結果に基づき、ステップＳ１６−４において、ＮＧならばステップＳ１６−１に分岐する。ステップＳ１６−５において、取得された未知語が表記長の基準を満たしているかどうか判定する。この段階で、例えば、表記長が５文字以下の未知語は落とされる。この判定結果に基づき、ステップＳ１６−６において、ＮＧならばステップＳ１６−１に分岐する。ステップＳ１５−７において、取得された未知語が前方の文節との連接品詞の基準を満たしているかどうか判定する。この段階で、例えば、接尾語＋名詞、役職名＋名詞などの異常な組み合わせが落とされ、姓＋名、接頭語＋名詞などの正常な組み合わせのみが残される。この判定結果に基づき、ステップＳ１６−８において、ＮＧならばステップＳ１６−１に分岐する。ステップＳ１６−９において、この残された未知語を重要単語の候補として出力する。その後、ステップＳ１６−１にループし、次の文節取得に移る。

図１７はステップＳ１３−４の一部である文書登録処理を詳細化したフローチャートである。ステップＳ１７−１において、登録が指定された紙文書をスキャナから読み取り、デジタル化し、ビットマップドキュメントを生成する。ステップＳ１７−２において、該ビットマップに対して文字認識をかけ、文字コードテキスト化し、ＯＣＲドキュメントを生成する。ステップＳ１７−３において、図１８に詳述する重要単語抽出処理を行い、該ＯＣＲドキュメントから重要単語を抽出する。重要単語は一致重要単語リストに出力され、渡される。ステップＳ１７−４において、文書ベクトル生成処理を行い、ステップＳ１７−３で抽出された重要単語群に基づき単語ベクトル辞書検索を行い、単語ベクトルを求め、その総和から文書ベクトルを生成する。なお、語義の特定できない単語についてはその表記を持つすべての語義の単語ベクトルに頻度別の重みをつけて加算することになる。ステップＳ１７−５において、上記生成された重要単語群及び文書ベクトルを検索索引の形に加工し、キーワード検索索引と概念検索索引を作成する。ステップＳ１７−６において該当文書データのビットマップドキュメント及びＯＣＲドキュメントを文書データベースに登録し、文書データベースのインデックスを更新する。

図１８はステップＳ１７−３の重要単語抽出処理を詳細化したフローチャートである。まず、ステップＳ１８−１において一致重要単語リストを初期設定してクリアする。ステップＳ１８−２において該当文書を形態素解析辞書に基づいて形態素解析する。ここでの形態素解析はＯＣＲドキュメントが対象なので、多数の未知語が発生することになり、これは後ほど利用する。ステップＳ１８−３において、未知語とならずに正常に解析できた部分から重要単語を抽出する。これは解析結果を先頭からスキャンして重要単語辞書に記載される重要単語の表記と一致するものを検出することに行われる。重要単語辞書には複数文節からなるような文字列の登録もあるので、マッチングの際には解析結果から複数文節を取り出して重要単語とマッチングする処理を含んでいる。ここでの文字列マッチングは、正常に解析できて認識誤りが無い部分のマッチング処理なので、曖昧マッチングではない通常の完全マッチングを行う。マッチングそのものは通常のマッチング処理なので、ここでは特に手続きの詳細を述べない。抽出された重要単語はステップＳ１４−４において一致重要単語リストに登録される。ステップＳ１８−５において先ほどの形態素解析から出力された多数の未知語のうち先頭の未知語を取得する。ステップＳ１８−６において未知語が既に取得し尽くされたかを判定し、未知語がもはや無いときはリターンする。未知語が正常に取得できたときはステップＳ１８−７に進み、該当未知語に対して図１９に詳述する曖昧マッチング処理を行い、未知語部分から重要単語を抽出する。形態素解析の精度にもよるが、一般に未知語の範囲は正確に判定されないことが多いのでここでは多少のマージンを見込んで広い目の範囲を未知語として曖昧マッチング処理に渡せばよい。処理が終了すると、一致重要単語リストに検出重要単語が出力される。その後、ステップＳ１８−８に進み、次の未知語を取得して、ステップＳ１８−６にループする。

図１９はステップＳ１８−７の曖昧マッチング処理を詳細化したフローチャートである。ステップＳ１９−１において、重要単語辞書から最初の重要単語を１つ取得する。ステップＳ１９−２において重要単語が正常に取得できたかを判定し、取得できなかったときはリターンする。取得できたときはステップＳ１９−３に進み、図１１に示される算出式に従って該当未知語と該当重要単語との一致スコアを算出する。未知語内の比較先頭位置は正確には特定できないので先頭位置を変えて何箇所かの一致スコアを算出し、最も良いスコアを採用する。ステップＳ１９−４において、やはり図１１に示される算出式に従って一致率を算出する。ステップＳ１９−５において該一致スコアが許容される閾値を満たしているかどうかを判定する。なお、閾値は予め定められているものとし、図１１で算出される一致率においては、例えば値１を採用する。閾値の条件を満たしていない場合はこの重要単語を一致重要単語リストに登録せずにスキップするためステップＳ１９−７にスキップする。満たしている場合は登録すべきなので、ステップＳ１９−６に進み、該当重要単語を一致重要単語リストに登録する。登録後、ステップＳ１９−７に進む。ステップＳ１９−７において重要単語辞書から次の重要単語を取得し、ステップＳ１９−２にループする。

図２０はステップＳ１３−４の一部であるキーワード検索実行処理を詳細化したフローチャートである。ステップＳ２０−１において、ユーザの検索クエリを取得する。ここにおいてユーザは自然文、あるいは複数のキーワードの入力、あるいは既存の文書指定の形で指示する。指示の方法に応じて、クエリのテキストストリングを入手する。例えば、既存の文書を指定した場合はその文書にアクセスし、適当なフォーマット変更を行ってその文書の内容をテキストファイル化し、そのテキストストリングを次のステップ以降に送る。ステップＳ２０−２においてクエリの解析を行い、キーワードを抽出する。ステップＳ２０−３において、キーワード検索索引にアクセスし、検索クエリとのマッチングを行う。検索クエリから抽出されたキーワードがキーワード検索索引に存在するかをサーチし、キーワードが存在する文書の文書ＩＤを出力する。検索処理において通常に行われる処理であり、ここでは詳細な説明は割愛する。最後にステップＳ２０−４において検索クエリと合致する文書の文書ＩＤをもとに、検索結果としてリストアップして表示する。その後、リターンする。

図２１はステップＳ１３−４の一部である概念検索実行処理を詳細化したフローチャートである。ステップＳ２１−１はユーザの検索クエリ入力処理であり、ここにおいてユーザは自然文の入力、あるいは既存文書の指定の形で指示する。指示の方法に応じて、クエリのテキストストリングを入手する。例えば、既存の文書を指定した場合はその文書にアクセスし、適当なフォーマット変更を行ってその文書の内容をテキストファイル化し、そのテキストストリングを次のステップ以降に送る。ステップＳ２１−２はクエリベクトルの生成処理であり、図２２に詳述する如く検索クエリのクエリベクトルを得る。ステップＳ２１−３は、図２３に詳述するように、クエリベクトルと対象文書ベクトルとから概念類似度を生成し、その関連付けられたリストを作成する処理である。ステップＳ２１−４は、ステップＳ２１−３で作成されたリストを概念類似度に応じてソートし、文書をランキングする処理である。ステップＳ２１−５はステップＳ２１−４でランキングされた文書を検索結果としてリストアップして表示する処理である。その際に、ステップＳ２１−３で求められた概念類似度の値も同時に表示する。

図２２はステップＳ２１−２の処理であるクエリベクトル生成処理を詳細化したフローチャートである。ステップＳ２２−１はユーザ指定の検索クエリから単語を抽出する処理であり、形態素解析用辞書を使用して形態素解析を行う。解析後、ステップＳ２２−２において、解析結果に基づいて各単語の多義解消を行う。多義解消の手法として、これまでにも各種の方法が提案されているので、それに従う。例えば、係り受け解析結果と共起データベースとのマッチングによる多義解消、ユーザプロファイルとの概念マッチングに基づく多義解消などが考えられる。十分に多義解消されなかった単語については、複数個語義が出力される。次いで、ステップＳ２２−３において、検索クエリの文書ベクトルを生成する。ステップＳ２２−１、Ｓ２２−２で抽出された単語及び特定された語義から単語ベクトル辞書を検索し、単語ごとの次元別の特徴量を得てその総和から文書ベクトルを生成する、ステップＳ１７−４と同様の処理である。

図２３はステップＳ２１−３の処理を詳細化したフローチャートである。ステップＳ２３−１において、概念検索索引を取得し、例えばＲＡＭ上にロードする。ステップＳ２３−２において、該概念検索索引から文書ベクトルを順番に取得する。ステップＳ２３−３において取得された文書ベクトルと検索クエリのクエリベクトルとから概念類似度を算出する。ステップＳ２３−４において、該算出された概念類似度を文書ＩＤと関連付けてリストの形でＲＡＭにストアする。処理が進むごとにこのリストが追加されていくことになる。ステップＳ２３−５において、概念検索索引内に未処理の文書があるかどうかを判定し、残りが存在する場合はステップＳ２３−６に分岐し、存在しない場合は、これまでにストアされた文書と概念類似度の関連付けられたリストを出力としてリターンする。ステップＳ２３−６において、概念検索索引中の次の文書の処理に移り、ステップＳ２３−２にループする。このように検索クエリとの概念類似度判定を繰り返す。

（他の実施例）
なお、本発明は上述の実施形態に限定されるのではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。

上記第１の実施形態においては、一致すると認められた重要単語はすべて登録されていたが、これは現実と矛盾することがある。矛盾した重要単語を登録しないという実施形態も考えられる。

例えば、重要単語として「プログラミング」「エンジニアリング」が登録されている場合に、ＯＣＲドキュメントに（誤認識の結果により）「マイクエプジグラリング」という文字列があったとする。この場合、先の実施例では「プログラミング」は「プジグラリング」と一致が取れ「エンジニアリング」も「エプジグラリング」と一致がとれるので、両方とも抽出されていたが、原文にはどちらかしか存在しないはずである。用途によってはどちらの重要単語を採用するかに決定してしまった方が良い場合がある。そのようなときは一致率で判断することにする。一致率は、図１１に算出方法が示されているが、１文字あたりの一致度合いを示した数値である。「マイクエプジグラリング」の場合、「プログラミング」とは「プ」「グ」「ラ」「ン」「グ」の５字が一致し、一致スコアが値１０、一致率が１０／７＝１．４となり、「エンジニアリング」とは「エ」「ジ」「リ」「ン」「グ」の５字が一致し、一致スコアがやはり値１０、一致率が１０／８＝１．２５となる。従って「プログラミング」が採用される。

この場合は図１４に示された重要単語抽出処理のフローチャートは図２４に示すように変更される。

まず、ステップＳ２４−１からステップＳ２４−７までは、図１４のステップＳ１４−１からＳ１４−７と同じ処理である。ステップＳ２４−７で未知語部分から重要単語が抽出され、一致重要単語リストに登録されるが、その後、ステップＳ２４−８に進み、一致重要単語リストの矛盾がチェックされる。ここで、先ほどのような２通りにマッチングがとれる重要単語を検出し、そのようなものに対してはステップＳ２４−９において、一致率の高いものを残し、他を削除する処理を行う。その後、ステップＳ２４−１０において次の未知語を取得し、ステップＳ２４−６にループする。

このように構成することで、矛盾した重要単語を排除できるので、本来含める必要の無い単語が需要単語として抽出され文書特徴に含められる誤りを避けることができる。特にキーワード検索においては望ましい実現形態である。

上記以外にも、本発明の趣旨を逸脱しない限りにおいて、構成を適宜変更することが可能である。

上述の実施形態においては、重要単語を収集するもとになる基準文書データベースは文書処理を受けるべき文書データとは独立した別のデータベースで構成されるとしているが、これは必ずしも別データベースにする必要は無い。データベースとしては１つのデータベースとし、その格納する文書の１つずつにフラグを持ち、基準文書であるかどうか判定して処理するという実施形態も考えられる。このときは２つのデータベースを用意する必要が無いので、メモリの削減につながり、また運用性の向上にも役立つ。

あるいは、基準文書であるというフラグではなく、ＯＣＲされたものではなく元々電子的に作成された電子文書であるというフラグをもち、電子的に作成された文書のみから重要単語を抽出するという実施形態も考えられる。このときは、基準文書を設定するという手間が発生せず、ユーザの普段利用している文書の中に電子文書が含まれているだけで重要単語辞書が作成できるので、労力の一層の軽減につながる。

上述の実施形態においては、重要単語の抽出はまず形態素解析をかけて、その解析不能な未知語の部分のみを曖昧マッチングしていたが、このような形態素解析をかけずに、すべてを未知語と考えて曖昧マッチングし、重要単語を抽出するよう構成することもできる。この場合、形態素解析をかける負荷が軽減され、形態素解析辞書のメモリ使用量、形態素解析の時間的負荷を軽減することができる。

また、上述の実施形態においては、重要単語辞書は基準ドキュメントから自動的に生成される辞書であると説明しているが、ユーザが普段アクセスするＷＷＷページから収集するようにしてもよい。このように構成すると基準文書データベースをセットするというユーザの負荷を軽減することができる。

また、上述の実施形態においては、文字認識されたドキュメントから重要単語を抽出するよう構成しているが、音声認識されたテキストから重要単語を抽出する目的に適用するよう構成することもできる。この場合、音声情報からその内容的特徴を抽出し処理することができるようになる。

また、上述の実施形態においては、抽出された重要単語を、文書検索（キーワード検索、概念検索）に適用するよう構成したが、要約、分類に適用させることもできる。要約の場合は、キーワードに基づく要約技術がこれまでに多数提案されており、その処理に結びつけるだけである。分類の場合も、文書から特徴単語を抽出し、それらの特徴単語の構成するベクトル空間から類似性を判断し分類処理を行う技術が多数提案されており、それらと結合すれば、分類処理に適用することができる。

本実施例の文書処理装置の全体構成を示すブロック図である。文書検索結果の表示画面構成例を示した図である。本実施例の文書処理装置における重要単語辞書の構成を示した図である。本実施例の文書処理装置における文書データベースに格納されるスキャンドキュメントとＯＣＲドキュメントの内容を説明した図である。本実施例の文書処理装置における基準文書データベースに格納される基準文書の内容を説明した図である。本実施例の文書処理装置における単語ベクトル辞書の構成を示した図である。本実施例の文書処理装置における概念検索索引の構成を示した図である。本実施例の文書処理装置におけるキーワード検索索引の構成を示した図である。本実施例の文書処理装置における一致重要単語リストの構成を示した図である。本実施例の文書処理装置における文字類似度データベースの構成を示した図である。本実施例の文書処理装置における一致スコアと一致率の算出式を示した図である。本実施例の文書処理装置における概念類似度の算出方法を示した図である。本実施例の文書処理装置全体の処理手順の一例を示すフローチャートである。重要単語収集処理の処理手順の一例を示すフローチャートである。長単位重要単語収集処理の処理手順の一例を示すフローチャートである。未知語重要単語収集処理の処理手順の一例を示すフローチャートである。文書登録処理の処理手順の一例を示すフローチャートである。重要単語抽出処理の処理手順の一例を示すフローチャートである。曖昧マッチング処理の処理手順の一例を示すフローローチャートである。キーワード検索実行処理の処理手順の一例を示すフローチャートである。概念検索実行処理の処理手順の一例を示すフローチャートである。クエリベクトル生成処理の処理手順の一例を示すフローチャートである。概念類似度生成処理の処理手順の一例を示すフローチャートである。重要単語抽出処理の処理手順の他の例を示すフローチャートである。本実施例の文書処理装置における基準文書データベースに格納される基準文書の内容を説明した図である。

Claims

文書から特徴を検出する文書処理方法であって、
文書から未知語を検出する未知語検出ステップと、
前記未知語検出ステップで検出された未知語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、
前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップとを有することを特徴とする文書処理方法。
前記特徴語検出ステップで検出された特徴語と前記文書を関連付けて記憶する記憶ステップと、
検索クエリを入力するクエリ入力ステップと、
前記クエリ入力ステップで入力された検索クエリと前記記憶ステップで記憶された特徴語に基づいて、前記文書を検索する検索ステップとを更に有することを特徴とする請求項１に記載の文書処理方法。
前記クエリ入力ステップは検索クエリとして文章を入力し、
前記検索ステップは前記クエリ入力ステップで入力された文書に類似する文書を検索する概念検索であることを特徴とする請求項２に記載の文書処理方法。
文書から特徴を検出する文書処理方法であって、
文書から長単位語を検出する長単位語検出ステップと、
前記長単位語検出ステップで検出された長単位語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、
前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップとを有することを特徴とする文書処理方法。
前記特徴語検出ステップで検出された特徴語と前記文書を関連付けて記憶する記憶ステップと、
検索クエリを入力するクエリ入力ステップと、
前記クエリ入力ステップで入力された検索クエリと前記記憶ステップで記憶された特徴語に特徴語に基づいて、前記文書を検索する検索ステップとを更に有することを特徴とする請求項４に記載の文書処理方法。
前記クエリ入力ステップは検索クエリとして文章を入力し、
前記検索ステップは前記クエリ入力ステップで入力された文書に類似する文書を検索する概念検索であることを特徴とする請求項５に記載の文書処理方法。
文書から特徴を検出する文書処理装置であって、
文書から未知語を検出する未知語検出手段と、
前記未知語検出手段で検出された未知語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、
前記一致度に基づいて文書の特徴語を検出する特徴語検出手段とを有することを特徴とする文書処理装置。
前記特徴語検出手段で検出された特徴語と前記文書を関連付けて記憶する記憶手段と、
検索クエリを入力するクエリ入力手段と、
前記クエリ入力手段で入力された検索クエリと前記記憶手段で記憶された特徴語に特徴語に基づいて、前記文書を検索する検索手段とを更に有することを特徴とする請求項７に記載の文書処理装置。
前記クエリ入力手段は検索クエリとして文章を入力し、
前記検索手段は前記クエリ入力手段で入力された文書に類似する文書を検索する概念検索であることを特徴とする請求項８に記載の文書処理装置。
文書から特徴を検出する文書処理装置であって、
文書から長単位語を検出する長単位語検出手段と、
前記長単位語検出手段で検出された長単位語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、
前記一致度に基づいて文書の特徴語を検出する特徴語検出手段とを有することを特徴とする文書処理装置。
前記特徴語検出手段で検出された特徴語と前記文書を関連付けて記憶する記憶手段と、
検索クエリを入力するクエリ入力手段と、
前記クエリ入力手段で入力された検索クエリと前記記憶手段で記憶された特徴語に特徴語に基づいて、前記文書を検索する検索手段とを更に有することを特徴とする請求項１０に記載の文書処理装置。
前記クエリ入力手段は検索クエリとして文章を入力し、
前記検索手段は前記クエリ入力手段で入力された文書に類似する文書を検索する概念検索であることを特徴とする請求項１１に記載の文書処理装置。
請求項１乃至６のいずれか１つに記載の文書特徴検出方法をコンピュータに実行させるための制御プログラム。
請求項１３に記載の制御プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。