JP2005189954A - 文書処理方法、文書処理装置、制御プログラム及び記録媒体 - Google Patents

文書処理方法、文書処理装置、制御プログラム及び記録媒体 Download PDF

Info

Publication number
JP2005189954A
JP2005189954A JP2003427608A JP2003427608A JP2005189954A JP 2005189954 A JP2005189954 A JP 2005189954A JP 2003427608 A JP2003427608 A JP 2003427608A JP 2003427608 A JP2003427608 A JP 2003427608A JP 2005189954 A JP2005189954 A JP 2005189954A
Authority
JP
Japan
Prior art keywords
document
word
search
detecting
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003427608A
Other languages
English (en)
Inventor
Eiichiro Toshima
英一朗 戸島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003427608A priority Critical patent/JP2005189954A/ja
Publication of JP2005189954A publication Critical patent/JP2005189954A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 認識誤りや入力ミスを含む文書に対し文書処理を施すために有効な特徴語検出法を提案することである。
【解決手段】 文書から未知語を検出し、検出された未知語と重要語保持手段に保持されている重要語との一致度を算出し、一致度に基づいて文書の特徴語を検出する。
【選択図】 図18

Description

本発明は、文書の特徴を検出する方法、装置、制御プログラム及び記録媒体に関するものである。
コンピュータ及びネットワークの発達に伴って大量の電子化ドキュメントのデータベースへの蓄積が進展しつつあり、それに伴って大量の電子化文書データベース上のドキュメントに対する電子処理、例えば文書検索への期待が高まってきている。
このような文書検索技術においては、各文書から検索のキーとなるキーワードを抽出する技術が必要となっている。キーワード抽出技術については、これまでにも多数の提案がなされている。
例えば、特許文献1においては、入力文書を形態素解析して複合語を抽出し、複合語から専門用語の特徴に着目して専門用語を抽出するシステムが提案されている。また、特許文献2においては、与えられた文字列データからキーワードを抽出し、それらの出現状態を考慮してキーワードを重み付けして要約に役立てる技術が提案されている。
ここで紹介された技術はすべてもともと電子的に作成された文書(電子文書)に対する処理であり、紙文書をスキャンし文字認識されたテキストに対する処理ではなかった。
最近になって、紙の形で保管されてきた過去のレガシードキュメントを電子化しようという、紙文書デジタル化の動きが加速しつつある。このような紙文書デジタル化において検索処理を行うためにはテキスト情報を抽出する必要があり、OCRをかけることになる。ところが、OCRは100%の精度を保証できないので、認識誤りが紛れ込むことを避けられず、検索漏れが発生する一因となっていた。
例えば、「超写真画質」という文字列を含む紙文書があったとする。この紙文書にOCRをかけると電子テキスト化することができるが、それは若干の認識誤りを含み、例えば、「超写真白質」と認識されているかもしれない。この場合を「超写真画質」でこの文書を検索することはできなくなってしまう。
このようなOCRされた文書に対する検索処理についても、やはり多数の手法が提案されている。
例えば特許文献3は、OCRされた文書の検索について工夫を提案している。検索インデキシング時に文字認識候補を含めて索引化し、検索時に文字の類似性を考慮しながら検索しようというものである。
しかし、このように、情報が実際に必要な実行時に曖昧性を考慮する方式では、多数の認識候補を保有するメモリに対する負担、検索時の処理に対する負荷がかかり、高度な検索処理に適用するには限界がある。ドキュメントの検索索引を作成する段階で、もっと正確に文書特徴をとらえてキーワードを抽出しておく必要がある。
特開平3−116374号公報 特開平8−329118号公報 特開平6−089330号公報
本発明が解決しようとしている課題は、認識誤りや入力ミスを含む文書に対し文書処理を施すために有効な特徴語検出法を提案することである。すなわち、認識誤りを回避する特徴語収集方式を実現することにある。
上記課題を解決するために本発明は、文書から特徴を検出する文書処理方法であって、文書から未知語を検出する未知語検出ステップと、前記未知語検出ステップで検出された未知語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップとを有することを特徴とする。
また本発明は文書から特徴を検出する文書処理方法であって、文書から長単位語を検出する長単位語検出ステップと、前記長単位語検出ステップで検出された長単位語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップとを有することを特徴とする。
また本発明は文書から特徴を検出する文書処理方法であって、文書から未知語を検出する未知語検出手段と、前記未知語検出手段で検出された未知語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、前記一致度に基づいて文書の特徴語を検出する特徴語検出手段とを有することを特徴とする。
また本発明は文書から特徴を検出する文書処理装置であって、文書から長単位語を検出する長単位語検出手段と、前記長単位語検出手段で検出された長単位語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、前記一致度に基づいて文書の特徴語を検出する特徴語検出手段とを有することを特徴とする。
本発明によれば、認識誤りあるいは入力ミス等が含まれている文書に対し、重要語保持手段が保持する重要語との一致度に基づいて特徴語を推定するので、文書の特徴を表す語をより確実に検出することができる。
以下、図面を参照しながら本発明に好適な実施形態を詳細に説明する。
図1は本発明を適用した文字処理装置の構成を示すブロック図である。図示の構成において、CPUはマイクロプロセッサであり、文書検索処理のための演算、論理判断等を行い、バスを介してバスに接続された各構成要素を制御する。マイクロプロセッサCPUが文書検索表示手段としても動作する。BUSはバスであり、マイクロプロセッサCPUの制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。RAMは書込み可能なランダムアクセスメモリであって、各構成要素からの各種データの一次記憶に用いる。ROMは読出し専用の固定メモリである。マイクロプロセッサCPUによるブートプログラムを記憶する。ブートプログラムはシステム起動時にハードディスクに記憶された制御プログラムをRAMにロードし、マイクロプロセッサCPUに実行させる。制御プログラムについては、後にフローチャートを参照して詳述する。
入力装置はキーボード、およびマウス等である。表示装置はCRT、あるいは液晶ディスプレイ等である。スキャナは紙ドキュメントを読み込んでデジタル化するためのスキャナである。HDはハードディスクであり、CPUにより実行される制御プログラム、形態素解析を行うための形態素解析辞書、文書の特徴を表現し得る単語を記憶した重要単語辞書、検索・要約・分類等の処理が行われる対象となる文書を記憶した文書データベース、重要単語辞書に格納される重要単語を自動収集できるよう基準となる文書を格納する基準文書データベース、文書を概念検索できるように各単語を概念ベクトル化した単語ベクトル辞書、概念検索を行う際にインデックスとして使用される概念検索索引、キーワード検索処理を行う際にインデックスとして使用されるキーワード検索索引、各文字間の類似性を格納した文字類似度データベース、処理中のワークエリアとして使用される一致重要単語リスト等が格納される。
リムーバブル外部記憶装置はフロップーディスクやCD、DVD等の外部記憶にアクセスするためのドライブ等である。上記HDと同様に使用でき、それらの記録媒体を通じて他の文書処理装置とのデータ交換を行う装置である。なお、ハードディスクに記憶される制御プログラムは、これらの外部記憶装置から必要に応じてHDにコピーすることもできる。通信装置はネットワークコントローラである。通信回線を介して外部とのデータ交換を行う装置である。
かかる各構成要素からなる本発明文書処理装置においては、入力装置からの各種の入力に応じて作動するものであって、入力装置からの入力が供給されるとまずインタラプト信号がマイクロプロセッサCPUに送られ、それに伴って、CPUがROMまたはRAM内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。
図2は本発明を適用した文書処理装置の文書検索結果を表示する表示装置の画面構成例を示したものである。検索条件パネル21には、検索指示内容(検索クエリ)が表示される。検索クエリとしては、ユーザの入力する自然文(「フォームの種類」「フォームの種類について知りたい」「フォームのバリエーションを教えてくれ」など)、あるいはユーザの入力する複数のキーワードの羅列(「フォーム、種類」など)、あるいはユーザが指示する既存文書(「文書番号267」)等である。検索結果パネル22には、上記検索クエリによって実行された文書検索結果が表示される。検索結果としては、各文書のIDとタイトル、類似度が類似度の順にリストアップされる。
図3は文書の特徴を表現し得る重要単語(キーワード)のリストを格納した重要単語辞書の構成を示したものである。各重要単語にはユニークな単語IDが対応付けられ、その表記が記憶される。専門用語等の複合語も多く登録される。本実施例においては、重要単語辞書は、基準文書から自動収集されて作成される。あるいは、ユーザが個別に編集して作成されたものであるか、あるいは予め準備・作成されたものが提供されるという実施形態も考えられる。本実施例においては自動収集されて作成された重要単語辞書を主体に説明するが、それに対して更にユーザ登録する機能を提供されても差し支えない。
重要単語であるから、日本語において使用されるありとあらゆる単語が収集されたものではなく、ある程度、分野によって偏って使用される単語が登録される。例えば、「人」「日」「事」「物」などの単語は、通常どのような文書であっても使用される単語であり、普通は重要単語として登録されない。必然的に固有名詞や専門用語が重点的に登録されることになる。アルゴリズムの都合上、短い単語の曖昧マッチングは困難であるので、需要単語としては比較的長い単語が望ましい。
例えば、「構文」という専門用語との曖昧マッチングをとる場合を考える。OCRドキュメントに認識誤りがあり、例えば「構」が誤認識されていると「?文」とのマッチングを取ることになり「散文」「漢文」「悪文」「証文」「英文」等無数の単語の可能性が出てきてしまう。これに対し、例えば「構文解析」という専門用語では、仮にOCRが「構」の部分を誤認識しても他の部分は正常である可能性が高く「?文解析」となる。これであれば、可能性があるのは「構文解析」くらいなので、正しく重要単語を抽出することができる。
図中、単語ID=8(「構文の解析」)のように複数文節からなる文字列も含んでいる。これは、短い単語の重要単語を抽出することが困難なので、共起関係を含めた文字列を登録することで、回避しようという仕組みである。この場合「構文」は短すぎるのでその用例である「構文の解析」「構文の関係」などの文字列を登録し、処理するのである。
図4は文書データベースに格納される文書の構成を示した図である。文書はスキャナからスキャンされたビットマップイメージ(スキャンドキュメント)と、それに対してOCRが施されたOCRドキュメントからなり、この両方が対応付けられて文書データベースに格納される。OCRドキュメントはスキャンドキュメントのビットマップが文字認識された第1候補が格納されており、必然的に認識誤りを含んでいる。図中“BJシリーズ”となるべき文字列は“8○シリーズ”となり、“超写真画質”となるべき文字列は“超写真白質”となってしまっている。なお、文書データベースにおいては、各文書はユニークな文書IDで識別される。
このようなOCRドキュメントに対し通常の形態素解析処理をかけると多数の解析エラー個所(未知語)が発生し、十分な情報が得られない。例えば“BJシリーズ”“超写真画質”という文字列は認識誤りを含んでいるので、このままではこれらの単語を重要単語として抽出できない。結果として「BJシリーズ」等の検索要求に対し、この文書をヒットさせることができないことになる。
図5、図25は基準文書データベースに格納される基準文書の例を示した図である。基準文書は重要単語を自動収集する目的で使用されるので、できるだけ解析誤りが発生しない文書が望ましい。そこでOCRドキュメントではなく、初めから電子的に作成されたテキストファイルなどのドキュメントが使用される。図5は基準文書の一つの例である。これに形態素解析をかけた場合、形態解析辞書に登録されている単語については単語切りが行われ、単語が登録されていない部分は未知語として出力される。図中、未知語は矩形で囲まれて表示されている。この未知語の部分から重要単語としてふさわしい単語を抽出し重要単語辞書に登録することになる。
また別の基準文書の例を図25に示す。これに形態素解析をかけた場合、形態解析辞書に登録されている単語については文節切りが行われる。図中「/」で示されるのは文節の境界であるが、形態素解析では単に文節の境界だけでなく文節内の単語構造が出力される。この解析結果に基づいて、複合語(長単位語)が抽出され、このうち重要単語としてふさわしい長単位語が重要単語辞書に登録することになる。図中、重要単語に採用される長単位語の例が矩形で囲まれて表示されている。あらゆる複合語が重要単語に採用されるわけではない。例えば、アルゴリズムの都合上、文字数のある程度長い文字列でないといけないので、ある文字数を超えるもののみが採用される。
図6は単語ベクトル辞書の構成を示したものである。単語ベクトルは、語義ベースの各単語の意味を意味ベクトル(意味分類ごとの特徴量のリスト)であり、単語ベクトル辞書はその集合である。各次元は1つの意味分類を表現する。各単語(語義)は各次元の意味分類をどの程度含意しているかという値(=特徴量)を記憶する。例えば、次元3は「宇宙・空」、次元4は「取引・売買」、次元7は「身振り・動作」という意味分類をそれぞれ表している。単語7は「フォーム」という単語を表している。単語7の次元3は0であり、これは「フォーム(帳票)」という単語には「宇宙・空」の意味分類に関係する意味を全く持っていないことを意味する。単語7の次元4の値は大きく、次元7の値は小さい。これは「フォーム(帳票)」が「取引・売買」の意味を強く持っているが、「身振り・動作」の意味は弱いことを意味する。これに対し、単語8の次元4は小さく、次元7が大きい。これは「フォーム(姿勢)」が「身振り・動作」の意味を強く持っているが、「取引・売買」の意味は弱いことを意味する。このように単語ベクトル辞書により、語義別の各単語の意味するものが分かる。
文書の意味はその中でどのような単語が使用されたかによって決定されると解釈し、各文書の意味は、その文書を構成する単語の意味ベクトルを加算していくことで求める。このときベクトルの次元は単語の意味ベクトルと同じであり、ある意味分類を表現する。加算されて得られたベクトルをノルム=1で正規化し、これを文書ベクトルと呼んで文書データベースに格納する。
図7は概念検索索引を示したものである。概念検索索引は、各文書に対して該文書に対応する概念ベクトル(=文書ベクトル)を記憶するものである。各文書ベクトルは、各文書がどのような意味内容を表現しているかを示す。例えば、文書ID=6949の次元4、次元7の特徴量はそれぞれ0.009、0.425であり、文書ID=6953の次元4、次元8の特徴量はそれぞれ0.362、0.008であることが分かる。これにより文書ID=6949は「取引・売買」の意味分類をほとんど含んでない文章であり、文書ID=6953は「身振り・動作」の意味分類をほとんど含んでいない文章であることが分かる。
図8は、キーワード検索索引の構成を示した図である。キーワード検索の要求に対して指定キーワードが含まれる文書を検索するときのために準備作成されたインデックスである。各重要単語に対して、その単語を含む文書を列挙した構造となっている。各単語IDに対し、その単語を含む文書の文書IDが位置(文書中での先頭から文字位置)とともに格納される。図から、例えば、単語ID=1の単語は、文書ID=4の文書の先頭から0文字の文字位置、すなわち、文書の先頭に存在することが分かる。このインデックスを参照することによりどの単語がどの文書のどの位置に存在するかを把握することができる。
なお、この検索索引の構成は論理構成を示しているだけである。実際の検索処理においては高速検索が可能なように適切にフォーマットに構成され、例えば、データの多重化等による高速化等がなされることになる。
図9は一致重要単語リストの構成を示した図である。一致重要単語リストは、ある文書の特徴抽出処理の途中において一時的に管理作成されるテーブルであり、恒久的に存在する情報ではない。1文書の処理ごとに内容がクリアされる。リストはある文書に対してどの単語がどの位置に存在すると考えられるかを、その解釈による一致スコアと一致率とともに示している。91は単語IDであり、存在すると考えられる重要単語のIDを示している。92は開始位置、93は終了位置であり、その間に重要単語が存在することを示している。94は一致スコアであり、該当の重要単語とマッチングをとった場合のスコアが格納される。95は一致率であり、そのマッチングの妥当性を示す値が格納される。例えば、1行目は単語ID=5の単語(図2によれば「ベクトル空間モデル」)が、文書先頭から21の位置から29の位置まで存在する可能性があり、その一致スコアは18、一致率は2であることを示している。
図10は文字類似度データベースである。OCRの観点から見て類似した形態を持つ文字をデータベース化したものである。101で示す基準文字に対し類似した文字群が102で示す類似文字に格納される。例えば、1行目は、「B」という文字は「8」や「乃」という文字と類似していることを表現している。また2行目は「王」は「壬」や「生」と類似していることを表現している。
図11は本発明における一致スコアと一致率の算出方法の例を示した図である。一致スコアは比較する文字列の先頭(k=1)から末尾(k=n)までのスコアを1からnまで積算したものであり、各スコアはk番目の文字の一致が、不一致のとき0、完全に一致するとき2(すなわち、比較元の文字と比較先の文字が正確に一致したとき)、文字類似度データベースを参照して一致したとき1(すなわち、比較元の文字と比較先の文字は一致しなかったが、文字類似度データベースを調べるとこの2つの文字が類似しているとして登録されていたとき)、とする。これに基づくと「BJシリーズ」と「8○シリーズ」を比較する際には、一致スコア=1+0+2+2+2+2=9となる。(「B」と「8」は、図10に示すように文字類似度データベースにおいて類似している)
一致率は、1文字あたりの一致スコアであり、一致スコアを比較文字数で割ったものである。例えば、先の「BJシリーズ」と「8○シリーズ」の場合は比較文字数が6文字なので、一致率は、9÷6=1.5と求められる。
図12は文書と文書の概念的類似性を判定する際の概念類似度の算出方法を示した図である。概念検索処理は、検索クエリに対して概念的に類似するドキュメントを文書データベースから探してくる処理である。本実施例では検索クエリを1つの文書とみなしてその文書ベクトルを求め(=クエリベクトル)、検索対象文書データベース上の文書の文書ベクトルと該クエリベクトルとの余弦測度を求め、概念類似度としている。
文書ベクトルXは各次元にx1〜xnの値を持つn次元のベクトルである。クエリベクトルQも同様にn次元のベクトルである。余弦測度による類似度をSD(X,Q)、と表すことにする。余弦測度SD(X,Q)は両ベクトルの内積を両ベクトルのノルムの積で割った値となる。両ベクトルがノルム=1で正規化されている本実施例では、SD(X,P)は内積そのものに相当する。よって両ベクトルに対し、同次元特徴量の積の総和で求めることができる。
上述の動作をフローチャートに従って説明する。図13は本発明文書処理装置の動作、より具体的にはマイクロプロセッサCPUの処理手順を示すフローチャートである。ステップS13−1はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示灯を行う処理である。ステップS13−2はキーボード等の入力装置から何らかのキーが押下され、割り込みが発生するのをマイクロプロセッサCPUにおいて待つ処理である。キーが打鍵されると、ステップS13−3においてマイクロプロセッサCPUがこのキーを判別し、キーの種類に応じて各種の処理に分岐する。各種キーに対応した分岐先の複数の処理をステップS13−4という形でまとめて表現している。図14、図17、図20、図21で詳述する重要単語収集処理、文書登録処理、キーワード検索実行処理、概念検索実行処理がこの分岐先の一部となる。他の処理としては、詳細は記述されないが、スキャナから文書を読み込んでOCRをかける処理、ドキュメントの要約を行う要約実行処理、分類を行う分類実行処理などがある。ステップS13−5は上記の各処理の結果、変更された部分を表示する表示処理である。表示内容を表示パターンに展開しバッファに出力するといった通常広く行われている処理である。
図14はステップS13−4の一部である重要単語収集処理を詳細化したフローチャートである。まず、ステップS14−1において、基準文書を1文書取得する。次いでステップS14−2において基準文書が取得し尽くされたかどうかを判定し、終了していればそのままリターンするが、正常に取得できた場合はステップS14−3に進む。ステップS14−3において、取得された基準文書に形態素解析をかける。その結果、解析できた個所は文節列として得られ、解析できなかった個所は未知語として得られる。ステップS14−4において、図15に詳述する長単位重要単語収集処理を行い、上記生成された文節列から基準を満たす重要単語候補を収集する。次にステップS14−5において、図16に詳述する未知語重要単語収集処理を行い、上記生成された未知語から基準を満たす重要単語候補を収集する。ステップS14−6において、これまでに得られた重要単語の候補から、総出現頻度がある程度大きく、かつ、適度に局在しているものを残し、残りは捨て去る。ある単語が局在しているかどうかは、例えば、出現確率=(該当単語が含まれる基準文書数)/(基準文書の総数)で判定することができる。出現確率が例えば、0.8以下のもののみを残せば、適度に局在しているものを残していることになる。ステップS14−7において、この残された重要単語の候補を重要単語辞書に登録する。重要単語採用判定で落とされた単語は登録されない。その後、ステップS14−1にループし、次の基準文書を取得する。
図15はステップS14−4の長単位重要単語収集処理を詳細化したフローチャートである。まず、ステップS15−1において、該当基準文書から1文節取得する。次いでステップS14−2において文節が既に取得し尽くされたかどうかを判定し、終了していればそのままリターンするが、正常に取得できた場合はステップS15−3に進む。ステップS15−3において、取得された文節が重要単語の品詞の基準、表記の基準を満たしているかどうか判定する。この段階で、例えば、名詞、サ変名詞、接頭語、接尾語、役職名、姓、名などの品詞が残され、形容詞、動詞などの品詞は落とされる。表記のチェックでは、例えば、漢字、カタカナなどがのこされ、ひらがな交じりの単語は落とされる。この判定結果に基づき、ステップS15−4において、NGならばステップS15−1に分岐する。ステップS15−5において、取得された文節が表記長の基準を満たしているかどうか判定する。この段階で、例えば、表記長が5文字以下の単語は落とされる。この判定結果に基づき、ステップS15−6において、NGならばステップS15−1に分岐する。ステップS15−7において、取得された文節が前方の文節との連接品詞の基準を満たしているかどうか判定する。この段階で、例えば、名詞+接頭語、接尾語+名詞、名+姓、役職名+名詞などの異常な組み合わせが落とされ、姓+名、接頭語+名詞、名詞+接尾語、姓+役職名などの正常な長単位語のみが残される。この判定結果に基づき、ステップS15−8において、NGならばステップS15−1に分岐する。ステップS15−9において、上記の判定基準をすべてクリアした場合に、前方文節とこの文節の語幹とで合成される長単位語を重要単語の候補として出力する。その後、ステップS15−1にループし、次の文節取得に移る。
図16はステップS14−4の未知語重要単語収集処理を詳細化したフローチャートである。まず、ステップS16−1において、該当基準文書から未知語を1単語取得する。次いでステップS16−2において未知語が既に取得し尽くされたかどうかを判定し、終了していればそのままリターンするが、正常に取得できた場合はステップS16−3に進む。ステップS16−3において、取得された未知語が重要単語の品詞の基準、表記の基準を満たしているかどうか判定する。なお、未知語であるから品詞はあくまでも推定された品詞である。品詞の推定は、例えば、後続する助詞による行われる。この段階で、例えば、名詞などの品詞が残され、形容詞、動詞などの品詞は落とされる。表記のチェックでは、例えば、漢字、カタカナなどがのこされ、ひらがな交じりの単語は落とされる。この判定結果に基づき、ステップS16−4において、NGならばステップS16−1に分岐する。ステップS16−5において、取得された未知語が表記長の基準を満たしているかどうか判定する。この段階で、例えば、表記長が5文字以下の未知語は落とされる。この判定結果に基づき、ステップS16−6において、NGならばステップS16−1に分岐する。ステップS15−7において、取得された未知語が前方の文節との連接品詞の基準を満たしているかどうか判定する。この段階で、例えば、接尾語+名詞、役職名+名詞などの異常な組み合わせが落とされ、姓+名、接頭語+名詞などの正常な組み合わせのみが残される。この判定結果に基づき、ステップS16−8において、NGならばステップS16−1に分岐する。ステップS16−9において、この残された未知語を重要単語の候補として出力する。その後、ステップS16−1にループし、次の文節取得に移る。
図17はステップS13−4の一部である文書登録処理を詳細化したフローチャートである。ステップS17−1において、登録が指定された紙文書をスキャナから読み取り、デジタル化し、ビットマップドキュメントを生成する。ステップS17−2において、該ビットマップに対して文字認識をかけ、文字コードテキスト化し、OCRドキュメントを生成する。ステップS17−3において、図18に詳述する重要単語抽出処理を行い、該OCRドキュメントから重要単語を抽出する。重要単語は一致重要単語リストに出力され、渡される。ステップS17−4において、文書ベクトル生成処理を行い、ステップS17−3で抽出された重要単語群に基づき単語ベクトル辞書検索を行い、単語ベクトルを求め、その総和から文書ベクトルを生成する。なお、語義の特定できない単語についてはその表記を持つすべての語義の単語ベクトルに頻度別の重みをつけて加算することになる。ステップS17−5において、上記生成された重要単語群及び文書ベクトルを検索索引の形に加工し、キーワード検索索引と概念検索索引を作成する。ステップS17−6において該当文書データのビットマップドキュメント及びOCRドキュメントを文書データベースに登録し、文書データベースのインデックスを更新する。
図18はステップS17−3の重要単語抽出処理を詳細化したフローチャートである。まず、ステップS18−1において一致重要単語リストを初期設定してクリアする。ステップS18−2において該当文書を形態素解析辞書に基づいて形態素解析する。ここでの形態素解析はOCRドキュメントが対象なので、多数の未知語が発生することになり、これは後ほど利用する。ステップS18−3において、未知語とならずに正常に解析できた部分から重要単語を抽出する。これは解析結果を先頭からスキャンして重要単語辞書に記載される重要単語の表記と一致するものを検出することに行われる。重要単語辞書には複数文節からなるような文字列の登録もあるので、マッチングの際には解析結果から複数文節を取り出して重要単語とマッチングする処理を含んでいる。ここでの文字列マッチングは、正常に解析できて認識誤りが無い部分のマッチング処理なので、曖昧マッチングではない通常の完全マッチングを行う。マッチングそのものは通常のマッチング処理なので、ここでは特に手続きの詳細を述べない。抽出された重要単語はステップS14−4において一致重要単語リストに登録される。ステップS18−5において先ほどの形態素解析から出力された多数の未知語のうち先頭の未知語を取得する。ステップS18−6において未知語が既に取得し尽くされたかを判定し、未知語がもはや無いときはリターンする。未知語が正常に取得できたときはステップS18−7に進み、該当未知語に対して図19に詳述する曖昧マッチング処理を行い、未知語部分から重要単語を抽出する。形態素解析の精度にもよるが、一般に未知語の範囲は正確に判定されないことが多いのでここでは多少のマージンを見込んで広い目の範囲を未知語として曖昧マッチング処理に渡せばよい。処理が終了すると、一致重要単語リストに検出重要単語が出力される。その後、ステップS18−8に進み、次の未知語を取得して、ステップS18−6にループする。
図19はステップS18−7の曖昧マッチング処理を詳細化したフローチャートである。ステップS19−1において、重要単語辞書から最初の重要単語を1つ取得する。ステップS19−2において重要単語が正常に取得できたかを判定し、取得できなかったときはリターンする。取得できたときはステップS19−3に進み、図11に示される算出式に従って該当未知語と該当重要単語との一致スコアを算出する。未知語内の比較先頭位置は正確には特定できないので先頭位置を変えて何箇所かの一致スコアを算出し、最も良いスコアを採用する。ステップS19−4において、やはり図11に示される算出式に従って一致率を算出する。ステップS19−5において該一致スコアが許容される閾値を満たしているかどうかを判定する。なお、閾値は予め定められているものとし、図11で算出される一致率においては、例えば値1を採用する。閾値の条件を満たしていない場合はこの重要単語を一致重要単語リストに登録せずにスキップするためステップS19−7にスキップする。満たしている場合は登録すべきなので、ステップS19−6に進み、該当重要単語を一致重要単語リストに登録する。登録後、ステップS19−7に進む。ステップS19−7において重要単語辞書から次の重要単語を取得し、ステップS19−2にループする。
図20はステップS13−4の一部であるキーワード検索実行処理を詳細化したフローチャートである。ステップS20−1において、ユーザの検索クエリを取得する。ここにおいてユーザは自然文、あるいは複数のキーワードの入力、あるいは既存の文書指定の形で指示する。指示の方法に応じて、クエリのテキストストリングを入手する。例えば、既存の文書を指定した場合はその文書にアクセスし、適当なフォーマット変更を行ってその文書の内容をテキストファイル化し、そのテキストストリングを次のステップ以降に送る。ステップS20−2においてクエリの解析を行い、キーワードを抽出する。ステップS20−3において、キーワード検索索引にアクセスし、検索クエリとのマッチングを行う。検索クエリから抽出されたキーワードがキーワード検索索引に存在するかをサーチし、キーワードが存在する文書の文書IDを出力する。検索処理において通常に行われる処理であり、ここでは詳細な説明は割愛する。最後にステップS20−4において検索クエリと合致する文書の文書IDをもとに、検索結果としてリストアップして表示する。その後、リターンする。
図21はステップS13−4の一部である概念検索実行処理を詳細化したフローチャートである。ステップS21−1はユーザの検索クエリ入力処理であり、ここにおいてユーザは自然文の入力、あるいは既存文書の指定の形で指示する。指示の方法に応じて、クエリのテキストストリングを入手する。例えば、既存の文書を指定した場合はその文書にアクセスし、適当なフォーマット変更を行ってその文書の内容をテキストファイル化し、そのテキストストリングを次のステップ以降に送る。ステップS21−2はクエリベクトルの生成処理であり、図22に詳述する如く検索クエリのクエリベクトルを得る。ステップS21−3は、図23に詳述するように、クエリベクトルと対象文書ベクトルとから概念類似度を生成し、その関連付けられたリストを作成する処理である。ステップS21−4は、ステップS21−3で作成されたリストを概念類似度に応じてソートし、文書をランキングする処理である。ステップS21−5はステップS21−4でランキングされた文書を検索結果としてリストアップして表示する処理である。その際に、ステップS21−3で求められた概念類似度の値も同時に表示する。
図22はステップS21−2の処理であるクエリベクトル生成処理を詳細化したフローチャートである。ステップS22−1はユーザ指定の検索クエリから単語を抽出する処理であり、形態素解析用辞書を使用して形態素解析を行う。解析後、ステップS22−2において、解析結果に基づいて各単語の多義解消を行う。多義解消の手法として、これまでにも各種の方法が提案されているので、それに従う。例えば、係り受け解析結果と共起データベースとのマッチングによる多義解消、ユーザプロファイルとの概念マッチングに基づく多義解消などが考えられる。十分に多義解消されなかった単語については、複数個語義が出力される。次いで、ステップS22−3において、検索クエリの文書ベクトルを生成する。ステップS22−1、S22−2で抽出された単語及び特定された語義から単語ベクトル辞書を検索し、単語ごとの次元別の特徴量を得てその総和から文書ベクトルを生成する、ステップS17−4と同様の処理である。
図23はステップS21−3の処理を詳細化したフローチャートである。ステップS23−1において、概念検索索引を取得し、例えばRAM上にロードする。ステップS23−2において、該概念検索索引から文書ベクトルを順番に取得する。ステップS23−3において取得された文書ベクトルと検索クエリのクエリベクトルとから概念類似度を算出する。ステップS23−4において、該算出された概念類似度を文書IDと関連付けてリストの形でRAMにストアする。処理が進むごとにこのリストが追加されていくことになる。ステップS23−5において、概念検索索引内に未処理の文書があるかどうかを判定し、残りが存在する場合はステップS23−6に分岐し、存在しない場合は、これまでにストアされた文書と概念類似度の関連付けられたリストを出力としてリターンする。ステップS23−6において、概念検索索引中の次の文書の処理に移り、ステップS23−2にループする。このように検索クエリとの概念類似度判定を繰り返す。
(他の実施例)
なお、本発明は上述の実施形態に限定されるのではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。
上記第1の実施形態においては、一致すると認められた重要単語はすべて登録されていたが、これは現実と矛盾することがある。矛盾した重要単語を登録しないという実施形態も考えられる。
例えば、重要単語として「プログラミング」「エンジニアリング」が登録されている場合に、OCRドキュメントに(誤認識の結果により)「マイクエプジグラリング」という文字列があったとする。この場合、先の実施例では「プログラミング」は「プジグラリング」と一致が取れ「エンジニアリング」も「エプジグラリング」と一致がとれるので、両方とも抽出されていたが、原文にはどちらかしか存在しないはずである。用途によってはどちらの重要単語を採用するかに決定してしまった方が良い場合がある。そのようなときは一致率で判断することにする。一致率は、図11に算出方法が示されているが、1文字あたりの一致度合いを示した数値である。「マイクエプジグラリング」の場合、「プログラミング」とは「プ」「グ」「ラ」「ン」「グ」の5字が一致し、一致スコアが値10、一致率が10/7=1.4となり、「エンジニアリング」とは「エ」「ジ」「リ」「ン」「グ」の5字が一致し、一致スコアがやはり値10、一致率が10/8=1.25となる。従って「プログラミング」が採用される。
この場合は図14に示された重要単語抽出処理のフローチャートは図24に示すように変更される。
まず、ステップS24−1からステップS24−7までは、図14のステップS14−1からS14−7と同じ処理である。ステップS24−7で未知語部分から重要単語が抽出され、一致重要単語リストに登録されるが、その後、ステップS24−8に進み、一致重要単語リストの矛盾がチェックされる。ここで、先ほどのような2通りにマッチングがとれる重要単語を検出し、そのようなものに対してはステップS24−9において、一致率の高いものを残し、他を削除する処理を行う。その後、ステップS24−10において次の未知語を取得し、ステップS24−6にループする。
このように構成することで、矛盾した重要単語を排除できるので、本来含める必要の無い単語が需要単語として抽出され文書特徴に含められる誤りを避けることができる。特にキーワード検索においては望ましい実現形態である。
上記以外にも、本発明の趣旨を逸脱しない限りにおいて、構成を適宜変更することが可能である。
上述の実施形態においては、重要単語を収集するもとになる基準文書データベースは文書処理を受けるべき文書データとは独立した別のデータベースで構成されるとしているが、これは必ずしも別データベースにする必要は無い。データベースとしては1つのデータベースとし、その格納する文書の1つずつにフラグを持ち、基準文書であるかどうか判定して処理するという実施形態も考えられる。このときは2つのデータベースを用意する必要が無いので、メモリの削減につながり、また運用性の向上にも役立つ。
あるいは、基準文書であるというフラグではなく、OCRされたものではなく元々電子的に作成された電子文書であるというフラグをもち、電子的に作成された文書のみから重要単語を抽出するという実施形態も考えられる。このときは、基準文書を設定するという手間が発生せず、ユーザの普段利用している文書の中に電子文書が含まれているだけで重要単語辞書が作成できるので、労力の一層の軽減につながる。
上述の実施形態においては、重要単語の抽出はまず形態素解析をかけて、その解析不能な未知語の部分のみを曖昧マッチングしていたが、このような形態素解析をかけずに、すべてを未知語と考えて曖昧マッチングし、重要単語を抽出するよう構成することもできる。この場合、形態素解析をかける負荷が軽減され、形態素解析辞書のメモリ使用量、形態素解析の時間的負荷を軽減することができる。
また、上述の実施形態においては、重要単語辞書は基準ドキュメントから自動的に生成される辞書であると説明しているが、ユーザが普段アクセスするWWWページから収集するようにしてもよい。このように構成すると基準文書データベースをセットするというユーザの負荷を軽減することができる。
また、上述の実施形態においては、文字認識されたドキュメントから重要単語を抽出するよう構成しているが、音声認識されたテキストから重要単語を抽出する目的に適用するよう構成することもできる。この場合、音声情報からその内容的特徴を抽出し処理することができるようになる。
また、上述の実施形態においては、抽出された重要単語を、文書検索(キーワード検索、概念検索)に適用するよう構成したが、要約、分類に適用させることもできる。要約の場合は、キーワードに基づく要約技術がこれまでに多数提案されており、その処理に結びつけるだけである。分類の場合も、文書から特徴単語を抽出し、それらの特徴単語の構成するベクトル空間から類似性を判断し分類処理を行う技術が多数提案されており、それらと結合すれば、分類処理に適用することができる。
本実施例の文書処理装置の全体構成を示すブロック図である。 文書検索結果の表示画面構成例を示した図である。 本実施例の文書処理装置における重要単語辞書の構成を示した図である。 本実施例の文書処理装置における文書データベースに格納されるスキャンドキュメントとOCRドキュメントの内容を説明した図である。 本実施例の文書処理装置における基準文書データベースに格納される基準文書の内容を説明した図である。 本実施例の文書処理装置における単語ベクトル辞書の構成を示した図である。 本実施例の文書処理装置における概念検索索引の構成を示した図である。 本実施例の文書処理装置におけるキーワード検索索引の構成を示した図である。 本実施例の文書処理装置における一致重要単語リストの構成を示した図である。 本実施例の文書処理装置における文字類似度データベースの構成を示した図である。 本実施例の文書処理装置における一致スコアと一致率の算出式を示した図である。 本実施例の文書処理装置における概念類似度の算出方法を示した図である。 本実施例の文書処理装置全体の処理手順の一例を示すフローチャートである。 重要単語収集処理の処理手順の一例を示すフローチャートである。 長単位重要単語収集処理の処理手順の一例を示すフローチャートである。 未知語重要単語収集処理の処理手順の一例を示すフローチャートである。 文書登録処理の処理手順の一例を示すフローチャートである。 重要単語抽出処理の処理手順の一例を示すフローチャートである。 曖昧マッチング処理の処理手順の一例を示すフローローチャートである。 キーワード検索実行処理の処理手順の一例を示すフローチャートである。 概念検索実行処理の処理手順の一例を示すフローチャートである。 クエリベクトル生成処理の処理手順の一例を示すフローチャートである。 概念類似度生成処理の処理手順の一例を示すフローチャートである。 重要単語抽出処理の処理手順の他の例を示すフローチャートである。 本実施例の文書処理装置における基準文書データベースに格納される基準文書の内容を説明した図である。

Claims (14)

  1. 文書から特徴を検出する文書処理方法であって、
    文書から未知語を検出する未知語検出ステップと、
    前記未知語検出ステップで検出された未知語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、
    前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップとを有することを特徴とする文書処理方法。
  2. 前記特徴語検出ステップで検出された特徴語と前記文書を関連付けて記憶する記憶ステップと、
    検索クエリを入力するクエリ入力ステップと、
    前記クエリ入力ステップで入力された検索クエリと前記記憶ステップで記憶された特徴語に基づいて、前記文書を検索する検索ステップとを更に有することを特徴とする請求項1に記載の文書処理方法。
  3. 前記クエリ入力ステップは検索クエリとして文章を入力し、
    前記検索ステップは前記クエリ入力ステップで入力された文書に類似する文書を検索する概念検索であることを特徴とする請求項2に記載の文書処理方法。
  4. 文書から特徴を検出する文書処理方法であって、
    文書から長単位語を検出する長単位語検出ステップと、
    前記長単位語検出ステップで検出された長単位語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出ステップと、
    前記一致度に基づいて文書の特徴語を検出する特徴語検出ステップとを有することを特徴とする文書処理方法。
  5. 前記特徴語検出ステップで検出された特徴語と前記文書を関連付けて記憶する記憶ステップと、
    検索クエリを入力するクエリ入力ステップと、
    前記クエリ入力ステップで入力された検索クエリと前記記憶ステップで記憶された特徴語に特徴語に基づいて、前記文書を検索する検索ステップとを更に有することを特徴とする請求項4に記載の文書処理方法。
  6. 前記クエリ入力ステップは検索クエリとして文章を入力し、
    前記検索ステップは前記クエリ入力ステップで入力された文書に類似する文書を検索する概念検索であることを特徴とする請求項5に記載の文書処理方法。
  7. 文書から特徴を検出する文書処理装置であって、
    文書から未知語を検出する未知語検出手段と、
    前記未知語検出手段で検出された未知語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、
    前記一致度に基づいて文書の特徴語を検出する特徴語検出手段とを有することを特徴とする文書処理装置。
  8. 前記特徴語検出手段で検出された特徴語と前記文書を関連付けて記憶する記憶手段と、
    検索クエリを入力するクエリ入力手段と、
    前記クエリ入力手段で入力された検索クエリと前記記憶手段で記憶された特徴語に特徴語に基づいて、前記文書を検索する検索手段とを更に有することを特徴とする請求項7に記載の文書処理装置。
  9. 前記クエリ入力手段は検索クエリとして文章を入力し、
    前記検索手段は前記クエリ入力手段で入力された文書に類似する文書を検索する概念検索であることを特徴とする請求項8に記載の文書処理装置。
  10. 文書から特徴を検出する文書処理装置であって、
    文書から長単位語を検出する長単位語検出手段と、
    前記長単位語検出手段で検出された長単位語と重要語保持手段に保持されている重要語との一致度を算出する一致度算出手段と、
    前記一致度に基づいて文書の特徴語を検出する特徴語検出手段とを有することを特徴とする文書処理装置。
  11. 前記特徴語検出手段で検出された特徴語と前記文書を関連付けて記憶する記憶手段と、
    検索クエリを入力するクエリ入力手段と、
    前記クエリ入力手段で入力された検索クエリと前記記憶手段で記憶された特徴語に特徴語に基づいて、前記文書を検索する検索手段とを更に有することを特徴とする請求項10に記載の文書処理装置。
  12. 前記クエリ入力手段は検索クエリとして文章を入力し、
    前記検索手段は前記クエリ入力手段で入力された文書に類似する文書を検索する概念検索であることを特徴とする請求項11に記載の文書処理装置。
  13. 請求項1乃至6のいずれか1つに記載の文書特徴検出方法をコンピュータに実行させるための制御プログラム。
  14. 請求項13に記載の制御プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2003427608A 2003-12-24 2003-12-24 文書処理方法、文書処理装置、制御プログラム及び記録媒体 Withdrawn JP2005189954A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003427608A JP2005189954A (ja) 2003-12-24 2003-12-24 文書処理方法、文書処理装置、制御プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003427608A JP2005189954A (ja) 2003-12-24 2003-12-24 文書処理方法、文書処理装置、制御プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2005189954A true JP2005189954A (ja) 2005-07-14

Family

ID=34786830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003427608A Withdrawn JP2005189954A (ja) 2003-12-24 2003-12-24 文書処理方法、文書処理装置、制御プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2005189954A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625621A (zh) * 2020-04-27 2020-09-04 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625621A (zh) * 2020-04-27 2020-09-04 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质
CN111625621B (zh) * 2020-04-27 2023-05-09 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP3408291B2 (ja) 辞書作成支援装置
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
Choudhury et al. Figure metadata extraction from digital documents
JP2004348591A (ja) 文書検索方法及び装置
JPH08305730A (ja) 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
JP3791877B2 (ja) 文書の参照理由を用いて情報検索を行う装置
JP2002197104A (ja) 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
Dagan et al. Termight: Coordinating humans and machines in bilingual terminology acquisition
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
JP2006343870A (ja) 文書検索装置及び方法と記憶媒体
JP2004318510A (ja) 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
JPH09198395A (ja) 文書検索装置
JP2007025939A (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
JPH0785080A (ja) 全文書検索システム
JP2002251412A (ja) 文書検索装置および方法ならびに記憶媒体
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JP2005189954A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
JP2838984B2 (ja) 汎用参照装置
JP2004220226A (ja) 検索文書のための文書分類方法及び装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070306