JP2007018158A - 文字処理装置、文字処理方法及び記録媒体 - Google Patents

文字処理装置、文字処理方法及び記録媒体 Download PDF

Info

Publication number
JP2007018158A
JP2007018158A JP2005197565A JP2005197565A JP2007018158A JP 2007018158 A JP2007018158 A JP 2007018158A JP 2005197565 A JP2005197565 A JP 2005197565A JP 2005197565 A JP2005197565 A JP 2005197565A JP 2007018158 A JP2007018158 A JP 2007018158A
Authority
JP
Japan
Prior art keywords
word
refraction
unknown
document
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005197565A
Other languages
English (en)
Inventor
Eiichiro Toshima
英一朗 戸島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005197565A priority Critical patent/JP2007018158A/ja
Publication of JP2007018158A publication Critical patent/JP2007018158A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 紙文書をスキャンし、オリジナルの電子文書を検索する原本検索において、精度高く応答性能の良い検索手段を実現する。
【解決手段】 OCRされたテキストから単語を抽出し、未知語に対しては屈折の影響を除去できるように単純化処理を行い、かつ、誤認識の観点から類似文字で構成される未知語を同一単語に統合しつつ未知語を登録し、統合された未知語をベースとして含有単語の統計情報に基づいて文書類似性を判定する処理を入れることにより、屈折方法の不明な単語に対する未知語の数を大幅に削減でき、高速の原本検索が実現できる。
【選択図】 図5

Description

本発明は、紙文書をスキャンしてコピー、FAX、SEND等の処理を行うための文字処理装置、文字処理方法及び記録媒体に関するものである。
近年複写機は、単に紙をコピーする機能だけでなく、多機能化が進み、例えば、PCに接続してプリンタとして使用する機能、スキャンした原稿をFAX転送するFAX機能、メール転送するSEND機能なども提供されている。ドキュメントのデジタル化に伴って、文書管理と連携したドキュメント・ソリューションを実現するポータルとして位置付けられている。
コンピュータ(PC)の普及に伴い、文書の作成は、文書作成ソフトなどのPC上のアプリケーションソフトを用いて行われるのが一般的となり、PC上で各種書類等を作成、編集、複写、検索等をすることが広く行われている。また、ネットワークの発展と普及に伴い、このようにPC上で作成された電子的な文書データ(電子文書データ)が、プリンタ等を用いて紙の方の文書(紙文書)として出力されずに、他のPC等からアクセスされ、電子メール等で送信・配布される、ということも行われるようになり、ペーパーレスの文書作成環境が進みつつある。
このような電子文書データは、文書管理システムを構築してコンピュータによって体系的に管理されるようになってきたこともあり、共通化による情報量削減、文書間関連付けによるアクセスの容易性、多人数による情報の共有などにおいて極めて効果の高いものである。
一方、紙文書にも、電子文書データと比較して、読みやすさ、扱いやすさ、持ち運びの利便性、直感的分かり易さ等において大きな利点がある。そのため、電子文書データを作成しても、プリンタ装置等を用いて紙文書に出力して利用するほうが効率的な場合も依然として多い。そこで紙文書と電子文書は、互いに補完的関係を築き、両者が併用されて流通しているのが現状である。
紙文書は参照に関しては極めて便利なので、様々な局面で配布されるが、単に参照するだけでなく、その文書を再編集/再利用したいと思う場合も多い。従来は、このような場合、別途人手を介して電子ファイルを入手し編集するということが行われており、文書の再利用性を阻害する原因となっていた。
このような紙文書と電子文書の遊離問題を解決するために、印刷された紙文書をスキャンしてその情報をもとにその紙文書が印刷される元となったオリジナルの電子文書データを検索するという検索手法も提案されている。そのような検索手法を、ここでは原本検索と呼ぶ。この原本検索の機能は、複写機におけるセキュリティ確保にも適用可能で、例えば、スキャン情報の漏洩防止技術としてコピー抑制機能に適用することもできる。
原本検索を実現する工夫は従来から提案されている。例えば、特開2001-25656号公報では、紙文書のラスタ画像データから抽出された特徴量と、予め電子文書データを展開したラスタ画像データから抽出された特徴量との類似性を判断して、元の電子文書データを検索する手法を提案している。この提案においては、画像ベースで文書を比較するので、アプリケーションがラスタ画像を生成する際にある程度厳密な不変性が要求される。ところが、現実のシステム(アプリケーション)においては、レイアウトを厳密に一致させてラスタ画像を生成することが困難である場合も多い。過去には、アプリケーションあるいはOSのバージョンが変わった際にレイアウトが多少崩れる現象がかなり頻繁に発生してきた。このようにレイアウトの不変性が確保できない場合、たとえ内容が全く同じでも元文書が検出できなくなってしまう。
また、例えば、特開平3−263512は、記録用紙に記録されている文書をスキャナで読取ってデジタル化して文字認識し、更にユーザが文字認識された文字列から特徴的な文字列を検索範囲として指定し、内容および位置関係が一致する文書を検索するというものがある。この提案では、スキャンされ文字認識された文書からユーザが文字列を指定しなければならず、検索範囲の指定というわずらわしさが残るという欠点がある。もちろん、検索範囲として文書全体を指定することもできるが、その場合は文書全体の文字列とのマッチングを行うことになってしまう。文字認識にある程度の誤認識があることを考慮するとそのマッチングはあいまいマッチングとなり、比較の際には相当な処理負担がかかり、現実的応答時間が期待できない。紙文書から文字認識されたテキストをクエリとして検索するには、現実的応答性能を得るために、単純なマッチング処理では解決できない、もう一段の工夫が求められる。
このような文字認識の誤認識のあいまい性を許容するためには、ある程度の誤認識が発生してもマッチングが成功する仕掛けを予め盛り込む必要がある。欧米言語、例えば、英語においては、各単語がスペース切りされているので、単語単位でマッチングをとることになるが、もし誤認識が発生すると単語としてのマッチングが失敗することになる。例えば、“thesaurus”という単語が“thesourus”と誤認識されるとマッチングできないが、このような場合も、スペルコレクタなどで正しい単語に補正してやれば、マッチングさせることができる。なお、スペルコレクタ自体は公知の技術であり、例えば、特開平07−93328においても従来例として開示されている。
このようなスペルコレクタは、通常、屈折後の単語形を含めて、一致率の高い単語の原型に補正する機能を有する、内部的にはある種の辞書に基づいて処理するので、当然のことながら、既知語は正しく補正してくれるが、未知語は補正できない。すると、誤認識が発生した未知語に対しては、1語1語が全て別個の未知語として扱われてしまう。文書の類似性判定において、比較する単語数が規模が処理速度に大きく影響するので、全てが別個の未知語になってしまうと処理速度を低下させる大きな原因となる。最も単純な解決策は、一切の未知語を無視するということであるが、未知語は企業内文書では重要単語になるので、文書の特徴という観点からは無視できない。そこで、誤認識のある未知語を1つに統合する仕掛けが必要であり、更に、印欧語では屈折があるので、誤認識がある状況下で屈折形を含めて1つの語に統合する仕掛けが必要である。
特開2001−266075号公報 特開平3-263512号公報 特開平7-93328号公報
本発明は、上記述べた課題を解決しようというものである。
すなわち、誤認識がある未知語を1つに統合する手段を提供し、現実的応答時間内で精度の高い原本検索を実現する解決手段を提供しようというものである。
上記目的を達成するために本発明による文字処理装置は以下の構成を備える。
即ち、文字を処理する文字処理装置であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力手段と、該クエリテキストから単語を抽出する単語抽出手段と、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクト手段と、屈折方法が不明の単語を収録した未知語辞書と、該スペルコレクト手段で補正できなかった単語を文字列の類似性に基づいて未知語辞書中の単語に統合する未知語統合手段と、該統合された単語をテキスト特徴として文書を検索する検索手段とを備える。
また、文字を処理する文字処理装置であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力手段と、該クエリテキストから単語を抽出する単語抽出手段と、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクト手段と、屈折方法が不明の単語を収録した未知語辞書と、単語を所定の規則に従って屈折の影響を除去する屈折除去手段と、該屈折除去された単語を類似性に基づいて未知語辞書中の単語に統合する単語統合手段と、該統合された単語をテキスト特徴として文書を検索する検索手段とを備える。
また、前記屈折除去手段は、単語から所定の接辞を除去する手段を含む。
上記目的を達成するために本発明による文字処理方法は以下の構成を備える。
即ち、文字を処理する文字処理装置に適用される文字処理方法であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力ステップと、該クエリテキストから単語を抽出する単語抽出ステップと、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクトステップと、屈折方法が不明の単語を収録した未知語辞書と、該スペルコレクト手段で補正できなかった単語を文字列の類似性に基づいて未知語辞書中の単語に統合する未知語統合ステップと、該統合された単語をテキスト特徴として文書を検索する検索ステップとを備える。
また、文字を処理する文字処理装置に適用される文字処理方法であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力ステップと、該クエリテキストから単語を抽出する単語抽出ステップと、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクトステップと、屈折方法が不明の単語を収録した未知語辞書と、単語を所定の規則に従って屈折の影響を除去する屈折除去ステップと、該屈折除去された単語を類似性に基づいて未知語辞書中の単語に統合する単語統合ステップと、該統合された単語をテキスト特徴として文書を検索する検索ステップとを備える。
また、前記屈折除去ステップは、単語から所定の接辞を除去するステップを含む。
上記目的を達成するために本発明による記録媒体は以下の構成を備える。
即ち、文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力ステップのプログラムコードと、該クエリテキストから単語を抽出する単語抽出ステップのプログラムコードと、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクトステップのプログラムコードと、屈折方法が不明の単語を収録した未知語辞書と、該スペルコレクト手段で補正できなかった単語を文字列の類似性に基づいて未知語辞書中の単語に統合する未知語統合ステップのプログラムコードと、該統合された単語をテキスト特徴として文書を検索する検索ステップのプログラムコードとを備える。
また、文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力ステップのプログラムコードと、該クエリテキストから単語を抽出する単語抽出ステップのプログラムコードと、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクトステップのプログラムコードと、屈折方法が不明の単語を収録した未知語辞書と、単語を所定の規則に従って屈折の影響を除去する屈折除去ステップのプログラムコードと、該屈折除去された単語を類似性に基づいて未知語辞書中の単語に統合する単語統合ステップのプログラムコードと、該統合された単語をテキスト特徴として文書を検索する検索ステップのプログラムコードとを備える。
また、前記屈折除去ステップのプログラムコードは、単語から所定の接辞を除去するステップのプログラムコードを含む。
以上の説明から明らかなように、本発明によれば、文章の類似性を判断する際に、OCRの誤認識の影響を最小化するため、各単語をスペルコレクトし、また、未知語に対して誤認識のある状況下で屈折の影響を除去できるように単語を単純化し、それに基づいて一致を判定するので、未知語を無視せずに文書の類似度を測ることができるので、誤認識に対して耐性をもちつつ、かつ精度の高い類似性判定が可能となる。
以下、図面を参照しながら本発明に好適な実施形態を詳細に説明する。
図1は本発明を適用した文字処理装置の構成を示すブロック図である。
図示の構成において、CPUはマイクロプロセッサであり、画像処理、文字処理、検索処理のための演算、論理判断等を行い、バスを介してバスに接続された各構成要素を制御する。
BUSはバスであり、マイクロプロセッサCPUの制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。
RAMは読み書き可能なランダムアクセスメモリであって、各構成要素からの各種データの一次記憶に用いる。
ROMは読出し専用の不揮発性メモリである。マイクロプロセッサCPUによるブートプログラムを記憶する。ブートプログラムはシステム起動時にハードディスクに記憶された制御プログラムをRAMにロードし、マイクロプロセッサCPUに実行させる。制御プログラムについては、後にフローチャートを参照して詳述する。
入力装置はタッチパネル等である。通常のPCの様にキーボード、マウス等で構成することもできる。
表示装置は液晶ディスプレイ等である。通常のPCの様にCRT等で構成することもできる。
スキャナは原稿である紙文書を読み取ってデジタル化する等の処理を行う装置である。
プリンタは文書を印刷するための装置である。通信回線より送られる電子文書、あるいはHD内に保持されている電子文書を印刷する。コピー機能は、スキャナから読み取られたスキャンイメージをそのままプリンタにより印刷することにより実現される。
HDはハードディスクであり、CPUにより実行される制御プログラム、スペルコレクトを行うためのスペルコレクト用辞書、検索処理及び文書管理のための索引が記憶された文書管理索引、屈折方法が不明の単語を登録した未知語辞書、文章内容類似検索を行う際の各単語の重要度に関するデータを格納した単語重要度テーブル等が格納される。
リムーバブル外部記憶装置はUSBメモリデバイス、ICカード等の着脱可能な記憶デバイスである。通常のPCと同様に、フレキシブルディスクやCD、DVD等の外部記憶にアクセスするためのドライブ等を配置することもできる。上記HDと同様に使用でき、それらの記録媒体を通じて他の文字処理装置とデータ交換を行う装置である。なお、ハードディスクに記憶される制御プログラムについては、これらの外部記憶装置から必要に応じて全部または一部をHDにコピーすることができる。
通信装置はネットワークコントローラである。通信回線を介して外部とのデータ交換を行う装置である。
かかる各構成要素からなる本発明文字処理装置においては、入力装置等からの各種イベントに応じて作動するものである。入力装置等からのインタラプトが供給されると信号がマイクロプロセッサCPUに送られ、それに伴ってイベントが発生し、イベントに応じてCPUがROMまたはRAM内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。
図2は本発明における操作の流れの例を示した図である。
本発明装置は、文書管理索引中に検索のための索引、セキュリティ管理のための情報を予め格納しておく。紙文書のコピー、あるいはFAX、あるいはSENDが指示されると文書をスキャンしスキャンイメージを得る。スキャンイメージに基づいて文書管理索引を検索することにより元文書が求められ、文書IDと文書操作可否等の文書管理情報を取得する。文書操作可否に応じて操作許可であれば、スキャンイメージをそのまま出力する等の通常の印刷(コピー)処理、あるいはFAX、あるいはSENDが行われる。文書操作不可の場合は、コピー、FAX、SEND等の文書操作動作が抑制され、同時に、文書操作抑制の解除をセキュリティ管理者等に依頼する場合に備えて、元文書の文書IDが表示される。
図3は本発明における複写機の操作パネル等の画面遷移例を示した図である。画面3−1は初期状態の画面である。コピー動作を起動するコピーボタン、FAX動作を起動するFAXボタン、SEND動作を起動するSENDボタン、セキュリティ情報を設定するための設定ボタンの各種ボタンが配置されている。コピーボタンが指示された場合は、コピーの可否が判定され、コピー許可されていれば何事もなくコピー動作が遂行される。もしコピー抑制が設定されていればコピー動作は遂行されない。コピー動作が遂行されない旨通知されると共にコピー抑制に設定されている文書IDが表示される(画面3−2)。本発明においては文書の画像パターンとの比較が直接行われるわけではなく、テキスト内容に基づいて判定されるので、テキスト内容が類似しているだけでコピー抑制されるかもしれない。そのような場合は、コピー抑制の根拠(どの文書のコピーが抑制されているか)が不明なので、コピー抑制の対象となる文書IDを表示するようにしている。そうすることで、文書セキュリティ管理者に相談することによりコピー抑制の解除を依頼することができる。
FAXボタン、SENDボタンについてもコピーボタンと同様にFAX機能、SEND機能が実行される。抑制が設定されていた場合も、コピーの場合と同様に、画面3−3、画面3−4のように文書IDが表示される。
画面3−1で「設定」を選択すると画面3−5に移り文書のセキュリティ情報が変更できる。セキュリティ情報が誰にでも変更できるのであればセキュリティの意味がないので、文書セキュリティ管理者のみに使用を限定するため、ログイン名とパスワードを要求しユーザ認証を行う。文書IDを入力し、コピー、FAX、SENDの各属性に対して「許可」または「禁止」を選択的に指定して、最後に設定ボタンを指示することで、入力したセキュリティ情報が文書管理索引に設定される。
図4は本発明において行われるブロック解析の例を説明した図である。
4−1はスキャンイメージであり、紙文書がスキャナによって読み取られデジタル化された文書イメージである。ブロック解析は、この文書イメージに対してブロックの性質に応じた矩形ブロックに分割する処理である。図の場合、ブロック解析の結果、3つのブロックに分割されている。1つのブロック(4−2)は、内部に文章(テキスト)が含まれるためテキストブロックとなり、残りの2つのブロック(4−3、4−4)は、テキスト以外の情報(グラフ、写真など)が含まれるため画像ブロックとなる。テキストブロックに対しては、文字認識がかけられテキストが抽出される。画像ブロックからはテキスト情報は抽出されない。
図5はテキストブロックから抽出されるOCRテキスト情報、及び抽出されるテキスト特徴を説明したものである。
スキャンイメージのテキストブロックに対して文字認識処理がかけられ、OCRテキスト情報が抽出される。文字認識処理であるため100%正確な認識が行われるとは限らず、一定の誤認識データが含まれることになる。図中“example”となるべき文字列は“exomple”、“CanoPAT”となるべき文字列は“CanePAT”、“JetSearch”となるべき文字列は“JetSoarch”、“full-text-retrieval”となるべき文字列は“full-text-retrleval”と誤認識されてしまっている。このような誤認識文字があれば、正常なマッチングが取れなくなってしまう。もちろん、OCRの改良により誤認識が発生しないようにできるだけ正確に認識すべきではあるが、“l”(エル)と“1”(一)のように認識し分けること自体に無理があるものもある。誤認識があると単語同士のマッチングがとれないので、本発明においては、既知語(文法的振る舞いがわかっており、どのように屈折するかが判明している語)に対してまずスペルコレクトする(5−3抽出単語)。なお、既知語についてはスペルコレクト辞書に登録され屈折方法も分かるので、原形に変換する。スペルコレクトできない単語は未知語として検出する。原形が分からないので、誤認識した文字列のままである。図中、枠で囲まれた単語が未知語を意味する。検出された未知語から屈折と誤認識の影響を除去しなければならないので、まず、単純化処理により屈折の影響を除去し、更に、未知語辞書中の未知語に類似するものがあるかどうかを調べ、あれば統合し、誤認識の影響を除去する。統合された未知語がテキスト特徴として使用される(5−4抽出テキスト特徴)。ここでは、“CnPAT”“JtSrch”“fltxtrtrvl”が未知語辞書に存在したとし、それに統合されている。
なお、このような、スペルコレクト、単純化、未知語統合の各処理を経ても統合し切れない場合は存在するが、何もしない場合に比べて発生を格段に少なく押さえ込めるので、類似文章の検出に大きく寄与する。
図6は単語単純化の例を示した図である。
単語単純化は屈折の影響を取り除くことを目的としている。なお、想定する屈折には、declensionとconjugationの両方があるが、英語の場合はdeclensionが貧弱なので、その場合はドイツ語等の例を援用して説明している。
(1)は、頻出語尾、頻出接辞の除去の例である。頻出語尾は屈折に際して発生する語尾であり、英語の場合では“-s”“-ing”“-ed”“-er”“-est”などがある。また、頻出接辞は前置詞などであり、“in”“of”“on”“with”などである。例えば、ドイツ語の分離動詞においては特に有効である。これらを除去することにより、屈折の影響を除去する。除去すべき頻出語尾、頻出接辞は、予めリスト等の形で辞書に登録しておき、それを参照しながら処理を行うことになる。
(2)は母音の除去の例であり、単語中の母音をすべて除去する処理である。一般に屈折に際して母音変化、脱落、挿入などを伴う場合があり、母音を一律に除去してしまい、このような混乱を防ぐ。例えば、英語においては、“ing”をつける際に末尾の“e”が消える場合があり、通常の原形復帰の処理では“e”の復活を考慮しなければならないが、原形不明の未知語に対しては復活してよいかどうか分からない。そこで、一律に母音を除去してしまい、混乱を防ぐ。ドイツ語においては“ich fahre”“du faehrst”、“ich spreche”“du sprichst”のようにconjugationに伴って母音が変化し、また、declensionの際も、“der Traum”“die Traeume”のように変化し、母音除去が屈折に対して有効に働く。
除去すべき母音は、予めリスト等の形で辞書に登録しておき、それを参照しながら処理を行うことになる。なお、英語では屈折に伴い“y”が“i”に変わるパターンもあるので、ここでいう母音には必要に応じて半母音を含めてもよい。
(3)は二重子音の除去の例である。英語では、屈折に際して子音が二重化される場合がある。例えば、“travelling”“zigzagged”のように“ll”“gg”と子音が二重化する場合がある。このような連続する同一子音を除去し、影響を除去する。
二重化を除去する子音は、予めリスト等の形で登録しておき、それを参照しながら処理を行うことになる。英語では“c”のように屈折に伴っては二重化しないものもあり、そのような子音はリストから除外することになる。
このような処理を行うことにより、例えば、“floccinaucinihilipilificating”という未知語があった場合に、“-ing”が除去されて“floccinaucinihilipilificat”となり、更に母音が省略されて、“flccncnhlplfct”となり、更に二重子音も除去されて、“flcncnhlplfct”となる。例えば、母音の省略によって、この単語の原形が“floccinaucinihilipilificat”“floccinaucinihilipilificate”のいずれであったとしても単純化された形は等しくなる。
図7は未知語統合の例を示した図である。
図6のように単純化された未知語に対して未知語辞書中の未知語と比較し、文字列の一致率が高い場合には、同一の未知語であると認定する。例えば、“CanePAT”“ConoPAT”“CanoQAT”は“CanoPAT”と7文字中1文字しか異ならないので、すべて“CanoPAT”であると見なす。これにより誤認識の影響を除去する。
図8は元文書を検索しセキュリティ情報を取得するための文書管理索引の構成を示した図である。
文書管理索引には「文書ID」「レイアウト特徴量」「文章内容特徴量」「画像内容特徴量」「文書制御情報」が格納される。
「文書ID」は、その文書をユニークに特定できる識別情報である。
「画像内容特徴量」は各画像ブロックの類似性を計るためのインデックス情報である。例えば、各ブロックを印刷した場合のビットマップイメージを縦n個、横m個の矩形に分割し、各矩形の平均の輝度情報と色情報を記憶した画像特徴量などが考えられる。類似検索を行うための画像特徴量の例については、例えば、特開平10-260983においても提案されている。
1つの文書に複数の画像ブロックが存在する場合は、各画像ブロックに画像内容特徴量が抽出され、処理される。
画像内容の類似性を求める際は、クエリの各画像ブロックの画像内容特徴量に対して、ブロックごとに個々に記憶される各文書の画像内容特徴量が比較され、各一致率が調整されて1つの画像内容類似度が計算される。
「レイアウト特徴量」は、レイアウトに基づく類似検索を行うためのインデックス情報である。レイアウト全体としての類似性を判定するための情報であり、例えば、1ページ全体を1つの画像としてみた場合の画像特徴量とすることもできる。別の例としては各テキスト、画像ブロックの位置(座標)及びブロックの大きさ(面積、文字数など)に基づく量が考えられる。
電子文書のレイアウト特徴量は、PC等からの印刷時に作成されるラスタイメージ、あるいはコピー・FAX・SEND時のスキャンされデジタル化されたスキャンイメージをベースに加工して作成される。
レイアウト類似性を求める際は、クエリのレイアウト特徴量に対して、ここに記憶される各文書のレイアウト特徴量が比較され、レイアウト類似度が計算される。
「文章内容特徴量」「文書制御情報」については図9、図10において詳述する。
図9は文章内容特徴量の構成を示した図である。
文章内容特徴量は、文章内容の類似性に基づく類似検索を行うためのインデックス情報である。文書IDで識別される各文書に対応して、文章内容に応じた文書ベクトルが記憶される。ここでは、文書ベクトルの次元を単語とし、文書ベクトルの各次元の値をその単語の出現度数とする。未知語も一単語ずつが次元を構成する。ただし、1つの単語を正確に1次元とせず、誤認識に起因しそうな形態的に類似する未知語は1つの次元として文書ベクトルを構成する。例えば図では、次元8に対して“CanePAT”、“CanoPAT”の2つの単語が対応している。各単語に対してその文書に含まれる出現度数が記憶される。
1つの文書に複数のテキストブロックが存在する場合は、複数のテキストブロックから抽出されるテキスト特徴データがすべてのテキストブロックについてまとめて集計され、1つの文書ベクトルが作成される。
元文書の検索を行う際には、検索クエリとなるスキャンされた文書からも、ここに格納される文書ベクトルと同じ形式のベクトルデータ(クエリベクトル)が作成され、各文書の文書ベクトルに対して1件ずつ文章内容類似度が計算されるのである。
図10は文書制御情報の構成を示した図である。
文書IDで識別される各文書に対応して、その文書をどのように管理すべきかセキュリティ情報が記憶される。文書IDに対応して、10−1でコピー、10−2でFAX、10−3でSENDの各動作に対するセキュリティ情報がそれぞれ格納される。各動作に対して許可されるのであれば1、抑制されるのであれば0がそれぞれ格納される。また、ユーザごとに許可/抑制の制御を変更する実施形も考えられるが、そのようなときは、この文書制御情報の構成をユーザ情報の次元を新たに加えて3次元化して構成することにより実現できる。
図において、文書ID6947の文書はコピー許可、FAX許可、SEND許可であり、文書ID6948の文書はコピーのみ許可であり、FAXとSENDは抑制である。文書ID6949の文書はSENDのみ許可であり、コピーとFAXは抑制である。
図11は単語重要度テーブルである。文章内容の類似性を判定する上での、各単語の重要度を示すテーブルである。このテーブルにおいては、全文書に対して各単語の出現する度数を記憶する。
各単語の重要度は、この度数の逆数で算出される。ただし、度数が0の場合は単語の重要度は0とする。これはどの文書にも出現しない単語は類似性判定には役に立たないことからである。重要度が度数の逆数をとる理由は、多くの文書に出現するようなありふれた単語は文章内容の類似性を判定する上では相対的に重要性が低いからである。
図12は本発明における文書の類似性判定を行う際の類似度算出の式を示した図である。
文章内容類似度は、比較する2つの文書について、すべての単語(k=1からk=nまで)の出現度数の差の絶対値にその単語の重要度を乗じたものを積算し、そのマイナスの値で表現する。マイナスにするので、出現度数の差が小さいほど文章内容類似度の値が大きくなり、文章内容類似度の値が大きいほど類似性が高いと判定できる。なお、レイアウト類似度についても、同様に類似度の値が大きいほど類似性が高いように設定される。
総合類似度は基本的にはレイアウト類似度と文章内容類似度と画像内容類似度を加算したものであるが、それぞれの類似度算出の重要性に応じて、重みα、β、γが乗じて加算される。αはレイアウト情報に対する重み、βは文章内容情報に対する重み、γは画像内容情報に対する重みである。α、β、γの値は可変であり、セキュリティ管理の視点に応じて変更可能である。レイアウトや画像に機密性がなく、文章内容のみチェックすればよいのであれば、レイアウト類似度、画像内容類似度の重みα、γの値を小さくする。例えば、レイアウトを一切無視するのであれば、α=0にすればよい。他方、紙幣・有価証券のようにレイアウトについても一定のセキュリティ上の考慮を払い、文章内容と等しく重視したいのであれば、α=1、β=1、γ=1などと設定する。
上述の動作をフローチャートに従って説明する。
図13は本発明文字処理装置の動作、より具体的にはマイクロプロセッサCPUの処理手順を示すフローチャートである。ステップS13-1はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示等を行う処理である。ステップS13-2はタッチパネル等の入力装置、あるいは直接接続・ネットワーク接続されている機器・デバイスからのリクエストなど、何らかのイベントが発生するのをマイクロプロセッサCPUにおいて待つ処理である。イベントが発生すると、ステップS13-3においてマイクロプロセッサCPUがこのイベントを判別し、イベントの種類に応じて各種の処理に分岐する。各種イベントに対応した分岐先の複数の処理をステップS13-4という形でまとめて表現している。図14の文書登録処理、図17の文書管理情報設定処理、図19の文書操作処理(コピー処理、FAX処理、SEND処理)がこの分岐先の一部となる。他の処理としては、詳細は記述されないが、コピー枚数を設定する処理、FAXやSEND先を指定する処理など通常の複写機の処理がある。ステップS13-5は上記の各処理の処理終了を表示する表示処理である。エラーがあった場合のエラー表示、正常終了の場合の表示処理など通常広く行われる処理である。
図14はステップS13-4の一部である文書登録処理を詳細化したフローチャートである。新規文書を登録する際に実行される。新規文書の登録は通常の文書操作処理と同時に行われる。ステップ14-1において通常の文書操作処理、例えば、印刷、コピー、FAX、SENDなどの処理が行われる。この文書操作処理の過程において、コピー・FAX・SENDであればスキャンによって、印刷であればラスタイメージの作成によって、文書のビットマップイメージが取得される。ステップS14-2において、図15に詳述されるように文書解析処理が行われ、前記取得されたビットマップイメージがブロック解析等され、レイアウト特徴、文章内容特徴、画像内容特徴等の文書特徴量が抽出される。ステップS14-3において、前記取得された文書特徴量が文書特徴量情報に登録される。ステップS14-4において、前記登録された文書内容特徴量を反映して単語重要度テーブルが更新される。
図15はステップS14-2の文書解析処理を詳細化したフローチャートである。ステップS15-1において、ビットマップイメージをブロック解析し、テキストブロック、画像ブロック等に分離する。ステップS15-2において、ブロック解析されたブロック構造から各ブロックの座標、大きさ(画像ブロックであれば面積、テキストブロックであれば文字数)などのレイアウト特徴が抽出される。ステップS15-3においてテキストブロック中の文字に対して文字認識処理を行い、OCRテキスト情報を抽出する。ステップS15-4において、OCRテキストをスペースなどの特徴をたよりに単語に分割する。ステップS15-5において、分割された単語のスペルコレクトを行う。スペルコレクトはスペルコレクト辞書に基づく。スペルコレクト辞書には、見出し(屈折形)と原形が対応されて記憶されている。抽出された単語が見出し文字列と一致または類似するときは、対応する原形に置き換える。これによりスペルを補正すると同時に屈折を除去したことになる。スペルコレクト辞書に類似する見出しがない場合は、スペルコレクトできないので、未知語として抽出する。ステップS15-6において、図6において説明した単語単純化処理を行う。ステップS15-7において、図16に詳述するように未知語統合によって、類似する未知語を1つに統合し、類似していない未知語を未知語辞書に登録する。ステップS15-8において、テキスト情報から単語の統計データを抽出し、文章内容特徴量である文書ベクトルを生成する。ステップS15-9において、各画像ブロックに対して画像内容特徴量を抽出する。
図16はステップS15-7である未知語統合処理を詳細化したフローチャートである。まず、ステップS16-1において未知語辞書をサーチする。ステップS16-2において、未知語辞書中の既存未知語との一致率を算出する。ステップS16-3において、一致率が高いかどうかを判定し、高ければステップS16-4において既存の未知語に統合してリターンする。一致率が高くなければ、ステップS16-5においてその未知語を未知語辞書に登録してリターンする。
図17はステップS13-4の一部である文書管理情報設定処理を詳細化したフローチャートである。まず、ステップS17-1において、画面3-5に示す如く、セキュリティ管理者のログイン名・パスワード(ユーザ認証に使用)、及び各文書に設定すべきセキュリティ情報を、ユーザに入力させ、設定ボタンを指示させる。ステップ17-2において入力されたログイン名・パスワードに基づいてユーザ認証が行われる。ステップ17-3において、ユーザ認証が成功したか、すなわち、ユーザ認証によりセキュリティ情報が変更できる権限が認められたかどうかが判定され、ユーザ認証に失敗すれば、情報が変更されずリターンする。ユーザ認証に成功すれば、ステップ17-4において、入力された情報に従って文書のセキュリティ情報が文書管理索引に反映される。
図18はステップS13-4の一部である文書操作処理を詳細化したフローチャートである。文書操作にはコピー、FAX、SENDなどの処理がある。まず、ステップS18-1において、現在ログインしているユーザのユーザIDを一時変数の参照により取得する。ステップS18-2において、対象となる文書操作の操作ID(コピー、FAX、SENDなど)を取得する。ステップS18-3において紙文書をスキャナで読み取り、ビットマップイメージ化する。ステップS18-4において、図15に詳述した文書解析処理を行い、ビットマップイメージをブロック解析して文書特徴量(レイアウト特徴量、文章内容特徴量、画像内容特徴量)を抽出する。ステップS18-5において、図19に詳述するように、文書操作制御処理を行い、各権限に従って文書操作を行う。
図19はステップS18-5を詳細化した文書操作制御処理である。ステップS19-1において、抽出された特徴量に対して文書管理索引をサーチし、図12に示すようにレイアウト類似度、文章内容類似度、画像内容類似度から総合類似度を算出する。ステップS19-2において、総合類似度に従ってランキングし、元文書の文書IDを決定する。ステップS19-3において、元文書のセキュリティ情報を文書管理索引から抽出する。ステップS19-4において、セキュリティ情報に従って該当文書操作が抑制対象であるかどうかを判定し、特に抑制すべき操作でない場合はステップS19-5に分岐し、通常の文書操作処理を実行しリターンする。分析の結果、抑制対象である場合は、ステップS19-6に分岐し、文書操作を抑制すると共に、決定された元文書の文書ID情報を含むエラーメッセージを表示し、リターンする。
(他の実施例)
なお、本発明は上述の実施形態に限定されるのではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。
上述の実施形態においては、主として英語を念頭に、単語の単純化の例として、頻出語尾・頻出接辞の省略、母音の除去、二重子音の除去の実施例を説明しているが、本発明はこれらの処理に限定されるものではない。各言語の屈折の状況に応じて、単語単純化のために、任意の処理を導入することもできる。このようにすることで、言語ごとの精密な未知語処理が実現でき、原本検索の精度向上を図ることができる。
また、上記の実施例において、例えば、母音の除去は機械的にすべての母音を除去しているが、言語によっては、屈折による母音の変化の影響範囲が限定される。その場合は除去する母音を限定するように処理することもできる。そのように母音の除去を限定することにより、異なる2単語が同じ形態になり同一視されることを回避でき、検索精度を向上させることができる。
また、単語の単純化の方法として、単純に語頭と語末を除いた中間部分の文字列を削除、あるいは単純な文字列におきかえる、などの方法も考えられる。この場合は、複合語などにおいて、むやみな単語数の増加を抑制することができるので、システムのパフォーマンスを維持したまま、未知語を取り入れることによる精度の向上を図ることができる。
上記以外にも、本発明の趣旨を逸脱しない限りにおいて、構成を適宜変更することが可能である。
本実施例の文字処理装置の全体構成を示すブロック図である。 本実施例の文字処理装置における操作例を示した図である。 本実施例の文字処理装置における画面遷移例を示した図である。 ブロック解析の例を示した図である。 OCRテキストからのテキスト特徴抽出の例を示した図である。 本実施例の文字処理装置における単語単純化の例を示した図である。 本実施例の文字処理装置における未知語統合の例を示した図である。 本実施例の文字処理装置における文書管理索引の構成を示した図である。 本実施例の文字処理装置における文章内容特徴量の構成を示した図である。 本実施例の文字処理装置における文書制御情報の構成を示した図である。 本実施例の文字処理装置における単語重要度テーブルの構成を示した図である。 本実施例の文字処理装置における類似度の算出方法を示した図である。 本実施例の文字処理装置全体の処理手順の一例を示すフローチャートである 文書登録処理の処理手順の一例を示すフローチャートである。 文書解析処理の処理手順の一例を示すフローチャートである。 未知語統合処理の処理手順の一例を示すフローチャートである。 文書管理情報設定処理の処理手順の一例を示すフローチャートである。 文書操作処理の処理手順の一例を示すフローチャートである。 文書操作制御処理の処理手順の一例を示すフローチャートである。

Claims (9)

  1. 文字を処理する文字処理装置であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力手段と、該クエリテキストから単語を抽出する単語抽出手段と、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクト手段と、屈折方法が不明の単語を収録した未知語辞書と、該スペルコレクト手段で補正できなかった単語を文字列の類似性に基づいて未知語辞書中の単語に統合する未知語統合手段と、該統合された単語をテキスト特徴として文書を検索する検索手段とを備えることを特徴とする文字処理装置。
  2. 文字を処理する文字処理装置であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力手段と、該クエリテキストから単語を抽出する単語抽出手段と、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクト手段と、屈折方法が不明の単語を収録した未知語辞書と、単語を所定の規則に従って屈折の影響を除去する屈折除去手段と、該屈折除去された単語を類似性に基づいて未知語辞書中の単語に統合する単語統合手段と、該統合された単語をテキスト特徴として文書を検索する検索手段とを備えることを特徴とする文字処理装置。
  3. 前記屈折除去手段は、単語から所定の接辞を除去する手段を含むことを特徴とする請求項2記載の文字処理装置。
  4. 文字を処理する文字処理装置に適用される文字処理方法であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力ステップと、該クエリテキストから単語を抽出する単語抽出ステップと、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクトステップと、屈折方法が不明の単語を収録した未知語辞書と、該スペルコレクト手段で補正できなかった単語を文字列の類似性に基づいて未知語辞書中の単語に統合する未知語統合ステップと、該統合された単語をテキスト特徴として文書を検索する検索ステップとを備えることを特徴とする文字処理方法。
  5. 文字を処理する文字処理装置に適用される文字処理方法であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力ステップと、該クエリテキストから単語を抽出する単語抽出ステップと、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクトステップと、屈折方法が不明の単語を収録した未知語辞書と、単語を所定の規則に従って屈折の影響を除去する屈折除去ステップと、該屈折除去された単語を類似性に基づいて未知語辞書中の単語に統合する単語統合ステップと、該統合された単語をテキスト特徴として文書を検索する検索ステップとを備えることを特徴とする文字処理方法。
  6. 前記屈折除去ステップは、単語から所定の接辞を除去するステップを含むことを特徴とする請求項5記載の文字処理方法。
  7. 文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力ステップのプログラムコードと、該クエリテキストから単語を抽出する単語抽出ステップのプログラムコードと、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクトステップのプログラムコードと、屈折方法が不明の単語を収録した未知語辞書と、該スペルコレクト手段で補正できなかった単語を文字列の類似性に基づいて未知語辞書中の単語に統合する未知語統合ステップのプログラムコードと、該統合された単語をテキスト特徴として文書を検索する検索ステップのプログラムコードとを備えることを特徴とするコンピュータ可読記録媒体。
  8. 文字を処理する文字処理装置に適用される文字処理方法のプログラムコードが格納されたコンピュータ可読記録媒体であって、スペルに誤りのあるテキストをクエリとして入力するクエリテキスト入力ステップのプログラムコードと、該クエリテキストから単語を抽出する単語抽出ステップのプログラムコードと、該抽出された単語のスペルを辞書に基づいて補正しつつ更に屈折を除去するスペルコレクトステップのプログラムコードと、屈折方法が不明の単語を収録した未知語辞書と、単語を所定の規則に従って屈折の影響を除去する屈折除去ステップのプログラムコードと、該屈折除去された単語を類似性に基づいて未知語辞書中の単語に統合する単語統合ステップのプログラムコードと、該統合された単語をテキスト特徴として文書を検索する検索ステップのプログラムコードとを備えることを特徴とするコンピュータ可読記録媒体。
  9. 前記屈折除去ステップのプログラムコードは、単語から所定の接辞を除去するステップのプログラムコードを含むことを特徴とする請求項8記載のコンピュータ可読記録媒体。
JP2005197565A 2005-07-06 2005-07-06 文字処理装置、文字処理方法及び記録媒体 Withdrawn JP2007018158A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005197565A JP2007018158A (ja) 2005-07-06 2005-07-06 文字処理装置、文字処理方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005197565A JP2007018158A (ja) 2005-07-06 2005-07-06 文字処理装置、文字処理方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2007018158A true JP2007018158A (ja) 2007-01-25

Family

ID=37755292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005197565A Withdrawn JP2007018158A (ja) 2005-07-06 2005-07-06 文字処理装置、文字処理方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP2007018158A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8223411B2 (en) 2009-01-20 2012-07-17 Ricoh Company, Ltd. Image processing system, image processing apparatus, image processing method
JP2012164193A (ja) * 2011-02-08 2012-08-30 Nippon Telegr & Teleph Corp <Ntt> 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム
CN109074355A (zh) * 2015-09-30 2018-12-21 开文公司 用于表意字符分析的方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8223411B2 (en) 2009-01-20 2012-07-17 Ricoh Company, Ltd. Image processing system, image processing apparatus, image processing method
JP2012164193A (ja) * 2011-02-08 2012-08-30 Nippon Telegr & Teleph Corp <Ntt> 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム
CN109074355A (zh) * 2015-09-30 2018-12-21 开文公司 用于表意字符分析的方法和系统

Similar Documents

Publication Publication Date Title
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
JP5774597B2 (ja) 動的変動ネットワークを使用するシステムおよび方法
US20040267734A1 (en) Document search method and apparatus
JP4332356B2 (ja) 情報検索装置及び方法並びに制御プログラム
JP4854491B2 (ja) 画像処理装置及びその制御方法
JP5372110B2 (ja) 情報出力装置、情報出力方法、及びコンピュータプログラム
JP2009169536A (ja) 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP2013509662A (ja) 動的変動ネットワークを使用するシステムおよび方法
JP2006343870A (ja) 文書検索装置及び方法と記憶媒体
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
CN113495874A (zh) 信息处理装置和计算机可读取介质
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
KR101598789B1 (ko) 화상 처리 장치, 비일시적인 컴퓨터 판독 가능한 매체, 및 화상 처리 방법
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
US11064094B2 (en) Image forming apparatus for forming image represented by image data on recording paper sheet
JP2007048061A (ja) 文字処理装置、文字処理方法及び記録媒体
JP5721052B2 (ja) 画像処理装置およびプログラム
JP6554841B2 (ja) 情報処理装置及び情報処理プログラム
US11206335B2 (en) Information processing apparatus, method and non-transitory computer readable medium
US20230205910A1 (en) Information processing device, confidentiality level determination program, and method
JP2007323415A (ja) 情報検索装置、情報検索システム、情報検索装置の制御方法、及び制御プログラムを提供する媒体
US20230118845A1 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
JP2007004429A (ja) 文書処理装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081007