JP2012063883A

JP2012063883A - 情報処理装置、情報処理方法、および情報処理プログラム

Info

Publication number: JP2012063883A
Application number: JP2010206117A
Authority: JP
Inventors: Yoshihisa Oguro; 慶久大黒
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2010-09-14
Filing date: 2010-09-14
Publication date: 2012-03-29
Anticipated expiration: 2030-09-14
Also published as: CN102402576A; JP5716328B2; US20120066213A1; EP2428905A1

Abstract

【課題】手書き文書中のテキスト情報を高精度に抽出して被検索データとすることと、被検索データを高精度に検索することとを両立させた情報処理装置を提供する。
【解決手段】多数の単語を格納する単語辞書１０と、画像データから文字情報を抽出して文字認識する文字情報抽出部３１と、文字認識された前記文字情報のうち、前記単語辞書１０に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベース４０に格納する被検索単語抽出部３２と、検索対象のテキスト情報を入力する検索テキスト入力部５１と、前記検索対象のテキスト情報から前記単語辞書１０に含まれる単語を検索単語として抽出する検索単語抽出部５２と、前記検索単語と前記データベース４０とを照合する検索部５３と、を備える。
【選択図】図２

Description

本発明は、画像データに含まれる手書き文字を電子化して検索可能とする情報処理装置、情報処理方法、および情報処理プログラムに関するものである。

画像データに含まれる手書き文字を電子化する技術は多数知られている。たとえば、特許文献１には、原稿に手書きで追記された文字等を原稿とともに電子化する技術が記載されている。また、文書検索の精度を向上させる技術として、たとえば特許文献２には、入力された複合語を分割して検索キーワードを自動生成する技術が開示されている。

検索技術に関連して、特に音声認識分野で、ワードスポッティング法が知られている。この技術は、音声認識に際し、ユーザの発声から単語辞書に登録されている単語のみを出力するものであり、認識の精度と処理速度を向上させることが可能である（非特許文献１参照）。特許文献３には、このワードスポッティング法を音声検索に適用して、音声検索の精度と処理速度を向上させる技術が記載されている。また特許文献４には、ワードスポッティング法をパターンマッチングによる検索に適用して、手書きされた注釈をパターンマッチングによって検索する技術が記載されている。なお、検索時などに複合語を基本的な単語に分割する技術として、形態素解析がよく知られており（非特許文献２参照）、上記特許文献２でも適用されている。

近年、デジタルカメラの普及にともない、板書されたホワイトボードを撮影し、画像データのままで議事録や健忘録などの一部に利用する機会が増えている。活字印刷物に対しても、手書きでコメントを付加したものをスキャナを用いて画像データ化して電子的に蓄積することも多い。このように、手書き文字を含む画像データは増加する傾向にあり、蓄積量が増えるにつれ、手書きされた内容に対する検索要求も強まっている。

具体的には、手書き文字が使われる場面の多くでは、文法的に完結した一文を書くよりは、単語や句などの文章の破片が用いられ、手書きの図の他に重要なキーワードやキーフレーズのみが書かれているに過ぎず、テキストだけで完結した情報ではない上に、適当な分類や整理がされないまま蓄積されることが多い。そこで、手書き文書中の手書き文字を電子化（テキスト化）すれば、そのような未整理の大量の手書き文書からでも、利用者が所望する検索単語を含む箇所を抽出することが容易になり、これらの手書き文書を有効利用し易くなる。

画像データ中の手書き文字をテキスト化して、一般的なテキスト検索の対象とする際には、手書き文字認識の精度と検索の精度、処理速度の向上をはかる必要がある。とくに手書き文字は活字より個人性が高く多様な変形を生じるため、現状の手書き文字認識技術では、活字文字認識と比較しても認識精度が低く、利用者の満足感を向上させるためには、認識の精度と検索の精度、処理速度の向上が求められる。

本発明は上記に鑑みてなされたものであって、画像データ中の手書き文字を高精度に抽出してテキスト化して被検索データとすることと、被検索データを高精度に検索することとを両立させた情報処理装置、情報処理方法、および情報処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明にかかる情報処理装置は、画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理装置において、多数の単語を格納する単語辞書と、前記画像データから文字情報を抽出し文字認識する文字情報抽出部と、認識された前記文字情報のうち、前記単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出部と、検索対象のテキスト情報を入力する検索テキスト入力部と、前記検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出部と、前記検索単語と前記データベースとを照合する検索部と、を備えたことを特徴とする。

また、本発明にかかる情報処理装置は、上記の発明において、前記単語辞書に格納される単語毎に、前記画像データ中の前記文字情報の対応箇所の照合範囲を限定することを特徴とする。

また、本発明にかかる情報処理装置は、上記の発明において、前記文字情報抽出部は、前記単語辞書に単語が追加登録された場合に、それに同期して、当該追加単語を被検索データに追加することを特徴とする。

また、本発明にかかる情報処理装置は、上記の発明において、前記検索単語抽出部は、前記単語辞書に格納されていない単語が前記検索テキスト入力部から入力された場合には、当該単語を単語辞書に追加登録することを特徴とする。

また、本発明にかかる情報処理装置は、上記の発明において、前記被検索単語抽出部は、抽出した各単語について、前記文字情報抽出部が取得した文字情報に含まれているかの確からしさを算出し、確からしさがあいまいな場合には複数の単語のテキスト情報を対応箇所に挿入することを特徴とする。

また、本発明にかかる情報処理装置は、上記の発明において、複数の前記単語辞書を備え、利用者がいずれかを選択指定して使用することを特徴とする。

また、本発明にかかる情報処理装置は、上記の発明において、前記被検索単語抽出部は、被検索データに単語を挿入する際に、照合した前記単語辞書を特定する情報を付加することを特徴とする。

また、本発明にかかる情報処理装置は、上記の発明において、前記検索部は、前記検索対象のテキスト情報と前記被検索データとの間の一致度にもとづいて順序づけして提示することを特徴とする。

また、本発明にかかる情報処理方法は、画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理方法において、前記画像データから文字情報を抽出して文字認識する文字情報抽出ステップと、前記文字情報抽出ステップによって文字認識された前記文字情報のうち、多数の単語を格納する単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出ステップと、検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出ステップと、前記検索単語と前記データベースとを照合する検索ステップと、を含むことを特徴とする。

また、本発明にかかる情報処理プログラムは、画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理プログラムにおいて、前記画像データから文字情報を抽出して文字認識する文字情報抽出処理と、前記文字情報抽出ステップによって文字認識された前記文字情報のうち、多数の単語を格納する単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出処理と、検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出処理と、前記検索単語と前記データベースとを照合する検索処理と、をコンピュータに実行させることを特徴とする。

本発明によれば、被検索データを作成する際に用いる単語辞書と、検索時に入力されたテキスト情報から検索単語を抽出する際に用いる単語辞書とを共通化することにより、計算量の増大を招くことなく、手書き文字の電子化と検索とを双方ともに高精度に実現することができる。したがって、手書き文字を含む画像データの検索の効率が著しく向上し、手書き文字を含む画像データを有効に利用することができる。

図１は、本発明の実施の形態にかかる情報処理装置のハードウェア構成を示すブロック図である。図２は、本発明の実施の形態にかかる情報処理装置の機能構成を示すブロック図である。図３は、本実施の形態にかかる単語辞書作成処理のフローチャートである。図４は、本実施の形態にかかる被検索データの構成を例示する図である。図５は、本実施の形態にかかる文字認識を説明するための図である。図６は、本実施の形態にかかる文字認識を説明するための図である。図７は、本実施の形態にかかる被検索データ作成処理のフローチャートである。図８は、本実施の形態にかかる画像データに含まれる手書き文字行を例示する図である。図９は、本実施の形態にかかる１文字単位の文字認識結果を例示する図である。図１０は、本実施の形態にかかる単語単位の文字認識結果を例示する図である。図１１は、本実施の形態にかかる検索実行処理のフローチャートである。図１２は、本実施の形態にかかる単語辞書の照合範囲の規定方法を例示する図である。図１３は、本実施の形態にかかるあいまいな被検索単語を含む抽出結果を挿入した例を示す図である。図１４は、本実施の形態にかかる被検索単語の存在位置を示す図である。図１５は、本実施の形態にかかる検索結果の被検索データを例示する図である。図１６は、本実施の形態にかかる検索結果の被検索データを例示する図である。図１７は、本実施の形態にかかる検索結果を提示する順を説明するための図である。図１８は、本実施の形態にかかる検索結果を提示する順を説明するための図である。図１９は、本発明の実施の形態にかかる情報処理装置をネットワーク上に構成した例を示す図である。

以下に、図面を参照して、本発明の実施の形態について説明する。なお、この実施の形態によりこの発明が限定されるものではない。

本発明の実施の形態にかかる情報処理装置は、画像データに含まれる複数の手書き文字（文字情報）を文字認識してテキスト化し、前記画像データの前記文字情報の対応箇所にテキスト化された文字情報を挿入することにより、画像とテキスト化された文字情報との複合データとしたものを被検索データとして、被検索データに含まれるテキストを検索可能とするものである。

図１は、本発明の実施の形態にかかる情報処理装置１００のハードウェア構成を示すブロック図である。この情報処理装置は、ＣＰＵ１と、メモリ２と、ハードディスク３と、キーボード４と、表示装置５と、ＣＤ−ＲＯＭドライブ６と、ＦＤドライブ７と、通信装置８とを含んで構成される。ＣＰＵ１は装置１００全体を制御し、メモリ２はＣＰＵ１を起動するためのプログラムを記憶する。ハードディスク３は、図示しないスキャナにより読み取られた画像データ等を記憶する。キーボード４は情報処理装置１００の利用者などが各種入力を行なう。表示装置５は、入力状況等を表示する。ＣＤ−ＲＯＭドライブ６やＦＤドライブ７は、ＣＤ−ＲＯＭやＦＤに記憶された本発明を実行するためのプログラム等を入力する。通信装置８は、通信回線を介してデータを送受信する。

図２は、本発明の実施の形態にかかる情報処理装置１００の機能構成を示すブロック図である。本実施の形態の情報処理装置１００は、単語辞書１０と、単語辞書作成部２０と、複合語分割用辞書２３と、被検索データ作成部３０と、データベース４０と、検索実行部５０とを含んで構成される。単語辞書作成部２０は、登録単語入力部２１と複合語分割部２２とを含んで構成され、被検索データ作成部３０は、文字情報抽出部３１と被検索単語抽出部３２とを含んで構成され、検索実行部５０は、検索テキスト入力部５１と検索単語抽出部５２と検索部５３とを含んで構成される。

この情報処理装置１００は、メモリ２にインストールされているプログラムにしたがってＣＰＵ１が動作することにより、文字情報抽出部３１、被検索単語抽出部３２、検索単語抽出部５２、検索部５３、複合語分割部２２の各部が実現される。また、単語辞書１０および複合語分割用辞書２３はハードディスク３などに構築され、検索テキスト入力部５１および登録単語入力部２１は、キーボード４で実現される。そして上記各部の機能により、後述するように、単語辞書作成処理、被検索データ作成処理、検索処理を実行するものである。

本実施の形態において、情報処理装置１００は、文字認識した文字列に周知のワードスポッティング法を適用して検索の対象とする被検索単語を抽出する。すなわち、文字列をワードスポッティング用の単語辞書に照合させ、この単語辞書に含まれている単語を文字列から抽出する。

始めに、本発明の実施の形態にかかる被検索データ作成部３０による被検索データ作成処理と、検索実行部５０による検索処理に先立って、単語辞書作成部２０が単語辞書１０を作成する単語辞書作成処理手順について、図３のフローチャートを参照して説明する。ここで作成される単語辞書１０は、ワードスポッティング法を実行する際に照合する単語辞書に相当するものであり、特に本発明においては、後述する被検索データ作成処理および検索処理において共通に使用される。

文字認識した文字列にワードスポッティング法を適用する際には、文字列の照合開始位置を１文字ずつずらしながら、かつ、照合させる範囲の長さもひとつずつ変化させながら単語辞書１０に照合させる。したがって、照合範囲が長くなるほど、また、単語辞書１０に登録されている単語が多いほど、照合に要する計算量が増大する。

照合範囲の長さは、照合対象の文字列の長さと、単語辞書１０に登録されている単語の長さに依存する。本実施の形態においては、文字列の長さを限定することは好ましくないため、単語辞書１０に登録されている単語の長さを短くすることにより、照合に要する計算量を抑える。

単語辞書１０に登録される単語の長さは、主に複合語が含まれると長くなる。また複合語は基本的な単語の組み合わせによって無数に造語されるため、登録単語数の増大をも招く。そこで、本実施の形態では、複合語を周知の形態素解析により基本的な単語に分割して単語辞書１０に登録する。すなわち、利用者が登録したい（検索対象にしたい）単語がある場合に（ステップＳ１０１，Ｙｅｓ）、登録単語入力部２１からその利用者が登録したい単語が入力されると（ステップＳ１０２）、複合語分割部２２は、複合語分割用辞書（形態素解析用辞書）２３を参照して入力された複合語を分割して（ステップＳ１０３）、単語を出力するとともに、出力した単語を単語辞書１０に照合させ、未登録であれば（ステップＳ１０４，Ｎｏ）、単語辞書１０に登録する（ステップＳ１０５）。その際に、既に登録されていれば（ステップＳ１０４，Ｙｅｓ）、単語辞書１０への登録はせずに、ステップＳ１０１へスキップする。

たとえば、登録単語入力部２１から「旅行代理業者」が入力されると、形態素解析により「旅行」「代理」「業者」に分割して、これら「旅行」「代理」「業者」が単語辞書１０に未登録であれば登録する。その後に「代理業者」が入力された場合に、形態素解析により「代理」「業者」に分割しても、「代理」「業者」はすでに単語辞書１０に登録済みであるため、新たに登録はしない。

このようにして、利用者が「旅行」「旅行代理店」「旅行代理業」「旅行代理業者」「旅行代理業界」などの多数の複合語を入力した場合にも、単語辞書１０に登録する単語は「旅行」「代理」「業界」「業者」にとどめることができる。このようにすれば、単語辞書１０に登録される単語の長さは短くなり、また登録される単語数も抑制することができる。なお、単語辞書１０に単語を登録する際には、品詞などの文法情報もあわせて登録するとよい。

次に、図４〜図７を参照して、本実施の形態にかかる被検索データ作成処理手順について説明する。この被検索データ作成処理により、画像データに含まれる手書き文字（文字情報）をテキスト化して、後述する検索実行部５０による検索処理において検索の対象とするデータを作成する。

本実施の形態において、被検索データは、図４に示すように、手書き文字を含む画像データ（画像レイヤー）と、その手書き文字をテキスト化したＰＤＦ（情報付加レイヤー）とを層状に重ね合わせたマルチレイヤー構成の電子文書である。情報付加レイヤーのＰＤＦのテキストは、元の画像データの手書き文字の真上に透明色で配置させている。したがって、本実施の形態の被検索データは、もとの画像データの見栄えを変更することなく手書き文字のテキストを統合させたものである。後述の検索処理においては、この情報付加レイヤーである透明テキストＰＤＦを検索の対象とする。

なお、本発明において、被検索データはＰＤＦに限るものではなく、マルチレイヤー構成の電子文書全般について成立する。また、マルチレイヤー構成とは、多層に限るものではなく、文書要素群を層状に分離／重畳させることが可能であることを意味している。

そして、本発明においては、被検索データとして、周知のワードスポッティング法を適用して検索の対象にしたい単語（被検索単語）を抽出する。手書き文字は活字より個人性が強く、多様な変形を生じるため、１文字単位に正確に文字認識することは困難である。たとえば、図５に例示するように、手書き文字の形状は多様であり、とくに「島」と「鳥」、「和」と「利」のように、形状が類似した文字を誤認識しやすく、「鹿児島」を「鹿児鳥」と誤認識したり、「鳥取」を「島取」と誤認識したり、「和歌山」を「利歌山」と誤認識したりする。あるいは図６に例示するように、文字と文字の切れ目があいまいな場合には、「化」を「イ」「ヒ」と分離したり、「好」を「女」「子」と分離したり、「校」を「木」「交」と分離するなど、文字の形状の特徴だけでは１文字単位で正確に文字認識ができない。このように、手書き文字認識の精度は著しく低い。

一方、ワードスポッティング法を適用すると、単語辞書を用いて単語単位で文字認識するため、単語として出現し得ない文字の組み合わせを考慮する必要がなくなり、また、１文字単位に比べて広い範囲で形状特徴に基づく判断ができるので、文字認識の精度が向上する。

図７は、被検索データ作成部３０による被検索データ作成処理手順のフローチャートである。このフローチャートに示すように、文字情報抽出部３１は、周知のＯＣＲ機能により、画像データの文字情報を認識する（ステップＳ２０１）。そして、被検索単語抽出部３２は、認識した文字列を単語辞書１０と照合させ、認識した文字列の中に、単語辞書１０に登録されている単語があれば抽出してテキスト化する（ステップＳ２０２）。被検索単語抽出部３２は、被検索単語として抽出しテキスト化した単語を透明色でＰＤＦに挿入し、これをもとの画像データと対応づけて被検索データとし（ステップＳ２０３）、データベース４０に格納する（ステップＳ２０４）。

具体的に、認識された文字列からワードスポッティング法を適用して単語を抽出する方法について、図８〜図１０を参照して説明する。図８に示した手書き文字画像を、まず１文字単位に認識する。つまり、手書き文字行のうちで各文字の切れ目になりそうな位置（切り出し位置）を判定し、各文字を認識した結果を出力する。このときに、図９に示したように、あいまいな認識結果について、複数の候補を出力する。

つぎに、単語辞書１０を照合して、図１０に示したように、単語辞書１０に登録されている単語があれば、その存在範囲（各単語の始端位置〜終端位置）を抽出結果として出力する。抽出結果は、単語ラチスと呼ばれるデータ形式により出力する。単語ラチス形式によれば、（始端位置、終端位置、単語標記、確からしさ値）というように表される。たとえば、図１０の「効果的」については、（１２，１４，効果的，９６）というように出力される。

なお、１文字ごとの認識結果は、認識の確からしさをスコアとしてもつ。そのスコアに基づいて、図９のように複数の候補の認識順位が算出される。１文字の形状を特徴量にて一組の数値として表現し、一組の数値をベクトルとみなし、標準的な文字形状の特徴量ベクトルを定め、それを認識対象文字の種類分、用意し、標準パターン辞書とする。標準パターン辞書に含まれる特徴量ベクトルと、認識対象画像の文字の特徴量ベクトルとの、ベクトル間距離を算出し、最も近い距離にある標準パターンの表す文字を対象画像の認識結果とする。この処理過程において求められる１文字認識の確からしさとして、最小ベクトル間距離に基づく値を用いることができる。

一般的に、同一画像に対して認識候補は複数求められるので、認識候補を単語辞書と照合して単語候補を求める場合、誤った１文字認識結果が組み合わされ、不正な単語を抽出してしまう恐れがある。短い単語の場合ほど、誤った１文字認識結果が混入して、単語辞書に存在する単語に、偶然照合してしまう傾向がある。例えば、2文字単語「旅行」の場合、「旅」に対応する認識結果に、誤認識「流」が混入しただけで、単語辞書内の「流行」という別単語に照合してしまう。一方、６文字単語「コンピュータ」の場合、「ン」→「ソ」、「ピ」→「ビ」、「タ」→「夕」（「夕方」の「夕」）のように形状が類似している文字に誤認識しやすい文字を含んでおり、これら３文字における１文字認識結果として、複数候補が求められる可能性が高い。しかし、認識誤りを含んだ候補文字を組み合わせても、「コンピュータ」以外の６文字単語が生成される可能性は低い。つまり、誤認識しただけでは不正単語が抽出されてしまうことにはならず、誤認識した文字を含んで組み合わせた文字列が単語辞書中に偶然存在した場合にのみ、不正単語を抽出してしまう。単語文字列の文字数が長いほど、1文字認識結果の誤りが他の単語文字列に一致してしまうという偶然が重ならない限り、不正単語は抽出されない。言い換えると、抽出された単語文字列の文字数が長ければ、その結果は信頼しても構わない。

上述の結果より、単語ラチス（単語の抽出結果）の確からしさとしては、１文字ごとの認識結果スコアと、抽出された単語列の長さ、とを考慮したものが好適であるといえる。そこで、単語ラチス（単語の抽出結果）の確からしさは、ｆ(１文字ごとの認識結果スコア，抽出された単語列の長さ)で表すことができる。ここでｆ（）は、１文字ごとの認識結果スコアが良いほど、かつ、抽出された単語列の長さがないほど、良い数値を示す関数である。このような性質を満たす関数としては、たとえば、以下に示す数式（１）（２）などが考えられる。ここで、ｘは１文字ごとの認識結果スコア（の集合）を示し、値が大きいほど確からしい正数とする。また、ｙは抽出された単語列の長さを示す正数とし、ａは正の定数とする。なお、上記の算出例は、いずれも本発明を実現するにあたっての設計事項であり、実施の際には上述の傾向をもつ関数を適宜、設計すればよい。
ｆ(x,y)＝Σx + a ×y：一文字ごとの認識スコアの総和に、文字列照合に基づくボーナス点を加算する・・・（１）
ｆ(x,y)＝Σx ×√y ：一文字ごとの認識スコアの総和を、文字列照合に基づく係数倍する・・・（２）

つぎに、単語辞書１０との照合について、図９の例を用いてより具体的に説明する。図９において、１文字単位の認識結果と単語辞書１０とを照合させ、マッチした単語とその位置を抽出する。文字切り出し位置をひとつずつずらしながら、照合する範囲の長さもひとつずつ変化させながら、単語辞書１０に含まれる単語が存在しているか否かを検査する。たとえば、単語辞書１０に「とともに」「ともに」「より」「効果」「的」「作用」「効果的」という単語が登録されていた場合に、文字切り出し位置番号１７の１文字認識結果は１位が「月」２位「用」の順であるが、左隣の「作」とあわせて単語辞書１０と照合させることにより、「作用」という単語を抽出できる。

一方、図の文字切り出し位置番号０５〜０９、１５、１８〜２０には、手書き文字画像はあるが単語辞書１０に登録された単語が存在しないので、何ら出力はされない。このようにして「とともに」「ともに」「より」「効果」「的」「作用」「効果的」がその存在範囲とともに上記の単語ラチス形式により出力される。

次に、図１１のフローチャートを参照して、本実施の形態にかかる検索実行部５０による検索処理手順について説明する。利用者が検索テキスト入力部５１から検索のキーワードとしたい単語をテキスト情報で入力すると（ステップＳ３０１）、検索単語抽出部５２は、単語辞書１０と照合させて、入力された検索テキスト情報から単語辞書１０に登録されている単語を抽出する（ステップＳ３０２）。そして、検索部５３は、抽出された単語を検索単語としてデータベース４０に照合させ、被検索データの情報付加レイヤー内のテキスト情報を検索する（ステップＳ３０３）。検索単語と一致した単語があれば、その単語が含まれる被検索データを適宜な形式で表示装置５に出力する（ステップＳ３０４）。

たとえば、検索対象のテキスト情報として「旅行代理店」が入力された場合に、検索単語として「旅行」「代理」「店」が抽出され、これら「旅行」「代理」「店」が含まれる被検索データが出力される。このようにすると、「旅行」「代理」「店」が隣接して検索単語に一致する単語を含む被検索データだけでなく、「旅行」「代理」「店」の３単語のいずれかが含まれる被検索データや、「旅行」「代理」「店」の３単語とも含まれるが隣接はしていないなど、検索単語と部分一致する被検索データも出力される。したがって、利用者の潜在的な要望を満足させる検索結果を提示できる可能性が高くなる。

この検索処理手順において、検索単語抽出部５２は、複合語を分割して検索単語を基本的な単語に分割することを目的としており、本来ならば多数の単語が登録されている一般の複合語分割用辞書（形態素解析用辞書）２３を参照すればよい。一方、単語辞書１０には、先述した単語辞書登録手順により、利用者が画像データから検索したい単語のみが登録されている。したがって、本発明においては、検索単語抽出部５２による検索単語抽出の際に単語辞書１０を参照することにより、複合語分割の際の計算量が低減されるうえに、検索単語と被検索単語との不一致を防止でき、検索効率が向上する。

このように被検索データを作成する際に用いる単語辞書１０と、検索時に入力されたテキスト情報から検索単語を抽出する際に用いる単語辞書１０とを共通化することにより、計算量の増大を招くことなく、手書き文字の電子化と検索とを双方ともに高精度に実現することができる。したがって、手書き文字を含む画像データの検索の効率が著しく向上し、手書き文字を含む画像データを有効に利用することができる。

なお、前述した被検索データ作成手順においてワードスポッティング法を適用するにあたり、文字認識した文字列を効率よく単語辞書１０と照合させるために、画像データ中の手書き文字のサイズに応じて単語辞書１０との照合させる範囲の長さを限定する。すなわち、手書き文字は個人により変形があるが、文字高さにより単語の長さが決まる傾向にある。したがって、画像データから手書き文字行を抽出して文字認識する際に、文字高さを計測し、その文字高さに基づいて照合範囲の長さを規定する。単語の長さは文字種と文字数に応じて変化する傾向がある。そこで、図１２に示すように、単語辞書１０に登録する単語ごとに照合範囲の長さを規定することとする。すなわち、測定した文字高さに照合長さ係数を乗じることにより、当該単語を手書き文字にした場合の想定長さを限定できる。なお、手書き文字は個人差があるため、その範囲の長さに上限と下限を設けている。

以上のように、ワードスポッティング法適用時の単語辞書１０と照合させる文字列の照合範囲の長さを限定することにより、照合すべき単語の長さが限定されるので、照合する単語数を抑えることができ、照合に要する計算量を削減できる。上記照合範囲の長さは、照合の都度、単語標記から算出してもよい。この方法によれば、単語辞書１０の容量を抑えることができるという利点もある。

なお、前述した単語辞書作成手順および被検索データ作成手順において、利用者が画像データから被検索単語として抽出したい単語が増えた場合には、単語辞書作成手順において単語辞書１０に当該単語を登録する。あわせて、被検索データに当該単語を被検索単語として追加する必要がある。そこで、単語辞書１０に単語が追加登録された場合には、この処理に続けて自動的に、当該単語のみを対象として被検索データ作成手順を実施して、当該単語を被検索単語として被検索データに追加する処理を行なうとよい。このように、単語辞書１０への単語の追加登録に同期して、自動的に当該単語が被検索データに追加されるので、単語辞書１０と被検索データの被検索単語との間に不一致が生じることがなく、検索もれを防止できる。

なお、前述した検索処理において、入力された検索対象のテキスト情報に、単語辞書１０に含まれない単語が含まれている場合には、当該単語を単語辞書１０に追加登録するとともに、この処理に続けて自動的に、当該単語のみを対象として被検索データ作成手順を実施して、当該単語を被検索単語として被検索データに追加する処理を行なうとよい。

たとえば、単語辞書１０に「旅行」「代理」「店」「発表」の４単語が登録されている場合に、利用者が「旅行代理店ランキング発表」とのテキスト情報を入力すると、検索単語に「ランキング」は含まれない。したがって、検索結果として提示される被検索データは、「ランキング」が含まれているか否かの区別はなされず、「旅行代理店ランキング発表」と完全一致する単語が含まれていてもそれとはわからない。そこで、利用者が入力したテキスト情報に含まれているにもかかわらず単語辞書１０に登録されていない「ランキング」を、単語辞書１０に登録するとともに、「ランキング」について被検索データ作成手順を実施して、被検索単語として被検索データに追加する処理を行なう。

このようにすると、利用者が潜在的に被検索単語への追加を希望する単語を単語辞書１０に追加登録するとともに、自動的に当該単語が被検索データに追加されるので、利用者が要望する検索結果を提示できる可能性が高まり、単語辞書１０と被検索データの被検索単語との間に不一致が生じることがなく、検索もれを防止できる。

なお、前述した被検索データ作成処理において、手書き文字の文字認識精度は高くないため、ワードスポッティング法を適用して単語単位に認識してもなお、形状が類似した複数の単語が単語辞書１０に登録されている場合などには、文字認識を誤る場合がある。たとえば、単語辞書１０に「旅行」「流行」がともに登録されている場合に、この２単語は「旅」と「流」の形状が類似していて「行」が共通であることから、互いに形状が類似しているといえる。したがって、本発明のように情報処理装置による自動処理によれば、文脈で理解できる人間とは異なり、「旅行」と「流行」を区別して出力させることは困難である。

そこで、本実施の形態の被検索データ作成処理において、同一の手書き文字の存在範囲に対して、ある程度以上の確からしさの抽出結果が複数出力される場合に、いずれかに決定することなく、あいまいなまま複数の被検索単語を重複して被検索データに挿入するとよい。たとえば、図１３に例示するように、手書き文字画像の真上になるように、情報付加レイヤーに透明色のテキストでこれらの複数の抽出結果を重ね合わせて配置する。透明色テキストであるため、利用者による画像データ中の手書き文字の可読性を損なうことはない。

このように複数の被検索単語を重複して挿入すれば、自動処理による単語辞書１０を用いた検索処理においても、少なくとも検索もれを防ぐことはできる。検索単語として「流行」が入力された場合にも「旅行」と手書きされた被検索データを抽出する可能性はあるが、複数の検索単語が指定されれば、抽出されたすべての被検索データが利用者の希望する検索単語に不一致ということはない。過剰な検索結果は画像データの目視で棄却すれば足りるが、検索もれを補う回復手段はないため、有効な処理である。

なお、前述した被検索データ作成処理および検索処理において、単語辞書１０に登録されている単語数が増加するほど、照合に要する計算量が増大し、また形状が類似する単語が増加して単語の抽出結果にあいまいさが増大する。したがって、単語辞書１０の単語登録数を適正に抑制することにより、処理時間の短縮と単語抽出の精度の向上を図れる。そこで、本実施の形態では、使用分野ごとや利用者ごとに複数の単語辞書１０を備え、利用者が希望の単語辞書１０に切り替えて使用できるようにするとよい。

単語辞書１０としては、たとえば、コンピュータ関連の専門用語を登録した辞書や、法律の専門用語を登録した辞書や、特定ユーザ用のユーザ辞書などを備え、利用者がキーボード４などの入力手段を介して希望の単語辞書１０を選択指定して切替え可能とする。こうすれば、たとえば被検索データがコンピュータ関連の文字画像であることがあらかじめわかっている場合に、コンピュータ関連の専門用語を登録した辞書を選択することにより、処理時間の短縮と単語抽出の精度の向上が可能である。

上記のように複数の単語辞書１０を切り替えて使用可能な場合に、前述の被検索データ作成処理において、被検索データの各被検索単語には、どの単語辞書１０により抽出されたかを識別する情報を付加する。単語辞書１０を切り替えた場合に、切り替えた単語辞書１０の識別情報が被検索データに付加されていれば、当該単語辞書１０による単語抽出が実施済みであるため、再度の被検索データ作成処理は不要である。一方、単語辞書１０を切り替えた際に、切り替えた単語辞書１０の識別情報が被検索データに付加されていない場合には、あらためて当該単語辞書１０による被検索データ作成処理を実施する。

この処理は、単語辞書１０を切り替えた場合のみならず、手書き文字を含む画像データをデータベース４０に新たに被検索データとして追加登録する場合にも適用できる。すなわち、使用する単語辞書１０の識別情報が付加されていないことを確認して、被検索データ作成処理を実行する。

なお、前述した検索処理において、被検索データにおける被検索単語の存在位置に基づいて、検索結果の提示順を決定するとよい。つまり、利用者が入力した検索対象のテキスト情報に含まれる複数の検索単語と一致した複数の被検索単語の数が多く、画像データ上での存在位置が狭い範囲に集中しているほど、利用者の要望を満たす（利用者が入力したテキスト情報との一致度が高い）被検索データであると考えられる。そこで、検索結果は、被検索データに含まれる検索単語と一致した被検索単語の数が多い順に提示する。また、被検索単語数が同数の場合には、被検索単語の存在位置の範囲が狭い順に提示する。

以下に、検索結果の提示順の決め方を、図１４〜図１８の具体例を用いて説明する。まず、画像データ上での検索単語の存在位置は、手書き文字の存在位置の真上であって、図１４に示すような矩形座標で表せる。

図１５〜図１８は、利用者が入力した検索対象のテキスト情報に「旅行」「代理」「店」「ランキング」の５単語が含まれていた場合に、検索結果として抽出された被検索データの例である。図１５と図１６を比較すると、どちらも５つの被検索単語が含まれていることから、被検索単語の数では提示順を決められない。一方、５つの被検索単語の画像上での存在位置を比較すると、図１５の方が図１６より狭い範囲に被検索単語が集中していることから、図１５の方がより利用者の要望を満たす検索結果であると判断し、優先して提示する。

複数の被検索単語の存在位置の集中度については、それらの被検索単語のすべてを含む外接矩形を求め、その面積が狭いほど集中度が高いと判断する。図１７、図１８の太破線で表された矩形がそれぞれ図１５、図１６の検索結果についての外接矩形であり、その面積は図１７の方が小さいことがわかる。したがって、外接矩形の面積によっても、図１５の方がより利用者の要望を満たす検索結果であると判断できることがわかる。

なお、外接矩形の求め方とその面積の算出方法は、左上を原点とする座標系において、以下のように定義できる。すなわち、被検索データにおいてｎ個の被検索単語が一致した場合、その存在範囲を以下のように定義する。
（Xs_i，Ys_i）−（Xe_i，Ye_i） i＝１，ｎ
また上記の矩形をすべて含む外接矩形の座標は、以下により算出できる。
（Min（Xs_i），Min（Ys_i））−（Max（Xe_i），Max（Ye_i））
上記の外接矩形の幅Ｗと高さＨは以下で表せる。
Ｗ＝Min（Xs_i）−Min（Ys_i）
Ｈ＝Max（Xe_i）−Max（Ye_i）
さらにその面積Ｓは以下のように表される。
Ｓ＝Ｗ×Ｈ

この面積Ｓの大小が、検索単語と一致した被検索単語の集中度合いの尺度になる。実際には、文字サイズにより面積は変化するから、文字サイズの影響を排除するため、外接矩形内に含まれる文字サイズを平均し、それによって正規化する。文字サイズの平均は文字高さの平均Ｐavで代用可能であり、正規化された外接矩形の幅Ｗav、高さＨavは、以下のように表される。
Ｗav＝Ｗ／Ｐav
Ｈav＝Ｈ／Ｐav
したがって正規化された面積は、以下のように算出できる。
Ｓav＝Ｗav×Ｈav

なお、利用者が入力した検索対象のテキスト情報と被検索データとの一致度については、周知のインターネット検索におけるキーワード近接度の尺度を取り入れてもよい。

なお、以上に述べた各実施例の情報処理方法を実行させるために、上記処理手順をコンピュータプログラムとして記述し、このプログラムをＣＤ−ＲＯＭ、ＦＤなどの任意の記録媒体に記録し、情報処理装置１００のコンピュータに読み取らせることでも実現可能である。本プログラムを図１９に示したインターネットなどの通信回線を介して、ネットワーク上に配置した情報処理装置（１００，２００，３００）のコンピュータに読み取らせることでも実現可能である。

１０単語辞書
３１文字情報抽出部
３２被検索単語抽出部
４０データベース
５１検索テキスト入力部
５２検索単語抽出部
５３検索部
１００情報処理装置

特開２００８−１８１４８５号公報特開平０８−１３７８９５号公報特開２００２−２７８５７９号公報特開平１０−０５５３７１号公報

「ワードスポッティング音声認識」日本ファジイ学会誌Vol.11, No.3, pp.403-407（1999）田中穂積監修「自然言語処理−基礎と応用−」電子情報通信学会，ISBN 4-88552-160-2

Claims

画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理装置において、
多数の単語を格納する単語辞書と、
前記画像データから文字情報を抽出して文字認識する文字情報抽出部と、
文字認識された前記文字情報のうち、前記単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出部と、
検索対象のテキスト情報を入力する検索テキスト入力部と、
前記検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出部と、
前記検索単語と前記データベースとを照合する検索部と、
を備えたことを特徴とする情報処理装置。
前記単語辞書に格納される単語毎に、前記画像データ中の前記文字情報の対応箇所の照合範囲を限定することを特徴とする請求項１に記載の情報処理装置。
前記文字情報抽出部は、前記単語辞書に単語が追加登録された場合に、それに同期して、当該追加単語を被検索データに追加することを特徴とする請求項１に記載の情報処理装置。
前記検索単語抽出部は、前記単語辞書に格納されていない単語が前記検索テキスト入力部から入力された場合には、当該単語を単語辞書に追加登録することを特徴とする請求項３に記載の情報処理装置。
前記被検索単語抽出部は、抽出した各単語について、前記文字情報抽出部が取得した文字情報に含まれているかの確からしさを算出し、確からしさがあいまいな場合には複数の単語のテキスト情報を対応箇所に挿入することを特徴とする請求項１に記載の情報処理装置。
複数の前記単語辞書を備え、利用者がいずれかを選択指定して使用することを特徴とする請求項１に記載の情報処理装置。
前記被検索単語抽出部は、被検索データに単語を挿入する際に、照合した前記単語辞書を特定する情報を付加することを特徴とする請求項６に記載の情報処理装置。
前記検索部は、前記検索対象のテキスト情報と前記被検索データとの間の一致度にもとづいて順序づけして提示することを特徴とする請求項１に記載の情報処理装置。
画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理方法において、
前記画像データから文字情報を抽出して文字認識する文字情報抽出ステップと、
前記文字情報抽出ステップによって文字認識された前記文字情報のうち、多数の単語を格納する単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出ステップと、
検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出ステップと、
前記検索単語と前記データベースとを照合する検索ステップと、
を含むことを特徴とする情報処理方法。
画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理プログラムにおいて、
前記画像データから文字情報を抽出して文字認識する文字情報抽出処理と、
前記文字情報抽出ステップによって文字認識された前記文字情報のうち、多数の単語を格納する単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出処理と、
検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出処理と、
前記検索単語と前記データベースとを照合する検索処理と、
をコンピュータに実行させることを特徴とする情報処理プログラム。