JP2009026288A - 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体 - Google Patents

画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2009026288A
JP2009026288A JP2007246158A JP2007246158A JP2009026288A JP 2009026288 A JP2009026288 A JP 2009026288A JP 2007246158 A JP2007246158 A JP 2007246158A JP 2007246158 A JP2007246158 A JP 2007246158A JP 2009026288 A JP2009026288 A JP 2009026288A
Authority
JP
Japan
Prior art keywords
character
image
search
unit
index matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007246158A
Other languages
English (en)
Other versions
JP4533920B2 (ja
Inventor
Bo Wu
波 呉
Jianjun Dou
建軍 竇
Ning Le
寧 楽
Atou Go
亜棟 呉
Jing Jia
靖 賈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2009026288A publication Critical patent/JP2009026288A/ja
Application granted granted Critical
Publication of JP4533920B2 publication Critical patent/JP4533920B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】 インデックス情報を改良して、より検索精度が高い画像文書処理装置、画像文書処理方法を提供する。
【解決手段】 画像文書中の文字数がMである文字列の画像を切り出し、これを1文字ごとに分割して各文字画像の画像特徴を抽出し、その画像特徴に基づき、文字画像の画像特徴を1文字単位で格納している字形特徴辞書より、適合度が高い順にN個(N>1の整数)の文字画像を候補文字として選択し、切り出した文字列の文字数M×N次の第1インデックス行列を作成する。この第1インデックス行列の第1列を構成する複数の候補文字からなる候補文字列に対して、予め定める言語モデルによる語彙解析を適用することにより、候補文字列を意味を成す文字列に調整した第2インデックス行列を作成し、言語モデルの基で統計を行った後、語彙解析を行う。
【選択図】 図1

Description

本発明は、文書を画像として入力して蓄積する画像文書処理装置および画像文書処理方法に関するものであり、特に、蓄積された画像文書に対する検索機能を有する画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体に関する。
文書をイメージスキャナなどの画像入力装置で画像に変換して電子的に蓄積し、後から検索することを可能とする文書ファイリング装置が実用化されている。このような文書ファイリング装置に関する技術は、特許文献1〜3に開示されている。
イメージデータとして読取った画像文書に対して検索を行うには、各画像文書に、検索のためのインデックス情報を手動で付与するといった作業が必要となり、非常に労力を要する。
また、画像文書の文字領域(テキスト領域)を定位し、OCR(Optical Character Reader)認識を行い、テキスト内容でフルテキスト検索を可能にする装置も提案されている。OCR認識を利用した先行技術として、たとえば特許文献4がある。
しかしながら、OCR認識には多大な計算が必要で時間が掛かるといった問題がある。さらに、文字認識率も高くないため、誤認されて検索に掛からない可能性もあり、検索精度に問題がある。
一方、特許文献5には、OCR認識を用いることなく、自動によるフルテキスト検索を可能にする技術が開示されている。
上記公報の構成では、予め文字を画像特徴によって類似した文字ごとに類似文字カテゴリに分類したカテゴリ辞書を用意しておく。そして、画像文書を登録する時、テキスト領域(文字領域)の各文字を文字認識することなく、画像特徴を抽出し、画像特徴をもとに文字カテゴリに分類して、各文字ごとに識別されたカテゴリ列を入力画像と共に記憶しておく。検索する時には、検索キーワードの各文字を対応するカテゴリに変換し、変換されたカテゴリ列を一部に含む画像文書を検索結果として取り出す。
そして、該構成による効果として、文書登録時に少ない計算機パワーで高速に登録処理が行えるとともに、検索時には漏れの少ない検索を実現することのできる文書ファイリングを提供できる、と記載されている。
たとえば、特許文献5の技術に基づいて、検索を行うためのインデックス情報を作成する場合、見出しを構成する各文字について画像特徴が類似した文字を、類似度の順に候補文字としてインデックス情報に記載する。
検索キーワードとインデックス情報とを比較する際は、主にインデックス情報が有する類似度を利用する。
類似度は、各文字それぞれに独立して設定されるパラメータでしかなく、見出し語の熟語としての特徴は、インデックス情報には反映されていないので、検索精度については、未だ不十分である。
中国公開特許公報CN1402854A 中国公開特許公報CN1535430A 中国公開特許公報CN1851713A 特開平7−152774号公報 特開平10−74250号公報
本発明の目的は、インデックス情報を改良して、より検索精度が高い画像文書処理装置、画像文書処理方法画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体を提供することである。
本発明は、文字画像の画像特徴を1文字単位で格納している字形特徴辞書と、
入力された画像文書中にある文字画像を複数の文字よりなる文字列単位で切り出す文字列抽出部と、
前記文字列抽出部にて切り出された文字列の文字画像を1文字ごとに分割して各文字画像の画像特徴を抽出する画像特徴抽出部と、
前記画像特徴抽出部にて抽出された文字画像の画像特徴を基に、前記字形特徴辞書より、画像特徴の適合度が高い順にN個(N>1の整数)の文字画像を候補文字として選択し、前記文字列の文字数をM個(M>1の整数)とした場合に、M×N次の第1インデックス行列を作成し、この第1インデックス行列の第1列を構成する複数の候補文字からなる候補文字列に対して、予め定める言語モデルによる語彙解析を適用して意味を成す文字列に調整した第2インデックス行列を作成する特徴適合部と、
前記特徴適合部にて作成された第2インデックス行列を、前記入力された画像文書に対応づけて格納するインデックス情報格納部と、
検索時に、入力された検索式中の検索キーワードを構成する1検索文字単位に前記インデックス情報格納部を検索し、検索文字を含む第2インデックス行列を有する画像文書を取り出す検索部とを有することを特徴とする画像文書処理装置である。
また本発明は、前記特徴適合部は、言語モデルとしてバイグラムまたはマルチグラムモデルを用いて候補文字列の語彙解析を行うことを特徴とする。
また本発明は、前記特徴適合部は、語彙解析に基づいて、前記第1インデックス行列の第1列の候補文字と、同じ行の他の候補文字とを入れ替えることにより意味を成す候補文字列を調整することを特徴とする。
また本発明は、前記文字列抽出部は、前記入力された画像文書における見出し領域を切り出すことを特徴とする。
また本発明は、前記文字列抽出部は、連通域統計分析法とにより、画像文書における重要領域を切り出すことを特徴とする。
また本発明は、前記画像特徴抽出部は、網格方向特徴と文字画像外囲特徴との組み合わせにより、文字画像の画像特徴を抽出することを特徴とする。
また本発明は、前記特徴適合部は、抽出された文字画像の画像特徴を、前記字形特徴辞書に格納されている全ての文字画像と適合させて候補文字を選択することを特徴とする。
また本発明は、前記特徴適合部が選択する候補文字数Nが変更可能であることを特徴とする。
また本発明は、前記検索部は、検索キーワードを構成する各検索文字のインデックス行列内の適合位置が高いインデックス行列を有する画像文書から順に取り出すことを特徴とする。
また本発明は、前記インデックス行列の各要素には、位置に応じた相関値が設定されており、
前記検索部は、
検索キーワードを構成する1検索文字単位にインデックス行列を検索して検索文字を含む第2インデックス行列を検出し、当該第2インデックス行列内における検索文字の適合位置の情報を、第2インデックス行列を有する画像文書の情報と共に保存部に格納するインデックス行列検索処理部と、
前記保存部に格納された適合位置の情報より、各検索文字の相関値を累積して、検索キーワードと第2インデックス行列との相関度を算出する相関度算出部と、
前記相関度算出部の算出結果に基づいて画像文書の取り出す順序を決定する順序決定部とを含むことを特徴とする。
また本発明は、前記相関度算出部は、前記適合位置の情報より、インデックス行列における隣接する行に適合していると判断すると、隣接する各行の相関値を行の相関度加重因子にて加重した上で累積することを特徴とする。
また本発明は、前記第2インデックス行列の各要素に設定されている相関値が、変更が可能であることを特徴とする。
また本発明は、前記行の相関度加重因子が、変更が可能であることを特徴とする。
また本発明は、前記画像特徴抽出部を用いて、前記字形特徴辞書を作成する字形特徴辞書作成部を備えることを特徴とする。
また本発明は、入力された画像文書中にある文字画像を複数の文字よりなる文字列単位で抽出する文字列抽出ステップと、
前記文字列抽出ステップにて抽出された文字列の文字画像を1文字ごとに分割して各文字画像の画像特徴を抽出する画像特徴抽出ステップと、
前記画像特徴抽出ステップにて抽出された文字画像の画像特徴を基に、文字画像の画像特徴を1文字単位で格納している字形特徴辞書より、画像特徴の適合度が高い順にN個(N>1の整数)の文字画像を候補文字として選択し、前記文字列の文字数をM個(M>1の整数)とした場合に、M×N次のインデックス行列を作成し、この第1インデックス行列の第1列を構成する複数の候補文字からなる候補文字列に対して、予め定める言語モデルによる語彙解析を適用して意味を成す文字列に調整した第2インデックス行列を作成する特徴適合ステップと、
前記特徴適合ステップにて作成された第2インデックス行列を、前記入力された画像文書に対応づけて格納するインデックス情報格納ステップと、
検索時に、前記インデックス情報格納ステップにて格納されたインデックス情報を、入力された検索式中の検索キーワードを構成する1検索文字単位に検索し、検索文字を含む第2インデックス行列を有する画像文書を取り出す検索ステップとを有することを特徴とする画像文書処理方法である。
また本発明は、コンピュータに上記の画像文書処理方法を実行させるための画像文書処理プログラムである。
また本発明は、コンピュータに上記の画像文書処理方法を実行させるための画像文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、文字列抽出部にて定位されて切り出された画像文書中の文字列の画像を、画像特徴抽出部が1文字ごとに分割して各文字画像の画像特徴を抽出する。そして、特徴適合部が、その画像特徴に基づき、文字画像の画像特徴を1文字単位で格納している字形特徴辞書より、画像特徴の適合度が高い順にN個(N>1の整数)の文字画像を候補文字として選択し、切り出した文字列の文字数M×N次の第1インデックス行列を作成する。
さらに、この第1インデックス行列の第1列を構成する複数の候補文字からなる候補文字列に対して、予め定める言語モデルによる語彙解析を適用することにより、候補文字列を意味を成す文字列に調整した第2インデックス行列を作成する。
作成された第2インデックス行列は、インデックス情報格納部にて、入力された画像文書に対応づけて格納され、検索に際しては、このインデックス行列が画像文書を検索するためのインデックス情報として利用される。
これにより、ユーザの手を煩わせることなく、また、OCR認識も用いることなく、画像文書の文字領域にある文字列を自動的に定位し、定位した文字列の画像特徴で画像文書のインデックス情報を生成することができる。
しかも、各文字画像の画像特徴を抽出して、画像特徴が似ている候補文字を複数選択するので、選択する候補文字数を適切に設定することで、OCR認識のように文字認識に時間がかかることもなく、認識漏れをなくして正確な検索が可能となる。
さらに、検索キーワードには意味を成す文字列が入力されるものであるから、第2インデックス行列の候補文字列が意味を成す文字列であることにより、さらに検索精度を向上させることができる。
また、字形特徴辞書は、全て単文字の文字画像の画像特徴を単位として作成されており、特徴適合部は、切り出された文字列の画像を単文字の文字画像に分割して画像特徴の適合をとるので、生成されたインデックス行列の精度が高い。
検索時は、検索部が、入力された検索式中の検索キーワードを構成する1検索文字単位にインデックス情報格納部を検索して検索文字を含むインデックス行列を有する画像文書を取り出す。
このように、検索キーワードを構成する検索文字単位でインデックス行列を分析して検索キーワードを含むインデックス行列を検出することで、単文字検索による全面的な検索を保証できる。
また本発明によれば、前記特徴適合部は、言語モデルとしてバイグラムまたはマルチグラムモデルを用いることができる。
また本発明によれば、前記特徴適合部は、語彙解析に基づいて、前記第1インデックス行列の第1列の候補文字と、同じ行の他の候補文字とを入れ替えることにより意味を成す候補文字列を調整する。
これにより、第1インデックス行列の適合度と同じ適合度で候補文字列を調整することができる。
また本発明によれば、前記文字列抽出部が画像文書における見出し領域を切り出すので、画像文書の見出しに対してインデックス行列が作成されていくこととなる。
したがって、画像文書のテキスト領域全域を対照にインデックス行列を作成するよりも、1つの画像文書に作成されるインデックス行列数が絞り込むことができ、見出しを対象に画像文書を検索することが可能となり、効率のよいキーワード検索が可能となる。
また本発明によれば、前記文字列抽出部が画像文書における見出し領域の切り出しを、容易に実現することが可能となる。
また本発明によれば、字形の違いによるが画像特徴を効率よく抽出することができる。
また本発明によれば、最も正確な順序にて候補文字を選択してインデックス行列を作成することができる。
また本発明によれば、候補文字数Nを変更可能とすることで、ユーザの要望に応じたインデックス行列を作成することができる。たとえば、候補文字数Nを少なくすることで、インデックス行列の次数が小さくなり、検索時間は短くでき、検索精度及び検索正確率を上げられる。逆に候補文字数Nを多くすることで、インデックス行列の次数が大きくなり、検索漏れをなくして検索率を上げることができる。
前述した特許文献2の構成によれば、検索キーワードを代表文字コード列に変換しての検索であっため、類似文字カテゴリ中の位置までは分析することはできない。そのため、同じ類似文字カテゴリ内に属している各文字は、類似度の高いものも低いものも同じ関連具合となり、関連性の高い画像文書から順に正確に提示するといったことができなかった。
しかしながら、本発明によれば、検索キーワードを構成する各検索文字のインデックス行列内の適合位置が高いインデックス行列を有する画像文書から順に取り出されるので、検索結果を、関連性の高い画像文書から順に提示することができる。
また本発明によれば、インデックス行列の各要素には、位置に応じた相関値が設定されている。この相関値は、検索文字とインデックス行列内の候補文字との相関値であり、特徴適合部が選択した候補文字の順に応じて設定され、通常は列番号の若い要素ほど大きい値に設定される。
検索部のインデックス行列検索処理部は、検索キーワードを構成する1検索文字単位にインデックス行列を検索して検索文字を含むインデックス行列を検出し、当該インデックス行列内における検索文字の適合位置の情報を、インデックス行列を有する画像文書の情報と共に保存部に格納する。
そして、検索部の相関度算出部が、この保存部に格納された適合位置の情報より、各検索文字の相関値を累積して、検索キーワードとインデックス行列との相関度を算出し、順序決定部が、相関度の高いものから順に画像文書を取り出す。
これにより、検索キーワードを構成する各検索文字のインデックス行列内の適合位置が高いインデックス行列を有する画像文書から順に取り出し、検索結果を、関連性の高い画像文書から順に提示するといったことを簡単に実現できる。
また本発明によれば、前記相関度算出部は、インデックス行列における隣接する行に適合していると判断すると、対応する行の相関値に行の相関度加重因子が加重される。つまり、文字単位での検索を行いながら、検索キーワードの各検索文字が連続して含まれるような場合には、そのインデックス行列を有する画像文書の検索結果がより高い相関度を持つ。これにより、簡単な計算で有効な検索を実施することができる。
また本発明によれば、相関値を変更可能とすることで、ユーザの要望に応じた検索を実現できる。たとえば、候補文字数Nは同じであっても、N個の候補文字の列番号に応じた相関値を、第A番目までは高くそれ以降は低く設定するといった変化を付けることで、検索結果は変化するので、ユーザの要望に応じて柔軟な対応が取れる。
また本発明によれば、行の相関度加重因子を変更可能とすることで、ユーザの要望に応じた検索を実現できる。たとえば、行の相関度加重因子を大きくすることで、算出される相関度への貢献度が、連続的に適合された2行の相関値では大きくなり、語彙を一つの単位として検索した結果に近づくようになる。逆に行の相関度加重因子を小さくすることで、字を1つの単位として検索した結果に近づくようになる。これにより、ユーザの要望に応じた検索となるように、柔軟な対応が取れる。
また本発明によれば、字形特徴辞書生成部が、画像特徴抽出部を兼用して、字形特徴辞書を作成するので、ユーザが、異なる字体、字号、フォントに対して、字形の特徴を抽出させて字形特徴辞書を作成することが簡単に行える。また、字体等だけでなく、異なる言語の文字についても、各字体、字号、フォントに対して、簡単に字形特徴辞書を作成することができる。
また本発明によれば、文字列抽出ステップにて定位されて切り出された画像文書中の文字列の画像を、画像特徴抽出ステップで1文字ごとに分割して各文字画像の画像特徴を抽出する。そして、特徴適合ステップで、その画像特徴に基づき、文字画像の画像特徴を1文字単位で格納している字形特徴辞書より、画像特徴の適合度が高い順にN個(N>1の整数)の文字画像を候補文字として選択し、切り出した文字列の文字数M×N次の第1インデックス行列を作成する。
さらに、この第1インデックス行列の第1列を構成する複数の候補文字からなる候補文字列に対して、予め定める言語モデルによる語彙解析を適用することにより、候補文字列を意味を成す文字列に調整した第2インデックス行列を作成する。
作成された第2インデックス行列は、インデックス情報格納ステップにて、入力された画像文書に対応づけて格納され、検索に際しては、このインデックス行列が画像文書を検索するためのインデックス情報として利用される。
これにより、ユーザの手を煩わせることなく、また、OCR認識も用いることなく、画像文書の文字領域にある文字列を自動的に定位し、定位した文字列の画像特徴で画像文書のインデックス情報を生成することができる。
しかも、各文字画像の画像特徴を抽出して、画像特徴用が似ている候補文字を複数選択するので、選択する候補文字数を適切に設定することで、OCR認識のように文字認識に時間がかかることもなく、認識漏れをなくして正確な検索が可能となる。
さらに、検索キーワードには意味を成す文字列が入力されるものであるから、第2インデックス行列の候補文字列が意味を成す文字列であることにより、さらに検索精度を向上させることができる。
また、字形特徴辞書は、全て単文字の文字画像の画像特徴を単位として作成されており、特徴適合ステップでは、切り出された文字列の画像を単文字の文字画像に分割して画像特徴の適合をとるので、生成されたインデックス行列の精度が高い。
検索ステップでは、入力された検索式中の検索キーワードを構成する1検索文字単位にインデックス情報格納部を検索して検索文字を含むインデックス行列を有する画像文書を取り出す。
このように、検索キーワードを構成する検索文字単位でインデックス行列を分析して検索キーワードを含むインデックス行列を検出することで、単文字検索による全面的な検索を保証できる。
また本発明によれば、画像文書処理プログラム、画像文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体として提供することができる。
以下図面を参考にして本発明の好適な実施形態を詳細に説明する。
図1は、画像文書処理装置10の構成を大略的に示すブロック図である。画像文書処理装置10は、プロセッサ4と、プロセッサ4が実際の処理を行うためのソフトウエアなどを格納する外部記憶装置5とを含む。
プロセッサ4は、画像文書から検索の要となる見出し領域を抽出する画像文書特徴抽出処理、画像文書に対する検索を可能にするインデックス情報を生成するインデックス情報生成処理、インデックス情報を用いた検索処理、およびインデックス情報を用いて後述する意味のある文書名を作成して画像文書を管理する画像文書管理処理などを実際に行う。
プロセッサ4における実際の処理は、外部記憶装置5に格納されるソフトウエアによって実行される。プロセッサ4は、たとえば通常のコンピュータ本体などで構成される。本実施の形態では、プロセッサ4は、インデックス情報生成処理に用いる後述する字形特徴辞書15を作成する字形特徴辞書作成処理も実行するようになっている。
外部記憶装置5は、たとえば高速アクセスが可能なハードディスクなどで構成することができる。外部記憶装置5は、画像文書を大量に保持するために光ディスクなどの大容量デバイスを用いるような構成であっても構わない。後述する字形特徴辞書15、インデックス情報DB(データベース)17、画像文書DB19、字形見本DB13などは、外部記憶装置5にて構成される。
画像文書処理装置10には、キーボード1が接続されるとともに、表示装置3が接続される。キーボード1は、検索キーワードの入力に用いられる。またキーボード1は、画像文書を閲覧する際の指示入力にも用いられる。さらにキーボード1は、後述する候補文字数、相関値、および行の相関度加重因子Qなどの設定値変更にも用いられる。表示装置3は、画像文書などを出力して表示する。表示装置3に表示される内容には、相関度の情報、および画像名称などの情報も含まれる。
画像文書処理装置10には、イメージスキャナ2またはデジタルカメラ6がさらに接続される。イメージスキャナ2およびデジタルカメラ6は、画像文書を取得するために用いられる。画像文書の取得は、イメージスキャナ2およびデジタルカメラ6に限られるものではなく、ネットワークなどを介して通信を行うことによって取得してもよい。また、イメージスキャナ2またはデジタルカメラ6を用いた検索キーワードの入力も可能である。
図2は、画像文書処理装置10の構成を詳細に示すブロック図である。画像文書処理装置10は、文字データベース入力部(文字DB入力部)11、字体正規化処理部12、字形見本DB13、文字画像特徴抽出部(画像特徴抽出部)14、字形特徴辞書15、特徴適合部16、インデックス情報DB17、見出し領域初期処理部18、画像文書DB19、画像文書特徴データベース(画像文書特徴DB)20、画像文書入力部21、検索部22、語彙解析部23、キーワード入力部24、検索結果表示部25、文書名作成部51、画像文書DB管理部52、画像文書表示部53、指示入力部54を含んでいる。
このうち、文字DB入力部11、字体正規化処理部12、字形見本DB13、文字画像特徴抽出部14、字形特徴辞書15にて、上記した字形特徴辞書作成処理を実施する字形特徴辞書生成部30が構成される。
まず、字形特徴辞書生成部30を構成する、文字DB入力部11、字体正規化処理部12、字形見本DB13、文字画像特徴抽出部14、字形特徴辞書15について説明する。
文字DB入力部11は、字形特徴辞書15を作成するために必要な、基本となる文字データベースを入力するためのものである。本装置が、たとえば、中国語対応の装置であれば、中華人民共和国におけるGB2312の6763個の全文字などが入力される。また、本装置が、日本語対応の装置であれば、JIS第一水準の約3,000字種などが入力される。つまり、ここで言う文字には、符号が含まれる。このような文字DB入力部11は、プロセッサ4にて構成され、文字データベースは、記録媒体を介して、或いはネットワークを介したデータ通信などにより供給される。
字体正規化処理部12は、文字DB入力部11より入力された文字データベースに含まれる全ての文字について、異なるフォントとサイズの文字画像を作成するものである。異なるフォントとサイズの文字画像は、字形見本DB13に格納される。
図3は、字体正規化処理部12が字形見本DB13を作成する処理を示す図である。字体正規化処理部12には、本装置が中国語対応の装置であれば、たとえば、宋体、倣宋体、黒体、楷体などの字形見本12aが具備されている。また、本装置が日本語対応の装置であれば、明朝体、ゴシック体…などの字形見本が具備されている。
字体正規化処理部12における変形処理部12bが、文字データベースの文字を画像化し、文字画像を標準化処理する。次に、変形処理部12bは、字形見本12aを参照して、標準化処理した文字画像に対し、変形処理を施し、さらに異なるフォントとサイズの文字画像にする。変形処理には、たとえば、曖昧化処理、拡大・縮小化処理、微細化処理などがある。このように変形処理された文字画像を、字体基準部12cは、基準文字画像として字形見本DB13に格納する。
字形見本DB13には、文字データベースの全ての文字に対して、同じ文字であっても、フォント、サイズによって決まる字形毎に基準文字画像が格納されている。例をあげると、文字種は同じ「中」であっても、定められているフォントの数だけ形状の異なる基準文字画像の「中」があり、また、定められているサイズの数だけ大きさの異なる基準文字画像の「中」が格納されている。
文字画像特徴抽出部14は、文字画像の特徴(画像特徴)を抽出して、字形特徴辞書15に格納するものでもある。本実施の形態では、文字画像特徴抽出部14は、文字画像外囲特徴と網格方向との組合せによって文字画像の特徴を抽出し、特徴ベクトルとする。なお、文字画像の特徴は、これらに限られるものではなく、他の特徴を抽出して特徴ベクトルを形成してもよい。
ここで、文字画像外囲特徴及び網格方向特徴について説明しておく。図4は、文字画像外囲特徴の説明図である。文字画像外囲特徴とは、文字画像の外部からみた輪郭の特徴である。図4に示すように、文字画像の外接矩形の4辺から走査し、白画素から黒画素に変化する点までの距離を特徴とし、最初に変化する位置と2度目に変化する位置を取り出す。
たとえば、外接矩形をX行Y列に分割した場合、行を単位として左方向と右方向からそれぞれ画像を走査し、列を単位として上方向と下方向からそれぞれ走査する。なお、図4は、行を単位に左から走査している図面である。
また、図4において、実線の矢印Aにて、最初に白画素から黒画素に変化する点までの走査軌跡を示している。破線の矢印Bは、2回目に白画素から黒画素に変化する点までの走査軌跡を示している。実線の矢印Cは、最後まで白画素から黒画素に変化する点を検出することができなかった走査軌跡を示しており、このように変化点がない場合、距離値は0となる。
図5は、網格方向特徴の説明図である。文字画像を粗い網格に分割し、各格子領域内の黒画素についてあらかじめ定めた複数方向に触手を伸ばす。そして、各方向に連結する黒画素の画素数を計数し、該黒画素の各方向成分別の分布状況を表す方向寄与度を、識別関数としてユークリッド距離を用いて黒画素数の差に応じた値により距離値を除算して距離値を算出する。
図5(a)では、文字画像を4×4の16個の格子に分割し、格子の交点からX軸方向に最も近い黒画素から白画素になる点を中心に、X軸方向(0°)、45°方向、Y軸方向(90°)の3方向に触手を伸ばしている。
本実施例では、文字画像を8×8の4角の網に分割し、図5(b)に示すように、0°,45°,90°,135°,180°,225°,270°,315°の8方向に触手を伸ばすようになっている。
なお、網格方向の特徴の抽出方法としては、触手の伸ばす方向や、触手を伸ばす中心点を置き方など、様々な手法があり、たとえば、特開2000−181994号公報などに記載されている。
文字画像特徴抽出部14は、このような文字画像の特徴の抽出を、字形見本DB13に格納されている、基準文字画像の全部に対して行う。そして、文字画像特徴抽出部14は、字形見本DB13に格納されている基準文字画像の抽出結果については字形特徴辞書15に格納し、字形特徴辞書15を生成する。
図6は、文字画像特徴抽出部14による字形特徴辞書15を作成する処理を示す図である。文字画像特徴抽出部14における字形基準化部14aが、字形見本DB13から基準文字画像を取り出し、文字画像特徴取出部14bは、字形基準化部14aが取り出した基準文字画像に対してその特徴を取り出す。そして、特徴分類部14cが、字形見本DB13を参照して、基準文字画像毎に抽出した特徴を分類して、字形特徴辞書15に格納する。
文字画像特徴取出部14bにおいては、上述したように、単文字ごと、加重付けによる異なる基準文字画像の特徴の適値を求め、基準文字画像の標準特徴を取得する。
文字画像特徴取出部14bが、異なる字体字号を加重させることによって、異なる字形特徴辞書を作成することができる。多字体の画像特徴を融合し、単文字画像特徴を単位で字形特徴辞書を作成することで、多字体・字号画像文書の自動インデックスと管理を満足できる。
次に、画像文書特徴抽出処理を実施する画像文書特徴抽出部31を構成する、画像文書DB19、画像文書特徴DB20、見出し領域初期処理部18、文字画像特徴抽出部14について説明する。
画像文書DB19は、画像文書入力部21より画像文書が入力されると、識別のための文書IDを付けて保存するものである。
見出し領域初期処理部18は、画像文書DB19に新しい画像文書が保存されると、そのイメージデータより画像文書における見出し領域を定位して抽出して、文字画像を前述した文字画像特徴抽出部14に送るものである。
図7に、画像文書50に対して、T1、T2、T3の3領域を見出し領域として定位した様子を示す。この図7からも分かるように、画像文書50におけるタイトル部分を見出し領域Tとして抽出する。
見出し領域初期処理部18にて抽出されて文字画像特徴抽出部14に送られる文字画像は、通常は複数の文字を含んだ文字列の画像である。したがって、これ以降は、見出し領域初期処理部18より送られる文字画像は文字列の画像であるとして説明する。
本実施の形態では、見出し領域初期処理部18は射影法と連通域統計分析により、見出し領域Tの定位及び抽出を行う。なお、このような見出し領域Tは、主にタイトル部分が相当し、たとえば、特開平9−319747号公報、特開平8−153110などに記載されている方法など、従来ある様々な手法を用いることができる。
画像文書の全ての文字領域(テキスト領域)を対象とすることなく、このように見出し領域Tのみを定位し抽出しているため、検索の対象となる情報量を少なくして検索時間を短くできる。
但し、全てのテキスト領域を定位することなく、見出し領域Tのみを定位することは、検索に関して言えば必須の構成要素でなく、全文テキスト領域を定位して抽出することも可能である。ただし、後述する意味のある文書名の作成に関して言えば、見出し領域Tのみを定位することは必須の構成要素である。
文字画像特徴抽出部14は、見出し領域初期処理部18から入力される文字列の画像については、1文字の文字画像に分割した上で、字形特徴辞書15の作成時と同様、各文字画像の特徴を抽出する。そして、抽出した特徴は、画像文書特徴DB20に画像文書ごとに格納する。
画像文書特徴DB20には、見出し領域初期処理部18にて抽出された見出し領域Tに含まれる文字列の画像の特徴情報が、文字列を構成する各文字それぞれの特徴(特徴ベクトル)として格納される。
図7に示ように、1つの画像文書50に対して、抽出された全ての見出し領域T1、T2、T3…に含まれる文字列の文字画像の特徴、つまり文字列を構成する各文字の文字画像の特徴が、画像文書50の文書IDと共に格納される。
次に、インデックス情報作成処理を実施するインデックス情報生成部32を構成する、文字画像特徴抽出部14、字形特徴辞書15、特徴適合部16、インデックス情報DB17、画像文書特徴DB20について説明する。
文字画像特徴抽出部14、字形特徴辞書15、画像文書特徴DB20の機能は既に説明したとおりである。
特徴適合部16は、画像文書特徴DB20より画像文書の見出し領域Tに含まれる文字画像の特徴を読み出し、該読み出した特徴に基づいて、字形特徴辞書15を参照して後述するようにインデックス行列を作成して、画像文書のインデックス情報を生成するものである。
ここで、インデックス情報が1つの画像文書に対して1つ生成され、インデックス情報に含まれるインデックス行列は、見出し領域T毎に作成される。したがって、1つの画像文書内に見出し領域Tが複数ある場合は、当該画像文書のインデックス情報の中に複数のインデックス行列が含まれることとなる。
図8に、インデックス情報DB17を作成する処理を示す。上述したように、ある画像文書が入力されて画像文書DB19に格納されると、文字画像特徴取出部14bが、各見出し領域Tに含まれる文字列の文字画像の特徴を抽出して、画像文書特徴DB20に格納する。
特徴適合部16は、画像文書特徴DB20より、各見出し領域Tに含まれる文字列の画像の特徴を読み出し、単文字ごとに字形特徴辞書15内の基準文字画像と適合を行って、見出し領域Tそれぞれのインデックス行列を作成する。
そして、特徴適合部16は、これらインデックス行列に、当該画像文書のその他の情報である、文書IDや画像文書DB19内における該当する画像文書の保存位置の情報などを含めてインデックス情報とし、インデックス情報DB17に格納する。
図9に、特徴適合部16によるインデックス行列を作成する処理の一例を示す。図9は、図7における見出し領域T3に含まれる文字列「去神仙居住的地方」の8つの文字画像について、インデックス行列を作成する説明図である。
文字列『去神仙居住的地方』は、「去」「神」「仙」「居」「住」「的」「地」「方」の1文字画像に分割される。このような文字列の画像を1文字づつの画像に分割する処理は、既存の分割方法を利用できる。
「去」…「地」の8文字には、並び順に従い、「去」には1、「神」には2、…「方」には8というように、1〜8までの番号が付される。この番号は、インデックス行列の行番号に相当する。
このような8つの文字画像全てに対して、図9に参照符号Xにて示す、画像文書特徴DB20より格納されている文字画像「去」に対する特徴を取り出し(S1)、字形特徴辞書15を参照して特徴が近い(適合度が高い)順に、N個の候補文字を選択する(S2)といった処理が実施される。
適合度の高い順に抽出されるN個の候補文字には、抽出順序に応じた番号が付され、これがインデックス行列の列番号に相当する。そして、検索キーワードに含まれる各検索文字と候補文字との適合度を示す文字相関値(相関値)は、この列番号に応じて設定されている。
図9において、参照符号100にて示すテーブルは、文字列『去神仙居住的地方』のインデックス行列の内容を示している。たとえば、5文字目の「住」の文字画像に対しては、行番号5の行に適合度の高い1列目から順に、「任」,「佳」,「住」,…「仁」の候補文字が抽出されている。テーブル100において、たとえば候補文字「去」のインデックス行列内の位置は[1,1]、候補文字「屑」の位置は[4,2]、候補文字「仁」の位置は[5,N]となる。
なお、図9のテーブル100では、理解を助けるために、文字列の各文字に対応する候補文字に対しては○を付して示している。
このようなインデックス行列の行数Mは、見出し領域初期処理部18が見出し領域Tとして抽出した文字列の画像の文字数にて決まる。また、列数Nは、1文字について選出する候補文字数にて決まる。したがって、本発明によれば、インデックス行列の次元数(列数)を変えることで、インデックス行列内の要素数、つまり、候補文字数量を柔軟に設定することができる。そのため、画像文書の検索において、正確でほぼ漏れのない検索を行うことができる。
インデックス行列において、選択された候補文字の情報の持たせ方は、検索キーワードの入力方法に応じて適宜設定することができる。たとえば、検索キーワードをキーボード1より入力する構成であれば、キーボードから入力された検索キーワードに対して検索を掛けることができるように、候補文字を文字コードなどの情報で格納する。
また、イメージスキャナ2などを用いて検索キーワードをイメージデータにて入力する構成であれば、検索キーワードの特徴(特徴ベクトル)を抽出し、特徴ベクトル同士を比べて掛けることができるように、候補文字を特徴(特徴ベクトル)の情報で格納すればよい。
図7に戻って、インデックス情報DB17におけるインデックス情報のデータ配置例を説明する。複数の見出し領域T1、T2、T3…Tnが存在する画像文書50のインデックス情報では、複数の見出し領域T1、T2、T3…Tnに対して作成されたインデックス行列が線形に配置される。図7の例では、文書IDが先頭に配置され、続いて、複数のインデックス行列が配列され、最後に保存位置の情報が配置されている。ここで、5×Nは、インデックス行列のサイズを示しており5行N列であることを示している。
インデックス情報をこのようなデータ配置としておくことで、画像文書DB19内の画像文書の格納位置と、画像文書中の見出し領域Tの位置を迅速に定位して、検索結果の表示に用いることができる。
また、実際の要求に従って、インデックス情報に画像文書の他の属性を追加することもできる。
本発明では、さらにインデックス行列100に対して言語モデルを用いた語彙解析法を適用し、候補文字列を構成する各候補文字を調整して意味のある候補文字列とする。
より具体的に言うと、特徴適合部16は、作成したインデックス行列100に基づいて、該インデックス行列における第1列目に位置する各行の候補文字を順に連ねた候補文字列を作成する。そして、この候補文字列を構成する連続する各行の候補文字によりなる単語の語義を解析し、候補文字列が意味をなすように各行の第1列目の候補文字を調整する。
図10は、作成したインデックス行列を調整して第1列目の文字列が意味のある文字列となるように、語彙解析法を用いて調整した具体例を示す説明図である。
図10の上部に示す調整前のインデックス行列100により作成される候補文字列は「去伸仙居任酌地方」となり意味を成さない。
意味ある文書名として利用する候補文字列は、主語、述語、および目的語の接続詞関係等が意味的に正しくなければならない。そこで、語彙解析により、意味のある候補文字列に変換する。具体例には、複数のエラー候補文字に対し、概念辞書を使用し、複数のエラー候補文字と、候補テキストの他の単語との間の意味情報を分析し、候補文字列を意味ある文字列に修正する。
このような語彙解析に用いられる言語モデル61は、すべての漢字で始まる活字の統計データを提供するものであればよい。つまり、この言語モデル61のメインコンセプトにより、自動索引システムを技術的に確立することができ、中国語の新聞(たとえば「 People’s Daily(人民日報)」)のスクリプトに関する統計データを得ることができる。
本実施形態では、言語モデルとしてバイグラムモデルを使用する。
バイグラムモデルは、2つの文字、2つの音節、または2つの単語のグループであり、テキストの簡単な統計分析の基礎として非常に一般的に使用される。
図11は、バイグラムモデルに用いる辞書データ300の構成例を示す図である。
辞書データの第1列目301は、2字の組み合わせの1番目の文字を示している。第2行目302は、1番目の文字と共に組み合わせを構成した文字の数を示している。第3行目303は、1番目の文字と共に組み合わせを構成した文字を示し、第4行目304は、組み合わせを構成した回数を示している。さらに、第5行目305は、組み合わせの中国語の文字数を示している。ここでは、バイグラムモデルを用いているので、文字数は全て2である。
候補文字列の調整では、マルコフ過程に基づいて文字の推移および混合の確率など、主に単語内の文脈情報を使用し、Vitarbi-style検索を行う。
上記のような中国語辞書のヘルプを用いて、インデックス行列を自動的に調整し、全ての最適候補が第1行目に調整される。
各文字ごとの適合度のみから決定したインデックス行列100に基づいて、まず、第1列目の文字列に対し、前後検索を用いたバイグラムモデルによる調整を実行し、これにより適合した候補の正確性および効率性を向上することができる。
さらにその正確性を向上させるために、単語ベースでのバイグラムモデルによる調整を文字列の一部に実行する。これにより、処理速度が低下するが、高い正確性を得ることができる。
以下ではインデックス行列100を例にして詳細な調整方法を説明する。
文字ベースでのバイグラムモデルを用いて、まず2行目と3行目との関係から、2行目の第2候補「神」を「伸」と入れ替えて第1候補とする。また、4行目と5行目との関係から、5行目の第3候補「住」を「任」と入れ替えて第1候補とする。
さらに単語ベースでのバイグラムモデルによる調整を行い、「神仙」および「居住」の単語の属性、およびこれらの関連性によって6行目の第2候補「的」を「酌」と入れ替えて第1候補に調整する。
このようにして調整されたインデックス行列200の第1列目に含まれる候補文字列は、「去神仙居住的地方」となり、意味を成す文字列となる。なお、特徴適合部16は、このような調整後のインデックス行列200をインデックス情報DB17に格納するようにしてもよい。
図12は、バイグラムモデルを用いたインデックス行列の調整方法を示すフローチャートである。
ステップS1では、インデックス行列の最後の行に到達したかどうかを判断する。到達していなければステップS2に進み、到達していればステップS5に進む。
ステップS2では、着目されている行、すなわち一回目の処理の場合は1行目の第1候補を取り出す。ステップS3では、バイグラムモデルを適用して、着目されている行の第1候補と、これに隣接する行の各候補との組み合わせについて辞書内での出現頻度を統計的にカウントする。
ステップS4では、カウント値と予め定める閾値とを比較し、カウント値が閾値を越えたものを第1候補とする。
ステップS5では、決定された第1候補の連接関係を最初の行から分析し、単語を決定する。ステップS6では、決定した単語間の第1候補を決定する。
ステップS7では、着目されている第1候補文字列の中にある文字集合は辞書データの語義ルールに合致するかどうかを判断する。合致すればステップS8に進んで処理を終了し、調整されたインデックス行列を得る。合致しなければステップS9に進んで合致しない行の第1候補を調整してステップS6に戻る。
次に、インデックス情報を用いた検索処理を実施する検索部22について説明する。図13は、検索部22の機能と検索処理とを示す説明図である。検索部22は、インデックス行列検索処理部22a、文字相関値保存部(保存部)22b、相関度算出部22c、表示順序決定部(順序決定部)22d、及び画像文書抽出部22eを含む。
インデックス行列検索処理部22aには、キーワード入力部24より検索キーワードが入力される。キーワード入力部24としては、前述したキーボード1或いはイメージスキャナ2などが相当する。
インデックス行列検索処理部22aは、インデックス情報DB17に対して検索を行い、入力された検索キーワードを含むインデックス行列を検出するものである。インデックス行列検索処理部22aは、検索キーワードを1文字ごとに分割し、各検索文字を含むインデックス行列を探し、検索文字が含まれている場合は、当該検索文字のインデックス行列内の適合位置の情報を取得する。なお、インデックス行列の抽出手順例については、図14のフローチャートを用いて後述する。
文字相関値保存部22bは、インデックス行列検索処理部22aにて取得された適合位置の情報と、該適合位置の列番号に応じた文字相関値を保存するものである。
相関度算出部22cは、インデックス行列検索処理部22aにおける全てのインデックス行列に対する検出が完了すると、検出されたインデックス行列と検索キーワードとの相関度を算出するものである。
相関度の算出は、文字相関値保存部22bに保存されている適合位置及び文字相関値の情報を用い、予め設定されている相関度算出方法に従うことで算出する。相関度の算出については、図15、図16を用いて後述する。
なお、ここでは、文字相関値保存部22bが、適合位置の情報と、該適合位置の列番号に応じた文字相関値を保存する構成としていたが、文字相関値保存部22bは、適合位置のみを保存し、相関度算出部22cが、適合位置の情報より文字相関値を取得する構成としてもよい。
表示順序決定部22dは、相関度算出部22cにて算出された相関度の情報を基に、表示順序を決定するものである。表示順序決定部22dは、相関度の高いインデックス行列を含む画像文書より順に、画像文書の内容が検索結果表示部25に表示されるように表示順序を決定する。
画像文書抽出部22eは、表示順序決定部22dにて決定された順序に従い画像文書が表示されるように、画像文書DB19より画像文書のイメージデータを読み出し、検索結果表示部25に出力して表示させるものである。
検索結果表示部25は、表示順序に従い画像文書を表示する。サムネイル表示などであってもよい。検索結果表示部25としては、前述した表示装置3などが相当する。
ここで、検索手順について説明する。図14は、検索部22における検索手順を示すフローチャートである。R個の文字列よりなる検索キーワードが入力され、検索が指示されると、インデックス行列検索処理部22aは、まず、検索キーワードの第1番目の検索文字を取り出す(S11)。
次に、インデックス行列検索処理部22aは、インデックス情報DB17内の全てのインデックス行列に対して、第1番目の検索文字を検索する(S12)。
全てのインデックス行列に対する検索が完了すると、第1番目の検索文字を検索できたかどうかを判断し、1つも検索できなかった場合はS19に移行し、検索できた場合はS14に進む。
S14においては、インデックス行列検索処理部22aが、第1番目の検索文字が含まれていたインデックス行列における適合位置と文字相関値とを、文字相関値保存部22bに保存する。
続いて、インデックス行列検索処理部22aは、第1番目の検索文字が含まれていた全てのインデックス行列を取り出す(S15)。そして、検索キーワードの次の文字である第2番目の検索文字を取り出し、S15で取り出した第1番目の検索文字を含んでいたインデックス行列に対して検索する(S16)。
S15で取り出した全てのインデックス行列に対する検索が完了すると、第2番目の検索文字を検索できたかどうかを判断し(S17)、1つも検索できなかった場合は上記と同様にS19に移行し、検索できた場合はS18に進む。
S18においては、インデックス行列検索処理部22aが、第2番目の検索文字が含まれていたインデックス行列における適合位置と文字相関値とを、文字相関値保存部22bに保存する。
続いて、インデックス行列検索処理部22aは、再度S16に戻り、検索キーワードのさらに次の文字である第3番目の検索文字を取り出し、S15で取り出した第1番目の検索文字を含んでいたインデックス行列に対して検索する。
そして、ここでも、検索が完了すると、インデックス行列検索処理部22aは、第3番目の検索文字を検索できたかどうかを判断し(S17)、1つも検索できなかった場合はS19に移行し、検索できた場合は再度S18に進み、検索キーワードのさらなる次の検索文字についての検索を行う。
このようなS16〜S18までの処理、つまり、S15にて抽出した、第1番目の検索文字が含まれているインデックス行列を対象とした、第2番目以降の各検索文字の絞り込み検索を、インデックス行列検索処理部22aは、S17で文字を1つも検出できなかったと判断するか、検索キーワード内の全検索文字に対しての検索が完了したと判断するまで行い、その後、S19に移行する。
S19では、検索キーワードにおける次の文字である第2番目の検索文字を取り出す。次いで、検索文字が終わりか、つまり、全ての検索文字に対して検索を終えたかどうを判断し(S20)、終わっていない場合は、S12に戻る。
そして、上記と同様にして、インデックス行列検索処理部22aは、インデックス情報DB17内の全てのインデックス行列に対して、第2番目の検索文字を検索する。検索できた場合は、インデックス行列の適合位置と文字相関値を保存した上でS15に進み、第2番目の検索文字を含んでいる全てのインデックス行列に対して、検索キーワードの次の文字、つまり、第2番目の次である第3番目以降の各検索文字に対して、S16〜S18を繰り返し行って絞り込み検索を行う。
インデックス行列検索処理部22aは、上記のような検索を、S19で検索文字を一つ進め、進めた検索文字を含むインデックス行列を取り出し、それ以降の検索文字にて絞り込みを掛けるといった処理を、第3番目以降の各検索文字についても順次行う。
そして、S19にて検索キーワード内の全ての検索文字について取り出しを終え、S20にて、全ての検索文字に対して検索を終了したと判断した場合は、S21に進む。
S21では、相関度算出部22cが、検索キーワードと各インデックス行列との相関度を、後述するように相関度基準にしたがって算出する。
そして、表示順序決定部22dが相関度の高いインデックス行列を含む画像文書より表示されるように表示順序を決定し、画像文書抽出部22eが画像文書DB19より画像文書のイメージデータを取得し、検索結果表示部25が相関度の高い順に画像文書を表示する(S22)。
続いて、図15、図16を用いて、相関度算出部22cにおける相関度基準にしたがった、インデックス行列と検索キーワードとの相関度算出方法について説明する。
図15の参照符号101のブロックには、検索条件を記載している。そして、参照符号102のブロックには、相関度を計算するためのある仮定の検索キーワードとインデックス行列との相対関係を記載している。ブロック101に示した検索条件で、検索キーワードとインデックス行列とが、ブロック102に示すような相対関係であった場合、検索キーワードとインデックス行列の相関度は、ブロック103にて示されるような計算式にて算出されることとなる。
まず、ブロック101の検索条件について説明する。検索キーワードの文字数はR個であり、第1番目の検索文字がC1、第2番目がC2、…、第R番目がCrである。
検索対照となるインデックス行列はM×N次行列である。つまり、見出し領域Tとして切り出された文字列画像の文字数がM個であり、文字列の各文字それぞれの候補として選択された候補文字数がN個である。
検索文字と各候補文字との相関値である文字相関値は、インデックス行列の各位置に応じて定められているので、インデックス行列と同じ次数の行列となる。つまり、文字相関値行列Weightは、M×N次行列である。たとえば、Weight[i][j]は、インデックス行列における位置[i,j](=Index[i][j])にある候補文字が適合された場合の文字相関値を表している。本実施の形態では、インデックス行列の列番号[j]が同じであれば、行番号[i]に関わらず、文字相関値は同じである。
行の相関度加重因子Qは、インデックス行列における隣接する2行にわたって、検索文字が適合した場合に、それら2行の文字相関値に加えられる加重である。隣接する2行にわたって検索文字が適合する場合、検索キーワードの連続する2文字を含んでいる可能性が高い。
行の相関度加重因子Qを高く設定すると、相関度算出部22cが算出する相関度への貢献度が、連続的に適合された2行の文字相関値では大きくなるが、隣接しない各行の文字相関値では小さくなる。つまり、行の相関度加重因子Qを高く設定することで、語彙を一つの単位として検索した結果に近づくようになり、逆に行の相関度加重因子Qを小さくすることで、字を1つの単位として検索した結果に近づくようになる。
検索文字C1が適合した文字相関値はW1、検索文字C2が適合した文字相関値はW2,…、検索文字Crが適合した文字相関値はWrとして表す。
続いて、ブロック102に示す、相関度を計算するために仮定した、検索キーワードとインデックス行列との相対関係について説明する。
検索キーワードとインデックス行列とは、全ての検索文字C1、C2、…Crがインデックス行列内の何れかの候補文字と適合する関係にある。検索文字C1、C2、…Crが適合した各候補文字のインデックス行列内の位置、つまり適合位置を、[C1i,C1j],[C2i,C2j],…[Cri,Crj]として表す。
そして、さらなる相対関係として、ブロック102に示す式(1)、
C(k+1)i=Cki+1,C(m+1)i=Cmi+1(m>k)…(1)
の関係にある。
該式において、k,mは、検索キーワードを構成する各検索文字の相対位置を表している。また、C(k+1)iは、検索キーワードの第k+1番目の検索文字が適合した候補文字のインデックス行列内の行番号を示し、Ckiは、検索キーワードの第k番目の検索文字が適合した候補文字のインデックス行列内の行番号を示している。
したがって、C(k+1)i=Cki+1は、検索キーワードの第k+1番目の検索文字が適合した候補文字のインデックス行列内の行番号が、検索キーワードの第k番目の検索文字が適合した候補文字のインデックス行列内の行番号にプラス1したものと同じであることを示している。換言すると、C(k+1)i=Cki+1は、検索キーワードの第k+1番目の検索文字と第k番目の検索文字とが、インデックス行列における隣接した2行にそれぞれ適合する関係にあることを示している。
C(m+1)i=Cmi+1も同様であり、検索キーワードの第m+1番目の検索文字と第m番目の検索文字とが、インデックス行列における隣接した2行にそれぞれ適合する関係にあることを示している。
検索キーワードとインデックス行列とが、このような相対関係にある場合、検索キーワードとインデックス行列との相関度は、ブロック103に示す式(2)にて算出される。
SimDegree=W1+W2+…+W(k−1)+Q*(Wk+W(k+1))+…
+W(m−1)+Q*(Wm+W(m+1))+…+Wr …(2)
該式において、W1は、第1番目の検索文字C1が適合した文字相関値であり、W2は第2番目の検索文字C2が適合した文字相関値、W(k−1)は、第(k−1)番目の検索文字C(k−1)が適合した文字相関値である。同様にして、W(k)は、第k番目の検索文字Ckが適合した文字相関値であり、W(k+1)は、第(k+1)番目の検索文字C(k+1)が適合した文字相関値である。また、W(m−1)は、第(m−1)番目の検索文字C(m−1)が適合した文字相関値である。同様にして、W(m)は、第m番目の検索文字Cmが適合した文字相関値であり、W(m+1)は、第(m+1)番目の検索文字C(m+1)が適合した文字相関値である。そして、最後のWrは、第r番目の最後の検索文字C1が適合した文字相関値である。
このように、相関度の算出においては、検索キーワードを構成する全検索文字の文字相関値Wが積算(累計)される。
そして、式(2)におけるQ*(Wk+W(k+1))は、検索キーワードにおける第k番目の検索文字Ckと第(k+1)番目の検索文字C(k+1)とが、インデックス行列における隣接した2行にそれぞれ適合しているので、文字相関値Wkと文字相関値W(k+1)とに行の相関度加重因子Qが掛け合わされていることを示している。Q*(Wm+W(m+1))についても同様である。
なお、検索キーワードの第k−1番目の検索文字と第k番目の検索文字は、隣接した2行に適合する関係にはないため、W(k−1)とWkとの両方に対して相関度加重因子Qを掛け合わせてはいない。W(m−1)とWmについても同様である。
ところで、図15のブロック102に示した検索キーワードとインデックス行列との相対関係では、全ての検索文字C1、C2、…Crがインデックス行列内の何れかの候補文字と適合する関係にあるとしたので、式(2)においては、W1〜Wrまでの全ての検索文字の文字相関値が累積されている。
しかしながら、これは一例であり、たとえば、式(1)の相対関係を有するものの、検索文字C1と検索文字Crとがインデックス行列内の何れの候補文字にも適合しなかった場合の相関度を算出する式は、次式のようになり、累積項が少ない分、当然その相関度は低くなる。
SimDegree=W2+…+W(k−1)+Q*(Wk+W(k+1))+…
+W(m−1)+Q*(Wm+W(m+1))+…+W(r−1)
また、全ての検索文字C1、C2、…Crがインデックス行列内の何れかの候補文字と適合する関係にあり、かつ、検索キーワードの第k+1番目の検索文字と第k番目の検索文字、及び、第k+2番目の検索文字と第k+1番目の検索文字とが、それぞれ隣接した2行に適合する関係にある場合、相関度を算出する式は次式のようになるであろう。
SimDegree=W1+W2+…+W(k−1)
+Q*(Wk+W(k+1)+W(k+2))…+WR
この場合も、検索キーワードの第k−1番目の検索文字と第k番目の検索文字は、隣接した2行に適合する関係にはないため、W(k−1)とWkとの両方に対して相関度加重因子Qを掛け合わせてはいない。
次に、図16を用いて、相関度計算の具体例を説明する。ここでは、図10に示した、文字列『去神仙居住的地方』のインデックス行列(テーブル200参照)と、検索キーワード『神仙』との相関度を求める。
図16のブロック104に検索条件を示す。相関値行列WeightはM×N次,文字相関値はWeight[i]=[1,1−1/N,1−2/N,…,1/N](i=0,1,…,M−1),行の相関度加重因子Qである。
検索キーワード『神仙』は、それぞれ、第1番目の検索文字である『神』と第2番目の検索文字である『仙』とに分割され、それぞれに対してインデックス行列内の候補文字に対して検索される。
図10のテーブル200を参照すると分かるように、検索文字である『神』は、インデックス行列における位置[i,j]の[2,1]に適合し、検索文字である『仙』は、インデックス行列における[3,1]に適合する。
したがって、ブロック105に示すように、検索文字『神』の文字相関値は1、検索文字『仙』の文字相関値は1となる。
そして、検索文字『神』の行番号は[2]であり、検索文字『仙』の行番号は[3]であり、図10のテーブル200に示すように、これら2つの検索文字は、インデックス行列における隣接した2行にそれぞれ適合している。
したがって、ブロック106に示すように、検索文字『神』の文字相関値1と検索文字『仙』の文字相関値1には、行の相関度加重因子Qが掛け合わされ、検索キーワードの『神仙』と文字列『去神仙居住的地方』のインデックス行列との相関度は、SimDegree=Q*(1+1)=2Qとなる。
検索キーワードとインデックス行列との相関度は、相関値行列における加重(文字相関値)と行の相関度加重因子Qなどのパラメータを、ユーザの要望にしたがって柔軟に調整することで、より理想的な検索結果を得ることができる。
ユーザは、キーボード1などを用いて、相関値行列における加重(文字相関値)と行の相関度加重因子Qなどのパラメータを必要に応じて適宜設定することができる。
そして、このような画像特徴によるインデックスと適合方式は、多言語の画像文書のインデックスと検索を満足できる、文字認識を行わず、計算量が少ない。本発明は中国語に限らず各種言語の画像文書に応用できる。
続いて、語彙解析機能(語義分析機能)付き検索処理について説明する。図13にも示したように、本実施の形態の画像文書処理装置10では、キーワード入力部24と検索部22との間に、語彙解析部23が設けられている。図17に語彙解析機能付きの検索処理を示す。
語彙解析部23は、語義分析処理部23aと語義辞典23bとから構成される。語義分析処理部23aは、キーワード入力部24から検索キーワードが入力されると、語義辞典23bを参照して、検索キーワードの語彙を分析する。
たとえば、検索キーワードとして「中日関係」が入力されると、語義分析処理部23aは、「中日関係」に関連する単語として、たとえば「中国」,「日本」,「関係」の3つを検索部22の入力する。これら「中国」,「日本」,「関係」はorの関係にあり、検索式は、「中国」or「日本」or「関係」となる。
検索部22には、該検索式「中国」or「日本」or「関係」が入力され、検索部22は、インデックス情報DB17に対して検索を掛け、「中国」を含む画像文書、「日本」を含む画像文書、及び「関係」を含む画像文書を抽出する。
これにより、入力された検索キーワードが直接的に含まれている画像文書だけでなく、関連の画像文書も検索できる。
次に、画像文書管理処理を実施する画像文書管理部57について説明する。画像文書管理部57は、文字画像特徴抽出部14、字形特徴辞書15、特徴適合部16、見出し領域初期処理部18、画像文書DB19、画像文書特徴DB20、文書名作成部51、画像文書DB管理部52、画像文書表示部53、指示入力部54により構成されており、これらについて説明する。
文字画像特徴抽出部14、字形特徴辞書15、特徴適合部16、見出し領域初期処理部18、画像文書DB19、画像文書特徴DB20の機能については既に説明している。ここでは、意味のある文書名を作成して画像文書特徴DB20の画像文書を管理する画像文書管理処理を実施するためにさらに必要な機能のみ、適宜説明する。
図18を用いて画像文書管理処理を説明する。イメージスキャナ2やデジタル撮影装置6にて構成される画像文書入力部21より、第1画像文書〜第N画像文書が入力される。
入力された第1画像文書〜第N画像文書に対し、見出し領域初期処理部18が、それぞれの画像文書の内容を分析して、見出し領域を切出して文字列を取得する。続いて、図示してはいないが、文字画像特徴抽出部14が、前記と同様に、切出された見出し領域に含まれる文字列の文字画像を1文字ごとに分割して各文字画像の画像特徴を抽出する。
そして、このように抽出された文字列画像の画像特徴を基に、字形特徴辞書15および特徴適合部16からなる候補文字列生成部55が、画像特徴の適合度が高い文字画像を候補文字として選択して、切出された見出し領域に含まれる文字列に応じた候補文字列を作成するとともに、上記のように語彙解析法を用いて該候補文字列を構成する各候補文字を調整して意味のある候補文字列とする。
候補文字列生成部55にてこのように生成された意味のある候補文字列は、文書名作成部51に送られる。
文書名作成部51は、入力された画像文書に対して、候補文字列生成部55にて生成された意味のある候補文字列を含めた文書名を作成する。この意味のある候補文字列が含まれた文書名を、以下においては「意味のある文書名」と称する。
文書名作成部51には、時間データ等発生部60から、画像文書が入力された時間および入力経路を示すデータ等のその他のデータも入力されるようになっている。文書名作成部51は、時間データ等発生部60から入力される時間データを少なくとも含むその他のデータを用いて、書類名を生成することもできる。
たとえば、時間データ等のその他のデータのうち、時間データを意味のある文書名に含め、意味のある文書名を、時間データと意味のある候補文字列よりなる構成としてもよい。
あるいは、時間データ等のその他のデータを用いて、同じ画像文書に、別の文書名を作成してもよい。時間データ等のその他のデータ等にて構成された文書名を、以下、オリジナル文書名と称する。
このような構成とすることで、1つの画像文書を、意味のある文書名と、時間データ等のその他のデータ等にて構成されたオリジナル文書名とで管理することが可能となる。
個々の画像文書に対して生成された意味のある文書名、およびオリジナル文書名は、画像文書DB管理部52に送られ、画像文書DB19に、画像文書のイメージデータに対応させて格納される。
画像文書DB管理部52は、キーボード1等により構成される図1に示す指示入力部54を用いて、画像文書DB19に蓄積されている画像文書の閲覧指示等がユーザよりなされると、表示装置3等より構成される図1の画像文書表示部53に、閲覧画面を表示する。
図19に、画像文書表示部53に表示される、画像文書DB19に格納されている画像文書の閲覧画面の一例を示す。
図において、左側に示されている画面201は、蓄積されている画像文書がオリジナル文書名にて一覧表示されている状態を示す。画面201の上には、各画像文書の入力順を示している。紙面一番手前にある「AR C262M 20060803 103140」とのオリジナル文書名が付されている画像文書が、この画面にて、最も先に入力された画像文書となる。「20060803」は入力日(2006年8月3日)を表し、「103140」は時間(10時31分40秒)を表している。
このような表示状態において、画面に表示されている「意味のある文書名」のタグを選択するなどの操作にて、閲覧画面の表示は、図において、右側に示されている画面202へと遷移する。画面202は、蓄積されている画像文書が意味のある文書名にて一覧表示されている状態を示す。
この画面202は、画面201に対応しており、ここでも、画面201の上部に示す、紙面一番手前にある「定格惠州西湖」との意味のある文書名が付されている画像文書が、この画面にて、最も先に入力された画像文書である。
このように、意味のある文書名にて閲覧できることにより、ユーザによる蓄積された画像文書の管理やサーチが容易に実施できるようになる。また、オリジナル文書名も併せて作成されることで、時間データ等の情報も、書類名と同時にみることができる。
なお、本画像文書処理装置においては、作成したインデックス行列を用いてインデックス情報を作成し、検索処理に用いる。そのため、見出し領域初期処理部18は、画像文書に含まれる複数の見出し領域Tを抽出し、それぞれにインデックス行列を作成するようになっている。しかしながら、画像文書に意味のある文書名を作成することのみを目的とするのであれば、画像文書に含まれる複数の見出しを抽出してそれぞれにインデックス行列を作成する必要はない。
つまり、画像文書を最もよく表す見出し領域に含まれる見出しの文字列(文字画像列)に対してインデックス行列を作成し、これに基づき、特徴がマッチする文字列を使用して、意味の持つ名称を作成するように構成すればよい。
画像文書を最もよく表す見出し領域としては、たとえば、抽出された複数の見出し領域のうち、画像文書の一番上の行に存在するものとすることができる。これは、重要な見出しは、画像文書の一番上の行に配されることが多いためである。
また、見出し領域に含まれる文字のサイズが、ある閾値より大きく、抽出された他の見出し領域のものよりも大きいものとすることもできる。これは、重要な見出しは、他の見出しよりも大きな文字のサイズにて記載されることが多いためである。
あるいは、見出し領域に含まれる文字のフォント(字形)タイプが、抽出された他の見出し領域のものと異なるものとすることもできる。これは、重要な見出しは、他の見出しとは異なるフォント(字形)にて記載されることが多いためである。なお、これら以外の基準を付加することもでき、また、各基準は、個々に用いてもよいし、組合わせて用いてもよい。
また、本画像文書処理装置のように、1つの画像文書について、複数の見出し領域を抽出し、それぞれにインデックス行列を作成する構成では、見出し領域の配置位置や、文字サイズ、あるいはフォントにて、最も重要な見出し領域のインデックス行列を特性するようにすればよい。また、特に、このような場合であれば、抽出された複数の見出し領域のインデックス行列より、最も頻出する単語が候補文字列に含まれるように作成することも好ましい。
本発明の他の実施形態として、バイグラムモデルの代わりにマルチグラムモデルを用いてインデックス行列の調整を行うことも可能である。
上記の実施形態とは、候補文字列の調整方法において、マルチグラムモデルを用いることのみが異なるだけで、その他の構成については同様であるので、詳細な説明は省略する。
図20は、マルチグラムモデルを用いたインデックス行列の調整方法を示すフローチャートである。
ステップS31では、インデックス行列の最後の行に到達したかどうかを判断する。到達していなければステップS32に進み、到達していればステップS40に進む。
ステップS32では、着目されている行、すなわち一回目の処理の場合は1行目の第1候補を取り出す。ステップS33では、マルチグラムモデルを適用して、着目されている行の第1候補と、これに隣接する行の各候補との組み合わせについて辞書内での出現頻度を統計的にカウントする。
ステップS34では、カウント値と予め定める閾値とを比較し、カウント値が閾値を越えたかどうかを判断する。閾値を越えていればステップS35に進み、閾値を越えていなければステップS36に進む。
ステップS35では、隣接する行の第1候補を決定してステップS36に進む。ステップS36では、再度マルチグラムモデルを適用して、着目されている行とこれに続く複数の行の各候補との組み合わせについて辞書内での出現頻度を統計的にカウントする。
ステップS37では、カウント値と予め定める閾値とを比較し、カウント値が閾値を越えたかどうかを判断する。閾値を越えていればステップS38に進んで着目されている行に続く複数の行の第1候補を決定する。閾値を越えていなければ最大頻度を示す文字を選択して暫定的に第1候補を決定する。
ステップS40では、決定された語、または語句の間の関連性に基づいて暫定の第1候補を決定する。ステップS41では、第1候補文字列の中にある文字集合は辞書データの語義ルールに合致するかどうかを判断する。合致すればステップS42に進んで処理を終了し、調整されたインデックス行列を得る。合致しなければステップS43に進んで合致しない行の第1候補を調整して処理を終了する。
このように、マルチグラムモデルを適用することで、バイグラムに比べてより正確な候補文字列を作成することができる。
最後に、画像文書処理装置の各ブロック、特に、字体正規化処理部12、文字画像特徴抽出部14、特徴適合部16、見出し領域初期処理部18、検索部22、語彙解析部23、文書名作成部51、画像文書DB管理部52等は、ハードウエアロジックによって構成してもよいし、次のようにCPUを用いてソフトウエアによって実現してもよい。
すなわち、画像文書処理装置10は、各機能を実現する制御プログラムの命令を実行するCPU(Central Processing Unit)、上記プログラムを格納したROM(Read Only Memory)、上記プログラムを展開するRAM(Random Access Memory)、上記プログラムおよび各種データを格納するメモリなどの記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウエアである画像文書処理装置10の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記画像文書処理装置10に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、たとえば、磁気テープやカセットテープなどのテープ系、フロッピー(登録商標)ディスク/ハードディスクなどの磁気ディスクやCD−ROM/MO/MD/DVD/CD−Rなどの光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カードなどのカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROMなどの半導体メモリ系などを用いることができる。
また、画像文書処理装置10を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、たとえば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網などが利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、たとえば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線などの有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網などの無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明は、その精神または主要な特徴から逸脱することなく、他のいろいろな形態で実施できる。したがって、前述の実施形態はあらゆる点で単なる例示に過ぎず、本発明の範囲は特許請求の範囲に示すものであって、明細書本文には何ら拘束されない。さらに、特許請求の範囲に属する変形や変更は全て本発明の範囲内のものである。
画像文書処理装置10の構成を大略的に示すブロック図である。 画像文書処理装置10の構成を詳細に示すブロック図である。 字体正規化処理部12が字形見本DB13を作成する処理を示す図である。 文字画像外囲特徴の説明図である。 網格方向特徴の説明図である。 文字画像特徴抽出部14による字形特徴辞書15を作成する処理を示す図である。 画像文書50に対して、T1、T2、T3の3領域を見出し領域として定位した様子を示す図である。 インデックス情報DB17を作成する処理を示す図である。 特徴適合部16によるインデックス行列を作成する処理の一例を示す図である。 作成したインデックス行列を調整して第1列目の文字列が意味のある文字列となるように、語彙解析法を用いて調整した具体例を示す説明図である。 バイグラムモデルに用いる辞書データ300の構成例を示す図である。 バイグラムモデルを用いたインデックス行列の調整方法を示すフローチャートである。 検索部22の機能と検索処理とを示す説明図である。 検索部22における検索手順を示すフローチャートである。 検索キーワードとインデックス行列との相関度を算出する方法を示す説明図である。 検索キーワードとインデックス行列との相関度の算出を、具体例を用いて示す説明図である。 語彙解析機能付きの検索処理を示す説明図である。 画像文書管理部における処理を示す説明図である。 画像文書表示部53に表示される、画像文書DB19に格納されている画像文書の閲覧画面の一例を示す。 マルチグラムモデルを用いたインデックス行列の調整方法を示すフローチャートである。
符号の説明
1 キーボード
2 イメージスキャナ
3 表示装置
4 プロセッサ
5 外部記憶装置
6 デジタルカメラ
10 画像文書処理装置
11 文字DB入力部
12 字体正規化処理部
12a 字形見本
12b 変形処理部
12c 字体基準部
13 字形見本DB
14 文字画像特徴抽出部
14a 字形基準化部
14b 文字画像特徴取出部
14c 特徴分類部
15 字形特徴辞書
16 特徴適合部
17 インデックス情報DB
18 領域初期処理部
19 画像文書DB
20 画像文書特徴DB
21 画像文書入力部
22 検索部
22a インデックス行列検索処理部
22b 文字相関値保存部
22c 相関度算出部
22d 表示順序決定部
22e 画像文書抽出部
23 語彙解析部
23a 語義分析処理部
23b 語義辞典
24 キーワード入力部
25 検索結果表示部
30 字形特徴辞書生成部
31 画像文書特徴抽出部
32 インデックス情報生成部
50 画像文書
51 文書名作成部
52 画像文書DB管理部
53 画像文書表示部
54 指示入力部
55 候補文字列生成部
57 画像文書管理部
60 時間データ等発生部
61 言語モデル
100,200 インデックス行列

Claims (17)

  1. 文字画像の画像特徴を1文字単位で格納している字形特徴辞書と、
    入力された画像文書中にある文字画像を複数の文字よりなる文字列単位で切り出す文字列抽出部と、
    前記文字列抽出部にて切り出された文字列の文字画像を1文字ごとに分割して各文字画像の画像特徴を抽出する画像特徴抽出部と、
    前記画像特徴抽出部にて抽出された文字画像の画像特徴を基に、前記字形特徴辞書より、画像特徴の適合度が高い順にN個(N>1の整数)の文字画像を候補文字として選択し、前記文字列の文字数をM個(M>1の整数)とした場合に、M×N次の第1インデックス行列を作成し、この第1インデックス行列の第1列を構成する複数の候補文字からなる候補文字列に対して、予め定める言語モデルによる語彙解析を適用して意味を成す文字列に調整した第2インデックス行列を作成する特徴適合部と、
    前記特徴適合部にて作成された第2インデックス行列を、前記入力された画像文書に対応づけて格納するインデックス情報格納部と、
    検索時に、入力された検索式中の検索キーワードを構成する1検索文字単位に前記インデックス情報格納部を検索し、検索文字を含む第2インデックス行列を有する画像文書を取り出す検索部とを有することを特徴とする画像文書処理装置。
  2. 前記特徴適合部は、言語モデルとしてバイグラムまたはマルチグラムモデルを用いて候補文字列の語彙解析を行うことを特徴とする請求項1記載の画像文書処理装置。
  3. 前記特徴適合部は、語彙解析に基づいて、前記第1インデックス行列の第1列の候補文字と、同じ行の他の候補文字とを入れ替えることにより意味を成す候補文字列を調整することを特徴とする請求項1記載の画像文書処理装置。
  4. 前記文字列抽出部は、前記入力された画像文書における見出し領域を切り出すことを特徴とする請求項1に記載の画像文書処理装置。
  5. 前記文字列抽出部は、連通域統計分析法とにより、画像文書における重要領域を切り出すことを特徴とする請求項1に記載の画像文書処理装置。
  6. 前記画像特徴抽出部は、網格方向特徴と文字画像外囲特徴との組み合わせにより、文字画像の画像特徴を抽出することを特徴とする請求項1に記載の画像文書処理装置。
  7. 前記特徴適合部は、抽出された文字画像の画像特徴を、前記字形特徴辞書に格納されている全ての文字画像と適合させて候補文字を選択することを特徴とする請求項1に記載の画像文書処理装置。
  8. 前記特徴適合部が選択する候補文字数Nが変更可能であることを特徴とする請求項1に記載の画像文書処理装置。
  9. 前記検索部は、検索キーワードを構成する各検索文字のインデックス行列内の適合位置が高いインデックス行列を有する画像文書から順に取り出すことを特徴とする請求項1に記載の画像文書処理装置。
  10. 前記インデックス行列の各要素には、位置に応じた相関値が設定されており、
    前記検索部は、
    検索キーワードを構成する1検索文字単位にインデックス行列を検索して検索文字を含む第2インデックス行列を検出し、当該第2インデックス行列内における検索文字の適合位置の情報を、第2インデックス行列を有する画像文書の情報と共に保存部に格納するインデックス行列検索処理部と、
    前記保存部に格納された適合位置の情報より、各検索文字の相関値を累積して、検索キーワードと第2インデックス行列との相関度を算出する相関度算出部と、
    前記相関度算出部の算出結果に基づいて画像文書の取り出す順序を決定する順序決定部とを含むことを特徴とする請求項1に記載の画像文書処理装置。
  11. 前記相関度算出部は、前記適合位置の情報より、インデックス行列における隣接する行に適合していると判断すると、隣接する各行の相関値を行の相関度加重因子にて加重した上で累積することを特徴とする請求項10に記載の画像文書処理装置。
  12. 前記第2インデックス行列の各要素に設定されている相関値が、変更が可能であることを特徴とする請求項10に記載の画像文書処理装置。
  13. 前記行の相関度加重因子が、変更が可能であることを特徴とする請求項11に記載の画像文書処理装置。
  14. 前記画像特徴抽出部を用いて、前記字形特徴辞書を作成する字形特徴辞書作成部を備えることを特徴とする請求項1に記載の画像文書処理装置。
  15. 入力された画像文書中にある文字画像を複数の文字よりなる文字列単位で抽出する文字列抽出ステップと、
    前記文字列抽出ステップにて抽出された文字列の文字画像を1文字ごとに分割して各文字画像の画像特徴を抽出する画像特徴抽出ステップと、
    前記画像特徴抽出ステップにて抽出された文字画像の画像特徴を基に、文字画像の画像特徴を1文字単位で格納している字形特徴辞書より、画像特徴の適合度が高い順にN個(N>1の整数)の文字画像を候補文字として選択し、前記文字列の文字数をM個(M>1の整数)とした場合に、M×N次のインデックス行列を作成し、この第1インデックス行列の第1列を構成する複数の候補文字からなる候補文字列に対して、予め定める言語モデルによる語彙解析を適用して意味を成す文字列に調整した第2インデックス行列を作成する特徴適合ステップと、
    前記特徴適合ステップにて作成された第2インデックス行列を、前記入力された画像文書に対応づけて格納するインデックス情報格納ステップと、
    検索時に、前記インデックス情報格納ステップにて格納されたインデックス情報を、入力された検索式中の検索キーワードを構成する1検索文字単位に検索し、検索文字を含む第2インデックス行列を有する画像文書を取り出す検索ステップとを有することを特徴とする画像文書処理方法。
  16. コンピュータに請求項15記載の画像処理方法を実行させるための画像処理プログラム。
  17. コンピュータに請求項15記載の画像処理方法を実行させるための画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007246158A 2007-07-23 2007-09-21 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体 Active JP4533920B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101296065A CN101354703B (zh) 2007-07-23 2007-07-23 文档图像处理装置和文档图像处理方法

Publications (2)

Publication Number Publication Date
JP2009026288A true JP2009026288A (ja) 2009-02-05
JP4533920B2 JP4533920B2 (ja) 2010-09-01

Family

ID=40295414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007246158A Active JP4533920B2 (ja) 2007-07-23 2007-09-21 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体

Country Status (3)

Country Link
US (1) US8208765B2 (ja)
JP (1) JP4533920B2 (ja)
CN (1) CN101354703B (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090208446A1 (en) * 2006-05-12 2009-08-20 The Queen's University Of Belfast DUB3 as a Cancer Therapy Target
US10936650B2 (en) 2008-03-05 2021-03-02 Ebay Inc. Method and apparatus for image recognition services
US9495386B2 (en) 2008-03-05 2016-11-15 Ebay Inc. Identification of items depicted in images
US8818978B2 (en) 2008-08-15 2014-08-26 Ebay Inc. Sharing item images using a similarity score
US8825660B2 (en) * 2009-03-17 2014-09-02 Ebay Inc. Image-based indexing in a network-based marketplace
US9164577B2 (en) 2009-12-22 2015-10-20 Ebay Inc. Augmented reality system, method, and apparatus for displaying an item image in a contextual environment
CN102402693B (zh) * 2010-09-09 2014-07-30 富士通株式会社 处理包含字符的图像的方法和设备
US8340429B2 (en) * 2010-09-18 2012-12-25 Hewlett-Packard Development Company, Lp Searching document images
US10127606B2 (en) 2010-10-13 2018-11-13 Ebay Inc. Augmented reality system and method for visualizing an item
CN102750514A (zh) * 2011-04-20 2012-10-24 富士通株式会社 确定输入图像中的表单的类别的方法和装置
US9449342B2 (en) 2011-10-27 2016-09-20 Ebay Inc. System and method for visualization of items in an environment using augmented reality
US9934522B2 (en) 2012-03-22 2018-04-03 Ebay Inc. Systems and methods for batch- listing items stored offline on a mobile device
US10846766B2 (en) 2012-06-29 2020-11-24 Ebay Inc. Contextual menus based on image recognition
JP2014067154A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 文書分類支援装置、方法及びプログラム
JP2014127186A (ja) * 2012-12-27 2014-07-07 Ricoh Co Ltd 画像処理装置、画像処理方法およびプログラム
JP2014174923A (ja) * 2013-03-12 2014-09-22 Ricoh Co Ltd 文書処理装置、文書処理方法、および文書処理プログラム
JP5915628B2 (ja) * 2013-11-26 2016-05-11 コニカミノルタ株式会社 画像形成装置、テキストデータの埋め込み方法及び埋め込みプログラム
US10546015B2 (en) * 2015-12-01 2020-01-28 Facebook, Inc. Determining and utilizing contextual meaning of digital standardized image characters
JP6805720B2 (ja) 2016-10-21 2020-12-23 富士通株式会社 データ検索プログラム、データ検索装置およびデータ検索方法
JP6866636B2 (ja) * 2016-12-26 2021-04-28 カシオ計算機株式会社 文字編集方法、電子機器、及び、プログラム
JP7059516B2 (ja) * 2017-03-29 2022-04-26 富士通株式会社 符号化プログラム、符号化装置および符号化方法
RU2652461C1 (ru) * 2017-05-30 2018-04-26 Общество с ограниченной ответственностью "Аби Девелопмент" Дифференциальная классификация с использованием нескольких нейронных сетей
RU2701678C2 (ru) * 2017-10-02 2019-09-30 Федеральное государственное бюджетное образовательное учреждение высшего образования "Юго-Западный государственный университет "(ЮЗГУ) Способ и устройство для обезвреживания и утилизации массива коммунальных отходов
JP6346367B1 (ja) * 2017-11-07 2018-06-20 株式会社Fronteoヘルスケア 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
CN109582813B (zh) * 2018-12-04 2021-10-01 广州欧科信息技术股份有限公司 一种文物展品的检索方法、装置、设备和存储介质
JP7343311B2 (ja) * 2019-06-11 2023-09-12 ファナック株式会社 文書検索装置及び文書検索方法
CN111160843B (zh) * 2019-12-04 2023-12-19 中国航空工业集团公司西安飞行自动控制研究所 产品数据管理系统中图与文档自检方法
JP7467107B2 (ja) * 2019-12-25 2024-04-15 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム
CN111444907B (zh) * 2020-03-24 2023-05-16 上海东普信息科技有限公司 文字识别的方法、装置、设备及存储介质
CN116847004B (zh) * 2023-08-30 2023-11-17 江铃汽车股份有限公司 一种汽车can信号的解析方法、系统及计算机设备

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04115384A (ja) * 1990-09-06 1992-04-16 Nec Software Ltd 単語チェック機能を持つ日本語ocr
JPH05216995A (ja) * 1991-07-30 1993-08-27 Xerox Corp 距離を方向の関数として用いる画像処理
JPH06103415A (ja) * 1992-09-22 1994-04-15 Toshiba Corp 文章作成装置
JPH08153110A (ja) * 1994-11-30 1996-06-11 Canon Inc 文書ファイリング装置及び方法
JPH08272811A (ja) * 1995-03-30 1996-10-18 Canon Inc 文書管理方法及びその装置
JPH09319747A (ja) * 1996-05-29 1997-12-12 Ricoh Co Ltd 文書画像の構造化方法
JPH1074250A (ja) * 1996-06-26 1998-03-17 Fuji Xerox Co Ltd 文書処理装置、文書処理方法、および記憶媒体
JPH11316797A (ja) * 1998-03-06 1999-11-16 Matsushita Electric Ind Co Ltd 文書画像の領域識別方法および装置
JP2000090201A (ja) * 1998-09-11 2000-03-31 Masaki Nakagawa バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置
JP2000181994A (ja) * 1998-12-16 2000-06-30 Nippon Telegr & Teleph Corp <Ntt> 文字認識処理方法及びその装置及びその方法を記録した記録媒体
JP2001344562A (ja) * 2000-05-31 2001-12-14 Toshiba Corp 文書読取装置および文書読取方法
JP2002024765A (ja) * 2000-07-04 2002-01-25 Fuji Xerox Co Ltd 文字認識装置及び文字認識方法
JP2003108926A (ja) * 2001-09-26 2003-04-11 Sanyo Electric Co Ltd 文字認識装置、文字認識方法、その実行プログラムおよびそれを記憶した記録媒体
JP2005275849A (ja) * 2004-03-25 2005-10-06 Canon Inc 文書処理装置および文書処理方法
JP2006085582A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 文書処理装置およびプログラム
JP2007026386A (ja) * 2005-07-21 2007-02-01 Fuji Xerox Co Ltd 画像検索システム及び方法
JP2007148925A (ja) * 2005-11-29 2007-06-14 Canon Inc 情報処理装置及び情報処理方法
JP2007172077A (ja) * 2005-12-19 2007-07-05 Fuji Xerox Co Ltd 画像検索システム及び方法及びプログラム
JP4408129B2 (ja) * 2007-01-15 2010-02-03 シャープ株式会社 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0797373B2 (ja) * 1985-08-23 1995-10-18 株式会社日立製作所 文書フアイリングシステム
EP0606780B1 (en) * 1993-01-11 2001-07-11 Canon Kabushiki Kaisha Image processing method and apparatus
JPH07152774A (ja) 1993-11-30 1995-06-16 Hitachi Ltd 文書検索方法および装置
US5821929A (en) * 1994-11-30 1998-10-13 Canon Kabushiki Kaisha Image processing method and apparatus
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
US5835633A (en) * 1995-11-20 1998-11-10 International Business Machines Corporation Concurrent two-stage multi-network optical character recognition system
JP4280355B2 (ja) * 1999-05-06 2009-06-17 富士通株式会社 文字認識装置
AUPQ439299A0 (en) 1999-12-01 1999-12-23 Silverbrook Research Pty Ltd Interface system
US6463428B1 (en) 2000-03-29 2002-10-08 Koninklijke Philips Electronics N.V. User interface providing automatic generation and ergonomic presentation of keyword search criteria
JP2002245062A (ja) 2001-02-14 2002-08-30 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体
US7801392B2 (en) * 2005-07-21 2010-09-21 Fuji Xerox Co., Ltd. Image search system, image search method, and storage medium
CN100511230C (zh) 2006-05-29 2009-07-08 北京万网志成科技有限公司 基于网页页面文本的图像检索及显示方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04115384A (ja) * 1990-09-06 1992-04-16 Nec Software Ltd 単語チェック機能を持つ日本語ocr
JPH05216995A (ja) * 1991-07-30 1993-08-27 Xerox Corp 距離を方向の関数として用いる画像処理
JPH06103415A (ja) * 1992-09-22 1994-04-15 Toshiba Corp 文章作成装置
JPH08153110A (ja) * 1994-11-30 1996-06-11 Canon Inc 文書ファイリング装置及び方法
JPH08272811A (ja) * 1995-03-30 1996-10-18 Canon Inc 文書管理方法及びその装置
JPH09319747A (ja) * 1996-05-29 1997-12-12 Ricoh Co Ltd 文書画像の構造化方法
JPH1074250A (ja) * 1996-06-26 1998-03-17 Fuji Xerox Co Ltd 文書処理装置、文書処理方法、および記憶媒体
JPH11316797A (ja) * 1998-03-06 1999-11-16 Matsushita Electric Ind Co Ltd 文書画像の領域識別方法および装置
JP2000090201A (ja) * 1998-09-11 2000-03-31 Masaki Nakagawa バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置
JP2000181994A (ja) * 1998-12-16 2000-06-30 Nippon Telegr & Teleph Corp <Ntt> 文字認識処理方法及びその装置及びその方法を記録した記録媒体
JP2001344562A (ja) * 2000-05-31 2001-12-14 Toshiba Corp 文書読取装置および文書読取方法
JP2002024765A (ja) * 2000-07-04 2002-01-25 Fuji Xerox Co Ltd 文字認識装置及び文字認識方法
JP2003108926A (ja) * 2001-09-26 2003-04-11 Sanyo Electric Co Ltd 文字認識装置、文字認識方法、その実行プログラムおよびそれを記憶した記録媒体
JP2005275849A (ja) * 2004-03-25 2005-10-06 Canon Inc 文書処理装置および文書処理方法
JP2006085582A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 文書処理装置およびプログラム
JP2007026386A (ja) * 2005-07-21 2007-02-01 Fuji Xerox Co Ltd 画像検索システム及び方法
JP2007148925A (ja) * 2005-11-29 2007-06-14 Canon Inc 情報処理装置及び情報処理方法
JP2007172077A (ja) * 2005-12-19 2007-07-05 Fuji Xerox Co Ltd 画像検索システム及び方法及びプログラム
JP4408129B2 (ja) * 2007-01-15 2010-02-03 シャープ株式会社 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体

Also Published As

Publication number Publication date
CN101354703B (zh) 2010-11-17
CN101354703A (zh) 2009-01-28
US8208765B2 (en) 2012-06-26
US20090028446A1 (en) 2009-01-29
JP4533920B2 (ja) 2010-09-01

Similar Documents

Publication Publication Date Title
JP4533920B2 (ja) 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP4740916B2 (ja) 画像文書処理装置、画像文書処理プログラムおよび画像文書処理プログラムを記録した記録媒体
JP4364914B2 (ja) 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体
JP4408129B2 (ja) 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体
JP2009026287A (ja) 文字画像抽出装置および文字画像抽出方法
JP4570648B2 (ja) 画像文書処理装置、画像文書処理方法、画像文書処理プログラムおよび記録媒体
JP4772817B2 (ja) 画像文書処理装置および画像文書処理方法
EP0544432B1 (en) Method and apparatus for document processing
US8731300B2 (en) Handwritten word spotter system using synthesized typed queries
EP0844583B1 (en) Method and apparatus for character recognition
KR101588890B1 (ko) 카메라 기반 영상의 문자 인식 및 번역 방법
US20070143272A1 (en) Method and apparatus for retrieving similar image
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
JPH05250408A (ja) 取り込んだ情報で文書画像を復号することなく選択した文書の重要な部分を補完するための方法
EP2806336A1 (en) Text prediction in a text input associated with an image
US5890182A (en) Sentence processing method and apparatus
JP2009110204A (ja) 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム
JP2006092226A (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
Song et al. Free-Flow: Unintrusive Reading Device for a Printed Text
JPH0696285A (ja) 文字認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100518

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100614

R150 Certificate of patent or registration of utility model

Ref document number: 4533920

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3