JP2006092226A - 文書属性取得方法および装置並びにプログラムを記録した記録媒体 - Google Patents

文書属性取得方法および装置並びにプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2006092226A
JP2006092226A JP2004276374A JP2004276374A JP2006092226A JP 2006092226 A JP2006092226 A JP 2006092226A JP 2004276374 A JP2004276374 A JP 2004276374A JP 2004276374 A JP2004276374 A JP 2004276374A JP 2006092226 A JP2006092226 A JP 2006092226A
Authority
JP
Japan
Prior art keywords
attribute
entity
document
type part
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004276374A
Other languages
English (en)
Other versions
JP4677750B2 (ja
Inventor
Atsushi Ito
篤 伊藤
Masahiro Kato
雅弘 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004276374A priority Critical patent/JP4677750B2/ja
Publication of JP2006092226A publication Critical patent/JP2006092226A/ja
Application granted granted Critical
Publication of JP4677750B2 publication Critical patent/JP4677750B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 高品質な文書構造化を可能とする文書属性取得方法および装置並びに文書属性取得のためのプログラムを記録した記録媒体を提供する。
【解決手段】 本文書属性取得方法は、属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書1〜4を用意する。文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域6を入力し、各テキスト領域6の内容と複数の属性辞書の属性種類部の内容および属性実体種類部の内容とをそれぞれ照合する。属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出し、この選出した属性辞書の属性種類部と属性実体種類部から当該テキスト領域の属性および属性実体を取得する。
【選択図】 図1

Description

本発明は、文書画像からその文書の属性を取得する文書属性取得方法および装置並びに文書属性取得のためのプログラムを記録した記録媒体に関するものである。
電子ファイリングシステムなどの文書保存システムは、文書画像をスキャナにより読み取り、これをデータベース化して保存するものであるが、この保存した文書を有効に利用するためには、データベースから所望の文書を迅速かつ正確に呼び出すことができることが必要である。このため当初、この種のシステムでは、操作者がキーボードから文書毎に適当な検索用のキーワードを入力し、文書の検索時にこのキーワードに基づいて検索を行っていた。しかしながら、文書格納時に操作者がキーワードを文書毎に入力することはわずらわしいだけでなく、キーワードの入力ミスも生じるおそれがあった。そこで、キーワードの作成を自動化する技術が提案された。
例えば、特開平1−106263号公報には、文書の格納検索装置についての技術が開示されている。この装置は、文書を読取り文書イメージに光電変換するイメージ読取装置と、文書イメージ中の文字を切り出して認識し文字コード列に変換する文字認識装置と、分類項目用の単語や熟語が予め登録されている単語辞書と、文字コード列と単語や熟語とを照合して文書に関するキーワードデータを抽出するとともに文書イメージに付してデータベースに格納するキーワード群抽出装置を備える。これにより、操作者がイメージ読取装置を使って文書を入力すると、上述のキーワード群抽出装置により文書イメージは自動的にキーワード群が付され、データベースに格納される。そして検索時には、文書の属する分野の一般的なキーワード群を入力するだけで目的の文書を取り出すことができるというものである。
また、特開平11−184894号公報には、デジタル文書画像または電子文書の論理構造を検出する論理要素抽出方法についての技術が開示されている。この技術は、論理構造を認識する際に、文字認識結果を用いずにそのレイアウト情報のみを用いて書誌事項を的確に抽出すると共に、自動的に文書タイプを識別して論理構造を認識するものである。具体的には、文書をデジタル画像として入力し、該文書画像を所定の要素に分割すると共に、前記文書のレイアウト特徴を検出し、複数の文書種類毎に予め作成された論理構造モデルの内の一つのモデルを用いて前記文書画像から第1の単位で所定の論理要素を抽出し、次いで第2の単位で所定の論理要素を抽出し、前記一つのモデルのレイアウト特徴と前記抽出された論理要素に対応する、前記文書のレイアウト特徴との類似度を算出し、該類似度に所定値を掛けた値が所定の閾値以上のとき前記抽出された論理要素を出力するものである。
特開平1−106263号公報 特開平11−184894号公報
上述のように従来は、予めキーワード辞書を準備しておき、これに登録されている言葉が原稿中で使われていれば、この言葉を当該原稿のキーワードとして登録し、あるいはまた、原稿のレイアウト解析と論理要素の抽出を行い、抽出された要素に対応するレイアウト特徴とモデル文書のそれとの類似度を調べることで、属性(書誌事項)を抽出している。しかしながら、前者は「キーワード」という一属性の内容を抽出しているのにすぎず、また後者は「タイトル」や「大見出し」、「小見出し」といった予め定められた属性の内容を抽出するに留まるものである。このような属性設定は柔軟性に欠けるものであり、それは「原稿において何を属性とすれば良いか」という基準が明確でないことに起因する。このため、従来においては、スキャン画像に対する文書構造化において、画像上特定領域の意味や関連付けを行うことが出来ず、文書の構造化や再利用ができないという問題があった。
従って本発明の目的は、上記問題点を解決し、高品質な文書構造化を可能とする文書属性取得方法および装置並びに文書属性取得のためのプログラムを記録した記録媒体を提供することにある。
上記目的は、属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を用意し、文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力し、前記各テキスト領域の内容と前記複数の属性辞書の属性種類部の内容とを照合し、前記各テキスト領域の内容と前記複数の属性辞書の属性実体種類部の内容とを照合し、前記属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出し、前記選出した属性辞書の属性種類部と属性実体種類部から前記テキスト領域の属性および属性実体を取得する文書属性取得方法により、達成される。
ここで、前記属性辞書の属性実体種類部は複数設けることができる。また、前記属性辞書は前記属性実体種類部と照合される属性実体の群名を格納した属性実体内容部をさらに有することができる。前記属性実体内容部は前記複数の属性辞書間で共有することができる。さらに、前記各テキスト領域の配置が直線上に並んでいるテキスト領域を選定し、前記選定したテキスト領域を参照して前記テキスト領域の属性および属性実体を取得することができる。また、前記各テキスト領域間における距離を算出し、前記算出された距離を参照して前記テキスト領域の属性および属性実体を取得することができる。また、前記属性種類部および前記属性実体種類部の少なくとも一方の内容が照合のための順位を有するようにすることができる。
本発明に係る書属性取得装置は、属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を記憶する属性辞書記憶部と、文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力し、前記各テキスト領域の内容と前記複数の属性辞書の内容とを照合する属性照合部と、前記照合結果に基づいて前記テキスト領域の属性および属性実体を取得し出力する属性情報出力部とを備える。ここで、前記入力画像は例えば光学式文字読取り装置により文字認識される。
本発明に係る記録媒体は、属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を提供する機能、文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性種類部の内容とを照合する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性実体種類部の内容とを照合する機能、前記属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出する機能、および、前記選出した属性辞書の属性種類部と属性実体種類部から前記テキスト領域の属性および属性実体を取得する機能を実現させるためのプログラムを記録したコンピュータ読み取り可能なものである。
また、本発明に係るプログラムは、属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を提供する機能、文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性種類部の内容とを照合する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性実体種類部の内容とを照合する機能、前記属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出する機能、および、前記選出した属性辞書の属性種類部と属性実体種類部から前記テキスト領域の属性および属性実体を取得する機能を実現させるためのものである。
本発明によれば、高品質な文書構造化を可能とする文書属性取得方法および装置並びにプログラムを記録した記録媒体を得ることができる。本発明では、スキャン画像に対する文書構造認識処理において、高精度の属性と属性実体の関係にある仲間(領域)を抽出することにより、高品質な文書構造化を可能とする。原稿が定型または非定型、表または罫線の有無に関係なくこの効果を得ることができる。これにより再利用時、例えば属性実体抽出やソーティングを高精度に行うことができる。
図1(a)、(b)は本発明に係る文書属性取得方法の一実施例を示す図である。本実施例では、図示のように、属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書1〜4を用意する。例えば、図示の属性辞書1は社員番号に関する辞書であり、属性種類部には属性の種類として社員番号、社員No.、No.などが格納され、また属性実体種類部には属性の実体として算用数字、漢数字、ローマ数字などが格納されている。属性実体種類部は複数設けることができるが、これについては後述する。他の属性辞書2〜4には別の属性、例えば書類の作成者、保管場所などが格納されている。
属性を取得すべき文書5には、例えば、その文書に係る社員番号、作成者、保管場所が記載されている。文書5がワープロ等で入力された電子文書情報の場合はそこに複数のテキスト領域が存在する。また、文書5が画像の場合は光学式文字読取り装置(OCR)により領域別に画像情報を読み取り、この読み取った入力画像から文字認識により複数のテキスト領域6を得る。
この文書5の属性の取得は次のようにして行う。まず、各テキスト領域6の内容と複数の属性辞書1〜4の属性種類部の内容とを照合する。また、各テキスト領域の内容と前記複数の属性辞書の属性実体種類部の内容とを照合する。そして属性種類部の照合結果と属性実体種類部の照合結果が合致する属性辞書を選出し、この選出した属性辞書の属性種類部と属性実体種類部から当該テキスト領域の属性および属性実体を取得する。このように、各テキスト領域6について属性種類部と属性実体種類部のそれぞれに対してマッチングを行い、ペア(関連性)を判定選出する。
図1(a)の例では、属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書として、属性辞書1(社員番号)が選出される。この場合、テキスト領域6の「社員番号」と「012345」が社員番号属性ペア7であり、当該テキスト領域の属性および属性実体として取得される。
図1(b)の例では、属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書として、属性辞書2(作成者)が選出される。この場合、テキスト領域6の「作成者」と「伊藤篤」が作成者属性ペア8であり、当該テキスト領域の属性および属性実体として取得される。
このように本実施例では、文書構造認識処理において、各テキスト領域に対して属性辞書を選出し、その選出結果を参照して属性と属性実体の関係にあるペア若しくは関連性、すなわち属性と属性実体の関係にある仲間(領域)を判定抽出し、文書構造としての関連付けを行うものである。
図2(a)、(b)は本発明に係る文書属性取得方法の他の実施例を示す図である。図2(a)の実施例が図1の実施例と異なる点は、属性辞書1〜4の属性種類部および属性実体種類部に各テキスト領域との照合のための順位1,2,3・・・を付けたものである。この順位は属性種類部および属性実体種類部の少なくとも一方に設けることができる。また、図2(b)の実施例が図1の実施例と異なる点は、図の矢印のような各テキスト領域6間における距離を算出し、この算出した距離を参照して当該テキスト領域の属性および属性実体を取得するものである。各テキスト領域間における距離だけでなく、各テキスト領域の配置位置を参照することもできるが、これについては後述する。これらの実施例はいずれも文書の属性の取得を迅速かつ正確に行う上で有効である。
図3は本発明に係る文書属性取得方法の他の実施例を示す図で、(a)は文書属性取得装置の例を示すブロック図、同図(b)は文書属性取得方法を説明するための図である。本装置は、図3(a)に示すように、画像入力部又は文書入力部31と、文字領域抽出部32と、文字認識部(OCR処理部)33と、属性辞書記憶部34と、属性照合部35と、属性情報出力部36とを備える。画像入力部31は例えばイメージスキャナであり、図3(b)に示すような文書14を入力する。文書入力部31の場合は属性付けされていない電子文書情報を入力する。文字領域抽出部32は、この入力スキャン画像または文書情報の文字領域を抽出する。文字認識部(OCR処理部)33は文字領域における文字認識を行い、複数のテキスト領域15に変換する。文書入力部31の場合は文字領域抽出部32や文字認識部(OCR処理部)33を省略することができる。
属性辞書記憶部34は、図3(b)に示すように、複数の属性辞書11〜13からなる属性辞書群を記憶している。各属性辞書11〜13は、属性の種類を格納した属性種類部と、属性実体の種類を格納した複数の属性実体種類部21,22とを有する。例えば、属性辞書13(人情報)において、属性種類部には氏名、名前、者、おなまえ、Nameなどが格納されている。属性実体種類部21には、伊藤、鈴木、高橋、山本、柴田などが格納され、属性実体種類部22には、算用数字、漢数字、ローマ数字などが格納されている。属性照合部35は、文書情報より得られた複数のテキスト領域15または入力画像から文字認識により得られた複数のテキスト領域15を入力し、各テキスト領域の内容と複数の属性辞書の内容とを照合する。属性情報出力部36は、この照合結果に基づいてテキスト領域の属性および属性実体を取得し出力する。
図4は図3の実施例を実行するためのフローチャートの一例を示すものであり、(a)は文書情報の入力の場合、(b)は画像入力の場合である。文書情報の入力の場合、図4(a)に示すように、ステップ41にて情報入力手段で文書情報を入力する。ステップ42にて各テキスト領域に対して複数の属性辞書の属性種類部の内容と照合する。ステップ43にて各テキスト領域に対して複数の属性辞書の属性実体種類部の内容と照合する。ステップ44にて属性種類部の照合結果と属性実体種類部の照合結果より、合致した属性辞書があれば、それに対応する属性をそれらテキスト領域の属性と属性実体とする。
画像入力の場合は、図4(b)に示すように、ステップ45にて画像入力手段で画像を入力する。ステップ46にて入力画像に対しレイアウト解析を行い、各テキスト領域ごとにOCR処理を行う。ステップ47にて各テキスト領域に対して複数の属性辞書の属性種類部の内容と照合する。ステップ48にて各テキスト領域に対して複数の属性辞書の属性実体種類部の内容と照合する。ステップ49にて属性種類部の照合結果と属性実体種類部の照合結果より、合致した属性辞書があれば、対応する属性をそれらテキスト領域の属性と属性実体とする。
このように本実施例では、属性辞書は属性種類部と複数の属性実体種類部を持ち、各テキスト領域に対して属性辞書を選出し、その選出結果を参照して関連する仲間を判定選出し、文書構造としての関連付けを行うものである。
図5は本発明に係る文書属性取得方法の他の実施例を示す図である。本実施例が図4の実施例と異なる点は、属性実体の群名を格納した属性実体内容部16をさらに設けたところにある。本実施例では、図示のように、各属性辞書11〜13は、属性の種類を格納した属性種類部と、属性実体の種類として群名を格納した複数の属性実体種類部21,22とを有する。例えば、属性辞書13(人情報)において、属性実体種類部21は群名として人物氏名群を有し、属性実体種類部22は群名としてコード群を有する。各テキスト領域15に対して、複数の属性辞書の属性実体内容部の内容と照合し、合致した場合には属性実体内容部の辞書の群名と属性辞書の属性辞書種類部の群名を照合する。属性種類部の照合結果と属性実体種類部の照合結果より、合致した属性辞書があれば、対応する属性をそれらテキスト領域の属性と属性実体とする。この属性実体内容部は、図中の点線矢印で示すように、複数の属性辞書12〜13間で共有することができる。
図6は図5の実施例を実行するためのフローチャートの一例を示すものであり、(a)は文書情報の入力の場合、(b)は画像入力の場合である。文書情報の入力の場合、図6(a)に示すように、ステップ61にて情報入力手段で文書情報を入力する。ステップ62にて各テキスト領域に対して複数の属性辞書の属性種類部の内容と照合する。ステップ63にて各テキスト領域に対して複数の属性辞書の属性実体内容部の各辞書の内容と照合し、合致した場合には属性実体内容部の辞書の群名と属性辞書の属性辞書種類部の群名を照合する。ステップ64にて属性種類部の照合結果と属性実体種類部の照合結果より、合致した属性辞書があれば、対応する属性をそれらテキスト領域の属性と属性実体とする。
画像入力の場合は、図6(b)に示すように、ステップ65にて画像入力手段で画像を入力する。ステップ66にて入力画像に対しレイアウト解析を行い、各テキスト領域ごとにOCR処理を行う。ステップ67にて各テキスト領域に対して複数の属性辞書の属性種類部の内容と照合する。ステップ68にて各テキスト領域に対して複数の属性辞書の属性実体内容部の各辞書の内容と照合し、合致した場合には属性実体内容部の辞書の群名と属性辞書の属性辞書種類部の群名を照合する。ステップ69にて属性種類部の照合結果と属性実体種類部の照合結果より、合致した属性辞書があれば、対応する属性をそれらテキスト領域の属性と属性実体とする。
このように本実施例では、属性辞書は属性種類部と属性実体種類部と属性実体内容部を持ち、属性実体内容部は独立させて各属性辞書間で共有できるようにし、属性実体種類部に指定があれば属性実体内容部を参照可能としたものである。
図7は本発明に係る文書属性取得方法の他の実施例を示す図で、(a)は文書属性取得装置の例を示すブロック図、同図(b)は文書属性取得方法を説明するための図である。本実施例が図4の実施例と異なる点は、図7(a)に示すように、文字列配置判定部37をさらに設けたところにある。文字列配置判定部37は、文字領域抽出部32からの情報を入力し、文字列配置の判定を行い、これを属性照合部35に出力する。文字列配置判定部37は、例えば各テキスト領域15の配置の直線性を参照する。本実施例では、図7(b)の各テキスト領域15に示すように、その配置が図中の矢印方向に直線上に並んでいるテキスト領域を選定し、この選定したテキスト領域を参照して当該テキスト領域の属性および属性実体を取得する。
図8は図7の実施例を実行するためのフローチャートの一例を示すものであり、(a)は文書情報の入力の場合、(b)は画像入力の場合である。文書情報の入力の場合、図8(a)に示すように、ステップ81にて情報入力手段で文書情報を入力する。ステップ82にて各テキスト領域に対して複数の属性辞書の属性種類部の属性と照合し、合致した属性の順位を決定する。ステップ83にて各テキスト領域に対して複数の属性辞書の属性実体種類部の属性実体と照合し、合致した属性実体の順位を決定する。ステップ84にて各テキスト領域に対して文書上における配置が直線上に並んでいるテキスト領域を選定する。ステップ85にて属性の順位結果と属性実体の順位結果と配置直線性における選定テキスト領域を参照して、高い順位且つ高い配置直線性に対応する属性をそれらテキスト領域の属性と属性実体とする。
画像入力の場合は、図8(b)に示すように、ステップ86にて画像入力手段で画像を入力する。ステップ87にて入力画像に対しレイアウト解析を行い、各テキスト領域ごとにOCR処理を行う。ステップ88にて各テキスト領域に対して複数の属性辞書の属性種類部の属性と照合し、合致した属性の順位を決定する。ステップ89にて各テキスト領域に対して複数の属性辞書の属性実体種類部の属性実体と照合し、合致した属性実体の順位を決定する。ステップ90にて各テキスト領域に対して文書上における配置が直線上に並んでいるテキスト領域を選定する。ステップ91にて属性の順位結果と属性実体の順位結果と配置直線性における選定テキスト領域を参照して、高い順位且つ高い配置直線性に対応する属性をそれらテキスト領域の属性と属性実体とする。
このように本実施例では、属性辞書は属性種類部と複数の属性実体種類部を持ち、各テキスト領域に対して属性辞書を選出し、この場合、各テキスト領域の配置直線性を参照し、この選出結果を用いて関連する仲間を判定選出し、文書構造としての関連付けを行うものである。
図9は本発明に係る文書属性取得方法の他の実施例を示す図である。本実施例が図7の実施例と異なる点は、各テキスト領域間における距離情報を参照するところにある。本実施例でも、図7(a)に示す文字列配置判定部37を用いる。本実施例では、文字列配置判定部37は、図9中の矢印で示すように、各テキスト領域15間における距離を算出し、この算出した距離を参照して当該テキスト領域の属性および属性実体を取得する。
図10は図9の実施例を実行するためのフローチャートの一例を示すものであり、(a)は文書情報の入力の場合、(b)は画像入力の場合である。文書情報の入力の場合、図10(a)に示すように、ステップ101にて情報入力手段で文書情報を入力する。ステップ102にて各テキスト領域に対して複数の属性辞書の属性種類部の属性と照合し、合致した属性の順位を決定する。ステップ103にて各テキスト領域に対して複数の属性辞書の属性実体種類部の属性実体と照合し、合致した属性実体の順位を決定する。ステップ104にて各テキスト領域間に対して文書上における距離を算出する。ステップ105にて属性の順位結果と属性実体の順位結果と文書上距離を参照して、高い順位且つ短距離に対応する属性をそれらテキスト領域の属性と属性実体とする。
画像入力の場合は、図10(b)に示すように、ステップ106にて画像入力手段で画像を入力する。ステップ107にて入力画像に対しレイアウト解析を行い、各テキスト領域ごとにOCR処理を行う。ステップ108にて各テキスト領域に対して複数の属性辞書の属性種類部の属性と照合し、合致した属性の順位を決定する。ステップ109にて各テキスト領域に対して複数の属性辞書の属性実体種類部の属性実体と照合し、合致した属性実体の順位を決定する。ステップ110にて各テキスト領域間に対して文書上における距離を算出する。ステップ111にて属性の順位結果と属性実体の順位結果と文書上距離を参照して、高い順位且つ短距離に対応する属性をそれらテキスト領域の属性と属性実体とする。
このように本実施例では、属性辞書は属性種類部と複数の属性実体種類部を持ち、各テキスト領域に対して属性辞書を選出し、この場合、各テキスト領域同士の距離情報を参照し、この選出結果を用いて関連する仲間を判定選出し、文書構造としての関連付けを行うものである。
以上の文書属性取得方法はコンピュータプログラムにより実行することができる。すなわち、属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を提供する機能、文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性種類部の内容とを照合する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性実体種類部の内容とを照合する機能、前記属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出する機能、および、前記選出した属性辞書の属性種類部と属性実体種類部から前記テキスト領域の属性および属性実体を取得する機能を実現させるためのプログラムにより実行可能である。このプログラムはインターネット等の電気通信回線を介してアップロードし、またはダウンロードすることができ、また、このプログラムを記録したコンピュータ読み取り可能な記録媒体として提供することができる。
これにより、高品質な文書構造化を可能とする文書属性取得方法、文書属性取得装置、そのためのコンピュータプログラム、およびそのプログラムを記録した記録媒体を提供することができる。
本発明は、文書画像からその文書の属性を取得する文書属性取得方法および装置並びに文書属性取得のためのプログラムを記録した記録媒体に関するものであり、産業上の利用可能性がある。
(a)、(b)は本発明に係る文書属性取得方法の一実施例を示す図である。 (a)、(b)は本発明に係る文書属性取得方法の他の実施例を示す図である。 本発明に係る文書属性取得方法の他の実施例を示す図で、(a)は文書属性取得装置の例を示すブロック図、同図(b)は文書属性取得方法を説明するための図である。 図3の実施例を実行するためのフローチャートの一例を示すものであり、(a)は文書情報の入力の場合、(b)は画像入力の場合である。 本発明に係る文書属性取得方法の他の実施例を示す図である。 図5の実施例を実行するためのフローチャートの一例を示すものであり、(a)は文書情報の入力の場合、(b)は画像入力の場合である。 本発明に係る文書属性取得方法の他の実施例を示す図で、(a)は文書属性取得装置の例を示すブロック図、同図(b)は文書属性取得方法を説明するための図である。 図7の実施例を実行するためのフローチャートの一例を示すものであり、(a)は文書情報の入力の場合、(b)は画像入力の場合である。 本発明に係る文書属性取得方法の他の実施例を示す図である。 図9の実施例を実行するためのフローチャートの一例を示すものであり、(a)は文書情報の入力の場合、(b)は画像入力の場合である。
符号の説明
1〜4 属性辞書
5 文書
6 テキスト領域
7、8 属性ペア

Claims (11)

  1. 属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を用意し、
    文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力し、
    前記各テキスト領域の内容と前記複数の属性辞書の属性種類部の内容とを照合し、
    前記各テキスト領域の内容と前記複数の属性辞書の属性実体種類部の内容とを照合し、
    前記属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出し、
    前記選出した属性辞書の属性種類部と属性実体種類部から前記テキスト領域の属性および属性実体を取得することを特徴とする文書属性取得方法。
  2. 前記属性辞書の属性実体種類部が複数設けられていることを特徴とする請求項1記載の文書属性取得方法。
  3. 前記属性辞書が前記属性実体種類部と照合される属性実体の群名を格納した属性実体内容部をさらに有することを特徴とする請求項1または2記載の文書属性取得方法。
  4. 前記属性実体内容部が前記複数の属性辞書間で共有されることを特徴とする請求項3記載の文書属性取得方法。
  5. 前記各テキスト領域の配置が直線上に並んでいるテキスト領域を選定し、前記選定したテキスト領域を参照して前記テキスト領域の属性および属性実体を取得することを特徴とする請求項1〜4のいずれかに記載の文書属性取得方法。
  6. 前記各テキスト領域間における距離を算出し、前記算出された距離を参照して前記テキスト領域の属性および属性実体を取得することを特徴とする請求項1〜5のいずれかに記載の文書属性取得方法。
  7. 前記属性種類部および前記属性実体種類部の少なくとも一方の内容が照合のための順位を有することを特徴とする請求項1〜6のいずれかに記載の文書属性取得方法。
  8. 属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を記憶する属性辞書記憶部と、文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力し、前記各テキスト領域の内容と前記複数の属性辞書の内容とを照合する属性照合部と、前記照合結果に基づいて前記テキスト領域の属性および属性実体を取得し出力する属性情報出力部とを備えたことを特徴とする文書属性取得装置。
  9. 前記入力画像が光学式文字読取り装置により文字認識されることを特徴とする請求項8記載の文書属性取得方法。
  10. 属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を提供する機能、文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性種類部の内容とを照合する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性実体種類部の内容とを照合する機能、前記属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出する機能、および、前記選出した属性辞書の属性種類部と属性実体種類部から前記テキスト領域の属性および属性実体を取得する機能を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  11. 属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を提供する機能、文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性種類部の内容とを照合する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性実体種類部の内容とを照合する機能、前記属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出する機能、および、前記選出した属性辞書の属性種類部と属性実体種類部から前記テキスト領域の属性および属性実体を取得する機能を実現させるためのプログラム。
JP2004276374A 2004-09-24 2004-09-24 文書属性取得方法および装置並びにプログラムを記録した記録媒体 Expired - Fee Related JP4677750B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004276374A JP4677750B2 (ja) 2004-09-24 2004-09-24 文書属性取得方法および装置並びにプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004276374A JP4677750B2 (ja) 2004-09-24 2004-09-24 文書属性取得方法および装置並びにプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2006092226A true JP2006092226A (ja) 2006-04-06
JP4677750B2 JP4677750B2 (ja) 2011-04-27

Family

ID=36233128

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004276374A Expired - Fee Related JP4677750B2 (ja) 2004-09-24 2004-09-24 文書属性取得方法および装置並びにプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4677750B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007306405A (ja) * 2006-05-12 2007-11-22 Ricoh Co Ltd 画像形成システム、グループウェアサーバ、画像形成方法、データベース管理プログラム及び記憶媒体
JP2008084186A (ja) * 2006-09-28 2008-04-10 Fuji Xerox Co Ltd 画像処理システム及び画像処理プログラム
CN110135264A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 数据录入方法、装置、计算机设备以及存储介质
JP2021504787A (ja) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090117A (ja) * 1998-07-16 2000-03-31 Ricoh Co Ltd 文書画像の論理要素抽出方法、装置および記録媒体
JP2001243423A (ja) * 2000-02-28 2001-09-07 Toshiba Corp 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JP2003030455A (ja) * 2001-07-10 2003-01-31 Toshiba Corp 総合振込依頼書エントリシステムにおける入力帳票識別方法、総合振込依頼書エントリシステムおよびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090117A (ja) * 1998-07-16 2000-03-31 Ricoh Co Ltd 文書画像の論理要素抽出方法、装置および記録媒体
JP2001243423A (ja) * 2000-02-28 2001-09-07 Toshiba Corp 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JP2003030455A (ja) * 2001-07-10 2003-01-31 Toshiba Corp 総合振込依頼書エントリシステムにおける入力帳票識別方法、総合振込依頼書エントリシステムおよびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007306405A (ja) * 2006-05-12 2007-11-22 Ricoh Co Ltd 画像形成システム、グループウェアサーバ、画像形成方法、データベース管理プログラム及び記憶媒体
JP2008084186A (ja) * 2006-09-28 2008-04-10 Fuji Xerox Co Ltd 画像処理システム及び画像処理プログラム
JP2021504787A (ja) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム
JP7201299B2 (ja) 2017-12-01 2023-01-10 インターナショナル・ビジネス・マシーンズ・コーポレーション コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム
CN110135264A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 数据录入方法、装置、计算机设备以及存储介质

Also Published As

Publication number Publication date
JP4677750B2 (ja) 2011-04-27

Similar Documents

Publication Publication Date Title
CN102053991B (zh) 用于多语言文档检索的方法及系统
US7801392B2 (en) Image search system, image search method, and storage medium
JP3689455B2 (ja) 情報処理方法及び装置
US6178417B1 (en) Method and means of matching documents based on text genre
US20070168382A1 (en) Document analysis system for integration of paper records into a searchable electronic database
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
EP1843276A1 (en) Method for automated processing of hard copy text documents
US9558234B1 (en) Automatic metadata identification
CN109902223B (zh) 一种基于多模态信息特征的不良内容过滤方法
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
US20060045340A1 (en) Character recognition apparatus and character recognition method
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
EP2806336A1 (en) Text prediction in a text input associated with an image
JP6435934B2 (ja) 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置
JP2005151127A5 (ja)
Alves et al. A strategy for automatically extracting references from PDF documents
JP3598711B2 (ja) 文書ファイリング装置
JP4677750B2 (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
KR101800975B1 (ko) 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
JP2002342343A (ja) 文書管理システム
JP7172343B2 (ja) 文書検索用プログラム
Budig et al. Glyph miner: a system for efficiently extracting glyphs from early prints in the context of OCR
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JP2001094711A (ja) ドキュメント画像処理装置及びドキュメント画像処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110117

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees