JP3958722B2 - イメージデータ文書検索システム - Google Patents

イメージデータ文書検索システム Download PDF

Info

Publication number
JP3958722B2
JP3958722B2 JP2003282325A JP2003282325A JP3958722B2 JP 3958722 B2 JP3958722 B2 JP 3958722B2 JP 2003282325 A JP2003282325 A JP 2003282325A JP 2003282325 A JP2003282325 A JP 2003282325A JP 3958722 B2 JP3958722 B2 JP 3958722B2
Authority
JP
Japan
Prior art keywords
image data
search
document
font
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003282325A
Other languages
English (en)
Other versions
JP2005050175A (ja
Inventor
誠司 高野
伸治 市川
隆治 星乃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2003282325A priority Critical patent/JP3958722B2/ja
Publication of JP2005050175A publication Critical patent/JP2005050175A/ja
Application granted granted Critical
Publication of JP3958722B2 publication Critical patent/JP3958722B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

この発明は、イメージデータとして保存されている文書の検索を行うイメージデータ文書検索システムに関するものである。
従来、文書のイメージデータが保存されている場合、保存されている文書のイメージデータの中から所望のイメージデータを検索するためにテキストデータのキーワード(文字列)が用いられていた。従って、イメージデータとして保存されている文書の検索を行うためには、検索対象となる文書のイメージデータ毎に検索用のキーワードとの対応表である検索用インデックスを作成する必要があった。即ち、予め文書の内容を示すキーワードを文書毎に設定するか、又は、イメージデータとして保存されている文書にOCR(Optical Character Reader:光学式文字読取装置)を用いた文字認識処理を施すことにより文書のテキストデータを取得して検索用インデックスを作成する必要があった。この検索用インデックスが作成されていない場合には、検索用のキーワードとの照合を行うことができず、所望のイメージデータが存在するか否かの検索を行うことができない。そのため、検索対象となる全ての文書のイメージデータについて検索用インデックスが作成されていた。
なお、文字列を用いて画像の検索を高精度で行うことができる画像検索方法が、例えば、特許文献1に開示されている。この画像検索方法においては、まず、文書のイメージデータ(検索対象画像)にOCRを用いた文字認識処理を施してテキストデータを取得し、検索を行う際に用いられる検索用インデックスを作成して検索対象画像を登録する。次に、検索を行うための文字列(検索文字列)のイメージデータをイメージスキャナを用いて取得する。そして、検索文字列のイメージデータにOCRを用いた文字認識処理を施してテキストデータを取得する。この時、複数の認識候補を作成し、作成された複数の認識候補と検索用インデックスとを用いて、即ち、文字認識処理を施して取得されたテキストデータと検索用インデックスとして予め作成されているテキストデータとを突き合せることにより、検索対象画像の検索を行う。
特開平10−69494号公報
ところで、文書のイメージデータの検索を可能にする検索用インデックスを作成するためには、上述のように、予め文書のイメージデータに文字認識処理を施してテキストデータを取得するか、文書のイメージデータ毎にその内容を示す適切なキーワードを設定して検索用インデックスを作成しなければならないことから多大な労力を要する。また、例えば、検索用インデックスとして不適切なキーワードが設定された場合には、所望のイメージデータの検索を適切に行うことができなくなる。更に、不必要に多くのキーワードが設定された場合には、検索の精度が低下してしまう。一方、イメージデータにOCRによる文字認識処理を施してテキストデータを取得した場合、OCRでは100%の精度で文字を認識することは不可能であると共に、印刷のかすれや汚れ等の影響により必ず誤認識が発生するため、人による確認と個別の修正が必要になる。更に、イメージデータが手書き文字のイメージデータを含んでいる場合には、OCRによる文字認識の精度が一層低くなるため、別途、人が手書き文字の内容を入力する等の処理が必要となり、検索用インデックスを作成するために更に多大な労力が必要となる。
上述のように、キーワードを設定して検索用インデックスを作成する場合、又は、イメージデータにOCRによる文字認識処理を施すことによりテキストデータを取得して検索用インデックスを作成する場合の何れの場合であっても、検索用インデックスを作成するためには多大な労力及び多大な時間が必要となる。そして、検索用インデックスは、検索対象となり得る全ての文書のイメージデータ毎に作成しておく必要があるため、検索対象として蓄積されている文書のイメージデータの量が多くなる程、即ち、蓄積されている文書のイメージデータの量に比例して、検索用インデックスを作成するための労力が増大し、検索を可能とするために膨大な時間が必要となる。例えば、検索対象として蓄積されているイメージデータが、テキスト化されていない特許文献である場合には、蓄積されている全ての特許文献について上述のように検索インデックスを作成しなければならないため、蓄積されている特許文献を検索可能とするために膨大な労力及び時間が必要となる。
この発明の課題は、予め検索用インデックスを作成することなく、イメージデータとして保存されている文書の検索を容易、かつ、高い精度で行うことができるイメージデータ文書検索システムを提供することである。
請求項1記載のイメージデータ文書検索システムは、文書のイメージデータを記憶するイメージデータ文書記憶手段と、前記イメージデータ文書記憶手段に記憶されている文書のイメージデータの中から所望のイメージデータを検索するための検索文字列を入力する検索文字列入力手段と、所定期間毎の前記文書の字体及びフォントサイズを特定したコード表を記憶する記憶手段と、前記イメージデータ文書記憶手段に記憶されている前記文書について文字認識処理を行なう手段と、前記文書の一部について予め行なった前記文字認識処理の結果と、前記記憶手段に記憶されている前記コード表を用いて、前記結果に含まれる期間に対応する字体及びフォントサイズを特定し、前記イメージデータ文書記憶手段に記憶されている文書のイメージデータを検索する際の字体及びフォントサイズを含む検索イメージデータ作成条件を設定する検索イメージデータ作成条件設定手段と、前記検索イメージデータ作成条件設定手段により設定された字体及びフォントサイズを含む検索イメージデータ作成条件に従って、前記検索文字列入力手段により入力された前記検索文字列の検索イメージデータを作成する検索イメージデータ作成手段と、前記イメージデータ文書記憶手段に記憶されている文書のイメージデータをビットマップに展開すると共に、前記検索イメージデータ作成手段により作成された検索イメージデータをビットマップに展開し、前記文書のイメージデータのビットマップにおいて、前記検索イメージデータのビットマップと同一の大きさのドット領域を指定し、該ドット領域と前記検索イメージデータのビットマップのドットとを比較することにより、前記イメージデータ文書記憶手段に記憶されている文書のイメージデータの中から前記所望のイメージデータを検索する検索手段とを備えることを特徴とする。
この請求項1記載のイメージデータ文書検索システムによれば、所定期間毎の文書の字体及びフォントを特定したコード表を記憶しているため、文書について行なう文字認識処理により、文書のイメージデータがどの期間のものかを判断して、コード表を参照することにより字体及びフォントサイズを含む検索イメージデータ作成条件を設定し、この検索イメージデータ作成条件に基づいて、検索イメージデータを作成するため、的確な字体及びフォントサイズの検索イメージデータを作成することができ、高精度の検索を行なうことができる。また、入力された検索文字列に基づいて作成された該検索文字列の検索イメージデータを用い、文書のイメージデータを展開したビットマップにおけるドット領域と、検索イメージデータを展開したビットマップにおけるドット領域とを比較することにより、文書のイメージデータの中から所望のイメージデータの検索を行う。従って、イメージデータとして保存されている文書の検索を容易かつ高精度で行うことができる。また、文書のイメージデータについて予め文字認識処理を施す等により検索用インデックスを作成する必要がないため、文書のイメージデータを検索可能とするための労力を大幅に軽減することができる。
この発明によれば、文書のイメージデータについて予め文字認識処理を施す等により検索用インデックスを作成する必要がないため、文書のイメージデータを取得した後、遅滞なく該文書のイメージデータを検索対象とすることができる。従って、文書のイメージデータを検索可能とするための労力を大幅に軽減することができる。また、文書のイメージデータの中から所望のイメージデータを、検索イメージデータに基づいて検索することができるため、OCRによる文字の誤認識や不適切なキーワードを設定することによる検索精度の低下を防止し、高い精度で的確な検索を容易に行うことができる。
以下、図面を参照して、この発明を実施するための最良の形態に係るイメージデータ文書検索システムによる文書のイメージデータを検索する処理について説明する。なお、以下においては、特許文献の文書がイメージデータにより蓄積されている場合を例として説明する。
図1は、この発明を実施するための最良の形態に係るイメージデータ文書検索システムのブロック構成図である。イメージデータ文書検索システムは、図1に示すように、イメージデータ文書検索システムにおけるデータの処理を制御するデータ制御部2を備えている。このデータ制御部2には、検索対象となる特許文献のイメージデータを取得するためのイメージスキャナ4及び特許文献のイメージデータを検索するための検索文字列等を入力する入力部(検索文字列入力手段)6が接続されている。また、データ制御部2には、イメージスキャナ4を介して取得された特許文献のイメージデータを記憶するイメージデータ特許文献記憶部(イメージデータ文書記憶手段)8及び入力された検索文字列の同義語・類義語を示すシソーラス辞書データを記憶するシソーラス辞書データ記憶部10が接続されている。また、データ制御部2には、入力された検索文字列等を記憶するデータ記憶部12及び入力された検索文字列を用いて特許文献のイメージデータを検索した結果等を表示する表示部14が接続されている。ここで、入力部6は、キーボードにより構成される。なお、イメージデータ文書検索システムがインターネット等のネットワークを介して複数の利用者端末と接続されている場合には、利用者端末において入力された検索文字列をネットワーク及び通信制御部を介して受信するようにしてもよい。
イメージデータ特許文献記憶部8には、イメージスキャナ4を介して取得された特許文献のイメージデータ、即ち、紙媒体により保存されている特許文献をイメージスキャナ4を介して読み取ったイメージデータが記憶されている。ここで、イメージスキャナ4を介して特許文献のイメージデータを取得する際には、取得された特許文献のイメージデータを識別するための識別番号、例えば、出願番号や出願公開の番号等が入力部6を介して入力される。そして、取得された特許文献のイメージデータは、入力された特許文献の識別番号に対応させてイメージデータ特許文献記憶部8に記憶される。なお、特許文献のイメージデータを記憶したCD−ROM等の記録媒体が存在する場合には、CD−ROMドライブ等の記録媒体用のドライブを介して特許文献のイメージデータを取得し、イメージデータ特許文献記憶部8に記憶するようにしてもよい。また、イメージデータ文書検索システムがインターネット等のネットワークを介して特許文献のイメージデータを記憶しているサーバ等に接続されている場合には、ネットワーク及び通信制御部を介して特許文献のイメージデータを取得し、イメージデータ特許文献記憶部8に記憶するようにしてもよい。
また、シソーラス辞書データ記憶部10には、任意の語に対する同義語・類義語を示すシソーラス辞書データが記憶されている。例えば、「パーソナルコンピュータ」に対する同義語の「パソコン」、「PC」及び「電子計算機」、類義語として「ワードプロセッサ」及び「ワープロ」等が記憶されている。
また、データ記憶部12には、入力部6を介して入力された検索文字列、検索文字列に対する同義語・類義語、検索イメージデータ及び検索結果が記憶される。検索文字列に対する同義語・類義語は、シソーラス辞書データ記憶部10に記憶されているシソーラス辞書データの中から抽出された検索文字列に対する同義語・類義語であり、検索文字列に対応させてデータ記憶部12に記憶される。検索イメージデータは、検索文字列に基づいて作成された検索用のイメージデータであり、検索文字列に対応させて記憶される。ここで、イメージデータ特許文献記憶部8においては、特許文献のイメージデータのみが記憶されており、特許文献のテキストデータや特許文献のイメージデータを検索する際に用いられる検索用インデックスのデータは記憶されていない。従って、検索文字列に基づいて検索イメージデータを作成し、作成された検索イメージデータと一致するイメージデータを含む特許文献のイメージデータを検索することにより、所望のイメージデータの検索が行われる。そのため、入力部6を介して入力された検索文字列に基づいて検索イメージデータが作成され、作成された検索イメージデータが検索文字列に対応させてデータ記憶部12に記憶される。また、特許文献のイメージデータの検索結果として、検索イメージデータに基づいて検索された特許文献のイメージデータに付されている識別番号の一覧が、検索文字列に対応させてデータ記憶部12に記憶される。
次に、図2のフローチャートを参照して、この発明を実施するための最良の形態に係るイメージデータ文書検索システムにおける特許文献のイメージデータ検索処理について説明する。
まず、特許文献のイメージデータの中から所望の特許文献のイメージデータを検索するためのキーワードとなる検索文字列(テキストデータ)を入力部6を介して入力する(ステップS10)。例えば、パーソナルコンピュータの発明に係る特許文献のイメージデータを検索する場合には、検索文字列として「パーソナルコンピュータ」を入力する。なお、入力された検索文字列はデータ記憶部12に記憶される。
次に、ステップS10において入力された検索文字列に基づいて検索イメージデータを作成する際の検索イメージデータ作成条件を設定する(ステップS11)。即ち、特許文献のイメージデータを検索するための検索イメージデータを作成する際の検索イメージデータ作成条件、例えば、字体(明朝体、ゴシック体、楷書体等)、フォントサイズ(ポイント数)及び同義語・類義語のイメージデータ作成の有無等の条件を設定する。なお、同義語・類義語のイメージデータを作成するか否かについては、同義語のみ、類義語のみ、同義語・類義語の双方について作成するか否かを任意に選択して設定することができる。また、作成する同義語・類義語のイメージデータの数、例えば、同義語・類義語の双方について作成する場合に、作成するイメージデータの数を同義語・類義語共に2つを上限とする等を設定することができる。
図3は、表示部14に表示される検索イメージデータ作成条件の設定の一例を示す図である。表示部14においては、図3に示すように、検索イメージデータ作成条件として「字体」、「サイズ」及び「シソーラス」が表示されている。また、「字体」においては、「明朝」、「ゴシック」及び「楷書」が項目として表示され、「サイズ」においてはフォントサイズのポイント数を示す6〜13の数字が項目として表示されている。また、「シソーラス」においては、「同義語」、「類義語」、「双方(同義語と類義語の双方)」及び「数指定(作成する同義語・類義語のイメージの数を指定)」が項目として表示されている。更に、各項目の前には「○」が表示されており、この「○」の中をマウス等のポインティングデバイスを用いてクリックすることにより任意の項目を選択することができる。また、表示部14には、設定ボタン及びキャンセルボタンが表示されている。なお、上述の図3においては、検索イメージデータ作成条件として表示されている「字体」、「サイズ」及び「シソーラス」の各々において所定の項目が表示されているが、各検索イメージデータ作成条件の項目がプルダウン形式で表示されるようにしてもよい。例えば、「字体」と表示されている部分をマウス等のポインティングデバイスを用いて選択した場合に、「明朝」、「ゴシック」及び「楷書」等の項目が表示されるようにしてもよい。この場合は、表示されている項目の中から何れかの項目をマウス等のポインティングデバイスを用いてクリックすることにより、任意の項目を選択することができる。
ここで、検索イメージデータ作成条件としての字体やフォントサイズの設定は、検索対象となっている文書の字体及びフォントサイズが予め明らかになっている場合に行う。即ち、特許文献(特許公報)については、その様式が規格化されており、使用される字体及びフォントサイズが明らかになっているため、字体及びフォントサイズを検索イメージデータ作成条件として設定する。従って、検索対象となっている文書の字体やフォントサイズが不明の場合には、「シソーラス」についてのみ設定するか、又は、検索イメージデータ作成条件の設定そのものをキャンセルする。なお、検索イメージデータ作成条件の設定がキャンセルされた場合には、例えば、字体を明朝、サイズを12ポイントとする初期値に基づいて検索イメージデータを作成するようにしてもよい。また、入力部6を介して入力された際の文字列の字体及びフォントサイズを検索イメージデータ作成条件として検索イメージデータを作成するようにしてもよい。
検索イメージデータ作成条件の設定は、図3に示すように、表示部14に表示されている項目の中から任意の項目を選択することにより行われる。即ち、表示部14に表示されている「字体」、「サイズ」及び「シソーラス」の中から任意の項目の前に表示されている「○」の中をポインティングデバイスを用いてクリックすることにより、検索イメージデータ作成条件として設定する項目を選択する。ここで、「○」の中をポインティングデバイスを用いてクリックした場合には、「○」の中に「・」が表示され、何れの項目が選択されているかを識別することができる。なお、「シソーラス」の中で、「同義語」、「類義語」又は「双方」の何れかに加えて「数指定」を選択した場合には、数指定の右隣に表示されている空欄に入力部6を介して検索文字列の類義語等について作成するイメージデータの数を入力する。次に、マウス等のポインティングデバイスを用いて表示部14に表示されている設定ボタンを選択してクリックすることにより、選択された項目を検索イメージデータ作成条件としてデータ記憶部12に記憶する。一方、検索イメージデータ作成条件の設定をキャンセルする場合には、表示部14に表示されているキャンセルボタンを選択してクリックすることにより、検索イメージデータ作成条件の設定をキャンセルする。
次に、イメージデータ特許文献記憶部8に記憶されている特許文献のイメージデータの中から所望の特許文献のイメージデータを検索する際の検索条件を設定する(ステップS12)。例えば、検索文字列に基づいて作成された検索イメージデータと特許文献のイメージデータに含まれているイメージデータとの適合率、即ち、ビットマッチングの一致度合いが完全一致、80%以上等の一致度合いを設定する。また、検索を行う範囲、即ち、特許文献のイメージデータの全文を範囲として検索を行うか、書誌事項、例えば、出願人、発明者又は代理人等を対象として検索を行うか等、検索の対象となる特許文献のイメージデータの範囲を設定する。
ここで、ビットマッチングとは、イメージデータをビットマップに展開した後にビットマップ同士の一致度合いを計算する方法である。即ち、まず、特許文献のイメージデータと検索イメージデータとをそれぞれドット(点)の集まりで表現されたビットマップに展開する。次に、ビットマップに展開された特許文献のイメージデータと、検索イメージデータとのドットの一致度合いを所定の区画毎に算出し、イメージデータのビットマップ同士の一致度合いを判断する。このビットマッチングに基づいてイメージデータの適合率を判断することにより、線の接触や途切れに影響されることなく、文字の形そのものについて一致度合いを判断することができる。
図4は、表示部14に表示される検索条件の設定の一例を示す図である。表示部14においては、図4に示すように、検索条件として「適合率」及び「検索範囲」が表示されている。また、「適合率」においては、「完全一致」、「80%以上」、「60%以上」及び「数値指定」が項目として表示され、「検索範囲」においては「全文」、「書誌」、「要約」、「明細書」、「特許請求の範囲」及び「図面」が項目として表示されている。また、各項目の前には「○」が表示されており、この「○」の中をマウス等のポインティングデバイスを用いてクリックすることにより任意の項目を選択することができる。また、表示部14には、設定ボタン及びキャンセルボタンが表示されている。なお、特許文献については、様式が規格化されているために上述の「書誌」、「要約」及び「明細書」等の範囲を検索範囲として指定することができるが、各種の様式が存在する文書のイメージデータを検索対象としている場合には、例えば、検索範囲としてページ数を指定することができるようにしてもよい。また、上述の図4においては、検索条件として表示されている「適合率」及び「検索範囲」において所定の項目が表示されているが、各検索条件の項目がプルダウン形式で表示されるようにしてもよい。例えば、「適合率」と表示されている部分をマウス等のポインティングデバイスを用いて選択した場合に、「完全一致」、「80%以上」、「60%以上」及び「数値指定」等の項目が表示されるようにしてもよい。この場合は、表示されている項目の中から何れかの項目をマウス等のポインティングデバイスを用いてクリックすることにより、任意の項目を選択することができる。
検索条件の設定は、図4に示すように、表示部14に表示されている項目の中から任意の項目を選択することにより行われる。即ち、表示部14に表示されている「適合率」及び「検索範囲」について、任意の項目の前に表示されている「○」の中をポインティングデバイスを用いてクリックすることにより、検索条件を構成する項目が選択される。なお、「○」の中をポインティングデバイスを用いてクリックした場合には、「○」の中に「・」が表示され、何れの項目が選択されているかを識別することができる。次に、表示部14に表示されている設定ボタンをポインティングデバイスを用いて選択しクリックすることにより、選択された項目を検索条件としてデータ記憶部12に記憶する。一方、検索条件の設定をキャンセルする場合には、表示部14において設定ボタンの右隣に表示されているキャンセルボタンをポインティングデバイスを用いて選択しクリックすることにより検索条件の設定をキャンセルする。なお、検索条件の設定がキャンセルされた場合には、初期値、例えば、全文を検索範囲とし適合率を完全一致とする初期値に基づいて検索が行われる。
なお、検索文字列の入力を行う前に、上述のステップS11及びステップS12における処理を行うようにしてもよい。即ち、検索イメージデータ作成条件の設定及び検索条件の設定を行い、検索文字列を入力し検索を行うようにしてもよい。また、予め検索イメージデータ作成条件及び検索条件を初期設定として設定しておくようにしてもよい。この場合には、初期設定として設定されている検索イメージデータ作成条件及び検索条件の設定変更を行うか否かを選択することができるようにしてもよい。
次に、ステップS10において入力された検索文字列に基づく検索イメージデータをステップS11において設定された検索イメージデータ作成条件に基づいて作成する(ステップS13)。ここで、例えば、字体「明朝」、サイズ(フォントサイズ)「12」及び同義語・類義語の双方についてイメージデータを作成する検索イメージデータ作成条件が設定されているとする。この場合には、まず、シソーラス辞書データ記憶部10に記憶されているシソーラス辞書データの中から、検索文字列、例えば「パーソナルコンピュータ」の同義語「パソコン」、「PC」及び「電子計算機」、類義語「ワードプロセッサ」及び「ワープロ」を抽出する。そして、検索文字列の「パーソナルコンピュータ」と共に「パソコン」、「PC」、「電子計算機」、「ワードプロセッサ」及び「ワープロ」の文字列について、字体を「明朝」、サイズを「12」とするイメージデータを作成する。なお、作成された各文字列の検索イメージデータはそれぞれの文字列に対応させてデータ記憶部12に記憶される。
次に、ステップS13において作成された検索イメージデータに基づいて、イメージデータで蓄積されている特許文献の検索を行う(ステップS14)。ここで、例えば、適合率を80%以上、検索範囲を要約とする検索条件が設定されている場合には、まず、1件目の特許文献について検索範囲として指定されている要約が存在する部分のイメージデータをビットマップに展開すると共に、検索イメージデータをビットマップに展開する。次に、要約のイメージデータのビットマップにおいて、行頭から順次、検索イメージデータのビットマップと同一の大きさのドット領域を指定し、この指定された要約のイメージデータのビットマップのドットと検索イメージデータのビットマップのドットとを比較する。次に、比較が行われた要約のイメージデータのビットマップのドットと検索イメージデータのビットマップのドットとの一致度合いを算出する。即ち、特許文献のイメージデータと検索イメージデータとをそれぞれドット(点)の集まりで表現されたビットマップに展開し、ビットマップに展開された特許文献のイメージデータと、検索イメージデータとのドットの一致度合いを所定の区画毎に算出し、イメージデータのビットマップ同士の一致度合いを判断する。なお、ドットの一致度合いを判断するビットマッチングにおいては、特開2000−76378号公報に開示されているように、イメージデータを所定の大きさのビットマップに展開し、ビットマップの白/黒のドットが一致しない数を距離として、距離が近いほど一致度合いが高いと判断するビットマッチングを行うようにしてもよい。また、特開平11−187231号公報に開示されているように、イメージデータを所定の領域に分割し、分割されたイメージデータの左下角の部分を原点とするX−Y座標系内におけるドットの位置を示す値に基づいて、一致度合いを判断するビットマッチングを行うようにしてもよい。
次に、要約のイメージデータのビットマップにおいて、検索イメージデータとの一致度合いが算出された領域から1ドットずらした新たな領域を指定し、指定された領域について検索イメージデータのビットマップのドットとの比較及びドットの一致度合いの算出を行う。この処理を要約のイメージデータの全体に対して行う。即ち、要約のイメージデータのビットマップにおける全てのドット領域について検索イメージデータのビットマップのドットとの比較及びドットの一致度合いの算出を行う。そして、検索イメージデータのビットマップのドットとの適合率が80%以上となっている部分を含む要約のイメージデータを有する特許文献のイメージデータの抽出が行われる。検索イメージデータのビットマップのドットとの適合率が80%以上の部分を含む要約のイメージデータを有する特許文献のイメージデータが抽出された場合には、該特許文献のイメージデータの識別番号が検索結果としてデータ記憶部12に記憶される。
なお、要約のイメージデータのビットマップと検索イメージデータのビットマップとの比較において、それぞれのビットマップを文字単位に分割して比較を行うようにしてもよい。この場合には、例えば、要約のイメージデータのビットマップにおいて改行されている部分が存在する場合には、行末部分と次の行頭部分とを併せて、分割されている文字の数が検索イメージデータと一致する数となる部分を比較対象とすることができるため、改行に影響されることなく検索イメージデータのビットマップとの比較を適切に行うことができる。また、文字単位に分割することにより、例えば、要約のイメージデータにおいて文字間隔が広く取られている場合には、文字間隔を排除して比較対象となる領域を指定することができるため、効率的な検索を行うことができる。
なお、ステップS14のイメージデータで蓄積されている特許文献の検索は、イメージデータ特許文献記憶部8に記憶されている全ての特許文献のイメージデータに対して行われる。そして、80%以上の適合率で一致する部分を含む要約を有する全ての特許文献のイメージデータが抽出され、抽出された特許文献のイメージデータの識別番号が一覧形式でデータ記憶部12に記憶される。一方、検索イメージデータのビットマップのドットとの適合率が80%以上の部分を含む要約のイメージデータを有する特許文献のイメージデータが抽出されなかった場合には、該当する特許文献が存在しない旨の検索結果がデータ記憶部12に記憶される。
次に、データ記憶部12に記憶されている検索結果を表示部14に表示する(ステップS15)。即ち、データ記憶部12に記憶されている検索された特許文献のイメージデータの識別番号一覧、又は、該当する特許文献が存在しない旨が検索結果として表示部14に表示される。ここで、表示されている特許文献のイメージデータの識別番号一覧には、各識別番号に対応する特許文献のイメージデータへのリンクが設けられているため、表示されている識別番号をポインティングデバイスを用いて選択しクリックすることにより、特許文献のイメージデータを表示部14に表示することができる。この時、特許文献のイメージデータは、検索イメージデータと設定された適合率で一致したイメージデータが存在する部分を含む所定範囲を識別可能に、例えば、一致した文字列のイメージデータが存在する行の部分を白黒反転させる等により、一致部分を視覚的に容易に認識することができるように表示部14に表示される。
この発明を実施するための最良の形態に係るイメージデータ文書検索システムによれば、イメージデータとして蓄積されている特許文献の中から、所望の特許文献のイメージデータを、検索イメージデータを用いて容易に検索することができる。また、従来、特許文献のイメージデータを検索する際に必要であった検索用インデックスを予め作成することなく、特許文献のイメージデータを取得後、遅滞なく取得された特許文献のイメージデータの検索を行うことができるため、特許文献のイメージデータについての検索を可能にするための手間を大幅に削減することができる。また、検索用インデックスを用いる必要がないため、設定されたキーワードが不適切であったりOCRによる文字認識の精度が低いことによる検索精度の低下を防止し、高精度の検索を行うことができる。
また、この発明を実施するための最良の形態に係るイメージデータ文書検索システムによれば、検索インデックスを作成することなく文書のイメージデータを検索することができる。従って、例えば、イメージデータは取得されているがテキストデータは取得されていない、即ち、テキスト化されていない特許文献について、検索インデックスを作成するという膨大な時間を要する作業を経ることなく、容易、かつ、迅速に検索対象とすることができる。
また、この発明を実施するための最良の形態に係るイメージデータ文書検索システムによれば、入力された検索文字列に基づいて作成される検索イメージデータを作成する際の条件を設定することができる。従って、検索対象となる文書に用いられている字体及びフォントサイズが予め明らかになっている場合には、字体及びフォントサイズを指定して検索イメージデータを作成することができるため高精度な検索を行うことができる。
また、この発明を実施するための最良の形態に係るイメージデータ文書検索システムによれば、検索イメージデータを用いて検索を行う際の検索条件として、ビットマッチングにおける適合率を任意に指定することができる。従って、高精度の検索を行う場合や幅広い検索を行う場合等、検索の目的に合わせて適合率を調整することができる。また、例えば、イメージスキャナを用いて特許文献のイメージデータを取得する際に混入したごみの陰影等に影響されることなく、的確な検索を行うことができる。また、イメージデータとして蓄積されている文書の様式が特許文献のように規格化されている場合には、検索を行う際の検索条件として検索範囲を任意に指定し効率的な検索を行うことができる。
また、この発明を実施するための最良の形態に係るイメージデータ文書検索システムによれば、検索文字列の同義語・類義語についてもイメージデータを作成して検索を行うことができる。従って、より精度の高い検索を容易に行うことができる。
また、この発明を実施するための最良の形態に係るイメージデータ文書検索システムによれば、検索結果を表示する際に、検索イメージデータと一致した部分と共にその周辺部分、即ち、検索イメージデータと一致したイメージデータを含む行全体を、例えば、白黒反転させる等によりハイライト表示している。従って、例えば、検索イメージデータと一致するイメージデータがどのような文脈で出現しているか、又は、どの項目に対応している文字列なのかを視覚的に容易に把握することができる。
なお、上述のイメージデータ文書検索システムにおいては、特許文献のイメージデータを検索対象としているが、その他の文書のイメージデータを検索対象としてもよい。例えば、契約書等、原則として紙媒体により保存する必要がある文書のイメージデータを取得して検索対象とするようにしてもよい。ここで、契約書のように、例えば、個人の署名が記載されている文書や、手書きの文書のイメージデータを取得して検索対象とする場合には、手書き文字のイメージデータ変換テーブルを備えるようにしてもよい。即ち、通常、企業等において契約書に署名を行う人物は限られているため、該人物の署名のイメージデータを該人物の氏名と対応させて記憶し、署名を行う人物の氏名が入力された場合には、該氏名に対応する署名のイメージデータを検索イメージデータとして検索を行うようにしてもよい。また、直接手書き入力を行い、手書きにより入力された文字列に基づいて検索イメージデータを作成することにより検索を行うようにしてもよい。
また、特許文献のように文字及びフォントサイズが予め規格化されている文書であっても、所定期間毎に文字又はフォントサイズが変更される場合がある。このような場合には、例えば、予め所定期間内に発行された特許文献の一部に文字認識処理を施し、文字及びフォントサイズを特定するためのコード表を作成しておくようにしてもよい。この場合には、作成されたコード表を辞書データベースとして用い、テキスト化されていない特許文献を検索する際に、検索を行う前に特許文献のイメージデータの一部について文字認識処理を施し、認識結果と辞書データベースに基づいて特許文献の文字及びフォントを特定することができる。そのため、的確な文字及びフォントサイズのイメージデータを作成し高精度の検索を行うことができる。
また、上述のイメージデータ文書検索システムにおいては、シソーラス辞書データとして、任意の語の同義語・類義語の辞書データとしてテキストデータが記憶されているが、同義語・類義語の辞書データとしてイメージデータを記憶するようにしてもよい。また、同義語・類義語の辞書データとしてイメージデータを記憶する場合には、文字列のイメージデータ以外に、任意の語を意味する図形や記号等のイメージデータを記憶するようにしてもよい。
また、上述のイメージデータ文書検索システムにおいては、設定された検索イメージデータ作成条件に従い、入力された検索文字列に基づいて検索イメージデータを作成しているが、検索対象となる文書の文字列を認識し、認識結果に基づいて検索イメージデータを作成するようにしてもよい。即ち、イメージデータ文書検索システムにおいて文字認識装置を備え、検索イメージデータを作成する前に、検索対象のイメージデータの一部の文字列の字体及びフォントサイズを認識し、認識結果に基づいて検索イメージデータを作成するようにしてもよい。また、イメージデータの文書が縦書きか横書きかを特定し、縦書きの文書と特定された場合には縦書きの検索イメージデータを作成すると共に、スキャンを行う方向を縦方向にする等の調整を行うようにしてもよい。
また、上述のイメージデータ文書検索システムにおいては、検索イメージデータ作成条件において、字体及びフォントサイズ(サイズ)をそれぞれ一つ指定しているが、複数の字体及びフォントサイズを指定するようにしてもよい。また、複数の字体及び複数のフォントサイズが指定されている場合には、字体毎に作成された複数のフォントサイズの検索イメージデータの何れかと一致するイメージデータを含む文書のイメージデータを検索するようにしてもよい。また、文字の太さを指定することができるようにし、指定された文字の太さに基づいて検索イメージデータを作成することができるようにしてもよい。また、入力された文字列に下線が付されている場合には、下線部分も含めて検索イメージデータを作成するようにしてもよい。
また、文字認識装置による文字の認識結果に基づいて検索イメージデータを作成する際に、複数の字体、複数のフォントサイズ又は太字の文字等が認識された場合には、これらの認識結果に基づいて、複数の検索イメージデータを作成して検索を行うようにしてもよい。これらの場合には、複数の字体、複数のフォントサイズ、通常の文字と太字の文字等の各種の文字のイメージデータが混在する文書のイメージデータについて的確な検索を行うことができる。
また、上述のイメージデータ検索システムにおいては、検索条件としてビットマッチングによる一致度合い及び検索を行う範囲を設定しているが、その他の条件を設定するようにしてもよい。例えば、検索対象である特許文献のイメージデータが年度別にイメージデータ特許文献記憶部に記憶されている場合には、検索条件として、検索対象とする特許文献の期間を更に設定することができるようにしてもよい。
また、ネットワークを介して接続されているユーザ端末から入力された検索文字列をネットワークを介して受信し検索を行うようにしてもよい。即ち、まず、ユーザ端末からネットワークを介して送信された検索文字列、検索イメージデータ作成条件及び検索条件を受信し、受信した検索イメージデータ作成条件に基づいて受信した検索文字列に基づく検索イメージデータを作成する。次に、作成された検索イメージデータを用い、受信した検索条件に基づいて文書のイメージデータの検索を行い、検索結果をネットワークを介してユーザ端末に送信するようにしてもよい。また、ユーザ端末においては、ネットワークを介してイメージデータ検索システムから送信された検索結果を受信し、検索結果を表示するようにしてもよい。
また、上述のイメージデータ文書検索システムにおいては、入力部を介して入力された検索文字列に基づいて検索イメージデータを作成して特許文献のイメージデータの検索を行っているが、検索文字列に代えて、直接、検索イメージデータを入力するようにしてもよい。例えば、イメージスキャナを介して図面のイメージデータを入力し、入力された図面のイメージデータを検索イメージデータとして検索を行うようにしてもよい。
この発明を実施するための最良の形態に係るイメージデータ文書検索システムのブロック構成図である。 この発明を実施するための最良の形態に係るイメージデータ文書検索システムにより文書のイメージデータ検索処理を説明するためのフローチャートである。 この発明を実施するための最良の形態に係る検索イメージデータ作成条件の一例を示す図である。 この発明を実施するための最良の形態に係る検索条件の一例を示す図である。
符号の説明
2…データ制御部、4…イメージスキャナ、6…入力部、8…イメージデータ特許文献記憶部、10…シソーラス辞書データ記憶部、12…データ記憶部、14…表示部。

Claims (1)

  1. 文書のイメージデータを記憶するイメージデータ文書記憶手段と、
    前記イメージデータ文書記憶手段に記憶されている文書のイメージデータの中から所望のイメージデータを検索するための検索文字列を入力する検索文字列入力手段と、
    所定期間毎の前記文書の字体及びフォントサイズを特定したコード表を記憶する記憶手段と、
    前記イメージデータ文書記憶手段に記憶されている前記文書について文字認識処理を行なう手段と、
    前記文書の一部について予め行なった前記文字認識処理の結果と、前記記憶手段に記憶されている前記コード表を用いて、前記結果に含まれる期間に対応する字体及びフォントサイズを特定し、前記イメージデータ文書記憶手段に記憶されている文書のイメージデータを検索する際の字体及びフォントサイズを含む検索イメージデータ作成条件を設定する検索イメージデータ作成条件設定手段と、
    前記検索イメージデータ作成条件設定手段により設定された字体及びフォントサイズを含む検索イメージデータ作成条件に従って、前記検索文字列入力手段により入力された前記検索文字列の検索イメージデータを作成する検索イメージデータ作成手段と、
    前記イメージデータ文書記憶手段に記憶されている文書のイメージデータをビットマップに展開すると共に、前記検索イメージデータ作成手段により作成された検索イメージデータをビットマップに展開し、前記文書のイメージデータのビットマップにおいて、前記検索イメージデータのビットマップと同一の大きさのドット領域を指定し、該ドット領域と前記検索イメージデータのビットマップのドットとを比較することにより、前記イメージデータ文書記憶手段に記憶されている文書のイメージデータの中から前記所望のイメージデータを検索する検索手段と
    を備えることを特徴とするイメージデータ文書検索システム。
JP2003282325A 2003-07-30 2003-07-30 イメージデータ文書検索システム Expired - Fee Related JP3958722B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003282325A JP3958722B2 (ja) 2003-07-30 2003-07-30 イメージデータ文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003282325A JP3958722B2 (ja) 2003-07-30 2003-07-30 イメージデータ文書検索システム

Publications (2)

Publication Number Publication Date
JP2005050175A JP2005050175A (ja) 2005-02-24
JP3958722B2 true JP3958722B2 (ja) 2007-08-15

Family

ID=34267571

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003282325A Expired - Fee Related JP3958722B2 (ja) 2003-07-30 2003-07-30 イメージデータ文書検索システム

Country Status (1)

Country Link
JP (1) JP3958722B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146603A (ja) * 2006-12-13 2008-06-26 Canon Inc 文書検索装置、文書検索方法、プログラム及び記憶媒体
WO2011077889A1 (ja) * 2009-12-21 2011-06-30 日本電気株式会社 類似文書検索装置、類似文書検索システム、類似文書検索方法及び類似文書検索プログラム
JP5787925B2 (ja) * 2013-03-22 2015-09-30 ヤフー株式会社 検索装置、検索プログラム、および検索方法
JP6534355B2 (ja) * 2016-02-26 2019-06-26 株式会社スカイコム Pdfファイル管理システム、pdfファイル管理サーバ、pdfファイルデータ取得サーバ、pdfファイル管理方法、pdfファイルデータ取得方法、pdfファイル管理プログラム、およびpdfファイルデータ取得プログラム

Also Published As

Publication number Publication date
JP2005050175A (ja) 2005-02-24

Similar Documents

Publication Publication Date Title
US5717940A (en) Method of selecting a target document using features of an example page
EP0844583B1 (en) Method and apparatus for character recognition
US8429154B2 (en) Document search device, imaging forming apparatus, and document search system
JP3425408B2 (ja) 文書読取装置
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
US20100061634A1 (en) Method of Retrieving Information from a Digital Image
US20080222095A1 (en) Document management system
US10963717B1 (en) Auto-correction of pattern defined strings
JPH07200786A (ja) ファイリング装置
US20210042518A1 (en) Method and system for human-vision-like scans of unstructured text data to detect information-of-interest
US11663408B1 (en) OCR error correction
US7716639B2 (en) Specification wizard
JP3958722B2 (ja) イメージデータ文書検索システム
US8549008B1 (en) Determining section information of a digital volume
JP7086424B1 (ja) 特許用文章生成装置、特許用文章生成方法、および特許用文章生成プログラム
CN112149402B (zh) 文档对比方法、装置、电子设备和计算机可读存储介质
JPH08263587A (ja) 文書入力方法および文書入力装置
JP3841318B2 (ja) アイコン生成方法、ドキュメント検索方法及びドキュメント・サーバー
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JPH1011443A (ja) 文書符号検査システム
JP2008210229A (ja) 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム
JP3371983B2 (ja) 不完全文字列と文字列の照合方法および装置
JPH11232303A (ja) テキスト検索装置
JP2932667B2 (ja) 情報の検索方法および情報蓄積装置
JPS62249269A (ja) 文書処理装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060207

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070510

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100518

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110518

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110518

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130518

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130518

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140518

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees