JP5289032B2 - 文書検索装置 - Google Patents

文書検索装置 Download PDF

Info

Publication number
JP5289032B2
JP5289032B2 JP2008326286A JP2008326286A JP5289032B2 JP 5289032 B2 JP5289032 B2 JP 5289032B2 JP 2008326286 A JP2008326286 A JP 2008326286A JP 2008326286 A JP2008326286 A JP 2008326286A JP 5289032 B2 JP5289032 B2 JP 5289032B2
Authority
JP
Japan
Prior art keywords
character
search
normalization
document
character code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008326286A
Other languages
English (en)
Other versions
JP2010146509A (ja
Inventor
敬 平野
康裕 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2008326286A priority Critical patent/JP5289032B2/ja
Publication of JP2010146509A publication Critical patent/JP2010146509A/ja
Application granted granted Critical
Publication of JP5289032B2 publication Critical patent/JP5289032B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、文書を検索する際に、文字コードを正規化して検索処理を行う文書検索装置に関する。
従来の文書検索アルゴリズムとしてN-Gram検索方式がある。
図9はN-Gram検索方式における、電子テキストに対する検索インデックス生成処理を示す。ここでは、まず文書010番から抽出した電子テキスト 201を先頭から読み出して、N文字ずつの文字ペアを取り出す。例えば、N=2の場合は電子テキスト201から“本書”、“書で”、“では”、“は東”といった文字ペアの要素を取得する。
次に、この文字ペアの要素と、この要素が出現した文書中の位置をその領域内に格納した出現位置データとの対応表からなる検索インデックス202を作成する。文書検索時は、検索キーワード“東洋思想”が与えられた場合、この検索キーワードを文字ペア“東洋”と“思想”に分解し、検索インデックス202内の出現位置データを参照することで該文字ペアが文書中のどの位置にあるかを求める。そして、これらの文字ペアが、同じ文書中の隣接した位置に存在する場合、この文書内に検索キーワードと同じ文字列が含まれていると判定する。
図10はN-Gram検索方式における、イメージに対する検索インデックス生成処理を示す。イメージ301に対して文字認識処理を行うと、候補文字付きの文字認識結果302を得る。検索インデックス生成処理では、候補文字の組合せ中から文字ペアを抽出して、検索インデックスに格納する。ただし、電子テキストの場合と異なり2つの検索インデックスを持つ。一つは第1位検索インデックス303であり、ここには第1位の候補文字から得た文字ペアのみを格納する。もう一つは候補文字検索インデックス304であり、ここには第2位以降の候補文字を含む文字ペアを格納する。検索時は両方の検索インデックスを参照し、第1位検索インデックス303のみで見つかった文書には高いスコアを付与する。逆に候補文字検索インデックス304で見つかった文書には低めのスコアを付与する。これにより、文字認識結果が誤っている可能性がある場合は検索結果のランキングを下げることができ、漏れなく高精度な検索を実現している。
上記のN-Gram検索方式は、検索キーワードに含まれる文字コードと、検索対象とするテキストの文字コードが同一か否かを照合することで検索処理を実現している。しかし、文書に含まれる文字コードには、半角文字や全角文字、旧字体や新字体が存在しており、単純な文字コードの比較では、半角のカタカナ文字を含む文書が、全角カタカナ文字の検索キーワードで検索できない課題がある。
Figure 0005289032
これに対して、文字コードを正規化して比較を行う技術が特開2001-125915号公報(特許文献1)に開示されている。
特許文献1に開示されている技術は、電子的なテキストを対象として、意味的に等価な文字コードを正規化するものである。ここでは正規化したテキストと、同じ規則で正規化した検索キーワードを照合することで、正規化前のテキストと検索キーワードの文字コードが完全に一致しなくても、検索キーワードを含むテキストを検索可能としている。
Figure 0005289032
上記の特許文献1は、電子的なテキストに対する正規化だが、イメージを文字認識した結果に対する正規化の技術が再表97/03942号(特許文献2)に開示されている。
特許文献2の開示技術は、文字認識結果の文字コードと、字形が類似した文字を同型文字と称して正規化する技術である。文字認識して得た文字コードを、同型文字に正規化して辞書中の用語と照合を行うことにより、文字認識結果が誤認識している場合でも、辞書との照合を可能としている。例えば文字認識結果が“大エ”(漢字の“大”とカタカナの“エ”)であった場合でも、カタカナの“エ”と漢字の“工”を同型文字とすることで、辞書中の用語“大工”(漢字の“大”と漢字の“工”)と照合することができる。
次に、多言語の文書を扱う場合に必要な文字コードの正規化を考える。
この場合、検索で必要な正規化は幾つかに分類できると考える。図2は、その文字コードの正規化の分類例を示す。ここで正規化は大きく2種類に大別できる。
一つは、1文字を別の1文字に正規化する「(1)1対1の正規化」、
もう一つは、1文字を複数文字に正規化(もしくは複数文字を1文字に正規化)する「 (2)1対多/多対1の正規化」である。
ここで「(1)1対1の正規化」は、4つに細分類できる。
まず「(イ)等価文字」は、日本語の半角カタカナと全角カタカナの正規化のような、意味的に等価な文字コードの正規化である。特許文献1に示された技術は、この正規化にあたる。
次に「(ロ)異体字」は、中国語の簡体字と繁体字のように、同じ意味の漢字だが、文字コードと字形が異なるものである。
また「(ハ)異発音文字」は同じラテン語系の文字だがダイアクリティカルマーク(ドイツ語のウムラウトやスペイン語のチルダ、ポーランド語のオゴネク等)が付いた文字や、日本語の大文字の“ア”と小文字の“ァ”のように発音が異なる文字の正規化である。
さらに「(ニ)同型文字」は文字認識誤りを吸収するために類似形状を持つ文字を正規化するものであり、例えば“1”と“l”や“|”を、ある文字コードに正規化する。特許文献2に示された技術は、この同型文字の正規化にあたる。
また「(2)1対多/多対1の正規化」は、「(イ)半角・全角」「(ロ)ラテンリガチャ」「(ハ)特殊リガチャ」「(ニ)成型用文字」「(ホ)正規分解表記可能文字」などの5つに分類できるが、これらはいずれも意味的には等価な正規化である。
Figure 0005289032
また「(ロ)ラテンリガチャ」は、1個の文字コード“ ffi ”が、3文字“ f ”+“ f ”+“ i ”に分解されるといった正規化を示す。
Figure 0005289032
さらに「(ニ)成型用文字」は、アラビア語においてkashida(文字列幅が揃うよう成型するために、文字の後ろに挿入する特殊記号)付きの文字コードを、Kashida無しの文字コードとする正規化を示す。
またさらに「(ホ)正規分解表記可能文字」はUnicodeの規約で規定された文字コードの正規化であり、
Figure 0005289032
特開2001-125915号公報「情報検索装置」 国際公開第97/039423号パンフレット「情報処理装置」
複数種類の言語を検索対象とし、多様な種類の文書(電子文書やイメージ文書、電子テキストとイメージが混在した文書等)を扱う文書検索装置において、特許文献1と特許文献2に記載の文字コード正規化を適用した場合、いくつかの課題がある。
まず「(1)1対1の正規化」の「(イ)等価文字」と「(2)1対多/多対1の正規化」に含まれる正規化は、実施しても意味的には変化しない正規化である。従って、正規化前の文字コードで検索ヒットした場合でも、正規化後の文字コードでヒットした場合でも検索スコアは同一にしたい。逆に「(1)1対1の正規化」の「(ロ)異体字」と「(ハ)異発音文字」と「(ニ)同型文字」については、意味的に完全に等価ではない。従って、正規化前の検索キーワードと正規化前のテキストが全く同じ文字コードであった場合は検索スコアを高くし、正規化前の検索キーワードと正規化前のテキストが異なる場合は、検索されるものの、その検索スコアを下げることが望まれる。
しかし、特許文献1と特許文献2に記載の文字コード正規化を適用した場合、正規化前の文字コードを正規化後の文字コードで置き換えてしまうため、元の文字コードが何であったかは不明となる。そのため、「(1)1対1の正規化」の「(ロ)異体字」と「(ハ)異発音文字」と「(ニ)同型文字」については、正規化前の検索キーワードと正規化前のテキストが全く同じ文字コードであった場合と、異なる文字コードであった場合で検索スコアを変えることができない課題があった。
また、「(1)1対1の正規化」の「(ニ)同型文字」を用いた正規化処理を全文書に適用すると、文字認識結果ではない電子的なテキストに対しても正規化が行われてしまい、イメージの検索漏れは削減されるが電子文書の検索ゴミが増加する課題があった。
さらに、文書検索システムには、文書中で文字コードが存在している位置(文字の左上点座標値)と大きさ(文字のポイント数)を検索インデックス内に格納しておくことで、文書中の検索キーワードと合致した文字列領域を強調表示して、どこに検索キーワードがあるかを簡単に把握できるようにしたものがある。しかし、「(2)1対多/多対1の正規化」の正規化を行った場合、正規化後の文字が持つ文字位置と大きさ情報が不定となるため、正しく強調表示できない課題があった。
またさらに多言語の文書を扱う場合、日本語と中国語では同じ文字コードを持つ漢字が利用されるが、ある漢字は、日本語と中国語で異なる正規化が行われる。そのため入力された文書の言語種類を区別せずに同じ正規化を行うと、誤った正規化により誤検索が発生する課題があった。
この発明は上記のような問題点を解決するためになされたものであり、正規化の種類を4つに分類して種類毎に異なった処理を行う。また、正規化後の文字位置と大きさを、指定した座標計算式に則って正規化前の文字位置と大きさから算出する処理を適用する。さらに、文書の言語種類で正規化する内容を切り替える。これにより多言語文書の検索精度を高めると共に、文書中の検索キーワード位置を正確に求めることを目的とする。
この発明に係る文書検索装置は、検索文書内の電子的なテキストを抽出し、文字コードを得る電子テキスト抽出部と、検索文書内のイメージを文字認識し、候補文字付きの文字コードを得る文字認識部と、文字コードに対し、異なる処理を施すための等価文字テーブルと、異体・異発音文字テーブルと、分解合成文字テーブルと、同型文字テーブルと、電子テキスト抽出部と文字認識部から得た文字コードから上記各テーブルを参照し、N-Gram形式の検索インデックスを作成する検索インデックス生成部と、作成された検索インデックスと入力された検索キーワードを比較し検索キーワードを含む文書を検索する検索処理部とを備え、
検索インデックス生成部は、電子テキスト抽出部で得た文字コードに対しては同型文字テーブル以外のテーブルを参照し、文字認識部から得た候補文字付きの文字コードに対しては全てのテーブルを参照して文字コードを正規化処理すると共に、正規化処理時に、分解統合された文字の座標位置情報を分解統合前の文字座標位置情報から算出して正規化文字コードと対応した検索インデックスを生成し、
検索処理部は、入力された検索キーワードに対して全てのテーブルを参照して検索キーワードを正規化し、正規化された検索キーワードを検索インデックスと照合して検索キーワードを含む文書と照合時の検索スコアを出力する。
この発明に係る文書検索装置によれば、文字コードの正規化処理に参照するテーブルをテーブル毎に異なる正規化を実施する等価文字テーブルと異体・異発音文字テーブルと分解合成文字テーブルと同型文字テーブルに分け、電子テキスト抽出部で抽出された電子的なテキストには同型文字テーブルを適用せず、他のテーブルを適用し、文字認識部で文字認識した文書中のイメージ結果に対しては全てのテーブルを適用ことで、文書中に電子的なテキストとイメージが混在している場合でも、電子的なテキストを同型文字テーブルで正規化して、誤検索を引き起こす問題がなくなる。また、検索スコアを各テーブル処理に応じて適応させることができる。
実施の形態1.
図1はこの発明の実施の形態1を示す基本構成図である。図1において、文書ファイル101は、検索対象とする文書ファイルである。文書解析処理部112は、文書ファイル101の内容を解析して検索インデックス105を作成する。検索処理部111は、ユーザから検索キーワードが入力された際、その検索キーワードを検索インデックス105と照合して、ヒットした文書と、その検索スコアをユーザに返す。文字正規化テーブル110は、正規化用のデータを格納したテーブルであり、文書解析処理部112と検索処理部111はこのテーブルを参照して文字コードを正規化する。
上記文書解析処理部112は、文書ファイル101から電子的なテキストを抜き出す電子テキスト抽出部102と、文書ファイル101中に含まれるイメージを文字認識処理する文字認識部103と、これら電子テキスト抽出部102と文字認識部103から抽出した文字情報から、検索インデックス105を生成する検索インデックス生成部104から成る。
また上記文字正規化テーブル110は、意味的に等価で1対1文字の正規化を行う等価文字テーブル106(図2の401に対応)と、意味的に完全な等価性はなくて検索キーワードと文書の文字コードが一致しない場合は、その検索スコアを下げたい異体・異発音文字テーブル107(図2の402に対応)と、意味的に等価であり1対多/多対1文字の正規化を行う分解合成文字テーブル108(図2の404に対応)と、意味的には異なるが類似した文字形状を持つ文字コードを正規化する同型文字テーブル109(図2の403に対応)から成る。
以下、図1から図6までを適宜参照しつつ、この発明の処理内容について説明する。まずは、文書ファイル101を解析して検索インデックス105を生成する処理について、その動作を説明する。
図1において、文書ファイル101を文書解析処理部112が入力した場合、まず電子テキスト抽出部102は、文書ファイル101内に電子的なテキストが含まれていたら、この電子的なテキストの文字コードと文字位置・大きさ情報を抽出する。次に文字認識部103は、文書ファイル101内にイメージが含まれていた場合、そのイメージ領域を文字認識処理した候補文字付きテキスト(各候補文字の文字コードと、文字位置・大きさ情報を持つ)を抽出する。ここで文書ファイル101が、イメージと電子的なテキストが混在した文書である場合は、電子的なテキストと文字認識処理した候補文字付きテキストの両方が抽出される。
次に、検索インデックス生成部104は、文字正規化テーブル110を参照して文字コードを正規化し、検索インデックス105を作成する。ここで、検索インデックス生成部104は電子テキスト抽出部102で得た電子的なテキストについて、等価文字テーブル106と異体・異発音文字テーブル107と分解合成文字テーブル108を用いて正規化を行う。
図3は、電子的なテキストに対する正規化処理の例を示す。
電子的テキスト501は文書ファイル101から抽出した電子的なテキストの例であり、文書からA1、 B1、 C1、 D1という文字コードから成る4文字の文字列が抽出されたことを示す。ここで、等価文字テーブル106に、文字コードB1を文字コードB'に正規化すると記述されている場合、電子的テキスト501中の文字コードB1を削除してB'に置き換えた正規化後のデータ502を作成する。また、異体・異発音文字テーブル107に、文字コードC1を文字コードC'に正規化すると記述されている場合は、電子的テキスト501中に文字コードC1が存在していたら、その第2位の候補文字にC'を追加して、正規化後のデータ504を作成する。また、分解合成文字テーブル108に、文字コードD1をD'1とD'2の二文字に正規化すると記述されている場合は、電子テキスト501中の文字コードD1を削除してD'1とD'2の二文字に置き換え、正規化後のデータ506を作成する。
次に、検索インデックス生成部104は、文字認識部103で得た文字認識結果に対して、等価文字テーブル106と異体・異発音文字テーブル107と分解合成文字テーブル108と同型文字テーブル109を用いて正規化を行う。
図4は、文字認識結果に対する正規化の例を示す。
文字認識結果601は、イメージを文字認識した結果の例であり、文書ファイル101からA1、 B1、 C1、 D1という4文字の認識結果が得られたことを示す。そして2番目の文字B1は2つの候補文字B2、 B3を持ち、3番目と4番目の文字C1と D1 は、各々1つの候補文字C2とD2を持つことを示す。
ここで等価文字テーブル106に文字コードB2をB'に正規化すると記述されている場合、文字認識結果601内の全文字コードから、文字コードB2を探す。文字コードB2が見つかった場合は、これを削除して文字コードB'に置き換えた文字認識結果602を作成する。この際、B'の候補文字順位は、正規化前のB2の候補文字順位と同じとする。
また、異体・異発音文字テーブル107に文字コードC2=C'と記述されている場合、文字認識結果601内の全文字コードから、文字コードC2を探す。文字コードC2が見つかった場合は、この一つ後ろの候補文字としてC'を追加した文字認識結果604を作成する。
また、分解合成文字テーブル108に文字コードD2がD'1 とD'2 の二文字に正規化すると記述されている場合は、文字認識結果601内の全文字コードから、文字コードD2を探す。文字コードD2が見つかった場合は、これを削除して文字コードD'1 とD'2 に置き換えた文字認識結果606を作成する。ここで置き換えた後の文字コードD'1 とD'2 が持つ候補文字順位は、正規化前の文字コードD2が持つ候補文字位置と同じとする。
また、同型文字テーブル109に文字コードD1=Ψと記載されていた場合、文字認識結果601内の全文字コードから、文字コードD1を探す。文字コードD1が見つかった場合は、この一つ後ろの候補文字としてΨを追加した文字認識結果608を作成する。ここでΨは、類似した字形を持つ文字コード群を1つのグループにまとめた、グループの番号を示すコードである。
検索インデックス生成部104は、上記のように文字コードを正規化する際、正規化前の文字コードが持つ文字位置・大きさから、正規化後の文字コードが持つ文字位置・大きさを求めて、これを検索インデックス104内に格納する。この文字位置・大きさの算出方法は、1対1文字の正規化を行う場合(等価文字テーブル106、異体・異発音文字テーブル107、同型文字テーブル109を利用)と、1対多/多対1文字の正規化を行う場合(分解合成文字テーブル108を利用)で異なる。
図5は文字位置・大きさの算出処理例を示す。
まず、1対1文字の正規化について述べる。ここで等価文字テーブル106にB1=B'と記載されている場合、この等価文字テーブル106を元に電子的なテキストを正規化すると、正規化後の電子的テキスト701が得られる。正規化前の文字コードB1は文字位置・大きさ情報702を持っている。ここで文字位置・大きさ情報702中のSX、 SYは文字の左上点位置座標を、W, Hは文字の幅,高さを示す。ここで正規化後の文字コードB'には、正規化前の文字コードB1が単純に置き換えられただけなので、正規化前の文字コードと同じ文字位置・大きさ情報703を付与する。
次に、1対多文字の正規化を行う場合について述べる。例えば、分解合成文字テーブル108に従って正規化後のテキスト705を得る場合、正規化後の文字コードD'1 とD'2 が持つ文字位置・大きさ情報707は、分解合成文字テーブル108に記載された座標計算条件709と、正規化前の文字コードD1が持つ文字位置・大きさ情報706から算出する。例えば、座標計算条件709に示した式は、D'1 の文字幅(D'1 ,W)とD'2 の文字幅(D'2 ,W)が、0.5×D1の文字幅(D1,W)であることを示す。そのため、正規化前の文字D1がもつ文字幅Wが60である場合、正規化後の文字D'1 とD'2 が持つ文字幅Wは30となる。
多対1文字の正規化を行う場合も同様に、正規化前の文字コードがもつ文字位置・大きさ座標7011と、分解合成文字テーブル108に記載された座標計算条件7014に従って、正規化後の文字コードが持つ文字位置・大きさ情報7012を求める。この例では、文字コードB1+C1+D1を1個の文字コードB'に正規化して、正規化後のテキスト7010を得ている。ここで座標計算条件7014には、正規化後の文字コードB'の文字幅(B',W)が、正規化前の文字コードB1とC1とD1の文字幅の合計であると記載されている。そのため、文字コードB1とC1とD1の各文字幅Wが60である場合、正規化後の文字コードB'の文字幅Wは180であると算出される。
上記のように電子的テキストに対する正規化と、文字認識結果に対する正規化を行った後、最後に検索インデックス生成部104は、正規化後のデータからN-Gram検索インデックス105を生成する。ここでN-Gram検索インデックスの生成は図10と同様に、候補文字を考慮した検索インデックスを生成する。
実際に検索処理を行う場合は、まず検索処理部111はユーザが入力した検索キーワードを受け取る。そして、検索処理部111はこの検索キーワードの文字コードに対して、検索インデックス生成部104で適用した文字正規化テーブル110を用いて、検索インデックス生成部104と同様な正規化処理をする。この正規化後の検索キーワードを、検索インデックス105の内容と照合を行い、該検索キーワードを含む文書と、その検索スコアを計算する。検索処理では第1位の候補文字から求めたN-Gramでのみヒットした場合は、高い検索スコアを与える。また第2位以降の候補文字から求めたN-Gramでヒットした場合は、低めの検索スコアを与える。
Figure 0005289032
また、別の文書Bの第1位候補文字に“面”という文字があった場合は、そのままとなる。従って、双方とも第1位候補文字のままであるため、検索キーワード“面”で検索処理を行った場合に文書Aと文書Bの双方が同じスコアになる。しかしこの明細書で記載しているように、例えば異体・異発音文字は一つ後ろの候補文字として追加するようにすれば、文書Aの第2候補文字に“面”が追加される。第2候補文字と合致した場合は、第1候補文字と合致した場合よりも検索スコアが低く計算されるため、検索キーワード“面”で検索処理を行った場合に文書Aと文書Bの双方がヒットするが、文書Bの方が高い検索スコアが得られるようになる。最後に検索処理部111は、ヒットした文書と、その検索スコアをユーザに返し、処理を終える。
なお、検索処理部111は、検索ヒットした文字の位置と大きさ情報を検索インデックス105から読み出すことで、文書中の検索ヒット位置をユーザに返して、文書中の検索ヒット位置を強調表示することが可能である。
図6は、検索ヒット位置の強調表示例を示す。
Figure 0005289032
分解合成文字テーブル108に記載された座標計算条件に従い正規化後の文字の位置・大きさを決定することで、検索キーワード“ 株 ”に合致した文字列領域801を正確に強調表示することができる。
以上のように、この発明では、文字正規化テーブル110を等価文字テーブル106と異体・異発音文字テーブル107と分解合成文字テーブル108と同型文字テーブル109に分け、これらのテーブル毎に異なる正規化を実施することにより、正規化を行っても意味的に等価である、等価文字テーブル106と分解合成文字テーブル108に記載された正規化を行った場合は、正規化前の文字コードで検索された場合でも、正規化後の文字コードで検索された場合でも、それらの検索スコアは同一とすることができる。また、異体・異発音文字テーブル107と同型文字テーブル109に記載の正規化が適用された場合は、正規化後の文字コードを正規化前の文字コードの後ろの候補文字に追加することにより、正規化前の検索キーワードと正規化前のテキストが全く同じ文字コードであった場合は検索スコアが高いままとして、成果前の検索キーワードと正規化前のテキストが異なる場合は検索スコアを下げることが可能となる。さらに、同型文字テーブル109は文書中のイメージを文字認識した結果に対してのみ適用して、電子的なテキストには適用しないことにより、文書中に電子的なテキストとイメージが混在している場合でも、電子的なテキストを同型文字テーブルで正規化して、誤検索を引き起こす問題がなくなる。
また、1対1対応文字の正規化を行う場合は、正規化前の文字コードが持つ文字の位置・大きさを正規化後の文字コードが持つ文字位置・大きさとして利用する。そして、1対多/多対1文字の正規化を行う場合は、分解合成文字テーブル108に記載された座標計算条件と正規化前の文字コードがもつ文字位置・大きさ情報に従い、正規化後の文字の位置・大きさを決定する。これにより、正規化によって文字の位置・大きさが不定となる問題を解消し、検索でヒットした文字列領域を正確に強調表示することが可能となる。
実施の形態2.
図7は、この発明の実施の形態2における基本構成図である。言語判定部901以外の構成については実施の形態1と同様であるので、言語判定部901以外の手段についての説明は割愛する。
検索インデックス生成部104で、文字コードの正規化を行う際、言語判定部901は電子テキスト抽出部102と文字認識部103から得た文字コードの情報を元に、現在解析している文書ファイル101の言語種類(中国語か、日本語かなど)を判別する。この言語種類は、例えば抽出した文字コードと、その発生頻度から自動判別したり、文書ファイル101を登録する際にユーザが指定した言語情報から判定することができる。次に、検索インデックス生成部104は、文字正規化テーブル110を参照する際に、言語判定部901で得た言語種類をキーとして、対応した文字正規化テーブル110を読み込む。
図8は言語毎の文字正規化テーブルの例である。
例えば、言語判定部901で中国語だと判定された場合は中国語用の異体・異発音文字テーブル1001を、日本語と判定された場合は日本語用の異体・異発音文字テーブル1002を参照する。
Figure 0005289032
以上のように、言語種類を判定して、その結果を元に文字正規化テーブルを選択することで、複数の言語に対応した文字正規化テーブルを利用した場合に余計な箇所が検索される問題を抑制して、多言語文書を高精度に検索することができる。
この発明に係る文書検索装置は、検索キーワードにより、この検索キーワードを含む文書を検索する装置に適用され、特に複数の言語で記載された文書を検索する際に、文字コードを正規化して検索処理を行う多言語文書検索装置への適用が好適である。
この発明の実施の形態1における基本構成図である。 文字コード正規化テーブルの分類説明図である。 電子テキストに対する正規化処理の説明図である。 文字認識結果に対する正規化処理の説明図である。 文字位置・大きさの算出処理例の説明図である。 検索ヒット位置の強調表示例の説明図である。 この発明の実施の形態2における基本構成図である。 言語毎の文字正規化テーブル例の説明図である。 従来の電子テキストに対する検索インデックス生成の説明図である。 従来の文字認識結果に対する検索インデックス生成の説明図である。
符号の説明
101;文書ファイル、102;電子テキスト抽出部、103;文字認識部、104;検索インデックス生成部、105;検索インデックス、106;等価文字テーブル、107;異体・異発音文字テーブル、108;分解合成文字テーブル、109;同型文字テーブル、110;文字正規化テーブル、111;検索処理部、112;文書解析処理部、901;言語判別部。

Claims (6)

  1. 文書を指定検索キーワードで検索する文書検索装置において、検索文書内の電子的なテキストを抽出し、文字コードを得る電子テキスト抽出部と、検索文書内のイメージを文字認識し、候補文字付きの文字コードを得る文字認識部と、文字コードに対し、異なる処理を施すための等価文字テーブルと、異体・異発音文字テーブルと、分解合成文字テーブルと、同型文字テーブルと、電子テキスト抽出部と文字認識部から得た文字コードから上記各テーブルを参照し、N-Gram形式の検索インデックスを作成する検索インデックス生成部と、作成された検索インデックスと入力された検索キーワードを比較し検索キーワードを含む文書を検索する検索処理部とを備え、
    検索インデックス生成部は、電子テキスト抽出部で得た文字コードに対しては同型文字テーブル以外のテーブルを参照し、文字認識部から得た候補文字付きの文字コードに対しては全てのテーブルを参照して文字コードを正規化処理すると共に、正規化処理時に、分解統合された文字の座標位置情報を分解統合前の文字座標位置情報から算出して正規化文字コードと対応した検索インデックスを生成し、
    検索処理部は、入力された検索キーワードに対して全てのテーブルを参照して検索キーワードを正規化し、正規化された検索キーワードを検索インデックスと照合して検索キーワードを含む文書と照合時の検索スコアを出力することを特徴とする文書検索装置。
  2. 等価文字テーブルは、意味的に等価で1対1文字の正規化処理を、
    異体・異発音文字テーブルは、意味的に完全な等価性はなく検索キーワードと文書の文字コードが一致しない場合は、その検索スコアを下げる正規化処理を、
    分解合成文字テーブルは意味的に等価であり1対多/多対1文字の正規化処理を、
    同型文字テーブルは、意味的に異なるが類似した文字形状を持つ文字コードを正規化処理をするためのものであることを特徴とする請求項1記載の文書検索装置。
  3. 検索インデックス生成部は、電子テキスト抽出部で得た文字コードに対して、
    等価文字テーブルを参照して、正規化前の文字コードを当該テーブルに記載の文字コードで置き換え、
    異体・異発音文字テーブルを参照して、正規化前の文字コードの候補文字として当該テーブルに記載の文字コードを追加し、
    分解合成文字テーブルを参照して、正規化前の文字コードを当該テーブルに記載の文字コードで置き換える処理をし、この正規化後の候補文字付きテキストからN-Gram検索インデックスを生成することを特徴とする請求項2記載の文書検索装置。
  4. 検索インデックス生成部は、文字認識部から得た候補文字付きの文字コードに対して、全候補文字の文字コードを探索して、
    等価文字テーブルに記載の文字コードを見つけた場合、これを当該テーブルに記載の文字コードで置き換え、
    異体・異発音文字テーブルに記載の文字コードを見つけた場合、正規化前の文字コードの一つ後ろの候補文字に、当該テーブルに記載の文字コードを追加し、
    分解合成文字テーブルに記載の文字コードを見つけた場合は、これを当該テーブルに記載の文字コードで置き換え、
    同型文字テーブルに記載の文字コードを見つけた場合、候補文字の後ろに、その文字コードと形状が類似した文字コードのグループを表すコードを追加する処理をし、この正規化後の候補文字付きテキストからN-Gram検索インデックスを生成することを特徴とする請求項2または3記載の文書検索装置。
  5. 文字の座標位置情報は、文字コードが持つ文字位置・大きさ情報であり、
    検索インデックス生成部は、
    等価文字テーブルと異体・異発音文字テーブルと同型文字テーブルを参照して正規化した場合は、正規化後の文字コードが持つ文字位置・大きさ情報に、正規化前の文字コードが持つ文字位置・大きさ情報と同じ値を設定し、
    分解合成文字テーブルを用いて正規化した場合、分解合成文字テーブルに記載された座標計算条件に従って、正規化前の文字コードの文字位置・大きさ情報から正規化後の文字コードの文字位置・大きさ情報を算出することを特徴とする請求項1〜4の何れか1項に記載の文書検索装置。
  6. 検索文書の使用言語の種類を判別する言語判定部を備え、
    等価文字テーブルと、異体・異発音文字テーブルと、分解合成文字テーブルと、同型文字テーブルは言語毎に用意され、
    検索インデックス生成部は、言語判定部で判別された検索文書の使用言語の種類に応じて、上記各テーブルを言語毎に切り替えて文字コードの正規化を行うことを特徴とする請求項1〜5の何れか1項に記載の文書検索装置。
JP2008326286A 2008-12-22 2008-12-22 文書検索装置 Active JP5289032B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008326286A JP5289032B2 (ja) 2008-12-22 2008-12-22 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008326286A JP5289032B2 (ja) 2008-12-22 2008-12-22 文書検索装置

Publications (2)

Publication Number Publication Date
JP2010146509A JP2010146509A (ja) 2010-07-01
JP5289032B2 true JP5289032B2 (ja) 2013-09-11

Family

ID=42566842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008326286A Active JP5289032B2 (ja) 2008-12-22 2008-12-22 文書検索装置

Country Status (1)

Country Link
JP (1) JP5289032B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347994B (zh) * 2019-07-12 2023-06-30 北京香侬慧语科技有限责任公司 一种表格处理方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997039423A1 (fr) * 1996-04-17 1997-10-23 Hitachi, Ltd. Processeur de donnees
JP2001125915A (ja) * 1999-10-28 2001-05-11 Fujitsu Ltd 情報検索装置
CN101226596B (zh) * 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法

Also Published As

Publication number Publication date
JP2010146509A (ja) 2010-07-01

Similar Documents

Publication Publication Date Title
JP3427692B2 (ja) 文字認識方法および文字認識装置
JP5144940B2 (ja) 目次抽出におけるロバスト性向上
US7756871B2 (en) Article extraction
Fernández-Mota et al. Bh2m: The barcelona historical, handwritten marriages database
Choudhury et al. Figure metadata extraction from digital documents
US20120066213A1 (en) Information processing apparatus, information processing method, and computer program product
RU2006114696A (ru) Системы и способы для поиска с использованием запросов, написанных на языке и/или наборе символов, отличном от такового для целевых страниц
US9501557B2 (en) Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
Mei et al. Statistical learning for OCR text correction
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
JP5577546B2 (ja) 計算機システム
Wei et al. A method for removing inflectional suffixes in word spotting of Mongolian Kanjur
JP5289032B2 (ja) 文書検索装置
US20150199582A1 (en) Character recognition apparatus and method
KR102355731B1 (ko) 해석 프로그램, 해석 방법 및 해석 장치
JP2009020567A (ja) 文書検索装置
JP6648421B2 (ja) 文書を処理する情報処理装置、情報処理方法、およびプログラム
Mohapatra et al. Spell checker for OCR
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JPH103483A (ja) 情報検索装置
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
Shafait et al. Background variability modeling for statistical layout analysis
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
Balasooriya Improving and Measuring OCR Accuracy for Sinhala with Tesseract OCR Engine

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130604

R150 Certificate of patent or registration of utility model

Ref document number: 5289032

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250