JP5594134B2

JP5594134B2 - 文字列検索装置，文字列検索方法および文字列検索プログラム

Info

Publication number: JP5594134B2
Application number: JP2010293473A
Authority: JP
Inventors: 勇作藤井; 悦伸堀田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-12-28
Filing date: 2010-12-28
Publication date: 2014-09-24
Anticipated expiration: 2030-12-28
Also published as: JP2012141742A

Description

本発明は，認識結果のデータからキーワードの文字列を検索する文字列検索装置，文字列検索方法および文字列検索プログラムに関するものである。

近年，紙文書を電子化して保管する方法が普及している。書籍や様々な書類，文書等を，ドキュメントスキャナで文書画像などの電子化文書に変換して保管することにより，物理的な保管場所が大幅に節約される。また，文書等の電子化の際に，文書等に対して文字認識を実行し，後に全文検索等ができるように準備しておくことが行われている。このように文書等に対して文字認識を行っておくことで，電子化文書の大きな特徴である全文検索が行えるようになる。

ところが，文字認識の認識精度は１００％ではないため，従来から広く使われている検索キーワードの完全一致検索を用いて全文検索すると，目的の電子文書を見つけられない可能性がある。

これに対して，文字認識結果である検索対象データに対する検索キーワードを用いた検索において，ある程度の曖昧さを許容して検索を行うあいまい検索の技術が知られている。あいまい検索の技術では，検索結果として，検索キーワードと完全一致する文字列だけではなく，検索キーワードに所定範囲で類似する文字列も加えられる。

特開平１１−２３８０６８号公報

上述のあいまい検索の技術では，認識結果である検索対象データに対する検索キーワードを用いた検索において，目的とする文字列の発見率は高い。しかし，検索キーワードに所定以上類似する文字列がすべて抽出されるため，検索ノイズの発生率が高くなってしまうという問題がある。

一側面では本発明は，認識結果である検索対象データに対するあいまい検索において，検索ノイズを減らすことにより，検索精度を向上させる技術を提供することを目的とする。

１つの態様では，文字列検索装置は，文字認識，音声認識または点字認識により得られた検索対象データに対して，検索キーワードを用いたあいまい検索を行う検索実行部と，検索実行部により得られた検索結果文字列が検索キーワードと完全一致しない場合に，検索結果文字列に認識誤りが発生している可能性を判断する認識誤り評価部と，認識誤り評価部により，前記検索結果文字列に認識誤りが発生していないと判断された場合に，検索結果文字列を検索結果から除外する除外部とを備える。

認識結果である検索対象データに対するあいまい検索において，検索ノイズを減らして，検索精度を向上させることが可能となる。

あいまい検索を適用した際の検索結果を分類した例を示す図である。本実施の形態による文字列検索装置の構成例を示す図である。本実施の形態１による認識誤り評価部の構成例を示す図である。本実施の形態による文字列検索装置を実現するハードウェアの構成例を示す図である。本実施の形態１による認識結果・認識距離データの例を示す図である。本実施の形態１による認識結果・信頼度データの例を示す図である。本実施の形態の文字列検索装置による文字列検索処理フローチャートである。本実施の形態１の認識誤り評価部による認識誤り評価処理フローチャートである。本実施の形態２による認識誤り評価部の構成例を示す図である。本実施の形態２による言語辞書の例を示す図である。本実施の形態２による認識誤り評価の例を説明する図（１）である。本実施の形態２による認識誤り評価の例を説明する図（２）である。本実施の形態２の認識誤り評価部による単語検索処理フローチャートである。本実施の形態２の認識誤り評価部による認識誤り評価処理フローチャートである。本実施の形態３による認識誤り評価部の構成例を示す図である。本実施の形態３による認識誤り評価の例を説明する図である。本実施の形態３の認識誤り評価部による頻度算出処理フローチャートである。本実施の形態３の認識誤り評価部による認識誤り評価処理フローチャートである。本実施の形態４による認識誤り評価部の構成例を示す図である。本実施の形態４による認識誤り評価の例を説明する図である。本実施の形態４の認識誤り評価部による認識誤り評価処理フローチャートである。本実施の形態５による文字列検索装置の構成例を示す図である。本実施の形態５による文字列検索の例を説明する図である。本実施の形態５による文字列検索の例を説明する図である。本実施の形態５の文字列検索装置による文字列検索処理フローチャートである。

以下，本実施の形態について，図を用いて説明する。

認識結果のデータを検索対象データとし，文字認識誤りを考慮したキーワード検索は，従来からいくつかの技術が提案されている。

例えば，文字の認識誤りの傾向をデータベース化しておき，検索キーワードをそのデータベースに従って展開し，生成された文字列も検索キーワードに含めるという技術がある。この技術では，例えば，「字」と「宇」とは互いに類似文字であるとデータベースに登録しておく。「宇宙」を検索キーワードとした検索が行われるときには，データベースに基づいて「宇宙」と共に「字宙」のも検索が行われ，そのいずれかが発見された場合に，「宇宙」が検出されたものとして，その結果がユーザに示される。

また，文字認識誤りを考慮したキーワード検索の別の技術として，文字の脱落や挿入，文字認識結果の第Ｎ候補の入替えを考慮した技術がある。この技術では，検索対象のデータには，文字ごとに文字認識結果の第Ｎ候補までが記録されており，第Ｎ候補までの組合せによって検索キーワードが形成できた場合に，検索キーワードが発見されたと判断される。

例えば，紙上の画像に「宇宙」と言う文字列があったものとする。このとき，紙上の「宇」の文字に対する文字認識結果の候補は，第１候補：「宇」，第２候補：「字」，第３候補：「宅」であったものとする。また，紙上の「宙」の文字に対する文字認識結果の候補は，第１候補：「笛」，第２候補「宙」，第３候補：「富」であったものとする。

このとき，検索対象データに対して検索キーワード「宇宙」で検索を行うものとする。「宇宙」の「宇」が第１候補，「宇宙」の「宙」が第２候補に存在するので，それぞれ第１候補の「宇」と第２候補の「宙」と組み合わせると，「宇宙」の文字列が形成される。したがって，検索キーワード「宇宙」で検索を行ったときに，紙上の「宇宙」が正しく発見される。

これらの技術については，例えば，次の参考文献１に記載されている。

〔参考文献１〕
丸川勝美，藤澤浩道，嶋好博, 「認識機能の出力あいまい性を許容した情報検索手法の一検討」, 電子情報通信学会論文誌 D Vol.J79-D2 No.5 pp.785-794,1996.05
また，検索キーワード中の文字の脱落や，文字の置換，ノイズ文字の挿入を所定の範囲内で許容し，キーワードを検索するあいまい検索の技術がある。この技術については，例えば，次の参考文献２に記載されている。

〔参考文献２〕
喜田拓也, 「誤りを許したＶＬＤＣパタン照合アルゴリズム」，社団法人電子情報通信学会技術研究報告, コンピュテーション，Vol.103 ，No.622(20040122) pp.61-68
類似文字を登録したデータベースを使用し，検索キーワードを展開し，検索キーワード数を増やす技術では，データベースに含まれない認識誤りが発生した場合に，キーワード検索に失敗する。また，第Ｎ候補までを確認する技術では，正しい文字認識結果が第Ｎ候補までに認識できなければ，キーワード検索に失敗する。

これに対して，文字の置換・挿入・脱落が考慮されたあいまい検索の技術では，上記の２つの技術に比べ，検索キーワード抽出に失敗する可能性が低い。しかし，その反面，検索ノイズが増えるという問題が発生する。検索ノイズは，検索結果に含まれる，検索の目的としない文字列を指す。

あいまい検索では，例えば，「公立小学校」を検索した場合に，「公立中学校」も検索結果に含まれるようになる。この場合，「公立中学校」は目的とする検索結果ではないため，検索ノイズとなる。

前者の２つの技術では，「小」と「中」は，互いに類似文字ではなく，また「中」の文字認識結果の上位候補に「小」が入ることは稀であるため，「公立中学校」が検索で引っかからず，検索ノイズが発生しない。つまり，文字に置換・挿入・脱落を許容するあいまい検索では，検索キーワードの発見率は高いが，検索ノイズの発生率も高いという問題がある。

ここで，あいまい検索について，少し詳しく説明する。

なお，本実施の形態では，検索対象データとして，主にＯＣＲ（Optical Character Recognition ：光学文字認識）結果のデータを例として，説明を行う。検索対象データとしては，ＯＣＲ結果のデータ以外にも，例えば，音声認識結果のデータ，手書き文字認識結果のデータ，点字認識結果のデータなど，様々な認識結果のデータがある。

文字認識では，認識精度が１００％でないため，認識結果のデータの中に認識誤りが含まれることがある。例えば，
「神奈川県厚木市にある吹奏楽部が部員を募集しています。」
という認識対象文書に対する文字認識を行うものとする。その結果として，文字認識に誤りが発生した場合に，例えば，次のような認識結果のデータが得られる。

「ネ申奈ノｉｌ県厚柿（こある吹泰楽学部が部員を慕集しています。」
この例では，文字認識において，「神」が「ネ申」と誤認識されたり，「木市」が「柿」と誤認識されている。そのため，得られた認識結果である検索対象データに対して，検索キーワードとして「神奈川県」や「厚木市」を用いた完全一致検索を行うと，もとの文書の該当文字列を発見することができない。そこで，ＯＣＲ結果に対する検索では，検索キーワードに完全に一致していなくても所定の範囲内で一致する文字列を，検索対象データから発見するあいまい検索が用いられる。

ここでは，文字の置換・脱落・挿入を許容するあいまい検索を考える。

置換は，他の文字への入れ替えを意味する。例えば，「公立中学校」を検索キーワードとして検索を行うときに，１文字の置換を許容すると，「中」が「巾」と誤認識されていても，「公立巾学校」があいまい検索にヒットする。結果的に，目的とする「公立中学校」の文字列画像を発見することができる。

脱落は，検索キーワード中の文字が，検索対象データ上では欠落していることを示す。例えば，「サポート」を検索キーワードとして検索を行うときに，１文字の脱落を許容すると，「ー」が薄い印刷で消えてしまい「サポト」となっていても，あいまい検索にヒットする。

挿入は，検索キーワードの任意の文字の間に，他の文字が挿入されていることを示す。例えば，「１０時」を検索キーワードとして検索を行うときに，「１」と「０」の間に汚れがあって認識結果が「１．０時」となっていても，あいまい検索にヒットする。

しかし，このような置換・脱落・挿入を許容したあいまい検索では，検索キーワードで与えられる目的の文字列の発見率は非常に高くなるが，その代わりに，不要な結果である検索ノイズも非常に多くなる。置換・脱落・挿入のすべてを許容すると，様々な結果が得られる。

例えば，「高層マンション」を検索キーワードとして，５０％以上の文字が一致した場合に検索ヒットと判定するようにすると，「高級マシンガン」が検索にヒットする。すなわち，「層」が「級」に置換，「ン」が脱落，「ョ」が「ン」に置換，「ガ」が挿入で，一致文字数の割合は４文字／７文字となり，検索ヒットとなる。しかし，検索ヒットとなる「高級マシンガン」が，「高層マンション」に対する文字認識誤りで「高級マシンガン」に認識された結果であるとは考えにくい。すなわち，「高級マシンガン」は，本来目的とする検索結果ではなく，検索ノイズである可能性が非常に高い。

図１は，あいまい検索を適用した際の検索結果を分類した例を示す図である。

図１において，認識対象文字列は，文字認識前の画像の文字列である。図１において，認識結果文字列は，認識結果として得られた文字列である。図１において，検索キーワードは，あいまい検索で用いられた検索キーワードである。

図１において，認識対象文字列と認識結果文字列とが異なる場合には，認識誤りが発生している。認識対象文字列と認識結果文字列とが同じ場合には，認識誤りが発生していない。また，図１において，認識結果文字列と検索キーワードとが同じ場合には，完全一致の検索結果となる。認識結果文字列と検索キーワードとが異なる場合には，許容された範囲で一致すると判定された検索結果となる。また，図１において，認識対象文字列と検索キーワードとが同じ場合には，検索結果の文字列は適切な検索結果である。認識対象文字列と検索キーワードとが異なる場合には，検索結果の文字列は検索ノイズである。

検索対象データに対して，あいまい検索を適用した結果として検出される文字列は，次の５つのパターンに分類することができる。

図１において，パターン＃１は，認識誤りが発生していない下で，検索キーワードと検索ヒット文字列とが完全一致しているパターンである。このケースでは，目的とする検索キーワードが，検索対象データから正しく発見されていることになるので，検索結果の文字列は，適切な検索結果である。

図１において，パターン＃２は，認識誤りが発生していない下で，検索キーワードと検索ヒット文字列が許容された範囲で一致すると判定されたパターンである。本来，あいまい検索の置換・脱落・挿入は，認識誤りに対応するために導入する仕組みであるが，副作用として，検索キーワードに類似する別の単語を検出してしまうケースがある。パターン＃２が，このケースに相当する。図１のパターン＃２に示す例は，検索キーワードが「中学校」であり，文字の一致度が６０％以上の文字列をヒットとするあいまい検索を行った結果，「小学校」の文字列も検索にヒットしてしまった例である。この例では，認識誤りが発生していないので，認識対象文字列と，検索キーワードとは異なる文字列である。すなわち，パターン＃２に示すあいまい検索結果は，検索ノイズである。

図１において，パターン＃３は，認識誤りが発生している下で，検索キーワードと検索ヒット文字列とが完全一致しているパターンである。認識誤りが発生しているにもかかわらず，検索キーワードと検索ヒット文字列とが完全に一致するという状態は，非常に稀である。

通常，認識誤りが発生した場合，誤った出力は，言語として成立しない単語を形成することが多い。例えば，「神奈川」の認識結果が「ネ申奈ノｉ｜」と誤認識された場合，認識結果「ネ申奈ノｉ｜」は，実際には存在しない言葉である。同様に，「吹奏楽」を誤認識した「吹泰楽」なども，現実には存在しない単語となる。これに対し，検索キーワードは，ユーザ自身が自ら入力する言葉なので，通常，誤りは含まれていない。すなわち，ユーザ自身がみずから入力する検索キーは，通常，言語として成立する言葉である。そのため，認識誤りのある文字列とユーザの入力した検索キーとが完全一致することは，珍しい。

パターン＃３によるあいまい検索結果は，認識誤りがあるにもかかわらず検索キーワードと完全一致することから，偶然，認識誤りが発生したことにより，検索キーワードと全く同じ単語が発生したと解釈できる。図１に示す例は，紙上の単語「金額」が認識誤りの結果，認識結果である検索対象データに「全額」と出力され，たまたま検索キーワードに「全額」が入力されたために，完全一致した例である。パターン＃３のあいまい検索結果は，検索ノイズである。

図１において，パターン＃４は，認識誤りが発生している下で，検索キーワードと検索ヒット文字列が許容された範囲で一致すると判定されたパターンである。このパターンでは，認識誤りが発生しているため，検索キーワードによる完全一致検索では，検索ヒットとならない文字列が検索ヒットとなる。パターン＃４では，認識対象文字列と検索キーワードとが一致しているので，検索結果の文字列は，適切な検索結果である。あいまい検索の目的は，パターン＃４のような文字列を見つけ出すことである。

図１において，パターン＃５は，パターン＃４と同様に，認識誤りが発生している下で，検索キーワードと検索ヒット文字列が許容された範囲で一致すると判定されたパターンである。ただし，パターン＃５では，認識対象文字列と検索キーワードとが一致していないので，検索結果の文字列は，検索ノイズである。

図１に示す検索結果が検索ノイズとなるパターンの中でも，パターン＃２は多く発生する。以下の実施の形態１〜４では，検索結果からパターン＃２の検索ノイズを除外することで，あいまい検索の検索精度を向上させる技術の例を説明する。

〔実施の形態１〕
図２は，本実施の形態による文字列検索装置の構成例を示す図である。

本実施の形態による文字列検索装置１０は，認識結果である検索対象データに対して，検索キーワードを用いた検索を行う装置である。文字列検索装置１０は，検索対象データ記憶部１１，キーワード記憶部１２，検索実行部１３，検索結果記憶部１４，一致判定部１５，認識誤り評価部１６，除外部１７を備える。

検索対象データ記憶部１１は，文字認識，音声認識，点字認識などの認識結果である検索対象データを記憶する，コンピュータがアクセス可能な記憶部である。本実施の形態では，検索対象データは，例えば，ＯＣＲ結果のデータである。

キーワード記憶部１２は，検索キーワードを記憶する，コンピュータがアクセス可能な記憶部である。キーワード記憶部１２に記憶された検索キーワードは，例えば，ユーザにより入力された検索キーワードを文字列検索装置１０が受け付けたものである。

検索実行部１３は，検索対象データに対して，検索キーワードを用いたあいまい検索を行う。あいまい検索では，検索キーワードとの所定以内の不一致を許容する検索が行われる。検索実行部１３は，検索結果文字列を検索結果記憶部１４に記憶する。検索結果記憶部１４は，検索結果文字列を記憶する，コンピュータがアクセス可能な記憶部である。

一致判定部１５は，検索結果文字列が検索キーワードに完全一致するか否かを判定する。

認識誤り評価部１６は，検索結果文字列が検索キーワードと完全一致しない場合に，検索結果文字列に認識誤りが発生している可能性を判断する。

除外部１７は，検索結果文字列に認識誤りが発生していないと判断された場合に，検索結果文字列を検索結果から除外する。除外部１７は，検索結果記憶部１４から，除外となった検索結果文字列を削除する。

検索結果記憶部１４に記憶された検索結果は，例えばディスプレイなどの表示装置に出力される。

図２に示す文字列検索装置１０の構成は，本実施の形態１のみの構成ではなく，後述の実施の形態２〜実施の形態４についても同様の構成となる。各実施の形態では，認識誤り評価部１６の動作のみが異なる。

図３は，本実施の形態１による認識誤り評価部の構成例を示す図である。

図３に示す認識誤り評価部１６ａは，図２に示す文字列検索装置１０が備える認識誤り評価部１６の一例である。認識誤り評価部１６ａは，検索結果文字列に含まれる文字について，認識時に得られた認識の信頼性を示す情報を取得する。認識誤り評価部１６ａは，認識の信頼性を示す情報に基づいて，検索結果文字列に含まれるすべての文字についてそれぞれが所定以上の信頼性があると判定された場合に，検索結果文字列に認識誤りが発生していないと判断する。認識誤り評価部１６ａは，認識信頼性情報取得部１１０，認識誤り判断部１１１を備える。

認識信頼性情報取得部１１０は，検索結果文字列に含まれる文字について，認識時に得られた認識の信頼性を示す情報を取得する。認識の信頼性を示す情報は，文字認識の過程で得られる数値情報である。本実施の形態１の検索対象データ記憶部１１には，認識結果である検索対象データとともに，文字認識の過程で得られる文字ごとの認識の信頼性を示す情報が記憶されているものとする。

認識誤り判断部１１１は，認識の信頼性を示す情報に基づいて，検索結果文字列に含まれるすべての文字についてそれぞれが所定以上の信頼性があると判定された場合に，検索結果文字列に認識誤りが発生していないと判断する。

図４は，本実施の形態による文字列検索装置を実現するハードウェアの構成例を示す図である。

図２に示す本実施の形態の文字列検索装置１０は，例えば，ＣＰＵ（Central Processing Unit ）２，主記憶となるメモリ３，記憶装置４，通信装置５，媒体読取・書込装置６，入力装置７，出力装置８等を備えるコンピュータ１によって実現される。記憶装置４は，例えばＨＤＤ（Hard Disk Drive ）などである。媒体読取・書込装置６は，例えばＣＤ−Ｒ（Compact Disc Recordable ）ドライブやＤＶＤ−Ｒ（Digital Versatile Disc Recordable ）ドライブなどである。入力装置７は，例えばキーボード・マウスなどである。出力装置８は，例えばディスプレイ等の表示装置などである。

図２に示す文字列検索装置１０および文字列検索装置１０が備える各機能部は，コンピュータ１が備えるＣＰＵ２，メモリ３等のハードウェアと，ソフトウェアプログラムとによって実現することが可能である。コンピュータ１が実行可能なプログラムは，記憶装置４に記憶され，その実行時にメモリ３に読み出され，ＣＰＵ２により実行される。

コンピュータ１は，可搬型記録媒体から直接プログラムを読み取り，そのプログラムに従った処理を実行することもできる。また，コンピュータ１は，サーバコンピュータからプログラムが転送されるごとに，逐次，受け取ったプログラムに従った処理を実行することもできる。さらに，このプログラムは，コンピュータ１で読み取り可能な記録媒体に記録しておくことができる。

このような文字列検索装置１０を実現するコンピュータ１の構成の例は，本実施の形態１に限らず，後述の実施の形態２〜実施の形態４の文字列検索装置１０や，後述の実施の形態５の文字列検索装置２０についても同様である。

ここで，認識の信頼性を示す情報の例について説明する。

文字認識では，認識したい入力文字に対する，あらかじめ用意された文字の形などを記録してある文字のテンプレートの照合が行われ，最も近い形の文字が認識結果に選ばれる。このとき，入力文字とテンプレート文字の類似の程度を表す認識距離を得ることができる。認識距離には，例えば，２値化された２つの文字画像のハミング距離を用いたり，それぞれの文字を文字ストロークの方向成分を要素に持つ特徴ベクトルに変換した後のマハラノビス距離を用いたりすることができる。認識距離を求める技術には，様々な技術がある。例えば，次の参考文献３に，認識距離を求める技術の一例が記載されている。

〔参考文献３〕特開昭５９−１７７６８４号公報
ハミング距離やマハラノビス距離は，その値が小さいほど，２つの文字が似ていることを示す。逆に大きい値であると，両者の文字画像は，全く異なる他の文字画像であることを示す。すなわち，認識結果の文字の認識距離が所定以上の値であれば，認識誤りが発生している可能性があると判定できる。

図５は，本実施の形態１による認識結果・認識距離データの例を示す図である。

図５に示す認識結果・認識距離データ３００は，検索対象データ記憶部１１に記憶される検索対象データの一例である。認識結果・認識距離データ３００では，認識結果の文字コードとともに，認識の信頼性を示す情報である認識距離が記録されている。

また，認識の信頼性を示す情報として，各文字の信頼度を用いてもよい。各文字の信頼度の計算方法には，様々な例がある。各文字の信頼度の計算方法の例は，例えば，次に示す参考文献４に記載されている。

〔参考文献４〕
藤本，鎌田，“正読確率を用いた高速高精度な文字認識方式”，信学会情報・システムソサイエティ大会，D-361 ，Sep.1996
参考文献４では，各文字の信頼度が，正読確率と呼ばれている。参考文献４で紹介された信頼度の計算方法では，文字認識結果の第１候補と第２候補の認識距離に大きな差がない場合には，認識誤りの可能性があるとして，低い信頼度が得られる。また，文字認識結果の第１候補と第２候補の認識距離に大きな差がある場合には，認識誤りの可能性が低いとして，高い信頼度が得られる。

例えば，認識対象文字「田」の認識結果の第１候補が“田”（認識距離３００）で，第２候補が“口”（認識距離１０００）である場合には，信頼度の値は大きくなる。これに対して，認識対象文字「田」の認識結果の第１候補が“口”（認識距離５００）で，第２候補が“ロ”（認識距離５５０）である場合には，信頼度の値は小さくなる。

図６は，本実施の形態１による認識結果・信頼度データの例を示す図である。

図６に示す認識結果・信頼度データ３０１は，検索対象データ記憶部１１に記憶される検索対象データの一例である。認識結果・信頼度データ３０１では，認識結果の文字コードとともに，認識の信頼性を示す情報である信頼度が記録されている。

図７は，本実施の形態の文字列検索装置による文字列検索処理フローチャートである。

文字列検索装置１０において，検索実行部１３は，検索対象データに対する検索キーワードを用いたあいまい検索を実行する（ステップＳ１０）。検索結果として得られた検索結果文字列Ａｉ（ｉ＝０，１，２，... ）は，検索結果記憶部１４に記憶される。

文字列検索装置１０は，カウンタｉを０に設定する（ステップＳ１１）。

文字列検索装置１０は，検索結果文字列Ａｉを取得する（ステップＳ１２）。一致判定部１５は，検索結果文字列Ａｉが検索キーワードと完全一致するかを判定する（ステップＳ１３）。

検索結果文字列Ａｉが検索キーワードと完全一致する場合には（ステップＳ１３のＹＥＳ），文字列検索装置１０は，ステップＳ１８の処理に進む。

検索結果文字列Ａｉが検索キーワードと完全一致しない場合には（ステップＳ１３のＮＯ），認識誤り評価部１６は，認識誤り評価処理を行う（ステップＳ１４）。認識誤り評価処理では，検索結果文字列Ａｉに認識誤りが発生している可能性が判断される。

文字列検索装置１０は，認識誤り評価部１６による評価結果が，検索結果文字列Ａｉについて認識誤り有りであるかを判定する（ステップＳ１５）。

検索結果文字列Ａｉについて認識誤り有りであれば（ステップＳ１５のＹＥＳ），文字列検索装置１０は，ステップＳ１８の処理に進む。

検索結果文字列Ａｉについて認識誤り有りでなければ（ステップＳ１５のＮＯ），すなわち認識誤り無しであれば，除外部１７は，検索結果文字列Ａｉが検索ノイズであると判定する（ステップＳ１６）。除外部１７は，検索結果文字列Ａｉを検索結果から除外する（ステップＳ１７）。除外部１７により，検索結果文字列Ａｉが，検索結果記憶部１４から削除される。

文字列検索装置１０は，すべての検索結果文字列について処理が終了したかを判定する（ステップＳ１８）。すべての検索結果文字列について処理が終了していなければ（ステップＳ１８のＮＯ），文字列検索装置１０は，カウンタｉをインクリメントし（ステップＳ１９），ステップＳ１２に戻って，次の検索結果文字列についての処理に移る。すべての検索結果文字列について処理が終了していれば（ステップＳ１８のＹＥＳ），文字列検索装置１０は，処理を終了する。

図７に示す文字列検索処理の例は，ステップＳ１４の認識誤り評価処理を除いて，原則として実施の形態１〜実施の形態４で共通の処理例となる。

図８は，本実施の形態１の認識誤り評価部による認識誤り評価処理フローチャートである。

図８に示す認識誤り評価処理は，本実施の形態１の認識誤り評価部１６ａによる，図７のステップＳ１４に示す処理の一例である。なお，図８に示す例は，認識の信頼性を示す情報として，認識距離が用いられた場合の例である。

認識誤り評価部１６ａは，カウンタｊを０に設定する（ステップＳ１１０）。

認識信頼性情報取得部１１０は，検索結果文字列Ａｉ中の文字Ｂｊの認識距離を取得する（ステップＳ１１１）。ここでは，例えば検索結果文字列Ａｉの先頭の文字から末尾の文字に向かって順に文字Ｂ０，文字Ｂ１，... とする。

認識誤り判断部１１１は，文字Ｂｊの認識距離が所定値以下であるかを判定する（ステップＳ１１２）。

文字Ｂｊの認識距離が所定値以下でなければ（ステップＳ１１２のＮＯ），認識誤り判断部１１１は，検索結果文字列Ａｉについて認識誤り有りと判断し（ステップＳ１１３），処理を終了する。認識距離は，値が大きければ大きいほど，認識の信頼性が低くなる。検索結果文字列Ａｉに認識距離が大きい文字が１文字でも含まれていれば，その検索結果文字列Ａｉに認識誤りが含まれている可能性は高くなる。

文字Ｂｊの認識距離が所定値以下であれば（ステップＳ１１２のＹＥＳ），認識誤り評価部１６ａは，検索結果文字列Ａｉ中のすべての文字について処理が終了したかを判定する（ステップＳ１１４）。

検索結果文字列Ａｉ中のすべての文字について処理が終了していなければ（ステップＳ１１４のＮＯ），認識誤り評価部１６ａは，カウンタｊをインクリメントし（ステップＳ１１５），ステップＳ１１１に戻って，次の文字Ｂｊの処理に移る。

検索結果文字列Ａｉ中のすべての文字について処理が終了していれば（ステップＳ１１４のＹＥＳ），認識誤り判断部１１１は，検索結果文字列Ａｉについて認識誤り無しと判断し（ステップＳ１１６），処理を終了する。認識距離は，値が小さければ小さいほど，認識の信頼性が高くなる。検索結果文字列Ａｉに認識距離が大きい文字が１文字も含まれていなければ，その検索結果文字列Ａｉに認識誤りが含まれている可能性は低くなる。

図８に示す処理の例では，認識の信頼性を示す情報として認識距離を用いているが，例えば上記の信頼度など，他の情報を用いてもよい。認識の信頼性を示す情報として上記の信頼度を用いる場合には，ステップＳ１１１で取得する情報が文字Ｂｊの信頼度となる。また，ステップＳ１１２の判定は，文字Ｂｊの信頼度が所定値以上であるかの判定となる。信頼度は，値が大きければ大きいほど認識の信頼性が高くなり，値が小さければ小さいほど認識の信頼性が低くなる。

本実施の形態１の文字列検索装置１０によって，検索対象データに対するあいまい検索において，上記パターン＃２の検索ノイズを減らして，検索精度を向上させることが可能となる。

〔実施の形態２〕
本実施の形態２の文字列検索装置１０は，前述の実施の形態１と同様に，図１に示す通りとなる。本実施の形態２は，前述の実施の形態１と，認識誤り評価部１６の処理のみが異なる。

図９は，本実施の形態２による認識誤り評価部の構成例を示す図である。

図９に示す認識誤り評価部１６ｂは，図２に示す文字列検索装置１０が備える認識誤り評価部１６の一例である。認識誤り評価部１６ｂは，使用言語の単語を記録した言語辞書を用い，検索結果文字列を含む検索対象データ中の文字列が，言語辞書に存在するか否かを判定し，存在していれば検索結果文字列に認識誤りが発生していないと判断する。認識誤り評価部１６ｂは，言語辞書記憶部１２０，単語検索部１２１，検索結果単語記憶部１２２，検索結果調整部１２３，認識誤り判断部１２４を備える。

言語辞書記憶部１２０は，言語辞書を記憶する，コンピュータがアクセス可能な記憶部である。言語辞書には，検索キーワードとなり得る単語，例えば，その言語の全名詞などが登録されている。例えば，使用言語が日本語であれば，日本語で用いられる固有名詞を含む全名詞や，形容詞，慣用句などが，言語辞書に登録されている。

図１０は，本実施の形態２による言語辞書の例を示す図である。

図１０に示す言語辞書３０２の例では，五十音順に単語が登録されている。

なお，言語辞書には，単語の検索を速くするために，単語をあらかじめ文字コード順にソートしておいたり，ハッシュ値を記録しておき高速検索を実現するなどの，従来の高速テキスト検索方式を適用することができる。

単語検索部１２１は，言語辞書に対して検索キーワードを用いたあいまい検索を実行する。言語辞書に対する検索で得られた単語は，検索結果単語記憶部１２２に記憶される。本実施の形態では，言語辞書に対する検索で得られた単語を検索結果単語と呼ぶ。検索結果単語記憶部１２２は，検索結果単語を記憶する，コンピュータがアクセス可能な記憶部である。

検索結果調整部１２３は，検索対象データにおいて，検索結果文字列の文字数を検索結果単語の文字数に調整する。本実施の形態では，検索結果文字列の文字数を検索結果単語の文字数に調整した文字列を，調整文字列と呼ぶ。

認識誤り判断部１２４は，検索結果単語と調整文字列とが一致する場合に，検索結果文字列に認識誤りが発生していないと判断する。

図１１は，本実施の形態２による認識誤り評価の例を説明する図（１）である。

図１１では，検索キーワードとして「コンピュータ」が指定されている場合の例を説明する。

図１１（Ａ）は，言語辞書に対して検索キーワード「コンピュータ」を用いたあいまい検索を実行した結果の例を示す。図１１（Ａ）に示す例では，検索結果単語として，「コントロール」，「コンピュータ」，「コンピューティング」等の検索結果単語が得られている。

ここで，文字認識結果の検索対象データに対するあいまい検索結果として，検索結果文字列Ａｉ＝「コンピューテ」が得られ，また，言語辞書に対するあいまい検索結果として，検索結果単語Ｃｊ＝「コンピューティング」が得られた場合の例を説明する。

図１１（Ｂ）は，検索キーワードと，検索結果文字列Ａｉ／検索結果単語Ｃｊとの対応を示す。あいまい検索は，検索キーワードの各文字と，検索ヒットする部分文字列の各文字との対応関係に，文字の置換・脱落・挿入による不一致を許容する。そのため，検索キーワードの“タ”が“テ”に置換されている検索結果文字列Ａｉ「コンピューテ」が，文字認識結果の検索対象データから抽出されている。同様に，言語辞書から抽出された検索結果単語Ｃｊ「コンピューティング」については，部分文字列の“コンピューテ”が，検索キーワードの“コンピュータ”と６文字中５文字が一致している。

あいまい検索では，図１１（Ｂ）に示すように，検索キーワードと検索結果文字列Ａｉとの間の各文字の対応関係がわかる。そのため，検索キーワードの先頭文字および最後尾文字が，検索結果文字列Ａｉのどの文字に対応するかを検出することができる。図１１（Ｂ）に示す例では，検索キーワードの先頭文字“コ”に対応する認識結果文字列Ａｉの文字は“コ”であり，検索キーワードの最後尾文字の“タ”に対応する認識結果文字列Ａｉの文字は“テ”である。

同様に，図１１（Ｂ）に示すように，言語辞書に対するあいまい検索結果でも検索キーワードの各文字に対応する文字がわかる。図１１（Ｂ）に示す例では，検索キーワードの先頭文字“コ”に対応する検索結果単語Ｃｊの文字は“コ”であり，検索キーワードの最後尾文字の“タ”に対応する検索結果単語Ｃｊの文字は“テ”である。

これらの事実より，検索結果文字列Ａｉの“コ”は検索結果単語Ｃｊの“コ”，検索結果文字列Ａｉの“テ”は検索結果単語Ｃｊの“テ”に対応することがわかる。

ここで，言語辞書には単語単位で文字列が登録されているので，単語を形成するために必要な文字がわかる。上記の例では，検索キーワードの“コンピュータ”は，言語辞書に登録されている検索結果単語Ｃｊ＝“コンピューティング”という単語の“コンピューテ”にヒットしており，単語が形成されるには，さらに“ィング”の３文字が追加されなければいけないことがわかる。

検索結果調整部１２３は，検索対象データにおいて，検索結果文字列Ａｉの前後に，検索結果単語Ｃｊの単語長と同じになるように文字を拡張する。

図１１（Ｃ）は，検索結果文字列Ａｉを拡張した例を示す。本実施の形態では，検索結果単語Ｃｊの単語長に合わせて，検索対象データにおいて検索結果文字列Ａｉを拡張した文字列を，調整文字列Ａ’ｉと呼ぶ。なお，図１１（Ｃ）に示す例では，先頭文字に関しては，検索結果文字列Ａｉの先頭文字は，検索結果単語Ｃｊの先頭文字に対応しているため，検索結果文字列Ａｉの先頭部分での文字数の拡張は行われない。

例えば，検索結果文字列Ａｉが，文字認識結果の検索対象データ中の文書「夏休みに開催されるコンピューティング速度コンテスト」の“コンピューテ”にヒットしている状態であるものとする。このとき，検索結果調整部１２３は，検索結果単語Ｃｊ＝“コンピューティング”の文字数に応じて，検索結果文字列Ａｉを３文字分だけ後方に拡張して，調整文字列Ａ’ｉ＝“コンピューティング”とする。

その後，認識誤り判断部１２４は，調整文字列Ａ’ｉと検索結果単語Ｃｊとを比較する。図１１（Ｃ）に示す例では，双方の文字列が一致するので，認識誤り判断部１２４は，検索結果文字列Ａｉに認識誤りが発生していないと判断する。すなわち，図１１に示す検索結果文字列Ａｉ＝「コンピューテ」は，検索ノイズであると判定される。

図１２は，本実施の形態２による認識誤り評価の例を説明する図（２）である。

図１２では，検索キーワードとして「ミシン針」が指定されている場合の例を説明する。

図１２（Ａ）に示すように，文字認識結果の検索対象データから検索結果文字列Ａｉ＝「ミシン金」があいまい検索にヒットしている。また，言語辞書から検索結果単語Ｃｊ＝「サミシンボウ」があいまい検索にヒットしている。

この場合，検索結果文字列Ａｉの文字列長を検索結果単語Ｃｊに合わせるために，図１２（Ｂ）に示すように，検索結果文字列Ａｉの前後に文字を増やし，調整文字列Ａ’ｉは，「いミシン金十」となる。

その後，認識誤り判断部１２４は，調整文字列Ａ’ｉと検索結果単語Ｃｊとを比較する。図１２（Ｂ）に示す例では，双方の文字列が一致しないので，認識誤り判断部１２４は，この結果だけでは，検索結果文字列Ａｉについての認識誤りを判断しない。

以下，本実施の形態２の文字列検索装置１０による処理の流れを説明する。ただし，文字列検索装置１０による文字列検索処理については，原則として図７に示す処理と同様であるので，説明を省略する。

図１３は，本実施の形態２の認識誤り評価部による単語検索処理フローチャートである。

図１３に示す単語検索処理は，例えば，図７のステップＳ１０に示す処理と同時に実行される。

認識誤り評価部１６ｂにおいて，単語検索部１２１は，言語辞書に対して，検索キーワードを用いたあいまい検索を実行する（ステップＳ１２０）。結果として得られた検索結果単語Ｃｊ（ｊ＝０，１，... ）は，検索結果単語記憶部１２２に記憶される。

図１４は，本実施の形態２の認識誤り評価部による認識誤り評価処理フローチャートである。

図１４に示す認識誤り評価処理は，本実施の形態２の認識誤り評価部１６ｂによる，図７のステップＳ１４に示す処理の一例である。

認識誤り評価部１６ｂは，カウンタｊを０に設定する（ステップＳ１２１）。

認識誤り評価部１６ｂは，検索結果単語Ｃｊを取得する（ステップＳ１２２）。検索結果調整部１２３は，検索対象データにおいて，検索結果文字列Ａｉの文字数を，検索結果単語Ｃｊの文字数に調整した調整文字列Ａ’ｉを取得する（ステップＳ１２３）。

認識誤り判断部１２４は，調整文字列Ａ’ｉと検索結果単語Ｃｊとが完全一致するかを判定する（ステップＳ１２４）。

調整文字列Ａ’ｉと検索結果単語Ｃｊとが完全一致すれば（ステップＳ１２４のＹＥＳ），認識誤り判断部１２４は，検索結果文字列Ａｉについて認識誤り無しと判断し（ステップＳ１２５），処理を終了する。

調整文字列Ａ’ｉと検索結果単語Ｃｊとが完全一致しなければ（ステップＳ１２４のＮＯ），認識誤り評価部１６ｂは，すべての検索結果単語について処理が終了したかを判定する（ステップＳ１２６）。

すべての検索結果単語について処理が終了していなければ（ステップＳ１２６のＮＯ），認識誤り評価部１６ｂは，カウンタｊをインクリメントし（ステップＳ１２７），ステップＳ１２２に戻って，次の検索結果単語Ｃｊの処理に移る。

すべての検索結果単語について処理が終了していれば（ステップＳ１２６のＹＥＳ），認識誤り判断部１２４は，検索結果文字列Ａｉについて認識誤り有りと判断し（ステップＳ１２８），処理を終了する。

本実施の形態２の文字列検索装置１０によって，検索対象データに対するあいまい検索において，上記パターン＃２の検索ノイズを減らして，検索精度を向上させることが可能となる。

〔実施の形態３〕
本実施の形態３の文字列検索装置１０は，前述の実施の形態１と同様に，図１に示す通りとなる。本実施の形態３は，前述の実施の形態１と，認識誤り評価部１６の処理のみが異なる。

図１５は，本実施の形態３による認識誤り評価部の構成例を示す図である。

図１５に示す認識誤り評価部１６ｃは，図２に示す文字列検索装置１０が備える認識誤り評価部１６の一例である。認識誤り評価部１６ｃは，検索対象データにおける検索結果文字列の出現頻度を算出し，検索結果文字列の出現頻度が所定の値以上である場合に，検索結果文字列に認識誤りが発生していないと判断する。認識誤り評価部１６ｃは，頻度算出部１３０，頻度記憶部１３１，認識誤り判断部１３２を備える。

頻度算出部１３０は，検索対象データにおける検索結果文字列の出現頻度を算出する。例えば，頻度算出部１３０は，検索結果に現れる文字列ごとに，検索対象データにおける出現数を集計する。得られた出現頻度の算出結果は，頻度記憶部１３１に記憶される。頻度記憶部１３１は，検索結果に現れる文字列ごとの出現頻度を記憶する，コンピュータがアクセス可能な記憶部である。

認識誤り判断部１３２は，検索結果文字列の出現頻度が所定の値以上である場合に，検索結果文字列に認識誤りが発生していないと判断する。

例えば，小説など文書量が大きいデータの場合，必然的にその文書中に同じ単語が登場する頻度は高くなる。文字認識において，認識誤りは不安定である。そのため，通常は，同じ文字の認識誤りでも，発生するたびに異なる文字の出力となることが多い。これらのことから，出現頻度が高い文字列は認識誤りが無い可能性が高く，出現頻度が低い文字列は認識誤りの可能性が高くなる。本実施の形態３では，このような性質を利用して，あいまい検索の結果が，検索ノイズであるか否かを判断する。

図１６は，本実施の形態３による認識誤り評価の例を説明する図である。

図１６の左図は，検索結果の例を示す。ここでは，検索対象データに対して，検索キーワード「クロス」であいまい検索を行った場合の検索結果が，図１６の左図に示す検索結果であったものとする。

頻度算出部１３０は，検索結果に現れる文字列ごとに，その出現数を集計する。図１６の中央図は，出現数の例を示す。ここでは，図１６の左図に示す検索結果に基づいて求めた出現数が，図１６の中央図に示す出現数であったものとする。

認識誤り判断部１３２は，例えば，出現数が所定の値以上である検索結果文字列については，認識誤り無しと判断し，出現数が所定の値未満である検索結果文字列については，認識誤り有りと判断する。図１６の右図は，認識誤り有無の判断結果の例を示す。例えば，所定の値が５回である場合に，出現数が５回以上である検索結果文字列については，認識誤り無しと判断され，出現数が４回以下である検索結果文字列については，認識誤り有りと判断される。

なお，検索対象データの文書量の大小によって，文字列の出現回数は変わる。例えば，検索対象データの文書量の大小によって，判断基準となる所定の値を変化させてもよい。また，例えば，頻度として，所定の単位文書量あたりの出現数を算出するようにしてもよい。

以下，本実施の形態３の文字列検索装置１０による処理の流れを説明する。ただし，文字列検索装置１０による文字列検索処理については，原則として図７に示す処理と同様であるので，説明を省略する。

図１７は，本実施の形態３の認識誤り評価部による頻度算出処理フローチャートである。

図１７に示す頻度算出処理は，例えば，図７のステップＳ１０に示す処理の直後に実行される。

認識誤り評価部１６ｃにおいて，頻度算出部１３０は，検索結果に現れる文字列ごとに，その出現数を集計する（ステップＳ１３０）。得られた検索結果に現れる文字列ごとの出現数は，頻度記憶部１３１に記憶される。

図１８は，本実施の形態３の認識誤り評価部による認識誤り評価処理フローチャートである。

図１８に示す認識誤り評価処理は，本実施の形態３の認識誤り評価部１６ｃによる，図７のステップＳ１４に示す処理の一例である。

認識誤り評価部１６ｃは，検索結果文字列Ａｉの出現数を取得する（ステップＳ１３１）。

認識誤り判断部１３２は，検索結果文字列Ａｉの出現数が所定値以上であるかを判定する（ステップＳ１３２）。

検索結果文字列Ａｉの出現数が所定値以上であれば（ステップＳ１３２のＹＥＳ），認識誤り判断部１３２は，検索結果文字列Ａｉについて認識誤り無しと判断し（ステップＳ１３３），処理を終了する。

検索結果文字列Ａｉの出現数が所定値以上でなければ（ステップＳ１３２のＮＯ），認識誤り判断部１３２は，検索結果文字列Ａｉについて認識誤り有りと判断し（ステップＳ１３４），処理を終了する。

本実施の形態３の文字列検索装置１０によって，検索対象データに対するあいまい検索において，上記パターン＃２の検索ノイズを減らして，検索精度を向上させることが可能となる。

〔実施の形態４〕
本実施の形態４の文字列検索装置１０は，前述の実施の形態１と同様に，図１に示す通りとなる。本実施の形態４は，前述の実施の形態１と，認識誤り評価部１６の処理のみが異なる。

図１９は，本実施の形態４による認識誤り評価部の構成例を示す図である。

図１９に示す認識誤り評価部１６ｄは，図２に示す文字列検索装置１０が備える認識誤り評価部１６の一例である。認識誤り評価部１６ｄは，検索対象データから検索結果文字列を含む所定の周辺文字列を取得し，取得された周辺文字列に対して形態素解析を実行する。認識誤り評価部１６ｄは，形態素解析の結果から検索結果文字列に対応する形態素を抽出し，抽出されたすべての形態素が未知語でない場合に，検索結果文字列に認識誤りが発生していないと判断する。認識誤り評価部１６ｄは，形態素解析辞書記憶部１４０，結果周辺文字列取得部１４１，形態素解析部１４２，形態素記憶部１４３，検索結果対応形態素抽出部１４４，認識誤り判断部１４５を備える。

形態素解析辞書記憶部１４０は，形態素解析辞書を記憶する，コンピュータがアクセス可能な記憶部である。形態素解析辞書は，形態素解析に用いられる辞書である。

結果周辺文字列取得部１４１は，検索対象データから，検索結果文字列を含む所定の周辺文字列を取得する。ここで取得された文字列を，検索結果周辺文字列と呼ぶ。検索結果周辺文字列は，例えば，検索対象データにおいて，検索結果文字列を含む句読点で挟まれた文字列でもよいし，検索結果文字列に前後１０文字ずつ足した文字列などでもよい。

形態素解析部１４２は，検索結果周辺文字列に対して，形態素解析を実行する。形態素解析の結果として，検索結果周辺文字列が，形態素に分解される。得られた形態素解析の結果は，形態素記憶部１４３に記憶される。形態素記憶部１４３は，形態素解析の結果が記憶された，コンピュータがアクセス可能な記憶部である。

検索結果対応形態素抽出部１４４は，形態素解析の結果から，検索結果文字列に対応する形態素を抽出する。検索結果対応形態素抽出部１４４は，例えば，形態素記憶部１４３に記憶された形態素解析の結果から，検索結果文字列に対応する形態素を抽出して残し，他の形態素を削除する。

認識誤り判断部１４５は，抽出された検索結果文字列に対応するすべての形態素が未知語でない場合に，検索結果文字列に認識誤りが発生していないと判断する。

図２０は，本実施の形態４による認識誤り評価の例を説明する図である。

図２０（Ａ）は，検索キーワードと検索結果文字列の例を示す。図２０（Ａ）に示すように，検索キーワードとして「ミッドタウン」が指定されたものとする。また，検索結果文字列Ａｉ＝「ミッドのダウン」がヒットしたとする。

結果周辺文字列取得部１４１は，検索対象データから，検索結果文字列Ａｉを含む周辺文字列を取得する。ここでは，検索結果文字列Ａｉに前後８文字ずつ加えた文字列が，検索結果周辺文字列Ａ”ｉとして取得されるものとする。図２０（Ｂ）は，検索結果周辺文字列Ａ”ｉの例を示す。検索結果文字列Ａｉが検索結果周辺文字列Ａ”ｉ＝「説明した人口ピラミッドのダウンロードは以下のボ」に拡張される。

形態素解析部１４２は，検索結果周辺文字列Ａ”ｉに対する形態素解析を実行する。図２０（Ｃ）は，検索結果周辺文字列Ａ”ｉに対する形態素解析結果の例を示す。図２０（Ｃ）に示すように，検索結果周辺文字列Ａ”ｉが形態素に分解される。形態素解析辞書に登録された形態素については，形態素その品詞が対応付けられる。形態素解析辞書に登録されていない形態素は，未知語となる。

検索結果対応形態素抽出部１４４は，形態素解析結果から，検索結果文字列Ａｉに対応する形態素をすべて抽出する。図２０（Ｄ）は，検索結果文字列Ａｉに対応する形態素の例を示す。図２０（Ｄ）において，枠で囲まれた形態素が，検索結果文字列Ａｉの部分文字列を含む形態素である。

図２０（Ｄ）に示す例では，検索結果文字列Ａｉに対応するすべての形態素が未知語ではない，認識誤り判断部１４５は，検索結果文字列Ａｉに認識誤りが発生していないと判断する。図２０に示す例とは逆に，検索結果文字列に関わる形態素に１つでも未知語が存在する場合には，言語として成立していない可能性が高い。すなわち，未知語の部分に認識誤りが発生している可能性がある。

以下，本実施の形態４の文字列検索装置１０による処理の流れを説明する。ただし，文字列検索装置１０による文字列検索処理については，原則として図７に示す処理と同様であるので，説明を省略する。

図２１は，本実施の形態４の認識誤り評価部による認識誤り評価処理フローチャートである。

図２１に示す認識誤り評価処理は，本実施の形態４の認識誤り評価部１６ｄによる，図７のステップＳ１４に示す処理の一例である。

認識誤り評価部１６ｄにおいて，結果周辺文字列取得部１４１は，検索対象データから，解析結果周辺文字列Ａ”ｉを取得する（ステップＳ１４０）。解析結果周辺文字列Ａ”ｉは，検索対象データにおいて，解析結果文字列Ａｉを含む所定の周辺文字列である。

形態素解析部１４２は，解析結果周辺文字列Ａ”ｉに対して，形態素解析を実行する（ステップＳ１４１）。検索結果対応形態素抽出部１４４は，解析結果周辺文字列Ａ”ｉの形態素解析結果から，検索結果文字列Ａｉに対応する形態素Ｄｊ（ｊ＝０，１，... ）を抽出する（ステップＳ１４２）。

認識誤り評価部１６ｄは，カウンタｊを０に設定する（ステップＳ１４３）。

認識誤り評価部１６ｄは，形態素Ｄｊを取得する（ステップＳ１４４）。認識誤り判断部１４５は，形態素Ｄｊが未知語であるかを判定する（ステップＳ１４５）。

形態素Ｄｊが未知語であれば（ステップＳ１４５のＹＥＳ），認識誤り判断部１４５は，検索結果文字列Ａｉについて認識誤り有りと判断し（ステップＳ１４６），処理を終了する。

形態素Ｄｊが未知語でなければ（ステップＳ１４５のＮＯ），認識誤り評価部１６ｄは，すべての形態素について処理が終了したかを判定する（ステップＳ１４７）。

すべての形態素について処理が終了していなければ（ステップＳ１４７のＮＯ），認識誤り評価部１６ｄは，カウンタｊをインクリメントし（ステップＳ１４８），ステップＳ１４４に戻って，次の形態素Ｄｊの処理に移る。

すべての形態素について処理が終了していれば（ステップＳ１４７のＹＥＳ），認識誤り判断部１４５は，検索結果文字列Ａｉについて認識誤り無しと判断し（ステップＳ１４９），処理を終了する。

本実施の形態４の文字列検索装置１０によって，検索対象データに対するあいまい検索において，上記パターン＃２の検索ノイズを減らして，検索精度を向上させることが可能となる。

ここまでの実施の形態１〜実施の形態４では，それぞれ異なる認識誤り評価部１６の処理によって，検索対象文字列に認識誤りが発生している可能性を判断し，検索対象文字列が検索ノイズであるかを判断している。これらの実施の形態１〜実施の形態４までの認識誤り評価部１６の処理を複数組み合わせて，検索対象文字列に認識誤りが発生している可能性を判断し，検索対象文字列が検索ノイズであるかを判断するようにしてもよい。

例えば，検索結果文字列に対して実施の形態１〜実施の形態４までのそれぞれの認識誤り評価部１６の処理をすべて実行し，いずれかの処理で検索対象文字列に認識誤りが発生していると判断されたときに，その検索対象文字列が検索ノイズであると判断するようにしてもよい。この場合には，検索ノイズの検出率が高くなる。

また，例えば，検索結果文字列に対して実施の形態１〜実施の形態４までのそれぞれの認識誤り評価部１６の処理をすべて実行し，すべての処理で検索対象文字列に認識誤りが発生していると判断されたときに，その検索対象文字列が検索ノイズであると判断するようにしてもよい。この場合には，適切な検索結果文字列を，誤って除外してしまう可能性が低くなる。

また，実施の形態１〜実施の形態４では，図７に示すフローチャートによって，検索対象データからすべての検索結果文字列を検出してから，検索ノイズと判断された検索文字列を除外していく処理の例を説明している。実施の形態１〜実施の形態４において，検索対象データから１つずつ検索結果文字列が検出されるたびに，その検索結果文字列が検索ノイズであるかを判断するようにしてもよい。

〔実施の形態５〕
本実施の形態５の技術は，検索ノイズを削減する手法が，上述の実施の形態１〜実施の形態４の技術と大きく異なる。上述の実施の形態１〜実施の形態４の技術では，検索対象データに対する検索実行後の検索結果から検索ノイズを除外することにより，検索ノイズの削減を行っている。これに対して，本実施の形態５の技術では，検索対象データに対する検索の段階で，検索ノイズとなる検索結果の発生を抑制することにより，検索ノイズの削減を行う。

図２２は，本実施の形態５による文字列検索装置の構成例を示す図である。

本実施の形態５による文字列検索装置２０は，認識結果である検索対象データに対して，検索キーワードを用いた検索を行う装置である。文字列検索装置２０は，検索対象データ記憶部２１，キーワード記憶部２２，分割部２３，認識誤り評価部２４，検索単位データ記憶部２５，検索実行部２６，検索結果記憶部２７を備える。

検索対象データ記憶部２１は，文字認識，音声認識，点字認識などの認識結果である検索対象データを記憶する，コンピュータがアクセス可能な記憶部である。本実施の形態では，検索対象データは，例えば，ＯＣＲ結果のデータである。

キーワード記憶部２２は，検索キーワードを記憶する，コンピュータがアクセス可能な記憶部である。キーワード記憶部１２に記憶された検索キーワードは，例えば，ユーザにより入力された検索キーワードを文字列検索装置２０が受け付けたものである。

分割部２３は，検索対象データを，所定の検索単位データに分割する。所定の検索単位データは，例えば，句読点で区切られた単位のデータや，所定の単語数で区切られた単位のデータなどである。所定の検索単位データの設計は，任意である。

認識誤り評価部２４は，検索単位データごとに，認識誤りが発生している可能性を判断する。例えば，認識誤り評価部２４は，検索単位データごとに，上述の実施の形態４で説明したような形態素解析を実行し，未知語を含む検索単位データは認識誤りが発生していると判断し，未知語を含まない検索単位データは認識誤りが発生していないと判断する。また，例えば，認識誤り評価部２４は，検索単位データごとに，上述の実施の形態１で説明したような文字ごとの認識の信頼性を示す情報を用いて，信頼性が低い文字を含む検索単位データは認識誤りが発生していると判断し，信頼性が低い文字を含まない検索単位データは認識誤りが発生していないと判断する。形態素解析による手法と，認識の信頼性を示す情報による手法とを，組み合わせて使用してもよい。

検索単位データ記憶部２５は，検索単位データを記憶する，コンピュータがアクセス可能な記憶部である。検索単位データ記憶部２５は，検索単位データと認識誤りが発生している可能性の判断とが対応付けられて記憶されている。

検索実行部２６は，認識誤りが発生していると判断された検索単位データに対しては，検索キーワードを用いたあいまい検索を行い，認識誤りが発生していないと判断された検索単位データに対しては，検索キーワードを用いた完全一致検索を行う。検索実行部２６は，検索結果文字列を検索結果記憶部２７に記憶する。検索結果記憶部２７は，検索結果文字列を記憶する，コンピュータがアクセス可能な記憶部である。

検索結果記憶部２７に記憶された検索結果は，例えばディスプレイなどの表示装置に出力される。

図２３，図２４は，本実施の形態５による文字列検索の例を説明する図である。

図２３（Ａ）は，認識対象文書３０３を示す。ここでは，図２３（Ａ）に示す認識対象文書３０３に対して文字認識が行われる。図２３（Ｂ）は，検索対象データ３０４を示す。図２３（Ｂ）に示す検索対象データ３０４は，図２３（Ａ）に示す認識対象文書３０３の文字認識結果のデータである。

文字列検索装置２０において，分割部２３は，図２３（Ｂ）に示す検索対象データ３０４を所定の検索単位データに分割する。ここでは，所定の検索単位データは，句読点で区切られた単位のデータであるものとする。図２４（Ａ）は，検索単位データの例を示す。図２４（Ａ）に示すＥ０〜Ｅ７は，それぞれ検索単位データである。

認識誤り評価部２４は，図２４（Ａ）に示す各検索単位データＥ０〜Ｅ７のそれぞれについて，認識誤りが発生している可能性を判断する。ここでは，認識誤りが発生している可能性の判断に，形態素解析を用いるものとする。

図２４（Ｂ）は，各検索単位データに対する形態素解析の結果，未知語となった形態素を示す。図２４（Ｂ）に示す各検索単位データＥ０〜Ｅ７において，枠線で囲まれた形態素が未知語である。図２４（Ｂ）から，認識誤りが発生していると判断される検索単位データは，Ｅ１，Ｅ２，Ｅ３，Ｅ６となり，認識誤りが発生していないと判断される検索単位データは，Ｅ０，Ｅ４，Ｅ５，Ｅ７となる。

検索実行部２６は，認識誤りが発生していると判断された検索単位データＥ１，Ｅ２，Ｅ３，Ｅ６に対しては，検索キーワードを用いたあいまい検索を行う。また，検索実行部２６は，認識誤りが発生していないと判断された検索単位データＥ０，Ｅ４，Ｅ５，Ｅ７に対しては，検索キーワードを用いた完全一致検索を行う。

認識誤りが発生しているデータに対して完全一致検索を行うと，検索洩れが発生する可能性がある。逆に，認識誤りが発生していないデータに対してあいまい検索を行うと，無駄な検索ノイズが発生する可能性がある。

本実施の形態５の技術では，認識誤りが発生していると判断された検索単位データに対するあいまい検索で，検索漏れを防止しつつ，認識誤りが発生していないと判断された検索単位データに対する完全一致検索で，無駄な検索ノイズの発生を抑止する。

図２５は，本実施の形態５の文字列検索装置による文字列検索処理フローチャートである。

文字列検索装置２０において，分割部２３は，検索対象データを，所定の検索単位データに分割する（ステップＳ２０）。

認識誤り評価部２４は，各検索単位データの認識誤りを評価する（ステップＳ２１）。これにより，検索単位データごとに，認識誤り有りか無しかが判断される。検索単位データと認識誤りの評価結果との対応は，検索単位データ記憶部２５に記憶される。

文字列検索装置２０は，カウンタｉを０に設定する（ステップＳ２２）。

検索実行部２６は，検索単位データＥｉを取得する（ステップＳ２３）。検索実行部２６は，検索単位データＥｉが認識誤り有りと判断されているかを判定する（ステップＳ２４）。検索単位データＥｉが認識誤り有りと判断されていれば（ステップＳ２４のＹＥＳ），検索実行部２６は，検索単位データＥｉに対する検索キーワードを用いたあいまい検索を実行する。検索単位データＥｉが認識誤り有りと判断されていなければ（ステップＳ２４のＮＯ），検索実行部２６は，検索単位データＥｉに対する検索キーワードを用いた完全一致検索を実行する。検索結果文字列は，検索結果記憶部２７に記憶される。

文字列検索装置２０は，すべての検索単位データについて処理が終了したかを判定する（ステップＳ２７）。すべての検索単位データについて処理が終了していなければ（ステップＳ２７のＮＯ），文字列検索装置２０は，カウンタｉをインクリメントし（ステップＳ２８），ステップＳ２３に戻って，次の検索単位データについての処理に移る。すべての検索単位データについて処理が終了していれば（ステップＳ２７のＹＥＳ），文字列検索装置２０は，処理を終了する。

本実施の形態５の文字列検索装置２０によって，検索漏れを防止しつつ，無駄な検索ノイズの発生を抑止して，検索精度を向上させることが可能となる。

以上，本実施の形態について説明したが，本発明はその主旨の範囲において種々の変形が可能であることは当然である。

例えば，実施の形態５の検索結果に対して，さらに実施の形態１〜実施の形態４に示す検索ノイズを除外する処理を行ってもよい。

以上説明した本実施の形態の特徴を列挙すると，以下の通りとなる。

（付記１）
文字認識，音声認識または点字認識により得られた検索対象データに対して，検索キーワードを用いたあいまい検索を行う検索実行部と，
前記検索実行部により得られた検索結果文字列が前記検索キーワードと完全一致しない場合に，前記検索結果文字列に認識誤りが発生している可能性を判断する認識誤り評価部と，
前記認識誤り評価部により，前記検索結果文字列に認識誤りが発生していないと判断された場合に，前記検索結果文字列を検索結果から除外する除外部とを備える
ことを特徴とする文字列検索装置。

（付記２）
前記認識誤り評価部は，
前記検索結果文字列に含まれる文字について，認識時に得られた認識の信頼性を示す情報を取得し，前記認識の信頼性を示す情報に基づいて，前記検索結果文字列に含まれるすべての文字についてそれぞれが所定以上の信頼性があると判定された場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記１に記載の文字列検索装置。

（付記３）
前記認識誤り評価部は，
使用言語の単語を記録した辞書を用い，前記検索結果文字列を含む前記検索対象データ中の文字列が，前記辞書に存在するか否かを判定し，存在していれば前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記１または付記２に記載の文字列検索装置。

（付記４）
前記認識誤り評価部は，
前記検索対象データにおける前記検索結果文字列の出現頻度を算出し，前記検索結果文字列の出現頻度が所定の値以上である場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記１から付記３までのいずれかに記載の文字列検索装置。

（付記５）
前記認識誤り評価部は，
前記検索対象データから前記検索結果文字列を含む所定の周辺文字列を取得し，前記周辺文字列に対して形態素解析を実行し，前記形態素解析の結果から，前記検索結果文字列に対応する形態素を抽出し，すべての前記形態素が未知語でない場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記１から付記４までのいずれかに記載の文字列検索装置。

（付記６）
文字認識，音声認識または点字認識により得られた検索対象データを，所定の検索単位データに分割する分割部と，
検索単位データごとに，認識誤りが発生している可能性を判断する認識誤り評価部と，
認識誤りが発生していると判断された検索単位データに対しては，検索キーワードを用いたあいまい検索を行い，認識誤りが発生していないと判断された検索単位データに対しては，検索キーワードを用いた完全一致検索を行う検索実行部とを備える
ことを特徴とする文字列検索装置。

（付記７）
コンピュータが，
文字認識，音声認識または点字認識により得られた検索対象データに対して，検索キーワードを用いたあいまい検索を行い，
前記検索実行部により得られた検索結果文字列が前記検索キーワードと完全一致しない場合に，前記検索結果文字列に認識誤りが発生している可能性を判断し，
前記認識誤り評価部により，前記検索結果文字列に認識誤りが発生していないと判断された場合に，前記検索結果文字列を検索結果から除外する過程を実行する
ことを特徴とする文字列検索方法。

（付記８）
前記認識誤りが発生している可能性を判断する過程は，
前記検索結果文字列に含まれる文字について，認識時に得られた認識の信頼性を示す情報を取得し，前記認識の信頼性を示す情報に基づいて，前記検索結果文字列に含まれるすべての文字についてそれぞれが所定以上の信頼性があると判定された場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記７に記載の文字列検索方法。

（付記９）
前記認識誤りが発生している可能性を判断する過程は，
使用言語の単語を記録した辞書を用い，前記検索結果文字列を含む前記検索対象データ中の文字列が，前記辞書に存在するか否かを判定し，存在していれば前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記７または付記８に記載の文字列検索方法。

（付記１０）
前記認識誤りが発生している可能性を判断する過程は，
前記検索対象データにおける前記検索結果文字列の出現頻度を算出し，前記検索結果文字列の出現頻度が所定の値以上である場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記７から付記９までのいずれかに記載の文字列検索方法。

（付記１１）
前記認識誤りが発生している可能性を判断する過程は，
前記検索対象データから前記検索結果文字列を含む所定の周辺文字列を取得し，前記周辺文字列に対して形態素解析を実行し，前記形態素解析の結果から，前記検索結果文字列に対応する形態素を抽出し，すべての前記形態素が未知語でない場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記７から付記１０までのいずれかに記載の文字列検索方法。

（付記１２）
コンピュータが，
文字認識，音声認識または点字認識により得られた検索対象データを，所定の検索単位データに分割し，
検索単位データごとに，認識誤りが発生している可能性を判断し，
認識誤りが発生していると判断された検索単位データに対しては，検索キーワードを用いたあいまい検索を行い，認識誤りが発生していないと判断された検索単位データに対しては，検索キーワードを用いた完全一致検索を行う過程を実行する
ことを特徴とする文字列検索方法。

（付記１３）
コンピュータに，
文字認識，音声認識または点字認識により得られた検索対象データに対して，検索キーワードを用いたあいまい検索を行い，
前記検索実行部により得られた検索結果文字列が前記検索キーワードと完全一致しない場合に，前記検索結果文字列に認識誤りが発生している可能性を判断し，
前記認識誤り評価部により，前記検索結果文字列に認識誤りが発生していないと判断された場合に，前記検索結果文字列を検索結果から除外する
処理を実行させるための文字列検索プログラム。

（付記１４）
前記認識誤りが発生している可能性を判断する処理は，
前記検索結果文字列に含まれる文字について，認識時に得られた認識の信頼性を示す情報を取得し，前記認識の信頼性を示す情報に基づいて，前記検索結果文字列に含まれるすべての文字についてそれぞれが所定以上の信頼性があると判定された場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記１３に記載の文字列検索プログラム。

（付記１５）
前記認識誤りが発生している可能性を判断する処理は，
使用言語の単語を記録した辞書を用い，前記検索結果文字列を含む前記検索対象データ中の文字列が，前記辞書に存在するか否かを判定し，存在していれば前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記１３または付記１４に記載の文字列検索プログラム。

（付記１６）
前記認識誤りが発生している可能性を判断する処理は，
前記検索対象データにおける前記検索結果文字列の出現頻度を算出し，前記検索結果文字列の出現頻度が所定の値以上である場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記１３から付記１５までのいずれかに記載の文字列検索プログラム。

（付記１７）
前記認識誤りが発生している可能性を判断する処理は，
前記検索対象データから前記検索結果文字列を含む所定の周辺文字列を取得し，前記周辺文字列に対して形態素解析を実行し，前記形態素解析の結果から，前記検索結果文字列に対応する形態素を抽出し，すべての前記形態素が未知語でない場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする付記１３から付記１６までのいずれかに記載の文字列検索プログラム。

（付記１８）
コンピュータに，
文字認識，音声認識または点字認識により得られた検索対象データを，所定の検索単位データに分割し，
検索単位データごとに，認識誤りが発生している可能性を判断し，
認識誤りが発生していると判断された検索単位データに対しては，検索キーワードを用いたあいまい検索を行い，認識誤りが発生していないと判断された検索単位データに対しては，検索キーワードを用いた完全一致検索を行う
処理を実行させるための文字列検索プログラム。

１０文字列検索装置
１１検索対象データ記憶部
１２キーワード記憶部
１３検索実行部
１４検索結果記憶部
１５一致判定部
１６認識誤り評価部
１７除外部
１１０認識信頼性情報取得部
１１１認識誤り判断部
１２０言語辞書記憶部
１２１単語検索部
１２２検索結果単語記憶部
１２３検索結果調整部
１２４認識誤り判断部
１３０頻度算出部
１３１頻度記憶部
１３２認識誤り判断部
１４０形態素解析辞書記憶部
１４１結果周辺文字列取得部
１４２形態素解析部
１４３形態素記憶部
１４４検索結果対応形態素抽出部
１４５認識誤り判断部
２０文字列検索装置
２１検索対象データ記憶部
２２キーワード記憶部
２３分割部
２４認識誤り評価部
２５検索単位データ記憶部
２６検索実行部
２７検索結果記憶部

Claims

文字認識，音声認識または点字認識により得られた検索対象データに対して，検索キーワードを用いたあいまい検索を行う検索実行部と，
前記検索実行部により得られた検索結果文字列が前記検索キーワードと完全一致しない場合に，前記検索結果文字列に認識誤りが発生している可能性を判断する認識誤り評価部と，
前記認識誤り評価部により，前記検索結果文字列に認識誤りが発生していないと判断された場合に，前記検索結果文字列を検索結果から除外する除外部とを備える
ことを特徴とする文字列検索装置。
前記認識誤り評価部は，
前記検索結果文字列に含まれる文字について，認識時に得られた認識の信頼性を示す情報を取得し，前記認識の信頼性を示す情報に基づいて，前記検索結果文字列に含まれるすべての文字についてそれぞれが所定以上の信頼性があると判定された場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする請求項１に記載の文字列検索装置。
前記認識誤り評価部は，
使用言語の単語を記録した辞書を用い，前記検索結果文字列を含む前記検索対象データ中の文字列が，前記辞書に存在するか否かを判定し，存在していれば前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする請求項１または請求項２に記載の文字列検索装置。
前記認識誤り評価部は，
前記検索対象データにおける前記検索結果文字列の出現頻度を算出し，前記検索結果文字列の出現頻度が所定の値以上である場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする請求項１から請求項３までのいずれかに記載の文字列検索装置。
前記認識誤り評価部は，
前記検索対象データから前記検索結果文字列を含む所定の周辺文字列を取得し，前記周辺文字列に対して形態素解析を実行し，前記形態素解析の結果から，前記検索結果文字列に対応する形態素を抽出し，すべての前記形態素が未知語でない場合に，前記検索結果文字列に認識誤りが発生していないと判断する
ことを特徴とする請求項１から請求項４までのいずれかに記載の文字列検索装置。
コンピュータが，
文字認識，音声認識または点字認識により得られた検索対象データに対して，検索キーワードを用いたあいまい検索を行い，
前記検索により得られた検索結果文字列が前記検索キーワードと完全一致しない場合に，前記検索結果文字列に認識誤りが発生している可能性を判断し，
前記判断により，前記検索結果文字列に認識誤りが発生していないと判断された場合に，前記検索結果文字列を検索結果から除外する過程を実行する
ことを特徴とする文字列検索方法。
コンピュータに，
文字認識，音声認識または点字認識により得られた検索対象データに対して，検索キーワードを用いたあいまい検索を行い，
前記検索により得られた検索結果文字列が前記検索キーワードと完全一致しない場合に，前記検索結果文字列に認識誤りが発生している可能性を判断し，
前記判断により，前記検索結果文字列に認識誤りが発生していないと判断された場合に，前記検索結果文字列を検索結果から除外する
処理を実行させるための文字列検索プログラム。