JP5289032B2 - 文書検索装置 - Google Patents
文書検索装置 Download PDFInfo
- Publication number
- JP5289032B2 JP5289032B2 JP2008326286A JP2008326286A JP5289032B2 JP 5289032 B2 JP5289032 B2 JP 5289032B2 JP 2008326286 A JP2008326286 A JP 2008326286A JP 2008326286 A JP2008326286 A JP 2008326286A JP 5289032 B2 JP5289032 B2 JP 5289032B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- search
- normalization
- document
- character code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010606 normalization Methods 0.000 claims description 119
- 238000000034 method Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 13
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000000465 moulding Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図9はN-Gram検索方式における、電子テキストに対する検索インデックス生成処理を示す。ここでは、まず文書010番から抽出した電子テキスト 201を先頭から読み出して、N文字ずつの文字ペアを取り出す。例えば、N=2の場合は電子テキスト201から“本書”、“書で”、“では”、“は東”といった文字ペアの要素を取得する。
この場合、検索で必要な正規化は幾つかに分類できると考える。図2は、その文字コードの正規化の分類例を示す。ここで正規化は大きく2種類に大別できる。
一つは、1文字を別の1文字に正規化する「(1)1対1の正規化」、
もう一つは、1文字を複数文字に正規化(もしくは複数文字を1文字に正規化)する「 (2)1対多/多対1の正規化」である。
まず「(イ)等価文字」は、日本語の半角カタカナと全角カタカナの正規化のような、意味的に等価な文字コードの正規化である。特許文献1に示された技術は、この正規化にあたる。
次に「(ロ)異体字」は、中国語の簡体字と繁体字のように、同じ意味の漢字だが、文字コードと字形が異なるものである。
また「(ハ)異発音文字」は同じラテン語系の文字だがダイアクリティカルマーク(ドイツ語のウムラウトやスペイン語のチルダ、ポーランド語のオゴネク等)が付いた文字や、日本語の大文字の“ア”と小文字の“ァ”のように発音が異なる文字の正規化である。
さらに「(ニ)同型文字」は文字認識誤りを吸収するために類似形状を持つ文字を正規化するものであり、例えば“1”と“l”や“|”を、ある文字コードに正規化する。特許文献2に示された技術は、この同型文字の正規化にあたる。
またさらに「(ホ)正規分解表記可能文字」はUnicodeの規約で規定された文字コードの正規化であり、
検索インデックス生成部は、電子テキスト抽出部で得た文字コードに対しては同型文字テーブル以外のテーブルを参照し、文字認識部から得た候補文字付きの文字コードに対しては全てのテーブルを参照して文字コードを正規化処理すると共に、正規化処理時に、分解統合された文字の座標位置情報を分解統合前の文字座標位置情報から算出して正規化文字コードと対応した検索インデックスを生成し、
検索処理部は、入力された検索キーワードに対して全てのテーブルを参照して検索キーワードを正規化し、正規化された検索キーワードを検索インデックスと照合して検索キーワードを含む文書と照合時の検索スコアを出力する。
図1はこの発明の実施の形態1を示す基本構成図である。図1において、文書ファイル101は、検索対象とする文書ファイルである。文書解析処理部112は、文書ファイル101の内容を解析して検索インデックス105を作成する。検索処理部111は、ユーザから検索キーワードが入力された際、その検索キーワードを検索インデックス105と照合して、ヒットした文書と、その検索スコアをユーザに返す。文字正規化テーブル110は、正規化用のデータを格納したテーブルであり、文書解析処理部112と検索処理部111はこのテーブルを参照して文字コードを正規化する。
上記文書解析処理部112は、文書ファイル101から電子的なテキストを抜き出す電子テキスト抽出部102と、文書ファイル101中に含まれるイメージを文字認識処理する文字認識部103と、これら電子テキスト抽出部102と文字認識部103から抽出した文字情報から、検索インデックス105を生成する検索インデックス生成部104から成る。
また上記文字正規化テーブル110は、意味的に等価で1対1文字の正規化を行う等価文字テーブル106(図2の401に対応)と、意味的に完全な等価性はなくて検索キーワードと文書の文字コードが一致しない場合は、その検索スコアを下げたい異体・異発音文字テーブル107(図2の402に対応)と、意味的に等価であり1対多/多対1文字の正規化を行う分解合成文字テーブル108(図2の404に対応)と、意味的には異なるが類似した文字形状を持つ文字コードを正規化する同型文字テーブル109(図2の403に対応)から成る。
電子的テキスト501は文書ファイル101から抽出した電子的なテキストの例であり、文書からA1、 B1、 C1、 D1という文字コードから成る4文字の文字列が抽出されたことを示す。ここで、等価文字テーブル106に、文字コードB1を文字コードB'に正規化すると記述されている場合、電子的テキスト501中の文字コードB1を削除してB'に置き換えた正規化後のデータ502を作成する。また、異体・異発音文字テーブル107に、文字コードC1を文字コードC'に正規化すると記述されている場合は、電子的テキスト501中に文字コードC1が存在していたら、その第2位の候補文字にC'を追加して、正規化後のデータ504を作成する。また、分解合成文字テーブル108に、文字コードD1をD'1とD'2の二文字に正規化すると記述されている場合は、電子テキスト501中の文字コードD1を削除してD'1とD'2の二文字に置き換え、正規化後のデータ506を作成する。
文字認識結果601は、イメージを文字認識した結果の例であり、文書ファイル101からA1、 B1、 C1、 D1という4文字の認識結果が得られたことを示す。そして2番目の文字B1は2つの候補文字B2、 B3を持ち、3番目と4番目の文字C1と D1 は、各々1つの候補文字C2とD2を持つことを示す。
まず、1対1文字の正規化について述べる。ここで等価文字テーブル106にB1=B'と記載されている場合、この等価文字テーブル106を元に電子的なテキストを正規化すると、正規化後の電子的テキスト701が得られる。正規化前の文字コードB1は文字位置・大きさ情報702を持っている。ここで文字位置・大きさ情報702中のSX、 SYは文字の左上点位置座標を、W, Hは文字の幅,高さを示す。ここで正規化後の文字コードB'には、正規化前の文字コードB1が単純に置き換えられただけなので、正規化前の文字コードと同じ文字位置・大きさ情報703を付与する。
図7は、この発明の実施の形態2における基本構成図である。言語判定部901以外の構成については実施の形態1と同様であるので、言語判定部901以外の手段についての説明は割愛する。
例えば、言語判定部901で中国語だと判定された場合は中国語用の異体・異発音文字テーブル1001を、日本語と判定された場合は日本語用の異体・異発音文字テーブル1002を参照する。
Claims (6)
- 文書を指定検索キーワードで検索する文書検索装置において、検索文書内の電子的なテキストを抽出し、文字コードを得る電子テキスト抽出部と、検索文書内のイメージを文字認識し、候補文字付きの文字コードを得る文字認識部と、文字コードに対し、異なる処理を施すための等価文字テーブルと、異体・異発音文字テーブルと、分解合成文字テーブルと、同型文字テーブルと、電子テキスト抽出部と文字認識部から得た文字コードから上記各テーブルを参照し、N-Gram形式の検索インデックスを作成する検索インデックス生成部と、作成された検索インデックスと入力された検索キーワードを比較し検索キーワードを含む文書を検索する検索処理部とを備え、
検索インデックス生成部は、電子テキスト抽出部で得た文字コードに対しては同型文字テーブル以外のテーブルを参照し、文字認識部から得た候補文字付きの文字コードに対しては全てのテーブルを参照して文字コードを正規化処理すると共に、正規化処理時に、分解統合された文字の座標位置情報を分解統合前の文字座標位置情報から算出して正規化文字コードと対応した検索インデックスを生成し、
検索処理部は、入力された検索キーワードに対して全てのテーブルを参照して検索キーワードを正規化し、正規化された検索キーワードを検索インデックスと照合して検索キーワードを含む文書と照合時の検索スコアを出力することを特徴とする文書検索装置。 - 等価文字テーブルは、意味的に等価で1対1文字の正規化処理を、
異体・異発音文字テーブルは、意味的に完全な等価性はなく検索キーワードと文書の文字コードが一致しない場合は、その検索スコアを下げる正規化処理を、
分解合成文字テーブルは意味的に等価であり1対多/多対1文字の正規化処理を、
同型文字テーブルは、意味的に異なるが類似した文字形状を持つ文字コードを正規化処理をするためのものであることを特徴とする請求項1記載の文書検索装置。 - 検索インデックス生成部は、電子テキスト抽出部で得た文字コードに対して、
等価文字テーブルを参照して、正規化前の文字コードを当該テーブルに記載の文字コードで置き換え、
異体・異発音文字テーブルを参照して、正規化前の文字コードの候補文字として当該テーブルに記載の文字コードを追加し、
分解合成文字テーブルを参照して、正規化前の文字コードを当該テーブルに記載の文字コードで置き換える処理をし、この正規化後の候補文字付きテキストからN-Gram検索インデックスを生成することを特徴とする請求項2記載の文書検索装置。 - 検索インデックス生成部は、文字認識部から得た候補文字付きの文字コードに対して、全候補文字の文字コードを探索して、
等価文字テーブルに記載の文字コードを見つけた場合、これを当該テーブルに記載の文字コードで置き換え、
異体・異発音文字テーブルに記載の文字コードを見つけた場合、正規化前の文字コードの一つ後ろの候補文字に、当該テーブルに記載の文字コードを追加し、
分解合成文字テーブルに記載の文字コードを見つけた場合は、これを当該テーブルに記載の文字コードで置き換え、
同型文字テーブルに記載の文字コードを見つけた場合、候補文字の後ろに、その文字コードと形状が類似した文字コードのグループを表すコードを追加する処理をし、この正規化後の候補文字付きテキストからN-Gram検索インデックスを生成することを特徴とする請求項2または3記載の文書検索装置。 - 文字の座標位置情報は、文字コードが持つ文字位置・大きさ情報であり、
検索インデックス生成部は、
等価文字テーブルと異体・異発音文字テーブルと同型文字テーブルを参照して正規化した場合は、正規化後の文字コードが持つ文字位置・大きさ情報に、正規化前の文字コードが持つ文字位置・大きさ情報と同じ値を設定し、
分解合成文字テーブルを用いて正規化した場合、分解合成文字テーブルに記載された座標計算条件に従って、正規化前の文字コードの文字位置・大きさ情報から正規化後の文字コードの文字位置・大きさ情報を算出することを特徴とする請求項1〜4の何れか1項に記載の文書検索装置。 - 検索文書の使用言語の種類を判別する言語判定部を備え、
等価文字テーブルと、異体・異発音文字テーブルと、分解合成文字テーブルと、同型文字テーブルは言語毎に用意され、
検索インデックス生成部は、言語判定部で判別された検索文書の使用言語の種類に応じて、上記各テーブルを言語毎に切り替えて文字コードの正規化を行うことを特徴とする請求項1〜5の何れか1項に記載の文書検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008326286A JP5289032B2 (ja) | 2008-12-22 | 2008-12-22 | 文書検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008326286A JP5289032B2 (ja) | 2008-12-22 | 2008-12-22 | 文書検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010146509A JP2010146509A (ja) | 2010-07-01 |
JP5289032B2 true JP5289032B2 (ja) | 2013-09-11 |
Family
ID=42566842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008326286A Active JP5289032B2 (ja) | 2008-12-22 | 2008-12-22 | 文書検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5289032B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347994B (zh) * | 2019-07-12 | 2023-06-30 | 北京香侬慧语科技有限责任公司 | 一种表格处理方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997039423A1 (fr) * | 1996-04-17 | 1997-10-23 | Hitachi, Ltd. | Processeur de donnees |
JP2001125915A (ja) * | 1999-10-28 | 2001-05-11 | Fujitsu Ltd | 情報検索装置 |
CN101226596B (zh) * | 2007-01-15 | 2012-02-01 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
-
2008
- 2008-12-22 JP JP2008326286A patent/JP5289032B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010146509A (ja) | 2010-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3427692B2 (ja) | 文字認識方法および文字認識装置 | |
JP5144940B2 (ja) | 目次抽出におけるロバスト性向上 | |
US7756871B2 (en) | Article extraction | |
Fernández-Mota et al. | Bh2m: The barcelona historical, handwritten marriages database | |
Choudhury et al. | Figure metadata extraction from digital documents | |
US20120066213A1 (en) | Information processing apparatus, information processing method, and computer program product | |
RU2006114696A (ru) | Системы и способы для поиска с использованием запросов, написанных на языке и/или наборе символов, отличном от такового для целевых страниц | |
US9501557B2 (en) | Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method | |
JP2007122403A (ja) | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム | |
Mei et al. | Statistical learning for OCR text correction | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
JP5577546B2 (ja) | 計算機システム | |
Wei et al. | A method for removing inflectional suffixes in word spotting of Mongolian Kanjur | |
JP5289032B2 (ja) | 文書検索装置 | |
US20150199582A1 (en) | Character recognition apparatus and method | |
KR102355731B1 (ko) | 해석 프로그램, 해석 방법 및 해석 장치 | |
JP2009020567A (ja) | 文書検索装置 | |
JP6648421B2 (ja) | 文書を処理する情報処理装置、情報処理方法、およびプログラム | |
Mohapatra et al. | Spell checker for OCR | |
JP3975825B2 (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JPH103483A (ja) | 情報検索装置 | |
Doermann et al. | Translation lexicon acquisition from bilingual dictionaries | |
Shafait et al. | Background variability modeling for statistical layout analysis | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
Balasooriya | Improving and Measuring OCR Accuracy for Sinhala with Tesseract OCR Engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130604 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5289032 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |