JP2004005761A - キーワード抽出・検索装置 - Google Patents
キーワード抽出・検索装置 Download PDFInfo
- Publication number
- JP2004005761A JP2004005761A JP2003336622A JP2003336622A JP2004005761A JP 2004005761 A JP2004005761 A JP 2004005761A JP 2003336622 A JP2003336622 A JP 2003336622A JP 2003336622 A JP2003336622 A JP 2003336622A JP 2004005761 A JP2004005761 A JP 2004005761A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- character recognition
- image information
- character
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【構成】 原文書の画像情報から文字認識して文字認識結果候補列を生成する文字認識部と、文字認識結果候補列について単語辞書を検索して一致するものを、あるいは個々の前記文字認識結果候補列の信頼度からキーワードの信頼度を求めて値が所定閾値以上のものをキーワード候補として抽出するキーワード抽出部と、各キーワード候補の原文書中の位置に対応する重要度が所定閾値以上のときにキーワードとして選択するキーワード選択部とを備える。
【選択図】 図1
Description
ワードを指定した検索指示に対応して、信頼度の大きい順に表示したり、先頭から所定個数表示したり、あるいは色を変えて重要度を表示することで、文字認識結果の誤りによる雑音として余分に検索されてしまう文書を容易に見分けることが可能となる。
・4文字めが”字”である確からしさ 1105
・4文字めが”学”である確からしさ 1387
これら値は、図6の○1から”3文字めが”文”である確からしさ”1141”が算出される。同様に、図6の○2、○3から確からしさ”1105”、”1387””がそれぞれ算出される。
(1141+1105)/2=1123
・キーワード候補“文学”の確からしさ
(1141+1387)/2=1264
これら値は、図6の(○1から“3文字めが”文”である確からしさ“1141”が算出される。同様に、図6の○3から値”1387”が算出される。そして、これらの平均(和を2で除算した値)を値とする。
・キーワード候補1の分野特徴ベクトル:v1
・キーワード候補2の分野特徴ベクトル:v2
と求める。例えば後述する図10に示すように、分野(文学、化学、機械、物理、情報、経済など)毎のそれぞれの値を持つ分野特徴ベクトルを求める。
V=v1+v2・・・
といように、ベクトル和を求める。
・文書d1信頼度a1
・文書d2信頼度a2
を取り出す。そして、下段に記載した下記のように表示する。
2:キーワード抽出部
21:単語辞書
3:キーワード選択部
4:文書構造判定部
5:テーマ判定部
6:キーワード付ファイル
7:検索/表示部
Claims (3)
- 文書の画像情報からキーワードを抽出するキーワード抽出・検索装置において、
原文書の画像情報から文字認識して文字認識結果候補列を生成する文字認識部と、
前記文字認識結果候補列について単語辞書を検索して一致するものを、あるいは個々の前記文字認識結果候補列の信頼度からキーワードの信頼度を求めて値が所定閾値以上のものをキーワード候補として抽出するキーワード抽出部と、
各キーワード候補の原文書中の位置に対応する重要度が所定閾値以上のときにキーワードとして選択するキーワード選択部と
を備えたことを特徴とするキーワード抽出・検索装置。 - 前記選択されたキーワードを原文書の画像情報に付加して登録するキーワード付ファイルを備えたことを特徴とする請求項1に記載のキーワード抽出・検索装置。
- キーワードあるいはキーワード群を指定した検索指示に対応して、前記キーワード付ファイルから検索指示されたキーワードの全部および一部が一致するキーワードを取り出し、その信頼度を算出して大きい順にキーワードに対応する画像情報を並べて表示、先頭から所定個数のみを表示、あるいは色マークを変えて順次表示する検索/表示部を備えたことを特徴とする請求項1あるいは請求項2に記載のキーワード抽出・検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003336622A JP2004005761A (ja) | 2003-09-29 | 2003-09-29 | キーワード抽出・検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003336622A JP2004005761A (ja) | 2003-09-29 | 2003-09-29 | キーワード抽出・検索装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6106528A Division JPH07319880A (ja) | 1994-05-20 | 1994-05-20 | キーワード抽出・検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004005761A true JP2004005761A (ja) | 2004-01-08 |
Family
ID=30439142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003336622A Pending JP2004005761A (ja) | 2003-09-29 | 2003-09-29 | キーワード抽出・検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004005761A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100792699B1 (ko) | 2006-03-17 | 2008-01-11 | 엔에이치엔(주) | 일반 추천어 및 광고 추천어 자동완성 방법 및 시스템 |
JP2008262506A (ja) * | 2007-04-13 | 2008-10-30 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
JPWO2007057945A1 (ja) * | 2005-11-15 | 2009-04-30 | 国立大学法人佐賀大学 | 文書管理装置、そのプログラム及びそのシステム |
US9043299B2 (en) | 2006-08-28 | 2015-05-26 | A Ja U Majandustarkvara Ou | System for image storing |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0492973A (ja) * | 1990-08-06 | 1992-03-25 | Fujitsu Ltd | イメージ情報登録検索装置 |
JPH052661A (ja) * | 1991-06-25 | 1993-01-08 | Mitsubishi Electric Corp | 単語読取装置 |
JPH064717A (ja) * | 1992-06-19 | 1994-01-14 | Pfu Ltd | 漢字住所補正処理方法 |
-
2003
- 2003-09-29 JP JP2003336622A patent/JP2004005761A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0492973A (ja) * | 1990-08-06 | 1992-03-25 | Fujitsu Ltd | イメージ情報登録検索装置 |
JPH052661A (ja) * | 1991-06-25 | 1993-01-08 | Mitsubishi Electric Corp | 単語読取装置 |
JPH064717A (ja) * | 1992-06-19 | 1994-01-14 | Pfu Ltd | 漢字住所補正処理方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2007057945A1 (ja) * | 2005-11-15 | 2009-04-30 | 国立大学法人佐賀大学 | 文書管理装置、そのプログラム及びそのシステム |
JP4734662B2 (ja) * | 2005-11-15 | 2011-07-27 | 国立大学法人佐賀大学 | 文書管理装置、そのプログラム及びそのシステム |
KR100792699B1 (ko) | 2006-03-17 | 2008-01-11 | 엔에이치엔(주) | 일반 추천어 및 광고 추천어 자동완성 방법 및 시스템 |
US9043299B2 (en) | 2006-08-28 | 2015-05-26 | A Ja U Majandustarkvara Ou | System for image storing |
JP2008262506A (ja) * | 2007-04-13 | 2008-10-30 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100339446B1 (ko) | 주소 인식 장치 및 주소 인식 방법 | |
KR100292098B1 (ko) | 문자 인식 장치 및 방법 | |
EP2015228B1 (en) | Retrieving electronic documents by converting them to synthetic text | |
US6944344B2 (en) | Document search and retrieval apparatus, recording medium and program | |
JP2713622B2 (ja) | 表形式文書読取装置 | |
KR100412317B1 (ko) | 문자인식/수정방법및장치 | |
US20120066213A1 (en) | Information processing apparatus, information processing method, and computer program product | |
US10140556B2 (en) | Arabic optical character recognition method using hidden markov models and decision trees | |
JP2005242579A (ja) | 文書処理装置、文書処理方法、および文書処理プログラム | |
JPH0684006A (ja) | オンライン手書き文字認識方法 | |
JP2000315247A (ja) | 文字認識装置 | |
Naz et al. | Arabic script based character segmentation: a review | |
JP2004005761A (ja) | キーワード抽出・検索装置 | |
JP2021047693A (ja) | 情報処理装置及びプログラム | |
Marinai | Text retrieval from early printed books | |
JPH07319880A (ja) | キーワード抽出・検索装置 | |
JP2004030695A (ja) | キーワード抽出・検索装置 | |
Malik | A Graph Based Approach for Handwritten Devanagri Word Recogntion | |
Lu et al. | Word searching in document images using word portion matching | |
US9483694B2 (en) | Image text search and retrieval system | |
JP2586372B2 (ja) | 情報検索装置及び情報検索方法 | |
Al-Barhamtoshy et al. | Arabic OCR segmented-based system | |
JP2021047704A (ja) | 情報処理装置及びプログラム | |
Puri et al. | Sentence detection and extraction in machine printed imaged document using matching technique | |
Lamb et al. | Predicting the Ordering of Characters in Japanese Historical Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040511 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040712 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040810 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041012 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20041020 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20041119 |