JPH04232570A - キーワード検索方法 - Google Patents

キーワード検索方法

Info

Publication number
JPH04232570A
JPH04232570A JP2408540A JP40854090A JPH04232570A JP H04232570 A JPH04232570 A JP H04232570A JP 2408540 A JP2408540 A JP 2408540A JP 40854090 A JP40854090 A JP 40854090A JP H04232570 A JPH04232570 A JP H04232570A
Authority
JP
Japan
Prior art keywords
character
characters
keyword
candidate
misread
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2408540A
Other languages
English (en)
Other versions
JP2815707B2 (ja
Inventor
Takeshi Maruko
圓子 雄
Hitoshi Kinoshita
仁 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP2408540A priority Critical patent/JP2815707B2/ja
Publication of JPH04232570A publication Critical patent/JPH04232570A/ja
Application granted granted Critical
Publication of JP2815707B2 publication Critical patent/JP2815707B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、登録キーワードと同
じ単一文字または文字列をキーワードとして文書中から
検索する方法であって、とくに文書中の各文字の読取り
に多少の誤読があっても検索効率の向上が図れるキーワ
ード検索方法に関する。
【0002】
【従来の技術】一般に、文書の内容を迅速,的確に把握
するには、キーワードを活用するのが有効である。たと
えば、地球環境保護の問題に関する文書では、たとえば
「放射能」や「オゾン層」,「地球汚染」などのキーワ
ードが用いられる。さて、文書のデータベース化をおこ
なうとき、文書の文字つまり原稿文字を順に文字読取装
置によって、標準文字に対する類似度のもっとも高い文
字を読取文字として選出し、文字コードで表されるテキ
ストを作成する。このテキストに対して、登録されたキ
ーワードと同じ単一文字または文字列をキーワードとし
て検索する。
【0003】
【発明が解決しようとする課題】従来の方法では、文字
読取装置によって読み取られた結果に誤り、つまり誤読
が1字でもあると、キーワードが存在するにもかかわら
ず、検索対象から除外される。すなわち、文書中のキー
ワード総数に対する検索キーワード数の比率を検索効率
と定義したとき、検索効率は著しく低下する。この発明
の課題は、従来の技術がもつ以上の問題点を解消し、文
書中の各文字の読取りに多少の誤読があっても検索効率
の向上が図れるキーワード検索方法を提供することにあ
る。
【0004】
【課題を解決するための手段】この課題を解決するため
に、請求項1に係るキーワード検索方法は、登録キーワ
ードと同じ単一文字または文字列をキーワードとして文
書中から検索する方法において、この文書の各文字を原
稿文字とし、この各原稿文字が対応する前記登録キーワ
ードの各対応構成文字に対して誤読された過去の履歴を
、誤読文字−キーワード構成文字の対応関係およびその
頻度からなる誤読履歴データとして蓄積し;前記文書の
各原稿文字を順に文字読取装置によって読み取り、前記
各原稿文字について標準文字に対する類似度に基づき所
定個数までの候補文字を選出し;前記各原稿文字でもっ
とも先行するものの各候補文字のうち少なくとも一つが
前記登録キーワードの先頭文字と一致するときの前記原
稿文字を前記検索すべきキーワードの先頭文字とし;前
記各候補文字の全てが前記登録キーワードの先頭文字と
一致しないときには、前記各候補文字を誤読文字とし、
前記誤読履歴データに基づき対応するキーワード構成文
字を想定して読み替え、この読替文字が前記登録キーワ
ードの先頭文字と一致するとき、前記読替文字を前記検
索すべきキーワードの先頭文字とし;以下、この先頭文
字に対応する原稿文字に後続の各文字を順に読み取り、
前記先頭文字におけるのと同様の処理によって前記検索
すべきキーワードの対応する後続順位の各文字とすると
ともに;前記登録キーワードの対応する構成文字と一致
したときの、第1順位以外の前記各候補文字または前記
読替文字を、誤読文字の新たな事例とし、これに基づい
て前記誤読履歴データを更新する。請求項2に係るキー
ワード検索方法は、請求項1に記載の方法において、読
替文字が、各候補文字を誤読文字としたときに、誤読履
歴データにおいて所定値以上の頻度をもつ各誤読文字に
対応するキーワード構成文字として想定される。 請求項3に係るキーワード検索方法は、請求項1または
2に記載の方法において、所定個数が3である。
【0005】
【作用】請求項1ないし3のいずれかに係るキーワード
検索方法では共通に、文書の各原稿文字の読取りに多少
の誤読があっても、読取文字として所定個数、たとえば
請求項3のように、3個までの候補文字を上げ、そのう
ち少なくとも一つが登録キーワードの先頭文字と一致す
るものを探せば、その一致したものは正しい文字である
確率が高い。また、各候補文字の全てが登録キーワード
の先頭文字と一致しないときには、各候補文字を誤読文
字とし、過去の経験的蓄積データである誤読履歴データ
に基づいて、たとえば請求項2のように、各候補文字を
誤読文字としたときに、誤読履歴データで所定値以上の
頻度をもつ各誤読文字に対応するキーワード構成文字を
想定し読み替える。以下、この先頭文字に対応する原稿
文字に後続の各文字を順に読み取り、先頭文字における
のと同様の処理によって検索すべきキーワードの対応す
る後続順位の各文字とする。また同時に、登録キーワー
ドの対応する構成文字と一致したときの、第1順位以外
の各候補文字または読替文字を、誤読文字の新たな事例
とし、これに基づき誤読履歴データを更新し、その充実
を図る。
【0006】
【実施例】本発明に係るキーワード検索方法が適用され
る検索装置について、以下に図を参照しながら説明する
。図4は検索装置に係る登録キーワード,原稿文字,各
候補文字の対応図である。図4において、第1行は登録
キーワード、第2行は検索すべき原稿文字、第3行は各
原稿文字の読取結果の第1候補文字、第4行は同じくそ
の第2候補文字、第5行は同じくその第3候補文字であ
る。登録キーワードは「共同開発」、原稿文字「共」に
係る読取結果の第1候補文字は「共」、第2候補文字は
「井」、第3候補文字は「丼」である。以下、原稿文字
「同」に対し伺,同,向が、原稿文字「開」に対し閉,
関,間が、原稿文字「発」に対し発,溌,廃がそれぞれ
候補文字として選出される。なお、第1,第2,第3の
各候補文字は、各原稿文字の標準文字に対する類似度の
高い順に、または類似度に係るしきい値を順に緩和して
、3個までの文字が選定される。類似度が極端に低くな
るときには、候補文字とは言えないから、3個を揃えて
選定する必要はない。
【0007】図5は、図4の各文字を符号化したときの
対応図であり、登録キーワードKの各構成文字:Ki、
原稿文字Wの各構成文字:Wi、第1,第2,第3の各
候補文字:Ai,Bi,Ciにそれぞれ対応する。ここ
で、i=1,2,3,4で、登録キーワード、原稿文字
の共通な文字順位符号である。
【0008】図3は検索装置の構成を示すブロック図で
ある。図3において、1は文書の原稿文字に係る画像を
求めるイメージスキャナ、2は読取部で、原稿文字に係
る画像に基づいて3個までの候補文字を選出する。なお
、第1,第2,第3の各候補文字については、既に説明
したとおりである。3は読取文字に係る候補文字用のメ
モリで、読取りの第1,第2,第3の各候補文字が文字
コードで格納される。4は登録キーワード,誤読履歴デ
ータ用の入力部、5は登録キーワードと、誤読履歴デー
タ、つまり誤読文字−キーワード構成文字の対応関係と
その頻度とからなるデータとを格納するメモリである。 6は照合部で、各メモリ3,5からの対応する文字コー
ドを照合し、一致,不一致の判定をする。7はCRTで
、照合結果を画面に表示する。なお、このCRT7に照
合結果を印刷して出力するプリンタを併設することもで
きる。
【0009】図1,図2は両方で検索装置の動作を示す
フローチャートである。図1において、ステップS1で
、4個の文字からなる登録キーワードの各構成文字Ki
、原稿文字Wiの共通な文字順位符号iの初期化、i=
1をおこなう。ステップS2で、原稿文字Wiを読み取
った結果の3個の第1,第2,第3の各候補文字Ai,
Bi,Ciを選出する。ステップS3で、第1候補文字
Aiがキーワード構成文字Kiと一致するかどうかを判
断し、YESならステップS11(図2)へ、NOなら
ステップS4へ移行する。次にステップS4で、第2候
補文字BiがKiと一致するかどうかが判断され、YE
SならステップS11へ、NOならステップS5へ移行
する。またステップS5で、第3候補文字CiがKiと
一致するかどうかが判断され、YESならステップS1
1へ、NOならステップS6へ移行する。ここで、若干
補足すると、キーワードとなるべき先頭の原稿文字W1
の読取りに多少の誤読があっても、読取文字として3個
までの各候補文字A1,B1,C1を上げ、そのうち少
なくとも一つが登録キーワードの先頭文字K1と一致す
るものを探せば、その一致したものは正しい文字である
確率が高い、と考えることができる。
【0010】各候補文字A1,B1,C1の全てが登録
キーワードの先頭文字と一致しないときには、各候補文
字を誤読文字とし、過去の経験的蓄積データである誤読
履歴データに基づいて、対応するキーワード構成文字を
想定し読み替える。誤読履歴データの構成は、閉−開,
45、関−開,50、間−開,30、…のようになって
いる。この意味は、たとえば「開」が「閉」と誤読され
た事例が過去の実績として45回あり、以下同様に、「
関」と誤読された頻度が50、「間」と誤読された頻度
が30、…ということである。いま、頻度しきい値を4
0として、これ以上の頻度で誤読の実績をもつデータは
一応信頼できるとして、キーワード構成文字「開」に対
応して「閉」,「関」の2文字を想定する。これがステ
ップS6で、「閉」,「関」,はEijで表してある。
【0011】図6は誤読履歴データファイルの構成図で
ある。図6において、アドレスX1の欄に、誤読文字「
閉」の文字コード、アドレスX2の欄に、誤読文字に対
応するキーワード構成文字「開」の文字コード、アドレ
スX3の欄に「閉」−「開」の組合せで過去に誤読が実
際に起こった事例、つまり「開」が「閉」と誤読された
頻度数「45」の数値コードがそれぞれ格納される。 この誤読履歴データは、図3におけるメモリ5に登録キ
ーワードとともに格納される。
【0012】ステップS7〜S10で、想定された「閉
」,「関」の2文字から正解を選出する。すなわち、ス
テップS7で、想定文字数に係るカウンタjの初期化、
j=1をおこなう。ステップS8で、想定文字Eijが
Kiかどうかを判断し、もしYESならステップS11
へ、NOならステップS9,S10を経て全ての想定文
字についてステップS8の判断が繰り返される。 ここで、mはステップS6で想定された文字の総数で、
この場合には、m=2  である。その結果、「閉」が
「開」であると判定されたとする。ここで留意しなけれ
ばならないのは、過去の発生頻度最大の文字が必ずしも
正解であるとは限らないことである。誤読の要因が実に
さまざまであるからである。ステップS10で、NOつ
まり該当文字がなければ、ステップS15に移行し、W
i=不明、さらにステップS16で、検索不能と判定さ
れる。
【0013】さてステップS11で、Wi=Ki  と
確定され、続くステップS12では、誤読履歴データの
更新がおこなわれる。すなわち、この場合の「閉」が「
開」であった事例が新たな実績として、図6において、
アドレスX3の頻度に係るデータが46にカウントアッ
プされる。以下、ステップS13,S14を経て登録キ
ーワードKの全ての構成文字について同様の処理が繰り
返される。ここで、nはキーワード文字の総数である。
【0014】ところで、候補文字の個数は多いほど、読
取り確度は上がるが、処理時間もかかるから、調和点を
求める必要がある。候補文字を3個までとしたのは、経
験的なもので、処理時間もほどほどの線で、非常に高い
確率で正確な文字読取りができることが実証された経験
に基づく。この実施例では、3個の候補文字でも読み取
れないとき、そこで断念しないで、さらに誤読履歴デー
タという過去の実績を利用して踏み込んだ検索努力を試
みようとするものである。
【0015】
【発明の効果】請求項1ないし3のいずれかに係るキー
ワード検索方法では共通に、文書の各原稿文字の読取り
に多少の誤読があっても、読取文字として所定個数、た
とえば請求項3のように、3個までの候補文字を上げ、
そのうち少なくとも一つが登録キーワードの先頭文字と
一致するものを探せば、その一致したものは正しい文字
である確率が高い;各候補文字の全てが登録キーワード
の先頭文字と一致しないときには、各候補文字を誤読文
字とし、過去の経験的蓄積データである誤読履歴データ
に基づいて、たとえば請求項2のように、各候補文字を
誤読文字としたときに、誤読履歴データで所定値以上の
頻度をもつ各誤読文字に対応するキーワード構成文字を
想定し読み替え、以下この先頭文字に対応する原稿文字
に後続の各文字を順に読み取り、先頭文字におけるのと
同様の処理によって検索すべきキーワードの対応する後
続順位の各文字とする:また同時に、登録キーワードの
対応する構成文字と一致したときの、第1順位以外の各
候補文字または読替文字を、誤読文字の新たな事例とし
、これに基づいて誤読履歴データを更新し、その充実を
図る。
【0016】したがって、所定複数個の候補文字を上げ
ることによって効率の高い読取りをおこなうのに加えて
、さらにそれでも読み取れないとき、そこで断念しない
で、さらに誤読履歴データという過去の実績を利用して
踏み込んだ検索努力を試みることによって検索効率の向
上と処理時間の短縮とを図ることができる。しかも、新
たな実績は誤読履歴データの更新,充実という形で生か
され、検索確度の向上に貢献することができる、という
すぐれた効果がある。
【図面の簡単な説明】
【図1】本発明に係る方法を適用した検索装置の動作の
一部分を示すフローチャート
【図2】検索装置の動作の別の部分を示すフローチャー
【図3】この検索装置の構成を示すブロック図
【図4】
この検索装置に係る登録キーワード,原稿文字,各候補
文字の対応図
【図5】図4の各文字を符号化したときの対応図
【図6
】誤読履歴データファイルの構成図
【符号の説明】
1    イメージセンサ 2    読取部 3    メモリ 4    入力部 5    メモリ 6    照合部 7    CRT

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】登録キーワードと同じ単一文字または文字
    列をキーワードとして文書中から検索する方法において
    、この文書の各文字を原稿文字とし、この各原稿文字が
    対応する前記登録キーワードの各対応構成文字に対して
    誤読された過去の履歴を、誤読文字−キーワード構成文
    字の対応関係およびその頻度からなる誤読履歴データと
    して蓄積し;前記文書の各原稿文字を順に文字読取装置
    によって読み取り、前記各原稿文字について標準文字に
    対する類似度に基づき所定個数までの候補文字を選出し
    ;前記各原稿文字でもっとも先行するものの各候補文字
    のうち少なくとも一つが前記登録キーワードの先頭文字
    と一致するときの前記原稿文字を前記検索すべきキーワ
    ードの先頭文字とし;前記各候補文字の全てが前記登録
    キーワードの先頭文字と一致しないときには、前記各候
    補文字を誤読文字とし、前記誤読履歴データに基づき対
    応するキーワード構成文字を想定して読み替え、この読
    替文字が前記登録キーワードの先頭文字と一致するとき
    、前記読替文字を前記検索すべきキーワードの先頭文字
    とし;以下、この先頭文字に対応する原稿文字に後続の
    各文字を順に読み取り、前記先頭文字におけるのと同様
    の処理によって前記検索すべきキーワードの対応する後
    続順位の各文字とするとともに;前記登録キーワードの
    対応する構成文字と一致したときの、第1順位以外の前
    記各候補文字または前記読替文字を、誤読文字の新たな
    事例とし、これに基づいて前記誤読履歴データを更新す
    る;ことを特徴とするキーワード検索方法。
  2. 【請求項2】請求項1に記載の方法において、読替文字
    は、各候補文字を誤読文字としたときに、誤読履歴デー
    タにおいて所定値以上の頻度をもつ各誤読文字に対応す
    るキーワード構成文字として想定されることを特徴とす
    るキーワード検索方法。
  3. 【請求項3】請求項1または2に記載の方法において、
    所定個数は、3であることを特徴とするキーワード検索
    方法。
JP2408540A 1990-12-28 1990-12-28 キーワード検索方法 Expired - Fee Related JP2815707B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2408540A JP2815707B2 (ja) 1990-12-28 1990-12-28 キーワード検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2408540A JP2815707B2 (ja) 1990-12-28 1990-12-28 キーワード検索方法

Publications (2)

Publication Number Publication Date
JPH04232570A true JPH04232570A (ja) 1992-08-20
JP2815707B2 JP2815707B2 (ja) 1998-10-27

Family

ID=18517982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2408540A Expired - Fee Related JP2815707B2 (ja) 1990-12-28 1990-12-28 キーワード検索方法

Country Status (1)

Country Link
JP (1) JP2815707B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319880A (ja) * 1994-05-20 1995-12-08 Fujitsu Ltd キーワード抽出・検索装置
JP2004030695A (ja) * 2003-09-29 2004-01-29 Fujitsu Ltd キーワード抽出・検索装置
JP2011034230A (ja) * 2009-07-30 2011-02-17 Rakuten Inc 画像検索エンジン
JP2015045984A (ja) * 2013-08-28 2015-03-12 富士通株式会社 情報処理装置、文字認識方法、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319880A (ja) * 1994-05-20 1995-12-08 Fujitsu Ltd キーワード抽出・検索装置
JP2004030695A (ja) * 2003-09-29 2004-01-29 Fujitsu Ltd キーワード抽出・検索装置
JP2011034230A (ja) * 2009-07-30 2011-02-17 Rakuten Inc 画像検索エンジン
JP2015045984A (ja) * 2013-08-28 2015-03-12 富士通株式会社 情報処理装置、文字認識方法、及びプログラム

Also Published As

Publication number Publication date
JP2815707B2 (ja) 1998-10-27

Similar Documents

Publication Publication Date Title
KR100346262B1 (ko) 멀티미디어 데이타의 키워드 자가 생성방법
US8099415B2 (en) Method and apparatus for assessing similarity between online job listings
JP3041268B2 (ja) 中国語誤り検査(cec)システム
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
CN101128822A (zh) 权威性文档识别
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
JP2693914B2 (ja) 検索システム
JPH04232570A (ja) キーワード検索方法
WO2022019275A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
Branting Name-Matching Algorithms for Legal Case-Management Systems', Refereed article
US11822530B2 (en) Augmentation to the succinct trie for multi-segment keys
Sloan et al. Data preparation and fuzzy matching techniques for improved statistical modeling
KR930000593B1 (ko) 입력문자열과 키워드와의 근사적 합치(Match)를 이용한 정보 검색 시스템 및 그 합치 방법
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JPH05250416A (ja) データベースの登録・検索装置
KR101105947B1 (ko) 상품모델을 자동으로 매칭시키는 상품 정보 등록 방법 및시스템
JPH04215183A (ja) キーワード検索方法
JP2655087B2 (ja) 文字認識後処理方式
JPH0441388B2 (ja)
JP3241854B2 (ja) 単語スペル自動補正装置
JP2839515B2 (ja) 文字読取システム
JPH04225471A (ja) キーワード検索方法
JP2921119B2 (ja) 数値検索装置および数値検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP3104893B2 (ja) 情報検索方式

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees