JP3026397B2 - Document search device - Google Patents

Document search device

Info

Publication number
JP3026397B2
JP3026397B2 JP4342333A JP34233392A JP3026397B2 JP 3026397 B2 JP3026397 B2 JP 3026397B2 JP 4342333 A JP4342333 A JP 4342333A JP 34233392 A JP34233392 A JP 34233392A JP 3026397 B2 JP3026397 B2 JP 3026397B2
Authority
JP
Japan
Prior art keywords
search
character
search condition
condition
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4342333A
Other languages
Japanese (ja)
Other versions
JPH06195387A (en
Inventor
藤 正 雄 伊
藤 敦 史 安
野 祐 司 菅
健 ▲鶴▼林
知 一 晃 倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP4342333A priority Critical patent/JP3026397B2/en
Publication of JPH06195387A publication Critical patent/JPH06195387A/en
Application granted granted Critical
Publication of JP3026397B2 publication Critical patent/JP3026397B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、光学的文字認識装置に
よって文字コード化した文書から全文検索を行なう文書
検索装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document search apparatus for performing a full-text search from a document coded by an optical character recognition apparatus.

【0002】[0002]

【従来の技術】近年、光学的文字認識装置の実用化に伴
い、紙の文書情報を文字コード化して検索したいという
要求が高まっている。しかしながら、光学的文字認識装
置の認識率はかなり向上したとはいえ、まだ特定の文字
に対しては認識率が悪いというのが現状であり、そのよ
うな文書から検索する場合には、予め認識した文書を校
正する必要があった。この校正作業は、日本語処理技術
によって誤認識位置を指定することはある程度可能では
あるが、依然人手を介する必要があり、全文検索装置の
文書入力手段として光学的文字認識装置が利用されない
一つの理由であった。
2. Description of the Related Art In recent years, with the practical use of optical character recognition devices, there has been an increasing demand for converting paper document information into character codes for retrieval. However, although the recognition rate of the optical character recognition device has improved considerably, the recognition rate is still poor for specific characters. Document that had to be proofread. In this proofreading work, although it is possible to specify the misrecognition position to some extent by Japanese language processing technology, it still needs to be manually performed, and one type in which the optical character recognition device is not used as the document input means of the full-text search device. That was the reason.

【0003】以下、従来の文書検索装置について説明す
る。図8は従来の文書検索装置全体構成を示すものであ
る。図8において、801は光学的文字認識装置、80
2は光学的文字認識装置で認識した文字コードを格納す
る文字コード格納手段、803は検索条件入力手段、8
04は入力された検索条件により検索する検索手段、8
05は検索結果を格納する検索結果格納手段、806は
検索結果を表示・印刷する検索結果出力手段である。
Hereinafter, a conventional document search apparatus will be described. FIG. 8 shows the entire configuration of a conventional document search apparatus. 8, reference numeral 801 denotes an optical character recognition device;
2 is a character code storage unit for storing a character code recognized by the optical character recognition device, 803 is a search condition input unit, 8
04 is a search means for searching according to the input search condition, 8
Reference numeral 05 denotes search result storage means for storing search results, and reference numeral 806 denotes search result output means for displaying and printing the search results.

【0004】以上のように構成された文書検索装置につ
いて、以下その動作について説明する。まず、光学的文
字認識装置801で認識した文字コードを一度文字コー
ド格納手段802に格納する。次に、検索条件入力手段
803で入力された検索条件により、文字コード格納手
段802に格納された文字コードに対して検索手段80
4で検索を行なう。検索結果は検索結果格納手段805
に格納し、さらに格納した検索結果を検索結果出力手段
806で表示・印刷する。
The operation of the above-configured document search apparatus will be described below. First, the character code recognized by the optical character recognition device 801 is once stored in the character code storage unit 802. Next, according to the search condition input by the search condition input unit 803, the character code stored in the character code storage unit 802 is compared with the search unit 80.
The search is performed in step 4. Search results are stored in search result storage unit 805
, And the stored search results are displayed and printed by the search result output means 806.

【0005】このように、上記従来の文書検索装置で
も、光学的文字認識装置を用いて文字コード化した文書
から全文検索を行なうことができる。
As described above, even in the above-mentioned conventional document search apparatus, full-text search can be performed from a character-coded document using an optical character recognition apparatus.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、上記従
来の文書検索装置では、光学的文字認識装置の認識に誤
りがあるため、検索を行なう場合に検索漏れが生じると
いう課題を有していた。
However, in the above-mentioned conventional document retrieval apparatus, there is a problem that retrieval is missed when performing retrieval because of an error in recognition of the optical character recognition apparatus.

【0007】本発明は、上記従来の課題を解決するもの
で、光学的文字認識装置が認識誤りを起こした場合で
も、検索漏れを防ぐことができる文書検索装置を提供す
ることを目的とするものである。
An object of the present invention is to solve the above-mentioned conventional problems, and an object of the present invention is to provide a document retrieval apparatus capable of preventing omission of retrieval even when an optical character recognition apparatus makes a recognition error. It is.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するため
に、本発明の文書検索装置は、活字から文字コード化を
行なう光学的文字認識装置と、光学的文字認識装置で文
字コード化した文書を格納する文字コード格納手段と、
検索条件を入力する検索条件入力手段と、光学的文字認
識装置が文字を分割する際に分割誤りが生じやすい例を
規則として格納する分割誤り規則格納手段と、文字の表
記が似ているために認識誤りが生じやすい例を規則とし
て格納する表記誤り規則格納手段と、前記検索条件入力
手段で入力された検索条件に対して前記分割誤り規則格
納手段を用いて条件拡張を行ない、さらに表記誤り規則
格納手段を用いて条件拡張を行なう検索条件拡張手段
と、検索条件拡張手段で拡張した検索条件により文字コ
ード格納手段から検索する検索手段と、検索手段の結果
を格納する検索結果格納手段と、検索結果を表示・印刷
する検索結果出力手段とを備えたものである。
In order to achieve the above object, a document retrieval apparatus according to the present invention comprises: an optical character recognition apparatus for performing character encoding from printed characters; and a document encoded by the optical character recognition apparatus. Character code storage means for storing
Search condition input means for inputting search conditions, division error rule storage means for storing, as a rule, an example where a division error is likely to occur when the optical character recognition device divides a character, and a table of characters
An example where rules are likely to cause recognition errors due to similar
Typographical error storage means for storing and inputting the search condition
The division error rule case for the search condition input by the means
The condition is expanded using the payment method, and the spelling error rule
A search condition expansion means for performing condition extended with storage means, a search means for searching the character code storage means by expanded search condition in the search condition expansion means, and the search result storing means for storing the result of the search means, the search And a search result output means for displaying and printing the result.

【0009】本発明はまた、光学的文字認識装置の文字
の表記が似ているために認識誤りが生じやすい例を規則
として格納する表記誤り規則格納手段を備え、分割誤り
規則格納手段を用いて条件拡張を行なった後、検索条件
拡張手段が表記誤り規則格納手段を用いて条件拡張する
ようにしたものである。
The present invention further comprises a notation error rule storing means for storing, as a rule, an example in which recognition errors are likely to occur due to similar character notation of the optical character recognition device. After performing the condition expansion, the search condition expansion means expands the condition using the notation error rule storage means.

【0010】[0010]

【作用】本発明は、上記構成によって、検索条件の文字
コードが光学的文字認識装置で誤認識しやすい文字コー
ドの場合は、認識規則から検索条件を拡張することによ
って検索漏れを少なくすることができる。光学的文字認
識装置は、1つの文字の領域を確定するために分割処理
を行なうが、偏と旁が離れている文字については別の文
字と判断され、分割誤りが発生する。このような場合
は、事前に文字の形から判断可能であるため、これを登
録しておき、検索条件にこの文字が含まれている場合に
は、分割誤りを起こした文字も付け加える、すなわち条
件拡張することにより、分割誤りによる検索もれを防ぐ
ことができる。
According to the present invention, when the character code of the search condition is a character code which is likely to be erroneously recognized by the optical character recognition device, the search omission can be reduced by extending the search condition from the recognition rule. it can. The optical character recognition device performs division processing to determine the area of one character. However, a character that is far from the bias is determined to be another character, and a division error occurs. In such a case, since it is possible to determine in advance from the form of the character, this is registered, and if this character is included in the search condition, the character that caused the division error is also added. The extension can prevent search omission due to a division error.

【0011】本発明はまた、表記が似ているため光学的
文字認識装置では認識することが不可能な場合でも、表
記が似ているものは事前に文字の形から判断可能である
ため、これを登録しておき、検索条件にこの文字が含ま
れている場合には、条件拡張することにより検索漏れを
防ぐことができる。
According to the present invention, even when notation cannot be recognized by an optical character recognizing device due to similar notation, it is possible to determine in advance the similar notation from the character form. Is registered, and if this character is included in the search condition, search omission can be prevented by expanding the condition.

【0012】[0012]

【実施例】【Example】

(実施例1)以下、本発明の第1の実施例について、図
1を参照しながら説明する。図1において、101は活
字から文字コードに変換する光学的文字認識装置、10
2は光学的文字認識装置101で認識した文字コードを
格納する文字コード格納手段、103は検索条件を入力
する検索条件入力手段、104は光学的文字認識装置1
01が文字の分割誤りを起こしやすいと予想される例を
規則として格納する分割誤り規則格納手段、105は検
索条件入力手段103で入力された検索条件に対して分
割誤り規則格納手段104を用いて検索条件の拡張を行
なう検索条件拡張手段、106は文字コード格納手段1
02に対して検索条件拡張手段105で作成した検索条
件により検索を行なう検索手段、107は検索手段10
6で検索した結果を格納する検索結果格納手段、108
は検索結果格納手段107の検索結果を画面に表示した
り、印刷する検索結果出力手段である。
(Embodiment 1) Hereinafter, a first embodiment of the present invention will be described with reference to FIG. In FIG. 1, reference numeral 101 denotes an optical character recognition device for converting a print character to a character code;
Reference numeral 2 denotes a character code storage unit for storing a character code recognized by the optical character recognition device 101; 103, a search condition input unit for inputting search conditions; and 104, an optical character recognition device 1.
A division error rule storage unit 105 stores, as a rule, an example in which 01 is likely to cause a character division error. The division error rule storage unit 105 uses the division error rule storage unit 104 for the search condition input by the search condition input unit 103. Search condition expansion means for expanding the search condition, 106 is a character code storage means 1
02, a search means for performing a search based on the search condition created by the search condition expansion means 105, and 107 a search means 10
Search result storage means 108 for storing the search result obtained in step 6;
Is a search result output unit for displaying the search results of the search result storage unit 107 on a screen or printing the search results.

【0013】以上のように構成された文書検索装置につ
いて、以下その動作を説明する。まず活字の文書は、光
学的文字認識装置101で文字コードとして認識され、
文字コード格納手段102に格納される。また検索条件
は検索条件入力手段103から力され、検索条件拡張手
段105が検索条件の単語を文字単位に分解する。次
に、分解された各文字が分割誤り規則格納手段104内
に格納された分割誤り規則のどれかに該当するか否かを
分割誤り規則格納手段104に問い合わせる。分割誤り
規則にある場合には、検索条件拡張手段105で規則に
従い検索条件に付加する形で条件の拡張を行なう。さら
に、検索手段106で文字コード格納手段102に格納
されている文字コードに対して、検索条件拡張手段10
5で拡張された検索条件により検索を行なう。その検索
結果は、検索結果格納手段107に格納され、表示・印
刷する場合には検索結果出力手段108に出力される。
The operation of the above-configured document retrieval apparatus will be described below. First, a printed document is recognized as a character code by the optical character recognition device 101,
It is stored in the character code storage means 102. The search condition is input from the search condition input unit 103, and the search condition expansion unit 105 decomposes the word of the search condition into character units. Next, an inquiry is made to the division error rule storage means 104 as to whether each of the decomposed characters corresponds to one of the division error rules stored in the division error rule storage means 104. In the case of the division error rule, the search condition expansion unit 105 expands the condition by adding it to the search condition according to the rule. Further, the search condition expansion unit 10 searches the character code stored in the character code storage unit 102 by the search unit 106.
The search is performed according to the search condition extended in step 5. The search result is stored in the search result storage unit 107, and is output to the search result output unit 108 when displaying and printing.

【0014】図2は光学的文字認識装置が、文字201
を偏と旁の二つに分けて認識した場合の拡張例202を
示したものであり、図1の分割誤り規則格納手段104
に入力される規則を示している。例えば“化”という文
字は偏と旁が離れているために“イ”と“ヒ”の2つの
文字に誤認識されやすい。
FIG. 2 shows a case where the optical character recognition apparatus uses a character 201.
Is shown as an extended example 202 in the case of recognizing the divided error rule into two parts, that is, the partial error rule and the partial error rule.
Indicates a rule to be input to. For example, the character "ka" is apt to be erroneously recognized as two characters "a" and "hi" because the characters are separated from each other.

【0015】図3は図1の検索条件拡張手段105の拡
張手順を示すフローチャートである。検索条件が入力さ
れると処理が開始され(ステップ301)、最初に検索
条件の単語が文字単位に分解される(ステップ30
2)。次に分解された各文字が分割誤り規則に含まれて
いるかどうかが判定される(ステップ303)、もし規
則に含まれる場合には、分割誤り規則に従って拡張さ
れ、OR条件として検索条件に付加される(ステップ3
04)。もし規則に含まれない場合には、何もしないで
終了する。(ステップ305)
FIG. 3 is a flowchart showing an extension procedure of the search condition extension means 105 of FIG. When the search condition is input, the process starts (step 301), and first, the word of the search condition is decomposed into characters (step 30).
2). Next, it is determined whether or not each decomposed character is included in the division error rule (step 303). If it is included in the rule, the character is extended according to the division error rule and added to the search condition as an OR condition. (Step 3
04). If it is not included in the rules, do nothing and end. (Step 305)

【0016】以上のように、本実施例によれば、光学的
文字認識装置で分割誤りを起こしやすい文字に対しても
分割誤り規則で検索条件を拡張することにより、検索漏
れを防ぐことができる。
As described above, according to the present embodiment, even if a character is likely to cause a division error in the optical character recognition device, the retrieval condition can be expanded by the division error rule, thereby preventing the retrieval omission. .

【0017】(実施例2)次に、本発明の第2の実施例
について図4を参照しながら説明する。図4において、
401は光学的文字認識装置、402は文字コード格納
手段、403は検索条件入力手段、404は分割誤り規
則格納手段、405は検索条件拡張手段、406は表記
誤り規則格納手段、407は検索手段、408は検索結
果格納手段、409は検索結果出力手段である。図1の
構成と異なるのは、文字の表記が似ているために認識誤
りが生じやすい例を規則として格納する表記誤り規則格
納手段407が付加されている点である。
(Embodiment 2) Next, a second embodiment of the present invention will be described with reference to FIG. In FIG.
401 is an optical character recognition device, 402 is a character code storage unit, 403 is a search condition input unit, 404 is a division error rule storage unit, 405 is a search condition expansion unit, 406 is a notation error rule storage unit, 407 is a search unit, 408 is a search result storage means, and 409 is a search result output means. The difference from the configuration of FIG. 1 is that a notation error rule storage unit 407 for storing, as a rule, an example in which recognition errors are likely to occur due to similar character notations is added.

【0018】上記のように構成された文書検索装置につ
いて、以下その動作を説明する。まず活字の文書は、光
学的文字認識装置401で文字コードとして認識され、
文字コード格納手段402に格納される。また検索条件
は、検索条件入力手段403から入力され、検索条件拡
張手段405は検索条件の単語を文字単位に分解する。
次に、分解された各文字が分割誤り規則に該当するかど
うかを分割誤り規則格納手段404に問い合わせ、分割
誤り規則にある場合には、検索条件拡張手段405で規
則に従い検索条件に付加して検索条件の拡張を行なう。
ここまでは上記第1の実施例と同じである。異なるのは
その後、分割誤り規則で拡張したそれぞれの文字につい
て、同様な表記で異なる文字コードが存在するかどうか
判定する。例えば片仮名の“ロ”は漢字の“口(く
ち)”と表記がほぼ同じであるため誤認識しやすく、ま
た“ア”と“ァ”は文字の大きさのみが違うので誤認識
しやすい。このような誤認識しやすい文字コードを表記
誤り規則格納手段406に表記誤り規則として登録して
おき、条件拡張を行なう。さらに、検索手段407で文
字コード格納手段402に格納されている文字コードに
対して、検索条件拡張手段405で拡張された検索条件
により検索を行なう。その検索結果は、検索結果格納手
段408に格納され、表示・印刷する場合には検索結果
出力手段409に出力される。
The operation of the above-configured document retrieval apparatus will be described below. First, a printed document is recognized as a character code by the optical character recognition device 401.
The character code is stored in the character code storage unit 402. The search condition is input from the search condition input unit 403, and the search condition expansion unit 405 decomposes the word of the search condition into character units.
Next, the division error rule storage unit 404 is inquired about whether or not each of the decomposed characters corresponds to the division error rule. If the character is included in the division error rule, the search condition expansion unit 405 adds it to the search condition according to the rule. Extend search conditions.
The operation up to this point is the same as in the first embodiment. The difference is that thereafter, it is determined whether or not there is a different character code in the same notation for each character extended by the division error rule. For example, the katakana "b" is almost the same as the kanji "kuchi", so it is easy to misrecognize it, and "a" and "a" are easy to misrecognize because only the character size is different. Such a character code that is apt to be erroneously recognized is registered as a notation error rule in the notation error rule storage unit 406, and the condition is extended. Further, the search unit 407 searches the character code stored in the character code storage unit 402 according to the search condition expanded by the search condition expansion unit 405. The search result is stored in the search result storage unit 408, and is output to the search result output unit 409 when displaying and printing.

【0019】図5は表記誤り規則格納手段406に格納
された表記誤り規則の例であり、表記が似ている場合の
拡張例501、文字の大きさが異なる場合の拡張例50
2、濁点の誤りの場合の拡張例503を示している。例
えば、片仮名の“カ”は漢字の“力(ちから)”と表記
がほぼ同じであり、誤認識を起こしやすく、片仮名の大
きい“イ”と小さい“ィ”も表記は同じで大きさのみが
異なるので、誤認識しやすい。
FIG. 5 shows an example of a typographical error rule stored in the typographical error rule storage means 406. An extended example 501 when the notation is similar, and an extended example 50 when the character size is different.
2 shows an extended example 503 in the case of an error in a cloud point. For example, the katakana “ka” is almost the same as the kanji “power (Chikara)” and is easy to misrecognize. Because it is different, it is easy to mistakenly recognize.

【0020】図6は図4の検索条件拡張手段405の拡
張手順を示すフローチャートである。検索条件が入力さ
れると処理が開始される(ステップ601)。最初に検
索条件の単語が文字単位に分解され(ステップ60
2)、次に分解された各文字が分割誤り規則に含まれて
いるかどうかが判定される(ステップ603)。もし規
則に含まれる場合には、分割誤り規則に従って拡張さ
れ、OR条件として検索条件に付加される(ステップ6
04)。ここまでは上記第1の実施例と同じである。異
なるのはその後であり、分割誤り規則で拡張した文字も
含めて各文字が表記誤り規則に含まれているかどうかを
判定する(ステップ605)。もし含まれているのであ
れば、表記誤り規則に従って拡張し、OR条件として付
加する(ステップ606)。もし規則に含まれていない
のであれば、何もしないで終了する(ステップ60
7)。
FIG. 6 is a flowchart showing an extension procedure of the search condition extension means 405 of FIG. When the search condition is input, the process starts (step 601). First, the words of the search condition are decomposed into characters (step 60).
2) Next, it is determined whether or not each decomposed character is included in the division error rule (step 603). If it is included in the rule, it is extended according to the division error rule and added to the search condition as an OR condition (step 6).
04). The operation up to this point is the same as in the first embodiment. The difference is thereafter, and it is determined whether each character including the character extended by the division error rule is included in the writing error rule (step 605). If it is included, it is extended according to the notation error rule and added as an OR condition (step 606). If it is not included in the rule, the process ends without doing anything (step 60).
7).

【0021】図7は“加工”という文字の検索条件につ
いて条件拡張がどのようにして行なわれるかを示した図
である。まず最初に“加工”を検索条件として設定し
(ステップ701)、次に分割誤り規則を適用すると、
“加”が“力”と“口”に誤認識されやすいので検索条
件は“加工”と“力口工”に拡張される(ステップ70
2)。さらに、表記誤り規則を適用すると“工(こ
う)”は“エ”と表記が同じであり、“力”は“カ”と
表記が同じであり、“口”は“ロ”と表記が同じである
ため、“加工”と“力口工”のそれぞれにこの規則を適
用する(ステップ703)。この結果、“加工”という
検索条件は10個の文字に条件拡張される。
FIG. 7 is a diagram showing how the condition expansion is performed for the search condition of the character "processing". First, "processing" is set as a search condition (step 701), and then a division error rule is applied.
Since “addition” is easily misrecognized as “power” and “mouth”, the search condition is extended to “processing” and “power mouth” (step 70).
2). Furthermore, when the spelling rule is applied, "ko" has the same notation as "e", "power" has the same notation as "ka", and "mouth" has the same notation as "b". Therefore, this rule is applied to each of “machining” and “strengthening” (step 703). As a result, the search condition of "processing" is extended to ten characters.

【0022】以上のように、本実施例によれば、光学的
文字認識装置で文字を分割する際に似ている表記に対し
て認識誤りがある場合でも、表記誤り規則で検索条件を
拡張することにより、検索漏れを防ぐことができる。
As described above, according to this embodiment, even when there is a recognition error for a similar notation when a character is divided by the optical character recognition device, the search condition is extended by the notation error rule. This can prevent search omission.

【0023】[0023]

【発明の効果】以上のように、本発明は、光学的文字認
識装置の認識誤りを補うために検索条件を拡張するため
の分割誤り規則格納手段と表記誤り規則格納手段と検索
条件拡張手段とを付加することにより、認識誤りによる
検索漏れを防ぐことができ、優れた文書検索装置を実現
することができる。
As described above, the present invention provides a division error rule storage means, a notation error rule storage means, and a search condition expansion means for expanding a search condition to compensate for a recognition error of an optical character recognition device. Is added, it is possible to prevent search omission due to recognition errors, and to realize an excellent document search device.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施例における文書検索装置の
構成を示すブロック図
FIG. 1 is a block diagram showing a configuration of a document search device according to a first embodiment of the present invention.

【図2】第1の実施例における分割誤り規則の例を示す
一覧図
FIG. 2 is a list showing an example of a division error rule in the first embodiment.

【図3】第1の実施例における検索条件拡張の手順を示
すフローチャート
FIG. 3 is a flowchart illustrating a procedure for expanding a search condition in the first embodiment;

【図4】本発明の第2の実施例における文書検索装置の
構成を示すブロック図
FIG. 4 is a block diagram illustrating a configuration of a document search device according to a second embodiment of the present invention.

【図5】第2の実施例における表記誤り規則の例を示す
一覧図
FIG. 5 is a list showing an example of a spelling error rule in the second embodiment.

【図6】第2の実施例における検索条件拡張の手順を示
すフローチャート
FIG. 6 is a flowchart showing a procedure for expanding search conditions in the second embodiment.

【図7】第2の実施例における検索条件拡張の具体例を
示すアローチャート
FIG. 7 is an arrow chart showing a specific example of search condition expansion in the second embodiment.

【図8】従来の文書検索装置の構成を示すブロック図FIG. 8 is a block diagram showing a configuration of a conventional document search device.

【符号の説明】[Explanation of symbols]

101 光学的文字認識装置 102 文字コード格納手段 103 検索条件入力手段 104 分割誤り規則格納手段 105 検索条件拡張手段 106 検索手段 107 検索結果格納手段 108 検索結果出力手段 401 光学的文字認識装置 402 文字コード格納手段 403 検索条件入力手段 404 分割誤り規則格納手段 405 検索条件拡張手段 406 表記誤り規則格納手段 407 検索手段 408 検索結果格納手段 409 検索結果出力手段 Reference Signs List 101 optical character recognition device 102 character code storage means 103 search condition input means 104 division error rule storage means 105 search condition expansion means 106 search means 107 search result storage means 108 search result output means 401 optical character recognition device 402 character code storage Means 403 Search condition input means 404 Division error rule storage means 405 Search condition expansion means 406 Notation error rule storage means 407 Search means 408 Search result storage means 409 Search result output means

───────────────────────────────────────────────────── フロントページの続き (72)発明者 ▲鶴▼林 健 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (72)発明者 倉 知 一 晃 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (56)参考文献 特開 平4−92971(JP,A) 特開 昭61−221889(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor ▲ Tsuru ▼ Ken Hayashi 1006 Kazuma Kadoma, Osaka Prefecture Inside Matsushita Electric Industrial Co., Ltd. (56) References JP-A-4-92971 (JP, A) JP-A-61-221889 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G06F 17/30

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 活字から文字コード化を行なう光学的文
字認識装置と、前記光学的文字認識装置で文字コード化
した文書を格納する文字コード格納手段と、検索条件を
入力する検索条件入力手段と、前記光学的文字認識装置
が文字を分割する際に分割誤りが生じやすい例を規則と
して格納する分割誤り規則格納手段と、文字の表記が似
ているために認識誤りが生じやすい例を規則として格納
する表記誤り規則格納手段と、前記検索条件入力手段で
入力された検索条件に対して前記分割誤り規則格納手段
を用いて条件拡張を行ない、さらに表記誤り規則格納手
を用いて条件拡張を行なう検索条件拡張手段と、前記
検索条件拡張手段で拡張した検索条件により前記文字コ
ード格納手段から検索する検索手段と、前記検索手段の
結果を格納する検索結果格納手段と、検索結果を表示・
印刷する検索結果出力手段とを備えた文書検索装置。
1. An optical character recognition device for performing character encoding from printed characters, character code storage means for storing a document encoded by the optical character recognition device, and search condition input means for inputting search conditions. When the optical character recognition device divides a character, the division error rule storing means for storing an example in which a division error is likely to occur as a rule is similar to the character notation.
Examples where recognition errors easily occur because of
Writing error rule storage means, and the search condition input means
The division error rule storage means for the input search condition
To expand the condition using
Search condition expansion means for performing a condition expansion using a stage , search means for searching from the character code storage means according to search conditions expanded by the search condition expansion means, and search result storage means for storing results of the search means , Show search results
A document search device comprising a search result output unit for printing.
JP4342333A 1992-12-22 1992-12-22 Document search device Expired - Fee Related JP3026397B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4342333A JP3026397B2 (en) 1992-12-22 1992-12-22 Document search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4342333A JP3026397B2 (en) 1992-12-22 1992-12-22 Document search device

Publications (2)

Publication Number Publication Date
JPH06195387A JPH06195387A (en) 1994-07-15
JP3026397B2 true JP3026397B2 (en) 2000-03-27

Family

ID=18352919

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4342333A Expired - Fee Related JP3026397B2 (en) 1992-12-22 1992-12-22 Document search device

Country Status (1)

Country Link
JP (1) JP3026397B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3689455B2 (en) * 1995-07-03 2005-08-31 キヤノン株式会社 Information processing method and apparatus
JP2023041155A (en) 2021-09-13 2023-03-24 キヤノン株式会社 Information processing apparatus, control method of information processing apparatus, and program

Also Published As

Publication number Publication date
JPH06195387A (en) 1994-07-15

Similar Documents

Publication Publication Date Title
KR101203352B1 (en) Using language models to expand wildcards
JPS5924391A (en) Alignment of line at right margin of text data
JP3026397B2 (en) Document search device
JPH07121547A (en) Information retrieving device
JPS607514A (en) Word processor
JPH08180064A (en) Document retrieval method and document filing device
JPS6351305B2 (en)
JP3164086B2 (en) Handwritten character font creation method and handwritten character information processing apparatus using the same
JPH0554145B2 (en)
JP3270590B2 (en) Character recognition device
JP3441546B2 (en) Character processing device and conversion control method in character processing device
JP3344793B2 (en) Kana-Kanji conversion device
JPS6174060A (en) Loan word easy input system
JP3387421B2 (en) Word input support device and word input support method
JP3305343B2 (en) Dictionary editing device
JP3273778B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JPH0434189B2 (en)
JPS61128364A (en) Retrieving device of dictionary
JPH06259413A (en) Japanese language input system
JPS63106069A (en) Japanese word processor
JPH0589164A (en) Document conversion device
JPS62189568A (en) Kana kanji mutual conversion device
JPH03225462A (en) Roman character/kanji converter
JPH1125229A (en) Device for recognizing roman letter address
JPS5932068A (en) Optical character reader

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees