JP2006190060A

JP2006190060A - データベース検索方法、データベース検索プログラムおよび原稿処理機

Info

Publication number: JP2006190060A
Application number: JP2005001147A
Authority: JP
Inventors: Tatsuo Noda; 辰夫野田; Katsushi Horibatake; 勝史堀畑; Toshinobu Yoshida; 敏信吉田; Manami Kubota; 真奈美久保田; Hiroshi Yamashita; 洋山下
Original assignee: Kyocera Mita Corp
Current assignee: Kyocera Document Solutions Inc
Priority date: 2005-01-06
Filing date: 2005-01-06
Publication date: 2006-07-20

Abstract

【課題】データベース検索において、ユーザが指定するキーワードが少なくても精度の高い検索結果を表示する機能を提供する。
【解決手段】マーキングが施された文書データ取り込み、文書データを文字列データに変換し、文字列データを単語単位に分割して記憶する。次にマーキング箇所を特定し、マーキングされている単語を主検索文字列、マーキングされていない単語を副検索文字列として記憶する。副検索文字列の出現回数を算出し、それをもとに前記の文書データがどの分野に関して記述されたものであるか特定する。主検索文字列、もしくは先で特定された分野を元に、検索に使用するデータベースを選出し、検索処理を行う。検索結果項目の中から、上記文書に関連の高い分野の項目を優先的に表示する。なおユーザが検索履歴を残し、今後の検索処理にて用いたい場合は、ユーザ単位で検索履歴情報を記憶し、次回からの検索処理で履歴情報として使用する。
【選択図】図４

Description

本発明は、データベース検索方法、データベース検索プログラムおよびそれを実現するための静電複写機やファクシミリ或いは画像読取機等の原稿処理機に関する。

従来のデータベース検索においては、ユーザは文字列をキーワードとして検索を行う。そして、ユーザが指定するキーワードが少なくなるにつれ、出力される検索結果項目数は増加する。そのため、ユーザは膨大な検索結果の中から目的の情報を探す必要があった。このような状況を避けるためにユーザは、複雑な検索式を用いて検索を行うか、情報を絞り込むための追加検索を行う必要であった。

しかしながら、適切な検索式の作成や絞り込み検索の実施には、一定の知識や経験が必要である。それらを持たないユーザは、不要な情報を数多く含む検索結果をひとつひとつ確認しながら、所望する情報を選別する必要があった。

もしユーザが、紙面の文書の中に存在する単語について情報検索を行う場合に、その文書がいかなる分野に関して記述されたものであるかを特定できれば、ユーザはその分野に絞り込んだ検索を行うので、より所望するものに近い情報を得ることができる。

例えばユーザが図７に示す文書を読んでいたとする。人間であれば、この文書がカメラに関する技術書であることは容易に判断できる。しかし画像処理装置を用いて、上記の判断を行うシステムはこれまでに存在しなかった。もし人間と同様の判断が行えるシステムであれば、図７の文書中にマーキングされた「ＣＣＤ」という単語について検索する場合、生物分野や経済分野などのデータベースは用いず、まず機械分野、それもカメラに関するデータベースを優先的に検索するのが普通である。

以上から本発明は、ユーザが紙面の文書中の単語に関する情報を検索したい場合に、上記文書を取り込み、上記文書がいかなる分野に関して記述されたものかを判断し、その結果をもとに検索対象を絞り込むとともに、検索結果項目に表示順位を付加することにより、よりユーザが所望するものに近い情報を提示する機能を有するデータベース検索方法を提供することを目的とする。

本発明のデータベース検索方法は、ユーザによりマーキングが施された文書データ、もしくはユーザによりマーキングが施された文書を取り込んでＯＣＲで変換した文書データを文字列データとして取り込み、文字列データを文節ごとに単語として分割し、マーキングが施された箇所を文字属性もしくはＯＭＲで識別し、マーキングが施された箇所の単語を主検索文字列として記憶するとともに、マーキングが施されていない箇所の単語を副検索文字列として記憶し、副検索文字列の出現回数をカウントし、副検索文字列を分野辞書に照らしあわせて分野ポイントを算出し、分野ポイントをもとに前記文書と関連性の高い分野を選出し、主検索文字列もしくは選出された前記分野をもとに検索処理に使用するデータベースを選出し、選出された前記データベースから主検索文字列と出現回数の多い副検索区文字列とを用いてユーザが所望する情報を抽出し、抽出された情報を前記の関連性の高い分野によって表示順位を決定し、表示順位の高い項目から順に表示し、主検索文字列と副検索文字列をユーザ単位で履歴文字列として記憶することを特徴とする。

本発明では、ユーザは本システムを使用する前にログインを行う必要がある。ログインが行われた際に本システムは、前記ユーザが履歴情報を使用するかどうか判断し、使用する場合はユーザの過去の検索履歴を読み出し、それらの情報を履歴文字列および分野履歴として保持する。履歴文字列は、データベースからユーザが所望する情報を抽出する際に、主検索文字列と副検索区文字列とともに検索のキーワードとして使用される。分野履歴は、ユーザによってマーキングが施された文書と関連性の高い分野を選出する際に、分野ポイントに付加して使用される。検索処理終了後に、主検索文字列と副検索文字列とその出現回数は履歴文字列として記憶されるとともに、検索処理中に算出された分野ポイントは分野履歴として記憶される。

「主検索文字列」とは、ある文書を閲覧したユーザがその文書内で参照した文字列のうち、その文字列についてデータベースを使用して情報検索を行いたいと考えた文字列である。ユーザはその単語にマーキングを施してスキャナに読み込ませることにより、本システムにこれを伝達することができる。

「副検索文字列」とは、上記文書の中でマーキングを施さなかった、その他の全ての文字列のことである。

「履歴文字列」とは、過去の検索で使用された副検索文字列である。ユーザ単位で記憶、管理されている。

「データベース」とは、様々な分野の情報を格納した媒体であり、分野別に複数のデータベースから構成されている。例えば科学分野用のデータベース、生物分野用のデータベースなどといったデータベースに分かれており、システムは検索処理の際に使い分けを行うことができる。

「分野」とは、本発明が使用するデータベース内で、情報を一定の範囲で区切り、分別するための指標である。具体的には「科学」、「生物」といった上位のものから、「サッカー」、「野球」といった下位のものまで幅広く存在する。

「分野辞書」とは、ある単語とある分野との関連性の高さを数値で示したテーブルである。例えば図２では、「カメラ」という単語は、科学分野との関連性が８、生物分野との関連性が０、工学分野との関連性が１０、経済分野との関連性が３となっており、工学との関連性が最も高いこととなる。なお分野辞書は本発明用に新規作成するのではなく、既存のものを流用することとする。

「分野関連値」とは、分野辞書において、特定の文字列と特定の分野の関連性の高さを示した数値である。

「分野ポイント」とは、検索処理の結果出力される検索結果項目に、表示優先順位を付加するために使用される数値である。この数値は副検索文字列と分野辞書を用いて算出される。

「分野履歴」とは、過去の検索処理で算出された分野ポイントをもとに算出される値であり、ユーザが過去、どの分野に関連する検索を多く行ったかを示すものである。

上記のように構成された検索方法によれば、ユーザの指定する単語が少数であっても、検索システムは、ユーザに指定されなかったその他の単語を元に、その文書がいかなる分野について記述されたものであるか判断し、自動的に検索式の作成および検索結果の重み付けを行うので、ユーザは少ない作業量で精度の高い検索結果を得ることができる。

また、あらかじめ検索対象のデータベースを限定するため、全データベースに対して検索を行う方法よりも処理数が減り、システムにかかる負担を軽減することができる。

(1)装置の全体構成
図１に、この発明の一実施形態によるデータベース検索システムの全体構造を示す。図１において、ＣＰＵ１には、メモリ２と、記憶部であるハードディスク３と、入力部であるスキャナ４と、表示部であるディスプレイ５と、操作部であるキーボード６とが接続されている。

ハードディスク３には、分野辞書１１と、データベース１２と、情報テーブル１３と、検索処理プログラム１４とが記憶されている。分野辞書１１は、取得した単語と各分野との関連性の高さを調べるために使用される。データベース１２は、各種情報が記憶されている媒体であり、分野別に複数のデータベースから構成されている。情報テーブル１３には、ＣＰＵ１が各種処理に使用する内部データが記憶されている。検索処理プログラム１４は、本発明における処理実行方式を定めたプログラムであり、ＣＰＵ１によって実行される。

スキャナ４には、ＯＣＲ２１とＯＭＲ２２とが装備されている。ＯＣＲ２１は、スキャナで取り込まれた画像を文字列データに変換するために使用される。ＯＭＲ２２は、ユーザがマーキングを施した位置を特定するために使用される。

(2)分野辞書の構成
図２に、分野辞書１１の構成を示す。分野辞書１１は、分野領域６１と、文字列領域６２と、分野関連値領域６３とを有している。分野領域６１には分野を示す文字列が記憶されている。例えば、「物理」、「工学」、「生物」などである。文字列領域６２には、スキャナで入力される文字列に対応する文字列が記憶されている。分野関連値領域６３には、文字列領域６２の文字列と分野領域６１の分野との関連性の高さを示す数値が記憶されている。関連性が高いほど、高い数値となる。

(3)情報テーブルの構成
図３に、情報テーブル１３の構成を示す。情報テーブル１３は副検索文字列テーブル３１と、履歴文字列テーブル３２と、分野テーブル３３と、分野履歴テーブル３４とからなる。副検索文字列テーブル３１は文字列領域７１と出現回数領域７２とを有している。履歴文字列テーブル３２は文字列領域７３と出現回数領域７４とを有している。分野テーブル３３は分野領域７５と分野ポイント領域７８とを有している。分野履歴テーブル３４は分野領域７７と分野ポイント領域７８とを有している。

副検索文字列テーブル３１の文字列領域７１には副検索文字列として記憶された文字列が記憶されており、出現回数領域７２はその出現回数が記憶されている。履歴文字列テーブル３２の文字列領域７３には過去に副検索文字列として記憶された文字列が記憶されており、出現回数領域７４はその出現回数の累計が記憶されている。分野テーブル３３の分野領域７５は分野を示す文字列が記憶されており、分野ポイント７６は副検索文字列テーブル３１の文字列領域７１と出現回数領域７２をもとに算出された分野ポイントが記憶されている。分野履歴テーブル３４の分野領域７７は分野を示す文字列が記憶されており、分野ポイント７６は過去の検索処理で算出された分野履歴ポイントが記憶されている。

(4) 動作概要
ここで、図１を用いて、本発明におけるデータベース検索処理の動作概要を説明する。

ＣＰＵ１はスキャナ４を用いて、ユーザが用意した文書を画像データとして取り込み、さらに画像データを文字列データに変換し、メモリ２に記憶する。もしくは、文字列データを含む文書データ（例えばリッチテキストデータやワープロデータ等）を、電子媒体（例えばフロッピーディスク等）を介して取り込み、文字列データとしてメモリ２に記憶してもよい。

ＣＰＵ１は取り込んだ上記文字列データを文節ごとに単語に分ける。次に、ＯＭＲ２２を使用して、文書上でマーキングが施されている箇所を識別する。なお、上記手順においてスキャナ４を使用せず、電子媒体を介して文書データを取り込んだ場合は、文書データ内の文字列に設定されている文字属性をもとに、マーキングが施されている箇所を識別する。

マーキングが施された箇所の単語は、主検索文字列としてメモリ２に記憶される。マーキングが施された箇所の以外の単語は、副検索文字列としてハードディスク３の情報テーブル１３に記憶される。

ＣＰＵ１は副検索文字列の出現回数をカウントし、その数を情報テーブル１３の副検索文字列テーブル３１に記憶する。ＣＰＵ１は取得した副検索文字列テーブル３１の各副検索文字列を分野辞書１１に照らし合わせ、分野ポイントの算出を行う。算出された分野ポイントは、分野テーブル３３に記憶される。

履歴機能を使用するユーザである場合、情報テーブル１３の分野履歴テーブル３４に記憶されている値と分野テーブル３３の値を合計して分野ポイントを算出し、メモリ２に記憶する。

ＣＰＵ１は主検索文字列をもとに、データベース１２の中から、検索に使用するデータベースを一つ選出する。もしくは、メモリ２に記憶されている分野ポイントをもとに、ポイントの最も高い分野のデータベースを選出する方法でもよい。なおデータベース１２は、分野別に複数のデータベースから構成されている。例えば科学分野用のデータベース、生物分野用のデータベースなどに分かれており、検索処理の中で使い分けを行うことができるようになっている。

選出されたデータベースに対して、主検索文字列と副検索文字列をキーとして検索が行われ、結果がメモリ２に記憶される。なお、履歴機能を使用するユーザの場合、主検索文字列と副検索文字列に加えて履歴文字列をキーとして検索が行われる。検索結果項目は分野ポイントをもとに表示順位が決定され、表示順位の高い項目から順にディスプレイ５に表示される。

上記処理終了後、履歴機能を使用するユーザの場合のみ、メモリ２にある主検索文字列と副検索文字列とそれらの出現回数が履歴文字列テーブル３２に記憶される。また、分野テーブル３３のデータをもとに、分野履歴テーブル３４の更新が行われる。

ここで、本データベース検索処理方法の一実施形態を、図１と、図４と、図５と、図６と、図７とを用いながら説明する。なお、フローチャートにおける動作ステップを「Ｓ」と表記するものとする。

まずキーボード６から、ユーザ名とパスワードが入力されると、ＣＰＵ１はユーザ名を識別し、ログインを許可する場合のみ次のステップに進む。許可しない場合、ユーザに対して再度ユーザ名とパスワードの入力を要求する（ステップＳ１）。

ＣＰＵ１はステップＳ１で得られたユーザ情報をもとに、現ユーザが検索履歴を使用するユーザであるか判断する。検索履歴を使用するユーザである場合、以降のステップで履歴参照機能を実行することをメモリ２に記憶し、ステップＳ３に進む。検索履歴を使用しないユーザの場合、ステップＳ４に進む（ステップＳ２）。

ＣＰＵ１は、ハードディスク３より、履歴文字列テーブル３２と分野履歴テーブル３４をメモリ２に読み込む（ステップＳ３）。

ＣＰＵ１は、図７に例示されるようなマーキングが施された文書データ（文字列データ）が読み込まれているかのチェックを行う（ステップＳ４）。文字列データが読み込まれている場合、ステップＳ８に進む。文字列データが読み込まれていない場合、以降の処理を行う。

ＣＰＵ１は、あらかじめ図７に例示されるようなマーキングが施された文書がスキャナ４より読み込まれているかチェックを行う（ステップＳ５）。読み込まれている場合、ステップＳ７に進む。読み込まれていない場合、以降の処理を行う。

ＣＰＵ１は、スキャナ４を用いて文書を取り込み、画像データに変換し、メモリ２に記憶する（ステップＳ６）。

ＣＰＵ１は、ＯＣＲ２１を用いて、スキャナ４により取り込まれた画像データを文字列データに変換する（ステップＳ７）。

ＣＰＵ１は、ＯＭＲ２２を用いて、マーカーの位置を識別する。なお、スキャナ４およびＯＣＲ２１を用いて文書データ（文字列データ）を取り込まず、直接文書データを取り込んだ場合は、文書データ内の文字列の文字属性を用いてマーカーの位置を識別する（ステップＳ８）。マーカーが認識できない場合、本処理を終了する。ここでは一例として、図７に示すように、「ＣＣＤ」という単語がマーキングされていたとして説明する。

ＣＰＵ１は、変換された文字列データを単語単位に分解し、メモリ２に記憶する（ステップＳ９）。

ＣＰＵ１はステップＳ８で得られたマーカーの位置情報とステップＳ９で得られた文字列データをもとに、マーキングが施されている単語を識別し、前記単語を主検索文字列としてメモリ２に記憶する。ここでは単語「ＣＣＤ」が主検索文字列として記憶される（ステップＳ１０）。

次に、マーキングが施されていないその他の単語（ここでは図７の「カメラ」、「画像」など）を副検索文字列としてメモリ２に記憶する（ステップＳ１１）。

ＣＰＵ１は各副検索文字列の出現回数をカウントし、副検索文字列テーブル３１に記憶する（ステップＳ１２）。

副検索文字列テーブル３１は、出現回数領域７２をキーとしてソートされる（ステップＳ１３）。なおソートを行うのは、以降のステップにおいて、副検索文字列を使用する処理の効率を上げるためである。

ＣＰＵ１は副検索文字列テーブル３１の各文字列を分野辞書１１に照らし合わせ、分野ポイントを算出し、分野テーブル３３に記憶する（ステップＳ１４）。

ここでは例として、副検索文字列として「カメラ」が８回、「画像」が１６回出現したとする。文字列「カメラ」で分野辞書１１を参照すると、科学の分野関連値が８、生物の分野関連値が０、工学の分野関連値が１０、経済の分野関連値が３とあるので、それぞれに出現回数の８を乗算した「科学：６４、生物：０、工学８０、経済：２４」がメモリ２に記憶される。

次に文字列「画像」で分野辞書１１を参照すると、科学の分野関連値が５、生物の分野関連値が１、工学の分野関連値が７、経済の分野関連値が２とあるので、それぞれに出現回数の１６を乗算した「科学：８０、生物：１６、工学１１２、経済：３２」がメモリ２に記憶される。

ＣＰＵ１は上記処理で算出された値を分野ごとに足し合わせる。ここでは「科学：６４＋８０＝１４４、生物：０＋１６＝１６、工学８０＋１１２＝１９２、経済：２４＋３２＝５６」となる。

上記で得られた値をもとに、分野ポイントの算出を行う。最も数値の高い分野の分野ポイントを１０とし、その他の分野の分野ポイントは、最も高い分野ポイントに対する比率で表すこととする。

上記の場合は、最も数値の高い工学が１０ポイントとなる。科学は１４４/１９２と、工学の約８割なので、科学の分野ポイントは８ポイントになる。生物は１６/１９２と、工学の約１割なので、生物の分野ポイントは１ポイントになる。経済は５６/１９２と、工学の約３割なので、工学の分野ポイントは３ポイントになる。

結果として「科学：８、生物：１、工学：１０、経済：３」となり、この値が分野テーブル３３に記憶される。

ＣＰＵ１はステップＳ２でメモリ２に記憶された履歴参照の実行有無をチェックし（ステップＳ１５）、履歴参照を実行する場合は、ステップＳ１４で算出された分野ポイントに分野履歴テーブル３４の値を加算し、得られた値を分野ポイントとしてメモリ２に記憶する（ステップＳ１６）。

ここでは、分野テーブル「科学：８、生物：１、工学１０、経済：３」に、分野履歴テーブル「科学：１０、生物：１、工学３、経済：２」の値を足した、「科学：１８、生物：２、工学１３、経済：５」が分野ポイントとしてメモリ２に記憶されたとする。

ＣＰＵ１は主検索文字列を元に、検索に使用するデータベースの選定を行う。もしくは、ステップＳ１４で算出された分野ポイントを元に、分野ポイントの高い分野のデータベースを選定してもよい（ステップＳ１７）。

ＣＰＵ１は主検索文字列と出現回数の多い副検索文字列を検索式としてデータベース１２に対してＡＮＤ検索を行う（ステップＳ１８b）。履歴参照機能を使用するユーザの場合、主検索文字列と出現回数の多い副検索文字列に加え、出現回数の多い副検索文字列も検索式に加え、ＡＮＤ検索を行う（ステップＳ１８a）。

ＣＰＵ１は、ステップＳ１８a、もしくはＳ１８ｂで得られた検索結果項目の並び替えを行う（ステップＳ１９）。並び替えは、ステップＳ１４（履歴参照機能を使用する場合はステップＳ１６）で得られた分野ポイントを元に、ポイントの高い分野に関連する項目が上位にくるように行われる。

この例では、文字列「ＣＣＤ」に関する検索結果項目のうち、所属分野が「科学」である項目が上位となる。なお、データベース１２に記憶されている各検索対象項目は、その項目に関連する分野があらかじめ定められている。

ステップＳ１９により並び替えられた検索結果項目は、優先順位の高い項目から順にディスプレイ５に表示される。あわせて、ステップ１３で選出された関連度の高い分野名と、各検索結果項目の関連分野名もディスプレイ５に表示される（ステップＳ２０）。

ＣＰＵ１は履歴参照機能の実行の有無をチェックする（ステップＳ２１）。履歴参照を実行する場合は、副検索文字列テーブル３１のデータを使用して履歴文字列テーブル３２を更新する（ステップＳ２２）。続いてステップＳ１４で算出された分野ポイントを用いて、分野履歴テーブル３４を更新する（ステップＳ２３）。

以上、好ましい実施の形態及び実施例をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び実施例に限定されるものではなく、その技術的思想の範囲内において様々に変形して実施することができる。

例えば前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、パソコンに供給し、そのパソコン内のコンピュータ（例えばＣＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。

この場合、記憶媒体から読出されたプログラムコード自体が、前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

なお、プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

この発明の一実施形態によるデータベース検索システムの全体構成を示す図である。分野辞書の構成を示す図である。履歴情報テーブルの構成を示す図である。データベース検索方法のフローチャートである。データベース検索方法のフローチャートであり、図４の続きである。データベース検索方法のフローチャートであり、図５の続きである。ユーザがマーキングを行った文書のサンプルである。

符号の説明

１ＣＰＵ
２メモリ
３ハードディスク
４スキャナ
５ディスプレイ
６キーボード
１１分野辞書
１２データベース
１３情報テーブル
１４検索処理プログラム
２１ＯＣＲ
２２ＯＭＲ

Claims

文字列データを含む文書データを読み込み、前記文書データ内でマーキングが施されている箇所を前記文書データ内から識別し、ＣＰＵを用いて前記文書データ内の文字列データを文節ごとに単語として分割し、マーキングが施されている箇所の単語を主検索文字列としてメモリに記憶するとともに、マーキングが施されていない箇所の単語を副検索文字列としてメモリに記憶し、前記主検索文字列を用いてユーザが所望する情報を分野毎のデータベースから抽出し、前記主検索文字列と前記副検索文字列をユーザ単位で履歴文字列として記憶することを特徴とする文書データ中における指定文字のためのデータベース検索方法。
副検索文字列と履歴文字列の出現回数をカウントし、前記出現回数をもとに該文書と関連性の高い分野を選出し、選出された前記分野をメモリに記憶することを特徴とする請求項１に記載のデータベース検索方法。
主検索文字列をもとに検索処理に使用するデータベースを選出し、主検索文字列と出現回数の多い副検索文字列と出現回数の多い履歴文字列とを使用してデータベース検索処理を行い、前記処理によって出力された検索結果項目を副検索文字列から導き出された関連性の高い分野によって表示順位を決定し、検索結果項目を表示順位の高い項目から順に表示することを特徴とする請求項１に記載のデータベース検索方法。
上記文書と関連性の高い分野を副検索文字列から導き出し、導き出された分野をもとに検索処理に使用するデータベースを選出し、主検索文字列と出現回数の多い副検索文字列と出現回数の多い履歴文字列とを使用してデータベース検索処理を行い、前記処理によって出力された検索結果項目を副検索文字列から導き出された関連性の高い分野によって表示順位を決定し、検索結果項目を表示順位の高い項目から順に表示することを特徴とする請求項１に記載のデータベース検索方法。
ＯＣＲ(Optical Character Reader)を用いて画像データを文字列データを含む文書データに変換し、ＯＭＲ(Optical Mark Reader)を用いて前記文書データ内でマーキングが施されている箇所を前記画像データ内から識別することを特徴とする請求項１に記載のデータベース検索方法。
画像処理装置において、
文字列データを含む文書データを読み込むように機能させ、前記文書データ内でマーキングが施されている箇所を前記文書データ内から識別するように機能させ、ＣＰＵに、前記文書データ内の文字列データを文節ごとに単語として分割するよう機能させ、マーキングが施されている箇所の単語を主検索文字列としてメモリに記憶するよう機能させるとともに、マーキングが施されていない箇所の単語を副検索文字列としてメモリに記憶するよう機能させ、前記主検索文字列を用いてユーザが所望する情報を分野毎のデータベースから抽出するよう機能させ、前記主検索文字列と前記副検索文字列をユーザ単位で履歴文字列として記憶するよう機能させることを特徴とする文書データ中における指定文字のためのデータベース検索プログラム。
文字列データを含む文書データを読み込む入力部と、前記文書データ内でマーキングが施されている箇所を前記文書データ内から識別する制御部が設けられ、
この制御部は、
前記文書データ内の文字列データを文節ごとに単語として分割し、マーキングが施されている箇所の単語を主検索文字列としてメモリに記憶するとともに、マーキングが施されていない箇所の単語を副検索文字列としてメモリに記憶し、前記主検索文字列を用いてユーザが所望する情報を分野毎のデータベースから抽出し、前記主検索文字列と前記副検索文字列をユーザ単位で履歴文字列として記憶することを特徴とする原稿処理機。
さらに上記制御部は、
副検索文字列と履歴文字列の出現回数をカウントし、前記出現回数をもとに該文書と関連性の高い分野を選出し、選出された前記分野をメモリに記憶することを特徴とする請求項１に記載の原稿処理機。
さらに上記制御部は、
主検索文字列をもとに検索処理に使用するデータベースを選出し、主検索文字列と出現回数の多い副検索文字列と出現回数の多い履歴文字列とを使用してデータベース検索処理を行い、前記処理によって出力された検索結果項目を副検索文字列から導き出された関連性の高い分野によって表示順位を決定し、検索結果項目を表示順位の高い項目から順に表示することを特徴とする請求項１に記載の原稿処理機。
さらに上記制御部は、
上記文書と関連性の高い分野を副検索文字列から導き出し、導き出された分野をもとに検索処理に使用するデータベースを選出し、主検索文字列と出現回数の多い副検索文字列と出現回数の多い履歴文字列とを使用してデータベース検索処理を行い、前記処理によって出力された検索結果項目を副検索文字列から導き出された関連性の高い分野によって表示順位を決定し、検索結果項目を表示順位の高い項目から順に表示することを特徴とする請求項１に記載の原稿処理機。
画像データを文字列データを含む文書データに変換するＯＣＲ(Optical Character Reader)と、前記文書データ内でマーキングが施されている箇所を前記画像データ内から識別するＯＭＲ(Optical Mark Reader)とが設けられていることを特徴とする請求項１に記載の原稿処理機。