JP2006190060A - データベース検索方法、データベース検索プログラムおよび原稿処理機 - Google Patents

データベース検索方法、データベース検索プログラムおよび原稿処理機 Download PDF

Info

Publication number
JP2006190060A
JP2006190060A JP2005001147A JP2005001147A JP2006190060A JP 2006190060 A JP2006190060 A JP 2006190060A JP 2005001147 A JP2005001147 A JP 2005001147A JP 2005001147 A JP2005001147 A JP 2005001147A JP 2006190060 A JP2006190060 A JP 2006190060A
Authority
JP
Japan
Prior art keywords
character string
search
field
sub
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005001147A
Other languages
English (en)
Inventor
Tatsuo Noda
辰夫 野田
Katsushi Horibatake
勝史 堀畑
Toshinobu Yoshida
敏信 吉田
Manami Kubota
真奈美 久保田
Hiroshi Yamashita
洋 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Mita Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Mita Corp filed Critical Kyocera Mita Corp
Priority to JP2005001147A priority Critical patent/JP2006190060A/ja
Publication of JP2006190060A publication Critical patent/JP2006190060A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 データベース検索において、ユーザが指定するキーワードが少なくても精度の高い検索結果を表示する機能を提供する。
【解決手段】 マーキングが施された文書データ取り込み、文書データを文字列データに変換し、文字列データを単語単位に分割して記憶する。次にマーキング箇所を特定し、マーキングされている単語を主検索文字列、マーキングされていない単語を副検索文字列として記憶する。副検索文字列の出現回数を算出し、それをもとに前記の文書データがどの分野に関して記述されたものであるか特定する。主検索文字列、もしくは先で特定された分野を元に、検索に使用するデータベースを選出し、検索処理を行う。検索結果項目の中から、上記文書に関連の高い分野の項目を優先的に表示する。なおユーザが検索履歴を残し、今後の検索処理にて用いたい場合は、ユーザ単位で検索履歴情報を記憶し、次回からの検索処理で履歴情報として使用する。
【選択図】 図4

Description

本発明は、データベース検索方法、データベース検索プログラムおよびそれを実現するための静電複写機やファクシミリ或いは画像読取機等の原稿処理機に関する。
従来のデータベース検索においては、ユーザは文字列をキーワードとして検索を行う。そして、ユーザが指定するキーワードが少なくなるにつれ、出力される検索結果項目数は増加する。そのため、ユーザは膨大な検索結果の中から目的の情報を探す必要があった。このような状況を避けるためにユーザは、複雑な検索式を用いて検索を行うか、情報を絞り込むための追加検索を行う必要であった。
しかしながら、適切な検索式の作成や絞り込み検索の実施には、一定の知識や経験が必要である。それらを持たないユーザは、不要な情報を数多く含む検索結果をひとつひとつ確認しながら、所望する情報を選別する必要があった。
もしユーザが、紙面の文書の中に存在する単語について情報検索を行う場合に、その文書がいかなる分野に関して記述されたものであるかを特定できれば、ユーザはその分野に絞り込んだ検索を行うので、より所望するものに近い情報を得ることができる。
例えばユーザが図7に示す文書を読んでいたとする。人間であれば、この文書がカメラに関する技術書であることは容易に判断できる。しかし画像処理装置を用いて、上記の判断を行うシステムはこれまでに存在しなかった。もし人間と同様の判断が行えるシステムであれば、図7の文書中にマーキングされた「CCD」という単語について検索する場合、生物分野や経済分野などのデータベースは用いず、まず機械分野、それもカメラに関するデータベースを優先的に検索するのが普通である。
以上から本発明は、ユーザが紙面の文書中の単語に関する情報を検索したい場合に、上記文書を取り込み、上記文書がいかなる分野に関して記述されたものかを判断し、その結果をもとに検索対象を絞り込むとともに、検索結果項目に表示順位を付加することにより、よりユーザが所望するものに近い情報を提示する機能を有するデータベース検索方法を提供することを目的とする。
本発明のデータベース検索方法は、ユーザによりマーキングが施された文書データ、もしくはユーザによりマーキングが施された文書を取り込んでOCRで変換した文書データを文字列データとして取り込み、文字列データを文節ごとに単語として分割し、マーキングが施された箇所を文字属性もしくはOMRで識別し、マーキングが施された箇所の単語を主検索文字列として記憶するとともに、マーキングが施されていない箇所の単語を副検索文字列として記憶し、副検索文字列の出現回数をカウントし、副検索文字列を分野辞書に照らしあわせて分野ポイントを算出し、分野ポイントをもとに前記文書と関連性の高い分野を選出し、主検索文字列もしくは選出された前記分野をもとに検索処理に使用するデータベースを選出し、選出された前記データベースから主検索文字列と出現回数の多い副検索区文字列とを用いてユーザが所望する情報を抽出し、抽出された情報を前記の関連性の高い分野によって表示順位を決定し、表示順位の高い項目から順に表示し、主検索文字列と副検索文字列をユーザ単位で履歴文字列として記憶することを特徴とする。
本発明では、ユーザは本システムを使用する前にログインを行う必要がある。ログインが行われた際に本システムは、前記ユーザが履歴情報を使用するかどうか判断し、使用する場合はユーザの過去の検索履歴を読み出し、それらの情報を履歴文字列および分野履歴として保持する。履歴文字列は、データベースからユーザが所望する情報を抽出する際に、主検索文字列と副検索区文字列とともに検索のキーワードとして使用される。分野履歴は、ユーザによってマーキングが施された文書と関連性の高い分野を選出する際に、分野ポイントに付加して使用される。検索処理終了後に、主検索文字列と副検索文字列とその出現回数は履歴文字列として記憶されるとともに、検索処理中に算出された分野ポイントは分野履歴として記憶される。
「主検索文字列」とは、ある文書を閲覧したユーザがその文書内で参照した文字列のうち、その文字列についてデータベースを使用して情報検索を行いたいと考えた文字列である。ユーザはその単語にマーキングを施してスキャナに読み込ませることにより、本システムにこれを伝達することができる。
「副検索文字列」とは、上記文書の中でマーキングを施さなかった、その他の全ての文字列のことである。
「履歴文字列」とは、過去の検索で使用された副検索文字列である。ユーザ単位で記憶、管理されている。
「データベース」とは、様々な分野の情報を格納した媒体であり、分野別に複数のデータベースから構成されている。例えば科学分野用のデータベース、生物分野用のデータベースなどといったデータベースに分かれており、システムは検索処理の際に使い分けを行うことができる。
「分野」とは、本発明が使用するデータベース内で、情報を一定の範囲で区切り、分別するための指標である。具体的には「科学」、「生物」といった上位のものから、「サッカー」、「野球」といった下位のものまで幅広く存在する。
「分野辞書」とは、ある単語とある分野との関連性の高さを数値で示したテーブルである。例えば図2では、「カメラ」という単語は、科学分野との関連性が8、生物分野との関連性が0、工学分野との関連性が10、経済分野との関連性が3となっており、工学との関連性が最も高いこととなる。なお分野辞書は本発明用に新規作成するのではなく、既存のものを流用することとする。
「分野関連値」とは、分野辞書において、特定の文字列と特定の分野の関連性の高さを示した数値である。
「分野ポイント」とは、検索処理の結果出力される検索結果項目に、表示優先順位を付加するために使用される数値である。この数値は副検索文字列と分野辞書を用いて算出される。
「分野履歴」とは、過去の検索処理で算出された分野ポイントをもとに算出される値であり、ユーザが過去、どの分野に関連する検索を多く行ったかを示すものである。
上記のように構成された検索方法によれば、ユーザの指定する単語が少数であっても、検索システムは、ユーザに指定されなかったその他の単語を元に、その文書がいかなる分野について記述されたものであるか判断し、自動的に検索式の作成および検索結果の重み付けを行うので、ユーザは少ない作業量で精度の高い検索結果を得ることができる。
また、あらかじめ検索対象のデータベースを限定するため、全データベースに対して検索を行う方法よりも処理数が減り、システムにかかる負担を軽減することができる。
(1)装置の全体構成
図1に、この発明の一実施形態によるデータベース検索システムの全体構造を示す。図1において、CPU1には、メモリ2と、記憶部であるハードディスク3と、入力部であるスキャナ4と、表示部であるディスプレイ5と、操作部であるキーボード6とが接続されている。
ハードディスク3には、分野辞書11と、データベース12と、情報テーブル13と、検索処理プログラム14とが記憶されている。分野辞書11は、取得した単語と各分野との関連性の高さを調べるために使用される。データベース12は、各種情報が記憶されている媒体であり、分野別に複数のデータベースから構成されている。情報テーブル13には、CPU1が各種処理に使用する内部データが記憶されている。検索処理プログラム14は、本発明における処理実行方式を定めたプログラムであり、CPU1によって実行される。
スキャナ4には、OCR21とOMR22とが装備されている。OCR21は、スキャナで取り込まれた画像を文字列データに変換するために使用される。OMR22は、ユーザがマーキングを施した位置を特定するために使用される。
(2)分野辞書の構成
図2に、分野辞書11の構成を示す。分野辞書11は、分野領域61と、文字列領域62と、分野関連値領域63とを有している。分野領域61には分野を示す文字列が記憶されている。例えば、「物理」、「工学」、「生物」などである。文字列領域62には、スキャナで入力される文字列に対応する文字列が記憶されている。分野関連値領域63には、文字列領域62の文字列と分野領域61の分野との関連性の高さを示す数値が記憶されている。関連性が高いほど、高い数値となる。
(3)情報テーブルの構成
図3に、情報テーブル13の構成を示す。情報テーブル13は副検索文字列テーブル31と、履歴文字列テーブル32と、分野テーブル33と、分野履歴テーブル34とからなる。副検索文字列テーブル31は文字列領域71と出現回数領域72とを有している。履歴文字列テーブル32は文字列領域73と出現回数領域74とを有している。分野テーブル33は分野領域75と分野ポイント領域78とを有している。分野履歴テーブル34は分野領域77と分野ポイント領域78とを有している。
副検索文字列テーブル31の文字列領域71には副検索文字列として記憶された文字列が記憶されており、出現回数領域72はその出現回数が記憶されている。履歴文字列テーブル32の文字列領域73には過去に副検索文字列として記憶された文字列が記憶されており、出現回数領域74はその出現回数の累計が記憶されている。分野テーブル33の分野領域75は分野を示す文字列が記憶されており、分野ポイント76は副検索文字列テーブル31の文字列領域71と出現回数領域72をもとに算出された分野ポイントが記憶されている。分野履歴テーブル34の分野領域77は分野を示す文字列が記憶されており、分野ポイント76は過去の検索処理で算出された分野履歴ポイントが記憶されている。
(4) 動作概要
ここで、図1を用いて、本発明におけるデータベース検索処理の動作概要を説明する。
CPU1はスキャナ4を用いて、ユーザが用意した文書を画像データとして取り込み、さらに画像データを文字列データに変換し、メモリ2に記憶する。もしくは、文字列データを含む文書データ(例えばリッチテキストデータやワープロデータ等)を、電子媒体(例えばフロッピーディスク等)を介して取り込み、文字列データとしてメモリ2に記憶してもよい。
CPU1は取り込んだ上記文字列データを文節ごとに単語に分ける。次に、OMR22を使用して、文書上でマーキングが施されている箇所を識別する。なお、上記手順においてスキャナ4を使用せず、電子媒体を介して文書データを取り込んだ場合は、文書データ内の文字列に設定されている文字属性をもとに、マーキングが施されている箇所を識別する。
マーキングが施された箇所の単語は、主検索文字列としてメモリ2に記憶される。マーキングが施された箇所の以外の単語は、副検索文字列としてハードディスク3の情報テーブル13に記憶される。
CPU1は副検索文字列の出現回数をカウントし、その数を情報テーブル13の副検索文字列テーブル31に記憶する。CPU1は取得した副検索文字列テーブル31の各副検索文字列を分野辞書11に照らし合わせ、分野ポイントの算出を行う。算出された分野ポイントは、分野テーブル33に記憶される。
履歴機能を使用するユーザである場合、情報テーブル13の分野履歴テーブル34に記憶されている値と分野テーブル33の値を合計して分野ポイントを算出し、メモリ2に記憶する。
CPU1は主検索文字列をもとに、データベース12の中から、検索に使用するデータベースを一つ選出する。もしくは、メモリ2に記憶されている分野ポイントをもとに、ポイントの最も高い分野のデータベースを選出する方法でもよい。なおデータベース12は、分野別に複数のデータベースから構成されている。例えば科学分野用のデータベース、生物分野用のデータベースなどに分かれており、検索処理の中で使い分けを行うことができるようになっている。
選出されたデータベースに対して、主検索文字列と副検索文字列をキーとして検索が行われ、結果がメモリ2に記憶される。なお、履歴機能を使用するユーザの場合、主検索文字列と副検索文字列に加えて履歴文字列をキーとして検索が行われる。検索結果項目は分野ポイントをもとに表示順位が決定され、表示順位の高い項目から順にディスプレイ5に表示される。
上記処理終了後、履歴機能を使用するユーザの場合のみ、メモリ2にある主検索文字列と副検索文字列とそれらの出現回数が履歴文字列テーブル32に記憶される。また、分野テーブル33のデータをもとに、分野履歴テーブル34の更新が行われる。
ここで、本データベース検索処理方法の一実施形態を、図1と、図4と、図5と、図6と、図7とを用いながら説明する。なお、フローチャートにおける動作ステップを「S」と表記するものとする。
まずキーボード6から、ユーザ名とパスワードが入力されると、CPU1はユーザ名を識別し、ログインを許可する場合のみ次のステップに進む。許可しない場合、ユーザに対して再度ユーザ名とパスワードの入力を要求する(ステップS1)。
CPU1はステップS1で得られたユーザ情報をもとに、現ユーザが検索履歴を使用するユーザであるか判断する。検索履歴を使用するユーザである場合、以降のステップで履歴参照機能を実行することをメモリ2に記憶し、ステップS3に進む。検索履歴を使用しないユーザの場合、ステップS4に進む(ステップS2)。
CPU1は、ハードディスク3より、履歴文字列テーブル32と分野履歴テーブル34をメモリ2に読み込む(ステップS3)。
CPU1は、図7に例示されるようなマーキングが施された文書データ(文字列データ)が読み込まれているかのチェックを行う(ステップS4)。文字列データが読み込まれている場合、ステップS8に進む。文字列データが読み込まれていない場合、以降の処理を行う。
CPU1は、あらかじめ図7に例示されるようなマーキングが施された文書がスキャナ4より読み込まれているかチェックを行う(ステップS5)。読み込まれている場合、ステップS7に進む。読み込まれていない場合、以降の処理を行う。
CPU1は、スキャナ4を用いて文書を取り込み、画像データに変換し、メモリ2に記憶する(ステップS6)。
CPU1は、OCR21を用いて、スキャナ4により取り込まれた画像データを文字列データに変換する(ステップS7)。
CPU1は、OMR22を用いて、マーカーの位置を識別する。なお、スキャナ4およびOCR21を用いて文書データ(文字列データ)を取り込まず、直接文書データを取り込んだ場合は、文書データ内の文字列の文字属性を用いてマーカーの位置を識別する(ステップS8)。マーカーが認識できない場合、本処理を終了する。ここでは一例として、図7に示すように、「CCD」という単語がマーキングされていたとして説明する。
CPU1は、変換された文字列データを単語単位に分解し、メモリ2に記憶する(ステップS9)。
CPU1はステップS8で得られたマーカーの位置情報とステップS9で得られた文字列データをもとに、マーキングが施されている単語を識別し、前記単語を主検索文字列としてメモリ2に記憶する。ここでは単語「CCD」が主検索文字列として記憶される(ステップS10)。
次に、マーキングが施されていないその他の単語(ここでは図7の「カメラ」、「画像」など)を副検索文字列としてメモリ2に記憶する(ステップS11)。
CPU1は各副検索文字列の出現回数をカウントし、副検索文字列テーブル31に記憶する(ステップS12)。
副検索文字列テーブル31は、出現回数領域72をキーとしてソートされる(ステップS13)。なおソートを行うのは、以降のステップにおいて、副検索文字列を使用する処理の効率を上げるためである。
CPU1は副検索文字列テーブル31の各文字列を分野辞書11に照らし合わせ、分野ポイントを算出し、分野テーブル33に記憶する(ステップS14)。
ここでは例として、副検索文字列として「カメラ」が8回、「画像」が16回出現したとする。文字列「カメラ」で分野辞書11を参照すると、科学の分野関連値が8、生物の分野関連値が0、工学の分野関連値が10、経済の分野関連値が3とあるので、それぞれに出現回数の8を乗算した「科学:64、生物:0、工学80、経済:24」がメモリ2に記憶される。
次に文字列「画像」で分野辞書11を参照すると、科学の分野関連値が5、生物の分野関連値が1、工学の分野関連値が7、経済の分野関連値が2とあるので、それぞれに出現回数の16を乗算した「科学:80、生物:16、工学112、経済:32」がメモリ2に記憶される。
CPU1は上記処理で算出された値を分野ごとに足し合わせる。ここでは「科学:64+80=144、生物:0+16=16、工学80+112=192、経済:24+32=56」となる。
上記で得られた値をもとに、分野ポイントの算出を行う。最も数値の高い分野の分野ポイントを10とし、その他の分野の分野ポイントは、最も高い分野ポイントに対する比率で表すこととする。
上記の場合は、最も数値の高い工学が10ポイントとなる。科学は144/192と、工学の約8割なので、科学の分野ポイントは8ポイントになる。生物は16/192と、工学の約1割なので、生物の分野ポイントは1ポイントになる。経済は56/192と、工学の約3割なので、工学の分野ポイントは3ポイントになる。
結果として「科学:8、生物:1、工学:10、経済:3」となり、この値が分野テーブル33に記憶される。
CPU1はステップS2でメモリ2に記憶された履歴参照の実行有無をチェックし(ステップS15)、履歴参照を実行する場合は、ステップS14で算出された分野ポイントに分野履歴テーブル34の値を加算し、得られた値を分野ポイントとしてメモリ2に記憶する(ステップS16)。
ここでは、分野テーブル「科学:8、生物:1、工学10、経済:3」に、分野履歴テーブル「科学:10、生物:1、工学3、経済:2」の値を足した、「科学:18、生物:2、工学13、経済:5」が分野ポイントとしてメモリ2に記憶されたとする。
CPU1は主検索文字列を元に、検索に使用するデータベースの選定を行う。もしくは、ステップS14で算出された分野ポイントを元に、分野ポイントの高い分野のデータベースを選定してもよい(ステップS17)。
CPU1は主検索文字列と出現回数の多い副検索文字列を検索式としてデータベース12に対してAND検索を行う(ステップS18b)。履歴参照機能を使用するユーザの場合、主検索文字列と出現回数の多い副検索文字列に加え、出現回数の多い副検索文字列も検索式に加え、AND検索を行う(ステップS18a)。
CPU1は、ステップS18a、もしくはS18bで得られた検索結果項目の並び替えを行う(ステップS19)。並び替えは、ステップS14(履歴参照機能を使用する場合はステップS16)で得られた分野ポイントを元に、ポイントの高い分野に関連する項目が上位にくるように行われる。
この例では、文字列「CCD」に関する検索結果項目のうち、所属分野が「科学」である項目が上位となる。なお、データベース12に記憶されている各検索対象項目は、その項目に関連する分野があらかじめ定められている。
ステップS19により並び替えられた検索結果項目は、優先順位の高い項目から順にディスプレイ5に表示される。あわせて、ステップ13で選出された関連度の高い分野名と、各検索結果項目の関連分野名もディスプレイ5に表示される(ステップS20)。
CPU1は履歴参照機能の実行の有無をチェックする(ステップS21)。履歴参照を実行する場合は、副検索文字列テーブル31のデータを使用して履歴文字列テーブル32を更新する(ステップS22)。続いてステップS14で算出された分野ポイントを用いて、分野履歴テーブル34を更新する(ステップS23)。
以上、好ましい実施の形態及び実施例をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び実施例に限定されるものではなく、その技術的思想の範囲内において様々に変形して実施することができる。
例えば前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、パソコンに供給し、そのパソコン内のコンピュータ(例えばCPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読出されたプログラムコード自体が、前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
なお、プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
この発明の一実施形態によるデータベース検索システムの全体構成を示す図である。 分野辞書の構成を示す図である。 履歴情報テーブルの構成を示す図である。 データベース検索方法のフローチャートである。 データベース検索方法のフローチャートであり、図4の続きである。 データベース検索方法のフローチャートであり、図5の続きである。 ユーザがマーキングを行った文書のサンプルである。
符号の説明
1 CPU
2 メモリ
3 ハードディスク
4 スキャナ
5 ディスプレイ
6 キーボード
11 分野辞書
12 データベース
13 情報テーブル
14 検索処理プログラム
21 OCR
22 OMR

Claims (11)

  1. 文字列データを含む文書データを読み込み、前記文書データ内でマーキングが施されている箇所を前記文書データ内から識別し、CPUを用いて前記文書データ内の文字列データを文節ごとに単語として分割し、マーキングが施されている箇所の単語を主検索文字列としてメモリに記憶するとともに、マーキングが施されていない箇所の単語を副検索文字列としてメモリに記憶し、前記主検索文字列を用いてユーザが所望する情報を分野毎のデータベースから抽出し、前記主検索文字列と前記副検索文字列をユーザ単位で履歴文字列として記憶することを特徴とする文書データ中における指定文字のためのデータベース検索方法。
  2. 副検索文字列と履歴文字列の出現回数をカウントし、前記出現回数をもとに該文書と関連性の高い分野を選出し、選出された前記分野をメモリに記憶することを特徴とする請求項1に記載のデータベース検索方法。
  3. 主検索文字列をもとに検索処理に使用するデータベースを選出し、主検索文字列と出現回数の多い副検索文字列と出現回数の多い履歴文字列とを使用してデータベース検索処理を行い、前記処理によって出力された検索結果項目を副検索文字列から導き出された関連性の高い分野によって表示順位を決定し、検索結果項目を表示順位の高い項目から順に表示することを特徴とする請求項1に記載のデータベース検索方法。
  4. 上記文書と関連性の高い分野を副検索文字列から導き出し、導き出された分野をもとに検索処理に使用するデータベースを選出し、主検索文字列と出現回数の多い副検索文字列と出現回数の多い履歴文字列とを使用してデータベース検索処理を行い、前記処理によって出力された検索結果項目を副検索文字列から導き出された関連性の高い分野によって表示順位を決定し、検索結果項目を表示順位の高い項目から順に表示することを特徴とする請求項1に記載のデータベース検索方法。
  5. OCR(Optical Character Reader)を用いて画像データを文字列データを含む文書データに変換し、OMR(Optical Mark Reader)を用いて前記文書データ内でマーキングが施されている箇所を前記画像データ内から識別することを特徴とする請求項1に記載のデータベース検索方法。
  6. 画像処理装置において、
    文字列データを含む文書データを読み込むように機能させ、前記文書データ内でマーキングが施されている箇所を前記文書データ内から識別するように機能させ、CPUに、前記文書データ内の文字列データを文節ごとに単語として分割するよう機能させ、マーキングが施されている箇所の単語を主検索文字列としてメモリに記憶するよう機能させるとともに、マーキングが施されていない箇所の単語を副検索文字列としてメモリに記憶するよう機能させ、前記主検索文字列を用いてユーザが所望する情報を分野毎のデータベースから抽出するよう機能させ、前記主検索文字列と前記副検索文字列をユーザ単位で履歴文字列として記憶するよう機能させることを特徴とする文書データ中における指定文字のためのデータベース検索プログラム。
  7. 文字列データを含む文書データを読み込む入力部と、前記文書データ内でマーキングが施されている箇所を前記文書データ内から識別する制御部が設けられ、
    この制御部は、
    前記文書データ内の文字列データを文節ごとに単語として分割し、マーキングが施されている箇所の単語を主検索文字列としてメモリに記憶するとともに、マーキングが施されていない箇所の単語を副検索文字列としてメモリに記憶し、前記主検索文字列を用いてユーザが所望する情報を分野毎のデータベースから抽出し、前記主検索文字列と前記副検索文字列をユーザ単位で履歴文字列として記憶することを特徴とする原稿処理機。
  8. さらに上記制御部は、
    副検索文字列と履歴文字列の出現回数をカウントし、前記出現回数をもとに該文書と関連性の高い分野を選出し、選出された前記分野をメモリに記憶することを特徴とする請求項1に記載の原稿処理機。
  9. さらに上記制御部は、
    主検索文字列をもとに検索処理に使用するデータベースを選出し、主検索文字列と出現回数の多い副検索文字列と出現回数の多い履歴文字列とを使用してデータベース検索処理を行い、前記処理によって出力された検索結果項目を副検索文字列から導き出された関連性の高い分野によって表示順位を決定し、検索結果項目を表示順位の高い項目から順に表示することを特徴とする請求項1に記載の原稿処理機。
  10. さらに上記制御部は、
    上記文書と関連性の高い分野を副検索文字列から導き出し、導き出された分野をもとに検索処理に使用するデータベースを選出し、主検索文字列と出現回数の多い副検索文字列と出現回数の多い履歴文字列とを使用してデータベース検索処理を行い、前記処理によって出力された検索結果項目を副検索文字列から導き出された関連性の高い分野によって表示順位を決定し、検索結果項目を表示順位の高い項目から順に表示することを特徴とする請求項1に記載の原稿処理機。
  11. 画像データを文字列データを含む文書データに変換するOCR(Optical Character Reader)と、前記文書データ内でマーキングが施されている箇所を前記画像データ内から識別するOMR(Optical Mark Reader)とが設けられていることを特徴とする請求項1に記載の原稿処理機。
JP2005001147A 2005-01-06 2005-01-06 データベース検索方法、データベース検索プログラムおよび原稿処理機 Pending JP2006190060A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005001147A JP2006190060A (ja) 2005-01-06 2005-01-06 データベース検索方法、データベース検索プログラムおよび原稿処理機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005001147A JP2006190060A (ja) 2005-01-06 2005-01-06 データベース検索方法、データベース検索プログラムおよび原稿処理機

Publications (1)

Publication Number Publication Date
JP2006190060A true JP2006190060A (ja) 2006-07-20

Family

ID=36797206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005001147A Pending JP2006190060A (ja) 2005-01-06 2005-01-06 データベース検索方法、データベース検索プログラムおよび原稿処理機

Country Status (1)

Country Link
JP (1) JP2006190060A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010092286A (ja) * 2008-10-08 2010-04-22 Yahoo Japan Corp 知識dbを利用した検索方法
JP2015179385A (ja) * 2014-03-19 2015-10-08 大日本印刷株式会社 資料検索装置、資料検索システム、資料検索方法、及び、プログラム
JP2017004193A (ja) * 2015-06-09 2017-01-05 凸版印刷株式会社 情報処理装置、情報処理方法、及びプログラム
CN108563706A (zh) * 2018-03-27 2018-09-21 昆山和君纵达数据科技有限公司 一种催收大数据智能服务系统及其运行方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149881A (ja) * 1992-11-09 1994-05-31 Ricoh Co Ltd 辞書引き装置及び文書処理装置並びにディジタル複写装置
JPH09153061A (ja) * 1995-11-30 1997-06-10 Fujitsu Ltd 文書検索装置および方法
JPH11238080A (ja) * 1998-02-23 1999-08-31 Ntt Data Corp データベース選択装置
JP2001337980A (ja) * 2000-05-29 2001-12-07 Sony Corp 電子番組ガイド検索方法及び電子番組ガイド検索装置
JP2002099565A (ja) * 2000-09-26 2002-04-05 Fujitsu Ltd 情報検索装置
JP2002099573A (ja) * 2000-09-25 2002-04-05 Toshiba Corp 類似文書検索装置、類似文書検索方法及び記録媒体
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149881A (ja) * 1992-11-09 1994-05-31 Ricoh Co Ltd 辞書引き装置及び文書処理装置並びにディジタル複写装置
JPH09153061A (ja) * 1995-11-30 1997-06-10 Fujitsu Ltd 文書検索装置および方法
JPH11238080A (ja) * 1998-02-23 1999-08-31 Ntt Data Corp データベース選択装置
JP2001337980A (ja) * 2000-05-29 2001-12-07 Sony Corp 電子番組ガイド検索方法及び電子番組ガイド検索装置
JP2002099573A (ja) * 2000-09-25 2002-04-05 Toshiba Corp 類似文書検索装置、類似文書検索方法及び記録媒体
JP2002099565A (ja) * 2000-09-26 2002-04-05 Fujitsu Ltd 情報検索装置
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010092286A (ja) * 2008-10-08 2010-04-22 Yahoo Japan Corp 知識dbを利用した検索方法
JP2015179385A (ja) * 2014-03-19 2015-10-08 大日本印刷株式会社 資料検索装置、資料検索システム、資料検索方法、及び、プログラム
JP2017004193A (ja) * 2015-06-09 2017-01-05 凸版印刷株式会社 情報処理装置、情報処理方法、及びプログラム
CN108563706A (zh) * 2018-03-27 2018-09-21 昆山和君纵达数据科技有限公司 一种催收大数据智能服务系统及其运行方法

Similar Documents

Publication Publication Date Title
US7401078B2 (en) Information processing apparatus, document search method, program, and storage medium
US7558792B2 (en) Automatic extraction of human-readable lists from structured documents
JP2004126840A (ja) 文書検索方法、プログラムおよびシステム
US20020184196A1 (en) System and method for combining voice annotation and recognition search criteria with traditional search criteria into metadata
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US20070006067A1 (en) Electronic apparatus with a Web page browsing function
US8826142B2 (en) Document handling in a web application
JP2001075969A (ja) 画像管理検索装置、画像管理検索方法及び記憶媒体
JP2009116531A (ja) 電子機器、その制御方法およびコンピュータプログラム
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP2006190060A (ja) データベース検索方法、データベース検索プログラムおよび原稿処理機
TWI794547B (zh) 文書檢索裝置、文書檢索程式、文書檢索方法
JP2002007413A (ja) 画像検索装置
JPH113343A (ja) 情報検索装置
JP2005107931A (ja) 画像検索装置
JP2018073309A (ja) 文書検索方法及び装置
JP2000200279A (ja) 情報検索装置
JPH10162024A (ja) 電子ファイリング方法及び電子ファイリング装置
JP2009098829A (ja) 漫画のコマ検索装置
JP3902825B2 (ja) 文書検索システムおよび方法
JP4388142B2 (ja) 情報処理システム及びこのシステムでの処理をコンピュータに行なわせるためのプログラムを格納した記録媒体
JP2001092831A (ja) 文書検索装置及び文書検索方法
JP2005258910A (ja) 階層キーワード抽出装置、方法、およびプログラム
JP2009116530A (ja) 電子機器、その制御方法およびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101124