JP4549839B2 - 検索装置および方法 - Google Patents

検索装置および方法 Download PDF

Info

Publication number
JP4549839B2
JP4549839B2 JP2004367478A JP2004367478A JP4549839B2 JP 4549839 B2 JP4549839 B2 JP 4549839B2 JP 2004367478 A JP2004367478 A JP 2004367478A JP 2004367478 A JP2004367478 A JP 2004367478A JP 4549839 B2 JP4549839 B2 JP 4549839B2
Authority
JP
Japan
Prior art keywords
character
index
character string
search
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004367478A
Other languages
English (en)
Other versions
JP2006172372A (ja
Inventor
和也 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2004367478A priority Critical patent/JP4549839B2/ja
Publication of JP2006172372A publication Critical patent/JP2006172372A/ja
Application granted granted Critical
Publication of JP4549839B2 publication Critical patent/JP4549839B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、目的とする文字列を有する文書の検索を行うための技術に関する。
従来より、コンピュータを利用してデータベースに記録された文書の検索を行うことが行われている。検索の手法としては、検索対象のテキストに対し、単語単位で区切って検索に利用する手法と、文字列の長さ単位で区切って検索に利用する手法がある。
一般に、前者の単語単位で区切って検索に利用する手法では、単語の区切りを誤ると検索漏れを生じてしまうという問題がある。そのため、漏れを防ぐ検索を行う場合には、後者の文字列の長さ単位で区切って検索に利用する手法が用いられている。このような手法は、一般にN−グラムと呼ばれている。また、このようなN−グラムを応用した検索方法も提案されている(例えば、特許文献1参照)。
特許第3095552号
しかしながら、上記N−グラムを用いた手法では、検索漏れを防ぐことはできるが、不要な文書を優先度が高いものとして検索してしまうという問題がある。ここで、従来のN−グラムを用いた手法により文書の検索を行った結果を図10に示す。図10においては、検索キーとする検索文字列「IC」により検索を行ってその結果優先度が高い順に上から表示されている。従来のN−グラムを用いた手法では、検索文字列と一致する文字列の頻度によって優先順位が付けられる。また、この例では、大文字、小文字の区別はしないこととしている。すると、図10に示すように、「IC」もしくは「ic」を多く含む文書が優先順位が高いものとして表示される。すなわち、文書02は3個、文書03は2個、文書01は1個含んでいるため、この順で優先順位が高いものとして表示されるのである。
「IC」を検索キーとして指定した場合には、検索者は、文書02に示すような文書でなく、文書01や文書03のような文書を探すことを目的としているはずである。それにもかかわらず、従来の手法では、目的としていない文書が優先的に抽出されてしまうという問題があるのである。
図10の例で、「Office」がヒットするような、目的としていない文書が抽出される場合、検索文字列「IC」と対応する文字列「ic」の前後の文字種が同じ場合が多い。一方、「ICタグ」がヒットするような、目的としている文書が抽出される場合は、検索文字列「IC」と対応する文字列「IC」の前後の文字種が異なる場合が多い。
上記のような点に鑑み、本発明は、漏れが少なく、かつ有効な文書を優先的に抽出することが可能な検索装置および方法を提供することを課題とする。
上記課題を解決するため、本発明第1の態様では、検索対象とする文書データを蓄積した文書記憶手段と、前記文書記憶手段に記憶された各文書データについて、文書データ内の文字種別で分離した文字列から、所定の数Nにより、連続するN文字を、先頭を1文字ずつずらして切り取って作られる文字列を索引N文字列とし、当該各索引N文字列ごとに、前後の索引N文字列との文字種の異同を示す文字種異同情報と、索引N文字列の出現頻度に基づいて算出された重要度を有するインデックスを記録したインデックス記憶手段と、検索キーとなる文字列である検索文字列を入力する検索文字列入力手段と、前記入力された検索文字列が前記Nより長い場合に、前記検索文字列から、先頭を1文字ずつずらして切り取って作られる文字列を検索N文字列とし、各検索N文字列を用いて前記インデックス記憶手段内の索引N文字列と照合し、一致する索引N文字列の連なりを検出する文字列照合手段と、前記検索N文字列と一致する索引N文字列の重要度の総和を前記検索N文字列で除した重要度係数を算出し、当該重要度係数を、前記検出した索引N文字列の文字種異同情報に基づく得点に乗じることにより、各索引N文字列を含む文書に優先度を付与する優先度決定手段と、前記決定した優先度に従って、前記索引N文字列を含む文書データを出力する文書出力手段を有する検索装置を提供する。
また、本発明第2の態様では、第1の態様において、優先度決定手段が、前記検出した索引N文字列の文字種異同情報が隣接する文字列と同一でないことを示すものである場合に、隣接する文字列と同一であることを示すものである場合よりも高い得点を与えて文書別に得点を付与し、付与した得点にしたがって文書に優先度を付与するものであることを特徴とする。
また、本発明第3の態様では、第2の態様において、優先度決定手段が、一致する索引N文字列または一致する索引N文字列の連なりが同一文書内に複数検出された場合には、各索引N文字列ごとの得点を加算して得点を算出するものであることを特徴とする。
また、本発明第4の態様では、第1の態様において、前記優先度決定手段が、前記検出した索引N文字列のうち、文字種異同情報が前後いずれの文字列とも同一でないことを示している索引N文字列を含む文書と含まない文書を分類し、文字種異同情報が前後いずれの文字列とも同一でないことを示している索引N文字列を含む文書の優先度を高く設定することにより優先度を付与するものであることを特徴とする。
また、本発明第5の態様では、文書データ内の文字種別で分離した文字列から、所定の数Nにより、連続するN文字を、先頭を1文字ずつずらして切り取って作られる文字列を索引N文字列とし、当該各索引N文字列ごとに、前後の索引N文字列との文字種の異同を示す文字種異同情報と、索引N文字列の出現頻度に基づいて算出された重要度を有するインデックスが記憶装置に記憶されており、コンピュータが、前記記憶装置に記憶されたインデックスを利用して、文書データの検索を行う方法であって、検索キーとして入力された検索文字列が前記Nより長い場合に、前記検索文字列から、先頭を1文字ずつずらして切り取って作られる文字列を検索N文字列とし、各検索N文字列を用いて前記記憶装置にインデックスとして記憶された索引N文字列と照合し、一致する索引N文字列の連なりを検出する文字列照合段階と、前記検索N文字列と一致する索引N文字列の重要度の総和を前記検索N文字列で除した重要度係数を算出し、当該重要度係数を、前記検出した索引N文字列の文字種異同情報に基づく得点に乗じることにより、各索引N文字列を含む文書に優先度を付与する優先度決定段階と、前記決定した優先度に従って、前記索引N文字列を含む文書データを出力する出力段階を有する検索方法を提供する。
本発明によれば、文書データを文字種別の文字列に分離した後、所定文字数の文字列に切り出して索引N文字列とし、各索引N文字列ごとに前後の文字列との文字種の異同を示す文字種異同情報を有するインデックスを作成しておき、このインデックスを利用して、検索文字列と一致する文字列を有する文書の優先度を文字種異同情報に基づいて決定し、優先度の高い文書順に出力するようにしている。
本発明によれば、漏れが少なく、かつ有効な文書を優先的に抽出することが可能となる。
(1.インデックスの作成)
以下、本発明の実施形態について図面を参照して詳細に説明する。まず、検索用のインデックスの作成について説明する。図1(a)に検索対象とする文書の一例を示す。これは、図10において示した文書01と同一のものである。インデックスの作成は、コンピュータが専用のプログラムを実行することにより行われる。図2は、インデックス作成処理の概要を示すフローチャートである。まず、コンピュータが検索対象とする文書を読み込むと、読み込んだ文書の文字種分けを行う(S1)。文字種とは、分類のための文字の種別を示すものであり、本実施形態では、英数、カタカナ、ひらがな、漢字、その他に分類している。例えば、図1(a)に示した文書の場合、図1(b)に示すように文字種分けされる。これは、文字数に関係なく、文字種が変化する部分において分けられる。文字種分けが終わったら、続いて、文字の切り出し処理を行う(S2)。文字の切り出しはN文字単位で行う。なお、Nは1以上の整数である。このNの値、すなわち、何文字単位で切り出すかについては、適宜設定することが可能である。本実施形態では、N=2と設定した場合について説明する。文字の切り出しは、S1による文字種分けにより既にN文字以下となっている文字列に対しては行わない。したがって、図1(b)の例では、「ソリューション」の文字列に対してのみ行う。文字の切り出しは、1文字ずつ移動させながら行う。この結果、図1(c)に示したような文字列が得られることになる。
次に、切り出した各文字列の前後の文字列との文字種の異同を判断し、文字種異同情報を付与する(S3)。具体的には、まず、切り出し後の各文字列について、前後の文字列と文字種が「同じ」か、「異なる」か、または「文字列が存在しない」かの判断を行う。文字種が同じか異なっているかは、切り出した各文字列の文字コードを比較することにより判断することができる。文字コードのコード形式としては、シフトJIS、ASCIIコードなど様々なものが利用されているが、いずれのコード形式であっても、文字コードは、同一の文字種について連続して割り当てられている。したがって、利用するコード形式に従って、文字種別の文字コードの範囲を設定しておけば良い。文字種の異同が判断できたら、文字種異同情報を与える。本実施形態では、「同じ」場合は「」、「異なる」場合は「」、「文字列が存在しない」場合は「0」を文字種異同情報として与えることにしている。例えば、図1(c)に示した文字列の場合は、図1(d)に示すような文字種異同情報が付与されることになる。各文字列について文字種異同情報を付与したら、次に切り出した各文字列を索引N文字列としてインデックスに登録する(S4)。インデックスには、文字種別に各索引N文字列、各索引N文字列が出現する文書ID、文書ID中の出現位置、S3において取得した文字種前、文字種後の文字種異同情報、重要度を登録する。作成されたインデックスの一例を図3に示す。図3に示したようなインデックス情報は検索対象とするデータベース(文書記憶手段10)に記録された全ての文書について作成されることになる。図3に示すインデックス中、「出現位置」は各文書において文頭から数えた文字数である。また、「重要度」は、以下の〔数式1〕に従って算出されるものである。ただし、図3の例では、説明の便宜上、重要度は全て「1」としている。
〔数式1〕
(重要度)=(文書中の索引N文字列の出現頻度)/(索引N文字列が特定の文書に偏って出現する頻度)
同様に、他の検索対象とする文書の一例を図4(a)に示す。これは、図10において示した文書02と同一のものである。図4(a)に示した文書の場合、図4(b)に示すように文字種分けされ(S1)、続いて、図4(c)に示すように文字の切り出しが行われる(S2)。さらに、切り出した各文字列の前後の文字列との文字種の異同を示す文字種異同情報を付与する(S3)。そして、インデックスに登録される(S4)。なお、「スペース(空白)」は文字種「その他」として文字種分けを行う。図10に示した文書03についても同様に処理を行うことができる。図5に、文書01〜文書03に対してインデックス作成処理を行った場合の、索引N文字列「IC」のみについてのインデックスを示す。図5に示すように、「IC」という文字列は、文書01に1つ、文書02に3つ、文書03に2つ含まれていることが記録されることになる。
(2.検索装置の構成)
次に、本発明に係る検索装置について説明する。図6は、本発明に係る検索装置の一実施形態を示す構成図である。図6において、10は文書記憶手段、20はインデックス記憶手段、30は検索文字列入力手段、40は文字列照合手段、50は優先度決定手段、60は文書出力手段である。
文書記憶手段10は、多数の文書データを蓄積したものであり、各文書データには、各文書を特定する文書IDが付されており、この文書IDを特定することにより対応する文書データの抽出が可能となっている。インデックス記憶手段20は、文書記憶手段10に蓄積された文書データのインデックスを記録したものである。このインデックスは、検索対象とする文書データに対して、上記インデックス作成処理を実行することにより作成されたものであり、図3、図5に示したように、各索引N文字列について文書IDと対応付けた形式で記録されている。文書記憶手段10、インデックス記憶手段20は図6の例では分離して示しているが、物理的には1つの記憶装置に設けられていても、複数の記憶装置に分離して設けられていても良い。現実には、コンピュータに接続されたハードディスク等の外部記憶装置にそれぞれ所定の領域を確保して設けられることになる。
検索文字列入力手段30は、検索キーとなる文字列である検索文字列を入力する機能を有しており、キーボード等の入力機器を用いて指定された検索文字列を入力する。文字列照合手段40は、入力された検索文字列を用いて、インデックス記憶手段20内のインデックスを参照し、一致する索引N文字列が存在するかどうかを照合し、検索文字列と一致する索引N文字列を検出する機能を有している。優先度決定手段50は、検索文字列と一致するものとして検出された索引N文字列の文字種異同情報(文字種前・文字種後)を基に文書ID別に得点を算出し、この得点に基づいて優先度を決定する機能を有している。文書出力手段60は、索引N文字列を含む文書IDの文書データを抽出し、決定した優先度に従って、順位付けして出力する機能を有している。図6に示した装置は、現実には、コンピュータに専用プログラムを記録しておき、この専用プログラムをコンピュータが実行することにより実現される。
(3.処理動作)
次に、図6に示した検索装置の処理動作と共に、本発明に係る検索方法を図7のフローチャートに従って説明する。まず、検索文字列入力手段30から検索文字列が入力されると、文字列照合手段40は、入力された検索文字列の文字種分けを行う(S11)。これは、上記図2に示したS1と同様の処理である。文字種分けが終わったら、続いて、文字列照合手段40は、文字の切り出し処理を行う(S12)。これも上記図2に示したS2と同様に行われる。続いて、切り出した検索文字列とインデックス記憶手段20内のインデックスの各索引N文字列との照合を行う(S13)。照合の結果、一致する索引N文字列が存在した場合には、優先度決定手段50が、その文字種異同情報を基に文書別に得点を算出し、優先度を決定する(S14)。続いて、出力手段60が、一致した索引N文字列が存在する文書IDの文書データを文書記憶手段10から抽出し、決定した優先度に従って、ディスプレイ装置に表示出力する(S15)。
例えば、検索文字列「IC」により、上記文書01〜03を検索する場合について具体的に説明する。この場合、検索文字列「IC」の文字種は「英数」のみであるため、S11の文字種分けは行われず、文字数も2文字であるため、N=2と設定されている場合には、S12の文字の切り出し処理も行われない。したがって、S13においては、「IC」とインデックス記憶手段20内のインデックスの索引N文字列との照合が行われる。図5に示したようなインデックスであった場合、文字列照合手段40は、インデックス内の索引N文字列「IC」を検出するので、S14において、優先度決定手段50は、この索引N文字列「IC」文字種異同情報を基に得点を文書別に算出する。得点算出のための重み付けについては、事前に設定しておくことができる。本実施形態では、文字種が同じ場合は得点「1」、文字種が異なる場合は得点「8」、文字が存在しない場合は得点「10」と設定している。また、算出手法は、出現位置ごとに文字種前と文字種後の得点を加算し、文書別に全ての出現位置の得点を加算することとしている。
例えば、図5に示した例であれば、文書01については、索引N文字列「IC」は1つしか存在せず、文字種前が「0」であるので得点「10」、文字種後が「1」であるので得点「8」であるため、合計の得点は「18」となる。文書02については、索引N文字列「IC」は3つしか存在する。1つ目は、文字種前が「2」であるので得点「1」、文字種後が「1」であるので得点「8」であるため、合計の得点は「9」となり、2つ目は、文字種前が「2」であるので得点「1」、文字種後が「2」であるので得点「1」であるため、合計の得点は「2」となり、3つ目も、文字種前が「2」であるので得点「1」、文字種後が「2」であるので得点「1」であるため、合計の得点は「2」となる。したがって、文書02の得点は「13」となる。すなわち、優先度決定手段50は、文書01の得点は「18」、文書02の得点は「13」として算出することになる。同様に、文書03については、得点「34」となる。
出力手段60は、検索文字列と一致した索引N文字列が存在する文書のみ出力する処理を行う。この例では、検索文字列「IC」が含まれる上記文書01〜文書03の全てが出力されることになる。すなわち、出力手段60が文書ID「01」「02」「03」の文書データを文書記憶手段10から抽出し、ディスプレイ装置に表示出力する。文書データが表示された状態の画面の様子を図8に示す。図8に示すように、得点が高い文書データから順に上から表示することになる。図8の結果から明らかなように、検索文字列として「IC」を指定した意図に近い文書が優先的に抽出されることになる。
(4.検索文字列が切り出し文字数Nより長い場合)
次に、検索文字列「ソリューション」で検索を行う場合について説明する。まず、S11の文字種分けの結果、「ソリューション」の文字種はカタカナとなる。文字列照合手段40は、文字の切り出し処理を行う(S12)。この結果、「ソリ」「リュ」「ュー」「ーシ」「ショ」「ョン」の文字列が切り出される。検索文字列からN文字ずつ切り出した文字列を検索N文字列と呼ぶことにする。続いて、切り出した各検索N文字列と、インデックス記憶手段20内のインデックスの各索引N文字列との照合を行う(S13)。具体的には、まず、切り出した各検索N文字列「ソリ」「リュ」「ュー」「ーシ」「ショ」「ョン」と索引N文字列が同一文書内に存在するかどうかを照合する。照合方法は、全ての検索N文字列と一致する索引N文字列に同一の文書IDが付与されているかを判別し、同一の文書IDが付与されていれば、さらに出現位置が連続しているかどうかも判断する。この結果、切り出した全ての検索N文字列が同一の文書に含まれ、出現位置も連続していると判断される場合には、優先度決定手段50が、その文字種情報を基に文書別に得点を算出する(S14)。具体的には、まず、各索引N文字列の重要度および検索N文字列数に基づいて以下の〔数式2〕により重要度係数を算出する。
〔数式2〕
重要度係数=(Σ(重要度))/(検索N文字列数)
例えば、検索文字列「ソリューション」の場合、図3に示すように、各(重要度)が1であるため、6文字分積算して〔数式2〕における分子は6となる。また、分母の(検索N文字列数)は6であるので、重要度係数は「1」として算出される。また、優先度決定手段50は、さらに、一致した索引N文字列のうち、先頭の索引N文字列の文字種前と最後の索引N文字列の文字種後に対応する得点を加算し、これに重要度係数を乗算する。上記の例と同様に、文字種が異なる場合「8」、文字列が存在しない場合「10」とすると、重要度係数が1である場合には、(8+10)×1=18として算出される。同様にして同一文書内に存在した検索N文字列分だけ加算して文書別の得点を算出する。そして、得点の高い順に優先度が付与される。優先度が決定したら、上記の例と同様に出力手段60が、文書IDに対応する文書データを文書記憶手段10から抽出し、ディスプレイ装置に優先度順に表示出力する(S15)。
(5.優先度決定の他の手法)
上記実施形態では、S14において優先度決定手段50は、文字種異同情報の状態により異なる得点を与え、文書別の得点を算出し、これを基に優先度を決定するようにしたが、本発明では、他の手法により優先度を決定することも可能である。具体的には、上記S14において優先度決定手段50は、検索文字列と一致する索引N文字列が存在する場合に、その索引N文字列の文字種異同情報の文字種前、文字種後のいずれも「同一」となっていない索引N文字列が存在するかどうかで分類し、文字種前、文字種後のいずれも「同一」でない索引N文字列が存在する文書に高い優先度を付与する。さらに、分類したそれぞれの文書間においては、検索文字列と一致する索引N文字列の出現頻度が多いものに高い優先度を付与する。
例えば、上記文書01〜文書03に対して検索文字列「IC」で検索したとすると、図5に示すように、文書01については、文字種前、文字種後のいずれも「同一」でない索引N文字列が1つ存在する。文書02については、検索文字列と一致する索引N文字列は3つ存在するが、文字種前、文字種後のいずれも「同一」でない索引N文字列は1つも存在しない。文書03については、文字種前、文字種後のいずれも「同一」でない索引N文字列が2つ存在する。この場合、条件を満たす索引N文字列を2つ有する文書03、条件を満たす索引N文字列を1つ有する文書01、条件を満たす索引N文字列を有さない文書02の順に高い優先度が付与されることになる。この結果を図9に示す。図9に示すように、破線より上側には、文字種前、文字種後のいずれも「同一」でない索引N文字列を含む文書03と文書01が表示され、破線より下側には、文字種前、文字種後のいずれも「同一」でない索引N文字列を含まない文書02が表示されることになる。
文書01についてのインデックス作成の様子を示す図である。 インデックス作成処理の概要を示すフローチャートである。 作成されたインデックスの一例を示す図である。 文書02についてのインデックス作成の様子を示す図である。 インデックスの文字列IC部分を示す図である。 本発明に係る検索装置の一実施形態を示す構成図である。 本発明に係る検索方法の概要を示すフローチャートである。 本発明による検索結果を示す図である。 本発明の他の手法による検索結果を示す図である。 従来の手法による検索結果を示す図である。
符号の説明
10・・・文書記憶手段
20・・・インデックス記憶手段
30・・・検索文字列入力手段
40・・・文字列照合手段
50・・・優先度決定手段
60・・・文書出力手段


Claims (5)

  1. 検索対象とする文書データを蓄積した文書記憶手段と、
    前記文書記憶手段に記憶された各文書データについて、文書データ内の文字種別で分離した文字列から、所定の数Nにより、連続するN文字を、先頭を1文字ずつずらして切り取って作られる文字列を索引N文字列とし、当該各索引N文字列ごとに、前後の索引N文字列との文字種の異同を示す文字種異同情報と、索引N文字列の出現頻度に基づいて算出された重要度を有するインデックスを記録したインデックス記憶手段と、
    検索キーとなる文字列である検索文字列を入力する検索文字列入力手段と、
    前記入力された検索文字列が前記Nより長い場合に、前記検索文字列から、先頭を1文字ずつずらして切り取って作られる文字列を検索N文字列とし、各検索N文字列を用いて前記インデックス記憶手段内の索引N文字列と照合し、一致する索引N文字列の連なりを検出する文字列照合手段と、
    前記検索N文字列と一致する索引N文字列の重要度の総和を前記検索N文字列で除した重要度係数を算出し、当該重要度係数を、前記検出した索引N文字列の文字種異同情報に基づく得点に乗じることにより、各索引N文字列を含む文書に優先度を付与する優先度決定手段と、
    前記決定した優先度に従って、前記索引N文字列を含む文書データを出力する文書出力手段と、
    を有することを特徴とする検索装置。
  2. 前記優先度決定手段は、前記検出した索引N文字列の文字種異同情報が隣接する文字列と同一でないことを示すものである場合に、隣接する文字列と同一であることを示すものである場合よりも高い得点を与えて文書別に得点を付与するものであることを特徴とする請求項1に記載の検索装置。
  3. 前記優先度決定手段は、一致する索引N文字列の連なりが同一文書内に複数検出された場合には、各索引N文字列ごとの得点を加算して得点を算出するものであることを特徴とする請求項2に記載の検索装置。
  4. 前記優先度決定手段は、前記検出した索引N文字列のうち、文字種異同情報が前後いずれの文字列とも同一でないことを示している索引N文字列を含む文書と含まない文書を分類し、文字種異同情報が前後いずれの文字列とも同一でないことを示している索引N文字列を含む文書の優先度を高く設定することにより優先度を付与するものであることを特徴とする請求項1に記載の検索装置。
  5. 文書データ内の文字種別で分離した文字列から、所定の数Nにより、連続するN文字を、先頭を1文字ずつずらして切り取って作られる文字列を索引N文字列とし、当該各索引N文字列ごとに、前後の索引N文字列との文字種の異同を示す文字種異同情報と、索引N文字列の出現頻度に基づいて算出された重要度を有するインデックスが記憶装置に記憶されており、コンピュータが、前記記憶装置に記憶されたインデックスを利用して、文書データの検索を行う方法であって、
    検索キーとして入力された検索文字列が前記Nより長い場合に、前記検索文字列から、先頭を1文字ずつずらして切り取って作られる文字列を検索N文字列とし、各検索N文字列を用いて前記記憶装置にインデックスとして記憶された索引N文字列と照合し、一致する索引N文字列の連なりを検出する文字列照合段階と、
    前記検索N文字列と一致する索引N文字列の重要度の総和を前記検索N文字列で除した重要度係数を算出し、当該重要度係数を、前記検出した索引N文字列の文字種異同情報に基づく得点に乗じることにより、各索引N文字列を含む文書に優先度を付与する優先度決定段階と、
    前記決定した優先度に従って、前記索引N文字列を含む文書データを出力する出力段階と、
    を有することを特徴とする検索方法。
JP2004367478A 2004-12-20 2004-12-20 検索装置および方法 Expired - Fee Related JP4549839B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004367478A JP4549839B2 (ja) 2004-12-20 2004-12-20 検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004367478A JP4549839B2 (ja) 2004-12-20 2004-12-20 検索装置および方法

Publications (2)

Publication Number Publication Date
JP2006172372A JP2006172372A (ja) 2006-06-29
JP4549839B2 true JP4549839B2 (ja) 2010-09-22

Family

ID=36673032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004367478A Expired - Fee Related JP4549839B2 (ja) 2004-12-20 2004-12-20 検索装置および方法

Country Status (1)

Country Link
JP (1) JP4549839B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8914385B2 (en) 2010-02-24 2014-12-16 Mitsubishi Electric Corporation Search device and search program
WO2017126057A1 (ja) * 2016-01-20 2017-07-27 株式会社日立製作所 情報検索方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185776A (ja) * 1997-09-02 1999-03-30 Canon Inc 情報処理装置及びその方法、記憶媒体
JPH11143902A (ja) * 1997-11-11 1999-05-28 Hitachi Ltd n−gramを用いた類似文書検索方法
JPH11338883A (ja) * 1998-05-29 1999-12-10 Hitachi Ltd 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
JP2000067070A (ja) * 1998-08-24 2000-03-03 Matsushita Electric Ind Co Ltd 情報検索方法、検索ファイル作成方法及び情報検索装置
JP2000231563A (ja) * 1999-02-09 2000-08-22 Hitachi Ltd 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001034623A (ja) * 1999-07-19 2001-02-09 Matsushita Electric Ind Co Ltd 情報検索方法と情報検索装置
JP2001175674A (ja) * 1999-12-20 2001-06-29 Ricoh Co Ltd 文書検索装置、文書検索方法および記憶媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185776A (ja) * 1997-09-02 1999-03-30 Canon Inc 情報処理装置及びその方法、記憶媒体
JPH11143902A (ja) * 1997-11-11 1999-05-28 Hitachi Ltd n−gramを用いた類似文書検索方法
JPH11338883A (ja) * 1998-05-29 1999-12-10 Hitachi Ltd 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
JP2000067070A (ja) * 1998-08-24 2000-03-03 Matsushita Electric Ind Co Ltd 情報検索方法、検索ファイル作成方法及び情報検索装置
JP2000231563A (ja) * 1999-02-09 2000-08-22 Hitachi Ltd 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001034623A (ja) * 1999-07-19 2001-02-09 Matsushita Electric Ind Co Ltd 情報検索方法と情報検索装置
JP2001175674A (ja) * 1999-12-20 2001-06-29 Ricoh Co Ltd 文書検索装置、文書検索方法および記憶媒体

Also Published As

Publication number Publication date
JP2006172372A (ja) 2006-06-29

Similar Documents

Publication Publication Date Title
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US6438566B1 (en) Document processing method and apparatus which can add comment data added to an original document to a revised document
JP2726568B2 (ja) 文字認識方法及び装置
JP3160201B2 (ja) 情報検索方法、情報検索装置
KR100451978B1 (ko) 정보 검색 방법과 정보 검색 장치
JP5010885B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20070203885A1 (en) Document Classification Method, and Computer Readable Record Medium Having Program for Executing Document Classification Method By Computer
US5557789A (en) Text retrieval method and apparatus based on a handwritten keyword
JPH11110414A (ja) データベースからテキストを検索するための方法および装置
JP5900367B2 (ja) 検索装置、検索方法及びプログラム
US8996571B2 (en) Text search apparatus and text search method
US20130318124A1 (en) Computer product, retrieving apparatus, and retrieval method
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
JP4894510B2 (ja) 文献検索プログラム、文献検索装置、文献検索方法
US20040193584A1 (en) Method and device for relevant document search
JP6722565B2 (ja) 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
JP4549839B2 (ja) 検索装置および方法
JP2003178075A5 (ja)
JP2003242446A (ja) 文字列予測装置及び方法並びに当該方法を具現化するコンピュータ実行可能なプログラム
JP4389102B2 (ja) 技術文献検索システム
JP3945075B2 (ja) 辞書機能を備えた電子装置及び情報検索処理プログラムを記憶した記憶媒体
JP2009020567A (ja) 文書検索装置
JP4980604B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
CN110032621B (zh) 中文比对方法
JP5768561B2 (ja) 入力支援プログラム、入力支援装置、及び入力支援方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100615

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100707

R150 Certificate of patent or registration of utility model

Ref document number: 4549839

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees