JP5190192B2 - SEARCH DEVICE, SEARCH METHOD, AND PROGRAM - Google Patents
SEARCH DEVICE, SEARCH METHOD, AND PROGRAM Download PDFInfo
- Publication number
- JP5190192B2 JP5190192B2 JP2006283227A JP2006283227A JP5190192B2 JP 5190192 B2 JP5190192 B2 JP 5190192B2 JP 2006283227 A JP2006283227 A JP 2006283227A JP 2006283227 A JP2006283227 A JP 2006283227A JP 5190192 B2 JP5190192 B2 JP 5190192B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- data string
- unit
- data
- setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 34
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 230000008569 process Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 12
- 230000010365 information processing Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 230000002776 aggregation Effects 0.000 description 8
- 238000004220 aggregation Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 8
- 230000004931 aggregating effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、検索装置、検索方法及びプログラムに関する。 The present invention relates to a search device, a search method, and a program.
従来は、類似文字列の検索において、類似基準に従って適用した類似展開文字列を洩れなく単純に派生させ、完全一致でマッチングを行っていた。例えば、類似基準「相違する任意の文字列が図4の関係にある」、質問称呼「エヌエス」の場合、類似展開文字列「イヌエス、ヘヌエス、エムエス・・・・、エヌエシュ」は、3×4×3×2−1=71通りである。 Conventionally, in the search for similar character strings, similar expansion character strings applied according to the similarity criterion are simply derived without omission and matching is performed with perfect matching. For example, in the case of the similarity criterion “arbitrary arbitrary character strings are in the relationship of FIG. 4” and the question name “NS”, the similar expansion character string “Inu S, HNS, MS,... X3x2-1 = 71.
このような従来方法では、類似展開文字列が膨大な数になり、それらに対して何度も比較を行うため、計算効率は非常に悪く、メモリ使用量が膨大になっていた。 In such a conventional method, there are an enormous number of similar expansion character strings, and comparisons are made many times. Therefore, the calculation efficiency is very poor, and the memory usage is enormous.
一方、オートマトンを用いて類似文字列を検索する方法が開示されている(例えば、特許文献1参照)。 On the other hand, a method for searching for a similar character string using an automaton is disclosed (for example, see Patent Document 1).
オートマトンを用いた類似文字列の検索方法では、計算効率や、メモリ効率はよい代わりに、ルールが作成し難く、作成したルールも理解が難しかったりするため、システムの保守性に問題があった。 In the similar character string search method using the automaton, the calculation efficiency and the memory efficiency are good, but the rule is difficult to create and the created rule is difficult to understand.
本発明はこのような問題点に鑑みなされたもので、計算効率及びメモリ効率と共に、システムの保守性がよい検索装置、検索方法及びプログラムを提供することを目的とする。 The present invention has been made in view of such problems, and an object of the present invention is to provide a search device, a search method, and a program with good system maintainability as well as calculation efficiency and memory efficiency.
そこで、本発明の検索装置は、検索対象データ列を保持する検索対象データ列保持手段と、検索データ列を取得する検索データ列取得手段と、前記検索データ列取得手段において取得された検索データ列に対して、前記検索データ列と前記検索対象データ列とが類似の関係にあるか否かの類似関係を定義したオブジェクトを用いる回数の範囲を、予め定められたルールに応じて設定する設定手段と、検索処理として、前記設定手段において設定された回数の範囲内で、前記検索データ列取得手段において取得された検索データ列と、前記検索対象データ列保持手段において保持されている検索対象データ列と、が前記オブジェクトに定義された類似関係にあるか否かの比較を行う検索手段と、を有し、前記検索手段は、前記設定手段において設定された回数の範囲内で、前記オブジェクトを用いて、前記検索データ列を構成する単位データと、前記検索対象データ列を構成する単位データと、の比較を、単位データ毎に行い、一致しない単位データが存在すると、前記設定手段において設定された回数の範囲内で、前記オブジェクトを用いて、前記一致しない単位データ同士が、前記オブジェクトに定義された類似関係にあるか否かの比較を行うことを特徴とする。 Therefore, the search device of the present invention includes a search target data string holding unit that stores a search target data string, a search data string acquisition unit that acquires a search data string, and a search data string acquired by the search data string acquisition unit On the other hand, a setting means for setting a range of the number of times of using an object defining a similar relationship as to whether or not the search data sequence and the search target data sequence have a similar relationship according to a predetermined rule And the search data string acquired by the search data string acquisition means and the search object data string held by the search object data string holding means within the range of the number of times set by the setting means as the search processing When, will have a, a search unit for comparing whether the defined similarity relation with the object, the searching means, in said setting means Within the specified number of times, using the object, the unit data constituting the search data string and the unit data constituting the search target data string are compared for each unit data and do not match. If unit data exists, the unit is used to compare whether the unit data that do not match is in a similar relationship defined in the object within the range of the number of times set by the setting unit. It is characterized by that.
係る構成とすることにより、予め定められたルールに応じて、オブジェクトを用いる回数の範囲を設定し、この範囲内で、検索データ列と、検索対象データ列と、の比較を行うので、計算効率及びメモリ効率と共に、システムの保守性がよい検索装置を提供することができる。 By adopting such a configuration, a range of the number of times the object is used is set according to a predetermined rule, and the search data string and the search target data string are compared within this range. In addition to the memory efficiency, it is possible to provide a search device with good system maintainability.
なお、オブジェクトとは、例えば、後述する類似関係テーブル等に対応する。 The object corresponds to, for example, a similarity relationship table described later.
また、本発明は、検索方法及びプログラムとしてもよい。 Further, the present invention may be a search method and a program.
本発明によれば、計算効率、メモリ効率及びシステムのメンテナンス性がよい検索装置等を提供することができる。 According to the present invention, it is possible to provide a search device or the like having good calculation efficiency, memory efficiency, and system maintainability.
以下、本発明の実施形態について図面に基づいて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<実施形態1>
以下、情報処理装置1の一例のハードウェア構成を図1に示す。図1は、情報処理装置1の一例のハードウェア構成図である。
<
A hardware configuration of an example of the
図1に示されるように、情報処理装置1は、ハードウェア構成として、入力装置11と、表示装置12と、記録媒体ドライブ装置13と、ROM(Read Only Memory)15と、RAM(Random Access Memory)16と、少なくとも1つ以上のCPU(Central Processing Unit)17と、インターフェース装置18と、HD(Hard Disk)19と、を含む。
As shown in FIG. 1, the
入力装置11は、情報処理装置1の操作者(又はユーザ)が操作するキーボード及びマウス等で構成され、情報処理装置1に各種操作情報等を入力するのに用いられる。表示装置12は、情報処理装置1の操作者が利用するディスプレイ等で構成され、各種情報(又は画面)等を表示するのに用いられる。
The
インターフェース装置18は、情報処理装置1をネットワーク等に接続するインターフェースである。後述する情報処理装置1の類似検索に係る機能又は後述する類似検索に係るフローチャート等に関するプログラムは、例えば、CD−ROM等の記録媒体14によって情報処理装置1に提供されるか、ネットワーク等を通じてダウンロードされる。記録媒体14は、記録媒体ドライブ装置13にセットされ、プログラムが記録媒体14から記録媒体ドライブ装置13を介してHD19にインストールされる。
The
ROM15は、情報処理装置1の電源投入時に最初に読み込まれるプログラム等を記録する。RAM16は、情報処理装置1のメインメモリである。CPU17は、必要に応じて、HD19よりプログラムを読み出して、RAM16に格納し、プログラムを実行することで、後述する類似検索に係る機能の全て又は一部を提供したり、後述する類似検索に係る機能に係るフローチャート等を実行したりする。また、HD19は、プログラム以外に、例えば後述するルール、ルールに対応する類似関係テーブルの適用可能回数及び閾値、検索対象文字列、類似関係テーブル等を格納する。
The
以下、CPU17、RAM16、HD19及びプログラム等から構成される、情報処理装置1の機能構成の一例を図2に示す。図2は、情報処理装置1の一例の機能構成図(その1)である。図2に示されるように、情報処理装置1は、機能構成として、検索文字列取得部21と、設定部22と、ルール保持部23と、検索部24と、検索対象文字列保持部25と、類似関係テーブル保持部26と、検索結果集約部27と、を含む。
Hereinafter, an example of a functional configuration of the
検索文字列取得部21は、検索文字列を取得する。検索文字列取得部21は、例えば、検索画面等においてユーザが入力した検索したい文字列を検索文字列として取得する。設定部22は、検索文字列取得部21が取得した検索文字列に対して、ルール保持部23に保持されているルールに応じて、図3に示されるような、類似関係テーブルの適用可能回数及び閾値を設定する。図3は、類似関係テーブルの適用可能回数及び閾値の一例を示す図(その1)である。ここで、類似関係テーブルの適用可能回数は、類似関係テーブルを用いる(参照する)ことができる最大値(最大回数)を表しており、閾値は、類似関係テーブルを用いなければならない(参照しなければならない)最小値(最小回数)を表していると言える。
The search character
ルール保持部23は、ルールと、ルールに対応する図3に示されるような類似関係テーブルの適用可能回数及び閾値とを保持する。ここで、ルールとは、例えば、「1音乃至2音が類似関係テーブルAの関係にある」等である。なお、ルールは、例えば、ファイル等に記述されているものとする。
The
ルールは、複数であってもよいし、単数であってもよい。複数のルールが存在する場合は、例えば、検索画面等においてユーザが選択(又は入力)した検索条件等に応じて、情報処理装置1が自動的に、複数のルールの中から一つ或いは複数のルールを選択して、検索文字列に対して適用するようにしてもよいし、ユーザが検索画面等において一つ或いは複数のルールを選択できるようにしてもよい。
There may be a plurality of rules or a single rule. When there are a plurality of rules, for example, the
検索部24は、設定部22において設定された類似関係テーブルの適用可能回数及び閾値の範囲内で、検索文字列と、検索対象文字列保持部25において保持されている検索対象文字列との比較を行い、ヒットした検索対象文字列を出力する。なお、検索部24における比較処理の詳細は、後述する図5を用いて説明する。
The
検索対象文字列保持部25は、検索対象文字列を保持する。ここで、検索対象文字列とは、例えば、商標の称呼検索を例にすると、商標(文字列の商標)である。検索対象文字列保持部25は、検索対象文字列を、例えばトライ構造で保持する。
The search target character
類似関係テーブル保持部26は、図4に示されるような、類似関係テーブルを保持する。図4は、類似関係テーブルの一例を示す図(その1)である。
The similarity relationship
検索結果集約部27は、検索部24における検索処理の結果を集約し(例えば、重複したデータのマージ等を行い)、検索結果(検索結果の一覧)を検索結果画面等に出力する。
The search
図5は、比較処理の一例を示すフローチャートである。なお、図5に示す比較処理は、1つの検索文字列と、1つの検索対象文字列との比較処理である。
ステップS10において、検索部24は、類似関係テーブル適用カウンタをリセットする(ゼロにする)。
FIG. 5 is a flowchart illustrating an example of the comparison process. The comparison process shown in FIG. 5 is a comparison process between one search character string and one search target character string.
In step S10, the
続いて、ステップS11において、検索部24は、検索文字列と、検索対象文字列との注目文字の位置(注目文字位置)を先頭にする。ステップS12において、検索部24は、検索文字列と、検索対象文字列との注目文字位置を取り出す。ここで、以下、ステップS12において検索部24が取り出した、注目文字位置の検索文字列の文字を検索文字という。また、以下、ステップS12において検索部24が取り出した、注目文字位置の検索対象文字列の文字を検索対象文字という。
Subsequently, in step S11, the
ステップS13において、検索部24は、検索文字と、検索対象文字とを類似関係テーブルを適用せず、比較する。ここで、検索部24は、検索文字の種類と、検索対象文字の種類とを、ビット列中の1となるビットの位置で表現し、検索文字と、検索対象文字とが一致するか否かを、ビット演算を用いて比較する。
例えば、
ア:0001、イ:0010、ウ:0100、エ:1000、
等4種類の文字を4ビットで、ア又はイ又はウ(=ア|イ|ウ)を論理和"0111"と表現し、検索部24は、検索文字と、検索対象文字とが一致するか否かを、ビット演算を用いて比較する。なお、説明の簡略化のため、文字を4ビットで表しているが、より多い種類の文字を表すのにもっと多いビット数を用いてもよい。また当然ながら、ビット数と種類の数が同じである必要は無い。
つまり、検索文字がア"0001"で、検索対象文字がア"0001"の場合、検索部24は、ビット積演算を行い、
0001&0001=0001≠0
と算出する。また、検索文字がア"0001"で、検索対象文字がイ"0010"の場合、検索部24は、ビット積演算を行い、
0001&0010=0000=0
と算出する。また、検索文字列が、検索対象文字列の中に一致する文字があるか否かを、ビット積演算を用いて比較することもできる。検索文字に類似関係テーブルを適用した検索文字が、ア又はイ又はウ "0111"で、検索対象文字がア "0001"の場合、検索部24は、ビット積演算を行い、
0111&0001=0001≠0
と算出する。このように、比較したい文字が複数あっても、1つの検索文字との比較を1回のビット積演算でまとめて行える為、計算効率が非常によくなっている。
In step S13, the
For example,
A: 0001, A: 0010, C: 0100, D: 1000,
The four types of characters are represented by 4 bits and a or i or c (= a | i | c) is expressed as a logical sum "0111", and the
That is, when the search character is “0001” and the search target character is “0001”, the
0001 & 0001 = 0001 ≠ 0
And calculate. When the search character is “0001” and the search target character is “0010”, the
0001 & 0010 = 0000 = 0
And calculate. It is also possible to compare whether or not the search character string has a matching character in the search target character string using a bit product operation. When the search character obtained by applying the similarity table to the search character is “A”, “I”, or “C” “0111” and the search target character is “A” “0001”, the
0111 & 0001 = 0001 ≠ 0
And calculate. As described above, even if there are a plurality of characters to be compared, the comparison with one search character can be performed by a single bit product operation, so that the calculation efficiency is very good.
ステップS14において検索部24は、ステップS13のビット積演算の結果に基づいて、検索文字と、検索対象文字とが一致したか否かを判定する。検索部24は、ビット積演算の結果≠0の場合は、検索文字と、検索対象文字とが一致したと判定し(ステップS14においてYES)、ステップS19に進む。一方、検索部24は、ビット積演算の結果=0の場合は、検索文字と、検索対象文字とが一致しなかったと判定し(ステップS14においてNO)、ステップS15に進む。
In step S14, the
ステップS15において、検索部24は、類似関係テーブルAの適用可能回数が、類似関係テーブル適用カウンタより大きいか否かを判定する。検索部24は、類似関係テーブルAの適用可能回数が、類似関係テーブル適用カウンタより大きいと判定すると(ステップS15においてYES)、ステップS16に進む。一方、検索部24は、類似関係テーブルAの適用可能回数が、類似関係テーブル適用カウンタより大きくないと判定すると(ステップS15においてNO)、図5に示す処理を終了する。
In step S15, the
ステップS16において、検索部24は、検索文字と、検索対象文字とを例えば、類似関係テーブルAを適用して比較する。ステップS17において、検索部24は、検索文字と、検索対象文字とが類似関係にあるか否かを判定する。検索部24は、検索文字と、検索対象文字とが類似関係にあると判定すると(ステップS17においてYES)、ステップS18に進む。一方、検索部24は、検索文字と、検索対象文字とが類似関係にないと判定すると(ステップS17においてNO)、図5に示す処理を終了する。
In step S16, the
ステップS18において、検索部24は、類似関係テーブル適用カウンタを1つ増やす。ステップS19において、検索部24は、検索文字列に次の文字があるか否かを判定する。検索部24は、検索文字列に次の文字があると判定すると(ステップS19においてYES)、ステップS20に進む。一方、検索部24は、検索文字列に次の文字がないと判定すると(ステップS19においてNO)、ステップS21に進む。
In step S18, the
ステップS20において、検索部24は、検索文字列と、検索対象文字列との注目文字位置を一つ(一文字分)進める。そして、検索部24は、ステップS12に戻る。
In step S20, the
一方、ステップS21において、検索部24は、類似関係テーブル適用カウンタが、閾値以上か否かを判定する。検索部24は、類似関係テーブル適用カウンタが、閾値以上であると判定すると(ステップS21においてYES)、ステップS22に進む。一方、検索部24は、類似関係テーブル適用カウンタが、閾値以上でないと判定すると(ステップS22においてNO)、図5に示す処理を終了する。
On the other hand, in step S21, the
ステップS22において、検索部24は、対象としている検索対象文字列を、検索文字列に類似する文字列として、つまり、検索にヒットした検索対象文字列として、検索結果集約部27に出力する。
In step S <b> 22, the
なお、ステップS15、ステップS17、ステップS21の判定においてNOと判定した場合、図5に示す処理を終了するよう説明を行ったが、そのまま処理を終了するのではなく、検索部24は、例えば、対象としている検索対象文字列は、検索文字列に類似する文字列ではなかった旨の検索結果等を、検索結果集約部27に出力するようにしてもよい。
In addition, when it determined with NO in determination of step S15, step S17, and step S21, it demonstrated so that the process shown in FIG. 5 might be complete | finished, but the
次に、より具体的に例を用いて、検索部24が行う比較処理を説明する。ここで、検索部24は、検索文字列"アイウエオ"と、検索対象文字列"アエユエオ"との比較を行うものとする。
Next, the comparison process performed by the
上述したように、ステップS10において、検索部24は、類似関係テーブル適用カウンタをリセットする(ゼロにする)。続いて、ステップS11において、検索部24は、検索文字列と、検索対象文字列との注目文字位置を先頭にする。ステップS12において、検索部24は、検索文字列と、検索対象文字列との注目文字位置を取り出す。つまり、まず、検索部24は、検索文字として、検索文字列の先頭文字である"ア"を取り出し、検索対象文字として、検索対象文字列の先頭文字である"ア"を取り出す。
As described above, in step S10, the
ステップS13において、検索部24は、ビット積演算を用いて、検索文字列と、検索対象文字列とを、類似関係テーブルを適用せずに比較する。そして、ステップS14において、検索部24は、一致するか否かを判定する。今、両者は共に"ア"で一致するため、検索部24は、ステップS19に進み、検索文字列に次の文字があるか否かを判定する。今の場合、次に文字があるので、検索部24は、ステップS20に進み、注目文字位置を一つ進め、ステップS12に進む。
In step S13, the
ステップS12において、検索部24は、検索文字として、検索文字列の二番目の文字である"イ"を取り出し、検索対象文字として、検索対象文字列の二番目の文字である"エ"を取り出す。ステップS13において、検索部24は、ビット積演算を用いて、検索文字列と、検索対象文字列とを、類似関係テーブルを適用せずに比較する。そして、ステップS14において、検索部24は、一致するか否かを上述したビットを用いた比較処理により判定する。今、検索文字は"イ"、検索対象文字は"エ"で一致しないため、検索部24は、ステップS15に進み、類似関係テーブルAの適用可能回数が、類似関係テーブル適用カウンタより大きいか否かを判定する。今の例では、類似関係テーブルAの適用可能回数は2、類似関係テーブル適用カウンタは0のため、検索部24は、ステップS16に進み、検索文字と、検索対象文字とを、類似関係テーブルAを適用して比較する。
In step S12, the
類似関係テーブルAを参照すると、"イ"と、"エ"とは類似関係にあるため、検索部24は、上述したビットを用いた比較処理により類似すると判定し、ステップS18に進み、類似関係テーブル適用カウンタを1つ増やして1とする。そして、検索部24は、ステップS19に進み、検索文字列に次の文字があるか否かを判定する。今の場合、次に文字があるので、検索部24は、ステップS20に進み、注目文字位置を一つ進め、ステップS12に進む。
Referring to the similarity relationship table A, since “i” and “d” are in a similar relationship, the
ステップS12において、検索部24は、検索文字として、検索文字列の三番目の文字である"ウ"を取り出し、検索対象文字として、検索対象文字列の三番目の文字である"ユ"を取り出す。ステップS13において、検索部24は、ビット積演算を用いて、検索文字列と、検索対象文字列とを、類似関係テーブルを適用せずに比較する。そして、ステップS14において、検索部24は、一致するか否かを判定する。今、検索文字は"ウ"、検索対象文字は"ユ"で一致しないため、検索部24は、ステップS15に進み、類似関係テーブルAの適用可能回数が、類似関係テーブル適用カウンタより大きいか否かを判定する。今の例では、類似関係テーブルAの適用可能回数は2、類似関係テーブル適用カウンタは1のため、検索部24は、ステップS16に進み、検索文字と、検索対象文字とを、類似関係テーブルAを適用して比較する。
In step S12, the
類似関係テーブルAを参照すると、"ウ"と、"ユ"とは類似関係にあるため、検索部24は、類似すると判定し、ステップS18に進み、類似関係テーブル適用カウンタを1つ増やして2とする。そして、検索部24は、ステップS19に進み、検索文字列に次の文字があるか否かを判定する。今の場合、次に文字があるので、検索部24は、ステップS20に進み、注目文字位置を一つ進め、ステップS12に進む。
Referring to the similarity relationship table A, since “U” and “Yu” are in a similar relationship, the
ステップS12において、検索部24は、検索文字として、検索文字列の四番目の文字である"エ"を取り出し、検索対象文字として、検索対象文字列の四番目の文字である"エ"を取り出す。
In step S12, the
ステップS13において、検索部24は、ビット積演算を用いて、検索文字列と、検索対象文字列とを、類似関係テーブルを適用せずに比較する。そして、ステップS14において、検索部24は、一致するか否かを判定する。今、両者は共に"エ"で一致するため、検索部24は、ステップS19に進み、検索文字列に次の文字があるか否かを判定する。今の場合、次に文字があるので、検索部24は、ステップS20に進み、注目文字位置を一つ進め、ステップS12に進む。
In step S13, the
ステップS12において、検索部24は、検索文字として、検索文字列の五番目の文字である"オ"を取り出し、検索対象文字として、検索対象文字列の五番目の文字である"オ"を取り出す。
In step S12, the
ステップS13において、検索部24は、ビット積演算を用いて、検索文字列と、検索対象文字列とを、類似関係テーブルを適用せずに比較する。そして、ステップS14において、検索部24は、一致するか否かを判定する。今、両者は共に"オ"で一致するため、検索部24は、ステップS19に進み、検索文字列に次の文字があるか否かを判定する。今の場合、次に文字がないので、検索部24は、ステップS21に進み、類似関係テーブル適用カウンタが、閾値以上か否かを判定する。
In step S13, the
今の場合、類似関係テーブル適用カウンタは2、閾値は1であるため、検索部24は、類似関係テーブル適用カウンタが、閾値以上であると判定し、ステップS22に進み、検索対象文字列"アエユエオ"を、検索文字列"アイウエオ"に類似する文字列として、つまり、検索にヒットした検索対象文字列として、検索結果集約部27に出力する。
In this case, since the similarity relationship table application counter is 2 and the threshold value is 1, the
他に、類似関係テーブルAの適用可能回数が、類似関係テーブル適用カウンタより大きくない場合、検索文字列全てに対して比較処理を行わずに済む。例えば、検索対象文字列が"アエユルレ"、他は上述と同じ条件の処理の場合を説明する。検索文字列の注目文字位置が3番目までは、上述と同じ処理である為省略する。検索文字列の注目文字が4番目に移動し、ステップS14において、検索部24は、一致するか否かを上述したビットを用いた比較処理により判定する。今、検索文字は"ウ"、検索対象文字は"ル"で一致しないため、検索部24は、ステップS15に進み、類似関係テーブルAの適用可能回数が、類似関係テーブル適用カウンタより大きいか否かを判定する。2番目と3番目の検索文字列において類似関係テーブルAを適用して比較しているため、類似関係テーブルAの適用可能回数は2、類似関係テーブル適用カウンタは2となっている。そのため、検索部24は、類似関係テーブルAの適用可能回数が、類似関係テーブル適用カウンタより大きくないと判定すると(ステップS15においてNO)、図5に示す処理を終了する。
つまり、残りの4番目と5番目の検索文字列を比較する処理(ステップ16、ステップ13)を実行しなくとも、検索対象文字列"アエユルレ"を、検索文字列"アイウエオ"に類似しない文字列として、判定することが可能となる。
In addition, when the applicable number of similar relationship table A is not larger than the similar relationship table application counter, it is not necessary to perform comparison processing for all the search character strings. For example, a case will be described in which the search target character string is “Ae Yule” and other conditions are the same as those described above. The processing up to the third character position of interest in the search character string is omitted because it is the same processing as described above. The attention character of the search character string moves to the fourth position, and in step S14, the
In other words, the character string that is not similar to the search character string “Aiweo” is selected as the search target character string “Aeulere” without executing the process of comparing the remaining fourth and fifth search character strings (
以上、上述したように本実施形態によれば、音の種類をビット列中の1となるビットの位置で表現し、ビット積演算を用いて比較を行うことによって、比較時間(又は検索時間)を短くすることができる。つまり、計算効率をよくすることができる。 As described above, according to the present embodiment as described above, the comparison time (or search time) is expressed by expressing the type of sound by the position of the bit that becomes 1 in the bit string and performing the comparison using the bit product operation. Can be shortened. That is, calculation efficiency can be improved.
また、上述したように本実施形態によれば、ルールに応じて、類似関係テーブルの適用可能回数及び閾値を設定し、この範囲内において比較を行うので、無駄な比較処理を行わなくてもよく、比較時間(又は検索時間)を短くすることができる。つまり、計算効率をよくすることができる。また、無駄な類似展開を行わなくてもよいため、メモリ効率をよくすることができる。また、オートマトンを用いる方法に比べて、ユーザがルールを設定し易く、また、ルールも理解し易いため、メンテナンス性がよい。 Further, as described above, according to the present embodiment, the applicable number of similar relationship tables and the threshold value are set according to the rule, and the comparison is performed within this range, so that unnecessary comparison processing may not be performed. The comparison time (or search time) can be shortened. That is, calculation efficiency can be improved. In addition, since it is not necessary to perform useless similar expansion, memory efficiency can be improved. Further, compared to the method using an automaton, the user can easily set rules and understand the rules, so that the maintenance is good.
また、説明の簡略化のため1つの検索対象文字列との比較を例に挙げたが、検索対象文字列保持部25に保持されている複数ある全ての検索対象文字列との比較であっても本願は対応可能あることは言うまでも無い。例えば、検索対象文字列保持部25において検索対象文字列をトライ構造で保持しているのであればバックトラッキングを利用し、また、一覧形式で保持しているのであれば図5に示す処理を繰返すことによって、検索対象文字列保持部25において保持されている全ての検索対象文字列との比較を行い、その結果を検索結果集約部27に出力可能である。
Further, for the sake of simplification of explanation, the comparison with one search target character string is given as an example. However, the comparison with all the plurality of search target character strings held in the search target character
<実施形態2>
図6は、情報処理装置1の一例の機能構成図(その2)である。図6に示されるように、情報処理装置1は、機能構成として、検索文字列取得部21と、設定部22と、ルール保持部23と、検索部24と、検索対象文字列保持部25と、類似関係テーブル保持部26と、検索結果集約部27と、ルール操作部28とを含む。
<
FIG. 6 is a functional configuration diagram (part 2) of an example of the
ルール操作部28以外の他の機能構成は、実施形態1と同様であるため、本実施形態では説明を省略する。
ルール操作部28は、入力装置11、表示装置12等を用いたユーザ操作に応じて、ルール保持部23に保持されているルールや、ルールに対応する類似関係テーブルの適用可能回数及び閾値等を、変更したり、新たなルールや、ルールに対応する類似関係テーブルの適用可能回数及び閾値等をルール保持部23に設定したりする。
Since the functional configuration other than the
The
例えば、実施形態1では、ルールとして、「1音乃至2音が類似関係テーブルAの関係にある」を例に説明を行ったが、例えば、このルールを「0音乃至2音が類似関係テーブルAの関係にある」に変更したい場合、ルール操作部28は、入力装置11、表示装置12等を用いたユーザ操作に応じて、ルール保持部23に保持されているファイルに記述されている「1音乃至2音が類似関係テーブルAの関係にある」を「0音乃至2音が類似関係テーブルAの関係にある」に変更する。また、ルール操作部28は、前記ルールに対応して、ルール保持部23に保持されている図3に示されるような類似関係テーブルの適用可能回数及び閾値の閾値を1から0に変更する。このように変更することで、検索文字列と完全一致する検索対象文字列についても、検索文字列に類似する文字列として、つまり、検索にヒットした検索対象文字列として、検索結果集約部27に出力する仕様へと変更できる。
For example, in the first embodiment, as an example, the rule “1 to 2 sounds are in the relationship of the similarity relationship table A” has been described as an example. When it is desired to change to “A relationship”, the
以上、上述したように本実施形態によれば、ユーザは、ルールや、ルールに対応する類似関係テーブルの適用可能回数及び閾値等をより容易に設定、変更することができる。つまり、メンテナンス性をよくすることができる。 As described above, according to the present embodiment, as described above, the user can more easily set and change the applicable number of rules and the similarity table corresponding to the rule, the threshold value, and the like. That is, maintainability can be improved.
<その他の実施形態>
上述した実施形態1では、ルールとして、「1音乃至2音が類似関係テーブルAの関係にある」を例に説明を行った。しかしながら、ルールが例えば、「1音乃至2音が類似関係テーブルA、又は類似関係テーブルB、又は類似関係テーブルCの関係にある」等の場合もある。このような場合、検索部24は、図5のステップS16において、検索文字と、検索対象文字とが類似しているか否かを、類似関係テーブルA、類似関係テーブルB、類似関係テーブルCを適用して比較する。この際、各テーブルに優先順位が付加されている場合は、検索部24は、その優先順位に応じて、類似関係テーブルを用いて比較を行う。
<Other embodiments>
In the first embodiment described above, the description has been given by taking “one sound or two sounds are in the relationship of the similarity relationship table A” as an example of the rule. However, the rule may be, for example, “one or two sounds are in the relationship of the similarity relationship table A, the similarity relationship table B, or the similarity relationship table C”. In such a case, the
なお、このような場合、類似関係テーブルの適用可能回数は、各テーブルに対して設定されていてもよいし、全てのテーブルに対して一つの値が設定されていてもよい。閾値も同様に、各テーブルに対して設定されていてもよいし、全てのテーブルに対して一つの値が設定されていてもよい。 In such a case, the applicable number of similar relationship tables may be set for each table, or one value may be set for all tables. Similarly, the threshold value may be set for each table, or one value may be set for all tables.
上述した実施形態では、図5のステップS22において、検索部24は、対象としている検索対象文字列を、検索文字列に類似する文字列として、つまり、検索にヒットした検索対象文字列として、検索結果集約部27に出力するよう説明を行った。
In the above-described embodiment, in step S22 of FIG. 5, the
しかしながら、検索部24は、図5のステップS22において、類似関係テーブル適用カウンタと共に、検索対象文字列を検索結果集約部27に出力するようにしてもよい。このようにすることによって、検索結果集約部27は、類似関係テーブル適用カウンタに応じて重み付けを行い、この重み付けに応じて、検索結果を出力することができる。
However, the
例えば、類似関係テーブル適用カウンタが1の検索対象文字列は、類似関係テーブル適用カウンタが2の検索対象文字列に比べて、検索文字列に対してより類似していると言える。したがって、検索結果集約部27は、類似関係テーブル適用カウンタが2の検索対象文字列より、類似関係テーブル適用カウンタが1の検索対象文字列に対して重み付けを行い、例えば、重み付けが高い(より類似している)検索対象文字列から順に、検索結果として出力するようにしてもよい。
For example, it can be said that a search target character string having a similarity relationship table application counter of 1 is more similar to a search character string than a search target character string having a similarity relationship table application counter of 2. Therefore, the search
このようにすることによって、ユーザは、例えば、検索文字列により類似した検索対象文字列の順に、検索対象文字列を得ることができる。 By doing so, the user can obtain the search target character strings in the order of search target character strings that are more similar to the search character string, for example.
また、上述した実施形態では、検索文字列に対して類似関係テーブルの適用可能回数を設定する例を説明したが、図7或いは図8に示す通り、検索文字列を構成する各文字(一文字)に対して類似関係テーブルの適用可能回数を設定するようにしてもよいし、検索文字列を構成する各文字の集合(つまり、二文字、三文字、・・・)に対して類似関係テーブルの適用可能回数を設定するようにしてもよい。但し、検索文字列を構成する各文字の集合に対して類似関係テーブルの適用可能回数を設定する場合、検索文字列と、検索対象文字列との比較は、一文字ずつではなく、各文字の集合(つまり、二文字、三文字、・・・)ずつである。 In the above-described embodiment, an example in which the number of times that the similarity table can be applied is set for the search character string has been described. However, as shown in FIG. 7 or FIG. 8, each character (one character) constituting the search character string. May be set to the number of times the similarity table can be applied, or the similarity table may be set for each character set (that is, two characters, three characters,...) Constituting the search character string. The applicable number of times may be set. However, when setting the number of times that the similarity table can be applied to each character set constituting the search character string, the comparison between the search character string and the search target character string is not a single character but a set of each character. (That is, two letters, three letters, ...).
また、上述した実施形態では、適用文字1文字に対応する類似文字は1文字であったが、図9に示す通り、適用文字1文字に対応する類似文字が複数文字から成る文字列であってもよい。 In the above-described embodiment, one similar character corresponding to one applicable character is one character. However, as shown in FIG. 9, the similar character corresponding to one applicable character is a character string composed of a plurality of characters. Also good.
また、上述した実施形態では、テーブル(類似関係テーブル)を用いて文字(又は文字の音)同士の類似関係を示す例を用いて説明を行ったが、本発明の実施はテーブルに限定されるものではなく、例えば、ファイル(類似関係が記述されたファイル)等であってもよい。 Further, in the above-described embodiment, description has been made using an example in which a table (similarity relationship table) is used to indicate a similarity relationship between characters (or sound of characters), but the implementation of the present invention is limited to the table. For example, it may be a file (a file in which a similar relationship is described) or the like.
また、上述した実施形態では、検索文字列と、検索対象文字列とを、互いの文字列の先頭から比較していく例を用いて説明を行ったが、本発明の実施は文字列の先頭からに限定されるものではなく、例えば、互いの文字列の末尾や特定の任意の場所から比較してもよい。 In the above-described embodiment, the search character string and the search target character string have been described using an example in which the character strings are compared from the top of each other. For example, the comparison may be performed from the end of each character string or from a specific arbitrary place.
また、上述した実施形態では、検索文字列取得部21は、例えば、検索画面等においてユーザが入力した検索したい文字列を検索文字列として取得するよう説明を行ったが、本発明の実施はこのことに限定されるものではない。検索文字列取得部21は、例えば、OCR(Optical Character Reader)等で読み取った文字列を検索対象として取得するようにしてもよい。この場合、例えば、情報処理装置1は画像形成装置等に対応し、自身で文字列を読み取ってもよいし、文字列を読み取った画像形成装置より、文字列を取得してもよい。なお、OCRは、例えば、下線が付されている文字列等を検索文字列として読み取る。
In the above-described embodiment, the search character
また、上述した実施形態1では、ルールとして、「1音乃至2音が類似関係テーブルAの関係にある」を例に説明を行ったため、検索が類似検索となったが、本発明の実施は類似検索に限定されるものではなく、あるルールに従う記号間の配列を検索するようにしてもよい。例えば、DNA配列の一部"A(アデニン)G(グアニン)C(シトシン)T(チミン)"のうち先頭と先頭から2番目のアミノ酸配列が同じであれば、同じ特性を持つとする。この条件で同じ特性を持つDNAを検索したい場合、図10に示す適用関係テーブル、適用可能回数及び閾値を設定して上述した実施形態と同様に処理すれば、"AGGT"、"AGCA"、"AGTT"等、同じ特性を持ったDNA配列を検索することが可能になる。なお、ここでいう適用関係テーブルとは、実施形態1における類似関係テーブル(図4)と同等の役割を持つテーブルである。 In the above-described first embodiment, the rule is explained as an example of “one sound or two sounds are in the relationship of the similarity relationship table A”, so that the search is a similarity search. It is not limited to the similarity search, but an arrangement between symbols according to a certain rule may be searched. For example, if the first and second amino acid sequences from the beginning of a part of the DNA sequence “A (adenine) G (guanine) C (cytosine) T (thymine)” are the same, they have the same characteristics. If it is desired to search for DNA having the same characteristics under these conditions, the application relation table shown in FIG. 10, the applicable number of times, and the threshold value are set and processed in the same manner as in the above-described embodiment, so that “AGGT”, “AGCA”, “ It becomes possible to search for DNA sequences having the same characteristics such as “AGTT”. The application relationship table here is a table having the same role as the similarity relationship table (FIG. 4) in the first embodiment.
また、上述した実施形態では、検索対象文字列は検索文字列の一部或いは全部を置き換えた文字列によって構成されていたが、本発明の実施はこれに限定されるものではなく、検索文字列の任意の位置に、任意の数の空白や文字、記号等が挿入された構成にある検索対象文字列であってもよい。 In the embodiment described above, the search target character string is configured by a character string in which a part or all of the search character string is replaced. However, the embodiment of the present invention is not limited to this, and the search character string is not limited to this. The search target character string may be configured such that an arbitrary number of blanks, characters, symbols, and the like are inserted at arbitrary positions.
また、上述した実施形態では、文字列や記号を例に類似検索の説明を行ったが、本発明の実施はこれらに限定されるものではなく、音声や画像等あらゆるデータ列間の検索等であってもよい。 Further, in the above-described embodiment, the description of the similarity search has been made by taking the character string and the symbol as an example. However, the implementation of the present invention is not limited to these, and the search is performed between all data strings such as voice and images. There may be.
以上、上述した各実施形態によれば、計算効率及びメモリ効率と共に、システムの保守性がよい検索装置、検索方法及びプログラムを提供することができる。
なお、上述した各実施形態を任意に組み合わせて実施してもよい。
As described above, according to each of the above-described embodiments, it is possible to provide a search device, a search method, and a program with good system maintainability as well as calculation efficiency and memory efficiency.
In addition, you may implement combining each embodiment mentioned above arbitrarily.
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 The preferred embodiments of the present invention have been described in detail above, but the present invention is not limited to such specific embodiments, and various modifications can be made within the scope of the gist of the present invention described in the claims.・ Change is possible.
1 情報処理装置
11 入力装置
12 表示装置
13 記録媒体ドライブ装置
14 記録媒体
15 ROM
16 RAM
17 CPU
18 インターフェース装置
19 HD
21 検索文字列取得部
22 設定部
23 ルール保持部
24 検索部
25 検索対象文字列保持部
26 類似関係テーブル保持部
27 検索結果集約部
28 ルール操作部
DESCRIPTION OF
16 RAM
17 CPU
18
21 Search character
Claims (9)
検索データ列を取得する検索データ列取得手段と、
前記検索データ列取得手段において取得された検索データ列に対して、前記検索データ列と前記検索対象データ列とが類似の関係にあるか否かの類似関係を定義したオブジェクトを用いる回数の範囲を、予め定められたルールに応じて設定する設定手段と、
検索処理として、前記設定手段において設定された回数の範囲内で、前記検索データ列取得手段において取得された検索データ列と、前記検索対象データ列保持手段において保持されている検索対象データ列と、が前記オブジェクトに定義された類似関係にあるか否かの比較を行う検索手段と、
を有し、
前記検索手段は、前記設定手段において設定された回数の範囲内で、前記オブジェクトを用いて、前記検索データ列を構成する単位データと、前記検索対象データ列を構成する単位データと、の比較を、単位データ毎に行い、一致しない単位データが存在すると、前記設定手段において設定された回数の範囲内で、前記オブジェクトを用いて、前記一致しない単位データ同士が、前記オブジェクトに定義された類似関係にあるか否かの比較を行うことを特徴とする検索装置。 Search target data string holding means for storing the search target data string;
A search data string acquisition means for acquiring a search data string;
A range of the number of times of using an object that defines a similar relationship as to whether or not the search data sequence and the search target data sequence are similar to the search data sequence acquired by the search data sequence acquisition means Setting means for setting according to a predetermined rule;
As search processing, within the range of the number of times set in the setting means, the search data string acquired in the search data string acquisition means, the search target data string held in the search target data string holding means, Search means for performing a comparison as to whether or not there is a similarity relationship defined for the object;
I have a,
The search means uses the object to compare the unit data constituting the search data string and the unit data constituting the search target data string within the range of the number of times set by the setting means. If there is unit data that does not match when the unit data does not match, the unit data that does not match each other within the range of the number of times set by the setting unit is defined in the object. A search device characterized in that a comparison is made as to whether or not there is any .
検索データ列を取得する検索データ列取得手段と、
前記検索データ列取得手段において取得された検索データ列に対して、前記検索データ列と前記検索対象データ列とが類似の関係にあるか否かの類似関係を定義したオブジェクトを用いる回数の範囲を、予め定められたルールに応じて設定する設定手段と、
検索処理として、前記設定手段において設定された回数の範囲内で、前記検索データ列取得手段において取得された検索データ列と、前記検索対象データ列保持手段において保持されている検索対象データ列と、が前記オブジェクトに定義された類似関係にあるか否かの比較を行う検索手段と、
を有し、
前記設定手段は、単位データと、検索結果として出力すべき前記検索データ列に適用できる前記検索対象データに係る、類似単位データと、の関係を保持するテーブルをオブジェクトとして、前記検索データ列取得手段において取得された検索データ列に対して、前記オブジェクトを用いる回数の範囲を、予め定められたルールに応じて設定し、
前記検索手段は、前記設定手段において設定された回数の範囲内で、前記オブジェクトを用いて、前記検索データ列を構成する単位データと、前記検索対象データ列を構成する単位データと、の比較を、単位データ毎に行い、一致しない単位データが存在すると、前記設定手段において設定された回数の範囲内で、前記オブジェクトを用いて、前記一致しない単位データ同士が、前記オブジェクトに定義された類似関係にあるか否かの比較を行うことを特徴とする検索装置。 Search target data string holding means for storing the search target data string;
A search data string acquisition means for acquiring a search data string;
A range of the number of times of using an object that defines a similar relationship as to whether or not the search data sequence and the search target data sequence are similar to the search data sequence acquired by the search data sequence acquisition means Setting means for setting according to a predetermined rule;
As search processing, within the range of the number of times set in the setting means, the search data string acquired in the search data string acquisition means, the search target data string held in the search target data string holding means, Search means for performing a comparison as to whether or not there is a similarity relationship defined for the object;
Have
The setting means uses the table that holds the relationship between unit data and similar unit data related to the search target data that can be applied to the search data string to be output as a search result as an object, and the search data string acquisition means For the search data string acquired in step 1, the range of the number of times the object is used is set according to a predetermined rule,
The search means uses the object to compare the unit data constituting the search data string and the unit data constituting the search target data string within the range of the number of times set by the setting means. If there is unit data that does not match when the unit data does not match, the unit data that does not match each other within the range of the number of times set by the setting unit is defined in the object. A search device characterized in that a comparison is made as to whether or not there is any .
検索データ列を取得する検索データ列取得手段と、
前記検索データ列取得手段において取得された検索データ列に対して、前記検索データ列と前記検索対象データ列とが類似の関係にあるか否かの類似関係を定義したオブジェクトを用いる回数の範囲を、予め定められたルールに応じて設定する設定手段と、
検索処理として、前記設定手段において設定された回数の範囲内で、前記検索データ列取得手段において取得された検索データ列と、前記検索対象データ列保持手段において保持されている検索対象データ列と、が前記オブジェクトに定義された類似関係にあるか否かの比較を行う検索手段と、
を有し、
前記検索手段は、前記オブジェクトを用いて、前記検索データ列を構成する単位データと、前記検索対象データ列を構成する単位データと、の比較を行った回数をカウントし、カウントした回数に応じて、前記検索データ列と、前記検索対象データ列との適用度に係る重み付けを行い、前記重み付けに応じて、前記検索データ列に適用する前記検索対象データ列を出力することを特徴とする検索装置。 Search target data string holding means for storing the search target data string;
A search data string acquisition means for acquiring a search data string;
A range of the number of times of using an object that defines a similar relationship as to whether or not the search data sequence and the search target data sequence are similar to the search data sequence acquired by the search data sequence acquisition means Setting means for setting according to a predetermined rule;
As search processing, within the range of the number of times set in the setting means, the search data string acquired in the search data string acquisition means, the search target data string held in the search target data string holding means, Search means for performing a comparison as to whether or not there is a similarity relationship defined for the object;
Have
The search means uses the object to count the number of comparisons between the unit data constituting the search data string and the unit data constituting the search target data string, and according to the counted number A search device that performs weighting according to the degree of application of the search data string and the search target data string, and outputs the search target data string to be applied to the search data string in accordance with the weighting .
前記検索手段は、検索処理として、前記設定手段において設定された回数の範囲内で、優先順位に応じて、前記複数の内の一のオブジェクトを用いて、前記検索データ列取得手段において取得された検索データ列と、前記検索対象データ列保持手段において保持されている検索対象データ列と、の比較を行うことを特徴とする請求項1乃至4の何れか1項に記載の検索装置。 A plurality of the objects,
The search means is acquired by the search data string acquisition means as a search process using one of the plurality of objects in accordance with the priority order within the range of the number of times set by the setting means. 5. The search device according to claim 1 , wherein the search data string is compared with the search object data string held in the search object data string holding unit .
検索データ列を取得する検索データ列取得段階と、A search data string acquisition stage for acquiring a search data string;
前記検索データ列取得段階において取得された検索データ列に対して、前記検索データ列と前記検索対象データ列とが類似の関係にあるか否かの類似関係を定義したオブジェクトを用いる回数の範囲を、予め定められたルールに応じて設定する設定段階と、For the search data string acquired in the search data string acquisition step, a range of the number of times to use an object that defines a similar relationship as to whether the search data string and the search target data string are similar A setting stage for setting according to a predetermined rule;
検索処理として、前記設定段階において設定された回数の範囲内で、前記検索データ列取得段階において取得された検索データ列と、前記検索対象データ列保持段階において保持されている検索対象データ列と、が前記オブジェクトに定義された類似関係にあるか否かの比較を行う検索段階と、As a search process, within the range of the number of times set in the setting stage, the search data string acquired in the search data string acquisition stage, the search target data string held in the search target data string holding stage, A search stage for comparing whether or not there is a similarity relationship defined for the object;
を含み、Including
前記検索段階では、前記設定段階において設定された回数の範囲内で、前記オブジェクトを用いて、前記検索データ列を構成する単位データと、前記検索対象データ列を構成する単位データと、の比較を、単位データ毎に行い、一致しない単位データが存在すると、前記設定段階において設定された回数の範囲内で、前記オブジェクトを用いて、前記一致しない単位データ同士が、前記オブジェクトに定義された類似関係にあるか否かの比較を行うことを特徴とする検索方法。In the search stage, within the range of the number of times set in the setting stage, using the object, the unit data constituting the search data string and the unit data constituting the search target data string are compared. If there is unmatched unit data for each unit data, the unmatched unit data is defined in the object using the object within the range of the number of times set in the setting step. A search method characterized in that a comparison is made as to whether or not there is any.
検索データ列を取得する検索データ列取得段階と、A search data string acquisition stage for acquiring a search data string;
前記検索データ列取得段階において取得された検索データ列に対して、前記検索データ列と前記検索対象データ列とが類似の関係にあるか否かの類似関係を定義したオブジェクトを用いる回数の範囲を、予め定められたルールに応じて設定する設定段階と、For the search data string acquired in the search data string acquisition step, a range of the number of times to use an object that defines a similar relationship as to whether the search data string and the search target data string are similar A setting stage for setting according to a predetermined rule;
検索処理として、前記設定段階において設定された回数の範囲内で、前記検索データ列取得段階において取得された検索データ列と、前記検索対象データ列保持段階において保持されている検索対象データ列と、が前記オブジェクトに定義された類似関係にあるか否かの比較を行う検索段階と、As a search process, within the range of the number of times set in the setting stage, the search data string acquired in the search data string acquisition stage, the search target data string held in the search target data string holding stage, A search stage for comparing whether or not there is a similarity relationship defined for the object;
を含み、Including
前記設定段階では、単位データと、検索結果として出力すべき前記検索データ列に適用できる前記検索対象データに係る、類似単位データと、の関係を保持するテーブルをオブジェクトとして、前記検索データ列取得段階において取得された検索データ列に対して、前記オブジェクトを用いる回数の範囲を、予め定められたルールに応じて設定し、In the setting step, the search data string acquisition step is performed using, as an object, a table holding a relationship between the unit data and the similar unit data related to the search target data applicable to the search data string to be output as a search result. For the search data string acquired in step 1, the range of the number of times the object is used is set according to a predetermined rule,
前記検索段階では、前記設定段階において設定された回数の範囲内で、前記オブジェクトを用いて、前記検索データ列を構成する単位データと、前記検索対象データ列を構成する単位データと、の比較を、単位データ毎に行い、一致しない単位データが存在すると、前記設定段階において設定された回数の範囲内で、前記オブジェクトを用いて、前記一致しない単位データ同士が、前記オブジェクトに定義された類似関係にあるか否かの比較を行うことを特徴とする検索方法。In the search stage, within the range of the number of times set in the setting stage, using the object, the unit data constituting the search data string and the unit data constituting the search target data string are compared. If there is unmatched unit data for each unit data, the unmatched unit data is defined in the object using the object within the range of the number of times set in the setting step. A search method characterized in that a comparison is made as to whether or not there is any.
検索データ列を取得する検索データ列取得段階と、A search data string acquisition stage for acquiring a search data string;
前記検索データ列取得段階において取得された検索データ列に対して、前記検索データ列と前記検索対象データ列とが類似の関係にあるか否かの類似関係を定義したオブジェクトを用いる回数の範囲を、予め定められたルールに応じて設定する設定段階と、For the search data string acquired in the search data string acquisition step, a range of the number of times to use an object that defines a similar relationship as to whether the search data string and the search target data string are similar A setting stage for setting according to a predetermined rule;
検索処理として、前記設定段階において設定された回数の範囲内で、前記検索データ列取得段階において取得された検索データ列と、前記検索対象データ列保持段階において保持されている検索対象データ列と、が前記オブジェクトに定義された類似関係にあるか否かの比較を行う検索段階と、As a search process, within the range of the number of times set in the setting stage, the search data string acquired in the search data string acquisition stage, the search target data string held in the search target data string holding stage, A search stage for comparing whether or not there is a similarity relationship defined for the object;
を含み、Including
前記検索段階では、前記オブジェクトを用いて、前記検索データ列を構成する単位データと、前記検索対象データ列を構成する単位データと、の比較を行った回数をカウントし、カウントした回数に応じて、前記検索データ列と、前記検索対象データ列との適用度に係る重み付けを行い、前記重み付けに応じて、前記検索データ列に適用する前記検索対象データ列を出力することを特徴とする検索方法。In the search step, the object is used to count the number of comparisons between the unit data constituting the search data string and the unit data constituting the search target data string, and according to the counted number A search method characterized by weighting the degree of applicability between the search data string and the search object data string, and outputting the search object data string to be applied to the search data string according to the weighting .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006283227A JP5190192B2 (en) | 2006-10-18 | 2006-10-18 | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006283227A JP5190192B2 (en) | 2006-10-18 | 2006-10-18 | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008102641A JP2008102641A (en) | 2008-05-01 |
JP5190192B2 true JP5190192B2 (en) | 2013-04-24 |
Family
ID=39436939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006283227A Active JP5190192B2 (en) | 2006-10-18 | 2006-10-18 | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5190192B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102307968B (en) | 2009-02-09 | 2015-05-27 | Jnc株式会社 | Liquid-crystal composition and liquid-crystal display device |
TWI535829B (en) | 2009-05-29 | 2016-06-01 | Jnc Corp | Liquid crystal composition and liquid crystal display element |
CN107102998A (en) | 2016-02-22 | 2017-08-29 | 阿里巴巴集团控股有限公司 | A kind of String distance computational methods and device |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6027938A (en) * | 1983-07-26 | 1985-02-13 | Fujitsu Ltd | Character string comparing device |
JPH07152774A (en) * | 1993-11-30 | 1995-06-16 | Hitachi Ltd | Document retrieval method and device |
JP3531222B2 (en) * | 1994-08-29 | 2004-05-24 | 富士通株式会社 | Similar character string search device |
JPH08180064A (en) * | 1994-12-22 | 1996-07-12 | Canon Inc | Document retrieval method and document filing device |
JP3275816B2 (en) * | 1998-01-14 | 2002-04-22 | 日本電気株式会社 | Symbol string search method, symbol string search device, and recording medium recording symbol string search program |
JP2004054538A (en) * | 2002-07-19 | 2004-02-19 | Nec Corp | Kanji character code conversion system and method |
JP2005257954A (en) * | 2004-03-10 | 2005-09-22 | Nec Corp | Speech retrieval apparatus, speech retrieval method, and speech retrieval program |
-
2006
- 2006-10-18 JP JP2006283227A patent/JP5190192B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008102641A (en) | 2008-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6638480B2 (en) | Similar document search program, similar document search device, and similar document search method | |
CN107403075B (en) | Comparison method, device and system | |
CN110750704B (en) | Method and device for automatically completing query | |
JP6007784B2 (en) | Document classification apparatus and program | |
US8738674B2 (en) | Information processing apparatus, information processing method and program | |
US10394763B2 (en) | Method and device for generating pileup file from compressed genomic data | |
JP5190192B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM | |
KR20240128047A (en) | Video production method and device, electronic device and readable storage medium | |
JP6072922B2 (en) | Character string search device, character string search method, and character string search program | |
JP6722565B2 (en) | Similar document extracting device, similar document extracting method, and similar document extracting program | |
JP5439235B2 (en) | Document classification method, document classification device, and program | |
JP2007199966A (en) | Document classification device, document classification method, and document classification program | |
JP2008070921A (en) | Document retrieval device and document retrieval program | |
EP3663890A1 (en) | Alignment method, device and system | |
JP2009211277A (en) | Document data sorting device, document data sorting method, its program, and recording medium | |
JP2010097239A (en) | Dictionary creation device, dictionary creation method, and dictionary creation program | |
JP2019148859A (en) | Device and method supporting discovery of design pattern in model development environment using flow diagram | |
JP4936455B2 (en) | Document classification apparatus, document classification method, program, and recording medium | |
JP6577922B2 (en) | Search apparatus, method, and program | |
JP2008243074A (en) | Device, method, and program for retrieving document | |
JP2014135045A (en) | Document classification device, document classification method, and program | |
JP2014229110A (en) | Retrieval device, retrieval method and retrieval program | |
JP2019125025A (en) | System, method for managing document data, and program | |
JP5127911B2 (en) | Data clustering apparatus and method | |
WO2023058417A1 (en) | Content processing method and content processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091009 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120406 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121009 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121207 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20121218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130128 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160201 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5190192 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |