JP2010128660A - Text retrieval program, text retrieving device, and text browsing method - Google Patents
Text retrieval program, text retrieving device, and text browsing method Download PDFInfo
- Publication number
- JP2010128660A JP2010128660A JP2008300850A JP2008300850A JP2010128660A JP 2010128660 A JP2010128660 A JP 2010128660A JP 2008300850 A JP2008300850 A JP 2008300850A JP 2008300850 A JP2008300850 A JP 2008300850A JP 2010128660 A JP2010128660 A JP 2010128660A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- search
- text
- appearances
- function unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明はテキスト検索プログラム、テキスト検索装置及びテキスト検索方法に係り、特に第一の文字列を含むという検索条件と第二の文字列を含まないという否定条件とを組み合わせたテキスト検索を行うテキスト検索プログラム、テキスト検索装置及びテキスト検索方法に関する。 The present invention relates to a text search program, a text search device, and a text search method, and in particular, performs a text search that combines a search condition that includes a first character string and a negative condition that does not include a second character string. The present invention relates to a program, a text search device, and a text search method.
従来、全文テキスト検索(N−gram方式の索引による全文テキスト検索や全テキストベタ読み検索:例えば特許文献1参照)には、余分にヒットするもの(以下、検索ノイズという)を排除するため、特定の文字列を含むという条件(検索条件)と、特定の文字列を含まないという条件(NOT条件又は否定条件)とを組み合わせるNOT検索方法があった。
従来のNOT検索方法は、全文テキスト検索において、通常の検索条件の文字列(条件語A)が、否定条件の文字列(条件語B)に含まれている場合、意図した通りの検索集合を得られないという問題が発生する。 In the conventional NOT search method, in a full-text search, when a character string of a normal search condition (condition word A) is included in a character string of a negative condition (condition word B), a search set as intended is obtained. The problem that it cannot be obtained occurs.
例えば従来のNOT検索方法では、文献検索において「ログ」を含む文献を検索したいが「プログラム」でヒットする文献を検索ノイズとして排除したい、ただし、「ログ検索プログラム」のように「ログ」及び「プログラム」の両方を含む文献をヒットさせたいという場合、意図した通りの検索集合を得られなかった。 For example, in the conventional NOT search method, it is desired to search for documents including “log” in the document search, but to exclude documents hit by “program” as search noise. However, “log” and “ When we wanted to hit a document containing both of the program, we couldn't get the search set we intended.
例えば「プログラム」の文字列には「ログ」の文字列が含まれている。従って、従来のNOT検索方法においては、否定条件の文字列「プログラム」に、通常の検索条件の文字列「ログ」が含まれるため、意図した通りの検索集合を得ることができない。 For example, the character string “program” includes the character string “log”. Therefore, in the conventional NOT search method, since the character string “log” of the normal search condition is included in the character string “program” of the negative condition, a search set as intended cannot be obtained.
従来のNOT検索方法では、検索条件の文字列「ログ」を含む文献を検索し、「ログ」を含む文献から否定条件の文字列「プログラム」を含む文献を排除するという手順で処理を行う。 In the conventional NOT search method, a document including the character string “log” of the search condition is searched, and the document including the character string “program” of the negative condition is excluded from the document including “log”.
したがって、従来のNOT検索方法では否定条件の文字列「プログラム」の文字列に含まれていない検索条件の文字列「ログ」と、否定条件の文字列「プログラム」とを両方含む文献まで削除されてしまい、ヒットさせたい文献まで検索集合(検索結果)から除かれてしまうという問題があった。 Therefore, in the conventional NOT search method, documents including both the search condition character string “log” and the negative condition character string “program” which are not included in the negative condition character string “program” are deleted. As a result, there is a problem that even a document to be hit is excluded from the search set (search result).
つまり、従来のNOT検索方法では『文字列「ログ」を含む文献を検索したいが、文字列「プログラム」でヒットする文献を検索ノイズとして排除したい。ただし、「ログ検索プログラム」のように「ログ」と「プログラム」とを両方含む文献はヒットさせたい。』というような文献検索を、どのような検索条件及び否定条件を与えても実現できないという問題あった。 In other words, in the conventional NOT search method, “I want to search for documents including the character string“ log ”, but I want to exclude documents hit by the character string“ program ”as search noise. However, we want to hit documents that contain both “log” and “program” such as “log search program”. There is a problem that a document search such as "cannot be realized no matter what search conditions and negative conditions are given."
一方、NOT検索方法では形態素解析による単語区切り(例えば特許文献1参照)を利用することにより、検索ノイズを排除することもできる。例えば単語「携帯電話」は「携帯」と「電話」とに区切られるため、検索条件の文字列「帯電」で検索しても、ヒットしない。 On the other hand, in the NOT search method, search noise can be eliminated by using word breaks (for example, see Patent Document 1) based on morphological analysis. For example, since the word “mobile phone” is divided into “mobile phone” and “phone”, a search with the character string “charging” in the search condition does not hit.
しかし、形態素解析による単語区切りを利用するNOT検索方法は、以下の2つの問題があった。第一の問題として、形態素解析は検索漏れが発生する。形態素解析は辞書に登録された単語単位でしかインデックスを作成しないため、インデックスに無い語句について検索漏れを起こす。例えば検索条件の文字列「帯電」で単語「携帯電話」をヒットさせたい場合であっても、形態素解析による単語区切りを利用するNOT検索方法は検索条件の文字列「帯電」で単語「携帯電話」をヒットさせることができない。 However, the NOT search method using word breaks by morphological analysis has the following two problems. As a first problem, morphological analysis causes a search omission. Since morphological analysis creates an index only for each word registered in the dictionary, it causes a search omission for a phrase that is not in the index. For example, even if it is desired to hit the word “mobile phone” with the character string “charge” of the search condition, the NOT search method using the word break by morphological analysis is the word “mobile phone” with the character string “charge” of the search condition. Cannot be hit.
第二の問題として、形態素解析による単語区切りを利用するNOT検索方法は、上記したように、ヒットさせたい文献まで検索集合から除かれてしまうことがある。例えば形態素解析による単語区切りを利用するNOT検索方法において『文字列「ログ」を含む文献を検索したいが、文字列「アクセスログ」でヒットする文献を、検索ノイズとして排除したい。ただし、その他の「ログ(イベントログ等)」はヒットさせたい。』という場合は以下のようになる。 As a second problem, as described above, the NOT search method that uses word breaks by morphological analysis sometimes excludes documents to be hit from the search set. For example, in a NOT search method using word breaks by morphological analysis, “I want to search for documents including the character string“ log ”, but I want to exclude documents that hit the character string“ access log ”as search noise. However, I want to hit other “logs (event log etc.)”. The case is as follows.
形態素解析による単語区切りを利用するNOT検索方法では文字列「アクセスログ」の単語区切りが「アクセス/ログ」となるため、文字列「ログ」で検索すれば文字列「アクセスログ」がヒットする。検索集合から文字列「アクセスログ」を含む文献を削除した場合は、例えば文字列「イベントログ」と「アクセスログ」とを両方含む文献も排除されてしまうという問題があった。 In the NOT search method using word breaks based on morphological analysis, the word break of the character string “access log” is “access / log”. Therefore, if the character string “log” is searched, the character string “access log” is hit. When a document including the character string “access log” is deleted from the search set, for example, a document including both the character strings “event log” and “access log” is also excluded.
本発明の一実施形態は、上記の点に鑑みなされたもので、第一の文字列を含むという検索条件と、第二の文字列を含まないという否定条件とを組み合わせたテキスト検索において意図した通りの検索集合を得ることが可能なテキスト検索プログラム、テキスト検索装置及びテキスト検索方法を提供することを目的とする。 One embodiment of the present invention has been made in view of the above points, and is intended for a text search that combines a search condition that includes a first character string and a negative condition that does not include a second character string. An object of the present invention is to provide a text search program, a text search apparatus, and a text search method capable of obtaining a street search set.
上記の課題を解決するため、本発明の一実施形態は、第一の文字列を含むという検索条件と、第二の文字列を含まないという否定条件とを組み合わせたテキスト検索を行うコンピュータを、前記第二の文字列が前記第一の文字列を含む文字列であるとき、前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数をそれぞれカウントする出現回数カウント機能部と、前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数を比較し、前記第一の文字列及び前記第二の文字列の出現回数が同一であるとき前記検索対象のテキストをヒット対象外と判定し、前記第一の文字列の出現回数が前記第二の文字列の出現回数よりも多いとき前記検索対象のテキストをヒット対象と判定する出現回数比較・判定機能部として機能させる為のテキスト検索プログラムである。 In order to solve the above problem, an embodiment of the present invention provides a computer that performs a text search that combines a search condition that includes a first character string and a negative condition that does not include a second character string. When the second character string is a character string including the first character string, the number of appearances counts the number of appearances of the first character string and the second character string, respectively, in the search target text. The count function unit compares the number of appearances of the first character string and the second character string in the text to be searched, and the number of appearances of the first character string and the second character string is the same. If the number of occurrences of the first character string is greater than the number of appearances of the second character string, the search target text is determined to be a hit target. Appearance It is a text search program of order to function as the number comparing and determining function unit.
なお、本発明の一実施形態の構成要素、表現又は構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、データ構造などに適用したものも本発明の態様として有効である。 In addition, what applied the component, the expression, or the arbitrary combinations of the component of one Embodiment of this invention to a method, an apparatus, a system, a computer program, a recording medium, a data structure, etc. is also effective as an aspect of this invention. .
上述の如く、本発明の一実施形態によれば、第一の文字列を含むという検索条件と、第二の文字列を含まないという否定条件とを組み合わせたテキスト検索において意図した通りの検索集合を得ることが可能なテキスト検索プログラム、テキスト検索装置及びテキスト検索方法を提供可能である。 As described above, according to an embodiment of the present invention, a search set as intended in a text search that combines a search condition that includes the first character string and a negative condition that does not include the second character string. A text search program, a text search device, and a text search method can be provided.
次に、本発明を実施するための最良の形態を、以下の実施例に基づき図面を参照しつつ説明していく。なお、本実施例では従来のNOT検索方法と区別するため、本実施例のNOT検索方法を拡張NOT検索方法と呼ぶ。 Next, the best mode for carrying out the present invention will be described based on the following embodiments with reference to the drawings. In this embodiment, in order to distinguish from the conventional NOT search method, the NOT search method of this embodiment is referred to as an extended NOT search method.
本実施例の拡張NOT検索方法は、図1及び図2に示すように、従来のNOT検索方法と検索により得られる検索集合が異なる。図1は、従来のNOT検索方法による検索処理の一例のイメージ図である。図2は、本実施例の拡張NOT検索方法による検索処理の一例のイメージ図である。 As shown in FIGS. 1 and 2, the extended NOT search method of this embodiment is different from the conventional NOT search method in the search set obtained by the search. FIG. 1 is an image diagram of an example of search processing by a conventional NOT search method. FIG. 2 is an image diagram of an example of search processing by the extended NOT search method of this embodiment.
図1及び図2のイメージ図は、検索条件の文字列「ログ」及び否定条件の文字列「プログラム」で文献1「ログの検索方法」,文献2「ログ検索プログラム」,文献3「検索プログラム」,文献4「検索方法」をNOT検索又は拡張NOT検索したものである。
The image diagrams of FIGS. 1 and 2 are a document 1 “log search method”, a
図1に示す従来のNOT検索方法では、文字列「ログ」を検索条件として検索することで文献1〜3がヒットし、文献4がヒットしない。続いて、従来のNOT検索方法では文字列「プログラム」を否定条件として検索することで、文献1がヒットし、文献2〜3がヒットしない。
In the conventional NOT search method shown in FIG. 1, documents 1 to 3 are hit and
図1に示す従来のNOT検索方法では検索結果として文献1が得られるが、本来、文献2の「ログ検索プログラム」も検索結果として得る必要がある。文献2の「ログ検索プログラム」は「プログラム」の文字列に含まれる「ログ」の他、1〜2文字目に「ログ」が含まれているからである。
In the conventional NOT search method shown in FIG. 1, reference 1 is obtained as a search result. Originally, the “log search program” of
このように、従来のNOT検索方法では、検索条件の文字列(例えばログ)が否定条件の文字列(例えばプログラム)に含まれている場合、意図した通りの検索集合を得ることができなかった。 Thus, in the conventional NOT search method, when a search condition character string (for example, a log) is included in a negative condition character string (for example, a program), a search set as intended cannot be obtained. .
図2に示す本実施例の拡張NOT検索方法では、文字列「ログ」を検索条件として検索することで文献1〜3がヒットし、文献4がヒットしない。続いて、本実施例の拡張NOT検索方法では文字列「プログラム」を否定条件として検索することで、文献1及び2がヒットし、文献3がヒットしない。
In the extended NOT search method of this embodiment shown in FIG. 2, documents 1 to 3 are hit and
図2に示す本実施例の拡張NOT検索方法では検索結果として、意図した通りの文献1及び2が得られる。本実施例の拡張NOT検索方法は、後述の原理により、検索条件の文字列(例えばログ)が否定条件の文字列(例えばプログラム)に含まれていても、意図した通りの検索集合を得ることができる。
In the extended NOT search method of the present embodiment shown in FIG. 2,
図3は本実施例の拡張NOT検索を行うシステムの一例の構成図である。図3(a)に示したシステムは、スタンドアローンのコンピュータにより実現されるテキスト検索装置10を含む構成である。図3(b)に示したシステムは、インターネットやLANなどのネットワーク22に接続されたコンピュータにより実現されるテキスト検索装置20及び利用者端末21を含む構成である。テキスト検索装置20と利用者端末21とは、ネットワーク22経由でデータ通信可能である。
FIG. 3 is a configuration diagram of an example of a system that performs an extended NOT search according to the present embodiment. The system shown in FIG. 3A includes a
図3(a)のシステムに含まれるテキスト検索装置10は、ユーザから検索条件及び否定条件の入力を受け、入力された検索条件及び否定条件に基づき拡張NOT検索を行ったあと、検索結果を出力するものである。また、図3(b)のシステムに含まれるテキスト検索装置20は利用者端末21にユーザが入力した検索条件及び否定条件をネットワーク22経由で受け付け、入力された検索条件及び否定条件に基づき拡張NOT検索を行ったあと、ネットワーク22経由で検索結果を利用者端末21に提供するものである。
The
図4はテキスト検索装置の一例の構成図である。なお、ここではテキスト検索装置20を例に説明する。図4のテキスト検索装置20は、バスBで相互に接続されている入力装置31,出力装置32,ドライブ装置33,補助記憶装置34,主記憶装置35,演算処理装置36及びインターフェース装置37を有するように構成される。
FIG. 4 is a configuration diagram of an example of a text search apparatus. Here, the
入力装置31はキーボードやマウスなどで構成され、各種信号を入力するために用いられる。出力装置32はディスプレイ装置などで構成され、各種ウインドウやデータ等を表示するために用いられる。インターフェース装置37は、モデム,LANカードなどで構成されており、インターネットやLANなどのネットワーク22に接続するために用いられる。
The
本実施例の拡張NOT検索を行うためのテキスト検索プログラムは、テキスト検索装置20を制御する各種プログラムの少なくとも一部である。テキスト検索プログラムは記録媒体38の配布やネットワーク22からのダウンロードなどによって提供される。テキスト検索プログラムを記録した記録媒体38はCD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
The text search program for performing the extended NOT search of this embodiment is at least a part of various programs that control the
また、テキスト検索プログラムを記録した記録媒体38がドライブ装置33にセットされると、テキスト検索プログラムは、記録媒体38からドライブ装置33を介して補助記憶装置34にインストールされる。ネットワーク22からダウンロードされたテキスト検索プログラムは、インターフェース装置37を介して補助記憶装置34にインストールされる。
When the
補助記憶装置34はインストールされたテキスト検索プログラムを格納すると共に、必要なファイル,データ等を格納する。主記憶装置35は、コンピュータの起動時に補助記憶装置34からテキスト検索プログラムを読み出して格納する。そして、演算処理装置36は主記憶装置35に格納されたテキスト検索プログラムに従って、後述するような各種処理を実現している。テキスト検索プログラムはアプリケーションやミドルウェア等のソフトウェア本体の他、ソフトウェアに機能を追加する為のアドオンのようなソフトウェアであってもよい。
The
なお、図4ではテキスト検索装置20の例を説明したが、テキスト検索装置10も同様である。ただし、テキスト検索装置10はインターフェース装置37を有していなくてもよい。
In addition, although the example of the
以下、本実施例の拡張NOT検索を行うテキスト検索装置10,20の詳細について説明していく。なお、テキスト検索装置10,20は、ユーザから検索条件及び否定条件の入力を直接受けるか、利用者端末21にユーザが入力した検索条件及び否定条件をネットワーク22経由で受けるかの違いと、検索結果の出力を直接行うか、利用者端末21に検索結果を提供して検索結果の出力を利用者端末21に行わせるかの違いがあるが、機能的に同様である。そこで、以下の説明ではテキスト検索装置10を一例として説明する。
Hereinafter, the details of the
図5は本実施例の拡張NOT検索を行うテキスト検索装置の一例のブロック図である。図5のテキスト検索装置10は、条件受付機能部41,検索機能部42,出現回数カウント機能部43,出現回数比較・判定機能部44,結果出力機能部45及び検索対象のテキストデータ46を有する構成である。
FIG. 5 is a block diagram of an example of a text search apparatus that performs an extended NOT search according to this embodiment. The
図5のテキスト検索装置10の処理手順について、図6のフローチャートを参照しつつ説明する。図6は本実施例の拡張NOT検索を行うテキスト検索装置の処理手順を表した一例のフローチャートである。
The processing procedure of the
図6のフローチャートは文献検索の条件が『文字列「ログ」を含む文献を検索する。文字列「プログラム」を含む文献を検索ノイズとして排除する。ただし、文字列「ログ検索プログラム」のように、文字列「プログラム」に含まれる文字列「ログ」の他、文字列「ログ」を含む文献をヒットさせる。』の場合を表している。 In the flowchart of FIG. 6, the document search condition is “search for documents including the character string“ log ”. A document including the character string “program” is excluded as search noise. However, documents including the character string “log” in addition to the character string “log” included in the character string “program” are hit like the character string “log search program”. ] Represents the case.
ステップS1では、条件受付機能部41が、ユーザから検索条件及び否定条件を入力される。例えば条件受付機能部41は「ログ −プログラム」という様に、検索条件としての文字列「ログ」、否定条件としての文字列「プログラム」が入力される。条件受付機能部41はユーザから入力された検索条件及び否定条件を、検索機能部42に通知する。
In step S1, the condition
ステップS2に進み、検索機能部42は現在評価している文献を表す「n」に「0」を設定する。また、検索機能部42は全文献数を表す「m」に、検索対象のテキストデータ46に含まれる文献数をセットする。ステップS3に進み、検索機能部42は現在評価している文献を表す「n」に「1」を加算する。
In step S2, the
ステップS4に進み、検索機能部42はテキストデータ46に含まれる1番目の文献について、検索条件の文字列「ログ」、否定条件の文字列「プログラム」がヒットするか否かを評価する。
In step S4, the
ステップS5に進み、検索機能部42はテキストデータ46に含まれる1番目の文献に検索条件の文字列「ログ」が含まれるか否かを判定する。テキストデータ46に含まれる1番目の文献に検索条件の文字列「ログ」が含まれていれば、検索機能部42はステップS6に進み、テキストデータ46に含まれる1番目の文献に否定条件の文字列「プログラム」が含まれるか否かを判定する。
In
テキストデータ46に含まれる1番目の文献に否定条件の文字列「プログラム」が含まれていれば、検索機能部42は1番目の文献内での文字列「ログ」及び「プログラム」の出現回数のカウントを出現回数カウント機能部43に要求する。
If the first document included in the
ステップS7に進み、出現回数カウント機能部43は、検索機能部42からの要求に基づいて、1番目の文献内での文字列「ログ」の出現回数をカウントする。また、ステップS8に進み、出現回数カウント機能部43は検索機能部42からの要求に基づいて、1番目の文献内での文字列「プログラム」の出現回数をカウントする。出現回数カウント機能部43は、カウントした1番目の文献内での文字列「ログ」の出現回数及び文字列「プログラム」の出現回数を出現回数比較・判定機能部44に通知する。
In step S 7, the appearance count
ステップS9に進み、出現回数比較・判定機能部44はカウントした1番目の文献内での文字列「ログ」の出現回数と文字列「プログラム」の出現回数とを比較する。カウントした1番目の文献内での文字列「ログ」の出現回数と文字列「プログラム」の出現回数とが同じであれば、出現回数比較・判定機能部44はステップS10に進み、1番目の文献をヒット対象外と判定し、検索機能部42へ通知する。
In step S9, the appearance number comparison /
カウントした1番目の文献内での文字列「ログ」の出現回数と文字列「プログラム」の出現回数とが同じであれば、1番目の文献内は否定条件の文字列「プログラム」に含まれる文字列「ログ」の他、文字列「ログ」が含まれていない為、ヒット対象外とされる。 If the number of occurrences of the character string “log” in the counted first document is the same as the number of appearances of the character string “program”, the first document is included in the negative condition character string “program”. Since the character string “log” is not included in addition to the character string “log”, it is excluded from the hit target.
カウントした1番目の文献内での文字列「ログ」の出現回数が文字列「プログラム」の出現回数より多ければ、出現回数比較・判定機能部44はステップS11に進み、1番目の文献をヒット対象と判定し、検索機能部42へ通知する。検索機能部42は、1番目の文献をヒット文献一覧に追加する。
If the number of appearances of the character string “log” in the counted first document is larger than the number of appearances of the character string “program”, the appearance number comparison /
カウントした1番目の文献内での文字列「ログ」の出現回数が文字列「プログラム」の出現回数より多ければ、1番目の文献内は否定条件の文字列「プログラム」に含まれる文字列「ログ」の他、文字列「ログ」が含まれている為、ヒット対象とされる。 If the number of appearances of the character string “log” in the counted first document is greater than the number of appearances of the character string “program”, the character string “included in the negative condition character string“ program ”is included in the first document. Since the character string “log” is included in addition to “log”, it is a hit target.
なお、ステップS5において、テキストデータ46に含まれる1番目の文献に検索条件の文字列「ログ」が含まれていなければ、検索機能部42はステップS10に進み、1番目の文献をヒット対象外と判定し、検索機能部42へ通知する。また、ステップS6において、テキストデータ46に含まれる1番目の文献に否定条件の文字列「プログラム」が含まれていなければ、出現回数比較・判定機能部44はステップS11に進み、1番目の文献をヒット対象と判定し、検索機能部42へ通知する。検索機能部42は、1番目の文献をヒット文献一覧に追加する。
In step S5, if the character string “log” of the search condition is not included in the first document included in the
ステップS10又はS11に続いてステップS12に進み、検索機能部42は現在評価している文献を表す「n」と全文献数を表す「m」とが同じか否かを判定する。現在評価している文献を表す「n」と全文献数を表す「m」とが同じでなければ、検索機能部42はステップS3に戻り、現在評価している文献を表す「n」に「1」を加算し、次の文献に進む。その後の処理は1番目の文献と同様である。
Progressing to step S12 following step S10 or S11, the
現在評価している文献を表す「n」と全文献数を表す「m」とが同じであれば、検索機能部42は検索対象のテキストデータ46に含まれる全ての文献を検索したと判定してステップS13に進む。ステップS13では、検索機能部42が、結果出力機能部45に対してヒット文献一覧のユーザへの提供を要求する。結果出力機能部45は例えばヒット文献一覧をディスプレイ装置に表示してユーザに提供する。
If “n” representing the currently evaluated document and “m” representing the total number of documents are the same, the
以上、本実施例のテキスト検索装置10は、形態素解析によらず、従来のNOT検索で排除できない検索ノイズを、拡張NOT検索により排除できる。言い換えれば、本実施例の拡張NOT検索は、排除したい文字列だけが存在する文献を、検索ノイズとして排除できる。
As described above, the
図5のテキスト検索装置10は出現回数カウント機能部43及び出現回数比較・判定機能部44が検索機能部42と別に設けられている。しかし、テキスト検索装置10は図7に示すように、出現回数カウント機能部43及び出現回数比較・判定機能部44を検索機能部42に含ませて設けるようにしてもよい。
The
図7は、本実施例の拡張NOT検索を行うテキスト検索装置の他の例のブロック図である。図7のテキスト検索装置10は、条件受付機能部41,検索機能部42,結果出力機能部45及び検索対象のテキストデータ46を有する構成である。また、検索機能部42は出現回数カウント機能部43及び出現回数比較・判定機能部44を有する構成である。
FIG. 7 is a block diagram of another example of a text search apparatus that performs an extended NOT search according to this embodiment. The
図7のテキスト検索装置10の処理手順について、図8のフローチャートを参照しつつ説明する。図8は本実施例の拡張NOT検索を行うテキスト検索装置の処理手順を表した他の例のフローチャートである。
The processing procedure of the
図8のフローチャートは、図6のフローチャートと文献検索の条件が同様の場合を表している。ステップS11〜S14の処理は、図6に示したステップS1〜S4と同様であるため、説明を省略する。 The flowchart of FIG. 8 represents a case where the document search conditions are the same as those of the flowchart of FIG. Since the process of step S11-S14 is the same as that of step S1-S4 shown in FIG. 6, description is abbreviate | omitted.
ステップS15に進み、検索機能部42内の出現回数カウント機能部43は、1番目の文献内での文字列「ログ」の出現回数をカウントする。文字列「ログ」の出現回数が1回以上カウントされると、出現回数カウント機能部43はステップS16に進み、1番目の文献内での文字列「プログラム」の出現回数をカウントする。文字列「プログラム」の出現回数が1回以上カウントされると、出現回数カウント機能部43は、ステップS17に進む。
In step S15, the appearance count
ステップS17に進み、出現回数比較・判定機能部44はカウントした1番目の文献内での文字列「ログ」の出現回数と文字列「プログラム」の出現回数とを比較する。カウントした1番目の文献内での文字列「ログ」の出現回数と文字列「プログラム」の出現回数とが同じであれば、出現回数比較・判定機能部44はステップS18に進み、1番目の文献をヒット対象外と判定する。
In step S17, the appearance number comparison /
カウントした1番目の文献内での文字列「ログ」の出現回数と文字列「プログラム」の出現回数とが同じであれば、1番目の文献内は否定条件の文字列「プログラム」に含まれる文字列「ログ」の他、文字列「ログ」が含まれていない為、ヒット対象外とされる。 If the number of occurrences of the character string “log” in the counted first document is the same as the number of appearances of the character string “program”, the first document is included in the negative condition character string “program”. Since the character string “log” is not included in addition to the character string “log”, it is excluded from the hit target.
カウントした1番目の文献内での文字列「ログ」の出現回数が文字列「プログラム」の出現回数より多ければ、出現回数比較・判定機能部44はステップS19に進み、1番目の文献をヒット対象と判定する。検索機能部42は、1番目の文献をヒット文献一覧に追加する。
If the number of appearances of the character string “log” in the counted first document is larger than the number of appearances of the character string “program”, the appearance number comparison /
カウントした1番目の文献内での文字列「ログ」の出現回数が文字列「プログラム」の出現回数より多ければ、1番目の文献内は否定条件の文字列「プログラム」に含まれる文字列「ログ」の他、文字列「ログ」が含まれている為、ヒット対象とされる。 If the number of appearances of the character string “log” in the counted first document is greater than the number of appearances of the character string “program”, the character string “included in the negative condition character string“ program ”is included in the first document. Since the character string “log” is included in addition to “log”, it is a hit target.
なお、ステップS15において、文字列「ログ」の出現回数がカウントされず、出現回数が0回であれば、出現回数カウント機能部43はステップS18に進み、1番目の文献をヒット対象外と判定する。ステップS16において、文字列「プログラム」の出現回数がカウントされず、出現回数が0回であれば、出現回数カウント機能部43はステップS19に進み、1番目の文献をヒット対象と判定する。検索機能部42は、1番目の文献をヒット文献一覧に追加する。
If the number of appearances of the character string “log” is not counted in step S15 and the number of appearances is 0, the appearance count
ステップS18又はS19に続いてステップS20に進み、検索機能部42は現在評価している文献を表す「n」と全文献数を表す「m」とが同じか否かを判定する。現在評価している文献を表す「n」と全文献数を表す「m」とが同じでなければ、検索機能部42はステップS13に戻り、現在評価している文献を表す「n」に「1」を加算し、次の文献に進む。その後の処理は1番目の文献と同様である。
Progressing to step S20 following step S18 or S19, the
現在評価している文献を表す「n」と全文献数を表す「m」とが同じであれば、検索機能部42は検索対象のテキストデータ46に含まれる全ての文献を検索したと判定してステップS21に進む。ステップS21では、検索機能部42が、結果出力機能部45に対してヒット文献一覧のユーザへの提供を要求する。結果出力機能部45は例えばヒット文献一覧をディスプレイ装置に表示してユーザに提供する。
If “n” representing the currently evaluated document and “m” representing the total number of documents are the same, the
以上、本実施例のテキスト検索装置10は、形態素解析によらず、従来のNOT検索で排除できない検索ノイズを、拡張NOT検索により排除できる。言い換えれば、本実施例の拡張NOT検索は、排除したい文字列だけが存在する文献を、検索ノイズとして排除できる。
As described above, the
本実施例の拡張NOT検索によれば、検索条件及び否定条件の与え方によって実現できない「検索条件の文字列が否定条件の文字列に含まれている場合」であっても、NOT検索が可能となり、検索ノイズを排除した意図した通りの検索結果を得ることができる。 According to the extended NOT search of the present embodiment, a NOT search is possible even when “a character string of the search condition is included in the character string of the negative condition” that cannot be realized by the way of providing the search condition and the negative condition. Thus, a search result as intended without the search noise can be obtained.
本発明は、以下に記載する付記のような構成が考えられる。
(付記1)
第一の文字列を含むという検索条件と、第二の文字列を含まないという否定条件とを組み合わせたテキスト検索を行うコンピュータを、
前記第二の文字列が前記第一の文字列を含む文字列であるとき、前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数をそれぞれカウントする出現回数カウント機能部と、
前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数を比較し、前記第一の文字列及び前記第二の文字列の出現回数が同一であるとき前記検索対象のテキストをヒット対象外と判定し、前記第一の文字列の出現回数が前記第二の文字列の出現回数よりも多いとき前記検索対象のテキストをヒット対象と判定する出現回数比較・判定機能部と
して機能させる為のテキスト検索プログラム。
(付記2)
前記出現回数カウント機能部は、前記検索対象のテキスト内に前記第一の文字列及び前記第二の文字列が含まれるとき、前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数をそれぞれカウントする付記1記載のテキスト検索プログラム。
(付記3)
前記出現回数カウント機能部及び出現回数比較・判定機能部は、前記テキスト検索を行う検索機能部に設けられる付記1又は2記載のテキスト検索プログラム。
(付記4)
第一の文字列を含むという検索条件と、第二の文字列を含まないという否定条件とを組み合わせたテキスト検索を行うテキスト検索装置であって、
前記第二の文字列が前記第一の文字列を含む文字列であるとき、前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数をそれぞれカウントする出現回数カウント機能部と、
前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数を比較し、前記第一の文字列及び前記第二の文字列の出現回数が同一であるとき前記検索対象のテキストをヒット対象外と判定し、前記第一の文字列の出現回数が前記第二の文字列の出現回数よりも多いとき前記検索対象のテキストをヒット対象と判定する出現回数比較・判定機能部と
を有するテキスト検索装置。
(付記5)
コンピュータが第一の文字列を含むという検索条件と、第二の文字列を含まないという否定条件とを組み合わせたテキスト検索を行うテキスト検索方法であって、
前記コンピュータが前記第二の文字列が前記第一の文字列を含む文字列であるとき前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数をそれぞれカウントする出現回数カウントステップと、
前記コンピュータが前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数を比較し、前記第一の文字列及び前記第二の文字列の出現回数が同一であるとき前記検索対象のテキストをヒット対象外と判定し、前記第一の文字列の出現回数が前記第二の文字列の出現回数よりも多いとき前記検索対象のテキストをヒット対象と判定する出現回数比較・判定ステップと
を有するテキスト検索方法。
The present invention may have the following configurations as described below.
(Appendix 1)
A computer that performs a text search that combines a search condition that includes the first character string and a negative condition that does not include the second character string,
When the second character string is a character string including the first character string, the number of appearances counts the number of appearances of the first character string and the second character string, respectively, in the search target text. A count function,
The number of appearances of the first character string and the second character string is compared in the search target text, and the search is performed when the number of appearances of the first character string and the second character string is the same. Comparison / determination of the number of appearances when it is determined that the target text is not a hit target, and when the number of appearances of the first character string is greater than the number of appearances of the second character string, the search target text is determined as a hit target A text search program to function as a functional part.
(Appendix 2)
When the first character string and the second character string are included in the search target text, the appearance count counting function unit is configured to display the first character string and the second character string in the search target text. The text search program according to appendix 1, which counts the number of occurrences of each character string.
(Appendix 3)
The text search program according to
(Appendix 4)
A text search device that performs a text search that combines a search condition that includes a first character string and a negative condition that does not include a second character string,
When the second character string is a character string including the first character string, the number of appearances counts the number of appearances of the first character string and the second character string, respectively, in the search target text. A count function,
The number of appearances of the first character string and the second character string is compared in the search target text, and the search is performed when the number of appearances of the first character string and the second character string is the same. Comparison / determination of the number of appearances when the target text is determined not to be hit and the number of appearances of the first character string is greater than the number of appearances of the second character string A text search apparatus having a function unit.
(Appendix 5)
A text search method for performing a text search that combines a search condition that a computer includes a first character string and a negative condition that the computer does not include a second character string,
The computer counts the number of appearances of the first character string and the second character string in the search target text when the second character string is a character string including the first character string. An appearance count step,
The computer compares the number of appearances of the first character string and the second character string in the text to be searched, and the number of appearances of the first character string and the second character string is the same. The number of appearances when the text to be searched is determined not to be hit and the number of appearances of the first character string is greater than the number of appearances of the second character string A text search method comprising a comparison / determination step.
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。 The present invention is not limited to the specifically disclosed embodiments, and various modifications and changes can be made without departing from the scope of the claims.
10、20 テキスト検索装置
21 利用者端末
22 ネットワーク
31 入力装置
32 出力装置
33 ドライブ装置
34 補助記憶装置
35 主記憶装置
36 演算処理装置
37 インターフェース装置
38 記録媒体
41 条件受付機能部
42 検索機能部
43 出現回数カウント機能部
44 出現回数比較・判定機能部
45 結果出力機能部
46 検索対象のテキストデータ
10, 20 Text search device 21
Claims (5)
前記第二の文字列が前記第一の文字列を含む文字列であるとき、前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数をそれぞれカウントする出現回数カウント機能部と、
前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数を比較し、前記第一の文字列及び前記第二の文字列の出現回数が同一であるとき前記検索対象のテキストをヒット対象外と判定し、前記第一の文字列の出現回数が前記第二の文字列の出現回数よりも多いとき前記検索対象のテキストをヒット対象と判定する出現回数比較・判定機能部と
して機能させる為のテキスト検索プログラム。 A computer that performs a text search that combines a search condition that includes the first character string and a negative condition that does not include the second character string,
When the second character string is a character string including the first character string, the number of appearances counts the number of appearances of the first character string and the second character string, respectively, in the search target text. A count function,
The number of appearances of the first character string and the second character string is compared in the search target text, and the search is performed when the number of appearances of the first character string and the second character string is the same. Comparison / determination of the number of appearances when it is determined that the target text is not a hit target, and when the number of appearances of the first character string is greater than the number of appearances of the second character string, the search target text is determined as a hit target A text search program to function as a functional part.
前記第二の文字列が前記第一の文字列を含む文字列であるとき、前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数をそれぞれカウントする出現回数カウント機能部と、
前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数を比較し、前記第一の文字列及び前記第二の文字列の出現回数が同一であるとき前記検索対象のテキストをヒット対象外と判定し、前記第一の文字列の出現回数が前記第二の文字列の出現回数よりも多いとき前記検索対象のテキストをヒット対象と判定する出現回数比較・判定機能部と
を有するテキスト検索装置。 A text search device that performs a text search that combines a search condition that includes a first character string and a negative condition that does not include a second character string,
When the second character string is a character string including the first character string, the number of appearances counts the number of appearances of the first character string and the second character string, respectively, in the search target text. A count function,
The number of appearances of the first character string and the second character string is compared in the search target text, and the search is performed when the number of appearances of the first character string and the second character string is the same. Comparison / determination of the number of appearances when it is determined that the target text is not a hit target, and when the number of appearances of the first character string is greater than the number of appearances of the second character string, the search target text is determined as a hit target A text search apparatus having a function unit.
前記コンピュータが前記第二の文字列が前記第一の文字列を含む文字列であるとき前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数をそれぞれカウントする出現回数カウントステップと、
前記コンピュータが前記検索対象のテキスト内における前記第一の文字列及び前記第二の文字列の出現回数を比較し、前記第一の文字列及び前記第二の文字列の出現回数が同一であるとき前記検索対象のテキストをヒット対象外と判定し、前記第一の文字列の出現回数が前記第二の文字列の出現回数よりも多いとき前記検索対象のテキストをヒット対象と判定する出現回数比較・判定ステップと
を有するテキスト検索方法。 A text search method for performing a text search that combines a search condition that a computer includes a first character string and a negative condition that the computer does not include a second character string,
The computer counts the number of appearances of the first character string and the second character string in the search target text when the second character string is a character string including the first character string. An appearance count step,
The computer compares the number of appearances of the first character string and the second character string in the text to be searched, and the number of appearances of the first character string and the second character string is the same. The number of occurrences when the text to be searched is determined not to be hit and the number of appearances of the first character string is greater than the number of appearances of the second character string A text search method comprising a comparison / determination step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008300850A JP5217958B2 (en) | 2008-11-26 | 2008-11-26 | Text search program, text search device, and text search method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008300850A JP5217958B2 (en) | 2008-11-26 | 2008-11-26 | Text search program, text search device, and text search method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010128660A true JP2010128660A (en) | 2010-06-10 |
JP5217958B2 JP5217958B2 (en) | 2013-06-19 |
Family
ID=42329023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008300850A Expired - Fee Related JP5217958B2 (en) | 2008-11-26 | 2008-11-26 | Text search program, text search device, and text search method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5217958B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019153119A (en) * | 2018-03-05 | 2019-09-12 | コニカミノルタ株式会社 | Sentence extraction device and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0954777A (en) * | 1995-06-09 | 1997-02-25 | Matsushita Electric Ind Co Ltd | Information retrieving device |
JPH11328195A (en) * | 1998-05-13 | 1999-11-30 | Nec Corp | Character string retrieving device |
JP2005063470A (en) * | 2000-01-05 | 2005-03-10 | Mitsubishi Electric Corp | Keyword extracting device |
-
2008
- 2008-11-26 JP JP2008300850A patent/JP5217958B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0954777A (en) * | 1995-06-09 | 1997-02-25 | Matsushita Electric Ind Co Ltd | Information retrieving device |
JPH11328195A (en) * | 1998-05-13 | 1999-11-30 | Nec Corp | Character string retrieving device |
JP2005063470A (en) * | 2000-01-05 | 2005-03-10 | Mitsubishi Electric Corp | Keyword extracting device |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019153119A (en) * | 2018-03-05 | 2019-09-12 | コニカミノルタ株式会社 | Sentence extraction device and program |
Also Published As
Publication number | Publication date |
---|---|
JP5217958B2 (en) | 2013-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704480B (en) | Method and system for extending and reinforcing knowledge graph and computer medium | |
CN108763582B (en) | File searching method, device, terminal and storage medium | |
JP5437557B2 (en) | Search processing method and search system | |
WO2017045443A1 (en) | Image retrieval method and system | |
US8626786B2 (en) | Dynamic language checking | |
US20060294049A1 (en) | Back-off mechanism for search | |
US20170109435A1 (en) | Apparatus and method for searching for information | |
CN110096655B (en) | Search result sorting method, device, equipment and storage medium | |
US10235427B2 (en) | Entity-driven logic for improved name-searching in mixed-entity lists | |
US20180218079A1 (en) | Method and system for generating phrase blacklist to prevent certain content from appearing in a search result in response to search queries | |
CN105550217B (en) | Scene music searching method and scene music searching device | |
US9552411B2 (en) | Trending suggestions | |
KR20060043583A (en) | Compression of logs of language data | |
JP2004171258A (en) | Permission token management system and program | |
JP5217958B2 (en) | Text search program, text search device, and text search method | |
US20080077563A1 (en) | Determining logically-related sub-strings of a string | |
JP2024509824A (en) | Document editing methods, equipment, devices and storage media | |
WO2017175247A1 (en) | Method and system for generating content from search results rendered by a search engine | |
JP2010086210A (en) | Retrieval method, program, and server for preferentially displaying page corresponding to amount of information | |
KR100740690B1 (en) | Information terminal set up the contents serching system | |
CN114238976B (en) | File detection method and device, readable medium and electronic equipment | |
JP3563737B2 (en) | Search device, search method, and information recording medium | |
CN113609309B (en) | Knowledge graph construction method and device, storage medium and electronic equipment | |
JP2002207761A (en) | Searching device, searching method, program and recording medium | |
JP2005234688A (en) | Method, program and apparatus for discriminating important language, document retrieval apparatus and key word extraction apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130218 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160315 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5217958 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |