JP5491422B2 - Information search device, information search method, and information search program - Google Patents
Information search device, information search method, and information search program Download PDFInfo
- Publication number
- JP5491422B2 JP5491422B2 JP2011003242A JP2011003242A JP5491422B2 JP 5491422 B2 JP5491422 B2 JP 5491422B2 JP 2011003242 A JP2011003242 A JP 2011003242A JP 2011003242 A JP2011003242 A JP 2011003242A JP 5491422 B2 JP5491422 B2 JP 5491422B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- keyword
- range
- corresponding word
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は入力された検索語に適合する文書を提示する情報検索技術に関する。 The present invention relates to an information search technique for presenting a document that matches an input search term.
情報検索に供される検索キーワードが複数の表記をもつ場合がある。このとき、検索キーワードに加え、同じ意味を持つ他の表記も検索キーワードとして追加するという、いわゆる検索漏れを減らす検索技術が知られている(例えば、特許文献1、非特許文献1)。 There are cases where a search keyword used for information search has a plurality of notations. At this time, in addition to the search keyword, another notation having the same meaning is added as a search keyword, which is a search technique for reducing so-called search omission (for example, Patent Document 1 and Non-Patent Document 1).
この検索技術によれば、ユーザが入力したキーワードをそのまま含まなくとも、ユーザの要求に合致した内容の文書を提示することができる。特に、検索キーワードが略語であるときには、入力された略語での検索結果に加え、その略語の意味する語での検索結果を追加することにより、より多くの適切な検索結果を得ることができる。例えば、「BBQ」というキーワードを用いて検索を行う場合を考える。「BBQ」は「バーベキュー」の略語である。このとき、「BBQ」というキーワードでの検索に加え、「バーベキュー」というキーワードで検索した結果も提示することにより、ユーザの要求に合致した文書をより多く提示することができる。 According to this search technique, it is possible to present a document having contents that match the user's request without including the keyword input by the user as it is. In particular, when a search keyword is an abbreviation, a more appropriate search result can be obtained by adding a search result with a word that the abbreviation means in addition to a search result with the input abbreviation. For example, consider a case where a search is performed using the keyword “BBQ”. “BBQ” is an abbreviation for “barbecue”. At this time, in addition to the search by the keyword “BBQ”, the search result by the keyword “BBQ” is also presented, so that more documents matching the user's request can be presented.
また、指定した範囲に含まれる文書を絞り込んで検索を行う、範囲検索の技術が知られている(例えば、非特許文献2,3)。指定検索範囲には、日時などの時間範囲や、場所や地域といった地理範囲などがある。例えば、時間範囲を指定した範囲検索で、「2010年8月〜9月」と指定した場合、文書中に含まれる日時表現や、文書を収集した日付などを利用し、「2010年8月〜9月」に含まれる文書を検索することができる。通常、ユーザは検索範囲の指定に加えキーワードによる検索も行い、検索システムは、指定した検索範囲と指定したキーワードとの両方の条件を満たす文書を提示する。
Further, a range search technique for performing a search by narrowing down documents included in a specified range is known (for example, Non-Patent
異なる意味を持つ複数の語が、同じ略語で表記される場合がある。例えば、「ES」という語は,「エントリーシート」という語の略語であると同時に、「従業員満足度(Employee Satisfaction)」や、「エンジニアリングサービス」といった複数の語の略語でもある。 A plurality of words having different meanings may be represented by the same abbreviation. For example, the word “ES” is an abbreviation of the word “entry sheet” and also an abbreviation of a plurality of words such as “Employee Satisfaction” and “Engineering Service”.
略語の意味する主要な語は、検索範囲によって異なる。例えば、時間を検索範囲にした場合を考える。ある時期においては「ES」といえば「従業員満足度」のことを示しており、ある期間においてはもっぱら「エントリーシート」の意味でつかわれているといったように、その時々に応じて異なる。地理を検索範囲とした場合、地域によって略語の意味する主要な語が異なるケースがある。 The main words that abbreviations mean depend on the search range. For example, consider the case where time is the search range. Speaking of “ES” in a certain period indicates “employee satisfaction”, and it is used in the meaning of “entry sheet” in a certain period. When geography is used as a search range, there are cases where main words that abbreviations differ depending on the region.
しかし、従来の方法では、略語が表す語を抽出する際に、全ての文書集合を用いて行っていた。これにより、検索ユーザが意図した意味以外の語を検索キーワードとして追加することになり、結果として検索の精度が低下するという問題点があった。 However, in the conventional method, when extracting a word represented by an abbreviation, all document sets are used. As a result, a word other than the meaning intended by the search user is added as a search keyword, resulting in a problem that the accuracy of the search is lowered.
本発明は、以上の事情に鑑みなされたもので、キーワードとして略語が検索に供された際に、指定された検索範囲における適切な略語の候補を前記検索のための追加キーワードとして取得して、略語に基づく情報検索の精度を向上させることを目的とする。 The present invention has been made in view of the above circumstances, and when an abbreviation is provided as a keyword, an appropriate abbreviation candidate in a designated search range is acquired as an additional keyword for the search, The object is to improve the accuracy of information retrieval based on abbreviations.
そこで、本発明は、略語に基づく情報検索の際、当該略語及び指定した検索範囲に対応した対応語群から主要度に基づき抽出した対応語を追加キーワードとして当該情報検索に供することにより、当該略語に基づく検索の精度を向上させる。 Therefore, the present invention, when performing an information search based on the abbreviation, by using the corresponding word extracted based on the degree of importance from the corresponding word group corresponding to the abbreviation and the specified search range as an additional keyword, the abbreviation Improve search accuracy based on.
本発明の情報検索装置の態様としては、略語を含んだクエリに適合する文書を検索する情報検索装置であって、前記クエリとして供された略語からなるキーワード及び検索範囲に対応する対応語群から各対応語の主要度に基づき取得した対応語を当該クエリの追加キーワードとする追加キーワード取得手段と、前記キーワード、前記検索範囲及び前記追加キーワードに基づき情報検索を行う範囲検索手段とを備え、前記追加キーワード取得手段は、単一の検索範囲が供された場合、前記キーワード及び当該検索範囲に対応する対応語群の各対応語について当該検索範囲における主要度を示す指定範囲中主要度を算出し、この主要度が閾値よりも高い対応語を前記追加キーワードとして取得し、複数の検索範囲が供された場合、前記キーワード及び当該複数の検索範囲に対応する対応語群の各対応語の各検索範囲における主要度を示す指定範囲中主要度を掛け合わせたものを前記複数の検索範囲からなる指定範囲集合における当該対応語の主要度を示す指定範囲中主要度とし、この主要度が閾値よりも高い対応語を前記追加キーワードとして取得する。 As an aspect of the information search apparatus of the present invention, there is an information search apparatus for searching for a document that matches an abbreviation-containing query, from an abbreviation provided as the query and a corresponding word group corresponding to a search range. comprising an additional keyword acquisition means for a corresponding word obtained based on the key of each corresponding word and additional keywords of the query, the keyword, and range search unit for performing information retrieval based on the retrieval range and the additional keyword, the additional keyword acquisition means, if a single search range is provided to calculate a specified range in the primary index showing the main degree of the search range for each respective corresponding word group corresponding to the keyword and the search range , if the major degree to get a higher correspondence word than a threshold value as said additional keywords, a plurality of search ranges are provided, the keyword And the corresponding word in the specified range set consisting of the plurality of search ranges obtained by multiplying the main degrees in the specified ranges indicating the main degrees in the respective search ranges of the corresponding words corresponding to the plurality of search ranges. And a corresponding word having a higher degree of importance than a threshold is acquired as the additional keyword .
本発明の情報検索方法の態様としては、略語を含んだクエリに適合する文書を検索する情報検索方法であって、追加キーワード取得手段が前記クエリとして供された略語からなるキーワード及び検索範囲に対応する対応語群から各対応語の主要度に基づき取得した対応語を当該クエリの追加キーワードとするステップと、範囲検索手段が前記キーワード、前記検索範囲及び前記追加キーワードに基づき情報検索を行うステップとを有し、単一の検索範囲が供された場合、前記追加キーワードを取得するステップでは、前記キーワード及び当該検索範囲に対応する対応語群の各対応語について当該検索範囲における主要度を示す指定範囲中主要度を算出し、この主要度が閾値よりも高い対応語を前記追加キーワードとして取得し、複数の検索範囲が供された場合、前記追加キーワードを取得するステップでは、前記キーワード及び当該複数の検索範囲に対応する対応語群の各対応語の各検索範囲における主要度を示す指定範囲中主要度を掛け合わせたものを前記複数の検索範囲からなる指定範囲集合における当該対応語の主要度を示す指定範囲中主要度とし、この主要度が閾値よりも高い対応語を前記追加キーワードとして取得する。 An aspect of the information search method of the present invention is an information search method for searching for a document that matches a query including an abbreviation, wherein the additional keyword acquisition means corresponds to a keyword including the abbreviation provided as the query and a search range. A corresponding word acquired from the corresponding word group based on the importance of each corresponding word as an additional keyword of the query, and a step in which range search means performs an information search based on the keyword, the search range, and the additional keyword; have, if single search range is provided, in the step of acquiring the additional keywords, specify showing the principal degree of the search range for each respective corresponding word group corresponding to the keyword and the search range calculating a primary index in the range, the major degree to get a higher correspondence word than a threshold value as said additional keywords, a plurality of search range In the step of acquiring the additional keyword, the degree of importance in the designated range indicating the degree of importance in each search range of each corresponding word in the corresponding word group corresponding to the plurality of search ranges is multiplied in the step of acquiring the additional keyword. And a corresponding word whose degree of importance is higher than a threshold is acquired as the additional keyword .
以上のように、単一の検索範囲が供された場合、前記キーワード及び検索範囲に対応する対応語群の各対応語について当該検索範囲における主要度を示す指定範囲中主要度が算出され、この主要度が閾値よりも高い対応語が前記追加キーワードとして取得される。このように、前記指定範囲中主要度の閾値に基づき対応語が抽出されるので、所望の検索精度で前記キーワードに基づく情報検索を行える。 As described above, when a single search range is provided, the keyword and the specified range in the primary index showing the main degree of the search range for each respective corresponding word group corresponding to the search range is calculated, this Corresponding words whose importance is higher than a threshold are acquired as the additional keywords . In this way, since the corresponding words are extracted based on the threshold value of the majority in the designated range, information search based on the keywords can be performed with a desired search accuracy.
また、複数の検索範囲が供された場合、前記キーワード及び当該複数の検索範囲に対応する対応語群の各対応語の各検索範囲における主要度を示す指定範囲中主要度を掛け合わせたものが前記複数の検索範囲からなる指定範囲集合における当該対応語の主要度を示す指定範囲中主要度とされ、この主要度が閾値よりも高い対応語が前記追加キーワードとして取得される。これにより、検索範囲が複数指摘された場合であっても前記キーワードに基づく情報検索を所望の検索精度で行える。 When a plurality of search ranges are provided, which multiplied by the specified range in the primary index showing the main level in each search range of each respective corresponding word group corresponding to the keyword and the plurality of search ranges wherein the specified range set comprising a plurality of search ranges is a major degree in the specified range that indicates the main level of the corresponding word, high correspondence word than the major degree threshold is obtained as the additional keywords. Thereby, even if a plurality of search ranges are pointed out, information search based on the keyword can be performed with desired search accuracy.
さらに、本発明の情報検索装置及び情報検索方法の他の態様としては、前記追加キーワードを取得するにあたり、略語からなるキーワードと前記略語の開示を規定する範囲と前記略語に対応する対応語とこの対応語の主要度とを予め格納したキーワードデータベースから、前記供されたキーワード及び単数または複数の検索範囲に対応する対応語群を引き出すようにするとよい。この態様によれば前記供された略語及び単数または複数の検索範囲に対応する対応語群を効率的に取得できる。 Furthermore, as another aspect of the information search apparatus and information search method of the present invention, in acquiring the additional keyword, a keyword consisting of an abbreviation, a range defining disclosure of the abbreviation, a corresponding word corresponding to the abbreviation, It is preferable to extract a corresponding word group corresponding to the provided keyword and one or a plurality of search ranges from a keyword database in which the degree of corresponding word is stored in advance. According to this aspect, it is possible to efficiently acquire the abbreviations provided and corresponding word groups corresponding to one or a plurality of search ranges.
尚、本発明は上記の情報検索装置を構成する各手段としてコンピュータを機能させる情報検索プログラムの態様とすることもできる。 Note that the present invention can also be implemented as an information search program that causes a computer to function as each means constituting the information search apparatus.
以上の発明によれば、キーワードとして略語が情報検索に供された際に、当該略語と共に指定された検索範囲における適切な略語の候補を前記検索の追加キーワードとして利用するので、当該略語に基づく情報検索の精度が向上する。 According to the above invention, when an abbreviation as a keyword is used for information search, an appropriate abbreviation candidate in the search range specified together with the abbreviation is used as an additional keyword for the search, so information based on the abbreviation Search accuracy is improved.
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態に限定されるものではない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments.
[概要]
図1に示された本実施形態の情報検索装置1は、略語からなるキーワードが情報検索に供された際、当該略語と共に指定された検索範囲に対応した対応語群から、当該検索範囲における対応語の主要度に基づき対応語を抽出する。そして、この抽出した対応語を追加キーワードとして情報検索に供する。
[Overview]
The information search apparatus 1 according to the present embodiment shown in FIG. 1 is configured such that when a keyword consisting of an abbreviation is used for information search, the correspondence in the search range is determined from the corresponding word group corresponding to the search range specified together with the abbreviation. Corresponding words are extracted based on word importance. The extracted corresponding word is used as an additional keyword for information retrieval.
本実施形態において、情報検索装置1は、略語からなるキーワードと前記略語の開示を規定する範囲と前記略語に対応する対応語とこの対応語の主要度とを予め格納した追加キーワードデータベース3(以下、追加キーワードDB3)を備えている。情報検索装置1では、クエリ入力部2から供されたキーワード及び検索範囲に対応した対応語群を追加キーワードDB3から引き出して、当該対応語群の各対応語について当該検索範囲における主要度を示す指定範囲中主要度を算出する。そして、この主要度が閾値よりも高い対応語を追加キーワードとして範囲検索部6による情報検索に供する。以上のように、略語を検索キーワードとした場合に、指定された検索範囲によって当該略語の表す対応語が絞り込まれ、検索精度が向上する。
In the present embodiment, the information retrieval apparatus 1 includes an additional keyword database 3 (hereinafter referred to as “keywords” including abbreviations, a range defining disclosure of the abbreviations, a corresponding word corresponding to the abbreviation, and a degree of importance of the corresponding word). , Additional keyword DB3). In the information search apparatus 1, a corresponding word group corresponding to the keyword and search range provided from the
[情報検索装置1の構成]
情報検索装置1は、図1に示されたように、クエリ入力部2、追加キーワードDB3、追加キーワード取得部4、文書データベース5(以下、文書DB5)、範囲検索部6、検索結果出力部7を備える。
[Configuration of Information Retrieval Device 1]
As shown in FIG. 1, the information search apparatus 1 includes a
情報検索装置1の前記機能部及びDBはサーバ(コンピュータ)のハードウェアリソースによって実現される。すなわち、情報検索装置1はCPU、記憶装置(例えば、ハードディスク装置)、I/Oデバイス(例えば、通信デバイス)等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより前記機能部及びDBが実装される。 The functional unit and DB of the information search apparatus 1 are realized by hardware resources of a server (computer). That is, the information search apparatus 1 includes hardware resources related to a computer such as a CPU, a storage device (for example, a hard disk device), and an I / O device (for example, a communication device). The functional unit and DB are implemented by these hardware resources cooperating with software resources (OS, applications, etc.).
クエリ入力部2はネットワークを介してユーザから受け付けたクエリを追加キーワード取得部4に供する。クエリは情報検索装置1に供される情報要求であり、略語からなるキーワードと、検索範囲とから構成される。前記検索範囲としては時間、地理、言語、ドメイン、分野等が例示される。尚、クエリ入力部2はWebインタフェースに例示されるユーザインタフェース上に備えられている。
The
追加キーワードDB3は、図4、図5に示したように、略語wを示すキーワードと、略語wの開示を規定する範囲tと、略語wに対応する対応語eと、対応語eの主要度cを予め格納したデータベースである。主要度cは、略語wに対する対応語eの尤もらしさを示すスコアであり、その値が高いものほど対応語としてふさわしいものとする。主要度cは例えば非特許文献1に開示された周知の“Score”の算出法によって得られる。
As illustrated in FIGS. 4 and 5, the
図4に例示された追加キーワードDBは検索範囲が時間範囲である場合のデータベースの例である。図5に例示された追加キーワードDBは検索範囲が地理範囲である場合のデータベースの例である。範囲tにおける略語wに対応する対応語eの抽出は範囲tに適合する文書集合を用いることによって行う。範囲tに適合する文書集合の取得は後述の範囲検索部6による指定検索範囲に適合する文書の特定法と同一の方法で行うことができる。
The additional keyword DB illustrated in FIG. 4 is an example of a database when the search range is a time range. The additional keyword DB illustrated in FIG. 5 is an example of a database when the search range is a geographic range. The corresponding word e corresponding to the abbreviation w in the range t is extracted by using a document set that matches the range t. Acquisition of a document set that conforms to the range t can be performed by the same method as the method for specifying a document that conforms to the designated search range by the
追加キーワード取得部4はクエリ入力部2によって指定された前記キーワード及び検索範囲に対応する対応語群を追加キーワードDB3から引き出し、各対応語について当該検索範囲における当該対応語の主要度を示す指定範囲中主要度を計算する。そして、この主要度が閾値よりも高い対応語を追加キーワードとして取得する。
The additional
また、追加キーワード取得部4は、クエリ入力部2によって複数の検索範囲が指定された場合、クエリ入力部2から供されたキーワード及び当該複数の検索範囲に対応する対応語群を追加キーワードDB3から引き出す。次いで、前記対応語群の各対応語について前記各検索範囲における当該対応語の主要度を示す指定範囲中主要度を計算する。次いで、この各検索範囲における指定範囲中主要度を掛け合わせたものを前記複数の検索範囲からなる指定範囲集合における前記対応語の主要度を示す指定範囲中主要度として算出する。そして、この主要度が閾値よりも高い対応語を追加キーワードとして取得する。
Further, when a plurality of search ranges are designated by the
「単一の検索範囲が指定された場合」「複数の検索範囲が指定された場合」の追加キーワード取得部4による対応語の指定範囲中主要度の具体的な計算についてそれぞれ説明する。
The specific calculation of the majority in the designated range of the corresponding word by the additional
(単一の検索範囲が指定された場合の指定範囲中主要度の計算)
ユーザが指定する検索範囲は、データベース中の範囲の単位と異なる場合がある。例えば、図4のデータベース例では、時間単位を1年としているが、ユーザは2008年7月から2009年12月までを指定している場合などである。このような場合に対応するため、ユーザの指定する検索範囲中における対応語の主要度である、指定範囲中主要度を計算する。
(Calculation of the importance in the specified range when a single search range is specified)
The search range specified by the user may be different from the unit of the range in the database. For example, in the database example of FIG. 4, the time unit is set to one year, but the user designates from July 2008 to December 2009. In order to cope with such a case, the degree of importance in the designated range, which is the degree of importance of the corresponding word in the search range designated by the user, is calculated.
略語wに対する、指定範囲(検索範囲)sにおける対応語eの指定範囲中主要度sc(w,s,e)は、以下の式(1)によって算出できる。 The degree of significance sc (w, s, e) of the corresponding word e in the specified range (search range) s for the abbreviation w can be calculated by the following equation (1).
ここで、tは範囲を表し、Tは指定範囲sを含んでいる範囲tの集合を表す。指定範囲sが2008年7月から2009年12月である場合、Tは2008年と2009年である。λは、範囲tのうち指定範囲sが含まれる割合を表す。先ほどの例で考えると、tが2008年である場合、指定時間に含まれるのは7月から12月までの半年であるため、割合λは0.5となる。一方、範囲tが2009年である場合、1月から12月まで全て指定範囲が含まれるため、割合λは1となる。c(w,t,e)はキーワードwに対する、範囲tにおける対応語eの主要度を表す。そして、指定範囲中主要度scが予め設定された閾値より高い対応語eが追加キーワードとして決定される。 Here, t represents a range, and T represents a set of ranges t including the specified range s. If the specified range s is from July 2008 to December 2009, T is 2008 and 2009. λ represents a ratio in which the specified range s is included in the range t. Considering the previous example, if t is 2008, the specified time includes the half year from July to December, so the ratio λ is 0.5. On the other hand, if the range t is 2009, the specified range is included from January to December, so the ratio λ is 1. c (w, t, e) represents the importance of the corresponding word e in the range t with respect to the keyword w. Then, a corresponding word e having a degree of importance sc in the designated range that is higher than a preset threshold value is determined as an additional keyword.
前記閾値は任意に設定される。すなわち、より多くのキーワードを追加してより多くの検索結果を提示したい場合には閾値は低く設定され、関係のない検索結果を減らして精度を高めたい場合には閾値は高く設定される。 The threshold is arbitrarily set. That is, the threshold is set low when it is desired to add more keywords and present more search results, and the threshold is set high when it is desired to increase the accuracy by reducing unrelated search results.
(複数の検索範囲が指定された場合の指定範囲中主要度の計算)
複数の検索範囲が検索条件として指定された場合、各検索範囲で算出された指定範囲中主要度を掛け合わせることで、前記複数の検索範囲からなる指定範囲集合における対応語の指定範囲中主要度を算出する。
(Calculation of the importance in the specified range when multiple search ranges are specified)
When a plurality of search ranges are specified as search conditions, the priority of the corresponding words in the specified range set of the plurality of search ranges is multiplied by multiplying the degrees of importance in the specified ranges calculated in each search range. Is calculated.
すなわち、n個の検索範囲が指定されたとき、それぞれの指定範囲(検索範囲)をSi(i=1,2,3,…,n)で表し、指定範囲Siの集合をSとする。略語wに対する、指定範囲集合Sにおける対応語eの指定範囲中主要度sc(w,S,e)は以下の式(2)によって算出できる。そして、この指定範囲中主要度scの値が予め設定された閾値より高い対応語eが追加キーワードとして決定される。前記閾値も前述の趣旨により任意に設定される。 That is, when n search ranges are specified, each specified range (search range) is represented by S i (i = 1, 2, 3,..., N), and a set of the specified ranges S i is S. . The degree of significance sc (w, S, e) in the designated range of the corresponding word e in the designated range set S for the abbreviation w can be calculated by the following equation (2). Then, the corresponding word e in which the value of the degree of importance sc in the specified range is higher than a preset threshold value is determined as an additional keyword. The threshold value is also arbitrarily set according to the above-mentioned purpose.
(追加キーワード取得部4による追加キーワードの取得手順)
図3を参照しながら追加キーワード取得部4による追加キーワードの取得手順S41〜S47について説明する。ここでは検索範囲として指定範囲sが指定された事例での追加キーワードの取得手順について説明する。
(Additional keyword acquisition procedure by additional keyword acquisition unit 4)
The additional keyword acquisition procedures S41 to S47 by the additional
(S41)クエリ入力部2からキーワード(略語)と指定範囲sが入力される。
(S41) A keyword (abbreviation) and a specified range s are input from the
(S42)追加キーワードDB3において前記キーワード、指定範囲sを含む範囲tを有する行を検索する。 (S42) A line having a range t including the keyword and the specified range s is searched in the additional keyword DB3.
(S43)前記行が存在する場合、S44に移行する。前記行が存在しない場合、処理を終了する。 (S43) If the row exists, the process proceeds to S44. If the row does not exist, the process ends.
(S44)S42で取得された行から対応語eの指定範囲中主要度scを式(1)による演算によって算出する。 (S44) The degree of importance sc in the designated range of the corresponding word e is calculated from the line acquired in S42 by the calculation according to the equation (1).
(S45)前記算出された指定範囲中主要度scが閾値以上である場合、S46に移行する。前記指定範囲中主要度scが閾値以上でない場合、S47に移行する。 (S45) If the calculated degree of importance sc in the specified range is greater than or equal to the threshold, the process proceeds to S46. If the degree of importance sc in the specified range is not greater than or equal to the threshold value, the process proceeds to S47.
(S46)指定範囲中主要度scが閾値以上である対応語句eを追加キーワードとして取得する。 (S46) The corresponding word / phrase e having a degree of importance sc in the specified range that is equal to or greater than a threshold is acquired as an additional keyword.
(S47)追加キーワードDB3における前記キーワード、指定範囲sを含む範囲tを有する行中の全ての対応語eについてS44にて指定範囲中主要度scを算出する。 (S47) The importance sc in the designated range is calculated in S44 for all the corresponding words e in the row having the range t including the keyword and the designated range s in the additional keyword DB3.
以上の手順により取得された追加キーワードは範囲検索部6に供される。
The additional keyword acquired by the above procedure is provided to the
文書DB5は予め収集した文書を格納したデータベースである。例えば、Web上に公開されている文書をクローラ等の周知の情報収集手段によって収集した文書を記録することで構築されたデータベースである。そして、インターネット上のWebサイトのように文書の内容が逐次更新される情報源である場合、当該文書が更新されると、新たな文書が作成されたとみなされ、前記情報収集手段によって収集されて文書DBに格納される。尚、既存のWebページの検索エンジン群を文書DB5の代わりとして用いるようにしてもよい。
The
範囲検索部6は、前記入力されたキーワードに適合する文書、前記入力された検索範囲に適合する文書、及び追加キーワード取得部4で得られた追加キーワードに適合する文書を文書DB5から検索する。前記文書の検索には周知の検索技術が適用される。
The
検索結果出力部7は範囲検索部6による検索によって得られた文書を検索結果として出力する。検索結果出力部7はクエリ入力部2と同様に前記ユーザインタフェース上に備えられている。
The search
[情報検索装置1による検索の処理手順の説明]
図2を参照しながら情報検索装置1による文書検索の手順について具体的に説明する。
[Description of Search Processing Procedure by Information Search Device 1]
The procedure of document search by the information search apparatus 1 will be specifically described with reference to FIG.
S1:クエリ入力部2はユーザからクエリとして受け付けたキーワード(略語)及び検索範囲を追加キーワード取得部4に供する。
S1: The
検索範囲としては例えば時間、地理、言語、ドメイン、分野などである。検索範囲が時間である場合には、検索範囲としては「2008年7月〜2009年12月」が例示される。検索範囲が地理である場合には、検索範囲としては「北東座標 緯度35度00分00秒,経度139度00分00秒 〜 南西座標 緯度34度50分00秒,経度138度50分00秒」が例示される。検索範囲が言語である場合には、「日本語」といった検索範囲クエリとしてもよい。他にもドメイン、分野などが検索範囲として例示される。 The search range includes, for example, time, geography, language, domain, and field. When the search range is time, “July 2008-December 2009” is exemplified as the search range. If the search range is geography, the search range is “Northeast coordinates latitude 35 degrees 00 minutes 00 seconds, longitude 139 degrees 00 minutes 00 seconds to southwest coordinates latitude 34 degrees 50 minutes 00 seconds, longitude 138 degrees 50 minutes 00 seconds. Is exemplified. When the search range is a language, a search range query such as “Japanese” may be used. In addition, domains, fields, etc. are exemplified as the search range.
S2:追加キーワード取得部4はクエリ入力部2から供された検索範囲が追加キーワードDB3に含まれているかを判断する。
S2: The additional
S2では具体的には図3を参照して説明した前述のステップS41〜S43が実行される。例えば、図4,図5に示された追加キーワードDB3に前記検索範囲が含まれているかを判断する。前記検索範囲が追加キーワードDB3に含まれている場合、S3に移行する。一方、前記検索範囲が追加キーワードDB3に含まれていない場合、S7に移行する。
In S2, specifically, the above-described steps S41 to S43 described with reference to FIG. 3 are executed. For example, it is determined whether or not the search range is included in the
S3:追加キーワード取得部4はクエリ入力部2から供された検索範囲に対応する範囲における対応語群を追加キーワードDB3から引き出す。
S3: The additional
S4:追加キーワード取得部4はS3で取得した対応語群の各対応語の指定範囲中主要度を計算し、これによって算出された主要度が閾値よりも高い対応語を追加キーワードとして取得する。
S4: The additional
S4では具体的には図3を参照して説明した前述のステップS44〜S47が実行される。クエリ入力部2から供された検索範囲が単一である場合、式(1)に基づく演算によって対応語の指定範囲中主要度が算出される。一方、クエリ入力部2から供された検索範囲が複数である場合、式(2)に基づく演算によって対応語の指定範囲中主要度が算出される。そして、指定範囲中主要度が閾値以上である対応語句が追加キーワードとして取得される。
In S4, specifically, the above-described steps S44 to S47 described with reference to FIG. 3 are executed. When the search range provided from the
S5:追加キーワード取得部4はS1で供されたキーワード及び検索範囲に対してS4で取得した追加キーワードを追加したクエリを範囲検索部6に供する。
S5: The additional
S6:範囲検索部6は、S1で入力されたキーワードに適合する文書、S1で入力された検索範囲に適合する文書、及びS5で得られた追加キーワードに適合する文書を文書DB5から検索する。
S6: The
S7:追加キーワード取得部4はS1で入力された検索範囲を非特許文献2,3に例示される従来技術に係る範囲検索を実行する検索エンジンに供してキーワードを取得し、これを追加キーワードとする。そして、S1で供されたキーワード及び検索範囲に対して本ステップS7で取得された追加キーワードを追加したクエリを範囲検索部6に供する。
S7: The additional
S8:範囲検索部6は、S1で入力されたキーワードに適合する文書、S1で入力された検索範囲に適合する文書、及びS7で得られた追加キーワードに適合する文書を文書DB5から検索する。
S8: The
S9:検索結果出力部7はS6またはS8での検索で取得された文書を検索結果として出力する。
S9: The search
[本実施形態の効果]
以上のように本実施形態の情報検索装置1によれば、略語及び検索範囲を検索クエリとした際に、検索漏れが低減する共に検索精度が向上する。また、検索クエリとして略語を指定した際に指定した範囲によって当該略語の表す対応語が絞り込まれるので、当該略語及び当該範囲に関係のない文書が除外される。
[Effect of this embodiment]
As described above, according to the information search apparatus 1 of the present embodiment, when an abbreviation and a search range are used as search queries, search omissions are reduced and search accuracy is improved. In addition, since the corresponding words represented by the abbreviation are narrowed down by the range specified when the abbreviation is specified as the search query, the abbreviation and the document unrelated to the range are excluded.
特に、本実施形態においては追加キーワードDB3が具備されているので、前記略語及び単数または複数の検索範囲に対応する対応語群を効率的に取得できる。
In particular, since the
また、前記略語及び検索範囲に対応する対応語群の各対応語について当該検索範囲における主要度を示す指定範囲中主要度が算出され、この主要度が閾値よりも高い対応語が前記検索クエリへの追加キーワードとして取得される。このように前記指定範囲中主要度の閾値に基づき対応語が抽出されるので、前記略語に基づく情報検索を所望の検索精度で行える。 In addition, for each corresponding word in the corresponding word group corresponding to the abbreviation and the search range, a degree of importance in the designated range indicating the degree of importance in the search range is calculated, and a corresponding word having a degree of importance higher than a threshold is added to the search query. It is acquired as an additional keyword. As described above, the corresponding words are extracted based on the threshold value of the degree of importance in the designated range, so that information search based on the abbreviations can be performed with desired search accuracy.
さらに、前記検索範囲が複数指定された場合、前記略語及び当該複数の検索範囲に対応する対応語群の各対応語の各検索範囲における主要度を示す指定範囲中主要度を掛け合わせたものが前記複数の検索範囲からなる指定範囲集合における当該対応語の主要度を示す指定範囲中主要度とされる。そして、この主要度が閾値よりも高い対応語が前記検索クエリへの追加キーワードとして取得される。したがって、検索範囲が複数指摘された場合であっても、前記略語に基づく情報検索を所望の検索精度で行える。 Further, when a plurality of search ranges are designated, the abbreviations and the majorities in the designated ranges indicating the majorities in the respective search ranges of the corresponding words of the corresponding word group corresponding to the plurality of search ranges are multiplied. The degree of importance in the designated range indicating the degree of importance of the corresponding word in the designated range set consisting of the plurality of search ranges. Then, a corresponding word having a degree of importance higher than a threshold value is acquired as an additional keyword to the search query. Therefore, even when a plurality of search ranges are pointed out, information search based on the abbreviation can be performed with desired search accuracy.
また、本実施形態においては予め収集された情報を格納した文書DB5が具備されているので、前記略語、前記検索範囲及び前記追加キーワードに適合した文書を迅速に取得することできる。
Further, in the present embodiment, the
尚、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
[本発明のプログラムとしての態様]
本発明は上記の実施形態の情報検索装置1の各機能部の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータによって実行して本発明を実現することができる。また、コンピュータで前記機能部を実現するためのプログラムをそのコンピュータが読み取り可能な記録媒体、例えば、FD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、SSD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
[Aspect as Program of the Present Invention]
The present invention can implement the present invention by configuring a part or all of the functions of each functional unit of the information search apparatus 1 of the above embodiment by a computer program, and executing the program by the computer. In addition, a computer-readable recording medium such as an FD (Floppy (registered trademark) Disk), an MO (Magneto-Optical disk), or a ROM (Read Only Memory) can be read by the computer. , Memory card, CD (Compact Disk) -ROM, DVD (Digital Versatile Disk) -ROM, CD-R, CD-RW, HDD, SSD, removable disk, etc. Is possible. It is also possible to provide the above program through a network such as the Internet or electronic mail.
1…情報検索装置
3…追加キーワードDB(キーワードデータベース)
4…追加キーワード取得部(追加キーワード取得手段)
6…範囲検索部(範囲検索手段)
1 ...
4. Additional keyword acquisition unit (additional keyword acquisition means)
6. Range search unit (range search means)
Claims (5)
前記クエリとして供された略語からなるキーワード及び検索範囲に対応する対応語群から各対応語の主要度に基づき取得した対応語を当該クエリの追加キーワードとする追加キーワード取得手段と、
前記キーワード、前記検索範囲及び前記追加キーワードに基づき情報検索を行う範囲検索手段と
を備え、
前記追加キーワード取得手段は、
単一の検索範囲が供された場合、前記キーワード及び当該検索範囲に対応する対応語群の各対応語について当該検索範囲における主要度を示す指定範囲中主要度を算出し、この主要度が閾値よりも高い対応語を前記追加キーワードとして取得し、
複数の検索範囲が供された場合、前記キーワード及び当該複数の検索範囲に対応する対応語群の各対応語の各検索範囲における主要度を示す指定範囲中主要度を掛け合わせたものを前記複数の検索範囲からなる指定範囲集合における当該対応語の主要度を示す指定範囲中主要度とし、この主要度が閾値よりも高い対応語を前記追加キーワードとして取得すること
を特徴とする情報検索装置。 An information retrieval device for retrieving documents that match a query including an abbreviation,
An additional keyword acquisition means that uses a keyword consisting of abbreviations provided as the query and a corresponding word acquired from a corresponding word group corresponding to a search range based on the importance of each corresponding word as an additional keyword of the query;
Range search means for performing information search based on the keyword, the search range, and the additional keyword;
With
The additional keyword acquisition means includes
If a single search range is provided to calculate a specified range in the primary index showing the main degree of the search range for each respective corresponding word group corresponding to the keyword and the search range, the major degree threshold Higher corresponding word as the additional keyword,
In the case where a plurality of search ranges are provided, the keywords and the corresponding word groups corresponding to the plurality of search ranges are multiplied by the plurality of degrees in the designated range indicating the degrees of importance in each search range of the corresponding words. A degree of importance in the designated range indicating the degree of importance of the corresponding word in the designated range set consisting of the search ranges, and a corresponding word having a degree of importance higher than a threshold value is acquired as the additional keyword. Information retrieval device.
前記追加キーワード取得手段は前記供されたキーワード及び単数または複数の検索範囲に基づき前記キーワードデータベースから当該キーワード及び検索範囲に対応する対応語群を引き出すこと
を特徴とする請求項1に記載の情報検索装置。 A keyword database that pre-stores keywords indicated by abbreviations, ranges defining disclosure of the abbreviations, corresponding words corresponding to the abbreviations, and the majority of the corresponding words;
2. The information search according to claim 1 , wherein the additional keyword acquisition unit extracts a corresponding word group corresponding to the keyword and the search range from the keyword database based on the provided keyword and one or a plurality of search ranges. apparatus.
追加キーワード取得手段が前記クエリとして供された略語からなるキーワード及び検索範囲に対応する対応語群から各対応語の主要度に基づき取得した対応語を当該クエリの追加キーワードとするステップと、
範囲検索手段が前記キーワード、前記検索範囲及び前記追加キーワードに基づき情報検索を行うステップと
を有し、
単一の検索範囲が供された場合、前記追加キーワードを取得するステップでは、前記キーワード及び当該検索範囲に対応する対応語群の各対応語について当該検索範囲における主要度を示す指定範囲中主要度を算出し、この主要度が閾値よりも高い対応語を前記追加キーワードとして取得し、
複数の検索範囲が供された場合、前記追加キーワードを取得するステップでは、前記キーワード及び当該複数の検索範囲に対応する対応語群の各対応語の各検索範囲における主要度を示す指定範囲中主要度を掛け合わせたものを前記複数の検索範囲からなる指定範囲集合における当該対応語の主要度を示す指定範囲中主要度とし、この主要度が閾値よりも高い対応語を前記追加キーワードとして取得すること
を特徴とする情報検索方法。 An information retrieval method for retrieving documents that match a query including an abbreviation,
The additional keyword acquisition means sets the corresponding word acquired based on the majority of each corresponding word from the corresponding word group corresponding to the keyword and the search range consisting of the abbreviation provided as the query as an additional keyword of the query;
A range search means for performing an information search based on the keyword, the search range and the additional keyword;
Have
If a single search range is provided, wherein in the step of acquiring additional keywords, the keyword and the specified range in the primary index showing the main degree of the search range for each respective corresponding word group corresponding to the search range To obtain a corresponding word having a degree of importance higher than a threshold as the additional keyword,
When a plurality of search ranges are provided, in the step of obtaining the additional keyword, the key in the specified range indicating the degree of importance in each search range of each corresponding word of the corresponding word group corresponding to the keyword and the plurality of search ranges The degree multiplied by the degree is used as the degree of importance in the designated range indicating the degree of importance of the corresponding word in the designated range set composed of the plurality of search ranges, and the corresponding word having the degree of importance higher than the threshold is acquired as the additional keyword. information retrieval wherein the <br/> that.
を特徴とする請求項3に記載の情報検索方法。 In the step of acquiring the additional keyword, the keyword is provided from a keyword database that stores in advance a keyword indicated by an abbreviation, a range defining disclosure of the abbreviation, a corresponding word corresponding to the abbreviation, and a degree of importance of the corresponding word. 4. The information search method according to claim 3 , wherein a corresponding word group corresponding to the keyword and one or a plurality of search ranges is extracted.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011003242A JP5491422B2 (en) | 2011-01-11 | 2011-01-11 | Information search device, information search method, and information search program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011003242A JP5491422B2 (en) | 2011-01-11 | 2011-01-11 | Information search device, information search method, and information search program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012146079A JP2012146079A (en) | 2012-08-02 |
JP5491422B2 true JP5491422B2 (en) | 2014-05-14 |
Family
ID=46789589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011003242A Expired - Fee Related JP5491422B2 (en) | 2011-01-11 | 2011-01-11 | Information search device, information search method, and information search program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5491422B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142990A (en) * | 2014-07-28 | 2014-11-12 | 百度在线网络技术(北京)有限公司 | Search method and device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000331012A (en) * | 1999-05-19 | 2000-11-30 | Oki Electric Ind Co Ltd | Electronic document retrieval method |
JP2005267468A (en) * | 2004-03-19 | 2005-09-29 | Murata Mach Ltd | Information search apparatus |
JP2006323594A (en) * | 2005-05-18 | 2006-11-30 | Ntt Docomo Inc | Synonymous word extraction system and synonymous word extraction method |
JP4816409B2 (en) * | 2006-01-10 | 2011-11-16 | 日産自動車株式会社 | Recognition dictionary system and updating method thereof |
JP4900947B2 (en) * | 2007-02-22 | 2012-03-21 | 日本電信電話株式会社 | Abbreviation extraction method, abbreviation extraction apparatus, and program |
-
2011
- 2011-01-11 JP JP2011003242A patent/JP5491422B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012146079A (en) | 2012-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101078864B1 (en) | The query/document topic category transition analysis system and method and the query expansion based information retrieval system and method | |
US10108699B2 (en) | Adaptive query suggestion | |
US8180785B2 (en) | Method and system for searching numerical terms | |
JP4936401B2 (en) | Method and system for filtering subject-related web pages based on navigation path information | |
US8655648B2 (en) | Identifying topically-related phrases in a browsing sequence | |
US11455313B2 (en) | Systems and methods for intelligent prospect identification using online resources and neural network processing to classify organizations based on published materials | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
WO2009095355A2 (en) | Systems and methods for ranking search engine results | |
RU2733482C2 (en) | Method and system for updating search index database | |
US9262510B2 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
Davison et al. | Finding Relevant Website Queries. | |
JP5497105B2 (en) | Document retrieval apparatus and method | |
Toba et al. | Enhanced unsupervised person name disambiguation to support alumni tracer study | |
JP5224453B2 (en) | Geographic feature information extraction method and system | |
JP5639549B2 (en) | Information retrieval apparatus, method, and program | |
JP5491422B2 (en) | Information search device, information search method, and information search program | |
JP5292336B2 (en) | Knowledge amount estimation device, knowledge amount estimation method, and knowledge amount estimation program for each field of search system users | |
KR100943625B1 (en) | Method and System for Generating Integrated Database for Integradedly Managing Local Information and Website Information and Method for Providing Search Result Using Integrated Database | |
Nguyen et al. | Resource selection for federated search on the web | |
Halpin et al. | Relevance feedback between hypertext and semantic search | |
Gao et al. | Fine-grained geolocalization of user-generated short text based on weight probability model | |
JP6632564B2 (en) | Illegal content search device, illegal content search method, and program | |
Kapusta et al. | Analysis of differences between expected and observed probability of accesses to web pages | |
JP2013156876A (en) | Recommendation query extraction device, method, and program | |
KR100914647B1 (en) | Method and apparatus for creating recommendation keyword |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131210 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5491422 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |