JP5559911B1 - Information retrieval apparatus and program - Google Patents
Information retrieval apparatus and program Download PDFInfo
- Publication number
- JP5559911B1 JP5559911B1 JP2013126730A JP2013126730A JP5559911B1 JP 5559911 B1 JP5559911 B1 JP 5559911B1 JP 2013126730 A JP2013126730 A JP 2013126730A JP 2013126730 A JP2013126730 A JP 2013126730A JP 5559911 B1 JP5559911 B1 JP 5559911B1
- Authority
- JP
- Japan
- Prior art keywords
- score
- response
- unit
- response content
- scores
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000004044 response Effects 0.000 claims abstract description 241
- 238000010845 search algorithm Methods 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 5
- 230000033764 rhythmic process Effects 0.000 claims 2
- 238000011156 evaluation Methods 0.000 description 32
- 238000004891 communication Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Abstract
【課題】情報検索システムが、質問に合致しない応答をしてしまう割合を減少させる技術が望まれている。
【解決手段】コンピュータを、ユーザが入力したクエリを受け付けるクエリ受付部、第1検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、クエリに対する第1スコアを取得する第1スコア取得部、第1検索アルゴリズムとは異なる第2検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、クエリに対する第2スコアを取得する第2スコア取得部、第1スコア取得部が取得した複数の第1スコア及び第2スコア取得部が取得した複数の第2スコアに基づいて、クエリに対する応答内容を決定する応答内容決定部、及び応答内容決定部が決定した応答内容を出力する応答内容出力部として機能させるためのプログラムを提供する。
【選択図】図2There is a demand for a technique for reducing the rate at which an information search system makes a response that does not match a question.
A query reception unit that receives a query input by a user, a first score acquisition unit that acquires a first score for the query for each of a plurality of response contents searched using a first search algorithm, For each of a plurality of response contents searched using a second search algorithm different from the first search algorithm, a second score acquisition unit that acquires a second score for the query, and a plurality of second contents acquired by the first score acquisition unit As a response content determination unit that determines the response content to the query based on the plurality of second scores acquired by the 1 score and the second score acquisition unit, and a response content output unit that outputs the response content determined by the response content determination unit Provide a program to make it function.
[Selection] Figure 2
Description
本発明は、情報検索装置及びプログラムに関する。 The present invention relates to an information search apparatus and a program.
従来、ユーザからの質問に対して、予め登録された複数の回答内容から検索した回答内容を出力する回答装置が知られていた。(例えば、特許文献1参照)。
[先行技術文献]
[特許文献]
[特許文献1]特開2011−060218号公報
2. Description of the Related Art Conventionally, there has been known an answering device that outputs answer contents searched from a plurality of answer contents registered in advance for a question from a user. (For example, refer to Patent Document 1).
[Prior art documents]
[Patent Literature]
[Patent Document 1] Japanese Patent Application Laid-Open No. 2011-060218
ユーザから受け付けたクエリに合致する応答をする可能性を向上させる技術が望まれている。 A technique for improving the possibility of responding to a query received from a user is desired.
本発明の第1の態様においては、コンピュータを、ユーザが入力したクエリを受け付けるクエリ受付部、第1検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、クエリに対する第1スコアを取得する第1スコア取得部、第1検索アルゴリズムとは異なる第2検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、クエリに対する第2スコアを取得する第2スコア取得部、第1スコア取得部が取得した複数の第1スコア及び第2スコア取得部が取得した複数の第2スコアに基づいて、クエリに対する応答内容を決定する応答内容決定部、及び応答内容決定部が決定した応答内容を出力する応答内容出力部として機能させるためのプログラムが提供される。 In the first aspect of the present invention, the computer acquires a first score for a query for each of a plurality of response contents searched using a query receiving unit that receives a query input by a user and a first search algorithm. A first score acquisition unit, a second score acquisition unit that acquires a second score for a query for each of a plurality of response contents searched using a second search algorithm different from the first search algorithm, a first score acquisition unit Based on the plurality of first scores acquired by the second score acquisition unit and the plurality of second scores acquired by the second score acquisition unit, the response content determination unit for determining the response content to the query and the response content determined by the response content determination unit are output. A program for functioning as a response content output unit is provided.
上記プログラムは、上記コンピュータを、複数の応答内容が登録された応答内容テーブルを参照する応答内容テーブル参照部、複数の語句及び複数の語句のそれぞれに対応付けられたスコアが登録された語句スコアテーブルを参照する語句スコアテーブル参照部、クエリ受付部が受け付けたクエリから複数の語句を抽出する語句抽出部、及び応答内容テーブルに登録された複数の応答内容のそれぞれについて、語句抽出部により抽出された複数の語句のうち、応答内容に含まれる複数の語句のスコアを、語句スコアテーブルから取得して乗算又は加算することにより、応答内容の第1スコアを算出する第1スコア算出部としてさらに機能させてよく、第1スコア取得部は、第1スコア算出部により算出された第1スコアを取得してよい。 The program includes a response content table reference unit that refers to a response content table in which a plurality of response contents are registered, a plurality of words, and a phrase score table in which scores associated with each of the plurality of words are registered. The phrase score table reference section for referring to the phrase, the phrase extraction section for extracting a plurality of phrases from the query received by the query reception section, and the plurality of response contents registered in the response contents table are extracted by the phrase extraction section. Of the plurality of phrases, the scores of the plurality of phrases included in the response content are acquired from the phrase score table and multiplied or added to further function as a first score calculation unit that calculates the first score of the response content. The first score acquisition unit may acquire the first score calculated by the first score calculation unit.
上記応答内容テーブルには、複数の応答内容及び複数の応答内容のそれぞれに対応付けられた複数の語句が登録されていてよく、第1スコア算出部は、応答内容テーブルに登録された複数の応答内容のそれぞれについて、語句抽出部により抽出された複数の語句のうち、応答内容及び対応付けられた複数の語句に含まれる複数の語句のスコアを、語句スコアテーブルから取得して乗算又は加算することにより、応答内容の第1スコアを算出してよい。また、上記プログラムにおいて、第1スコア算出部は、IDF(Inverse Document Frequency)法をさらに用いて第1スコアを算出してよい。 In the response content table, a plurality of response contents and a plurality of words associated with each of the plurality of response contents may be registered, and the first score calculation unit includes a plurality of responses registered in the response content table. For each of the contents, out of a plurality of phrases extracted by the phrase extraction unit, a response content and scores of a plurality of phrases included in the associated plurality of phrases are acquired from the phrase score table and multiplied or added. Thus, the first score of the response content may be calculated. In the above program, the first score calculation unit may further calculate the first score by using an IDF (Inverse Document Frequency) method.
上記コンピュータを、応答内容テーブルに登録された複数の応答内容のそれぞれについて、語句抽出部により抽出された複数の語句のうち、応答内容に含まれる複数の語句のスコアを、TF(Term Frequency)法及びIDF法の少なくともいずれかによって算出して加算することにより、応答内容の第2スコアを算出する第2スコア算出部としてさらに機能させてよく、第2スコア取得部は、第2スコア算出部により算出された第2スコアを取得してよい。上記プログラムにおいて、第2スコア算出部は、応答内容テーブルに登録された複数の応答内容のそれぞれについて、語句抽出部により抽出された複数の語句のうち、応答内容及び対応付けられた複数の語句に含まれる複数の語句のスコアを、TF法及びIDF法の少なくともいずれかによって算出して加算することにより、応答内容の第2スコアを算出してよい。上記プログラムにおいて、第2スコア算出部は、語句抽出部により抽出された複数の語句に対する重み付けと、語句が応答内容に含まれるか当該応答内容に対応付けられた複数の語句に含まれるかに依存する重み付けと、応答内容の長さに対する重み付けと、語句抽出部により抽出された複数の語句のうち応答内容及び対応する複数の語句に含まれる語句の種類の数に対する重み付けと、の少なくともいずれかにさらに基づいて、第2スコアを算出してよい。 For each of a plurality of response contents registered in the response content table, the computer calculates scores of a plurality of words included in the response content among a plurality of words extracted by the word / phrase extraction unit, using a TF (Term Frequency) method. And by calculating and adding at least one of the IDF method, the second score calculating unit may further function as a second score calculating unit that calculates the second score of the response content. You may acquire the calculated 2nd score. In the above program, the second score calculation unit applies a response content and a plurality of associated words out of a plurality of words extracted by the word extraction unit for each of a plurality of response contents registered in the response content table. The second score of the response content may be calculated by calculating and adding scores of a plurality of words included by at least one of the TF method and the IDF method. In the above program, the second score calculation unit depends on the weighting for the plurality of words extracted by the word extraction unit and whether the word is included in the response content or the plurality of words associated with the response content. A weight for the length of the response content, and a weight for the number of types of words included in the response content and the corresponding multiple words among the multiple words extracted by the word extraction unit. Further, the second score may be calculated based on the above.
上記プログラムにおいて、応答内容決定部は、第1検索アルゴリズムを用いて検索された複数の応答内容のそれぞれの第1スコアを加算した第1加算値によって、複数の応答内容のそれぞれの第1スコアを正規化してよく、第2検索アルゴリズムを用いて検索された複数の応答内容のそれぞれの第2スコアを加算した第2加算値によって、複数の応答内容のそれぞれの第2スコアを正規化してよい。上記プログラムにおいて、応答内容決定部は、第1検索アルゴリズムの信頼度を適用した複数の第1スコアと、第2検索アルゴリズムの信頼度を適用した複数の第2スコアとに基づいて、クエリに対する応答内容を決定してよい。上記プログラムにおいて、応答内容決定部は、複数の第1スコアに対して、第1検索アルゴリズムを用いて検索された複数の応答内容の数を適用してよく、複数の第2スコアに対して、第2検索アルゴリズムを用いて検索された複数の応答内容の数を適用してよい。上記プログラムにおいて、応答内容決定部は、第1検索アルゴリズムを用いて検索された複数の応答内容の数が多いほど、複数の第1スコアを高くしてよく、第2検索アルゴリズムを用いて検索された複数の応答内容の数が多いほど、複数の第2スコアを高くしてよい。 In the above program, the response content determination unit obtains each first score of the plurality of response contents by a first addition value obtained by adding the first scores of the plurality of response contents searched using the first search algorithm. You may normalize and you may normalize each 2nd score of several response content with the 2nd addition value which added each 2nd score of each response content searched using the 2nd search algorithm. In the above program, the response content determination unit responds to the query based on the plurality of first scores to which the reliability of the first search algorithm is applied and the plurality of second scores to which the reliability of the second search algorithm is applied. The content may be determined. In the above program, the response content determination unit may apply the number of response contents searched using the first search algorithm to the plurality of first scores, and to the plurality of second scores, You may apply the number of the some response content searched using the 2nd search algorithm. In the above program, the response content determination unit may increase the plurality of first scores as the number of the plurality of response contents searched using the first search algorithm increases, and search using the second search algorithm. The larger the number of response contents, the higher the plurality of second scores.
本発明の第2の態様においては、ユーザが入力したクエリを受け付けるクエリ受付部と、第1検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、クエリに対する第1スコアを取得する第1スコア取得部と、第1検索アルゴリズムとは異なる第2検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、クエリに対する第2スコアを取得する第2スコア取得部と、第1スコア取得部が取得した複数の第1スコア及び第2スコア取得部が取得した複数の第2スコアに基づいて、クエリに対する応答内容を決定する応答内容決定部と、応答内容決定部が決定した応答内容を出力する応答内容出力部とを備える情報検索装置が提供される。 In the second aspect of the present invention, a query receiving unit that accepts a query input by a user and a first score for the query for each of a plurality of response contents searched using the first search algorithm. A score acquisition unit, a second score acquisition unit that acquires a second score for the query for each of a plurality of response contents searched using a second search algorithm different from the first search algorithm, and a first score acquisition unit Based on the plurality of first scores acquired by the first score and the plurality of second scores acquired by the second score acquisition unit, the response content determination unit that determines the response content to the query and the response content determined by the response content determination unit are output. An information search apparatus including a response content output unit is provided.
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。 It should be noted that the above summary of the invention does not enumerate all the necessary features of the present invention. In addition, a sub-combination of these feature groups can also be an invention.
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。 Hereinafter, the present invention will be described through embodiments of the invention, but the following embodiments do not limit the invention according to the claims. In addition, not all the combinations of features described in the embodiments are essential for the solving means of the invention.
図1は、情報検索システム100の通信環境の一例を概略的に示す。情報検索システム100は、本実施形態に係るプログラムによって各種処理を実行するコンピュータの一例であってよい。本実施形態において、情報検索システム100は、ユーザ10から受け付けたクエリに対する応答内容を検索して、ユーザ10に対して出力する。
FIG. 1 schematically shows an example of a communication environment of the
図1は、情報検索システム100が、通信端末30を介してクエリの受付及び応答内容の出力をする例を示す。情報検索システム100によるクエリの受付及び応答内容の出力はこれにかぎらず、ユーザ10から直接クエリを受け付けて、応答内容を出力してもよい。また、通信端末30が、情報検索システム100として機能してもよい。
FIG. 1 illustrates an example in which the
ユーザ10は、例えば、通信端末30に対してクエリをテキスト入力又は音声入力する。テキスト入力されたクエリは、通信端末30によって情報検索システム100に送信される。音声入力されたクエリは、音声認識技術によってテキストに変換され、情報検索システム100に送信される。音声認識処理は、通信端末30、ネットワーク20に接続された音声処理サーバ40、及び情報検索システム100の少なくともいずれかによって実行されてよい。
The
情報検索システム100は、受け付けたクエリに対する応答内容を検索する。そして、情報検索システム100は、特定した応答内容をユーザ10に対して出力する。例えば、情報検索システム100は、応答内容を通信端末30に表示出力又は音声出力させる。また、情報検索システム100は、ユーザ10に対して直接表示出力又は音声出力してもよい。応答内容は、音声合成技術によって音声データに変換される。音声合成処理は、情報検索システム100、音声処理サーバ40、及び通信端末30の少なくともいずれかによって実行されてよい。
The
上述した処理の流れによって、情報検索システム100は、クエリに対する応答内容を出力する。本実施形態における情報検索システム100は、クエリに対する応答内容を検索するにあたり、クエリに合致しない応答をしてしまう割合を減少させるべく、複数種類の検索アルゴリズムを用いてそれぞれ検索した結果に基づいて、応答内容を特定する処理を実行する。
The
図2は、情報検索システム100の機能構成を概略的に示す。ここでは、情報検索システム100が、単語条件検索と全文検索の2種類の検索アルゴリズムによる検索結果に基づいて、応答内容を特定する場合を例に挙げて説明する。なお、情報検索システム100が用いる検索アルゴリズムはこれに限らず、他の検索アルゴリズムを用いて検索を行ってもよい。また、3種類以上の検索アルゴリズムによる検索結果に基づいて、応答内容を特定してもよい。
FIG. 2 schematically shows a functional configuration of the
情報検索システム100は、シナリオ実行エンジン200、単語条件検索エンジン300、全文検索エンジン400、及び評価エンジン500を備える。シナリオ実行エンジン200は、クエリ受付部202、形態素解析部204、形態素辞書205、NGワードフィルタ206、NGワード辞書207、類義語展開部208、類義語辞書209、スコア取得部210、応答内容決定部216、及び応答内容出力部218を有する。単語条件検索エンジン300は、単語条件検索部302及び語句スコアテーブル310を有する。全文検索エンジン400は、全文検索部402を有する。評価エンジン500は、評価部502を有する。
The
クエリ受付部202は、ユーザが入力したクエリを受け付ける。クエリ受付部202は、例えば、通信端末30及び音声処理サーバ40等から、テキスト又は音声のクエリを受信する。クエリ受付部202は、音声のクエリを受け付けた場合には、音声認識処理を実行することによってテキストに変換してよい。なお、クエリ受付部202は、マイク及びキーボードなどの入力機器を介して、直接クエリを受け付けてもよい。
The query receiving unit 202 receives a query input by the user. The query receiving unit 202 receives a text or voice query from, for example, the
形態素解析部204は、形態素辞書205を用いてクエリを形態素解析して、複数の語句を抽出する。語句とは、単語及びフレーズの少なくともいずれかであってよい。形態素辞書205は周知の形態素データを含んでよく、また、情報検索システム100の管理者等によって登録された語句を含んでよい。形態素辞書205は、情報検索システム100の管理者等によって編集可能であってよい。形態素解析部204は、形態素辞書205に登録された語句に最長一致する単位で語句を抽出してよい。
The morpheme analysis unit 204 performs morpheme analysis on the query using the
NGワードフィルタ206は、形態素解析部204によって抽出された複数の語句から、NGワード辞書207に登録されたNGワードを除去する。NGワード辞書207は、情報検索システム100の管理者等によって登録されたNGワードを含んでよい。NGワードとしては、例えば、応答内容の識別に貢献しない使用頻度の高いワードが登録される。NGワード辞書207は、情報検索システム100の管理者等によって編集可能であってよい。
The
類義語展開部208は、形態素解析部204によって抽出され、NGワードフィルタ206によって除去されなかった語句の類義語を、類義語辞書209を用いて展開する。類義語辞書209は、周知の類義語データを含んでよく、また、情報検索システム100の管理者等によって登録された類義語を含んでよい。類義語辞書209は、情報検索システム100の管理者等によって編集可能であってよい。
The
スコア取得部210は、第1スコア取得部212及び第2スコア取得部214を有する。第1スコア取得部212は、単語条件検索エンジン300によって検索された複数の応答内容のそれぞれについて、クエリに対するスコア(第1スコアと称する場合がある。)を取得する。第1スコア取得部212は、類義語展開部208から受信した複数の語句を、単語条件検索部302に送信し、単語条件検索部302から、検索された複数の応答内容のそれぞれの第1スコアを受信してよい。
The score acquisition unit 210 includes a first score acquisition unit 212 and a second
単語条件検索部302は、コンテンツテーブル280及び語句スコアテーブル310を参照することにより、クエリに対する応答内容を検索する。コンテンツテーブル280には、複数の応答内容が登録される。複数の応答内容は、情報検索システム100の管理者等によって予め登録されてよい。コンテンツテーブル280は、応答内容テーブルの一例であってよい。
The word
語句スコアテーブル310には、複数の語句及び複数の語句のそれぞれに対応付けられたスコアが登録される。複数の語句及びそれぞれのスコアは、情報検索システム100の管理者等によって予め登録されてよい。
In the phrase score table 310, a plurality of phrases and scores associated with each of the plurality of phrases are registered. A plurality of words and their scores may be registered in advance by an administrator of the
単語条件検索部302は、コンテンツテーブル280に登録された複数の応答内容のそれぞれについて、第1スコア取得部212から受信した複数の語句のうち、応答内容に含まれる複数の語句のスコアを、語句スコアテーブル310から取得して乗算又は加算することにより、応答内容の第1スコアを算出してよい。そして、単語条件検索部302は、算出した第1スコアが予め定められた閾値より大きい応答内容を検索結果として採用してよい。
The word
予め定められた閾値は、0であってよく、また、情報検索システム100の管理者等によって任意に定められた値であってもよい。単語条件検索部302が用いる検索アルゴリズムは、第1検索アルゴリズムの一例であってよい。
The predetermined threshold may be 0, or may be a value arbitrarily determined by an administrator of the
第2スコア取得部214は、全文検索エンジン400によって検索された複数の応答内容のそれぞれについて、クエリに対するスコア(第2スコアと称する場合がある。)を取得する。第2スコア取得部214は、類義語展開部208から受信した複数の語句を、全文検索部402に送信し、全文検索部402から、検索された複数の応答内容のそれぞれの第2スコアを受信してよい。
The second
全文検索部402は、コンテンツテーブル280を参照することにより、クエリに対する応答内容を検索する。なお、ここでは、単語条件検索エンジン300及び全文検索エンジン400が同一のコンテンツテーブル280を参照する場合を例に挙げて説明するが、単語条件検索エンジン300及び全文検索エンジン400のそれぞれが、複製されたコンテンツテーブル280を有してもよい。なお、全文検索エンジン400として、Apacheプロジェクトが管理する全文検索エンジンであるLUCENEを採用してもよい。
The full-
全文検索部402は、コンテンツテーブル280に登録された複数の応答内容のそれぞれについて、第2スコア取得部214から取得した複数の語句のうち、応答内容に含まれる複数の語句を、TF法及びIDF法の少なくともいずれかによって算出して加算することにより、応答内容の第2スコアを算出してよい。
For each of a plurality of response contents registered in the content table 280, the full-
そして、全文検索部402は、算出した第2スコアが予め定められた閾値より大きい応答内容を検索結果として採用してよい。予め定められた閾値は、0であってよく、また、情報検索システム100の管理者等によって任意に定められた値であってもよい。全文検索部402が用いる検索アルゴリズムは、第2検索アルゴリズムの一例であってよい。
Then, the full-
応答内容決定部216は、第1スコア取得部212が取得した複数の第1スコア及び第2スコア取得部214が取得した複数の第2スコアに基づいて、クエリに対する応答内容を決定する。応答内容決定部216は、単語条件検索部302によって検索された複数の応答内容及びそれぞれの第1スコアと、全文検索部402によって検索された複数の応答内容及びそれぞれの第2スコアとを、評価部502に評価させてよい。ここで、評価部502による評価とは、第1スコア及び第2スコアに基づいて、複数の応答内容の最終的なスコアを算出することであってよい。
The response content determination unit 216 determines the response content to the query based on the plurality of first scores acquired by the first score acquisition unit 212 and the plurality of second scores acquired by the second
評価部502は、複数の第1スコア及び複数の第2スコアに基づいて、クエリに対する複数の応答内容のそれぞれのスコアを算出する。評価部502は、複数の応答内容のうちの一の応答内容が、単語条件検索部302による検索結果及び全文検索部402による検索結果の一方のみに含まれる場合には、その一方のスコアを採用する。また、評価部502は、複数の応答内容のうちの一の応答内容が、単語条件検索部302による検索結果と、全文検索部402による検索結果の両方に含まれる場合には、対応する第1スコア及び第2スコアを重み付け加算してよい。
The evaluation unit 502 calculates each score of a plurality of response contents for the query based on the plurality of first scores and the plurality of second scores. If the response content of one of the plurality of response content is included in only one of the search result by the word
例えば、評価部502は、第1スコアに第1検索アルゴリズムの信頼度を適用し、第2スコアに第2検索アルゴリズムの信頼度を適用して、加算する。信頼度の適用とは、例えば、信頼度を乗算することである。これによって、より信頼性の高い検索アルゴリズムによる検索結果を重視しつつ、より信頼性の低い検索アルゴリズムによる検索結果をも考慮に加えた検索結果を提供できる。 For example, the evaluation unit 502 applies the reliability of the first search algorithm to the first score and applies the reliability of the second search algorithm to the second score. Application of reliability is, for example, multiplying reliability. As a result, it is possible to provide a search result in which the search result by the search algorithm with lower reliability is also taken into consideration while placing importance on the search result by the search algorithm with higher reliability.
なお、信頼度の適用とは、信頼度が大きいほどスコアが高くなる計算であってよく、例えば、信頼度の大きさに応じた大きさを有する係数を乗算することであってもよい。第1検索アルゴリズムの信頼度及び第2検索アルゴリズムの信頼度は、情報検索システム100の管理者等によって予め設定されてよい。例えば、全文検索部402が用いる第2検索アルゴリズムの信頼度が、単語条件検索部302が用いる第1検索アルゴリズムの信頼度よりも高くなるように設定されてよい。第1検索アルゴリズムの信頼度と第2検索アルゴリズムの信頼度とは、合計が1.0になるように設定されてよい。
The application of the reliability may be a calculation in which the score increases as the reliability increases, and may be, for example, multiplication by a coefficient having a magnitude corresponding to the magnitude of the reliability. The reliability of the first search algorithm and the reliability of the second search algorithm may be set in advance by an administrator of the
また、評価部502は、第1スコア及び第2スコアを、検索結果の順位によって正規化してよい。例えば、評価部502は、単語条件検索部302によって検索された複数の応答内容のそれぞれの第1スコアを加算した第1加算値によって、複数の応答内容のそれぞれの第1スコアを正規化する。また、例えば、評価部502は、全文検索部402によって検索された複数の応答内容のそれぞれの第2スコアを加算した第2加算値によって、複数の応答内容のそれぞれの第2スコアを正規化する。これにより、第1検索アルゴリズムと第2検索アルゴリズムとのスコアの尺度の違いを吸収できる。
Further, the evaluation unit 502 may normalize the first score and the second score according to the rank of the search result. For example, the evaluation unit 502 normalizes each first score of the plurality of response contents by using a first addition value obtained by adding the first scores of the plurality of response contents searched by the word
また、評価部502は、単語条件検索部302により検索された複数の応答内容の数を第1スコアに適用してよく、全文検索部402により検索された複数の応答内容の数を第2スコアに適用してよい。検索された応答内容の数を適用するとは、例えば、検索された応答内容の数をスコアに乗算することである。これにより、例えば、スコアを正規化した場合における検索結果数が多いことによるスコアの値の低下を、補てんすることができる。なお、検索された応答内容の数を適用するとは、検索された応答内容の数が多いほどスコアが高くなる計算であってよく、例えば、検索された応答内容の数の多さに対応する大きさを有する係数を乗算することであってもよい。
Further, the evaluation unit 502 may apply the number of response contents searched by the word
評価部502は、スコアを算出した複数の応答内容のうち、最も高いスコアを有する応答内容を検索結果として応答内容決定部216に送信してよい。また、評価部502は、複数の応答内容のうち、スコアの高い順に任意の数の応答内容を応答内容決定部216に送信してもよい。また、評価部502は、スコアを算出したすべての応答内容を応答内容決定部216に送信してもよい。 The evaluation unit 502 may transmit the response content having the highest score among the plurality of response contents for which the scores have been calculated to the response content determination unit 216 as a search result. In addition, the evaluation unit 502 may transmit an arbitrary number of response contents from the plurality of response contents to the response content determination unit 216 in descending order of score. In addition, the evaluation unit 502 may transmit all response contents for which scores have been calculated to the response content determination unit 216.
応答内容出力部218は、応答内容決定部216が決定した、クエリに対する応答内容を出力する。応答内容出力部218は、複数の応答内容のうち最も高いスコアを有する応答内容のみを検索結果として出力してよい。また、応答内容出力部218は、スコアの高い順に任意の数の応答内容を出力してもよい。
The response
上述したように、本実施形態に係る情報検索システム100は、コンテンツテーブル280に対して、複数の検索アルゴリズムを用いることによって複数の検索結果を取得し、複数の検索結果に基づいて、応答内容を特定する。これにより、複数のアルゴリズムの長所を活かし、短所を補うような検索結果を提供することができる。特に、第1検索アルゴリズム及び第2検索アルゴリズムの信頼度を編集可能に構成したことによって、第1検索アルゴリズムが有利な検索対象、第2検索アルゴリズムが有利な検索対象など、場面に応じたチューニングを容易に行わせることができる。
As described above, the
図3は、コンテンツテーブル280の一例を概略的に示す。コンテンツテーブル280は、複数のID毎に、title、body、及び登録語句を含んでよい。title及びbodyは、応答内容の一例であってよい。例えば、応答内容出力部218がID:0001の応答内容を出力する場合、「パケットし放題対象になるサービスは、国内でご利用いただいたメール・ウェブのご利用料金(通信料)が「パケットし放題」の対象です」と出力する。登録語句は、情報検索システム100の管理者等によって、ID毎に登録される語句であってよい。情報検索システム100の管理者等は、例えば、ID毎の応答内容に関連する語句を登録する。
FIG. 3 schematically shows an example of the content table 280. The content table 280 may include a title, a body, and a registered phrase for each of a plurality of IDs. The title and body may be an example of response contents. For example, when the response
図4は、語句スコアテーブル310の一例を概略的に示す。語句スコアテーブル310には、複数の語句と、複数の語句のそれぞれのスコアとが登録される。複数の語句及びそれぞれのスコアは、情報検索システム100の管理者等によって登録されてよい。
FIG. 4 schematically shows an example of the phrase score table 310. In the phrase score table 310, a plurality of phrases and the scores of the plurality of phrases are registered. A plurality of words and their scores may be registered by an administrator of the
語句スコアテーブル310に登録された語句は、形態素辞書205に登録されてよい。これにより、例えば、クエリに「パケットし放題」が含まれる場合に、形態素解析部204は「パケット」と「放題」に分解することなく、「パケットし放題」を切り出すことができる。なお、形態素解析部204は、クエリに「パケットし放題」が含まれる場合、「パケットし放題」、「パケット」、「放題」を抽出してもよい。なお、語句スコアテーブル310は、さらに、複数の語句のそれぞれの類義語を含んでもよい。例えば、図4の例において、「お金」という語句に対して「請求額」、「金額」が類義語として登録される。
The phrases registered in the phrase score table 310 may be registered in the
上述したように、単語条件検索部302は、コンテンツテーブル280及び語句スコアテーブル310を参照することにより、クエリに対する、複数の応答内容の第1スコアを算出する。ここで、「定額で使えるパケットし放題のサービスができる対象は」というクエリを受け付けた場合のID:0001の応答内容の第1スコア算出について、具体例を挙げて説明する。なお、単語条件検索部302は、第1スコア算出にあたり、コンテンツテーブル280の登録語句を用いても用いなくてもよいが、ここでは、登録語句を用いる場合について説明する。
As described above, the word
まず、クエリ「定額で使えるパケットし放題のサービスができる対象は」から、形態素解析部204、NGワードフィルタ206、及び類義語展開部208によって、例えば「定額」、「パケットし放題」、「サービス」、及び「対象」が抽出されたとする。単語条件検索部302は、抽出された語句のうち、ID:0001の応答内容及び登録語句に含まれる語句を特定する。ここでは、「定額」、「パケットし放題」、「サービス」、及び「対象」が特定される。そして単語条件検索部302は、それぞれの語句に対応するスコアを語句スコアテーブル310から取得して乗算又は加算する。これにより、3.0、10.0、3.0、2.0を乗算した180.0又は加算した15.0が算出される。このように、単語条件検索部302は、コンテンツテーブル280及び語句スコアテーブル310を参照することによって、第1スコアを算出する。
First, from the query “objects for which an unlimited packet service can be used for a fixed amount”, the morphological analysis unit 204, the
なお、単語条件検索部302は、IDF法をさらに用いて第1スコアを算出してよい。すなわち、単語条件検索部302は、コンテンツテーブル280に登録された全応答内容のうち、対象とする語句を含む応答内容の数を考慮して第1スコアを算出してよい。例えば、全応答内容の数が1000個であり、「定額」を含む応答内容の数が9個である場合に、log(全応答内容数/「定額」を含む応答内容数+1)=log(1000/(9+1))=2を、「定額」のスコア3.0に乗算してよい。
Note that the word
全文検索部402は、TF法及びIDF法の少なくともいずれかによって、第2スコアを算出してよい。例えば、TF法のみを用いる場合には、ID:0001の応答内容における「定額」、「パケットし放題」、「サービス」、及び「対象」のそれぞれの出現頻度を算出して加算することにより、第2スコアを算出してよい。
The full-
なお、全文検索部402は、さらに、各種重み付けを適用することによって、第2スコアを算出してよい。例えば、全文検索部402は、クエリから抽出された複数の語句に対する重み付けを採用する。例えば、クエリから複数の語句を抽出した後で、複数の語句をユーザに提示して、複数の語句に対する重み付けの入力を受け付けることにより、クエリから抽出された複数の語句に重み付けをしてよい。これにより、ユーザがより重要と考える語句を重視した検索結果を提供することができる。全文検索エンジン400としてLUCENEを採用した場合、GetBoost関数によって当該重み付けを実現してもよい。
The full-
また、全文検索部402は、検索フィールドに対する重み付けを採用してよい。例えば、全文検索部402は、語句が、コンテンツテーブル280の応答内容に含まれる場合と、登録語句に含まれる場合とで異なる重み付けをしてスコアを算出してよい。全文検索部402は、応答内容に含まれる場合よりも登録語句に含まれる場合の方により重い重み付けをして、スコアを算出してよい。全文検索エンジン400としてLUCENEを採用した場合、GetBoost関数によって当該重み付けを実現してもよい。
Further, the full
また、全文検索部402は、応答内容の長さに対する重み付けを採用してよい。例えば、全文検索部402は、応答内容の長さが短いほど、語句が含まれた場合のスコアが高くなるように、第2スコアを算出する。全文検索エンジン400としてLUCENEを採用した場合、LengthNorm関数によって当該重み付けを実現してもよい。
The full-
また、全文検索部402は、形態素解析部204によってクエリから抽出された複数の語句のうち、応答内容及び登録語句に含まれる語句の種類の数に対応する重み付けを採用してよい。例えば、全文検索部402は、より多くの種類の語句が含まれる方が、第2スコアが高くなるべく、第2スコアを算出する。全文検索エンジン400としてLUCENEを採用した場合、coord関数によって当該重み付けを実現してもよい。
In addition, the full-
図5は、検索結果スコア及び正規化後の検索結果スコアの一例を概略的に示す。図5における単語条件検索結果スコア350は、4つの応答内容とそれぞれのスコアとを含む。ID:0001のスコアが24.0、ID:0002のスコアが10.0、ID:0003のスコアが4.0、ID:0004のスコアが2.0であり、合計スコアが40.0である。
FIG. 5 schematically shows an example of the search result score and the search result score after normalization. The word condition
評価部502は、合計スコア40.0によって各スコアを正規化することにより、単語条件正規化後スコア352を算出する。ID:0001については、24.0/40.0×100=60.0が算出され、ID:0002、ID:0003、ID:0004についても同様に、それぞれ、25.0、10.0、5.0が算出される。
The evaluation unit 502 calculates a post-word
全文検索結果スコア450は、6つの応答内容とそれぞれのスコアとを含む。ID:0003のスコアが12.0、ID:0005のスコアが10.0、ID:0006のスコアが9.0、ID:0004のスコアが6.0、ID:0007のスコアが2.0、ID:0008のスコアが1.0であり、合計スコアが40.0である。
The full-text
評価部502は、合計スコア40.0によって各スコアを正規化することにより、全文検索正規化後スコア452を算出する。ID:0003については、12.0/40.0×100=30.0が算出され、ID:0005、ID:0006、ID:0004、ID:0007、ID:0008についても同様に、それぞれ、25.0、22.5、15.0、5.0、2.5が算出される。
The evaluation unit 502 calculates the post-full-text search normalized
図6は、評価結果スコアの一例を概略的に示す。図6は、図5に示す検索結果スコアに基づいて、評価部502によって生成された評価結果スコア550の例を示す。評価結果スコア550は、応答内容のID毎にスコアを含む。図6に示す例では説明のため、スコアの算出式を示している。ID:0003は、単語条件正規化後スコア352及び全文検索正規化後スコア452の両方に含まれることから、評価部502は、単語条件正規化後スコア352におけるスコアと、全文検索正規化後スコア452におけるスコアとの両方からID:0003のスコアを算出する。
FIG. 6 schematically shows an example of the evaluation result score. FIG. 6 shows an example of the evaluation result score 550 generated by the evaluation unit 502 based on the search result score shown in FIG. The evaluation result score 550 includes a score for each ID of the response content. In the example shown in FIG. 6, a score calculation formula is shown for explanation. Since ID: 0003 is included in both the word condition normalized
ここでは、評価部502が、正規化されたスコアに対して、検索アルゴリズムの信頼度と、検索結果数を乗じてスコアを算出する場合を例示している。本例では、単語条件検索エンジン300による検索の信頼度を0.3とし、全文検索エンジン400による検索の信頼度を0.7としている。
In this example, the evaluation unit 502 calculates the score by multiplying the normalized score by the reliability of the search algorithm and the number of search results. In this example, the reliability of the search by the word
ID:0003について、評価部502は、単語条件正規化後スコア352におけるスコア10.0に対して、検索アルゴリズムの信頼度0.3及び検索結果数4を乗じることにより、12.0というスコアを算出する。また、評価部502は、全文検索正規化後スコア452におけるスコア30.0に対して、検索アルゴリズムの信頼度0.7及び検索結果数6を乗じることにより、126.0というスコアを算出する。そして、評価部502は、12.0と126.0とを加算することにより、ID:0003のスコアを138.0と算出する。
For ID: 0003, the evaluation unit 502 multiplies the score 10.0 in the word condition normalized
ID:0005については、全文検索正規化後スコア452にしか含まれないことから、評価部502は、全文検索正規化後スコア452におけるスコア25.0に対して、検索アルゴリズムの信頼度0.7及び検索結果数6を乗じることにより、105.0というスコアを算出する。他の応答内容についても同様に、ID:0006については94.5、ID:0001については72.0、ID:0004について69.0、ID:0002については30.0、ID:0007については21.0、ID:0008については10.5が算出される。
Since ID: 0005 is only included in the post-full-text search normalized
このように、単語条件検索部302による検索と、全文検索部402による検索との両方に基づいて、クエリに対する応答内容のスコアを算出することにより、単語条件検索部302による検索及び全文検索部402による検索の長所を活かし、短所を補うような結果を提供することができる。
As described above, the search by the word
以上の説明において、情報検索システム100の各部は、ハードウエアにより実現されてもよく、ソフトウエアにより実現されてもよい。また、ハードウエアとソフトウエアとの組み合わせにより実現されてもよい。例えば、シナリオ実行エンジン200、単語条件検索エンジン300、全文検索エンジン400、及び評価エンジン500は、それぞれ異なるハードウエア、ソフトウエアによって実現されてもよい。
In the above description, each unit of the
例えば、情報検索システム100上でプログラムが実行されることにより、コンピュータが、情報検索システム100の一部として機能してもよい。プログラムは、コンピュータ読み取り可能な媒体に記憶されていてもよく、ネットワークに接続された記憶装置に記憶されていてもよい。CPU、ROM、RAM、通信インターフェース等を有するデータ処理装置と、入力装置と、出力装置と、記憶装置とを備えた一般的な構成の情報処理装置において、情報検索システム100の各部の動作を規定したソフトウエア又はプログラムを起動することにより、情報検索システム100が実現されてよい。
For example, a computer may function as a part of the
コンピュータにインストールされ、コンピュータを本実施形態に係る情報検索システム100の一部として機能させるプログラムは、情報検索システム100の各部の動作を規定したモジュールを備える。これらのプログラム又はモジュールは、CPU等に働きかけて、コンピュータを、情報検索システム100の各部としてそれぞれ機能させる。これらのプログラムに記述された情報処理は、コンピュータに読込まれることにより、ソフトウエアと上述した各種のハードウエア資源とが協働した具体的手段として機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータの使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の測定装置を構築することができる。情報検索システム100は、情報処理装置の一例であってよい。
A program that is installed in a computer and causes the computer to function as a part of the
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。 As mentioned above, although this invention was demonstrated using embodiment, the technical scope of this invention is not limited to the range as described in the said embodiment. It will be apparent to those skilled in the art that various modifications or improvements can be added to the above-described embodiment. It is apparent from the scope of the claims that the embodiments added with such changes or improvements can be included in the technical scope of the present invention.
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。 The order of execution of each process such as operations, procedures, steps, and stages in the apparatus, system, program, and method shown in the claims, the description, and the drawings is particularly “before” or “prior to”. It should be noted that it can be realized in any order unless the output of the previous process is used in the subsequent process. Regarding the operation flow in the claims, the description, and the drawings, even if it is described using “first,” “next,” etc. for convenience, it means that it is essential to carry out in this order. It is not a thing.
10 ユーザ、20 ネットワーク、30 通信端末、40 音声処理サーバ、100 情報検索システム、200 シナリオ実行エンジン、202 クエリ受付部、204 形態素解析部、205 形態素辞書、206 NGワードフィルタ、207 NGワード辞書、208 類義語展開部、209 類義語辞書、210 スコア取得部、212 第1スコア取得部、214 第2スコア取得部、216 応答内容決定部、218 応答内容出力部、280 コンテンツテーブル、300 単語条件検索エンジン、302 単語条件検索部、310 語句スコアテーブル、350 単語条件検索結果スコア、352 単語条件正規化後スコア、400 全文検索エンジン、402 全文検索部、450 全文検索結果スコア、452 全文検索正規化後スコア、500 評価エンジン、502 評価部 10 users, 20 networks, 30 communication terminals, 40 voice processing servers, 100 information retrieval systems, 200 scenario execution engines, 202 query reception units, 204 morpheme analysis units, 205 morpheme dictionaries, 206 NG word filters, 207 NG word dictionaries, 208 Synonym expansion unit, 209 Synonym dictionary, 210 score acquisition unit, 212 first score acquisition unit, 214 second score acquisition unit, 216 response content determination unit, 218 response content output unit, 280 content table, 300 word condition search engine, 302 Word condition search unit, 310 Phrase score table, 350 Word condition search result score, 352 Word condition normalized score, 400 Full-text search engine, 402 Full-text search unit, 450 Full-text search result score, 452 Full-text search normalized score , 500 evaluation engine, 502 evaluation unit
Claims (7)
複数の応答内容及び複数の応答内容のそれぞれに対応付けられた複数の語句が登録された応答内容テーブルを参照する応答内容テーブル参照部、
複数の語句及び前記複数の語句のそれぞれに対応付けられたスコアが登録された語句スコアテーブルを参照する語句スコアテーブル参照部、
ユーザが入力したクエリを受け付けるクエリ受付部、
前記クエリ受付部が受け付けた前記クエリから複数の語句を抽出する語句抽出部、
第1検索アルゴリズムを用いて、前記応答内容テーブルに登録された前記複数の応答内容のそれぞれについて、前記語句抽出部により抽出された複数の語句のうち、応答内容に含まれる複数の語句のスコアを、前記語句スコアテーブルから取得して乗算又は加算することにより、前記応答内容の前記クエリに対する第1スコアを算出する第1スコア算出部、
前記第1検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、前記第1スコア算出部により算出された前記第1スコアを取得する第1スコア取得部、
前記第1検索アルゴリズムとは異なる第2検索アルゴリズムを用いて、前記応答内容テーブルに登録された前記複数の応答内容のそれぞれについて、前記語句抽出部により抽出された複数の語句のうち、応答内容及び当該応答内容に対応付けられた複数の語句に含まれる複数の語句のスコアを、TF(Term Frequency)法及びIDF法の少なくともいずれかによって算出して加算することにより、前記応答内容の前記クエリに対する第2スコアを算出する第2スコア算出部であって、前記語句抽出部により抽出された複数の語句のうち応答内容及び当該応答内容に対応付けられた複数の語句に含まれる語句の種類の数に対する重み付けにさらに基づいて前記第2スコアを算出する第2スコア算出部、
前記第2検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、前記第2スコア算出部により算出された前記第2スコアを取得する第2スコア取得部、
前記第1スコア取得部が取得した複数の前記第1スコア及び前記第2スコア取得部が取得した複数の前記第2スコアに基づいて、前記クエリに対する応答内容を決定する応答内容決定部、及び
前記応答内容決定部が決定した前記応答内容を出力する応答内容出力部
として機能させるためのプログラム。 Computer
A response content table reference unit for referring to a response content table in which a plurality of words associated with a plurality of response content and a plurality of response content are registered;
A phrase score table reference unit that refers to a phrase score table in which a plurality of phrases and scores associated with each of the plurality of phrases are registered;
A query reception unit that receives a query entered by the user,
A phrase extraction unit that extracts a plurality of phrases from the query received by the query reception unit;
Using the first search algorithm, for each of the plurality of response contents registered in the response content table, out of a plurality of words extracted by the word / phrase extraction unit, scores of a plurality of words / phrases included in the response content are calculated. , A first score calculation unit that calculates a first score for the query of the response content by obtaining from the phrase score table and multiplying or adding the result,
A first score acquisition unit that acquires the first score calculated by the first score calculation unit for each of a plurality of response contents searched using the first search algorithm;
Using a second search algorithm different from the first search algorithm, for each of the plurality of response contents registered in the response content table, among the plurality of phrases extracted by the phrase extraction unit, the response contents and By calculating and adding scores of a plurality of phrases included in a plurality of phrases associated with the response content by at least one of a TF (Term Frequency) method and an IDF method, the response content with respect to the query 2nd score calculation part which calculates a 2nd score, Comprising: The number of the kind of phrase contained in the some phrase matched with the response content and the said response content among the some phrase extracted by the said phrase extraction part A second score calculation unit for calculating the second score based on weighting for
A second score acquisition unit that acquires the second score calculated by the second score calculation unit for each of a plurality of response contents searched using the second search algorithm;
A response content determination unit that determines response content to the query based on the plurality of first scores acquired by the first score acquisition unit and the plurality of second scores acquired by the second score acquisition unit; A program for functioning as a response content output unit that outputs the response content determined by the response content determination unit.
前記第1検索アルゴリズムを用いて検索された前記複数の応答内容のそれぞれの第1スコアを加算した第1加算値によって、前記複数の応答内容のそれぞれの第1スコアを正規化し、
前記第2検索アルゴリズムを用いて検索された前記複数の応答内容のそれぞれの第2スコアを加算した第2加算値によって、前記複数の応答内容のそれぞれの第2スコアを正規化する、請求項1から3のいずれか一項に記載のプログラム。 The response content determination unit
Normalizing each first score of the plurality of response contents by a first addition value obtained by adding the first scores of the plurality of response contents searched using the first search algorithm;
The second score of each of the plurality of response contents is normalized by a second addition value obtained by adding the second scores of the plurality of response contents searched using the second search algorithm. 4. The program according to any one of items 1 to 3 .
前記複数の第1スコアに対して、前記第1検索アルゴリズムを用いて検索された前記複数の応答内容の数を適用し、
前記複数の第2スコアに対して、前記第2検索アルゴリズムを用いて検索された前記複数の応答内容の数を適用する、請求項1から4のいずれか一項に記載のプログラム。 The response content determination unit
Applying the number of response contents searched using the first search algorithm to the plurality of first scores;
The program according to any one of claims 1 to 4 , wherein the number of the plurality of response contents searched by using the second search algorithm is applied to the plurality of second scores.
ユーザが入力したクエリを受け付けるクエリ受付部、
第1検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、前記クエリに対する第1スコアを取得する第1スコア取得部、
前記第1検索アルゴリズムとは異なる第2検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、前記クエリに対する第2スコアを取得する第2スコア取得部、
前記第1スコア取得部が取得した複数の前記第1スコア及び前記第2スコア取得部が取得した複数の前記第2スコアに基づいて、前記クエリに対する応答内容を決定する応答内容決定部であって、前記第1検索アルゴリズムを用いて検索された前記複数の応答内容のそれぞれの第1スコアを加算した第1加算値によって、前記複数の応答内容のそれぞれの第1スコアを正規化し、正規化した複数の第1スコアに対して、前記第1検索アルゴリズムを用いて検索された前記複数の応答内容の数を乗算し、前記第2検索アルゴリズムを用いて検索された前記複数の応答内容のそれぞれの第2スコアを加算した第2加算値によって、前記複数の応答内容のそれぞれの第2スコアを正規化し、正規化した複数の第2スコアに対して、前記第2検索アルゴリズムを用いて検索された前記複数の応答内容の数を乗算する、応答内容決定部、及び
前記応答内容決定部が決定した前記応答内容を出力する応答内容出力部
として機能させるためのプログラム。 Computer
A query reception unit that receives a query entered by the user,
A first score acquisition unit that acquires a first score for the query for each of a plurality of response contents searched using the first search algorithm;
A second score acquisition unit that acquires a second score for the query for each of a plurality of response contents searched using a second search algorithm different from the first search algorithm;
A response content determination unit that determines response content to the query based on the plurality of first scores acquired by the first score acquisition unit and the plurality of second scores acquired by the second score acquisition unit; The first score of each of the plurality of response contents is normalized and normalized by a first addition value obtained by adding the first scores of the plurality of response contents searched using the first search algorithm. Each of the plurality of response contents searched using the second search algorithm is multiplied by the number of the plurality of response contents searched using the first search algorithm to the plurality of first scores. The second score of each of the plurality of response contents is normalized by a second addition value obtained by adding the second score, and the second search algorithm is obtained for the normalized second scores. Multiplying the number of retrieved plurality of response content using a rhythm, response content determination unit, and a program for functioning as a response content output unit which outputs the response content to the response content determination unit has determined.
複数の語句及び前記複数の語句のそれぞれに対応付けられたスコアが登録された語句スコアテーブルを参照する語句スコアテーブル参照部と、
ユーザが入力したクエリを受け付けるクエリ受付部と、
前記クエリ受付部が受け付けた前記クエリから複数の語句を抽出する語句抽出部と、
第1検索アルゴリズムを用いて、前記応答内容テーブルに登録された前記複数の応答内容のそれぞれについて、前記語句抽出部により抽出された複数の語句のうち、応答内容に含まれる複数の語句のスコアを、前記語句スコアテーブルから取得して乗算又は加算することにより、前記応答内容の前記クエリに対する第1スコアを算出する第1スコア算出部と、
前記第1検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、前記第1スコア算出部により算出された前記第1スコアを取得する第1スコア取得部と、
前記第1検索アルゴリズムとは異なる第2検索アルゴリズムを用いて、前記応答内容テーブルに登録された前記複数の応答内容のそれぞれについて、前記語句抽出部により抽出された複数の語句のうち、応答内容及び当該応答内容に対応付けられた複数の語句に含まれる複数の語句のスコアを、TF(Term Frequency)法及びIDF法の少なくともいずれかによって算出して加算することにより、前記応答内容の前記クエリに対する第2スコアを算出する第2スコア算出部であって、前記語句抽出部により抽出された複数の語句が、前記応答内容に含まれるか当該応答内容に対応付けられた複数の語句に含まれるかに依存する重み付け及び前記語句抽出部により抽出された複数の語句のうち応答内容及び当該応答内容に対応付けられた複数の語句に含まれる語句の種類の数に対する重み付けにさらに基づいて前記第2スコアを算出する第2スコア算出部と、
前記第2検索アルゴリズムを用いて検索された複数の応答内容のそれぞれについて、前記第2スコア算出部により算出された前記第2スコアを取得する第2スコア取得部と、
前記第1スコア取得部が取得した複数の前記第1スコア及び前記第2スコア取得部が取得した複数の前記第2スコアに基づいて、前記クエリに対する応答内容を決定する応答内容決定部であって、前記第1検索アルゴリズムを用いて検索された前記複数の応答内容のそれぞれの第1スコアを加算した第1加算値によって、前記複数の応答内容のそれぞれの第1スコアを正規化し、正規化した複数の第1スコアに対して、前記第1検索アルゴリズムを用いて検索された前記複数の応答内容の数を乗算し、前記第2検索アルゴリズムを用いて検索された前記複数の応答内容のそれぞれの第2スコアを加算した第2加算値によって、前記複数の応答内容のそれぞれの第2スコアを正規化し、正規化した複数の第2スコアに対して、前記第2検索アルゴリズムを用いて検索された前記複数の応答内容の数を乗算し、前記第1検索アルゴリズムに対して予め設定された信頼度を適用した複数の第1スコアと、前記第2検索アルゴリズムに対して予め設定された信頼度を適用した複数の第2スコアとに基づいて、前記クエリに対する応答内容を決定する、応答内容決定部と、
前記応答内容決定部が決定した前記応答内容を出力する応答内容出力部と
を備える情報検索装置。 A response content table reference unit that refers to a response content table in which a plurality of response contents and a plurality of words associated with each of the plurality of response contents are registered;
A phrase score table reference unit that refers to a phrase score table in which a plurality of phrases and scores associated with each of the plurality of phrases are registered;
A query receiving unit for receiving a query input by a user;
A phrase extraction unit that extracts a plurality of phrases from the query received by the query reception unit;
Using the first search algorithm, for each of the plurality of response contents registered in the response content table, out of a plurality of words extracted by the word / phrase extraction unit, scores of a plurality of words / phrases included in the response content are calculated. A first score calculation unit that calculates a first score for the query of the response content by acquiring from the phrase score table and multiplying or adding;
A first score acquisition unit that acquires the first score calculated by the first score calculation unit for each of a plurality of response contents searched using the first search algorithm;
Using a second search algorithm different from the first search algorithm, for each of the plurality of response contents registered in the response content table, among the plurality of phrases extracted by the phrase extraction unit, the response contents and By calculating and adding scores of a plurality of phrases included in a plurality of phrases associated with the response content by at least one of a TF (Term Frequency) method and an IDF method, the response content with respect to the query A second score calculation unit for calculating a second score, wherein a plurality of words extracted by the word extraction unit are included in the response content or a plurality of words associated with the response content Depends on the weight and the response content among the plurality of words extracted by the word extraction unit and the response content A second score calculating unit that calculates the second score based on weighting for the number of types of phrases included in the plurality of phrases,
A second score acquisition unit that acquires the second score calculated by the second score calculation unit for each of a plurality of response contents searched using the second search algorithm;
A response content determination unit that determines response content to the query based on the plurality of first scores acquired by the first score acquisition unit and the plurality of second scores acquired by the second score acquisition unit; The first score of each of the plurality of response contents is normalized and normalized by a first addition value obtained by adding the first scores of the plurality of response contents searched using the first search algorithm. Each of the plurality of response contents searched using the second search algorithm is multiplied by the number of the plurality of response contents searched using the first search algorithm to the plurality of first scores. The second score of each of the plurality of response contents is normalized by a second addition value obtained by adding the second score, and the second search algorithm is obtained for the normalized second scores. A plurality of first scores obtained by multiplying the number of the plurality of response contents searched using a rhythm and applying a reliability set in advance for the first search algorithm, and the second search algorithm A response content determination unit that determines response content to the query based on a plurality of second scores to which a predetermined reliability is applied;
An information search device comprising: a response content output unit that outputs the response content determined by the response content determination unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013126730A JP5559911B1 (en) | 2013-06-17 | 2013-06-17 | Information retrieval apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013126730A JP5559911B1 (en) | 2013-06-17 | 2013-06-17 | Information retrieval apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5559911B1 true JP5559911B1 (en) | 2014-07-23 |
JP2015001881A JP2015001881A (en) | 2015-01-05 |
Family
ID=51416982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013126730A Expired - Fee Related JP5559911B1 (en) | 2013-06-17 | 2013-06-17 | Information retrieval apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5559911B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992167A (en) * | 2023-09-22 | 2023-11-03 | 深圳市智慧城市科技发展集团有限公司 | Address searching method, system and computer readable storage medium |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6980411B2 (en) * | 2017-05-23 | 2021-12-15 | 株式会社日立製作所 | Information processing device, dialogue processing method, and dialogue processing program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011210120A (en) * | 2010-03-30 | 2011-10-20 | Yahoo Japan Corp | Device and method for retrieving multiple servers |
JP2012027841A (en) * | 2010-07-27 | 2012-02-09 | Ricoh Co Ltd | Retrieval program, retrieval device, retrieval system, retrieval method, and recording medium |
JP2012074087A (en) * | 2012-01-17 | 2012-04-12 | Mitsubishi Electric Information Systems Corp | Document retrieval system, document retrieval program, and document retrieval method |
JP2012194989A (en) * | 2012-05-29 | 2012-10-11 | Hitachi Solutions Ltd | Retrieval method, integrated retrieval server and computer program |
-
2013
- 2013-06-17 JP JP2013126730A patent/JP5559911B1/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011210120A (en) * | 2010-03-30 | 2011-10-20 | Yahoo Japan Corp | Device and method for retrieving multiple servers |
JP2012027841A (en) * | 2010-07-27 | 2012-02-09 | Ricoh Co Ltd | Retrieval program, retrieval device, retrieval system, retrieval method, and recording medium |
JP2012074087A (en) * | 2012-01-17 | 2012-04-12 | Mitsubishi Electric Information Systems Corp | Document retrieval system, document retrieval program, and document retrieval method |
JP2012194989A (en) * | 2012-05-29 | 2012-10-11 | Hitachi Solutions Ltd | Retrieval method, integrated retrieval server and computer program |
Non-Patent Citations (4)
Title |
---|
CSNG199800953006; 奥田 健三、嶺岸 則宏、中西 茂利、山崎 勝弘: 'キーワードとその上位概念の階層化によるファジィ文献検索' 電子情報通信学会論文誌 第J75-D-I巻、第10号, 19921025, pp.926-933, 社団法人電子情報通信学会 * |
CSNG200501025032; 鈴木 優、波多野 賢治、吉川 正俊、植村 俊亮、川越 恭二: '検索結果を統合するための関数選択手法' 電子情報通信学会技術研究報告 Vol.104、No.177, 20040707, pp.195-200, 社団法人電子情報通信学会 * |
JPN6013059140; 鈴木 優、波多野 賢治、吉川 正俊、植村 俊亮、川越 恭二: '検索結果を統合するための関数選択手法' 電子情報通信学会技術研究報告 Vol.104、No.177, 20040707, pp.195-200, 社団法人電子情報通信学会 * |
JPN6014013989; 奥田 健三、嶺岸 則宏、中西 茂利、山崎 勝弘: 'キーワードとその上位概念の階層化によるファジィ文献検索' 電子情報通信学会論文誌 第J75-D-I巻、第10号, 19921025, pp.926-933, 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992167A (en) * | 2023-09-22 | 2023-11-03 | 深圳市智慧城市科技发展集团有限公司 | Address searching method, system and computer readable storage medium |
CN116992167B (en) * | 2023-09-22 | 2024-01-23 | 深圳市智慧城市科技发展集团有限公司 | Address searching method, system and computer readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2015001881A (en) | 2015-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6752282B2 (en) | Antecedent determination method and device | |
El-Beltagy et al. | KP-Miner: A keyphrase extraction system for English and Arabic documents | |
US9106698B2 (en) | Method and server for intelligent categorization of bookmarks | |
CN103577416B (en) | Expanding query method and system | |
US8914395B2 (en) | Database query translation system | |
CN103186574B (en) | A kind of generation method and apparatus of Search Results | |
JP6007088B2 (en) | Question answering program, server and method using a large amount of comment text | |
CN103377226B (en) | A kind of intelligent search method and system thereof | |
CN103294681B (en) | Method and device for generating search result | |
US10191991B2 (en) | System and method for detecting a search intent | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
EP2684118A1 (en) | Method and system for information modeling and applications thereof | |
CN108241649B (en) | Knowledge graph-based searching method and device | |
CN105956010B (en) | Distributed information retrieval set option method based on distributed characterization and partial ordering | |
US20190266286A1 (en) | Method and system for a semantic search engine using an underlying knowledge base | |
CN114880447A (en) | Information retrieval method, device, equipment and storage medium | |
JP5559911B1 (en) | Information retrieval apparatus and program | |
CN106708803A (en) | Feature extraction method and device | |
US20190012388A1 (en) | Method and system for a semantic search engine using an underlying knowledge base | |
CN110427626B (en) | Keyword extraction method and device | |
Juan | An effective similarity measurement for FAQ question answering system | |
US20150026151A1 (en) | Trigger query obtaining apparatus, trigger query obtaining method, and non-transitory computer readable recording medium | |
CN106372086B (en) | A kind of method and apparatus obtaining term vector | |
CN111708872A (en) | Conversation method, conversation device and electronic equipment | |
CN116910225B (en) | Active response method and system based on cloud platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140603 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140606 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5559911 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |