JP5700566B2 - Scoring model generation device, learning data generation device, search system, scoring model generation method, learning data generation method, search method and program thereof - Google Patents
Scoring model generation device, learning data generation device, search system, scoring model generation method, learning data generation method, search method and program thereof Download PDFInfo
- Publication number
- JP5700566B2 JP5700566B2 JP2012023886A JP2012023886A JP5700566B2 JP 5700566 B2 JP5700566 B2 JP 5700566B2 JP 2012023886 A JP2012023886 A JP 2012023886A JP 2012023886 A JP2012023886 A JP 2012023886A JP 5700566 B2 JP5700566 B2 JP 5700566B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- learning data
- scoring model
- query
- generation device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 50
- 239000013598 vector Substances 0.000 claims description 63
- 238000013179 statistical model Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 description 17
- 238000011156 evaluation Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000004088 simulation Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ドキュメント検索や音声ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習する際に用いる学習データを生成する学習データ生成装置及びその方法、並びに、生成された学習データに基づき学習されたスコアリングモデルによってドキュメント検索を行う検索装置及びその方法に関する。 The present invention relates to a learning data generation apparatus and method for generating learning data used when learning a scoring model in document search or voice document search based on statistical model learning, and learning based on the generated learning data. The present invention relates to a search apparatus and a method for searching a document by using a scoring model.
ドキュメント検索は、事前に与えられた有限個のドキュメントの中から、入力されたクエリ(以下「入力クエリ」ともいう)に関連深いドキュメントを選び出す問題である。通常、入力クエリに関連深い順にドキュメントを並べる。このとき入力クエリと各ドキュメントの関連深さを表すスコアを算出する必要があり、スコア順にドキュメントを並べる。したがって、スコアの算出方法が技術的核となる。なおクエリとは検索を行うユーザが指定する単語列(言い換えると検索対象となる単語列)であり、文、文章、句、単語、記号及びそれらの組み合わせであってもよい。またドキュメントとは通常、一つ以上の文や文章を含むwebページやテキストファイル等であり、ドキュメント検索の対象となるものである。 Document search is a problem of selecting documents closely related to an input query (hereinafter also referred to as “input query”) from a finite number of documents given in advance. Typically, documents are arranged in order of relevance to the input query. At this time, it is necessary to calculate a score representing the relationship between the input query and each document, and the documents are arranged in the order of score. Therefore, the score calculation method is the technical core. Note that a query is a word string (in other words, a word string to be searched) designated by a user who performs a search, and may be a sentence, a sentence, a phrase, a word, a symbol, and a combination thereof. A document is usually a web page or text file containing one or more sentences or sentences, and is a target of document search.
また音声ドキュメント検索は、検索対象が音声ドキュメントであるドキュメント検索である。音声ドキュメントとは音声を録音した音声ファイル等である。音声ドキュメントに音声認識を適用し、テキスト化した上で、ドキュメント検索の技術を適用することで実現される。またクエリが音声で与えられる場合もあり、同様に音声認識が適用されるのが一般的である。ただし、クエリと各音声ドキュメントの関連深さを表すスコアの算出は、音声認識の誤認識や、未知語(音声認識システムに登録されていない単語)の存在を考慮した上で行われる。以下ドキュメント及び音声ドキュメントを併せて単にドキュメントともいう。 The voice document search is a document search whose search target is a voice document. An audio document is an audio file that records audio. This is realized by applying speech recognition to a voice document, converting it into text, and applying a document search technique. In some cases, the query is given by voice, and voice recognition is generally applied in the same manner. However, the calculation of the score representing the relation depth between the query and each voice document is performed in consideration of misrecognition of voice recognition and the presence of unknown words (words not registered in the voice recognition system). Hereinafter, a document and an audio document are also simply referred to as a document.
従来、ドキュメント検索では、ヒューリスティックな方法(試行錯誤・実験・検討などの過程を通じて問題解決を行う手法であり、発見的方法)で、入力クエリと各ドキュメントの関連深さを表すスコアの算出していた。しかし自然言語処理分野の多くの問題で見るように、統計的モデル学習に基づき生成されたモデルを利用してスコアを算出することで、更なる精度向上を見込むことができる。なお入力クエリと各ドキュメントとの関連深さを表すスコアを算出する際に利用されるモデルをスコアリングモデルと呼ぶ。非特許文献1が統計的モデル学習に基づきスコアリングモデルを生成する従来技術として知られている。以下スコアリングモデルについて説明する。 Conventionally, in document search, heuristic methods (a method of solving problems through a process of trial and error, experiments, and examinations, heuristic methods) are used to calculate a score that represents the depth of association between the input query and each document. It was. However, as seen in many problems in the natural language processing field, a further improvement in accuracy can be expected by calculating a score using a model generated based on statistical model learning. A model used for calculating a score representing the depth of association between the input query and each document is called a scoring model. Non-Patent Document 1 is known as a conventional technique for generating a scoring model based on statistical model learning. The scoring model will be described below.
クエリqとドキュメントdの組から抽出される素性ベクトルをfq,dとおく。なお素性ベクトルの抽出は事前に定義されたルールに基づき実行される。例えば要素(素性)として、クエリqとドキュメントdに共通の単語wiの、ドキュメントdにおける個数c(wi,d)の対数値の総和や単語wiの逆文書頻度(Inverse Document Frequency)idf(wi)の対数値の総和等を用いることができる。スコアリングモデルのパラメータベクトルをΦとするとき、このスコアリングモデルによってクエリqとドキュメントdの組に与えられるスコアをSΦ(fq,d)と表記する。このスコアSΦ(fq,d)がクエリqとドキュメントdの関連深さを表す。 Let f q, d be a feature vector extracted from a set of a query q and a document d. The feature vector is extracted based on a rule defined in advance. For example as elements (feature), a common word w i to query q and document d, inverse document frequency (Inverse Document Frequency) number c (w i, d) of the logarithm of the sum and words w i in the document d idf The sum of logarithmic values of (w i ) can be used. When the parameter vector of the scoring model is Φ, the score given to the set of the query q and the document d by this scoring model is expressed as S Φ (f q, d ). This score S Φ (f q, d ) represents the relation depth between the query q and the document d.
広く使用されるスコアリングモデルの1つとして線形モデルがある。線形モデルでは例えば次式でスコアを算出する。
SΦ(fq,d)=Φ・fq,d (1)
なお、・は内積演算子である。
One of the widely used scoring models is a linear model. In the linear model, for example, the score is calculated by the following equation.
S Φ (f q, d ) = Φ ・ f q, d (1)
Note that · is an inner product operator.
パラメータベクトルΦは事前に統計的モデル学習法により求める。学習データを用意し、既存の学習法を使用してパラメータベクトルΦの値を求めることができる。なお学習データは一般に、クエリとリファレンスラベル(クエリと関連深いドキュメントを指し示すラベルであり、関連深いドキュメントの数は複数であってもよい)の組の集合である。学習データは、各クエリに対し関連が深いと考えられるドキュメントを人手により判断し、用意する。 The parameter vector Φ is obtained in advance by a statistical model learning method. Learning data is prepared, and the value of the parameter vector Φ can be obtained using an existing learning method. The learning data is generally a set of a set of a query and a reference label (a label indicating a document closely related to the query, and the number of documents closely related may be plural). The learning data is prepared by manually determining a document that is considered to be closely related to each query.
なお、非特許文献2では、言語モデルを用いたドキュメント検索手法が示されている。言語モデルのパラメータを統計データを用いて学習するため統計的にモデルを学習していると言えるが、リファレンスラベルを使用していないため、ドキュメントとクエリの関連の有無を直接的には学習していない。そのため、本明細書においてはヒューリスティックな手法と位置づける。
In
一般に、適切なパラメータ推定結果を得るためには、パラメータ数が多い(パラメータベクトルΦの次元が高い)ほど、多くの学習データ(クエリとリファレンスラベルの組)を必要とする。しかし、前述の通り学習データは人手で用意する必要があり、大量に用意することが難しい。そのため従来技術のパラメータベクトルΦは低次元のベクトルである。 In general, in order to obtain an appropriate parameter estimation result, the larger the number of parameters (the higher the dimension of the parameter vector Φ), the more learning data (a set of query and reference label) is required. However, as described above, it is necessary to prepare learning data manually, and it is difficult to prepare a large amount. Therefore, the prior art parameter vector Φ is a low-dimensional vector.
例えば式(1)の線形モデルにおいて、パラメータベクトルΦが8次元であるとすると、素性ベクトルfq,dも8次元である。これは、クエリqとドキュメントdから高々8種類の特徴しか使用してはいけないことを意味しており、ドキュメント検索を行う上で重要な特徴を落としている可能性が高い。一般に言語処理分野では、数万〜数千万次元といった高次元のモデルを使用するのに対し、ドキュメント検索では極端に低次元のパラメータベクトルに基づくスコアリングモデルが使用されている。これは学習データを人手で大量に用意することが難しいことに起因する。 For example, in the linear model of Equation (1), if the parameter vector Φ is 8 dimensions, the feature vector f q, d is also 8 dimensions. This means that at most eight types of features should be used from the query q and the document d, and there is a high possibility that important features are dropped when performing a document search. In general, in the language processing field, high-dimensional models such as tens of thousands to tens of millions of dimensions are used, whereas in document search, scoring models based on extremely low-dimensional parameter vectors are used. This is because it is difficult to prepare a large amount of learning data manually.
統計的モデル学習に基づきスコアリングモデルを生成する利点は、(1)クエリとリファレンスラベルとの関連を明示的に学習していること、(2)線形モデルのような単純なモデルを用いることで様々な特徴を容易に導入可能な点にある。高次元のパラメータベクトルに基づくスコアリングモデルが使用可能になれば、様々な特徴を利用することができるようになり、より精密にクエリとリファレンスラベルとの関連を学習できるようになる。したがって、高次元のパラメータベクトルに基づくスコアリングモデルを使用することができれば、仮に既存手法を精度で下回っても、少なくとも既存手法とは異なる特徴が取り込めるため、クエリとドキュメントの関連深さを表すスコアの算出において、既存手法により求めたスコアと高次元のパラメータベクトルに基づくスコアリングモデルにより求めたスコアとの重ね合わせによりスコアを算出することにより、精度向上が期待できる。 The advantages of generating a scoring model based on statistical model learning are that (1) the relationship between a query and a reference label is explicitly learned, and (2) a simple model such as a linear model is used. Various features can be easily introduced. If a scoring model based on a high-dimensional parameter vector becomes available, various features can be used, and the relationship between a query and a reference label can be learned more precisely. Therefore, if a scoring model based on a high-dimensional parameter vector can be used, even if it is less accurate than the existing method, at least features that are different from the existing method can be captured. In the calculation of, accuracy can be expected by calculating the score by superimposing the score obtained by the existing method and the score obtained by the scoring model based on the high-dimensional parameter vector.
本発明は、統計的モデル学習に基づきスコアリングモデルを学習するスコアリングモデル生成装置、その際に用いる学習データを生成する学習データ生成装置を提供することを目的とする。 An object of this invention is to provide the scoring model production | generation apparatus which learns a scoring model based on statistical model learning, and the learning data production | generation apparatus which produces | generates the learning data used in that case.
上記の課題を解決するために、本発明の第一の態様によれば、スコアリングモデル生成装置は、ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習する。スコアリングモデル生成装置は、Mをドキュメントの個数、Nを1つのドキュメントから生成されるクエリの個数、m=1,2,…,M、n=1,2,…,Nとし、M×N個の学習データs mn を受け取り、学習データs mn に含まれるクエリqと各ドキュメントdとから素性ベクトルf q,d を抽出し、パラメータベクトルΦと素性ベクトルf q,d との内積が、ドキュメントdがクエリqの関連ドキュメントである場合には正の値を、ドキュメントdがクエリqの関連ドキュメントでない場合には負の値をとるように、パラメータベクトルΦを学習する。
上記の課題を解決するために、本発明の他の態様によれば、学習データ生成装置は複数のドキュメントを与えられ、ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習する際に用いる学習データを生成する。学習データ生成装置は単語列生成手段と学習データ生成手段とを含む。単語列生成手段は与えられる各ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を1つ以上生成する。学習データ生成手段は生成した各単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を学習データとする。
In order to solve the above problem, according to the first aspect of the present invention, the scoring model generation device learns a scoring model in document search based on statistical model learning. The scoring model generation device sets M as the number of documents, N as the number of queries generated from one document, m = 1, 2,..., M, n = 1, 2,. The learning data s mn is received, the feature vector f q, d is extracted from the query q included in the learning data s mn and each document d , and the inner product of the parameter vector Φ and the feature vector f q, d is the document The parameter vector Φ is learned so that a positive value is taken when d is a related document of the query q, and a negative value is taken when the document d is not a related document of the query q.
In order to solve the above problem, according to another aspect of the present invention, a learning data generation device is provided with a plurality of documents, and learning used when learning a scoring model in document search based on statistical model learning Generate data. The learning data generation device includes a word string generation unit and a learning data generation unit. For each given document, the word string generation means generates one or more word strings including words included in the document. The learning data generation means uses the generated word string and the label indicating the document used when generating the word string as a query and a reference, respectively, and sets the query and reference as learning data.
本発明によれば、統計的モデル学習に基づきスコアリングモデルを学習する際に用いる学習データを、人手によらずに自動で生成できるという効果を奏する。大量の学習データを用いて高次元のパラメータベクトルを適切に推定することができ、ヒューリスティックな手法では扱いづらかった情報が利用可能となるため、そのパラメータベクトルを用いた検索装置は、より精度の高い検索が可能となる。 According to the present invention, there is an effect that learning data used when learning a scoring model based on statistical model learning can be automatically generated without depending on human hands. High-dimensional parameter vectors can be appropriately estimated using a large amount of learning data, and information that is difficult to handle with heuristic methods can be used. Therefore, a search device using the parameter vectors is more accurate. Search is possible.
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted.
<第一実施形態>
図1は検索システム1の構成例を、図2はその処理フローを示す。検索システム1は学習データ生成装置11とスコアリングモデル生成装置12と検索装置13とを含む。
<First embodiment>
FIG. 1 shows a configuration example of the
学習データ生成装置11はM個のドキュメントd1,d2,…,dMを入力とし、M×N個の学習データsmnを生成し(s11)、スコアリングモデル生成装置12に出力する。ただし、m=1,2,…,Mであり、n=1,2,…,Nであり、Nは一つのドキュメントから生成される単語列(クエリ)の個数である。詳細は後述する。
The learning
スコアリングモデル生成装置12はM×N個の学習データsmnを用いて、スコアリングモデルにおいて利用するパラメータベクトルΦを学習、生成し(s12)、検索装置13に出力する。
The scoring
検索装置13はパラメータベクトルΦをスコアリングモデルに設定する。検索装置13は利用者の操作する端末2から検索用クエリquを受信すると、検索用クエリquに対応するドキュメントを検索する(s13)。ドキュメントの検索は例えば以下のように行う。スコアリングモデルを用いて、検索用クエリquに対する各ドキュメントのスコアを計算し、スコアの高い順にドキュメントの一部やタイトル、URL等を並べたドキュメント情報Duを生成し、端末2に送信する。利用者はドキュメント情報Duに含まれるURL等にアクセスすることで検索用クエリquに関連深いドキュメントを閲覧することができる。
The
<学習データ生成装置11>
図3は学習データ生成装置11の機能ブロック図を、図4はその処理フローを示す。学習データ生成装置11は、記憶部111と個別言語モデル生成手段112と総合言語モデル生成手段113と単語列生成手段114と学習データ生成手段115とを含む。
<Learning
FIG. 3 is a functional block diagram of the learning
(記憶部111)
記憶部111は与えられたM個のドキュメントd1,d2,…,dMを格納する。また処理途中のデータや各種パラメータ等を記憶する。各手段は、記憶部111に対し、各処理過程で所定のデータやパラメータの読み書きを行う。ただし、各手段は、必ずしも記憶部111に対し各データの読み書きを行わなければならないわけではなく、各部間で直接データを受け渡すように制御してもよい。記憶部111は補助記憶装置、RAM(Random Access Memory)、レジスタ、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。
(Storage unit 111)
The
(総合言語モデル生成手段113)
総合言語モデル生成手段113は、M個のドキュメントd1,d2,…,dMを記憶部111から取り出し、全てのドキュメントに対する確率的言語モデルBを生成し(s1101)、記憶部111に格納する。確率的言語モデルとしては例えば、n−gram言語モデル、back−off n−gram言語モデル、隠れマルコフモデル、最大エントロピーモデル等が考えられる。
(Comprehensive language model generation means 113)
The comprehensive language
(個別言語モデル生成手段112)
個別言語モデル生成手段112は、ドキュメントdmを記憶部111から取り出し、そのドキュメントdmに対する確率的言語モデルLmを生成し(s1103)、記憶部111に格納する。個別言語モデル生成手段112はM個のドキュメントd1,d2,…,dMに対してそれぞれ確率的言語モデルL1,L2,…,LMを生成する(s1102、s1109、s1110)。
(Individual language model generation means 112)
Individual language
(単語列生成手段114)
単語列生成手段114は、二つの確率的言語モデルB及びLmを記憶部111から取り出し、二つの確率的言語モデルB及びLmに基づき単語列qmnを生成し(s1105)、記憶部111に格納する。本実施形態では単語列からなる文qmnを生成する。
(Word string generation means 114)
Word
例えば次式により二つの確率的言語モデルB及びLmを線形結合したものにより与えられる単語Wの確率P(W)を求め、その確率分布に従ってランダムに文qmnを生成する。
P(W)=λPLm(W)+(1-λ)PB(W) (2)
ただし、PLm(W)は確率的言語モデルLmにより与えられる単語Wの確率であり、PB(W)は確率的言語モデルBにより与えられる単語Wの確率であり、λは0<λ≦1の実数値からなる重み係数である。なお言語モデルの学習において各ドキュメント中に文末シンボルの存在を仮定する。ランダムに単語列を生成する際に文末シンボルの出力をもって一つの単語列(クエリ)とみなす。なお一つのドキュメントdmに対してN個の文qmnを生成する(s1104、s1107、s1108)。
For example, a probability P (W) of a word W given by a linear combination of two probabilistic language models B and L m is obtained by the following formula, and a sentence q mn is randomly generated according to the probability distribution.
P (W) = λP Lm (W) + (1-λ) P B (W) (2)
Where P Lm (W) is the probability of the word W given by the probabilistic language model L m , P B (W) is the probability of the word W given by the probabilistic language model B, and λ is 0 <λ It is a weighting coefficient consisting of real values of ≦ 1. In the learning of the language model, it is assumed that the end-of-sentence symbol exists in each document. When a word string is randomly generated, the output of the sentence end symbol is regarded as one word string (query). Incidentally generates N statement q mn for one document d m (s1104, s1107, s1108 ).
(学習データ生成手段115)
学習データ生成手段115は、記憶部111からドキュメントdmを指し示すラベルmと、単語列生成手段114においてそのドキュメントdmから生成された単語列qmnとを取り出し、ラベルmをリファレンスとし、単語列qmnをクエリとし、そのセットを学習データsmn=(m,qmn)とし(s1106)、記憶部111に格納する。全ての文qmnに対してこの処理を行う(s1104、s1107、s1108)。
(Learning data generation means 115)
Learning data generating means 115 takes out a label m pointing to document d m from the
学習データ生成装置11はこのようにしてM×N個の学習データsmnを生成し、スコアリングモデル生成装置12に送信する。
The learning
<効果>
このような構成により統計的モデル学習に基づきスコアリングモデルを学習する際に用いる学習データを、人手によらずに自動で生成できる。
<Effect>
With such a configuration, learning data used when learning a scoring model based on statistical model learning can be automatically generated without relying on humans.
以下、学習データ生成装置11によって生成された学習データを用いたスコアリングモデルの生成方法、及び生成されたスコアリングモデルを用いたドキュメント検索方法の概略を説明する。
Hereinafter, an outline of a scoring model generation method using the learning data generated by the learning
<検索装置13>
検索装置13は、学習データ生成装置11で得られたM×N個の学習データsmnを用いて学習したスコアリングモデルを利用してドキュメント検索を行う。本実施形態では、自動生成された学習データと真の学習データとは大きく異なることを考慮して、検索精度を担保するため、学習データsmnを用いて学習したスコアリングモデルを従来の検索手法に対するリスコアリングとして導入する。スコアリングモデルの学習方法については後述する。
<
The
ベースライン検索システムが与えるドキュメントdとクエリqの関連度をD(fq,fd)と表記すると、本実施形態では線形モデルのパラメータベクトルΦと素性ベクトルfq,dとを用いて関連度D(fq,fd)を次式で補正(リスコアリング)する。
D(fq,fd)+αΦ・fq,d (3)
ただし、αは両者のスケールを調整するための定数である。
When the relevance between the document d and the query q given by the baseline search system is expressed as D (f q , f d ), in this embodiment, the relevance is obtained using the parameter vector Φ and the feature vector f q, d of the linear model. D (f q , f d ) is corrected (rescored) by the following equation.
D (f q , f d ) + αΦ ・ f q, d (3)
Here, α is a constant for adjusting both scales.
例えばベースライン検索システムの関連度D(fq,fd)として素性ベクトル間の距離に基づく手法(参考文献1参照)を用いることができる。
(参考文献1)宇野有,伊藤仁,伊藤彰則,牧野正三,“音声ドキュメント検索のためのWWWを用いたインデクス改善”,第4回音声ドキュメント処理ワークショップ講演論文集,2010年
For example, a technique based on the distance between feature vectors (see Reference 1) can be used as the degree of association D (f q , f d ) of the baseline search system.
(Reference 1) Yu Uno, Hitoshi Ito, Akinori Ito, Shozo Makino, “Index improvement using WWW for speech document retrieval”, Proceedings of the 4th Speech Document Processing Workshop, 2010
クエリqから抽出される素性ベクトルをfq、ドキュメントdから抽出される素性ベクトルをfdと記す。この素性ベクトルの抽出は事前に定義されたルールに基づき実行される。例えば素性ベクトルには単語等のtf−idf(term frequency and inverse document frequency)からなるベクトルを用いることができる。クエリqとドキュメントdの関連深さを表すスコアを両ベクトルの距離D(fq,fd)により算出する。例えば距離D(fq,fd)にはコサイン距離を用いることができる。すなわちtf−idf(x)を単語列xのunigramのtf−idfベクトル、cosine(y,z)をyとz間のコサイン距離として、関連度D(fq,fd)を次式により算出する。
D(fq,fd)=cosine(tf-idf(d),tf-idf(q))
A feature vector extracted from the query q is denoted by f q , and a feature vector extracted from the document d is denoted by f d . This feature vector extraction is executed based on a predefined rule. For example, a vector composed of tf-idf (term frequency and inverse document frequency) such as a word can be used as the feature vector. A score representing the relation depth between the query q and the document d is calculated from the distance D (f q , f d ) between both vectors. For example, a cosine distance can be used for the distance D (f q , f d ). In other words, tf-idf (x) is a unigram tf-idf vector of word string x, cosine (y, z) is a cosine distance between y and z, and a degree of association D (f q , f d ) is calculated by the following equation: To do.
D (f q , f d ) = cosine (tf-idf (d), tf-idf (q))
パラメータベクトルΦ及び素性ベクトルfq,dは、unigram頻度に関するベクトルを用いる場合、単語の種類の総数と同数の次元を持つ。このとき、素性ベクトルfq,dは、ドキュメントdにおける各単語の出現頻度を要素の値とする。ただし、クエリqに出現しない単語に対応する要素の値を0とする。 The parameter vector Φ and the feature vector f q, d have the same number of dimensions as the total number of word types when a vector related to unigram frequency is used. At this time, the feature vector f q, d uses the appearance frequency of each word in the document d as an element value. However, the value of an element corresponding to a word that does not appear in the query q is set to 0.
従来技術では多くの学習データを用意することが困難であるため、高次元のパラメータベクトルΦを適切に推定することができない。そのためパラメータベクトルΦは低次元となり素性ベクトルも低次元とならざるを得なかった。本実施形態では大量の学習データを用意に用意することができるため、高次元のパラメータベクトルΦを適切に推定でき、単語の種類の総数と同数の次元数を持つような高次元の素性ベクトルを用いることができる。これはクエリqとドキュメントdから多くの特徴を使用できることを意味し、ドキュメント検索を行う上で重要な特徴を逃さずに利用できることを意味する。 Since it is difficult to prepare a large amount of learning data in the prior art, the high-dimensional parameter vector Φ cannot be estimated appropriately. Therefore, the parameter vector Φ has a low dimension, and the feature vector has to have a low dimension. In this embodiment, since a large amount of learning data can be prepared in advance, a high-dimensional parameter vector Φ can be estimated appropriately, and a high-dimensional feature vector having the same number of dimensions as the total number of word types can be obtained. Can be used. This means that many features can be used from the query q and the document d, which means that important features can be used without missing a document search.
検索装置13は、各ドキュメントに対するスコアを式(3)により算出し、その値の大きな順にドキュメントの上位候補として順位を決定する。
The
<スコアリングモデル生成装置12>
スコアリングモデル生成装置12は、M×N個の学習データsmnを受信し、スコアリングモデルにおいて用いるパラメータベクトルΦを学習し、生成し、検索装置13に送信する。例えばパラメータベクトルΦの学習には既存の最大エントロピーモデルに基づく手法を用いることができる(非特許文献1)。これは、ドキュメントdがクエリqの関連ドキュメントであるかどうか(1or−1)をr(d,q)で表すとき、Φ・fq,dの符号とr(d,q)の符号を一致させるように学習を行うことを意味している。なおドキュメントdがクエリqの関連ドキュメントであるかどうかを表す情報r(d,q)がM×N個の学習データsmn=(m,qmn)から生成される。
<Scoring
The scoring
具体的にはまず2つのパラメータベクトルΦ+1及びΦ−1に関し次式を最小化する値を求める。 Specifically, first, a value that minimizes the following expression is obtained for the two parameter vectors Φ +1 and Φ −1 .
そして、ΦをΦ+1−Φ−1により求める。なお、||x||2 2はL2−ノルム、cは定数であり本実施形態ではc=1である。最小化問題の解法にはL−BFGSアルゴリズムを用いることができる。 Then, Φ is obtained by Φ +1 −Φ −1 . Note that || x || 2 2 is an L2-norm, c is a constant, and c = 1 in this embodiment. The L-BFGS algorithm can be used to solve the minimization problem.
<シミュレーション1>
第一実施形態の検索装置13について日本語話し言葉コーパスCSJのSpoken document retrieval test collection (参考文献2参照)を用いて評価実験を実施した。
(参考文献2)Tomoyosi Akiba, Kiyoaki Aikawa, Yoshiaki Itoh, Tatsuya Kawahara, Hiroaki Nanjo, Hiromitsu Nishizaki, Norihito Yasuda, Yoichi Yamashita, Katunobu Itou, "Construction of a Test Collection for Spoken Document Retrieval from Lecture Audio Data", IPSJ Journal, 2009. Vol.50, No.2, pp.501-513,
<
An evaluation experiment was conducted on the
(Reference 2) Tomoyosi Akiba, Kiyoaki Aikawa, Yoshiaki Itoh, Tatsuya Kawahara, Hiroaki Nanjo, Hiromitsu Nishizaki, Norihito Yasuda, Yoichi Yamashita, Katunobu Itou, "Construction of a Test Collection for Spoken Document Retrieval from Lecture Audio Data", IPSJ Journal , 2009.Vol.50, No.2, pp.501-513,
本テストコレクションには、2702個の音声ドキュメント及びその音声認識結果と、39個のクエリ及びそのリファレンスラベルが収録されている。39個のクエリを9個と30個に分け、それぞれ開発セット、評価セットとした。なお開発セットは式(3)のαを決めるためのみに使用した。 This test collection contains 2702 voice documents and their speech recognition results, 39 queries and their reference labels. The 39 queries were divided into 9 and 30 to make a development set and an evaluation set, respectively. The development set was used only to determine α in equation (3).
学習データ生成装置11において、言語モデルとしてback−off tri−gram言語モデルを用い、全ドキュメントから作成した言語モデルBと各ドキュメントから生成した言語モデルLmとを線形結合したものを利用した。式(2)のλは0.9,0.8,0.7,0.6,0.5の何れかとし、単語列生成手段114は各ドキュメントの各λに対してそれぞれ50個のクエリを生成した。つまり、一つのドキュメントからN=50個×5個(λ値の総数)=250個のクエリを生成した。よって学習用に生成したクエリの総数は250個×2702個(ドキュメントの総数)=675500個である。この方法によれば、ドキュメントdに出現していない単語のみから構成されるクエリが生成される可能性がゼロではない。しかし、そのようなクエリは全体のごく一部に過ぎず、パラメータの推定にほとんど影響しないことが予想される。そのため、当該クエリの存在を確認すること無く全てのクエリを学習に利用した。なおドキュメントdに出現していない単語のみから構成されるクエリを学習データから除外する構成としてもよい。
In the learning
スコアリングモデル生成装置12は、675500個の学習データを用いて、パラメータベクトルΦを推定した。なお学習には既存の最大エントロピーモデルに基づく手法を用いた(非特許文献1参照)。
The scoring
検索装置13は、パラメータベクトルΦを用いて式(3)により開発セットのクエリに対するドキュントのスコアを計算し、その値の大きな順にドキュメントの上位候補として順位を決定した。なお単語の種類の総数は約2万7千であり、Φ及びfq,dの次元はこれに一致する。
The
評価尺度はMAP(mean average precision)、R−precision、5位におけるnDCG(normalized discounted cumulative gain)である。いずれも大きな値ほど性能が良いことを示す。評価セットにおける値は図5に示す通りである。何れの評価尺度においてもベースライン検索システムの評価よりも検索装置13の評価のほうが高いことがわかる。
The evaluation scale is MAP (mean average precision), R-precition, nDCG (normalized discounted cumulative gain) at the fifth place. In either case, the larger the value, the better the performance. The values in the evaluation set are as shown in FIG. It can be seen that the evaluation of the
<シミュレーション2>
シミュレーション1では、素性に単語頻度を用いたが、n−gram頻度を使用することでさらに高次元のモデルにすることもできる。また、品詞、文字や音素等のサブワードに関する素性を用いることも可能であり、これにより、未知の単語が出現した場合にも頑健な検索結果を期待できる。さらに、音声認識の信頼度を素性に使うことで、音声認識の誤認識に頑健な検索が期待できる。なお学習データ生成装置11によって大量の学習データを生成することができるため、素性を追加して素性ベクトルの次元数を増やしても適切にパラメータベクトルを学習し、生成することができる。
<
In the
シミュレーション2では、素性として音素を加えている。またシミュレーション2において39個のクエリの中には音声認識の未知語を含むものが4個あり(開発セットに1、評価セットに3)、これも別途評価に用いた。またシミュレーション2ではスコアリングモデル生成装置12において式(4)によりパラメータベクトルΦを学習し生成している。
In
シミュレーション2では評価尺度としてMAPと上位10位に関するnDCGを用いる。図6に結果を示す。図中”eval”には30クエリの評価セットに対する精度、”oov”には未知語を含む4クエリに対する精度を示している。まずevalに関して、ベースライン単体(Baseline)の検索精度と比べて、第一実施形態のスコアリングモデル生成装置を利用して生成したモデルによるリスコアリング(+単語)を行うことで大きく性能が改善している。この結果はシミュレーション1と同様である。未知語や認識誤りの有無とは別に、本質的に検索能力が向上したものと考えられる。音素素性はevalに関して、精度を低下させる結果となった。しかし、oovに着目するとベースラインに対して大きく検索精度を改善している。このことから、第一実施形態では単に音素素性を加えるだけで未知語に対する頑健性を向上させることがわかる。
In
<第一変形例>
第一実施形態の学習データ生成装置11は、総合言語モデル生成手段113を備えない構成としてもよい。その場合、図4のs1101を行わない。単語列生成手段114ではドキュメントdmに対する確率的言語モデルLmにより与えられる単語Wの確率PLm(W)を求め、その確率分布に従ってランダムに文qmnを生成する。ただし、確率PLm(W)の確率分布に従ってランダムに文qmnを生成すると、qmnは一般にドキュメントdmに出現する語彙のみで構成される。クエリに出現する単語の全てが、リファレンスとなるドキュメントに全て出現することは稀であるため、第一実施形態のように全てのドキュメントに対する確率的言語モデルを用いたほうがその精度高くなると考えられる。
<First modification>
The learning
<第二変形例>
第一変形例の学習データ生成装置11は、さらに個別言語モデル生成手段112を備えない構成としてもよい。その場合、図4のs1103を行わない。単語列生成手段114ではドキュメントdmからランダムに単語、句、文を抽出し、それを接続してできる文(文章)をクエリとする。ただし、ランダムに単語のみを抽出する場合は、個別言語モデル生成手段112で単語unigram言語モデルを生成した場合と等価となる。
<Second modification>
The learning
抽出する単語、句、文の単位、数に関してランダムに決定することも可能である。クエリに出現する単語の全てが、リファレンスとなるドキュメントに全て出現することは現実には稀である。そこで対策として、一部の単語や句を、他のドキュメントから抽出した単語や句に置換又は挿入することもできる。置換や挿入を行う数、位置についてもランダムに決定することができる。ただし、ランダムとは、一様分布も含め、種々の確率モデルに従った分布に従うことを意味している。例えば、単語列を構成する単語の数であれば、ポアソン分布に従って決定することが考えられる。 It is also possible to randomly determine the word, phrase, sentence unit and number to be extracted. In reality, it is rare that all the words appearing in the query appear in the reference document. As a countermeasure, some words and phrases can be replaced or inserted with words and phrases extracted from other documents. The number and position of replacement or insertion can also be determined randomly. However, “random” means following a distribution according to various probability models including a uniform distribution. For example, if it is the number of words constituting the word string, it may be determined according to the Poisson distribution.
第一実施形態と第一変形例と第二変形例との関係性をみれば、明らかにその何れかを組合せて単語列(クエリ)を作成することも可能である。例えば第一実施形態や第一変形例により抽出した単語に対し、第二変形例の方法により一部を置換したり、挿入してもよい。 If the relationship between the first embodiment, the first modified example, and the second modified example is seen, it is possible to create a word string (query) by clearly combining any of them. For example, a part of the words extracted by the first embodiment or the first modification may be replaced or inserted by the method of the second modification.
<その他の変形例>
総合言語モデル生成手段113は、必ずしも全てのドキュメントに対する確率的言語モデルを生成しなくともよく、ドキュメントdmに対する確率的言語モデルLmとは別の(バックグラウンド)言語モデル、言い換えると言語モデルLmに含まれていない語彙を含む言語モデルであればよい。
<Other variations>
Comprehensive language model generating means 113, not all may not generate a probabilistic language model for a document, another (background) is a stochastic language model L m to the document d m language model, in other words, language model L Any language model including a vocabulary not included in m may be used.
検索装置13は必ずしも本実施形態のスコアリングモデルを従来の検索手法に対するリスコアリングとして導入する必要はない。つまり検索装置13は、ベースライン検索システムの関連度をD(fq,fd)を用いずに、パラメータベクトルΦと素性ベクトルfd,pのみを用いて式(1)によりスコアを求めてもよい。
The
第一実施形態では一つのドキュメントdmから生成されるクエリはN個としているが、ドキュメント毎に生成されるクエリの個数を変更してもよい。例えばドキュメントdmの長さに応じてNを変更してもよい。 Although the first embodiment queries are generated from one document d m are the N number may change the number of queries generated for each document. For example it may be changed N according to the length of the document d m.
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。 The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
<プログラム及び記録媒体>
上述した学習データ生成装置、スコアリングモデル生成装置及び検索装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、又はその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and recording medium>
The learning data generation device, scoring model generation device, and search device described above can also be operated by a computer. In this case, each process of a program for causing a computer to function as a target device (a device having the functional configuration shown in the drawings in various embodiments) or a processing procedure thereof (shown in each embodiment) is processed by the computer. A program to be executed by the computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line into the computer, and the program may be executed.
Claims (15)
Mをドキュメントの個数、Nを1つのドキュメントから生成されるクエリの個数とし、M×N個の学習データs M × N pieces of learning data s, where M is the number of documents and N is the number of queries generated from one document. mnmn を受け取り、Receive
前記学習データs The learning data s mnmn に含まれるクエリqと各ドキュメントdとから素性ベクトルfFeature vector f from query q and document d included in q,dq, d を抽出し、Extract
パラメータベクトルΦと素性ベクトルf Parameter vector Φ and feature vector f q,dq, d との内積が、ドキュメントdがクエリqの関連ドキュメントである場合には正の値を、ドキュメントdがクエリqの関連ドキュメントでない場合には負の値をとるように、前記パラメータベクトルΦを学習する、The parameter vector Φ is learned so that the inner product of and takes a positive value when the document d is a related document of the query q and a negative value when the document d is not a related document of the query q. ,
スコアリングモデル生成装置。 Scoring model generator.
||x|| || x || 22 22 をL2−ノルムとし、cを定数とし、ドキュメントdがクエリqの関連ドキュメントであるかどうかを表す情報をr(d,q)とし、次式を最小化するパラメータベクトルΦIs a L2-norm, c is a constant, information indicating whether the document d is a related document of the query q is r (d, q), and a parameter vector Φ that minimizes the following expression +1+1 及びΦAnd Φ −1-1 を求め、Seeking
前記パラメータベクトルΦを次式により求める、The parameter vector Φ is obtained by the following equation:
Φ=ΦΦ = Φ +1+1 −Φ−Φ −1-1
スコアリングモデル生成装置。 Scoring model generator.
与えられる各前記ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を1つ以上生成する単語列生成手段と、
生成した各前記単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を前記学習データとする学習データ生成手段と、を含む
学習データ生成装置。 A learning data generation device that is provided with a plurality of documents and generates M × N learning data s mn for use in the scoring model generation device according to claim 1 or 2 ,
Word string generation means for generating one or more word strings including words included in the document for each given document;
Learning data generating means including each of the generated word strings and a label indicating a document used when generating the word strings as a query and a reference, and a set of the query and the reference as the learning data, respectively. Data generator.
与えられる各前記ドキュメントを用いて、各前記ドキュメントに対する確率的言語モデルを生成する個別言語モデル生成手段をさらに含み、
前記単語列生成手段は、前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成装置。 The learning data generation device according to claim 3 ,
Further comprising individual language model generation means for generating a probabilistic language model for each of the documents using each of the given documents;
The word string generating means generates the word string based on the probabilistic language model;
Learning data generation device.
与えられる全ての前記ドキュメントを用いて、全ての前記ドキュメントに対する確率的言語モデルを生成する総合言語モデル生成手段をさらに含み、
前記単語列生成手段は、二つの前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成装置。 The learning data generation device according to claim 4 ,
A comprehensive language model generating means for generating probabilistic language models for all the documents using all the given documents;
The word string generation means generates the word string based on two probabilistic language models;
Learning data generation device.
さらに、前記学習データ生成装置で生成された前記学習データを用いて前記スコアリングモデル生成装置で学習したスコアリングモデルを利用してドキュメント検索を行う検索装置を含む、
検索システム。 A scoring system including the scoring model generation device according to claim 1 and the learning data generation device according to any one of claims 3 to 5 ,
And a search device that performs a document search using the scoring model learned by the scoring model generation device using the learning data generated by the learning data generation device ,
Search system.
Mをドキュメントの個数、Nを1つのドキュメントから生成されるクエリの個数とし、M×N個の学習データs M × N pieces of learning data s, where M is the number of documents and N is the number of queries generated from one document. mnmn を受け取り、Receive
前記学習データs The learning data s mnmn に含まれるクエリqと各ドキュメントdとから素性ベクトルfFeature vector f from query q and document d included in q,dq, d を抽出し、Extract
パラメータベクトルΦと素性ベクトルf Parameter vector Φ and feature vector f q,dq, d との内積が、ドキュメントdがクエリqの関連ドキュメントである場合には正の値を、ドキュメントdがクエリqの関連ドキュメントでない場合には負の値をとるように、前記パラメータベクトルΦを学習する、The parameter vector Φ is learned so that the inner product of and takes a positive value when the document d is a related document of the query q and a negative value when the document d is not a related document of the query q. ,
スコアリングモデル生成方法。 Scoring model generation method.
||x|| || x || 22 22 をL2−ノルムとし、cを定数とし、ドキュメントdがクエリqの関連ドキュメントであるかどうかを表す情報をr(d,q)とし、次式を最小化するパラメータベクトルΦIs a L2-norm, c is a constant, information indicating whether the document d is a related document of the query q is r (d, q), and a parameter vector Φ that minimizes the following expression +1+1 及びΦAnd Φ −1-1 を求め、Seeking
前記パラメータベクトルΦを次式により求める、The parameter vector Φ is obtained by the following equation:
Φ=ΦΦ = Φ +1+1 −Φ−Φ −1-1
スコアリングモデル生成方法。 Scoring model generation method.
与えられる各前記ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を1つ以上生成する単語列生成ステップと、
生成した各前記単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を前記学習データとする学習データ生成ステップと、を含む
学習データ生成方法。 A learning data generation method for generating M × N learning data s mn to be used in the scoring model generation method according to claim 7 or 8 using a learning data generation device given a plurality of documents. And
A word string generation step for generating one or more word strings including words included in the document for each given document;
A learning data generation step in which each of the generated word strings and a label indicating the document used when generating the word strings is a query and a reference, and a set of the query and the reference is the learning data. Data generation method.
与えられる各前記ドキュメントを用いて、各前記ドキュメントに対する確率的言語モデルを生成する個別言語モデル生成ステップをさらに含み、
前記単語列生成ステップにおいて、前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成方法。 The learning data generation method according to claim 9 , wherein
Further comprising: generating an individual language model using each given document to generate a probabilistic language model for each document;
In the word string generation step, the word string is generated based on the probabilistic language model.
Learning data generation method.
与えられる全ての前記ドキュメントを用いて、全ての前記ドキュメントに対する確率的言語モデルを生成する総合言語モデル生成ステップをさらに含み、
前記単語列生成ステップにおいて、二つの前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成方法。 The learning data generation method according to claim 10 ,
A comprehensive language model generating step of generating a probabilistic language model for all the documents using all the given documents;
In the word string generation step, the word string is generated based on two probabilistic language models.
Learning data generation method.
さらに、前記学習データ生成方法で生成された前記学習データを用いて前記学習データ生成方法で学習したスコアリングモデルを利用してドキュメント検索を行う、
検索方法。 A scoring model generation method according to claim 7 or 8, and a learning data generation method according to any one of claims 9 to 11 ,
Further, the document search is performed using the scoring model learned by the learning data generation method using the learning data generated by the learning data generation method .
retrieval method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012023886A JP5700566B2 (en) | 2012-02-07 | 2012-02-07 | Scoring model generation device, learning data generation device, search system, scoring model generation method, learning data generation method, search method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012023886A JP5700566B2 (en) | 2012-02-07 | 2012-02-07 | Scoring model generation device, learning data generation device, search system, scoring model generation method, learning data generation method, search method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013161330A JP2013161330A (en) | 2013-08-19 |
JP5700566B2 true JP5700566B2 (en) | 2015-04-15 |
Family
ID=49173507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012023886A Active JP5700566B2 (en) | 2012-02-07 | 2012-02-07 | Scoring model generation device, learning data generation device, search system, scoring model generation method, learning data generation method, search method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5700566B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7256357B2 (en) * | 2018-10-31 | 2023-04-12 | キヤノンマーケティングジャパン株式会社 | Information processing device, control method, program |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
JP4005477B2 (en) * | 2002-05-15 | 2007-11-07 | 日本電信電話株式会社 | Named entity extraction apparatus and method, and numbered entity extraction program |
JP3868344B2 (en) * | 2002-07-12 | 2007-01-17 | 日本電信電話株式会社 | Text multiple topics extraction method and apparatus, text multiple topics extraction program, and recording medium recording the program |
US7496500B2 (en) * | 2004-03-01 | 2009-02-24 | Microsoft Corporation | Systems and methods that determine intent of data and respond to the data based on the intent |
US8250061B2 (en) * | 2006-01-30 | 2012-08-21 | Yahoo! Inc. | Learning retrieval functions incorporating query differentiation for information retrieval |
US8001121B2 (en) * | 2006-02-27 | 2011-08-16 | Microsoft Corporation | Training a ranking function using propagated document relevance |
JP2009157442A (en) * | 2007-12-25 | 2009-07-16 | Toshiba Corp | Data retrieval device and method |
CN101561805B (en) * | 2008-04-18 | 2014-06-25 | 日电(中国)有限公司 | Document classifier generation method and system |
JP5049223B2 (en) * | 2008-07-29 | 2012-10-17 | ヤフー株式会社 | Retrieval device, retrieval method and program for automatically estimating retrieval request attribute for web query |
JP5152918B2 (en) * | 2008-11-27 | 2013-02-27 | 日本電信電話株式会社 | Named expression extraction apparatus, method and program thereof |
US9110971B2 (en) * | 2010-02-03 | 2015-08-18 | Thomson Reuters Global Resources | Method and system for ranking intellectual property documents using claim analysis |
US20110314011A1 (en) * | 2010-06-18 | 2011-12-22 | Microsoft Corporation | Automatically generating training data |
-
2012
- 2012-02-07 JP JP2012023886A patent/JP5700566B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013161330A (en) | 2013-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033760B (en) | Modeling method, device and equipment for speech recognition | |
CN112711948B (en) | Named entity recognition method and device for Chinese sentences | |
CN110196894A (en) | The training method and prediction technique of language model | |
JP6310150B2 (en) | Intent understanding device, method and program | |
JP2010170137A (en) | Speech understanding apparatus | |
KR20070087399A (en) | Method and apparatus for searching media file through extracting partial search word | |
JP2004355483A (en) | Morpheme analysis device, morpheme analysis method and morpheme analysis program | |
JP5524138B2 (en) | Synonym dictionary generating apparatus, method and program thereof | |
CN102246169A (en) | Assigning an indexing weight to a search term | |
Kurimo et al. | Modeling under-resourced languages for speech recognition | |
CN113449514B (en) | Text error correction method and device suitable for vertical field | |
KR20230156125A (en) | Lookup table recursive language model | |
Raval et al. | Improving deep learning based automatic speech recognition for Gujarati | |
Tian et al. | Tod-da: Towards boosting the robustness of task-oriented dialogue modeling on spoken conversations | |
Williams | Zero Shot Intent Classification Using Long-Short Term Memory Networks. | |
JP2015084047A (en) | Text set creation device, text set creating method and text set create program | |
JP5700566B2 (en) | Scoring model generation device, learning data generation device, search system, scoring model generation method, learning data generation method, search method and program thereof | |
SG193995A1 (en) | A method, an apparatus and a computer-readable medium for indexing a document for document retrieval | |
Zhang et al. | Character-Aware Sub-Word Level Language Modeling for Uyghur and Turkish ASR | |
JP5670293B2 (en) | Word addition device, word addition method, and program | |
JP6549064B2 (en) | Speech recognition device, speech recognition method, program | |
CN114239555A (en) | Training method of keyword extraction model and related device | |
US11556783B2 (en) | Confusion network distributed representation generation apparatus, confusion network classification apparatus, confusion network distributed representation generation method, confusion network classification method and program | |
JP5264649B2 (en) | Information compression model parameter estimation apparatus, method and program | |
Laryea et al. | Automatic Speech Recognition System for Somali in the interest of reducing Maternal Morbidity and Mortality. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140520 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5700566 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |