JP4986301B2 - Content search apparatus, program, and method using voice recognition processing function - Google Patents
Content search apparatus, program, and method using voice recognition processing function Download PDFInfo
- Publication number
- JP4986301B2 JP4986301B2 JP2008252219A JP2008252219A JP4986301B2 JP 4986301 B2 JP4986301 B2 JP 4986301B2 JP 2008252219 A JP2008252219 A JP 2008252219A JP 2008252219 A JP2008252219 A JP 2008252219A JP 4986301 B2 JP4986301 B2 JP 4986301B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- probability
- user
- preference
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法に関する。 The present invention relates to a content search apparatus, program, and method using a speech recognition processing function.
従来、携帯電話機やパーソナルコンピュータのような端末を用いて、コンテンツとしての楽曲を検索する音楽配信サービスが提供されている。このサービスによれば、利用者は、楽曲名やアーティスト名のようなキーワードを、端末に入力する。端末は、そのキーワードを、ネットワークを介してコンテンツ検索サーバへ送信し、適切な楽曲を検索することができる。 2. Description of the Related Art Conventionally, music distribution services for searching for music as content using a terminal such as a mobile phone or a personal computer have been provided. According to this service, a user inputs a keyword such as a music title or artist name into the terminal. The terminal can search the appropriate music piece by transmitting the keyword to the content search server via the network.
楽曲を検索するためのキーワードとなる楽曲名やアーティスト名には、日本語、英語、数字等が混在する場合もある。このような場合、例えば携帯電話機に対してキーワードを入力する操作は、利用者にとって手間がかかる。このような手間を排除するために、音声入力機能を搭載した端末もある。 In some cases, Japanese, English, numbers, and the like are mixed in the music name and artist name as keywords for searching for music. In such a case, for example, an operation for inputting a keyword to the mobile phone is troublesome for the user. In order to eliminate such trouble, some terminals have a voice input function.
図1は、従来技術におけるコンテンツ検索装置の機能構成図である。 FIG. 1 is a functional configuration diagram of a content search apparatus in the prior art.
図1によれば、コンテンツ検索装置1は、音声入力部101と、音響特徴量抽出部102と、音響モデル蓄積部103と、言語モデル蓄積部104と、音声認識デコーダ105と、コンテンツ検索部106とを有する。音声入力部101以外のこれら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
According to FIG. 1, the content search device 1 includes a
音声入力部101は、利用者の発生した音声を入力し、電気信号(音波波形)に変換する。変換された音波波形は、音響特徴量抽出部102へ出力される。
The
音響特徴量抽出部102は、入力された音声波形から音響特徴量xを抽出する音響特徴量を抽出する。例えば、周波数の違いに基づく人の認識感度で重み付けをしたメルケプストラム係数(Mel Frequency Cepstrum Coefficient MFCC)を用いることもできる。
The acoustic feature
音響モデル蓄積部103は、音響モデルを蓄積し、認識結果候補の単語列ωに対して、入力音声から抽出した音響特徴量xが観測される音響確率P(x|ω)を出力する。ここで、ω(ω=ω1,ω2,・・・,ωm)は単語列を意味し、ωmは単語を意味する。
The acoustic
言語モデル蓄積部104は、言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する。言語モデルとしては、一般的に、統計的言語モデル又は記述文法が用いられる。尚、この言語モデル蓄積部104には、通常、認識の対象になる単語辞書も蓄積されている。
The language
Pn-gram(ω)は、nグラムと称される統計的言語モデルの言語確率であり、大量の文章の言語統計に基づいて、単語列ωが出現する言語確率P(ω)を推定したものである。主として、書き取り(dictation)や対話音声認識で用いられる。 Pn-gram (ω) is the language probability of a statistical language model called n-gram, and is an estimate of the language probability P (ω) that a word string ω appears based on the language statistics of a large number of sentences. It is. Mainly used in dictation and interactive speech recognition.
Pcfg(ω)は、文脈自由文法と呼ばれる文法規則ベースのモデルの言語確率であり、言語に関する知識及び認識タスクの分析結果に基づいて構文規則を人手によって記述したものである。 Pcfg (ω) is a language probability of a grammar rule-based model called context-free grammar, and is a description of syntax rules by hand based on the knowledge of the language and the analysis result of the recognition task.
音声認識デコーダ105は、音響特徴量xと、音響確率P(x|ω)と、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を用いた言語確率P(ω)とに基づいて、以下の評価関数を最大又は高い順から上位N位の認識結果単語列ω^を出力する。
P(ω)×P(x|ω)(ω∈W, x∈X)
探索された認識結果単語列ω^は、コンテンツ検索部106へ出力される。例えば、最大確率の認識結果単語列ω^は、以下の式で表される。
ω^=arg max{P(ω)×P(x|ω)}(ω∈W,x∈X)
The
P (ω) × P (x | ω) (ω∈W, x∈X)
The searched recognition result word string ω ^ is output to the
ω ^ = arg max {P (ω) × P (x | ω)} (ω∈W, x∈X)
尚、認識結果単語列ω^の探索処理には、いわゆるビームサーチアルゴリズムが用いられる。ビームサーチアルゴリズムとは、単語列の候補について、所定の探索ビーム幅を用いて、評価関数P(ω)×P(x|ω)の高いものだけ残し、低いものは枝刈りする探索処理である。ビーム幅の設定によって、計算時間と認識精度とのトレードオフを制御することができる。 A so-called beam search algorithm is used for the search processing of the recognition result word string ω ^. The beam search algorithm is a search process in which only a high evaluation function P (ω) × P (x | ω) is left and a low one is pruned using a predetermined search beam width for word string candidates. . The trade-off between calculation time and recognition accuracy can be controlled by setting the beam width.
コンテンツ検索部106は、認識結果単語列ω^を検索キーとして、コンテンツデータベースから、コンテンツ自体又はダウンロードサーバアドレスを検索する。
The
このようなコンテンツ検索装置を用いた技術として、利用者が、アーティスト名と楽曲名とを「の」でつなげて発声し、その音波波形からキーワードを認識し、楽曲を検索する楽曲検索システムがある(例えば特許文献1参照)。 As a technique using such a content search apparatus, there is a music search system in which a user connects an artist name and a song name with “no”, utters, recognizes a keyword from the sound waveform, and searches for a song. (For example, refer to Patent Document 1).
また、単語辞書を用いて番組を検索する番組指定装置がある(例えば特許文献2参照)。単語辞書は、予め登録された単語辞書から、利用者の嗜好情報に合わない単語を削除したものである。単語列の探索空間を小さくすることによって、認識精度を向上させることができる。 There is also a program designating device that searches for programs using a word dictionary (see, for example, Patent Document 2). The word dictionary is obtained by deleting words that do not match the user's preference information from a word dictionary registered in advance. Recognition accuracy can be improved by reducing the search space for word strings.
特許文献1に記載された技術によれば、発声された音波波形から直接的に単語列を抽出しており、利用者の意図又は嗜好を反映するものではない。また、単語辞書に登録された全ての楽曲名単語を同じ優先順位で探索する。従って、数万から数十万楽曲名程度を記録した商用楽曲データベースを検索対象にする場合には、単語辞書に登録した楽曲名単語が増えると共に、探索空間が膨大となる。そのため、全ての楽曲を同じ優先順位で探索すると探索時間が非常にかかるばかりでなく、利用者の意図又は嗜好とは異なる楽曲名を認識結果として出力してしまうことも多い。 According to the technique described in Patent Document 1, a word string is directly extracted from a sound wave waveform uttered, and does not reflect the user's intention or preference. In addition, all music title words registered in the word dictionary are searched with the same priority. Therefore, when a commercial music database in which about tens of thousands to hundreds of thousands of music titles are recorded is to be searched, the music name words registered in the word dictionary increase and the search space becomes enormous. For this reason, searching for all music pieces with the same priority not only takes a very long search time, but also often outputs a music name that is different from the user's intention or preference as a recognition result.
また、特許文献2に記載された技術によれば、利用者の嗜好情報に合わない単語辞書の単語を削除した縮小単語辞書を作成している。従って、縮小単語辞書に該当しない、嗜好から外れた番組は、全く認識することができない。また、嗜好度の推定精度が高くない場合には、認識性能が大幅に低下することがある。尚、嗜好度は、利用者が利用毎に嗜好度の評価点数等を手動で入力すべきものである。
Moreover, according to the technique described in
そこで、本発明は、利用者の嗜好を考慮して、利用者毎に認識精度が高いと感じさせるコンテンツを音声から検索することができるコンテンツ検索装置、プログラム及び方法を提供することを目的とする。 Therefore, the present invention has an object to provide a content search device, a program, and a method that can search for content that makes the user feel that recognition accuracy is high for each user in consideration of user preferences. .
本発明によれば、入力された音声波形から音響特徴量xを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、1つ以上の単語ω m からなる単語認識結果候補の単語列ωに対して音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、
言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
音響特徴量x、音響確率P(x|ω)及び統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
認識結果単語列ω^を検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
を有するコンテンツ検索装置において、
全てのコンテンツにおける2つのコンテンツ間類似度S i,j と、利用者U毎に過去に検索されたコンテンツ毎の単語ω m (=コンテンツ名M n (M 1 ,M 2 ,・・・,M v ))の群とを蓄積する利用者情報蓄積手段と、
当該コンテンツ名M q に対する利用者Uの第1の重みα(M q ,U)を、当該コンテンツ名Mqと、当該利用者Uによって過去に検索された各コンテンツ名M n との間のコンテンツ間類似度S Mq,Mn の総和から算出し、第1の重みα(M q ,U)を付与した単語ω m 毎の嗜好度確率P * (ω m )を算出し、1つ以上の単語ω m を含む単語列ω毎の嗜好度確率P * (ω)を、P * (ω)=P * (ω 1 ,ω 2 ,・・・,ω m )=P * (ω 1 )×P * (ω 2 )×・・・×P * (ω m )によって算出する嗜好度確率計算手段と、
統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
を有することを特徴とする。
According to the present invention, acoustic feature quantity extraction means for extracting the acoustic feature quantity x from the input speech waveform;
An acoustic model accumulating means for accumulating an acoustic model and outputting an acoustic probability P (x | ω) at which an acoustic feature quantity x is observed for a word sequence ω of word recognition result candidates composed of one or more words ω m ,
Language model storage means for storing language models and outputting statistical / grammatical language probabilities Pn-gram (ω) / Pcfg (ω);
A speech recognition decoder that outputs a recognition result word string ω ^ based on an acoustic feature quantity x, an acoustic probability P (x | ω), and a statistical / grammatical language probability Pn-gram (ω) / Pcfg (ω);
In a content search apparatus having content search means for searching for content from a content database using the recognition result word string ω ^ as a search key,
The similarity between two contents S i, j in all contents and the word ω m (= content name M n (M 1 , M 2 ,..., M) for each content searched in the past for each user U v )) a user information storage means for storing
First weight alpha (M q, U) of the user U with respect to the content name M q a, between the contents between the the content name Mq, each content name M n retrieved in the past by the user U A preference probability P * (ω m ) is calculated for each word ω m calculated from the sum of the similarities S Mq and Mn and given the first weight α (M q , U) , and one or more words ω The preference probability P * (ω) for each word string ω including m is expressed as P * (ω) = P * (ω 1 , ω 2 ,..., ω m ) = P * (ω 1 ) × P * preference degree probability calculating means for calculating by (ω 2 ) ×... × P * (ω m ) ;
A language probability calculating means for outputting a language probability P (ω) obtained by weighting a preference probability P * (ω) to a statistical / grammatical language probability Pn-gram (ω) / Pcfg (ω). And
本発明のコンテンツ検索装置における他の実施形態によれば、
利用者情報蓄積手段は、コンテンツのカテゴリkと、各カテゴリkに含まれるコンテンツに対する全利用者における検索頻度とを蓄積しており、
嗜好度確率計算手段は、当該コンテンツ名M q に対応するカテゴリkにおける利用者Uの検索頻度に対する、他の全ての検索頻度との比に基づいて第2の重みβkを算出し、第1の重みα(M q ,U)に第2の重みβkを加えて単語ω m 毎の嗜好度確率P * (ω m )を算出する
ことも好ましい。
According to another embodiment of the content search device of the present invention,
The user information accumulating means accumulates the content category k and the search frequency among all users for the content included in each category k.
The preference degree probability calculation means calculates the second weight βk based on the ratio of all other search frequencies to the search frequency of the user U in the category k corresponding to the content name M q , A preference probability P * (ω m ) is calculated for each word ω m by adding the second weight β k to the weight α (M q , U).
It is also preferable.
本発明のコンテンツ検索装置における他の実施形態によれば、
利用者情報蓄積手段は、複数の利用者UがカテゴリCに区分されており、各カテゴリCに含まれる複数の利用者Uについて、当該コンテンツ名Mqと、当該利用者Uによって過去に検索された各コンテンツ名M n との間のコンテンツ間類似度S Mq,Mn の総和から算出された、当該コンテンツ名M q に対する利用者Unの第1の重みα(M q ,U n )を蓄積しており、
嗜好度確率計算手段は、利用者Uが属するカテゴリCについて、当該コンテンツ名M q に対する利用者Unの第1の重みα(M q ,U n )の総和に基づいて第3の重みγ(M q ,U)を算出し、第1の重みα(M q ,U)及び/又は第2の重みβkに第3の重みγ(M q ,U)を加えて単語ω m 毎の嗜好度確率P * (ω m )を算出する
ことも好ましい。
According to another embodiment of the content search device of the present invention,
In the user information storage means, a plurality of users U are classified into categories C, and the plurality of users U included in each category C have been searched in the past by the content name Mq and the users U. Accumulating the first weight α (M q , U n ) of the user Un for the content name M q calculated from the sum of the inter-content similarity S Mq, Mn with each content name M n And
Preference probability calculation means, for the category C which the user U belongs, the content name M first weighted alpha (M q, U n) of the user Un with respect to q third on the basis of the sum of the weights gamma (M q , U), and the third weight γ (M q , U) is added to the first weight α (M q , U) and / or the second weight βk, and the preference probability for each word ω m Calculate P * (ω m )
It is also preferable.
本発明のコンテンツ検索装置における他の実施形態によれば、認識結果単語列ω^を利用者に表示し、且つ該認識結果単語列ω^に対する利用者の正誤評価入力操作を受け、誤りの評価入力操作の場合、嗜好度確率計算手段に対して嗜好度確率P*(ω)を再計算させる利用者評価手段を更に有することも好ましい。 According to another embodiment of the content search apparatus of the present invention, the recognition result word string ω ^ is displayed to the user, and the user's correct / incorrect evaluation input operation for the recognition result word string ω ^ is received to evaluate the error. In the case of an input operation, it is preferable to further include a user evaluation unit that causes the preference level probability calculation unit to recalculate the preference level probability P * (ω).
本発明のコンテンツ検索装置における他の実施形態によれば、音声認識デコーダは、音響確率P(x|ω)に言語確率P(ω)を重み付けた確率が、所定閾値以下となる認識候補単語列を枝刈りするビームサーチ法を用い、最終的には重み付けた確率が最大又は高い順から上位N位の認識結果単語列ω^のみを出力することも好ましい。 According to another embodiment of the content search device of the present invention, the speech recognition decoder uses a recognition candidate word string in which the probability that the language probability P (ω) is weighted to the acoustic probability P (x | ω) is equal to or less than a predetermined threshold. It is also preferable to use a beam search method for pruning and finally output only the top N recognition result word strings ω ^ from the highest or highest weighted probability.
本発明のコンテンツ検索装置における他の実施形態によれば、コンテンツは、楽曲であることも好ましい。 According to another embodiment of the content search device of the present invention, the content is preferably music.
本発明によれば、
コンテンツデータベースからコンテンツを検索する装置に搭載されたコンピュータを機能させるプログラムであって、
入力された音声波形から音響特徴量Xを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、1つ以上の単語ω m からなる認識結果候補の単語列ωに対して音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、
言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
音響特徴量x、音響確率P(x|ω)及び統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
認識結果単語列ωを検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
としてコンピュータを機能させるコンテンツ検索プログラムにおいて、
全てのコンテンツにおける2つのコンテンツ間類似度S i,j と、利用者U毎に過去に検索されたコンテンツ毎の単語ω m (=コンテンツ名M n (M 1 ,M 2 ,・・・,M v ))の群とを蓄積する利用者情報蓄積手段と、
当該コンテンツ名M q に対する利用者Uの第1の重みα(M q ,U)を、当該コンテンツ名Mqと、当該利用者Uによって過去に検索された各コンテンツ名M n との間のコンテンツ間類似度S Mq,Mn の総和から算出し、第1の重みα(M q ,U)を付与した単語ω m 毎の嗜好度確率P * (ω m )を算出し、1つ以上の単語ω m を含む単語列ω毎の嗜好度確率P * (ω)を、P * (ω)=P * (ω 1 ,ω 2 ,・・・,ω m )=P * (ω 1 )×P * (ω 2 )×・・・×P * (ω m )によって算出する嗜好度確率計算手段と、
統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
してコンピュータを更に機能させることを特徴とする。
According to the present invention,
A program for causing a computer installed in an apparatus for searching for content from a content database to function.
Acoustic feature quantity extraction means for extracting the acoustic feature quantity X from the input speech waveform;
An acoustic model accumulating means for accumulating an acoustic model and outputting an acoustic probability P (x | ω) at which an acoustic feature quantity x is observed with respect to a recognition result candidate word string ω composed of one or more words ω m ;
Language model storage means for storing language models and outputting statistical / grammatical language probabilities Pn-gram (ω) / Pcfg (ω);
A speech recognition decoder that outputs a recognition result word string ω ^ based on an acoustic feature quantity x, an acoustic probability P (x | ω), and a statistical / grammatical language probability Pn-gram (ω) / Pcfg (ω);
In a content search program for causing a computer to function as a content search means for searching for content from a content database using the recognition result word string ω as a search key,
The similarity between two contents S i, j in all contents and the word ω m (= content name M n (M 1 , M 2 ,..., M) for each content searched in the past for each user U v )) a user information storage means for storing
First weight alpha (M q, U) of the user U with respect to the content name M q a, between the contents between the the content name Mq, each content name M n retrieved in the past by the user U A preference probability P * (ω m ) is calculated for each word ω m calculated from the sum of the similarities S Mq and Mn and given the first weight α (M q , U) , and one or more words ω The preference probability P * (ω) for each word string ω including m is expressed as P * (ω) = P * (ω 1 , ω 2 ,..., ω m ) = P * (ω 1 ) × P * preference degree probability calculating means for calculating by (ω 2 ) ×... × P * (ω m ) ;
The computer further functions as a language probability calculation means for outputting a language probability P (ω) obtained by weighting the preference probability P * (ω) to the statistical / grammatical language probability Pn-gram (ω) / Pcfg (ω). It is characterized by that.
本発明によれば、入力された音声波形から音響特徴量xを抽出し、音響特徴量xと、1つ以上の単語ω m からなる認識結果候補の単語列ωに対して音響特徴量xが観測される音響確率P(x|ω)と、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)とに基づいて認識結果単語列ω^を出力し、認識結果単語列ω^をキーとして、コンテンツデータベースからコンテンツを検索する装置におけるコンテンツ検索方法において、
全てのコンテンツにおける2つのコンテンツ間類似度S i,j と、利用者U毎に過去に検索されたコンテンツ毎の単語ω m (=コンテンツ名M n (M 1 ,M 2 ,・・・,M v ))の群とを蓄積する利用者情報蓄積部を有し、
当該コンテンツ名M q に対する利用者Uの第1の重みα(M q ,U)を、当該コンテンツ名Mqと、当該利用者Uによって過去に検索された各コンテンツ名M n との間のコンテンツ間類似度S Mq,Mn の総和から算出し、第1の重みα(M q ,U)を付与した単語ω m 毎の嗜好度確率P * (ω m )を算出し、1つ以上の単語ω m を含む単語列ω毎の嗜好度確率P * (ω)を、P * (ω)=P * (ω 1 ,ω 2 ,・・・,ω m )=P * (ω 1 )×P * (ω 2 )×・・・×P * (ω m )によって算出する第1のステップと、
統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する第2のステップと
を有することを特徴とする。
According to the present invention, the acoustic feature quantity x is extracted from the input speech waveform, and the acoustic feature quantity x is obtained for the acoustic feature quantity x and the recognition result candidate word string ω composed of one or more words ω m. Based on the observed acoustic probability P (x | ω) and the statistical / grammatical language probabilities Pn-gram (ω) / Pcfg (ω), the recognition result word sequence ω ^ is output, and the recognition result word sequence ω In the content search method in the device for searching for content from the content database using ^ as a key,
The similarity between two contents S i, j in all contents and the word ω m (= content name M n (M 1 , M 2 ,..., M) for each content searched in the past for each user U v )) has a user information storage unit for storing
First weight alpha (M q, U) of the user U with respect to the content name M q a, between the contents between the the content name Mq, each content name M n retrieved in the past by the user U A preference probability P * (ω m ) is calculated for each word ω m calculated from the sum of the similarities S Mq and Mn and given the first weight α (M q , U) , and one or more words ω The preference probability P * (ω) for each word string ω including m is expressed as P * (ω) = P * (ω 1 , ω 2 ,..., ω m ) = P * (ω 1 ) × P * a first step calculated by (ω 2 ) ×... × P * (ω m ) ;
A second step of outputting a language probability P (ω) obtained by weighting the preference probability P * (ω) to the statistical / grammatical language probability Pn-gram (ω) / Pcfg (ω). And
本発明のコンテンツ検索装置、プログラム及び方法によれば、音声認識処理の中で、利用者の嗜好度で重み付けした言語確率を用いて単語列を抽出し、その単語列を用いてコンテンツを検索することによって、利用者毎に認識精度が高いと感じさせることができる。 According to the content search apparatus, program, and method of the present invention, in a speech recognition process, a word string is extracted using a language probability weighted by a user's preference level, and the content is searched using the word string. By this, it can be made to feel that recognition accuracy is high for every user.
以下では、図面を用いて、本発明を実施するための最良の形態について詳細に説明する。 Hereinafter, the best mode for carrying out the present invention will be described in detail with reference to the drawings.
図2は、本発明におけるコンテンツ検索装置の機能構成図である。 FIG. 2 is a functional configuration diagram of the content search apparatus according to the present invention.
図2によれば、図1と比較して、コンテンツ検索装置1は、更に、言語確率算出部111と、嗜好度確率計算部112と、利用者情報蓄積部113と、利用者評価部114とを更に有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
According to FIG. 2, compared with FIG. 1, the content search device 1 further includes a language
利用者情報蓄積部113は、利用者情報を蓄積する。利用者情報としては、利用者検索履歴情報、コンテンツ間類似度、コンテンツアクセス度、コンテンツ鮮度及び/又は利用者属性情報を含む。これらの情報は、コンテンツデータベース2からの情報で更新することも好ましい。
The user
嗜好度確率計算部112は、利用者情報に基づいて、コンテンツに対する利用者の嗜好の度合いを表す、単語ωm毎の嗜好度確率P*(ωm)から単語列ωの嗜好度確率P*(ω)=P*(ω1,ω2,・・・,ωm)=P*(ω1)×P*(ω2)×・・・×P*(ωm)を計算する。また、嗜好度確率計算部112は、算出された嗜好度確率P*(ω)を蓄積し、言語確率算出部111へその嗜好度確率P*(ω)を出力する。
The preference degree
言語確率算出部111は、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、嗜好度確率P*(ω)で重み付けた言語確率P(ω)を出力する。本発明の特徴的な点は、言語確率P(ω)として、嗜好度確率P*(ω)で重み付けられた言語確率P(ω)を用いていることである。具体的には、例えば統計的言語モデルを利用する場合には、嗜好度で重み付けられた言語確率P(ω)は、次式で計算される。ここでは、Pn-gram(ω)に、嗜好度確率P*(ω)で重み付けする。
P(ω)=P*(ω)×Pn-gram(ω)
The language
P (ω) = P * (ω) × Pn-gram (ω)
また、記述文法を利用する認識処理の場合には、嗜好度で重み付けられた言語確率P(ω)は、次式で計算される。ここでは、Pcfg(ω)は、1又は0である。
P(ω)=P*(ω)×Pcfg(ω)
In the case of recognition processing using a description grammar, the language probability P (ω) weighted by the preference level is calculated by the following equation. Here, Pcfg (ω) is 1 or 0.
P (ω) = P * (ω) × Pcfg (ω)
ここで、嗜好度で重み付けられた確率P(ω)は、全ての単語列ωに関する総和ΣP(ω)が1になるように、正規化したものである。 Here, the probability P (ω) weighted by the preference level is normalized so that the sum ΣP (ω) regarding all the word strings ω becomes 1.
利用者評価部114は、音声認識デコーダの出力である認識結果単語列ω^を利用者に対して表示する。また、認識結果単語列ω^に対する利用者からの正誤評価の入力操作を受け付ける。正しい評価の入力操作の場合には、認識結果単語列ω^を検索キーとする検索が、コンテンツ検索部106に指示される。誤りの評価の入力操作の場合には、嗜好度確率計算部112に対して嗜好度確率P*(ω)を再計算させる。
The
また、本発明における音声認識デコーダ105は、音響確率P(x|ω)に言語確率P(ω)を重み付けた確率が、所定閾値以下となる認識候補単語列を枝刈りするビームサーチ法を用い、最終的には重み付けた確率が最大又は高い順から上位N位の認識結果単語列ω^を出力する。
Further, the
図3は、嗜好度確率計算部における嗜好度確率P*(ω)の計算ステップを表す説明図である。 FIG. 3 is an explanatory diagram showing steps of calculating the preference probability P * (ω) in the preference probability calculation unit.
図3によれば、利用者情報蓄積部113は、利用者検索履歴情報と、コンテンツ情報と、利用者属性情報とを蓄積する。利用者検索履歴情報は、利用者が検索した楽曲及びそれの検索頻度などの検索履歴情報である。コンテンツ情報は、コンテンツ間類似度と、コンテンツアクセス度と、コンテンツ鮮度とを有する。コンテンツ(楽曲)間類似度は、ジャンルやアーティスト等の楽曲情報に基づいて予め算出されたコンテンツ同士の間の類似度である。コンテンツアクセス度は、例えば各楽曲の利用者全体の検索頻度である。コンテンツ鮮度は、例えば公開(リリース)日である。利用者属性情報は、利用者の年齢層や性別や職業などに基づく利用者プロファイル情報である。
According to FIG. 3, the user
これらの利用者情報を用いて、嗜好度確率計算部112は、各種重み係数α、β、γを算出し、それら重み係数から、コンテンツ名(楽曲名、アーティスト名等)の単語毎の嗜好度確率P*(ω)を計算する。
Using these pieces of user information, the preference
嗜好度確率計算部112は、利用者検索履歴情報を用いたコンテンツ間類似度に基づく履歴重みαを算出する。履歴重みαは、認識対象となる全曲名に対して、利用者の検索嗜好を反映するものであり、利用者履歴情報の量と正比例するよう変化する。
The preference degree
履歴重みαの計算例について説明する。まず、全楽曲において、曲iと曲jの類似度Si,jを計算する。i及びjは、楽曲の番号である。Si,jの値は、楽曲i及びjのジャンル情報の相関度に正比例する。また、楽曲のアーティスト情報、歌詞情報及びメロディ情報における相関度を用いて、類似度Si,jを計算することもできる。利用者Uの検索履歴(検索した楽曲Mi)R(U)={M1,M2,…,MV}に対して、曲Mqに対する履歴嗜好重みα(Mq,U)は、次式で計算される。また、利用者の検索履歴は空白の場合にはαが0となる。
α(Mq,U)=ΣSMq,Mn Mn∈R(U)
また、データベースの楽曲をカテゴリに分類しておき、利用者Uがカテゴリkに属する曲を多く検索した場合に、利用者Uに対するカテゴリkの中の楽曲のα(M,U)(M∈k)の値を大きくすることもできる。
A calculation example of the history weight α will be described. First, the similarity S i, j between music i and music j is calculated for all music. i and j are music numbers. The value of S i, j is directly proportional to the degree of correlation between the genre information of music i and j. Also, the similarity S i, j can be calculated using the degree of correlation in the artist information, lyric information, and melody information of the music. For user U's search history (searched music M i ) R (U) = {M 1 , M 2 ,..., M V }, the history preference weight α (Mq, U) for music M q is Calculated by the formula. If the user's search history is blank, α is 0.
α (Mq, U) = ΣS Mq, Mn M n ∈ R (U)
Further, when the music pieces in the database are classified into categories and the user U searches many music pieces belonging to the category k, α (M, U) (M∈k) of the music pieces in the category k with respect to the user U. ) Can be increased.
また、嗜好度確率計算部112は、コンテンツアクセス度及びコンテンツ鮮度に基づく流行重みβを算出する。
In addition, the preference
流行重みβの計算例について説明する。流行重みβは、楽曲の流行性を表すため、その楽曲の全利用者の検索頻度を用いる。計算例として、まず、楽曲カテゴリにおいて、あるカテゴリk中の全ての楽曲に対して、横軸を、各楽曲のリリース日からの経過時間tとし、縦軸を、その時間帯内の各楽曲の毎日検索頻度として統計する。その統計結果より、カテゴリkに所属する楽曲の検索頻度fkとtの関係式fk=Fk(t)を推定する。この関係に基づいて、カテゴリk中の楽曲の流行重みβkは、次式で計算される。
βk=Fk(t)/max{Fk(t)}
An example of calculating the fashion weight β will be described. The trend weight β uses the search frequency of all users of the music in order to represent the fashion of the music. As a calculation example, first, in the music category, for all songs in a certain category k, the horizontal axis is the elapsed time t from the release date of each music, and the vertical axis is the time of each music in that time zone. Statistics as daily search frequency. From the statistical result, the relational expression f k = F k (t) between the search frequencies f k and t of music belonging to the category k is estimated. Based on this relationship, the trend weight β k of the music piece in category k is calculated by the following equation.
β k = F k (t) / max {F k (t)}
更に、嗜好度確率計算部112は、利用者属性情報を用いたコンテンツ間類似度に基づく属性重みγを算出する。属性重みγは、当該利用者の属するカテゴリの中で、比較的多く検索されたコンテンツ及びそれらコンテンツと類似度の高いコンテンツに対しては、高く設定される。
Further, the preference
属性重みγの計算例について説明する。属性重みγは、利用者Uのプロファイル情報と類似する他利用者の検索履歴(検索した楽曲情報)を参考して、利用者Uの楽曲への嗜好を推定する。まず、全利用者プロファイル情報をクラスタリング処理した結果、利用者Uは、プロファイルのカテゴリCに属するものとする。利用者U以外のカテゴリCに属する利用者U1,U2,…,UNにおける楽曲Mqの属性重みγ(Mq,U)は、次式で計算される。Nは、カテゴリCの利用者数(利用者Uを除き)となる。
γ(Mq,U)=(1/N)Σα(Mq,Un) Un,U∈C
An example of calculating the attribute weight γ will be described. The attribute weight γ estimates the preference of the user U to the music with reference to the search history (searched music information) of other users similar to the profile information of the user U. First, as a result of clustering processing of all user profile information, it is assumed that the user U belongs to the category C of the profile. The attribute weight γ (Mq, U) of the music M q for the users U 1 , U 2 ,..., U N belonging to the category C other than the user U is calculated by the following equation. N is the number of users in category C (excluding user U).
γ (Mq, U) = (1 / N) Σα (Mq, Un) Un, U∈C
このようにして得られた履歴重みα、流行重みβ及び属性重みγは、利用者の嗜好に合えば合うほど、高い値が設定される。そして、嗜好度確率計算部112は、履歴重みα、流行重みβ及び/又は属性重みγを用いて、単語ωm毎の嗜好度確率P*(ωm)から単語列ωの嗜好度確率P*(ω)=P*(ω1,ω2,・・・,ωm)=P*(ω1)×P*(ω2)×・・・×P*(ωm)を計算する。単語ωmは、例えばコンテンツ名(楽曲名、アーティスト名等)である。
The history weight α, the fashion weight β, and the attribute weight γ obtained in this way are set to higher values as the user's preference is met. Then, the preference degree
嗜好度確率P*(ω)は、履歴重みα、流行重みβ及び属性重みγに基づいて、引数(α+β+γ)に関する一般的な関数Fを用いて、P*(ω)=F(α+β+γ)で算出することができる。具体例として、例えば、次の2つの式による計算を示す。
P^*(ω)=(α+β+γ)P
ここで、指数pは、利用者毎に設定される定数である。予め収録した音声波形及び利用者情報に基づいた音声認識実験によって、指数pを決定しておく。
P*(ω)=P^*(ω)/(ΣP^*(ω)) (P*(ω)の正規化)
The preference probability P * (ω) is expressed as P * (ω) = F (α + β + γ) using a general function F related to the argument (α + β + γ) based on the history weight α, the fashion weight β, and the attribute weight γ. Can be calculated. As a specific example, calculation by the following two formulas is shown, for example.
P ^ * (ω) = (α + β + γ) P
Here, the index p is a constant set for each user. The index p is determined by a speech recognition experiment based on prerecorded speech waveforms and user information.
P * (ω) = P ^ * (ω) / (ΣP ^ * (ω)) (normalization of P * (ω))
上記の指数pは、音声認識の結果に応じて調整するようにしてもよい。次に、この指数pの調整方法を説明する。 The index p may be adjusted according to the result of speech recognition. Next, a method for adjusting the index p will be described.
図2に示す利用者評価部114では、音声認識デコーダ105の出力である認識結果単語列ω^を利用者に提示する。その認識結果単語列ω^が正しければ、利用者の操作によって、利用者評価部114における「検索ボタン」が押下され(Yes)、その認識結果単語列ω^を検索キーとして、検索がなされる。
The
その認識結果単語列ω^が誤っている場合、利用者の操作によって、利用者評価部114における「再試行ボタン」が押下され(No)、その押下操作情報が嗜好度確率計算部112に通知される。これにより、嗜好度確率計算部112は、嗜好度確率P*(ω)による重み付きの言語モデルP(ω)における言語的確率と嗜好度確率との間のバランスが適切になり、誤認識が低減するように指数pの値が調整されていく。
If the recognition result word string ω ^ is incorrect, the “retry button” in the
指数pの自動更新の一例をあげる。認識結果が誤っているとの評価操作を受けた場合、音声認識デコーダ105において嗜好度確率P*(ω)を用いることなく、再度認識処理を実行する。再認識の結果が前回の認識結果と異なり、かつ再認識の結果の認識スコアSが予め設定した閾値Rより高い場合には、嗜好度確率P*(ω)は、当該利用者に不適切であると推定される(Sは正規化されたスコア、値は0〜1の間)。そこで、再認識の結果と同じ結果が出るまで、P*(ω)の値を1に近づけるため、次式の計算を繰り返して、指数pを調整する。
n:繰り返す回数
pn:n回目の調整がなされた指数pの値
p0:音声認識実験による初期値
pn=(1−S)pn−1
An example of automatic updating of the index p is given. When the evaluation operation that the recognition result is incorrect is received, the
n: number of repetitions p n : value of index p adjusted for n-th time p 0 : initial value obtained by speech recognition experiment p n = (1-S) p n−1
このような動作によって、嗜好度確率P*(ω)を、徐々に修正することによって音声認識率を上げることでき、適応的な動作を可能とする。 With such an operation, the speech recognition rate can be increased by gradually correcting the preference probability P * (ω), thereby enabling an adaptive operation.
図4は、本発明の他の実施形態におけるシステム構成図である。 FIG. 4 is a system configuration diagram according to another embodiment of the present invention.
図4によれば、ユーザによって操作される端末3と、認識サーバ4と、情報管理サーバ5と、コンテンツサーバ6とが、インターネットを介して接続されている。
According to FIG. 4, a
端末3は、音声入力部101、音響特徴量抽出部102及び利用者評価部114を有する。音響特徴量抽出部102から出力された音響特徴量xは、ネットワークを介して、認識サーバ4へ送信される。
The
認識サーバ4は、音響モデル蓄積部103、言語モデル蓄積部104、言語確率算出部111及び音声認識デコーダ105を有する。音声認識デコーダ105は、端末3から音響特徴量xを受信し、情報管理サーバ5から嗜好度確率P*(ω)を受信する。そして、音声認識デコーダ105は、認識結果単語列ω^をネットワークを介してコンテンツサーバ6へ送信する。
The
情報管理サーバ5は、嗜好度確率計算部112及び利用者情報蓄積部113を有する。嗜好度確率計算部112は、予め算出した嗜好度確率P*(ω)を、利用者毎に蓄積している。また、嗜好度確率計算部112は、端末3の利用者評価部114からの指示により、認識結果単語列ω^が誤っていた場合には、利用者毎の嗜好度確率P*(ω)を再計算するようにしてもよい。
The
端末3では、利用者の発声は音声入力部101によって音声波形に変換され、音響特徴量抽出部102によって音響特徴量xが抽出され、その音響特徴量xが認識サーバ4へ送信される。同時に、端末3から利用者識別番号が情報管理サーバ5へ送信される。情報管理サーバ5では、利用者識別番号に対応する嗜好度確率P*(ω)を認識サーバ4へ送信する。
In the
認識サーバ4の言語確率算出部111では、受信した嗜好度確率P*(ω)を使って、嗜好度確率P*(ω)で重み付けた言語確率P(ω)を算出する。一方、音声認識デコーダ105は、端末3から受信した音響特徴量xと、音響確率P(x|ω)と、重み付けた言語確率P(ω)とに基づいて、音声認識処理を実行する。
The language
音声認識デコーダ105から出力された認識結果単語列ω^は、ネットワークを介して利用者の端末3へ送信される。端末3は、その認識結果単語列ω^を、利用者評価部114を用いて利用者に表示する。認識結果単語列ω^が、利用者にとって欲するコンテンツに一致している場合(正解の場合)は、利用者の操作によって、認識結果単語列ω^が検索キーとして、コンテンツサーバ又はWEB検索サーバにおけるコンテンツ検索部106へ送信される。その検索結果は、端末3に返送される。
The recognition result word string ω ^ output from the
認識結果単語列ω^が、利用者の欲するコンテンツに一致していない場合(不正解の場合)、利用者によって音声の再入力操作がなされるか、又は、それ以上検索しない。再入力操作の場合は、その再入力操作情報が、情報管理サーバ5の嗜好度確率計算部112にフィードバックされる。これによって、嗜好度確率計算部112は、P*(ω)の計算モデルの自動更新に使用される。
If the recognition result word string ω ^ does not match the content desired by the user (in the case of an incorrect answer), the user performs a voice re-input operation or does not search any more. In the case of a re-input operation, the re-input operation information is fed back to the preference
このような分散的構成によって、端末と各サーバ間の機能分担を柔軟に図ることができ、検索性能と利用者規模に適応しやすいものになる。 With such a distributed configuration, it is possible to flexibly share the functions between the terminal and each server, and it is easy to adapt to the search performance and the user scale.
以上、詳細に説明したように、本発明のコンテンツ検索装置、プログラム及び方法によれば、音声認識処理の中で、音響確率と利用者の嗜好度で重み付けした言語確率とを用いて、候補の単語列の中から最も認識スコアの高い単語列を抽出し、その単語列を用いてコンテンツを検索することによって、利用者毎に認識精度が高いと感じさせることができる。また、音声認識デコーダが、厳しいビーム幅のビームサーチで探索しても、認識精度が劣化せず、計算時間を短縮することもできる。更に、嗜好度に基づいて単語辞書の語彙を削減することもないので、嗜好以外の楽曲も検索される。 As described above in detail, according to the content search device, program, and method of the present invention, in the speech recognition process, using the acoustic probability and the language probability weighted by the user's preference level, By extracting the word string having the highest recognition score from the word string and searching for the content using the word string, it is possible to make each user feel that the recognition accuracy is high. Even if the speech recognition decoder searches by a beam search with a strict beam width, the recognition accuracy does not deteriorate and the calculation time can be shortened. Furthermore, since the vocabulary of the word dictionary is not reduced based on the preference level, music other than the preference is also searched.
前述した本発明の種々の実施形態において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 In the various embodiments of the present invention described above, various changes, modifications, and omissions in the scope of the technical idea and the viewpoint of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.
1 コンテンツ検索装置
101 音声入力部
102 音響特徴量抽出部
103 音響モデル蓄積部
104 言語モデル蓄積部
105 音声認識デコーダ
106 コンテンツ検索部
111 言語確率算出部
112 嗜好度確率計算部
113 利用者情報蓄積部
114 利用者評価部
2 コンテンツデータベース
3 端末
4 認識サーバ
5 情報管理サーバ
6 コンテンツサーバ
DESCRIPTION OF SYMBOLS 1
Claims (8)
音響モデルを蓄積し、1つ以上の単語ω m からなる単語認識結果候補の単語列ωに対して前記音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、
言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
前記音響特徴量x、前記音響確率P(x|ω)及び前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
前記認識結果単語列ω^を検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
を有するコンテンツ検索装置において、
全てのコンテンツにおける2つのコンテンツ間類似度S i,j と、利用者U毎に過去に検索されたコンテンツ毎の単語ω m (=コンテンツ名M n (M 1 ,M 2 ,・・・,M v ))の群とを蓄積する利用者情報蓄積手段と、
当該コンテンツ名M q に対する利用者Uの第1の重みα(M q ,U)を、当該コンテンツ名Mqと、当該利用者Uによって過去に検索された各コンテンツ名M n との間のコンテンツ間類似度S Mq,Mn の総和から算出し、第1の重みα(M q ,U)を付与した単語ω m 毎の嗜好度確率P * (ω m )を算出し、1つ以上の単語ω m を含む単語列ω毎の嗜好度確率P * (ω)を、P * (ω)=P * (ω 1 ,ω 2 ,・・・,ω m )=P * (ω 1 )×P * (ω 2 )×・・・×P * (ω m )によって算出する嗜好度確率計算手段と、
前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、前記嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
を有することを特徴とするコンテンツ検索装置。 Acoustic feature quantity extraction means for extracting the acoustic feature quantity x from the input speech waveform;
An acoustic model accumulating means for accumulating an acoustic model and outputting an acoustic probability P (x | ω) at which the acoustic feature quantity x is observed for a word string ω of word recognition result candidates composed of one or more words ω m When,
Language model storage means for storing language models and outputting statistical / grammatical language probabilities Pn-gram (ω) / Pcfg (ω);
Speech recognition that outputs a recognition result word string ω ^ based on the acoustic feature amount x, the acoustic probability P (x | ω), and the statistical / grammatical language probability Pn-gram (ω) / Pcfg (ω) A decoder;
In a content search apparatus having content search means for searching for content from a content database using the recognition result word string ω ^ as a search key,
The similarity between two contents S i, j in all contents and the word ω m (= content name M n (M 1 , M 2 ,..., M) for each content searched in the past for each user U v )) a user information storage means for storing
First weight alpha (M q, U) of the user U with respect to the content name M q a, between the contents between the the content name Mq, each content name M n retrieved in the past by the user U A preference probability P * (ω m ) is calculated for each word ω m calculated from the sum of the similarities S Mq and Mn and given the first weight α (M q , U) , and one or more words ω The preference probability P * (ω) for each word string ω including m is expressed as P * (ω) = P * (ω 1 , ω 2 ,..., ω m ) = P * (ω 1 ) × P * preference degree probability calculating means for calculating by (ω 2 ) ×... × P * (ω m ) ;
Language probability calculation means for outputting a language probability P (ω) obtained by weighting the preference probability P * (ω) to the statistical / grammatical language probability Pn-gram (ω) / Pcfg (ω). Content search device characterized by the above.
前記嗜好度確率計算手段は、当該コンテンツ名M q に対応するカテゴリkにおける利用者Uの検索頻度に対する、他の全ての検索頻度との比に基づいて第2の重みβkを算出し、第1の重みα(M q ,U)に第2の重みβkを加えて単語ω m 毎の嗜好度確率P * (ω m )を算出する
ことを特徴とする請求項1に記載のコンテンツ検索装置。 The user information accumulating unit accumulates content categories k and search frequencies of all users for content included in each category k,
The preference probability calculation means calculates a second weight βk based on the ratio of all other search frequencies to the search frequency of the user U in the category k corresponding to the content name M q , The preference probability P * (ω m ) for each word ω m is calculated by adding the second weight β k to the weight α (M q , U) of
The content search apparatus according to claim 1.
前記嗜好度確率計算手段は、利用者Uが属するカテゴリCについて、当該コンテンツ名M q に対する利用者Unの第1の重みα(M q ,U n )の総和に基づいて第3の重みγ(M q ,U)を算出し、第1の重みα(M q ,U)及び/又は第2の重みβkに第3の重みγ(M q ,U)を加えて単語ω m 毎の嗜好度確率P * (ω m )を算出する
ことを特徴とする請求項1又は2に記載のコンテンツ検索装置。 In the user information storage means, a plurality of users U are classified into categories C, and the plurality of users U included in each category C are searched in the past by the content name Mq and the users U. content similarity S Mq between each content name M n was, was calculated from the sum of Mn, the first weighting α (M q, U n) of the user Un with respect to the content name M q accumulate And
For the category C to which the user U belongs, the preference probability calculation means calculates a third weight γ (based on the sum of the first weight α (M q , U n ) of the user Un for the content name M q . M q , U) is calculated, and the third weight γ (M q , U) is added to the first weight α (M q , U) and / or the second weight βk, and the preference for each word ω m Calculate the probability P * (ω m )
The content search device according to claim 1, wherein the content search device is a content search device.
入力された音声波形から音響特徴量Xを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、1つ以上の単語ω m からなる認識結果候補の単語列ωに対して前記音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、
言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
前記音響特徴量x、前記音響確率P(x|ω)及び前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
前記認識結果単語列ωを検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
としてコンピュータを機能させるコンテンツ検索プログラムにおいて、
全てのコンテンツにおける2つのコンテンツ間類似度S i,j と、利用者U毎に過去に検索されたコンテンツ毎の単語ω m (=コンテンツ名M n (M 1 ,M 2 ,・・・,M v ))の群とを蓄積する利用者情報蓄積手段と、
当該コンテンツ名M q に対する利用者Uの第1の重みα(M q ,U)を、当該コンテンツ名Mqと、当該利用者Uによって過去に検索された各コンテンツ名M n との間のコンテンツ間類似度S Mq,Mn の総和から算出し、第1の重みα(M q ,U)を付与した単語ω m 毎の嗜好度確率P * (ω m )を算出し、1つ以上の単語ω m を含む単語列ω毎の嗜好度確率P * (ω)を、P * (ω)=P * (ω 1 ,ω 2 ,・・・,ω m )=P * (ω 1 )×P * (ω 2 )×・・・×P * (ω m )によって算出する嗜好度確率計算手段と、
前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、前記嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
してコンピュータを更に機能させることを特徴とするコンテンツ検索用プログラム。 A program for causing a computer installed in an apparatus for searching for content from a content database to function.
Acoustic feature quantity extraction means for extracting the acoustic feature quantity X from the input speech waveform;
An acoustic model accumulating means for accumulating an acoustic model and outputting an acoustic probability P (x | ω) at which the acoustic feature quantity x is observed with respect to a recognition result candidate word string ω composed of one or more words ω m ; ,
Language model storage means for storing language models and outputting statistical / grammatical language probabilities Pn-gram (ω) / Pcfg (ω);
Speech recognition that outputs a recognition result word string ω ^ based on the acoustic feature amount x, the acoustic probability P (x | ω), and the statistical / grammatical language probability Pn-gram (ω) / Pcfg (ω) A decoder;
In a content search program for causing a computer to function as content search means for searching for content from a content database using the recognition result word string ω as a search key,
The similarity between two contents S i, j in all contents and the word ω m (= content name M n (M 1 , M 2 ,..., M) for each content searched in the past for each user U v )) a user information storage means for storing
First weight alpha (M q, U) of the user U with respect to the content name M q a, between the contents between the the content name Mq, each content name M n retrieved in the past by the user U A preference probability P * (ω m ) is calculated for each word ω m calculated from the sum of the similarities S Mq and Mn and given the first weight α (M q , U) , and one or more words ω The preference probability P * (ω) for each word string ω including m is expressed as P * (ω) = P * (ω 1 , ω 2 ,..., ω m ) = P * (ω 1 ) × P * preference degree probability calculating means for calculating by (ω 2 ) ×... × P * (ω m ) ;
A computer is further provided as a language probability calculating means for outputting a language probability P (ω) obtained by weighting the preference probability P * (ω) to the statistical / grammatical language probability Pn-gram (ω) / Pcfg (ω). A program for content search, characterized by functioning.
全てのコンテンツにおける2つのコンテンツ間類似度S i,j と、利用者U毎に過去に検索されたコンテンツ毎の単語ω m (=コンテンツ名M n (M 1 ,M 2 ,・・・,M v ))の群とを蓄積する利用者情報蓄積部を有し、
当該コンテンツ名M q に対する利用者Uの第1の重みα(M q ,U)を、当該コンテンツ名Mqと、当該利用者Uによって過去に検索された各コンテンツ名M n との間のコンテンツ間類似度S Mq,Mn の総和から算出し、第1の重みα(M q ,U)を付与した単語ω m 毎の嗜好度確率P * (ω m )を算出し、1つ以上の単語ω m を含む単語列ω毎の嗜好度確率P * (ω)を、P * (ω)=P * (ω 1 ,ω 2 ,・・・,ω m )=P * (ω 1 )×P * (ω 2 )×・・・×P * (ω m )によって算出する第1のステップと、
前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、前記嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する第2のステップと
を有することを特徴とするコンテンツ検索方法。 An acoustic feature quantity x is extracted from the input speech waveform, and the acoustic feature quantity x is observed with respect to the acoustic feature quantity x and a recognition result candidate word string ω composed of one or more words ω m. A recognition result word string ω ^ is output based on the probability P (x | ω) and the statistical / grammatical language probabilities Pn-gram (ω) / Pcfg (ω), and the recognition result word string ω ^ is a key. In a content search method in an apparatus for searching for content from a content database,
The similarity between two contents S i, j in all contents and the word ω m (= content name M n (M 1 , M 2 ,..., M) for each content searched in the past for each user U v )) has a user information storage unit for storing
First weight alpha (M q, U) of the user U with respect to the content name M q a, between the contents between the the content name Mq, each content name M n retrieved in the past by the user U A preference probability P * (ω m ) is calculated for each word ω m calculated from the sum of the similarities S Mq and Mn and given the first weight α (M q , U) , and one or more words ω The preference probability P * (ω) for each word string ω including m is expressed as P * (ω) = P * (ω 1 , ω 2 ,..., ω m ) = P * (ω 1 ) × P * a first step calculated by (ω 2 ) ×... × P * (ω m ) ;
A second step of outputting a language probability P (ω) obtained by weighting the preference probability P * (ω) to the statistical / grammatical language probability Pn-gram (ω) / Pcfg (ω). Content search method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008252219A JP4986301B2 (en) | 2008-09-30 | 2008-09-30 | Content search apparatus, program, and method using voice recognition processing function |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008252219A JP4986301B2 (en) | 2008-09-30 | 2008-09-30 | Content search apparatus, program, and method using voice recognition processing function |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010085522A JP2010085522A (en) | 2010-04-15 |
JP4986301B2 true JP4986301B2 (en) | 2012-07-25 |
Family
ID=42249561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008252219A Expired - Fee Related JP4986301B2 (en) | 2008-09-30 | 2008-09-30 | Content search apparatus, program, and method using voice recognition processing function |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4986301B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11238854B2 (en) | 2016-12-14 | 2022-02-01 | Google Llc | Facilitating creation and playback of user-recorded audio |
CN109872715A (en) * | 2019-03-01 | 2019-06-11 | 深圳市伟文无线通讯技术有限公司 | A kind of voice interactive method and device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1313972A (en) * | 1998-08-24 | 2001-09-19 | Bcl计算机有限公司 | Adaptive natural language interface |
JP3525855B2 (en) * | 2000-03-31 | 2004-05-10 | 松下電器産業株式会社 | Voice recognition method and voice recognition device |
JP4367713B2 (en) * | 2003-01-15 | 2009-11-18 | パナソニック株式会社 | Broadcast receiving method, broadcast receiving system, first device, second device, voice recognition method, voice recognition device, program, and recording medium |
JP2007164497A (en) * | 2005-12-14 | 2007-06-28 | Fujitsu Ten Ltd | Preference estimation apparatus and controller |
JP4891802B2 (en) * | 2007-02-20 | 2012-03-07 | 日本電信電話株式会社 | Content search / recommendation method, content search / recommendation device, and content search / recommendation program |
-
2008
- 2008-09-30 JP JP2008252219A patent/JP4986301B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010085522A (en) | 2010-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10410627B2 (en) | Automatic language model update | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US10283111B1 (en) | Disambiguation in speech recognition | |
US9484021B1 (en) | Disambiguation in speech recognition | |
US10713289B1 (en) | Question answering system | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
JP4812029B2 (en) | Speech recognition system and speech recognition program | |
US9020819B2 (en) | Recognition dictionary system and recognition dictionary system updating method | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US10490182B1 (en) | Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks | |
JP4705023B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP5326169B2 (en) | Speech data retrieval system and speech data retrieval method | |
JP5360414B2 (en) | Keyword extraction model learning system, method and program | |
JP5723711B2 (en) | Speech recognition apparatus and speech recognition program | |
JP4764203B2 (en) | Speech recognition apparatus and speech recognition program | |
JP4986301B2 (en) | Content search apparatus, program, and method using voice recognition processing function | |
JP5196114B2 (en) | Speech recognition apparatus and program | |
JP5124012B2 (en) | Speech recognition apparatus and speech recognition program | |
Wang et al. | Voice search | |
JP2003271183A (en) | Device, method and program for preparing voice recognition dictionary, device and system for recognizing voice, portable terminal device and program recording medium | |
JP4674609B2 (en) | Information processing apparatus and method, program, and recording medium | |
JP5585111B2 (en) | Utterance content estimation device, language model creation device, method and program used therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120423 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4986301 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |