JP2010085522A - 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 - Google Patents

音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 Download PDF

Info

Publication number
JP2010085522A
JP2010085522A JP2008252219A JP2008252219A JP2010085522A JP 2010085522 A JP2010085522 A JP 2010085522A JP 2008252219 A JP2008252219 A JP 2008252219A JP 2008252219 A JP2008252219 A JP 2008252219A JP 2010085522 A JP2010085522 A JP 2010085522A
Authority
JP
Japan
Prior art keywords
probability
content
preference
user
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008252219A
Other languages
English (en)
Other versions
JP4986301B2 (ja
Inventor
Shin Jo
▲シン▼ 徐
Masaki Naito
正樹 内藤
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008252219A priority Critical patent/JP4986301B2/ja
Publication of JP2010085522A publication Critical patent/JP2010085522A/ja
Application granted granted Critical
Publication of JP4986301B2 publication Critical patent/JP4986301B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】利用者の嗜好を考慮して、利用者毎に認識精度が高いと感じさせるコンテンツを検索することができるコンテンツ検索装置等を提供する。
【解決手段】コンテンツ検索装置は、音声波形を入力する音響特徴量抽出手段と、認識結果候補の単語列ωに対してその音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、x、P(x|ω)及びPn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、ωを検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段とを有する。更に、利用者の嗜好の度合いを表す嗜好度確率P*(ω)を計算する嗜好度確率計算手段と、Pn-gram(ω)/Pcfg(ω)に、P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段とを有する。
【選択図】図2

Description

本発明は、音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法に関する。
従来、携帯電話機やパーソナルコンピュータのような端末を用いて、コンテンツとしての楽曲を検索する音楽配信サービスが提供されている。このサービスによれば、利用者は、楽曲名やアーティスト名のようなキーワードを、端末に入力する。端末は、そのキーワードを、ネットワークを介してコンテンツ検索サーバへ送信し、適切な楽曲を検索することができる。
楽曲を検索するためのキーワードとなる楽曲名やアーティスト名には、日本語、英語、数字等が混在する場合もある。このような場合、例えば携帯電話機に対してキーワードを入力する操作は、利用者にとって手間がかかる。このような手間を排除するために、音声入力機能を搭載した端末もある。
図1は、従来技術におけるコンテンツ検索装置の機能構成図である。
図1によれば、コンテンツ検索装置1は、音声入力部101と、音響特徴量抽出部102と、音響モデル蓄積部103と、言語モデル蓄積部104と、音声認識デコーダ105と、コンテンツ検索部106とを有する。音声入力部101以外のこれら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
音声入力部101は、利用者の発生した音声を入力し、電気信号(音波波形)に変換する。変換された音波波形は、音響特徴量抽出部102へ出力される。
音響特徴量抽出部102は、入力された音声波形から音響特徴量xを抽出する音響特徴量を抽出する。例えば、周波数の違いに基づく人の認識感度で重み付けをしたメルケプストラム係数(Mel Frequency Cepstrum Coefficient MFCC)を用いることもできる。
音響モデル蓄積部103は、音響モデルを蓄積し、認識結果候補の単語列ωに対して、入力音声から抽出した音響特徴量xが観測される音響確率P(x|ω)を出力する。ここで、ω(ω=ω1,ω2,・・・,ωm)は単語列を意味し、ωmは単語を意味する。
言語モデル蓄積部104は、言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する。言語モデルとしては、一般的に、統計的言語モデル又は記述文法が用いられる。尚、この言語モデル蓄積部104には、通常、認識の対象になる単語辞書も蓄積されている。
Pn-gram(ω)は、nグラムと称される統計的言語モデルの言語確率であり、大量の文章の言語統計に基づいて、単語列ωが出現する言語確率P(ω)を推定したものである。主として、書き取り(dictation)や対話音声認識で用いられる。
Pcfg(ω)は、文脈自由文法と呼ばれる文法規則ベースのモデルの言語確率であり、言語に関する知識及び認識タスクの分析結果に基づいて構文規則を人手によって記述したものである。
音声認識デコーダ105は、音響特徴量xと、音響確率P(x|ω)と、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を用いた言語確率P(ω)とに基づいて、以下の評価関数を最大又は高い順から上位N位の認識結果単語列ω^を出力する。
P(ω)×P(x|ω)(ω∈W, x∈X)
探索された認識結果単語列ω^は、コンテンツ検索部106へ出力される。例えば、最大確率の認識結果単語列ω^は、以下の式で表される。
ω^=arg max{P(ω)×P(x|ω)}(ω∈W,x∈X)
尚、認識結果単語列ω^の探索処理には、いわゆるビームサーチアルゴリズムが用いられる。ビームサーチアルゴリズムとは、単語列の候補について、所定の探索ビーム幅を用いて、評価関数P(ω)×P(x|ω)の高いものだけ残し、低いものは枝刈りする探索処理である。ビーム幅の設定によって、計算時間と認識精度とのトレードオフを制御することができる。
コンテンツ検索部106は、認識結果単語列ω^を検索キーとして、コンテンツデータベースから、コンテンツ自体又はダウンロードサーバアドレスを検索する。
このようなコンテンツ検索装置を用いた技術として、利用者が、アーティスト名と楽曲名とを「の」でつなげて発声し、その音波波形からキーワードを認識し、楽曲を検索する楽曲検索システムがある(例えば特許文献1参照)。
また、単語辞書を用いて番組を検索する番組指定装置がある(例えば特許文献2参照)。単語辞書は、予め登録された単語辞書から、利用者の嗜好情報に合わない単語を削除したものである。単語列の探索空間を小さくすることによって、認識精度を向上させることができる。
特開2002−189483号公報 特開2004−120767号公報
特許文献1に記載された技術によれば、発声された音波波形から直接的に単語列を抽出しており、利用者の意図又は嗜好を反映するものではない。また、単語辞書に登録された全ての楽曲名単語を同じ優先順位で探索する。従って、数万から数十万楽曲名程度を記録した商用楽曲データベースを検索対象にする場合には、単語辞書に登録した楽曲名単語が増えると共に、探索空間が膨大となる。そのため、全ての楽曲を同じ優先順位で探索すると探索時間が非常にかかるばかりでなく、利用者の意図又は嗜好とは異なる楽曲名を認識結果として出力してしまうことも多い。
また、特許文献2に記載された技術によれば、利用者の嗜好情報に合わない単語辞書の単語を削除した縮小単語辞書を作成している。従って、縮小単語辞書に該当しない、嗜好から外れた番組は、全く認識することができない。また、嗜好度の推定精度が高くない場合には、認識性能が大幅に低下することがある。尚、嗜好度は、利用者が利用毎に嗜好度の評価点数等を手動で入力すべきものである。
そこで、本発明は、利用者の嗜好を考慮して、利用者毎に認識精度が高いと感じさせるコンテンツを音声から検索することができるコンテンツ検索装置、プログラム及び方法を提供することを目的とする。
本発明によれば、入力された音声波形から音響特徴量xを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、認識結果候補の単語列ωに対して音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
音響特徴量x、音響確率P(x|ω)及び統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
認識結果単語列ω^を検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段とを有するコンテンツ検索装置において、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する嗜好度確率計算手段と、
統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
を更に有することを特徴とする。
本発明のコンテンツ検索装置における他の実施形態によれば、利用者検索履歴情報及びコンテンツ間類似度を含む利用者情報を蓄積する利用者情報蓄積手段を更に有し、
嗜好度確率計算手段は、利用者検索履歴情報を用いたコンテンツ間類似度に基づく第1の重みαを用いて、単語ωm毎の嗜好度確率P*m)から単語列ωの嗜好度確率P*(ω)=P*1,ω2,・・・,ωm)=P*1)×P*2)×・・・×P*m)を計算することも好ましい。
本発明のコンテンツ検索装置における他の実施形態によれば、利用者情報は、コンテンツ間類似度、コンテンツアクセス度、コンテンツ鮮度及び利用者属性情報を更に含み、
嗜好度確率計算手段は、コンテンツアクセス度及びコンテンツ鮮度に基づく第2の重みβ、及び/又は、利用者属性情報を用いたコンテンツ間類似度に基づく第3の重みγを用いて、単語ωm毎の嗜好度確率P*m)から単語列ωの嗜好度確率P*(ω)=P*1,ω2,・・・,ωm)=P*1)×P*2)×・・・×P*m)を計算することも好ましい。
本発明のコンテンツ検索装置における他の実施形態によれば、認識結果単語列ω^を利用者に表示し、且つ該認識結果単語列ω^に対する利用者の正誤評価入力操作を受け、誤りの評価入力操作の場合、嗜好度確率計算手段に対して嗜好度確率P*(ω)を再計算させる利用者評価手段を更に有することも好ましい。
本発明のコンテンツ検索装置における他の実施形態によれば、音声認識デコーダは、音響確率P(x|ω)に言語確率P(ω)を重み付けた確率が、所定閾値以下となる認識候補単語列を枝刈りするビームサーチ法を用い、最終的には重み付けた確率が最大又は高い順から上位N位の認識結果単語列ω^のみを出力することも好ましい。
本発明のコンテンツ検索装置における他の実施形態によれば、コンテンツは、楽曲であることも好ましい。
本発明によれば、コンテンツデータベースからコンテンツを検索する装置に搭載されたコンピュータを機能させるプログラムであって、
入力された音声波形から音響特徴量Xを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、認識結果候補の単語列ωに対して音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、
言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
音響特徴量x、音響確率P(x|ω)及び統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
認識結果単語列ω^を検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
してコンピュータを機能させるコンテンツ検索プログラムにおいて、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する嗜好度確率計算手段と、
統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、入力された音声波形から音響特徴量xを抽出し、音響特徴量xと、認識結果候補の単語列ωに対して音響特徴量xが観測される音響確率P(x|ω)と、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)とに基づいて認識結果単語列ω^を出力し、認識結果単語列ωをキーとして、コンテンツデータベースからコンテンツを検索する装置におけるコンテンツ検索方法において、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する第1のステップと、
統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する第2のステップと
を有することを特徴とする。
本発明のコンテンツ検索装置、プログラム及び方法によれば、音声認識処理の中で、利用者の嗜好度で重み付けした言語確率を用いて単語列を抽出し、その単語列を用いてコンテンツを検索することによって、利用者毎に認識精度が高いと感じさせることができる。
以下では、図面を用いて、本発明を実施するための最良の形態について詳細に説明する。
図2は、本発明におけるコンテンツ検索装置の機能構成図である。
図2によれば、図1と比較して、コンテンツ検索装置1は、更に、言語確率算出部111と、嗜好度確率計算部112と、利用者情報蓄積部113と、利用者評価部114とを更に有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
利用者情報蓄積部113は、利用者情報を蓄積する。利用者情報としては、利用者検索履歴情報、コンテンツ間類似度、コンテンツアクセス度、コンテンツ鮮度及び/又は利用者属性情報を含む。これらの情報は、コンテンツデータベース2からの情報で更新することも好ましい。
嗜好度確率計算部112は、利用者情報に基づいて、コンテンツに対する利用者の嗜好の度合いを表す、単語ωm毎の嗜好度確率P*m)から単語列ωの嗜好度確率P*(ω)=P*1,ω2,・・・,ωm)=P*1)×P*2)×・・・×P*m)を計算する。また、嗜好度確率計算部112は、算出された嗜好度確率P*(ω)を蓄積し、言語確率算出部111へその嗜好度確率P*(ω)を出力する。
言語確率算出部111は、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、嗜好度確率P*(ω)で重み付けた言語確率P(ω)を出力する。本発明の特徴的な点は、言語確率P(ω)として、嗜好度確率P*(ω)で重み付けられた言語確率P(ω)を用いていることである。具体的には、例えば統計的言語モデルを利用する場合には、嗜好度で重み付けられた言語確率P(ω)は、次式で計算される。ここでは、Pn-gram(ω)に、嗜好度確率P*(ω)で重み付けする。
P(ω)=P*(ω)×Pn-gram(ω)
また、記述文法を利用する認識処理の場合には、嗜好度で重み付けられた言語確率P(ω)は、次式で計算される。ここでは、Pcfg(ω)は、1又は0である。
P(ω)=P*(ω)×Pcfg(ω)
ここで、嗜好度で重み付けられた確率P(ω)は、全ての単語列ωに関する総和ΣP(ω)が1になるように、正規化したものである。
利用者評価部114は、音声認識デコーダの出力である認識結果単語列ω^を利用者に対して表示する。また、認識結果単語列ω^に対する利用者からの正誤評価の入力操作を受け付ける。正しい評価の入力操作の場合には、認識結果単語列ω^を検索キーとする検索が、コンテンツ検索部106に指示される。誤りの評価の入力操作の場合には、嗜好度確率計算部112に対して嗜好度確率P*(ω)を再計算させる。
また、本発明における音声認識デコーダ105は、音響確率P(x|ω)に言語確率P(ω)を重み付けた確率が、所定閾値以下となる認識候補単語列を枝刈りするビームサーチ法を用い、最終的には重み付けた確率が最大又は高い順から上位N位の認識結果単語列ω^を出力する。
図3は、嗜好度確率計算部における嗜好度確率P*(ω)の計算ステップを表す説明図である。
図3によれば、利用者情報蓄積部113は、利用者検索履歴情報と、コンテンツ情報と、利用者属性情報とを蓄積する。利用者検索履歴情報は、利用者が検索した楽曲及びそれの検索頻度などの検索履歴情報である。コンテンツ情報は、コンテンツ間類似度と、コンテンツアクセス度と、コンテンツ鮮度とを有する。コンテンツ(楽曲)間類似度は、ジャンルやアーティスト等の楽曲情報に基づいて予め算出されたコンテンツ同士の間の類似度である。コンテンツアクセス度は、例えば各楽曲の利用者全体の検索頻度である。コンテンツ鮮度は、例えば公開(リリース)日である。利用者属性情報は、利用者の年齢層や性別や職業などに基づく利用者プロファイル情報である。
これらの利用者情報を用いて、嗜好度確率計算部112は、各種重み係数α、β、γを算出し、それら重み係数から、コンテンツ名(楽曲名、アーティスト名等)の単語毎の嗜好度確率P*(ω)を計算する。
嗜好度確率計算部112は、利用者検索履歴情報を用いたコンテンツ間類似度に基づく履歴重みαを算出する。履歴重みαは、認識対象となる全曲名に対して、利用者の検索嗜好を反映するものであり、利用者履歴情報の量と正比例するよう変化する。
履歴重みαの計算例について説明する。まず、全楽曲において、曲iと曲jの類似度Si,jを計算する。i及びjは、楽曲の番号である。Si,jの値は、楽曲i及びjのジャンル情報の相関度に正比例する。また、楽曲のアーティスト情報、歌詞情報及びメロディ情報における相関度を用いて、類似度Si,jを計算することもできる。利用者Uの検索履歴(検索した楽曲M)R(U)={M,M,…,M}に対して、曲Mに対する履歴嗜好重みα(Mq,U)は、次式で計算される。また、利用者の検索履歴は空白の場合にはαが0となる。
α(Mq,U)=ΣSMq,Mn∈R(U)
また、データベースの楽曲をカテゴリに分類しておき、利用者Uがカテゴリkに属する曲を多く検索した場合に、利用者Uに対するカテゴリkの中の楽曲のα(M,U)(M∈k)の値を大きくすることもできる。
また、嗜好度確率計算部112は、コンテンツアクセス度及びコンテンツ鮮度に基づく流行重みβを算出する。
流行重みβの計算例について説明する。流行重みβは、楽曲の流行性を表すため、その楽曲の全利用者の検索頻度を用いる。計算例として、まず、楽曲カテゴリにおいて、あるカテゴリk中の全ての楽曲に対して、横軸を、各楽曲のリリース日からの経過時間tとし、縦軸を、その時間帯内の各楽曲の毎日検索頻度として統計する。その統計結果より、カテゴリkに所属する楽曲の検索頻度fとtの関係式f=F(t)を推定する。この関係に基づいて、カテゴリk中の楽曲の流行重みβは、次式で計算される。
β=F(t)/max{F(t)}
更に、嗜好度確率計算部112は、利用者属性情報を用いたコンテンツ間類似度に基づく属性重みγを算出する。属性重みγは、当該利用者の属するカテゴリの中で、比較的多く検索されたコンテンツ及びそれらコンテンツと類似度の高いコンテンツに対しては、高く設定される。
属性重みγの計算例について説明する。属性重みγは、利用者Uのプロファイル情報と類似する他利用者の検索履歴(検索した楽曲情報)を参考して、利用者Uの楽曲への嗜好を推定する。まず、全利用者プロファイル情報をクラスタリング処理した結果、利用者Uは、プロファイルのカテゴリCに属するものとする。利用者U以外のカテゴリCに属する利用者U,U,…,Uにおける楽曲Mの属性重みγ(Mq,U)は、次式で計算される。Nは、カテゴリCの利用者数(利用者Uを除き)となる。
γ(Mq,U)=(1/N)Σα(Mq,Un) Un,U∈C
このようにして得られた履歴重みα、流行重みβ及び属性重みγは、利用者の嗜好に合えば合うほど、高い値が設定される。そして、嗜好度確率計算部112は、履歴重みα、流行重みβ及び/又は属性重みγを用いて、単語ωm毎の嗜好度確率P*m)から単語列ωの嗜好度確率P*(ω)=P*1,ω2,・・・,ωm)=P*1)×P*2)×・・・×P*m)を計算する。単語ωmは、例えばコンテンツ名(楽曲名、アーティスト名等)である。
嗜好度確率P*(ω)は、履歴重みα、流行重みβ及び属性重みγに基づいて、引数(α+β+γ)に関する一般的な関数Fを用いて、P*(ω)=F(α+β+γ)で算出することができる。具体例として、例えば、次の2つの式による計算を示す。
P^*(ω)=(α+β+γ)
ここで、指数pは、利用者毎に設定される定数である。予め収録した音声波形及び利用者情報に基づいた音声認識実験によって、指数pを決定しておく。
*(ω)=P^*(ω)/(ΣP^*(ω)) (P*(ω)の正規化)
上記の指数pは、音声認識の結果に応じて調整するようにしてもよい。次に、この指数pの調整方法を説明する。
図2に示す利用者評価部114では、音声認識デコーダ105の出力である認識結果単語列ω^を利用者に提示する。その認識結果単語列ω^が正しければ、利用者の操作によって、利用者評価部114における「検索ボタン」が押下され(Yes)、その認識結果単語列ω^を検索キーとして、検索がなされる。
その認識結果単語列ω^が誤っている場合、利用者の操作によって、利用者評価部114における「再試行ボタン」が押下され(No)、その押下操作情報が嗜好度確率計算部112に通知される。これにより、嗜好度確率計算部112は、嗜好度確率P*(ω)による重み付きの言語モデルP(ω)における言語的確率と嗜好度確率との間のバランスが適切になり、誤認識が低減するように指数pの値が調整されていく。
指数pの自動更新の一例をあげる。認識結果が誤っているとの評価操作を受けた場合、音声認識デコーダ105において嗜好度確率P*(ω)を用いることなく、再度認識処理を実行する。再認識の結果が前回の認識結果と異なり、かつ再認識の結果の認識スコアSが予め設定した閾値Rより高い場合には、嗜好度確率P*(ω)は、当該利用者に不適切であると推定される(Sは正規化されたスコア、値は0〜1の間)。そこで、再認識の結果と同じ結果が出るまで、P*(ω)の値を1に近づけるため、次式の計算を繰り返して、指数pを調整する。
n:繰り返す回数
:n回目の調整がなされた指数pの値
:音声認識実験による初期値
=(1−S)pn−1
このような動作によって、嗜好度確率P*(ω)を、徐々に修正することによって音声認識率を上げることでき、適応的な動作を可能とする。
図4は、本発明の他の実施形態におけるシステム構成図である。
図4によれば、ユーザによって操作される端末3と、認識サーバ4と、情報管理サーバ5と、コンテンツサーバ6とが、インターネットを介して接続されている。
端末3は、音声入力部101、音響特徴量抽出部102及び利用者評価部114を有する。音響特徴量抽出部102から出力された音響特徴量xは、ネットワークを介して、認識サーバ4へ送信される。
認識サーバ4は、音響モデル蓄積部103、言語モデル蓄積部104、言語確率算出部111及び音声認識デコーダ105を有する。音声認識デコーダ105は、端末3から音響特徴量xを受信し、情報管理サーバ5から嗜好度確率P*(ω)を受信する。そして、音声認識デコーダ105は、認識結果単語列ω^をネットワークを介してコンテンツサーバ6へ送信する。
情報管理サーバ5は、嗜好度確率計算部112及び利用者情報蓄積部113を有する。嗜好度確率計算部112は、予め算出した嗜好度確率P*(ω)を、利用者毎に蓄積している。また、嗜好度確率計算部112は、端末3の利用者評価部114からの指示により、認識結果単語列ω^が誤っていた場合には、利用者毎の嗜好度確率P*(ω)を再計算するようにしてもよい。
端末3では、利用者の発声は音声入力部101によって音声波形に変換され、音響特徴量抽出部102によって音響特徴量xが抽出され、その音響特徴量xが認識サーバ4へ送信される。同時に、端末3から利用者識別番号が情報管理サーバ5へ送信される。情報管理サーバ5では、利用者識別番号に対応する嗜好度確率P*(ω)を認識サーバ4へ送信する。
認識サーバ4の言語確率算出部111では、受信した嗜好度確率P*(ω)を使って、嗜好度確率P*(ω)で重み付けた言語確率P(ω)を算出する。一方、音声認識デコーダ105は、端末3から受信した音響特徴量xと、音響確率P(x|ω)と、重み付けた言語確率P(ω)とに基づいて、音声認識処理を実行する。
音声認識デコーダ105から出力された認識結果単語列ω^は、ネットワークを介して利用者の端末3へ送信される。端末3は、その認識結果単語列ω^を、利用者評価部114を用いて利用者に表示する。認識結果単語列ω^が、利用者にとって欲するコンテンツに一致している場合(正解の場合)は、利用者の操作によって、認識結果単語列ω^が検索キーとして、コンテンツサーバ又はWEB検索サーバにおけるコンテンツ検索部106へ送信される。その検索結果は、端末3に返送される。
認識結果単語列ω^が、利用者の欲するコンテンツに一致していない場合(不正解の場合)、利用者によって音声の再入力操作がなされるか、又は、それ以上検索しない。再入力操作の場合は、その再入力操作情報が、情報管理サーバ5の嗜好度確率計算部112にフィードバックされる。これによって、嗜好度確率計算部112は、P*(ω)の計算モデルの自動更新に使用される。
このような分散的構成によって、端末と各サーバ間の機能分担を柔軟に図ることができ、検索性能と利用者規模に適応しやすいものになる。
以上、詳細に説明したように、本発明のコンテンツ検索装置、プログラム及び方法によれば、音声認識処理の中で、音響確率と利用者の嗜好度で重み付けした言語確率とを用いて、候補の単語列の中から最も認識スコアの高い単語列を抽出し、その単語列を用いてコンテンツを検索することによって、利用者毎に認識精度が高いと感じさせることができる。また、音声認識デコーダが、厳しいビーム幅のビームサーチで探索しても、認識精度が劣化せず、計算時間を短縮することもできる。更に、嗜好度に基づいて単語辞書の語彙を削減することもないので、嗜好以外の楽曲も検索される。
前述した本発明の種々の実施形態において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
従来技術におけるコンテンツ検索装置の機能構成図である。 本発明におけるコンテンツ検索装置の機能構成図である。 嗜好度確率計算部における嗜好度確率P*(ω)の計算ステップを表す説明図である。 本発明の他の実施形態におけるシステム構成図である。
符号の説明
1 コンテンツ検索装置
101 音声入力部
102 音響特徴量抽出部
103 音響モデル蓄積部
104 言語モデル蓄積部
105 音声認識デコーダ
106 コンテンツ検索部
111 言語確率算出部
112 嗜好度確率計算部
113 利用者情報蓄積部
114 利用者評価部
2 コンテンツデータベース
3 端末
4 認識サーバ
5 情報管理サーバ
6 コンテンツサーバ

Claims (8)

  1. 入力された音声波形から音響特徴量xを抽出する音響特徴量抽出手段と、
    音響モデルを蓄積し、認識結果候補の単語列ωに対して前記音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、
    言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
    前記音響特徴量x、前記音響確率P(x|ω)及び前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
    前記認識結果単語列ω^を検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
    を有するコンテンツ検索装置において、
    コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する嗜好度確率計算手段と、
    前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、前記嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
    を更に有することを特徴とするコンテンツ検索装置。
  2. 利用者検索履歴情報及びコンテンツ間類似度を含む前記利用者情報を蓄積する利用者情報蓄積手段を更に有し、
    前記嗜好度確率計算手段は、前記利用者検索履歴情報を用いた前記コンテンツ間類似度に基づく第1の重みαを用いて、単語ωm毎の嗜好度確率P*m)から単語列ωの嗜好度確率P*(ω)=P*1,ω2,・・・,ωm)=P*1)×P*2)×・・・×P*m)
    を計算することを特徴とする請求項1に記載のコンテンツ検索装置。
  3. 前記利用者情報は、コンテンツ間類似度、コンテンツアクセス度、コンテンツ鮮度及び利用者属性情報を更に含み、
    前記嗜好度確率計算手段は、前記コンテンツアクセス度及び前記コンテンツ鮮度に基づく第2の重みβ、及び/又は、前記利用者属性情報を用いた前記コンテンツ間類似度に基づく第3の重みγを用いて、単語ωm毎の嗜好度確率P*m)から単語列ωの嗜好度確率P*(ω)=P*1,ω2,・・・,ωm)=P*1)×P*2)×・・・×P*m)を計算することを特徴とする請求項1又は2に記載のコンテンツ検索装置。
  4. 前記認識結果単語列ω^を前記利用者に表示し、且つ該認識結果単語列ω^に対する前記利用者の正誤評価入力操作を受け、誤りの評価入力操作の場合、前記嗜好度確率計算手段に対して前記嗜好度確率P*(ω)を再計算させる利用者評価手段を更に有することを特徴とする請求項2に記載のコンテンツ検索装置。
  5. 前記音声認識デコーダは、前記音響確率P(x|ω)に前記言語確率P(ω)を重み付けた確率が、所定閾値以下となる認識候補単語列を枝刈りするビームサーチ法を用い、最終的には前記重み付けた確率が最大又は高い順から上位N位の認識結果単語列ω^のみを出力することを特徴とする請求項1から4のいずれか1項に記載のコンテンツ検索装置。
  6. 前記コンテンツは、楽曲であることを特徴とするコンテンツ検索装置。
  7. コンテンツデータベースからコンテンツを検索する装置に搭載されたコンピュータを機能させるプログラムであって、
    入力された音声波形から音響特徴量Xを抽出する音響特徴量抽出手段と、
    音響モデルを蓄積し、認識結果候補の単語列ωに対して前記音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、
    言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
    前記音響特徴量x、前記音響確率P(x|ω)及び前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
    前記認識結果単語列ωを検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
    としてコンピュータを機能させるコンテンツ検索プログラムにおいて、
    コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する嗜好度確率計算手段と、
    前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、前記嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
    してコンピュータを更に機能させることを特徴とするコンテンツ検索用プログラム。
  8. 入力された音声波形から音響特徴量xを抽出し、前記音響特徴量xと、認識結果候補の単語列ωに対して前記音響特徴量xが観測される音響確率P(x|ω)と、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)とに基づいて認識結果単語列ω^を出力し、前記認識結果単語列ω^をキーとして、コンテンツデータベースからコンテンツを検索する装置におけるコンテンツ検索方法において、
    コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する第1のステップと、
    前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、前記嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する第2のステップと
    を有することを特徴とするコンテンツ検索方法。
JP2008252219A 2008-09-30 2008-09-30 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 Expired - Fee Related JP4986301B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008252219A JP4986301B2 (ja) 2008-09-30 2008-09-30 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008252219A JP4986301B2 (ja) 2008-09-30 2008-09-30 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2010085522A true JP2010085522A (ja) 2010-04-15
JP4986301B2 JP4986301B2 (ja) 2012-07-25

Family

ID=42249561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008252219A Expired - Fee Related JP4986301B2 (ja) 2008-09-30 2008-09-30 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP4986301B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872715A (zh) * 2019-03-01 2019-06-11 深圳市伟文无线通讯技术有限公司 一种语音交互方法及装置
JP2020502571A (ja) * 2016-12-14 2020-01-23 グーグル エルエルシー ユーザによって録音された音声の生成および再生を容易にすること

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282285A (ja) * 2000-03-31 2001-10-12 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置、並びにそれを用いた番組指定装置
JP2002523828A (ja) * 1998-08-24 2002-07-30 ビーシーエル コンピューターズ, インコーポレイテッド 適応型自然言語インターフェース
JP2006085179A (ja) * 2003-01-15 2006-03-30 Matsushita Electric Ind Co Ltd 放送受信方法、放送受信システム、記録媒体、及びプログラム
JP2007164497A (ja) * 2005-12-14 2007-06-28 Fujitsu Ten Ltd 嗜好推定装置、及び制御装置
JP2008204193A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002523828A (ja) * 1998-08-24 2002-07-30 ビーシーエル コンピューターズ, インコーポレイテッド 適応型自然言語インターフェース
JP2001282285A (ja) * 2000-03-31 2001-10-12 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置、並びにそれを用いた番組指定装置
JP2006085179A (ja) * 2003-01-15 2006-03-30 Matsushita Electric Ind Co Ltd 放送受信方法、放送受信システム、記録媒体、及びプログラム
JP2007164497A (ja) * 2005-12-14 2007-06-28 Fujitsu Ten Ltd 嗜好推定装置、及び制御装置
JP2008204193A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020502571A (ja) * 2016-12-14 2020-01-23 グーグル エルエルシー ユーザによって録音された音声の生成および再生を容易にすること
US11238854B2 (en) 2016-12-14 2022-02-01 Google Llc Facilitating creation and playback of user-recorded audio
CN109872715A (zh) * 2019-03-01 2019-06-11 深圳市伟文无线通讯技术有限公司 一种语音交互方法及装置

Also Published As

Publication number Publication date
JP4986301B2 (ja) 2012-07-25

Similar Documents

Publication Publication Date Title
US10410627B2 (en) Automatic language model update
US9911413B1 (en) Neural latent variable model for spoken language understanding
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US9020819B2 (en) Recognition dictionary system and recognition dictionary system updating method
US10170107B1 (en) Extendable label recognition of linguistic input
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US10713289B1 (en) Question answering system
US8346553B2 (en) Speech recognition system and method for speech recognition
JPWO2005122144A1 (ja) 音声認識装置、音声認識方法、及びプログラム
JP4987682B2 (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
JP5360414B2 (ja) キーワード抽出モデル学習システム、方法およびプログラム
JP5723711B2 (ja) 音声認識装置および音声認識プログラム
JP4986301B2 (ja) 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
Wang et al. Voice search
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Hosier et al. Disambiguation and Error Resolution in Call Transcripts
JP5585111B2 (ja) 発話内容推定装置、言語モデル作成装置、それに用いる方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120423

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120423

R150 Certificate of patent or registration of utility model

Ref document number: 4986301

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees