JP2010085522A

JP2010085522A - 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法

Info

Publication number: JP2010085522A
Application number: JP2008252219A
Authority: JP
Inventors: Shin Jo; ▲シン▼ 徐; Masaki Naito; 正樹内藤; Hisashi Kawai; 恒河井
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-09-30
Filing date: 2008-09-30
Publication date: 2010-04-15
Anticipated expiration: 2028-09-30
Also published as: JP4986301B2

Abstract

【課題】利用者の嗜好を考慮して、利用者毎に認識精度が高いと感じさせるコンテンツを検索することができるコンテンツ検索装置等を提供する。
【解決手段】コンテンツ検索装置は、音声波形を入力する音響特徴量抽出手段と、認識結果候補の単語列ωに対してその音響特徴量ｘが観測される音響確率Ｐ(ｘ｜ω)を出力する音響モデル蓄積手段と、統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)を出力する言語モデル蓄積手段と、ｘ、Ｐ(ｘ｜ω)及びＰn-gram(ω)／Ｐcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、ωを検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段とを有する。更に、利用者の嗜好の度合いを表す嗜好度確率Ｐ^*(ω)を計算する嗜好度確率計算手段と、Ｐn-gram(ω)／Ｐcfg(ω)に、Ｐ^*(ω)を重み付けた言語確率Ｐ(ω)を出力する言語確率算出手段とを有する。
【選択図】図２

Description

本発明は、音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法に関する。

従来、携帯電話機やパーソナルコンピュータのような端末を用いて、コンテンツとしての楽曲を検索する音楽配信サービスが提供されている。このサービスによれば、利用者は、楽曲名やアーティスト名のようなキーワードを、端末に入力する。端末は、そのキーワードを、ネットワークを介してコンテンツ検索サーバへ送信し、適切な楽曲を検索することができる。

楽曲を検索するためのキーワードとなる楽曲名やアーティスト名には、日本語、英語、数字等が混在する場合もある。このような場合、例えば携帯電話機に対してキーワードを入力する操作は、利用者にとって手間がかかる。このような手間を排除するために、音声入力機能を搭載した端末もある。

図１は、従来技術におけるコンテンツ検索装置の機能構成図である。

図１によれば、コンテンツ検索装置１は、音声入力部１０１と、音響特徴量抽出部１０２と、音響モデル蓄積部１０３と、言語モデル蓄積部１０４と、音声認識デコーダ１０５と、コンテンツ検索部１０６とを有する。音声入力部１０１以外のこれら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。

音声入力部１０１は、利用者の発生した音声を入力し、電気信号（音波波形）に変換する。変換された音波波形は、音響特徴量抽出部１０２へ出力される。

音響特徴量抽出部１０２は、入力された音声波形から音響特徴量ｘを抽出する音響特徴量を抽出する。例えば、周波数の違いに基づく人の認識感度で重み付けをしたメルケプストラム係数（Mel Frequency Cepstrum Coefficient ＭＦＣＣ）を用いることもできる。

音響モデル蓄積部１０３は、音響モデルを蓄積し、認識結果候補の単語列ωに対して、入力音声から抽出した音響特徴量ｘが観測される音響確率Ｐ(ｘ｜ω)を出力する。ここで、ω（ω＝ω₁，ω₂，・・・，ω_m）は単語列を意味し、ω_mは単語を意味する。

言語モデル蓄積部１０４は、言語モデルを蓄積し、統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)を出力する。言語モデルとしては、一般的に、統計的言語モデル又は記述文法が用いられる。尚、この言語モデル蓄積部１０４には、通常、認識の対象になる単語辞書も蓄積されている。

Ｐn-gram(ω)は、ｎグラムと称される統計的言語モデルの言語確率であり、大量の文章の言語統計に基づいて、単語列ωが出現する言語確率Ｐ(ω)を推定したものである。主として、書き取り(dictation)や対話音声認識で用いられる。

Ｐcfg(ω)は、文脈自由文法と呼ばれる文法規則ベースのモデルの言語確率であり、言語に関する知識及び認識タスクの分析結果に基づいて構文規則を人手によって記述したものである。

音声認識デコーダ１０５は、音響特徴量ｘと、音響確率Ｐ(ｘ｜ω)と、統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)を用いた言語確率Ｐ(ω)とに基づいて、以下の評価関数を最大又は高い順から上位Ｎ位の認識結果単語列ω^を出力する。
Ｐ(ω)×Ｐ(ｘ|ω)（ω∈Ｗ，ｘ∈Ｘ）
探索された認識結果単語列ω^は、コンテンツ検索部１０６へ出力される。例えば、最大確率の認識結果単語列ω^は、以下の式で表される。
ω^＝arg max｛Ｐ(ω)×Ｐ(ｘ|ω)｝（ω∈Ｗ，ｘ∈Ｘ）

尚、認識結果単語列ω^の探索処理には、いわゆるビームサーチアルゴリズムが用いられる。ビームサーチアルゴリズムとは、単語列の候補について、所定の探索ビーム幅を用いて、評価関数Ｐ(ω)×Ｐ(ｘ|ω)の高いものだけ残し、低いものは枝刈りする探索処理である。ビーム幅の設定によって、計算時間と認識精度とのトレードオフを制御することができる。

コンテンツ検索部１０６は、認識結果単語列ω^を検索キーとして、コンテンツデータベースから、コンテンツ自体又はダウンロードサーバアドレスを検索する。

このようなコンテンツ検索装置を用いた技術として、利用者が、アーティスト名と楽曲名とを「の」でつなげて発声し、その音波波形からキーワードを認識し、楽曲を検索する楽曲検索システムがある（例えば特許文献１参照）。

また、単語辞書を用いて番組を検索する番組指定装置がある（例えば特許文献２参照）。単語辞書は、予め登録された単語辞書から、利用者の嗜好情報に合わない単語を削除したものである。単語列の探索空間を小さくすることによって、認識精度を向上させることができる。

特開２００２−１８９４８３号公報特開２００４−１２０７６７号公報

特許文献１に記載された技術によれば、発声された音波波形から直接的に単語列を抽出しており、利用者の意図又は嗜好を反映するものではない。また、単語辞書に登録された全ての楽曲名単語を同じ優先順位で探索する。従って、数万から数十万楽曲名程度を記録した商用楽曲データベースを検索対象にする場合には、単語辞書に登録した楽曲名単語が増えると共に、探索空間が膨大となる。そのため、全ての楽曲を同じ優先順位で探索すると探索時間が非常にかかるばかりでなく、利用者の意図又は嗜好とは異なる楽曲名を認識結果として出力してしまうことも多い。

また、特許文献２に記載された技術によれば、利用者の嗜好情報に合わない単語辞書の単語を削除した縮小単語辞書を作成している。従って、縮小単語辞書に該当しない、嗜好から外れた番組は、全く認識することができない。また、嗜好度の推定精度が高くない場合には、認識性能が大幅に低下することがある。尚、嗜好度は、利用者が利用毎に嗜好度の評価点数等を手動で入力すべきものである。

そこで、本発明は、利用者の嗜好を考慮して、利用者毎に認識精度が高いと感じさせるコンテンツを音声から検索することができるコンテンツ検索装置、プログラム及び方法を提供することを目的とする。

本発明によれば、入力された音声波形から音響特徴量ｘを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、認識結果候補の単語列ωに対して音響特徴量ｘが観測される音響確率Ｐ(ｘ｜ω)を出力する音響モデル蓄積手段と、言語モデルを蓄積し、統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)を出力する言語モデル蓄積手段と、
音響特徴量ｘ、音響確率Ｐ(ｘ｜ω)及び統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
認識結果単語列ω^を検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段とを有するコンテンツ検索装置において、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率Ｐ^*(ω)を計算する嗜好度確率計算手段と、
統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)に、嗜好度確率Ｐ^*(ω)を重み付けた言語確率Ｐ(ω)を出力する言語確率算出手段と
を更に有することを特徴とする。

本発明のコンテンツ検索装置における他の実施形態によれば、利用者検索履歴情報及びコンテンツ間類似度を含む利用者情報を蓄積する利用者情報蓄積手段を更に有し、
嗜好度確率計算手段は、利用者検索履歴情報を用いたコンテンツ間類似度に基づく第１の重みαを用いて、単語ω_m毎の嗜好度確率Ｐ^*(ω_m)から単語列ωの嗜好度確率Ｐ^*(ω)＝Ｐ^*(ω₁，ω₂，・・・，ω_m)＝Ｐ^*(ω₁)×Ｐ^*(ω₂)×・・・×Ｐ^*(ω_m)を計算することも好ましい。

本発明のコンテンツ検索装置における他の実施形態によれば、利用者情報は、コンテンツ間類似度、コンテンツアクセス度、コンテンツ鮮度及び利用者属性情報を更に含み、
嗜好度確率計算手段は、コンテンツアクセス度及びコンテンツ鮮度に基づく第２の重みβ、及び／又は、利用者属性情報を用いたコンテンツ間類似度に基づく第３の重みγを用いて、単語ω_m毎の嗜好度確率Ｐ^*(ω_m)から単語列ωの嗜好度確率Ｐ^*(ω)＝Ｐ^*(ω₁，ω₂，・・・，ω_m)＝Ｐ^*(ω₁)×Ｐ^*(ω₂)×・・・×Ｐ^*(ω_m)を計算することも好ましい。

本発明のコンテンツ検索装置における他の実施形態によれば、認識結果単語列ω^を利用者に表示し、且つ該認識結果単語列ω^に対する利用者の正誤評価入力操作を受け、誤りの評価入力操作の場合、嗜好度確率計算手段に対して嗜好度確率Ｐ^*(ω)を再計算させる利用者評価手段を更に有することも好ましい。

本発明のコンテンツ検索装置における他の実施形態によれば、音声認識デコーダは、音響確率Ｐ(ｘ｜ω)に言語確率Ｐ(ω)を重み付けた確率が、所定閾値以下となる認識候補単語列を枝刈りするビームサーチ法を用い、最終的には重み付けた確率が最大又は高い順から上位Ｎ位の認識結果単語列ω^のみを出力することも好ましい。

本発明のコンテンツ検索装置における他の実施形態によれば、コンテンツは、楽曲であることも好ましい。

本発明によれば、コンテンツデータベースからコンテンツを検索する装置に搭載されたコンピュータを機能させるプログラムであって、
入力された音声波形から音響特徴量Ｘを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、認識結果候補の単語列ωに対して音響特徴量ｘが観測される音響確率Ｐ(ｘ｜ω)を出力する音響モデル蓄積手段と、
言語モデルを蓄積し、統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)を出力する言語モデル蓄積手段と、
音響特徴量ｘ、音響確率Ｐ(ｘ｜ω)及び統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
認識結果単語列ω^を検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
してコンピュータを機能させるコンテンツ検索プログラムにおいて、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率Ｐ^*(ω)を計算する嗜好度確率計算手段と、
統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)に、嗜好度確率Ｐ^*(ω)を重み付けた言語確率Ｐ(ω)を出力する言語確率算出手段と
してコンピュータを機能させることを特徴とする。

本発明によれば、入力された音声波形から音響特徴量ｘを抽出し、音響特徴量ｘと、認識結果候補の単語列ωに対して音響特徴量ｘが観測される音響確率Ｐ(ｘ｜ω)と、統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)とに基づいて認識結果単語列ω^を出力し、認識結果単語列ωをキーとして、コンテンツデータベースからコンテンツを検索する装置におけるコンテンツ検索方法において、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率Ｐ^*(ω)を計算する第１のステップと、
統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)に、嗜好度確率Ｐ^*(ω)を重み付けた言語確率Ｐ(ω)を出力する第２のステップと
を有することを特徴とする。

本発明のコンテンツ検索装置、プログラム及び方法によれば、音声認識処理の中で、利用者の嗜好度で重み付けした言語確率を用いて単語列を抽出し、その単語列を用いてコンテンツを検索することによって、利用者毎に認識精度が高いと感じさせることができる。

以下では、図面を用いて、本発明を実施するための最良の形態について詳細に説明する。

図２は、本発明におけるコンテンツ検索装置の機能構成図である。

図２によれば、図１と比較して、コンテンツ検索装置１は、更に、言語確率算出部１１１と、嗜好度確率計算部１１２と、利用者情報蓄積部１１３と、利用者評価部１１４とを更に有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。

利用者情報蓄積部１１３は、利用者情報を蓄積する。利用者情報としては、利用者検索履歴情報、コンテンツ間類似度、コンテンツアクセス度、コンテンツ鮮度及び／又は利用者属性情報を含む。これらの情報は、コンテンツデータベース２からの情報で更新することも好ましい。

嗜好度確率計算部１１２は、利用者情報に基づいて、コンテンツに対する利用者の嗜好の度合いを表す、単語ω_m毎の嗜好度確率Ｐ^*(ω_m)から単語列ωの嗜好度確率Ｐ^*(ω)＝Ｐ^*(ω₁，ω₂，・・・，ω_m)＝Ｐ^*(ω₁)×Ｐ^*(ω₂)×・・・×Ｐ^*(ω_m)を計算する。また、嗜好度確率計算部１１２は、算出された嗜好度確率Ｐ^*(ω)を蓄積し、言語確率算出部１１１へその嗜好度確率Ｐ^*(ω)を出力する。

言語確率算出部１１１は、統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)に、嗜好度確率Ｐ^*(ω)で重み付けた言語確率Ｐ(ω)を出力する。本発明の特徴的な点は、言語確率Ｐ(ω)として、嗜好度確率Ｐ^*(ω)で重み付けられた言語確率Ｐ(ω)を用いていることである。具体的には、例えば統計的言語モデルを利用する場合には、嗜好度で重み付けられた言語確率Ｐ(ω)は、次式で計算される。ここでは、Ｐn-gram(ω)に、嗜好度確率Ｐ^*(ω)で重み付けする。
Ｐ(ω)＝Ｐ^*(ω)×Ｐn-gram(ω)

また、記述文法を利用する認識処理の場合には、嗜好度で重み付けられた言語確率Ｐ(ω)は、次式で計算される。ここでは、Ｐcfg(ω)は、１又は０である。
Ｐ(ω)＝Ｐ^*(ω)×Ｐcfg(ω)

ここで、嗜好度で重み付けられた確率Ｐ(ω)は、全ての単語列ωに関する総和ΣＰ(ω)が１になるように、正規化したものである。

利用者評価部１１４は、音声認識デコーダの出力である認識結果単語列ω^を利用者に対して表示する。また、認識結果単語列ω^に対する利用者からの正誤評価の入力操作を受け付ける。正しい評価の入力操作の場合には、認識結果単語列ω^を検索キーとする検索が、コンテンツ検索部１０６に指示される。誤りの評価の入力操作の場合には、嗜好度確率計算部１１２に対して嗜好度確率Ｐ^*(ω)を再計算させる。

また、本発明における音声認識デコーダ１０５は、音響確率Ｐ(ｘ｜ω)に言語確率Ｐ(ω)を重み付けた確率が、所定閾値以下となる認識候補単語列を枝刈りするビームサーチ法を用い、最終的には重み付けた確率が最大又は高い順から上位Ｎ位の認識結果単語列ω^を出力する。

図３は、嗜好度確率計算部における嗜好度確率Ｐ^*(ω)の計算ステップを表す説明図である。

図３によれば、利用者情報蓄積部１１３は、利用者検索履歴情報と、コンテンツ情報と、利用者属性情報とを蓄積する。利用者検索履歴情報は、利用者が検索した楽曲及びそれの検索頻度などの検索履歴情報である。コンテンツ情報は、コンテンツ間類似度と、コンテンツアクセス度と、コンテンツ鮮度とを有する。コンテンツ（楽曲）間類似度は、ジャンルやアーティスト等の楽曲情報に基づいて予め算出されたコンテンツ同士の間の類似度である。コンテンツアクセス度は、例えば各楽曲の利用者全体の検索頻度である。コンテンツ鮮度は、例えば公開（リリース）日である。利用者属性情報は、利用者の年齢層や性別や職業などに基づく利用者プロファイル情報である。

これらの利用者情報を用いて、嗜好度確率計算部１１２は、各種重み係数α、β、γを算出し、それら重み係数から、コンテンツ名（楽曲名、アーティスト名等）の単語毎の嗜好度確率Ｐ^*(ω)を計算する。

嗜好度確率計算部１１２は、利用者検索履歴情報を用いたコンテンツ間類似度に基づく履歴重みαを算出する。履歴重みαは、認識対象となる全曲名に対して、利用者の検索嗜好を反映するものであり、利用者履歴情報の量と正比例するよう変化する。

履歴重みαの計算例について説明する。まず、全楽曲において、曲ｉと曲ｊの類似度Ｓ_ｉ，ｊを計算する。ｉ及びｊは、楽曲の番号である。Ｓ_ｉ，ｊの値は、楽曲ｉ及びｊのジャンル情報の相関度に正比例する。また、楽曲のアーティスト情報、歌詞情報及びメロディ情報における相関度を用いて、類似度Ｓ_ｉ，ｊを計算することもできる。利用者Ｕの検索履歴（検索した楽曲Ｍ_ｉ）Ｒ(Ｕ)＝{Ｍ_１，Ｍ_２，…，Ｍ_Ｖ}に対して、曲Ｍ_ｑに対する履歴嗜好重みα(Ｍｑ,Ｕ)は、次式で計算される。また、利用者の検索履歴は空白の場合にはαが０となる。
α(Ｍｑ,Ｕ)＝ΣＳ_{Ｍｑ，Ｍｎ} Ｍ_ｎ∈Ｒ(Ｕ)
また、データベースの楽曲をカテゴリに分類しておき、利用者Ｕがカテゴリｋに属する曲を多く検索した場合に、利用者Ｕに対するカテゴリｋの中の楽曲のα(Ｍ,Ｕ)（Ｍ∈ｋ）の値を大きくすることもできる。

また、嗜好度確率計算部１１２は、コンテンツアクセス度及びコンテンツ鮮度に基づく流行重みβを算出する。

流行重みβの計算例について説明する。流行重みβは、楽曲の流行性を表すため、その楽曲の全利用者の検索頻度を用いる。計算例として、まず、楽曲カテゴリにおいて、あるカテゴリｋ中の全ての楽曲に対して、横軸を、各楽曲のリリース日からの経過時間ｔとし、縦軸を、その時間帯内の各楽曲の毎日検索頻度として統計する。その統計結果より、カテゴリｋに所属する楽曲の検索頻度ｆ_ｋとｔの関係式ｆ_ｋ＝Ｆ_ｋ(ｔ)を推定する。この関係に基づいて、カテゴリｋ中の楽曲の流行重みβ_ｋは、次式で計算される。
β_ｋ＝Ｆ_ｋ(ｔ)／max｛Ｆ_ｋ(ｔ)｝

更に、嗜好度確率計算部１１２は、利用者属性情報を用いたコンテンツ間類似度に基づく属性重みγを算出する。属性重みγは、当該利用者の属するカテゴリの中で、比較的多く検索されたコンテンツ及びそれらコンテンツと類似度の高いコンテンツに対しては、高く設定される。

属性重みγの計算例について説明する。属性重みγは、利用者Ｕのプロファイル情報と類似する他利用者の検索履歴（検索した楽曲情報）を参考して、利用者Ｕの楽曲への嗜好を推定する。まず、全利用者プロファイル情報をクラスタリング処理した結果、利用者Ｕは、プロファイルのカテゴリＣに属するものとする。利用者Ｕ以外のカテゴリＣに属する利用者Ｕ_１，Ｕ_２，…，Ｕ_Ｎにおける楽曲Ｍ_ｑの属性重みγ(Ｍｑ,Ｕ)は、次式で計算される。Ｎは、カテゴリＣの利用者数（利用者Ｕを除き）となる。
γ(Ｍｑ,Ｕ)＝（１／Ｎ）Σα(Ｍｑ,Ｕｎ) Ｕｎ，Ｕ∈Ｃ

このようにして得られた履歴重みα、流行重みβ及び属性重みγは、利用者の嗜好に合えば合うほど、高い値が設定される。そして、嗜好度確率計算部１１２は、履歴重みα、流行重みβ及び／又は属性重みγを用いて、単語ω_m毎の嗜好度確率Ｐ^*(ω_m)から単語列ωの嗜好度確率Ｐ^*(ω)＝Ｐ^*(ω₁，ω₂，・・・，ω_m)＝Ｐ^*(ω₁)×Ｐ^*(ω₂)×・・・×Ｐ^*(ω_m)を計算する。単語ω_mは、例えばコンテンツ名（楽曲名、アーティスト名等）である。

嗜好度確率Ｐ^*(ω)は、履歴重みα、流行重みβ及び属性重みγに基づいて、引数（α＋β＋γ）に関する一般的な関数Ｆを用いて、Ｐ^*(ω)＝Ｆ(α＋β＋γ)で算出することができる。具体例として、例えば、次の２つの式による計算を示す。
Ｐ^^*(ω)＝(α＋β＋γ)^Ｐ
ここで、指数ｐは、利用者毎に設定される定数である。予め収録した音声波形及び利用者情報に基づいた音声認識実験によって、指数ｐを決定しておく。
Ｐ^*(ω)＝Ｐ^^*(ω)／（ΣＰ^^*(ω)）（Ｐ^*(ω)の正規化）

上記の指数ｐは、音声認識の結果に応じて調整するようにしてもよい。次に、この指数ｐの調整方法を説明する。

図２に示す利用者評価部１１４では、音声認識デコーダ１０５の出力である認識結果単語列ω^を利用者に提示する。その認識結果単語列ω^が正しければ、利用者の操作によって、利用者評価部１１４における「検索ボタン」が押下され（Ｙｅｓ）、その認識結果単語列ω^を検索キーとして、検索がなされる。

その認識結果単語列ω^が誤っている場合、利用者の操作によって、利用者評価部１１４における「再試行ボタン」が押下され（Ｎｏ）、その押下操作情報が嗜好度確率計算部１１２に通知される。これにより、嗜好度確率計算部１１２は、嗜好度確率Ｐ^*(ω)による重み付きの言語モデルＰ(ω)における言語的確率と嗜好度確率との間のバランスが適切になり、誤認識が低減するように指数ｐの値が調整されていく。

指数ｐの自動更新の一例をあげる。認識結果が誤っているとの評価操作を受けた場合、音声認識デコーダ１０５において嗜好度確率Ｐ^*(ω)を用いることなく、再度認識処理を実行する。再認識の結果が前回の認識結果と異なり、かつ再認識の結果の認識スコアＳが予め設定した閾値Ｒより高い場合には、嗜好度確率Ｐ^*(ω)は、当該利用者に不適切であると推定される（Ｓは正規化されたスコア、値は０〜１の間）。そこで、再認識の結果と同じ結果が出るまで、Ｐ^*(ω)の値を１に近づけるため、次式の計算を繰り返して、指数ｐを調整する。
ｎ：繰り返す回数
ｐ_ｎ：ｎ回目の調整がなされた指数ｐの値
ｐ_０：音声認識実験による初期値
ｐ_ｎ＝（１−Ｓ）ｐ_ｎ−１

このような動作によって、嗜好度確率Ｐ^*(ω)を、徐々に修正することによって音声認識率を上げることでき、適応的な動作を可能とする。

図４は、本発明の他の実施形態におけるシステム構成図である。

図４によれば、ユーザによって操作される端末３と、認識サーバ４と、情報管理サーバ５と、コンテンツサーバ６とが、インターネットを介して接続されている。

端末３は、音声入力部１０１、音響特徴量抽出部１０２及び利用者評価部１１４を有する。音響特徴量抽出部１０２から出力された音響特徴量ｘは、ネットワークを介して、認識サーバ４へ送信される。

認識サーバ４は、音響モデル蓄積部１０３、言語モデル蓄積部１０４、言語確率算出部１１１及び音声認識デコーダ１０５を有する。音声認識デコーダ１０５は、端末３から音響特徴量ｘを受信し、情報管理サーバ５から嗜好度確率Ｐ^*(ω)を受信する。そして、音声認識デコーダ１０５は、認識結果単語列ω^をネットワークを介してコンテンツサーバ６へ送信する。

情報管理サーバ５は、嗜好度確率計算部１１２及び利用者情報蓄積部１１３を有する。嗜好度確率計算部１１２は、予め算出した嗜好度確率Ｐ^*(ω)を、利用者毎に蓄積している。また、嗜好度確率計算部１１２は、端末３の利用者評価部１１４からの指示により、認識結果単語列ω^が誤っていた場合には、利用者毎の嗜好度確率Ｐ^*(ω)を再計算するようにしてもよい。

端末３では、利用者の発声は音声入力部１０１によって音声波形に変換され、音響特徴量抽出部１０２によって音響特徴量ｘが抽出され、その音響特徴量ｘが認識サーバ４へ送信される。同時に、端末３から利用者識別番号が情報管理サーバ５へ送信される。情報管理サーバ５では、利用者識別番号に対応する嗜好度確率Ｐ^*(ω)を認識サーバ４へ送信する。

認識サーバ４の言語確率算出部１１１では、受信した嗜好度確率Ｐ^*(ω)を使って、嗜好度確率Ｐ^*(ω)で重み付けた言語確率Ｐ(ω)を算出する。一方、音声認識デコーダ１０５は、端末３から受信した音響特徴量ｘと、音響確率Ｐ(ｘ｜ω)と、重み付けた言語確率Ｐ(ω)とに基づいて、音声認識処理を実行する。

音声認識デコーダ１０５から出力された認識結果単語列ω^は、ネットワークを介して利用者の端末３へ送信される。端末３は、その認識結果単語列ω^を、利用者評価部１１４を用いて利用者に表示する。認識結果単語列ω^が、利用者にとって欲するコンテンツに一致している場合（正解の場合）は、利用者の操作によって、認識結果単語列ω^が検索キーとして、コンテンツサーバ又はＷＥＢ検索サーバにおけるコンテンツ検索部１０６へ送信される。その検索結果は、端末３に返送される。

認識結果単語列ω^が、利用者の欲するコンテンツに一致していない場合（不正解の場合）、利用者によって音声の再入力操作がなされるか、又は、それ以上検索しない。再入力操作の場合は、その再入力操作情報が、情報管理サーバ５の嗜好度確率計算部１１２にフィードバックされる。これによって、嗜好度確率計算部１１２は、Ｐ^*(ω)の計算モデルの自動更新に使用される。

このような分散的構成によって、端末と各サーバ間の機能分担を柔軟に図ることができ、検索性能と利用者規模に適応しやすいものになる。

以上、詳細に説明したように、本発明のコンテンツ検索装置、プログラム及び方法によれば、音声認識処理の中で、音響確率と利用者の嗜好度で重み付けした言語確率とを用いて、候補の単語列の中から最も認識スコアの高い単語列を抽出し、その単語列を用いてコンテンツを検索することによって、利用者毎に認識精度が高いと感じさせることができる。また、音声認識デコーダが、厳しいビーム幅のビームサーチで探索しても、認識精度が劣化せず、計算時間を短縮することもできる。更に、嗜好度に基づいて単語辞書の語彙を削減することもないので、嗜好以外の楽曲も検索される。

前述した本発明の種々の実施形態において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

従来技術におけるコンテンツ検索装置の機能構成図である。本発明におけるコンテンツ検索装置の機能構成図である。嗜好度確率計算部における嗜好度確率Ｐ^*(ω)の計算ステップを表す説明図である。本発明の他の実施形態におけるシステム構成図である。

符号の説明

１コンテンツ検索装置
１０１音声入力部
１０２音響特徴量抽出部
１０３音響モデル蓄積部
１０４言語モデル蓄積部
１０５音声認識デコーダ
１０６コンテンツ検索部
１１１言語確率算出部
１１２嗜好度確率計算部
１１３利用者情報蓄積部
１１４利用者評価部
２コンテンツデータベース
３端末
４認識サーバ
５情報管理サーバ
６コンテンツサーバ

Claims

入力された音声波形から音響特徴量ｘを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、認識結果候補の単語列ωに対して前記音響特徴量ｘが観測される音響確率Ｐ(ｘ｜ω)を出力する音響モデル蓄積手段と、
言語モデルを蓄積し、統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)を出力する言語モデル蓄積手段と、
前記音響特徴量ｘ、前記音響確率Ｐ(ｘ｜ω)及び前記統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
前記認識結果単語列ω^を検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
を有するコンテンツ検索装置において、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率Ｐ^*(ω)を計算する嗜好度確率計算手段と、
前記統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)に、前記嗜好度確率Ｐ^*(ω)を重み付けた言語確率Ｐ(ω)を出力する言語確率算出手段と
を更に有することを特徴とするコンテンツ検索装置。
利用者検索履歴情報及びコンテンツ間類似度を含む前記利用者情報を蓄積する利用者情報蓄積手段を更に有し、
前記嗜好度確率計算手段は、前記利用者検索履歴情報を用いた前記コンテンツ間類似度に基づく第１の重みαを用いて、単語ω_m毎の嗜好度確率Ｐ^*(ω_m)から単語列ωの嗜好度確率Ｐ^*(ω)＝Ｐ^*(ω₁，ω₂，・・・，ω_m)＝Ｐ^*(ω₁)×Ｐ^*(ω₂)×・・・×Ｐ^*(ω_m)
を計算することを特徴とする請求項１に記載のコンテンツ検索装置。
前記利用者情報は、コンテンツ間類似度、コンテンツアクセス度、コンテンツ鮮度及び利用者属性情報を更に含み、
前記嗜好度確率計算手段は、前記コンテンツアクセス度及び前記コンテンツ鮮度に基づく第２の重みβ、及び／又は、前記利用者属性情報を用いた前記コンテンツ間類似度に基づく第３の重みγを用いて、単語ω_m毎の嗜好度確率Ｐ^*(ω_m)から単語列ωの嗜好度確率Ｐ^*(ω)＝Ｐ^*(ω₁，ω₂，・・・，ω_m)＝Ｐ^*(ω₁)×Ｐ^*(ω₂)×・・・×Ｐ^*(ω_m)を計算することを特徴とする請求項１又は２に記載のコンテンツ検索装置。
前記認識結果単語列ω^を前記利用者に表示し、且つ該認識結果単語列ω^に対する前記利用者の正誤評価入力操作を受け、誤りの評価入力操作の場合、前記嗜好度確率計算手段に対して前記嗜好度確率Ｐ^*(ω)を再計算させる利用者評価手段を更に有することを特徴とする請求項２に記載のコンテンツ検索装置。
前記音声認識デコーダは、前記音響確率Ｐ(ｘ｜ω)に前記言語確率Ｐ(ω)を重み付けた確率が、所定閾値以下となる認識候補単語列を枝刈りするビームサーチ法を用い、最終的には前記重み付けた確率が最大又は高い順から上位Ｎ位の認識結果単語列ω^のみを出力することを特徴とする請求項１から４のいずれか１項に記載のコンテンツ検索装置。
前記コンテンツは、楽曲であることを特徴とするコンテンツ検索装置。
コンテンツデータベースからコンテンツを検索する装置に搭載されたコンピュータを機能させるプログラムであって、
入力された音声波形から音響特徴量Ｘを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、認識結果候補の単語列ωに対して前記音響特徴量ｘが観測される音響確率Ｐ(ｘ｜ω)を出力する音響モデル蓄積手段と、
言語モデルを蓄積し、統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)を出力する言語モデル蓄積手段と、
前記音響特徴量ｘ、前記音響確率Ｐ(ｘ｜ω)及び前記統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
前記認識結果単語列ωを検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
としてコンピュータを機能させるコンテンツ検索プログラムにおいて、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率Ｐ^*(ω)を計算する嗜好度確率計算手段と、
前記統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)に、前記嗜好度確率Ｐ^*(ω)を重み付けた言語確率Ｐ(ω)を出力する言語確率算出手段と
してコンピュータを更に機能させることを特徴とするコンテンツ検索用プログラム。
入力された音声波形から音響特徴量ｘを抽出し、前記音響特徴量ｘと、認識結果候補の単語列ωに対して前記音響特徴量ｘが観測される音響確率Ｐ(ｘ｜ω)と、統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)とに基づいて認識結果単語列ω^を出力し、前記認識結果単語列ω^をキーとして、コンテンツデータベースからコンテンツを検索する装置におけるコンテンツ検索方法において、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率Ｐ^*(ω)を計算する第１のステップと、
前記統計的／文法的言語確率Ｐn-gram(ω)／Ｐcfg(ω)に、前記嗜好度確率Ｐ^*(ω)を重み付けた言語確率Ｐ(ω)を出力する第２のステップと
を有することを特徴とするコンテンツ検索方法。