JP2010085522A - 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 - Google Patents
音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 Download PDFInfo
- Publication number
- JP2010085522A JP2010085522A JP2008252219A JP2008252219A JP2010085522A JP 2010085522 A JP2010085522 A JP 2010085522A JP 2008252219 A JP2008252219 A JP 2008252219A JP 2008252219 A JP2008252219 A JP 2008252219A JP 2010085522 A JP2010085522 A JP 2010085522A
- Authority
- JP
- Japan
- Prior art keywords
- probability
- content
- preference
- user
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】コンテンツ検索装置は、音声波形を入力する音響特徴量抽出手段と、認識結果候補の単語列ωに対してその音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、x、P(x|ω)及びPn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、ωを検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段とを有する。更に、利用者の嗜好の度合いを表す嗜好度確率P*(ω)を計算する嗜好度確率計算手段と、Pn-gram(ω)/Pcfg(ω)に、P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段とを有する。
【選択図】図2
Description
P(ω)×P(x|ω)(ω∈W, x∈X)
探索された認識結果単語列ω^は、コンテンツ検索部106へ出力される。例えば、最大確率の認識結果単語列ω^は、以下の式で表される。
ω^=arg max{P(ω)×P(x|ω)}(ω∈W,x∈X)
音響モデルを蓄積し、認識結果候補の単語列ωに対して音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
音響特徴量x、音響確率P(x|ω)及び統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
認識結果単語列ω^を検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段とを有するコンテンツ検索装置において、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する嗜好度確率計算手段と、
統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
を更に有することを特徴とする。
嗜好度確率計算手段は、利用者検索履歴情報を用いたコンテンツ間類似度に基づく第1の重みαを用いて、単語ωm毎の嗜好度確率P*(ωm)から単語列ωの嗜好度確率P*(ω)=P*(ω1,ω2,・・・,ωm)=P*(ω1)×P*(ω2)×・・・×P*(ωm)を計算することも好ましい。
嗜好度確率計算手段は、コンテンツアクセス度及びコンテンツ鮮度に基づく第2の重みβ、及び/又は、利用者属性情報を用いたコンテンツ間類似度に基づく第3の重みγを用いて、単語ωm毎の嗜好度確率P*(ωm)から単語列ωの嗜好度確率P*(ω)=P*(ω1,ω2,・・・,ωm)=P*(ω1)×P*(ω2)×・・・×P*(ωm)を計算することも好ましい。
入力された音声波形から音響特徴量Xを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、認識結果候補の単語列ωに対して音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、
言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
音響特徴量x、音響確率P(x|ω)及び統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
認識結果単語列ω^を検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
してコンピュータを機能させるコンテンツ検索プログラムにおいて、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する嗜好度確率計算手段と、
統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
してコンピュータを機能させることを特徴とする。
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する第1のステップと、
統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する第2のステップと
を有することを特徴とする。
P(ω)=P*(ω)×Pn-gram(ω)
P(ω)=P*(ω)×Pcfg(ω)
α(Mq,U)=ΣSMq,Mn Mn∈R(U)
また、データベースの楽曲をカテゴリに分類しておき、利用者Uがカテゴリkに属する曲を多く検索した場合に、利用者Uに対するカテゴリkの中の楽曲のα(M,U)(M∈k)の値を大きくすることもできる。
βk=Fk(t)/max{Fk(t)}
γ(Mq,U)=(1/N)Σα(Mq,Un) Un,U∈C
P^*(ω)=(α+β+γ)P
ここで、指数pは、利用者毎に設定される定数である。予め収録した音声波形及び利用者情報に基づいた音声認識実験によって、指数pを決定しておく。
P*(ω)=P^*(ω)/(ΣP^*(ω)) (P*(ω)の正規化)
n:繰り返す回数
pn:n回目の調整がなされた指数pの値
p0:音声認識実験による初期値
pn=(1−S)pn−1
101 音声入力部
102 音響特徴量抽出部
103 音響モデル蓄積部
104 言語モデル蓄積部
105 音声認識デコーダ
106 コンテンツ検索部
111 言語確率算出部
112 嗜好度確率計算部
113 利用者情報蓄積部
114 利用者評価部
2 コンテンツデータベース
3 端末
4 認識サーバ
5 情報管理サーバ
6 コンテンツサーバ
Claims (8)
- 入力された音声波形から音響特徴量xを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、認識結果候補の単語列ωに対して前記音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、
言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
前記音響特徴量x、前記音響確率P(x|ω)及び前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
前記認識結果単語列ω^を検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
を有するコンテンツ検索装置において、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する嗜好度確率計算手段と、
前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、前記嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
を更に有することを特徴とするコンテンツ検索装置。 - 利用者検索履歴情報及びコンテンツ間類似度を含む前記利用者情報を蓄積する利用者情報蓄積手段を更に有し、
前記嗜好度確率計算手段は、前記利用者検索履歴情報を用いた前記コンテンツ間類似度に基づく第1の重みαを用いて、単語ωm毎の嗜好度確率P*(ωm)から単語列ωの嗜好度確率P*(ω)=P*(ω1,ω2,・・・,ωm)=P*(ω1)×P*(ω2)×・・・×P*(ωm)
を計算することを特徴とする請求項1に記載のコンテンツ検索装置。 - 前記利用者情報は、コンテンツ間類似度、コンテンツアクセス度、コンテンツ鮮度及び利用者属性情報を更に含み、
前記嗜好度確率計算手段は、前記コンテンツアクセス度及び前記コンテンツ鮮度に基づく第2の重みβ、及び/又は、前記利用者属性情報を用いた前記コンテンツ間類似度に基づく第3の重みγを用いて、単語ωm毎の嗜好度確率P*(ωm)から単語列ωの嗜好度確率P*(ω)=P*(ω1,ω2,・・・,ωm)=P*(ω1)×P*(ω2)×・・・×P*(ωm)を計算することを特徴とする請求項1又は2に記載のコンテンツ検索装置。 - 前記認識結果単語列ω^を前記利用者に表示し、且つ該認識結果単語列ω^に対する前記利用者の正誤評価入力操作を受け、誤りの評価入力操作の場合、前記嗜好度確率計算手段に対して前記嗜好度確率P*(ω)を再計算させる利用者評価手段を更に有することを特徴とする請求項2に記載のコンテンツ検索装置。
- 前記音声認識デコーダは、前記音響確率P(x|ω)に前記言語確率P(ω)を重み付けた確率が、所定閾値以下となる認識候補単語列を枝刈りするビームサーチ法を用い、最終的には前記重み付けた確率が最大又は高い順から上位N位の認識結果単語列ω^のみを出力することを特徴とする請求項1から4のいずれか1項に記載のコンテンツ検索装置。
- 前記コンテンツは、楽曲であることを特徴とするコンテンツ検索装置。
- コンテンツデータベースからコンテンツを検索する装置に搭載されたコンピュータを機能させるプログラムであって、
入力された音声波形から音響特徴量Xを抽出する音響特徴量抽出手段と、
音響モデルを蓄積し、認識結果候補の単語列ωに対して前記音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、
言語モデルを蓄積し、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、
前記音響特徴量x、前記音響確率P(x|ω)及び前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、
前記認識結果単語列ωを検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段と
としてコンピュータを機能させるコンテンツ検索プログラムにおいて、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する嗜好度確率計算手段と、
前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、前記嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段と
してコンピュータを更に機能させることを特徴とするコンテンツ検索用プログラム。 - 入力された音声波形から音響特徴量xを抽出し、前記音響特徴量xと、認識結果候補の単語列ωに対して前記音響特徴量xが観測される音響確率P(x|ω)と、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)とに基づいて認識結果単語列ω^を出力し、前記認識結果単語列ω^をキーとして、コンテンツデータベースからコンテンツを検索する装置におけるコンテンツ検索方法において、
コンテンツに対する利用者の嗜好の度合いを表す、単語列ωの嗜好度確率P*(ω)を計算する第1のステップと、
前記統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)に、前記嗜好度確率P*(ω)を重み付けた言語確率P(ω)を出力する第2のステップと
を有することを特徴とするコンテンツ検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008252219A JP4986301B2 (ja) | 2008-09-30 | 2008-09-30 | 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008252219A JP4986301B2 (ja) | 2008-09-30 | 2008-09-30 | 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010085522A true JP2010085522A (ja) | 2010-04-15 |
JP4986301B2 JP4986301B2 (ja) | 2012-07-25 |
Family
ID=42249561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008252219A Expired - Fee Related JP4986301B2 (ja) | 2008-09-30 | 2008-09-30 | 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4986301B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872715A (zh) * | 2019-03-01 | 2019-06-11 | 深圳市伟文无线通讯技术有限公司 | 一种语音交互方法及装置 |
JP2020502571A (ja) * | 2016-12-14 | 2020-01-23 | グーグル エルエルシー | ユーザによって録音された音声の生成および再生を容易にすること |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282285A (ja) * | 2000-03-31 | 2001-10-12 | Matsushita Electric Ind Co Ltd | 音声認識方法及び音声認識装置、並びにそれを用いた番組指定装置 |
JP2002523828A (ja) * | 1998-08-24 | 2002-07-30 | ビーシーエル コンピューターズ, インコーポレイテッド | 適応型自然言語インターフェース |
JP2006085179A (ja) * | 2003-01-15 | 2006-03-30 | Matsushita Electric Ind Co Ltd | 放送受信方法、放送受信システム、記録媒体、及びプログラム |
JP2007164497A (ja) * | 2005-12-14 | 2007-06-28 | Fujitsu Ten Ltd | 嗜好推定装置、及び制御装置 |
JP2008204193A (ja) * | 2007-02-20 | 2008-09-04 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム |
-
2008
- 2008-09-30 JP JP2008252219A patent/JP4986301B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002523828A (ja) * | 1998-08-24 | 2002-07-30 | ビーシーエル コンピューターズ, インコーポレイテッド | 適応型自然言語インターフェース |
JP2001282285A (ja) * | 2000-03-31 | 2001-10-12 | Matsushita Electric Ind Co Ltd | 音声認識方法及び音声認識装置、並びにそれを用いた番組指定装置 |
JP2006085179A (ja) * | 2003-01-15 | 2006-03-30 | Matsushita Electric Ind Co Ltd | 放送受信方法、放送受信システム、記録媒体、及びプログラム |
JP2007164497A (ja) * | 2005-12-14 | 2007-06-28 | Fujitsu Ten Ltd | 嗜好推定装置、及び制御装置 |
JP2008204193A (ja) * | 2007-02-20 | 2008-09-04 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020502571A (ja) * | 2016-12-14 | 2020-01-23 | グーグル エルエルシー | ユーザによって録音された音声の生成および再生を容易にすること |
US11238854B2 (en) | 2016-12-14 | 2022-02-01 | Google Llc | Facilitating creation and playback of user-recorded audio |
CN109872715A (zh) * | 2019-03-01 | 2019-06-11 | 深圳市伟文无线通讯技术有限公司 | 一种语音交互方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4986301B2 (ja) | 2012-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10410627B2 (en) | Automatic language model update | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US9020819B2 (en) | Recognition dictionary system and recognition dictionary system updating method | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US10713289B1 (en) | Question answering system | |
US8346553B2 (en) | Speech recognition system and method for speech recognition | |
JPWO2005122144A1 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP4987682B2 (ja) | 音声チャットシステム、情報処理装置、音声認識方法およびプログラム | |
JP5326169B2 (ja) | 音声データ検索システム及び音声データ検索方法 | |
JP5360414B2 (ja) | キーワード抽出モデル学習システム、方法およびプログラム | |
JP5723711B2 (ja) | 音声認識装置および音声認識プログラム | |
JP4986301B2 (ja) | 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5124012B2 (ja) | 音声認識装置及び音声認識プログラム | |
Wang et al. | Voice search | |
JP5196114B2 (ja) | 音声認識装置およびプログラム | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
Hosier et al. | Disambiguation and Error Resolution in Call Transcripts | |
JP5585111B2 (ja) | 発話内容推定装置、言語モデル作成装置、それに用いる方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120423 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4986301 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |