JP6855527B2

JP6855527B2 - 情報を出力するための方法、及び装置

Info

Publication number: JP6855527B2
Application number: JP2019047116A
Authority: JP
Inventors: ホウ，ツァイポン; ルアン，シューハン
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2018-06-08
Filing date: 2019-03-14
Publication date: 2021-04-07
Anticipated expiration: 2039-03-14
Also published as: JP2019216408A; CN108737872A; US20190379941A1; US11006179B2

Description

本願の実施形態は、スマートテレビの技術分野に関し、具体的に、情報を出力するための方法、及び装置に関する。

スマートテレビは、私たちの生活の中で広く使われているが、伝統的な番組視聴機能に限られていない。現在、人気テレビアプリケーション市場では、テレビ実況中継、ビデオ・オン・デマンド、株式金融、健康生活、システム最適化ツール等にかけて、何百も何千もテレビアプリケーションがユーザーに提供されている。

従来技術において、テレビは、通常に家庭共通設備として、家族構成員のそれぞれに同じサービスを提供している。

本願の実施形態は、情報を出力するための方法及び装置が提案されている。

第１の態様として、本願の実施形態は、ユーザーによる音声の受信に応答して、音声に基づいて声紋特徴ベクトルを生成するステップと、声紋特徴ベクトルを声紋認識モデルに入力して、ユーザーの身分情報を取得するステップと、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップと、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するステップと、を含む、情報を出力するための方法が提供されている。

幾つかの実施形態において、音声に基づいて声紋特徴ベクトルを生成するステップは、音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得するステップと、声紋特徴スーパーベクトルを次元削減処理することによって、声紋特徴ベクトルを取得するステップと、を含む。全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである。

幾つかの実施形態において、上述した方法は、マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するステップをさらに含み、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。

幾つかの実施形態において、上述した方法は、マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するステップをさらに含み、予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、再生回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。

幾つかの実施形態において、ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。

幾つかの実施形態において、上述した方法は、予め設定された音色情報の集合の中から、ユーザーの身分情報とマッチングする音色情報を選択するステップと、選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、ユーザーと音声インタラクションするステップをさらに含む。

幾つかの実施形態において、声紋認識モデルとは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである。

第２の態様として、本願の実施形態は、ユーザーによる音声の受信に応答して、音声に基づいて声紋特徴ベクトルを生成するように構成されている生成ユニットと、声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、ユーザーの身分情報を取得するように構成されている認識ユニットと、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するように構成されているオプションユニットと、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するように構成されている出力ユニットとを含む、情報を出力するための装置が提供されている。声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである。

幾つかの実施形態において、生成ユニットは、さらに、音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得し、声紋特徴スーパーベクトルを次元削減処理することによって声紋特徴ベクトルを取得するように構成されている。全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである。

幾つかの実施形態において、上述した装置は、音声が動作指示を含むと判定したことに応答して、動作指示が実行されるように構成されている実行ユニットをさらに含み、前記動作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも１つを含む。

幾つかの実施形態において、上述した装置は、マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するように構成されている検索回数統計ユニットをさらに含み、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することは、検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。

幾つかの実施形態において、上述した装置は、マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するように構成されている再生回数統計ユニットをさらに含み、予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することは、再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。

幾つかの実施形態において、前記ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。

幾つかの実施形態において、上述した装置は、予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択するように構成されているチューニングユニットをさらに含み、選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、ユーザーと音声インタラクションする。

幾つかの実施形態において、声紋認識モデルとは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのモデルである。

第３の態様として、本願の実施形態は、１つまたは複数のプロセッサと、１つまたは複数のプログラムが格納されている記憶装置とを含み、前記１つまたは複数のプログラムは前記１つまたは複数のプロセッサにより実行されると、前記１つまたは複数のプロセッサに第１の態様においていずれかの方法を実現させる電子デバイスが提供されている。

第４の態様として、本願の実施形態は、コンピュータプログラムが格納されているコンピュータ読取可能な媒体が提供されている。前記プログラムはプロセッサにより実行されると、第１の態様においていずれかの方法を実現させる。

本願の実施形態によって提供される情報を出力するための方法及び装置は、音声によりユーザー身分情報を認識し、そして、ユーザー身分情報に従って、推奨待ちマルチメディアファイルを選択することによって、プレビュー情報を生成する。それにより、ターゲットを絞ったマルチメディアプレビュー情報を推奨することができる。

以下の図面による非限定的な実施形態についての詳細な説明を読み、参照することにより、本願の他の特徴、目的及び利点がより明らかになる。

本発明が適用される例示的なシステムアーキテクチャ図である。本発明に係る情報を出力するための方法の一実施形態のフローチャートである。本発明に係る情報を出力するための方法の適用シナリオの概略図である。本発明に係る情報を出力するための方法の別の実施形態のフローチャートである。本発明に係る情報を出力するための装置の一実施形態の概略構成図である。本発明の一実施形態実現するのに適する電子デバイスのコンピュータシステムの概略構成図である。

以下、図面と実施形態を参照しながら、本願を詳細に説明する。ここで記載される具体的な実施形態は、関連の発明を解釈するのみに用いられ、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。

なお、矛盾が生じない限り、本願における実施形態及び実施形態における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施形態を併せて本願を詳しく説明する。

図１には、本発明が適用される情報を出力するための方法または情報を出力するための装置の実施形態の例示的なシステムアーキテクチャ１００を示す。

図１に示されたように、システムアーキテクチャ１００は、スマートテレビ１０１とリモートコントローラ１０２を含んでも良い。スマートテレビ１０１には視聴者の音声を集音するためのマイクロフォン１０３が取り付けられている。リモートコントローラ１０２は、スマートテレビ１０１を遠隔操作するためのものである。それは、スマートテレビのチャンネル変換、や情報を出力するための機能などを実現することができる。ネットワークに接続した後、スマートテレビ１０１は、能提供ウェブブラウザ、フルＨＤ３Ｄ体感型ゲーム、ビデオ通話、オンライン教育など様々なエンターテインメント、情報、および学習リソースを提供でき、そして無限に拡張でき、また、組織や個人、プロやアマチュアのソフトウェア愛好家を支援し、何万もの便利な機能的ソフトウェアを独自に開発し共有することもできる。そして、スマートテレビ１０１は、ネットワーク搜索、ネットワークテレビ、ビデオ・オン・デマンド、デジタル音楽、オンラインニュース、ネットワークビデオテレフォニーなどの様々なアプリケーションサービスを実現できる。ユーザーは、テレビのチャンネルやウェブサイトを検索したり、テレビ番組を録画したり、衛星放送・ケーブルテレビの番組やオンラインビデオを再生したりできる。

スマートテレビ１０１は、スマートフォンと同様に、完全にオープンなプラットフォームを有し、オペレーティングシステムを搭載し、そして、サードパーティのサービスプロバイダが提供するソフトウェアやゲームなどのプログラムをユーザーによりインストールおよびアンインストールすることによって、カラーテレビの機能を拡張し続ける。そして、ネットワークケーブルと無線ネットワークを通してインターネットをサーフィンすることができる。スマートテレビ１０１は、マイクロフォン１０３を介して視聴者の音声を集音し、視聴者の身分情報を認識することができる。よって、身分情報が異なるユーザーに向けて、パーソナライズされたサービスを提供する。

なお、本願の実施形態に係る情報を出力するための方法は、一般に、スマートテレビ１０１によって実行される。これに対応して、情報を出力するための装置は、一般的にスマートテレビ１０１に設置される。

さらに図２を参照すると、本発明に係る情報を出力するための方法的一実施形態的流れ２００が示されている。該情報を出力するための方法は、以下のステップを含む。

ステップ２０１において、ユーザーによる音声の受信に応じて、音声に基づいて声紋特徴ベクトルを生成する。

本実施形態において、情報を出力するための方法の実行主体（例えば図１に示されたようなスマートテレビ）は、マイクロフォンを通してユーザーが音声入力した音声を受信することができる。音声は、遠隔コマンド（例えば、「電源オン」）を含んでもよく、遠隔コマンドを含まなくても良い。声紋は、周波数分析装置に表示された音声情報を運ぶ音波の周波数スペクトルである。現代の科学研究によると、声紋は特定性だけでなく、比較的安定性を示す特徴もある。声紋特徴ベクトルは、ユーザーの声紋の周波数スペクトルの特徴を識別するベクトルであってもよい。オーディオにおいて複数の音声がある場合に、複数の声紋特徴ベクトルを抽出することができる。なお、音声に基づいて声紋特徴ベクトルを生成することは、広く応用・研究されている公知技術であり、ここでは説明しない。

一例として、音声に基づいて声紋特徴ベクトルを生成することは、音声の典型的な特徴を抽出することによって達成することができる。具体的に、音の波長、周波数、強度、リズムなどの特徴がユーザーの音声の特点を反映することができるので、音声から声紋特徴を抽出するときに、音声の波長、周波数、強度、リズムなどの特徴を抽出し、音声の波長、周波数、強度、リズムなどの特徴の特徴量を声紋特徴ベクトルの要素として確定することができる。

一例として、音声に基づいて声紋特徴ベクトルを生成することは、音声の音響的特徴、例えば、メル周波数ケプストラム係数を抽出することによって達成することができる。メル周波数ケプストラム係数は、声紋特徴ベクトルの要素である。音声からメル周波数ケプストラム係数を抽出する工程は、プリエンファシス、フレーム分割、窓掛け、高速フーリエ変換、メルフィルタ、対数変換及び離散コサイン変換を含んでも良い。

ユーザーは、収集されたユーザーによる音声がテレビ番組の音声を含まないように、音声を入力する前に、スマートテレビをリモートコントローラによりミュートすることができる。或いは、所定の音声指示により、スマートテレビをミュートすることもできる。例えば、ユーザーが「消音」を口頭で入力することによって、スマートテレビをミュートすることができる。

本実施形態の一部の選択可能な実現手段において、上述した電子デバイスは、上述した音声を予め訓練された全体的な背景モデル（ＵｎｉｖｅｒｓａｌＢａｃｋｇｒｏｕｎｄＭｏｄｅｌ、ＵＢＭ）に導入してマッピングして、声紋特徴スーパーベクトル（即ち、ガウススーパーベクトル）を取得することができる。全体的な背景モデルは、通用背景モデルも呼ばれ、通用背景の特性を表すためのものである。全体的な背景モデルは、多くの詐称者の音声でＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｕｍ、期待値最大化）法により訓練されて得られたものであり、ＵＢＭモデルの訓練は多くの話者によるものである。訓練された全体的な背景モデルに複数のガウス分布がある場合、個人のマルチフレーム音声特徴シーケンスが抽出されると、その個人の声紋特徴スーパーベクトルを計算することができる。実際に反映したいのは、その人の音響特性と全体的な背景モデルとの間の違い、すなわちその人の発音のユニークな個性である。このようにして、ユーザーの可変長スピーチは、最終的には、ユーザーの発話特性を反映する固定長声紋特徴スーパーベクトルにマッピングすることができる。

このような高次元声紋特徴スーパーベクトルは、個人的な発音の違いだけでなく、チャンネルによって引き起こされる違いも含む可能性がある。従って、何らかの監視下の次元削減法によって、このスーパーベクトルをさらに次元削減し、低次元ベクトルに削減する必要がある。上述した声紋特徴スーパーベクトルは、結合因子分析法（ＪｏｉｎｔＦａｃｔｏｒＡｎａｌｙｓｉｓ、ＪＦＡ）により次元削減処理し、声紋特徴ベクトルを取得することができる。上述した結合因子分析法は、声紋認証法においてチャネルを補正する有効な法である。これは、話者空間とチャネル空間は独立であると仮定し、２つの低次元因子空間において記述することによって、チャネル因子を推定することができる。また、確率的線形判別分析法（ＰｒｏｂａｂｉｌｉｓｔｉｃＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ、ＰＬＤＡ）により、上述した声紋スーパーベクトルを次元削減処理することによって声紋特徴ベクトルを取得する。上述した確率的線形判別分析法もチャネル補正法であり、確率的線形判別分析法（ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ、ＬＤＡ）である。また、上述した声紋特徴スーパーベクトルは、識別ベクトル（ＩｄｅｎｔｉｆｙｉｎｇＶｅｃｔｏｒ、Ｉ−Ｖｅｃｔｏｒ）により次元削減処理して、声紋特徴ベクトルを取得することもできる。実際に、声紋の正確性を確保するために、全体的な背景モデルを訓練するとき、通常には、複数の音声を出す必要があり、そして、このような声紋特徴ベクトルを複数抽出し、ユーザーの声紋特徴ベクトルを記憶し、複数のユーザー声紋特徴ベクトルにより声紋ベースを構成することができる。

そして、上述した方法により、声紋特徴スーパーベクトルを次元削減処理することによって、声紋特徴ベクトルを取得することがきできる。多くの人々からの大量の音響特徴ベクトルを使用して、期待値最大化によって訓練によりガウス混合モデルを取得することができる。このモデルは、多くの人々の音声特性データの確率分布を表すものであり、すべての話者の共通性と理解すべき、ある話者の声紋モデルの特定の先験的モデルとみなすことができる。したがって、このガウス混合モデルはＵＢＭモデルとも呼ばれる場合もある。全体的な背景モデルは、ディープニューラルネットワークを通じて構築することもできる。

また、声紋特徴ベクトルを生成する前に、先に音声を処理し、ノイズを除去することができる。例えば、特異値分解法またはフィルタ法により音声におけるノイズを除去する。ここでいうノイズは、音の大きさや音の強さが混乱して不快な音を含んでもよく、対象音の認識を妨げる背景音楽などのような音も含まれる。特異値分解（ＳＶＤ、ＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ）は、線形代数における重要な行列分解であり、行列解析における正規行列対角化の普及である。信号処理や統計学などの分野で重要な用途がある。ＳＶＤに基づくノイズ除去技術は、サブ空間法の一つである。簡単に言えば、ノイズ付き信号ベクトル空間は、それぞれ純粋な信号によるものとノイズによるものとの２つのサブ空間に分解され、そして簡単に「ノイズ空間」にあるノイズ付き信号ベクトル分量を除去することによって、純粋な信号を推定することができる。また、オーディオファイルのノイズは、適応フィルタリングとカルマンフィルタリングによっても除去できる。通常に２０〜５０ｍｓの間隔でフレーム化され、そしていくつかの特徴抽出法（主に時間領域から周波数領域への変換）を通して、各フレームは固定長の音響特徴シーケンスにマッピングされることができる。

ステップ２０２において、声紋特徴ベクトルを声紋認識モデルに入力して、ユーザーの身分情報を取得する。

本実施形態において、声紋認識モデルは、市販のユーザー身分を認識するためのモデルである。また、声紋認識モデルは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すモデルであってもよい。ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。年齢は、特定の年齢層、例えば、４〜８歳、２０〜３０歳などであり得る。性別と年齢を合わせて、ユーザーの特定の身分情報を判断できる。例えば、子供、高齢者、成人女性、成年男性を識別することができる。家族メンバー標識は、事前に登録された家族メンバーを識別するためのものである。例えば、母、父、娘、祖母などである。家族に、年齢が近く、同じ性別のメンバーが一人しかいない場合、直接にユーザーの年齢と性別により家族メンバーを判断できる。例えば、家族メンバーには母、父、娘、祖母がいる場合に、年齢５０〜６０の女性は祖母であり、年齢４〜８の女性は娘である。声紋認識モデルは、声紋特徴ベクトルベースの声紋特徴ベクトルを所与のユーザーのカテゴリのうちの１つにマッピングすることによって、ユーザーのカテゴリの予測に適用可能な分類器を含んでもよい。年齢、性別、または年齢と性別の組み合わせによって分類できる。例えば、少女、成人男性、女性高齢者など。即ち、声紋特徴ベクトルを分類器に入力して、ユーザーのカテゴリを出力することができる。本実施形態で使用される分類器は、決定木、ロジスティック回帰、単純ベイズ、ニューラルネットワークなどを含むことができる。分類器は、単純な確率モデルの上に、最大の確率値を使用してデータを分類・予測する。分類器は、事前に訓練されたものである。大量の音声サンプルから声紋特徴ベクトルを抽出し、分類器を訓練する。分類器の構造と実施は、大体、以下のステップを含む。１、サンプル（ポジティブサンプルとネガティブサンプルを含む）を選定し、全てのサンプルを練サンプルとテストサンプルとの２つ部分に分ける。２、訓練サンプル実行分類器法に基づいて、分類器を生成する。３、テストサンプルを分類器に入力して、予測結果を生成する。４、予測結果に基づいて、必要な評価指標を計算し、分類器の性能を評価する。

例えば、大量の子供の音声をポジティブサンプルとして採集して、大量の成人の音声をネガティブサンプルとして採集する。ポジティブサンプルとネガティブサンプルによる分類器法に基づいて、分類器を生成する。また、予測結果が子供であるかどうかを検証するために、ポジティブサンプルとネガティブサンプルをそれぞれ分類器に入力して、予測結果を生成する。予測結果により、分類器の性能を評価する。

声紋認識モデルはさらに、家族メンバーマッピング表も含んでもよく。上述した家族メンバーマッピング表には、家族メンバー標識、性別、年齢の対応関係が記録されている。家族メンバーマッピング表において、分類器の分類結果を調べることによって、家族メンバー標識を判定することができる。例えば、分類器に出力された結果は、年齢５０〜６０の女性である場合、家族メンバーマッピング表によりこのユーザーの家族メンバー標識は、祖母であると判定された。

或いは、声紋認識モデルは声紋ベースであってもよい。声紋ベースは、声紋特徴ベクトルと識別情報との対応関係を表すためのものである。声紋特徴ベクトルを所定の声紋ベースに入力してマッチングし、そして一致度の高い順に第一の所定数の識別情報を選定して出力する。同一のユーザーの音声を複数集音して、ステップ２０１において、このユーザーの声紋特徴ベクトルを構築し、声紋特徴ベクトルと識別情報との対応関係を確立し、複数のユーザーの声紋特徴ベクトルと識別情報との対応関係を登録することにより、声紋ベースを構築する。上述した声紋特徴ベクトルと上述した声紋ベースとの一致度を計算するときに、マンハッタン距離（ＭａｎｈａｔｔａｎＤｉｓｔａｎｃｅ）により計算してもよく、ミンコフスキー距離（ＭｉｎｋｏｗｓｋｉＤｉｓｔａｎｃｅ）により計算してもよく、コサイン類似度（ＣｏｓｉｎｅＳｉｍｉｌａｒｉｔｙ）により計算してもよい。

ステップ２０３において、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択する。

本実施形態において、予め設定されたマルチメディアファイルの集合の中のマルチメディアファイルは事前に分類され、例えば、視聴者は１８歳以上に限られている。例えば、アニメーション系のマルチメディアファイルは子供と合う。恐怖映画は、成人と合う。ターゲットマルチメディアファイルは、ユーザーに推薦まちマルチメディアファイルである。識別情報は子供であるときに、マルチメディアファイルの集合の中から、ターゲットマルチメディアファイルとして、アニメーション、子供の歌、科学および教育などの子供に合うマルチメディアファイルを選べる。

ステップ２０４において、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力する。

本実施形態において、ステップ２０３で選択された所定数のターゲットマルチメディアファイルをランダムにプレビュー情報に生成する。また、注文回数が大きい順にプレビュー情報を並べて生成して出力する。点播回数は、マルチメディアファイルが注文され度に、統計されたものである。プレビュー情報は、ビデオスクリーンショット、継続時間、プロフィール、ファイル識別などの情報を含んでもよく。ユーザーは、リモートコントローラを介してファイル標識により再生しようとするマルチメディアファイルを選択することができる。また、音声入力ファイル標識により、再生しようとするマルチメディアファイルを選択することができる。

本実施形態の一部の選択可能な実現手段において、上述した方法は、音声が動作指示を含むと判定したことに応答して、動作指示が実行されるステップをさらに含み、操作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも１つを含む。例えば、ユーザーは、音声で「中央５に変更する」、「大きく聞こえる」、「輝度を増す」、「トムクルーズの映画を検索する」、「１号（プレビュー情報中のマルチメディアファイル標識）を再生する」などの操作指示を入力することができる。

本実施形態の一部の選択可能な実現手段において、上述した方法は、マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するステップをさらに含む。予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。例えば、映画Ａが１００回検索され、映画Ｂは２００回検索される場合、映画Ｂを選択してプレビューファイルを生成することができ、あるいは、映画Ｂのプレビュー情報を映画Ａのプレビュー情報の前に表示する。

本実施形態の一部の選択可能な実現手段において、上述した方法は、マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するステップをさらに含む。予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。例えば、映画Ａが１００回生成され、映画Ｂが２００回生成される場合、映画Ｂを選択してプレビューファイルを生成することができ、あるいは、映画Ｂのプレビュー情報を映画Ａのプレビュー情報の前に表示する。

さらに図３を参照すると、図３は、本実施形態に係る情報を出力するための方法の適用シナリオの概略図である。図３の適用シナリオに、スマートテレビはマイクロフォンにより集音し（３０１）、子供による音声「テレビを見る」を受信する。そして、音声により、声紋を抽出し（３０２）、声紋特徴ベクトルを生成する。また、声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、声紋を認識する（３０３）ことによって、ユーザーの身分情報を取得する３０４（子供）。また、ユーザーの身分情報により、プレビューを推薦する（３０５）、プレビュー情報（１、アニメーションＡ；２、動物の世界；３、科学探索を含む）を取得する（３０６）。

本願の上述した実施形態に係る方法は、音声によりユーザーの身分を認識することによって、ターゲットを絞ったマルチメディアプレビュー情報を推奨することができる

さらに図４を参照すると、情報を出力するための方法の別の実施形態の流れ４００を示す。該情報を出力するための方法の流れ４００は、以下のステップを含む。

ステップ４０１において、ユーザーによる音声の受信に応答して、音声に基づいて声紋特徴ベクトルを生成する。

ステップ４０２において、声紋特徴ベクトルを声紋認識モデルに入力して、ユーザーの身分情報を取得する。

ステップ４０３において、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択する。

ステップ４０４において、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力する。

ステップ４０１−４０４は、ステップ２０１−２０４と基本的に同じてあり、ここでは説明しない。

ステップ４０５において、予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択する。

本実施形態において、スマートテレビは、ユーザーが選択するための複数の音色を提供することができる。そして、音声による指示により選択してもよく、リモートコントローラにより選択してもよい。また、ユーザーの身分情報によれば、自動的にユーザーの身分情報とマッチングする音色情報を選択することも可能である。例えば、子供に向けて、アニメキャラクターの音色を選択することが可能であり、例えば、シーヤンヤン、光頭強、ペッパピッグなど。人に向けて、スターＡ、スターＢの音色などを提供することが可能である。マルチメディアファイルの再生回数により、具体的な音色を確定する。例えば、《シーヤンヤンとホイタイラン》の再生回数が最も多いので、シーヤンヤンの音色を選択することができる。

ステップ４０６において、選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、ユーザーと音声インタラクションする。

本実施形態において、ステップ４０５で選択された音色により音声インタラクション情報を出力することによって、ユーザーと音声インタラクションする。楽しさを向上させることができる。例えば、子供が音声で「『シーヤンヤンとホイタイラン』を見たい」を入力した。スマートテレビは、シーヤンヤンの音色で「何回目を見たい？」を聞いてもよい。

図４から分かるように、図２の実施形態と比較して、本実施形態に係る情報を出力するための方法の流れ４００は、音色を選択するステップを強調した。これにより、本実施形態で説明された形態は、異なるユーザー群に向けて異なる音色で音声インタラクションすることができる。よって、ユーザーとスマートテレビとのインタラクションの楽しさを高めることができる。

さらに図５を参照すると、各図に示される方法の実現として、本発明は、情報を出力するための装置の一実施形態を提供し、この装置実施形態の実施形態は、図２に示される方法の実施形態に対応し、この装置は、具体的に様々な電子デバイスに適用することができる。

図５に示されたように、本実施形態に係る情報を出力するための装置５００は、生成ユニット５０１、認識ユニット５０２、オプションユニット５０３、出力ユニット５０４を含む。この生成ユニット５０１は、ユーザーによる音声の受信に応答して、音声に基づいて声紋特徴ベクトルを生成するように構成されている。認識ユニット５０２は、声紋特徴ベクトルを声紋認識モデルに入力することによって、ユーザーの身分情報を取得するように構成されている。オプションユニット５０３は、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するように構成されている。出力ユニット５０４は、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するように構成されている。

本実施形態において、情報を出力するための装置５００における生成ユニット５０１、認識ユニット５０２、オプションユニット５０３、出力ユニット５０４の具体的な処理については、図２と対応する実施形態のステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４を参照することができる。

本実施形態の一部の選択可能な実現手段において、生成ユニット５０１は、さらに、音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得するように配置されている。全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである。声紋特徴スーパーベクトルは、次元削減処理によって、声紋特徴ベクトルを取得する。

本実施形態の一部の選択可能な実現手段において、上述した装置５００は、音声が動作指示を含むと判定したことに応答して、動作指示が実行されるように構成されている実行ユニット（図示せず）をさらに含み、前記動作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも１つを含む。

本実施形態の一部の選択可能な実現手段において、上述した装置５００は、マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するように構成されている検索回数統計ユニットをさらに含む。予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。

本実施形態の一部の選択可能な実現手段において、上述した装置５００は、マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するように構成されている再生回数統計ユニットをさらに含む。予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。

本実施形態の一部の選択可能な実現手段において、ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。

本実施形態の一部の選択可能な実現手段において、装置５００は、予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択するように構成されているチューニングユニットをさらに含む。選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、ユーザーと音声インタラクションする。

本実施形態の一部の選択可能な実現手段において、声紋認識モデルとは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのモデルである。

以下、図６を参照すると、本発明の一実施形態実現するのに適する電子デバイス（図１に示されたようなスマートテレビ）のコンピュータシステム６００の概略構成図を示す。図６に示す電子デバイスは、あくまでも一例であり、本発明の本実施形態の機能及び利用範囲を限定するものではない。

図６に示す通り，コンピュータシステム６００は、読み出し専用メモリ（ＲＯＭ、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）６０２に記憶されているプログラム又は記憶部６０８からランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）６０３にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置（ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６０１を備える。ＲＡＭ６０３には、システム６００の操作に必要な様々なプログラムおよびデータがさらに記憶されている。ＣＰＵ６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ、Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インターフェース６０５もバス６０４に接続されている。

Ｉ／Ｏインターフェース６０５には、リモートコントローラ、マイクロフォン等からなる入力部６０６と、陰極線管（ＣＲＴ）、液晶表示装置（ＬＣＤ）、スピーカ等からなる出力部６０７と、ハードディスク等からなる記憶部６０８と、ＬＡＮカードやモデム等のネットワークインターフェースカードからなる通信部６０９とを備えている。通信部６０９は、インターネットなどのネットワークを介した通信処理を行う。ドライブ６１０は、必要に応じてＩ／Ｏインターフェース６０５に接続される。リムーバブルメディア６１１は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライブ６１０に取り付けられるので、ドライブ６１０から読み出されたコンピュータプログラムが必要に応じて記憶部６０８にインストールされる。

特に、本発明の実施形態によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムで実施することができる。例えば、本発明の一実施形態は、機械可読媒体に有形に埋め込まれたコンピュータプログラムを含むコンピュータプログラム製品を含む。コンピュータプログラムは、フローチャートに示されるような方法を実行するためのプログラムコードを含む。このような実施形態において、このコンピュータプログラムは、通信部６０９を介してネットワークからダウンロードされインストールされてもよく、リムーバブルメディア６１１からインストールされてもよい。このコンピュータプログラムが中央処理装置（ＣＰＵ）６０１によって実行されると、本発明の方法によって定義される上記機能を実現する。なお、本発明のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは上記両者の任意の組み合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能なプログラミング読取専用メモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ（ＣＤ−ＲＯＭ）、光学記憶素子、磁気記憶素子、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンドによりシステム、サーバ又は部品の使用を実行し、或いはそれらに組み合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は上記任意の適当の組み合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンドによりシステム、サーバ又は部品の使用を実行し又はそれらと組み合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、ＲＦなど、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。

一つ又は複数種のプログラミング言語又はそれらの組み合わせで本出願の操作を実行するためのコンピュータプログラムコードをプログラミングすることができる。上記プログラミング言語には、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋のようなオブジェクト指向プログラミング言語が含まれ、更にＣ言語又は類似のプログラミング言語のような通常の手続き型プログラミング言語が含まれる。プログラムコードは、全体がユーザコンピュータに実行されても良く、一部がユーザコンピュータに実行されても良く、一つの独立なパッケージとして実行されても良く、一部がユーザコンピュータに実行され且つ一部がリモートコンピュータに実行されても良く、或いは全体がリモートコンピュータ又はサーバに実行されても良い。リモートコンピュータに関する場合に、リモートコンピュータはローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークによりユーザコンピュータに接続されても良く、或いは外部のコンピュータ（例えばインターネットサービスプロバイダを利用してインターネットにより接続する）に接続されても良い。

図面におけるフローチャート及びブロック図は、本願の各実施形態によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って確定される。注意すべきなのは、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組み合わせで実現されても良い。

本発明の実施形態に説明されたユニットはソフトウェアのユニットで実現されても良く、ハードウェアのユニットで実現されても良い。説明されたユニットは、プロセッサに設置されても良い。例えば、生成ユニット、認識ユニット、オプションユニット、および出力ユニットを含むプロセッサとして記載されても良い。なお、これらユニットの名称は、ある場合に当該ユニットの自身に対する限定とされない。例えば、生成ユニットを「ユーザーによる音声の受信に応答して、前記音声に基づいて、声紋特徴ベクトルを生成するユニットである」と記載されても良い。

別の形態として、本発明は更にコンピュータ読取可能な媒体を提供した。当該コンピュータ読取可能な媒体は、上記実施形態に説明された装置に含まれたものであっても良く、当該装置に実装されずに別途に存在するものであっても良い。上記コンピュータ読取可能な媒体に一つ又は複数のプログラムがロードされる。上記一つ又は複数のプログラムが当該装置により実行されると、装置は、ユーザーによる音声の受信に応答して、音声に基づいて声紋特徴ベクトルを生成し、声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、ユーザーの身分情報を取得し、声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものであり、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択し、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力する。

以上の記載は、本願の好ましい実施形態、及び使われている技術的原理の説明に過ぎない。当業者は、本願に係る保護範囲が、上記の技術特徴による特定お組合せからなる技術方案に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、上記技術特徴又は均等の特徴の任意の組合せからなる他の技術方案も含まれることを理解している。例えば、上記特徴と、本願に開示された類似の機能を持っている技術特徴（これらに限定されていない）とを互いに置き換えてなる技術方案も含まれる。

Claims

情報を出力するための方法であって、
ユーザーによる音声の受信に応答して、前記音声に基づいて声紋特徴ベクトルを生成するステップと、
前記声紋特徴ベクトルを声紋認識モデルに入力して、前記ユーザーの身分情報を取得するステップであって、前記ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含むステップと、
予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップと、
前記ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するステップと、を含み、
前記声紋認識モデルは、家族メンバー標識、性別、年齢の対応関係が記録されている家族メンバーマッピング表と、ユーザの声紋特徴ベクトルを入力として当該ユーザの性別及び年齢のうちの少なくとも1つを出力する分類器とを有し、
分類器により出力された結果で前記家族メンバーマッピングにおいて検索することにより前記家族メンバー標識が得られる、方法。
前記音声に基づいて声紋特徴ベクトルを生成するステップは、
前記音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得するステップであって、前記全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものであるステップと、
前記声紋特徴スーパーベクトルを次元削減処理することによって、声紋特徴ベクトルを取得するステップと、
を含む、請求項１に記載の方法。
前記音声が動作指示を含むと判定したことに応答して、前記動作指示を実行するステップをさらに含み、
前記動作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも１つを含む、請求項１に記載の方法。
マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するステップをさらに含み、
前記予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、
検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項３に記載の方法。
マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するステップをさらに含み、
前記予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、
再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項３に記載の方法。
予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択するステップと、
選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、前記ユーザーと音声インタラクションするステップと、をさらに含む請求項１〜５のいずれか一項に記載の方法。
前記声紋認識モデルとは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである、請求項１〜５のいずれか一項に記載の方法。
情報を出力するための装置であって、
ユーザーによる音声の受信に応答して、前記音声に基づいて声紋特徴ベクトルを生成するように構成されている生成ユニットと、
前記声紋特徴ベクトルを声紋認識モデルに入力して、前記ユーザーの身分情報を取得するように構成されている認識ユニットであって、前記ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含むユニットと、
予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するように構成されているオプションユニットと、
前記ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するように構成されている出力ユニットと、を含み、
前記声紋認識モデルは、家族メンバー標識、性別、年齢の対応関係が記録されている家族メンバーマッピング表と、ユーザの声紋特徴ベクトルを入力として当該ユーザの性別及び年齢のうちの少なくとも1つを出力する分類器とを有し、
分類器により出力された結果で前記家族メンバーマッピングにおいて検索することにより前記家族メンバー標識が得られる、装置。
前記生成ユニットは、さらに、
前記音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得し、
前記声紋特徴スーパーベクトルを次元削減処理することによって、声紋特徴ベクトルを取得するように構成され、
前記全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである、請求項８に記載の装置。
前記音声が動作指示を含むと判定したことに応答して、前記動作指示が実行されるように構成されている実行ユニットをさらに含み、前記動作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも１つを含む、請求項８に記載の装置。
マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するように構成されている検索回数統計ユニットをさらに含み、
前記予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することは、
検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項１０に記載の装置。
前記装置は、
マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するように構成されている再生回数統計ユニットをさらに含み、
前記予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することは、
再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項１０に記載の装置。
予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択するように構成されているチューニングユニットをさらに含み、
選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、前記ユーザーと音声インタラクションする、請求項８〜１２のいずれか一項に記載の装置。
前記声紋認識モデルとは、予め訓練された、前記声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのモデルである請求項８〜１２のいずれか一項に記載の装置。
電子デバイスであって、
１つまたは複数のプロセッサと、
１つまたは複数のプログラムが格納されている記憶装置と、を含み、
前記１つまたは複数のプログラムは前記１つまたは複数のプロセッサにより実行されると、前記１つまたは複数のプロセッサに請求項１〜７のいずれか一項に記載の方法を実現させる電子デバイス。
コンピュータプログラムが格納されているコンピュータ読取可能な媒体であって、
前記プログラムはプロセッサにより実行されると、請求項１〜７のいずれか一項に記載の方法を実現させるコンピュータ読取可能な媒体。