JP5442703B2

JP5442703B2 - 消費者電化製品に関連する装置をボイス制御する方法及び装置

Info

Publication number: JP5442703B2
Application number: JP2011278728A
Authority: JP
Inventors: エフシュレーダーエルンスト; プラッテハンス−ヨアヒム
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2000-09-19
Filing date: 2011-12-20
Publication date: 2014-03-12
Anticipated expiration: 2021-09-11
Also published as: US20020035477A1; US7136817B2; JP2012100309A; EP1189206B1; CN1185623C; DE60120062D1; DE60120062T2; ATE328345T1; CN1345029A; JP4947860B2; KR20020022561A; KR100845476B1; EP1189206A2; JP2002123295A; EP1189206A3

Description

本発明は、消費者電化製品に関連する装置をボイス制御する方法及び装置に関わる。

消費者電化製品に関連する装置、例えば、テレビジョンセット又はビデオレコーダのオペレータ制御は、ボイス制御によりユーザに簡単になり得る。例えば、装置設定の変更、例えば、局の選択のようなオペレータ制御器能の実行、又は、プログラミング動作の実施のために音声制御を使用することが公知である。

この目的のために、ユーザによって話されるオペレータ制御コマンドは、最初に音響信号として検出され、電気信号に変換され、ディジタル化される。ディジタル化されたボイス信号は、音声認識システムに供給される。音声認識は、通常ここでは音響モデル及び音声モデルに基づく。音響モデルは、多数の音声パターンを使用し、数学的アルゴリズムが口頭の言葉に音響的に最もよく適合する言葉を示すために使用される。音声モデルは、どの文脈中で及びどの頻度である言葉が通常使用されるかにおいて多数の文書サンプルに基づいて確立される分析に基づく。

現行のシステムでは、遠隔制御ユニットと一体化されたマイクロホンにオペレータ制御コマンドを話す。騒がしい背景の雑音によって生じる認識率の低下は、ユーザの口の直ぐ前で遠隔制御ユニットを保持することによって防止される。しかしながら、これは、従来の遠隔制御ユニットの場合のように、ユーザが遠隔制御ユニットを持ち上げなくてはならないことをまだ必要とする。音声入力に関して、一つ以上のマイクロホンが消費者電化製品に関連する装置に設けられた場合にはより便利になり得、それによりユーザは遠隔制御ユニットを携帯することなく部屋の任意の所望の場所からオペレータ制御を実行することができる。背景の騒がしさの要求される抑制は、この場合、「統計ビーム形成」又は「ブラインドソース分離」のような特別なマイクロホンアレイ及び方法の使用によって行われ得る。しかしながら、動作中の装置は、どの音声入力が現在のユーザによるものかを判定することができない。従って、これらオペレータ制御コマンドだけに応答するが他の人による発声を無視することは可能でない。

ユーザの便宜をよりよくするために更に試みられる方法は、テレビジョン又はセットトップボックスと一体化されたハードディスクへのテレビジョン番組の自動バッファ記憶である。視聴傾向の分析後、この場合、ユーザが定期的に予め選択した番組又は番組のタイプが自動的に記録される。ユーザが任意の時間にテレビジョンをオンにする場合、ユーザはある程度の確率で、お気に入りの番組を観ることができる。しかしながら、ユーザが数人いる場合、どのユーザがどの時間にテレビジョンを作動したかを区別することが可能でないことにより分析の質が劣化される。

本発明は、前述の不都合な点を回避する、ボイス制御する方法を特定する目的に基づく。

この目的は、請求項１記載の方法によって実現される。

原則として、消費者電化製品に関連する装置をボイス制御する方法は、ユーザの音声入力をディジタル化されたボイス信号に変換することを含む。音声の個々の音の特性であり、従って、口頭の音の認識を可能にする第１の特徴がディジタル化されたボイス信号から抽出される。更に、夫々のユーザの声の特性把握を可能にし、異なるユーザの音声入力の間で区別するために使用される第２の特徴がディジタル化された音声信号から抽出される。第１のユーザからのボイスコマンドの後、特徴的な声の特徴に関して更なる音声入力を試験し、これら特徴に基づいて同じ話者にこの音声入力が割り当てられ得る場合にだけこの音声入力を受けることによって、更なるボイスコマンドがこの第１のユーザからだけ受けられる。

結果として、所与の期間中に幾人かの同時ユーザのうちの一人だけがボイス制御に関わる装置を作動し得ることを確実にし得、これは幾人かのユーザのうち一人だけが適合する遠隔制御ユニットを有する場合に類似する。

特に、装置をオンにするためのボイスコマンドが任意の第１のユーザから受けられることが有利であり、その後、この第１のユーザからのボイスコマンド入力だけが受けられる。

装置をオフにするためのボイスコマンドは、第１のユーザからだけ受けられることが好ましく、装置をオフにした後、ボイスコマンドが任意のユーザから再び受けられることが可能となる。

しかしながら、ある適用法に関して、装置をオフにするためのボイスコマンドが任意のユーザから受けられることが有利となり得る。

同様にして、第１のユーザに入力された後に、第２のユーザからのボイスコマンドが受けられることを可能にするオペレータ制御コマンドが有利的に提供される。これにより、第１のユーザから第２のユーザへ遠隔制御ユニットを渡すことに相当するように、オペレータ制御の権限を譲ることを可能にする。

視聴傾向の分析を実施し、この分析から様々なユーザのプロフィールを形成するために、様々なユーザの識別が行われることが特に有利となる。

このようにして得られるユーザプロフィールは、異なるユーザのために好ましい番組を別々にバッファ記憶することを可能にするようテレビジョン番組のバッファ記憶装置において好ましくは使用される。

同様にして、ユーザプロフィールは、様々なユーザの視聴傾向に適する視聴されるべき番組を提案するために使用されてもよい。

あるユーザからだけ将来のボイスコマンドを受けるために様々なユーザのボイスコマンド間で区別する方法のシーケンスを概略的に示す図である。この識別から様々なユーザのユーザプロフィールを形成するために様々なユーザを識別する方法のシーケンスを概略的に示す図である。

本発明の実施例を図面に基づいて説明する。

第１の実施例のシーケンスをフローチャートの形態で図１中に概略的に示す。ボイス制御されたテレビジョンの場合、あるユーザからだけ将来の音声入力を受けるために様々なユーザ間の音声入力で区別される。

最初に、第１の方法の段階１において、アナログボイス信号を生成するために音響信号が電気信号に変換され、アナログ音声信号はディジタル音声信号に変換される。

次の方法の段階２において、音声の可能な限り典型的な個々の音であり、騒がしさ並びに発音における変動に関してエラー強い第１の特徴がディジタル化された音響信号から得られる。同様にして、方法の段階３において、夫々のユーザの声の特性把握を可能にし、様々なユーザの音声入力間で区別する第２の特徴がディジタル化された音響信号から抽出される。提示する実施例において、この特徴の抽出は、音声認識ユニット及び話者認識ユニットに対して別々に行われるが、一緒に行われてもよい。

第１の特徴に基づいて、実際の音声認識が方法の段階４において行われる。方法の段階５において、その時に話しているユーザを識別するために話者認識が第２の特徴を補助として行われる。しかしながら、同様にして、個々のユーザの識別が行われること無く他のユーザからの区別を可能にするために第２の特徴だけが記憶されてもよい。

方法の段階６において、テレビジョンが既にオンにされたか否かが確認される。オンの場合、方法の段階７及び８が実行され、さもなければ方法の段階９及び１０が実行される。テレビジョンがまだオンにされていない場合、方法の段階９において、例えば、「オン」又は「テレビジョンオン」のようなオンにするコマンドが与えられたか否かが次に確認される。このコマンドが与えられた場合、方法の段階１０において、テレビジョンがオンにされ、入力を発生するユーザが認められる。識別の代わりに、異なるユーザ間で区別だけが行われる場合、現在のユーザを特徴付ける第２の特徴が相応じて記憶される。その後、方法の段階９においてオンにするコマンドが与えられていない場合と同じように方法の段階１に戻る。

既にオンされたテレビジョンの場合において、方法の段階６の後に方法の段階７が続く。この段階では、音声入力が既に方法の段階１０において予め認められたユーザによるものか否かが確認される。そのユーザによるものである場合、ボイス制御されたシステムを制御する入力コマンドが方法の段階８において、例えば、メニューコントロール又はナビゲーションのために使用される。その後、方法の段階７においてユーザの中で変更が確立された場合と同じように方法の段階１に戻る。

この実施例の様々な変更態様が考えられる。例えば、装置をオフにする音声入力が任意のユーザから受けられてもよい。同様にして、第１のユーザによって入力されるとき、第２の又は更なるユーザの音声入力が将来受けられることを可能にするオペレータ制御コマンドが設けられてもよい。

第２の実施例のシーケンスをフローチャートの形態で図２に概略的に示す。この場合、ボイス制御されたテレビジョンの様々なユーザの識別が行われ、これは、この識別からこれらユーザに対してユーザプロフィールを形成するためである。

方法の段階１乃至５は、図１からの実施例の段階１乃至５と一致するが、一方で方法の段階５では、その時話しているユーザを識別することが重要となる。他方で、方法の段階６、７、及び、９における様々な分岐が不要となる。音声入力に対応するオペレータ制御コマンドは、方法の段階８において実行される。更に、方法の段階１１において、入力を発生する識別されたユーザが現在の時間及びテレビジョンチャネルに関する詳細、又は、その時放送している番組に関する詳細と一緒に記憶される。これら詳細は、テレビジョンセットで既に利用できてもよく、又は、特に、垂直帰線消去間隔におけるアナログテレビジョン信号の場合、更なる信号としてテレビジョン信号と伝送されてもよい。例えば、内部クロックからの時刻が使用され得、又は、テレテキストで伝送される時間信号が評価される。同様にして、テレビジョンチャネルは、その時選択されたテレビジョンセットの番組サイトから、又は、テレテキスト又はＶＰＳ信号１２における対応する詳細から直接的に決定されてもよい。最後に、その時放送されている番組に関する詳細、即ち、題名、ジャンル、例えば、エンターテイメント、スポーツ等が装置に既にあるＥＰＧ又は相応じて伝送されるデータから捕捉されてもよい。

音声認識の使用により決定されるユーザプロフィールは、ハードディスク上のテレビジョン番組のバッファ記憶装置又はテレビジョン並びにセットトップボックスに設けられる同様の記憶媒体において特に使用され得る。視聴傾向の分析の正確さは、夫々のユーザの認識によってこの場合著しく高められる。子供達が親よりも著しく長い時間テレビジョンの前で過ごす家族の例において、ハードディスクは従って子供用番組だけでもはや満たされない。その代わりに、更なる話者認識は、家族の構成員の数に対して視聴傾向分析が別々に形成されることを可能にする。ハードディスクの限られたバッファメモリ空間は、特定のキーに従って個々のユーザの中で分割され得、それにより、各ユーザに所定の分け前のハッファ記憶されたテレビジョン番組が与えられる。

同様にして、音声認識の使用により決定されるユーザプロフィールは、ラジオ番組又は他の伝送されたデータを記録するためにも使用され得る。

ボイス信号の検出のために、単一のマイクロホン又は２つ以上のマイクロホンを有するマイクロホンアレイが設けられてもよい。マイクロホンアレイは、例えば、テレビジョン受像機と一体化されてもよい。マイクロホンは、検出された音響信号を電気信号に変換し、この電気信号は増幅器によって増幅され、ＡＤ変換器によってディジタル信号に変換され、信号処理ユニットに供給される。後者は、検出された音信号の異なるスケーリング又は処理によってユーザがいる夫々の場所を考慮し得る。更に、スピーカから発せられる音響信号に対するマイクロホン信号の補正が行われてもよい。このようにして調整される信号は、音声認識ユニット及び話者認識ユニットに供給され、アルゴリズム又はハードウェアユニットが別々に構成、又は、さもなければ一緒に構成されることが可能となる。決定されるコマンド及びユーザの識別は、システムを制御するために最終的にシステムマネージャに供給される。

本発明は、例えば、ＴＶセット、ビデオレコーダ、ＤＶＤプレーヤ、衛星受信器、組み合わされたＴＶ−ビデオシステム、オーディオ機器、又は、完全なオーディオシステムのような消費者電化製品に関連する幅広い種類の装置のボイス遠隔制御のために使用されてもよい。

Claims

消費者電化装置をボイス制御する方法であって、
ユーザの音声入力をディジタル化されたボイス信号に変換するステップと、
上記音声の個々の音の特性であり従って口頭の音の認識を可能にする第１の特徴を上記ディジタル化された音声信号から抽出するステップと、
上記抽出された第１の特徴を、前記消費者電化装置を制御するボイスコマンドに変換するステップと、
夫々のユーザの声の特性把握を可能にし異なるユーザの音声入力の間で区別するために使用される第２の特徴を上記ディジタル化された音声信号から抽出するステップと、
上記ボイスコマンドによって上記消費者電化装置を操作する場合に、異なるユーザを識別するステップと、
上記識別されたユーザのユーザプロフィールを形成するために、上記識別されたユーザの視聴傾向の分析を実施するステップと、
上記異なるユーザに対して好ましい番組を別々にバッファ記憶することを可能にするために、テレビジョン番組のバッファ記憶装置において上記ユーザプロフィールを使用するステップと
を有し、
バッファメモリ空間は、割当キーに従って個々のユーザの間で分割され、それにより、夫々のユーザは、所定の分け前のバッファ記憶されたテレビジョン番組を与えられる、方法。
消費者電化装置であって、
ユーザの音声入力をディジタル化されたボイス信号に変換する手段と、
上記音声の個々の音の特性であり従って口頭の音の認識を可能にする第１の特徴を上記ディジタル化された音声信号から抽出する手段と、
上記抽出された第１の特徴を、前記消費者電化装置を制御するボイスコマンドに変換する手段と、
夫々のユーザの声の特性把握を可能にし異なるユーザの音声入力の間で区別するために使用される第２の特徴を上記ディジタル化された音声信号から抽出する手段と、
上記ボイスコマンドによって当該消費者電化装置を操作する場合に、異なるユーザを識別する手段と、
上記識別されたユーザのユーザプロフィールを形成するために、上記識別されたユーザの視聴傾向の分析を実施する手段と、
上記異なるユーザに対して好ましい番組を別々にバッファ記憶することを可能にするために、テレビジョン番組のバッファ記憶装置において上記ユーザプロフィールを使用する手段と
を有し、
バッファメモリ空間は、割当キーに従って個々のユーザの間で分割され、それにより、夫々のユーザは、所定の分け前のバッファ記憶されたテレビジョン番組を与えられる、
消費者電化装置。