JP6012877B2

JP6012877B2 - マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体

Info

Publication number: JP6012877B2
Application number: JP2015533437A
Authority: JP
Inventors: ホンジワン; ルーユエンリュー; ノンサン; グオファリュー
Original assignee: シェンジェンピーアールテックカンパニーリミテッド
Priority date: 2012-09-29
Filing date: 2013-09-26
Publication date: 2016-10-25
Anticipated expiration: 2033-09-26
Also published as: CN102945672A; JP2015535952A; WO2014048348A1; US9955210B2; EP2897126A1; CN102945672B; EP2897126A4; US20150222948A1; EP2897126B1

Description

本発明は、音声遠隔制御技術に関し、詳細には、マルチメディアデバイスの音声制御システム及び方法、及びコンピュータ記憶媒体に関する。

携帯電話が知能化した後には、ＴＶ、プロジェクタ、ゲーム機等のマルチメディアデバイスが同様に知能化できる状况にある。現在、マルチメディアデバイスは、高性能な制御チップを備えることが多く、オープンプラットフォーム及びオペレーティングシステムを有する。ユーザは、マルチメディアデバイスの機能を拡張させるアプリ（ａｐｐｓ）をインストール及びアンインストールすることができる。マルチメディアデバイスは、ＳＮＳ及び情報検索をサポートする。一例としてスマートＴＶを取り上げると、スマートＴＶは、従来の番組を再生する機能に限られない。スマートＴＶは、ビデオ及びオーディオを共有したり、対話型娯楽ゲームを行う機能を実現することができる。従来のボタン式遠隔制御ユニットでは、複数のマルチメディア機能を選択及び操作する要求を満たすことができない。

従来、インテリジェント制御は、タッチ制御、音声制御、ジェスチャ制御、モーション制御等の複数の人間−コンピュータ対話プログラムによって実現することができる。使用シナリオの制約及び使用習慣の問題により、従来のインテリジェント制御方法は、ボタン式遠隔制御ユニットに全体的に取って代わることはできず、ユーザは、ボタン式遠隔制御ユニット上の特定の機能キーとデジタルキーの組み合わせを利用することによってのみ操作することができる。例えば、タッチ制御プログラムは、遠隔制御ユニットに組み込まれたタッチ感知モジュールを使用する必要がある。ジェスチャ認識プログラムは、通常使用するチャンネルの間でチャンネルを迅速に切り替えることができず、ユーザが現在のチャンネル１からチャンネル５５に切り替えようとする場合、従来のボタン式制御ユニットは、ジェスチャ認識プログラムよりも迅速にチャネルを切り替えることができる。モーション制御の問題点は、ジェスチャ認識プログラムのものと類似しており、通常、モーション制御プログラムは、距離画像検出モジュールを組み込んで、正確なモーション制御機能を実現する必要がある。従来の音声認識プログラムの問題点は、ユーザの音声をクリアに集音するために、遠隔制御ユニットにはマイクロホンが組み込まれており、ボタン式遠隔制御ユニットを必要とする点である。

音声認識の発達に伴い、音声認識及び意味認識は実用段階に到達している。クラウドコンピューティング技術の普及で、クラウドサービスに基づく音声認識の多数のサービスプロバイダが、音声制御によるＴＶを実現するために音声認識とＴＶを組み合わせている。現在の解決策において、マイクロホンピックアップモジュールが遠隔制御ユニットに組み込まれており、ユーザの音声を取得するようになっており、この音声は処理されてクラウドに送信されて認識される。遠距離の音声をピックアップできるマイクロホンアレイ技術を利用しても、ＴＶ音響出力と環境騒音の干渉といった問題点、及びユーザの非制御命令音声が誤って制御命令として認識されるといった問題点は、マルチメディアデバイスの性能に影響を与える可能性がある。

本発明によって解決すべき技術的課題は、マルチメディアデバイス用音声制御システムを提供することである。

マルチメディアデバイス用音声制御システムは、前述の問題点を解決するために用いられる。マルチメディアデバイス用音声制御システムは、ユーザアクション画像を収集するように構成された画像検出モジュールと、ユーザアクション画像に従って制御命令タイプ又はステータスを判定するように構成された画像認識モジュールと、制御命令タイプに従って音声認識プログラムを作動させるか又は停止させるように構成された音声認識ステータス管理モジュールと、音声信号を収集するように構成されたピックアップモジュールと、収集した音声データを認識して制御命令を生成するように構成された音声認識モジュールと、制御命令を実行して対応するマルチメディア機能をユーザに提供するように構成されたマルチメディア機能モジュールと、を備える。

好ましくは、画像認識モジュールは、ユーザアクション画像をプリセット画像テンプレートと比較してユーザアクション画像に一致する制御命令タイプを選択するように構成され、ユーザアクション画像に一致する制御命令タイプが見つかった場合、ユーザの位置が対象の音声源の位置としてアサートされ、対象の音声源の位置情報、音声認識プログラムの開始情報、及び／又は制御命令タイプが音声認識ステータス管理モジュールに送られ、ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報が音声認識ステータス管理モジュールに送られる。

好ましくは、画像認識モジュールは、人間−コンピュータ対話コンテンツを提示し、ユーザが、プリセット画像テンプレートに一致するまで特定の動作を行うように指示するように構成される。

好ましくは、ピックアップモジュールは、アレイピックアップモジュール又は少なくとも１つのピックアップセンサであり、ピックアップセンサは規則的に又は不規則に配列され、ピックアップセンサは、ピックアップ方向及びピックアップ角度の限定に従って対象の音声源が放出する音声信号を収集し、音声信号をデジタル化して音声データを生成し、この音声データを送る。

好ましくは、音声認識ステータス管理モジュールは、音声認識プログラムを作動させるか又は起動させるための受信した音声認識プログラムの開始情報に従って開始命令及び制御命令タイプを音声認識モジュールに送り、対象の音声源の位置情報を音波ビーム形成モジュールに送り、マルチメディア機能モジュールは、マルチメディアデバイスの出力音量を低減するように制御され、マルチメディアデバイスの出力音量は、ピックアップモジュールが音声信号の収集を終了した後に通常レベルに戻される。

好ましくは、音声認識モジュールは、音声認識ステータス管理モジュールからの開始命令及び制御命令タイプに従って、ピックアップモジュールからの音声データを認識し、或る制御命令タイプを有する制御命令を生成し、制御命令は、マルチメディア機能モジュールに送られる。

好ましくは、音声認識モジュールは、処理された制御命令音声信号の用語モデルが格納された内蔵音声命令辞書をプリセットする。

音声認識モジュールは、音声データを音声命令辞書の用語モデルと比較し、音声データと用語モデルとの間の類似度がプリセット閾値よりも大きい場合、音声データは、用語モデルに対応する制御命令としてアサートされ、制御命令は、マルチメディア機能モジュールに送られる。

好ましくは、音声認識モジュールは、ローカル音声認識モジュール及びクラウド音声認識モジュールを備える。

ローカル音声認識モジュールは、音声データを認識して或る制御命令タイプを有する制御命令を形成し、制御命令は、マルチメディア機能モジュールに送られる。

クラウド音声認識モジュールは、ローカル音声認識モジュールでは認識できない音声データを認識し、或る制御命令タイプを有する制御命令を生成し、制御命令は、マルチメディア機能モジュールに送られる。

好ましくは、マルチメディア機能モジュールは、制御命令を実行し、制御命令に従って検索エンジンによって自動的に検索を行いオーディオ及びビデオデータを取得し、オーディオ及びビデオデータをダウンロードして再生する。

マルチメディアデバイスのための音声制御方法は、ユーザアクション画像を収集する段階と、ユーザアクション画像に従って制御命令タイプ又はステータスを判定し、ユーザアクション画像を送るユーザの位置を対象の音声源の位置とアサートし、対象の音声源の位置を送り、対象の音声源の位置に従って操作者である対象ユーザを判定する段階と、制御命令タイプに従って音声認識プログラムを作動させるか又は起動させる段階と、対象の音声源の位置を送り、マルチメディアデバイスの出力音量を低減させる段階と、対象の音声源の位置に従ってピックアップ方向及びピックアップ角度を決定する段階と、ピックアップ方向及びピックアップ角度の限定に従ってユーザの音声信号を収集して、音声信号をデジタル化して音声データを生成する段階と、収集した音声データを認識して制御命令を生成する段階と、制御命令を実行してユーザに対して対応するマルチメディア機能を提供する段階と、を含む。

好ましくは、ユーザアクション画像に従って制御命令タイプ又はステータスを判定し、ユーザアクション画像を送るユーザの位置を対象の音声源の位置とアサートし、対象の音声源の位置を送る段階は、ユーザアクション画像をプリセット画像テンプレートと比較して、ユーザアクション画像と一致する制御命令タイプを選択する段階を含み、ユーザアクション画像に一致する制御命令タイプが見つかった場合、ユーザの位置を対象の音声源の位置としてアサートし、対象音声の位置情報、音声認識プログラムの開始情報、及び／又は制御命令タイプを送り、ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報を送る。

好ましくは、本方法は、人間−コンピュータ対話コンテンツをユーザに提示して、ユーザが、プリセット画像テンプレートに一致するまで特定の動作を行うように指示する段階を含む。

好ましくは、ピックアップ方向及びピックアップ角度に従って対象の音声源から放出された音声信号を収集して音声データを生成する段階は、少なくとも１つのピックアップセンサを規則的に又は不規則に配列して、少なくとも１つのピックアップセンサによってピックアップ方向及び前記ピックアップ角度の限定に従って対象の音声源から放出された音声信号を収集し、音声信号をデジタル化して音声データを生成し、音声データを送る段階を含む。

好ましくは、現在の制御命令タイプに従って音声認識プログラムを作動させるか又は起動させる段階と、対象の音声源の位置を送って、マルチメディアデバイスの出力音量を低減させる段階は、開始命令及び制御命令タイプを送って、受け取った音声認識プログラムの開始情報に従って音声認識プログラムを作動させるか又は起動させる段階と、対象の音声源の位置情報を送る段階と、マルチメディアデバイスの出力音量を低減する段階と、音声信号の収集が終了した後にマルチメディアデバイスの出力音量を通常レベルに戻す段階とを含む。

好ましくは、開始命令及び制御命令タイプを送って、受け取った前記音声認識プログラムの開始情報に従って音声認識プログラムを作動させるか又は起動させる段階は、開始命令及び制御命令タイプに従って音声データを認識して制御命令タイプを有する制御命令を生成する段階と、制御命令を送る段階とを含む。

好ましくは、開始命令及び制御命令タイプに従って音声データを認識して制御命令タイプを有する制御命令を生成し、制御命令を送る段階は、音声データを、処理済み制御命令音声信号用語モデルが格納された音声命令辞書内の用語モデルと比較する段階を含み、音声データと少なくとも１つの用語モデルとの間の類似度がプリセット閾値よりも大きい場合、音声データを用語モデルに対応する制御命令としてアサートし、制御命令を送る段階を含む。

好ましくは、開始命令及び制御命令タイプに従って音声データを認識して制御命令タイプを有する制御命令を生成する段階と、制御命令を送る段階は、音声データをローカルで認識し、制御命令タイプを有する制御命令を生成して制御命令を送る段階と、ローカルで認識できない音声データを意味論的に認識して制御命令タイプを有する制御命令を生成して制御命令を送る段階とを含む。

好ましくは、制御命令を実行してユーザに対して対応するマルチメディア機能を提供する段階は、制御命令を実行し、制御命令に従って検索エンジンによって自動的に検索を行いオーディオ及びビデオデータを取得し、オーディオ及びビデオデータをダウンロードして再生する段階を含む。

コンピュータ実行可能な命令を記憶するようになったコンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体は、１つ又はそれ以上のコンピュータ実行可能な命令を記憶し、該１つ又はそれ以上にコンピュータ実行可能な命令は１つ又はそれ以上のプロセッサで実行され、マルチメディアデバイスのための音声制御方法を遂行するようになっており、該方法は、
ユーザアクション画像を収集する段階と、
ユーザアクション画像に従って制御命令タイプ又はステータスを判定し、ユーザアクション画像を送るユーザの位置を対象の音声源の位置とアサートし、対象の音声源の位置を送り、対象の音声源の位置に従って操作者である対象ユーザを判定する段階と、
現在の制御命令タイプに従って音声認識プログラムを作動させるか又は起動させる段階と、
対象の音声源の位置を送って、マルチメディアデバイスの出力音量を低減させる段階と、
対象の音声源の位置に従ってピックアップ方向及びピックアップ角度を決定する段階と、
ピックアップ方向及びピックアップ角度の限定に従ってユーザの音声信号を収集して、音声信号をデジタル化して音声データを生成する段階と、
収集した音声データを認識して制御命令を生成する段階と、
制御命令を実行してユーザに対して対応するマルチメディア機能を提供する段階と、
を含む。

本発明では、画像認識技術、音声認識技術、及びコンピュータの記憶媒体が組み合わされ、携帯型遠隔制御ユニットに依存せず、近接ピックアップデバイスに制限されない、自由かつ好都合な音声制御が実現される。制御命令音声認識に対する、マルチメディアデバイスの音響出力、環境背景雑音、及びユーザの非制御命令音声信号の妨害を効果的に回避することができ、ユーザの命令を正確に認識できるので、複数のユーザが一緒に又は別々にマルチメディアデバイスを制御することができる。

本発明の実施形態は、添付図面を参照して以下に詳細に説明される。

１つの実施形態によるマルチメディアデバイス用音声制御システムのブロック図である。好ましいプリセット画像テンプレートの概略図である。１つの実施形態によるマルチメディアデバイス用音声制御システムの特定の処理フローチャートである。１つの実施形態によるアレイピックアップモジュール１４の概略図である。１つの実施形態によるマルチメディアデバイス用音声制御システムの基本的な処理フローチャートである。音声認識モジュール１５の特定の処理フローチャートである。

本開示の目的、技術的解決策、及び利点をより明確に理解できるように、本開示は、添付図面及び以下の実施形態を用いてより詳細に説明される。本明細書に記載の特定の実施形態は本発明を例示する単なる実施例であり、本開示を限定しないことを理解されたい。

図１に示すマルチメディアデバイス用音声制御システムの概略的なブロック図を参照すると、マルチメディアデバイス１の実施形態は、ユーザアクション画像を収集するように構成された画像検出モジュール１０と、ユーザアクション画像によって制御命令タイプ又はステータスを判定するように構成された画像認識モジュール１１と、現在の制御命令によって音声認識プログラムを作動又は起動するように構成された音声認識ステータス管理モジュール１２と、音声データを収集するように構成されたピックアップモジュール１４と、収集した音声データを認識して制御命令を発生するように構成された音声認識モジュール１５と、制御命令を実行して対応するマルチメディア機能をユーザに提供するように構成されたマルチメディア機能モジュール１６と、を含む。

図２に示す概略的なプリセット画像テンプレートを参照すると、画像認識モジュール１１の実施形態は、少なくとも１つの画像テンプレートをプリセットし、異なるタイプの制御命令は、異なる画像テンプレートに対応する。ユーザアクション画像を少なくとも１つの画像テンプレートと比較し、ユーザアクション画像に一致する画像テンプレートが見つかると、ユーザが対象の音声源として認識され、その結果、ユーザの音声は、制御命令の対応するタイプに一致する制御命令である。比較結果が誤っている場合、つまりユーザアクション画像に一致する画像テンプレートが見つからない場合、ユーザのアクションは制御命令として認識されず、音声認識プログラムは停止する。

図３に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照すると、画像認識モジュール１１は画像検出モジュール１０から送られてきたユーザアクション画像を処理し、処理結果はプリセット画像テンプレートのデータと比較され、ユーザアクション画像に一致する制御命令タイプが選択される。

比較結果がユーザアクション画像に一致する制御命令タイプが見つかったという場合、ユーザの位置は、対象の音声源の位置としてアサートされ、対象の音声源の位置情報、音声認識プログラムの開始情報、及び／又は制御命令タイプは、音声認識ステータス管理モジュール１２に送られる。

ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報が音声認識ステータス管理モジュール１２に送られる。

好ましい実施形態において、画像認識モジュール１１は、特定のユーザの動きを訓練する必要がある。例えば、マルチメディアデバイス１は、人間−コンピュータ対話コンテンツをユーザに提示し、ユーザに対して、動きが「音声制御の開始」の制御命令タイプに対応する第１の画像テンプレートに一致するまで、右手を口元に置いて宣伝活動のような動きを行うよう指示する。他の実施例では、マルチメディアデバイス１は、ユーザに対して「ミュート」のプリセット制御命令タイプに対応する第２の画像テンプレート一致するまで口元を覆う動きを行うように指示できる。

マルチメディアデバイス１の実施形態は、対象の音声源の位置に対応してピックアップ方向及びピックアップ角度を決定する、音波ビーム形成モジュール１３をさらに含む。音声ピックアップアレイ技術を併用して雑音を除去するようになっており、音声認識の精度が改善される。

例示的な実施形態において、ピックアップモジュール１４は、アレイピックアップモジュールである。ピックアップモジュール１４は、少なくとも１つの規則的に配列されたピックアップセンサを含む。対象の音声源から出た音声信号は、ピックアップ方向及びピックアップ角度の限定に照らして収集される。音声信号はデジタル化され、背景雑音が除去されて、音声データが生成されて音声認識モジュール１５に送られる。図４に示すアレイピックアップモジュール１４の概略図を参照すると、アレイピックアップモジュール１４は、規則的形状に基づいて配列された複数のピックアップセンサを含む。例えば、複数のピックアップセンサは、画像検出モジュール１０の両側で、均等に間隔を置いた直線配列様式に基づいて均等かつ水平方向に配列される、

図３に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照すると、音波ビーム形成モジュール１３は、アレイピックアップモジュール１４で収集した音声信号の音波ビームメインローブの方向及び角度を判定し、つまりピックアップ方向及びピックアップ角度を判定し、結果的に、アレイピックアップモジュール１４は、対象の音声源から放出された音声信号の収集に限定される。音波ビームを形成する一般的な方法は、遅延蓄積方法（従来型のビーム形成方法）、適応ビーム形成方法、及びポスト（ｐｏｓｔ）に基づく適応フィルタリング方法を含み、この３つの方法には長所及び短所がある。遅延蓄積ビーム方法及びポストに基づく適応フィルタリング方法を適用してインコヒーレント雑音及び弱コヒーレント雑音を除去することができ、適応ビーム形成方法を適用してコヒーレント雑音を除去することができるが、これはインコヒーレント雑音及び散乱雑音を除去する場合には効果が不十分である。実際には、環境は、コヒーレント雑音及びインコヒーレント雑音を含むことが多く、ピックアップ方向及びピックアップ角度は、画像認識によって対象の音声源の位置を特定することで判定される。複数のＴＶ視聴者が画像認識の範囲に存在していても、対象ユーザが出した音声信号だけが認識される。

図３に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照する。音声認識ステータス管理モジュール１２は、マルチメディアデバイス用音声制御システムの認識ステータスの管理を担う。音声認識の開始情報を受け取ると、開始命令及び制御命令タイプを音声認識モジュール１５に送って音声認識プログラムを作動させ、対象の音声源の位置を音波ビーム形成モジュール１３に送り、ユーザからの音声信号を制御命令として認識し、制御命令は、アレイピックアップモジュール１４によって音声認識モジュール１５に送られ、音声認識モジュール１５が処理する。比較失敗情報を受け取った場合、制御命令は音声認識モジュール１５に送られて音声認識プログラムを停止するようになっている。

更に、音声認識ステータス管理モジュール１２は、音声認識プログラムを作動させ、マルチメディア機能モジュール１６は、マルチメディアデバイスの出力音量を低減するように制御される。スマートＴＶは一例であるが、ＴＶの出力音量は対象の音声源の音声信号の強度よりも小さくなるように制御される。一般に、スマートＴＶの音響出力は、ミュートになるように設定され、これにより、音声認識プログラムを妨害するＴＶの背景雑音を回避することができる。音声認識が終了するか又は比較失敗に起因して音声認識が停止した場合、音声認識モジュール１５は起動せず、スマートＴＶの音響出力は、通常の出力音量に調節され、ユーザの音声信号は無視され、これにより無意識の音声命令による外乱を回避する。

例示的な実施形態において、音声認識モジュール１５は、ピックアップモジュール１４からの音声データを認識して、或る制御命令タイプの制御命令を発生するようになっており、制御命令はマルチメディア機能モジュール１６に送られる。

例示的な実施形態において、音声認識モジュール１５は、内蔵音声命令辞書をプリセットし、音声命令辞書は、処理された制御命令音声信号の用語モデルを格納し、用語モデルは、限定されるものではないが、「最後のチャンネル」、「次のチャンネル」、「出力音量増大」、「出力音量低減」、「ＣＣＴＶ１」、「フーナン衛星ＴＶ」等を含む。音声認識モジュール１５は、音声データを音声命令辞書の用語モデルと比較し、音声データと少なくとも１つの用語モデルとの間の類似度がプリセット閾値よりも大きい場合、音声データは、用語モデルに対応する制御命令として決定され、制御命令はマルチメディア機能モジュール１６に送られる。

複雑な音声認識制御命令を実現するために、音声認識モジュール１５は、ローカル音声認識モジュール１５１及びクラウド音声認識モジュール１５２をさらに含む。ローカル音声認識モジュール１５１は、限定されるものではないが、チャンネル切替え、出力音量の調節、電源オン及びオフを含む単純な制御命令を認識して処理するように構成される。クラウド音声認識モジュール１５２は、意味認識コンテンツを含む複雑な制御命令を認識して処理するように構成され、これは音声認識のクラウドサービスによって実現される。

図３に示すマルチメディアデバイス音声認識システムの特定の処理フローチャートを参照すると、ローカル音声認識モジュール１５１は、音声データを認識して、或る制御命令タイプを有する制御命令を発生するようになっており、この制御命令はマルチメディア機能モジュール１６に送られる。

クラウド音声認識モジュール１５２は、ＡＮＨＵＩＵＳＴＣｉＦＬＹＴＥＫ社が提供するオンラインサービス等の意味認識能力を備えた音声認識サービスプロバイダとすることができる。ユーザの音声データをローカル音声認識モジュール１５２で認識できない場合、つまり音声データと音声命令辞書の全ての用語モデルとの間の類似度がプリセット閾値よりも小さい場合、音声データは、ネットワーク経由でクラウド音声認識モジュール１５２に送られ、意味論的に認識されて或る制御命令タイプを有する制御命令を発生するようになっており、制御命令は、マルチメディア機能モジュール１６に送られる。

また、本開示にはマルチメディアデバイスのための音声制御方法が提示されており、図５に示すマルチメディアデバイス用音声制御システムの基本的処理フローチャートを参照する。この方法は以下を含む。

ステップＳ１において、ユーザアクション画像を画像検出モジュール１０によって収集する。

ステップＳ２において、画像認識モジュールによってユーザアクション画像に従って制御命令のタイプ又はステータスを判定する。

ステップＳ３において、音声認識ステータス管理モジュール１２によって現在の制御命令に従って音声認識を作動又は起動する。

ステップＳ４において、音波ビーム形成モジュール１３によってピックアップ方向及びピックアップ角度を判定する。

ステップＳ５において、アレイピックアップモジュール１４によって、ピックアップ方向及びピックアップ角度の限定に照らしてユーザの音声信号を収集し、音声信号をデジタル化して音声データを生成する。

ステップＳ６において、収集した音声データを音声認識モジュール１５で認識して制御命令を生成する。

ステップＳ７において、制御命令をマルチメディア機能モジュール１６で実行して関連のマルチメディア機能をユーザに提供する。

図３に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照すると、１つの実施形態において、マルチメディアデバイスのために音声制御方法は以下の通りである。

ステップＳ１において、画像検出モジュール１０によってユーザアクション画像を収集する。

ステップＳ２１において、画像認識モジュール１１によってユーザアクション画像をプリセット画像テンプレートと比較し、ユーザアクション画像に一致する制御命令タイプを選択する。比較結果がユーザアクション画像に一致する制御命令タイプが見つかったという場合、次にステップＳ２２を実行する。ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、次にステップＳ２３を実行する。

ステップＳ２２において、画像認識モジュール１１によってユーザの位置が対象の音声源の位置としてアサートされ、対象の音声源の位置情報、音声認識プログラムの開始情報、及び／又は制御命令タイプを音声認識ステータス管理モジュール１２に送る。

ステップＳ２３において、画像認識モジュール１１によって比較失敗情報を音声認識ステータス管理モジュール１２に送る。

ステップＳ３１において、音声認識ステータス管理モジュール１２によって受け取った情報を解析し、情報が開始情報であればステップＳ３２を実行し、情報が比較失敗情報であればステップＳ３５を実行する。

ステップＳ３２において、音声認識ステータス管理モジュール１２によって開始命令のタイプ及び制御情報を音声認識モジュール１５に送り、音声認識プログラムを作動させる。

ステップＳ３３において、音声認識ステータス管理モジュール１２によって対象の音声源の位置情報を音波ビーム形成モジュール１３に送る。

ステップＳ３４において、マルチメディア機能モジュール１６は、音声認識ステータス管理モジュール１２によってマルチメディア出力音量を低減するように制御される。

ステップＳ３５において、音声認識ステータス管理モジュール１２によって音声認識プログラムを停止する命令が送られる。

ステップＳ４において、音波ビーム形成モジュール１３によって、対象の音声源の位置情報に従ってピックアップ方向及びピックアップ角度を判定する。

ステップＳ５１において、アレイピックアップモジュール１４によってピックアップ方向及びピックアップ角度の限定に従って対象の音声源から放出された音声信号を収集する。

ステップＳ５２において、収集した音声信号をアレイピックアップモジュール１４でデジタル化して音声データを生成し、この音声データは音声認識モジュール１５に送られる。

ステップＳ６１において、音声認識モジュール１５によって、アレイピックアップモジュール１４からの音声データを音声認識ステータス管理モジュール１２からの開始命令及び制御命令タイプに従って認識して或る制御命令タイプを有する制御命令を生成し、この制御命令はマルチメディア機能モジュール１６に送られる。

ステップＳ７において、マルチメディア機能モジュール１６によって制御命令を実行し、マルチメディア機能をユーザに提供する。

特定の実施形態において、スマートＴＶ１の画像検出モジュール１０は、検出範囲内でユーザＡが図２に示す動きを取っていることを検出する。画像認識モジュール１１は、ユーザアクション画像をプリセット画像テンプレートと比較し、ユーザアクション画像が「音声遠隔制御の開始」の制御命令タイプに対応する画像テンプレートと一致する場合、ユーザＡの位置を対象の音声源の位置としてアサートし、対象の音声源の位置情報、音声認識プログラムの開始情報、及び／又は制御命令タイプを音声認識ステータス管理モジュール１２に送る。音声認識ステータス管理モジュール１２は、受信した音声認識の開始情報に応じて、開始命令及び制御命令タイプを音声認識モジュール１５に送り、音声認識プログラムを作動させる。音声認識ステータス管理モジュール１２は、対象の音声源の位置情報を音波ビーム形成モジュール１３に送り、音波ビーム形成モジュール１３は、画像検出及び認識範囲内に複数のＴＶ視聴者が存在する場合であっても、ユーザＡだけが対象ユーザであり、ユーザＡの音声信号だけを認識できることを保証する。音波ビーム形成モジュール１３は、対象の音声源の位置情報に従ってピックアップ方向及びピックアップ角度を決定する。アレイピックアップモジュール１４は、音声のピックアップ方向及びピックアップ角度の限定に照らして「フーナン衛星ＴＶ」の音声信号を収集し、次に、音声信号をデジタル化して音声データを生成し、この音声データを音声認識モジュール１５に送る。音声データは音声認識モジュール１５で認識され、音声データと用語モデルとの間の類似度が閾値よりも大きい場合、「フーナン衛星ＴＶチャンネルに同調させる」という制御命令が生成され、マルチメディア機能モジュール１６に送られる。マルチメディア機能モジュール１６はこの制御命令を実行してＴＶをフーナン衛星ＴＶチャンネルに同調させる。

また、１つの実施形態のマルチメディアデバイスのための音声制御方法が提供される。図６に示す音声認識モジュール１５の特定のフローチャートを参照すると、音声認識モジュール１５は、ローカル音声認識モジュール１５１及びクラウド音声認識モジュール１５２を含み、音声認識モジュール１５は、音声命令辞書をプリセットする。マルチメディアデバイスのための音声制御方法は以下の通りである。

ステップＳ６１１において、ローカル音声認識モジュール１５１は、音声データを認識して音声データと音声命令辞書の用語モデルとを比較し、音声データと少なくとも１つの用語モデルとの間の類似度がプリセット閾値よりも大きい場合はステップＳ６１２を実行し、そうでない場合はステップＳ６１３を実行する。

ステップＳ６１２において、ローカル音声認識モジュール１５１は、音声データを用語モデルに対応した制御命令と判定し、この制御命令はマルチメディア機能モジュール１６に送られる。

ステップＳ６１３において、音声データは、ネットワーク経由でクラウド音声認識モジュール１５２に送られる。

ステップＳ６１４において、クラウド音声認識モジュール１５２は、音声データを認識して制御命令を生成し、この制御命令は、マルチメディア機能モジュール１６に送られる。

特定の実施形態において、ステップＳ１からステップＳ５１は前記の実施形態と同じである。アレイピックアップモジュール１４は、ユーザＡから「ＡｎｄｙＬａｕの歌を再生する」という音声信号を収集し、この音声信号をデジタル化して音声データを生成し、この音声データは、音声認識モジュール１５に送られる。音声データは、音声認識モジュール１５のローカル音声認識モジュール１５１によって認識され、音声データは、音声命令辞書の用語モデルと比較され、音声データと音声命令辞書の全ての用語モデルとの間の類似度がプリセット閾値よりも小さい場合、音声データは、ネットワーク経由でクラウド音声認識モジュール１５２に送られる。クラウド音声認識モジュール１５２は、音声データを認識してユーザの音声データに従って「ＡｎｄｙＬａｕの歌を再生する」という制御命令を生成し、この制御命令は、マルチメディア機能モジュール１６に送られる。マルチメディア機能モジュール１６はこの制御命令を実行し、ＡｎｄｙＬａｕの歌を検索エンジンで検索し、歌のビデオ及びオーディオデータをダウンロードしてスマートＴＶ１の音楽再生モジュールに送り、オーディオ及びビデオデータが再生される。

例示的な実施形態において、画像認識技術、音声認識技術、及びコンピュータ記憶媒体が組み合わされ、携帯型遠隔制御ユニットに依存せず、近接ピックアップデバイスに制限されない、自由かつ好都合な音声制御が実現される。制御命令音声認識に対する、マルチメディアデバイスの音響出力、環境背景雑音、及びユーザの非制御命令音声信号の妨害を効果的に回避することができ、ユーザの命令を正確に認識できるので、複数のユーザが一緒に又は別々にマルチメディアデバイスを制御することができる。

当業者であれば、実施形態による方法の全ての又は一部のプロセスは、コンピュータプログラム命令関連ハードウェアで実装できることを理解できるはずである。プログラムは、コンピュータ可読記憶媒体に格納することができる。プログラムを実行する場合に本発明の実施形態による方法プロセスが実行される。記憶媒体は、磁気ディスク、光ディスク、読み出し専用メモリ（ＲＯＭ）、又はランダムアクセスメモリ（ＲＡＭ）とすることができる。

本発明は、これらの実施形態及び本発明を実施する最良の態様を参照して説明されているが、当業者であれば、特許請求の範囲で定義されることが意図された本発明の範囲を逸脱することなく種々の変形及び変更を行い得ることを理解できる。

１マルチメディアデバイス
１０画像検出モジュール
１１画像認識モジュール
１２音声認識ステータス管理モジュール
１３音波ビーム形成モジュール
１４ピックアップモジュール
１５音声認識モジュール
１６マルチメディア機能モジュール

Claims

マルチメディアデバイス用音声制御システムであって、
ユーザアクション画像を収集するように構成された画像検出モジュールと、
前記ユーザアクション画像に従って制御命令タイプ又はステータスを判定するように構成された画像認識モジュールであって、該画像認識モジュールは前記ユーザアクション画像を送るユーザの位置を対象の音声源の位置と判定した後に、該画像認識モジュールは前記対象の音声源の位置を音声認識ステータス管理モジュールに送る、画像認識モジュールと、
現在の制御命令タイプに従って音声認識プログラムを作動させるか又は停止させるように構成された音声認識ステータス管理モジュールであって、前記音声認識プログラムが作動させられた場合、前記音声認識ステータス管理モジュールは、前記対象の音声源の位置を、音波ビーム形成モジュールに送り、前記マルチメディアデバイスの出力音量を低減するようにマルチメディア機能モジュールを制御する、音声認識ステータス管理モジュールと、
前記対象の音声源の位置に従ってピックアップ方向及びピックアップ角度を決定するように構成された音波ビーム形成モジュールと、
前記ピックアップ方向及び前記ピックアップ角度に従って前記対象の音声源の音声信号を収集するように構成され、音声データを生成するように構成されたピックアップモジュールと、
前記収集した音声データを認識して制御命令を生成するように構成された音声認識モジュールと、
前記制御命令を実行して対応するマルチメディア機能を前記ユーザに提供するように構成されたマルチメディア機能モジュールと、
を備えたマルチメディアデバイス用音声制御システム。
前記画像認識モジュールは、前記ユーザアクション画像をプリセット画像テンプレートと比較して前記ユーザアクション画像に一致する制御命令タイプを選択するように構成され、
前記ユーザアクション画像に一致する制御命令タイプが見つかった場合、前記ユーザの位置が前記対象の音声源の位置としてアサートされ、前記対象の音声源の位置情報、前記音声認識プログラムの開始情報、及び／又は前記制御命令タイプが前記音声認識ステータス管理モジュールに送られ、
前記ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報が前記音声認識ステータス管理モジュールに送られる、請求項１に記載のマルチメディアデバイス用音声制御システム。
前記ピックアップモジュールは、少なくとも１つの規則的に配置されたピックアップセンサを備えたアレイピックアップモジュールであり、前記ピックアップモジュールは、前記ピックアップ方向及び前記ピックアップ角度の限定に従って前記対象の音声源の前記音声信号を収集し、前記音声信号をデジタル化して音声データを生成し、該音声データを前記音声認識モジュールに送る、請求項２に記載のマルチメディアデバイス用音声制御システム。
前記音声認識ステータス管理モジュールは、前記音声認識を作動させるために、受信した前記音声認識の開始情報に従って開始命令及び前記制御命令タイプを前記音声認識モジュールに送り、前記対象の音声源の位置情報が前記音波ビーム形成モジュールに送られ、前記マルチメディア機能モジュールは、前記マルチメディアデバイスの前記出力音量を低減するように制御され、又は、前記音声認識ステータス管理モジュールは、前記比較失敗情報に基づいて前記音声認識を停止させるために前記音声認識モジュールに命令を送る、請求項３に記載のマルチメディアデバイス用音声制御システム。
前記音声認識モジュールは、前記音声認識ステータス管理モジュールからの前記開始命令及び前記制御命令タイプに従って、前記ピックアップモジュールからの前記音声データを認識し、前記制御命令タイプを有する制御命令を生成し、該制御命令は、前記マルチメディア機能モジュールに送られる、請求項４に記載のマルチメディアデバイス用音声制御システム。
前記音声認識モジュールは、ローカル音声認識モジュール及びクラウド音声認識モジュールを備え、
前記ローカル音声認識モジュールは、前記音声データを認識して前記制御命令タイプを有する制御命令を形成し、該制御命令は、前記マルチメディア機能モジュールに送られ、前記クラウド音声認識モジュールは、前記ローカル音声認識モジュールでは認識できない前記音声データを意味論的に認識し、前記制御命令タイプを有する制御命令を生成し、前記制御命令は、前記マルチメディア機能モジュールに送られる、請求項１ないし５のいずれか１項に記載のマルチメディアデバイス用音声制御システム。
マルチメディアデバイスのための音声制御方法であって、
画像検出モジュールによってユーザアクション画像を収集する段階と、
前記ユーザアクション画像に従って、画像認識モジュールによって制御命令タイプ又はステータスを判定する段階と、
前記画像認識モジュールが前記ユーザアクション画像を送るユーザの位置を対象の音声源の位置として判定した後に、前記対象の音声源の位置を音声認識ステータス管理モジュールに送る段階と、
現在の前記制御命令タイプに従って、音声認識ステータス管理モジュールによって音声認識プログラムを作動させるか又は停止させる段階と、
前記音声認識プログラムが作動させられた場合、前記音声認識ステータス管理モジュールによって、前記対象の音声源の位置を音波ビーム形成モジュールに送り、前記マルチメディアデバイスの出力音量を低減させるために、マルチメディア機能モジュールを制御する段階と、
前記対象の音声源の位置に従って、音声ビーム形成モジュールにより、ピックアップ方向及びピックアップ角度を決定する段階と、
前記ピックアップ方向及びピックアップ角度の限定に従って、アレイピックアップモジュールによって前記ユーザの音声信号を収集し、前記音声信号をデジタル化して音声データを生成する段階と、
制御命令を生成するために、前記収集した音声データを、音声認識モジュールによって認識する段階と、
前記ユーザに対して対応するマルチメディア機能を提供するために、マルチメディア機能モジュールによって、前記制御命令を実行する段階と、
を含む、マルチメディアデバイスのための音声制御方法。
前記ユーザアクション画像に従って、前記画像認識モジュールによって、前記制御命令タイプ又はステータスを判定する段階は、
前記画像認識モジュールによって、前記ユーザアクション画像をプリセット画像テンプレートと比較して、前記ユーザアクション画像と一致する前記制御命令タイプを選択する段階を含み、
前記ユーザアクション画像に一致する前記制御命令タイプが見つかった場合、前記ユーザの位置を前記対象の音声源の位置としてアサートし、前記対象の音声源の位置情報、前記音声認識プログラムの開始情報、及び／又は前記制御命令タイプを前記音声認識ステータス管理モジュールに送り、前記ユーザアクション画像に一致する前記制御命令タイプが見つからなかった場合、比較失敗情報を前記音声認識ステータス管理モジュールに送る、請求項７に記載のマルチメディアデバイスのための音声制御方法。
前記音声認識モジュールは、ローカル音声認識モジュール及びクラウド音声認識モジュールを備え、前記音声認識モジュールは音声命令辞書をプリセットし、
前記方法はさらに、
前記ローカル音声認識モジュールが前記音声データを認識し、前記音声データを、音声命令辞書内の用語モデルと比較し、前記音声データと用語モデルとの間の類似度がプリセット閾値よりも大きい場合、前記音声データは前記用語モデルに対応する制御命令として解釈され、前記制御命令は前記マルチメディア機能モジュールに送られ、
前記音声データと用語モデルとの間の類似度が前記プリセット閾値以下である場合、前記音声データはネットワークを介して前記クラウド音声認識モジュールに送られ、
前記クラウド音声認識モジュールは前記音声データを意味論的に認識して制御命令を生成し、該制御命令はネットワークを介して前記マルチメディア機能モジュールに送られる、
請求項７又は８に記載のマルチメディアデバイスのための音声制御方法。