JP2004508595A

JP2004508595A - 音声制御及びアップロード可能なユーザ制御情報

Info

Publication number: JP2004508595A
Application number: JP2002525644A
Authority: JP
Inventors: テン　ブリンク，パウリュス　ウェー　エム
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-09-07
Filing date: 2001-08-24
Publication date: 2004-03-18
Also published as: EP1377965A1; US20020072913A1; WO2002021512A1; CN1404603A

Abstract

マルチデバイスコンシューマ電子システムを動作する。システムは、音声ピックアップにより供給される音声制御機構を含む第１のユーザインタフェースを有する第１のデバイスを有する。第２のデバイスは、第１のデバイスと機能上相互接続される。本発明は、第１と第２のデバイスをユーザ制御レベル相互接続により相互接続し、第２のデバイスの第２のユーザインタフェースに関連する音声認識データを、第２のデバイスから第１のデバイスの音声制御部にロードし、第２のユーザインタフェースに関する１つ以上の音声コマンドを音声制御部により認識し、関連の認識情報を第２のデバイスに転送し、関連の認識情報により管理されるように第２のデバイスを動作させる。

Description

【０００１】
［発明の背景］
本発明は、請求項１の前文に記載されるようなマルチデバイスコンシューマ電子システムの動作方法に関する。コンシューマ電子システムは、内部的に複雑化しており、最近まで、メインフレームに基づいたシステム、産業及び医療自動化システム、科学計算等といった専門的なシステムに使用されてきていた。しかし、コンシューマ電子システムは、トランスペアレンス且つ簡単なインタフェースをユーザに提示する必要がある。そのようなシステムの特定の機構は、ビデオレコーダ、オーディオ及びＴＶセット、ＣＤ及びＤＶＤプレーヤ等といったデバイスの音声制御である。様々な更なる種類の適用可能なコンシューマ電子デバイスは、一般の人々の未経験者によって、及び、ドモティック（ｄｏｍｏｔｉｃ）及びセキュリティといった非専門的な環境において使用することができるデバイスである。このようなデバイスには、家庭環境制御、台所及び化粧室電化製品、カメラ、携帯電話機が含まれる。これらのデバイスは、様々な固有のコマンドをそれぞれ必要とするので、原則的に、各デバイスはそれぞれ独自の音声認識機構を必要とする。費用削減のために、音声認識機構は、様々なデバイスに共通する特定のマスタデバイスにマップされてもよい。しかし、このような方法では、マスタデバイスが認識されるべき全てのコマンド等を知る必要がある。このようなコマンドは、全ての可能な種類のスレーブデバイスに適用し得るので、このような要件により柔軟性がなくなってしまう。さらには、マスタデバイスをユーザがプログラミングすることは、マスタデバイスの意図する単純さとは全く相反するものである。更に、多くのシステムは、全ての可能な種類のスレーブデバイスを有さない場合もあり、というのは、新型の又は最新バージョンのスレーブデバイスが後から設計されることがあり、更には特定の種類のスレーブデバイスは、例えば、オーティオテープのように繰返し使用される場合もある。更に、スレーブデバイスは、異なるメーカから発売され、それぞれが独自の認識プロトコルを特定するが、これらのデバイスも使用可能であるべきである。尚、例えば、比較的少ない数のスレーブデバイスを有するシステムにおいて認識されなければならない発話の数を少なくすることは、全体の音声認識の信頼度を改善する。
【０００２】
［発明の概要］
従って、本発明は、とりわけ、ユーザがプログラミングをする必要がなくマスタデバイスに音声認識機構を設ける際の高い柔軟性を保証することを目的とする。
【０００３】
従って、本発明の１つの面では、本発明は、請求項１の特徴を示す部分を特徴とする。音声認識情報のマスタデバイスへのロードはかなり簡単であり、マスタにより提供される実際の機構、及び／又は、システム全体として意図する機能レベルに応じて、様々なレベルのソフィスティケーションで行われることが可能である。
【０００４】
音声インタフェースを有する情報システム自体は、米国特許第５，７７４，８５９号に説明されており、そのシステムにおいて、音声認識に適用可能な技術レベルが示される。しかし、本発明は、マスタデバイスに音声認識情報を動的にロードする機構を提供し、マスタデバイス自体がスレーブデバイスの代わりに音声認識を行う。
【０００５】
本発明は、請求項４に記載される方法を実施するよう構成されるマルチデバイスシステムと、このようなシステムに使用するよう構成されるマスタデバイス及びスレーブデバイスに関する。本発明の更なる有利な面は、従属項に記載する。マスタデバイス内における音声認識は、スレーブに適用可能なコマンドを予め知る必要はなく、というのは、音声認識自体は、音声のコンテンツを知る必要はなく、音声の特定の表現に対する音声スペック、即ち、「指紋」の関連性のみを知る必要があるからである。従って、コマンドの表現（ｗｏｒｄｉｎｇ）、コマンドの言語、発話者の性別、及び、様々な他の種類の変形が、関心のスレーブデバイスにより初期化を介してマスタ内にプログラムされる。その場合、認識されるべき音声信号の記述を使用して認識される。
【０００６】
［好適な実施例の詳細な説明］
本発明の上述の及び更なる面及び利点は、添付図面を参照しながら、好適な実施例の開示を参照して以下に詳細に説明する。
【０００７】
図１は、第１のデバイス又はマスタデバイス２０と、第２のデバイス又はスレーブデバイス３０が設けられるコンシューマ電子システムを示す。複数のスレーブデバイス３０があってもよい。第１のデバイスは、以下に制限されないが、テテレビ受像機であるとする。第２のデバイスは、以下に制限されないが、ビデオレコーダであるとする。デバイス２０は、ブロードキャストＴＶ信号に同調するか、又は、特定のケーブルＴＶ番組機能に切り替え、簡潔さのために詳細に図示しないテレビジョン画面に番組アイテム及び他のアイテムを表示するユーザ機能２８を有する。同様に、デバイス２０は、ビデオレコーダ３０内に記憶するよう線４２で上述したようなアイテムを提示する。デバイス２０の動作は、中央デジタルコントローラ２４により管理される。デジタルコントローラ２４は音声認識コントローラ２２に接続され、音声認識コントローラ２２は、音声によるユーザコマンド及び発話を受信且つ認識し、本願の場合は、入力された音声認識又は認識できなかったものに対し質問、コマンド、及び、カウンタシグナリゼーション（ｃｏｕｎｔｅｒｓｉｇｎａｌｉｚａｔｉｏｎ）といった音声発話をユーザに出力する。音声チャネルの次には、更なる制御インタラクションが画面を通じて実行され、これは、例えば、テキスト、ホットスポット等、又は、キーボード及び／又はマウスといった機械的なインタラクションにより行われる。
【０００８】
デジタルコントローラ２４は、デバイス２０の全体の動作、特に、主要な機能２８を制御するが、この制御の説明は大部分が従来通りであるので省略する。更に、デジタルコントローラ２４は、双方向制御バス又はユーザレベル制御バス３２に接続されるバスインタフェースコントローラ２６と双方向的に接続される。
【０００９】
デバイス３０はユーザ機能３８を有し、この機能は、ＶＣＲであるこの場合は、デバイス２０で受信しＴＶアイテム及び／又はデバイス２０により出力される表示するための格納アイテムを格納し、この機能は、双方向相互接続線４２によって供給される。デバイス３０の動作は、中央デジタルコントローラ３４により管理される。デバイス３０は、音声認識コントローラ２２に対応するサブシステムを有さない。この対応するサブシステムがあったとしても、本発明を適用することにより、原則的には発話（ｓｐｅｅｃｈｏｕｔ）は続けられるかも知れないが、サブシステムの動作を抑制することが可能である。先立っての音声認識に関する様々な質問、コマンド、又は、カウンタシグナリゼーションが必要となるので、デバイス２０に行き、出力される。デバイス３０は、例えば、テキストＬＥＤといった独自のシグナリゼーションを有してもよい。デジタルコントローラ３４は、デバイス３０の全体の動作を制御するが、その方法は、簡潔となるよう省略する。更に、デジタルコントローラ３４は、データバスインタフェースコントローラ３６に双方向的に接続される。コントローラ３６は、コントロールバス３２に双方向的に接続される。デバイス３０の最初の連結の際に、コントローラ３４は、チャネル３２及びバスコントローラ２６及び３６を介し音声認識のために必要なアイテムを、コントローラ２４に送信する。その後、音声認識コントローラ２２は、デバイス２０ではなく、デバイス３０に関するメニュ及び他の種類の音声アイテムを適切に認識することができるようになる。このとき、マスタデバイスに関する音声アイテム又は音声アイテムの適当な選択も認識することができる。
【００１０】
認識のためにデバイス２０に送信される音声アイテムは、選択メニュの構成素子に関する、及び／又は、音声記述の形式の音声を含んでもよい。実施例の２つのデバイスは、３つの線により相互接続されるものとして示している。線３２は、音声認識情報をデバイス３０からデバイス２０に転送するために使用する。線４２は、デバイス２０とデバイス３０間でデータを転送するために使用し、システムの最も重要なユーティリティを表している。更に、線４０は、２つのコントローラ２４及び３４を相互に接続する。この線は仮想的であり、というのは、物理的な転送は、ユーザレベルコントロール線３２で行われるからである。このことは、線４２に対しても言えることである。相互接続機構３２はバス、スター、又は、任意の適用可能な構成であってよく、発明者は、今日において全てのオーディオビデオ相互接続に対し提案されているＨＡＶｉ相互接続プロトコル又はコンテキストを推奨する。
【００１１】
認識プロトコルは、デバイス３０に関する認識した又はそうでなければマッピングされた音声アイテムを、デバイス３０に信号で伝え、それにより、デバイス３０の動作を適切に管理する。適用可能である場合には、認識プロセスの状態により、認識可能な音声アイテムのスペクトラムに動的に影響を与えることが可能であり、それにより、一部のスレーブデバイスはそのスレーブデバイスの名前のみが認識可能となる。
【００１２】
図２は、図１に示すシステムのローディング及び動作段階の動作を示すフローチャートである。ステップ６０において、電源を入れ、続いて、マスタデバイスが、必要なハードウェア及びソフトウェアリソースのアベイラビリティ及び足りない場合にはクレームして、システムが開始する。ステップ６２では、マスタが全ての接続されるデバイスを呼び出ししてシステムが構成される。リソースが不十分である場合、例えば、ＶＣＲが、その電源が消されていることにより接続していない場合、そのことがユーザに報告される。説明の単純化のために、このフィードバックの様子は図面には示さない。ステップ６４では、以前に報告されていない新しいデバイスがあるか否かが確認される。新しいデバイスがある場合（ＹＥＳ）、ステップ６６において、必要な音声情報が、新しいスレーブデバイスからマスタデバイスにロードされる。その上で、システム構成が再開され、このことは全ての新しいデバイスが登録されるまで行われる。単独で、登録を外すことも可能である。或いは、登録は、バックグランドで行われるプロセスであってよく、これは断続的に全てのスレーブデバイスをポーリングする。最終的に、ステップ６４において、新しいデバイスがない（ＮＯ）場合がアサートされ、システムはステップ６８に進む。ステップ６８では、主要なプログラムが実行される。ステップ７０において、コントローラは、動作の終了を確認する。動作が終了していない限り（ＮＯ）、システムは、ステップ６８から繰り返される。ＹＥＳである場合、システムはステップ７２に進み、動作は終了する。
【００１３】
当業者には、本発明の特許請求の範囲から逸脱しない変更が明らかであろう。例えば、ステップ６６において、新しく接続されるスレーブデバイスは、プラグ＆プレイ機構のように、自発的に音声情報のロードを行ってもよい。本願に示すデバイス２０における音声認識は、１つ以上のスレーブデバイス３０に接続される携帯電話機といった遠隔デバイスで行われてもよい。この場合、他のコンシューマデバイスとの遠隔相互接続はインターネットにより行われる。
【図面の簡単な説明】
【図１】
第１のデバイス及び第２のデバイスが設けられるコンシューマ電子システムを示す図である。
【図２】
システムのローディング及び動作段階を示す動作フローチャートである。

Claims

マルチデバイスコンシューマ電子システムを動作する方法であって、
上記電子システムには、音声ピックアップ手段により供給される音声制御機構を含む第１のユーザインタフェースを有する第１のデバイスと、上記第１のデバイスと機能上相互接続する第２のデバイスが設けられ、
上記第１のデバイスと上記第２のデバイスを、ユーザ制御レベル相互接続により相互接続する段階と、
上記第２のデバイスに関する第２のユーザインタフェースに関連の音声認識データを、上記第２のデバイスから上記第１のデバイスの上記音声制御機構にロードする段階と、
上記音声認識データを使用して上記第２のユーザインタフェースに関する１つ以上の音声コマンドを、上記音声制御機構により認識し、関連付けられる認識情報を上記第２のデバイスに転送する段階と、
上記関連付けられる認識情報によって管理されるように上記第２のデバイスを動作する段階とを含むことを特徴とする方法。
上記ロード段階は、ユーザインタフェース情報と音声認識情報の両方を供給する請求項１記載の方法。
上記ロード段階は、ＨＡＶｉコンテキストで行われるダウンロードである請求項１記載の方法。
請求項１記載の方法を実行するよう構成され、音声ピックアップ手段により供給される音声制御機構を含む第１のユーザインタフェースを有する第１のデバイスと、上記第１のデバイスに機能上相互接続する第２のデバイスを含むマルチデバイスコンシューマ電子システムであって、
上記第１のデバイスと上記第２のデバイスを、ユーザ制御レベル相互接続により相互接続する相互接続手段と、
上記第２のデバイスに関する第２のユーザインタフェースに関連の音声認識データを、上記第２のデバイスから上記第１のデバイスの上記音声制御機構にロードするロード手段と、
上記音声認識データを使用して上記第２のユーザインタフェースに関する１つ以上の音声コマンドを、上記音声制御機構により認識し、関連付けられる認識情報を上記第２のデバイスに転送する手段と、
上記関連付けられる認識情報によって管理されるように上記第２のデバイスを動作する手段とを含むことを特徴とするシステム。
請求項４記載のシステムにおいて上記第１のデバイスとして使用されるよう構成されるマスタデバイスであって、
音声ピックアップ手段により供給される音声制御機構を含む第１のユーザインタフェースと、
ユーザ制御レベル相互接続を介し、第２のデバイスと相互接続する相互接続手段と、
上記第２のデバイスに関する第２のユーザインタフェースに関連の音声認識データを、上記音声制御機構に受信する受信手段と、
上記音声認識データを使用して上記第２のユーザインタフェースに関する１つ以上の音声コマンドを、上記音声制御機構により認識する認識手段と、
関連付けられる認識情報を上記第２のデバイスに転送する転送手段とを含むデバイス。
請求項４記載のシステムにおいて上記第２のデバイスとして使用されるよう構成されるスレーブデバイスであって、
ユーザ制御相互接続を介し第１のデバイスと相互接続する相互接続手段と、
上記第２のデバイスに関する第２のユーザインタフェースに関連の音声認識データを、上記第２のデバイスから上記第１のデバイスの上記音声制御機構内にロードするロード手段と、
上記第２のユーザインタフェースに関する認識情報を、上記第１のデバイスの上記音声制御機構から受信する受信手段と、
上記受信した認識情報により管理されるように上記第２のデバイスを動作する動作手段とを含むデバイス。