JP2004508595A - 音声制御及びアップロード可能なユーザ制御情報 - Google Patents

音声制御及びアップロード可能なユーザ制御情報 Download PDF

Info

Publication number
JP2004508595A
JP2004508595A JP2002525644A JP2002525644A JP2004508595A JP 2004508595 A JP2004508595 A JP 2004508595A JP 2002525644 A JP2002525644 A JP 2002525644A JP 2002525644 A JP2002525644 A JP 2002525644A JP 2004508595 A JP2004508595 A JP 2004508595A
Authority
JP
Japan
Prior art keywords
voice
user interface
control mechanism
user
recognition information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002525644A
Other languages
English (en)
Inventor
テン ブリンク,パウリュス ウェー エム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004508595A publication Critical patent/JP2004508595A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Selective Calling Equipment (AREA)

Abstract

マルチデバイスコンシューマ電子システムを動作する。システムは、音声ピックアップにより供給される音声制御機構を含む第1のユーザインタフェースを有する第1のデバイスを有する。第2のデバイスは、第1のデバイスと機能上相互接続される。本発明は、第1と第2のデバイスをユーザ制御レベル相互接続により相互接続し、第2のデバイスの第2のユーザインタフェースに関連する音声認識データを、第2のデバイスから第1のデバイスの音声制御部にロードし、第2のユーザインタフェースに関する1つ以上の音声コマンドを音声制御部により認識し、関連の認識情報を第2のデバイスに転送し、関連の認識情報により管理されるように第2のデバイスを動作させる。

Description

【0001】
[発明の背景]
本発明は、請求項1の前文に記載されるようなマルチデバイスコンシューマ電子システムの動作方法に関する。コンシューマ電子システムは、内部的に複雑化しており、最近まで、メインフレームに基づいたシステム、産業及び医療自動化システム、科学計算等といった専門的なシステムに使用されてきていた。しかし、コンシューマ電子システムは、トランスペアレンス且つ簡単なインタフェースをユーザに提示する必要がある。そのようなシステムの特定の機構は、ビデオレコーダ、オーディオ及びTVセット、CD及びDVDプレーヤ等といったデバイスの音声制御である。様々な更なる種類の適用可能なコンシューマ電子デバイスは、一般の人々の未経験者によって、及び、ドモティック(domotic)及びセキュリティといった非専門的な環境において使用することができるデバイスである。このようなデバイスには、家庭環境制御、台所及び化粧室電化製品、カメラ、携帯電話機が含まれる。これらのデバイスは、様々な固有のコマンドをそれぞれ必要とするので、原則的に、各デバイスはそれぞれ独自の音声認識機構を必要とする。費用削減のために、音声認識機構は、様々なデバイスに共通する特定のマスタデバイスにマップされてもよい。しかし、このような方法では、マスタデバイスが認識されるべき全てのコマンド等を知る必要がある。このようなコマンドは、全ての可能な種類のスレーブデバイスに適用し得るので、このような要件により柔軟性がなくなってしまう。さらには、マスタデバイスをユーザがプログラミングすることは、マスタデバイスの意図する単純さとは全く相反するものである。更に、多くのシステムは、全ての可能な種類のスレーブデバイスを有さない場合もあり、というのは、新型の又は最新バージョンのスレーブデバイスが後から設計されることがあり、更には特定の種類のスレーブデバイスは、例えば、オーティオテープのように繰返し使用される場合もある。更に、スレーブデバイスは、異なるメーカから発売され、それぞれが独自の認識プロトコルを特定するが、これらのデバイスも使用可能であるべきである。尚、例えば、比較的少ない数のスレーブデバイスを有するシステムにおいて認識されなければならない発話の数を少なくすることは、全体の音声認識の信頼度を改善する。
【0002】
[発明の概要]
従って、本発明は、とりわけ、ユーザがプログラミングをする必要がなくマスタデバイスに音声認識機構を設ける際の高い柔軟性を保証することを目的とする。
【0003】
従って、本発明の1つの面では、本発明は、請求項1の特徴を示す部分を特徴とする。音声認識情報のマスタデバイスへのロードはかなり簡単であり、マスタにより提供される実際の機構、及び/又は、システム全体として意図する機能レベルに応じて、様々なレベルのソフィスティケーションで行われることが可能である。
【0004】
音声インタフェースを有する情報システム自体は、米国特許第5,774,859号に説明されており、そのシステムにおいて、音声認識に適用可能な技術レベルが示される。しかし、本発明は、マスタデバイスに音声認識情報を動的にロードする機構を提供し、マスタデバイス自体がスレーブデバイスの代わりに音声認識を行う。
【0005】
本発明は、請求項4に記載される方法を実施するよう構成されるマルチデバイスシステムと、このようなシステムに使用するよう構成されるマスタデバイス及びスレーブデバイスに関する。本発明の更なる有利な面は、従属項に記載する。マスタデバイス内における音声認識は、スレーブに適用可能なコマンドを予め知る必要はなく、というのは、音声認識自体は、音声のコンテンツを知る必要はなく、音声の特定の表現に対する音声スペック、即ち、「指紋」の関連性のみを知る必要があるからである。従って、コマンドの表現(wording)、コマンドの言語、発話者の性別、及び、様々な他の種類の変形が、関心のスレーブデバイスにより初期化を介してマスタ内にプログラムされる。その場合、認識されるべき音声信号の記述を使用して認識される。
【0006】
[好適な実施例の詳細な説明]
本発明の上述の及び更なる面及び利点は、添付図面を参照しながら、好適な実施例の開示を参照して以下に詳細に説明する。
【0007】
図1は、第1のデバイス又はマスタデバイス20と、第2のデバイス又はスレーブデバイス30が設けられるコンシューマ電子システムを示す。複数のスレーブデバイス30があってもよい。第1のデバイスは、以下に制限されないが、テテレビ受像機であるとする。第2のデバイスは、以下に制限されないが、ビデオレコーダであるとする。デバイス20は、ブロードキャストTV信号に同調するか、又は、特定のケーブルTV番組機能に切り替え、簡潔さのために詳細に図示しないテレビジョン画面に番組アイテム及び他のアイテムを表示するユーザ機能28を有する。同様に、デバイス20は、ビデオレコーダ30内に記憶するよう線42で上述したようなアイテムを提示する。デバイス20の動作は、中央デジタルコントローラ24により管理される。デジタルコントローラ24は音声認識コントローラ22に接続され、音声認識コントローラ22は、音声によるユーザコマンド及び発話を受信且つ認識し、本願の場合は、入力された音声認識又は認識できなかったものに対し質問、コマンド、及び、カウンタシグナリゼーション(countersignalization)といった音声発話をユーザに出力する。音声チャネルの次には、更なる制御インタラクションが画面を通じて実行され、これは、例えば、テキスト、ホットスポット等、又は、キーボード及び/又はマウスといった機械的なインタラクションにより行われる。
【0008】
デジタルコントローラ24は、デバイス20の全体の動作、特に、主要な機能28を制御するが、この制御の説明は大部分が従来通りであるので省略する。更に、デジタルコントローラ24は、双方向制御バス又はユーザレベル制御バス32に接続されるバスインタフェースコントローラ26と双方向的に接続される。
【0009】
デバイス30はユーザ機能38を有し、この機能は、VCRであるこの場合は、デバイス20で受信しTVアイテム及び/又はデバイス20により出力される表示するための格納アイテムを格納し、この機能は、双方向相互接続線42によって供給される。デバイス30の動作は、中央デジタルコントローラ34により管理される。デバイス30は、音声認識コントローラ22に対応するサブシステムを有さない。この対応するサブシステムがあったとしても、本発明を適用することにより、原則的には発話(speech out)は続けられるかも知れないが、サブシステムの動作を抑制することが可能である。先立っての音声認識に関する様々な質問、コマンド、又は、カウンタシグナリゼーションが必要となるので、デバイス20に行き、出力される。デバイス30は、例えば、テキストLEDといった独自のシグナリゼーションを有してもよい。デジタルコントローラ34は、デバイス30の全体の動作を制御するが、その方法は、簡潔となるよう省略する。更に、デジタルコントローラ34は、データバスインタフェースコントローラ36に双方向的に接続される。コントローラ36は、コントロールバス32に双方向的に接続される。デバイス30の最初の連結の際に、コントローラ34は、チャネル32及びバスコントローラ26及び36を介し音声認識のために必要なアイテムを、コントローラ24に送信する。その後、音声認識コントローラ22は、デバイス20ではなく、デバイス30に関するメニュ及び他の種類の音声アイテムを適切に認識することができるようになる。このとき、マスタデバイスに関する音声アイテム又は音声アイテムの適当な選択も認識することができる。
【0010】
認識のためにデバイス20に送信される音声アイテムは、選択メニュの構成素子に関する、及び/又は、音声記述の形式の音声を含んでもよい。実施例の2つのデバイスは、3つの線により相互接続されるものとして示している。線32は、音声認識情報をデバイス30からデバイス20に転送するために使用する。線42は、デバイス20とデバイス30間でデータを転送するために使用し、システムの最も重要なユーティリティを表している。更に、線40は、2つのコントローラ24及び34を相互に接続する。この線は仮想的であり、というのは、物理的な転送は、ユーザレベルコントロール線32で行われるからである。このことは、線42に対しても言えることである。相互接続機構32はバス、スター、又は、任意の適用可能な構成であってよく、発明者は、今日において全てのオーディオビデオ相互接続に対し提案されているHAVi相互接続プロトコル又はコンテキストを推奨する。
【0011】
認識プロトコルは、デバイス30に関する認識した又はそうでなければマッピングされた音声アイテムを、デバイス30に信号で伝え、それにより、デバイス30の動作を適切に管理する。適用可能である場合には、認識プロセスの状態により、認識可能な音声アイテムのスペクトラムに動的に影響を与えることが可能であり、それにより、一部のスレーブデバイスはそのスレーブデバイスの名前のみが認識可能となる。
【0012】
図2は、図1に示すシステムのローディング及び動作段階の動作を示すフローチャートである。ステップ60において、電源を入れ、続いて、マスタデバイスが、必要なハードウェア及びソフトウェアリソースのアベイラビリティ及び足りない場合にはクレームして、システムが開始する。ステップ62では、マスタが全ての接続されるデバイスを呼び出ししてシステムが構成される。リソースが不十分である場合、例えば、VCRが、その電源が消されていることにより接続していない場合、そのことがユーザに報告される。説明の単純化のために、このフィードバックの様子は図面には示さない。ステップ64では、以前に報告されていない新しいデバイスがあるか否かが確認される。新しいデバイスがある場合(YES)、ステップ66において、必要な音声情報が、新しいスレーブデバイスからマスタデバイスにロードされる。その上で、システム構成が再開され、このことは全ての新しいデバイスが登録されるまで行われる。単独で、登録を外すことも可能である。或いは、登録は、バックグランドで行われるプロセスであってよく、これは断続的に全てのスレーブデバイスをポーリングする。最終的に、ステップ64において、新しいデバイスがない(NO)場合がアサートされ、システムはステップ68に進む。ステップ68では、主要なプログラムが実行される。ステップ70において、コントローラは、動作の終了を確認する。動作が終了していない限り(NO)、システムは、ステップ68から繰り返される。YESである場合、システムはステップ72に進み、動作は終了する。
【0013】
当業者には、本発明の特許請求の範囲から逸脱しない変更が明らかであろう。例えば、ステップ66において、新しく接続されるスレーブデバイスは、プラグ&プレイ機構のように、自発的に音声情報のロードを行ってもよい。本願に示すデバイス20における音声認識は、1つ以上のスレーブデバイス30に接続される携帯電話機といった遠隔デバイスで行われてもよい。この場合、他のコンシューマデバイスとの遠隔相互接続はインターネットにより行われる。
【図面の簡単な説明】
【図1】
第1のデバイス及び第2のデバイスが設けられるコンシューマ電子システムを示す図である。
【図2】
システムのローディング及び動作段階を示す動作フローチャートである。

Claims (6)

  1. マルチデバイスコンシューマ電子システムを動作する方法であって、
    上記電子システムには、音声ピックアップ手段により供給される音声制御機構を含む第1のユーザインタフェースを有する第1のデバイスと、上記第1のデバイスと機能上相互接続する第2のデバイスが設けられ、
    上記第1のデバイスと上記第2のデバイスを、ユーザ制御レベル相互接続により相互接続する段階と、
    上記第2のデバイスに関する第2のユーザインタフェースに関連の音声認識データを、上記第2のデバイスから上記第1のデバイスの上記音声制御機構にロードする段階と、
    上記音声認識データを使用して上記第2のユーザインタフェースに関する1つ以上の音声コマンドを、上記音声制御機構により認識し、関連付けられる認識情報を上記第2のデバイスに転送する段階と、
    上記関連付けられる認識情報によって管理されるように上記第2のデバイスを動作する段階とを含むことを特徴とする方法。
  2. 上記ロード段階は、ユーザインタフェース情報と音声認識情報の両方を供給する請求項1記載の方法。
  3. 上記ロード段階は、HAViコンテキストで行われるダウンロードである請求項1記載の方法。
  4. 請求項1記載の方法を実行するよう構成され、音声ピックアップ手段により供給される音声制御機構を含む第1のユーザインタフェースを有する第1のデバイスと、上記第1のデバイスに機能上相互接続する第2のデバイスを含むマルチデバイスコンシューマ電子システムであって、
    上記第1のデバイスと上記第2のデバイスを、ユーザ制御レベル相互接続により相互接続する相互接続手段と、
    上記第2のデバイスに関する第2のユーザインタフェースに関連の音声認識データを、上記第2のデバイスから上記第1のデバイスの上記音声制御機構にロードするロード手段と、
    上記音声認識データを使用して上記第2のユーザインタフェースに関する1つ以上の音声コマンドを、上記音声制御機構により認識し、関連付けられる認識情報を上記第2のデバイスに転送する手段と、
    上記関連付けられる認識情報によって管理されるように上記第2のデバイスを動作する手段とを含むことを特徴とするシステム。
  5. 請求項4記載のシステムにおいて上記第1のデバイスとして使用されるよう構成されるマスタデバイスであって、
    音声ピックアップ手段により供給される音声制御機構を含む第1のユーザインタフェースと、
    ユーザ制御レベル相互接続を介し、第2のデバイスと相互接続する相互接続手段と、
    上記第2のデバイスに関する第2のユーザインタフェースに関連の音声認識データを、上記音声制御機構に受信する受信手段と、
    上記音声認識データを使用して上記第2のユーザインタフェースに関する1つ以上の音声コマンドを、上記音声制御機構により認識する認識手段と、
    関連付けられる認識情報を上記第2のデバイスに転送する転送手段とを含むデバイス。
  6. 請求項4記載のシステムにおいて上記第2のデバイスとして使用されるよう構成されるスレーブデバイスであって、
    ユーザ制御相互接続を介し第1のデバイスと相互接続する相互接続手段と、
    上記第2のデバイスに関する第2のユーザインタフェースに関連の音声認識データを、上記第2のデバイスから上記第1のデバイスの上記音声制御機構内にロードするロード手段と、
    上記第2のユーザインタフェースに関する認識情報を、上記第1のデバイスの上記音声制御機構から受信する受信手段と、
    上記受信した認識情報により管理されるように上記第2のデバイスを動作する動作手段とを含むデバイス。
JP2002525644A 2000-09-07 2001-08-24 音声制御及びアップロード可能なユーザ制御情報 Pending JP2004508595A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00203111 2000-09-07
PCT/EP2001/009879 WO2002021512A1 (en) 2000-09-07 2001-08-24 Voice control and uploadable user control information

Publications (1)

Publication Number Publication Date
JP2004508595A true JP2004508595A (ja) 2004-03-18

Family

ID=8171996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002525644A Pending JP2004508595A (ja) 2000-09-07 2001-08-24 音声制御及びアップロード可能なユーザ制御情報

Country Status (5)

Country Link
US (1) US20020072913A1 (ja)
EP (1) EP1377965A1 (ja)
JP (1) JP2004508595A (ja)
CN (1) CN1404603A (ja)
WO (1) WO2002021512A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7349758B2 (en) * 2003-12-18 2008-03-25 Matsushita Electric Industrial Co., Ltd. Interactive personalized robot for home use
US20090222270A2 (en) * 2006-02-14 2009-09-03 Ivc Inc. Voice command interface device
US8264934B2 (en) * 2007-03-16 2012-09-11 Bby Solutions, Inc. Multitrack recording using multiple digital electronic devices
CN102843595A (zh) * 2012-08-06 2012-12-26 四川长虹电器股份有限公司 通过终端设备语音控制智能电视的方法
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US11587559B2 (en) * 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
DE69736014T2 (de) * 1997-10-20 2006-11-23 Computer Motion, Inc., Goleta Verteiltes allzweck-steuerungssystem für operationssäle
DE69712485T2 (de) * 1997-10-23 2002-12-12 Sony Int Europe Gmbh Sprachschnittstelle für ein Hausnetzwerk
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP4314680B2 (ja) * 1999-07-27 2009-08-19 ソニー株式会社 音声認識制御システム及び音声認識制御方法
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6424945B1 (en) * 1999-12-15 2002-07-23 Nokia Corporation Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection

Also Published As

Publication number Publication date
EP1377965A1 (en) 2004-01-07
US20020072913A1 (en) 2002-06-13
WO2002021512A1 (en) 2002-03-14
CN1404603A (zh) 2003-03-19

Similar Documents

Publication Publication Date Title
AU2006331710B2 (en) Programmable multimedia controller with programmable services
JP5061360B2 (ja) リモートコントロール・フレームワーク
US9038061B2 (en) System and method for managing an application or software component for use in a device to be controlled in a home network
US9105180B2 (en) Touch-sensitive wireless device and on screen display for remotely controlling a system
KR100647449B1 (ko) 특성 루트를 통해서 소프트웨어 오브젝트들을 제어하기위한 시나리오를 식별하는 호출
KR100750817B1 (ko) 고속 데이터 레이트 HAVi 네트워크 상에 나타나는 저속 데이터 레이트 네트워크
US7432909B2 (en) Communication system, communication apparatus, and communication method
US7343427B2 (en) Method and an apparatus for the integration of IP devices into a HAVi network
WO2007129314A1 (en) Remotely controllable media distribution device
KR20010033879A (ko) 오디오/비디오 네트워크 및 이에 관련된 제어 방법
JP2006501751A (ja) ホームネットワーク環境における制御装置
US20010047431A1 (en) HAVi-VHN bridge solution
JP2002304337A (ja) 高性能HAVi準拠機器実施のためのシステム及び方法
KR100427697B1 (ko) 프로토콜 변환장치 및 이를 이용한 홈 네트워크 시스템의디바이스 제어방법
JP2004508595A (ja) 音声制御及びアップロード可能なユーザ制御情報
JP2003259463A (ja) 情報家電制御装置
KR100672558B1 (ko) 홈네트워크 시스템의 연결 기기 이름 설정 방법
JP2006526320A (ja) 電子装置を制御する機器
KR20020011029A (ko) 홈네트워크 시스템의 연결 기기 이름 설정 방법
KR20060077947A (ko) 기기의 다중제어 기능을 가지는 홈네트워크 시스템 및 그방법