JP2017076393A - 音声エージェントに基づく制御命令処理装置及び方法、並びにエージェント装置 - Google Patents
音声エージェントに基づく制御命令処理装置及び方法、並びにエージェント装置 Download PDFInfo
- Publication number
- JP2017076393A JP2017076393A JP2016199885A JP2016199885A JP2017076393A JP 2017076393 A JP2017076393 A JP 2017076393A JP 2016199885 A JP2016199885 A JP 2016199885A JP 2016199885 A JP2016199885 A JP 2016199885A JP 2017076393 A JP2017076393 A JP 2017076393A
- Authority
- JP
- Japan
- Prior art keywords
- control
- control command
- voice
- command
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000010354 integration Effects 0.000 claims abstract description 52
- 230000004044 response Effects 0.000 claims abstract description 14
- 230000003993 interaction Effects 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 19
- 238000003672 processing method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000008094 contradictory effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
- H04L12/282—Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
- H04L12/2821—Avoiding conflicts related to the use of home appliances
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Automation & Control Theory (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Selective Calling Equipment (AREA)
Abstract
【課題】 音声エージェントに基づく制御命令処理装置及び方法、並びにエージェント装置を提供する。
【解決手段】 音声エージェントに基づく電子装置の制御命令を処理する装置が開示される。一実施形態による電子装置の制御命令処理装置は、少なくとも1つの音声エージェントから、電子装置に対する少なくとも1つの制御命令を受信し、少なくとも1つの制御命令に追加情報をタギングし、複数の受信された制御命令に応答して、複数の制御命令のそれぞれにタギングされた追加情報に基づいて、複数の制御命令を統合し、該統合の結果に基づいて、電子装置を制御するプロセッサを含みうる。
【選択図】 図1
【解決手段】 音声エージェントに基づく電子装置の制御命令を処理する装置が開示される。一実施形態による電子装置の制御命令処理装置は、少なくとも1つの音声エージェントから、電子装置に対する少なくとも1つの制御命令を受信し、少なくとも1つの制御命令に追加情報をタギングし、複数の受信された制御命令に応答して、複数の制御命令のそれぞれにタギングされた追加情報に基づいて、複数の制御命令を統合し、該統合の結果に基づいて、電子装置を制御するプロセッサを含みうる。
【選択図】 図1
Description
本発明は、音声エージェントに基づく制御命令処理装置及び方法に係り、音声エージェントから入力された電子装置の制御命令を処理する技術に関する。
一般的なスマートホーム、スマートオフィスシステム、知能型車両、モノのインターネット機器の制御システムを設定するとき、音声インターフェースを考慮しないか、音声命令が一回に1つずつ入力される場合のみを仮定する場合がほとんどであった。最近、音声エージェント機能を備えた端末を通じて、このようなシステムを制御するための命令語を入力して、システムに連結されている電子装置を制御しようとする試みがなされている。しかし、スマートホームまたはスマートオフィスのようなシステム周辺には、音声エージェント機能を備えた複数の端末が存在することがあり、電子装置を制御するための命令が重複することがある。
本発明が解決しようとする課題は、音声エージェントに基づく制御命令処理装置及び方法、並びにエージェント装置を提供することにある。
一実施形態による電子装置の制御命令処理装置は、少なくとも1つの音声エージェントから、電子装置に対する少なくとも1つの制御命令を受信し、少なくとも1つの制御命令に追加情報をタギングし、複数の前記受信された制御命令に応答して、複数の制御命令のそれぞれにタギングされた追加情報に基づいて、前記複数の制御命令を統合し、該統合の結果に基づいて、前記電子装置を制御するプロセッサを含みうる。
プロセッサは、少なくとも1つの音声エージェントから、電子装置に対する少なくとも1つの制御命令を受信し、少なくとも1つの制御命令に追加情報をタギングする命令タギング部と、複数の受信された制御命令を受信する命令タギング部に応答して、複数の制御命令のそれぞれにタギングされた追加情報に基づいて、複数の制御命令を統合し、該統合の結果に基づいて、電子装置を制御する命令実行部と、を含みうる。
ここで、受信された制御命令は、音声プロンプト(prompt)であるか、音声認識技術を通じて音声プロンプトを変換したテキスト形式であり得る。
この際、追加情報は、ユーザが、少なくとも1つの制御命令に関する音声を発話した時間、少なくとも1つの音声エージェントから少なくとも1つの制御命令を受信した時間、少なくとも1つの制御命令に関する音声の認識の正確度、音声信号の強度、少なくとも1つの制御命令の長さ、制御命令から抽出されたハッシュ値、特性値、ユーザ情報、音声エージェント装置情報、及び電子装置情報のうちの1つ以上を含みうる。
命令実行部は、複数の制御命令のそれぞれにタギングされた追加情報に基づいて、複数の制御命令を1つ以上のクラスターに統合する命令統合部と、統合の結果に基づいて電子装置を制御する最終制御命令を決定する最終命令決定部と、を含みうる。
また、命令統合部は、複数の制御命令の相互間の類似度を算出し、該算出された類似度及びタギングされた追加情報に基づいて、複数の制御命令を1つ以上のクラスターに統合することができる。
また、命令統合部は、命令タギング部で時間間隔間に受信された制御命令に基づいて、1つ以上のクラスターに複数の制御命令を統合することができる。
最終命令決定部は、1つ以上のクラスターのそれぞれに対して、クラスターの重心(centroid)に該当する制御命令を最終制御命令として決定することができる。
命令実行部は、1つ以上のクラスター内に重複命令が存在する場合、ユーザに対して重複命令の処理に関するクエリを行うインタラクション部をさらに含み、最終命令決定部は、クエリの遂行の結果に基づいて、最終制御命令を決定することができる。
また、命令実行部は、制御命令を伝達した音声エージェントが複数である場合、複数の音声エージェントの中から、ユーザとインタラクションを行う音声エージェントを選定するエージェント選定部をさらに含みうる。
エージェント選定部は、ユーザと音声エージェントとの距離、音声エージェントに対するユーザの選好度、音声エージェントの使用頻度、音声信号の強度、音声エージェントから受信された制御命令の音声認識の正確度のうちの何れか1つまたはこれらの組合せに基づいて、ユーザとインタラクションを行う音声エージェントを選定することができる。
一実施形態による電子装置の制御命令を処理する方法は、音声エージェントから制御命令を受信する段階と、受信された少なくとも1つの制御命令に追加情報をタギングする段階と、受信された制御命令が複数である場合、複数の制御命令のそれぞれにタギングされた追加情報に基づいて、複数の制御命令を統合する段階と、を含みうる。
制御命令を統合する段階は、受信された複数の制御命令にタギングされた追加情報に基づいて、複数の制御命令を1つ以上のクラスターに統合する段階と、統合の結果に基づいて電子装置を制御する最終制御命令を決定する段階と、を含みうる。
1つ以上のクラスターに統合する段階は、複数の制御命令の相互間の類似度を算出する段階を含み、算出された類似度及び追加情報に基づいて、複数の命令を統合することができる。
最終制御命令を決定する段階は、1つ以上のクラスターのそれぞれに対して、クラスターの重心に該当する命令を最終制御命令として決定することができる。
制御命令を統合する段階は、1つ以上のクラスター内に重複命令が存在する場合、ユーザに対して重複命令の処理に関するクエリを行う段階をさらに含み、最終制御命令を決定する段階は、クエリの遂行の結果に基づいて、最終制御命令を決定することができる。
また、制御命令を統合する段階は、制御命令を伝達した音声エージェントが複数である場合、複数の音声エージェントの中から、ユーザとインタラクションを行う音声エージェントを選定する段階をさらに含みうる。
プロセッサによって実行されると、プロセッサに、制御命令処理方法を実行させるコンピュータプログラムを含み、さらにコンピュータプログラムを保存するコンピュータ読取可能不揮発性記憶媒体を含みうる。
一実施形態による電子装置の制御命令処理装置は、少なくとも1つの音声エージェントから、電子装置に対する少なくとも1つの制御命令を受信し、該受信された少なくとも1つの制御命令に追加情報をタギングし、制御命令にタギングされた追加情報に基づいて、受信された少なくとも1つの制御命令と、電子装置に対して既に実行中の制御命令とを統合し、該統合の結果に基づいて、電子装置を制御するプロセッサを含みうる。
プロセッサは、少なくとも1つの音声エージェントから、電子装置に対する少なくとも1つの制御命令を受信し、該受信された少なくとも1つの制御命令に追加情報をタギングする命令タギング部と、少なくとも1つの制御命令にタギングされた追加情報に基づいて、受信された制御命令と、電子装置に対して既に実行中の制御命令とを統合し、該統合の結果に基づいて、電子装置を制御する命令実行部と、を含みうる。
命令実行部は、受信された制御命令と既に実行中の制御命令とが互いに矛盾するかどうかを判断する命令統合部と、判断の結果、制御命令が矛盾する場合、制御命令の中から、電子装置を制御する最終制御命令を決定する最終命令決定部と、を含みうる。
また、命令実行部は、電子装置別に既に実行中の制御命令を保存する命令DBをさらに含み、命令統合部は、命令DBから、電子装置に対して既に実行中の制御命令を検出することができる。
また、命令実行部は、判断の結果、制御命令が矛盾する場合、ユーザにたいして、矛盾した命令の処理に関するクエリを行うインタラクション部をさらに含み、最終命令決定部は、クエリの遂行の結果に基づいて、最終制御命令を決定することができる。
また、命令実行部は、音声エージェント選定のためのポリシーを保存するポリシーDBと、ポリシーDBを参照してユーザとインタラクションを行う音声エージェントを選定するエージェント選定部と、をさらに含みうる。
一実施形態によるエージェント装置は、ユーザから電子装置を制御するための音声形態の制御命令が入力されると、該入力された制御命令を命令タギング部に伝達する音声エージェントと、電子装置を制御する1つ以上の制御命令を統合するための追加情報を、伝達された制御命令にタギングする命令タギング部と、を含みうる。
この際、電子装置を制御する1つ以上の制御命令を統合処理する制御命令処理装置に、追加情報がタギングされた制御命令を伝送する通信部をさらに含みうる。
音声エージェントは、制御命令処理装置から制御命令の処理結果を受信すると、制御命令の処理結果を音声形態に変換して出力することができる。
制御命令の処理結果は、電子装置を制御する複数の重複命令の処理に関するクエリ及び制御命令の実行結果のうちの少なくとも1つを含みうる。
音声エージェントは、制御命令が入力されると、制御命令が発話された時間、音声信号の強度、ユーザ情報、音声認識の正確度のうちの少なくとも1つを収集し、該収集された情報を命令タギング部に伝達することができる。
その他の実施形態の具体的な事項は、詳細な説明及び図面に含まれている。記載の技術の利点及び特徴、そして、それらを実装する方法は、図面と共に詳細に後述されている実施形態を参照すると、明確になる。明細書の全般に亘って同じ参照符号は、同じ構成要素を指す。
以下、図面を参照して音声エージェントに基づく電子装置の制御命令処理装置及び方法の実施形態を詳しく説明する。
図1は、一実施形態による制御命令処理装置のブロック図である。
一実施形態による制御命令処理装置100は、音声エージェント(voice agent)を通じて各種の電子装置を制御する制御システム(以下、“ネットワーク制御システム”と称する)に多様な方式で適用可能である。例えば、制御命令処理装置100は、音声エージェントから伝達される命令が電子装置で重複して実行されることを防止することができる。ここで、電子装置は、ネットワーク制御システムでユーザの命令に基づいて最終的な動作を行う各種の装置であって、光学ディスク再生装置(optical disc player)、DVDプレーヤー、ブルーレイプレーヤー、セットトップボックス、ロボット掃除機、ヘルスケアデバイス、モバイルロボット、家電器具、冷蔵庫、TV、コンテンツプレーヤー、通信システム、イメージ処理システム、グラフィック処理システム、ガス、食器洗浄機、ドアロック、火災感知器、防犯CCTV、エアコン、ボイラー、モバイルフォン、携帯電話、スマートフォン、ウェアラブルスマートデバイス(例:指輪、時計、メガネ、メガネ型装置、腕輪、ネックレス、イヤリング、ヘアバンド、ヘルメット、衣類に付着された装置)、パソコン、ラップトップ、ノート型パソコン、サブノート型パソコン、ネットブック、ウルトラモバイルPC(UMPC)、タブレットPC、ファブリック、MID、PDA(Personal Digital Assistant)、EDA(Enterprise Digital Assistant)、デジタルカメラ、デジタルビデオカメラ、携帯用ゲームコンソール、MP3プレーヤー、PMP(Portable/Personal Multimedia Player)、GPS(Global Positioning System)ナビゲーション、PND(Personal Navigation Device or Portable Navigation Device)、電子ブック、車両または灯のスマートホーム/オフィス機器、及びネットワークを通じて制御される多様な他のモノのインターネット機器を含みうる。
図1を参照すれば、制御命令処理装置100は、命令タギング部110及び命令実行部120を含みうる。ここで、命令タギング部110と命令実行部120は、1つのモジュールとして具現可能であり、1つのハードウェアに搭載されうる。また、命令タギング部110と命令実行部120は、別途のハードウェアに搭載されることが可能であり、一例として、命令タギング部110は、音声エージェントを搭載しているエージェント装置に搭載され、命令実行部120は、別途の装置、電子装置を制御する制御装置又は電子装置内に搭載されうる。
命令タギング部110は、音声エージェントから電子装置を制御するための命令(以下、‘制御命令’と称する)を受信することができる。この際、音声エージェントは、スマートフォン、スマートパッド、タブレットPC、ノート型パソコン、デスクトップPC、ヘルスケア機器、モバイルロボット、ウェアラブル機器、及び前述したスマートホーム/オフィス装置などの多様なエージェント装置に搭載されうる。
音声エージェントは、ユーザが電子装置を制御するために音声を発話すると、ユーザの発話音声を受信して、その音声自体を制御命令として命令タギング部110に伝達することができる。あるいは、音声エージェントは、内蔵された音声認識技術を適用してユーザから受信された音声を認識し、その認識結果として出力されるテキストを、制御命令として命令タギング部110に伝達することができる。
命令タギング部110は、音声エージェントから制御命令を受信すると、該受信された制御命令に追加情報をタギングすることができる。この際、追加情報は、ユーザが音声を発話した時間、命令タギング部110が音声エージェントから制御命令を受信した時間、ユーザが発話した音声の認識の正確度、ユーザが発話した音声信号の強度、受信された制御命令データの長さ、受信された制御命令データから抽出されたハッシュ値、外部モジュールから獲得された特性値、音声を発話したユーザ情報、音声エージェントを搭載したエージェント装置情報、及び制御する電子装置情報などを含みうる。但し、これに限定されず、他の多様な情報が追加情報として活用されうる。
例えば、命令タギング部110は、音声エージェントから制御命令と共に追加情報を受信することができる。音声エージェントは、ユーザから音声を受信すると、音声受信時間、受信された音声信号の強度、音声を入力したユーザ情報及びエージェント装置の情報などを獲得することができる。また、音声エージェントは、受信された音声に対して音声認識を行った場合、その音声認識の正確度を獲得し、このように獲得された情報が、制御命令にタギングされる追加情報として活用されるように命令タギング部110に伝達することができる。
また、命令タギング部110は、音声エージェントから制御命令を受信すると、該受信された制御命令を用いて追加情報を獲得することができる。例えば、制御命令の受信時間を追加情報として獲得し、受信された制御命令がテキスト命令である場合、テキスト分析技法を用いて制御する電子装置情報、制御命令データの長さ、ハッシュ値などを抽出することができる。また、命令タギング部110は、他の外部モジュールを通じて特性ベクトル値(例:word embedding)を追加情報として獲得することができる。
命令タギング部110は、受信された制御命令についての追加情報を獲得すると、該獲得された追加情報を制御命令にタギングすることができる。
一方、命令タギング部110は、音声エージェントから複数の制御命令を受信することができる。一例として、音声エージェントの周辺に多数のユーザが存在する場合、多数のユーザが同時に音声を発話することができる。この際、音声エージェントは、その音声命令を受信して、各音声に対応する複数の制御命令を命令タギング部110に伝達することができる。他の例として、命令タギング部110が、複数の音声エージェントと連結される場合、いずれかのユーザが発話した音声を複数の音声エージェントが受信して、該受信された複数の音声に対する複数の制御命令を命令タギング部110に伝達することができる。
命令実行部120は、命令タギング部110が制御命令に追加情報をタギングすると、追加情報がタギングされた制御命令に基づいて、電子装置を制御することができる。
一例として、命令実行部120は、電子装置を制御する制御命令が複数である場合、複数の制御命令のそれぞれにタギングされている追加情報を用いて複数の制御命令を統合することができる。また、統合の結果を用いて電子装置を制御する最終制御命令を決定し、該決定された最終制御命令が電子装置で実行されるように制御することができる。
他の例として、命令実行部120は、電子装置に対して既に実行中の制御命令が存在する場合、受信された制御命令にタギングされた追加情報を用いて、既に実行中の制御命令と矛盾するかどうかを判断し、該判断の結果に従って適切な処理を行うことができる。
但し、命令実行部120の実施形態は、これに限定されず、図2Aないし図2Dを参照して、より詳細に後述する。
図2Aないし図2Dは、図1の命令実行部120の実施形態を示すブロック図である。図2Aないし図2Dで、同じ参照符号を有する構成は、同じ構成を意味する。
図2Aを参照すれば、一実施形態による命令実行部120aは、命令統合部121及び最終命令決定部122を含みうる。
命令統合部121は、命令タギング部110から制御命令を受信すると、該受信された制御命令にタギングされている追加情報を確認し、該確認された追加情報を用いて制御命令を統合することができる。
例えば、命令統合部121は、命令タギング部110から受信された制御命令が複数である場合、各制御命令にタギングされている追加情報を用いてクラスター別に統合することができる。この際、命令統合部121は、多様なクラスタリング技法を活用して複数の命令を1つ以上のクラスターに分類して統合することができる。ここで、多様なクラスタリング技法は、K−平均アルゴリズム、K−中間点アルゴリズム、K−中央値アルゴリズム、パージC−平均アルゴリズムなどでありうるが、これらに限定されるものではない。命令統合部121は、分類された命令を統合することができる。
一例として、命令統合部121は、各制御命令にタギングされている追加情報のうちのユーザの発話時間を確認し、所定時間間隔(例:1秒)で命令をクラスタリングすることができる。他の例として、命令統合部121は、各制御命令の追加情報のうちのユーザ情報を確認して、所定時間内に入力された制御命令を、ユーザが入力した命令に基づいて互いに異なるクラスターに分類することができる。さらに他の例として、制御する電子装置別に分類するか、命令データの長さ情報などを用いて分類することができる。この際、2つ以上の追加情報を組み合わせて多数の制御命令をクラスタリングすることができる。さらに他の例として、命令統合部121は、編集距離(edit distance)アルゴリズムのような類似度計算アルゴリズムを用いて、入力された制御命令間の類似度を算出し、該算出された類似度に基づいて制御命令をクラスタリングすることができる。
最終命令決定部122は、このように命令統合部121によってクラスター別に統合された制御命令の中から、電子装置を制御する最終制御命令を決定することができる。
例えば、最終命令決定部122は、クラスター別に複数の制御命令が存在する場合、その制御命令が重複命令であると判断し、複数の制御命令の中から、実際に電子装置を制御する何れか1つの命令のみを最終制御命令として決定することができる。
一例として、最終命令決定部122は、クラスター内で最終制御命令を決定するとき、そのクラスターがK−平均アルゴリズムを用いて分類される場合、そのクラスターの重心に該当する命令を最終制御命令として決定することができる。
他の例として、最終命令決定部122は、クラスター内で発話音声信号の強度が最も強い命令、音声認識の正確度が最も高い命令、ユーザが音声を発話した時間が最も遅い制御命令を、最終制御命令として決定することができる。但し、最終制御命令の決定基準において、例示されたものによって特に制限されるものではない。
また、最終命令決定部122は、決定された最終制御命令を制御装置に伝送して電子装置で実行させることによって、特定の電子装置に対して複数の制御命令が同時に伝達されて、重複実行されることを防止することができる。
例えば、ユーザが19時に発話した“居間の温度を1℃上げる”という制御命令が、ユーザの周辺にあったスマートフォンとスマートウォッチの音声エージェントからそれぞれ19時02分32秒、19時02分33秒に命令タギング部に伝達されうる。このような制御情報の受信時間情報などが、命令タギング部によって各制御命令にタギングされると、命令統合部121は、その制御命令の受信時間が既定の時間間隔(例:1秒)内であるので、1つのクラスターに統合することができる。この際、最終命令決定部122は、クラスターに含まれた2つの制御命令が重複すると判断し、何れか1つの命令のみを最終制御命令として決定することができる。
図2Bを参照すれば、他の実施形態の命令実行部120bは、命令統合部121、最終命令決定部122及びインタラクション部123を含みうる。図2Bの説明に加えて、前述した図1ないし図2Aの説明は、図2Bに適用可能であり、参考として使われる。命令統合部121及び最終命令決定部122は、前述したので、詳しい説明は省略する。
インタラクション部123は、制御命令の処理と関連してユーザと各種のインタラクションを行うことができる。
一例として、命令統合部121によって複数の制御命令が統合され、その結果、ある電子装置の制御命令が重複すると判断されると、インタラクション部123は、その重複の処理に関するクエリを生成してユーザに提示し、ユーザからそのクエリに対する応答を受信することができる。この際、最終命令決定部122は、ユーザの応答に基づいて最終制御命令を決定することができる。
他の例として、インタラクション部123は、決定された最終制御命令が電子装置で実行される過程で実行される各種の動作及び最終制御命令の実行結果をユーザに提供することができる。例えば、インタラクション部123は、決定された最終制御命令に対する通知、制御装置への伝送結果、電子装置で正常に実行されたかどうかについての情報、正常に実行されていない場合にはその原因についての情報をユーザに提供することができる。
図2Cを参照すれば、さらに他の実施形態の命令実行部120cは、命令統合部121、最終命令決定部122、インタラクション部123及びエージェント選定部124を含みうる。図2Cの説明に加えて、前述した図1ないし図2Bの説明は、図2Cに適用可能であり、参照されて説明される。例えば、命令統合部121、最終命令決定部122及びインタラクション部123は、前述したので、詳しい説明は省略する。
音声エージェントを用いて電子装置を制御するネットワーク制御システム環境で、ユーザの周辺に複数の音声エージェントが存在することがある。例えば、ユーザが、制御命令に対する音声を入力する時点で、音声エージェントを搭載したスマートフォン(smart phone)、スマートパッド、スマートウォッチ(smart watch)、スマートグラス(smart glass)などの複数のエージェント装置がユーザの周辺で動作中であり得る。あるいは、何れか1つのエージェント装置に複数の音声エージェントが搭載されて同時に動作することもできる。
エージェント選定部124は、このようにユーザの周辺に複数の音声エージェントが存在する環境で、インタラクション部123は、ユーザとインタラクションを行うように何れか1つまたは2つ以上の音声エージェントを選定することができる。この際、エージェント選定部124は、ユーザとエージェント装置との距離、エージェント装置に対するユーザの選好度や利用頻度、エージェント装置から受信された各制御命令の音声信号の強度や音声認識の正確度などを考慮して、ユーザとインタラクションを行うエージェントを選定することができる。
一例によれば、エージェント選定部124は、複数のエージェント装置から制御命令が伝達される場合、命令統合部121によって制御命令が統合される前に、そのエージェント装置の中からインタラクションを行うエージェント装置を選定することができる。例えば、エージェント選定部124は、音声信号が最も強いエージェント装置または音声認識の正確度が最も高いエージェント装置を、インタラクションを行うエージェント装置として選定することができるが、これに限定されるものではない。この場合、命令統合部121は、選定されたエージェント装置から伝達された制御命令のみを統合することができる。
他の例によれば、エージェント選定部124は、複数のエージェント装置から伝達された複数の制御命令が命令統合部121によって統合された後、その統合の結果に基づいて、インタラクションを行うエージェント装置を選定することができる。例えば、エージェント選定部124は、統合の結果、重複する命令が存在する場合、ユーザとその重複命令の処理に関するクエリ及び応答を行うために、現在ユーザの位置と最も近い位置に存在するエージェント装置を選定することができる。
インタラクション部123は、エージェント選定部124によって選定されたエージェント装置を通じてユーザとインタラクションを行うことができる。
一方、図2Cの命令実行部120cは、図2Dに示したように、拡張されうる。図2Dを参照して説明すれば、図2Dの実施形態による命令実行部120dは、図2Cの各構成121、122、123、124以外に、各種の電子装置別に現在実行中であるか、実行予定である制御命令、例えば、周期的に実行される制御命令があらかじめ保存された命令データベース(DB)125、及び/またはエージェント選定部124が複数の音声エージェントの中からインタラクションを行うエージェントを選定する、各種の基準があらかじめ保存されたポリシーDB126をさらに含みうる。
命令統合部121は、命令タギング部から制御命令を受信すると、命令DB125を参照して既に実行中の制御命令が存在するかどうかを確認することができる。この際、命令統合部121は、制御命令にタギングされている追加情報から、制御する電子装置、制御命令の受信時間、受信された制御命令の実行時間などを確認し、該確認された情報に基づいて、命令DB125内に、矛盾する制御命令が存在するかどうかを確認することができる。
例えば、“居間の温度を1℃上げる”という制御命令が、ユーザから12時10分に受信されると、命令統合部121は、追加情報を確認して制御する電子装置が“ボイラー”であることを確認し、ボイラーに対して現在実行中の制御命令が命令DB125内に存在するかどうかを確認することができる。この際、命令DB125に“午後12:00から居間の温度を20℃に保持する”という制御命令が保存されている場合、命令統合部121は、ユーザから入力された制御命令と命令DB125に保存されている命令とを統合して、互いに矛盾していると判断することができる。
この際、命令統合部121は、音声エージェントを通じて入力された制御命令が複数である場合、各制御命令と命令DB125に保存された命令とを統合し、各命令間の重複の有無及び矛盾の有無を判断することができる。
最終命令決定部122は、このように重複または矛盾した制御命令の中から、電子装置で実行する最終制御命令を決定することができる。この際、前述したように、インタラクション部123は、重複または矛盾する命令の処理について、ユーザとの間のクエリ及び応答を行うことができる。例えば、インタラクション部123は、“12時以降は居間の温度を20℃に保持中です。今度だけ21℃に上げますか”のようにユーザにクエリし、最終命令決定部122は、ユーザ応答に基づいて、何れか1つの命令を最終制御命令として決定することができる。
一方、エージェント選定部124は、前述したように、インタラクション部123が、ユーザとインタラクションを行うエージェントを選定し、この際、ポリシーDB126を参照することができる。この際、ポリシーDB126には、日付別/時間帯別/場所別にユーザが好むか、よく用いるエージェント装置についての情報、ユーザの現在位置、現在時間、現在動作中であるエージェント装置の個数などの何れか1つまたは2つ以上の組合せによるエージェント装置の選定基準などが保存することができる。これに限定されず、それ以上の多様な基準が多様な状況に応じてあらかじめ設定しうる。
例えば、ポリシーDB126において、ユーザの現在位置及び使用頻度を考慮してエージェントを選定するように基準が設定されており、ユーザが奥の部屋にいる場合、エージェント選定部124は、ユーザが奥の部屋で最もよく使うスマートフォンをエージェント装置として選定することができる。また、ポリシーDB126において、ユーザの現在位置とエージェント装置との距離を基に選定するよう基準が設定されている場合、エージェント選定部124は、ユーザ及び各エージェント装置の現在位置を把握し、最も近接した距離にあるエージェント装置を選定することができる。
図3Aは、一実施形態による音声エージェントに基づく電子装置の制御命令処理方法のフローチャートである。図3Aに示された順序及び方法は、本実施形態の範囲を超えない範囲内で一部の動作が変更されるか、省略される。また、図3Aに示された動作は、並列に、または同時に行われる。また、図3Aの説明に追加して、前述した図1ないし図2Dの説明は、図3Aに適用可能であり、同じ構成は、再び説明しない。
図3Aを参照すれば、制御命令処理装置100は、音声エージェントから制御命令を受信することができる(310)。この際、音声エージェントは、ユーザから入力された音声それ自体を制御命令として伝達し、音声認識技術を搭載している場合、その音声認識技術を通じてユーザの音声を認識して、その結果、出力されたテキストを制御命令として伝達することができる。
この際、制御命令処理装置100が受信する制御命令は、複数であり得る。例えば、数人のユーザが同時に入力した音声を1つのエージェントが受信して伝達し、または、一人のユーザが入力した音声を周辺の多くの音声エージェントが受信して伝達することができる。
次いで、制御命令処理装置100は、音声エージェントから制御命令を受信すると、該受信された制御命令に追加情報をタギングすることができる(320)。この際、追加情報は、前述したものと同じであり、制御命令処理装置100は、音声エージェントまたは外部モジュールから必要な追加情報を獲得するか、制御命令を分析して必要な追加情報を抽出することができる。
次いで、制御命令処理装置100は、制御命令が複数個存在する場合、それぞれの制御命令にタギングされている追加情報を用いて、複数の制御命令を統合することができる(330)。
図3Bは、図3Aの命令統合段階(330)の一実施形態を示すフローチャートである。
図3Bに示された順序及び方法は、本実施形態の範囲を超えない範囲内で一部の動作が変更されるか、省略される。また、図3Bに示された動作は、並列に、または同時に行われる。また、図3Bの説明に追加して、前述した図1ないし図3Aの説明は、図3Bに適用可能であり、同じ構成は、再び説明しない。
制御命令処理装置100は、複数の制御命令のそれぞれにタギングされた追加情報を用いて複数の制御命令を分類して、1つ以上のクラスターに統合することができる(331)。次いで、制御命令処理装置100は、統合の結果に基づいて電子装置で実行する最終制御命令を決定することができる(332)。この際、制御命令処理装置100は、クラスタリング基準や追加情報を活用して最終制御命令を決定することができる。
一方、制御命令処理装置100は、段階(331)の後に、統合の結果、複数の制御命令が重複すると判断されれば、ユーザとインタラクションを行って重複命令の処理に関するクエリを行い、ユーザからそのクエリに対する応答を受信することができる。この際、制御命令処理装置100は、段階(332)でユーザの応答に基づいて最終制御命令を決定することができる。
また、前述したように、制御命令処理装置100は、複数のエージェントが存在する場合、既定の多様な選定基準に基づいてユーザとインタラクションを行うエージェントを選定することができる。
図4は、他の実施形態による制御命令処理方法のフローチャートである。図4に示された順序及び方法は、本実施形態の範囲を超えない範囲内で一部の動作が変更されるか、省略される。また、図4に示された動作は、並列に、または同時に行われる。また、図4の説明に追加して、前述した図1ないし図3Bの説明は、図4に適用可能であり、同じ構成は、再び説明しない。
まず、制御命令処理装置100は、音声エージェントから制御命令を受信することができる(410)。
次いで、制御命令処理装置100は、音声エージェントから制御命令を受信すると、該受信された制御命令に追加情報をタギングすることができる(420)。
次いで、制御命令処理装置100は、受信された制御命令と既に実行中の制御命令とを統合することができる(430)。例えば、制御命令処理装置100は、制御命令を受信すると、制御命令にタギングされている追加情報を用いて、制御する電子装置及び制御時間などを確認し、該確認された情報を活用して、その電子装置で既に実行中の制御命令を命令DBから抽出して、各制御命令を統合することができる。この際、統合された制御命令、すなわち、音声エージェントから受信された制御命令と既に実行中の制御命令とが矛盾していると判断される場合、何れか1つの命令のみを最終制御命令として決定して、電子装置で実行させうる。
この際、制御命令処理装置100は、各種の電子装置上で既に実行中の制御命令を保存している命令DBを参照して、受信された制御命令と既に実行中の制御命令との矛盾の有無を判断することができる。また、制御命令処理装置100は、ユーザとインタラクションを通じてその矛盾の処理に関するクエリを行い、ユーザの応答に基づいて、何れか1つの制御命令を最終制御命令として決定することができる。また、制御命令処理装置100は、複数の音声エージェントが存在する場合、ポリシーDBを参照してインタラクションを行うエージェントを選定することができる。
図5ないし図10は、前述した制御命令処理装置が適用されたネットワーク制御装置の多様な実施形態を示した図面である。
図5ないし図10を参照すれば、一実施形態によるネットワーク制御装置1、2、3、4、5、6は、多数のエージェント装置500、制御装置700及び電子装置800を含みうる。多数のエージェント装置500は、音声エージェント510をそれぞれ含みうる。制御装置700は、エージェント装置500から伝達された制御命令に基づいて電子装置800を制御することができる。電子装置800は、制御装置の制御に従って動作を行うことができる。また、ネットワーク制御装置1、2、3、4、5、6は、前述した制御命令処理装置100を含み、この際、制御命令処理装置600は、図5に示したように、他の装置500、700、800とは別途のハードウェア装置に具現されるか、図6ないし図10のように、制御命令処理装置600の各構成610、620が、他の装置500、700、800のうちの何れか1つに共に搭載されるか、2つ以上に分散されて搭載されうる。
図5を参照すれば、ネットワーク制御装置1内の制御命令処理装置600は、多数のエージェント装置500及び制御装置700と有線又は無線ネットワークで連結されうる。この際、各装置500、600、700、800は、内部に無線LAN(WiFi)、ブルートゥース(Bluetooth)(登録商標)、ジグビー(登録商標)、NFC(Near Field Communication)などの近距離通信モジュール、移動通信モジュール、及びその他に多様なネットワーク通信モジュールを含み、その通信モジュールを制御して互いに連結されうる。
例えば、ユーザが、“居間の温度を1℃上げる”のようにボイラーの温度制御を要求する音声を入力する場合、ユーザの周辺にあるエージェント装置500の音声エージェント510は、ユーザの音声を受信し、必要な処理を行うことができる。例えば、各エージェント装置500に含まれる音声エージェント510が、音声認識技術を搭載している場合、音声認識を行って音声をテキストに変換し、テキスト形式の制御命令を制御命令処理装置600に伝送しうる。また、音声認識技術を搭載していない場合、あるいはポリシーに従って、ユーザから入力された音声自体を、制御命令として制御命令処理装置600に伝送することもできる。例えば、ポリシーは、あらかじめ設定されうる。
この際、音声エージェント510は、ユーザの音声を受信すると、該受信した音声信号の強度、ユーザ情報、ユーザ音声の受信時間などを獲得して、制御命令と共に制御命令処理装置600に伝達することができる。また、音声エージェント510は、音声認識を行った場合、音声認識の正確度情報をさらに伝達することができる。
この際、エージェント装置500は、内部に搭載された通信モジュールを制御して通信網に接続し、その通信網に接続されている制御命令処理装置600と連結して、制御命令や獲得された情報を伝送しうる。
制御命令処理装置600は、エージェント装置500から伝達された制御命令を統合し、該統合の結果、何れか1つの制御命令を制御装置700に伝送しうる。この際、制御命令処理装置600は、命令タギング部610と命令実行部620とを含み、命令タギング部610は、受信された制御命令に追加情報をタギングし、命令実行部620は、タギングされた追加情報に基づいて複数の制御命令を統合して、重複していない何れか1つの制御命令のみが電子装置で実行されるように処理することができる。
また、命令実行部620は、制御しようとする電子装置で既に実行中の制御命令が存在する場合、その既に実行中の制御命令を共に考慮して統合することができる。
命令実行部620は、受信された制御命令間に重複が存在するか、既に実行中の制御命令と矛盾する場合、複数のエージェント装置500の中から、インタラクションを行うエージェント装置500を選定してユーザとインタラクションを行い、ユーザとのインタラクションの結果に基づいて、何れか1つの制御命令を最終制御命令として決定することができる。
制御装置700は、制御命令処理装置600から制御命令を受信すると、該受信された制御命令が電子装置800で実行されるように制御することができる。この際、制御装置700は、示したように、電子装置とは別途のハードウェア装置に具現され、必要に応じては、電子装置800内にソフトウェアまたはハードウェアモジュールとして搭載されうる。
電子装置800は、制御装置700とペアリング連結を行い、制御装置700から受信された制御命令に該当する動作を行うことができる。
この際、制御装置700または電子装置800は、制御命令の実行結果、例えば、“居間の温度が20℃から21℃になるように設定しました。”のような結果を制御命令処理装置600に伝送し、制御命令処理装置600の命令実行部620は、インタラクションするエージェント装置500を通じてユーザに提供することができる。この際、インタラクションするエージェント装置500の音声エージェント510は、受信された結果を音声に変換して音声としてユーザに出力することができる。他の例によれば、エージェント装置500の音声エージェント510は、受信された結果をテキストに変換し、ユーザに表示することができる。
図6を参照して、他の実施形態のネットワーク制御装置2を説明する。図6の実施形態によれば、制御命令処理装置が、エージェント装置500内に搭載されうる。前述したものと同様に、ネットワーク制御装置2は、1つ以上のエージェント装置500、制御装置700及び電子装置800を含む。図5と同じ参照符号を有した構成は、同じ機能を行うので、詳しい説明は省略する。
エージェント装置500は、ユーザから音声を受信する音声エージェント510及び通信部620、及び制御命令処理装置の構成である命令タギング部610と命令実行部620とを含みうる。
エージェント装置500は、ユーザからマイクロホンなどを通じて音声が入力されれば、音声エージェント510を通じてユーザの音声に対して音声認識のような必要な作業を行った後、命令タギング部610及び命令実行部620を通じて何れか1つの最終制御命令を決定して、通信部520を通じて制御装置700に伝送しうる。この際、特定のエージェント装置500が、複数のユーザからほぼ同時に発話される複数の音声を受信する場合、そのエージェント装置500に搭載された音声エージェント510は、受信された複数の音声のそれぞれを制御命令として命令タギング部610に伝達し、命令タギング部610及び命令実行部620は、受信された複数の制御命令間の重複や既に実行中の命令との矛盾を解決して、電子装置800を制御させうる。
エージェント装置500は、ユーザからマイクロホンなどを通じて音声が入力されれば、音声エージェント510を通じてユーザの音声に対して音声認識のような必要な作業を行った後、命令タギング部610及び命令実行部620を通じて何れか1つの最終制御命令を決定して、通信部520を通じて制御装置700に伝送しうる。この際、特定のエージェント装置500が、複数のユーザからほぼ同時に発話される複数の音声を受信する場合、そのエージェント装置500に搭載された音声エージェント510は、受信された複数の音声のそれぞれを制御命令として命令タギング部610に伝達し、命令タギング部610及び命令実行部620は、受信された複数の制御命令間の重複や既に実行中の命令との矛盾を解決して、電子装置800を制御させうる。
例えば、居間が寒いと感じたいずれかのユーザが、19時1分に“居間の温度を1℃上げる”という音声を発話し、居間が暑いと感じた他のユーザが、19時2分に“居間の温度を1℃下げる”と発話する場合、エージェント装置500は、多様な基準によって何れか1つの命令のみを最終制御命令として決定して、制御装置700に伝送しうる。ここで、多様な基準は、あらかじめ設定されうる。例えば、後で受信された制御命令を最終制御命令として決定し、あるいは音声エージェント510を通じて、或る命令を最終的に実行するかどうかをユーザにクエリし、ユーザが選択した命令を最終制御命令として決定して、制御装置700に伝送しうる。通信部520は、命令実行部620の要求に応じて通信網に接続して制御装置700と連結を試み、連結に成功すれば、決定された最終制御命令を制御装置700に伝送しうる。
制御装置700は、受信された制御命令を電子装置800で実行されるように制御し、電子装置800は、制御装置700の制御によってユーザが要求する動作を行うことができる。
図7は、さらに他の実施形態のネットワーク制御装置3を示した図面である。図7の実施形態によれば、制御命令処理装置の構成610、620は、制御装置700内に搭載されうる。同様に、ネットワーク制御装置3は、1つ以上のエージェント装置500、制御装置700及び電子装置800を含み、図5及び図6の同じ参照符号を有する構成要素は、類似した機能を有するので、以下、詳しい説明は省略する。
エージェント装置500は、音声エージェント510を含み、制御装置700は、エージェント装置500から制御命令を受信する制御命令受信部710、命令タギング部610、命令実行部620及び制御部720を含みうる。
制御装置700は、制御命令受信部710を通じてエージェント装置500から制御命令を受信すると、命令タギング部610と命令実行部620とを通じて複数の制御命令及び既に実行中の制御命令を統合して、電子装置800で実行する最終制御命令を決定し、制御部720を通じて最終制御命令が電子装置800で実行されるように制御することができる。
図8及び図9は、さらに他の実施形態のネットワーク制御装置4、5を示した図面である。図8及び図9の実施形態によるネットワーク制御装置4、5は、エージェント装置500、制御装置700、電子装置800を含み、制御命令処理装置の各構成610、620は、それぞれ互いに異なる装置に分散して搭載されうる。図5ないし図7の同じ参照符号を有する構成要素は、類似した機能を有するので、以下、同じ構成の説明は省略する。
図8を参照すれば、ネットワーク制御装置4は、命令タギング部610がエージェント装置500に、命令実行部620が制御装置700に分散されて搭載されうる。この際、制御装置700の制御命令受信部710は、エージェント装置500の命令タギング部610によって追加情報がタギングされた制御命令を受信し、該受信された制御命令は、命令実行部620によって統合されて、制御部720を通じて電子装置800で実行可能である。
また、図9を参照すれば、ネットワーク制御装置5は、命令タギング部610がエージェント装置500、命令実行部620が電子装置800に分散して搭載されうる。この際、制御装置700が、エージェント装置500からの追加情報がタギングされた複数の制御命令と、あらかじめ登録されている実行予定である制御命令を電子装置800に伝送すれば、電子装置800が、その制御命令を統合して何れか1つの命令のみを実行することができる。例えば、電子装置800の通信部810は、ホームネットワーク通信網などに接続して制御装置700と連結し、制御装置700から制御命令を受信して命令実行部620に伝達することができる。この際、命令実行部620は、受信された命令を統合し、何れか1つの最終制御命令を決定して実行することができる。
また、これに図示されていないが、命令タギング部610は、エージェント装置500に搭載され、命令実行部620は、別途の制御命令処理装置に搭載されることもできる。但し、命令タギング部、命令実行部、エージェント装置、制御部、制御命令処理装置及び電子装置は、本発明の範囲内で配置され、その適用において、特に限定されるものではない。
図10は、さらに他の実施形態のネットワーク制御装置6を示した図面である。図10の実施形態によれば、制御命令処理装置の各構成610、620は、電子装置800に搭載されうる。ネットワーク制御装置6は、エージェント装置500、制御装置700及び電子装置800を含み、電子装置800は、通信部810、命令タギング部610、命令実行部620及び動作遂行部820を含みうる。電子装置800の通信部810が、制御装置700から複数の制御命令を受信すれば、命令タギング部610及び命令実行部620によって最終制御命令が決定され、該決定された最終制御命令が動作遂行部820によって行われる。以下、詳しい説明は省略する。
このように、音声エージェントを通じて電子装置を制御するネットワーク制御システムで、複数の制御命令の統合処理を行う制御命令処理技術が適用される多様な実施形態を説明した。しかし、前述した実施形態に限定されるものではなく、その他に多様に変形されて実施される。
また、本実施形態は、コンピュータで読取可能記憶媒体にコンピュータ読取可能コードとして具現することが可能である。コンピュータで読取可能記憶媒体は、コンピュータシステムによって読み取ることができるデータが保存される、あらゆる種類の記録装置を含む。
コンピュータ読取可能媒体の例としては、ROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データ保存装置などがあり、また、搬送波(例えば、インターネットを介した伝送)の形態で具現するものを含む。また、コンピュータ読取可能記憶媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式でコンピュータ読取可能コードとして保存されて実行されうる。そして、本実施形態を具現するための機能的な(functional)プログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論されうる。
当業者ならば、開示された技術的思想や必須的な特徴を変更せずとも、他の具体的な形態で実施可能であることを理解できるであろう。したがって、前述した実施形態は、あらゆる面で例示的なものであり、限定的ではないということを理解せねばならない。
本発明は、音声エージェントに基づく制御命令処理装置及び方法と、エージェント装置関連の技術分野に適用可能である。
110 命令タギング部
120 命令実行部
120 命令実行部
Claims (29)
- 電子装置の制御命令処理装置において、
少なくとも1つの音声エージェントから、電子装置に対する少なくとも1つの制御命令を受信し、前記少なくとも1つの制御命令に追加情報をタギングし、
複数の前記受信された制御命令に応答して、複数の制御命令のそれぞれにタギングされた追加情報に基づいて、前記複数の制御命令を統合し、該統合の結果に基づいて、前記電子装置を制御する
プロセッサを含む、制御命令処理装置。 - 前記プロセッサは、
前記少なくとも1つの音声エージェントから前記電子装置に対する少なくとも1つの制御命令を受信し、前記少なくとも1つの制御命令に追加情報をタギングする命令タギング部と、
前記命令タギング部が、複数の制御命令を受信したことに応答して、前記複数の制御命令のそれぞれにタギングされた追加情報に基づいて、前記複数の制御命令を統合し、該統合の結果に基づいて、前記電子装置を制御する命令実行部と、
を含む請求項1に記載の制御命令処理装置。 - 前記受信される制御命令は、音声プロンプトであるか、音声認識技術を通じて前記音声プロンプトが変換されたテキスト形式である
請求項2に記載の制御命令処理装置。 - 前記追加情報は、
ユーザが、前記少なくとも1つの制御命令に関する音声を発話した時間、前記少なくとも1つの音声エージェントから前記少なくとも1つの制御命令を受信した時間、前記少なくとも1つの制御命令に関する音声の認識の正確度、音声信号の強度、前記少なくとも1つの制御命令の長さ、前記少なくとも1つの制御命令から抽出されたハッシュ値、特性値、前記ユーザの情報、前記少なくとも1つの音声エージェントのエージェント装置情報、及び前記電子装置の情報のうちの1つ以上を含む
請求項2又は3に記載の制御命令処理装置。 - 前記命令実行部は、
前記複数の制御命令のそれぞれにタギングされた追加情報に基づいて、前記複数の制御命令を1つ以上のクラスターに統合する命令統合部と、
前記統合の結果に基づいて、前記電子装置を制御する最終制御命令を決定する最終命令決定部と、
を含む請求項2乃至4のいずれか一項に記載の制御命令処理装置。 - 前記命令統合部は、
前記複数の制御命令の相互間の類似度を算出し、該算出された類似度及び前記タギングされた追加情報に基づいて、前記複数の制御命令を1つ以上のクラスターに統合する
請求項5に記載の制御命令処理装置。 - 前記命令統合部は、
前記命令タギング部で時間間隔間に受信された制御命令に基づいて、前記複数の制御命令を1つ以上のクラスターに統合する
請求項5又は6に記載の制御命令処理装置。 - 前記最終命令決定部は、
前記1つ以上のクラスターのそれぞれについて、該クラスターの重心に該当する制御命令を、前記最終制御命令として決定する
請求項5乃至7のいずれか一項に記載の制御命令処理装置。 - 前記命令実行部は、
前記1つ以上のクラスター内に重複命令が存在する場合、ユーザに対して前記重複命令の処理に関するクエリを行うインタラクション部をさらに含み、
前記最終命令決定部は、
前記クエリの遂行の結果に基づいて、前記最終制御命令を決定する
請求項5乃至8のいずれか一項に記載の制御命令処理装置。 - 前記命令実行部は、
前記制御命令を伝達した音声エージェントが複数である場合、該複数の音声エージェントの中からユーザとインタラクションを行う音声エージェントを選定するエージェント選定部をさらに含む
請求項2乃至9のいずれか一項に記載の制御命令処理装置。 - 前記エージェント選定部は、
前記ユーザと前記音声エージェントとの距離、前記音声エージェントに対するユーザの選好度、前記音声エージェントの使用頻度、音声信号の強度、前記音声エージェントから受信された制御命令の音声認識の正確度のうちの何れか1つまたはこれらの組合せに基づいて、ユーザとインタラクションを行う音声エージェントを選定する
請求項10に記載の制御命令処理装置。 - 電子装置の制御命令を処理する方法において、
音声エージェントから制御命令を受信する段階と、
前記受信された制御命令に追加情報をタギングする段階と、
前記受信された制御命令が複数である場合、該複数の制御命令のそれぞれにタギングされた追加情報に基づいて、前記複数の制御命令を統合する段階と、
を含む制御命令処理方法。 - 前記複数の制御命令を統合する段階は、
前記受信された複数の制御命令にタギングされた追加情報に基づいて、前記複数の制御命令を1つ以上のクラスターに統合する段階と、
前記統合の結果に基づいて前記電子装置を制御する最終制御命令を決定する段階と、
を含む請求項12に記載の制御命令処理方法。 - 前記1つ以上のクラスターに統合する段階は、
前記複数の制御命令の相互間の類似度を算出する段階を含み、前記算出された類似度及び前記追加情報に基づいて、前記複数の制御命令を統合する
請求項13に記載の制御命令処理方法。 - 前記最終制御命令を決定する段階は、
前記1つ以上のクラスターのそれぞれに対して、該クラスターの重心に該当する命令を前記最終制御命令として決定する
請求項13又は14に記載の制御命令処理方法。 - 前記複数の制御命令を統合する段階は、
前記1つ以上のクラスター内に重複命令が存在すれば、ユーザに対して前記重複命令の処理に関するクエリを行う段階をさらに含み、
前記最終制御命令を決定する段階は、
前記クエリの遂行の結果に基づいて、前記最終制御命令を決定する
請求項13乃至15のいずれか一項に記載の制御命令処理方法。 - 前記複数の制御命令を統合する段階は、
前記制御命令を伝達した音声エージェントが複数である場合、該複数の音声エージェントの中から、ユーザとインタラクションを行う音声エージェントを選定する段階をさらに含む
請求項12乃至16のいずれか一項に記載の制御命令処理方法。 - プロセッサによって実行されると、前記プロセッサに、請求項12乃至17のいずれか一項に記載の制御命令処理方法を実行させる、コンピュータプログラム。
- 電子装置の制御命令処理装置において、
少なくとも1つの音声エージェントから、電子装置に対する少なくとも1つの制御命令を受信し、前記受信された少なくとも1つの制御命令に追加情報をタギングし、
前記制御命令にタギングされた追加情報に基づいて、前記受信された少なくとも1つの制御命令と、前記電子装置に対して既に実行中の制御命令とを統合し、
前記統合の結果に基づいて、前記電子装置を制御する
プロセッサを含む制御命令処理装置。 - 前記プロセッサは、
前記少なくとも1つの音声エージェントから、前記電子装置に対する前記少なくとも1つの制御命令を受信し、該受信された少なくとも1つの制御命令に追加情報をタギングする命令タギング部と、
前記少なくとも1つの制御命令にタギングされた追加情報に基づいて、前記受信された制御命令と前記電子装置に対して既に実行中の制御命令とを統合し、前記統合の結果に基づいて、前記電子装置を制御する命令実行部と、
を含む請求項19に記載の制御命令処理装置。 - 前記命令実行部は、
前記受信された制御命令と前記既に実行中の制御命令とが互いに矛盾するかどうかを判断する命令統合部と、
前記判断の結果、前記制御命令が矛盾する場合、前記制御命令の中から、前記電子装置を制御する最終制御命令を決定する最終命令決定部と、
を含む請求項20に記載の制御命令処理装置。 - 前記命令実行部は、
電子装置別に既に実行中の制御命令を保存する命令DBをさらに含み、
前記命令統合部は、
前記命令DBから、前記電子装置に対して既に実行中の制御命令を検出する
請求項21に記載の制御命令処理装置。 - 前記命令実行部は、
前記判断の結果、前記制御命令が矛盾する場合、ユーザに矛盾した命令の処理に関するクエリを行うインタラクション部をさらに含み、
前記最終命令決定部は、
前記クエリの遂行の結果に基づいて、前記最終制御命令を決定する
請求項21又は22に記載の制御命令処理装置。 - 前記命令実行部は、
音声エージェントの選定のためのポリシーを保存するポリシーDBと、
前記ポリシーDBを参照してユーザとインタラクションを行う音声エージェントを選定するエージェント選定部と、
をさらに含む請求項21乃至23のいずれか一項に記載の制御命令処理装置。 - ユーザから電子装置を制御するための音声形態の制御命令が入力されると、該入力された制御命令を命令タギング部に伝達する音声エージェントと、
前記電子装置を制御する1つ以上の制御命令を統合するための追加情報を、前記伝達された制御命令にタギングする命令タギング部と、
を含むエージェント装置。 - 前記電子装置を制御する1つ以上の制御命令を統合処理する制御命令処理装置に、前記追加情報がタギングされた前記制御命令を伝送する通信部をさらに含む
請求項25に記載のエージェント装置。 - 前記音声エージェントは、
前記制御命令処理装置から前記制御命令の処理結果を受信すると、前記制御命令の処理結果を音声形態に変換して出力する
請求項26に記載のエージェント装置。 - 前記制御命令の処理結果は、前記電子装置を制御する複数の重複命令の処理に関するクエリ及び前記制御命令の実行結果のうちの少なくとも1つを含む
請求項26又は27に記載のエージェント装置。 - 前記音声エージェントは、
前記制御命令が入力されると、前記制御命令が発話された時間、音声信号の強度、ユーザ情報、音声認識の正確度のうちの少なくとも1つを収集し、該収集された情報を前記命令タギング部に伝達する
請求項25乃至28のいずれか一項に記載のエージェント装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150142427A KR102429260B1 (ko) | 2015-10-12 | 2015-10-12 | 음성 에이전트 기반의 제어 명령 처리 장치 및 방법과, 에이전트 장치 |
KR10-2015-0142427 | 2015-10-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017076393A true JP2017076393A (ja) | 2017-04-20 |
Family
ID=57189780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016199885A Pending JP2017076393A (ja) | 2015-10-12 | 2016-10-11 | 音声エージェントに基づく制御命令処理装置及び方法、並びにエージェント装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10607605B2 (ja) |
EP (1) | EP3157007B1 (ja) |
JP (1) | JP2017076393A (ja) |
KR (1) | KR102429260B1 (ja) |
CN (1) | CN106571141B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020053040A (ja) * | 2018-09-27 | 2020-04-02 | 中強光電股▲ふん▼有限公司 | インテリジェント音声システム及び投影機制御方法 |
JP2020060809A (ja) * | 2018-10-04 | 2020-04-16 | トヨタ自動車株式会社 | エージェント装置 |
JP2020109475A (ja) * | 2019-01-02 | 2020-07-16 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話方法、装置、設備、及び記憶媒体 |
Families Citing this family (98)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10273678B2 (en) | 2014-12-19 | 2019-04-30 | Simpson Strong-Tie Company, Inc. | Column cap |
US10074364B1 (en) * | 2016-02-02 | 2018-09-11 | Amazon Technologies, Inc. | Sound profile generation based on speech recognition results exceeding a threshold |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10142754B2 (en) | 2016-02-22 | 2018-11-27 | Sonos, Inc. | Sensor on moving component of transducer |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9693164B1 (en) | 2016-08-05 | 2017-06-27 | Sonos, Inc. | Determining direction of networked microphone device relative to audio playback device |
US9794720B1 (en) | 2016-09-22 | 2017-10-17 | Sonos, Inc. | Acoustic position measurement |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
KR20180060328A (ko) | 2016-11-28 | 2018-06-07 | 삼성전자주식회사 | 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버 |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
JP2018167339A (ja) * | 2017-03-29 | 2018-11-01 | 富士通株式会社 | 発話制御プログラム、情報処理装置及び発話制御方法 |
US10552204B2 (en) * | 2017-07-07 | 2020-02-04 | Google Llc | Invoking an automated assistant to perform multiple tasks through an individual command |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US20190065608A1 (en) * | 2017-08-29 | 2019-02-28 | Lenovo (Singapore) Pte. Ltd. | Query input received at more than one device |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10531157B1 (en) * | 2017-09-21 | 2020-01-07 | Amazon Technologies, Inc. | Presentation and management of audio and visual content across devices |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
CN107808669B (zh) * | 2017-09-30 | 2021-07-06 | 深圳市艾特智能科技有限公司 | 语音控制方法、智能家居系统、存储介质和计算机设备 |
TWI661319B (zh) * | 2017-11-30 | 2019-06-01 | 財團法人資訊工業策進會 | 根據文本產生控制指令之裝置、方法及其電腦程式產品 |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
CN108257596B (zh) * | 2017-12-22 | 2021-07-23 | 北京小蓦机器人技术有限公司 | 一种用于提供目标呈现信息的方法与设备 |
CN108231075A (zh) * | 2017-12-29 | 2018-06-29 | 北京视觉世界科技有限公司 | 清洁设备的控制方法、装置、设备和存储介质 |
TWI651966B (zh) * | 2017-12-29 | 2019-02-21 | 瑞軒科技股份有限公司 | 影音控制系統 |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
KR102515023B1 (ko) | 2018-02-23 | 2023-03-29 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
CN109088802A (zh) * | 2018-09-13 | 2018-12-25 | 天津西青区瑞博生物科技有限公司 | 一种基于安卓控制平台的语音识别家居机器人 |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
CN110910868B (zh) * | 2018-09-14 | 2022-09-20 | 上海子光信息科技有限公司 | 自扩展的语音控制系统 |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11315553B2 (en) * | 2018-09-20 | 2022-04-26 | Samsung Electronics Co., Ltd. | Electronic device and method for providing or obtaining data for training thereof |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US20200143235A1 (en) * | 2018-11-01 | 2020-05-07 | Honda Motor Co., Ltd. | System and method for providing smart objects virtual communication |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US10944588B2 (en) | 2018-11-29 | 2021-03-09 | International Business Machines Corporation | Resolving conflicting commands received by an electronic device |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
CN111508483B (zh) * | 2019-01-31 | 2023-04-18 | 北京小米智能科技有限公司 | 设备控制方法及装置 |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11417323B2 (en) | 2019-02-27 | 2022-08-16 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
EP3709194A1 (en) | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
CN112051743A (zh) * | 2019-06-06 | 2020-12-08 | 北京三星通信技术研究有限公司 | 设备控制方法、冲突处理方法、相应的装置及电子设备 |
KR102252526B1 (ko) | 2019-06-07 | 2021-05-14 | 부산대학교 산학협력단 | 경량 IoT 장치를 위한 지능형 음성 서비스 지원 장치 및 방법 |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
KR102280690B1 (ko) | 2019-08-15 | 2021-07-22 | 엘지전자 주식회사 | 지능적 음성 출력 방법, 음성 출력 장치 및 지능형 컴퓨팅 디바이스 |
US11094319B2 (en) | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
EP4037328A4 (en) * | 2019-09-27 | 2023-08-30 | LG Electronics Inc. | ARTIFICIAL INTELLIGENCE DISPLAY DEVICE AND SYSTEM |
WO2021075774A1 (en) * | 2019-10-16 | 2021-04-22 | Samsung Electronics Co., Ltd. | Method for controlling iot device and electronic device therefor |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11328722B2 (en) * | 2020-02-11 | 2022-05-10 | Spotify Ab | Systems and methods for generating a singular voice audio stream |
JP7318587B2 (ja) * | 2020-05-18 | 2023-08-01 | トヨタ自動車株式会社 | エージェント制御装置 |
US11308962B2 (en) * | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US20220180865A1 (en) * | 2020-12-03 | 2022-06-09 | International Business Machines Corporation | Runtime topic change analyses in spoken dialog contexts |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
CN114055464B (zh) * | 2021-09-30 | 2024-01-19 | 深圳市航盛电子股份有限公司 | 一种智能调度机械手工作的执行系统及其工作方法 |
CN115240668B (zh) * | 2022-07-06 | 2023-06-02 | 广东开放大学(广东理工职业学院) | 语音交互家居控制方法及机器人 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3357629B2 (ja) | 1999-04-26 | 2002-12-16 | 旭化成株式会社 | 設備制御システム |
JP3838029B2 (ja) | 2000-12-18 | 2006-10-25 | セイコーエプソン株式会社 | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム |
US20030167167A1 (en) * | 2002-02-26 | 2003-09-04 | Li Gong | Intelligent personal assistants |
US7480619B1 (en) | 2003-03-04 | 2009-01-20 | The Board Of Trustees Of The Leland Stanford Junior University | Integration manager and natural interaction processor |
US20050131677A1 (en) * | 2003-12-12 | 2005-06-16 | Assadollahi Ramin O. | Dialog driven personal information manager |
US7634406B2 (en) * | 2004-12-10 | 2009-12-15 | Microsoft Corporation | System and method for identifying semantic intent from acoustic information |
US20060293767A1 (en) * | 2005-06-28 | 2006-12-28 | Eischeid Todd M | Policy based automation rule selection control system |
JP2006227634A (ja) | 2006-03-29 | 2006-08-31 | Seiko Epson Corp | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 |
US20110060587A1 (en) | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US8788589B2 (en) * | 2007-10-12 | 2014-07-22 | Watchitoo, Inc. | System and method for coordinating simultaneous edits of shared digital data |
CN101272418B (zh) * | 2008-03-25 | 2012-07-18 | 宇龙计算机通信科技(深圳)有限公司 | 一种远程控制通信终端的方法和通信终端 |
US8458168B2 (en) * | 2009-03-27 | 2013-06-04 | Microsoft Corporation | Anticipating interests of an online user |
KR101072709B1 (ko) | 2009-06-15 | 2011-10-11 | 브이 앤드 씨 컴퍼니 리미티드 | 영역 우선 음성인식 홈네트워크 시스템 |
CN101834799B (zh) * | 2010-05-06 | 2012-12-19 | 工业和信息化部电信传输研究所 | 移动iptv的服务器选择方法、客户端、服务器和系统 |
EP2498250B1 (en) * | 2011-03-07 | 2021-05-05 | Accenture Global Services Limited | Client and server system for natural language-based control of a digital network of devices |
JP2012244238A (ja) | 2011-05-16 | 2012-12-10 | Funai Electric Co Ltd | 音声画像装置 |
CN102427465B (zh) * | 2011-08-18 | 2015-05-13 | 青岛海信电器股份有限公司 | 语音服务代理方法及装置、通过代理集成语音应用的系统 |
US20130073286A1 (en) | 2011-09-20 | 2013-03-21 | Apple Inc. | Consolidating Speech Recognition Results |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US20130238326A1 (en) * | 2012-03-08 | 2013-09-12 | Lg Electronics Inc. | Apparatus and method for multiple device voice control |
US9064491B2 (en) * | 2012-05-29 | 2015-06-23 | Nuance Communications, Inc. | Methods and apparatus for performing transformation techniques for data clustering and/or classification |
CN102945029B (zh) | 2012-10-31 | 2014-12-10 | 鸿富锦精密工业(深圳)有限公司 | 智能网关、智能家居系统及家电设备的智能控制方法 |
US9607046B2 (en) * | 2012-12-14 | 2017-03-28 | Microsoft Technology Licensing, Llc | Probability-based state modification for query dialogues |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9064001B2 (en) * | 2013-03-15 | 2015-06-23 | Nuance Communications, Inc. | Method and apparatus for a frequently-asked questions portal workflow |
US20160125880A1 (en) * | 2013-05-28 | 2016-05-05 | Zhigang Zhang | Method and system for identifying location associated with voice command to control home appliance |
KR102387567B1 (ko) * | 2015-01-19 | 2022-04-18 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US9704488B2 (en) * | 2015-03-20 | 2017-07-11 | Microsoft Technology Licensing, Llc | Communicating metadata that identifies a current speaker |
-
2015
- 2015-10-12 KR KR1020150142427A patent/KR102429260B1/ko active IP Right Grant
-
2016
- 2016-09-20 US US15/270,382 patent/US10607605B2/en active Active
- 2016-09-30 CN CN201610874212.1A patent/CN106571141B/zh active Active
- 2016-10-11 JP JP2016199885A patent/JP2017076393A/ja active Pending
- 2016-10-11 EP EP16193347.8A patent/EP3157007B1/en active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020053040A (ja) * | 2018-09-27 | 2020-04-02 | 中強光電股▲ふん▼有限公司 | インテリジェント音声システム及び投影機制御方法 |
JP7359603B2 (ja) | 2018-09-27 | 2023-10-11 | 中強光電股▲ふん▼有限公司 | インテリジェント音声システム及び投影機制御方法 |
JP2020060809A (ja) * | 2018-10-04 | 2020-04-16 | トヨタ自動車株式会社 | エージェント装置 |
JP7028130B2 (ja) | 2018-10-04 | 2022-03-02 | トヨタ自動車株式会社 | エージェント装置 |
JP2020109475A (ja) * | 2019-01-02 | 2020-07-16 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声対話方法、装置、設備、及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN106571141B (zh) | 2021-12-28 |
US20170103755A1 (en) | 2017-04-13 |
EP3157007B1 (en) | 2019-06-19 |
EP3157007A1 (en) | 2017-04-19 |
KR102429260B1 (ko) | 2022-08-05 |
US10607605B2 (en) | 2020-03-31 |
KR20170043055A (ko) | 2017-04-20 |
CN106571141A (zh) | 2017-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017076393A (ja) | 音声エージェントに基づく制御命令処理装置及び方法、並びにエージェント装置 | |
KR102453603B1 (ko) | 전자 장치 및 그 제어 방법 | |
US11942085B1 (en) | Naming devices via voice commands | |
US20190318002A1 (en) | Virtual assistant system | |
US11495222B2 (en) | Method for processing voice signals of multiple speakers, and electronic device according thereto | |
JP6744314B2 (ja) | クラウドソーシングに基づいてデジタルパーソナルアシスタントのための言語理解分類子モデルを更新すること | |
US10498673B2 (en) | Device and method for providing user-customized content | |
US10127906B1 (en) | Naming devices via voice commands | |
KR102424260B1 (ko) | Iot 기반 알림을 생성 및 클라이언트 디바이스(들)의 자동화된 어시스턴트 클라이언트(들)에 의해 iot 기반 알림을 자동 렌더링하게 하는 명령(들)의 제공 | |
US11721343B2 (en) | Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same | |
JP6619488B2 (ja) | 人工知能機器における連続会話機能 | |
US10916249B2 (en) | Method of processing a speech signal for speaker recognition and electronic apparatus implementing same | |
KR20150103586A (ko) | 음성 입력을 처리하는 방법 및 이를 수행하는 전자 장치 | |
US11908464B2 (en) | Electronic device and method for controlling same | |
JP2019175453A (ja) | ユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置 | |
CN115605859A (zh) | 基于设备特定信号来推断用于助理设备的语义标签 | |
CN114514575A (zh) | 集线器装置、包括集线器装置和多个装置的多装置系统以及集线器装置和多装置系统的操作方法 | |
KR101694011B1 (ko) | 복수 응용 소프트웨어에 대한 음성 대화 방법 및 장치 | |
KR102396147B1 (ko) | 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법 | |
KR20200040562A (ko) | 사용자 발화를 처리하기 위한 시스템 | |
KR102487078B1 (ko) | 허브 디바이스, 허브 디바이스 및 복수의 디바이스를 포함하는 멀티 디바이스 시스템 및 그 동작 방법 | |
US20230154462A1 (en) | Electronic device and method of restoring device state | |
US20230154463A1 (en) | Method of reorganizing quick command based on utterance and electronic device therefor | |
US20220310066A1 (en) | Electronic device for performing task corresponding to voice command and operation method therefor | |
JP2021135412A (ja) | 情報処理装置、および情報処理方法、並びにプログラム |