JP5610283B2 - External device control apparatus, external device control method and program - Google Patents
External device control apparatus, external device control method and program Download PDFInfo
- Publication number
- JP5610283B2 JP5610283B2 JP2010203137A JP2010203137A JP5610283B2 JP 5610283 B2 JP5610283 B2 JP 5610283B2 JP 2010203137 A JP2010203137 A JP 2010203137A JP 2010203137 A JP2010203137 A JP 2010203137A JP 5610283 B2 JP5610283 B2 JP 5610283B2
- Authority
- JP
- Japan
- Prior art keywords
- external device
- voice
- character string
- state information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Selective Calling Equipment (AREA)
Description
本発明は、外部機器制御装置、その外部機器制御方法及びプログラムに関し、特に、利用者の音声を認識しその認識した音声に従って外部機器を操作する技術に関する。 The present invention relates to an external device control apparatus, its external device control method, and program, and more particularly to a technique for recognizing a user's voice and operating the external device according to the recognized voice.
近年、人間の生活を支援するロボットが数多く開発されてきている。ロボットの一種であるヒューマノイドロボットは人間と同じ形をしたロボットであり、人間にかかる心理的負担が少ないことや、人間向けに設計された生活空間に容易に順応できることなどが利点とされる。このようなロボットは音声認識機能やジェスチャ機能などにより、人間とのコミュニケーションを自然な形で行えるように工夫されているものが多い。 In recent years, many robots that support human life have been developed. Humanoid robots, which are a type of robot, are robots that have the same shape as humans, and have advantages such as less psychological burden on humans and easy adaptation to living spaces designed for humans. Many of these robots are devised so that they can communicate with humans in a natural way by means of speech recognition functions and gesture functions.
一方で、音声認識機能を備えた電子機器も普及しつつある。カーナビゲーションシステムでは、リモコンやタッチパネルなどの手段に比べてハンズフリー入力が可能という圧倒的なメリットが音声認識にあるため、音声認識機能が比較的早期から普及している。携帯電話やスマートフォンなどの携帯端末ではキーボードなどの入力装置が小型になるため使いづらく、音声入力はそれに比べれば簡便であることから徐々に普及しつつある。 On the other hand, electronic devices having a voice recognition function are also becoming popular. In a car navigation system, since voice recognition has an overwhelming advantage that hands-free input is possible compared to means such as a remote controller and a touch panel, a voice recognition function has been widely used from a relatively early stage. In portable terminals such as mobile phones and smartphones, input devices such as keyboards are small and difficult to use, and voice input is becoming increasingly popular because it is simpler than that.
エアコンやテレビなどの電化製品においては、機能の多様化が進む一方で操作が複雑化し利用者がその機能を十分に使いこなせないという問題がある。音声認識や音声理解などの技術での解決が望まれているが、認識精度などの技術面やコスト面の問題があり普及が進んでいないのが現状である。 Electrical appliances such as air conditioners and televisions have a problem that their functions are diversified while operations are complicated and users cannot use the functions sufficiently. Although solutions with technologies such as speech recognition and speech understanding are desired, there are technical problems such as recognition accuracy and cost, and the current situation is that they are not widely used.
また、現在利用されている電子機器を別の観点からみると、さらなる利便性の追求、消費者の購買意欲の刺激、ユニバーサルデザインなどの理由により、多種多様な機能が盛り込まれる傾向にある。例えば、ネットワークを介した外出先からの機器の遠隔操作や、利用者やその環境の情報をセンサで取得して分析することで、テレビ番組の推薦やエアコンの省エネ運転などを行う技術が開発されている。 From another perspective, electronic devices that are currently used tend to include a wide variety of functions for reasons such as pursuing further convenience, stimulating consumers' willingness to purchase, and universal design. For example, technologies have been developed to recommend TV programs and save energy by operating air conditioners by remotely operating devices from outside the network and acquiring and analyzing information about users and their environment using sensors. ing.
現在、このような機能の大部分は電子機器ごとに個別に実現されているが、将来的には全ての電子機器がネットワークに接続され、たがいに情報を交換してより高度な機能を実現することが可能になると考えられる。その一つの実現形態として、センタサーバが各電子機器の情報を集約して分析し、各機器の制御を適切に行うという中央集権型の構成が考えられる。 Currently, most of these functions are implemented individually for each electronic device, but in the future all electronic devices will be connected to the network, and will exchange information and realize more advanced functions. It will be possible. As one implementation form, a centralized configuration in which the center server collects and analyzes information on each electronic device and appropriately controls each device is conceivable.
これらの背景を踏まえると、ロボットがセンタサーバの役割を果たして各電子機器の情報収集を行い、利用者と対話を行うことで利用者の潜在的な要求を明確化し、それらの結果を総合的に用いて電子機器の制御を行うというシステムが有用と考えられる。例えば特許文献1では、ロボットが利用者と対話を行い、ネットワークに接続された他の電子機器を制御する発明が開示されている。
Based on these backgrounds, the robot plays the role of the center server, collects information on each electronic device, and interacts with the user to clarify the potential demands of the user and comprehensively summarize the results. A system that uses it to control electronic devices is considered useful. For example,
以上に述べたロボットと電子機器の連携方法については、他にも様々な方法が考えられる。しかし、電子機器自身にも音声認識機能が搭載され、さらにロボットが家庭に普及したとき、既知の方法はいずれも音声認識機能が十分に活用されているとはいえない。例えば特許文献1のようにロボットが他の電子機器の制御を司るシステムを構成した場合、様々な課題が浮上する。
Various other methods are conceivable for the above-described cooperation method between the robot and the electronic device. However, when the electronic device itself is equipped with a voice recognition function and the robot has spread to the home, it cannot be said that any of the known methods make full use of the voice recognition function. For example, when a robot configures a system that controls other electronic devices as in
1つの課題は、利用者の要求がある電子機器を操作したいという明確なものである場合にある。利用者がロボットを介して電子機器を操作しようとすると、ロボットが遠くにいる場合は自分の近くに呼ぶ必要があったり、ロボットがこちらが退屈していると判断して雑談を持ちかけ電子機器の操作が妨げられるなど、不都合な状況が起こりうる。 One problem is when it is clear that the user desires to operate an electronic device. When a user tries to operate an electronic device via a robot, if the robot is far away, it is necessary to call it close to you, or if the robot determines that you are bored, you can chat with the electronic device. Inconvenient situations can occur, such as the operation being hindered.
このような場合は、ロボットを無視して直接電子機器を操作しようと考えるだろう。しかし、電子機器への音声入力は一般にロボットよりも貧弱な言語理解しかなされず、特定の言葉以外は受け付けられないことが多い。従って、普段ロボットを介して電子機器を操作している利用者が適切な音声入力の言葉を発して操作に成功する確率は低い。このような状況は、ロボットが有効に活用されているとはいいがたい。 In such a case, you may want to ignore the robot and operate the electronic device directly. However, speech input to electronic devices is generally poorer in language understanding than robots, and only specific words are often accepted. Therefore, the probability that a user who normally operates an electronic device via a robot will utter an appropriate voice input word and succeed in the operation is low. It is hard to say that such a situation makes effective use of robots.
他の課題は、ロボットが電子機器をネットワーク経由でコントロールすることに利用者が違和感を覚える可能性があることである。ロボットの機能や見た目が人間に近付くことで、利用者がロボットを人間と同等の存在として捉えやすくなるが、いざそう捉えたとき、電子機器の操作においても人間と同じ方法で行うほうが利用者にはごく自然にうつる。 Another problem is that the user may feel discomfort when the robot controls the electronic device via the network. The robot's functions and appearance approach humans, making it easier for users to perceive robots as being equivalent to humans. However, when they do so, it is better for users to operate electronic devices in the same way as humans. It moves very naturally.
本発明の一態様は、利用者の音声を認識して外部機器の制御を行う外部機器制御装置であって、音声を受信する受信部と、前記受信装置が受信した音声を文字列に変換する音声認識部と、前記音声認識部が変換した文字列を含む状態情報を記憶する状態情報記憶領域と、前記外部機器制御装置の動作と前記状態情報における条件とを関連付ける動作情報を記憶する動作情報記憶領域と、前記状態情報記憶領域と前記動作情報記憶領域とを参照して、前記文字列を含む状態情報が外部機器の音声及び/又はジェスチャによる操作と関連付けられている条件を満たすか否かを判定する動作計画部と、前記文字列を含む状態情報が前記条件を満たしていると前記動作計画部が判定した場合、前記外部機器操作に対応する音声波形及び/又はジェスチャのパターンを生成するパターン生成部と、前記パターンに従って前記音声波形及び/又はジェスチャの出力動作を行う出力部を含むことを特徴とする。 One aspect of the present invention is an external device control apparatus that recognizes a user's voice and controls an external device, the receiving unit receiving the voice, and converting the voice received by the receiving device into a character string. Operation information for storing a speech recognition unit, a state information storage area for storing state information including a character string converted by the speech recognition unit, and operation information for associating an operation of the external device control device with a condition in the state information Whether status information including the character string satisfies a condition associated with an operation by voice and / or gesture of an external device with reference to the storage area, the status information storage area, and the motion information storage area And when the operation planning unit determines that the state information including the character string satisfies the condition, the audio waveform and / or gesture corresponding to the external device operation A pattern generator for generating a pattern, characterized in that it comprises an output unit for performing the voice waveform and / or gestures of the output operation in accordance with the pattern.
本発明によれば、利用者が外部機器の音声及び/又はジェスチャによる適切な操作方法を学習することができる。 According to the present invention, a user can learn an appropriate operation method using voice and / or gestures of an external device.
以下において、本発明を実施するための形態を説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。又、各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略されている。 Below, the form for implementing this invention is demonstrated. For clarity of explanation, the following description and drawings are omitted and simplified as appropriate. Moreover, in each drawing, the same code | symbol is attached | subjected to the same element and the duplication description is abbreviate | omitted as needed for clarification of description.
本実施形態の本実施形態のサービスロボットは、外部の電子機器の制御機能に特徴を有している。電子機器としては、エアコン、テレビ、電子レンジ、ステレオセット、照明装置、ドアや窓などの開閉部材の駆動制御装置などがある。 The service robot according to the present embodiment is characterized by a control function of an external electronic device. Electronic devices include air conditioners, television sets, microwave ovens, stereo sets, lighting devices, drive control devices for opening and closing members such as doors and windows.
サービスロボットは音声認識機能を有し、利用者の発した言葉を認識する。サービスロボットは、利用者から音声によって外部機器の操作を指示されると、その外部機器を操作する。好ましい構成において、サービスロボットは利用者と対話し、利用者とコミュニケーションをとりながら外部機器を操作する。 The service robot has a voice recognition function, and recognizes words uttered by the user. When the service robot is instructed to operate the external device by voice, the service robot operates the external device. In a preferred configuration, the service robot interacts with the user and operates an external device while communicating with the user.
その外部機器の操作において、サービスロボットは、人間の音声及び/又はジェスチャによるその外部機器の操作を模倣した動作を行う。サービスロボットは、操作対象の外部機器の機能に応じて、音声、ジェスチャ又はそれらを組み合わせた動作を行う。これにより、利用者が外部機器の音声及び/又はジェスチャによる適切な操作方法を学習することができる。また、利用者がサービスロボットに非人間的な面を見出す可能性を小さくすることができる。 In the operation of the external device, the service robot performs an operation imitating the operation of the external device by human voice and / or gesture. The service robot performs voice, gesture, or a combination of them according to the function of the external device to be operated. Thereby, the user can learn an appropriate operation method by voice and / or gesture of the external device. In addition, it is possible to reduce the possibility that the user will find an inhuman face in the service robot.
<第一の実施形態>
最初に、本発明の第一の実施形態を説明する。本実施形態においては、サービスロボットは、外部機器操作のための音声を出力する。図1は、本実施形態のサービスロボットの構成を模式的に示すブロック図である。サービスロボットは、本実施形態の特徴である外部器制御機能を備えており、外部機器制御装置である。本実施形態は、特に、サービスロボットにおける外部機器制御機能について説明を行う。
<First embodiment>
First, a first embodiment of the present invention will be described. In the present embodiment, the service robot outputs a sound for operating an external device. FIG. 1 is a block diagram schematically showing the configuration of the service robot of this embodiment. The service robot has an external device control function, which is a feature of this embodiment, and is an external device control device. In the present embodiment, an external device control function in the service robot will be described in particular.
サービスロボット10は、CPU(中央演算装置)20、記憶装置30、バス40を備え、さらに入出力デバイスとしてNIF(ネットワークインタフェース)50、スピーカ60、マイク70、温度センサ80、タイマ81、移動機構制御装置90及び移動機構91を備える。
The
CPU20は、記憶装置30が備える後述の各プログラムを実行する演算装置である。記憶装置30は、DRAMやSRAMなどの揮発性媒体を有するデータ記憶装置、ハードディスクドライブなどの不揮発性媒体を有する記憶装置又はその組み合わせである記憶装置である。
The
記憶装置30は、外部機器制御のためのデータとして、機器データベース(DB)311、動作DB312、語彙DB313、内部状態DB314、動作キュー315、システム声質DB316及び利用者声質DB317を格納している。これらのDBは、それぞれ、記憶装置30における対応する記憶領域に格納されている。
The
本実施形態において、記憶装置30に格納される情報は、データ構造に依存せず、どのようなデータ構造で表現されていてもよい。例えば、テーブル、リスト、データベースあるいはキューから適切に選択したデータ構造体が、情報を格納することができる。上記DBのいくつかにより一つのDBを構成してもよく、一つのDBを複数のファイルで構成してもよい。
In the present embodiment, the information stored in the
記憶装置30は、さらに、プログラムとして、外部装置管理プログラム321、動作計画プログラム322、音声認識プログラム323、システム音声合成プログラム324及び利用者音声合成プログラム325を格納している。プログラムはCPU20によって実行されることで、定められた処理を行う。
The
従って、以下においてプログラムを主語とする説明は、CPU20を主語とした説明でもよい。上記プログラムに従って動作するCPU20は、動作計画部、音声認識部、出力パターン生成部として機能する。プログラムが実行する処理は、そのプログラムが動作するサービスロボット10が行う処理でもある。プログラムの一部又は全部は、専用ハードウェアによって実現されてもよい。プログラムは、プログラム配布サーバや、計算機読み取り可能媒体によってサービスロボット10にインストールすることができ、記憶装置30に格納することができる。
Therefore, in the following description, the description with the program as the subject may be an explanation with the
バス40には、CPU20、記憶装置30、NIF50、スピーカ60、マイク70、温度センサ80、タイマ81及び移動機構制御装置90が接続されており、各装置が相互にデータを通信するために利用される。
The
NIF50は、サービスロボット10と外部機器との間においてデータを送受信するために用いられる装置である。具体的な通信内容については後述する。スピーカ60は、バス40を介して受信した音声データを空気振動に変換して出力する。マイク70は、空気振動を検出して音声データに変換し、バス40に出力する。温度センサ80は、温度を検出してバス40に出力する。タイマ81は、現在時刻をバス40に出力する。
The
移動機構制御装置90は、バス40を介して他のプログラムから受けた指令に従い、移動機構91の駆動制御を実行する。移動機構91は本実施形態では車輪を想定するが、脚、モータ、ステアリングなど、移動機構91はサービスロボット10を移動するためのどのような手段でもよい。
The movement
次に、外部装置管理プログラム321の動作を、図2を参照して説明する。外部装置管理プログラム321は、機器DB311及び語彙DB313により、外部機器の管理を行う。外部装置管理プログラム321は、機器DB311及び語彙DB313のエントリの追加、変更及び削除を行う。機器DB311及び語彙DB313の一例は、それぞれ、図3及び図4に示されている。これらについては後述する。
Next, the operation of the external
図2のフローチャートに示すように、外部装置管理プログラム321は、サービスロボット10の起動後に起動される(S101)。NIF50を介して外部機器から参加イベントパケットを受信した場合(S102におけるY)、外部装置管理プログラム321は、参加イベントパケットの内容に従い、機器DB311にエントリを追加する(S103)。
As shown in the flowchart of FIG. 2, the external
NIF50から離脱イベントパケットを受信した場合(S104におけるY)、外部装置管理プログラム321は、離脱イベントパケットが指定する機器IDに該当するエントリを機器DB311から削除する(S105)。また、NIF50から語彙データパケットを受信した場合(S106におけるY)、語彙データパケットの内容に従い語彙DB313の内容を更新する(S107)。外部装置管理プログラム321は、サービスロボット10の稼働中、このように常にNIF50の受信パケットを監視し、機器DB311及び語彙DB313を更新しつづける。
When the disconnection event packet is received from the NIF 50 (Y in S104), the external
図3は、機器DB311の好ましい一例を示している。本例は、外部装置管理プログラム321が3つの外部機器からそれぞれ参加イベントパケットを受信した場合の機器DB311の内容を示している。参加イベントパケットには、図3の機器DB311の列に対応した内容、すなわち、「機器ID」、「機器の種別」、「音声機能の対応/非対応」、「合成プロファイル」、「位置」、「音声認識推奨位置」が記述されている。
FIG. 3 shows a preferred example of the
「機器ID」は、外部機器固有の識別子である。「機器の種別」は、外部機器の種別を表す識別子である。「音声機能の対応/非対応」は、外部機器が音声認識により操作可能かどうかを表す情報である。「合成プロファイル」は、外部機器に対しサービスロボット10がシステム音声合成プログラム324により音声を出力するのに用いる情報である。詳細は後述する。
“Device ID” is an identifier unique to the external device. “Device type” is an identifier representing the type of external device. “Support / non-support of voice function” is information indicating whether or not an external device can be operated by voice recognition. “Synthesis profile” is information used by the
「位置」は、外部機器が存在する物理空間内での座標であり、外部機器自身の位置判別機能が取得した情報あるいは利用者が設定した情報に基づいて決まる。「音声認識推奨位置」は、外部機器を音声で操作する際に推奨される利用者の位置であり、外部機器からの相対位置で決定する。 The “position” is a coordinate in a physical space where the external device exists, and is determined based on information acquired by the position determination function of the external device itself or information set by the user. The “speech recognition recommended position” is a position of a user recommended when operating the external device by voice, and is determined by a relative position from the external device.
図4は、語彙DB313の好ましい一例を示している。語彙DB313は、外部機器の操作内容とその操作のための語彙とを関連付けて記憶している。操作内容は、語彙に応答して外部機器が行う動作である。図4の例においては、3つの操作内容(外部機器の動作)と、操作内容のそれぞれに対応する語彙とが、語彙DB313に登録されている。
FIG. 4 shows a preferred example of the
サービスロボット10は、参加イベントパケットによって外部機器の属性情報(機器DB311及び語彙DB313に格納する情報)を取得するのではなく、記憶装置30に、別途機器IDと関連付けて予め記憶されている外部機器情報を用いてもよい。この構成においては、参加イベントパケットには、外部機器情報が記述されていなくともよい。サービスロボット10は、外部ネットワークを介して外部機器の情報を取得する又はユーザがその情報をサービスロボット10に登録してもよい。
The
次に、動作計画プログラム322の動作を、図5A及図5Bを参照して説明する。動作計画プログラム322は、サービスロボット10の動作を制御する。動作計画プログラム322は、サービスロボット10の今後の動作を決定し(計画し)、他のプログラム及び装置に対して決定した動作を指示する。
Next, the operation of the
動作計画プログラム322は、内部状態DB314に登録されている状態情報が規定の条件を満足している場合、外部機器を操作することを決定する。内部状態DB314は、状態情報として、利用者音声の認識結果(音声からの変換文字列)の他、温度センサ80の検出温度、タイマ81の計測時間及び利用者の設定情報などを格納することができる。内部状態DB314が格納する情報は、サービスロボット10の設計及び動作に依存する。
The
動作DB312は、内部状態DB314の状態情報における規定条件と外部機器操作とを関連付けた情報を格納している。上述のように、本実施形態の状態情報は、利用者の音声の認識結果を含む。動作DB312は、内部状態DB314に利用者の音声による外部機器操作の指示が含まれている場合に、外部機器を操作する。
The
図5A及び図5Bは、本実施形態における動作計画プログラム322の動作を示すフローチャートである。図5Bは、図5Aにおけるステップ207の詳細を示す。動作計画プログラム322は、これらに示す動作を繰り返し実行する。図5Aに示すように、動作計画プログラム322はサービスロボット10の起動後に起動される(S201)。
5A and 5B are flowcharts showing the operation of the
動作計画プログラム322は、まず、サービスロボット10の各センサ(温度センサ80、タイマ81)から情報を取得し、内部状態DB314を更新する(S202)。次に、動作計画プログラム322は、動作DB312及び内部状態DB314を参照し、動作DB312の各項目の条件と内部状態DB314の内容を照合し、条件を満たしているかを調べる(S203)。条件を満たす項目があれば(S203におけるY)、動作計画プログラム322は、動作DB312においてその項目の動作の欄に記述された動作を動作キュー315に追加する(S204)。
First, the
次に、動作計画プログラム322は、動作キュー315に動作が一つ以上登録されているかを調べる(S205)。登録されているものがない場合(S205におけるN)、動作計画プログラム322は、ステップ202に戻る。登録されているものがある場合(S205におけるY)、動作計画プログラム322は、動作キュー315の先頭の動作を表すデータを取り出し、その動作の種類を特定する(S206)。動作計画プログラム322は、以降のステップにおいて、その特定した種類に応じた処理を実行する。
Next, the
ステップ206で特定した種類が「外部機器操作」以外の場合(S206における他の種類)、動作計画プログラム322は、ステップ207を実行する。動作計画プログラム322は、特定した動作の種類に対応する処理を複数の処理から選択して実行する。図5Bは、ステップ207において選択的に実行される複数の処理を示している。
When the type specified in step 206 is other than “external device operation” (other types in S206), the
図5Bに示すように、動作の種類が「移動」の場合、動作計画プログラム322は、移動機構制御装置90に指令を出す(S207a)。動作の種類が「システム音声出力」の場合、動作計画プログラム322は、システム音声合成プログラム324に指令を出す(S207b)。動作の種類が「状態変更」の場合、動作計画プログラム322は、内部状態DB314を更新する(S207c)。
As shown in FIG. 5B, when the type of operation is “move”, the
動作計画プログラム322は、種類が「ネットワーク送信」の場合、NIF50に送信指令を出す(S207d)。動作の種類が「利用者音声出力」の場合、動作計画プログラム322は、利用者音声合成プログラム325に指令を出す(S207e)。動作の種類が「操作完了」の場合、動作計画プログラム322は、対象の外部機器に音声認識ONを指令するネットワーク送信動作を追加する(S207f)。「操作完了」は、外部機器の操作の完了を意味する。ステップ207a〜ステップ207fについては後述する。
If the type is “network transmission”, the
次に、ステップ206において動作の種類が「外部機器操作」の場合について説明する。動作キュー315に「外部機器操作」が登録される条件として、内部状態DB314に、外部機器操作の指示に相当する利用者音声の認識結果が格納されている。本構成例においては、音声認識プログラム323が、音声認識結果の文字列を内部状態DB314に格納する。この点は後述する。外部機器操作に対応付けられている内部状態DB314の項目は、利用者の認識音声のみであることもあれば、他の項目を含むこともある。
Next, a case where the operation type is “external device operation” in step 206 will be described. As a condition for registering “external device operation” in the
動作計画プログラム322は、まず機器DB311を参照して、操作対象となる外部機器を選択する(S208)。さらに、動作計画プログラム322は、その外部機器の音声認識推奨位置を機器DB311から取得し、上記推奨位置へサービスロボット10を移動させるための「移動」動作を、動作キュー315に追加する(S209)。
The
次に、動作計画プログラム322は、対象の外部機器に対して「音声認識OFF」を指令する「ネットワーク送信」動作を、動作キュー315に追加する(S210)。次に、対象の外部機器の語彙DB313を参照して、操作内容に対応する語彙を選択する。さらに、その語彙を音声出力するための「利用者音声出力」動作を、動作キュー315に追加する(S211)。最後に外部機器に対して操作内容の実行を指令するパケットを送信させるための「ネットワーク送信」動作を、動作キュー315に追加する(S212)。
Next, the
動作計画プログラム322は、ステップ202〜ステップ206を実行して後、動作キュー315に追加された動作に応じた処理を行う(S207)。上述のように、動作キュー315に登録された動作は、推奨位置への「移動」(S209)、「音声認識OFF」を指令する「ネットワーク送信」(S210)、登録語彙の「利用者音声出力」(S211)及び操作実行指令パケットの「ネットワーク送信」(S212)である。
The
動作計画プログラム322は、上記動作を上記の順で実行する。具体的には、まず、動作計画プログラム322は、機構制御装置90に推奨位置への移動を指令する(S207a)。機構制御装置90は、指令に従って移動機構91を制御し、サービスロボット10を推奨位置に移動する。
The
次に、動作計画プログラム322は、NIF50に対象の外部機器に対して「音声認識OFF」の指示を送信することを指令する(S207d)。NIF50は、その指令に応じて、「音声認識OFF」の指示を対象の外部機器に送信する。指示を受けた外部機器は、その音声認識機能をOFFする。
Next, the
次に、動作計画プログラム322は、外部機器操作に対応する語彙を出力することを、利用者音声合成プログラム325に指令する(S207e)。利用者音声合成プログラム325は、動作計画プログラム322からの指令に応じて、上記語彙を表す音声波形を生成し、スピーカ60を介して出力する。
Next, the
次に、動作計画プログラム322は、NIF50に対象の外部機器に対して操作実行の指示パケットを送信することを指令する(S207d)。NIF50は、その指示に応じて、対象の外部機器に上記パケットを送信する。指示を受けた外部機器は、パケットが示す指示に従った動作を行う。
Next, the
利用者音声合成プログラム325は、音声出力の後、「音声操作完了」の動作を動作キュー315に追加する(図7のS405)。動作計画プログラム322は、「音声認識ON」の指示を対象の外部機器に対して送信する動作を動作キュー315に追加する(S207f)。
After the voice output, the user
その後、利用者音声合成プログラム325は、動作キュー315に登録されている指示に従って、NIF50に「音声認識ON」の指示を対象の外部機器に対して送信することを指令する(S207d)。NIF50は、その指示に応じて、「音声認識ON」の指示を対象の外部機器に送信する。指示を受けた外部機器は、その音声認識機能をONする。これにより、この一連の動作の後は利用者自身が再度音声認識で外部機器を制御できる準備が整う。
Thereafter, the user
このように、サービスロボット10は、利用者の音声を認識し、音声による外部機器操作の指示に従って、外部機器を操作する。本実施形態において、音声認識プログラム323が、利用者の音声認識を行う。音声認識プログラム323の動作を、図6を参照して説明する。
In this way, the
音声認識プログラム323はサービスロボット10の起動後に起動される(S301)。音声認識プログラム323は、まず、マイク70から音声データを取得する(S302)。音声データから利用者の声を検出するまで、音声データを順次取得する(S303)。利用者の声が検出されたかどうかを判断する技術は広く知られている。例えば、音声認識プログラム323は、「“音声認識の基礎”Lawrence Rabiner, Biing-Hwang Juang著、古井貞煕監訳、NTTアドバンステクノロジ株式会社発行」に示されているような一般的な音声検出方法を用いる。
The
次に、音声認識プログラム323は、取得した音声データから利用者の声の特徴を抽出し、利用者声質DB317に登録する(S304)。声の特徴とは、音素ごとの波形そのものや、基本周波数、継続長などであり、これらのパラメータを音声合成プログラム324で利用することで利用者の声に近い合成音声を作成しうるものである。声の特徴を抽出する技術は広く知られたものであり、例えば、HMM-based Speech Synthesis System (HTS)のような、HMM(Hidden Markov Model)音声合成法による話者適応を用いて実現できる。
Next, the
次に、音声認識プログラム323は、利用者の音声認識処理を行い、音声が認識された場合(S305におけるY)、音声認識結果の文字列を内部状態DB314に登録する。音声が認識されない場合(S305におけるN)、音声認識プログラム323は最初のステップ302に戻る。
Next, the
図5を参照して説明したように、好ましい構成において、サービスロボット10は、利用者の声で外部機器に操作指示の音声を出力する。本構成例において、利用者音声合成プログラム325が、利用者の声による出力音声(の波形)を合成する。以下において、図7のフローチャートを参照して、利用者音声合成プログラム325の動作を説明する。
As described with reference to FIG. 5, in a preferred configuration, the
利用者音声合成プログラム325は、利用者音声合成プログラム325はサービスロボット10の起動後に起動される(S401)。利用者音声合成プログラム325は、まず、音声出力の指令を受信するまで待機する(S402)。指令を受信したら、合成音声の波形を計算する(S403)。文字列から音声を合成する様々な技術が知られており、利用者音声合成プログラム325は、例えば、「"An Introduction to Text-to-Speech Synthesis", by Thierry Dutoit, KLUWER ACADEMIC PUBLISHERS」に示されているような一般的な音声合成方法を用いることができる。
The user
このとき、利用者音声合成プログラム325は、機器DB311に記述された合成プロファイル及び利用者声質DB317に基づき、音声合成に用いるパラメータを変更する。例えば、図3に示した機器DBでは、合成プロファイルとして「声質」及び「推奨発話速度」が登録されている。「声質」は声道特性など合成音声の声質を指定するパラメータである。「推奨発話速度」は合成音声の発話速度を示したものである。
At this time, the user
例えば、「HTC_AC_10A」に対する合成音声を作成する場合、「声質」が指定されているので、利用者音声合成プログラム325は、指定されたパラメータを用いる。また「発話速度」がslowなので、利用者音声合成プログラム325は、通常よりも発話速度が遅い(例えば通常4モーラ毎秒に対して3モーラ毎秒)合成音声を作成する。また、「音量」が「+3dB」なので、利用者音声合成プログラム325は、通常よりも音量が3dB大きい合成音声を作成する。
For example, when a synthesized speech for “HTC_AC — 10A” is created, “voice quality” is designated, so the user
次に、利用者音声合成プログラム325は、作成した合成音声の波形をスピーカ60に出力する(S404)。スピーカ60への出力が完了したら、「音声操作完了」の種類の動作を動作キュー315に追加する(S405)。
Next, the user
好ましい構成において、サービスロボット10は、利用者との対話においては、利用者の声とは異なるシステム音声を使用する。本構成において、システム音声は、システム音声合成プログラム324によって生成される。図8は、システム音声合成プログラム324の動作を示すフローチャートである。
In a preferred configuration, the
システム音声合成プログラム324は、サービスロボット10の起動後に起動される(S501)。まず、音声出力の指令を受信するまで待機する(S502)。指令を受信したら(S502におけるY)、システムの声の特徴が示されたシステム声質DB316に基づき合成音声の波形を計算する(S503)。
The system
文字列から音声を合成する方法としては、システム音声合成プログラム324は、"An Introduction to Text-to-Speech Synthesis", by Thierry Dutoit, KLUWER ACADEMIC PUBLISHERSに示されているような一般的な音声合成方法を用いることができる。システム音声合成プログラム324は、作成した合成音声の波形をスピーカ60に出力する(S504)。
As a method of synthesizing speech from character strings, the system
以下において、サービスロボット10による外部機器操作の具体例を説明する。本例において、サービスロボット10は、利用者の音声による指示に従って、エアコンの冷房機能を操作する。図9は、動作計画プログラム322により更新(図5AにおけるS202)された内部状態DB314を示している。
Hereinafter, a specific example of external device operation by the
この内部状態DB314において、温度センサ80の情報(検出温度)が状態名「温度センサ」のフィールドに、タイマ81の情報(時刻)が、状態名「現在時刻」の項目に反映されている。そのほかに、「ユーザ上限温度」が28℃と別途設定されており、これは、利用者自身が設定することができる任意の項目の1つである。
In this
動作計画プログラム322は、図10に示す動作DB312と図9に示す内部状態DB314とを比較する(S203)。図10の動作DB312に登録されている条件において、「温度センサ感知温度>ユーザ上限温度」の条件が満足している。従って、動作計画プログラム322は、対応する動作を動作キュー315に追加する(S204)。
The
図11は、条件「温度センサ感知温度>ユーザ上限温度」に対応する動作が登録された動作キュー315を示している。先頭の動作の種類は「システム音声出力」である。従って、動作計画プログラム322は、システム音声合成プログラム324に「クーラつけますか?」という音声を出力するよう指令する(図5BにおけるS207b)。
FIG. 11 shows an
図11の動作キュー315の2番目、3番目の動作の種類は「状態変更」なので、動作計画プログラム322は、内部状態DB314を更新する(S207c)。図12は、更新され内部状態DB314を示している。「クーラ質問」の状態値は「1」であり、「待機時間」の状態値は、「現在時刻」の状態値に10を可算した値である。
Since the type of the second and third operations in the
次に、利用者が「おねがいします」と発話したとする。音声認識プログラム323が利用者の音声認識処理を行い(図6を参照)、利用者の「おねがいします」という言葉を認識する。音声認識プログラム323は、その認識結果に応じて内部状態DB314を更新する(図6におけるS306)。図13は、この更新された内部状態DB314を示している。「音声入力」の状態値は、「おねがいします」である。
Next, it is assumed that the user utters “Please, please”. The
動作計画プログラム322は、図13の内部状態DB314と図10の動作DB312とを比較する。動作DB312の3番目の項目の条件が満たされている。従って、動作計画プログラム322は、対応する動作を動作キュー315に追加する(S204)。図14は、この動作キュー315を示している。1番目の動作種類は「システム音声出力」であり、その動作内容は「了解しました」である。2番目の動作種類は外部機器操作であり、その動作内容は「エアコンON、設定温度26℃」である。
The
動作計画プログラム322は、図14に示す動作キュー315に登録されている指示に従って、まず、システム音声合成プログラム324にシステム音声の出力を指令する(S207b)。音声合成プログラ324の処理により、「了解しました」という音声がスピーカ60から出力される。具体的には、システム音声合成プログラム324は、指示に応じて、「了解しました」という合成音声をシステム声質DB316に基づき計算し(図8におけるS403)、合成した音声波形をスピーカに出力する(S404)。
The
次に、動作計画プログラム322は、「外部機器操作」の処理を実行する(S208〜S212)。具体的には、動作計画プログラム322は、エアコン操作のための一連の動作を動作キュー315に追加する(S209〜S212)。図15は、新たな動作が追加され動作キュー315を示している。
Next, the
動作計画プログラム322は、図15の動作キュー315に登録されている、「移動」、「ネットワーク出力」、「音声出力」及び「ネットワーク出力」の動作を、逐次処理する。具体的には、音声認識推奨位置(10、12、10)への移動を機構制御装置90に指示し、「HTC_AC_10A」への「音声認識OFF」の指示を送信するようにNIF50に指示し、「エアコンを26℃に設定してください」という利用者音声出力を利用者音声合成プログラム325に指示し、そして、「HTC_AC_10A」への「エアコンON、設定温度26℃」の指示を送信するようにNIF50に指令する。
The
その結果、サービスロボット10はエアコン「HTC_AC_10A」の前に移動し、エアコン「HTC_AC_10A」の音声認識機能はOFFになる。その後、サービスロボット10は、利用者音声合成プログラム325により利用者の声に近い声の「エアコンを26℃に設定してください」という音声をスピーカ60から発し、ネットワークを介して、エアコン「HTC_AC_10A」に「エアコンON、設定温度26℃」にするよう指令を与える。
As a result, the
サービスロボット10のこの一連の動きを見た利用者は、自分がエアコンをつけるとき、サービスロボット10がやってみせたように、その位置で「エアコンを26℃に設定してください」と言うことでエアコンを操作できることを、知ることができる。
The user who sees this series of movements of the
以上のように、本実施形態によれば、音声入力対応の電子機器を操作する場合に、人間と同様の方法で行うことができ、利用者がサービスロボットに非人間的な面を見出す可能性を軽減できる。また、サービスロボットが電子機器の音声入力方法を日ごろ実演するため、利用者が利用時の立ち位置や使用可能な語彙を知ることができる。将来利用者が電子機器を操作する際は、ロボットが過去に行った作法を思い出せばよいだけであり、利便性が高くなる。 As described above, according to the present embodiment, when operating an electronic device that supports voice input, it can be performed in the same manner as a human being, and the user may find an inhuman side in the service robot. Can be reduced. In addition, since the service robot demonstrates the voice input method of the electronic device on a daily basis, the user can know the standing position at the time of use and the vocabulary that can be used. When the user operates the electronic device in the future, it is only necessary to remember the manners that the robot has performed in the past, which increases convenience.
サービスロボット10は、上記好ましい構成とは異なる構成を有することができる。サービスロボット10は、移動機構91により、外部機器の音声認識推奨位置に移動することができることが好ましいが、サービスロボット10は、移動機構91を備えなくともよい。または、移動機構91を有していても音声認識推奨位置に異動することなく、音声を出力してもよい。その構成において、サービスロボット10は、定位置において、外部機器を操作のための音声を発する。
The
上述のように、サービスロボット10は、外部機器操作のために音声出力を行う一方で、ネットワークを介して外部機器に指示を送ることが好ましい。これにより確実に外部機器を操作することができる。設計によっては、サービスロボット10は、出力音声のみで外部機器を操作してもよい。
As described above, it is preferable that the
ネットワークを介して外部機器に指令を送信する構成において、上述のように、サービスロボット10は、音声認識に応じて動作する外部機器の機能を停止させることが好ましい。これにより、音声指令とネットワークを介した指令との競合を避けることができる。外部機器の動作に問題が生じないのであれば、外部機器は、上記2つの指令を受けても良い。
In the configuration in which the command is transmitted to the external device via the network, it is preferable that the
上記好ましい構成において、サービスロボット10は利用者と対話を行い、その対話の中で利用者の音声が外部機器操作の指示を含むか否かを判定し、その指示を含む場合には、その指示に応じて外部機器操作に対応した音声を出力する。利用者の言葉が外部機器操作指示であるか否かは、その利用者の言葉のみではなく、状態情報の他の項目の値にも依存している。サービスロボット10は、利用者との自然な対話の中で、外部機器を操作することができる。外部機器操作の指示は、利用者の言葉のみを条件とすることもある。利用者からサービスロボット10への外部機器操作の直接的な指示は、その一例である。
In the preferred configuration described above, the
上記好ましい構成において、サービスロボット10は、温度センサ80やタイマ81からの情報を内部状態DBに格納する。設計によっては、サービスロボット10は、これらのデータを使用することなく、利用者の言葉のみを条件として外部機器操作を行ってもよい。また、サービスロボット10は、温度センサ80やタイマ81などのデバイスを備えず、ネットワークを介してそれらデバイスの情報を取得してもよい。
In the above preferred configuration, the
上述のように、サービスロボット10は、外部機器操作のための音声出力において、利用者の音声を使用する。これにより、利用者は、サービスロボット10による対話のための音声と外部機器のための音声とを明確に識別することができる。また、外部機器の話者適応機能を有している場合には、利用者の声を使用することで、外部機器の音声認識を利用者に適切に適応させることができる。
As described above, the
なお、利用者の声をより正確に模倣するため、サービスロボット10は、利用者声質DBを更新し続けることが好ましいが、更新機能を有してなくともよい。また、対話の音声と外部機器の音声の識別ためには、サービスロボット10は異なるシステム音声を使用してもよい。
In order to imitate a user's voice more accurately, the
上述のように、サービスロボット10は、合成プロファイルを使用して、外部機器操作のための音声を生成することが好ましい。これにより、外部機器操作のためにより適切な音声を生成することができる。上記合成プロファイルは一例であって、合成プロファイルは他の特性を含むことができる。また、設計によっては、サービスロボット10は、合成プロファイルを使用することなく音声を生成してもよい。
As described above, it is preferable that the
本実施形態における他の構成についての以上の説明は、音声出力に関する事項以外について、下記の第二の実施形態に対しても適用することができる。 The above description of other configurations in the present embodiment can be applied to the second embodiment described below, except for matters relating to audio output.
<第二の実施形態>
本発明の第二の実施形態を説明する。本実施形態のサービスロボットを図16に示す。第一の実施形態の図1に示す構成との相違は、サービスロボット10の機構制御装置90がさらにジェスチャ機構92を備え、記憶装置30に語彙DB313の代わりにジェスチャDB313bが格納されており、サービスロボット10が、利用者音声合成プログラム325の代わりに、ジェスチャ生成プログラム325bを備える点である。
<Second Embodiment>
A second embodiment of the present invention will be described. The service robot of this embodiment is shown in FIG. The difference from the configuration shown in FIG. 1 of the first embodiment is that the
ジェスチャ機構92は、人間の身体のうちジェスチャに利用する頭部、腕部、胸部、脚部に相当する、それぞれ人間に近い見た目と動作機能を備えた機械部品である。これら部品のうちの一部のみが実装されていてもよい。また一部が移動機構91と共有されていてもよい。その構成においては、機構制御装置90が移動機構91とジェスチャ機構92を適切に制御し、移動動作とジェスチャ動作の競合を避け、さらに、それらの動作によりサービスロボット10が危険な状態にならないようにする。
The
次に、外部装置管理プログラム321の動作を説明する。外部装置管理プログラム321の動作は図2で説明した第一の実施形態とほぼ同様であり、ここでは差分のみ説明する。ステップ106、ステップ107において、外部装置管理プログラム321はNIF50から語彙データパケットではなくジェスチャデータパケットを受信し、ジェスチャデータパケットの内容に従い。ジェスチャDB313bの内容を更新する。
Next, the operation of the external
ジェスチャDB313bは、図17に示すように、動作とそれに対応するジェスチャシーケンスの情報を含む。図17の例において、「[0−10]関節A:(30〜50、5)」は、タイムフレーム0から10において、ジェスチャ機構92の「関節A」を30度から50度まで、角速度上限5で動かすことを意味する。外部装置管理プログラム321は、ジェスチャデータパケットによりジェスチャDB313bを更新するのではなく、記憶装置30に、予め記憶されているジェスチャ情報を用いてもよい。
As illustrated in FIG. 17, the
次に、動作計画プログラム322の動作を図18で説明する。動作計画プログラム322の動作は、図5A及び図5Bで説明した第一の実施形態と実質的に同様であり、ここでは差分のみ説明する。ステップ206においては、動作計画プログラム322は、種類が「ジェスチャ出力」の動作について、ジェスチャ生成プログラム325bに指令を送る(S607e)。
Next, the operation of the
種類が「操作完了」の場合、動作計画プログラム322は、対象の外部機器にジェスチャ認識ONを指令するネットワーク送信動作を動作キュー315に追加する(S607f)。ステップ609において、動作計画プログラム322は、機器DB311からはジェスチャ認識推奨位置を取得し、その位置への移動動作を追加する。機器DB311は、図3で示したものと同様の形式で、音声認識推奨位置の代わりにジェスチャ認識推奨位置を保持する。
When the type is “operation completed”, the
S610において、動作計画プログラム322は、対象の外部機器にジェスチャ認識OFFを指令するネットワーク送信動作を追加する。S611において、動作計画プログラム322は、対象の外部機器のジェスチャDB313bに基づいて、ジェスチャ出力するシーケンスを作成し、ジェスチャ出力動作を追加する。
In S610, the
動作計画プログラム322の動作例の説明は、「外部機器操作」動作が処理された後の動作が実施の形態一の構成と異なり、動作キュー315は、図19の示すようになる。動作計画プログラム322は、これらの動作、「移動」、「ネットワーク出力」、「ジェスチャ生成」、「ネットワーク出力」を逐次処理する。
In the description of the operation example of the
その結果、サービスロボット10はエアコン「HTC_AC_10A」の前に移動し、エアコン「HTC_AC_10A」の音声認識機能はOFFになる。その後、サービスロボット10は、ジェスチャ生成プログラム325bが生成したパターンに従って、ジェスチャ動作を行う。具体的には、図17の「エアコンON、設定温度26℃」に対応するジェスチャシーケンスに従いジェスチャ機構92が動き、人間のジェスチャを模倣する。最後に、サービスロボット10は、エアコン「HTC_AC_10A」に「エアコンON、設定温度26℃」にするよう指令を与える。
As a result, the
以上により、サービスロボット10のこの一連の動きを見た利用者は、自分がエアコンをつけるとき、サービスロボット10がやってみせたように、その位置でサービスロボット10と同様のジェスチャを行うことでエアコンを操作できることを知ることができる。
As described above, the user who sees this series of movements of the
以上、本発明の好ましい実施形態を説明したが、本発明が上記の実施形態に限定されるものではない。当業者であれば、上記の実施形態の各要素を、本発明の範囲において容易に変更、追加、変換することが可能である。例えば、外部機器が音声認識機能と画像認識機能を備え、その外部機器の操作が音声とジェスチャの双方で構成されている場合には、サービスロボットは、音声出力とジェスチャ動作の双方を実行する。 As mentioned above, although preferable embodiment of this invention was described, this invention is not limited to said embodiment. A person skilled in the art can easily change, add, and convert each element of the above-described embodiment within the scope of the present invention. For example, when the external device has a voice recognition function and an image recognition function, and the operation of the external device is configured by both voice and gesture, the service robot executes both voice output and gesture operation.
本発明は、主に家庭やオフィスなどで活躍するロボットに適用できる。 The present invention can be applied mainly to robots that are active in homes and offices.
10 サービスロボット、30 記憶装置、40 バス、60 スピーカ
70 マイク、80 温度センサ、81 タイマ、90 移動機構制御装置
91 移動機構、92 ジェスチャ機構、311 機器DB、312 動作DB
313 語彙DB、313 語彙DB、313b ジェスチャDB
314 内部状態DB、315 動作キュー、316 システム声質DB
317 利用者声質DB、321 外部装置管理プログラム
322 動作計画プログラム、323 音声認識プログラム
324 システム音声合成プログラム、325 利用者音声合成プログラム
325b ジェスチャ生成プログラム
10 service robot, 30 storage device, 40 bus, 60
313 Vocabulary DB, 313 Vocabulary DB, 313b Gesture DB
314 Internal state DB, 315 Action queue, 316 System voice quality DB
317 User voice quality DB, 321 External
Claims (9)
音声を受信する受信部と、
前記受信部が受信した音声を文字列に変換する音声認識部と、
前記音声認識部が変換した文字列を含む状態情報を記憶する状態情報記憶領域と、
前記外部機器制御装置の動作と前記状態情報における条件とを関連付ける動作情報を記憶する動作情報記憶領域と、
前記状態情報記憶領域と前記動作情報記憶領域とを参照して、前記文字列を含む状態情報が外部機器の音声及び/又はジェスチャによる操作と関連付けられている条件を満たすか否かを判定する動作計画部と、
前記文字列を含む状態情報が前記条件を満たしていると前記動作計画部が判定した場合、前記外部機器操作に対応する音声波形及び/又はジェスチャのパターンを生成するパターン生成部と、
前記パターンに従って前記音声波形及び/又はジェスチャの出力動作を行う出力部と、
前記外部機器とデータ通信を行うためのネットワークインタフェースと、を含み、
前記動作計画部は、
前記ネットワークインタフェースを用いて、前記外部機器に対して、前記外部機器操作に対応する動作の指示を送信し、
前記出力部による出力動作の前に、前記ネットワークインタフェースを用いて、前記外部機器に対して、前記出力動作を認識して対応する動作を実行する機能の停止を指令することを特徴とする外部機器制御装置。 An external device control device that recognizes a user's voice and controls an external device,
A receiver for receiving audio;
A voice recognition unit that converts voice received by the receiving unit into a character string;
A state information storage area for storing state information including a character string converted by the voice recognition unit;
An operation information storage area for storing operation information for associating the operation of the external device control device with the condition in the state information;
An operation for referring to the state information storage area and the operation information storage area to determine whether or not the state information including the character string satisfies a condition associated with an operation by voice and / or gesture of an external device. Planning department,
A pattern generation unit that generates a voice waveform and / or a gesture pattern corresponding to the external device operation when the operation planning unit determines that the state information including the character string satisfies the condition;
An output unit for performing an output operation of the voice waveform and / or gesture according to the pattern ;
A network interface for data communication with the external device,
The operation planning unit
Using the network interface, an operation instruction corresponding to the external device operation is transmitted to the external device,
Before the output operation by the output unit , the external device is configured to instruct the external device to stop the function of recognizing the output operation and executing the corresponding operation using the network interface. Control device.
前記パターン生成部は、前記外部機器操作に対応する自然言語の文字列を音声波形に変換し、 The pattern generation unit converts a natural language character string corresponding to the external device operation into a speech waveform,
前記出力部は、前記音声波形を空気振動として出力することを特徴とする外部機器制御装置。 The said output part outputs the said audio | voice waveform as an air vibration, The external apparatus control apparatus characterized by the above-mentioned.
利用者の声の特徴を示す情報を含む利用者声質情報を記憶する利用者声質記憶領域をさらに備え、 A user voice quality storage area for storing user voice quality information including information indicating characteristics of the voice of the user;
前記パターン生成部は、前記利用者声質情報が示す利用者の声の特徴に近づけるように前記文字列を前記音声波形に変換することを特徴とする外部機器制御装置。 The said pattern production | generation part converts the said character string into the said audio | voice waveform so that it may approximate the characteristic of the user's voice which the said user voice quality information shows, The external apparatus control apparatus characterized by the above-mentioned.
前記音声認識部は、利用者の発した音声から声の特徴を抽出して前記利用者声質情報記憶領域の情報を更新することを特徴とする外部機器制御装置。 The external device control apparatus, wherein the voice recognition unit extracts a voice feature from a voice uttered by a user and updates information in the user voice quality information storage area.
前記パターン生成部が文字列を音声波形に変換する際に用いるパラメータを指定する合成プロファイルを記憶する記憶領域をさらに備え、 The pattern generation unit further comprises a storage area for storing a synthesis profile that specifies parameters used when converting a character string into a speech waveform,
前記パターン生成部は、入力された文字列を、前記合成プロファイルに基づき音声波形に変換することを特徴とする外部機器制御装置。 The said pattern production | generation part converts the input character string into an audio | voice waveform based on the said synthetic | combination profile, The external apparatus control apparatus characterized by the above-mentioned.
音声を受信する受信部と、
前記受信部が受信した音声を文字列に変換する音声認識部と、
前記音声認識部が変換した文字列を含む状態情報を記憶する状態情報記憶領域と、
前記外部機器制御装置の動作と前記状態情報における条件とを関連付ける動作情報を記憶する動作情報記憶領域と、
前記状態情報記憶領域と前記動作情報記憶領域とを参照して、前記文字列を含む状態情報が外部機器の音声及び/又はジェスチャによる操作と関連付けられている条件を満たすか否かを判定する動作計画部と、
前記文字列を含む状態情報が前記条件を満たしていると前記動作計画部が判定した場合、前記外部機器の操作に対応するジェスチャシーケンスを生成するパターン生成部と、
複数の可動部を含み、前記ジェスチャシーケンスに応じて前記複数の可動部を動かすことによってジェスチャを行う出力部を含むことを特徴とする外部機器制御装置。 An external device control device that recognizes a user's voice and controls an external device,
A receiver for receiving audio;
A voice recognition unit that converts voice received by the receiving unit into a character string;
A state information storage area for storing state information including a character string converted by the voice recognition unit;
An operation information storage area for storing operation information for associating the operation of the external device control device with the condition in the state information;
An operation for referring to the state information storage area and the operation information storage area to determine whether or not the state information including the character string satisfies a condition associated with an operation by voice and / or gesture of an external device. Planning department,
A pattern generation unit that generates a gesture sequence corresponding to the operation of the external device when the operation planning unit determines that the state information including the character string satisfies the condition;
An external device control apparatus comprising: an output unit that includes a plurality of movable parts, and that performs a gesture by moving the plurality of movable parts according to the gesture sequence.
音声を受信する受信部と、 A receiver for receiving audio;
前記受信部が受信した音声を文字列に変換する音声認識部と、 A voice recognition unit that converts voice received by the receiving unit into a character string;
前記音声認識部が変換した文字列を含む状態情報を記憶する状態情報記憶領域と、 A state information storage area for storing state information including a character string converted by the voice recognition unit;
前記外部機器制御装置の動作と前記状態情報における条件とを関連付ける動作情報を記憶する動作情報記憶領域と、 An operation information storage area for storing operation information for associating the operation of the external device control device with the condition in the state information;
前記状態情報記憶領域と前記動作情報記憶領域とを参照して、前記文字列を含む状態情報が外部機器の音声及び/又はジェスチャによる操作と関連付けられている条件を満たすか否かを判定する動作計画部と、 An operation for referring to the state information storage area and the operation information storage area to determine whether or not the state information including the character string satisfies a condition associated with an operation by voice and / or gesture of an external device. Planning department,
前記文字列を含む状態情報が前記条件を満たしていると前記動作計画部が判定した場合、前記外部機器操作に対応する音声波形及び/又はジェスチャのパターンを生成するパターン生成部と、 A pattern generation unit that generates a voice waveform and / or a gesture pattern corresponding to the external device operation when the operation planning unit determines that the state information including the character string satisfies the condition;
前記パターンに従って前記音声波形及び/又はジェスチャの出力動作を行う出力部と、 An output unit for performing an output operation of the voice waveform and / or gesture according to the pattern;
移動機構と前記外部機器に対する出力動作の推奨位置を示す情報を記憶する領域を含み、 Including an area for storing information indicating a recommended position of the output operation for the moving mechanism and the external device;
前記移動機構は、前記外部機器に対する前記出力動作推奨位置に前記外部機器制御装置を移動し、 The moving mechanism moves the external device control device to the recommended output operation position for the external device,
前記出力部は、前記出力動作推奨位置において、前記出力動作を実行することを特徴とする外部機器制御装置。 The external device control device, wherein the output unit executes the output operation at the recommended output operation position.
利用者の音声を受信し、 Receive user voice,
前記受信した音声を文字列に変換し、 The received voice is converted into a character string,
前記変換した文字列を含む状態情報をデータ記憶装置に格納し、 Storing state information including the converted character string in a data storage device;
前記データ記憶装置に格納されており前記制御装置の動作と前記状態情報における条件とを関連付ける動作情報と、前記文字列を含む状態情報とを比較して、前記文字列を含む状態情報が外部機器の音声及び/又はジェスチャによる操作と関連付けられている条件を満たすか否かを判定し、 The operation information stored in the data storage device and associating the operation of the control device with the condition in the state information is compared with the state information including the character string, and the state information including the character string is To determine whether the conditions associated with the voice and / or gesture actions of
前記文字列を含む状態情報が前記条件を満たしている場合、前記外部機器操作に対応する音声波形及び/又はジェスチャのパターンを生成し、 If the state information including the character string satisfies the condition, generate a speech waveform and / or gesture pattern corresponding to the external device operation,
前記パターンに従って前記音声波形及び/又はジェスチャの出力動作を行い、 According to the pattern, the voice waveform and / or gesture is output.
前記外部機器と通信を行うためのネットワークインタフェースを用いて、前記外部機器に対して、前記外部機器操作に対応する動作の指示を送信し、 Using the network interface for communicating with the external device, the operation instruction corresponding to the operation of the external device is transmitted to the external device,
前記出力動作の前に、前記ネットワークインタフェースを用いて、前記外部機器に対して、前記出力動作を認識して対応する動作を実行する機能の停止を指令することを特徴とする方法。 Before the output operation, the network interface is used to instruct the external device to stop the function of recognizing the output operation and executing the corresponding operation.
利用者の受信音声から変換された文字列を含む状態情報を取得し、 Get status information including the character string converted from the received voice of the user,
前記記憶装置に記憶されており、前記制御装置の動作と前記状態情報における条件とを関連付ける動作情報を参照し、 Stored in the storage device, and refers to operation information that associates the operation of the control device with the condition in the state information;
前記文字列を含む状態情報と前記動作情報とを比較して、前記文字列を含む状態情報が、外部機器の音声及び/又はジェスチャによる操作と関連付けられている条件を満たすか否かを判定し、 The state information including the character string is compared with the operation information to determine whether or not the state information including the character string satisfies a condition associated with an operation by a voice and / or gesture of an external device. ,
前記文字列を含む状態情報が前記条件を満たしている場合、前記外部機器操作に対応する音声波形及び/又はジェスチャのパターンを生成し、前記パターンに従って前記音声波形及び/又はジェスチャの出力動作を行うことを決定し、 If the state information including the character string satisfies the condition, a voice waveform and / or gesture pattern corresponding to the operation of the external device is generated, and the voice waveform and / or gesture output operation is performed according to the pattern. To decide
前記外部機器と通信を行うためのネットワークインタフェースを用いて、前記外部機器に対して、前記外部機器操作に対応する動作の指示を送信し、 Using the network interface for communicating with the external device, the operation instruction corresponding to the operation of the external device is transmitted to the external device,
前記出力動作の前に、前記ネットワークインタフェースを用いて、前記外部機器に対して、前記出力動作を認識して対応する動作を実行する機能を停止する指令を送信する、 Before the output operation, the network interface is used to send a command to the external device to stop the function of recognizing the output operation and executing the corresponding operation.
ステップを実行させることを特徴とするプログラム。 A program characterized by causing a step to be executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010203137A JP5610283B2 (en) | 2010-09-10 | 2010-09-10 | External device control apparatus, external device control method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010203137A JP5610283B2 (en) | 2010-09-10 | 2010-09-10 | External device control apparatus, external device control method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012060506A JP2012060506A (en) | 2012-03-22 |
JP5610283B2 true JP5610283B2 (en) | 2014-10-22 |
Family
ID=46057031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010203137A Expired - Fee Related JP5610283B2 (en) | 2010-09-10 | 2010-09-10 | External device control apparatus, external device control method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5610283B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6317266B2 (en) * | 2015-01-23 | 2018-04-25 | シャープ株式会社 | Robot control device and robot |
JP6133361B2 (en) * | 2015-06-03 | 2017-05-24 | シャープ株式会社 | Electrical device control device, electrical device control system, program, electrical device control method, input / output device, and electrical device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04167695A (en) * | 1990-10-26 | 1992-06-15 | Sharp Corp | Remote control system |
JPH06337700A (en) * | 1993-05-28 | 1994-12-06 | Fujitsu Ltd | Voice synthesizer |
JP2002281567A (en) * | 2001-03-14 | 2002-09-27 | Nec Corp | Method/system for remote control and program for remote control system |
JP4512830B2 (en) * | 2006-02-20 | 2010-07-28 | 国立大学法人埼玉大学 | Communication robot |
JP4339862B2 (en) * | 2006-03-08 | 2009-10-07 | 株式会社バンダイ | Electronic device control device |
-
2010
- 2010-09-10 JP JP2010203137A patent/JP5610283B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012060506A (en) | 2012-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102025566B1 (en) | Home appliance and voice recognition server system using artificial intelligence and method for controlling thereof | |
JP7317529B2 (en) | SOUND DATA PROCESSING SYSTEM AND SYSTEM CONTROL METHOD | |
CN106297781B (en) | Control method and controller | |
US9443527B1 (en) | Speech recognition capability generation and control | |
CN106257355B (en) | Equipment control method and controller | |
JP6574169B2 (en) | Speech recognition with multi-directional decoding | |
JP4086280B2 (en) | Voice input system, voice input method, and voice input program | |
JP2020525850A (en) | Method, electronic device, home appliance network and storage medium | |
JP6402748B2 (en) | Spoken dialogue apparatus and utterance control method | |
CN106328132A (en) | Voice interaction control method and device for intelligent equipment | |
KR20190021143A (en) | Voice data processing method and electronic device supporting the same | |
US11120792B2 (en) | System for processing user utterance and controlling method thereof | |
CN118347156A (en) | Device control system | |
KR102421824B1 (en) | Electronic device for providing voice based service using external device and operating method thereof, the external device and operating method thereof | |
JP2006154926A (en) | Electronic equipment operation system using character display and electronic apparatuses | |
KR102326272B1 (en) | Electronic device for network setup of external device and operating method thereof | |
JP2016114744A (en) | Electronic device control system, terminal device and server | |
KR20200074690A (en) | Electonic device and Method for controlling the electronic device thereof | |
EP3422344B1 (en) | Electronic device for performing operation corresponding to voice input | |
KR102629796B1 (en) | An electronic device supporting improved speech recognition | |
KR20190096308A (en) | electronic device | |
JP2010055375A (en) | Electronic apparatus operation instruction device and operating method thereof | |
EP3654170B1 (en) | Electronic apparatus and wifi connecting method thereof | |
KR20210116897A (en) | Method for contolling external device based on voice and electronic device thereof | |
US20220161131A1 (en) | Systems and devices for controlling network applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120322 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131002 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131015 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140408 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140430 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140805 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140821 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5610283 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |