JP2006243555A - Response determination system, robot, event output server, and response determining method - Google Patents
Response determination system, robot, event output server, and response determining method Download PDFInfo
- Publication number
- JP2006243555A JP2006243555A JP2005061557A JP2005061557A JP2006243555A JP 2006243555 A JP2006243555 A JP 2006243555A JP 2005061557 A JP2005061557 A JP 2005061557A JP 2005061557 A JP2005061557 A JP 2005061557A JP 2006243555 A JP2006243555 A JP 2006243555A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- event
- speaker
- identification information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、対応決定システム、ロボット、イベント出力サーバ、および対応決定方法に関する。 The present invention relates to a response determination system, a robot, an event output server, and a response determination method.
特許文献1には、固有の無線タグを保有するコミュニケーション対象との間でコミュニケーション行動を実行するコミュニケーションロボットが開示されている。このコミュニケーションロボットは、少なくともタグ情報を記録するタグ情報データベース、コミュニケーション対象からタグ情報を取得する取得手段、取得手段の取得結果に基づいて近傍または周囲に存在する1または複数のコミュニケーション対象を個別に認識する認識手段、認識手段の認識結果に基づいてコミュニケーション行動を実行する1のコミュニケーション対象を特定する特定手段、および特定手段によって特定されたコミュニケーション対象にコミュニケーション行動を実行する実行手段を備える。
このような構成を有する従来のコミュニケーションロボットは次のように動作する。コミュニケーションロボットは、コミュニケーション行動を実行する際、取得手段によってコミュニケーション対象からタグ情報を取得する。認識手段は、コミュニケーション対象としての人間を個別に認識する。特定手段は、認識手段の認識結果に基づいて、コミュニケーションロボットの近傍または周囲に存在する参加者のうち一人の参加者を特定する。実行手段は、当該参加者に対してコミュニケーション行動を実行する。これにより、近傍または周囲に存在する参加者を個別に認識することができ、特定した参加者に適したコミュニケーション行動を取ることができる、と記載されている。
しかし、従来のロボット(システム)においては、ロボットの近傍または周囲に存在するコミュニケーション対象を認識することができるだけで、履歴情報等に基づき、ロボットが自発的に話しかけることしかできなかった。 However, in the conventional robot (system), it is only possible to recognize a communication target existing in the vicinity of or around the robot, and the robot can only speak spontaneously based on history information and the like.
たとえ対話の相手を把握することができても、その相手の発話内容や状態を認識できないと、ロボットが相手と円滑にコミュニケーションを取ることができない。とくに、複数の相手とコミュニケーションを取る場合、それぞれの相手の発話内容や状況を認識して適切な対応をとるのは困難だった。 Even if the partner of the dialogue can be grasped, the robot cannot communicate smoothly with the partner unless the utterance content and state of the partner can be recognized. In particular, when communicating with multiple partners, it was difficult to take appropriate actions by recognizing the utterances and circumstances of each partner.
本発明は上記事情を踏まえてなされたものであり、本発明の目的は、話者の音声に応じて、話者の位置も考慮して適切な対応をとる技術を提供することにある。 The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique for taking an appropriate response in consideration of the position of the speaker according to the voice of the speaker.
本発明によれば、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、
前記話者に対する対応を決定する対応決定部と、
前記対応決定部が入力した前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得部と、
を含み、
前記対応決定部は、前記イベントと、前記話者の位置情報とに基づき、前記対応を決定することを特徴とする対応決定システムが提供される。
According to the present invention,
An event indicating that data related to speech input from the speech input device assigned to the speaker matches a predetermined condition is input together with speech identification information associated with the speaker,
A correspondence determining unit for determining a correspondence to the speaker;
A location information acquisition unit that acquires location information of the speaker specified by the voice identification information associated with the event input by the correspondence determination unit;
Including
The correspondence determining unit determines the correspondence based on the event and the position information of the speaker, and provides a correspondence determining system.
ここで、音声に関するデータは、音声データおよび、音声データに基づく音声認識結果を含む。音声入力デバイスは、たとえばマイクとすることができる。また、マイクは、接話マイクとすることができる。 Here, the voice-related data includes voice data and a voice recognition result based on the voice data. The voice input device can be, for example, a microphone. The microphone may be a close-talking microphone.
ここで、対応決定システムは、たとえば、自律移動型または対話型のロボットを制御するロボット制御システム、音声対話システム、または音声認識を利用した情報検索システム等、話者の音声に対して何らかの対応を行うシステムとすることができる。 Here, for example, the response determination system is capable of responding to a speaker's voice such as a robot control system that controls an autonomously moving or interactive robot, a voice dialog system, or an information search system using voice recognition. It can be a system to do.
本発明の対応決定システムによれば、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置との双方に適応した対応を取るようにすることができる。たとえば、本発明の対応決定システムがロボット制御システムの場合、対応決定部は、イベントと、話者の位置情報とに基づき、ロボットの言動を決定することができる。これにより、イベントに応じて、ロボットが話者の方を向いたり、話者の方に近づいたり、話者位置に基づく発話をする等、話者位置に適応した言動を実行することができる。 According to the correspondence determination system of the present invention, it is possible to take a correspondence adapted to both the event based on the voice input from the voice input device assigned to the speaker and the speaker position. For example, when the correspondence determination system of the present invention is a robot control system, the correspondence determination unit can determine the behavior of the robot based on the event and the position information of the speaker. Thereby, according to the event, the speech adapted to the speaker position can be executed, such as the robot facing the speaker, approaching the speaker, or speaking based on the speaker position.
本発明によれば、接話マイク等の音声入力デバイスから入力された音声に基づき、処理が行われるので、雑音等への耐性が高いロバストな対応決定システムが提供される。さらに、音声入力デバイスを対応決定システムに対してワイヤレス(無線)接続とすることにより、話者の身体的自由度を高く保つことができる。また、本発明によれば、話者の音声および位置情報に応じて、処理が行われるので、インターフェース透過性の高い対応決定システムが提供される。 According to the present invention, processing is performed on the basis of voice input from a voice input device such as a close-talking microphone, so that a robust correspondence determination system with high resistance to noise or the like is provided. Furthermore, by making the voice input device wirelessly connected to the correspondence determination system, the physical freedom of the speaker can be kept high. Further, according to the present invention, processing is performed according to the voice and position information of the speaker, so that a correspondence determination system with high interface transparency is provided.
なお、本発明の対応決定システムは、一つのシステム内に設けられてもよく、互いにネットワークを介して接続された複数のシステムに分散して設けられてもよい。たとえば、本発明の対応決定システムがロボット制御システムの場合、当該システムは、ロボット内に設けられてもよく、ロボットと無線等のネットワークで通信可能なサーバ内に設けられてもよい。また、対応決定システムの一部の機能がロボット内に設けられ、他の機能がサーバ内に設けられてもよい。 The correspondence determination system of the present invention may be provided in one system, or may be provided in a distributed manner in a plurality of systems connected to each other via a network. For example, when the response determination system of the present invention is a robot control system, the system may be provided in the robot or in a server that can communicate with the robot through a network such as wireless communication. In addition, some functions of the response determination system may be provided in the robot, and other functions may be provided in the server.
自律移動したり話者と対話したりするロボットにおいて、話者とロボットとが円滑にコミュニケーションを取ることができるような制御が望まれる。従来、ロボットがユーザと対話したり、ユーザに対して何らかの動作をする場合、画像認識や音声の特徴によりユーザを識別する試みがなされていた。しかし、このような方法では、話者がロボットのごく近傍にいたり、雑音がない等の条件が整っていないと、話者を認識するのが困難だった。また、特許文献1に記載のように、コミュニケーション対象に固有の無線タグを保有させることにより、コミュニケーション対象を認識するという試みもなされている。しかし、上述したように、この方法では近傍にいるコミュニケーション対象を認識することができるだけで、話者の発話内容を把握するのが困難だという点では、他の従来技術と同様である。
In a robot that moves autonomously or interacts with a speaker, control is desired so that the speaker and the robot can communicate smoothly. Conventionally, when a robot interacts with a user or performs some operation on the user, attempts have been made to identify the user by image recognition or voice characteristics. However, with this method, it is difficult to recognize the speaker unless the speaker is in the immediate vicinity of the robot or the conditions such as no noise are satisfied. Also, as described in
本発明の対応決定システムによれば、話者の音声が音声入力デバイスから入力されるとともに、音声識別情報が付与されているので、どの話者がどのような発話を行ったのかを容易に把握することができる。また、複数の話者とのコミュニケーションを取る場合であっても、それぞれの話者の発話内容を把握することができる。 According to the correspondence determination system of the present invention, since the voice of the speaker is input from the voice input device and the voice identification information is given, it is easy to know which speaker has made what kind of utterance. can do. Moreover, even when communicating with a plurality of speakers, it is possible to grasp the utterance contents of each speaker.
本発明の対応決定システムは、前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに前記対応決定部に出力するイベント出力部をさらに含むことができる。 The correspondence determination system of the present invention inputs the data related to the voice together with the voice identification information, detects whether or not the data related to the voice meets a predetermined condition, and if the condition is met, And an event output unit that outputs an event indicating that it matches to the correspondence determination unit together with the voice identification information.
本発明の対応決定システムがロボット制御システムの場合、イベント出力部は、ロボット内に設けられてもよいが、ロボットと無線等で通信可能なサーバ内に設けられてもよい。たとえば、ロボットが多数の話者と同時に対話をするような形態においては、複数のサーバにイベント出力部の機能をそれぞれ持たせ、複数のサーバから言動決定部の機能を有するロボットまたは一のサーバへイベント等のデータが入力される構成とすることもできる。 When the correspondence determination system of the present invention is a robot control system, the event output unit may be provided in the robot, or may be provided in a server that can communicate with the robot wirelessly or the like. For example, in a form in which a robot interacts simultaneously with a large number of speakers, a plurality of servers are each provided with an event output unit function, and a plurality of servers are transferred to a robot or a single server having a behavior determining unit function. It can also be configured such that data such as events is input.
本発明の対応決定システムにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することができる。 In the response determination system of the present invention, the event output unit monitors the power of the voice input from the voice input device, and the voice input is performed when a state where the voice power is equal to or lower than a predetermined value continues for a predetermined time. An event indicating a failure can be output.
このような構成とすれば、何らかの不具合により、音声入力デバイスからの音声の入力が途絶えた場合に、話者の位置を考慮して適切な対応を取ることができる。 With such a configuration, when voice input from the voice input device is interrupted due to some trouble, an appropriate response can be taken in consideration of the position of the speaker.
本発明の対応決定システムにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することができる。 In the response determination system of the present invention, the event output unit monitors the power of the voice input from the voice input device, and when the voice power becomes a predetermined value or more, an event indicating utterance detection is detected. Can be output.
このような構成とすれば、音声入力デバイスに話者の発話が入力された場合に、話者の位置を考慮して適切な対応を取ることができる。たとえば、対応決定システムがロボット制御システムであって、発話検出を示すイベントが出力された場合に、ロボットが話者の方向を向くように制御した場合、話者は、自分が発話したことにより、ロボットが自分の方を向いたことを認識することができる。このような適応動作により、ロボットのインターフェース透過性を高め、ロボットの動作が話者に分かりやすいようにすることができる。なお、発話は、音声の調波構造や音声のパワーが所定の値以上である継続時間等に基づき検出することもでき、イベント出力部は、このような状態を検知して、発話検出を示すイベントを出力することもできる。 With such a configuration, when a speaker's utterance is input to the voice input device, an appropriate response can be taken in consideration of the speaker's position. For example, if the response determination system is a robot control system and an event indicating utterance detection is output, and the robot is controlled so that it faces the direction of the speaker, the speaker You can recognize that the robot is facing you. By such an adaptive operation, the interface transparency of the robot can be increased and the operation of the robot can be easily understood by the speaker. The utterance can also be detected based on the harmonic structure of the voice, the duration of the voice power being a predetermined value or more, and the event output unit detects such a state to indicate the utterance detection. Events can also be output.
本発明の対応決定システムは、話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含むことができ、前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することができる。 The correspondence determination system according to the present invention inputs a voice input from a voice input device assigned to a speaker together with voice identification information associated with the speaker, recognizes the voice, and obtains a voice recognition result. The speech recognition unit may further include a speech recognition unit that outputs the speech recognition information, and the event output unit may display an event indicating a speech recognition result when the speech recognition result is output from the speech recognition unit. Can be output together.
このような構成とすれば、音声入力デバイスに話者の発話が入力され、音声認識が行われた場合に、話者の位置を考慮して、適切な対応を取ることができる。 With such a configuration, when a speaker's utterance is input to the voice input device and voice recognition is performed, an appropriate response can be taken in consideration of the position of the speaker.
本発明の対応決定システムは、前記話者に付与された識別タグからタグ識別情報を読み取るタグリーダをさらに含むことができ、前記位置情報取得部は、タグリーダが読み取った前記タグ識別情報に基づき、前記話者の位置情報を取得することができる。 The correspondence determination system of the present invention may further include a tag reader that reads tag identification information from an identification tag given to the speaker, and the position information acquisition unit is based on the tag identification information read by the tag reader, The position information of the speaker can be acquired.
識別タグは、たとえばアクティブ/パッシブのRFID(Radio Frequency Identification)タグ、超音波タグ、赤外線タグ等、電波や電磁波、超音波、赤外線等により読み取り可能なタグである。 The identification tag is, for example, an active / passive RFID (Radio Frequency Identification) tag, an ultrasonic tag, an infrared tag, or the like that can be read by radio waves, electromagnetic waves, ultrasonic waves, infrared rays, or the like.
本発明の対応決定システムは、同一の話者の、前記音声識別情報と、前記タグ識別情報とを対応づけた識別情報記憶部をさらに含むことができ、前記位置情報取得部は、前記イベント出力部が出力したイベントに対応づけられた音声識別情報に基づき、前記識別情報記憶部を参照して、対応するタグ識別情報を有する識別タグの位置情報を取得することができる。 The correspondence determination system of the present invention may further include an identification information storage unit that associates the voice identification information with the tag identification information of the same speaker, and the position information acquisition unit includes the event output The position information of the identification tag having the corresponding tag identification information can be obtained by referring to the identification information storage unit based on the voice identification information associated with the event output by the unit.
本発明の対応決定システムにおいて、前記言動決定部は、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することができる。 In the correspondence determination system according to the present invention, the behavior determination unit generates an event indicating that data related to speech input from a plurality of speech input devices respectively assigned to a plurality of speakers matches a predetermined condition. It can be input together with the voice identification information associated with the person.
本発明によれば、複数の相手とコミュニケーションを取る場合でも、各話者からの音声に関するデータと、各話者の位置情報とが、それぞれ話者に対応づけられて取得される。そのため、複数の相手に対して、それぞれ適切な対応を取ることができる。 According to the present invention, even when communicating with a plurality of opponents, data related to the sound from each speaker and position information of each speaker are acquired in association with each speaker. Therefore, it is possible to take appropriate measures for each of a plurality of opponents.
本発明の対応決定システムにおいて、前記位置情報取得部は、前記話者の前記ロボットに対する位置情報を取得することができ、前記言動決定部は、前記ロボットが前記話者の位置を意識した言動を行うよう前記ロボットの言動を決定することができる。 In the correspondence determination system of the present invention, the position information acquisition unit can acquire position information of the speaker with respect to the robot, and the behavior determination unit performs a behavior in which the robot is aware of the position of the speaker. The behavior of the robot can be determined to do.
これにより、話者の位置情報の取得が容易になるとともに、ロボットが話者の方を向いたり、話者の方へ近づいたりする際の制御を容易にすることができる。 This facilitates acquisition of the speaker position information and facilitates control when the robot faces the speaker or approaches the speaker.
本発明によれば、
自律移動型または対話型のロボットであって、
上記いずれかに記載の対応決定システムと、
前記対応決定部が決定した対応を言動として実行する言動実行部と、
を含むことを特徴とするロボットが提供される。
According to the present invention,
An autonomous mobile or interactive robot,
A response determination system according to any of the above,
A behavior execution unit that executes the correspondence determined by the correspondence determination unit as behavior;
Is provided.
本発明のロボットによれば、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置との双方に適応した言動を実行することができる。また、本発明のロボットは、話者と対面して言動を実行する構成とすることができる。このようなロボットにおいて、話者とロボットとが円滑にコミュニケーションを取ることができるような制御が望まれる。本発明のロボットによれば、話者の音声が音声入力デバイスから入力されるとともに、音声識別情報が付与されているので、どの話者がどのような発話を行ったのかを容易に把握することができる。また、複数の話者とのコミュニケーションを取る場合であっても、それぞれの話者の発話内容を把握することができる。これにより、話者とロボットとが円滑なコミュニケーションを取ることができる。 According to the robot of the present invention, it is possible to execute speech adapted to both the event based on the voice input from the voice input device given to the speaker and the speaker position. Further, the robot of the present invention can be configured to execute speech while facing a speaker. In such a robot, control is desired so that the speaker and the robot can communicate smoothly. According to the robot of the present invention, since the voice of the speaker is inputted from the voice input device and the voice identification information is given, it is easy to grasp which speaker has made what kind of utterance. Can do. Moreover, even when communicating with a plurality of speakers, it is possible to grasp the utterance contents of each speaker. As a result, the speaker and the robot can communicate smoothly.
本発明によれば、
音声入力デバイスから入力された音声を出力する音声出力部を含む通信端末装置および自律移動型または対話型のロボットにネットワークを介して接続されるとともに、これらを中継するイベント出力サーバであって、
前記ロボットは、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得し、前記イベントと前記話者の位置情報とに基づき決定された言動を実行し、
前記イベント出力サーバは、
前記通信端末装置から、前記音声出力部が出力した音声を、前記音声識別情報とともに受信する音声入力部と、
前記音声入力部が入力した音声が所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に対応するイベントを、前記音声識別情報とともに出力するイベント出力部と、
前記イベント出力部が出力した前記イベントを前記音声識別情報とともに前記ロボットに送信するデータ出力部と、
を含むことを特徴とするイベント出力サーバが提供される。
According to the present invention,
An event output server connected via a network to a communication terminal device including an audio output unit that outputs audio input from an audio input device and an autonomous mobile or interactive robot, and relays these,
The robot is
An event indicating that the voice-related data input from the voice input device assigned to the speaker matches a predetermined condition is input together with the voice identification information associated with the speaker, and is associated with the event. Obtaining the position information of the speaker specified by the voice identification information, and executing the behavior determined based on the event and the position information of the speaker,
The event output server is
A voice input unit that receives the voice output by the voice output unit from the communication terminal device together with the voice identification information;
An event output unit that detects whether or not the voice input by the voice input unit matches a predetermined condition, and outputs an event corresponding to the condition together with the voice identification information when the condition is met;
A data output unit for transmitting the event output by the event output unit to the robot together with the voice identification information;
An event output server is provided.
本発明のイベント出力サーバによれば、イベントが、音声識別情報とともにロボットに送信されるので、ロボットにおいて、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置との双方に適応した言動を実行することができる。 According to the event output server of the present invention, since the event is transmitted to the robot together with the voice identification information, in the robot, the event based on the voice input from the voice input device given to the speaker, the speaker position, It is possible to execute behavior adapted to both.
本発明のイベント出力サーバにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することができる。 In the event output server of the present invention, the event output unit monitors the power of the voice input from the voice input device, and the voice input is performed when the voice power is below a predetermined value for a predetermined time. An event indicating a failure can be output.
本発明のイベント出力サーバにおいて、前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することができる。 In the event output server of the present invention, the event output unit monitors the power of the voice input from the voice input device, and when the voice power becomes equal to or higher than a predetermined value, an event indicating speech detection is detected. Can be output.
本発明のイベント出力サーバにおいて、話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含むことができ、前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することができる。 In the event output server of the present invention, the voice input from the voice input device assigned to the speaker is input together with the voice identification information associated with the speaker, the voice is voice-recognized, and the voice recognition result is obtained. The speech recognition unit may further include a speech recognition unit that outputs the speech recognition information, and the event output unit may display an event indicating a speech recognition result when the speech recognition result is output from the speech recognition unit. Can be output together.
本発明によれば、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力するステップと、
前記イベントを前記音声識別情報とともに入力するステップで入力された前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得するステップと、
前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定するステップと、
を含むことを特徴とする対応決定方法が提供される。
According to the present invention,
Inputting an event indicating that data related to voice input from a voice input device assigned to the speaker matches a predetermined condition, together with voice identification information associated with the speaker;
Obtaining positional information of the speaker specified by the voice identification information associated with the event input in the step of inputting the event together with the voice identification information;
Determining a response to the speaker based on the event and the location information of the speaker;
A correspondence determination method characterized by including:
本発明の対応決定方法によって、自律移動型または対話型のロボットを制御することができ、話者に対する対応を決定するステップにおいて、イベントと、話者の位置情報に基づき、ロボットの言動を決定することができる。 According to the correspondence determination method of the present invention, an autonomous mobile or interactive robot can be controlled, and in the step of determining the correspondence to the speaker, the behavior of the robot is determined based on the event and the position information of the speaker. be able to.
本発明の対応決定方法によれば、話者に付与された音声入力デバイスから入力された音声に基づくイベントと、話者位置の双方に適応した対応を決定することができる。たとえば、本発明の対応決定方法により、ロボットを制御する場合、イベントに応じて、ロボットが話者の方を向いたり、話者の方に近づいたり、話者位置に基づく発話をする等、話者位置に適応した言動を実行することができる。 According to the correspondence determination method of the present invention, it is possible to determine the correspondence adapted to both the event based on the voice input from the voice input device assigned to the speaker and the speaker position. For example, when the robot is controlled by the correspondence determination method of the present invention, the robot faces the speaker, approaches the speaker, or speaks based on the speaker position, depending on the event. Can be adapted to the person's position.
本発明の対応決定方法は、前記イベントを前記音声識別情報とともに入力するステップの前に、前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに出力するステップをさらに含むことができる。 In the correspondence determining method of the present invention, before the step of inputting the event together with the voice identification information, the voice-related data is input together with the voice identification information, and whether the voice-related data meets a predetermined condition or not. And detecting an event indicating that the condition is met together with the voice identification information when the condition is met.
本発明の対応決定方法において、前記イベントを前記音声識別情報とともに出力するステップは、前記音声入力デバイスから入力された音声のパワーをモニタするステップと、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力するステップと、を含むことができる。 In the correspondence determining method of the present invention, the step of outputting the event together with the voice identification information includes the step of monitoring the power of the voice input from the voice input device, and the state where the voice power is equal to or lower than a predetermined value. And outputting an event indicating a voice input failure when continuing for a predetermined time.
本発明の対応決定方法において、前記イベントを前記音声識別情報とともに出力するステップは、前記音声入力デバイスから入力された音声のパワーをモニタするステップと、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力するステップと、を含むことができる。 In the correspondence determination method of the present invention, the step of outputting the event together with the voice identification information includes the step of monitoring the power of the voice input from the voice input device, and the voice power is equal to or higher than a predetermined value. A step of outputting an event indicating utterance detection.
本発明の対応決定方法は、話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力するステップをさらに含むことができ、前記イベントを前記音声識別情報とともに出力するステップは、前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することができる。 In the correspondence determination method of the present invention, a voice input from a voice input device assigned to a speaker is input together with voice identification information associated with the speaker, the voice is voice-recognized, and a voice recognition result is obtained. The step of outputting together with the voice identification information may further include the step of outputting the event together with the voice identification information, when the voice recognition result is output, an event indicating a voice recognition result is output from the voice recognition result. Can be output together.
本発明の対応決定方法において、前記イベントを入力するステップは、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することができる。 In the correspondence determining method of the present invention, the step of inputting the event includes an event indicating that data relating to speech input from a plurality of speech input devices respectively assigned to a plurality of speakers matches a predetermined condition. It can be input together with the voice identification information associated with each speaker.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.
本発明によれば、話者の音声に応じて、話者の位置も考慮して適切な対応をとることができる。 According to the present invention, an appropriate response can be taken in consideration of the position of the speaker according to the voice of the speaker.
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。なお、以下の図面において、本発明の本質に関わらない部分の構成は省略する。 Next, the best mode for carrying out the invention will be described in detail with reference to the drawings. In the following drawings, configurations of parts not related to the essence of the present invention are omitted.
以下の実施の形態において、対応決定システムおよび対応決定方法が、自律移動するとともに話者と対話するロボットを制御するロボット制御システムおよびロボット制御方法である場合を例として説明する。 In the following embodiments, the case where the correspondence determination system and the correspondence determination method are a robot control system and a robot control method for controlling a robot that moves autonomously and interacts with a speaker will be described as an example.
以下の実施の形態において、ロボットとコミュニケーションを取りたい人には、マイク、マイクに入力された音声をロボットに送信する音声出力部を含む通信端末装置、およびロボットが位置情報を取得するための識別タグが付与される。 In the following embodiments, for a person who wants to communicate with a robot, a microphone, a communication terminal device including a voice output unit that transmits voice input to the microphone to the robot, and identification for the robot to acquire position information A tag is given.
(第一の実施の形態)
本実施の形態において、対応決定システムは、ロボット内に組み込まれる。
(First embodiment)
In the present embodiment, the correspondence determination system is incorporated in the robot.
図1は、本実施の形態におけるロボットと、話者である参加者との関係を示す模式図である。
ここでは、ロボット100と、第一の参加者300、第二の参加者310、および第三の参加者320とのコミュニケーションを例に説明する。
FIG. 1 is a schematic diagram showing the relationship between a robot and a participant who is a speaker in the present embodiment.
Here, communication between the
第一の参加者300、第二の参加者310、および第三の参加者320は、それぞれ、第一の識別タグ302、第一の音声出力部304、および第一のマイク306、第二の識別タグ312、第二の音声出力部314、および第二のマイク316、ならびに第三の識別タグ322、第三の音声出力部324、および第三のマイク326を保持する。
The
以下、第一の参加者300を例に説明する。
第一のマイク306は、第一の参加者300の音声を入力する。第一のマイク306は、参加者が動きやすいように、ヘッドセットマイクとすることができる。第一のマイク306は、第一の参加者300に付与された第一の音声出力部304に接続される。
Hereinafter, the
The
第一の音声出力部304は、たとえば携帯型の無線通信装置である。第一の音声出力部304は、たとえばPDA(Personal Digital Assistance)とすることができる。第一の音声出力部304は、第一のマイク306から入力される音声をロボット100に送信する。この際、第一の音声出力部304は、音声とともに自己を識別する音声識別情報をロボット100に送信する。第一の参加者300は、たとえば第一の音声出力部304をメッシュ状のポケットを有するバッグやリュックのポケットに入れて、第一の音声出力部304を携帯することができる。
The first
ロボット100と第一の音声出力部304とは、たとえば無線LAN等を介して通信を行うことができる。ロボット100と第一の音声出力部304とが無線LANを介して通信を行う場合、たとえば、TCP(Transmission Control Protocol)/IP(Internet Protocol)により通信を行うことができる。この場合、たとえば第一の音声出力部304の音声識別情報として、各装置に割り当てられたポート番号やIPアドレスを用いることもできる。
The
第一の識別タグ302は、たとえばアクティブ/パッシブのRFID(Radio Frequency Identification)タグ、超音波タグ、赤外線タグ等、電波や電磁波、超音波、赤外線等により読み取り可能なタグである。第一の識別タグ302には、タグ固有のタグ識別情報が記憶される。第一の参加者300は、第一の識別タグ302をたとえば胸元等自分の体の一部につけておく。ロボット100は、第一の識別タグ302からタグ識別情報を読み取ることにより、第一の参加者300を識別することができる。また、ロボット100は、第一の識別タグ302の読み取り強度等により、第一の識別タグ302の位置情報を取得することができる。ここで、位置情報とは、ロボット100と第一の参加者300との距離および第一の参加者300のロボット100に対する方向等、第一の参加者300のロボット100に対する位置情報とすることができる。
The
たとえば、第一の識別タグ302が超音波タグの場合、第一の識別タグ302から定期的に超音波を送信し、ロボット100のリーダが受信する。ロボット100は、リーダが受信した超音波の到達時間や受信角度により第一の参加者300の位置情報を取得することができる。
For example, when the
第二の参加者310の第二の識別タグ312、および第三の参加者320の第三の識別タグ322も、第一の参加者300の第一の識別タグ302と同様の構成を有する。第二の参加者310の第二の音声出力部314、および第三の参加者320の第三の音声出力部324も、第一の参加者300の第一の音声出力部304と同様の構成を有する。
The
ロボット100は、複数の参加者の音声を同時に受信可能に構成されるとともに、複数の参加者の位置情報を同時に取得可能な構成とされる。本実施の形態において、ロボット100は、自律移動型である。
The
図2は、本実施の形態におけるロボットの一例を示す外観構成図である。
ロボット100は、たとえば、胴体部1および頭部2が連結されることにより構成される。胴体部1の下部には左右にそれぞれ車輪3Aおよび車輪3Bが取り付けられており、これらの車輪は、独立に前後に回転することができる。
FIG. 2 is an external configuration diagram showing an example of the robot in the present embodiment.
The
頭部2は、胴体部1に垂直に取り付けられた垂直軸とその垂直軸に対して90度の角度で設置された水平軸に関して決められた範囲で回転することができる。垂直軸は頭部2の中心を通るように設置されており、水平軸は胴体部1と頭部2が正面を向いた状態で頭部2の中心を通りかつ左右方向に水平に設置されている。つまり、頭部2は左右と上下の2自由度で、決められた範囲内で回転することができる。
The
胴体部1の表面には、スピーカ12および内部マイク13が設けられる。また、頭部2の表面には、CCDカメラ21AおよびCCDカメラ21Bが設けられる。
A
図3は、ロボット100の電気的構成の一例を示すブロック図である。
胴体部1には、ロボット全体の制御を行うコントローラ10、ロボットの動力源となるバッテリ11、スピーカ12、内部マイク13、2つの車輪を動かすためのアクチュエータ14Aおよびアクチュエータ14B、通信インターフェース(I/F)24、ならびにタグリーダ26等が収納されている。
FIG. 3 is a block diagram illustrating an example of the electrical configuration of the
The
内部マイク13は、特定の話者からの発話を含む周囲の音声を集音し、得られた音声データをコントローラ10に送出する。
The
コントローラ10は、CPU10Aやメモリ10Bを内蔵しており、CPU10Aにおいて、メモリ10Bに記憶された制御プログラムが実行されることにより、各種の処理を行う。
The
通信インターフェース24は、参加者(図1の第一の参加者300、第二の参加者310、および第三の参加者320)に付与された通信端末装置(図1の第一の音声出力部304、第二の音声出力部314、および第三の音声出力部324)との間で通信を行う。
The
タグリーダ26は、参加者(図1の第一の参加者300、第二の参加者310、および第三の参加者320)に付された識別タグ(図1の第一の識別タグ302、第二の識別タグ312、および第三の識別タグ322)からタグ識別情報を読み取る。
The
頭部2には、CCDカメラ21AおよびCCDカメラ21B、ならびに頭部2を回転するためのアクチュエータ22Aおよびアクチュエータ22B等が収納されている。
The
CCDカメラ21AおよびCCDカメラ21Bは、周囲の状況を撮像し、得られた画像データを、コントローラ10に送出する。
The CCD camera 21 </ b> A and the CCD camera 21 </ b> B capture the surrounding situation and send the obtained image data to the
アクチュエータ22Aおよびアクチュエータ22Bは、ロボット100の頭部2を上下左右に回転させる。
The
コントローラ10は、内部マイク13や通信インターフェース24を介して得られる音声データやCCDカメラ21AおよびCCDカメラ21Bから得られる画像データに基づいて、メモリ10Bから適宜情報を読み出し、参加者の状況や参加者の言動を解析し、対応するロボット100の言動を決定する。
The
コントローラ10は、アクチュエータ14A、アクチュエータ14B、アクチュエータ22A、アクチュエータ22B、およびタグリーダ26等を制御してロボット100に決定した動作を実行させる。また、コントローラ10は、合成音を生成し、スピーカ12に供給して、ロボット100に決定した発話を出力させる。
The
図4は、本実施の形態におけるロボット100のコントローラ10の構成を詳細に示すブロック図である。図4では、コントローラ10のハードウェア単位の構成ではなく、機能単位のブロックを示す。
ロボット100のコントローラ10(対応決定システム)は、話者に付与された第一のマイク306、第二のマイク316、第三のマイク326等(音声入力デバイス)から入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、話者に対する対応を決定する言動決定部110(対応決定部)と、対応決定部が入力したイベントに対応づけられた音声識別情報により特定される話者の位置情報を取得する位置情報取得部108と、を含み、言動決定部110は、イベントと、話者の位置情報とに基づき、ロボット100の言動(対応)を決定する。
FIG. 4 is a block diagram showing in detail the configuration of the
The controller 10 (correspondence determination system) of the
ロボット100のコントローラ10は、音声入力部102と、音声認識部104と、イベント出力部106と、位置情報取得部108と、言動決定部110と、言動実行部112の一部と、音声認識辞書114と、条件記憶部116と、対応言動記憶部118と、識別情報記憶部120と、ロボット言動記憶部130と、シナリオ記憶部132とを含む。なお、言動実行部112は、コントローラ10により実現されるメカ制御部134、音声合成部136、および出力部138、ならびにアクチュエータ14A、アクチュエータ14B、アクチュエータ22A、アクチュエータ22B、およびスピーカ12を含む。
The
通信インターフェース24は、ネットワーク400を介して、複数の音声出力部(第一の音声出力部304、第二の音声出力部314、および第三の音声出力部324)から各種データを受信する。
The
音声入力部102は、通信インターフェース24が受信した、複数の音声出力部からの音声データを、各音声識別情報に対応づけて入力する。音声入力部102は、入力した音声データを、音声識別情報とともに、音声認識部104およびイベント出力部106に出力する。また、音声入力部102は、内部マイク13が集音した音声データも入力し、音声認識部104に出力する。
The
なお、音声入力部102は、通信インターフェース24から入力される音声データまたは内部マイク13から入力される音声データの両方を同時に入力することもできるが、いずれか一方からの入力をオフとし、他方からの入力のみをオンとすることもできる。
The
音声入力部102が内部マイク13から音声データを入力する場合の各構成要素の処理は後述し、音声入力部102が通信インターフェース24から音声データを入力する場合の処理機能を以下に説明する。
Processing of each component when the
音声認識部104は、音声入力部102が入力した音声データを音声認識する。音声認識辞書114は、音声認識単語の集合である音声認識語彙を記憶する音声認識単語記憶部を含む。音声認識部104は、音声入力部102が入力した音声データと、音声認識辞書114に記憶された音声認識語彙とのマッチングを行う。音声認識部104は、音声データが音声認識されると、音声識別情報に対応づけて音声認識結果をイベント出力部106に出力する。
The
イベント出力部106は、音声入力部102から出力される音声データ、および音声認識部104から出力される音声認識結果に基づき、音声データが所定の条件に合致するか否かを検出し、条件に合致した場合に、その条件に合致したことを示すイベントを音声識別情報に対応づけて出力する。なお、イベント出力部106は、音声認識部104から音声認識結果を取得した場合は、イベントとともに音声認識結果も出力する。
The event output unit 106 detects whether or not the voice data meets a predetermined condition based on the voice data output from the
条件記憶部116は、所定の条件と、その条件に合致したことを示すイベントとを対応づけて記憶する。イベント出力部106は、条件記憶部116を参照して音声データが所定の条件に合致するか否かを検出する。
The
言動決定部110は、イベント出力部106からイベントと音声識別情報とが出力されると、その音声識別情報で特定される参加者の位置情報を位置情報取得部108から取得する。識別情報記憶部120は、各参加者の音声識別情報と、タグ識別情報とを対応づけて記憶する。言動決定部110は、イベント出力部106からイベントおよび音声識別情報を取得すると、識別情報記憶部120を参照して、音声識別情報に対応づけられたタグ識別情報を読み出し、そのタグ識別情報の位置情報の取得を位置情報取得部108に要請する。位置情報取得部108は、タグリーダ26により参加者の識別タグを読み取る処理を行い、目的のタグ識別情報を有する識別タグの位置情報を取得する。次いで、位置情報取得部108は、この位置情報を言動決定部110に通知する。言動決定部110は、位置情報取得部108から通知された位置情報を目的の参加者の位置情報として取得する。
When the event output unit 106 outputs an event and voice identification information, the
言動決定部110は、イベント出力部106から取得したイベントと参加者の位置情報とに基づき、言動実行部112に実行させる言動を決定する。対応言動記憶部118は、イベントと、それに対応するロボット100の言動とを対応づけて記憶する。言動決定部110は、対応言動記憶部118を参照して、イベント出力部106から取得したイベントに対応するロボット100の言動を読み出す。
The
ロボット言動記憶部130は、特定の状況におけるロボットの発話データおよび動作データを記憶する。シナリオ記憶部132は、シナリオ情報を記憶する。
The robot
言動決定部110は、対応言動記憶部118から読み出したロボット100の言動、話者の位置情報に基づき、必要に応じてロボット言動記憶部130およびシナリオ記憶部132を参照して、ロボット100の言動を決定する。
The
言動決定部110は、決定した言動を指令として、メカ制御部134および音声合成部136に送出する。メカ制御部134は、言動決定部110から送出された指令に基づき、アクチュエータ14A、アクチュエータ14B、アクチュエータ22A、およびアクチュエータ22Bを駆動するための制御信号を生成し、これをアクチュエータ14A、14B、22A、および22Bへ送出する。これにより、アクチュエータ14A、14B、22A、および22Bは、制御信号にしたがって駆動する。
The
音声合成部136は、言動決定部110から送出された指令に基づき、合成音を生成する。出力部138には、音声合成部136からの合成音のディジタルデータが供給されるようになっており、出力部138は、それらのディジタルデータを、アナログの音声データにD/A変換し、スピーカ12に供給して出力させる。
The
次に、音声入力部102が内部マイク13から音声データを入力する場合の各構成要素の処理機能を説明する。
この場合、音声入力部102が入力する音声データには、音声識別情報が対応づけられないことになる。ここでは図示していないが、コントローラ10は、たとえばCCDカメラ21AやCCDカメラ21Bから入力される画像データ等を用いて、話者を認識するようにすることができる。話者が認識できる場合、音声認識部104、イベント出力部106、および言動決定部110は、上述した音声入力部102が通信インターフェース24から音声データを入力する場合と同様の処理を行うことができる。
Next, the processing function of each component when the
In this case, voice identification information is not associated with voice data input by the
また、話者が認識できない場合、音声入力部102が入力した音声データや音声認識部104が認識した音声認識結果は、音声入力部102や音声認識部104から言動決定部110に直接入力されるようにすることもでき、言動決定部110は、ロボット言動記憶部130やシナリオ記憶部132を参照して、ロボット100の言動を決定することができる。話者が認識できない場合でも、音声入力部102が入力した音声データや音声認識部104が認識した音声認識結果は、イベント出力部106に入力され、イベント出力部106により、所定の条件に合致するか否かを検出する処理が行われるようにすることもできる。
If the speaker cannot be recognized, the voice data input by the
図5は、条件記憶部116の内部構成の一例を示す図である。以下、図4も参照して説明する。
条件記憶部116は、イベント欄と条件欄とを含む。イベント欄は、番号欄と内容欄とを含む。
FIG. 5 is a diagram illustrating an example of an internal configuration of the
The
たとえば、番号「1」のイベントの内容は「音声入力不具合」、条件は「所定時間音声入力がなし」である。つまり、何らかの不具合により音声入力部102が第一の参加者300、第二の参加者310、第三の参加者320からの音声を入力できない場合にこの条件に合致する。
For example, the content of the event with the number “1” is “voice input failure” and the condition is “no voice input for a predetermined time”. That is, this condition is met when the
音声入力不具合が生じる原因としては、たとえば、各音声出力部を含む通信端末装置の電源切れ等の不具合や、各マイクと対応する音声出力部との間の断線等が考えられる。本実施の形態において、各マイクは、各参加者の発話音声がない場合でも、周囲の音声や音声出力部特有のノイズにより、音声パワーがゼロの状態が継続することはない構成とされる。そのため、イベント出力部106は、音声入力部102から出力される音声のパワーがゼロの状態が所定時間以上継続した場合、「所定時間音声入力なし」という条件に合致することを検出することができる。また、たとえば、ロボット100から各通信端末装置に定期的にテストデータを送信し、所定時間内に応答があるか否かに応じて、「所定時間音声入力なし」という条件に合致するか否かを検出することもできる。イベント出力部106は、各通信端末装置にテストデータを送信した後、所定時間内に応答がない場合に、「所定時間音声入力なし」という条件に合致したことを検出することができる。
Possible causes of the voice input failure include, for example, a failure such as a power-off of the communication terminal device including each voice output unit, a disconnection between each microphone and the corresponding voice output unit, and the like. In the present embodiment, each microphone is configured such that the voice power does not continue to be zero due to surrounding voice or noise peculiar to the voice output unit even when there is no speech voice of each participant. Therefore, the event output unit 106 can detect that the condition of “no audio input for a predetermined time” is met when the state where the power of the audio output from the
また、たとえば、番号「2」のイベントの内容は「発話検出」、条件は「音声レベルが所定の閾値以上」である。つまり、第一の参加者300、第二の参加者310、および第三の参加者320のいずれかから発話があった場合にこの条件に合致する。
For example, the content of the event with the number “2” is “speech detection”, and the condition is “sound level is equal to or higher than a predetermined threshold”. That is, this condition is met when there is an utterance from any of the
イベント出力部106は、音声入力部102から出力される音声のパワーが所定の閾値以上となった場合に、「音声レベルが所定の閾値以上」という条件に合致することを検出することができる。また、イベント出力部106は、音声入力部102から出力される音声のパワーが所定の閾値以上となった場合に、所定時間その識別情報の音声を収集、解析し、人の声の特徴量が含まれているかどうかを判定し、その判定結果に応じて条件に合致するか否かを検出することもできる。
The event output unit 106 can detect that the condition that “the audio level is equal to or higher than the predetermined threshold” is met when the power of the audio output from the
また、たとえば、番号「3」のイベントの内容は「音声認識結果」、条件は「音声認識結果取得」である。つまり、音声認識部104が音声認識結果を出力した場合にこの条件に合致する
Further, for example, the content of the event with the number “3” is “voice recognition result”, and the condition is “voice recognition result acquisition”. That is, this condition is met when the
図6は、対応言動記憶部118の内部構成の一例を示す図である。以下、図4も参照して説明する。
対応言動記憶部118は、イベント番号欄と言動欄とを有する。イベント番号欄には、条件記憶部116のイベント欄の番号欄の番号に対応する番号が記憶される。
FIG. 6 is a diagram illustrating an example of the internal configuration of the corresponding
The corresponding
たとえば、番号「1」のイベントが出力された場合の言動は、「(1)対応する話者に近づく。(2)内部マイクによる音声入力に切り替え。」である。言動決定部110は、このイベントに対応づけられた参加者の位置情報に基づき、ロボット100が対応する話者に近づく行為を言動実行部112に実行させる。この際、言動決定部110は、位置情報取得部108から対応する参加者の位置情報を逐次取得するようにし、参加者との距離が所定距離内になったら、(2)の言動を実行させる。(2)の言動としては、音声入力部102が内部マイク13からの音声データを選択的に入力するようにし、対応する参加者の音声をロボット100の内部マイク13から直接入力する。
For example, the behavior when the event with the number “1” is output is “(1) Approaching the corresponding speaker. (2) Switching to voice input by the internal microphone”. The
また、たとえば、番号「2」のイベントが出力された場合の言動は、「話者の方を向く。」である。言動決定部110は、このイベントに対応づけられた参加者の位置情報に基づき、ロボット100が対応する話者の方を向く行為を言動実行部112に実行させる。
Further, for example, the behavior when the event of the number “2” is output is “Look toward the speaker”. The
また、たとえば番号「3」のイベントが出力された場合の言動は、「(1)話者の方を向く。(2)対応する音声出力。」である。言動決定部110は、このイベントに対応づけられた参加者の位置情報に基づき、ロボット100が対応する話者の方を向く行為を言動実行部112に実行させる。つづいて、言動決定部110は、ロボット言動記憶部130やシナリオ記憶部132を参照して、音声認識結果に対応する応答の音声を出力を決定し、言動実行部112に実行させる。
For example, when the event of the number “3” is output, the behavior is “(1) facing the speaker. (2) corresponding voice output”. The
図7は、識別情報記憶部120の内部構成の一例を示す図である。
識別情報記憶部120は、名前欄と、音声識別情報欄と、タグ識別情報欄とを含む。
名前欄には参加者の名前が記憶される。音声識別情報欄には、各音声出力部の識別情報が記憶される。タグ識別情報欄には、各識別タグのタグ識別情報が記憶される。
FIG. 7 is a diagram illustrating an example of an internal configuration of the identification
The identification
The name field stores the names of the participants. In the voice identification information column, identification information of each voice output unit is stored. Tag identification information for each identification tag is stored in the tag identification information column.
ここで、たとえば「さくら」という名前の参加者には、音声識別情報「1111」、タグ識別情報「0001」が対応づけられている。また、「もも」という名前の参加者には、音声識別情報「1112」、タグ識別情報「0002」が対応づけられている。また、「たろう」という名前の参加者には、音声識別情報「1113」、タグ識別情報「0003」が対応づけられている。 Here, for example, voice identification information “1111” and tag identification information “0001” are associated with the participant named “Sakura”. Also, voice identification information “1112” and tag identification information “0002” are associated with the participant named “Momo”. Also, voice identification information “1113” and tag identification information “0003” are associated with the participant named “Taro”.
ここで、識別情報記憶部120は、必ずしも名前欄を有する必要はないが、名前欄に参加者の名前を記憶しておくことにより、ロボット100から参加者へ名前を呼びかけることができ、参加者とロボット100とのコミュニケーションをより円滑に図ることができる。また、識別情報記憶部120は、各参加者の性別、年齢等、参加者に関する情報を記憶する欄をさらに含むことができる。これにより、ロボット100が参加者に応じた応対をすることができる。
Here, the identification
図8は、本実施の形態におけるロボット100のコントローラ10の処理手順を示すフローチャートである。
コントローラ10の処理手順(対応決定方法)は、話者に付与された第一のマイク306、第二のマイク316、第三のマイク326等(音声入力デバイス)から入力された音声に関するデータを、音声識別情報とともに入力し、音声に関するデータが所定の条件に合致するか否かを検出し(S100)、条件に合致した場合に(S100のYES)、条件に合致することを示すイベントを、音声識別情報とともに出力するステップ(S102)と、所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、入力されたイベントに対応づけられた音声識別情報により特定される話者の位置情報を取得するステップ(S104)と、イベントと、話者の位置情報とに基づき、話者に対するロボット100の言動(対応)を決定するステップ(S106)と、を含む。
FIG. 8 is a flowchart showing a processing procedure of the
The processing procedure (correspondence determination method) of the
以下、具体的に説明する。
イベント出力部106は、音声入力部102から入力される音声データおよび音声認識部104から入力される音声認識結果を常時モニタリングする。音声に関するデータが条件記憶部116に記憶されたいずれかの条件に合致することを検出した場合(S100のYES)、イベント出力部106は、その条件に対応するイベントを音声識別情報に対応づけて言動決定部110に出力する(S102)。
This will be specifically described below.
The event output unit 106 constantly monitors the voice data input from the
言動決定部110は、イベント出力部106からイベントおよび音声識別情報が出力されると、識別情報記憶部120を参照して、音声識別情報に対応づけられたタグ識別情報を読み出す。次いで、言動決定部110は、位置情報取得部108にそのタグ識別情報を通知する。位置情報取得部108は、言動決定部110が読み出したタグ識別情報を有する識別タグを検出し、その位置を算出し、言動決定部110に通知する。これにより、言動決定部110は、イベントに対応するタグ識別情報を有する参加者の位置情報を取得する(S104)。
When the event output unit 106 outputs an event and voice identification information, the
言動決定部110は、対応言動記憶部118を参照して、イベントに対応する言動を読み出す。また、言動決定部110は、必要に応じて、ロボット言動記憶部130およびシナリオ記憶部132も参照する。言動決定部110は、対応言動記憶部118、ロボット言動記憶部130、シナリオ記憶部132から読み出した情報、および参加者の位置情報に基づき、ロボット100の言動を決定する(S106)。つづいて、言動決定部110は、決定した言動をメカ制御部134、および音声合成部136に通知する。
The
メカ制御部134および音声合成部136等の言動実行部112は、言動決定部110が決定した言動を実行する(S108)。
The
言動決定部110が決定した一連の言動が終わると、コントローラ10の処理を終了するか否かが判断され(S110)、終了しない場合(S110のNO)、ステップS100に戻る。ステップS110で、コントローラ10の処理を終了する場合(S110のYES)、処理を終える。
When the series of behaviors determined by the
次に、具体例を説明する。以下、図1〜図8を適宜参照して説明する。
たとえば、ロボット100が、第一の参加者300(さくら)、第二の参加者310(もも)、第三の参加者320(たろう)と会話する場合の例を説明する。
Next, a specific example will be described. Hereinafter, description will be made with reference to FIGS.
For example, an example in which the
第一の参加者300である「さくら」には、タグ識別情報「0001」を有する第一の識別タグ302が付され、音声識別情報「1111」を有する第一の音声出力部304が付与されている。「さくら」が発話する音声は、第一のマイク306により集音され、第一の音声出力部304から、音声識別情報「1111」に対応づけてロボット100に送信される。
The
第二の参加者310である「もも」には、タグ識別情報「0002」を有する第二の識別タグ312が付され、音声識別情報「1112」を有する第二の音声出力部314が付与されている。「もも」が発話する音声は、第二のマイク316により集音され、第二の音声出力部314から、音声識別情報「1112」に対応づけてロボット100に送信される。
The
第三の参加者320である「たろう」には、タグ識別情報「0003」を有する第三の識別タグ322が付され、音声識別情報「1113」を有する第三の音声出力部324が付与されている。「たろう」が発話する音声は、第三のマイク326により集音され、第三の音声出力部324から、音声識別情報「1113」に対応づけてロボット100に送信される。
The
たとえば、音声識別情報「1111」に対応づけられた音声データの入力が所定時間ない場合、ロボット100のイベント出力部106は、音声識別情報「1111」に対応づけられた音声データが、イベント「音声入力不具合」に対応づけられた条件に合致することを検出する。イベント出力部106は、音声識別情報「1111」とともに、そのイベントを示す番号「1」を言動決定部110に出力する。
For example, when there is no input of voice data associated with the voice identification information “1111” for a predetermined time, the event output unit 106 of the
言動決定部110は、音声識別情報「1111」に基づき、識別情報記憶部120を参照し、音声識別情報「1111」に対応するタグ識別情報「0001」を読み出す。つづいて、言動決定部110は、位置情報取得部108にタグ識別情報「0001」を通知する。位置情報取得部108は、タグ識別情報「0001」を有する識別タグである第一の識別タグ302の位置情報を取得し、言動決定部110に通知する。
The
言動決定部110は、イベント「音声入力不具合」を示す番号「1」に対応づけられた言動をロボット100に実行させるよう決定する。具体的には、位置情報取得部108から取得した第一の識別タグ302の位置情報に基づき、「さくら」に近づくための動作を決定する。言動決定部110は、言動実行部112に決定した動作を実行させる。ロボット100が「さくら」に近づくと、言動決定部110は、音声入力部102が内部マイク13から音声を入力するよう切り替える。このように、「音声入力不具合」を示すイベントが出力された場合、ロボット100が対応する話者に近づくことにより、ロボット100が内部マイク13から話者の音声を入力する際に、周囲の雑音や遠距離発話を避けることができ、より正確に音声認識等を行うことができる。ただし、この言動は必ずしも行わなくてよく、単にロボット100が話者の方を向くだけの言動でもよく、また、話者の方を向いて、「さくらちゃん、こっちに来て」等発話し、話者がロボット100の近くに来るような言動を行うこともできる。
The
なお、ロボット100が以上の言動を行う際、音声入力不具合が生じた参加者の名前が「さくら」であることもわかるので、ロボット100が「さくら」の方に移動する前に、ロボット100に「さくらちゃん、ちょっと待っていて」等の発話をさせることもできる。また、ロボット100が「さくら」に近づいたときに、ロボット100に「さくらちゃん、もう一度言って」等の発話をさせることもできる。この後、内部マイク13から入力される音声に基づき、音声認識等を行うことができる。
It should be noted that when the
また、他の例として、「さくら」の方を向き、「さくらちゃんの声が聞こえないよ。近くにいるお兄さんに聞いてみて」等の発話をするようにすることもできる。 As another example, you can turn to “Sakura” and say “You can't hear Sakura-chan. Listen to your brother nearby”.
また、たとえば、音声識別情報「1111」に対応づけられた音声データの音声のパワーが所定の閾値以上となった場合、ロボット100のイベント出力部106は、音声識別情報「1111」に対応づけられた音声データが、イベント「発話検出」に対応づけられた条件に合致することを検出する。イベント出力部106は、音声識別情報「1111」とともに、そのイベントを示す番号「2」を言動決定部110に出力する。
For example, when the voice power of the voice data associated with the voice identification information “1111” is equal to or greater than a predetermined threshold, the event output unit 106 of the
言動決定部110は、音声識別情報「1111」に基づき、識別情報記憶部120を参照し、音声識別情報「1111」に対応するタグ識別情報「0001」を読み出す。つづいて、言動決定部110は、位置情報取得部108にタグ識別情報「0001」を通知する。位置情報取得部108は、タグ識別情報「0001」を有する識別タグである第一の識別タグ302の位置情報を取得し、言動決定部110に通知する。
The
言動決定部110は、イベント「発話検出」を示す番号「2」に対応づけられた言動をロボット100に実行させるよう決定する。具体的には、位置情報取得部108から取得した第一の識別タグ302の位置情報に基づき、「さくら」の方を向く言動を決定する。言動決定部110は、言動実行部112に決定した言動を実行させる。
The
また、たとえば、音声識別情報「1111」に対応づけられた音声データの音声認識結果が出力されると、イベント出力部106は、音声識別情報「1111」に対応づけられた音声データが、イベント「音声認識結果」に対応づけられた条件に合致することを検出する。イベント出力部106は、音声識別情報「1111」とともに、そのイベントを示す番号「3」を言動決定部110に出力する。
For example, when the voice recognition result of the voice data associated with the voice identification information “1111” is output, the event output unit 106 converts the voice data associated with the voice identification information “1111” to the event “ It is detected that the condition associated with “speech recognition result” is met. The event output unit 106 outputs the number “3” indicating the event together with the voice identification information “1111” to the
言動決定部110は、音声識別情報「1111」に基づき、識別情報記憶部120を参照し、音声識別情報「1111」に対応するタグ識別情報「0001」を読み出す。つづいて、言動決定部110は、位置情報取得部108にタグ識別情報「0001」を通知する。位置情報取得部108は、タグ識別情報「0001」を有する識別タグである第一の識別タグ302の位置情報を取得し、言動決定部110に通知する。
The
言動決定部110は、イベント「音声認識結果」を示す番号「3」に対応づけられた言動をロボット100に実行させるよう決定する。具体的には、位置情報取得部108から取得した第一の識別タグ302の位置情報に基づき、「さくら」の方を向く言動を決定する。つづいて、言動決定部110は、ロボット言動記憶部130およびシナリオ記憶部132を参照して、音声認識結果に対応する言動を決定し、ロボット100に実行させる。たとえば、音声認識結果が「こんにちは」だった場合、ロボット100に、「さくらちゃん、こんにちは」等と発話させる。
The
また、たとえば、音声識別情報「1111」に対応づけられた音声データ、音声識別情報「1112」に対応づけられた音声データの音声のパワーが略同時に所定の閾値以上となった場合、ロボット100は、該当する各参加者に対し、順番に同様の処理を行うことができる。この際、ロボット100は、話者の方を向く動作を行うが、たとえば、「さくら」と「もも」の方を交互に向く動作を行うことができる。
Further, for example, when the voice power of the voice data associated with the voice identification information “1111” and the voice data associated with the voice identification information “1112” become substantially equal to or greater than a predetermined threshold at the same time, the
次に、たとえば、ロボット100に、クイズを出題させ、「今から言う問題に、“せーの”で答えてね」と発話させ、三人の子供から同時に回答を得る場合の例を説明する。ここでは、たとえばイベント2の「発話検出」は実行しないように設定される。
Next, for example, let us explain an example in which the
このとき、三人の音声が通信インターフェース24を介して入力されると、音声認識部104は、それぞれの音声データについて音声認識を行う。ロボット100は、音声認識が行われた子供の方を向く。このとき、三人の音声認識結果の出力に時間差がある場合は、最初に音声認識結果が検出された子供に対する処理が行われる。つづいて、次の子供に対する処理が行われる。
At this time, when the voices of the three people are input via the
たとえば、ロボット100が、「魚は生き物かな、それとも植物かな、どっちか答えて、せーの」と発話して、さくら、もも、たろうの順で「植物」、「生き物」、「生き物」と音声認識された場合、ロボット100は、まず「さくら」の方を向き、次に「もも」の方を向き、最後に「たろう」の方を向く。つづいて、ロボット100は、音声認識結果に対応する動作を行う。たとえば、「正解は生き物です。ももちゃんとたろうちゃんが正解しました。さくらちゃん残念でした。次に頑張ってね」等の発話を行う。
For example, the
次に、たとえば、ロボット100に、クイズを出題させ、「今から言う問題に、答えてね。早いもの勝ちだよ」と発話させ、三人の子供から早いもの順で回答を得る場合の例を説明する。ここでは、たとえばイベント2「発話検出」およびイベント3の「音声認識結果」の両方が実行されるよう設定される。
Next, for example, let's ask the
この場合、たとえば、イベント2の「発話検出」に対応する言動として、「発話開始時刻記録」を設定しておくことができる。これにより、ロボット100は、一番早く発話を始めた参加者を認識することができる。
In this case, for example, “utterance start time recording” can be set as the behavior corresponding to “utterance detection” of
たとえば、ロボット100が、「黒くて、空を飛ぶ鳥はなんでしょう?」と発話して、さくら、ももの順で、「はい、それはカラスです」、「カラス」と発話した場合、両方とも正解になる。ここで、回答を先に発話し始めたのはさくらだが、ももが発話した「カラス」の方が音節数が少なく、発話に要する時間が短いため、音声認識結果が先に出力される場合がある。この場合、音声認識結果の出力の前後だけを考慮すると、正解者は「もも」になってしまう。しかし、最も早く正解を思いついて発話を始めたのは「さくら」であるので、ロボット100は、発話検出が最も早く行われ、かつ正解だった「さくら」が正解者だとすることができる。
For example, if the
図9は、この処理を行うための言動決定部110の手順を示すフローチャートである。
ここで、図示していないが、コントローラ10は、発話検出のイベントに対応づけられた音声識別情報をイベントの出力順に記憶する発話開始キューと、音声認識結果のイベントに対応づけられた音声識別情報をイベントの出力順に記憶する音声認識結果キューとを記憶する記憶領域を含む。
FIG. 9 is a flowchart showing the procedure of the
Here, although not shown in the figure, the
言動決定部110は、イベント出力部106から、発話検出のイベントの出力があると(S200のYES)、そのイベントに対応づけられた音声識別情報を発話開始キューに追加する(S202)。
When there is an utterance detection event output from the event output unit 106 (YES in S200), the
また、言動決定部110は、イベント出力部106から、音声認識結果のイベントの出力があると(S204のYES)、そのイベントに対応づけられた音声識別情報と、発話開始キューの先頭の音声識別情報とが同じか否かを判断する(S206)。発話開始キューの先頭と同じ音声識別情報である場合(S206のYES)、言動決定部110は、対応言動記憶部118、識別情報記憶部120、ロボット言動記憶部130、およびシナリオ記憶部132等を参照して、その音声識別情報に対応づけられた話者へのロボット100の言動を決定する(S208)。
In addition, when the event output unit 106 outputs an event of a speech recognition result (YES in S204), the
つづいて、発話開始キューからその音声識別情報を削除する(S210)。次いで、発話開始キューの先頭の音声識別情報が音声認識結果キューにあるか否かを判断し(S212)、ある場合(S212のYES)、その音声識別情報を応答認識結果キューから削除する(S214)。この後、ステップS208に戻り、その音声識別情報に対応づけられた話者へのロボット100の言動を決定する。
Subsequently, the voice identification information is deleted from the utterance start queue (S210). Next, it is determined whether the voice identification information at the head of the utterance start queue is in the voice recognition result queue (S212). If there is (YES in S212), the voice identification information is deleted from the response recognition result queue (S214). ). Thereafter, the process returns to step S208, and the behavior of the
一方、ステップS206において、発話開始キューの先頭と同じ音声認識結果でない場合(S206のNO)、音声認識結果キューに、音声識別情報を追加する(S216)。 On the other hand, if the voice recognition result is not the same as the head of the utterance start queue in step S206 (NO in S206), the voice identification information is added to the voice recognition result queue (S216).
ステップS212で発話開始キューの先頭の音声識別情報が応答認識結果キューにない場合(S212のNO)、およびステップS216の後、処理を終了するか否かを判断し(S218)、終了しない場合(S218のNO)、ステップS200に戻り、待機する。 In step S212, when the voice identification information at the head of the utterance start queue is not in the response recognition result queue (NO in S212), and after step S216, it is determined whether or not to end the process (S218). (NO in S218), the process returns to step S200 and waits.
また、ステップS218で処理を終了する場合(S218のYES)、処理を終了する。 In addition, when the process ends in step S218 (YES in S218), the process ends.
このように、ロボット100は、複数の参加者からの発話に応じて、他の参加者への対応を決定することができる。
As described above, the
以上で具体例として説明した処理は、対応言動記憶部118、ロボット言動記憶部130、およびシナリオ記憶部132に適宜設定しておくことにより、実現することができる。
The processing described above as a specific example can be realized by appropriately setting the corresponding
以上、本実施の形態におけるロボット100によれば、ロボット100が、話者の音声を契機としたイベントの出力に基づき、イベントおよび話者の位置に応じた言動を実行するので、ロボット100と話者のコミュニケーションを円滑にすることができる。
As described above, according to the
(第二の実施の形態)
本実施の形態において、イベント出力部がロボット100ではなく、ロボット100外部に設けられたイベント出力サーバに設けられる点で、第一の実施の形態と異なる。本実施の形態において、対応決定システムの一部はロボット100内に組み込まれ、他の一部はイベント出力サーバ内に組み込まれる。
(Second embodiment)
This embodiment is different from the first embodiment in that the event output unit is provided not in the
図10は、本実施の形態におけるイベント出力サーバの構成を示すブロック図である。 FIG. 10 is a block diagram showing the configuration of the event output server in the present embodiment.
本実施の形態において、第一の音声出力部304、第二の音声出力部314、第三の音声出力部324から出力された音声データおよびその音声識別情報は、第一のイベント出力サーバ200または第二のイベント出力サーバ220に送信される。第一のイベント出力サーバ200または第二のイベント出力サーバ220は、受信した音声データが所定の条件に合致するか否かを検出し、所定の条件に合致した場合に、当該条件に合致することを示すイベントを音声識別情報とともにロボット100に送信する。ロボット100は、第一のイベント出力サーバ200または第二のイベント出力サーバ220から出力されたイベントおよび音声識別情報に基づき、言動を決定して実行する。
In the present embodiment, the audio data and the audio identification information output from the first
ここで、二つのイベント出力サーバのみを示しているが、イベント出力サーバは、参加者一人に対して一つ設けてもよく、また複数の参加者に対して一つだけ設けてもいずれでもよい。以下、第一の音声出力部304からの音声データが第一のイベント出力サーバ200に送信され、第二の音声出力部314および第三の音声出力部324からの音声データが第二のイベント出力サーバ220に送信される場合を例として説明する。
Although only two event output servers are shown here, one event output server may be provided for each participant, or only one event output server may be provided for a plurality of participants. . Hereinafter, the audio data from the first
第一のイベント出力サーバ200は、音声入力部202、音声認識部204、イベント出力部206、データ出力部208、音声認識辞書210、条件記憶部212、および通信インターフェース(I/F)214を含む。第二のイベント出力サーバ220も第一のイベント出力サーバ200と同様の構成を有する。
The first
通信インターフェース214は、ネットワーク400を介して、第一の音声出力部304からデータを受信する。
The
音声入力部202は、通信インターフェース214が受信した、第一の音声出力部304からの音声データを、音声識別情報に対応づけて入力する。音声入力部202は、入力した音声データを、音声識別情報とともに、音声認識部204およびイベント出力部206に出力する。
The
音声認識部204は、音声入力部202が入力した音声データを音声認識する。音声認識辞書210は、音声認識単語の集合である音声認識語彙を記憶する音声認識単語記憶部を含む。音声認識部204は、音声入力部202が入力した音声データと、音声認識辞書210に記憶された音声認識語彙とのマッチングを行う。音声認識部204は、音声データが音声認識されると、音声識別情報に対応づけて音声認識結果をイベント出力部206に出力する。
The
イベント出力部206は、音声入力部202から出力される音声データ、および音声認識部204から出力される音声認識結果に基づき、音声データが所定の条件に合致するか否かを検出し、条件に合致した場合に、条件に合致したことを示すイベントを音声識別情報に対応づけて出力する。なお、イベント出力部206は、音声認識部204から音声認識結果を取得した場合は、イベントとともに音声認識結果も出力する。
The
条件記憶部212は、第一の実施の形態において図4を参照して説明した条件記憶部116と同様の構成を有する。イベント出力部206は、条件記憶部212を参照して音声データが所定の条件に合致するか否かを検出する。
The
データ出力部208は、イベント出力部206が出力したイベント等のデータをロボット100に送信する処理を行う。通信インターフェース214は、データ出力部208の指示に基づき、データをロボット100に送信する。
The
図11は、本実施の形態におけるロボット100の構成を示すブロック図である。
ロボット100は、図4に示したロボット100のイベント出力部106および条件記憶部116を有さず、データ入力部122を有する点で異なる。
FIG. 11 is a block diagram illustrating a configuration of the
The
通信インターフェース24は、ネットワーク400を介して、第一のイベント出力サーバ200および第二のイベント出力サーバ220から、音声識別情報に対応づけられたイベントを受信する。
The
データ入力部122は、通信インターフェース24が受信した、複数の第一のイベント出力サーバ200、および第二のイベント出力サーバ220からのデータを入力する。データ入力部122は、入力したデータを言動決定部110に出力する。
The
言動決定部110は、データ入力部122から出力されたイベントに基づき、対応言動記憶部118から、当該イベントに対応するロボット100の言動を読み出す。つづいて、言動決定部110は、識別情報記憶部120を参照して、目的の音声識別情報に対応するタグ識別情報を読み出す。この後の処理は第一の実施の形態におけるロボット100と同様である。
Based on the event output from the
また、音声入力部102は、内部マイク13が集音した音声データを入力し、音声認識部104に出力する。音声認識部104は、この音声データを音声認識する。
In addition, the
図12は、本実施の形態における第一の音声出力部304、第一のイベント出力サーバ200、およびロボット100の処理手順を示すフローチャートである。
FIG. 12 is a flowchart showing a processing procedure of the first
第一の音声出力部304は、第一のマイク306から入力される第一の参加者300の音声データを常時第一のイベント出力サーバ200に送信する(S300)。
The first
第一のイベント出力サーバ200において、音声入力部202は第一の音声出力部304から送信された音声データを音声認識部204およびイベント出力部206に出力する。音声認識部204は、音声データを音声認識した場合、音声認識結果をイベント出力部206に出力する。イベント出力部206において、音声入力部202または音声認識部204から出力される音声に関するデータが所定の条件に合致した場合(S302)、イベント出力部206は、その条件に合致したことを示すイベントを音声識別情報に対応づけて出力する。イベント、音声識別情報、および音声認識結果がロボット100に送信される(S304)。
In the first
ロボット100において、言動決定部110は、第一のイベント出力サーバ200からイベントを取得すると、そのイベントに対応づけられた音声識別情報に対応するタグ識別情報に基づき、対応する参加者の位置情報を取得する(S306)。つづいて、言動決定部110は、対応言動記憶部118、識別情報記憶部120、ロボット言動記憶部130、およびシナリオ記憶部132を参照して、参加者の位置情報に基づき、ロボット100の言動を決定する(S308)。次いで、メカ制御部134および音声合成部136等に言動を実行させる(S310)。
In the
本実施の形態においても、第一の実施の形態と同様の効果が得られる。また、本実施の形態においては、イベント出力部がロボット100外部のイベント出力サーバに設けられ、音声認識等の処理もイベント出力サーバで行われるので、ロボット100自体の処理を簡易にすることができる。また、複数のイベント出力サーバを設け、複数の話者からの音声を分散して処理することにより、効率よく音声認識等の処理を行うこともできる。
Also in this embodiment, the same effect as that of the first embodiment can be obtained. Further, in the present embodiment, the event output unit is provided in the event output server outside the
以上の実施の形態で説明したロボットおよびイベント出力サーバの各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インターフェースを中心にハードウェアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。 Each component of the robot and the event output server described in the above embodiments includes a CPU, a memory, a program that realizes the components shown in the figure loaded in the memory, and a hard disk that stores the program. It is realized by any combination of hardware and software, centering on the storage unit and network connection interface. It will be understood by those skilled in the art that there are various modifications to the implementation method and apparatus.
以上、図面を参照して本発明の実施の形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。 The embodiments of the present invention have been described above with reference to the drawings, but these are exemplifications of the present invention, and various configurations other than those described above can be adopted.
以上の実施の形態において、たとえば図5および図6に示したように、複数の条件およびそれに対応したイベントを示したが、ロボットまたはイベント出力サーバにおいて、これらの条件に合致するか否かを並行して判断する構成とすることもでき、また、いずれか一の条件のみについて、合致するか否かを判断する構成とすることもできる。どの条件に基づきイベントが出力されるかは、ロボットを用いる形態に応じて適宜設定可能である。 In the above embodiment, for example, as shown in FIGS. 5 and 6, a plurality of conditions and events corresponding thereto are shown. In the robot or the event output server, whether or not these conditions are met is determined in parallel. It is also possible to adopt a configuration for determining whether or not only one of the conditions is met. Which condition is used to output an event can be set as appropriate according to the form in which the robot is used.
なお、以上の実施の形態において、ロボット100がタグリーダ26を有する構成を示したが、タグリーダは、ロボット100外部に設けることもできる。この場合、ロボット100は、当該タグリーダが読み取った話者の識別タグの情報に基づき、その話者の位置情報を取得することができる。
In the above embodiment, the configuration in which the
たとえば、識別タグがRFIDタグの場合、以下のようにしてロボット100が話者の位置情報を取得することができる。まず、ロボット100や話者がいる部屋の所定の位置に複数のタグリーダを設けておく。ロボット100は、これらのタグリーダの位置を予め記憶しておく。たとえば、3個以上のタグリーダを設けておき、各タグリーダが読み取った話者の識別タグの電波強度をロボット100に送信するようにする。ロボット100は、これらの情報に基づき、話者が保持する識別タグの位置情報を取得する。
For example, when the identification tag is an RFID tag, the
また、以上の実施の形態において、話者(参加者)に音声出力部を含む通信端末装置および識別タグを付与する形態を示したが、識別タグを付与することなく、通信端末装置の位置に基づき、話者の位置情報を取得することもできる。たとえば、通信端末装置として、GPS機能付きのPDA端末を用いたり、通信端末装置から発信される電波を用いることにより、通信端末装置の位置情報を取得することができる。 Moreover, in the above embodiment, although the communication terminal device including an audio | voice output part and the form which provides an identification tag were shown to the speaker (participant), the position of the communication terminal device was not provided without providing an identification tag. Based on this, the position information of the speaker can be acquired. For example, the position information of the communication terminal device can be acquired by using a PDA terminal with a GPS function as the communication terminal device or using a radio wave transmitted from the communication terminal device.
このように、話者の位置情報を取得する方法は、種々の形態とすることができ、以上の実施の形態で説明したものに限定されない。 As described above, the method for acquiring the position information of the speaker can take various forms, and is not limited to the one described in the above embodiment.
なお、以上の実施の形態において、ロボット100が話者の位置情報に応じて、話者の方を向いたり、話者の方へ近づいたり等、動作する例を示したが、ロボット100は、話者の位置情報に応じた発話のみを行うようにすることもできる。たとえば、ある話者が「湖の方に行ってみよう」等発話し、その話者の位置情報から、その話者が危険なエリアに近づいていることを検出した場合「○○ちゃん、そっちに行ったら危ないよ」等の発話だけを行うこともできる。
In the above embodiment, an example in which the
また、たとえば、ロボット100が複数の話者とコミュニケーションを取る場合には、複数の話者に対するイベント出力に応じて、ロボット100が効率よく言動を実行するように制御することができる。たとえば、さくら、もも、たろうの順で並んでいる子供が、さくら、たろう、ももの順で「こんにちは」と発話して音声認識された場合、ロボット100が一度、さくらの方を向き、ももを通り越してたろうの方を向いた後、再びももの方に向かなければならない。ロボット100は、いずれかの話者に対するイベント出力があると、所定時間待機して、他の話者に対するイベント出力の有無を確認した後、言動を行うようにすることができる。複数の話者に対するイベント出力があった場合、ロボット100は、それらの話者の位置情報に応じて、効率よい言動をすることができる。たとえば、前述の例では、所定時間内にさくら、もも、たろうの全員から「こんにちは」という発話があり、音声認識された場合、ロボット100は、さくら、もも、たろうの位置情報に基づき、さくら、もも、たろうの順にそれぞれの方を向き、「こんにちは」等の発話を行うようにすることができる。
In addition, for example, when the
以上の実施の形態において、ロボット100が内部マイク13を有する構成を示したが、ロボット100は、内部マイク13を有しない構成とすることもできる。この場合は、たとえば、ロボット100は、音声入力不具合が生じた音声入力デバイスが付与された話者の方を向いて、何らかの発話をしたり、新しい音声入力デバイスをその話者の方へ持って行く等、内部マイク13を用いない言動を適宜行うことができる。
In the above embodiment, the configuration in which the
以上の実施の形態ではとくに説明しなかったが、ロボット100のコントローラ10は、CCDカメラ21A、およびCCDカメラ21Bから送出された画像データにも基づいて、周囲の状況を解析し、それに応じてロボット100の言動を決定することもできる。
Although not specifically described in the above embodiment, the
また、以上の実施の形態では、自律移動するとともに話者と対話するロボットを例として説明したが、ロボットは、いずれか一方の機能のみを有するものとすることもできる。 In the above embodiment, a robot that moves autonomously and interacts with a speaker has been described as an example. However, the robot may have only one of the functions.
また、以上の実施の形態において、対応決定システムおよび対応決定方法が、ロボット制御システムおよびロボット制御方法である場合を例として説明したが、対応決定システムおよび対応決定方法は、たとえば、擬人化エージェントを用いた音声対話システムや音声対話方法、または音声認識を利用した情報検索システムや情報検索方法に適用することもできる。このような場合も、ユーザがマイク等の音声入力デバイスに音声を入力した場合、音声に関するデータおよびユーザの位置に応じて、システムが適切な対応を取るようにすることができる。 In the above embodiment, the case where the response determination system and the response determination method are the robot control system and the robot control method has been described as an example. However, the response determination system and the response determination method include, for example, an anthropomorphic agent. The present invention can also be applied to the used voice dialogue system and voice dialogue method, or the information retrieval system and information retrieval method using voice recognition. Even in such a case, when the user inputs a sound to a sound input device such as a microphone, the system can take an appropriate action according to the data regarding the sound and the position of the user.
以上の実施の形態において、ネットワーク400が無線LANである場合を例として説明したが、ネットワーク400は、ブルートゥース等、他の種々の無線ネットワークや、有線のネットワークとすることもできる。
In the above embodiment, the case where the
本発明は、自律移動型または対話型のロボットの制御システム、音声対話システム、音声認識を利用した情報検索システム等、話者の音声に対して何らかの対応を行うシステムおよび方法に適用することができる。 INDUSTRIAL APPLICABILITY The present invention can be applied to a system and a method for performing some correspondence with a speaker's voice, such as an autonomous mobile or interactive robot control system, a voice dialog system, and an information search system using voice recognition. .
1 胴体部
2 頭部
3A、3B 車輪
10 コントローラ
10A CPU
10B メモリ
11 バッテリ
12 スピーカ
13 内部マイク
14A、14B アクチュエータ
21A、21B CCDカメラ
22A、22B アクチュエータ
24 通信I/F
26 タグリーダ
100 ロボット
102 音声入力部
104 音声認識部
106 イベント出力部
108 位置情報取得部
110 言動決定部
112 言動実行部
114 音声認識辞書
116 条件記憶部
118 対応言動記憶部
120 識別情報記憶部
122 データ入力部
130 ロボット言動記憶部
132 シナリオ記憶部
134 メカ制御部
136 音声合成部
138 出力部
200 第一のイベント出力サーバ
202 音声入力部
204 音声認識部
206 イベント出力部
208 データ出力部
210 音声認識辞書
212 条件記憶部
214 通信I/F
220 第二のイベント出力サーバ
222 音声入力部
224 音声認識部
226 データ出力部
228 音声認識辞書
300 第一の参加者
302 第一の識別タグ
304 第一の音声出力部
306 第一のマイク
310 第二の参加者
312 第二の識別タグ
314 第二の音声出力部
316 第二のマイク
320 第三の参加者
322 第三の識別タグ
324 第三の音声出力部
326 第三のマイク
DESCRIPTION OF
26
220 second event output server 222 voice input unit 224 voice recognition unit 226
Claims (26)
前記対応決定部が入力した前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得部と、
を含み、
前記対応決定部は、前記イベントと、前記話者の位置情報とに基づき、前記対応を決定することを特徴とする対応決定システム。 An event indicating that the voice-related data input from the voice input device assigned to the speaker matches a predetermined condition is input together with the voice identification information associated with the speaker, and the response to the speaker is performed. A response determining unit to determine;
A location information acquisition unit that acquires location information of the speaker specified by the voice identification information associated with the event input by the correspondence determination unit;
Including
The correspondence determination unit determines the correspondence based on the event and the position information of the speaker.
前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに前記対応決定部に出力するイベント出力部をさらに含むことを特徴とする対応決定システム。 In the correspondence determination system according to claim 1,
Data related to the voice is input together with the voice identification information, whether or not the data related to the voice meets a predetermined condition, and an event indicating that the condition is met when the condition is met. A correspondence determination system, further comprising an event output unit that outputs the voice identification information to the correspondence determination unit.
前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することを特徴とする対応決定システム。 In the correspondence determination system according to claim 2,
The event output unit monitors the power of the voice input from the voice input device, and outputs an event indicating a voice input failure when the voice power is below a predetermined value for a predetermined time. Correspondence determination system characterized by
前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することを特徴とする対応決定システム。 In the correspondence determination system according to claim 2 or 3,
The event output unit monitors the power of the voice input from the voice input device, and outputs an event indicating utterance detection when the power of the voice exceeds a predetermined value. Decision system.
前記話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含み、
前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することを特徴とする対応決定システム。 In the correspondence determination system according to any one of claims 2 to 4,
The voice input from the voice input device assigned to the speaker is input together with the voice identification information associated with the speaker, the voice is voice recognized, and the voice recognition result is output together with the voice identification information. A speech recognition unit;
The event output unit outputs an event indicating a speech recognition result together with the speech recognition result when the speech recognition result is output from the speech recognition unit.
前記話者に付与された識別タグからタグ識別情報を読み取るタグリーダをさらに含み、
前記位置情報取得部は、タグリーダが読み取った前記タグ識別情報に基づき、前記話者の位置情報を取得することを特徴とする対応決定システム。 In the correspondence determination system according to any one of claims 1 to 5,
A tag reader for reading tag identification information from an identification tag attached to the speaker;
The position information acquisition unit acquires position information of the speaker based on the tag identification information read by a tag reader.
同一の話者の、前記音声識別情報と、前記タグ識別情報とを対応づけた識別情報記憶部をさらに含み、
前記位置情報取得部は、前記イベント出力部が出力したイベントに対応づけられた音声識別情報に基づき、前記識別情報記憶部を参照して、対応する前記タグ識別情報を有する識別タグの位置情報を取得することを特徴とする対応決定システム。 The correspondence determination system according to claim 6,
An identification information storage unit that associates the voice identification information with the tag identification information of the same speaker;
The position information acquisition unit refers to the identification information storage unit based on the voice identification information associated with the event output by the event output unit, and obtains the position information of the identification tag having the corresponding tag identification information. A correspondence determination system characterized by acquiring.
前記対応決定部は、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することを特徴とする対応決定システム。 In the correspondence determination system according to any one of claims 1 to 7,
The correspondence determination unit is configured to identify an event indicating that data related to speech input from a plurality of speech input devices assigned to a plurality of speakers matches a predetermined condition, and to identify the speech associated with each speaker. A correspondence determination system characterized by inputting together with information.
前記対応決定部は、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とする対応決定システム。 In the correspondence determination system according to any one of claims 1 to 8,
The correspondence determining unit determines the behavior of an autonomously moving or interactive robot based on the event and the position information of the speaker.
前記位置情報取得部は、前記話者の前記ロボットに対する位置情報を取得し、
前記対応決定部は、前記ロボットが前記話者の位置を意識した言動を行うよう前記ロボットの言動を決定することを特徴とする対応決定システム。 In the correspondence determination system according to claim 9,
The position information acquisition unit acquires position information of the speaker with respect to the robot;
The correspondence determining unit determines the behavior of the robot so that the robot performs a behavior that is conscious of the position of the speaker.
請求項1乃至9いずれかに記載の対応決定システムと、
前記対応決定部が決定した対応を言動として実行する言動実行部と、
を含むことを特徴とするロボット。 An autonomous mobile or interactive robot,
A response determination system according to any one of claims 1 to 9,
A behavior execution unit that executes the correspondence determined by the correspondence determination unit as behavior;
A robot characterized by including:
前記ロボットは、
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力し、前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得し、前記イベントと前記話者の位置情報とに基づき決定された言動を実行し、
前記イベント出力サーバは、
前記通信端末装置から、前記音声出力部が出力した音声を、前記音声識別情報とともに受信する音声入力部と、
前記音声入力部が入力した音声が所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に対応するイベントを、前記音声識別情報とともに出力するイベント出力部と、
前記イベント出力部が出力した前記イベントを前記音声識別情報とともに前記ロボットに送信するデータ出力部と、
を含むことを特徴とするイベント出力サーバ。 An event output server connected via a network to a communication terminal device including an audio output unit that outputs audio input from an audio input device and an autonomous mobile or interactive robot, and relays these,
The robot is
An event indicating that the voice-related data input from the voice input device assigned to the speaker matches a predetermined condition is input together with the voice identification information associated with the speaker, and is associated with the event. Obtaining the position information of the speaker specified by the voice identification information, and executing the behavior determined based on the event and the position information of the speaker,
The event output server is
A voice input unit that receives the voice output by the voice output unit from the communication terminal device together with the voice identification information;
An event output unit that detects whether or not the voice input by the voice input unit matches a predetermined condition, and outputs an event corresponding to the condition together with the voice identification information when the condition is met;
A data output unit for transmitting the event output by the event output unit to the robot together with the voice identification information;
An event output server comprising:
前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力することを特徴とするイベント出力サーバ。 In the event output server according to claim 12,
The event output unit monitors the power of the voice input from the voice input device, and outputs an event indicating a voice input failure when the voice power is below a predetermined value for a predetermined time. An event output server characterized by
前記イベント出力部は、前記音声入力デバイスから入力された音声のパワーをモニタし、前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力することを特徴とするイベント出力サーバ。 In the event output server according to claim 12 or 13,
The event output unit monitors the power of voice input from the voice input device, and outputs an event indicating utterance detection when the power of the voice exceeds a predetermined value. Output server.
前記話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた前記音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力する音声認識部をさらに含み、
前記イベント出力部は、前記音声認識部から前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することを特徴とするイベント出力サーバ。 The event output server according to any one of claims 12 to 14,
A voice input from a voice input device assigned to the speaker is input together with the voice identification information associated with the speaker, the voice is recognized as a voice, and a voice recognition result is output together with the voice identification information. A speech recognition unit that
The event output server outputs an event indicating a speech recognition result together with the speech recognition result when the speech recognition result is output from the speech recognition unit.
前記イベントを前記音声識別情報とともに入力するステップで入力された前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得するステップと、
前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定するステップと、
を含むことを特徴とする対応決定方法。 Inputting an event indicating that data related to voice input from a voice input device assigned to the speaker matches a predetermined condition, together with voice identification information associated with the speaker;
Obtaining positional information of the speaker specified by the voice identification information associated with the event input in the step of inputting the event together with the voice identification information;
Determining a response to the speaker based on the event and the location information of the speaker;
A correspondence determining method characterized by including:
前記イベントを前記音声識別情報とともに入力するステップの前に、前記音声に関するデータを、前記音声識別情報とともに入力し、前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに出力するステップをさらに含むことを特徴とする対応決定方法。 In the correspondence determination method according to claim 16,
Prior to the step of inputting the event together with the voice identification information, the voice-related data is input together with the voice identification information, and it is detected whether the voice-related data meets a predetermined condition. A method for determining correspondence, further comprising the step of outputting an event indicating that the condition is met together with the voice identification information when the condition is met.
前記イベントを前記音声識別情報とともに出力するステップは、
前記音声入力デバイスから入力された音声のパワーをモニタするステップと、
前記音声のパワーが所定の値以下の状態が所定時間継続した場合に、音声入力不具合を示すイベントを出力するステップと、
を含むことを特徴とする対応決定方法。 The correspondence determination method according to claim 17,
The step of outputting the event together with the voice identification information includes:
Monitoring the power of voice input from the voice input device;
Outputting an event indicating an audio input failure when a state where the power of the audio is a predetermined value or less continues for a predetermined time; and
A correspondence determining method characterized by including:
前記イベントを前記音声識別情報とともに出力するステップは、
前記音声入力デバイスから入力された音声のパワーをモニタするステップと、
前記音声のパワーが所定の値以上となった場合に、発話検出を示すイベントを出力するステップと、
を含むことを特徴とする対応決定方法。 The correspondence determination method according to claim 17 or 18,
The step of outputting the event together with the voice identification information includes:
Monitoring the power of audio input from the audio input device;
Outputting an event indicating utterance detection when the power of the voice is equal to or greater than a predetermined value;
A correspondence determining method characterized by including:
話者に付与された音声入力デバイスから入力された音声を、当該話者に対応づけられた音声識別情報とともに入力し、前記音声を音声認識して音声認識結果を前記音声識別情報とともに出力するステップをさらに含み、
前記イベントを前記音声識別情報とともに出力するステップは、前記音声認識結果が出力された場合に、音声認識結果を示すイベントを前記音声認識結果とともに出力することを特徴とする対応決定方法。 The correspondence determining method according to any one of claims 17 to 19,
Inputting voice input from a voice input device assigned to a speaker together with voice identification information associated with the speaker, voice recognition of the voice, and outputting a voice recognition result together with the voice identification information Further including
The step of outputting the event together with the voice identification information includes outputting an event indicating the voice recognition result together with the voice recognition result when the voice recognition result is outputted.
前記イベントを入力するステップは、複数の話者にそれぞれ付与された複数の音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、各話者に対応づけられた音声識別情報とともに入力することを特徴とする対応決定方法。 The correspondence determination method according to any one of claims 16 to 20,
In the step of inputting the event, an event indicating that data related to speech input from a plurality of speech input devices respectively assigned to a plurality of speakers matches a predetermined condition is associated with each speaker. A correspondence determination method characterized by inputting together with voice identification information.
前記対応を決定するステップにおいて、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とする対応決定方法。 The correspondence determination method according to any one of claims 16 to 21,
In the step of determining the correspondence, the behavior determination method is characterized in that the behavior of the autonomous mobile or interactive robot is determined based on the event and the position information of the speaker.
話者に付与された音声入力デバイスから入力された音声に関するデータが所定の条件に合致することを示すイベントを、当該話者に対応づけられた音声識別情報とともに入力する手段、
前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得手段、
前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定する対応決定手段、
として機能させることを特徴とするプログラム。 Computer
Means for inputting an event indicating that data relating to voice input from a voice input device assigned to a speaker matches a predetermined condition together with voice identification information associated with the speaker;
Position information acquisition means for acquiring position information of the speaker specified by the voice identification information associated with the event;
Correspondence determination means for determining a correspondence to the speaker based on the event and the position information of the speaker;
A program characterized by functioning as
前記対応決定手段は、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とするプログラム。 The program according to claim 23,
The correspondence determining means determines the behavior of an autonomously moving or interactive robot based on the event and the position information of the speaker.
話者に付与された音声入力デバイスから入力された音声に関するデータを、当該話者に対応づけられた音声識別情報とともに入力する手段、
前記音声に関するデータが所定の条件に合致するか否かを検出し、前記条件に合致した場合に、前記条件に合致することを示すイベントを、前記音声識別情報とともに出力するイベント出力手段、
前記イベントに対応づけられた前記音声識別情報により特定される前記話者の位置情報を取得する位置情報取得手段、
前記イベントと、前記話者の位置情報とに基づき、前記話者に対する対応を決定する対応決定手段、
として機能させることを特徴とするプログラム。 Computer
Means for inputting data relating to voice input from a voice input device assigned to a speaker together with voice identification information associated with the speaker;
An event output means for detecting whether or not the data relating to the voice meets a predetermined condition, and outputting an event indicating that the condition is met together with the voice identification information when the condition is met;
Position information acquisition means for acquiring position information of the speaker specified by the voice identification information associated with the event;
Correspondence determination means for determining a correspondence to the speaker based on the event and the position information of the speaker;
A program characterized by functioning as
前記対応決定手段は、前記イベントと、前記話者の位置情報とに基づき、自律移動型または対話型のロボットの言動を決定することを特徴とするプログラム。 The program according to claim 25,
The correspondence determining means determines the behavior of an autonomously moving or interactive robot based on the event and the position information of the speaker.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005061557A JP2006243555A (en) | 2005-03-04 | 2005-03-04 | Response determination system, robot, event output server, and response determining method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005061557A JP2006243555A (en) | 2005-03-04 | 2005-03-04 | Response determination system, robot, event output server, and response determining method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006243555A true JP2006243555A (en) | 2006-09-14 |
Family
ID=37050002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005061557A Pending JP2006243555A (en) | 2005-03-04 | 2005-03-04 | Response determination system, robot, event output server, and response determining method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006243555A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008089825A (en) * | 2006-09-29 | 2008-04-17 | Fujitsu Ltd | Voice recognition apparatus and voice recognition program |
WO2016157662A1 (en) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | Information processing device, control method, and program |
CN107077844A (en) * | 2016-12-14 | 2017-08-18 | 深圳前海达闼云端智能科技有限公司 | Method and device for realizing voice combined assistance and robot |
JP2017169839A (en) * | 2016-03-24 | 2017-09-28 | 大日本印刷株式会社 | Avatar robot connection/management system |
JP2018013545A (en) * | 2016-07-19 | 2018-01-25 | トヨタ自動車株式会社 | Voice interactive device and speech production control method |
JP2018180542A (en) * | 2017-04-14 | 2018-11-15 | ネイバー コーポレーションNAVER Corporation | Method and system for multi-modal interaction with acoustic equipment connected to network |
CN112918381A (en) * | 2019-12-06 | 2021-06-08 | 广州汽车集团股份有限公司 | Method, device and system for welcoming and delivering guests by vehicle-mounted robot |
-
2005
- 2005-03-04 JP JP2005061557A patent/JP2006243555A/en active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008089825A (en) * | 2006-09-29 | 2008-04-17 | Fujitsu Ltd | Voice recognition apparatus and voice recognition program |
JP4715704B2 (en) * | 2006-09-29 | 2011-07-06 | 富士通株式会社 | Speech recognition apparatus and speech recognition program |
WO2016157662A1 (en) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | Information processing device, control method, and program |
JP2017169839A (en) * | 2016-03-24 | 2017-09-28 | 大日本印刷株式会社 | Avatar robot connection/management system |
JP2018013545A (en) * | 2016-07-19 | 2018-01-25 | トヨタ自動車株式会社 | Voice interactive device and speech production control method |
US20180025727A1 (en) * | 2016-07-19 | 2018-01-25 | Toyota Jidosha Kabushiki Kaisha | Voice interactive device and utterance control method |
US10304452B2 (en) | 2016-07-19 | 2019-05-28 | Toyota Jidosha Kabushiki Kaisha | Voice interactive device and utterance control method |
CN107077844A (en) * | 2016-12-14 | 2017-08-18 | 深圳前海达闼云端智能科技有限公司 | Method and device for realizing voice combined assistance and robot |
CN107077844B (en) * | 2016-12-14 | 2020-07-31 | 深圳前海达闼云端智能科技有限公司 | Method and device for realizing voice combined assistance and robot |
JP2018180542A (en) * | 2017-04-14 | 2018-11-15 | ネイバー コーポレーションNAVER Corporation | Method and system for multi-modal interaction with acoustic equipment connected to network |
CN112918381A (en) * | 2019-12-06 | 2021-06-08 | 广州汽车集团股份有限公司 | Method, device and system for welcoming and delivering guests by vehicle-mounted robot |
CN112918381B (en) * | 2019-12-06 | 2023-10-27 | 广州汽车集团股份有限公司 | Vehicle-mounted robot welcome method, device and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10485049B1 (en) | Wireless device connection handover | |
JP4718987B2 (en) | Interface device and mobile robot equipped with the same | |
US9547306B2 (en) | State and context dependent voice based interface for an unmanned vehicle or robot | |
US10721661B2 (en) | Wireless device connection handover | |
EP2842055B1 (en) | Instant translation system | |
JP4595436B2 (en) | Robot, control method thereof and control program | |
JP4086280B2 (en) | Voice input system, voice input method, and voice input program | |
JP5033994B2 (en) | Communication robot | |
JP6402748B2 (en) | Spoken dialogue apparatus and utterance control method | |
JP2018049143A (en) | Voice acquisition system and voice acquisition method | |
JP4622384B2 (en) | ROBOT, ROBOT CONTROL DEVICE, ROBOT CONTROL METHOD, AND ROBOT CONTROL PROGRAM | |
JP2006243555A (en) | Response determination system, robot, event output server, and response determining method | |
JP6450139B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP2005084253A (en) | Sound processing apparatus, method, program and storage medium | |
JP7416295B2 (en) | Robots, dialogue systems, information processing methods and programs | |
CN109568973B (en) | Conversation device, conversation method, server device, and computer-readable storage medium | |
JP2019009770A (en) | Sound input/output device | |
CN108665907A (en) | Voice recognition device, sound identification method, recording medium and robot | |
JP2007155986A (en) | Voice recognition device and robot equipped with the same | |
WO2021153101A1 (en) | Information processing device, information processing method, and information processing program | |
WO2018198791A1 (en) | Signal processing device, method, and program | |
Bolano et al. | Design and evaluation of a framework for reciprocal speech interaction in human-robot collaboration | |
CN108806675B (en) | Voice input/output device, wireless connection method, and voice dialogue system | |
JP6934831B2 (en) | Dialogue device and program | |
JP2001188551A (en) | Device and method for information processing and recording medium |