JP6562790B2 - Dialogue device and dialogue program - Google Patents
Dialogue device and dialogue program Download PDFInfo
- Publication number
- JP6562790B2 JP6562790B2 JP2015179495A JP2015179495A JP6562790B2 JP 6562790 B2 JP6562790 B2 JP 6562790B2 JP 2015179495 A JP2015179495 A JP 2015179495A JP 2015179495 A JP2015179495 A JP 2015179495A JP 6562790 B2 JP6562790 B2 JP 6562790B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- unit
- dialogue
- dialog
- timing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 86
- 230000008569 process Effects 0.000 claims description 82
- 230000002452 interceptive effect Effects 0.000 claims description 71
- 238000003384 imaging method Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 11
- 230000003993 interaction Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000001815 facial effect Effects 0.000 description 5
- 230000037308 hair color Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
本発明は、ユーザとの対話を行うための対話装置および対話プログラムに関する。 The present invention relates to a dialog device and a dialog program for performing a dialog with a user.
従来より、たとえば特許文献1に記載されているように、ユーザとの対話を行う対話装置が提案されている。ユーザと対話装置との対話は、ユーザがタッチ操作等を行わない状態(以下、「ハンズフリー状態」という)で開始される場合もある。この場合、対話装置は、たとえば、ユーザの音声(発話)が検出されたことに応じて、対話を開始する。
2. Description of the Related Art Conventionally, as described in
対話装置は、ユーザの音声以外の音、たとえばユーザ以外の人物の会話、騒音、およびテレビ音声などの雑音が存在する雑音環境下におかれる場合がある。雑音環境下においては、対話装置が雑音をユーザの音声であると誤認識して対話が開始されてしまう可能性がある。誤認識によって、誤って対話が終了されてしまう可能性もある。 An interactive apparatus may be placed in a noise environment in which noises other than the user's voice, for example, conversations of people other than the user, noise, and noise such as television voices are present. In a noisy environment, there is a possibility that the conversation apparatus may misrecognize the noise as the user's voice and start the conversation. There is also a possibility that the conversation is terminated by mistake due to the recognition error.
本発明は、上記問題点に鑑みてなされたものであり、雑音耐性が向上された対話装置および対話プログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and an object thereof is to provide an interactive apparatus and an interactive program with improved noise tolerance.
本発明の一態様に係る対話装置は、ユーザとの対話を行うための対話装置であって、ユーザの画像を取得する取得手段と、ユーザとの対話を開始する際またはユーザとの対話を終了する際に、取得手段によって取得された画像に基づいて、ハンズフリー状態にあるユーザとの対話を開始するタイミングまたはユーザとの対話を終了するタイミングを決定する決定手段と、を備える。 An interactive apparatus according to an aspect of the present invention is an interactive apparatus for performing an interaction with a user, and an acquisition unit that acquires an image of the user and an interaction with the user are started or ended. And determining means for determining the timing for starting the conversation with the user in the hands-free state or the timing for ending the conversation with the user based on the image acquired by the acquiring means.
また、本発明の一態様に係るプログラムは、ユーザとの対話を行うための対話装置に設けられたコンピュータを、ユーザの画像を取得する取得手段と、ユーザとの対話を開始する際またはユーザとの対話を終了する際に、取得手段によって取得された画像に基づいて、ハンズフリー状態にあるユーザとの対話を開始するタイミングまたはユーザとの対話を終了するタイミングを決定する決定手段、として機能させる。 In addition, a program according to one embodiment of the present invention provides a computer provided in an interaction device for performing an interaction with a user, an acquisition unit that acquires an image of the user, and a user when starting an interaction with the user or When ending the user's dialogue, based on the image acquired by the acquisition unit, the function to serve as a determination unit that determines the timing for starting the conversation with the user in the hands-free state or the timing for ending the dialogue with the user .
上記の対話装置またはプログラムによれば、ユーザの画像に基づいて、ユーザとの対話を開始するタイミングまたはユーザとの対話を終了するタイミングが決定される。ユーザの画像に基づけば、ユーザ以外の人物の会話、騒音、およびテレビ音声などの雑音の影響を受けることなく、ユーザとの対話を開始するタイミング等が適切に決定される。したがって、従来のように、ユーザの音声が検出されたことに応じて対話を開始する場合よりも、対話装置の雑音耐性を向上することができる。 According to the above-described dialog device or program, the timing for starting the dialog with the user or the timing for ending the dialog with the user is determined based on the user image. Based on the user's image, the timing for starting the dialogue with the user is appropriately determined without being affected by noises such as conversations, noises, and TV voices of persons other than the user. Therefore, it is possible to improve the noise tolerance of the dialog device as compared with the conventional case where the dialog is started in response to detection of the user's voice.
決定手段は、ユーザの視線が所定時間以上継続して対話装置に向けられたことを検出し、当該検出のタイミングを、ユーザとの対話を開始するタイミングとして決定してもよい。たとえば人間の外形形状を模したロボットの顔の部分に対話装置が搭載されている状況などにおいて、ユーザの視線が所定時間以上継続して対話装置に向けられている場合には、ユーザが対話を開始しようとする意思を有している可能性が高い。このため、上記構成によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。 The determining unit may detect that the user's line of sight is continuously directed to the dialogue apparatus for a predetermined time or more, and may determine the timing of the detection as a timing for starting the dialogue with the user. For example, in a situation where an interactive device is mounted on the face part of a robot that imitates the outline of a human being, when the user's line of sight continues to be directed to the interactive device for a predetermined time or longer, the user interacts. It is likely that you have the intention to start. For this reason, according to the said structure, the timing which starts the dialog with a user can be determined appropriately.
決定手段は、ユーザの口が開いたタイミングを、ユーザとの対話を開始するタイミングとして決定してもよい。ユーザの口が開いた場合には、ユーザが対話を開始する可能性が高い。このため、上記構成によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。 The determining means may determine the timing when the user's mouth is opened as the timing for starting the dialogue with the user. If the user's mouth opens, the user is likely to start a conversation. For this reason, according to the said structure, the timing which starts the dialog with a user can be determined appropriately.
決定手段は、ユーザの口が所定時間以上継続して閉じられたことを検出し、当該検出のタイミングを、ユーザとの対話を終了するタイミングとして決定してもよい。ユーザの口が所定時間以上継続して閉じられている場合には、ユーザが対話を終了しようとする意思を有している可能性が高い。このため、上記構成によれば、ユーザとの対話を終了するタイミングを適切に決定することができる。 The determination unit may detect that the user's mouth is continuously closed for a predetermined time or more, and may determine the timing of the detection as the timing of ending the dialogue with the user. When the user's mouth is continuously closed for a predetermined time or more, there is a high possibility that the user has an intention to end the dialogue. For this reason, according to the said structure, the timing which complete | finishes a dialog with a user can be determined appropriately.
取得手段は、ユーザの音声をさらに取得し、対話装置は、対話において取得手段が取得したユーザの音声を認識するために実行される音声認識処理を、取得手段によって取得されたユーザの画像に基づいて、予め定められた複数の音声認識処理から選択する選択手段、をさらに備えてもよい。これにより、ユーザに応じた適切な音声認識処理が選択され、対話において実行される。その結果、対話におけるユーザの音声の認識精度を向上することができる。 The acquisition unit further acquires the user's voice, and the dialogue apparatus performs a voice recognition process executed for recognizing the user's voice acquired by the acquisition unit in the dialogue based on the user image acquired by the acquisition unit. And selecting means for selecting from a plurality of predetermined voice recognition processes. Thereby, an appropriate voice recognition process corresponding to the user is selected and executed in the dialogue. As a result, the recognition accuracy of the user's voice in the dialogue can be improved.
取得手段は、集音部と、取得手段によって取得された画像に基づきユーザの顔に向けて集音部の指向性を調整する調整部と、を含んでもよい。これにより、ユーザ以外の人物の会話、騒音、およびテレビ音声などが存在する雑音環境下であっても、ユーザの音声の認識精度を高めることができる。 The acquisition unit may include a sound collection unit and an adjustment unit that adjusts the directivity of the sound collection unit toward the user's face based on the image acquired by the acquisition unit. Thereby, the recognition accuracy of the user's voice can be improved even in a noisy environment in which there are conversations, noises, and TV voices of persons other than the user.
取得手段は、対話装置の周囲画像を撮像する撮像部と、撮像部によって撮像された周囲画像に複数の人物が含まれる場合に、複数の人物のうち、対話装置に視線を向けている人物をユーザとして特定する特定部と、をさらに含み、調整部は、特定部によって特定されたユーザの顔に向けて集音部の指向性を調整してもよい。複数の人物が存在する場合、複数の人物のうちの対話装置に視線を向けている人物が、対話を開始しようとする意思を有しているユーザである可能性が高い。上記構成によれば、そのような対話を開始しようとする意思を有している可能性の高いユーザが特定され、そのユーザの顔に向けて集音部の指向性が調整される。よって、複数の人物が存在する場合であっても、対話の対象となっているユーザの音声の認識精度を高めることができる。 An acquisition unit is configured to capture an image capturing unit that captures a surrounding image of the interactive device, and when a plurality of persons are included in the surrounding image captured by the image capturing unit, a person whose line of sight is directed to the interactive device is selected from the plurality of persons. The adjusting unit may further adjust the directivity of the sound collecting unit toward the face of the user specified by the specifying unit. In the case where there are a plurality of persons, it is highly likely that a person who is looking at the conversation device among the plurality of persons is a user who has an intention to start a conversation. According to the above configuration, a user who has a high possibility of starting such a dialogue is identified, and the directivity of the sound collection unit is adjusted toward the face of the user. Therefore, even when there are a plurality of persons, it is possible to improve the recognition accuracy of the voice of the user who is the subject of the conversation.
あるいは、取得手段は、取得した周囲画像に複数の人物が含まれる場合に、周囲画像に含まれる顔情報に基づいて、複数の人物からユーザを特定する特定部、をさらに含んでもよい。これにより、個人の顔の特徴などの画像認証情報を使用し、対話を開始等しようとしているユーザを特定し、また、利用ユーザを限定することもできる。 Alternatively, the acquisition unit may further include a specifying unit that specifies a user from a plurality of persons based on face information included in the surrounding image when the acquired surrounding image includes a plurality of persons. Accordingly, it is possible to use image authentication information such as personal facial features, specify a user who is about to start a dialogue, and limit the number of users.
あるいは、対話装置は、対話において取得手段が取得したユーザの音声を認識するために実行される音声認識処理を、ユーザによる音声認識処理の利用履歴に基づいて、予め定められた複数の音声認識処理から選択する選択手段、をさらに備えてもよい。これにより、ユーザに適した音声認識処理を選択して実行することで、ユーザの音声の認識精度を高めることができる。また、ユーザが手動で言語を選択するといった手間を不要とすることもできる。 Alternatively, the dialogue apparatus performs a plurality of predetermined voice recognition processes based on a use history of the voice recognition process performed by the user, based on a use history of the voice recognition process performed by the user. Selecting means for selecting from the above may be further provided. Thereby, the recognition accuracy of the user can be improved by selecting and executing the speech recognition process suitable for the user. In addition, it is possible to eliminate the need for the user to manually select a language.
本発明によれば、雑音耐性が向上された対話装置および対話プログラムが提供される。 According to the present invention, an interactive apparatus and an interactive program with improved noise tolerance are provided.
以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant descriptions are omitted.
実施形態に係る対話装置は、ユーザと対話を行う装置である。対話装置は、たとえばスマートフォンのような移動体端末装置、あるいは据え置き型の端末として実現されてもよいし、人間の外形形状を模したロボットとして実現されてもよい。ユーザは、ハンズフリー状態で、対話装置と対話を行うことができる。ハンズフリー状態とは、ユーザが対話装置を操作するための物理的な要素(操作ボタン、タッチパネルなど)に接触していない状態を意味する。ユーザが、上記要素以外のものに接触している場合でも、上記要素に接触していなければ、ハンズフリー状態である。なお、実施形態に係る対話装置は、ユーザがハンズフリー状態である場合に、ユーザとの対話の開始および終了のタイミングを適切に決定するものである。そのため、対話の途中においては、ユーザは必ずしもハンズフリー状態である必要はない。 The interactive device according to the embodiment is a device that performs a dialog with a user. The interactive device may be realized as a mobile terminal device such as a smartphone or a stationary terminal, or may be realized as a robot imitating a human outer shape. The user can interact with the interaction device in a hands-free state. The hands-free state means a state where the user is not in contact with physical elements (operation buttons, touch panel, etc.) for operating the interactive device. Even when the user is in contact with something other than the above elements, if the user is not in contact with the above elements, it is in a hands-free state. Note that the dialogue apparatus according to the embodiment appropriately determines the start and end timing of the dialogue with the user when the user is in the hands-free state. Therefore, the user is not necessarily in the hands-free state during the conversation.
図1は、実施形態に係る対話装置の機能ブロックを示す図である。図1に示されるように、対話装置100は、入力部110と、出力部120と、制御部130と、記憶部140と、通信部150とを含む。
FIG. 1 is a diagram illustrating functional blocks of the interactive apparatus according to the embodiment. As illustrated in FIG. 1, the
入力部110および出力部120は、対話装置100の外部、主にユーザとの間で情報をやり取りするための部分(入出力インタフェース)である。入力部110は、ユーザの音声を含む対話装置100の周囲の音声(以下、単に「周囲音声」という場合もある)の入力を受け付け、また、ユーザを含む対話装置100の周囲の画像、映像(以下、単に「周囲画像」という場合もある)の入力を受け付ける。出力部120は、種々の画像、映像を出力し、また、種々の音声を出力する。
The
具体的に、入力部110は、集音部111と、撮像部112とを含む。集音部111は、周囲音声の入力を受け付ける部分である。集音部111は、たとえばマイクで構成される。集音部111は、たとえば指向性を有するように、複数のマイクが配列されたマイクアレイで構成されてもよい。撮像部112は、周囲画像の入力を受け付ける部分である。撮像部112は、たとえばカメラで構成される。撮像部112は、たとえば撮像対象との距離を把握できるように、複数のカメラで構成されてもよい。なお、入力部110は、たとえば、ユーザが対話装置100を操作するための操作ボタンなどの要素をさらに含んでもよい。
Specifically, the
出力部120は、発音部121と、表示部122とを含む。発音部121は、音声を出力する部分である。発音部121は、たとえばスピーカで構成される。発音部121は、たとえば指向性を有するように、複数のスピーカが配列されたアレイスピーカで構成されてもよい。表示部122は、画像、映像を出力する部分である。表示部122は、たとえばディスプレイで構成される。ディスプレイはタッチパネルで構成されてもよく、その場合、タッチパネルは、ユーザが対話装置100を操作するための要素としても機能する。
The
制御部130は、対話装置100の各要素を制御することによって、対話装置100の全体制御を行う部分である。制御部130は、取得部131と、決定部132と、音声認識部133と、選択部134と、画像認識部135と、特定部136と、調整部137とを含む。
The
取得部131は、入力部110に入力された周囲音声および周囲画像を取得する部分である。すなわち、取得部131および入力部110(集音部111、撮像部112を含む)は、周囲音声および周囲画像を取得する取得手段として機能する。なお、後述の特定部136も、取得手段の一部を構成し得る。以下、とくに説明がない限り、取得手段を単に取得部131と称してして説明する。
The
決定部132は、ユーザとの対話を開始または終了するタイミングを決定する部分(決定手段)である。とくに決定部132は、取得部131によって取得された周囲音声および周囲画像に基づいて、ハンズフリー状態にあるユーザとの対話を開始または終了するタイミングを決定する。決定部132によるタイミングの決定の詳細については、後述する。
The
音声認識部133は、周囲音声、とくにユーザの音声を認識するための音声認識処理を実行する部分である。音声認識部133は、取得部131によって取得された周囲音声に対して、音声認識処理を実行する。音声認識処理は、たとえば、予め用意された音響モデル、言語モデルを用いた手法を含む、種々の公知の手法によって実現される。言語モデルは、種々の専門分野に対応できるように、専門辞書の言語を含むモデルであってもよい。音響モデル、言語モデルは、複数用意されていてもよい。その場合、音響モデル、言語モデルの組み合わせに対応する複数の音声認識処理が予め用意されており、音声認識部133は、後述の選択部134によって選択された音声認識処理を実行してもよい。
The
選択部134は、複数の音声認識処理が用意されている場合に、音声認識部133が実行すべき音声認識処理を選択する部分(選択手段)である。選択部134は、取得部131によって取得された周囲音声および周囲画像に基づいて、音声認識部133が実行すべき音声認識処理を選択する。
The
たとえば、選択部134は、周囲画像等に基づいて、人物の、とくにユーザの髪の色や顔立ちから人種を推測し、推測した人種のユーザに適した音声認識処理を選択してもよい。たとえば、推定した人種のユーザが使用する言語に対応した音響モデル、言語モデルを組み合わせに対応する音声認識処理が選択される。
For example, the
また、選択部134は、周囲画像等に基づいて、人物の、とくにユーザの性別を推定し、推定した性別のユーザに適した音声認識処理を選択してもよい。性別は音声周波数帯に関連するので、選択部134は、ユーザの音声周波数帯を推定するとも言える。たとえば、推定した性別(音声周波数帯)のユーザに対応した音響モデル、性別に対応した話し言葉(口調、表現)などに対応した言語モデルを組み合わせに対応する音声認識処理が選択される。
The
また、選択部134は、ユーザによる音声認識処理の利用履歴に基づいて、ユーザに適した音声認識処理を選択してもよい。たとえば、過去にユーザが利用した履歴のある音響モデル、言語モデルを組み合わせに対応する音声認識処理が選択される。
Further, the
画像認識部135は、周囲画像、とくにユーザの画像または映像を認識するための部分である。画像認識部135は、取得部131によって取得された周囲画像に対して、画像認識処理を実行する。画像認識処理には、たとえばopenCV(Open Source Computer Vision Library)など、種々の公知の手法によって実現される。
The
特定部136は、周囲画像に複数のユーザが含まれている場合に、対話の対象となるユーザを特定するための部分である。特定部136は、たとえば、撮像部112によって取得された周囲画像、より具体的には周囲画像についての画像認識部135の認識結果に基づいて、複数のユーザのうち、対話装置100に視線を向けているユーザを特定する。
The specifying
調整部137は、集音部111の指向性を調整する部分である。集音部111がマイクアレイで構成される場合には、たとえば位相制御によって指向性が調整される。なお、集音部111が単一のマイクで構成される場合でも、たとえばマイクの向きを物理的に変更することによって指向性が調整され得る。調整部137は、取得部131によって取得された周囲画像、より具体的には画像認識部135の認識結果に基づいて、たとえばユーザの顔に向けて、集音部111の指向性を調整する。ユーザの顔に向けて指向性を調整するとは、ユーザの顔およびその付近で発生した音声が、他の部分で発生した音声よりも集音されやすくなるように、指向性を調整することである。
The
なお、制御部130は、たとえば、対話において、出力部120がユーザに対して出力する種々の情報、たとえば発音部121による音声、表示部122による画像、映像などのデータを生成するための処理も実行し得る。
Note that the
以上説明した構成により、制御部130は、対話装置100がユーザと対話を行うために必要な種々の処理を実行する。制御部130によって実行される処理の詳細については、後に図4から図6を参照して改めて説明する。
With the configuration described above, the
記憶部140は、制御部130によって実行される処理に必要な種々の情報を記憶する部分である。記憶部140は、たとえば、前述の音響モデル、言語モデル、利用履歴を記憶する。また、記憶部140は、対話装置100がユーザと対話を行うために必要な処理を対話装置100に実行させるためのプログラム(対話プログラム)を記憶する。
The
また、記憶部140は、対話装置100を利用することが許可されているユーザ(利用ユーザ)のデータ(ユーザデータ)を記憶する。ユーザデータは、利用ユーザの特徴データを含んでよい。特徴データは、たとえば、利用ユーザの顔に関する特徴を示すデータであってもよいし、利用ユーザの音声に関する特徴を示すデータであってもよい。また、ユーザデータは、ユーザの人種を推測したり、ユーザの性別を推測したりするために必要なデータを含んでもよい。この場合のユーザデータは、たとえば、人種と、髪の色、顔立ちなどとを対応づけたデータであってもよいし、性別と、髪の色、顔立ちなどとを対応づけたデータなどであってよい。
In addition, the
通信部150は、対話装置100の外部と通信を行う部分である。通信部150によって、たとえば、上述の、音響モデル、言語モデル、対話プログラム、ユーザデータなどが追加して取得され、あるいは、更新され得る。
The
ここで、図2を参照して、対話装置100のハードウェア構成について説明する。図2に示されるように、対話装置100は、物理的には、1または複数のCPU(Central Processing Unit)21、RAM(Random Access Memory)22およびROM(Read Only Memory)23、カメラなどの撮像装置24、データ送受信デバイスである通信モジュール26、半導体メモリなどの補助記憶装置27、操作盤(操作ボタンを含む)やタッチパネルなどのユーザ操作の入力を受け付ける入力装置28、ディスプレイなどの出力装置29、ならびにCD−ROMドライブ装置などの読み取り装置2Aを備えるコンピュータとして構成され得る。図1における対話装置100の機能は、たとえば、CD−ROMなどの記憶媒体Mに記憶された1または複数のプログラムを読み取り装置2Aにより読み取ってRAM22などのハードウェア上に取り込むことにより、CPU21の制御のもとで撮像装置24、通信モジュール26、入力装置28、出力装置29を動作させるとともに、RAM22および補助記憶装置27におけるデータの読み出しおよび書き込みを行うことで実現される。
Here, the hardware configuration of the
また、図3には、コンピュータを対話装置100として機能させるための対話プログラムのモジュールが示される。図3に示されるように、対話プログラムP100は、取得モジュールP101、決定モジュールP102、音声認識モジュールP103、選択モジュールP104、画像認識モジュールP105、特定モジュールP106および調整モジュールP107を備えている。各モジュールによって、先に図1を参照して説明した、取得部131、決定部132、音声認識部133、選択部134、画像認識部135、特定部136および調整部137の機能が実現される。
Further, FIG. 3 shows a module of an interactive program for causing a computer to function as the
対話プログラムは、たとえば記憶媒体に格納されて提供される。記憶媒体は、フレキシブルディスク、CD−ROM、USBメモリ、DVD、半導体メモリなどであってよい。 The interactive program is provided by being stored in a storage medium, for example. The storage medium may be a flexible disk, CD-ROM, USB memory, DVD, semiconductor memory, or the like.
次に、図4から図6を用いて、対話装置100の動作(対話装置100によって実行される対話方法)について説明する。 Next, the operation of the interactive device 100 (the interactive method executed by the interactive device 100) will be described with reference to FIGS.
図4および図5は、対話装置100において実行される処理の一例を示すフローチャートである。このフローチャートの処理は、対話装置100がユーザとの対話を開始する際、あるいは終了する際に実行される。前提として、ユーザは、少なくとも対話の開始時または終了時には、ハンズフリー状態にあるものとする。なお、とくに説明がない場合、各処理は、制御部130によって(つまり制御部130に含まれるいずれの要素かを問わず)実行され得る。
4 and 5 are flowcharts illustrating an example of processing executed in the
まず、対話装置100は、発話中ユーザリストを作成する(ステップS1)。発話中ユーザリストは、このフローチャートの処理において、対話装置100と対話をするための発話を行っているユーザのリストである。発話中ユーザリストは、たとえば記憶部140に記憶されてよい。なお、ステップS1において発話中ユーザリストが作成された時点では、発話中ユーザリストにはユーザは含まれておらず、後述のステップS37において、発話中ユーザリストにユーザが追加される。フローチャートの処理はループするので、2回目以降のフローにおいては、発話中ユーザリストには、ユーザが含まれ得る。
First, the
次に、対話装置100は、顔検出により、人数nを決定する(ステップS2)。たとえば画像認識部135が、取得部131によって取得された周囲画像を認識する。そして、たとえば特定部136が、周囲画像に含まれる人物の顔を検出するとともに、検出した顔の数を、人数nとして決定する。
Next, the
次のステップS3〜S7において、対話装置100は、n人の人物のそれぞれの視線を特定する。具体的に、対話装置100は、変数iの初期値を0とし(ステップS3)、iを1ずつ増加させながら(ステップS6)、iがn以上になるまでの間(ステップS7:NO)、i番目のユーザについて、以下のステップS4およびステップS5の処理を繰り返し実行する。
In the next steps S <b> 3 to S <b> 7, the
すなわち、対話装置100は、顔の認識により、個人を特定し(ステップS4)、視線の認識により、見ている方向を特定する(ステップS5)。具体的に、特定部136が、画像認識部135の認識結果に基づいて、周囲画像中の人物を特定し、特定した人物(個人)の視線の方向を特定する。
That is, the
n人の人物のそれぞれについて上記ステップS4およびステップS5の処理が完了した後(ステップS7:YES)、対話装置100は、ステップS8に処理を進める。
After the processes of step S4 and step S5 are completed for each of the n persons (step S7: YES), the
ステップS8において、対話装置100は、発話ユーザリストに顔認証されていないユーザがいるか否かを判断する。たとえば、先のステップS4で特定した人物以外の人物が発話ユーザリストに含まれる場合には、発話ユーザリストに顔認証されていないユーザがいると判断されてよい。発話ユーザリストに顔認証されていないユーザがいる場合(ステップS8:YES)、対話装置100は、ステップS9に処理を進める。そうでない場合(ステップS8:NO)、対話装置100は、ステップS10に処理を進める。
In step S <b> 8, the
ステップS9において、対話装置100は、発話中ユーザリストから削除し、音声認識を終了する(ステップS9)。具体的に、先のステップS8において発話ユーザリストに顔認証されていないユーザであると判断されたユーザが、発話中ユーザリストから削除される。また、音声認識部133が、音声認識処理を終了する。なお、ステップS9の処理は、ステップS8において発話中ユーザリストに顔認証されていないユーザがいる場合に実行される処理である。そのため、ステップS9の処理は、後述のステップS37において、発話ユーザリストにユーザが追加され、音声認識処理が開始された後、フローチャートの処理がループして再びステップS8に至った場合に実行され得る処理である。
In step S9, the
次のステップS10〜S24において、対話装置100は、n人の人物のうちの発話ユーザの数を特定する。発話ユーザは、対話装置100との対話を開始するために音声を発したと考えられるユーザである。具体的に、対話装置100は、変数jおよび変数mの初期値を0とし(ステップS10,S11)、jを1ずつ増加させながら(ステップS23)、jがn以上になるまでの間(ステップS24:NO)、j番目のユーザについて、以下のステップS12〜S22の処理を繰り返し実行する。
In the next steps S <b> 10 to S <b> 24, the
すなわち、まず、対話装置100は、発話中ユーザリストに存在するユーザであるか否かを判断する(ステップS12)。たとえば、j番目の人物が発話中ユーザリストに含まれる場合には、発話中ユーザリストに存在するユーザであると判断されてよい。発話中ユーザリストに存在するユーザである場合(ステップS12:YES)、対話装置100は、ステップS13に処理を進める。そうでない場合(ステップS12:NO)、対話装置100は、ステップS15に処理を進める。
That is, first, the
ステップS13において、対話装置100は、口が閉じ続けているか否かを判断する。この処理は、たとえば決定部132が、画像認識部135の認識結果に基づいて実行する。たとえば人物の口が閉じた状態が、所定時間以上継続している場合に、口が閉じ続けていると判断されてよい。口が閉じ続けている場合(ステップS13:YES)、対話装置100は、ステップS14に処理を進める。そうでない場合(ステップS13:NO)、対話装置100は、ステップS20に処理を進める。
In step S13, the
ステップS14において、対話装置100は、発話中ユーザリストから削除し、音声認識を終了する(ステップS14)。具体的に、j番目の人物が、発話中ユーザリストから削除される。また、音声認識部133が、音声認識を終了する。これにより、そのユーザとの対話が終了する。ステップS14の処理が完了した後、対話装置100は、ステップS23に処理を進める。
In step S14, the
ステップS15において、対話装置100は、視線が所定の方向を向いているか否かを判断する。この処理は、たとえば決定部132あるいは特定部136が、先に説明したステップS5において特定された視線の方向に基づいて実行する。所定の方向は、対話装置100に向かう方向であってよい。たとえば視線の方向が所定時間以上継続して対話装置100に向けられていた場合に、人物の視線の方向が所定の方向であると判断されてよい。所定時間は、数秒程度であってよい。視線が所定の方向を向いている場合(ステップS15:YES)、対話装置100は、ステップS16に処理を進める。そうでない場合(ステップS15:NO)、対話装置100は、人物が発話意思の無いユーザであると判定し(ステップS17)、ステップS23に処理を進める。
In step S15, the
ステップS16において、対話装置100は、人物が利用許可ユーザであるか否かを判断する。たとえば決定部132あるいは特定部136が、画像認識部135の認識結果と記憶部140に記憶されたユーザデータとを照合することによって、ユーザが利用ユーザであるか否かを判断する。人物が利用許可ユーザである場合(ステップS16:YES)、対話装置100は、ステップS18に処理を進める。そうでない場合(ステップS16:NO)、対話装置100は、人物は非許可ユーザであると判定し(ステップS19)、ステップS23に処理を進める。
In step S <b> 16, the
ステップS18において、対話装置100は、口が動き始めたか否かを判断する。この処理は、たとえば決定部132が、画像認識部135の認識結果に基づいて実行する。たとえば人物の口が閉じた状態から開いた状態に変化した場合に、人物の口が動き始めたと判断されてよい。口が動き始めた場合(ステップS18:YES)、より具体的には、人物の視線が所定の方向を向いており(ステップS15:YES)、人物が利用許可ユーザであり(ステップS16:YES)、人物の口が動き始めた場合(ステップS18:YES)、対話装置100は、人物が発話ユーザであると判断し(ステップS20)、変数mを1だけ増加させ(ステップS21)、ステップS23に処理を進める。すなわち、変数mは、発話ユーザの数を示す値とされる。一方、人物の口が動き始めていない場合(ステップS18:NO)、対話装置100は、ステップS22に処理を進める。
In step S18, the
ステップS22において、対話装置100は、音声による発話が検知されたか否かを判断する(ステップS22)。この処理は、たとえば、集音部111、取得部131および音声認識部133の機能を用いて、従来の対話装置と同様に実行される。音声による発話が検知された場合(ステップS22:YES)、対話装置100は、先に説明したステップS20に処理を進める。そうでない場合(ステップS22:NO)、対話装置100は、ステップS23に処理を進める。
In step S22, the
n人の人物のそれぞれについて上記ステップS12〜S22の処理が完了した後(ステップS24:YES)、対話装置100は、対話開始処理を実行する(ステップS25)。
After the processes in steps S12 to S22 are completed for each of n persons (step S24: YES), the
図6は、対話開始処理(図5のステップS25)において実行される処理の一例を示すフローチャートである。 FIG. 6 is a flowchart showing an example of processing executed in the dialogue start processing (step S25 in FIG. 5).
次のステップS31〜S39において、対話装置100は、m人の発話ユーザのそれぞれについて、マイク調整、および、音響モデル、言語モデルの最適化を行ったうえで音声認識等を行う。具体的に、対話装置100は、変数kの初期値を0とし(ステップS31)、kを1ずつ増加させながら(ステップS38)、kがm以上になるまでの間(ステップS39:NO)、k番目の発話ユーザについて、以下のステップS32〜S37の処理を実行する。
In the next steps S31 to S39, the
すなわち、まず、対話装置100は、映像(または画像)の顔位置より、マイク方向を導出し(ステップS32)、マイク方向を制御する(ステップS33)。具体的に、調整部137が、画像認識部135の認識結果に基づいて、発話ユーザの顔に向けて集音部111の指向性を調整する。なお、集音部111がマイクアレイの場合は、全ての発話ユーザの方向のそれぞれに指向性を調整し、全ての発話ユーザの音声を同時に認識できるようにしてもよい。また、集音部111が単一のマイクの場合には、たとえば最初のループ(k=0)における発話ユーザに対してマイクの指向性を調整するとよい。
That is, first, the
次に、対話装置100は、ユーザ状態は既に発話中であるか否かを判断する(ステップS34)。たとえば、前のループでステップS37において音声認識が開始されており、かつ、音声による発話が検知されている場合には、ユーザ状態は既に発話中であると判断されてよい。ユーザ状態が既に発話中である場合(ステップS34:YES)、対話装置100は、音声認識を継続し(ステップS35)、ステップS38に処理を進める。そうでない場合(ステップS34:NO)、対話装置100は、ステップS36に処理を進める。
Next, the
ステップS36において、対話装置100は、ユーザデータを読み出し、音響モデル、言語モデルを決定する。具体的に、選択部134が、先のステップS4(図4)において認識されたユーザの画像(顔の画像)と、記憶部140に記憶されたユーザデータとを照合することによって、発話ユーザに適した音響モデル、言語モデルを決定する。選択部134は、記憶部140に記憶された利用履歴に基づいて、発話ユーザに適した音響モデル、言語モデルを決定してもよい。
In step S36, the
そして、対話装置100は、発話中ユーザリストに追加し、音声認識を開始する(ステップS37)。具体的に、k番目の発話ユーザが、発話ユーザリストに追加される。また、音声認識部133が、音声認識処理を開始する。なお、その後、ステップS38の処理を経て、kがm以上になると(ステップS39:YES)、対話装置100は、ステップS2(図4)に再び処理を戻す。
Then, the
次に、対話装置100の作用効果について説明する。対話装置100によれば、ユーザの画像(または映像)に基づいて、ユーザとの対話を開始または終了するタイミングが決定される。ユーザの画像に基づけば、ユーザ以外の人物の会話、騒音、およびテレビ音声などの雑音の影響を受けることなく、ユーザとの対話を開始するタイミング等が適切に決定される。したがって、従来のように、ユーザの音声が検出されたことに応じて対話を開始する場合よりも、対話装置の雑音耐性を向上することができる。
Next, the function and effect of the
具体的に、決定部132が、ユーザの視線が所定時間以上継続して対話装置100に向けられたことを検出し(ステップS15:YES)、当該検出のタイミングを、ユーザとの対話を開始するタイミングとして決定する(ステップS25)。ユーザの視線が所定時間以上継続して対話装置100に向けられている場合には、ユーザが対話を開始しようとする意思を有している可能性が高い。このため、決定部132の上記処理によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。
Specifically, the
また、決定部132が、ユーザの口が開いたタイミングを、ユーザとの対話を開始するタイミングとして決定する(ステップS18:YES、ステップS25)。ユーザの口が開いた場合には、ユーザが対話を開始する可能性が高い。このため、決定部132の上記処理によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。
Moreover, the
また、決定部132が、ユーザの口が所定時間以上継続して閉じられたことを検出し、当該検出のタイミングを、ユーザとの対話を終了するタイミングとして決定する(ステップS13:YES、ステップS14)。ユーザの口が所定時間以上継続して閉じられている場合には、ユーザが対話を終了しようとする意思を有している可能性が高い。このため、決定部132の上記処理によれば、ユーザとの対話を終了するタイミングを適切に決定することができる。
Further, the
また、選択部134が、対話においてユーザの音声を認識するために実行される音声認識処理を、取得部131によって取得されたユーザの画像または映像に基づいて、予め定められた複数の音声認識処理から選択する(ステップS36)。これにより、ユーザに応じた適切な音声認識処理が選択され、対話において実行される。その結果、対話におけるユーザの音声の認識精度を向上することができる。
In addition, the voice recognition processing executed for the
たとえば、選択部134は、ユーザの人種を推測し、推測した人種のユーザに適した音声認識処理を選択する。これにより、ユーザの人種に応じた適切な音声認識処理が選択される。たとえば、推定した人種のユーザが使用する言語に対応した音響モデル、言語モデルを組み合わせに対応する音声認識処理を選択することで、音声認識の精度を向上させることができる。また、ユーザが手動で言語を選択するといった手間も不要とすることができる。
For example, the
たとえば、選択部134は、ユーザの性別を推定し、推定した性別のユーザに適した音声認識処理を選択する。性別は、たとえば音声周波数帯に関連するので、推定した性別のユーザの音声周波数帯に適した音響モデルを用いた音声認識処理を選択することで、音声認識の精度を向上させることができる。また、推定した性別に対応した話し言葉(口調、表現)などに対応した言語モデルを用いた音声認識処理を選択することで、音声認識の精度を向上させることができる。もちろん、上記音響モデルおよび言語モデルを組み合わせに対応する音声認識処理を選択することで、音声認識の精度をさらに向上させることもできる。
For example, the
また、調整部137が、ユーザの顔に向けて集音部111の指向性を調整する(ステップS32,S33)。これにより、ユーザ以外の人物の会話、騒音、およびテレビ音声などが存在する雑音環境下であっても、ユーザの音声の認識精度を高めることができる。
Further, the
また、特定部136は、撮像部112によって撮像された周囲画像に複数の人物が含まれる場合に、複数の人物のうち、対話装置100に視線を向けている人物をユーザとして特定する(ステップS15:YES、ステップS20)。そして、調整部137は、特定部136によって特定されたユーザの顔に向けて集音部111の指向性を調整する(ステップS32,S33)。複数の人物が存在する場合、複数の人物のうちの対話装置100に視線を向けている人物が、対話を開始しようとする意思を有しているユーザである可能性が高い。特定部136および調整部137の上記処理によれば、そのような対話を開始しようとする意思を有している可能性の高いユーザが特定され、そのユーザの顔に向けて集音部の指向性が調整される。よって、複数の人物が存在する場合であっても、対話の対象となっているユーザの音声の認識精度を高めることができる。
In addition, when a plurality of persons are included in the surrounding image captured by the
また、特定部136は、周囲画像に含まれるユーザの顔、あるいは、周囲音声に含まれるユーザの音声と、記憶部140に記憶されたユーザデータとを照合することによって、利用ユーザを特定する(ステップS16:YES)。これにより、個人の顔の特徴などの画像認証情報を使用し、発話ユーザを特定することができる(ステップS16:YES、ステップS20,S21)。
In addition, the specifying
なお、顔の特徴などに基づく認証に代えて、虹彩認識が用いられてもよい。その場合、視線を特定するための処理(ステップS15)を省略してもよい。 Note that iris recognition may be used instead of authentication based on facial features and the like. In that case, the process (step S15) for specifying the line of sight may be omitted.
また、選択部134は、記憶部140に記憶された履歴情報を参照し、利用履歴のある音響モデル、言語モデルを選択することで、ユーザに適した音響モデル、言語モデルを組み合わせに対応する音声認識処理を選択する(ステップS36)。これによっても、ユーザの音声の認識精度を高めることができる。また、ユーザが手動で言語を選択するといった手間を不要とすることもできる。
In addition, the
以上説明した対話装置100の各機能は、たとえば、コンピュータにおいて対話プログラムが実行されることによって実現することもできる。
Each function of the
以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されるものではない。 Although one embodiment of the present invention has been described above, the present invention is not limited to the above embodiment.
図7は、変形例に係る対話装置の機能ブロックを示す図である。対話装置100Aは、サーバ200との協働により、ユーザとの対話を行う対話システム1を構成する。この変形例では、対話システム1が本発明に係る対話装置に相当する。
FIG. 7 is a diagram illustrating functional blocks of the interactive apparatus according to the modification. The
図7に示されるように、サーバ200は、制御部230と、記憶部240と、通信部250とを含む。
As illustrated in FIG. 7, the
制御部230は、取得部231、決定部232、音声認識部233、選択部234、画像認識部235、特定部236および調整部237を含む。これらの各要素は、先に図1を参照して説明した取得部131、決定部132、音声認識部133、選択部134、画像認識部135、特定部136および調整部137と同様の機能を有する。
The
記憶部240は、先に図1を参照して説明した記憶部140と同様の機能を有する。すなわち、記憶部240は、制御部230によって実行される処理に必要な種々の情報を記憶する部分であり、たとえば音響モデル、言語モデル、対話プログラム、ユーザデータ、利用履歴を記憶する。
The
通信部250は、対話装置100Aの通信部150と通信する部分である。通信部250によって、対話装置100Aとサーバ200とが通信可能となる。
The
以上の構成により、対話システム1は、対話装置100Aと、サーバ200との協働により、ユーザとの対話を可能とする。すなわち、対話システム1では、対話装置100(図1)においてユーザとの対話を行うために実行される処理の一部(とくに制御部130によって実行される処理)が、サーバ200によって実行される。したがって、対話装置100Aによれば、対話装置100よりも、対話装置における処理負担を軽減することができる。
With the above configuration, the
具体的に、対話装置100Aは、対話装置100と比較して、制御部130および記憶部140に代えて、制御部130A、記憶部140Aを含む構成とすることができる。
Specifically, the
制御部130Aは、対話装置100Aの全体制御を行う部分である。ただし、制御部130Aは、制御部130と比較して、取得部131、決定部132、音声認識部133、選択部134、画像認識部135、特定部136、調整部137を含むことが必須でなく、それによって、制御部130Aの構成は、制御部130よりも簡素化することができる。
The
記憶部140Aは、制御部130Aによって実行される処理に必要な種々の情報を記憶する部分であるが、サーバ200の記憶部240と重複するデータの記憶は、記憶部140Aにおいては必須ではない。その分、記憶部140Aの記憶容量を、記憶部140の記憶容量よりも小さくするなどして、構成を簡素化することができる。
The
100,100A…対話装置、110…入力部(取得手段)、111…集音部(取得手段)、112…撮像部(取得手段)、120…出力部、121…発音部、122…表示部、130,130A,230…制御部、131,231…取得部(取得手段)、132,232…決定部(決定手段)、133,233…音声認識部、134,234…選択部(選択手段)、135,235…画像認識部、136,236…特定部(取得手段)、137,237…調整部、140,140A,240…記憶部、150…通信部、200…サーバ。 DESCRIPTION OF SYMBOLS 100,100A ... Dialogue device, 110 ... Input part (acquisition means), 111 ... Sound collection part (acquisition means), 112 ... Imaging part (acquisition means), 120 ... Output part, 121 ... Sound generation part, 122 ... Display part, 130, 130A, 230 ... control unit, 131, 231 ... acquisition unit (acquisition unit), 132, 232 ... determination unit (determination unit), 133, 233 ... voice recognition unit, 134, 234 ... selection unit (selection unit), 135, 235 ... image recognition unit, 136, 236 ... identification unit (acquisition means), 137, 237 ... adjustment unit, 140, 140A, 240 ... storage unit, 150 ... communication unit, 200 ... server.
Claims (9)
前記ユーザの画像を取得する取得手段と、
前記ユーザとの対話を開始する際または前記ユーザとの対話を終了する際に、前記取得手段によって取得された画像に基づいて、ハンズフリー状態にある前記ユーザとの対話を開始するタイミングまたは前記ユーザとの対話を終了するタイミングを決定する決定手段と、
を備え、
前記対話の開始は、前記ユーザの音声を認識する音声認識処理を開始することを含み、前記対話の終了は前記音声認識処理を終了することを含み、
前記決定手段は、前記ユーザの口が所定時間以上継続して閉じられたことを検出し、当該検出のタイミングを、前記ユーザとの対話を終了するタイミングとして決定する、対話装置。 An interactive device for interacting with a user,
Obtaining means for obtaining an image of the user;
When starting a dialog with the user or when ending the dialog with the user, based on the image acquired by the acquisition means, the timing for starting the dialog with the user in a hands-free state or the user Determining means for determining when to end the dialogue with
Equipped with a,
The start of the dialog includes starting a voice recognition process for recognizing the voice of the user, and the end of the dialog includes ending the voice recognition process,
The dialog device detects that the mouth of the user is continuously closed for a predetermined time or more, and determines the timing of the detection as a timing to end the dialog with the user .
請求項1に記載の対話装置。 The determining means detects that the user's line of sight has been continuously directed to the interactive device for a predetermined time or more, and determines the timing of the detection as a timing for starting a conversation with the user.
The interactive apparatus according to claim 1.
請求項1または2に記載の対話装置。 The determining means determines the timing when the user's mouth is opened as the timing for starting a dialogue with the user.
The interactive apparatus according to claim 1 or 2.
前記対話装置は、前記対話において前記取得手段が取得した前記ユーザの音声を認識するために実行される音声認識処理を、前記取得手段によって取得された前記ユーザの画像に基づいて、予め定められた複数の音声認識処理から選択する選択手段、をさらに備える、
請求項1〜3のいずれか1項に記載の対話装置。 The acquisition means further acquires the user's voice,
The dialogue apparatus performs a voice recognition process executed for recognizing the voice of the user acquired by the acquisition unit in the dialogue based on the image of the user acquired by the acquisition unit. Selecting means for selecting from a plurality of voice recognition processes;
The dialogue apparatus according to any one of claims 1 to 3 .
集音部と、
前記取得手段によって取得された画像に基づき前記ユーザの顔に向けて前記集音部の指向性を調整する調整部と、
を含む、
請求項1〜4のいずれか1項に記載の対話装置。 The acquisition means includes
The sound collection section;
An adjustment unit that adjusts the directivity of the sound collection unit toward the user's face based on the image acquired by the acquisition unit;
including,
The interactive apparatus according to any one of claims 1 to 4 .
前記対話装置の周囲画像を撮像する撮像部と、
前記撮像部によって撮像された周囲画像に複数の人物が含まれる場合に、前記複数の人物のうち、前記対話装置に視線を向けている人物を前記ユーザとして特定する特定部と、
をさらに含み、
前記調整部は、前記特定部によって特定された前記ユーザの顔に向けて前記集音部の指向性を調整する、
請求項5に記載の対話装置。 The acquisition means includes
An imaging unit that captures an image around the interactive device;
A plurality of persons included in the surrounding image captured by the image capturing unit; a specific unit that identifies a person who is looking at the interactive device as the user among the plurality of persons;
Further including
The adjusting unit adjusts the directivity of the sound collecting unit toward the face of the user specified by the specifying unit;
The interactive apparatus according to claim 5 .
取得した周囲画像に複数の人物が含まれる場合に、前記周囲画像に含まれる顔情報に基づいて、前記複数の人物から前記ユーザを特定する特定部、
をさらに含む、
請求項1〜5のいずれか1項に記載の対話装置。 The acquisition means includes
A specifying unit that specifies the user from the plurality of persons based on face information included in the surrounding image when the acquired surrounding image includes a plurality of persons;
Further including
The interactive apparatus according to any one of claims 1 to 5 .
請求項1〜3のいずれか1項に記載の対話装置。 A voice recognition process executed for recognizing the user's voice acquired by the acquisition means in the dialogue is selected from a plurality of predetermined voice recognition processes based on a use history of the voice recognition process by the user. Further comprising selection means for
The dialogue apparatus according to any one of claims 1 to 3 .
前記ユーザの画像を取得する取得手段と、
前記ユーザとの対話を開始する際または前記ユーザとの対話を終了する際に、前記取得手段によって取得された画像に基づいて、ハンズフリー状態にある前記ユーザとの対話を開始するタイミングまたは前記ユーザとの対話を終了するタイミングを決定する決定手段、
として機能させるための対話プログラムであって、
前記対話の開始は、前記ユーザの音声を認識する音声認識処理を開始することを含み、前記対話の終了は前記音声認識処理を終了することを含み、
前記決定手段は、前記ユーザの口が所定時間以上継続して閉じられたことを検出し、当該検出のタイミングを、前記ユーザとの対話を終了するタイミングとして決定する、対話プログラム。 A computer provided in a dialog device for performing a dialog with a user,
Obtaining means for obtaining an image of the user;
When starting a dialog with the user or when ending the dialog with the user, based on the image acquired by the acquisition means, the timing for starting the dialog with the user in a hands-free state or the user Determining means for determining when to end the dialogue with
An interactive program to function as,
The start of the dialog includes starting a voice recognition process for recognizing the voice of the user, and the end of the dialog includes ending the voice recognition process,
The said determination means detects that the said user's mouth was closed continuously more than predetermined time, and determines the timing of the said detection as a timing which complete | finishes the dialog with the said user .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015179495A JP6562790B2 (en) | 2015-09-11 | 2015-09-11 | Dialogue device and dialogue program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015179495A JP6562790B2 (en) | 2015-09-11 | 2015-09-11 | Dialogue device and dialogue program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017054065A JP2017054065A (en) | 2017-03-16 |
JP6562790B2 true JP6562790B2 (en) | 2019-08-21 |
Family
ID=58320835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015179495A Expired - Fee Related JP6562790B2 (en) | 2015-09-11 | 2015-09-11 | Dialogue device and dialogue program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6562790B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021096270A (en) | 2018-03-27 | 2021-06-24 | ソニーグループ株式会社 | Information processing device and information processing method |
JP2021144259A (en) * | 2018-06-06 | 2021-09-24 | ソニーグループ株式会社 | Information processing apparatus and method, and program |
KR102208536B1 (en) * | 2019-05-07 | 2021-01-27 | 서강대학교산학협력단 | Speech recognition device and operating method thereof |
JP2020185630A (en) * | 2019-05-13 | 2020-11-19 | 株式会社Preferred Networks | Control device, robot, control method and control program |
JP7442330B2 (en) | 2020-02-05 | 2024-03-04 | キヤノン株式会社 | Voice input device and its control method and program |
JP7442331B2 (en) | 2020-02-05 | 2024-03-04 | キヤノン株式会社 | Voice input device and its control method and program |
KR102557092B1 (en) * | 2022-11-11 | 2023-07-19 | 주식회사 디엠티랩스 | Automatic interpretation and translation and dialogue assistance system using transparent display |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004192653A (en) * | 1997-02-28 | 2004-07-08 | Toshiba Corp | Multi-modal interface device and multi-modal interface method |
JPH11338490A (en) * | 1998-05-29 | 1999-12-10 | Tokai Rika Co Ltd | Speech recognition unit for vehicle |
JP2000187499A (en) * | 1998-12-24 | 2000-07-04 | Fujitsu Ltd | Device and method for inputting voice |
JP2002229592A (en) * | 2001-01-30 | 2002-08-16 | Nec Corp | Speech recognizer |
JP2005122128A (en) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | Speech recognition system and program |
JP2005276230A (en) * | 2005-04-18 | 2005-10-06 | Toshiba Corp | Image recognition apparatus |
JP2007121579A (en) * | 2005-10-26 | 2007-05-17 | Matsushita Electric Works Ltd | Operation device |
WO2007069372A1 (en) * | 2005-12-14 | 2007-06-21 | Mitsubishi Electric Corporation | Voice recognition device |
JP2008126329A (en) * | 2006-11-17 | 2008-06-05 | Toyota Motor Corp | Voice recognition robot and its control method |
JP2014153663A (en) * | 2013-02-13 | 2014-08-25 | Sony Corp | Voice recognition device, voice recognition method and program |
JP2014240856A (en) * | 2013-06-11 | 2014-12-25 | アルパイン株式会社 | Voice input system and computer program |
-
2015
- 2015-09-11 JP JP2015179495A patent/JP6562790B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2017054065A (en) | 2017-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6562790B2 (en) | Dialogue device and dialogue program | |
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
CN111699528B (en) | Electronic device and method for executing functions of electronic device | |
US10515640B2 (en) | Generating dialogue based on verification scores | |
JP6230726B2 (en) | Speech recognition apparatus and speech recognition method | |
US9548053B1 (en) | Audible command filtering | |
JP5323770B2 (en) | User instruction acquisition device, user instruction acquisition program, and television receiver | |
US8416998B2 (en) | Information processing device, information processing method, and program | |
JP2021007216A (en) | Sound source enhancement facilitated by using video data | |
JP2014153663A (en) | Voice recognition device, voice recognition method and program | |
JP4992218B2 (en) | Information processing apparatus and method, and program | |
KR20150112337A (en) | display apparatus and user interaction method thereof | |
US11250117B2 (en) | Methods and systems for fingerprint sensor triggered voice interaction in an electronic device | |
US10984795B2 (en) | Electronic apparatus and operation method thereof | |
US20190244612A1 (en) | Method of processing a speech signal for speaker recognition and electronic apparatus implementing same | |
US20190362709A1 (en) | Offline Voice Enrollment | |
JP2009178783A (en) | Communication robot and its control method | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
KR20190119521A (en) | Electronic apparatus and operation method thereof | |
JP6874437B2 (en) | Communication robots, programs and systems | |
JP2018075657A (en) | Generating program, generation device, control program, control method, robot device and telephone call system | |
KR20130054131A (en) | Display apparatus and control method thereof | |
KR20210029354A (en) | Electronice device and control method thereof | |
JP2021197658A (en) | Sound collecting device, sound collecting system, and sound collecting method | |
CN114697445A (en) | Volume adjusting method, electronic equipment, terminal and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190716 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190723 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6562790 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |