JP2010128237A - Speech interactive system - Google Patents
Speech interactive system Download PDFInfo
- Publication number
- JP2010128237A JP2010128237A JP2008303596A JP2008303596A JP2010128237A JP 2010128237 A JP2010128237 A JP 2010128237A JP 2008303596 A JP2008303596 A JP 2008303596A JP 2008303596 A JP2008303596 A JP 2008303596A JP 2010128237 A JP2010128237 A JP 2010128237A
- Authority
- JP
- Japan
- Prior art keywords
- predetermined
- interactee
- voice
- unit
- server computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声対話システムに関するもので、例えば、携帯電話、パソコン、カメラ、ゲーム機に適用して有効である。 The present invention relates to a voice interaction system, and is effective when applied to, for example, a mobile phone, a personal computer, a camera, and a game machine.
近年、産官学を挙げて音声対話装置の開発、製品化が行われている。 In recent years, spoken dialogue devices have been developed and commercialized through industry, government and academia.
しかし、従来の音声対話装置は、例えば、音声対話ロボットのように、被対話体と一体に組み込まれることが多く、これを持ち歩く場合、常に、落下事故や水没事故で故障する可能性が指摘される。また、上記音声対話装置は、非常に高価で、上記のような事故が発生して故障すると、修理に多額の費用が発生する問題点があった。 However, conventional voice interaction devices, such as a voice interaction robot, are often integrated with the person to be interacted with, and it is always pointed out that there is a possibility of failure due to a fall accident or submergence accident when carrying this. The Further, the above-mentioned voice interactive apparatus is very expensive, and there is a problem that a large amount of cost is required for repair if the above accident occurs and breaks down.
また、従来の音声対話装置は、小型化が進んでいるが、例えば携帯電話に組み込むと非常に大きな携帯電話になってしまい、実用上、不便になる問題点があった。そのため、音声対話装置は開発されているが、実際に被対話体に組み込まれない場合があった。また、音声対話装置が組み込まれたロボットでは、小型化をすることが困難であった。 In addition, although the conventional voice interaction device has been reduced in size, there has been a problem that it becomes practically inconvenient because it becomes a very large mobile phone when incorporated in a mobile phone, for example. For this reason, although a voice interaction device has been developed, there are cases where it is not actually incorporated into the interactee. In addition, it is difficult to reduce the size of a robot incorporating a voice interaction device.
また、従来の音声対話装置は、被対話体と組み合わせただけでは、音声対話を行う被対話体という位置付けに過ぎず、より付加価値の高い、より高機能な音声対話システムを提供することができなかった。さらに、従来の音声対話装置は、被対話体と組み合わせただけでは、より高度なユーザインターフェースを実現できない問題点があった。 In addition, the conventional voice dialogue apparatus is merely positioned as a dialogue target for performing voice dialogue only by being combined with the dialogue target, and can provide a higher-value and higher-functional voice dialogue system. There wasn't. Furthermore, the conventional voice interaction apparatus has a problem that a more advanced user interface cannot be realized only by combining with the object to be interacted.
本発明は上記点に鑑み、事故が発生した場合に、損傷を少なくする音声対話システムを提供することを第1の目的とする。 In view of the above points, the first object of the present invention is to provide a spoken dialogue system that reduces damage when an accident occurs.
また、本発明は上記点に鑑み、小型に構成できる音声対話システムを提供することを第2の目的とする。 In addition, in view of the above points, the second object of the present invention is to provide a spoken dialogue system that can be made compact.
また、本発明は上記点に鑑み、付加価値の高い、高機能な音声対話システムを提供することを第3の目的とする。 In addition, in view of the above points, the third object of the present invention is to provide a high-value voice dialogue system with high added value.
また、本発明は上記点に鑑み、高度なユーザインターフェースを実現できる音声対話可能な被対話体または音声対話システムを提供することを第4の目的とする。 In addition, in view of the above points, a fourth object of the present invention is to provide an object to be spoken or a voice dialogue system capable of voice dialogue capable of realizing an advanced user interface.
本発明は、上記目的を達成するために、請求項1に記載の発明では、人の音声を音声信号に変換する音声変換手段および所定の発音信号を振動に変えて発音する発音手段を備えた被対話体と、
被対話体とは別体に設けられて被対話体に有線及び無線のいずれかで接続されたサーバ用コンピュータと、
を備えており、
サーバ用コンピュータが、音声変換手段により変換された音声信号を処理して人の音声を認識する音声認識手段と、音声認識手段により認識された音声に対応する音声を決定し所定の発音信号を出力する対話制御手段とを備えていることを特徴とする。
In order to achieve the above object, according to the present invention, in the first aspect of the present invention, there is provided speech conversion means for converting a human voice into a voice signal and a sound generation means for generating a sound by changing a predetermined pronunciation signal into vibration. The interactee,
A server computer provided separately from the interactee and connected to the interactee either by wire or wirelessly;
With
The server computer processes the voice signal converted by the voice conversion means to recognize the voice of the person, determines the voice corresponding to the voice recognized by the voice recognition means, and outputs a predetermined pronunciation signal And a dialogue control means.
これによれば、音声変換手段、発音手段を備えた被対話体と、上記被対話体と別体に構成され、音声認識手段、対話制御手段を備えたサーバ用コンピュータとの間が有線及び無線のいずれかで接続されて、人が被対話体と音声対話を行うことができる。 According to this configuration, the object to be interacted with the voice conversion means and the sound generation means and the server computer that is configured separately from the object to be interacted with the voice recognition means and the dialog control means are wired and wirelessly connected. A person can perform a voice conversation with a person to be interacted with.
音声認識手段、対話制御手段がサーバ用コンピュータに備えられるので、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、高価な音声認識手段、対話制御手段が故障することがない。さらに、被対話体とサーバ用コンピュータとが無線で接続されている場合には、有線で接続されている場合のように、有線の長さに制約されることなく、被対話体を移動することができる。 Since the voice recognition means and the dialogue control means are provided in the server computer, the expensive voice recognition means and the dialogue control means do not break down even when the object to be interacted is dropped or submerged in a puddle. Furthermore, when the interactee is connected wirelessly to the server computer, the interactee can be moved without being restricted by the length of the wire as in the case of being connected by wire. Can do.
請求項2に記載の発明では、所定の発音信号を振動に変えて発音する発音手段を備えた被対話体と、
被対話体とは別体に設けられて被対話体に有線及び無線のいずれかで接続されたサーバ用コンピュータと、
被対話体およびサーバ用コンピュータとは別体に設けられて被対話体およびサーバ用コンピュータのいずれかに有線及び無線のいずれかで接続されて人の音声を音声信号に変換する音声変換手段と、
を備えており、
サーバ用コンピュータが、音声変換手段により変換された音声信号を処理して人の音声を認識する音声認識手段と、音声認識手段により認識された音声に対応する音声を決定し所定の発音信号を出力する対話制御手段とを備えていることを特徴とする。
In the invention according to claim 2, to-be-interacted body provided with sounding means for sounding by changing a predetermined sounding signal into vibration,
A server computer provided separately from the interactee and connected to the interactee either by wire or wirelessly;
A voice conversion unit that is provided separately from the interactee and the server computer, and is connected to either the talkee and the server computer either by wire or wirelessly and converts a human voice into an audio signal;
With
The server computer processes the voice signal converted by the voice conversion means to recognize the voice of the person, determines the voice corresponding to the voice recognized by the voice recognition means, and outputs a predetermined pronunciation signal And a dialogue control means.
これによれば、音声変換手段が、被対話体およびサーバ用コンピュータとは別体に設けられるので、人が被対話体に近づかなくとも、音声を音声変換手段に入力することができる。また、音声変換装置を持ち歩くことがないので、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、音声変換手段が故障することがない。 According to this, since the voice conversion means is provided separately from the object to be interacted with and the server computer, it is possible to input the sound to the sound conversion means even if a person does not approach the object to be interacted with. Further, since the voice conversion device is not carried around, the voice conversion means does not break down even when the interactee is dropped or submerged in a puddle.
請求項3に記載の発明では、人の音声を音声信号に変換する音声変換手段および所定の発音信号を振動に変えて発音する発音手段を備えた被対話体と、
被対話体とは別体に設けられて被対話体に有線及び無線のいずれかで接続されたサーバ用コンピュータと、
を備えており、
音声変換手段により変換された音声信号を処理して人の言葉を認識する言葉認識手段、言葉認識手段により認識された言葉に対応する言葉を決定し所定の発音信号を出力する対話制御手段の両手段のうち、どちらか一方が被対話体に備えられており、他方がサーバ用コンピュータに備えられていることを特徴とする。
In the invention according to claim 3, there is provided a voice conversion means for converting a human voice into a voice signal, and a to-be-interactive body provided with a sound generation means for changing a predetermined sound generation signal into vibration,
A server computer provided separately from the interactee and connected to the interactee either by wire or wirelessly;
With
Both speech recognition means for processing a speech signal converted by the speech conversion means and a dialogue recognition means for determining a word corresponding to the word recognized by the word recognition means and outputting a predetermined pronunciation signal One of the means is provided in the object to be interacted with, and the other is provided in the server computer.
これによれば、音声認識手段が搭載された被対話体と、対話制御手段が搭載されたサーバ用コンピュータとの間が有線及び無線のいずれかで接続されて、人が被対話体と音声対話を行うことができる。 According to this, the person to be interacted with the person to be interacted is connected by a wired or wireless connection between the object to be interacted with the voice recognition means and the server computer on which the dialog control means is installed. It can be performed.
対話制御手段がサーバ用コンピュータに備えられるので、被対話体を落下させた場合に、あるいは水たまりに水没させた場合に、高価な対話制御手段が故障することがない。さらに、被対話体とサーバ用コンピュータとが無線で接続される場合には、有線で接続されている場合のように、有線の長さに制約されることなく、被対話体を移動することができる。このように、音声認識手段、対話制御手段のうち、どちらか一方が被対話体に、他方がサーバ用コンピュータに搭載するように構成する場合でも、上述した効果を得ることができる。 Since the dialog control means is provided in the server computer, the expensive dialog control means does not break down when the object to be interacted is dropped or submerged in a puddle. Further, when the interactee and the server computer are connected wirelessly, the interactee can be moved without being restricted by the length of the wire as in the case of being connected by wire. it can. As described above, even when one of the voice recognition unit and the dialogue control unit is mounted on the interactee and the other is mounted on the server computer, the above-described effects can be obtained.
請求項4に記載の発明では、所定の発音信号を振動に変えて発音する発音手段を備えた被対話体と、
被対話体とは別体に設けられて被対話体に有線及び無線のいずれかで接続されたサーバ用コンピュータと、
被対話体およびサーバ用コンピュータとは別体に設けられて被対話体およびサーバ用コンピュータのいずれかに有線及び無線のいずれかで接続されて人の音声を音声信号に変換する音声変換手段と、
を備えており、
音声変換手段により変換された音声信号を処理して人の音声を認識する音声認識手段、音声認識手段により認識された音声に対応する音声を決定し所定の発音信号を出力する対話制御手段の両手段のうち、どちらか一方が被対話体に備えられており、他方がサーバ用コンピュータに備えられていることを特徴とする。
In the invention according to claim 4, to-be-interacted body provided with sounding means for sounding by changing a predetermined sounding signal into vibration,
A server computer provided separately from the interactee and connected to the interactee either by wire or wirelessly;
A voice conversion unit that is provided separately from the interactee and the server computer, and is connected to either the talkee and the server computer either by wire or wirelessly and converts a human voice into an audio signal;
With
Both voice recognition means for processing a voice signal converted by the voice conversion means to recognize a human voice, and a dialog control means for determining a voice corresponding to the voice recognized by the voice recognition means and outputting a predetermined pronunciation signal One of the means is provided in the object to be interacted with, and the other is provided in the server computer.
これによれば、音声変換手段が被対話体およびサーバ用コンピュータとは別体に設けられるので、人が被対話体に近づかなくとも、音声を音声変換手段に入力することができる。また、音声変換装置を持ち歩くことがないので、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、音声変換手段が故障することがない。 According to this, since the voice conversion means is provided separately from the object to be interacted with and the server computer, it is possible to input the sound to the sound conversion means even if a person does not approach the object to be interacted with. Further, since the voice conversion device is not carried around, the voice conversion means does not break down even when the interactee is dropped or submerged in a puddle.
なお、請求項1乃至請求項4のいずれか1つによれば、音声変換手段、発音手段、音声認識手段、対話制御手段のすべてが被対話体に搭載される場合に比べると、被対話体を小さく、軽くすることができ、被対話体の持ち運びを容易にすることができる。 According to any one of claims 1 to 4, compared to the case where all of the voice conversion means, the sound generation means, the voice recognition means, and the dialogue control means are mounted on the dialogue target, Can be made small and light, and the object can be easily carried.
請求項5に記載の発明では、請求項1乃至請求項4のいずれか1つに記載の音声対話システムにおいて、さらに所定の発音情報を記憶自在な発音情報記憶部が被対話体およびサーバ用コンピュータのいずれかに搭載されており、
所定の発音情報が発音情報記憶部に記憶されており、
人が音声変換手段を介して所定の発音情報を要求した場合、人が音声変換手段を介して所定の発音情報を許可した場合、所定の発音情報を用いて被対話体が自ら発音する場合のいずれかに、発音情報記憶部から所定の発音情報を読み出して、発音手段から発音することを特徴とする。
According to a fifth aspect of the present invention, in the spoken dialogue system according to any one of the first to fourth aspects, a pronunciation information storage unit capable of storing predetermined pronunciation information further includes a computer to be interacted with and a server computer. Is mounted on either
Predetermined pronunciation information is stored in the pronunciation information storage unit,
When a person requests predetermined pronunciation information via the voice conversion means, when a person permits the predetermined pronunciation information via the voice conversion means, or when the person to be spoken pronounces himself using the predetermined pronunciation information One of the features is that predetermined sounding information is read from the sounding information storage unit and sounded by the sounding means.
これによれば、人が被対話体と単に音声対話するだけではなく、人が所定の発音情報を要求した場合、人が音声変換手段を介して所定の発音情報を許可した場合、所定の発音情報を用いて被対話体が自ら発音する場合のいずれかに、所定の発音情報を得ることができる高機能な音声対話システムを提供することができる。また、人が所定の発音情報を要求した場合、所定の発音情報を用いて被対話体が自ら発音する場合に、所定の発音情報を読み出して、発音手段から発音する高度なユーザインターフェースを提供できる。さらに、発音情報記憶部がサーバ用コンピュータに搭載されている場合には、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、発音情報記憶部に記憶された発音情報を損傷させることがない。 According to this, not only a person has a voice conversation with a person to be interacted but also a person requests a predetermined pronunciation information, a person permits a predetermined pronunciation information through the voice conversion means, a predetermined pronunciation It is possible to provide a highly functional voice dialogue system capable of obtaining predetermined pronunciation information in any case where the person to be spoken by himself / herself uses information. In addition, when a person requests predetermined pronunciation information, an advanced user interface can be provided that reads out the predetermined pronunciation information and produces sound from the sound generation means when the person to be spoken uses the predetermined pronunciation information. . Further, when the pronunciation information storage unit is mounted on the server computer, the pronunciation information stored in the pronunciation information storage unit is damaged even if the interactee is dropped or submerged in a puddle. There is nothing.
請求項6に記載の発明では、請求項5において、発音情報記憶部がインターネットに接続自在に構成されており、
発音情報がインターネット上の所定の記憶場所からダウンロード自在であることを特徴とする。
In the invention described in claim 6, in claim 5, the pronunciation information storage unit is configured to be freely connected to the Internet.
The pronunciation information can be downloaded from a predetermined storage location on the Internet.
これによれば、所定の発音情報をインターネット上からダウンロードできる高機能な音声対話システムを提供できる。また、所定の発音情報をインターネット上からダウンロードできるので、発音情報記憶部に記憶された所定の発音情報が損傷しても、直ぐに所定の発音情報を復旧することができる。 According to this, it is possible to provide a highly functional voice dialogue system that can download predetermined pronunciation information from the Internet. Further, since the predetermined pronunciation information can be downloaded from the Internet, even if the predetermined pronunciation information stored in the pronunciation information storage unit is damaged, the predetermined pronunciation information can be restored immediately.
請求項7に記載の発明のように、請求項1乃至請求項6のいずれか1つにおいて、被対話体が、1つ以上の可動部と、
1つ以上の可動部をそれぞれ可動するモータと、
モータをそれぞれ駆動する駆動部と、
駆動部に可動部の動作を司令する指令信号を出力するコントローラと、
を備えていてもよい。
As in the invention described in claim 7, in any one of claims 1 to 6, the interactee is one or more movable parts;
A motor for moving each of the one or more movable parts;
A drive unit for driving each motor;
A controller that outputs a command signal to command the operation of the movable part to the drive part;
May be provided.
これによれば、可動部の動作を司令する指令信号を、コントローラから駆動部に出力し、この指令信号に基づいてモータを駆動することで、可動部を可動することができる。上記のように、被対話体に可動部、モータ、駆動部、コントローラが備えられた音声対話システムであってもよい。 According to this, it is possible to move the movable part by outputting the command signal for commanding the operation of the movable part from the controller to the drive part and driving the motor based on the command signal. As described above, the spoken dialogue system may include a movable unit, a motor, a drive unit, and a controller in the object to be interacted.
請求項8に記載の発明では、請求項1乃至請求項6のいずれか1つにおいて、被対話体が、1つ以上の可動部と、
1つ以上の可動部をそれぞれ可動するモータと、
モータをそれぞれ駆動する駆動部と、
を備えており、
サーバ用コンピュータが、駆動部に動作の指令信号を出力するコントローラを備えていることを特徴とする。
According to an eighth aspect of the present invention, in any one of the first to sixth aspects, the interactee is one or more movable parts;
A motor for moving each of the one or more movable parts;
A drive unit for driving each motor;
With
The server computer includes a controller that outputs an operation command signal to the drive unit.
これによれば、可動部の動作を司令する指令信号を、サーバ用コンピュータに備えられたコントローラから、被対話体に備えられた駆動部に出力し、この指令信号に基づいてモータを駆動することで、可動部を可動することができる。 According to this, the command signal for commanding the operation of the movable part is output from the controller provided for the server computer to the drive part provided for the interactee, and the motor is driven based on the command signal. Thus, the movable part can be moved.
上記のように、コントローラがサーバ用コンピュータに備えられているので、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、高価なコントローラが故障することがない。 As described above, since the controller is provided in the server computer, the expensive controller does not fail even when the interactee is dropped or submerged in a puddle.
請求項9に記載の発明では、請求項1乃至請求項6のいずれか1つにおいて、被対話体が、1つ以上の可動部と、
1つ以上の可動部をそれぞれ可動するモータと、
を備えており、
サーバ用コンピュータが、モータをそれぞれ駆動する駆動部と、駆動部に動作の指令信号を出力するコントローラとを備えていることを特徴とする。
In the invention according to claim 9, in any one of claims 1 to 6, the interactee is one or more movable parts;
A motor for moving each of the one or more movable parts;
With
The server computer includes a drive unit that drives each motor, and a controller that outputs an operation command signal to the drive unit.
これによれば、可動部の動作を司令する指令信号を、サーバ用コンピュータに備えられたコントローラから駆動部に出力し、この指令信号に基づいて、被対話体に備えられたモータを駆動することで、可動部を可動することができる。 According to this, the command signal for commanding the operation of the movable part is output from the controller provided in the server computer to the drive unit, and the motor provided in the interactee is driven based on the command signal. Thus, the movable part can be moved.
駆動部、コントローラがサーバ用コンピュータに備えらるので、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、高価な駆動部、コントローラが故障することがない。 Since the drive unit and the controller are provided in the server computer, the expensive drive unit and controller do not break down even when the object to be interacted is dropped or submerged in a puddle.
請求項10に記載の発明では、請求項1乃至請求項6のいずれか1つにおいて、被対話体およびサーバ用コンピュータとは別体に設けられて被対話体およびサーバ用コンピュータの少なくとも1つに有線及び無線のいずれかで接続されて可動する可動ユニットを備えており、
可動ユニットが、1つ以上の可動部と、
1つ以上の可動部をそれぞれ可動するモータと、
モータをそれぞれ駆動する駆動部と、
駆動部に可動部の動作を司令する指令信号を出力するコントローラと、
を備えていることを特徴とする。
According to a tenth aspect of the present invention, in any one of the first to sixth aspects, the at least one of the interactee and the server computer is provided separately from the interactee and the server computer. It is equipped with a movable unit that can be connected and moved by either wired or wireless,
The movable unit includes one or more movable parts;
A motor for moving each of the one or more movable parts;
A drive unit for driving each motor;
A controller that outputs a command signal to command the operation of the movable part to the drive part;
It is characterized by having.
これによれば、可動ユニットが被対話体およびサーバ用コンピュータとは別体に設けられ、被対話体と有線及び無線のいずれかで接続されて可動することができる。 According to this, the movable unit is provided separately from the interactee and the server computer, and can be moved by being connected to the interactee either by wire or wirelessly.
上記のように、可動部、モータ、駆動部、コントローラが被対話体と別体に備えられているので、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、高価な可動部、モータ、駆動部、コントローラが故障することがない。 As described above, since the movable part, motor, drive unit, and controller are provided separately from the interactee, even if the interactee is dropped or submerged in a puddle, the expensive movable part The motor, drive unit and controller will not break down.
請求項11に記載の発明では、請求項1乃至請求項6のいずれか1つにおいて、被対話体およびサーバ用コンピュータとは別体に設けられて被対話体およびサーバ用コンピュータの少なくとも1つに有線及び無線のいずれかで接続された可動ユニットを備えており、
可動ユニットが、1つ以上の可動部と、
1つ以上の可動部をそれぞれ駆動するモータと、
モータをそれぞれ駆動する駆動部と、
を備えており、
被対話体およびサーバ用コンピュータのいずれかが、駆動部に動作の指令信号を出力するコントローラを備えていることを特徴とする。
According to an eleventh aspect of the present invention, in any one of the first to sixth aspects, at least one of the interactee and the server computer is provided separately from the interactee and the server computer. It has a movable unit connected by either wired or wireless,
The movable unit includes one or more movable parts;
Motors each driving one or more movable parts;
A drive unit for driving each motor;
With
One of the object to be interacted with and the server computer includes a controller that outputs an operation command signal to the drive unit.
これによれば、可動部の動作を司令する指令信号を、被対話体およびサーバ用コンピュータのいずれかに備えられたコントローラから駆動部に出力し、この指令信号に基づいて、可動ユニットに備えられたモータを駆動することで、可動部を可動することができる。 According to this, a command signal for commanding the operation of the movable part is output from the controller provided in either the interactee or the server computer to the drive unit, and the movable unit is provided based on this command signal. By driving the motor, the movable part can be moved.
可動部、モータ、駆動部が被対話体と別体に備えられているので、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、高価な可動部、モータ、駆動部が故障することがない。 Since the movable part, motor, and drive part are provided separately from the interactee, the expensive movable part, motor, and drive part will fail even if the interactee is dropped or submerged in a puddle. There is nothing to do.
請求項12に記載の発明では、請求項1乃至請求項6のいずれか1つにおいて、被対話体とは別体に設けられて被対話体およびサーバ用コンピュータの少なくとも1つに有線及び無線のいずれかで接続された可動ユニットを備えており、
可動ユニットが、1つ以上の可動部と、
1つ以上の可動部をそれぞれ可動するモータと、
を備えており、
モータをそれぞれ駆動する駆動部が、被対話体およびサーバ用コンピュータのいずれかに備えられており、
駆動部に動作の指令信号を出力するコントローラが、被対話体およびサーバ用コンピュータのいずれかに備えられていることを特徴とする。
According to a twelfth aspect of the present invention, in any one of the first to sixth aspects, a wired and wireless connection is provided to at least one of the interactee and the server computer. It has a movable unit connected by either
The movable unit includes one or more movable parts;
A motor for moving each of the one or more movable parts;
With
A drive unit for driving each motor is provided in either the interactee or the server computer,
A controller that outputs an operation command signal to the drive unit is provided in either the interactee or the server computer.
これによれば、少なくとも可動部、モータが可動ユニットに備えられているので、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、高価な可動部、モータが故障することがない。 According to this, since at least the movable part and the motor are provided in the movable unit, the expensive movable part and the motor do not break down even when the interactee is dropped or submerged in a puddle. .
なお、請求項8乃至請求項12のいずれかによれば、可動部、モータ、駆動部、コントローラのすべてが被対話体に備えられる場合に比べると、被対話体を小さく、軽くすることができ、被対話体の持ち運びを容易にすることができる。 According to any one of claims 8 to 12, the interactee can be made smaller and lighter than when the movable part, the motor, the drive unit, and the controller are all provided in the interactee. Therefore, it is possible to easily carry the interactee.
請求項13に記載の発明のように、請求項10乃至請求項12のいずれか1つにおいて、被対話体と可動ユニットが取付自在に構成されていてもよい。 As in a thirteenth aspect of the present invention, in any one of the tenth to twelfth aspects, the interactee and the movable unit may be configured to be freely attachable.
これによれば、可動ユニットを被対話体に取り付けることができるので、被対話体が可動ユニットと別体に構成される場合と、被対話体が可動ユニットと一体に構成される場合の2つの構成を使い分けて使用することができる。 According to this, since the movable unit can be attached to the interacting body, there are two cases where the interacted body is configured separately from the movable unit and when the interacted body is configured integrally with the movable unit. You can use different configurations.
請求項14に記載の発明では、請求項1乃至請求項9のいずれか1つに記載の音声対話システムにおいて、さらに所定の画像を表示する画像表示手段が被対話体と一体および別体のいずれかに設けられており、
所定の画像情報が予め記憶された画像情報記憶部が被対話体およびサーバ用コンピュータのいずれかに搭載されており、
人が音声変換手段を介して所定の画像情報を要求した場合、人が音声変換手段を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体が自ら所定の画像を表示する場合のいずれかに、画像情報記憶部から所定の画像情報を読み出して、画像表示手段に表示することを特徴とする。
According to a fourteenth aspect of the present invention, in the voice interaction system according to any one of the first to ninth aspects, the image display means for displaying a predetermined image is either integrated with or separated from the object to be interacted. It is established in
An image information storage unit in which predetermined image information is stored in advance is mounted on either the interactee or the server computer,
When a person requests predetermined image information through the voice conversion unit, or when a person permits the predetermined image information through the voice conversion unit, the interactee uses the predetermined image information to display the predetermined image information. In any case of displaying, predetermined image information is read from the image information storage unit and displayed on the image display means.
これによれば、画像表示手段が被対話体と別体に設けられている場合には、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、画像表示手段を損傷させることがない。また、画像情報記憶部がサーバ用コンピュータに搭載されている場合には、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、画像情報記憶部の画像情報を損傷させることがない。なお、画像情報記憶部が被対話体に搭載されていてもよく、画像表示手段が被対話体と一体に設けられていてもよい。 According to this, when the image display means is provided separately from the interactee, the image display means can be damaged even if the interactee is dropped or submerged in a puddle. Absent. Further, when the image information storage unit is mounted on the server computer, the image information in the image information storage unit is not damaged even if the interactee is dropped or submerged in a puddle. . Note that the image information storage unit may be mounted on the interactee, and the image display means may be provided integrally with the interactee.
請求項15に記載の発明では、請求項10乃至請求項13のいずれか1つに記載の音声対話システムにおいて、さらに所定の画像を表示する画像表示手段が被対話体および可動ユニットのいずれかに設けられて、被対話体、サーバ用コンピュータ、可動ユニットの少なくとも1つに有線及び無線のいずれかで接続されており、
所定の画像情報が予め記憶された画像情報記憶部が、被対話体、サーバ用コンピュータ、可動ユニットのいずれかに搭載されており、
人が音声変換手段を介して所定の画像情報を要求した場合、人が音声変換手段を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体が自ら所定の画像を表示する場合のいずれかに、画像情報記憶部から所定の画像情報を読み出して、画像表示手段に表示することを特徴とする。
According to a fifteenth aspect of the present invention, in the voice interaction system according to any one of the tenth to thirteenth aspects, the image display means for displaying a predetermined image is either the object to be interacted or the movable unit. Provided, connected to at least one of the interactee, the server computer, and the movable unit by either wired or wireless,
An image information storage unit in which predetermined image information is stored in advance is mounted on any of the interactee, the server computer, and the movable unit,
When a person requests predetermined image information through the voice conversion unit, or when a person permits the predetermined image information through the voice conversion unit, the interactee uses the predetermined image information to display the predetermined image information. In any case of displaying, predetermined image information is read from the image information storage unit and displayed on the image display means.
これによれば、画像表示手段がサーバ用コンピュータ、可動ユニットのいずれかに搭載されている場合には、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、高価な画像表示手段を損傷させることがない。また、画像情報記憶部がサーバ用コンピュータ、可動ユニットのいずれかに搭載されている場合には、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、画像情報記憶部の画像情報を損傷させることがない。なお、画像表示手段が被対話体に設けられていてもよく、画像情報記憶部が被対話体に設けられていてもよい。
According to this, when the image display means is mounted on either the server computer or the movable unit, the expensive image display means can be used even when the interactee is dropped or submerged in a puddle. Will not damage. Further, when the image information storage unit is mounted on either the server computer or the movable unit, the image information stored in the image information storage unit can be obtained even when the object to be interacted is dropped or submerged in a puddle. Will not damage. Note that the image display means may be provided in the interactee, and the image information storage unit may be provided in the interactee.
請求項16に記載の発明では、請求項10乃至請求項13のいずれか1つに記載の音声対話システムにおいて、さらに所定の画像を表示する画像表示手段が被対話体および可動ユニットのいずれとも別体に設けられ、被対話体、サーバ用コンピュータ、可動ユニットの少なくとも1つに有線及び無線のいずれかで接続されており、
所定の画像情報が予め記憶された画像情報記憶部が、被対話体、サーバ用コンピュータ、可動ユニットのいずれかに搭載されており、
人が音声変換手段を介して所定の画像情報を要求した場合、人が音声変換手段を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体が自ら所定の画像を表示する場合のいずれかに、画像情報記憶部から所定の画像情報を読み出して、画像表示手段に表示することを特徴とする。
According to a sixteenth aspect of the present invention, in the voice interaction system according to any one of the tenth to thirteenth aspects, the image display means for displaying a predetermined image is separate from both the object to be interacted and the movable unit. Is connected to at least one of the interactee, the server computer, and the movable unit by either wired or wireless,
An image information storage unit in which predetermined image information is stored in advance is mounted on any of the interactee, the server computer, and the movable unit,
When a person requests predetermined image information through the voice conversion unit, or when a person permits the predetermined image information through the voice conversion unit, the interactee uses the predetermined image information to display the predetermined image information. In any case of displaying, predetermined image information is read from the image information storage unit and displayed on the image display means.
これによれば、所定の画像を表示する画像表示手段が被対話体および可動ユニットのいずれとも別体に設けられているので、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、画像情報記憶部の画像情報を損傷させることがない。 According to this, since the image display means for displaying a predetermined image is provided separately from both the interactee and the movable unit, even when the interactee is dropped or submerged in a puddle The image information in the image information storage unit is not damaged.
なお、請求項14、請求項15、請求項16のいずれか1つによれば、人が音声変換手段を介して所定の画像情報を要求した場合、人が音声変換手段を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体が自ら所定の画像を表示する場合のいずれかに、所定の画像情報を得ることができる高機能な音声対話システムを提供できる。また、人が音声変換手段を介して所定の画像情報を要求した場合、人が音声変換手段を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体が自ら所定の画像を表示する場合のいずれかに、所定の画像情報を画像情報記憶部から得て、画像表示手段に表示する高度なユーザインターフェースを実現することができる。
According to any one of
請求項17に記載の発明では、請求項14乃至請求項16のいずれか1つにおいて、画像情報記憶部がインターネットに接続自在に構成されており、
画像情報がインターネット上の所定の記憶場所からダウンロード自在であることを特徴とする。
According to a seventeenth aspect of the present invention, in any one of the fourteenth to sixteenth aspects, the image information storage unit is configured to be connectable to the Internet.
The image information can be downloaded from a predetermined storage location on the Internet.
これによれば、所定の画像情報をインターネット上からダウンロードできる高機能な音声対話システムを提供できる。また、所定の画像情報をインターネット上からダウンロードできるので、画像情報記憶部に記憶された所定の画像情報が損傷しても、直ぐに所定の画像情報を復旧することができる。 According to this, it is possible to provide a high-performance voice interaction system that can download predetermined image information from the Internet. Further, since the predetermined image information can be downloaded from the Internet, even if the predetermined image information stored in the image information storage unit is damaged, the predetermined image information can be restored immediately.
請求項18に記載の発明のように、請求項1乃至請求項9、請求項14のいずれか1つにおいて、人を含む所定の対象物を撮像自在な撮像手段が被対話体と一体および別体のいずれかに構成されており、
撮像手段により撮像された撮像データから所定の対象物を認識する画像認識手段が被対話体およびサーバ用コンピュータのいずれかに搭載されていてもよい。
As in the eighteenth aspect of the present invention, in any one of the first to ninth aspects and the fourteenth aspect, the imaging means capable of imaging a predetermined object including a person is integrated with and separated from the interactee. Composed of one of the bodies,
Image recognition means for recognizing a predetermined object from image data captured by the image pickup means may be mounted on either the interactee or the server computer.
これによれば、撮像手段により撮像された撮像データから所定の対象物を認識することができる。上記のように、撮像手段が被対話体と一体および別体のいずれかに構成されていてもよい。また、撮像手段を備えた高機能な音声対話システムを提供できる。 According to this, it is possible to recognize a predetermined object from the imaging data imaged by the imaging means. As described above, the imaging means may be configured either as an integral body or a separate body. In addition, it is possible to provide a high-functional voice interaction system including an imaging unit.
請求項19に記載の発明では、請求項10乃至請求項13、請求項15、請求項16のいずれか1つにおいて、人を含む所定の対象物を撮像自在な撮像手段が被対話体および可動ユニットのいずれかに設けられて、被対話体、サーバ用コンピュータ、可動ユニットの少なくとも1つに有線及び無線のいずれかで接続されており、
撮像手段により撮像された撮像データから所定の対象物を認識する画像認識手段が被対話体、サーバ用コンピュータ、可動ユニットの少なくとも1つに搭載されていることを特徴とする。
According to a nineteenth aspect of the present invention, in any one of the tenth to thirteenth, fifteenth, and sixteenth aspects, the imaging means capable of imaging a predetermined object including a person is an interactive body and a movable body. It is provided in any of the units and is connected to at least one of the interactee, the server computer, and the movable unit by either wired or wireless,
Image recognition means for recognizing a predetermined object from image data captured by the imaging means is mounted on at least one of the interactee, the server computer, and the movable unit.
これによれば、撮像手段により撮像された撮像データから人を含む所定の対象物を認識することができる。撮像手段が可動ユニットに設けられている場合には、被対話体を落下させた場合、あるいは水たまりに水没させた場合でも、高価な撮像手段を損傷させることがない。また、画像認識手段がサーバ用コンピュータ、可動ユニットに搭載されている場合には、高価な画像認識手段を損傷させることがない。なお、撮像手段が被対話体に設けられていてもよく、画像認識手段が被対話体に搭載されていてもよい。 According to this, it is possible to recognize a predetermined object including a person from the imaging data captured by the imaging unit. When the imaging unit is provided in the movable unit, the expensive imaging unit is not damaged even when the interactee is dropped or submerged in a puddle. Further, when the image recognition means is mounted on the server computer or the movable unit, the expensive image recognition means is not damaged. Note that the imaging means may be provided on the interactee, and the image recognition means may be mounted on the interactee.
請求項20に記載の発明では、請求項10乃至請求項13、請求項15、請求項16のいずれか1つにおいて、人を含む所定の対象物を撮像自在な撮像手段が被対話体および可動ユニットのいずれかとも別体に設けられて、被対話体、サーバ用コンピュータ、可動ユニットの少なくとも1つに有線及び無線のいずれかで接続されており、
撮像手段により撮像された撮像データから所定の対象物を認識する画像認識手段が被対話体、サーバ用コンピュータ、可動ユニットの少なくとも1つに搭載されていることを特徴とする。
According to a twentieth aspect of the present invention, in any one of the tenth to thirteenth, fifteenth, and sixteenth aspects, the imaging means capable of imaging a predetermined object including a person is an interactive body and a movable body. It is provided separately from any of the units, and is connected to at least one of the interactee, the server computer, and the movable unit by either wired or wireless,
Image recognition means for recognizing a predetermined object from image data captured by the imaging means is mounted on at least one of the interactee, the server computer, and the movable unit.
これによれば、撮像手段により撮像された撮像データから人を含む所定の対象物を認識することができる。上記のように、撮像手段が被対話体と一体および別体のいずれかに構成されていてもよい。また、撮像手段を備えた高機能な音声対話システムを提供できる。 According to this, it is possible to recognize a predetermined object including a person from the imaging data captured by the imaging unit. As described above, the imaging means may be configured either as an integral body or a separate body. In addition, it is possible to provide a high-functional voice interaction system including an imaging unit.
請求項21に記載の発明では、請求項7乃至請求項20のいずれか1つにおいて、人と対話を行う場合、所定の説明を行う場合の少なくとも1つにおいて、可動部が所定のコミュニケーション動作をするように、コントローラが駆動部に指令信号を出力することを特徴とする。 According to a twenty-first aspect of the present invention, in any one of the seventh to twentieth aspects, the movable portion performs a predetermined communication operation in at least one of a case where a dialogue is performed with a person and a predetermined explanation is given. As described above, the controller outputs a command signal to the drive unit.
これによれば、可動部が設けられていない音声対話システムに比べて、ミュニケーション動作をして、臨場感を持って発音する高度な音声対話システムを提供できる。また、動部が設けられていない音声対話システムに比べて、ミュニケーション動作をして、臨場感を持って発音する高度なユーザインターフェースを実現することができる。 Accordingly, it is possible to provide an advanced voice dialogue system that performs a communication operation and produces a realistic sensation as compared to a voice dialogue system in which no movable part is provided. In addition, it is possible to realize an advanced user interface that performs a communication operation and produces a realistic sensation as compared to a voice dialogue system that does not include a moving part.
請求項22に記載の発明では、請求項10乃至請求項13、請求項請求項15のいずれか1つにおいて、可動部が所定の装置を操作する位置に配置されており、
人の音声が所定の装置を操作する命令である場合、人の音声が所定の装置を操作する許可である場合、所定の操作入力手段により所定の装置を操作する場合、所定の装置を操作する自動実行プログラムが実行される場合に、所定の装置を操作するように、コントローラが駆動部に指令信号を出力することを特徴とする。
According to a twenty-second aspect of the present invention, in any one of the tenth to thirteenth and thirteenth and fifteenth aspects, the movable portion is disposed at a position for operating a predetermined device.
When a human voice is an instruction to operate a predetermined device, when a human voice is permission to operate a predetermined device, when operating a predetermined device by a predetermined operation input means, operate the predetermined device When the automatic execution program is executed, the controller outputs a command signal to the drive unit so as to operate a predetermined device.
これによれば、コントローラが駆動部に指令信号を出力して、可動部が所定の装置を操作する高度な音声対話システムを提供できる。 According to this, it is possible to provide an advanced spoken dialogue system in which the controller outputs a command signal to the drive unit and the movable unit operates a predetermined device.
請求項23に記載の発明では、請求項18乃至請求項20のいずれか1つにおいて、撮像手段が、人を含む所定の対象物を撮像し、画像認識手段が所定の対象物を認識した結果に基づいて、人と所定のコミュニケーション動作をするように、コントローラが駆動部に指令信号を出力することを特徴とする。 According to a twenty-third aspect of the present invention, in any one of the eighteenth to twentieth aspects, the imaging unit images a predetermined object including a person, and the image recognition unit recognizes the predetermined object. Based on the above, the controller outputs a command signal to the drive unit so as to perform a predetermined communication operation with a person.
これによれば、人を含む所定の対象物を撮像し、画像認識手段が所定の対象物を認識した結果に基づいてコミュニケーション動作をし、臨場感を持って発音する高度な音声対話システムを提供できる。また、人を含む所定の対象物を撮像し、画像認識手段が所定の対象物を認識した結果に基づいてコミュニケーション動作をし、臨場感を持って発音する高度なユーザインターフェースを実現することができる。 According to this, an advanced voice dialogue system that captures images of a predetermined object including a person, communicates based on the result of the image recognition means recognizing the predetermined object, and pronounces with a sense of reality is provided. it can. Further, it is possible to realize an advanced user interface that captures an image of a predetermined object including a person, performs a communication operation based on a result of the image recognition unit recognizing the predetermined object, and pronounces with a sense of presence. .
請求項24に記載の発明では、請求項18乃至請求項20のいずれか1つにおいて、撮像手段が、人を含む所定の対象物を撮像し、画像認識手段が所定の対象物を認識した結果に基づいて、複数の発音データから少なくとも1つを選択し、発音手段を介して人に対して発音することを特徴とする。 According to a twenty-fourth aspect of the present invention, in any one of the eighteenth to twentieth aspects, the imaging unit images a predetermined object including a person, and the image recognition unit recognizes the predetermined object. Based on the above, at least one of a plurality of pronunciation data is selected and pronounced with respect to a person via a pronunciation means.
これによれば、撮像手段、画像認識手段により人を含む所定の対象物を認識して、人と音声対話をする高度な音声対話システムを提供できる。また、画像認識手段により人を含む所定の対象物を認識して、人と音声対話をする高度なユーザインターフェースを実現することができる。 According to this, it is possible to provide an advanced speech dialogue system that recognizes a predetermined object including a person by the imaging means and the image recognition means and performs a voice dialogue with the person. In addition, it is possible to realize a high-level user interface for recognizing a predetermined object including a person by the image recognizing means and having a voice conversation with the person.
請求項25に記載の発明では、請求項18乃至請求項20のいずれか1つにおいて、 撮像手段が、所定の装置の操作手段を撮像し、
人の音声が所定の装置を操作する命令である場合、人の音声が所定の装置を操作する許可である場合、所定の操作入力手段により所定の装置を操作する場合、所定の装置を操作する自動実行プログラムが実行される場合に、画像認識手段が操作手段の位置を認識した結果に基づいて、可動部及び被対話体が、手段の操作位置に可動し、所定の装置を操作するように、コントローラが駆動部に指令信号を出力することを特徴とする。
According to a twenty-fifth aspect of the present invention, in any one of the eighteenth to twentieth aspects, the imaging unit images an operation unit of a predetermined device,
When a human voice is an instruction to operate a predetermined device, when a human voice is permission to operate a predetermined device, when operating a predetermined device by a predetermined operation input means, operate the predetermined device When the automatic execution program is executed, based on the result of the image recognizing means recognizing the position of the operating means, the movable part and the object to be interacted move to the operating position of the means and operate a predetermined device. The controller outputs a command signal to the drive unit.
これによれば、可動部及び被対話体が、手段の操作位置に可動し、所定の装置を操作する高度な音声対話システムを提供できる。また、人の音声が所定の装置を操作する命令である場合、人の音声が所定の装置を操作する許可である場合、所定の操作入力手段により所定の装置を操作する場合に、可動部及び被対話体が、手段の操作位置に可動し、所定の装置を操作する高度なユーザインターフェースを実現することができる。 According to this, it is possible to provide an advanced voice dialogue system in which the movable part and the object to be interacted move to the operation position of the means and operate a predetermined device. Further, when the human voice is an instruction to operate the predetermined device, the human voice is permitted to operate the predetermined device, or the predetermined device is operated by the predetermined operation input means, the movable portion and It is possible to realize an advanced user interface in which the interactee moves to the operation position of the means and operates a predetermined device.
請求項26に記載の発明では、請求項18乃至請求項20のいずれか1つにおいて、撮像手段が、テーブルゲームの進行状況を撮像し、画像認識手段が、テーブルゲームの進行状況を画像認識するように構成されており、
画像認識手段により認識された進行状況から可動部の次の動作を決定する動作決定手段を備えており、
可動部が、動作決定手段により決定された次の動作を実行するように、コントローラが駆動部に指令信号を出力することを特徴とする。
According to a twenty-sixth aspect of the present invention, in any one of the eighteenth to twentieth aspects, the imaging unit images the progress of the table game, and the image recognition unit recognizes the progress of the table game. Is configured as
An operation determining means for determining the next operation of the movable part from the progress status recognized by the image recognition means;
The controller outputs a command signal to the drive unit so that the movable unit executes the next operation determined by the operation determination unit.
これによれば、撮像手段、画像認識手段によりテーブルゲームの進行状況を撮像、画像認識し、動作決定手段により可動部の次の動作を決定し、可動部が、動作決定手段により決定された次の動作を実行する高度な音声対話システムを提供できる。 According to this, the progress state of the table game is imaged and recognized by the imaging means and the image recognition means, the next action of the movable part is determined by the action determining means, and the next moving part determined by the action determining means is determined. It is possible to provide an advanced spoken dialogue system that executes the operations of
請求項27に記載の発明では、請求項18乃至請求項20のいずれか1つにおいて、コントローラから駆動部に指令信号を出力して可動部を可動させ、人を含む所定の対象物を探し出すことを特徴とする。 According to a twenty-seventh aspect of the present invention, in any one of the eighteenth to twentieth aspects, the controller outputs a command signal to the driving unit to move the movable unit to search for a predetermined object including a person. It is characterized by.
これによれば、所定の対象物を探し出す高度な音声対話システムを提供できる。 According to this, it is possible to provide an advanced voice interaction system that searches for a predetermined object.
請求項28に記載の発明では、請求項18乃至請求項20のいずれか1つにおいて、画像認識手段により認識された所定の対象物を撮像手段が追跡する追跡プログラムが被対話体およびサーバ用コンピュータのいずれかに搭載されており、
撮像手段が人を含む所定の対象物を追跡するように、コントローラから駆動部に指令信号を出力し、可動部を可動させることを特徴とする。
According to a twenty-eighth aspect of the present invention, in any one of the eighteenth to twentieth aspects, the tracking program in which the imaging unit tracks a predetermined object recognized by the image recognition unit is an interactive object and a server computer. Is mounted on either
A command signal is output from the controller to the drive unit so that the imaging unit tracks a predetermined object including a person, and the movable unit is moved.
これによれば、撮像手段が人を含む所定の対象物を追跡するように可動部を可動できるので、人を含む所定の対象物が移動しても、人を含む所定の対象物を追跡して認識をする高度な音声対話システムを提供できる。 According to this, since the movable unit can be moved so that the imaging unit tracks a predetermined object including a person, even if the predetermined object including the person moves, the predetermined object including the person is tracked. It is possible to provide an advanced spoken dialogue system that recognizes
請求項29に記載の発明では、請求項1乃至請求項28のいずれか1つの音声対話システムにおいて、さらに作動信号によって作動する作動手段を具えた作動体の作動手段に、作動信号を出力する作動信号出力手段が被対話体およびサーバ用コンピュータの少なくとも1つに搭載されており、
作動手段と作動信号出力手段との間が無線および有線のいずれか1つにより接続されていることを特徴とする。
According to a twenty-ninth aspect of the present invention, in the voice interaction system according to any one of the first to twenty-eighth aspects, an operation for outputting an operation signal to an operation means of an operating body further including an operation means operated by an operation signal A signal output means is mounted on at least one of the interactee and the server computer;
The actuating means and the actuating signal output means are connected by one of wireless and wired.
これによれば、可動ユニットを用いずに、作動信号出力手段から出力された作動信号により、直接、作動体の作動手段を作動させる高度な音声対話システムを提供できる。 According to this, it is possible to provide an advanced speech dialogue system that directly operates the operating means of the operating body by the operating signal output from the operating signal output means without using the movable unit.
請求項30に記載の発明では、請求項1乃至請求項30のいずれか1つにおいて、被対話体が携帯電話で構成されていることを特徴とする。 According to a thirty-third aspect of the present invention, in any one of the first to thirty-first aspects, the interactee is configured by a mobile phone.
これによれば、人と、携帯電話とが音声対話を行う高度な音声対話システムを提供できる。また、上述した請求項1乃至請求項30のいずれか1つの手段の後に説明した作用、効果の「被対話体」を「携帯電話」に置き換えた作用、効果を得ることができる。 According to this, it is possible to provide an advanced voice interaction system in which a person and a mobile phone have a voice conversation. In addition, it is possible to obtain the operation and effect obtained by replacing the “subject to be interacted” of the operation and effect described after any one of the above-described means of claims 1 to 30 with “mobile phone”.
請求項31に記載の発明では、請求項1乃至請求項30のいずれか1つにおいて、被対話体がコンピュータで構成されていることを特徴とする。 According to a thirty-first aspect of the present invention, in any one of the first to thirty-first aspects, the interactee is constituted by a computer.
これによれば、人と、コンピュータとが音声対話を行う高度な音声対話システムを提供できる。また、上述した請求項1乃至請求項30のいずれか1つの手段の後に説明した作用、効果の「被対話体」を「コンピュータ」に置き換えた作用、効果を得ることができる。 According to this, it is possible to provide an advanced voice dialogue system in which a person and a computer perform voice dialogue. In addition, it is possible to obtain the operation and effect obtained by replacing the “interacted object” of the operation and effect described after any one of the above-described means by the “computer”.
請求項32に記載の発明では、請求項1乃至請求項30のいずれか1つにおいて、被対話体がゲーム機で構成されていることを特徴とする。 According to a thirty-second aspect of the present invention, in any one of the first to thirtieth aspects, the interactee is configured by a game machine.
これによれば、人と、ゲーム機とが音声対話を行う高度な音声対話システムを提供できる。また、上述した請求項1乃至請求項30のいずれか1つの手段の後に説明した作用、効果の「被対話体」を「ゲーム機」に置き換えた作用、効果を得ることができる。 According to this, it is possible to provide an advanced voice dialogue system in which a person and a game machine perform voice dialogue. In addition, it is possible to obtain an operation and an effect obtained by replacing the “interacted object” of the operation and effect described after any one of the above-described means by a “game machine”.
請求項33に記載の発明では、請求項1乃至請求項30のいずれか1つにおいて、被対話体がカメラで構成されていることを特徴とする。 According to a thirty-third aspect of the present invention, in any one of the first to thirty-third aspects, the object to be interacted is configured by a camera.
これによれば、人と、カメラとが音声対話を行う高度な音声対話システムを提供できる。また、上述した請求項1乃至請求項30のいずれか1つの手段の後に説明した作用、効果の「被対話体」を「カメラ」に置き換えた作用、効果を得ることができる。 According to this, it is possible to provide an advanced voice interaction system in which a person and a camera have a voice conversation. In addition, it is possible to obtain an operation and an effect obtained by replacing the “interactive body” of the operation and effect described after any one of the above-described means of claims 1 to 30 with a “camera”.
請求項34に記載の発明では、請求項1乃至請求項30のいずれか1つにおいて、被対話体がロボットの機体で構成されていることを特徴とする。 According to a thirty-fourth aspect of the present invention, in any one of the first to thirty-first aspects, the interactee is configured by a robot body.
これによれば、人と、ロボットの機体とが音声対話を行う高度な音声対話システムを提供できる。また、上述した請求項1乃至請求項30のいずれか1つの手段の後に説明した作用、効果の「被対話体」を「ロボットの機体」に置き換えた作用、効果を得ることができる。 According to this, it is possible to provide an advanced voice dialogue system in which a person and a robot body perform voice dialogue. In addition, it is possible to obtain the operation and effect obtained by replacing the “interacted body” of the operation and effect described after any one of the above-described means by the “robot body”.
請求項35に記載の発明では、請求項1乃至請求項30のいずれか1つにおいて、被対話体が人形、ぬいぐるみ、玩具のいずれか1つで構成されていることを特徴とする。 According to a thirty-fifth aspect of the present invention, in any one of the first to thirty-third aspects, the object to be interacted is formed of any one of a doll, a stuffed toy, and a toy.
これによれば、人と、人形、ぬいぐるみ、玩具のいずれか1つとが音声対話を行う高度な音声対話システムを提供できる。また、上述した請求項1乃至請求項30のいずれか1つの手段の後に説明した作用、効果の「被対話体」を「人形」、「ぬいぐるみ」、「玩具」のいずれかに置き換えた効果を得ることができる。また、被対話体が人形、ぬいぐるみ、玩具のいずれか1つで構成されているので、親しみがわきやすい。 According to this, it is possible to provide an advanced voice dialogue system in which a person and any one of a doll, a stuffed animal, and a toy perform voice dialogue. Further, an effect obtained by replacing the “interactive body” of the action and effect described after any one of the means of claims 1 to 30 with any of “doll”, “stuffed animal”, and “toy”. Obtainable. In addition, since the object to be interacted with is composed of any one of a doll, a stuffed animal, and a toy, it is easy to get familiar.
(第1実施形態)
最初に、以下の説明で用いる用語について説明する。人の音声とは、人が発する音である。発音とは、音声対話システムから人に発する音である。
(First embodiment)
First, terms used in the following description will be described. A person's voice is a sound emitted by a person. Pronunciation is a sound emitted from a spoken dialogue system to a person.
以下具体的に説明する。図1は音声対話システムの外観図を、図2は音声対話システムのブロック図を、図3は可動ユニットの正面断面図を示す。図1に示すように、第1実施形態における音声対話システム100は、被対話体11、サーバ13、可動ユニット15を備えている。サーバ13は、本発明のサーバ用コンピュータを構成する。
This will be specifically described below. FIG. 1 is an external view of the voice dialogue system, FIG. 2 is a block diagram of the voice dialogue system, and FIG. 3 is a front sectional view of the movable unit. As shown in FIG. 1, the
被対話体11は人から見た場合の対話相手を想定したもので、図2に示すように、駆動部17、上腕用モータ19、下腕用モータ21、ハンド用モータ23、走行用モータ25、旋回用モータ27、上腕部29、下腕部31、ハンド33、走行部35、旋回部37、マイク39、音声出力ボード41、スピーカ43、CCDカメラ45、指令信号受信復調手段47、音声信号変調送信手段49、発音信号受信復調手段51、撮像信号変調送信手段53、図示しない小規模な制御装置、図示しない電源を備えている。
The person to be interacted 11 is assumed to be a conversation partner when viewed from a person, and as shown in FIG. 2, the
駆動部17は、後述するコントローラ59の指令信号に基づいて、コントローラ59の指令信号通りに、上腕用モータ19、下腕用モータ21、ハンド用モータ23、走行用モータ25、旋回用モータ27を駆動する。
Based on a command signal from the
上腕用モータ19、下腕用モータ21、ハンド用モータ23、走行用モータ25、旋回用モータ27は、それぞれ、上腕部29、下腕部31、ハンド33、走行部35、旋回部37を可動する。
上腕部29、下腕部31、ハンド33、走行部35、旋回部37は、それぞれ、上腕用モータ19、下腕用モータ21、ハンド用モータ23、走行用モータ25、旋回用モータ27の図示しない駆動軸に取り付けられており、上記駆動軸を駆動することで可動することができる。上記上腕部29、下腕部31、ハンド33、走行部35、旋回部37は、人と対話を行う場合、所定の説明を行う場合の少なくとも1つにおいて、所定のコミュニケーション動作(身振り、手振り)をすることができる。上記コミュニケーション動作は、コントローラ59が駆動部17に、所定のコミュニケーション動作をする指令信号を出力することで行われる。所定のコミュニケーション動作は、後述する動作決定部73で決定される。なお、上腕部29、下腕部31、ハンド33、走行部35、旋回部37を合わせて可動部と称するものとする。上記上腕部29、下腕部31、ハンド33、走行部35、旋回部37は、本発明の可動部を構成する。
The
また、上腕部29、下腕部31、ハンド33、走行部35、旋回部37は、協調して、所定の装置200を操作することがきる。上記所定の装置の操作は、コントローラ59が駆動部17に、所定の装置200の操作をする指令信号を出力することで行われる。その際、後述するCCDカメラ45が所定の装置200の操作手段200aを撮像し、画像認識手段で画像認識を行い、さらに、所定の装置200の操作をするプログラムに基づいてコントローラ59が駆動部17に、所定の装置200の操作をする指令信号を出力する。なお、CCDカメラ45、画像認識手段を用いずに操作が可能である場合には、上記CCDカメラ45、画像認識手段を用いずともよい。
Moreover, the
マイク39は、人の音声を音声信号に変換して出力する。上記マイクは、本発明の音声変換手段を構成する。
The
音声出力ボード41は、発音信号受信復調手段51で受信、復調された発音信号を所定の電圧に変換して出力する。
The
スピーカ43は、音声出力ボード41から出力された電圧を音に変換して発音する。上記スピーカ43は、本発明の発音手段を構成する。
The
CCDカメラ45は、被対話体11の周りを撮像するもので、CCDイメージセンサ45a、信号処理部45bから構成されている。上記CCDイメージセンサ45a、信号処理部45bは、旋回部37に搭載されている。そして、上記旋回用モータ27が駆動することで、旋回部37が旋回を行い、被対話体11の周りを撮像する。なお、第1実施形態では、信号処理部45bは被対話体11に搭載されているが、サーバ13に搭載されていてもよい。上記CCDイメージセンサ45aは本発明の撮像手段を構成する。
The
CCDイメージセンサ45aは、人を含む所定の対象物から発した光をレンズなどの光学系によって撮像素子の受光平面に結合させ、その像の光による明暗を電荷の量に光電変換し、それを順次読み出して電気信号に変換するものであって、被対話体11の周囲を撮像し、電気信号に変換している。
The
また、信号処理部45bは、CCDイメージセンサ45aによって変換された電気信号を所定の撮像信号に処理する。上記信号処理部45bで認識された認識信号は、撮像信号変調送信手段53により、電波、光波、超音波のいずれかに変調され、サーバ13に設けられた認識信号受信復調手段67により、所定の認識信号に復調される。そして、サーバ13の画像認識手段に送信される。
The
上記画像認識手段では、被対話体11の周囲を撮像した撮像信号から人を含む所定の対象物の特徴点を抽出し、認識を行っている。CPUボード57のCPUは上記画像認識手段で認識された結果に基づいて、対話処理部71、動作決定部73を制御する。なお、CCDイメージセンサ45aで撮像され、信号処理部45bで処理された画像は、後述する画像モニタ79aにより表示することができる。
In the image recognition means, feature points of a predetermined object including a person are extracted from an image pickup signal obtained by picking up an image around the
なお、信号処理部45bは、サーバ13側に設けてもよく、その場合は、CCDイメージセンサ45aに撮像された撮像データを撮像信号変調送信手段53により、電波、光波、超音波のいずれかに変調し、サーバ13に設けられた撮像信号受信復調手段67により、所定の撮像データに復調して信号処理部45bに送信するようにしてもよい。
The
指令信号受信復調手段47は、サーバ13に搭載された指令信号変調送信手段61から送信された電波、光波、超音波のいずれかを受信し、所定の指令信号に復調する。
The command signal receiving / demodulating means 47 receives any one of radio waves, light waves and ultrasonic waves transmitted from the command signal modulation / transmitting means 61 mounted on the
音声信号変調送信手段49は、マイク39により変換された音声信号を電波、光波、超音波のいずれかに変調してサーバ13に搭載された音声信号受信復調手段63に送信する。
The audio signal modulation / transmission means 49 modulates the audio signal converted by the
発音信号受信復調手段51は、サーバ13に搭載された発音信号変調送信手段65から送信された電波、光波、超音波のいずれかを受信し、所定の発音信号に復調する。
The sound signal receiving / demodulating means 51 receives any one of radio waves, light waves, and ultrasonic waves transmitted from the sound signal modulating / transmitting means 65 mounted on the
次に、サーバ13について説明する。上記サーバ13は、音声認識ボード55、CPUボード57、コントローラ59、指令信号変調送信手段61、音声信号受信復調手段63、発音信号変調送信手段65、撮像信号受信復調手段67、画像信号変調送信手段69が搭載されており、図示しない電源から電気が供給されている。
Next, the
音声認識ボード55は、図2に示すように、音響分析部を備えており、マイク39から入力された相手の音声を分析し、音響的特徴を抽出している。そして、音声認識エンジンで上記音響分析部で抽出された音響的特徴と、音素を単位とした音声特徴量パターンの分布の統計モデルである音響モデルとの比較照合を行うことで音声を認識し、その結果をCPUボード57の対話処理部71に出力している。なお、第1実施形態では、音響モデルに加えて、単語間の接続関係を規定する言語モデルを備えており、連続した単語や、接頭語、接続詞を含めた文章を認識することができる。上記音声認識ボード55は、本発明の音声認識手段を構成する。
As shown in FIG. 2, the
CPUボード57には、CPUの他にRAMおよびROMからなるメモリが搭載されており、上記メモリに対話処理プログラム、動作決定プログラム、発音情報、画像情報が記憶されている。なお、以下の説明では、対話処理プログラムおよび上記対話処理プログラムが記憶される所定のメモリ領域を対話処理部71、動作決定プログラムおよび上記動作決定プログラムが記憶される所定のメモリ領域を動作決定部73、発音情報およびを発音情報が記憶される所定のメモリ領域を発音情報記憶部75、画像情報およびを画像情報が記憶される所定のメモリ領域を画像情報記憶部77と称するものとする。
In addition to the CPU, the
コントローラ59は、上述した上腕部29、下腕部31、ハンド33、走行部35、旋回部37が動作決定部73によって決定された動作となるように、駆動部17に動作の指令信号を出す。
The
指令信号変調送信手段61は、コントローラ59から送信された動作信号を、電波、光波、超音波のいずれかに変調し、指令信号受信復調手段47に送信をする。
The command signal modulation / transmission means 61 modulates the operation signal transmitted from the
音声信号受信復調手段63は、音声信号変調送信手段49によって電波、光波、超音波のいずれかに変調された発音信号を受信し、所定の発音信号に復調する。 The sound signal receiving / demodulating means 63 receives the sound signal modulated by the sound signal modulation / transmitting means 49 into any one of radio waves, light waves, and ultrasonic waves, and demodulates it into a predetermined sound signal.
発音信号変調送信手段65は、発音信号受信復調手段51よって電波、光波、超音波のいずれかに変調された音声信号を受信し、所定の音声信号に復調する。 The sound signal modulation transmitting means 65 receives the sound signal modulated by the sound signal receiving / demodulating means 51 into any one of radio waves, light waves, and ultrasonic waves, and demodulates it into a predetermined sound signal.
画像信号変調送信手段69は、CCDカメラ45の信号処理部45bから出力された画像信号を電波、光波、超音波のいずれかに変調し、画像情報受信復調手段81に送信する。
The image signal modulation / transmission means 69 modulates the image signal output from the
対話処理部71は、音声認識ボード55により認識された音声に基づいて、相手に対して応答する音声を決定する。上記対話処理部71で決定された音声は、発音信号変調送信手段65、発音信号受信復調手段51を経由し、音声出力ボード41で所定の電圧に変換され、スピーカ43で発音される。なお、上記対話処理部71は音声対話システム100自らが発音する機能も有している。また、対話処理部71では、上記CCDカメラ45で人を認識した際、対話の際、あるいは被対話体11自ら発音する際に、動作を決定する。上記対話処理部71は、本発明の対話制御手段を構成する。
The
また、CPUボード57は、所定の音声情報を記憶する発音情報記憶部75を備えており、人がマイク39を介して所定の発音情報を要求した場合、人がマイク39を介して所定の発音情報を許可した場合、所定の発音情報を用いて被対話体11が自ら発音する場合のいずれかに、発音情報記憶部75から所定の発音情報を読み出して、スピーカ43から発音する。
The
また、上記被対話体11および上記サーバ13とは別体に、画像表示装置79が設けられている。画像表示装置79は、画像を表示する画像モニタ79aと、画像信号変調送信手段69から送信された電波、光波、超音波のいずれかを受信して所定の画像情報に復調する画像情報受信復調手段81とが設けられている。上記画像モニタ79aは、本発明の画像表示手段を構成する。
Further, an
上記発音情報とは、発音により人に伝達する情報であって、音声の他に、音楽、音を含む。また、画像情報とは、人に対して表示する情報であって、静止画像、動画像、文字、光のうち、少なくとも1つで構成される。 The pronunciation information is information transmitted to a person by pronunciation, and includes music and sound in addition to voice. The image information is information displayed to a person, and is configured by at least one of a still image, a moving image, characters, and light.
なお、発音情報記憶部75、画像情報記憶部77は、CPUボード57の外側に配置してもよく、被対話体11に配置してもよい。
Note that the pronunciation
また、画像モニタ79aには、人の眉毛、目、口を真似て表情を表示するようにしてもよい。上記表情とは、例えば、普通の表情、笑った表情、泣いた表情、怒った表情等などで、対話処理部71で決定された対話内容に基づいて、図示しない表情決定部により表情を決定する。
The
次に、可動ユニット15について説明する。可動ユニット15は、被対話体11、サーバ13と別体に構成されており、駆動部83、ソレノイド85、プッシャ87、指令信号受信復調手段89を備えており、図示しない電源から電気が供給されている。
Next, the
駆動部83は、図2に示すように、指令信号受信復調手段89で受信復調された動作の指令信号を受信すると、図2に示すソレノイド85に通電し、プッシャ87を可動する。上記プッシャ87は、可動した際に所定の装置200の操作手段200aをオン/オフする位置に配置される。
As shown in FIG. 2, when receiving the command signal of the operation received and demodulated by the command signal receiving / demodulating means 89, the
なお、可動ユニット15は、上記構成に限るものではなく、種々の形態が考えられる。例えば、複数の可動部と、複数の可動部をそれぞれ可動するモータが搭載されていてもよく、上記複数の可動部、上記モータに加え、モータを駆動する駆動部が搭載されていてもよい。
The
ここで、音声対話システム100の対話動作について説明する。人が被対話体11に発声すると、周囲音とともに、その音声が被対話体11に搭載されたマイク39で音声信号に変換される。そして、変換された音声信号が、音声信号変調送信手段49、音声信号受信復調手段63を経由して音声認識ボード55に送信される。上記音声認識ボード55では、マイク39から入力された相手の音声を分析し、音響的特徴を抽出、音声認識エンジンで上記音響分析部で抽出された音響的特徴と、音素を単位とした音声特徴量パターンの分布の統計モデルである音響モデルとの比較照合を行うことで音声を認識し、その結果をCPUボード57に出力する。
Here, the dialogue operation of the
その際、被対話体11は、旋回用モータ27および上記旋回用モータ27に搭載されたCCDカメラ45が旋回して人を捜すように、コントローラ59が駆動部17に動作の指令信号を出力する。そして、CCDカメラ45が被対話体11の周囲を撮像し、CCDイメージセンサ45aによって変換された電気信号から人を含む所定の対象物の特徴点を抽出して認識を行う。そして、上記人が移動すると、人を追跡するように旋回用モータ27および上記旋回用モータ27に搭載されたCCDカメラ45が旋回する。
At that time, the
次に、対話処理部71は、音声認識ボード55により認識された音声に基づいて、相手に対して応答する音声を決定する。上記対話処理部71で決定された音声は、発音信号変調送信手段65、発音信号受信復調手段51を経由し、音声出力ボード41で所定の電圧に変換され、スピーカ43で発音される。その際、コミュニケーション動作をするように設定されている場合には、上記対話処理部71で決定された音声の内容に応じて、人に対してコミュニケーション動作をするように、コントローラ59が駆動部17に動作の指令信号を出力する。
Next, the
また、人が被対話体11に発声する内容が、人がマイク39を介して所定の発音情報を要求した場合、人がマイク39を介して所定の発音情報を許可した場合、所定の発音情報を用いて被対話体11が自ら発音する場合のいずれかには、発音情報記憶部75から所定の発音情報を読み出して、発音手段から発音する。
In addition, when a person utters the interacting
また、人が被対話体11に発声する内容が、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて画像モニタ73aに画像情報を表示する場合のいずれかには、画像情報記憶部77から所定の画像情報を読み出して、画像モニタ79aに表示する。
In addition, when the person utters the interacting
また、人が被対話体11に発声する内容が、人の音声が所定の装置200を操作する命令である場合、人の音声が所定の装置200を操作する許可である場合、所定の操作入力手段により所定の装置200を操作する場合、所定の装置200を操作する自動実行プログラムが実行される場合、CCDカメラ45が、所定の装置200の操作手段200aを撮像し、画像認識手段が操作手段200aの位置を認識する。そして、走行部35が操作手段200aを操作する位置に可動し、上腕部29、下腕部31、ハンド33、走行部35が所定の装置200を操作するように、コントローラ59が駆動部17に指令信号を出力する。
In addition, when the content of the person uttering the interacting
また、人と音声対話をする際に、画像モニタ79aに、人の眉毛、目、口を真似て表情を表示するよう設定されている場合には、対話処理部71で決定された対話内容に基づいて、図示しない表情決定部で表情を決定し、画像モニタ79a用に、普通の表情、笑った表情、泣いた表情、怒った表情等などを表示する。
Further, when a voice dialogue is performed with a person, if the
上記構成によれば、マイク39、スピーカ43を備えた被対話体11と、上記被対話体11と別体に構成され、音声認識ボード55、対話処理部71を備えたサーバ用コンピュータとの間が有線及び無線のいずれかで接続されて、人が被対話体11と音声対話を行うことができる。また、可動部の動作を司令する指令信号を、サーバ用コンピュータに備えられたコントローラから、被対話体に備えられた駆動部に出力し、この指令信号に基づいてモータを駆動することで、可動部を可動することができる。
According to the above configuration, between the interactee 11 provided with the
また、上記構成によれば、音声認識ボード55、対話処理部71がサーバ13に備えられるので、マイク39、スピーカ43、音声認識ボード55、対話処理部71のすべてが被対話体11に搭載される場合に比べると、被対話体11を小さく、軽くすることができ、被対話体11の持ち運びを容易にすることができる。
Further, according to the above configuration, since the
また、音声認識ボード55、対話処理部71がサーバ13に備えられるので、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、高価な音声認識ボード55、対話処理部71が故障することがない。
Further, since the
また、上記構成によれば、コントローラ59がサーバ13に備えられるので、各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17、コントローラ59のすべてが被対話体11に備えられる場合に比べると、被対話体11を小さく、軽くすることができ、被対話体11の持ち運びを容易にすることができる。
Further, according to the above configuration, since the
また、コントローラ59がサーバ13に備えられるので、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、高価なコントローラ59が故障することがない。
In addition, since the
また、上記構成によれば、発音情報記憶部75、画像情報記憶部77がサーバ13に備えられるので、発音情報記憶部75、画像情報記憶部77が被対話体11に備えられる場合に比べると、被対話体11を小さく、軽くすることができ、被対話体11の持ち運びを容易にすることができる。
Further, according to the above configuration, since the pronunciation
また、発音情報記憶部75、画像情報記憶部77がサーバ13に備えられるので、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、高価な発音情報記憶部75、画像情報記憶部77が故障することがない。
Further, since the pronunciation
また、上記構成によれば、画像表示装置79が、被対話体11およびサーバ13のいずれとも別体で構成されているので、画像表示装置79が被対話体11に備えられる場合に比べると、被対話体11を小さく、軽くすることができ、被対話体11の持ち運びを容易にすることができる。
Further, according to the above configuration, since the
また、発音情報記憶部75、画像情報記憶部77がサーバ13に備えられるので、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、高価な発音情報記憶部75、画像情報記憶部77が故障することがない。
Further, since the pronunciation
また、画像表示装置79が、被対話体11およびサーバ13のいずれとも別体で構成されているので、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、高価な画像表示装置79が故障することがない。
さらに、被対話体11とサーバ13とが無線で接続されているので、有線の長さに制約されることなく、被対話体11を移動することができる。
Further, since the
Furthermore, since the interactee 11 and the
また、上記構成によれば、人が被対話体11と単に音声対話するだけではなく、人が所定の発音情報を要求した場合、人がマイク39を介して所定の発音情報を許可した場合、所定の発音情報を用いて被対話体11が自ら発音する場合のいずれかに、所定の発音情報を得ることができる高機能な音声対話システムを提供することができる。また、人が所定の発音情報を要求した場合、所定の発音情報を用いて被対話体が自ら発音する場合に、所定の発音情報を読み出して、スピーカ43から発音する高度なユーザインターフェースを提供できる。さらに、発音情報記憶部がサーバ13に搭載されているので、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、発音情報記憶部75に記憶された発音情報を損傷させることがない。
In addition, according to the above configuration, when a person not only has a voice conversation with the person to be interacted 11 but also requests a predetermined pronunciation information, if a person permits the predetermined pronunciation information via the
また、上記構成によれば、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体が自ら所定の画像を表示する場合のいずれかに、所定の画像情報を得ることができる高機能な音声対話システムを提供できる。また、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体11が自ら所定の画像を表示する場合のいずれかに、所定の画像情報を画像情報記憶部から得て、画像モニタ79aに表示する高度なユーザインターフェースを実現することができる。
Further, according to the above configuration, when a person requests predetermined image information via the
なお、画像情報記憶部は、被対話体11に搭載されていてもよく、画像モニタ79aが被対話体11と一体に設けられていてもよい。
The image information storage unit may be mounted on the
また、上記構成によれば、CCDカメラ45aが人を含む所定の対象物を撮像し、画像認識手段が所定の対象物を認識した結果に基づいてコミュニケーション動作をし、臨場感を持って発音する高度な音声対話システムを提供できる。また、人を含む所定の対象物を撮像し、画像認識手段が所定の対象物を認識した結果に基づいてコミュニケーション動作をし、臨場感を持って発音する高度なユーザインターフェースを実現することができる。
Further, according to the above configuration, the
また、上記構成によれば、CCDイメージセンサ45a、画像認識手段により人を含む所定の対象物を認識して、人と音声対話をする高度な音声対話システムを提供できる。また、CCDイメージセンサ45a、画像認識手段により人を含む所定の対象物を認識して、人と音声対話をする高度なユーザインターフェースを実現することができる。
Further, according to the above configuration, it is possible to provide an advanced voice dialogue system that recognizes a predetermined object including a person by the
また、上記構成によれば、コントローラ59が駆動部に指令信号を出力して、可動ユニット15が所定の装置200を操作する高度な音声対話システムを提供できる。
Moreover, according to the said structure, the
また、上記構成によれば、人の音声が所定の装置200を操作する命令である場合、人の音声が所定の装置を操作する許可である場合、所定の操作入力手段により所定の装置を操作する場合に、各可動部29、31、33、35、37および被対話体11が、所定の装置200の操作位置に可動し、所定の装置200を操作する高度な音声対話システムを提供できる。また、人の音声が所定の装置を操作する命令である場合、人の音声が所定の装置を操作する許可である場合、所定の操作入力手段により所定の装置を操作する場合に、各可動部29、31、33、35、37および被対話体11が、所定の装置200の操作位置に可動し、所定の装置200を操作する高度なユーザインターフェースを実現することができる。
Further, according to the above configuration, when the human voice is an instruction to operate the
(第2実施形態)
第1実施形態では、音声対話システム100が、被対話体11、サーバ13、可動ユニット15が設けられたが、音声対話システム100が、被対話体11、サーバ13のみで構成されていてもよい。
(Second Embodiment)
In the first embodiment, the spoken
(第3実施形態)
第1実施形態では、被対話体11に各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17が備えられたが、被対話体11に各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17が備えられていなくともよい。また、音声対話システム100が、被対話体11、サーバ13のみで構成されていてもよい。また、画像表示装置79は、被対話体11と別体に構成されていてもよい。
(Third embodiment)
In the first embodiment, the interacting
上記構成によれば、被対話体11に、駆動部17、各モータ19、21、23、25、27、各可動部29、31、33、35、37、マイク39、音声出力ボード41、スピーカ43、CCDカメラ45、CPUボード57、コントローラ59、発音情報記憶部75、画像情報記憶部77、画像表示装置79のうち、マイク39、スピーカ43が備えられるようにした場合、図4、図5に示すように、被対話体11を飛躍的に小型化することができる。しかも、無線通信が可能であるので、例えば家庭内の限定された領域で使用するだけでなく、家庭を遠く離れた領域に、被対話体11のみ移動させて使用することができる。
According to the above configuration, the interacting
また、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、最悪、マイク39、スピーカ43のみが故障するのみで、損傷を最小限にすることができる。
Further, even when the
(第4実施形態)
第1実施形態では、被対話体11に走行部35が備えられたが、被対話体11に走行部35が備えられなくともよい。また、被対話体11に走行部35が備えられたが、走行部35の替わりに、歩行手段が備えられていてもよい。
(Fourth embodiment)
In the first embodiment, the traveling
(第5実施形態)
第1実施形態では、音声認識ボード55、対話処理部71の両方がサーバ13に搭載されたが、図6に示すように、音声認識ボード55が被対話体11に搭載され、対話処理部71がサーバ13に搭載されてもよい。
(Fifth embodiment)
In the first embodiment, both the
上記構成によれば、対話処理部71がサーバ13に備えられるので、被対話体11を落下させた場合に、あるいは水たまりに水没させた場合に、高価な対話処理部71が故障することがない。
According to the above configuration, since the
また、上記構成によれば、各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17、コントローラ59のすべてが被対話体11に備えられる場合に比べると、被対話体11を小さく、軽くすることができ、被対話体11の持ち運びを容易にすることができる。
Further, according to the above configuration, the
(第6実施形態)
第4実施形態では、音声認識ボード55が被対話体11に搭載され、対話処理部71がサーバ13に搭載されたが、対話処理部71が被対話体11に搭載され、音声認識ボード55がサーバ13に搭載されてもよい。
(Sixth embodiment)
In the fourth embodiment, the
上記構成によれば、音声認識ボード55がサーバ13に備えられるので、被対話体11を落下させた場合に、あるいは水たまりに水没させた場合に、高価な音声認識ボード55が故障することがない。
According to the above configuration, since the
(第7実施形態)
マイク39を被対話体11と別体に構成し、図示しないヘッドマイクに搭載するようにしてもよい。上記ヘッドマイクは、マイクを人の口元に配置する装置であり、人が被対話体11に近づかなくとも、音声をマイク39に入力することができる。
(Seventh embodiment)
The
上記構成によれば、人が被対話体11に近づかなくとも、音声をマイク39に入力することができ、これにより、音声の認識率を向上させることができる。一般に、音声認識ボード55で人の音声を認識する場合、周囲音、雑音等により、人の音声の認識率が低下することが知られている。このためマイク39を複数個配置する、あるいは音響部分析部の手前にノイズ除去フィルタを配置する、などして音声の認識率を向上させる方法が考えられている。第4実施形態は、上記の他に、音声の認識率を向上させるようにしたものである。
According to the above configuration, voice can be input to the
また、第3実施形態において、マイク39を被対話体11と別体に構成し、図示しないヘッドマイクに搭載するようにした場合、第3実施形態よりさらに被対話体11を小さく、軽くすることができ、被対話体11の持ち運びを容易にすることができる。また、ヘッドマイクを使用することにより、音声認識ボード55に音声信号が入力される際の雑音を小さくすることができる。
Further, in the third embodiment, when the
(第8実施形態)
第1実施形態では、発音情報記憶部75がサーバ13に備えられたが、発音情報記憶部75が被対話体11に備えられてもよい。また、第1実施形態では、画像情報記憶部77がサーバ13に備えられたが、画像情報記憶部77が被対話体11に備えられてもよい。
(Eighth embodiment)
In the first embodiment, the pronunciation
(第9実施形態)
上述した発音情報は、インターネット上の所定の記憶場所からダウンロードするようにしてもよい。
(Ninth embodiment)
The pronunciation information described above may be downloaded from a predetermined storage location on the Internet.
上記構成によれば、発音情報記憶部75がインターネットに接続自在に構成されており、所定の発音情報がインターネット上の所定の記憶場所からダウンロード自在であるので、所定の発音情報をインターネット上からダウンロードできる高機能な音声対話システムを提供できる。また、所定の発音情報をインターネット上からダウンロードできるので、発音情報記憶部75に記憶された所定の発音情報が損傷しても、直ぐに所定の発音情報を復旧することができる。
According to the above configuration, the pronunciation
(第10実施形態)
上述した画像情報は、インターネット上の所定の記憶場所からダウンロードするようにしてもよい。
(10th Embodiment)
The image information described above may be downloaded from a predetermined storage location on the Internet.
上記構成によれば、所定の画像情報をインターネット上からダウンロードできる高機能な音声対話システムを提供できる。また、所定の画像情報をインターネット上からダウンロードできるので、画像情報記憶部77に記憶された所定の画像情報が損傷しても、直ぐに所定の画像情報を復旧することができる。
According to the above configuration, it is possible to provide a highly functional voice interaction system that can download predetermined image information from the Internet. Further, since the predetermined image information can be downloaded from the Internet, even if the predetermined image information stored in the image
(第11実施形態)
第1実施形態では、被対話体11が、各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17を備えており、サーバ13がコントローラ59を備えていたが、被対話体11が、各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17、コントローラ59の全てを備えていてもよい。
(Eleventh embodiment)
In the first embodiment, the interacting
(第12実施形態)
第1実施形態では、被対話体11が、各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17を備えており、サーバ13がコントローラ59を備えていたが、被対話体11が、各可動部29、31、33、35、37、各モータ19、21、23、25、27を備えており、サーバ13が駆動部17、コントローラ59を備えていてもよい。
(Twelfth embodiment)
In the first embodiment, the interacting
上記構成によれば、可動部11の動作を司令する指令信号を、サーバ13に備えられたコントローラ59から駆動部17に出力し、この指令信号に基づいて、被対話体11に備えられた各モータ19、21、23、25、27を駆動することで、各可動部29、31、33、35、37を可動することができる。
According to the above configuration, the command signal for commanding the operation of the
駆動部17、コントローラ59がサーバ13に備えられるので、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、高価な駆動部17、コントローラ59が故障することがない。
Since the
また、各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17、コントローラ59のすべてが被対話体11に備えられる場合に比べると、被対話体11を小さく、軽くすることができ、被対話体11の持ち運びを容易にすることができる。
Compared with the case where each of the
(第13実施形態)
第1実施形態では、被対話体11に各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17が備えられ、サーバ13にコントローラ59が備えられたが、これに替わり、可動ユニット15が各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17、コントローラ59の全てを備えていてもよい。
(13th Embodiment)
In the first embodiment, the
上記構成によれば、可動ユニット15が被対話体11およびサーバ13とは別体に設けられ、被対話体と有線及び無線のいずれかで接続されて可動することができる。
According to the above configuration, the
各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17、コントローラ59が被対話体11と別体に設けられているので、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、高価な各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17、コントローラ59が故障することがない。
Since each
また、各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17、コントローラ59のすべてが被対話体11に備えられる場合に比べると、被対話体11を小さく、軽くすることができ、被対話体11の持ち運びを容易にすることができる。
Compared with the case where each of the
(第14実施形態)
第1実施形態では、被対話体11に各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17が備えられ、サーバ13にコントローラ59が備えられたが、これに替わり、可動ユニット15に各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17が備えられていてもよい。上記の場合、コントローラ59が、被対話体11およびサーバ13のいずれかに備えられていてもよい。
(14th Embodiment)
In the first embodiment, the
上記構成によれば、各可動部29、31、33、35、37の動作を司令する指令信号を、被対話体11およびサーバ13のいずれかに備えられたコントローラ59から駆動部に出力し、この指令信号に基づいて、可動ユニット15に備えられた各モータ19、21、23、25、27を駆動することで、各可動部29、31、33、35、37を可動することができる。
According to the above configuration, a command signal for commanding the operation of each of the
各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17が被対話体11と別体に備えられているので、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、高価な各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17が故障することがない。
Since each
また、各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17、コントローラ59のすべてが被対話体11に備えられる場合に比べると、被対話体11を小さく、軽くすることができ、被対話体11の持ち運びを容易にすることができる。
Compared with the case where each of the
(第15実施形態)
第1実施形態では、被対話体11に各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17が備えられ、サーバ13にコントローラ59が備えられたが、これに替わり、可動ユニット15が、各可動部29、31、33、35、37、各モータ19、21、23、25、27を備えており、駆動部17が、被対話体11およびサーバ13のいずれかに備えられており、コントローラ59が、被対話体11およびサーバ13のいずれかに備えられていてもよい。
(Fifteenth embodiment)
In the first embodiment, the
上記構成によれば、少なくとも各可動部29、31、33、35、37、各モータ19、21、23、25、27に備えられているので、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、高価な各可動部29、31、33、35、37、各モータ19、21、23、25、27が故障することがない。
According to the above configuration, since at least each of the
また、各可動部29、31、33、35、37、各モータ19、21、23、25、27、駆動部17、コントローラ59のすべてが被対話体11に備えられる場合に比べると、被対話体11を小さく、軽くすることができ、被対話体11の持ち運びを容易にすることができる。
Compared with the case where each of the
(第16実施形態)
被対話体11と可動ユニット15が取付自在に構成されていてもよい。
(Sixteenth embodiment)
The
これによれば、可動ユニット15を被対話体11に取り付けることができるので、被対話体11が可動ユニット15と別体に構成される場合と、被対話体11が可動ユニット15と一体に構成される場合の2つの構成を使い分けて使用することができる。
According to this, since the
(第17実施形態)
第1実施形態では、所定の画像を表示する画像モニタ79aがサーバ13に設けられたが、所定の画像を表示する画像モニタ79aが被対話体11と一体に設けられていてもよい。
(17th Embodiment)
In the first embodiment, the image monitor 79 a that displays a predetermined image is provided in the
(第18実施形態)
第1実施形態では、画像情報記憶部77がサーバ13に搭載されたが、画像情報記憶部77が被対話体11に搭載されてもよく、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体11が自ら所定の画像を表示する場合のいずれかに、画像情報記憶部77から所定の画像情報を読み出して、画像モニタ79aに表示するようにしてもよい。
(Eighteenth embodiment)
In the first embodiment, the image
上記構成によれば、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体が自ら所定の画像を表示する場合のいずれかに、所定の画像情報を得ることができる高機能な音声対話システムを提供できる。また、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体が自ら所定の画像を表示する場合のいずれかに、所定の画像情報を画像情報記憶部77から得て、画像モニタ79aに表示する高度なユーザインターフェースを実現することができる。
According to the above configuration, when a person requests predetermined image information via the
(第19実施形態)
第1実施形態では、画像モニタ79aが被対話体11、サーバ13、可動ユニット15のいずれとも別体に設けられたが、画像モニタ79aが被対話体11および可動ユニット15のいずれかに設けられて、被対話体11、サーバ13、可動ユニット15の少なくとも1つに有線及び無線のいずれかで接続され、所定の画像情報が予め記憶された画像情報記憶部77が、被対話体11、サーバ13、可動ユニット15のいずれかに搭載されており、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体11が自ら所定の画像を表示する場合のいずれかに、画像情報記憶部77から所定の画像情報を読み出して、画像モニタ79aに表示してもよい。
(Nineteenth embodiment)
In the first embodiment, the image monitor 79 a is provided separately from any of the
上記構成によれば、画像モニタ79aがサーバ13、可動ユニット15のいずれかに搭載されている場合には、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、高価な画像モニタ79aを損傷させることがない。また、画像情報記憶部77がサーバ13、可動ユニット15のいずれかに搭載されている場合には、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、画像情報記憶部77の画像情報を損傷させることがない。なお、画像モニタ79aが被対話体11に設けられていてもよく、画像情報記憶部77が被対話体11に設けられていてもよい。
According to the above configuration, when the
また、上記構成によれば、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体11が自ら所定の画像を表示する場合のいずれかに、所定の画像情報を得ることができる高機能な音声対話システムを提供できる。また、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体が自ら所定の画像を表示する場合のいずれかに、所定の画像情報を画像情報記憶部77から得て、画像モニタ79aに表示する高度なユーザインターフェースを実現することができる。
Further, according to the above configuration, when a person requests predetermined image information via the
(第18実施形態)
第1実施形態では、画像情報記憶部77が、サーバ13に搭載されていたが、被対話体11、可動ユニット15のいずれかに搭載され、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体11が自ら所定の画像を表示する場合のいずれかに、画像情報記憶部77から所定の画像情報を読み出して、画像モニタ79aに表示してもよい。
(Eighteenth embodiment)
In the first embodiment, the image
上記構成によれば、所定の画像を表示する画像モニタ79aが被対話体11および可動ユニット15のいずれとも別体に設けられているので、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、画像情報記憶部77の画像情報を損傷させることがない。
According to the above configuration, the
また、上記構成によれば、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体が自ら所定の画像を表示する場合のいずれかに、所定の画像情報を得ることができる高機能な音声対話システムを提供できる。また、人がマイク39を介して所定の画像情報を要求した場合、人がマイク39を介して所定の画像情報を許可した場合、所定の画像情報を用いて被対話体が自ら所定の画像を表示する場合のいずれかに、所定の画像情報を画像情報記憶部77から得て、画像モニタ79aに表示する高度なユーザインターフェースを実現することができる。
Further, according to the above configuration, when a person requests predetermined image information via the
(第19実施形態)
上述した画像情報記憶部77がインターネットに接続自在に構成されており、画像情報がインターネット上の所定の記憶場所からダウンロード自在であってもよい。
(Nineteenth embodiment)
The image
これによれば、所定の画像情報をインターネット上からダウンロードできる高機能な音声対話システムを提供できる。また、所定の画像情報をインターネット上からダウンロードできるので、画像情報記憶部に記憶された所定の画像情報が損傷しても、直ぐに所定の画像情報を復旧することができる。 According to this, it is possible to provide a high-performance voice interaction system that can download predetermined image information from the Internet. Further, since the predetermined image information can be downloaded from the Internet, even if the predetermined image information stored in the image information storage unit is damaged, the predetermined image information can be restored immediately.
(第20実施形態)
第1実施形態では、CCDイメージセンサ45aが被対話体11と一体に構成されていたが、CCDイメージセンサ45aが被対話体11と別体に構成され、CCDイメージセンサ45aにより撮像された撮像データから所定の対象物を認識する画像認識手段が被対話体11およびサーバ13のいずれかに搭載されていてもよい。
(20th embodiment)
In the first embodiment, the
これによれば、CCDイメージセンサ45aにより撮像された撮像データから所定の対象物を認識することができる。また、CCDイメージセンサ45aを備えた高機能な音声対話システムを提供できる。
According to this, it is possible to recognize a predetermined object from the imaging data captured by the
(第21実施形態)
人を含む所定の対象物を撮像自在なCCDカメラ45aが可動ユニット15に設けられていてもよい。
(21st Embodiment)
The
上記構成によれば、被対話体11を落下させた場合、あるいは水たまりに水没させた場合でも、高価なCCDカメラ45aを損傷させることがない。
(第22実施形態)
CCDカメラ45aにより撮像された撮像データから所定の対象物を認識する画像モニタ79aが被対話体11、可動ユニット15のいずれか1つに搭載されていてもよい。
According to the above configuration, the
(Twenty-second embodiment)
An
上記構成によれば、画像モニタ79aが可動ユニット15に搭載されている場合には、高価な画像モニタ79aを損傷させることがない。なお、上記のように、画像モニタ79aが被対話体11に搭載されていてもよい。
According to the above configuration, when the
(第23実施形態)
人を含む所定の対象物を撮像自在なCCDカメラ45aが被対話体11および可動ユニット15のいずれとも別体に設けられて、被対話体11、サーバ13、可動ユニット15の少なくとも1つに有線及び無線のいずれかで接続され、CCDカメラ45aにより撮像された撮像データから所定の対象物を認識する画像モニタ79aが被対話体11、サーバ13、可動ユニット15の少なくとも1つに搭載されていてもよい。
(23rd Embodiment)
A
(第24実施形態)
CCDカメラ45aが、テーブルゲームの進行状況を撮像し、画像モニタ79aが、テーブルゲームの進行状況を画像認識するように構成されており、画像認識手段により認識された進行状況から各可動部29、31、33、35、37の次の動作を決定する動作決定手段を備えており、各可動部29、31、33、35、37が、動作決定手段により決定された次の動作を実行するように、コントローラ59が駆動部に指令信号を出力してもよい。
(24th Embodiment)
The
上記構成によれば、CCDカメラ45a、画像モニタ79aによりテーブルゲームの進行状況を撮像、画像認識し、動作決定部73により各可動部29、31、33、35、37の次の動作を決定し、可動部が、動作決定部73により決定された次の動作を実行して、ゲームを進行する高度な音声対話システムを提供できる。
According to the above configuration, the progress status of the table game is picked up and recognized by the
(第25実施形態)
各可動部29、31、33、35、37のいずれかにCCDイメイジセンサ45aを搭載し、コントローラ59から駆動部17に指令信号を出力して各可動部29、31、33、35、37を可動させ、人を含む所定の対象物を探し出してもよい。
(25th Embodiment)
A
上記構成によれば、人を含む所定の対象物を探し出す高度な音声対話システムを提供できる。 According to the above configuration, it is possible to provide an advanced voice interactive system that searches for a predetermined object including a person.
(第26実施形態)
第1実施形態乃至第25実施形態のいずれか1つの音声対話システムにおいて、さらに作動信号によって作動する作動手段を具えた作動体の作動手段に、作動信号を出力する作動信号出力手段が被対話体11およびサーバ13の少なくとも1つに搭載されており、作動手段と作動信号出力手段との間が無線および有線のいずれか1つにより接続されていてもよい。
(26th Embodiment)
In the voice interaction system according to any one of the first embodiment to the twenty-fifth embodiment, the operation signal output means for outputting the operation signal is further provided to the operation means of the operation body including the operation means operated by the operation signal. 11 and the
上記構成によれば、可動ユニット15または各可動部29、31、33、35、37を用いずに、作動信号出力手段から出力された作動信号により、直接、作動体の作動手段を作動させる高度な音声対話システムを提供できる。
According to the above-described configuration, the operating unit of the operating body is directly operated by the operation signal output from the operation signal output unit without using the
(第27実施形態)
図7に示すように、上記被対話体11が携帯電話で構成されていてもよい。
(27th Embodiment)
As shown in FIG. 7, the
上記構成によれば、人と、携帯電話とが音声対話を行う高度な音声対話システムを提供できる。また、上述した第1実施形態乃至第25実施形態のいずれか1つで説明した作用、効果の「被対話体」を「携帯電話」に置き換えた作用、効果を得ることができる。なお、通話時に、相手側のサーバが音声応答を行うものはあるが、本発明の音声対話システムとは区別するものとする。
(第28実施形態)
According to the above configuration, it is possible to provide an advanced voice dialogue system in which a person and a mobile phone perform voice dialogue. In addition, it is possible to obtain the operation and effect obtained by replacing the “interacted object” of the operation and effect described in any one of the first to 25th embodiments with “mobile phone”. Note that there is a server that responds to a voice during a call, but it is distinguished from the voice dialogue system of the present invention.
(Twenty-eighth embodiment)
図8に示すように、上記被対話体11がコンピュータで構成されていてもよい。
As shown in FIG. 8, the
上記構成によれば、人と、コンピュータとが音声対話を行う高度な音声対話システムを提供できる。また、上述した第1実施形態乃至第25実施形態のいずれか1つで説明した作用、効果の「被対話体」を「コンピュータ」に置き換えた作用、効果を得ることができる。 According to the above configuration, it is possible to provide an advanced voice interaction system in which a person and a computer have a voice conversation. In addition, it is possible to obtain the operation and effect obtained by replacing the “interacted object” of the operation and effect described in any one of the first to 25th embodiments with “computer”.
(第29実施形態)
上記被対話体11がゲーム機で構成されていてもよい。
(Twenty-ninth embodiment)
The
上記構成によれば、人と、ゲーム機とが音声対話を行う高度な音声対話システムを提供できる。また、上述した第1実施形態乃至第25実施形態のいずれか1つで説明した作用、効果の「被対話体」を「ゲーム機」に置き換えた作用、効果を得ることができる。 According to the above configuration, it is possible to provide an advanced voice dialogue system in which a person and a game machine perform voice dialogue. In addition, it is possible to obtain the operation and effect obtained by replacing the “interacted body” of the operation and effect described in any one of the first to 25th embodiments described above with a “game machine”.
(第30実施形態)
上記被対話体11がカメラで構成されていてもよい。
(Thirty Embodiment)
The
上記構成によれば、人と、カメラとが音声対話を行う高度な音声対話システムを提供できる。また、上述した第1実施形態乃至第25実施形態のいずれか1つで説明した作用、効果の「被対話体」を「カメラ」に置き換えた作用、効果を得ることができる。 According to the above configuration, it is possible to provide an advanced voice dialogue system in which a person and a camera perform voice dialogue. In addition, it is possible to obtain the operation and effect obtained by replacing the “interactive body” of the operation and effect described in any one of the first to 25th embodiments described above with “camera”.
(第31実施形態)
上記被対話体11がロボットの機体で構成されていてもよい。
(Thirty-first embodiment)
The
上記構成によれば、人と、ロボットの機体とが音声対話を行う高度な音声対話システムを提供できる。また、上述した第1実施形態乃至第25実施形態のいずれか1つで説明した作用、効果の「被対話体」を「ロボットの機体」に置き換えた作用、効果を得ることができる。 According to the above configuration, it is possible to provide an advanced voice dialogue system in which a person and a robot body perform voice dialogue. In addition, it is possible to obtain the operation and effect obtained by replacing the “interacted body” of the operation and effect described in any one of the first to 25th embodiments with the “robot body”.
(第32実施形態)
被対話体11が人形、ぬいぐるみ、玩具のいずれか1つで構成されていてもよい。
(Thirty-second embodiment)
The
上記構成によれば、人と、人形、ぬいぐるみ、玩具のいずれか1つとが音声対話を行う高度な音声対話システムを提供できる。また、上述した請求項1乃至請求項30のいずれか1つの手段の後に説明した作用、効果の「被対話体」を「人形」、「ぬいぐるみ」、「玩具」のいずれかに置き換えた効果を得ることができる。さらに、被対話体11が人形、ぬいぐるみ、玩具のいずれか1つで構成されているので、親しみがわきやすい。 According to the above configuration, it is possible to provide an advanced voice dialogue system in which a person and any one of a doll, a stuffed animal, and a toy perform voice dialogue. Further, an effect obtained by replacing the “interactive body” of the action and effect described after any one of the means of claims 1 to 30 with any of “doll”, “stuffed animal”, and “toy”. Obtainable. Furthermore, since the person to be interacted 11 is composed of any one of a doll, a stuffed animal, and a toy, it is easy to get familiar.
(その他の実施形態)
上述した可動部の構成は、第1実施のものに限らない。例えば、所定の装置200の操作手段200aの操作方法に適宜適合するものであってもよく、所定のゲーム機を操作する操作方法に適宜適合するものであってもよい。また、1つ以上の可動部のそれぞれが、顔部、目部、口部、頭部、腕部、脚部、尻部のいずれかで構成されていてもよい。また、上述した可動部 は、上腕部29、下腕部31のみでもよく、旋回部37に替えて、所定の歩行装置であってもよい。
(Other embodiments)
The configuration of the movable part described above is not limited to that of the first embodiment. For example, it may be appropriately adapted to the operation method of the operation means 200a of the
また、発音情報記憶部75が可動ユニット15に備えられてもよい。また、画像情報記憶部77が可動ユニット15に備えられてもよい。
Further, the pronunciation
また、音声認識ボード55に替えて音声対話用プログラムを用いて音声対話の処理をしてもよい。
Further, instead of the
また、サーバ13がインターネット回線、電話回線、家庭用LANを含むローカルネットワーク回線に接続されていてもよい。また、被対話体11がインターネット回線、電話回線、家庭用LANを含むローカルネットワーク回線に接続されていてもよい。また、上記インターネット回線、電話回線、家庭用LANを含むローカルネットワーク回線に、被対話体11と、サーバ13とを中継するアクセスポイント、中継自在なコンピュータ、電話のいずれかが接続されており、上記被対話体11が上記アクセスポイント、中継自在なコンピュータ、電話のいずれかを中継点として上記サーバ13に接続されてもよい。
The
また、被対話体11およびサーバ13のいずれかに、被対話体11が発音する際の感情パラメータを記憶する感情パラメータ記憶部が備えられており、スピーカ43から発音する際にパラメータを参照し、顔の表情および口形状のうち、パラメータに応じた顔の表情および口形状を選択し、画像表示部に表示するようにしてもよい。上記構成によれば、人と対話を行う場合、所定の説明を行う場合、顔部、目部、口部、頭部、腕部、脚部、尻部のいずれかを可動させて、臨場感を持って発音する高度な音声対話システムを提供できる。また、顔部、目部、口部、頭部、腕部、脚部、尻部のいずれかを可動させて、臨場感を持って発音する高度なユーザインターフェースを実現することができる。なお、上述した音声認識ボード55、CPUボード57、画像認識手段等からなる制御回路の構成は種々あり、特許請求の範囲を満足するものであれば、これに限るものではない。
In addition, an emotion parameter storage unit that stores an emotion parameter when the
100…音声対話システム
200…所定の装置
200a…操作手段
11…被対話部
13…サーバ(サーバ用コンピュータ)
15…可動ユニット
16…スピーカ(音声出力手段、対話手段)
17…駆動部
19…上腕用モータ
21…下腕用モータ
23…ハンド用モータ
25…走行用モータ
27…旋回用モータ
29…上腕部(可動部)
31…下腕部(可動部)
33…ハンド(可動部)
35…走行部(可動部)
37…旋回部(可動部)
39…マイク
41…音声出力ボード(音声認識手段)
43…スピーカ
45…CCDカメラ
45a…CCDイメージセンサ(撮像手段)
45b…信号処理部
47…指令信号受診復調手段
49…音声信号変調送信手段
51…発音信号受診復調手段
53…撮像信号変調送信手段
55…音声認識ボード
57…CPUボード
59…コントローラ
61…指令信号変調送信手段
63…音声信号受診復調手段
65…発音信号変調送信手段
67…撮像信号受信復調段
69…画像信号変調送信手段
71…対話処理部(対話処理手段)
73…動作決定部
75…発音情報記憶部
77…画像情報記憶部
79…画像表示装置
79a…画像モニタ(画像表示手段)
81…画像情報受信復調手段
83…駆動部
85…ソレノイド
87…プッシャ
89…指令信号受信復調手段
DESCRIPTION OF
15 ... Moveable unit 16 ... Speaker (voice output means, dialogue means)
DESCRIPTION OF
31 ... Lower arm (movable part)
33 ... Hand (movable part)
35 ... traveling part (movable part)
37 ... Turning part (movable part)
39 ...
43 ...
45b ...
73 ...
81 ... Image information reception demodulating means 83 ... Driving
Claims (35)
前記被対話体とは別体に設けられて前記被対話体に有線及び無線のいずれかで接続されたサーバ用コンピュータと、
を備えており、
前記サーバ用コンピュータが、前記音声変換手段により変換された音声信号を処理して人の音声を認識する音声認識手段と、前記音声認識手段により認識された音声に対応する音声を決定し前記所定の発音信号を出力する対話制御手段とを備えていることを特徴とする音声対話システム。 A voice conversion means for converting a human voice into a voice signal, and a to-be-interactive body provided with a sound generation means for generating a sound by changing a predetermined pronunciation signal into vibration;
A server computer provided separately from the interactee and connected to the interactee either by wire or wirelessly;
With
The server computer determines the voice corresponding to the voice recognized by the voice recognition means by processing the voice signal converted by the voice conversion means and recognizing the voice of the person. A spoken dialogue system comprising dialogue control means for outputting a pronunciation signal.
前記被対話体とは別体に設けられて前記被対話体に有線及び無線のいずれかで接続されたサーバ用コンピュータと、
前記被対話体および前記サーバ用コンピュータとは別体に設けられて前記被対話体および前記サーバ用コンピュータのいずれかに有線及び無線のいずれかで接続されて人の音声を音声信号に変換する音声変換手段と、
を備えており、
前記サーバ用コンピュータが、前記音声変換手段により変換された音声信号を処理して人の音声を認識する音声認識手段と、前記音声認識手段により認識された音声に対応する音声を決定し前記所定の発音信号を出力する対話制御手段とを備えていることを特徴とする音声対話システム。 A to-be-interactive body provided with a sound generation means for changing a predetermined sound generation signal into a vibration;
A server computer provided separately from the interactee and connected to the interactee either by wire or wirelessly;
Audio that is provided separately from the interactee and the server computer, and is connected to either the interactee or the server computer either by wire or wirelessly and converts human speech into an audio signal Conversion means;
With
The server computer determines the voice corresponding to the voice recognized by the voice recognition means by processing the voice signal converted by the voice conversion means and recognizing the voice of the person. A spoken dialogue system comprising dialogue control means for outputting a pronunciation signal.
前記被対話体とは別体に設けられて前記被対話体に有線及び無線のいずれかで接続されたサーバ用コンピュータと、
を備えており、
前記音声変換手段により変換された音声信号を処理して人の言葉を認識する言葉認識手段、前記言葉認識手段により認識された言葉に対応する言葉を決定し前記所定の発音信号を出力する対話制御手段の両手段のうち、どちらか一方が前記被対話体に備えられており、他方が前記サーバ用コンピュータに備えられていることを特徴とする音声対話システム。 A voice conversion means for converting a human voice into a voice signal, and a to-be-interactive body provided with a sound generation means for generating a sound by changing a predetermined pronunciation signal into vibration;
A server computer provided separately from the interactee and connected to the interactee either by wire or wirelessly;
With
Word recognition means for processing a voice signal converted by the voice conversion means to recognize a human word, dialog control for determining a word corresponding to the word recognized by the word recognition means and outputting the predetermined pronunciation signal One of the means is provided in the object to be interacted with, and the other is provided in the server computer.
前記被対話体とは別体に設けられて前記被対話体に有線及び無線のいずれかで接続されたサーバ用コンピュータと、
前記被対話体および前記サーバ用コンピュータとは別体に設けられて前記被対話体および前記サーバ用コンピュータのいずれかに有線及び無線のいずれかで接続されて人の音声を音声信号に変換する音声変換手段と、
を備えており、
前記音声変換手段により変換された音声信号を処理して人の音声を認識する音声認識手段、前記音声認識手段により認識された音声に対応する音声を決定し前記所定の発音信号を出力する対話制御手段の両手段のうち、どちらか一方が前記被対話体に備えられており、他方が前記サーバ用コンピュータに備えられていることを特徴とする音声対話システム。 A to-be-interactive body provided with a sound generation means for changing a predetermined sound generation signal into a vibration;
A server computer provided separately from the interactee and connected to the interactee either by wire or wirelessly;
Audio that is provided separately from the interactee and the server computer, and is connected to either the interactee or the server computer either by wire or wirelessly and converts human speech into an audio signal Conversion means;
With
Voice recognition means for processing a voice signal converted by the voice conversion means to recognize a human voice; dialog control for determining a voice corresponding to the voice recognized by the voice recognition means and outputting the predetermined pronunciation signal One of the means is provided in the object to be interacted with, and the other is provided in the server computer.
前記所定の発音情報が前記発音情報記憶部に記憶されており、
前記人が前記音声変換手段を介して前記所定の発音情報を要求した場合、前記人が前記音声変換手段を介して前記所定の発音情報を許可した場合、前記所定の発音情報を用いて前記被対話体が自ら発音する場合のいずれかに、前記発音情報記憶部から前記所定の発音情報を読み出して、前記発音手段から発音することを特徴とする音声対話システム。 5. The spoken dialogue system according to claim 1, further comprising a pronunciation information storage unit capable of storing predetermined pronunciation information mounted on either the interactee or the server computer. And
The predetermined pronunciation information is stored in the pronunciation information storage unit;
When the person requests the predetermined pronunciation information via the voice conversion means, and when the person permits the predetermined pronunciation information via the voice conversion means, the subject using the predetermined pronunciation information A spoken dialogue system, wherein the predetermined pronunciation information is read out from the pronunciation information storage unit and is pronounced from the pronunciation means in any case where the dialogue body pronounces itself.
前記発音情報が前記インターネット上の所定の記憶場所からダウンロード自在であることを特徴とする請求項5に記載の音声対話システム。 The pronunciation information storage unit is configured to be freely connected to the Internet,
6. The spoken dialogue system according to claim 5, wherein the pronunciation information can be downloaded from a predetermined storage location on the Internet.
前記1つ以上の可動部をそれぞれ可動するモータと、
前記モータをそれぞれ駆動する駆動部と、
前記駆動部に前記可動部の動作を司令する指令信号を出力するコントローラと、
を備えていることを特徴とする請求項1乃至請求項6のいずれか1つに記載の音声対話システム。 The interactee includes one or more movable parts;
A motor for moving each of the one or more movable parts;
Driving units for driving the motors;
A controller that outputs a command signal to command the operation of the movable unit to the drive unit;
The spoken dialogue system according to claim 1, further comprising:
前記1つ以上の可動部をそれぞれ可動するモータと、
前記モータをそれぞれ駆動する駆動部と、
を備えており、
前記サーバ用コンピュータが、前記駆動部に動作の指令信号を出力するコントローラを備えていることを特徴とする請求項1乃至請求項6のいずれか1つに記載の音声対話システム。 The interactee includes one or more movable parts;
A motor for moving each of the one or more movable parts;
Driving units for driving the motors;
With
7. The spoken dialogue system according to claim 1, wherein the server computer includes a controller that outputs an operation command signal to the drive unit.
前記1つ以上の可動部をそれぞれ可動するモータと、
を備えており、
前記サーバ用コンピュータが、前記モータをそれぞれ駆動する駆動部と、前記駆動部に動作の指令信号を出力するコントローラとを備えていることを特徴とする請求項1乃至請求項6のいずれか1つに記載の音声対話システム。 The interactee includes one or more movable parts;
A motor for moving each of the one or more movable parts;
With
7. The server computer according to claim 1, further comprising: a drive unit that drives each of the motors; and a controller that outputs an operation command signal to the drive unit. The spoken dialogue system described in 1.
前記可動ユニットが、1つ以上の可動部と、
前記1つ以上の可動部をそれぞれ可動するモータと、
前記モータをそれぞれ駆動する駆動部と、
前記駆動部に前記可動部の動作を司令する指令信号を出力するコントローラと、
を備えていることを特徴とする請求項1乃至請求項6のいずれか1つに記載の音声対話システム。 A movable unit provided separately from the interactee and the server computer, and connected to at least one of the interactee and the server computer in a wired or wireless manner and movable;
The movable unit includes one or more movable parts;
A motor for moving each of the one or more movable parts;
Driving units for driving the motors;
A controller that outputs a command signal to command the operation of the movable unit to the drive unit;
The spoken dialogue system according to claim 1, further comprising:
前記可動ユニットが、1つ以上の可動部と、
前記1つ以上の可動部をそれぞれ駆動するモータと、
前記モータをそれぞれ駆動する駆動部と、
を備えており、
前記被対話体および前記サーバ用コンピュータのいずれかが、前記駆動部に動作の指令信号を出力するコントローラを備えていることを特徴とする請求項1乃至請求項6のいずれか1つに記載の音声対話システム。 A movable unit provided separately from the interactee and the server computer and connected to at least one of the interactee and the server computer either by wire or wirelessly;
The movable unit includes one or more movable parts;
A motor for driving each of the one or more movable parts;
Driving units for driving the motors;
With
7. The controller according to claim 1, wherein one of the interactee and the server computer includes a controller that outputs an operation command signal to the drive unit. 8. Spoken dialogue system.
前記可動ユニットが、1つ以上の可動部と、
前記1つ以上の可動部をそれぞれ可動するモータと、
を備えており、
前記モータをそれぞれ駆動する駆動部が、前記被対話体および前記サーバ用コンピュータのいずれかに備えられており、
前記駆動部に動作の指令信号を出力するコントローラが、前記被対話体および前記サーバ用コンピュータのいずれかに備えられていることを特徴とする請求項1乃至請求項6のいずれか1つに記載の音声対話システム。 A movable unit provided separately from the interactee and connected to at least one of the interactee and the server computer either by wire or wirelessly;
The movable unit includes one or more movable parts;
A motor for moving each of the one or more movable parts;
With
A drive unit for driving each of the motors is provided in either the interactee or the server computer,
7. The controller according to claim 1, wherein a controller that outputs an operation command signal to the drive unit is provided in either the object to be interacted with or the server computer. 8. Voice dialogue system.
前記所定の画像情報が予め記憶された画像情報記憶部が前記被対話体および前記サーバ用コンピュータのいずれかに搭載されており、
前記人が前記音声変換手段を介して前記所定の画像情報を要求した場合、前記人が前記音声変換手段を介して前記所定の画像情報を許可した場合、前記所定の画像情報を用いて前記被対話体が自ら前記所定の画像を表示する場合のいずれかに、前記画像情報記憶部から前記所定の画像情報を読み出して、前記画像表示手段に表示することを特徴とする音声対話システム。 In the voice interaction system according to any one of claims 1 to 9, an image display means for displaying a predetermined image is provided either integrally with the interactee or separately.
The image information storage unit in which the predetermined image information is stored in advance is mounted on either the interactee or the server computer,
When the person requests the predetermined image information via the sound conversion means, or when the person permits the predetermined image information via the sound conversion means, the predetermined image information is used to A spoken dialogue system, wherein the predetermined image information is read from the image information storage unit and displayed on the image display means in any case where the dialogue body displays the predetermined image by itself.
前記所定の画像情報が予め記憶された画像情報記憶部が、前記被対話体、前記サーバ用コンピュータ、前記可動ユニットのいずれかに搭載されており、
前記人が前記音声変換手段を介して前記所定の画像情報を要求した場合、前記人が前記音声変換手段を介して前記所定の画像情報を許可した場合、前記所定の画像情報を用いて前記被対話体が自ら前記所定の画像を表示する場合のいずれかに、前記画像情報記憶部から前記所定の画像情報を読み出して、前記画像表示手段に表示することを特徴とする音声対話システム。 14. The spoken dialogue system according to claim 10, wherein an image display means for displaying a predetermined image is further provided in either the interactee or the movable unit, Connected to at least one of the body, the server computer, and the movable unit by wire or wireless,
The image information storage unit in which the predetermined image information is stored in advance is mounted on any of the interactee, the server computer, and the movable unit,
When the person requests the predetermined image information via the sound conversion means, or when the person permits the predetermined image information via the sound conversion means, the predetermined image information is used to A spoken dialogue system, wherein the predetermined image information is read from the image information storage unit and displayed on the image display means in any case where the dialogue body displays the predetermined image by itself.
前記所定の画像情報が予め記憶された画像情報記憶部が、前記被対話体、前記サーバ用コンピュータ、前記可動ユニットのいずれかに搭載されており、
前記人が前記音声変換手段を介して前記所定の画像情報を要求した場合、前記人が前記音声変換手段を介して前記所定の画像情報を許可した場合、前記所定の画像情報を用いて前記被対話体が自ら前記所定の画像を表示する場合のいずれかに、前記画像情報記憶部から前記所定の画像情報を読み出して、前記画像表示手段に表示することを特徴とする音声対話システム。 14. The voice interaction system according to claim 10, further comprising an image display means for displaying a predetermined image provided separately from both the interactee and the movable unit. It is connected to at least one of the interactive body, the server computer, and the movable unit by either wired or wireless,
The image information storage unit in which the predetermined image information is stored in advance is mounted on any of the interactee, the server computer, and the movable unit,
When the person requests the predetermined image information via the sound conversion means, or when the person permits the predetermined image information via the sound conversion means, the predetermined image information is used to A spoken dialogue system, wherein the predetermined image information is read from the image information storage unit and displayed on the image display means in any case where the dialogue body displays the predetermined image by itself.
前記画像情報が前記インターネット上の所定の記憶場所からダウンロード自在であることを特徴とする請求項14乃至請求項16のいずれか1つに記載の音声対話システム。 The image information storage unit is configured to be freely connected to the Internet,
The voice dialogue system according to any one of claims 14 to 16, wherein the image information can be downloaded from a predetermined storage location on the Internet.
前記撮像手段により撮像された撮像データから前記所定の対象物を認識する画像認識手段が前記被対話体および前記サーバ用コンピュータのいずれかに搭載されていることを特徴とする請求項1乃至請求項9、請求項14のいずれか1つに記載の音声対話システム。 An imaging means capable of imaging a predetermined object including the person is configured to be integral with or separate from the interactee,
The image recognition means for recognizing the predetermined object from the image data picked up by the image pickup means is mounted on either the interactee or the server computer. 9. The voice interaction system according to any one of claims 14 and 14.
前記撮像手段により撮像された撮像データから前記所定の対象物を認識する画像認識手段が前記被対話体、前記サーバ用コンピュータ、前記可動ユニットの少なくとも1つに搭載されていることを特徴とする請求項10乃至請求項13、請求項15、請求項16のいずれか1つに記載の音声対話システム。 An imaging means capable of imaging a predetermined object including the person is provided in either the interactee or the movable unit, and is wired to at least one of the interactee, the server computer, and the movable unit. And wirelessly connected,
The image recognition means for recognizing the predetermined object from the image data picked up by the image pickup means is mounted on at least one of the interactee, the server computer, and the movable unit. The voice interactive system according to any one of claims 10 to 13, 15 and 16.
前記撮像手段により撮像された撮像データから前記所定の対象物を認識する画像認識手段が前記被対話体、前記サーバ用コンピュータ、前記可動ユニットの少なくとも1つに搭載されていることを特徴とする請求項10乃至請求項13、請求項15、請求項16のいずれか1つに記載の音声対話システム。 An imaging means capable of imaging a predetermined object including the person is provided separately from either the interacted body or the movable unit, and at least one of the interacted body, the server computer, and the movable unit. Connected to either cable or wirelessly,
The image recognition means for recognizing the predetermined object from the image data picked up by the image pickup means is mounted on at least one of the interactee, the server computer, and the movable unit. The voice interactive system according to any one of claims 10 to 13, 15 and 16.
前記人の音声が所定の装置を操作する命令である場合、前記人の音声が所定の装置を操作する許可である場合、所定の操作入力手段により所定の装置を操作する場合、所定の装置を操作する自動実行プログラムが実行される場合に、前記所定の装置を操作するように、前記コントローラが前記駆動部に前記指令信号を出力することを特徴とする請求項10乃至請求項13、請求項請求項15のいずれか1つに記載の音声対話システム。 The movable part is arranged at a position for operating a predetermined device;
When the voice of the person is an instruction to operate a predetermined device, when the voice of the person is permission to operate the predetermined device, when operating the predetermined device by a predetermined operation input means, The said controller outputs the said command signal to the said drive part so that the said predetermined | prescribed apparatus may be operated when the automatic execution program to operate is performed, The Claim 13 thru | or 13 characterized by the above-mentioned. The spoken dialogue system according to claim 15.
前記人の音声が所定の装置を操作する命令である場合、前記人の音声が所定の装置を操作する許可である場合、所定の操作入力手段により所定の装置を操作する場合、所定の装置を操作する自動実行プログラムが実行される場合に、前記画像認識手段が前記操作手段の位置を認識した結果に基づいて、前記可動部及び前記被対話体が、前記手段の操作位置に可動し、前記所定の装置を操作するように、前記コントローラが前記駆動部に前記指令信号を出力することを特徴とする請求項18乃至請求項20のいずれか1つに記載の音声対話システム。 The imaging means images the operation means of the predetermined device,
When the voice of the person is an instruction to operate a predetermined device, when the voice of the person is permission to operate the predetermined device, when operating the predetermined device by a predetermined operation input means, When the automatic execution program to be operated is executed, based on the result of the image recognition means recognizing the position of the operation means, the movable part and the interactee move to the operation position of the means, 21. The spoken dialogue system according to claim 18, wherein the controller outputs the command signal to the drive unit so as to operate a predetermined device.
前記画像認識手段により認識された前記進行状況から前記可動部の次の動作を決定する動作決定手段を備えており、
前記可動部が、前記動作決定手段により決定された次の動作を実行するように、前記コントローラが前記駆動部に前記指令信号を出力することを特徴とする請求項18乃至請求項20のいずれか1つに記載の音声対話システム。 The imaging means is configured to image the progress of the table game, and the image recognition means is configured to recognize the image of the progress of the table game.
An operation determining means for determining a next operation of the movable part from the progress status recognized by the image recognition means;
21. The controller according to claim 18, wherein the controller outputs the command signal to the driving unit so that the movable unit executes a next operation determined by the operation determining unit. The spoken dialogue system according to one.
前記画像認識手段により認識された前記所定の対象物を前記撮像手段が追跡する追跡プログラムが前記被対話体および前記サーバ用コンピュータのいずれかに搭載されており、
前記撮像手段が前記人を含む所定の対象物を追跡するように、前記コントローラから前記駆動部に前記指令信号を出力し、前記可動部を可動させることを特徴とする請求項18乃至請求項20のいずれか1つに記載の音声対話システム。 According to the first embodiment, a tracking program for tracking the predetermined object recognized by the image recognition means is mounted on either the interactee or the server computer,
21. The moving unit is moved by outputting the command signal from the controller to the driving unit so that the imaging unit tracks a predetermined object including the person. The spoken dialogue system according to any one of the above.
前記作動手段と前記作動信号出力手段との間が無線および有線のいずれか1つにより接続されていることを特徴とする音声対話システム。 29. The voice interaction system according to any one of claims 1 to 28, wherein an operation signal output means for outputting the operation signal is provided to the operation means of an operation body further comprising an operation means operated by an operation signal. It is mounted on at least one of the dialog and the server computer,
The voice interaction system, wherein the operation means and the operation signal output means are connected by one of wireless and wired.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008303596A JP2010128237A (en) | 2008-11-28 | 2008-11-28 | Speech interactive system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008303596A JP2010128237A (en) | 2008-11-28 | 2008-11-28 | Speech interactive system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010128237A true JP2010128237A (en) | 2010-06-10 |
Family
ID=42328670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008303596A Pending JP2010128237A (en) | 2008-11-28 | 2008-11-28 | Speech interactive system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010128237A (en) |
-
2008
- 2008-11-28 JP JP2008303596A patent/JP2010128237A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11017779B2 (en) | System and method for speech understanding via integrated audio and visual based speech recognition | |
US10702991B2 (en) | Apparatus, robot, method and recording medium having program recorded thereon | |
JP5429462B2 (en) | Communication robot | |
JP7119896B2 (en) | Communication robot and communication robot control program | |
JP4296714B2 (en) | Robot control apparatus, robot control method, recording medium, and program | |
WO2017215297A1 (en) | Cloud interactive system, multicognitive intelligent robot of same, and cognitive interaction method therefor | |
JP4972218B1 (en) | Action body toy | |
JP7173031B2 (en) | Information processing device, information processing method, and program | |
JP2001154681A (en) | Device and method for voice processing and recording medium | |
CN110609620A (en) | Human-computer interaction method and device based on virtual image and electronic equipment | |
JP2007190641A (en) | Communication robot | |
US20220101856A1 (en) | System and method for disambiguating a source of sound based on detected lip movement | |
JP2006123136A (en) | Communication robot | |
JP2018185362A (en) | Robot and control method of the same | |
JP2024023193A (en) | Information processing device and information processing method | |
JP2008085421A (en) | Video telephone, calling method, program, voice quality conversion-image editing service providing system, and server | |
JP2006243555A (en) | Response determination system, robot, event output server, and response determining method | |
WO2002082423A1 (en) | Word sequence output device | |
JP7428141B2 (en) | Information processing device, information processing method, and program | |
JP2004283927A (en) | Robot control device, and method, recording medium and program | |
JP2018075657A (en) | Generating program, generation device, control program, control method, robot device and telephone call system | |
JP2010152237A (en) | Cellular phone system | |
JP2010128237A (en) | Speech interactive system | |
JP2010149266A (en) | Robot system | |
JP2010148822A (en) | Game machine |