JP3919726B2 - Learning apparatus and method - Google Patents
Learning apparatus and method Download PDFInfo
- Publication number
- JP3919726B2 JP3919726B2 JP2003345071A JP2003345071A JP3919726B2 JP 3919726 B2 JP3919726 B2 JP 3919726B2 JP 2003345071 A JP2003345071 A JP 2003345071A JP 2003345071 A JP2003345071 A JP 2003345071A JP 3919726 B2 JP3919726 B2 JP 3919726B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- recognized
- recognition
- noun
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Toys (AREA)
- Collating Specific Patterns (AREA)
Description
本発明は、ロボットや人形の玩具に内蔵して利用できる学習装置に関するものである。 The present invention relates to a learning device that can be used in a robot or a doll toy.
従来の玩具ロボットは、主として機械的な動きを実現するためのものである。従って、単純な動きのパターンを繰り返すという、小さな子供向けの玩具として利用されるに止まっている。 Conventional toy robots are mainly for realizing mechanical movement. Therefore, it is only used as a toy for small children that repeats a simple movement pattern.
これからは、子供より成人や老人の人口が多くなるため、玩具としても成人や老人が楽しめるロボットが必要とされている。しかし、人工的に知的な動作をさせたり複雑な行動を実現するためには、まだまだ将来の技術開発を待たなくてはならない。 From now on, since the population of adults and elderly people will be larger than children, robots that can be enjoyed by adults and elderly people as toys are also needed. However, in order to artificially perform intelligent movements and realize complex actions, we must still wait for future technological development.
また、ロボットには、ユーザーの顔を識別するものが提案されている(例えば、特許文献1参照)。
しかし、上記のようにロボットに顔識別装置を内蔵しても、その識別した情報をどのように有効に使用するかは開示されていない。 However, even if the face identification device is built in the robot as described above, it is not disclosed how to effectively use the identified information.
そこで、本発明では、ロボットや人形の玩具などに内蔵する学習装置において、顔識別情報を用いて赤ちゃんやアニメの主人公をモチーフとしたレベルの低い知的な動作を実現することによって、成人や老人でも楽しめるものを提供することを目的とする。 Therefore, in the present invention, in learning devices built in robots, doll toys, and the like, by using face identification information to realize low-level intelligent movements with the motif of heroes of babies and anime, adults and elderly people But the aim is to provide something that can be enjoyed.
本発明は、ロボット、人形、または、玩具に内蔵された学習装置であって、画像入力手段から入力した画像から物体を認識する物体認識手段と、前記物体を登録させる登録モードにおいて、音声入力装置から入力した音声から名詞を認識する音声認識手段と、前記登録モードにおいて、前記音声認識手段によって認識された名詞に関する記号列を含む音声データと、前記物体認識手段によって認識された物体に関する画像データを対応付けて記憶する登録記憶手段と、前記登録された物体か否かを認識させる認識モードにおいて、前記物体認識手段によって認識された物体が、前記登録記憶手段に記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する音声合成手段と、を有し、前記物体認識手段は、人間の顔を認識し、前記音声認識手段は、指示代名詞、助詞、助動詞の少なくともいずれかに属するキーワードを認識し、また、前記入力された音声の中で前記認識されたキーワードを除く文字列を名詞として認識し、さらに、前記認識された音声データには、抑揚の調子を表すピッチ情報を含み、前記音声合成手段は、前記名詞の文字列と前記ピッチ情報と前記素片辞書の素片から音声を合成し、また、前記素片辞書が、前記学習装置を内蔵したロボット、または、人形、または、玩具の外観に合わせた素片から構成されている、ことを特徴とする学習装置である。 The present invention relates to a learning device built in a robot, a doll, or a toy, and an object recognition unit for recognizing an object from an image input from an image input unit, and a voice input device in a registration mode for registering the object Voice recognition means for recognizing a noun from the voice input from the voice, voice data including a symbol string relating to the noun recognized by the voice recognition means in the registration mode, and image data relating to the object recognized by the object recognition means. In the recognition mode for recognizing whether or not the registered object is a registered object and the registered storage means for storing in association with each other, when the object recognized by the object recognizing means matches the object stored in the registered storage means , Based on the speech data stored corresponding to the stored object and the speech segment of the segment dictionary stored in advance. Has a speech synthesis means for synthesizing speech, the Te, the object recognition unit recognizes the human face, the voice recognition unit recognizes demonstrative pronoun, particle, at least keywords belong to one of the auxiliary verb, Further, a character string excluding the recognized keyword in the input speech is recognized as a noun, and the recognized speech data includes pitch information indicating a tone of inflection, and the speech synthesis means Synthesizes speech from the character string of the noun, the pitch information, and the segment of the segment dictionary, and the segment dictionary has an appearance of a robot, a doll, or a toy that incorporates the learning device It is comprised from the segment matched to this, It is the learning apparatus characterized by the above-mentioned.
請求項2に係る発明は、前記物体認識手段は、人間の顔を認識する顔認識手段であることを特徴とする請求項1記載の学習装置である。
The invention according to
本発明の学習装置について説明する。 The learning device of the present invention will be described.
登録モードにおいて、画像入力手段から入力した画像から顔などの所定の物体を認識すると共に、音声入力装置から入力した音声から名詞を認識する。そして、認識された名詞に関する記号列を含む音声データと、認識された物体に関する画像データを対応付けて記憶する。 In the registration mode, a predetermined object such as a face is recognized from the image input from the image input means, and a noun is recognized from the voice input from the voice input device. Then, the voice data including the symbol string related to the recognized noun and the image data related to the recognized object are stored in association with each other.
認識モードにおいて、認識された物体が、前記記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する。 In the recognition mode, when the recognized object matches the stored object, the speech data stored in correspondence with the stored object and the speech unit of the segment dictionary stored in advance Synthesize speech based on
また、指示代名詞、助詞、助動詞などに属する言葉であるキーワードが認識された場合には、登録する記号列から、そのキーワードを除いて、キーワードとの位置関係により名詞らしい部分のみを取り出すことができる。 In addition, when a keyword that is a word belonging to a pronoun, a particle, an auxiliary verb, or the like is recognized, only the part that seems to be a noun can be extracted from the registered symbol string by removing the keyword from the registered symbol string. .
また、ピッチ情報から抑揚を再現することにより本当に人間が発声するように聞くことできる。 In addition, by reproducing the inflection from the pitch information , it can be heard that a human is really speaking.
また、ロボット、人形、または、玩具が本当に発声するように聞くことできる。 You can also hear the robot, doll, or toy really speak.
本発明によれば、レベルの低い知的な動作を実現することによって、成人や老人でも楽しめる学習装置を提供することを可能とし、本発明を内蔵したものは、将来のおもちゃ的なロボットの範囲を超えることが可能となり、実用上多大な効果が得られる
例えば、赤ちゃんが人や物体を覚えていく様子を模倣することになり、子供が大きくなって独立したり子供のない成人や、寂しい思いをしている老人のなぐさめとなることが期待できる。
According to the present invention, it is possible to provide a learning device that can be enjoyed by adults and elderly people by realizing low-level intelligent movements, and those incorporating the present invention are within the scope of future toy robots. For example, it will imitate how a baby remembers people and objects, and the child grows up, becomes independent, has no children, or feels lonely It can be expected to serve as a supporter for the elderly who are doing so.
あるいは、アニメの主人公が飼い主である所有者の名前などを覚えていくという様子を模倣することにより、従来のユーザである子供に対しても魅力的なものとなることが期待できる。 Alternatively, it can be expected to be attractive to children who are conventional users by imitating the manner in which the main character of the animation remembers the name of the owner who is the owner.
以下に図1〜図11を参照して、本発明の一実施形態について説明する。 An embodiment of the present invention will be described below with reference to FIGS.
(1)赤ちゃんロボット100の構成
本実施形態は、赤ちゃんが母親の顔を学習するという動作をモチーフとして実施した本発明の典型的な実施形態である。
(1) Configuration of Baby Robot 100 This embodiment is a typical embodiment of the present invention that is implemented using a movement of a baby learning a mother's face as a motif.
図4は、本実施形態の学習装置10を内蔵した赤ちゃんロボット100の外観である。この赤ちゃんロボットには、マイク102とビデオカメラやデジタルカメラなどのカメラ104が内蔵されている。但し、カメラ104とマイク102は、実物の赤ちゃんと同じように目や耳の位置にある必要はないため、目立ちにくい髪の毛の中や衣類の一部であって良い。好ましくは、衣類のボタンに似せて作れば良い。
FIG. 4 is an external view of the
(2)学習装置10の構成
図1は、本実施形態の学習装置10を示すブロック図である。
(2) Configuration of
学習装置10は、音声認識部12、物体認識部14、登録記憶部16、音声合成部18、モード切り替えスイッチ20とから構成される。
The
この学習装置10は、音声認識と物体認識を組み合わせることにより、赤ちゃんロボット100が見ている顔と聞いている音声とを対応付けて登録することにより、簡単な学習過程を模擬する。
The
まず、図2のフローチャートに示すように、「登録モード」において、ユーザーは自分の顔を赤ちゃんロボット100に見せながら、自分の名前を赤ちゃんロボット100に聞かせる。最も典型的な例としては、女性が赤ちゃんロボット100に自分の顔を見せて「ママ」というように名前を聞かせる。これにより、赤ちゃんロボット100は、その音声を認識して文字列のような記号列に変換して記憶すると共に、物体認識の学習により顔の辞書をその記号列と関連付けて登録する。
First, as shown in the flowchart of FIG. 2, in the “registration mode”, the user asks the
次に、図3のフローチャートに示すように、「認識モード」において、赤ちゃんロボット100は、以前見せられた顔を再度見た場合に、その顔と同時に聞いた音声の記号を自分の音声で発声する。最も典型的な例としては、赤ちゃんらしい声で「ママ」と発声する。
Next, as shown in the flowchart of FIG. 3, in the “recognition mode”, when the
このようにして赤ちゃんロボット100が、人間の顔と名前を学習して、同じ顔を見た際に学習した名前を発声するという動作を真似ることが可能となる。
In this way, the
以下、各部12〜16の構成をそれぞれ説明する。なお、これら構成12〜16の各機能は、コンピュータに記憶されたプログラムによって実現する。 Hereinafter, the structure of each part 12-16 is demonstrated, respectively. In addition, each function of these structures 12-16 is implement | achieved by the program memorize | stored in the computer.
(2−1)モード切り替えスイッチ20
モード切り替えスイッチ20は、学習装置10の機能を登録モードと認識モードを切り替えるものであり、赤ちゃんロボット100の背中などに設ける。
(2-1)
The
(2−2)音声認識部12
(2−2−1)第1の実施形態の音声認識部12
音声認識部12は、登録モードで機能するものであり、マイク102と、マイク102からの信号を適当なレベルに増幅する増幅器、不必要な帯域をカットするフィルター、増幅されたアナログ信号をディジタル化するA/D変換器、ディジタル化された信号をHMMのような既知のアルゴリズムによって認識する認識部からなる。
(2-2)
(2-2-1) The voice recognition unit 12 of the first embodiment
The voice recognition unit 12 functions in the registration mode. The microphone 102, an amplifier that amplifies the signal from the microphone 102 to an appropriate level, a filter that cuts unnecessary bands, and an amplified analog signal are digitized. An A / D converter that recognizes the digitized signal using a known algorithm such as an HMM.
そして、登録モードにおいて登録記憶部16にユーザーが発声した名前を音声辞書に記憶させる。
In the registration mode, the name uttered by the user is stored in the speech dictionary in the
(2−2−2)第2の実施形態の音声認識部12
ユーザーが対象物の名前のみを発声するという約束事に従って使えば、以上の第1の実施形態の音声認識部12を実現することができる。
(2-2-2)
If the user uses according to the convention that he speaks only the name of the object, the
しかし、一般には、「ママですよ」とか「これが犬ですよ」というように、対象物の名称以外に「ですよ」とか「これが」というような不要の言葉が入ることがある。これに対応するために、図5に示すように、音声認識部12にキーワード認識部13をさらに設ける。
However, in general, unnecessary words such as “is” or “this is” may be entered in addition to the name of the object, such as “I am a mama” or “this is a dog”. In order to cope with this, as shown in FIG. 5, the
キーワード認識部13は、指示代名詞、助詞、助動詞などに属する言葉であるキーワードが認識された場合には、登録する記号列から、そのキーワードを除いて、キーワードとの位置関係により名詞らしい部分のみを取り出す。そして、登録記憶部16にキーワードを取り除いた名前の記号列の音声データを音声辞書に記憶させる。
When a keyword that is a word belonging to a pronoun, a particle, an auxiliary verb, or the like is recognized, the keyword recognizing unit 13 removes the keyword from the registered symbol string and removes only the part that seems to be a noun depending on the positional relationship with the keyword. Take out. Then, the voice data of the symbol string of the name from which the keyword is removed is stored in the
図6に、最後が「ですよ」というキーワードである場合を想定した場合の動作をフローチャートで示す。 FIG. 6 is a flowchart showing an operation when it is assumed that the last keyword is “is”.
なお、最初に「これが」とか、「私が」とかいうキーワードを想定する場合も、ほぼ同じような動作で対応することが可能である。この場合は、キーワードの位置が最初なので、フローチャート中「前」とある部分を「後」にする必要がある。 It should be noted that even when the keyword “This is” or “I am” is first assumed, it is possible to cope with the same operation. In this case, since the position of the keyword is the first, it is necessary to set a part “front” in the flowchart to “back”.
(2−3)物体認識部14と登録記憶部16の構成
次に、物体認識部14と登録記憶部16の構成について説明する。
(2-3) Configuration of Object Recognition Unit 14 and
この物体認識部14と登録記憶部16については、顔認識の登録モードと認識モードに分けて説明する。
The object recognition unit 14 and the
(2−3−1)登録モード
顔認識の登録モードのフローチャートを図8に示す。
(2-3-1) Registration Mode A flowchart of the registration mode for face recognition is shown in FIG.
登録モードにおいては、人物の顔が写った顔画像をM′枚取り込み、M′より少ないM個の主成分を抽出して画像データとして登録記憶部16の画像辞書に記憶する。これには、よく知られた主成分分析の方法を応用することができる。
In the registration mode, M ′ face images showing a person's face are captured, and M principal components smaller than M ′ are extracted and stored in the image dictionary of the
そして、図11に示すように、登録記憶部16において、画像辞書と音声辞書を対応させて記憶させる。この場合には、同じ時刻に発声された音声辞書と認識した顔の画像辞書を、認識した時刻を基準に対応させて記憶させる。
Then, as shown in FIG. 11, the
なお、前に登録された名前と同じ名前が登録される場合の動作に関しては、全く独立に2個の名前と画像データを登録しても良いし、前のものを置き換えても良い。 As for the operation when the same name as the previously registered name is registered, two names and image data may be registered completely independently, or the previous one may be replaced.
また、前に登録された画像データを新しいデータで更新しても良い。その際には、画像データのみでなく、前記主成分分析に使われた相関行列を同時に記録しておくようにすれば良い。この処理のフローチャートを図10に示す。 Further, previously registered image data may be updated with new data. At that time, not only the image data but also the correlation matrix used for the principal component analysis may be recorded simultaneously. A flowchart of this process is shown in FIG.
図10でfは入力画像をメッシュで表現した際に、各メッシュの濃度値を並べたベクトルである。記号<・,・>はシャッテン積と呼ばれ、ベクトルとその転置を掛けて行列を作る演算である。K、K′は、この演算結果を重み付きで加えたもので特性核と呼ばれる、一種の相関行列である。ここでは、Kは一つしか書いていないが、一般には、登録された複数のカテゴリ毎に、そのカテゴリと同じ数だけある。K′は、新しく登録されるカテゴリに対するもので、登録後はKと同じ扱いとなる。 In FIG. 10, f is a vector in which the density values of the meshes are arranged when the input image is represented by meshes. The symbols <·, ·> are called Schatten products, and are operations that create a matrix by multiplying a vector and its transpose. K and K ′ are a kind of correlation matrix obtained by adding the calculation results with weights and called a characteristic kernel. Here, only one K is written, but generally there are the same number of registered categories for each of a plurality of registered categories. K ′ is for a newly registered category and is treated the same as K after registration.
(2−3−2)認識モード
認識モードにおいては、顔画像をN′枚取り込み、N′より少ないN個の主成分を抽出し、N次元の部分空間を構成し、登録記憶部16においてこの部分空間と画像データのM次元の部分空間との間の角度を計算する。
(2-3-2) Recognition Mode In the recognition mode, N ′ face images are captured, N principal components less than N ′ are extracted, an N-dimensional subspace is formed, and this is stored in the
部分空間を校正するには、登録モードと同様の主成分分析を利用することができる。また、部分空間の間の角度を測るには、相互部分空間法と呼ばれる方法を用いる。 To calibrate the subspace, the same principal component analysis as in the registration mode can be used. Moreover, in order to measure the angle between subspaces, a method called a mutual subspace method is used.
具体的には、M個の主成分を{φm }、N個の主成分を{ψn }としたとき、 X=(xij)
但し
However,
(2−4)音声合成部18の構成
認識モードにおいて、登録記憶部16で画像認識の結果が記憶されたものと一致すると、それと関連付けて記憶されていた音声辞書から音声データを呼び出し、その音声データの記号列を使って音声合成を行う。
(2-4) Configuration of the voice synthesizing unit 18 In the recognition mode, when the result of the image recognition is stored in the
音声合成は、記号列から音声を合成するという処理を行うが、そのためには、記号列以外に、音声の素片(個々の音素を合成する音の材料)と、抑揚の情報が必要である。 In speech synthesis, a process of synthesizing speech from a symbol string is performed. To this end, in addition to the symbol string, speech segments (sound material that synthesizes individual phonemes) and inflection information are required. .
音素の素片は、予め登録されたものを用いる。例えば、赤ちゃんの声から収集した素片を使うと、赤ちゃんの声で合成が可能となる。なお、素片としては、上記したように赤ちゃんを模倣する場合には赤ちゃんの素片を予め収集しておいたものを利用するが、アニメの主人公の場合には、声優に発声してもらった音声から素片を収集して利用する。 As phoneme segments, those registered in advance are used. For example, using pieces collected from a baby's voice makes it possible to synthesize with the baby's voice. As described above, when imitating a baby as described above, the one collected in advance is used, but in the case of the main character of the anime, the voice actor uttered it. Collect and use fragments from speech.
しかし、登録したままの記号列を音声合成にかけると、まさにロボット的な抑揚のない音声が発生されることになる。この問題を解決するためには、音声認識部12で抑揚も学習させることが有効である。これは音声のピッチを抽出して記号と対応付けながらピッチ情報として記憶するようにすればよい。そして、音声合成部18において、このピッチ情報から抑揚を再現することにより本当にその人間が発声するように聞くことできる。その登録の状態のフローチャートを図7に示す。
However, if the registered symbol string is subjected to speech synthesis, speech without robotic intonation will be generated. In order to solve this problem, it is effective that the
(変更例)
本発明は、上記実施形態に限定されるものではなく、その主旨を変更することなく、いろいろな変更例が考えられる。
(Example of change)
The present invention is not limited to the above-described embodiment, and various modifications can be considered without changing the gist thereof.
例えば、漫画の主人公のロボットが、飼い主の名前を覚えるようにしても良い。 For example, a cartoon hero's robot may remember the owner's name.
また、上記実施形態では、ユーザーの顔を認識させていたが、これに代えてボールなどの物体を認識させてもよい。例えば、犬型のロボットにボールや骨を覚えさせるようにすることもできる。 In the above embodiment, the user's face is recognized, but an object such as a ball may be recognized instead. For example, a dog-shaped robot can be made to remember a ball or bone.
本発明は、ロボット、または、人間や赤ちゃんの人形、動物の人形、アニメや漫画のキャラクターの人形やロボット、その他の玩具に内蔵して使用するものである。 The present invention is used by being incorporated in a robot, a human or baby doll, an animal doll, an anime or cartoon character doll, a robot, or other toys.
10 学習装置
12 音声認識部
14 物体認識部
16 登録記憶部
18 音声合成部
100 赤ちゃんロボット
102 マイク
104 カメラ
DESCRIPTION OF
Claims (3)
画像入力手段から入力した画像から物体を認識する物体認識手段と、
前記物体を登録させる登録モードにおいて、音声入力装置から入力した音声から名詞を認識する音声認識手段と、
前記登録モードにおいて、前記音声認識手段によって認識された名詞に関する記号列を含む音声データと、前記物体認識手段によって認識された物体に関する画像データを対応付けて記憶する登録記憶手段と、
前記登録された物体か否かを認識させる認識モードにおいて、前記物体認識手段によって認識された物体が、前記登録記憶手段に記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する音声合成手段と、
を有し、
前記物体認識手段は、人間の顔を認識し、
前記音声認識手段は、前記入力された音声の中で指示代名詞、助詞、助動詞の少なくともいずれかに属するキーワードを認識し、また、前記入力された音声の中で前記認識されたキーワードを除く文字列を名詞として認識し、さらに、前記認識された音声データには、抑揚の調子を表すピッチ情報を含み、
前記音声合成手段は、前記名詞の文字列と前記ピッチ情報と前記素片辞書の素片から音声を合成し、また、前記素片辞書が、前記学習装置を内蔵したロボット、または、人形、または、玩具の外観に合わせた素片から構成されている、
ことを特徴とする学習装置。 A learning device built into a robot, doll, or toy,
Object recognition means for recognizing an object from an image input from the image input means;
In a registration mode for registering the object, speech recognition means for recognizing a noun from speech input from a speech input device;
In the registration mode, a registration storage unit that stores voice data including a symbol string related to a noun recognized by the voice recognition unit and image data related to the object recognized by the object recognition unit in association with each other;
In the recognition mode for recognizing whether or not the object is a registered object, when the object recognized by the object recognizing unit matches the object stored in the registered storage unit, corresponding to the stored object Speech synthesis means for synthesizing speech based on speech data stored and speech segments of a segment dictionary stored in advance;
Have,
The object recognition means recognizes a human face,
The speech recognition means recognizes a keyword belonging to at least one of a pronoun, a particle, or an auxiliary verb in the input speech, and a character string excluding the recognized keyword in the input speech Is recognized as a noun, and the recognized voice data further includes pitch information representing the tone of inflection,
The speech synthesis means synthesizes speech from the character string of the noun, the pitch information, and the segment of the segment dictionary, and the segment dictionary includes a robot, a doll, or It consists of pieces that match the appearance of the toy.
A learning apparatus characterized by that.
画像入力手段から入力した画像から物体を認識する物体認識ステップと、
前記物体を登録させる登録モードにおいて、音声入力装置から入力した音声から名詞を認識する音声認識ステップと、
前記登録モードにおいて、前記音声認識ステップによって認識された名詞に関する記号列を含む音声データと、前記物体認識ステップによって認識された物体に関する画像データを対応付けて記憶する登録記憶ステップと、
前記登録された物体か否かを認識させる認識モードにおいて、前記物体認識ステップで認識された物体が、前記登録記憶ステップで記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する音声合成ステップと、
を有し、
前記物体認識ステップにおいて、人間の顔を認識し、
前記音声認識ステップにおいて、前記入力された音声の中で指示代名詞、助詞、助動詞の少なくともいずれかに属するキーワードを認識し、また、前記入力された音声の中で前記認識されたキーワードを除く文字列を名詞として認識し、さらに、前記認識された音声データには、抑揚の調子を表すピッチ情報を含み、
前記音声合成ステップにおいて、前記名詞の文字列と前記ピッチ情報と前記素片辞書の素片から音声を合成し、また、前記素片辞書が、前記学習装置を内蔵したロボット、または、人形、または、玩具の外観に合わせた素片から構成されている、
ことを特徴とする学習方法。 A learning method in a learning device built in a robot, a doll, or a toy,
An object recognition step for recognizing an object from an image input from an image input means;
In a registration mode for registering the object, a speech recognition step for recognizing a noun from speech input from a speech input device;
In the registration mode, a registration storage step of storing voice data including a symbol string related to the noun recognized in the voice recognition step and image data relating to the object recognized in the object recognition step in association with each other;
In the recognition mode for recognizing whether or not the object is a registered object, when the object recognized in the object recognition step matches the object stored in the registration storage step, corresponding to the stored object A speech synthesis step of synthesizing speech based on speech data stored in advance and speech segments of a segment dictionary stored in advance;
Have,
Recognizing a human face in the object recognition step;
In the speech recognition step, a character string that recognizes a keyword belonging to at least one of a demonstrative pronoun, a particle, and an auxiliary verb in the input speech and that excludes the recognized keyword in the input speech Is recognized as a noun, and the recognized voice data further includes pitch information representing the tone of inflection,
In the speech synthesis step, a speech is synthesized from the character string of the noun, the pitch information, and the segment of the segment dictionary, and the segment dictionary is a robot, doll, or It consists of pieces that match the appearance of the toy.
A learning method characterized by that.
画像入力手段から入力した画像から物体を認識する物体認識機能と、
前記物体を登録させる登録モードにおいて、音声入力装置から入力した音声から名詞を認識する音声認識機能と、
前記登録モードにおいて、前記音声認識機能で認識された名詞に関する記号列を含む音声データと、前記物体認識機能で認識された物体に関する画像データを対応付けて記憶する登録記憶機能と、
前記登録された物体か否かを認識させる認識モードにおいて、前記物体認識機能で認識された物体が、前記登録記憶機能で記憶された物体と一致したときに、前記記憶された物体と対応して記憶されている音声データと予め記憶されている素片辞書の音声の素片に基づいて音声を合成する音声合成機能と、
を実現し、
前記物体認識機能において、人間の顔を認識し、
前記音声認識機能において、前記入力された音声の中で指示代名詞、助詞、助動詞の少なくともいずれかに属するキーワードを認識し、また、前記入力された音声の中で前記認識されたキーワードを除く文字列を名詞として認識し、さらに、前記認識された音声データには、抑揚の調子を表すピッチ情報を含み、
前記音声合成機能において、前記名詞の文字列と前記ピッチ情報と前記素片辞書の素片から音声を合成し、また、前記素片辞書が、前記コンピュータを内蔵したロボット、または、人形、または、玩具の外観に合わせた素片から構成されている、
ことを特徴とするプログラム。 A program that causes a computer built in a robot, doll, or toy to function as a learning device,
An object recognition function for recognizing an object from an image input from an image input means;
In a registration mode for registering the object, a speech recognition function for recognizing a noun from speech input from a speech input device;
In the registration mode, a registration storage function for storing voice data including a symbol string relating to a noun recognized by the voice recognition function and image data relating to an object recognized by the object recognition function in association with each other;
In the recognition mode for recognizing whether or not the object is a registered object, when the object recognized by the object recognition function matches the object stored by the registration storage function, corresponding to the stored object A speech synthesis function for synthesizing speech based on speech data stored in advance and speech segments in a segment dictionary stored in advance;
Realized,
In the object recognition function, a human face is recognized,
In the speech recognition function, a character string that recognizes a keyword belonging to at least one of a demonstrative pronoun, a particle, and an auxiliary verb in the input speech and that excludes the recognized keyword in the input speech Is recognized as a noun, and the recognized voice data further includes pitch information representing the tone of inflection,
In the speech synthesis function, the speech is synthesized from the character string of the noun, the pitch information, and the segment of the segment dictionary, and the segment dictionary is a robot incorporating the computer, a doll, or Consists of pieces that match the appearance of the toy,
A program characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003345071A JP3919726B2 (en) | 2003-10-02 | 2003-10-02 | Learning apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003345071A JP3919726B2 (en) | 2003-10-02 | 2003-10-02 | Learning apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005110726A JP2005110726A (en) | 2005-04-28 |
JP3919726B2 true JP3919726B2 (en) | 2007-05-30 |
Family
ID=34538446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003345071A Expired - Fee Related JP3919726B2 (en) | 2003-10-02 | 2003-10-02 | Learning apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3919726B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110815243A (en) * | 2019-11-14 | 2020-02-21 | 深圳市博悦生活用品有限公司 | Intelligent voice bilingual early education robot |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113168826A (en) * | 2018-12-03 | 2021-07-23 | Groove X 株式会社 | Robot, speech synthesis program, and speech output method |
CN110648652B (en) * | 2019-11-07 | 2021-10-01 | 浙江如意实业有限公司 | Interactive toy of intelligence |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002109559A (en) * | 2000-10-02 | 2002-04-12 | Canon Inc | Character forming system, device, method, and storage medium readable by computer |
JP2002258885A (en) * | 2001-02-27 | 2002-09-11 | Sharp Corp | Device for combining text voices, and program recording medium |
JP3843741B2 (en) * | 2001-03-09 | 2006-11-08 | 独立行政法人科学技術振興機構 | Robot audio-visual system |
JP2002318590A (en) * | 2001-04-20 | 2002-10-31 | Sony Corp | Device and method for synthesizing voice, program and recording medium |
JP4266552B2 (en) * | 2001-10-16 | 2009-05-20 | 日本電気株式会社 | Robot apparatus and control method thereof |
JP2003202895A (en) * | 2002-01-10 | 2003-07-18 | Sony Corp | Interaction device and interaction control method, storage medium, and computer program |
JP3529049B2 (en) * | 2002-03-06 | 2004-05-24 | ソニー株式会社 | Learning device, learning method, and robot device |
JP2003255991A (en) * | 2002-03-06 | 2003-09-10 | Sony Corp | Interactive control system, interactive control method, and robot apparatus |
-
2003
- 2003-10-02 JP JP2003345071A patent/JP3919726B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110815243A (en) * | 2019-11-14 | 2020-02-21 | 深圳市博悦生活用品有限公司 | Intelligent voice bilingual early education robot |
Also Published As
Publication number | Publication date |
---|---|
JP2005110726A (en) | 2005-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2018204246B2 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
CN108231070B (en) | Voice conversation device, voice conversation method, recording medium, and robot | |
US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
Roy et al. | Learning words from sights and sounds: A computational model | |
CN111276120B (en) | Speech synthesis method, apparatus and computer-readable storage medium | |
CN110136698A (en) | For determining the method, apparatus, equipment and storage medium of nozzle type | |
JP2000187435A (en) | Information processing device, portable apparatus, electronic pet device, recording medium with information processing procedure recorded thereon, and information processing method | |
JP2003255991A (en) | Interactive control system, interactive control method, and robot apparatus | |
JP2004090109A (en) | Robot device and interactive method for robot device | |
JP3670180B2 (en) | hearing aid | |
JP4250340B2 (en) | Virtual pet device and control program recording medium thereof | |
EP4131256A1 (en) | Voice recognition system and method using accelerometers for sensing bone conduction | |
US20230343338A1 (en) | Method for automatic lip reading by means of a functional component and for providing said functional component | |
Filntisis et al. | Video-realistic expressive audio-visual speech synthesis for the Greek language | |
JP3919726B2 (en) | Learning apparatus and method | |
JP3792882B2 (en) | Emotion generation device and emotion generation method | |
JP6972526B2 (en) | Content providing device, content providing method, and program | |
JP4254400B2 (en) | Image generating apparatus, image generating method thereof, and computer-readable recording medium | |
JP4250635B2 (en) | Virtual pet device and control program recording medium thereof | |
JP2006142407A (en) | Robot device and robot device system | |
JP2002372988A (en) | Recognition dictionary preparing device and rejection dictionary and rejection dictionary generating method | |
JP2001209779A (en) | Virtual biological system and pattern learning method in virtual biological system | |
KR102426020B1 (en) | Method and apparatus for Speech Synthesis Containing Emotional Rhymes with Scarce Speech Data of a Single Speaker | |
Neog et al. | SPEECH/TEXT TO INDIAN SIGN LANGUAGE USING NATURAL LANGUAGE PROCESSING | |
JP7495125B2 (en) | ROBOT, SPEECH SYNTHESIS PROGRAM, AND SPEECH OUTPUT METHOD |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070213 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100223 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110223 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120223 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120223 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130223 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140223 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |