JP2006142407A

JP2006142407A - ロボット装置およびロボット装置システム

Info

Publication number: JP2006142407A
Application number: JP2004332762A
Authority: JP
Inventors: Akira Toyoshima; 明豊嶋; Makoto Yamada; 誠山田; Toshio Nishitani; 俊男西谷
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2004-11-17
Filing date: 2004-11-17
Publication date: 2006-06-08

Abstract

【課題】特定の話者が音声を発する際の癖を表現することにより、話者が伝達しようとする情報を、聴衆に正確に理解させることができるロボット装置を提供する。
【解決手段】人体各部分の動きと同様の動きを起こさせるアクチュエータ群１３と、音声を発するスピーカ１２とを備えたロボット装置１０であって、入力された文章の各語句について音声合成部３３により合成された音声をスピーカ１２から発するとともに、その語句が語句／癖対応データベース３４に登録されている場合に、その語句に対応する癖データに記憶された人体各部の動きを形体癖模写部３５により模写させて音声と動きとを同期させる。
【選択図】図２

Description

本発明は、音声による言語情報とともに身振り手振り、表情などによる非言語情報を用いてコミュニケーションを行う人体型のロボット装置に関する。本ロボット装置は、例えば、プレゼンテーション、司会、落語、ゲーム等のような話者が言語を発するときにジェスチャが表れるコミュニケーションの場において用いられる。

玩具用、ゲーム用、民生用、産業用等種々の分野でロボットが用いられており、ロボットのなかには、ユーザとコミュニケーションを行うロボットが開発されている。
一般に、ロボットが人とのコミュニケーションにより情報を伝達しようとする際に、言語のみで相手方に伝えることができる情報内容は少ない。言語とともに非言語、すなわちジェスチャ（身振り・手振り）や表情などを駆使することによって、相手方に伝わる情報量が増大する。
そのため、伝達しようとする情報内容を音声のみで伝えるだけではなく、これに関連したジェスチャ・表情を同時にロボットに実行させることで、情報の伝達効率を高めることが行われている。

例えば、電子メール読み上げロボットにおいて、文章の内容を解析し、感情に関わる情報を抽出し、抽出された感情情報に対応した声やジェスチャを発現することが開示されている（特許文献１参照）。
特開２００２−４１４１１号公報

上述した従来例のように、ロボットが伝達しようとする文章の内容を解析し、文章中から感情に関わる情報を抽出し、抽出された感情情報に対応したジェスチャを音声とともに発現することで、音声と動作とにより、すなわち言語と非言語とにより、感情表現をすることができる。
しかしながら、ここでなされているロボットのジェスチャは、特定の感情表現に対応するジェスチャのみであり、しかもその動作は、ロボットに固定的に記憶されている喜怒哀楽に対する動作を、ジェスチャで表現するものである。

人がプレゼンテーション等で音声を発するときに生じるジェスチャは、千差万別であり、それぞれ癖がある。特定人物が音声を発する際のジェスチャは、その特定人物の癖を含むジェスチャで行われるのが好ましく、また、そのようなジェスチャがなされると、より一層正確に、情報を伝達することができる。また、特定人物のジェスチャは、感情表現についてだけ行われるのではなく、その他の一般的な表現についても、その特定人物の癖であるかぎりジェスチャが行われている。

そこで、本発明は、音声により情報を伝達するロボット装置において、音声を発する際の動きのなかに、特定の話者（プレゼンター等）の個性を表現することにより、話者が伝達しようとする情報を、聴衆に正確に理解させることができるロボット装置を提供することを目的とする。
また、個性ある話者のプレゼンテーション等は、人気があり、需要が多い。そこで、本発明は、人気ある話者の個性を備えたロボット装置による代替プレゼンテーションを、いつでも、どこでも実行することができるようにするロボット装置システムを提供することを目的とする。

また、本発明は、話者の癖を簡単に変更することができ、個性ある複数の話者のプレゼンテーションを、適宜選択して実現することができるロボット装置システムを提供することを目的とする。

上記課題を解決するためになされた本発明のロボット装置は、人体型の外形を有するロボット装置の外形を構成する部分にそれぞれの部分に対応する人体各部分の動きと同様の動きを起こさせるアクチュエータ群と、音声を発するスピーカとを備えたロボット装置であって、語句を文字で表した語句データと話者がその語句を発声するときに話者に生じる人体各部の動きの特徴を記憶した癖データとを関連付けて記憶する語句／癖対応データベースと、癖データに記憶された人体各部の動きをアクチュエータ群の駆動によって模写する形体癖模写部と、文章を入力する文章入力部と、入力された文章に含まれる語句を抽出する語句抽出部と、抽出された各語句について音声を合成する音声合成部と、抽出された各語句について語句／癖対応データベースを検索する語句／癖対応データベース検索部と、入力された文章の各語句について音声合成部により合成された音声をスピーカから発するとともに、その語句が語句／癖対応データベースに登録されている場合に、その語句に対応する癖データに記憶された人体各部の動きを形体癖模写部により模写させて音声と動きとを同期させる同期制御部とを備えるようにしている。

このロボット装置によれば、ロボット装置は、人体の体型に似た外形形状を有するロボット本体を有しており、ロボット本体の外形形状を構成する頭や手や足等の各部分は、それぞれアクチュエータにより人体の動きと同様の動きを行い、また、スピーカから音声を発することができるようにしてある。そして、語句／癖データベースには、特定の人が語句を発声するときに生じる動きの癖データを、その語句に関連付けて記憶してある。
文章入力部から文章が入力されると、語句抽出部は文章中に含まれる語句を抽出する。抽出された語句は、音声合成部と語句／癖対応データベース検索部とによって処理される。まず、音声合成部では、抽出された語句を音声に変換する。また、語句／癖対応データベース検索部は、その語句が語句／癖対応データベースに登録されているか検索する。
そして、同期制御部は、音声合成部で合成された音声をスピーカから発声させる制御を行うとともに、その語句が語句／癖対応データベースに登録されている場合に、その語句に対応する癖データに記憶された人体各部の動きを、形体癖模写部が模写するように制御し、音声と動きとが同期するようにして、ロボット装置を動作させる。これにより、ロボット装置は、入力された文章を、音声として発声するとともに、特定の人が音声を発するときに生じる形体癖を
真似た動きを実行する。

本発明によれば、伝達しようとする情報を文章として入力すれば、これを単に音声に変換して音声情報として伝達するだけではなく、特定の話者が音声を発するときの個性的な動作を真似ながら音声が発せられるので、その話者の姿を思い浮かべながら、音声を聞くことにより、話者の伝達しようとする情報を正確に理解することができる。
また、人気のある個性的な話者の代替プレゼンテーションを、いつでも、どこでも実行することができる。
また、語句／癖対応データベースを変更すれば話者の癖を簡単に変更することができ、個性ある話し方をする複数の話者の中から、適切な話者の癖を適宜選択することができる。

（その他の課題を解決するための手段および効果）
上記発明において、形態模写部は、アクチュエータ群の駆動により人体の頭、目、胴、手、足の動きをそれぞれ模写した動作を行うようにしてもよい。
ロボット装置が人間の頭、目、胴、手、足の動きをそれぞれ模写した動作を行うことにより、話者が発声するときの個性的な動きを、リアルに再現することができ、非言語による情報伝達を正確に伝達することができるとともに、個性ある話者の形体癖を真似た動作を見ることにより、聴衆の興味を引くことができる。

また、別の観点からなされた本発明のロボット装置システムは、少なくとも１台以上の上記発明にかかるロボット装置と、ロボット装置が使用する語句／癖対応データベースを形成する語句／癖対応データベース形成装置と、語句／癖対応データベース形成装置により形成された語句／癖対応データベースを、通信回線を介してロボット装置に転送する通信手段とからなるようにしている。
これによれば、個々のロボット装置とは独立した語句／癖対応データベース形成装置が、個性ある話者の癖を抽出して語句／癖対応データベースを形成する。形成された語句／癖対応データベースは、通信回線を介してロボット装置に転送される。したがって、個性ある話者の語句／癖対応データベースは、遠隔地からいつでもロボット装置に格納することができる。また、人気のある話者の語句／癖データベースを格納したロボット装置を、同時に複数台存在させることができる。

また、上記ロボット装置システムにおいて、語句／癖対応データベース形成装置は、マイクにより集音した話者の音声を文字に変換する音声タイプライタ部と、音声タイプライタ部により変換された文字から語句を抽出するデータベース格納用語句抽出部と、人体各部がそれぞれとりうる一般的な動きの特徴を人体各部ごとに動作パターンとして登録した動作パターン抽出用データベースと、話者の音声を集音する際に、同時にカメラにより撮影した話者の映像から抽出された話者独特の身体各部の動きを、動作パターン抽出用データベースの動作パターンと照合し、話者独特の身体各部の動きを動作パターンの組として表すことにより、その話者独特の人体各部の動きの特徴をパターン化して抽出する特徴抽出部と、特徴抽出部により抽出された話者独特の人体各部の動きのパターンを、その動きがなされたときに話者が発する語句とを関係付けてデータベース化する語句／癖データベース作成部とを備えるようにしてもよい。

これによれば、語句／癖対応データベース形成装置は、音声タイプライタ部がマイクにより集音した話者の音声を文字に変換する。そして、データベース格納用語句抽出部が、音声タイプライタ部によって音声から変換された文字を解析して語句を抽出する。一方、動作パターン抽出用データベースには、人体各部がそれぞれとりうる一般的な動きの特徴を人体各部ごとに動作パターンとして登録してある。
そして、特徴抽出部は、カメラにより撮影した話者の映像から、その話者独特の人体各部の動きの特徴を抽出し、動作パターン抽出用データベースに登録された人体各部の動作パターンと照合することにより、話者独特の身体各部の動きを動作パターンの組として表し、これを癖データとしてパターン化する。語句／癖データベース作成部は、作成された癖データとその動きがなされたときの音声とを関連付けてデータベース化する。
このようにして、語句／癖対応データベース形成装置は、特定の話者が語句を発声するときの独特の動きを、語句／癖対応データベースとして作成することができる。

以下、本発明のロボット装置、および、このロボット装置を用いたシステムについて、図面を参照しつつ説明する。
図１は本発明の一実施形態であるロボット装置システムの全体構成を示すブロック図であり、図２は図１のシステムで使用されるロボット装置の構成を示すブロック図であり、図３は図１のシステムで使用される語句／癖対応データベース形成装置の構成を示すブロック図である。

図１に示すように、このシステムは複数（３台）のロボット装置１０（ロボット１、ロボット２、ロボット３）、語句／癖対応データベース形成装置２０、ロボット装置１０と語句／癖対応データベース形成装置２０との間でデータ送受信を行う通信回線３０とから構成される。
通信回線３０は、データ送受信ができればどのようなものでもよく、例えばインターネット通信回線が用いられ、ロボット装置１０、語句／癖対応データベース形成装置２０には、それぞれインターネット接続のためのモデム等の通信装置１１、２１が搭載されている。これら通信回線３０と通信装置１１、２１とを用いて、ロボット装置１０から語句／癖対応データベース形成装置２０へアクセスすることにより、後述する語句／癖対応データベース１６のデータを、いつでもどこでもダウンロードできるようにしてある。また、３台のロボット装置１０は、それぞれが独立に語句／癖対応データベース形成装置２０へアクセスすることができ、所望の語句／癖対応データベース１６をダウンロードすることができるようにしてある。

ロボット装置１０は、図１に示すようにその外形が人体型の形状、すなわち頭部、胴体、左手、右手、左足、右足、さらには眼、口を有する形状をしている。そして、ロボット装置１１の内部には、上述した通信装置１１の他に、図２に示すように、スピーカ１２、アクチュエータ群１３（１３ａ〜１３ｇ）、メモリ１４、制御部１７を搭載している。

スピーカ１２は、ロボット装置１０の口の位置に取り付けてあり、あたかも口から発声しているかのようにして音声を出すようにしてある。
アクチュエータ群１３は、ロボット装置１０が人体の動きを真似た動きを行うことができるように、ロボット装置の各部に取り付けてある。各部のアクチュエータは、それぞれ、頭部アクチュエータ１３ａ、眼部アクチュエータ１３ｂ、右手アクチュエータ１３ｃ、左手アクチュエータ１３ｄ、体部アクチュエータ１３ｅ、右足アクチュエータ１３ｆ、左足アクチュエータ１３ｇとして分類される。

メモリ１４には、多数の語句がその発音とともに登録された辞書データ１５が格納されているとともに、ある語句とその語句が発声されるときに生じる人体の動きである癖とを関連つけて蓄積した語句／癖対応データベース１６が格納してある。この語句／癖対応データベース１６は、後述する語句／癖対応データベース形成装置２０から、インターネット通信回線３０を介してロボット装置１０に送ることができるようにしてある。

図４は、語句／癖対応データベース１６に格納されたデータの一部を示した説明図である。語句／癖対応データベース１６には、ある特定の話者Ａがデータベースに登録されている１つ１つの語句を発声するときに生じる頭、眼、右手、左手、胴体、右足、左足の動き（体動、表情）が癖データとして記録されている。例えば、話者Ａが「こんにちは・・・」と発声するときには、頭が上下に移動し、眼はやさしい眼になり、右手および左手は静止し、胴体は正面を向き、右足および左足は静止する動きを、無意識のうちに行っている。これら各部位の個々の動きが部位別コード番号（図中「Ａ００１」は頭が「上下」移動するときの部位別コード番号、「Ｂ００１」は眼がやさしい目になるとき、「Ｃ００１」は右手が静止するとき、「Ｄ００１」は左手が静止するとき、「Ｅ００１」は胴体が正面を向くとき、「Ｆ００１」は右足が静止するとき、「Ｇ００１」は左足が静止するときの部位別コード番号）としてコード化され、さらに一組の部位別コード番号の組（図中「Ａ００１、Ｂ００１、Ｃ００１、Ｄ００１、Ｅ００１、Ｄ００１、Ｆ００１、Ｇ００１」の組）に対して１つの癖データコード番号（図中「＃０００１」）が割り付けられ、対応する語句データ（図中「こんにちは・・・」）に関連付けて登録してある。

この癖データコード番号は、アクチュエータ群１３がとりうる１つの状態に対応しており、この癖データコード番号を呼び出すと、アクチュエータ群１３は、その癖データ番号に割り付けられている部位別コード番号の組で特定される各部位の動き（例えば「Ａ００１、Ｂ００１、Ｃ００１、Ｄ００１、Ｅ００１、Ｄ００１、Ｆ００１、Ｇ００１」の組で特定される動き）を再現することができるようになっている。

制御部１７は、ロボット装置１０が実行する種々の動作を制御する。この制御動作を機能ごとのブロックに分類して説明すると、文章入力部３１、語句抽出部３２、音声合成部３３、語句／癖対応データベース検索部３４、形体癖模写部３５、同期制御部３６とからなる。

文章入力部３１は、ロボット装置１０が搭載している図示しない入力機器（キーボード、ディスク読取装置）からキー入力、あるいはフロッピディスク、ＣＤ、ＤＶＤなどの記録媒体から入力された文章ファイル、あるいは、外部からインターネット通信回線３０を介して送信されてきた文章ファイルからの文章を入力する。入力された文章は、制御部１７の各部で以下に説明する処理がなされる。

語句抽出部３２は、文章入力部３１から読み込まれた文章に対し、辞書データ１５を参照しながらいわゆる形態素解析を行うことによって、その文章を語句ごとに分け、語句を抽出する。
音声合成部３３は、辞書データ１５の発音データを参照して、抽出した語句の音声を合成する。
語句／癖対応データベース検索部３４は、抽出された語句のそれぞれについて、語句／癖対応データベース１６を検索し、検索した語句がこのデータベースに格納されているときは、対応する癖データコード番号（図４の「＃０００１」等）を呼び出すようにしてある。癖データコード番号が呼び出されたときは、これが形体癖模写部３５に送られる。

形体癖模写部３５は、癖データコード番号が与えられると、その癖データコード番号に割り付けられている部位別コード番号を読み出し、部位別コード番号で特定される動きをアクチュエータ群１３が行うように制御する。

同期制御部３６は、音声合成部３３によって合成された音声をスピーカから発声させる制御を行うとともに、発声しようとする語句が語句／癖対応データベース検索部３４によって検索された場合は、その語句の合成音声を発声する際に、対応する癖データコード番号によって特定される動きを行うように、形体癖模写部３５にアクチュエータ群１３を駆動させる。これにより発声と同期するようにして、ロボット装置１０が癖データに登録してある動きを行うようになる。

次に、語句／癖対応データベース形成装置２０について説明する。語句／癖対応データベース形成装置２０は、既述の通信装置２１の他に、マイク４１、カメラ４２、メモリ４３、制御部４７を搭載している。
マイク４１は、話者の音声を集音する。カメラ４２は、話者が話すときの体動や表情の映像を撮る。

メモリ４３は、語句の発音とその語句の綴りとを対応付けて登録してある辞書データ４４、語句／癖対応データベースを作成するときに参照する動作パターン抽出用データベース４５、話者ごと別々に作成された語句／癖対応データベース１６を記憶する話者別データベース格納部４６とを備えている。

図５は、動作パターン抽出用データベース４５に蓄積されているデータを説明する図である。動作パターン抽出用データベース４５には、頭、眼、右手、左手、胴体、右足、左足の各部ごとに、それぞれの部位がとりうる典型的な動き（静止も含む）や表情のパターンが登録してある。例えば、頭については「上下」「静止」の２つの動きのパターン、眼については「優しい目」「精悍な目」「厳しい目」「穏やかな目」の４つの表情のパターンが登録してある。また、右手、左手、胴体、右足、左足の各部についても、それぞれ図５に示した動きのパターンが登録してある。

さらに、それぞれの部位のとりうる動きや表情のパターンには部位別コード番号が割り当ててある。例えば、頭がとりうる「上下」の動きには「Ａ００１」、「静止」には「Ａ００２」が割り当てられ、眼がとりうる「優しい目」には「Ｂ００１」、「精悍な目」には「Ｂ００２」、「厳しい目」には「Ｂ００３」、「穏やかな目」には「Ｂ００４」が割り当てられ、また、右手、左手、胴体、右足、左足の各部にもそれぞれがとりうる動きに、部位別コード番号が割り当ててある。これらの部位別コード番号には、アクチュエータ群１３のうちで、それぞれの部位の動きや表情を表すために必要なアクチュエータに対する制御信号が付与してあり、部位別コード番号を指定することにより、それぞれの部位を動かすアクチュエータに対して対応する制御信号が送り出され、部位別コード番号に割り付けられた動きをとることができるようになっている。

話者別データベース格納部４６には、後述する制御部４７によって作成された話者ごとの語句／癖対応データベース１６が格納されるようにしてある。ここに格納された話者ごとの語句／癖対応データベース１６は、話者を指定することにより、いつでも利用できるようにしてある。例えば、図４で示した語句／癖対応データベース１６は、データベース格納部４６に格納された複数の話者についての語句／癖対応データベース１６うち、話者Ａについての語句／癖対応データベースの一部を取り出したものである。

制御部４７は、語句／癖対応データベース形成装置２０が実行する種々の処理を制御する。この制御動作を機能ごとのブロックに分類して説明すると、音声タイプライタ部５１、データベース格納用語句抽出部５２、特徴抽出部５３、語句／癖対応データベース作成部５４とからなる。

音声タイプライタ部５１では、マイク４１で集音した音の音声認識を行って活字化することにより、音声を文字に変換する。音声文字変換には、例えば、市販のソフトであるＩＢＭ社製「via voice」（登録商標）を用いることができる。

データベース格納用語句抽出部５２は、音声タイプライタ部５１により文字化した文章を、辞書データ４４を参照しながら形態素解析を行うことによって、その文章を語句ごとに分けて語句を抽出する。
特徴抽出部５３は、話者がある語句を発声したときに、カメラ４２により撮影した話者の映像から、その語句を発声するときの話者独特の人体各部の動きの特徴を抽出する。人体各部の動きの特徴を抽出する方法はいろいろあるが、例えば、モーショントラッカの技術を用い、人体の各部位にマーカを設けてその変動を追跡し、動作パターン抽出用データベース４５に予め登録された動きのパターンのデータ（図５参照）と照合して、各部位の動きのパターンを決定する。そして、図５に示した対応する部位別コード番号を決定する。

さらに、頭、眼、右手、左手、胴体、右足、左足の各部について、図５に示した動きのパターンから部位別コード番号の組を決定し、決定した部位別コード番号の組に対して、癖データのコード番号を設定する。
図６は、癖データのコード番号と部位別コード番号との対応を説明する図である。例えば、「こんにちは・・・」と発声したときの各部の動きを例として説明すると、頭が「上下」に動く状態である部位別コード番号「Ａ００１」、眼が「優しい目」である部位別コード番号「Ｂ００１」、右手が「静止」状態である部位別コード番号「Ｃ００１」、左手が「静止」状態である部位別コード番号「Ｄ００１」、胴体が「正面」を向いている状態である部位別コード番号「Ｅ００１」、右足が「静止」状態である部位別コード番号「Ｆ００１」、左足が「静止」状態である部位別コード番号「Ｇ００１」の組によって、全体の動き、表情が特定される。このときの部位別コード番号の組は、１つの癖データコード番号「＃０００１」として表される。
同様に、「このように・・・」と発声するときの各部の動きは、部位別コード番号「Ａ００２、Ｂ００２、Ｃ００２、Ｄ００１、Ｅ００１、Ｆ００１、Ｇ００１」の組によって特定され、この部位別コード番号の組は、１つの癖データコード番号「＃０００２」として表される。

語句／癖対応データベース作成部５４は、発声された語句とそのときの癖データコード番号とを関連付けたデータベースを作成する。すなわち、話者が発声した語句ごとに、特徴抽出部５３によって抽出された癖データコード番号を割り付けたデータベースを作成する。この作業を各語句について行うことにより、図４に示したような語句／癖データ対応データベースが形成される。また、図６に示したように、癖データコード番号と部位別コード番号の組とが対応付けられる。したがって語句（例えば語句「こんにちは・・・」）と、その語句が発声されるときの癖データコード番号（例えば「＃０００１」）と、その癖データコード番号に対応する部位別コード番号の組（（例えばＡ００１、Ｂ００１、Ｃ００１、Ｄ００１、Ｅ００１、Ｄ００１、Ｆ００１、Ｇ００１の組）とが関連つけられたデータベースが形成される。
作成された語句／癖対応データベースは、上述したように通信回線３０を介してロボット装置１０に転送され、利用されることになる。

次に、このロボット装置１０を用いるロボット装置システム全体の動作について説明する。
このシステムでは、第一段階として、語句／癖対応データベース形成装置２０により、語句／癖対応データベース１６を作成する。続いて、第二段階として、作成した語句／癖データベース１６をロボット装置１０に転送する。その後、第三段階として、ロボット装置１０に文章を入力することにより、音声（言語）と体動や表情などの動き（非言語）によるコミュニケーションを行う。

第一段階では、語句／癖対応データベース形成装置２０は、音声タイプライタ部５１により、マイク４１により集音した話者の音声を文字に変換する。そして、データベース格納用語句抽出部５２は、音声タイプライタ部５１により変換された文字から語句を抽出する。
一方、特徴抽出部５３は、マイク４１により話者の音声を集音する際に、同時にカメラ４２により話者の動作を撮影する。そして話者の映像から抽出された話者独特の身体各部の動きを、動作パターン抽出用データベース４５の動作パターンと照合し、話者独特の身体各部の動きを動作パターンの組として表すことにより、その話者独特の人体各部の動きの特徴をパターン化して抽出する。
そして、語句／癖データベース作成部５４が、話者が発する語句とその語句が発せられるときの話者独特の人体各部の動きのパターンとを関係付けた語句／癖対応データベース１６を作成し、話者別データベース格納部４６に格納する。同様の処理を他の話者についても繰り返すことにより、話者別データベース格納部４６に複数の語句／癖データベース１６を格納しておく。

第二段階では、ロボット装置１０から語句／癖対応データベース形成装置２０に対しアクセスし、話者別データベース格納部４６に記憶されているいずれかの話者の語句／癖対応データベース１６をダウンロードする。以上の動作により、ロボット装置１０は、選択した話者の癖データを備えたことになる。

第三段階では、文章入力部３１から聴衆に伝達しようとする文章を入力する。この文章は、語句／癖対応データベース１６のモデルとなった話者自身が作成した文章でもよいし、他人が作成した文章であってもよい。文章入力部３１への入力作業は、ロボット装置１０に付設された図示しない入力装置（キーボード等）から行ってもよいし、語句／癖対応データベース形成装置２０から通信回線３０を利用して送信してもよいし、別のパーソナルコンピュータから通信回線３０を利用して送信してもよい。

そして、入力された文章は、語句抽出部３２により語句ごとに分けられる。さらに音声合成部３３により、各語句からその語句を発声するときの合成音声が作成される。
これと同時に、語句／癖対応データベース検索部３４により、抽出された各語句について語句／癖対応データベース１６が検索される。
同期制御部３６は、音声合成部３３により合成された音声をスピーカ１２から発するとともに、その音声の語句が語句／癖対応データベース１６に登録されている場合に、その語句に対応する癖データに記憶された人体各部の動きを形体癖模写部３５により模写させて、スピーカ１２からの音声とアクチュエータ群１３による動きとが同期するようにして作動させる。

これにより、ロボット装置１０は、音声と、その音声を発するときに癖のある動きをとることにより、言語と非言語との双方による情報でコミュニケーションを行うようになる。

本発明は、プレゼンテーションや司会、落語などを、個性ある話者に代わって行うことができるロボット装置、ロボット装置システムを製造する場合に利用することができる。

本発明の一実施形態であるロボット装置システムの構成を示すブロック図。本発明の一実施形態であるロボット装置の構成を示すブロック図。本発明の一実施形態であるロボット装置システムに用いる語句／癖対応データベース形成装置の構成を示すブロック図。ロボット装置が使用する語句／癖対応データベースを説明する図。語句／癖対応データベース形成装置の動作パターン抽出用データベースを説明する図。癖データコード番号と部位別コード番号との対応を説明する図。

符号の説明

１０：ロボット装置
１１：通信装置
１２：スピーカ
１３：アクチュエータ群
１４：メモリ
１６：語句／癖対応データベース
１７：制御部
２０：語句／癖対応データベース形成装置
２１：通信装置
３０：通信回線
３１：文章入力部
３２：語句抽出部
３３：音声合成部
３４：語句／癖対応データベース検索部
３５：形体癖模写部
３６：同期制御部
４１：マイク
４２：カメラ
４３：メモリ
４５：動作パターン抽出用データベース
４６：話者別データベース格納部
４７：制御部
５１：音声タイプライタ部
５２：データベース格納用語句抽出部
５３：特徴抽出部
５４：語句／癖対応データベース作成部

Claims

人体型の外形を有するロボット装置の外形を構成する部分にそれぞれの部分に対応する人体各部分の動きと同様の動きを起こさせるアクチュエータ群と、音声を発するスピーカとを備えたロボット装置であって、
語句を文字で表した語句データと話者がその語句を発声するときに話者に生じる人体各部の動きの特徴を記憶した癖データとを関連付けて記憶する語句／癖対応データベースと、
癖データに記憶された人体各部の動きをアクチュエータ群の駆動によって模写する形体癖模写部と、
文章を入力する文章入力部と、
入力された文章に含まれる語句を抽出する語句抽出部と、
抽出された各語句について音声を合成する音声合成部と、
抽出された各語句について語句／癖対応データベースを検索する語句／癖対応データベース検索部と、
入力された文章の各語句について音声合成部により合成された音声をスピーカから発するとともに、その語句が語句／癖対応データベースに登録されている場合に、その語句に対応する癖データに記憶された人体各部の動きを形体癖模写部により模写させて音声と動きとを同期させる同期制御部とを備えたことを特徴とするロボット装置。
形態模写部は、アクチュエータ群の駆動により人体の頭、目、胴、手、足の動きをそれぞれ模写した動作を行うことを特徴とする請求項１に記載のロボット装置。
請求項１に記載された少なくとも１台以上のロボット装置と、ロボット装置が使用する語句／癖対応データベースを形成する語句／癖対応データベース形成装置と、語句／癖対応データベース形成装置により形成された語句／癖対応データベースを、通信回線を介してロボット装置に転送する通信手段とからなることを特徴とするロボット装置システム。
語句／癖対応データベース形成装置は、マイクにより集音した話者の音声を文字に変換する音声タイプライタ部と、
音声タイプライタ部により変換された文字から語句を抽出するデータベース格納用語句抽出部と、
人体各部がそれぞれとりうる一般的な動きの特徴を人体各部ごとに動作パターンとして登録した動作パターン抽出用データベースと、
話者の音声を集音する際に、同時にカメラにより撮影した話者の映像から抽出された話者独特の身体各部の動きを、動作パターン抽出用データベースの動作パターンと照合し、話者独特の身体各部の動きを動作パターンの組として表すことにより、その話者独特の人体各部の動きの特徴をパターン化して抽出する特徴抽出部と、
特徴抽出部により抽出された話者独特の人体各部の動きのパターンを、その動きがなされたときに話者が発する語句とを関係付けてデータベース化する語句／癖データベース作成部とを備えたことを特徴とする請求項３に記載のロボット装置システム。