JP2006142407A - ロボット装置およびロボット装置システム - Google Patents

ロボット装置およびロボット装置システム Download PDF

Info

Publication number
JP2006142407A
JP2006142407A JP2004332762A JP2004332762A JP2006142407A JP 2006142407 A JP2006142407 A JP 2006142407A JP 2004332762 A JP2004332762 A JP 2004332762A JP 2004332762 A JP2004332762 A JP 2004332762A JP 2006142407 A JP2006142407 A JP 2006142407A
Authority
JP
Japan
Prior art keywords
phrase
word
speaker
movement
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004332762A
Other languages
English (en)
Inventor
Akira Toyoshima
明 豊嶋
Makoto Yamada
誠 山田
Toshio Nishitani
俊男 西谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2004332762A priority Critical patent/JP2006142407A/ja
Publication of JP2006142407A publication Critical patent/JP2006142407A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Toys (AREA)
  • Manipulator (AREA)

Abstract

【課題】 特定の話者が音声を発する際の癖を表現することにより、話者が伝達しようとする情報を、聴衆に正確に理解させることができるロボット装置を提供する。
【解決手段】 人体各部分の動きと同様の動きを起こさせるアクチュエータ群13と、音声を発するスピーカ12とを備えたロボット装置10であって、入力された文章の各語句について音声合成部33により合成された音声をスピーカ12から発するとともに、その語句が語句/癖対応データベース34に登録されている場合に、その語句に対応する癖データに記憶された人体各部の動きを形体癖模写部35により模写させて音声と動きとを同期させる。
【選択図】図2

Description

本発明は、音声による言語情報とともに身振り手振り、表情などによる非言語情報を用いてコミュニケーションを行う人体型のロボット装置に関する。本ロボット装置は、例えば、プレゼンテーション、司会、落語、ゲーム等のような話者が言語を発するときにジェスチャが表れるコミュニケーションの場において用いられる。
玩具用、ゲーム用、民生用、産業用等種々の分野でロボットが用いられており、ロボットのなかには、ユーザとコミュニケーションを行うロボットが開発されている。
一般に、ロボットが人とのコミュニケーションにより情報を伝達しようとする際に、言語のみで相手方に伝えることができる情報内容は少ない。言語とともに非言語、すなわちジェスチャ(身振り・手振り)や表情などを駆使することによって、相手方に伝わる情報量が増大する。
そのため、伝達しようとする情報内容を音声のみで伝えるだけではなく、これに関連したジェスチャ・表情を同時にロボットに実行させることで、情報の伝達効率を高めることが行われている。
例えば、電子メール読み上げロボットにおいて、文章の内容を解析し、感情に関わる情報を抽出し、抽出された感情情報に対応した声やジェスチャを発現することが開示されている(特許文献1参照)。
特開2002−41411号公報
上述した従来例のように、ロボットが伝達しようとする文章の内容を解析し、文章中から感情に関わる情報を抽出し、抽出された感情情報に対応したジェスチャを音声とともに発現することで、音声と動作とにより、すなわち言語と非言語とにより、感情表現をすることができる。
しかしながら、ここでなされているロボットのジェスチャは、特定の感情表現に対応するジェスチャのみであり、しかもその動作は、ロボットに固定的に記憶されている喜怒哀楽に対する動作を、ジェスチャで表現するものである。
人がプレゼンテーション等で音声を発するときに生じるジェスチャは、千差万別であり、それぞれ癖がある。特定人物が音声を発する際のジェスチャは、その特定人物の癖を含むジェスチャで行われるのが好ましく、また、そのようなジェスチャがなされると、より一層正確に、情報を伝達することができる。また、特定人物のジェスチャは、感情表現についてだけ行われるのではなく、その他の一般的な表現についても、その特定人物の癖であるかぎりジェスチャが行われている。
そこで、本発明は、音声により情報を伝達するロボット装置において、音声を発する際の動きのなかに、特定の話者(プレゼンター等)の個性を表現することにより、話者が伝達しようとする情報を、聴衆に正確に理解させることができるロボット装置を提供することを目的とする。
また、個性ある話者のプレゼンテーション等は、人気があり、需要が多い。そこで、本発明は、人気ある話者の個性を備えたロボット装置による代替プレゼンテーションを、いつでも、どこでも実行することができるようにするロボット装置システムを提供することを目的とする。
また、本発明は、話者の癖を簡単に変更することができ、個性ある複数の話者のプレゼンテーションを、適宜選択して実現することができるロボット装置システムを提供することを目的とする。
上記課題を解決するためになされた本発明のロボット装置は、人体型の外形を有するロボット装置の外形を構成する部分にそれぞれの部分に対応する人体各部分の動きと同様の動きを起こさせるアクチュエータ群と、音声を発するスピーカとを備えたロボット装置であって、語句を文字で表した語句データと話者がその語句を発声するときに話者に生じる人体各部の動きの特徴を記憶した癖データとを関連付けて記憶する語句/癖対応データベースと、癖データに記憶された人体各部の動きをアクチュエータ群の駆動によって模写する形体癖模写部と、文章を入力する文章入力部と、入力された文章に含まれる語句を抽出する語句抽出部と、抽出された各語句について音声を合成する音声合成部と、抽出された各語句について語句/癖対応データベースを検索する語句/癖対応データベース検索部と、入力された文章の各語句について音声合成部により合成された音声をスピーカから発するとともに、その語句が語句/癖対応データベースに登録されている場合に、その語句に対応する癖データに記憶された人体各部の動きを形体癖模写部により模写させて音声と動きとを同期させる同期制御部とを備えるようにしている。
このロボット装置によれば、ロボット装置は、人体の体型に似た外形形状を有するロボット本体を有しており、ロボット本体の外形形状を構成する頭や手や足等の各部分は、それぞれアクチュエータにより人体の動きと同様の動きを行い、また、スピーカから音声を発することができるようにしてある。そして、語句/癖データベースには、特定の人が語句を発声するときに生じる動きの癖データを、その語句に関連付けて記憶してある。
文章入力部から文章が入力されると、語句抽出部は文章中に含まれる語句を抽出する。抽出された語句は、音声合成部と語句/癖対応データベース検索部とによって処理される。まず、音声合成部では、抽出された語句を音声に変換する。また、語句/癖対応データベース検索部は、その語句が語句/癖対応データベースに登録されているか検索する。
そして、同期制御部は、音声合成部で合成された音声をスピーカから発声させる制御を行うとともに、その語句が語句/癖対応データベースに登録されている場合に、その語句に対応する癖データに記憶された人体各部の動きを、形体癖模写部が模写するように制御し、音声と動きとが同期するようにして、ロボット装置を動作させる。これにより、ロボット装置は、入力された文章を、音声として発声するとともに、特定の人が音声を発するときに生じる形体癖を
真似た動きを実行する。
本発明によれば、伝達しようとする情報を文章として入力すれば、これを単に音声に変換して音声情報として伝達するだけではなく、特定の話者が音声を発するときの個性的な動作を真似ながら音声が発せられるので、その話者の姿を思い浮かべながら、音声を聞くことにより、話者の伝達しようとする情報を正確に理解することができる。
また、人気のある個性的な話者の代替プレゼンテーションを、いつでも、どこでも実行することができる。
また、語句/癖対応データベースを変更すれば話者の癖を簡単に変更することができ、個性ある話し方をする複数の話者の中から、適切な話者の癖を適宜選択することができる。
(その他の課題を解決するための手段および効果)
上記発明において、形態模写部は、アクチュエータ群の駆動により人体の頭、目、胴、手、足の動きをそれぞれ模写した動作を行うようにしてもよい。
ロボット装置が人間の頭、目、胴、手、足の動きをそれぞれ模写した動作を行うことにより、話者が発声するときの個性的な動きを、リアルに再現することができ、非言語による情報伝達を正確に伝達することができるとともに、個性ある話者の形体癖を真似た動作を見ることにより、聴衆の興味を引くことができる。
また、別の観点からなされた本発明のロボット装置システムは、少なくとも1台以上の上記発明にかかるロボット装置と、ロボット装置が使用する語句/癖対応データベースを形成する語句/癖対応データベース形成装置と、語句/癖対応データベース形成装置により形成された語句/癖対応データベースを、通信回線を介してロボット装置に転送する通信手段とからなるようにしている。
これによれば、個々のロボット装置とは独立した語句/癖対応データベース形成装置が、個性ある話者の癖を抽出して語句/癖対応データベースを形成する。形成された語句/癖対応データベースは、通信回線を介してロボット装置に転送される。したがって、個性ある話者の語句/癖対応データベースは、遠隔地からいつでもロボット装置に格納することができる。また、人気のある話者の語句/癖データベースを格納したロボット装置を、同時に複数台存在させることができる。
また、上記ロボット装置システムにおいて、語句/癖対応データベース形成装置は、マイクにより集音した話者の音声を文字に変換する音声タイプライタ部と、音声タイプライタ部により変換された文字から語句を抽出するデータベース格納用語句抽出部と、人体各部がそれぞれとりうる一般的な動きの特徴を人体各部ごとに動作パターンとして登録した動作パターン抽出用データベースと、話者の音声を集音する際に、同時にカメラにより撮影した話者の映像から抽出された話者独特の身体各部の動きを、動作パターン抽出用データベースの動作パターンと照合し、話者独特の身体各部の動きを動作パターンの組として表すことにより、その話者独特の人体各部の動きの特徴をパターン化して抽出する特徴抽出部と、特徴抽出部により抽出された話者独特の人体各部の動きのパターンを、その動きがなされたときに話者が発する語句とを関係付けてデータベース化する語句/癖データベース作成部とを備えるようにしてもよい。
これによれば、語句/癖対応データベース形成装置は、音声タイプライタ部がマイクにより集音した話者の音声を文字に変換する。そして、データベース格納用語句抽出部が、音声タイプライタ部によって音声から変換された文字を解析して語句を抽出する。一方、動作パターン抽出用データベースには、人体各部がそれぞれとりうる一般的な動きの特徴を人体各部ごとに動作パターンとして登録してある。
そして、特徴抽出部は、カメラにより撮影した話者の映像から、その話者独特の人体各部の動きの特徴を抽出し、動作パターン抽出用データベースに登録された人体各部の動作パターンと照合することにより、話者独特の身体各部の動きを動作パターンの組として表し、これを癖データとしてパターン化する。 語句/癖データベース作成部は、作成された癖データとその動きがなされたときの音声とを関連付けてデータベース化する。
このようにして、語句/癖対応データベース形成装置は、特定の話者が語句を発声するときの独特の動きを、語句/癖対応データベースとして作成することができる。
以下、本発明のロボット装置、および、このロボット装置を用いたシステムについて、図面を参照しつつ説明する。
図1は本発明の一実施形態であるロボット装置システムの全体構成を示すブロック図であり、図2は図1のシステムで使用されるロボット装置の構成を示すブロック図であり、図3は図1のシステムで使用される語句/癖対応データベース形成装置の構成を示すブロック図である。
図1に示すように、このシステムは複数(3台)のロボット装置10(ロボット1、ロボット2、ロボット3)、語句/癖対応データベース形成装置20、ロボット装置10と語句/癖対応データベース形成装置20との間でデータ送受信を行う通信回線30とから構成される。
通信回線30は、データ送受信ができればどのようなものでもよく、例えばインターネット通信回線が用いられ、ロボット装置10、語句/癖対応データベース形成装置20には、それぞれインターネット接続のためのモデム等の通信装置11、21が搭載されている。これら通信回線30と通信装置11、21とを用いて、ロボット装置10から語句/癖対応データベース形成装置20へアクセスすることにより、後述する語句/癖対応データベース16のデータを、いつでもどこでもダウンロードできるようにしてある。また、3台のロボット装置10は、それぞれが独立に語句/癖対応データベース形成装置20へアクセスすることができ、所望の語句/癖対応データベース16をダウンロードすることができるようにしてある。
ロボット装置10は、図1に示すようにその外形が人体型の形状、すなわち頭部、胴体、左手、右手、左足、右足、さらには眼、口を有する形状をしている。そして、ロボット装置11の内部には、上述した通信装置11の他に、図2に示すように、スピーカ12、アクチュエータ群13(13a〜13g)、メモリ14、制御部17を搭載している。
スピーカ12は、ロボット装置10の口の位置に取り付けてあり、あたかも口から発声しているかのようにして音声を出すようにしてある。
アクチュエータ群13は、ロボット装置10が人体の動きを真似た動きを行うことができるように、ロボット装置の各部に取り付けてある。各部のアクチュエータは、それぞれ、頭部アクチュエータ13a、眼部アクチュエータ13b、右手アクチュエータ13c、左手アクチュエータ13d、体部アクチュエータ13e、右足アクチュエータ13f、左足アクチュエータ13gとして分類される。
メモリ14には、多数の語句がその発音とともに登録された辞書データ15が格納されているとともに、ある語句とその語句が発声されるときに生じる人体の動きである癖とを関連つけて蓄積した語句/癖対応データベース16が格納してある。この語句/癖対応データベース16は、後述する語句/癖対応データベース形成装置20から、インターネット通信回線30を介してロボット装置10に送ることができるようにしてある。
図4は、語句/癖対応データベース16に格納されたデータの一部を示した説明図である。語句/癖対応データベース16には、ある特定の話者Aがデータベースに登録されている1つ1つの語句を発声するときに生じる頭、眼、右手、左手、胴体、右足、左足の動き(体動、表情)が癖データとして記録されている。例えば、話者Aが「こんにちは・・・」と発声するときには、頭が上下に移動し、眼はやさしい眼になり、右手および左手は静止し、胴体は正面を向き、右足および左足は静止する動きを、無意識のうちに行っている。これら各部位の個々の動きが部位別コード番号(図中「A001」は頭が「上下」移動するときの部位別コード番号、「B001」は眼がやさしい目になるとき、「C001」は右手が静止するとき、「D001」は左手が静止するとき、「E001」は胴体が正面を向くとき、「F001」は右足が静止するとき、「G001」は左足が静止するときの部位別コード番号)としてコード化され、さらに一組の部位別コード番号の組(図中「A001、B001、C001、D001、E001、D001、F001、G001」の組)に対して1つの癖データコード番号(図中「#0001」)が割り付けられ、対応する語句データ(図中「こんにちは・・・」)に関連付けて登録してある。
この癖データコード番号は、アクチュエータ群13がとりうる1つの状態に対応しており、この癖データコード番号を呼び出すと、アクチュエータ群13は、その癖データ番号に割り付けられている部位別コード番号の組で特定される各部位の動き(例えば「A001、B001、C001、D001、E001、D001、F001、G001」の組で特定される動き)を再現することができるようになっている。
制御部17は、ロボット装置10が実行する種々の動作を制御する。この制御動作を機能ごとのブロックに分類して説明すると、文章入力部31、語句抽出部32、音声合成部33、語句/癖対応データベース検索部34、形体癖模写部35、同期制御部36とからなる。
文章入力部31は、ロボット装置10が搭載している図示しない入力機器(キーボード、ディスク読取装置)からキー入力、あるいはフロッピディスク、CD、DVDなどの記録媒体から入力された文章ファイル、あるいは、外部からインターネット通信回線30を介して送信されてきた文章ファイルからの文章を入力する。入力された文章は、制御部17の各部で以下に説明する処理がなされる。
語句抽出部32は、文章入力部31から読み込まれた文章に対し、辞書データ15を参照しながらいわゆる形態素解析を行うことによって、その文章を語句ごとに分け、語句を抽出する。
音声合成部33は、辞書データ15の発音データを参照して、抽出した語句の音声を合成する。
語句/癖対応データベース検索部34は、抽出された語句のそれぞれについて、語句/癖対応データベース16を検索し、検索した語句がこのデータベースに格納されているときは、対応する癖データコード番号(図4の「#0001」等)を呼び出すようにしてある。癖データコード番号が呼び出されたときは、これが形体癖模写部35に送られる。
形体癖模写部35は、癖データコード番号が与えられると、その癖データコード番号に割り付けられている部位別コード番号を読み出し、部位別コード番号で特定される動きをアクチュエータ群13が行うように制御する。
同期制御部36は、音声合成部33によって合成された音声をスピーカから発声させる制御を行うとともに、発声しようとする語句が語句/癖対応データベース検索部34によって検索された場合は、その語句の合成音声を発声する際に、対応する癖データコード番号によって特定される動きを行うように、形体癖模写部35にアクチュエータ群13を駆動させる。これにより発声と同期するようにして、ロボット装置10が癖データに登録してある動きを行うようになる。
次に、語句/癖対応データベース形成装置20について説明する。語句/癖対応データベース形成装置20は、既述の通信装置21の他に、マイク41、カメラ42、メモリ43、制御部47を搭載している。
マイク41は、話者の音声を集音する。カメラ42は、話者が話すときの体動や表情の映像を撮る。
メモリ43は、語句の発音とその語句の綴りとを対応付けて登録してある辞書データ44、語句/癖対応データベースを作成するときに参照する動作パターン抽出用データベース45、話者ごと別々に作成された語句/癖対応データベース16を記憶する話者別データベース格納部46とを備えている。
図5は、動作パターン抽出用データベース45に蓄積されているデータを説明する図である。動作パターン抽出用データベース45には、頭、眼、右手、左手、胴体、右足、左足の各部ごとに、それぞれの部位がとりうる典型的な動き(静止も含む)や表情のパターンが登録してある。例えば、頭については「上下」「静止」の2つの動きのパターン、眼については「優しい目」「精悍な目」「厳しい目」「穏やかな目」の4つの表情のパターンが登録してある。また、右手、左手、胴体、右足、左足の各部についても、それぞれ図5に示した動きのパターンが登録してある。
さらに、それぞれの部位のとりうる動きや表情のパターンには部位別コード番号が割り当ててある。例えば、頭がとりうる「上下」の動きには「A001」、「静止」には「A002」が割り当てられ、眼がとりうる「優しい目」には「B001」、「精悍な目」には「B002」、「厳しい目」には「B003」、「穏やかな目」には「B004」が割り当てられ、また、右手、左手、胴体、右足、左足の各部にもそれぞれがとりうる動きに、部位別コード番号が割り当ててある。これらの部位別コード番号には、アクチュエータ群13のうちで、それぞれの部位の動きや表情を表すために必要なアクチュエータに対する制御信号が付与してあり、部位別コード番号を指定することにより、それぞれの部位を動かすアクチュエータに対して対応する制御信号が送り出され、部位別コード番号に割り付けられた動きをとることができるようになっている。
話者別データベース格納部46には、後述する制御部47によって作成された話者ごとの語句/癖対応データベース16が格納されるようにしてある。ここに格納された話者ごとの語句/癖対応データベース16は、話者を指定することにより、いつでも利用できるようにしてある。例えば、図4で示した語句/癖対応データベース16は、データベース格納部46に格納された複数の話者についての語句/癖対応データベース16うち、話者Aについての語句/癖対応データベースの一部を取り出したものである。
制御部47は、語句/癖対応データベース形成装置20が実行する種々の処理を制御する。この制御動作を機能ごとのブロックに分類して説明すると、音声タイプライタ部51、データベース格納用語句抽出部52、特徴抽出部53、語句/癖対応データベース作成部54とからなる。
音声タイプライタ部51では、マイク41で集音した音の音声認識を行って活字化することにより、音声を文字に変換する。音声文字変換には、例えば、市販のソフトであるIBM社製「via voice」(登録商標)を用いることができる。
データベース格納用語句抽出部52は、音声タイプライタ部51により文字化した文章を、辞書データ44を参照しながら形態素解析を行うことによって、その文章を語句ごとに分けて語句を抽出する。
特徴抽出部53は、話者がある語句を発声したときに、カメラ42により撮影した話者の映像から、その語句を発声するときの話者独特の人体各部の動きの特徴を抽出する。人体各部の動きの特徴を抽出する方法はいろいろあるが、例えば、モーショントラッカの技術を用い、人体の各部位にマーカを設けてその変動を追跡し、動作パターン抽出用データベース45に予め登録された動きのパターンのデータ(図5参照)と照合して、各部位の動きのパターンを決定する。そして、図5に示した対応する部位別コード番号を決定する。
さらに、頭、眼、右手、左手、胴体、右足、左足の各部について、図5に示した動きのパターンから部位別コード番号の組を決定し、決定した部位別コード番号の組に対して、癖データのコード番号を設定する。
図6は、癖データのコード番号と部位別コード番号との対応を説明する図である。例えば、「こんにちは・・・」と発声したときの各部の動きを例として説明すると、頭が「上下」に動く状態である部位別コード番号「A001」、眼が「優しい目」である部位別コード番号「B001」、右手が「静止」状態である部位別コード番号「C001」、左手が「静止」状態である部位別コード番号「D001」、胴体が「正面」を向いている状態である部位別コード番号「E001」、右足が「静止」状態である部位別コード番号「F001」、左足が「静止」状態である部位別コード番号「G001」の組によって、全体の動き、表情が特定される。このときの部位別コード番号の組は、1つの癖データコード番号「#0001」として表される。
同様に、「このように・・・」と発声するときの各部の動きは、部位別コード番号「A002、B002、C002、D001、E001、F001、G001」の組によって特定され、この部位別コード番号の組は、1つの癖データコード番号「#0002」として表される。
語句/癖対応データベース作成部54は、発声された語句とそのときの癖データコード番号とを関連付けたデータベースを作成する。すなわち、話者が発声した語句ごとに、特徴抽出部53によって抽出された癖データコード番号を割り付けたデータベースを作成する。この作業を各語句について行うことにより、図4に示したような語句/癖データ対応データベースが形成される。また、図6に示したように、癖データコード番号と部位別コード番号の組とが対応付けられる。したがって語句(例えば語句「こんにちは・・・」)と、その語句が発声されるときの癖データコード番号(例えば「#0001」)と、その癖データコード番号に対応する部位別コード番号の組((例えばA001、B001、C001、D001、E001、D001、F001、G001の組)とが関連つけられたデータベースが形成される。
作成された語句/癖対応データベースは、上述したように通信回線30を介してロボット装置10に転送され、利用されることになる。
次に、このロボット装置10を用いるロボット装置システム全体の動作について説明する。
このシステムでは、第一段階として、語句/癖対応データベース形成装置20により、語句/癖対応データベース16を作成する。続いて、第二段階として、作成した語句/癖データベース16をロボット装置10に転送する。その後、第三段階として、ロボット装置10に文章を入力することにより、音声(言語)と体動や表情などの動き(非言語)によるコミュニケーションを行う。
第一段階では、語句/癖対応データベース形成装置20は、音声タイプライタ部51により、マイク41により集音した話者の音声を文字に変換する。そして、データベース格納用語句抽出部52は、音声タイプライタ部51により変換された文字から語句を抽出する。
一方、特徴抽出部53は、マイク41により話者の音声を集音する際に、同時にカメラ42により話者の動作を撮影する。そして話者の映像から抽出された話者独特の身体各部の動きを、動作パターン抽出用データベース45の動作パターンと照合し、話者独特の身体各部の動きを動作パターンの組として表すことにより、その話者独特の人体各部の動きの特徴をパターン化して抽出する。
そして、語句/癖データベース作成部54が、話者が発する語句とその語句が発せられるときの話者独特の人体各部の動きのパターンとを関係付けた語句/癖対応データベース16を作成し、話者別データベース格納部46に格納する。同様の処理を他の話者についても繰り返すことにより、話者別データベース格納部46に複数の語句/癖データベース16を格納しておく。
第二段階では、ロボット装置10から語句/癖対応データベース形成装置20に対しアクセスし、話者別データベース格納部46に記憶されているいずれかの話者の語句/癖対応データベース16をダウンロードする。以上の動作により、ロボット装置10は、選択した話者の癖データを備えたことになる。
第三段階では、文章入力部31から聴衆に伝達しようとする文章を入力する。この文章は、語句/癖対応データベース16のモデルとなった話者自身が作成した文章でもよいし、他人が作成した文章であってもよい。文章入力部31への入力作業は、ロボット装置10に付設された図示しない入力装置(キーボード等)から行ってもよいし、語句/癖対応データベース形成装置20から通信回線30を利用して送信してもよいし、別のパーソナルコンピュータから通信回線30を利用して送信してもよい。
そして、入力された文章は、語句抽出部32により語句ごとに分けられる。さらに音声合成部33により、各語句からその語句を発声するときの合成音声が作成される。
これと同時に、語句/癖対応データベース検索部34により、抽出された各語句について語句/癖対応データベース16が検索される。
同期制御部36は、音声合成部33により合成された音声をスピーカ12から発するとともに、その音声の語句が語句/癖対応データベース16に登録されている場合に、その語句に対応する癖データに記憶された人体各部の動きを形体癖模写部35により模写させて、スピーカ12からの音声とアクチュエータ群13による動きとが同期するようにして作動させる。
これにより、ロボット装置10は、音声と、その音声を発するときに癖のある動きをとることにより、言語と非言語との双方による情報でコミュニケーションを行うようになる。
本発明は、プレゼンテーションや司会、落語などを、個性ある話者に代わって行うことができるロボット装置、ロボット装置システムを製造する場合に利用することができる。
本発明の一実施形態であるロボット装置システムの構成を示すブロック図。 本発明の一実施形態であるロボット装置の構成を示すブロック図。 本発明の一実施形態であるロボット装置システムに用いる語句/癖対応データベース形成装置の構成を示すブロック図。 ロボット装置が使用する語句/癖対応データベースを説明する図。 語句/癖対応データベース形成装置の動作パターン抽出用データベースを説明する図。 癖データコード番号と部位別コード番号との対応を説明する図。
符号の説明
10:ロボット装置
11:通信装置
12:スピーカ
13:アクチュエータ群
14:メモリ
16:語句/癖対応データベース
17:制御部
20:語句/癖対応データベース形成装置
21:通信装置
30:通信回線
31:文章入力部
32:語句抽出部
33:音声合成部
34:語句/癖対応データベース検索部
35:形体癖模写部
36:同期制御部
41:マイク
42:カメラ
43:メモリ
45:動作パターン抽出用データベース
46:話者別データベース格納部
47:制御部
51:音声タイプライタ部
52:データベース格納用語句抽出部
53:特徴抽出部
54:語句/癖対応データベース作成部

Claims (4)

  1. 人体型の外形を有するロボット装置の外形を構成する部分にそれぞれの部分に対応する人体各部分の動きと同様の動きを起こさせるアクチュエータ群と、音声を発するスピーカとを備えたロボット装置であって、
    語句を文字で表した語句データと話者がその語句を発声するときに話者に生じる人体各部の動きの特徴を記憶した癖データとを関連付けて記憶する語句/癖対応データベースと、
    癖データに記憶された人体各部の動きをアクチュエータ群の駆動によって模写する形体癖模写部と、
    文章を入力する文章入力部と、
    入力された文章に含まれる語句を抽出する語句抽出部と、
    抽出された各語句について音声を合成する音声合成部と、
    抽出された各語句について語句/癖対応データベースを検索する語句/癖対応データベース検索部と、
    入力された文章の各語句について音声合成部により合成された音声をスピーカから発するとともに、その語句が語句/癖対応データベースに登録されている場合に、その語句に対応する癖データに記憶された人体各部の動きを形体癖模写部により模写させて音声と動きとを同期させる同期制御部とを備えたことを特徴とするロボット装置。
  2. 形態模写部は、アクチュエータ群の駆動により人体の頭、目、胴、手、足の動きをそれぞれ模写した動作を行うことを特徴とする請求項1に記載のロボット装置。
  3. 請求項1に記載された少なくとも1台以上のロボット装置と、ロボット装置が使用する語句/癖対応データベースを形成する語句/癖対応データベース形成装置と、語句/癖対応データベース形成装置により形成された語句/癖対応データベースを、通信回線を介してロボット装置に転送する通信手段とからなることを特徴とするロボット装置システム。
  4. 語句/癖対応データベース形成装置は、マイクにより集音した話者の音声を文字に変換する音声タイプライタ部と、
    音声タイプライタ部により変換された文字から語句を抽出するデータベース格納用語句抽出部と、
    人体各部がそれぞれとりうる一般的な動きの特徴を人体各部ごとに動作パターンとして登録した動作パターン抽出用データベースと、
    話者の音声を集音する際に、同時にカメラにより撮影した話者の映像から抽出された話者独特の身体各部の動きを、動作パターン抽出用データベースの動作パターンと照合し、話者独特の身体各部の動きを動作パターンの組として表すことにより、その話者独特の人体各部の動きの特徴をパターン化して抽出する特徴抽出部と、
    特徴抽出部により抽出された話者独特の人体各部の動きのパターンを、その動きがなされたときに話者が発する語句とを関係付けてデータベース化する語句/癖データベース作成部とを備えたことを特徴とする請求項3に記載のロボット装置システム。
JP2004332762A 2004-11-17 2004-11-17 ロボット装置およびロボット装置システム Pending JP2006142407A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004332762A JP2006142407A (ja) 2004-11-17 2004-11-17 ロボット装置およびロボット装置システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004332762A JP2006142407A (ja) 2004-11-17 2004-11-17 ロボット装置およびロボット装置システム

Publications (1)

Publication Number Publication Date
JP2006142407A true JP2006142407A (ja) 2006-06-08

Family

ID=36622661

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004332762A Pending JP2006142407A (ja) 2004-11-17 2004-11-17 ロボット装置およびロボット装置システム

Country Status (1)

Country Link
JP (1) JP2006142407A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008080431A (ja) * 2006-09-27 2008-04-10 Advanced Telecommunication Research Institute International ロボットシステム
WO2011111910A1 (en) * 2010-03-11 2011-09-15 Korea Institute Of Science And Technology Telepresence robot, telepresence system comprising the same and method for controlling the same
JP2011245618A (ja) * 2010-05-28 2011-12-08 Compal Communications Inc 自動装置とその制御方法
JP2017520139A (ja) * 2014-05-08 2017-07-20 サブ−インテリジェンス ロボティクス(エスアイアール) コーポレーション(ホンコン) リミテッド エンドポイントミキシングシステムおよびその再生方法
JP2018075657A (ja) * 2016-11-08 2018-05-17 富士通株式会社 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
JP2019144732A (ja) * 2018-02-19 2019-08-29 日本電信電話株式会社 動作指示生成システム、方法およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008080431A (ja) * 2006-09-27 2008-04-10 Advanced Telecommunication Research Institute International ロボットシステム
WO2011111910A1 (en) * 2010-03-11 2011-09-15 Korea Institute Of Science And Technology Telepresence robot, telepresence system comprising the same and method for controlling the same
JP2011245618A (ja) * 2010-05-28 2011-12-08 Compal Communications Inc 自動装置とその制御方法
TWI416289B (zh) * 2010-05-28 2013-11-21 Compal Communications Inc 自動機械裝置及其控制方法
US8666549B2 (en) 2010-05-28 2014-03-04 Compal Communications, Inc. Automatic machine and method for controlling the same
JP2017520139A (ja) * 2014-05-08 2017-07-20 サブ−インテリジェンス ロボティクス(エスアイアール) コーポレーション(ホンコン) リミテッド エンドポイントミキシングシステムおよびその再生方法
JP2018075657A (ja) * 2016-11-08 2018-05-17 富士通株式会社 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
JP2019144732A (ja) * 2018-02-19 2019-08-29 日本電信電話株式会社 動作指示生成システム、方法およびプログラム

Similar Documents

Publication Publication Date Title
AU2018204246B2 (en) Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
CN108492817B (zh) 一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统
JP2607561B2 (ja) スピーチ同期アニメーション
JP5616325B2 (ja) ユーザ命令に基づいて表示を変更する方法
CN113454708A (zh) 语言学风格匹配代理
JP2002358095A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP2007183421A (ja) 音声合成装置
WO2019160104A1 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
Lim et al. Towards expressive musical robots: a cross-modal framework for emotional gesture, voice and music
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
Wang et al. Computer-assisted audiovisual language learning
Aylett et al. Building and designing expressive speech synthesis
US20210005218A1 (en) Nonverbal information generation apparatus, method, and program
Hrúz et al. Automatic fingersign-to-speech translation system
Malcangi Text-driven avatars based on artificial neural networks and fuzzy logic
Lin et al. A face robot for autonomous simplified musical notation reading and singing
JP2006142407A (ja) ロボット装置およびロボット装置システム
JP2005004107A (ja) 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置
JPH0772888A (ja) 情報処理装置
Maarif et al. Survey on language processing algorithm for sign language synthesizer
HOLT et al. Why Don’t You See What I Mean? Prospects and limitations of current automatic sign recognition research
Zorić et al. Real-time language independent lip synchronization method using a genetic algorithm
Tornay Explainable Phonology-based Approach for Sign Language Recognition and Assessment
Freng et al. Trends in speech and language processing [in the spotlight]
JP2002318590A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体