JP2018001403A

JP2018001403A - 音声と仮想動作を同期させる方法、システムとロボット本体

Info

Publication number: JP2018001403A
Application number: JP2017133167A
Authority: JP
Inventors: ナンチユウ; Nan Qiu; ハオフエンワン; Haofen Wang
Original assignee: Shenzhen Gowild Robotics Co Ltd
Current assignee: Shenzhen Gowild Robotics Co Ltd
Priority date: 2016-07-07
Filing date: 2017-07-06
Publication date: 2018-01-11
Anticipated expiration: 2037-07-06
Also published as: CN106471572B; JP6567609B2; WO2018006369A1; CN106471572A

Abstract

【課題】音声と仮想動作を同期させる方法、システム及びロボットを提供することで、マンマシンインタラクション体験を向上させる。【解決手段】ユーザのマルチモード情報の取得、ユーザのマルチモード情報と可変パラメータに基づき、音声情報と動作情報を含むインタラクション内容の生成、音声情報の時間長と動作情報の時間長に対する同期調整を含む音声と仮想動作を同期させる。ユーザの音声、表情、動作などのマルチモード情報によって、インタラクション内容を生成し、また音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長に等しいに調整し、ロボットは音声と動作の再生時に同期的マッチさせ、ロボットは音声表現や動作などの多種類の表現方法でインタラクションをすることができ、ロボットの表現方法を多様化にし、それにより、ロボットはもっと擬人化され、ユーザがロボットとのインタラクション体験も向上した。【選択図】図１

Description

本発明はロボットインタラクション技術分野に関し、特には音声と仮想動作を同期させる方法、システム及びロボット本体に関するものである。

ロボットは人類と対話するツールとして、使用する場合が次第に多くなっており、例えばある老人、子供は孤独を感じる時に、ロボットと対話、娯楽などのインタラクションができるようになった。従来のマンマシンインタラクション技術は一般的に、一種類のマンマシンインタラクションモードしか支持できない、例えばユーザに機械的な返事だけができ、せいぜい返事によって限りのある表情をすることにすぎない。市販の児童コンパニオンロボットは、設定された四、五種類しかできなく、こられの簡単な表情は出力された音声と同期させる必要はない。

然も、ユーザがロボットの使用体験に対する要求の向上に伴い、ロボットには、音声で返事すると同時に、もっと擬人化に相応する表情と動作ができることなど、マルチモードで人類と対話する能力の具備は必要となってきた。同時に二種類やその以上の出力方法で人類と対話するために、ロボットは何種類の出力方法を同期させる必要がある。「はい」と言う同時に「うなずく」、「いえ」と言う同時に「首を振る」、怒っている時に目を大きく見開き口を尖らせることなど。そうしてこそ、人類はロボットとのインタラクションから夢中になれるインタラクション体験を得、向かい合う対象が対話可能であるように感じることができる。

ところが、音声と動作がマッチできないと、ユーザのインタラクション体験に甚大な影響を及ぼしてしまう。然しながら、仮想ロボットが返事する内容に含まれる音声と表情などの仮想動作を如何なる同期させるかはかなり複雑な課題であって、ロボット工学、心理学、社会科学など複数の学科に関するものである。それではこの課題の解決が目前に迫っている厄介なものであり、今まで上記課題を比較的よく解決したシステムはまだない。

本発明は音声と仮想動作を同期させる方法、システム及びロボットを提供することで、マンマシンインタラクション体験を向上させることを目的とする。

本発明の目的は下記技術様態で実現される：
音声と仮想動作を同期させる方法であって、
ユーザのマルチモード情報の取得と、
ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容の生成と、
音声情報の時間長と動作情報の時間長に対する同期調整を含むことを特徴とする音声と仮想動作を同期させる方法。

好ましくは、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。

好ましくは、音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は／及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長と同じようにする。

好ましくは、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合は、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。

好ましくは、音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長が前記音声情報の時間と同じようにする。

好ましくは、前記ロボットの可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータを整合し、それにより、ロボット可変パラメータを生成することを含む。

好ましくは、前記可変パラメータは少なくともユーザ本来の行為の変更と変更後の行為、及びユーザ本来の行為の変更と変更後の行為を表すパラメータの値を含む。

好ましくは、マルチモード情報と可変パラメータによってインタラクション内容を生成する前記ステップは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成することを含む。

好ましくは、前記パラメータ変更確率整合曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸の場面パラメータが変えた後、生活時間軸になるロボットの各パラメータが変化する確率を計算して、前記パラメータ変化確率の整合曲線を形成することを含む。

音声と仮想動作を同期させるシステムは、
ユーザのマルチモード情報を取得するための取得モジュール、
ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成するための人工知能モジュール、
音声情報の時間と動作情報の時間を同じように調節するための制御モジュールを含む。

好ましくは、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合には、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報の再生速度を速め、それにより、動作情報の時間長を前記音声情報の時間長と同じようにする。

好ましくは、音声情報の時間長が動作情報の時間長より大きいであれば、音声情報の再生速度を速める又は／及び動作情報の再生速度を落とし、それにより、動作情報の時間長を前記音声情報の時間長と同じようにする。

好ましくは、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであれば、少なくとも二組の動作情報を順序付けて組み合わせ、それにより、動作情報の時間長を前記音声情報の時間長と同じようにする。

好ましくは、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報における一部の動作を選択して、これらの動作の時間長を前記音声情報の時間長と同じようにする。

好ましくは、前記システムはまた、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータと整合し、それにより、ロボット可変パラメータを生成する処理モジュールを含む。

好ましくは、前記可変パラメータは少なくともユーザの本来の行為と変更後の行為、及びユーザの本来の行為と変更後の行為を表すパラメータの値を含む。

好ましくは、前記人工知能モジュールは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成する。

好ましくは、前記システムは、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸の場面パラメータが変えた後、生活時間軸にあるロボットの各パラメータが変化する確率を計算して、前記パラメータ変更確率の整合曲線を形成する整合曲線生成モジュールを含む。

本発明は上記のいずれかに記載の音声と仮想動作を同期させるシステムを含むロボットを開示する。

本発明は音声と仮想動作を同期させるシステムを開示し、マイク、アナログデジタルコンバータ、音声識別プロセッサ、画像取得装置、顔認識プロセッサ、音声合成装置、パワーアンプ、スピーカー、イメージングシステム、インタラクション内容プロセッサ及びメモリを含む。

前記マイク、前記アナログデジタルコンバータ、前記音声識別プロセッサと前記インタラクション内容プロセッサは順次に接続され、前記画像取得装置、前記顔認識プロセッサと前記インタラクション内容プロセッサは順次に接続され、前記インタラクション内容プロセッサは前記メモリと接続され、前記インタラクション内容プロセッサ、前記音声合成装置、前記パワーアンプ及び前記スピーカーは順次に接続され、前記イメージングシステムは前記インタラクション内容プロセッサと接続され、
前記マイクはユーザとロボットが対話する際に、ユーザの音声信号の取得に用い、前記アナログデジタルコンバータは、前記音声信号の音声デジタル情報への転換に用い、前記音声識別プロセッサは、前記音声デジタル情報を文字情報に転化する上で、前記意図識別プロセッサへの入力に用い、
前記画像取得装置はユーザがいる画像の取得に用い、前記顔認識プロセッサはユーザがいる画像からユーザの表情情報を識別し取得して、前記意図識別プロセッサへの入力に用い、
前記インタラクション内容プロセッサは、少なくとも前記文字情報と表情情報を含むユーザのマルチモード情報、及び前記メモリに記憶されている可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調整することに用い、
前記イメージングシステムは前記動作情報によって仮想３Ｄ映像を生成し、前記スピーカーは前記音声情報を同時に再生することを特徴する音声と仮想動作を同期させる方法。

好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。

好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は／及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長と同じようにする。

好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合は、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。

好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長が前記音声情報の時間長と同じようにする。

好ましくは、ロボット可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータと整合することを介して、ロボット可変パラメータを生成することを含む。

好ましくは、前記可変パラメータは少なくともユーザの本来行為と変更後の行為、及びユーザの本来行為と変更後の行為を表すパラメータの値を含む。

好ましくは、前記マルチモード情報と可変パラメータによってインタラクション内容を生成するステップは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成することを含む。

好ましくは、前記パラメータ変更確率整合曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、時間軸の場面パラメータが変えた後、生活時間軸にあるロボットの各パラメータが変化する確率を計算して、前記パラメータ変更確率の整合曲線を形成することを含む。

従来のマンマシンインタラクション技術は一般に、一種類のマンマシンインタラクションモードだけを支持でき、或いは種類に限りのある表情を出すしかない、例えば、市販の児童コンパニオンロボットは、設定された四、五種類の表情しかできない。
従来技術と比べると、本発明は、音声と仮想動作を同期させる方法を提供し、それがユーザのマルチモード情報の取得、ユーザのマルチモード情報と可変パラメータによって、少なくとも音声情報と動作情報を含むインタラクション内容の生成、音声情報の時間長と動作情報の時間長に対する同期調節を含むという利点を有する。そうすればユーザの音声、表情、動作などのマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、また音声情報と動作情報を同期させるためには、音声情報の時間と動作情報の時間長を同じように調節し、それによりロボットが音声と動作を再生する時に同期マッチすることが可能になり、ロボットが音声表現のみならず、また動作などさまざまな表現形式で対話でき、ロボットの表現形式を多様化し、且つ生成したロボットの動作、表情は数種や十数種に限られなく、その代わり、動作ライブラリにおける動作グリップによって任意に組み合わせることが可能で、ロボットはもっと擬人化になるだけでなく、ユーザがロボットとのインタラクションの体験も向上した。

図１は本発明実施例１の音声と仮想動作を同期させる方法の流れを示すフロー図である。図２は本発明実施例２の音声と仮想動作を同期させるシステムを示す図である。図３は本発明実施例３の音声と仮想動作を同期させるシステムの回路フレーム図である。図４は本発明実施例３の音声と仮想動作を同期させるシステムの好ましい回路フレーム図である。図５は本発明実施例３の音声と仮想動作を同期させるシステムをウェアラブルデバイスと結合することを示す図である。図６は本発明実施例３の本発明実施例３の音声と仮想動作を同期させるシステムを移動端末と結合することを示す図である。図７は本発明実施例３の音声と仮想動作を同期させるシステムをロボットと結合する応用場面を示す図である。

フロー図で各操作が順序に処理されるように説明したが、その中に多くの操作は並列、合併又は同時に実行できる。各操作の順序を改めて配置することもできる。操作を完成した時には処理を中止できるが、図面に含まず追加ステップを含有してもよい。該処理は方法、関数、規則、サブルーチン、サブプログラムなどに対応することができる。

コンピュータデバイスはユーザデバイスとネットワークデバイスを含む。ここにおいて、ユーザデバイスやクライアントはコンピュータ、スマートフォン、ＰＤＡなどを含むがそれらには限定されなく、ネットワークデバイスはシングルネットワークサーバー、マルチネットワークサーバーからなるサーバーグループ又はクラウドコンピューティングに基づいて数多いコンピュータやネットワークサーバーで構成されるクラウドを含むがそれらには限定されない。コンピュータデバイスは独立運行で本発明を実現してもよく、ネットワークにアクセスして且つそこにおける他のコンピュータデバイスとのインタラクション操作を介して、本発明を実現してもよい。コンピュータデバイスがあるネットワークはインターネット、広域ネットワーク、メトロポリタンエリアネットワーク、ローカルエリアネットワーク、ＶＰＮネットワークなどを含むが、それらには限定されない。

ここで、「第一」、「第二」などの専門用語で各ユニットを説明したかもしれないが、これらのユニットはこれらの専門用語に限られなく、これらの専門用語の使用はただ一つのユニットを別のユニットと区別するためだけである。ここで用いる専門用語「及び／又は」は一つや複数の列挙した関連プロジェクトの任意と全部の組み合わせを含む。一つのユニットがもう一つのユニットに「接続」や「結合」された時には、それが前記もう一つのユニットに直接的接続や結合されてもよいが、中間ユニットに存在してもよい。

ここで使用する専門用語はただ具体的な実施例を説明するだけで、例示的実施例を限定することはしない。テキストで別に明示されたもの以外は、使用した単数形「一つ」、「一項」はまた複数を含むことを図っている。なお、理解すべきなのは、ここで使用する「含む」及び／又は「含有する」という専門用語が説明した特徴、整数、ステップ、操作、ユニット及び／又はモジュールの存在を規定するが、一つや更に多い他の特徴、整数、ステップ、操作、ユニット、モジュール及び／又は組み合わせの存在や追加を取り除くわけではない。
下記、図面と優れた実施例を結合して本発明をもっと詳細に説明する。

実施形態１
図１に示すように、本実施例は音声と仮想動作を同期させる方法を開示し、それは、
ユーザのマルチモード情報を取得するステップS101、
ユーザのマルチモード情報と可変パラメータ３００に基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成するステップS102、
音声情報の時間と動作情報の時間を同じように調節するステップS103を含むことを特徴とする。

本発明の音声と仮想動作を同期させる方法は、ユーザのマルチモード情報の取得、ユーザのマルチモード情報と可変パラメータによって、少なくとも音声情報と動作情報を含むインタラクション内容の生成、音声情報の時間と動作情報の時間に対する同期調節を含む。それにより、ユーザの音声、表情、動作などのマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、また音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調節し、それによりロボットは音声と動作を再生する時に同期マッチすることが可能になり、ロボットは音声表現のみならず、また動作などさまざまな表現形式で対話でき、ロボットの表現形式を多様化し、ロボットがもっと擬人化になる他、ユーザがロボットとのインタラクションの体験も向上した。

本実施例におけるマルチモード情報はユーザの表情情報、音声情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報、虹彩情報、光感知情報や指紋情報などの一種や多種類としてもよい。

本実施例において、可変パラメータは具体的に、例えば、時間軸における一日の生活が食事する、眠る、対話する、走る、食事する、眠ることなど、人類とロボットに発生した突発変化を指す。そういう状況では、ロボットの場面を突然に変えると、例えば走る時間帯に海辺につれるなど、人類のロボットに対する主導的パラメータを可変パラメータとして、これらの変化はロボットの自己認識を変える傾向がある。生活時間軸と可変パラメータは気持ちの値、疲労値などの自己認識における属性を変更できる他、新たな自己認識情報を自動に添加することできる、例えば、ここまで怒り値がないため、生活時間軸と可変素子に基づく場面は、この前の情報に基づいて人類の自己認識の場面を模擬し、それでロボットの自己認識を添加する。

例えば、生活時間軸に従って、午前１２時は食事すべき時間であるが、もしこの場面を変えると、例えば午前１２時にショッピングに行ったら、ロボットはこれをそのうちの一つの可変パラメータとして記入し、この時間帯にユーザがロボットと対話する時、ロボットは、以前に午前１２時に食事することのではなく、午前１２時にショッピングに行くことを結合してインタラクション内容を生成することとなった、具体的なインタラクション内容を生成する時には、ロボットが取得したユーザの音声情報、ビデオ情報、画像情報などのマルチモード情報を結合して、可変パラメータを生成する。そうすると人類の生活に突発した事件をロボットの時間軸に追加でき、それによりロボットを更に擬人化にする。

本実施例においては、前記音声情報の時間と動作情報の時間長を同じように調節するステップが具体的に、
音声情報の時間と動作情報の時間長との差が閾値以下にある場合に、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報の再生速度を速めることで、動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。

音声情報の時間長が動作情報の時間長より大きいであれば、音声情報の再生速度を速める又は／及び動作情報の再生速度を落とすことで、動作情報の時間長を前記音声情報の時間長と同じようにする。

そのために、音声情報と動作情報との時間差が閾値より大きいである場合、調節の具体的な意味は音声情報の時間又は／及び動作情報の時間長を圧縮や延長し、また再生速度を速める又は落とすことを指してもよい。例えば音声情報の再生速度を２にかけ、それとも動作情報の再生時間を０．８にかけるなど。

例えば、音声情報の時間長と動作情報の時間長との閾値は１分である場合、ロボットはユーザのマルチモード情報に基づいて生成するインタラクション内容においては、音声情報の時間が１分で、動作情報の時間が２分である場合、動作情報の再生速度を元の二倍に速め、それで動作情報が調節された後の再生時間は１分になり、それにより音声情報と同期する。勿論、音声情報の再生速度を本来の０．５倍に調節してもよく、それにより音声情報の調節された後の再生時間は２分になり、それで動作情報と同期する。なお、音声情報と動作情報とともに調節してもよく、例えば音声情報の速度を落とすと同時に、動作情報を速め、両者とも１分３０秒まで調節することも、音声と動作を同期させることが可能となる。

その他、本実施例において、前記音声情報の時間長と動作情報の時間長を同じように調節する具体的なステップは、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであれば、少なくとも二組の動作情報を順序付けて組み合わせることで、動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。

音声情報の時間長が動作情報の時間長より小さいである場合、動作情報における一部の動作を選択することで、それらの動作の時間長を前記音声情報の時間長と同様にする。

そのために、音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合、調節は一部の動作情報を追加や削除することを指し、それにより、動作情報の時間長を音声情報の時間長と同様にする。

例えば、音声情報の時間長と動作情報の時間長との閾値が３０秒であると、ロボットはユーザのマルチモード情報に基づいて生成したインタラクション内容においては、音声情報の時間が３分で、動作情報の時間が１分であれば、他の動作情報を本来の動作情報に加える必要となり、例えば時間が２分である動作情報を見つけて、上記二組の動作情報を組み合わせると音声情報の時間長と同様にマッチできる。勿論、もし時間が２分である動作情報の代わりに、２分半である動作情報を見つけた場合は、この２分半の動作情報から、選択された動作情報の時間が２分であるように一部の動作（一部のフレーム）を選択し、そうすると音声情報の時間長を同様にマッチできる。

本実施例においては、音声情報の時間長によって、音声情報の時間長と最も近い動作情報の選択、更に動作情報の時間長によって最も近い音声情報の選択も可能である。

そうすると、音声情報の時間長による選択を介して、制御モジュールは音声情報と動作情報の時間長を調節しやすくなり、もっと容易に一致まで調節でき、且つ調節された再生もより自然で、平滑になった。

その中の一つの実施例によって、音声情報の時間長と動作情報の時間長を同じように調節するステップに続いて、調節された後の音声情報と動作情報を仮想映像に出力して表示することを含む。

そうすると一致するまで調節した後に出力でき、仮想映像での出力が可能であるため、それにより、仮想ロボットはもっと擬人化になり、ユーザ体験は向上した。

そのうちの一つの実施例によって、前記ロボットの可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータを整合して、ロボット可変パラメータを生成することを含む。そうすると可変パラメータを結合したロボットの場面において、ロボット本体の自己認識を拡大し、自己認識にあるパラメータを可変パラメータ用場面パラメータを整合し、擬人化の影響をもたらす。

そのうちの一つの実施例によって、前記可変パラメータは少なくともユーザ本来の行為の変更と変更後の行為、及びユーザ本来の行為の変更と変更後の行為を表すパラメータの値を含む。

可変パラメータは即ち、本来の計画にそっては特定の状態にあるべきが、突発した変化でユーザが別の状態に入り、可変パラメータはこの行為や状態の変化、及び変化後ユーザの状態や行為を表す。例えば、午後５時に走るべきであるが、突然ボールゲームをするなどの他の用事があって、走ることからボールゲームをすることへの変更は可変パラメータになり、それにこの変更が発生する確率を研究すべきである。

そのうちの一つの実施例によって、前記マルチモード情報と可変パラメータに基づいてインタラクション内容を生成するステップは具体的に、マルチモード情報と可変パラメータ及びパラメータ変更確率の整合曲線によってインタラクション内容を生成することを含む。

そうすると可変パラメータの確率訓練を経由して整合曲線を生成でき、それによりロボットインタラクション内容を生成できる。

そのうちの一つの実施例によって、前記パラメータ変更確率の制御曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸にあるロボットが時間軸の場面パラメータが変えた後、その各パラメータが変化する確率を計算して、整合曲線を形成することを含む。ここにおいて、確率アルゴリズムはベイズ確率アルゴリズムを使用してもよい。

可変パラメータを結合したロボットの場面において、ロボット本体を自己認識を拡大し、自己認識におけるパラメータを可変パラメータ用場面パラメータと整合して、擬人化の影響をもたらす。同時に、場所場面の識別を添えることで、ロボットは自分がある地理位置を分かり、その地理環境に基づいて、インタラクション内容を生成する様態を変更する。なお、ベイズ確率アルゴリズムの使用は、ロボット間のパラメータ確率をベイズネットワークで推定し、生活時間軸にあるロボット本体の時間軸場面パラメータが変化された後、各パラメータが変える確率を計算し、整合曲線を形成して、ロボット本体の自己認識を動的に影響する。そういう創造的なモジュールはロボットが人類の生活スタイルを持つようにし、表情については、ある場所場面に従って、表情を変化することが可能になる。

実施形態２
図２に示すように、本発明に開示した音声と仮想動作を同期させるシステムは、
ユーザのマルチモード情報を取得するための取得モジュール２０１と、
ユーザのマルチモード情報、及び可変パラメータモジュール２０５で生成された可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成するための人工知能モジュール２０２と、
音声情報の時間長と動作情報の時間長を同じように調節する制御モジュール２０３を含む。

そうすると、ユーザの音声、表情、動作などの一種や多種類を含むユーザのマルチモード情報に基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調節し、それによりロボットが音声と動作を再生する時に同時にマッチできるようになり、ロボットが音声表現のみならず、また動作などのさまざまな表現形式で対話できるようになり、ロボットの表現方法を多様化し、ロボットはもっと擬人化になり、ユーザのインタラクション体験を向上させた。

本実施例において、可変パラメータは具体的に、例えば時間軸における一日の生活が食事する、眠る、対話する、走る、食事する、眠ることなど、人類とロボットに発生した突発変化を指す。そういう状況では、ロボットの場面を突然に変えると、例えば走る時間帯にロボットを海辺につれるなど、人類のロボットに対する主導的パラメータを可変パラメータとして、これらの変化はロボットの自己認識を変える傾向がある。生活時間軸と可変パラメータは気持ちの値、疲労値などの自己認識における属性を変更できる他、新たな自己認識情報を自動に添加することができる、例えば、ここまで怒り値はないため、生活時間軸と可変素子に基づく場面は、この前の情報に基づいて人類の自己認識の場面を模擬し、それでロボットの自己認識を添加する。

本実施例において、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合に、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報の再生速度を速めることで、動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。

そのため、音声情報と動作情報との時間差が閾値より大きいである場合に、調節の具体的な意味は音声情報の時間長又は／及び動作情報の時間長を圧縮や延長し、また再生速度を速める又は落とすことをさしてもよい。例えば音声情報の再生速度を２にかけ、それとも動作情報の再生時間を０．８にかけるなど。

例えば、音声情報の時間長と動作情報の時間長との閾値は１分で、ロボットがユーザのマルチモード情報に基づいて生成するインタラクション内容においては、音声情報の時間長が１分で、動作情報の時間長が２分である場合、動作情報の再生速度を元の二倍に速めてもよく、それで動作情報の調節後の再生時間は１分になり、それにより音声情報と同期する。勿論、音声情報の再生速度を本来の０．５倍に調節してもよく、それにより音声情報の調節後の再生時間は２分になり、それで動作情報と同期する。なお、音声情報と動作情報とともに調節してもよく、例えば音声情報の速度を落とすと同時に、動作情報を速め、両者とも１分３０秒まで調節することも、音声と動作を同期させることが可能となる。

その他、本実施例において、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであれば、少なくとも二組の動作情報を順序付けて組み合わせることで、動作情報の時間長を前記音声情報の時間長と同じようにする。

音声情報の時間長が動作情報の時間長より小さいである場合、動作情報における一部の動作を選択することで、それらの動作の時間長を前記音声情報の時間と同様にする。

そのために、音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合、調節する意味は一部の動作情報を追加や削除することで、動作情報の時間長を音声情報の時間長と同様にする。

本実施例において、人工知能モジュールは具体的に、音声情報の時間長によって、音声情報の時間長と最も近い動作情報の選択、更に動作情報の時間長によって最も近い音声情報の選択に使用しても可能である。

そうすると、音声情報の時間長による選択を介して、制御モジュールは音声情報と動作情報の時間長を調節しやすくなり、もっと容易に一致するまで調節でき、且つ調節された再生もより自然で、平滑になった。

その中の一つの実施例によって、前記システムはまた、調節後の音声情報と動作情報を仮想映像に出力して表示するための出力モジュール２０４を含む。

そうすると一致するまで調節した後出力することは、仮想映像による出力としてよく、それにより、仮想ロボットを擬人化し、ユーザ体験を向上した。

そのうちの一つの実施例によって、前記システムはまた、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータと整合して、可変パラメータを生成するための処理モジュールを含む。

そうすると、可変パラメータを結合したロボットの場面において、ロボット本体の自己認識を拡大し、自己認識にあるパラメータを可変パラメータ用場面パラメータに整合し、擬人化の影響をもたらす。

そのうちの一つの実施例によって、前記人工知能モジュールは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成する。

そうすると、可変パラメータの確率訓練を経由して制御曲線を生成でき、それによりロボットインタラクション内容を生成できる。

そのうちの一つの実施例によって、前記システムは確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸にあるロボットが時間軸の場面パラメータが変えた後、その各パラメータが変化する確率を計算して、前記パラメータ変化確率の整合曲線を形成するための整合曲線生成モジュールを含む。ここにおいて確率アルゴリズムはベイズ確率アルゴリズムであってもよい。

可変パラメータを結合したロボットの場面において、ロボット本体を自己認識を拡大し、自己認識におけるパラメータを可変パラメータ用場面パラメータに整合し、擬人化の影響をもたらす。同時に、場所場面の識別を添えることで、ロボットは自分がある地理位置を分かり、その地理環境に基づいて、インタラクション内容を生成する様態を変更する。なお、ベイズ確率アルゴリズムの使用は、ロボット間のパラメータ確率をベイズネットワークで推定し、生活時間軸にあるロボット本体の時間軸場面パラメータが変化された後、各パラメータが変える確率を計算し、整合曲線を形成して、ロボット本体の自己認識を動的に影響する。そういう創造的なモジュールはロボットが人類の生活スタイルを持つようにし、表情については、ある場所場面に従って、表情を変化することが可能になる。

本発明はロボット本体を開示し、上記のいずれかに記載の音声と仮想動作を同期させるシステムを含む。

実施形態３
図３に示すように、本実施例は音声と仮想動作を同期させるシステム３００を開示し、マイク３０１、アナログデジタルコンバータ３０２、音声識別プロセッサ３０３、画像取得装置３０４、顔認識プロセッサ３０５、インタラクション内容プロセッサ３０６、音声合成装置３０７、パワーアンプ３０８、スピーカー３０９、イメージングシステム３１０及びメモリ３１１を含む。

前記マイク３１０、前記アナログデジタルコンバータ３０２、前記音声識別プロセッサ３０３と前記インタラクション内容プロセッサ３０６は順次に接続され、前記画像取得装置３０４、前記顔認識プロセッサ３０５と前記インタラクション内容プロセッサ３０６は順次に接続され、前記インタラクション内容プロセッサ３０６はメモリ３１１と接続され、前記インタラクション内容プロセッサ３０６、音声合成装置３０７、前記パワーアンプ３０８及び前記スピーカー３０９は順次に接続され、前記イメージングシステム３１０はインタラクション内容プロセッサ３０６と接続される。

前記マイク３１０はユーザとロボットが対話する際に、ユーザの音声信号を取得することに用い、前記アナログデジタルコンバータ３０２は前記音声信号を音声デジタル情報に転換することに用い、前記音声識別プロセッサ３０３は前記音声デジタル情報を文字情報に転化する上で、前記インタラクション内容プロセッサ３０６に入力することに用いる。

前記画像取得装置３０４はユーザがいる画像の取得に用い、前記顔認識プロセッサ４０５はユーザがいる画像から、ユーザの表情情報を識別し取得して前記インタラクション内容プロセッサ３０６に入力することに用いる。画像取得装置３０４はビデオカメラ、カメラなどとしてもよいが、ユーザの表情情報を識別する他、またユーザのいる環境、ユーザの手振り情報なども識別し、これらの情報をインタラクション内容プロセッサ３０６への入力としてもよく、それにより、生成したインタラクション内容はユーザの現在の需要によりよく合う。

前記インタラクション内容プロセッサ３０６は、少なくとも前記文字情報と前記表情情報を含むユーザのマルチモード情報と、前記メモリ３１１に記憶した可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調節することに用いる。ここにおいて、まずはユーザのマルチモード情報と可変パラメータに基づいてインタラクション内容の音声情報を生成し、それによってメモリ３１１の動作ライブラリから適切な動作グリップを選択し、適切な遷移動作を追加して完全の動作情報を完成する。

ここにおいて、可変パラメータは少なくともユーザ本来の行為の変更と変更後の行為、及びユーザ本来の行為の変更と変更後の行為を表すパラメータの値を含む。可変パラメータは具体的に、例えば時間軸における一日の生活が食事する、眠る、対話する、走る、食事する、眠ることなど、人類とロボットに発生した突発変化を指す。そういう状況では、ロボットの場面を突然に変えると、例えば走る時間帯にロボットを海辺につれるなど、人類のロボットに対する主導的パラメータを可変パラメータとして、これらの変化はロボットの自己認識を変える傾向がある。生活時間軸と可変パラメータは気持ちの値、疲労値などの自己認識における属性を変更できる他、新たな自己認識情報を自動に添加できる、例えば、ここまで怒り値はないため、生活時間軸と可変素子に基づく場面は、この前の情報に基づいて人類の自己認識の場面を模擬し、それでロボットの自己認識を添加する。例えば、生活時間軸に従って、午前１２時は食事すべき時間であるが、もしこの場面を変えると、例えば午前１２時にショッピングに行ったら、ロボットはこれをそのうちの一つの可変パラメータとして記入し、この時間帯にユーザがロボットと対話する時、ロボットは、以前に午前１２時に食事することのではなく、午前１２時にショッピングに行くことを結合してインタラクション内容を生成することとなった、具体的なインタラクション内容を生成する時には、ロボットが取得したユーザの音声情報、ビデオ情報、画像情報などのマルチモード情報を結合して、可変パラメータを生成する。そうすると人類の生活に突発した事件をロボットの時間軸に追加でき、それによりロボットを更に擬人化にする。

インタラクション内容プロセッサ３０６には、音声情報の時間長と動作情報の時間長を同じように調節する具体的なステップが、音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより、動作情報の時間長を前記音声情報の時間長に等しいにし、音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は／及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長に等しいにする。

例えば、音声情報の時間長と動作情報の時間長との閾値は１分である場合、ロボットはユーザのマルチモード情報に基づいて生成するインタラクション内容においては、音声情報の時間が１分で、動作情報の時間が２分である場合、動作情報の再生速度を元の二倍に速め、それで動作情報の調節された後の再生時間は１分になり、それにより音声情報と同期する。勿論、音声情報の再生速度を本来の０．５倍まで落としてもよく、それにより音声情報が調節された後の再生時間は２分になり、それで動作情報と同期する。なお、音声情報と動作情報とともに調節してもよく、例えば音声情報の速度を落とすと同時に、動作情報を速め、両者とも１分３０秒まで調節することも、音声と動作を同期させることが可能となる。

ここにおいて、インタラクション内容プロセッサ３０６には、音声情報の時間と動作情報の時間と同じように調節する具体的なステップが、音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長に等しいにし、音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長を前記音声情報の時間長に等しいにすることを含む。

例えば、音声情報の時間長と動作情報の時間長との閾値が３０秒であると、ロボットはユーザのマルチモード情報に基づいて生成したインタラクション内容においては、音声情報の時間が３分で、動作情報の時間が１分であれば、他の動作情報を本来の動作情報に加える必要となり、例えば時間が２分である動作情報を見つけて、上記二組の動作情報を組み合わせると音声情報の時間と同様にマッチできる。勿論、もし時間が２分である動作情報の代わりに、2分半である動作情報を見つけた場合は、この２分半の動作情報から、選択された動作情報の時間が２分であるように一部の動作（一部のフレーム）を選択し、そうすると音声情報の時間長を同様にマッチできる。

イメージングシステム３１０は前記インタラクション内容に基づいて仮想３Ｄ映像を生成し、スピーカー３０９はインタラクション内容に基づいて音声信号を同期に放送する。ここで、イメージングシステム３１０は普通のディスプレイとしてもよく、ホログラフィック投影装置としてもよく、それにより表示したロボットの立体感と真実性を増加し、ユーザの体験を高める。

メモリ３１１はインタラクション内容プロセッサ３０６が操作する時に用いるデータの記憶に用いられることが可能である。選択できるのは、インタラクション内容プロセッサ３１１はCPU（中央処理装置）、ASIC（Application Specific Integrated Circuit、特定用途向け集積回路）、FPGA（Field Programmable Gate Array、フィールドプログラマブルゲートアレイ）やCPLD（Complex Programmable Logic Device、コンプレックスプログラマブルロジックデバイス）としてもよい。

図４に示すように、本実施例に開示された音声と動作を同期させるシステム３００はまた複数のセンター３１３を含み、該センサー３１３はユーザのいくつかの生理信号を取得し、信号プリプロセッサ３１４によって生理信号を前処理した後生理パラメータを得、且つ生理パラメータをインタラクション内容プロセッサー３０６に送信する。相応的に、インタラクション内容プロセッサ３１１は文字情報、表情情報、生理パラメータによってインタラクション内容を生成し、インタラクション内容にある動作情報をイメージングシステム３１０に送信し、インタラクション内容にある音声情報をスピーカー３０９に送信する。

音声と仮想動作を同期させるシステム３００におけるセンサー３１３は光センサー、虹彩認識センサー、指紋取得センサー、温度センサー、心拍数センサーなどを含むがそれらには限定されなく、それにより、ユーザの光感知情報、虹彩情報、指紋情報、体温情報、心拍数情報などにおける一種や多種類の生理信号を含むマルチモード情報を豊富にする。

本実施例にはマイク３０１、画像取得装置３０４、センサー３１３が取得し出力する情報をマルチモード情報と総称する。

本実施例の音声と仮想動作を同期させるシステム３００によっては、ユーザのマルチモード情報を取得でき、前記マルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調節できる。それにより、ユーザの音声、表情、動作などを含むマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、また音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調整し、それによりロボットは音声と動作を再生する時に同期マッチできるようになり、ロボットは音声表現のみならず、また動作などのさまざまな表現形式で対話でき、ロボットの表現形式を多様化し、ロボットがもっと擬人化になる他、ユーザのインタラクション体験も向上した。

図５に示すように、一部のセンサー３１３は音声と仮想動作を同期させるシステム３００と一体に集積され、一部のセンサー３１３はウェアラブルデバイス４００に集積されることが可能である、例えば温度センサー、心拍数センサーをスマートリストバンドに集積し、無線通信装置によって取得した情報を音声と仮想動作を同期させるシステム３００におけるインタラクション内容プロセッサ３０６に送信する。図５はただ音声と仮想動作を同期させるシステム３００における無線通信装置とインタラクション内容プロセッサ３０６との接続関係を表示するだけで、音声と仮想動作を同期させるシステム３００における他の接続関係は図３と図４に例示された。

システム３００はまた、ロボットの可変パラメータを生成するための可変パラメータプロセッサを含み、具体的には、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータに整合して、ロボット可変パラメータを生成することを含む。そうすると可変パラメータを結合したロボットの場面において、ロボット本体の自己認識を拡大し、自己認識にあるパラメータを可変パラメータ用場面パラメータに整合し、擬人化の影響をもたらす。

ここにおいて、前記マルチモード情報と可変パラメータに基づいて、インタラクション内容を生成するステップは具体的に、マルチモード情報と可変パラメータ及びパラメータ変更確率の整合曲線によってインタラクション内容を生成することを含む。そうすると可変パラメータの確率訓練を経由して整合曲線を生成でき、それによりロボットインタラクション内容を生成できる。

ここにおいて、前記パラメータ変更確率の制御曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸にあるロボットが時間軸の場面パラメータが変えた後、その各パラメータが変化する確率を計算して、整合曲線を形成することを含む。ここにおいて、確率アルゴリズムはベイズ確率アルゴリズムを使用してもよい。

本実施例に開示されたシステム３００はまた無線通信装置３１４を含み、図６に示すように、無線通信装置３１４はインタラクション内容プロセッサ３０６と接続され、インタラクション内容プロセッサ３０６はインタラクション内容を移動端末５００まで送信し、移動端末５００は動作情報によって仮想３Ｄ映像を生成し、且つ移動端末５００のスピーカーによって音声情報同時に再生する。図６はただ音声と仮想動作を同期させるシステム３００における無線通信装置とインタラクション内容プロセッサ３１１との接続関係を表示するだけで、音声と仮想動作を同期させるシステム３００における他の接続関係は図３と図４に例示された。

本実施例に開示された仮想ロボットの音声と仮想動作を同期させるシステム３００は、多方面でロボットの人類と対話する形式を豊富にし、ロボットがもっと擬人化に人類と対話でき、該システムはロボットが生成したインタラクション内容の擬人性、及び人類のインタラクション体験を向上させ、且つインテリジェント性を高めることができる。

図７に示すように、音声と仮想動作を同期させるシステム３００はまたロボット６００の内部に集積されてもよく、ロボット６００に備えられた音声取得装置６１２、ビデオカメラ６１１、各種類のセンサー（図４に表示されない）、ＧＰＳナビゲーション装置（図４に表示されない）などによってユーザのマルチモード情報を取得して、インタラクション内容プロセッサ３０６に送信でき、例えば、ユーザがロボットをある場所に連れる時に、ＧＰＳナビゲーション装置を介してユーザがいる位置情報が得られ、そうして生活時間軸と結合することで可変パラメータを得、且つロボット本体の自己認識を拡大し、自己認識パラメータと可変パラメータにおける応用場面パラメータを整合して、擬人化の影響をもたらす。

インタラクション内容プロセッサ３０６はメモリ３１１に記憶されたプログラムの読み取り、下記プロセスを実行することに用いる：ユーザのマルチモード情報を取得し、ユーザのマルチモード情報と可変パラメータによって、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を等しいにしｈ、音声情報と動作情報が同様になるように、出力時間長を調節する。インタラクション内容プロセッサ３０６から出力された音声情報はロボット６００の音声システム６１３で再生され、ロボット６００のホストコントローラによって、インタラクション内容プロセッサ３０６から出力された動作情報をロボットのそれぞれの関節の制御信号まで転化し、ロボットのそれぞれの関節６１４の運動を制御し、それにより、ロボット６００を音声と同期する動作をさせ、例えば、ロボット６００のヘッドの内側における関節によってヘッドの横向け揺れ、前後の振り、及びうなずく動作を制御し、ロボットの運動を制御する具体的な方法は従来技術であるため、本文で詳細に説明しない。インタラクション内容プロセッサ３０６で処理されたデータを、無線通信装置３１４を経由して、無線媒質で伝送し、更に、無線通信装置３１４はまた、データを受信してからそれをインタラクション内容プロセッサ３０６に転送し、ロボット６００は無線通信装置３１４によってインターネットにアクセスできる他、またインターネットによってユーザのさまざまなデータを取得やアップロードすることができ、また無線通信装置３１４を介してユーザの移動端末にアクセスし、ロボットと対話するやロボットに対して、各種類の設定をすることができる。

音声と仮想動作を同期させるシステムも電子デバイス端末をキャリアとして、ソフトウェアを経由して実現でき、スマートフォンによるキャリアで例示すると、情報取得装置はスマートフォンに既存している音声取得装置、ビデオカメラ、各種類のセンサー、ＧＰＳナビゲーション装置などを再利用して、ユーザのマルチモード情報を取得し、且つスマートフォンに内蔵したプロセッサに送信した後、プロセッサはメモリーに記憶されたプログラムを読み取り、下記プロセスを実行する：ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調節し、音声情報と動作情報が同様になるように、出力時間長を調節する。スマートフォンのスクリーンで仮想ロボットの動作を表示し、スピーカーで音声を同時に再生する。スマートフォンの無線通信モジュールによって外部のデバイスやネットワークと接続され、データインタラクションを完成する。

本実施例の音声と仮想動作を同期させるシステムは、ユーザの音声、表情、動作などを含むマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調整し、それにより、ロボットは音声と動作を再生する時に同期マッチすることが可能になり、ロボットは音声表現のみならず、また動作などの多種類の表現形式で対話でき、ロボットの表現形式を多様化し、ロボットがもっとり擬人化になる他、ユーザがロボットとのインタラクション体験も向上した。

上記内容は具体的な好ましい実施様態を結合した上で、本発明に対する更に詳細な説明であるが、本発明の具体的な実施例がこれらの説明に限定されるわけではない。当業者にとっては、本発明の精神から脱逸しない前提で、上記実施様態にさまざまな変更・改良を加えることが可能であって、本発明の保護範囲に属するべきである。

Claims

音声と仮想動作を同期させる方法であって、
ユーザのマルチモード情報の取得、
ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容の生成、
音声情報の時間長と動作情報の時間長に対する同期調整を含む
ことを特徴とする音声と仮想動作を同期させる方法。
音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは、具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより動作情報の時間長を前記音声情報の時間長に等しいにすることを含む
ことを特徴とする請求項１に記載の方法。
音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は／及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長に等しいにする
ことを特徴とする請求項２に記載の方法。
音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは、具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合は、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長に等しいにすることを含む
ことを特徴とする請求項１に記載の方法。
音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長が前記音声情報の時間に等しいにする
ことを特徴とする請求項４に記載の方法。
前記ロボットの可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータに整合することで、ロボット可変パラメータを生成することを含む
ことを特徴とする請求項１に記載の方法。
前記可変パラメータは少なくともユーザの本来の行為と変更した後の行為、及びユーザの本来の行為と変更した後の行為を表すパラメータを含む
ことを特徴とする請求項６に記載の方法。
マルチモード情報と可変パラメータに基づいてインタラクション内容を生成する前記ステップは、具体的に、
マルチモード情報と可変パラメータ及びパラメータの変更確率を表す整合曲線によってインタラクション内容を生成することを含む
ことを特徴とする請求項１に記載の方法。
パラメータ変更確率の整合曲線を生成する前記方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸の場面パラメータが変えた後、生活時間軸にあるロボットの各パラメータが変化する確率を計算して、前記パラメータ変更確率の整合曲線を形成することを含む
ことを特徴とする請求項８に記載の方法。
音声と仮想動作を同期させるシステムであって、
ユーザのマルチモード情報を取得する取得モジュールと、
ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成する人工知能モジュールと、
前記音声情報の時間長と動作情報の時間長を同じように調整する制御モジュールとを含む
ことを特徴とするシステム。
ロボットであって、請求項１０に記載の音声と仮想動作を同期させるシステムを含むことを特徴とするロボット。
音声と仮想動作を同期させるシステムであって、マイク、アナログデジタルコンバータ、音声識別プロセッサ、画像取得装置、顔認識プロセッサ、音声合成装置、パワーアンプ、スピーカー、イメージングシステム、インタラクション内容プロセッサ及びメモリを含み、
前記マイク、前記アナログデジタルコンバータ、前記音声識別プロセッサと前記インタラクション内容プロセッサは順次に接続され、前記画像取得装置、前記顔認識プロセッサと前記インタラクション内容プロセッサは順次に接続され、前記インタラクション内容プロセッサは前記メモリと接続され、前記インタラクション内容プロセッサ、前記音声合成装置、前記パワーアンプ及び前記スピーカーは順次に接続され、前記イメージングシステムは前記インタラクション内容プロセッサと接続され、
前記マイクはユーザとロボットが対話する際にユーザの音声信号の取得に用い、前記アナログデジタルコンバータは前記音声信号の音声デジタル情報への転換に用い、前記音声識別プロセッサは前記音声デジタル情報を文字情報に転化する上で前記意図識別プロセッサへの入力に用い、
前記画像取得装置はユーザがいる画像の取得に用い、前記顔認識プロセッサはユーザがいる画像からユーザの表情情報を識別し取得して前記意図識別プロセッサへの入力に用い、
前記インタラクション内容プロセッサは、少なくとも前記文字情報と表情情報を含むユーザのマルチモード情報、及び前記メモリに記憶されている可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調整することに用い、
前記イメージングシステムは前記動作情報によって仮想３Ｄ映像を生成し、前記スピーカーは前記音声情報を同時に再生する、
ことを特徴する音声と仮想動作を同期させる方法。
前記インタラクション内容プロセッサにおいて、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは、具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより動作情報の時間長を前記音声情報の時間長と同じようにする
ことを含む、ことを特徴とする請求項１に記載の方法。
前記インタラクション内容プロセッサにおいて、音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は／及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長と同じようにする
ことを特徴とする請求項１３に記載の方法。
前記インタラクション内容プロセッサにおいて、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは、具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合は、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む
ことを特徴とする請求項１に記載の方法。
前記インタラクション内容プロセッサにおいて、音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長が前記音声情報の時間と同じようにする
ことを特徴とする請求項１５に記載の方法システム。
ロボット可変パラメータを生成する方法は、ロボットの自己認識パラメータと可変パラメータにおける場面パラメータを整合し、ロボット可変パラメータを生成することを含む、ことを特徴とする請求項１２に記載のシステム。
前記可変パラメータは少なくともユーザ本来の行為の変更と変えられた後の行為、及びユーザ本来の行為の変更と変えられた後の行為を表すパラメータの値を含む
ことを特徴とする請求項１７に記載のシステム。
マルチモード情報と可変パラメータに基づいてインタラクション内容を生成する前記ステップは、具体的に、
マルチモード情報と可変パラメータ及びパラメータ変更確率の整合曲線によってインタラクション内容を生成することを含む
ことを特徴とする請求項１２に記載のシステム。
前記パラメータ変更確率の制御曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸にあるロボットが時間軸の場面パラメータが変えた後、その各パラメータが変化する確率を計算してから、整合曲線を形成する
ことを含むことを特徴とする請求項１９に記載のシステム。