JP2017010516A

JP2017010516A - 人工知能に基づくヒューマンコンピュータインターアクションの方法、装置及び端末機器

Info

Publication number: JP2017010516A
Application number: JP2015238074A
Authority: JP
Inventors: 佳霖李; Chia-Ling Lee; 鯤景; Kun Jing; 行飛葛; Xingfei Ge; 華呉; Hua Wu; 倩徐; Qian Xu; 海峰王; Haifeng Wang; ▲ウェン▼玉孫; Wenyu Sun; 甜呉; Tian Wu; 岱松関; Daisong Guan
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2015-06-24
Filing date: 2015-12-04
Publication date: 2017-01-12
Anticipated expiration: 2035-12-04
Also published as: CN104951077A; EP3109800A1; KR20170000752A; JP6625418B2; US20160379107A1

Abstract

【課題】人工知能に基づく高機能で高付き添い型のインテリジェントヒューマンコンピュータインターアクションの方法、装置及び端末機器を提供する。
【解決手段】人工知能に基づくヒューマンコンピュータインターアクションの方法は、ユーザが入力した音声信号、画像信号及び／又は環境センサー信号を含むマルチモードの入力信号を受信するステップと、前記マルチモードの入力信号に基づいて前記ユーザの意図を判定するステップと、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップとを含む。
【選択図】図１

Description

本発明は、スマートデバイス技術に関し、特に人工知能に基づくヒューマンコンピュータインターアクションの方法、装置及び端末機器に関する。

中国社会におけるますます進む高齢化、少子化と都市化に伴って、以下の問題が生じた。

１、若者は仕事でストレスが溜まり、分身もなく、家族の高齢者や児童に付き添う余裕がない。

２、親と子女が離ればなれになっていることがごく普通になり、家族のメンバー、親戚が違う場所に住んでおり、家庭内のコミュニケーションコストが高く、親密で有効で便利な交流方法もない。

３、年老いた老人及び幼い児童は、思いやり、コミュニケーション、教育、情報獲得の支援を他の誰よりも必要とするが、子女又は親がいないとなると、とても無理である。

４、若者が他所で働くとき、いつでもどこでも自分の「家」（家電制御も含む）、「家族」（前世代である親、次世代である児童を含む）と連絡を取りたがる。このような連絡方法には、家族にサービスを提供するため、より低い利用制限とより高い親密度が要求される。

５、離ればなれの家族同士は、より親密で便利な連絡手段を求める。中国における伝統的な家族観念により、やむを得ず家族と離れるとき、すべての人はある方法を通していつでも家族と一家の団欒を楽しみたがる。

６、年老いた老人及び幼い児童が日常の看護、付き添い及び助けの重要対象であるにもかかわらず、看護、付き添い、助け、教育という責任を背負う若者は、仕事で厳しいノルマを抱え、老人と児童の傍に付き添えない。

しかしながら、従来の技術では、前記問題に対する解決方法を提供できず、高機能で高付き添い型のインテリジェントヒューマンコンピュータインターアクションが不可能であるため、ユーザのニーズを満たすことができず、ユーザエクスペリエンスもよくない。

本発明は、先行技術に存在する技術問題点の少なくとも１つを解決することを目的とする。

そのため、本発明は人工知能に基づくヒューマンコンピュータインターアクションの方法を提供することを目的とする。該方法により、良好なヒューマンコンピュータインターアクションを実現することができ、高機能で高付き添い型のインテリジェントヒューマンコンピュータインターアクションを実現することが可能となる。

本発明は、人工知能に基づくヒューマンコンピュータインターアクションに係る装置を提供することを第2の目的とする。

本発明は端末機器を提供することを第3の目的とする。

前記目的を達成するため、本発明の実施形態１に係る人工知能に基づくヒューマンコンピュータインターアクションの方法は、ユーザが入力した音声信号、画像信号及び／又は環境センサー信号を含むマルチモードの入力信号を受信するステップと、前記マルチモードの入力信号に基づいて前記ユーザの意図を判定するステップと、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップとを含む。

本発明の実施形態に係る人工知能に基づくヒューマンコンピュータインターアクションの方法は、マルチモードの入力信号を受信した後、前記マルチモードの入力信号に基づいて、前記ユーザの意図を判定し、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックすることにより、良好なヒューマンコンピュータインターアクションを実現することができ、高機能で高付き添う型のインテリジェントヒューマンコンピュータインターアクションも実現でき、更にユーザエクスペリエンスを向上させることができる。

前記目的を達成するため、本発明の実施形態２に係る人工知能に基づくヒューマンコンピュータインターアクションの装置は、ユーザが入力した音声信号、画像信号及び／又は環境センサー信号を含むマルチモードの入力信号を受信する受信モジュールと、前記受信モジュールが受信したマルチモードの入力信号に基づいて前記ユーザの意図を判定する意図判定モジュールと、前記意図判定モジュールが判定した前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックする処理モジュールとを含む。

本発明の実施形態に係る人工知能に基づくヒューマンコンピュータインターアクションの装置は、受信モジュールがマルチモードの入力信号を受信した後、意図判定モジュールが前記マルチモードの入力信号に基づいて、前記ユーザの意図を判定し、処理モジュールが前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックすることにより、良好なヒューマンコンピュータインターアクションを実現することができ、高機能で高付き添う型のインテリジェントヒューマンコンピュータインターアクションも実現でき、更にユーザエクスペリエンスを向上させることができる。

前記目的を達成するため、本発明の実施形態３に係る端末機器は、受信部、処理部、記憶部、回路基板と電源回路を含む。そのうち、前記回路基板はケースによって囲まれた空間内部に配置され、前記処理部と前記記憶部は回路基板に配置され、前記電源回路は前記端末装置の各回路又は装置に給電し、前記記憶部は実行可能なプログラムコードを記憶し、前記受信部はユーザが入力した音声信号、画像信号及び／又は環境センサー信号を含むマルチモードの入力信号を受信し、前記処理部は、前記マルチモードの入力信号に基づいて前記ユーザの意図を判定するステップと、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップとを実行できるように、前記記憶部に記憶された実行可能なプログラムコードを読み取って実行可能なプログラムコードに対応するプログラムを実行する。

本発明の実施形態に係る端末装置は、受信部がマルチモードの入力信号を受信した後、処理部が前記マルチモードの入力信号に基づいて、前記ユーザの意図を判定した後、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックすることにより、良好なヒューマンコンピュータインターアクションを実現することができ、高機能で高付き添い型のインテリジェントヒューマンコンピュータインターアクションを実現でき、更にユーザエクスペリエンスを向上させることができる。

本発明の一実施形態による人工知能に基づくヒューマンコンピュータインターアクションの方法を示すフローチャートである。本発明の一実施形態による人工知能に基づくヒューマンコンピュータインターアクションの装置を示す模式図である。本発明の他の実施形態による人工知能に基づくヒューマンコンピュータインターアクションの装置を示す模式図である。本発明の一実施形態による端末装置を示す模式図である。本発明の一実施形態による知能ロボットを示す図である。本発明の一実施形態による知能ロボットによるスクリーンインターアクションを示す図である。

本発明の付加的側面及び利点は、下記の説明において部分的に表され、一部は下記の説明により明らかとなり、又は本発明の実行により理解されうる。

本発明の上述、及び／又は、付加的側面と利点は、下記図面を参照した実施形態に関する説明において、明らかとなり、理解容易となる。

以下、本発明の実施の形態について詳細に説明する。実施の形態の実例は図面において示されるが、同一又は類似の符号が、同一若しくは類似の部品、又は、同一若しくは類似の機能を有する部品を表す。以下、図面を参照しながら説明する実施形態は例示的なものであり、本発明を広義に理解するために用いられる。実施形態は、本発明を制限するよう解釈されるべきではない。逆に、本発明の実施形態は、添付の請求の範囲に含まれる要旨及び内包範囲におけるあらゆる変形・変更及び均等物を含む。

高機能で高付き添い型のインテリジェントヒューマンコンピュータインターアクションを行わない、従来の技術における問題を解決するために、本発明は人工知能に基づいて、高機能で高付き添い型のインテリジェントヒューマンコンピュータインターアクションを実現した。人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩと略称する）とは、人間の知能をシミュレート・延伸・拡張するための、論理、方法、技術及び応用システムを研究・開発する新しい科学技術である。人工知能は計算機科学のブランチであり、知能の本質を捉えようとすると同時に、人間の知能と同様に反応する新しい知能ロボットを作り出すよう試みる。該分野の研究はロボット、音声認識、画像認識、自然言語処理とエキスパートシステム等を含む。

人工知能は人間の意識、思考の情報処理をシミュレートする。人工知能は人間の知能ではないが、人間と同様に考えることができ、人間の知能を超えることも可能である。人工知能は幅広い科学を含み、機械学習、計算機資格等の異なる分野からなる。要約すれば、人工知能研究の主たる目標は機械に人間の知能でしか完成できない複雑な仕事を務めさせることである。

図１は本発明の一実施形態による人工知能に基づくヒューマンコンピュータインターアクションの方法を示すフローチャートである。図１に示すように、該人工知能に基づくヒューマンコンピュータインターアクションの方法は、以下のステップを含むことが可能である。

ステップ１０１は、ユーザが入力した音声信号、画像信号及び／又は環境センサー信号を含むマルチモードの入力信号を受信するステップである。

具体的には、ユーザの入力する音声信号はユーザがマイクにより入力可能であり、前記画像信号はカメラにより入力可能であり、前記環境センサー信号は光センサー、温湿度センサー、有毒ガスセンサー、粒子状物質センサー、タッチモジュール、地理的位置定位モジュールと重力センサーの中の一つ又は複数のセンサーにより入力される信号である。

ステップ１０２は、上述したマルチモードの入力信号に基づいて、上記のユーザの意図を判定するステップである。

ステップ１０３は、上記のユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップである。

具体的には、処理結果を前記ユーザにフィードバックするステップは、処理結果を画像、文字列から音声、ロボットの身体の動き及び／又はロボットの点灯フィードバック等を通じ、ユーザにフィードバックすることを含みうる。本実施形態は処理結果をフィードバックする方法を制限しない。

本実施形態の例示では、前記マルチモードの入力信号に基づいて前記ユーザの意図を判定するステップは、前記ユーザが入力した音声信号に対して音声認識を行い、音声認識の結果に基づいて、画像信号及び／又はセンサー信号と結合して前記ユーザの意図を判定することになる。

又は、前記マルチモードの入力信号に基づいて前記ユーザの意図を判定するステップは、前記ユーザが入力した音声信号に対して音声認識を行い、音源定位を通じてディスプレイを前記ユーザのいる方位に回し、カメラ支援顔認識機能を利用して前記ユーザの個人情報を識別するステップと、音声認識の結果、前記ユーザの個人情報、及び保存された前記ユーザの嗜好情報に基づいて前記ユーザの意図を判定するステップとを含んでもよい。

本実施形態において、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、前記ユーザの意図に基づいて、クラウド側のデータベースにおいて個別的データマッチングをし、前記ユーザに相応しい推奨情報を取得して前記ユーザに対して出力することになる。その中で、前記ユーザに相応しい推奨情報を前記ユーザに対して出力することは、前記ユーザに相応しい推奨情報を前記ユーザに音声出力することもできるし、又は前記ユーザに相応しい推奨情報を文字列としてディスプレイに表示することもできる。本実施形態は前記ユーザに相応しい推奨情報を前記ユーザに対して出力する方法を制限しない。

更に、前記推奨情報にアドレス情報が含まれる場合、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、前記ユーザのいる場所から前記アドレス情報が指し示した場所までの交通ルートを取得し、前記ユーザの行動のパターンに従って前記ユーザに相応しい交通手段を取得し、前記交通手段を前記ユーザに推奨することになる。その中で、前記交通手段を前記ユーザに推奨することとして、前記交通手段を前記ユーザに対して音声出力することも可能であり、又は前記交通手段を文字列としてディスプレイに表示することも可能である。本実施形態は前記交通手段を前記ユーザに対して出力する方法を制限しない。

つまり、本実施形態は、人間との数回の会話交流を実現でき、自然言語、表情を通じて人間とコミュニケーションすることができ、個別的学習能力を備え、インテリジェントクラウド側のサーバに接続することにより関連知識を取得し、同時にターゲットを絞ってユーザに提供する。

例えば、お年寄りが外出して何らかのイベントに参加することを希望する場合で、付近に面白そうなイベントがあるかどうかを知らない場合がある。この場合、本実施形態に係る方法がなければ、通常の解決方法として、お年寄りは子女に電話をかけて聞くか、又は家を出て近所の人や町内会に問い合わせるしかない。

しかし、本実施形態に係る方法を利用すれば、お年寄りは、知能ロボット等の本実施形態に係る方法を実現する端末装置に向かって、「度ロボットちゃん、この近くに私に相応しいイベントがありませんか」と質問することができる。

知能ロボットは音源定位を通じて知能ロボットのディスプレイ（例えば、知能ロボットの顔）をお年寄りのいる方位に回し、ＨＤカメラ支援顔認識機能を利用して話者の姓名、年齢、性別等の個人情報を正確に識別し、話者の日常的な行動と好み、年齢と性別等の情報に基づいて、話者が入力した音声の意図を判定し、入力された音声の意図に基づいてクラウド側のデータベース中において個別的データマッチングをし、話者に最も相応しい推奨情報を選び出し、前記推奨情報として、「度はお好きになるかもしれないイベントを見つけました。今日の午後２時にここから８００メートルの南湖公園でお年寄りのための社交ダンスパーティーがありますが、いかがでしょうか」と前記話者に対して音声出力する。その中で、該推奨情報にはアドレス情報「南湖公園」が含まれている。

ユーザが「よいですね。このイベントが気に入りました。どうやって行けるのですか」と返答したとする。ユーザが入力した音声を受信した後、知能ロボットは前記ユーザにより入力された音声に対して音声認識を行い、音声認識の結果に基づいてユーザの意図が南湖公園に行きたいものであると判定すると、知能ロボットは地理的位置定位モジュールにより入力された信号に基づいてユーザの居る場所を確定し、自動的にユーザのいる場所から南湖公園までの交通ルートを検索し、前記ユーザの日常的な行動のパターンに従って前記ユーザに相応しい交通手段をスマートに取得し、その交通手段として、「ここから南湖まで８００メートルであり、徒歩時間がおよそ１５分で、徒歩ルートの地図を用意しました」とユーザに推奨する。

本実施形態の別の例示において、前記ユーザの意図に時間情報が含まれ、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、前記ユーザの意図の時間情報に基づいて目覚まし時計の時刻を設定し、その設定結果を前記ユーザにフィードバックすることになる。その中で、設定結果を前記ユーザにフィードバックするには、設定結果をユーザに対して音声出力してもよいし、又は設定結果を文字列としてユーザに対し表示してもよいし、当然ながら他のフィードバック方法を利用してもよい。本発明はこれを制限しない。

更に、設定結果をユーザにフィードバックした後、ユーザに提示することもでき、前記ユーザに伝言メッセージを記録するように促し、前記目覚まし時計の設定時刻になると、アラームを鳴らし、前記ユーザの伝言メッセージを再生する。

例えば、朝７時に母親は早起きして出張に行かなければならないが、児童のトットちゃんがまだ熟睡しているとする。家を出るとき、母親が知能ロボットに、「度ロボットちゃん、８時にトットちゃんを起こしてもらえませんか」と言う。音声を受信した後、知能ロボットが音声認識の結果に基づいてユーザの意図に時間情報が含まれていると識別すると、知能ロボットがユーザの意図における時間情報に基づいて目覚まし時計の時刻を設定、その設定結果を前記ユーザにフィードバックする。設定結果をユーザにフィードバックした後、更にユーザに提示することもでき、知能ロボットが「大丈夫です、目覚まし時計の時刻を設定しておきました。１時間後のちょうど８時にトットちゃんを起こします。トットちゃんが起きてから何か伝言がありますか」と返答する。

「ありがとう、度ちゃん。トットちゃんに伝えてください。朝ごはんができていて、電子レンジにおいておきました。今日はトットちゃんの誕生日ですから、おめでとうと伝えてください」と母親が言う。この場合、知能ロボットがユーザの伝言メッセージを記録し、前記目覚まし時計の設定時刻になるとアラームを鳴らし、前記ユーザの伝言メッセージを再生する。

本実施形態の別の例示において、マルチモードの入力信号を受信する前に、ユーザと関連する別のユーザが送信したマルチメディア情報を受信することができ、更にユーザにマルチメディア情報を再生するかどうかを提示する。ここにおいて、ユーザにマルチメディア情報を再生するかどうかを提示するには、ユーザにマルチメディア情報を再生するかどうかを提示する機能を果たすことができれば、音声提示を用いても、文字提示を用いても、又はその他の提示方法を用いてもかまわない。

前記ユーザの意図が、前記マルチメディア情報の再生に賛成であれば、ユーザの意図を処理するステップは、ユーザと関連する別のユーザが送信したマルチメディア情報を再生することになる。

更に、前記ユーザと関連する別のユーザが送信したマルチメディア情報を再生した後、ユーザから送信された音声を受信し、前記音声をユーザと関連する別のユーザに送信することもできる。その中で、前記音声をユーザと関連する別のユーザに送信するには、音声を直接ユーザと関連する別のユーザにより使われているスマートデバイスにインストールされたアプリケーション（Ａｐｐｌｉｃａｔｉｏｎ、以下Ａｐｐと略称する）に送信するか、又は音声を文字に変換してユーザと関連する別のユーザにより使われているスマートデバイスにインストールされたＡｐｐに送信する。

例えば、昼１２時に、トットちゃんが家で食事をしている。

知能ロボットがユーザ（トットちゃん）と関連する別のユーザ（トットちゃんの母親）から送信されてマルチメディア情報（例えばビデオ）を受信した場合、知能ロボットがユーザにそのマルチメディア情報を再生するかどうかを提示する。すると知能ロボットは「こんにちは、トットちゃん、度がお母さんから送信されたビデオを受け取りましたが、今ご覧になりますか」と音声出力する。

トットちゃんが「すぐ再生してください」と返答する。トットちゃんが入力した音声を受信した後、知能ロボットが音声認識を行い、音声認識の結果に基づいてユーザの意図が前記動画情報の再生に同意するものであると判定すると、知能ロボットの顔のスクリーンにおいて自動的に母親が出張先で録画した誕生日祝福ビデオを再生する。

母親から送信されたビデオを再生した後、更にトットちゃんからの音声として、「度ちゃん、お母さんに伝えてください。ありがとう、愛している、いい旅をして早く帰れるようにって。」を受信することもできる。

この場合、知能ロボットは自動的にトットちゃんからの音声を文字に変換し、母親の携帯電話にインストールされていたＡｐｐに送信する。

本実施形態の別の例示において、ユーザの意図がマルチメディア情報の再生を要求することであってもよい。この場合、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、無線ネットワークを通じてクラウド側のサーバから前記ユーザが要求したマルチメディア情報を取得し、取得されたメルチメディア情報を再生することになる。

更に、マルチモードの入力信号を受信する前に、前記ユーザと関連する別のユーザが送信した通話リクエストを受信することができ、更に前記ユーザに通話に応答するかどうかを提示する。前記ユーザの意図が通話に応答することである場合、ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、ユーザと前記ユーザと関連する別のユーザとを通話させ、通話中、カメラを制御して話者である前記ユーザの方位を検出し、カメラを話者に回し、ユーザと関連する別のユーザが、前記別のユーザにより使われているスマートデバイスにインストールされたＡｐｐを通じて前記ユーザが関心を寄せている顔をクリックすると、ビデオカメラ顔追跡機能が作動し、カメラに前記ユーザが関心を寄せている顔を追跡させることになる。

例えば、夜の９時に、トットちゃんは家で友達とお誕生日会を開いている。

「度ちゃん、今日は私の誕生日ですから、誕生日の歌を一曲再生してもらえませんか」とトットちゃんが知能ロボットに聞く。知能ロボットは、前記音声を受信した後、音声認識の結果に基づいてトットちゃんが入力した音声の意図がマルチメディア情報（例えば、オーディオ情報である誕生日の歌）の再生であると判定する。

すると、知能ロボットは無線ネットワーク（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ、以下ＷｉＦｉと略称する）を通じてスマートクラウド側のサーバから誕生日の歌を検索し、それを再生するように自動的にローカルにダウンロードし、ユーザに処理結果として、「大丈夫です。今すぐ再生します」とフィードバックする。

再生を終えた後、知能ロボットがトットちゃんの母親から送信されたビデオ通話のリクエストを受信した。すると、知能ロボットがトットちゃんに「ビデオ通話のリクエストを受け取りました。お母さんがトットちゃんとビデオ通話をしようとしていますが、接続しますか。」と提示する。

「すぐ接続してください」とトットちゃんが言う。トットちゃんが入力した音声を受信した後、知能ロボットは、トットちゃんが入力したこの音声の意図が通話に接続することであると判定した後、遠くの余所で出張している母親により使われているスマートフォンにインストールされたＡｐｐと知能ロボットのＨＤビデオカメラとを接続し、母親をトットちゃん及びその友達とビデオ通話させる。ビデオ通話中、知能ロボットが自身のカメラを制御して自動的に話者の方位を確かめ、カメラを話者に回す。カメラを回すとき、インテリジェントなデュアルレンズカメラを切替えるアルゴリズムによってカメラの画面の安定化が保証され、揺れが生じない。母親の方は自分の使うスマートデバイスにインストールされたＡｐｐを通じてビデオの中の顔をクリックし、ビデオカメラ顔追跡機能を作動し、知能ロボットのカメラに母親が関心を寄せている顔を追跡し続けさせる。

つまり、本実施形態による人工知能に基づくヒューマンコンピュータインターアクションの方法は、いつでも家族と連絡を取ることが実現し、新しいインテリジェントなインターアクションの手段を有し、前記方法を実現する端末デバイスが家族間のコミュニケーション、手伝い、提示の架け橋になることができる。

本実施形態の他の例示において、前記環境センサーの信号は現在の環境の環境情報を提示するものである場合、マルチモードの入力信号を受信した後、前記環境情報に含まれている指標において警告閾値を超えた指標があるとき、危険警報をし、同時に危険を処理する方法を出力し、並びにカメラを作動して撮影する。その中で、前記警告閾値は前記環境情報の指標に応じて別々に設定できるが、本実施形態においては警告閾値の大小を制限しない。

つまり、人工知能に基づくヒューマンコンピュータインターアクションの方法は更に家族を災害から保護することができる。

例えば、本実施形態に係る方法に関する端末装置は、例えば知能ロボットに搭載されたPM2.5粒子状物質センサー、有毒ガスセンサー及び／又は温湿度センサー等のようなセンサーが知能ロボットの現在の環境の環境情報を取得することができるため、いつでもホーム環境の健康度をモニタリングすることができる。前記環境情報に含まれている指標において警告閾値を超えた指標があるとき、例えば家でガス漏れのような有毒ガス漏れが発生したとき、すぐに危険警報を送信し、音声で危険警告をし、同時に危険を処理する方法を知らせ、並びに自動的に危険状況を家族の携帯電話に送信し、自動的に警戒モードに入り、カメラを作動して家全体を撮影し記録する。

更に、前記環境情報に含まれている指標においてモード切替閾値に達した指標があるとき、スマートハウス制御システムによって前記モード切替閾値に達した指標に対応する家電のモードを制御し、家電の管理を実現する。その中で、前記モード切替閾値は同様に前記環境情報の指標に応じで別々に設定することができ、本実施形態においては警告閾値を制限しない。

例えば、本実施形態に係る方法に関する端末装置は、例えば知能ロボットに搭載されたPM2.5粒子状物質センサー、有毒ガスセンサー及び／又は温湿度センサー等のようなセンサーが、ホームの大気質や温湿度などのような知能ロボットの現在の環境の環境情報を取得することができる。大気質の濃度が高くなり、大気質のモード切替閾値に達した場合、知能ロボットが自動的にブルートゥーススマートハウス制御システムを通じて空気清浄器をつける。部屋の温度が高すぎたり低すぎたりして温度のモード切替閾値に達した場合、自動的にエアコンをつける。留守をして電気を消すのを忘れ、電気のモード切替閾値に達した場合、自動的に電気を消す。

本実施形態の他の例示において、前記ユーザの意図が問題の解答を求めることであるとする。この場合、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、ユーザが入力した音声に含まれている問題に対して、検索して前記問題の解答を取得し、前記解答をユーザに対して出力することになる。その中で、前記解答をユーザに対して出力するには、前記解答をユーザに対して音声出力してもよいし、前記解答を文字列としてユーザに対して表示してもよい。

更に、前記解答をユーザに対して出力した後、ユーザが入力した音声に含まれている問題と関連する推奨情報を取得し、前記推奨情報をユーザに対して出力することもできる。その中で、前記推奨情報をユーザに対して出力するには、前記推奨情報をユーザに対して音声出力してもよいし、前記推奨情報を文字列としてユーザに対して表示してもよい。

例えば、学習と成長盛りにある児童は世界のどんなものに対しても探求する好奇心を持っている。児童がよく「これは何ですか」又は「どうしてですか」のような質問をよく親に聞く。知能ロボットのような本実施形態による人工知能に基づくヒューマンコンピュータインターアクションの方法を利用した端末装置がなければ、親たちは自分の知識の制限のせいで答えられないことがよくあり、いくら考えても答えられなかったり、コンピュータの電源を入れていろいろ調べたりして、効率が悪く不便である。しかし、知能ロボットがそばにいると、児童はいつでもさまざまな質問を知能ロボットに聞くことができる。例えば、「度ちゃん、なぜ葉っぱは緑色なんですか」と聞く。児童から入力された前記音声を受信した後、知能ロボットが前記音声に対して音声認識を行い、音声認識の結果に基づいて児童が入力した前記音声の意図が問題の解答を求めることであると判定すると、知能ロボットが児童が入力した音声に含まれた問題をクラウドを通じてインテリジェントな検索を行い、多量のインターネット上の情報から最良の結果を選び出し、その解答として、「葉っぱが緑色であるのは、葉緑素があるからである。葉緑素とは植物の細胞葉緑体の中にある大切な緑色の色素であり、水、空気および光エネルギーを利用して植物に必要とされる養分を作ることができる。葉緑素が緑色であるため、植物の葉っぱも緑色であるわけである。」を児童に対して音声出力する。

児童の問題に答えた後、知能ロボットは児童が入力した音声に含まれている問題と関連する推奨情報を取得し、前記推奨情報を児童に対して出力することもできる。具体的には、知能ロボットは自動的に児童が聞いた前記問題に基づいて拡散的な教育と啓発として、「葉緑素を知りましたが、なぜ秋になると葉っぱが枯れるのかトットちゃんはわかりますか」等々をする。

その他、文字の勉強、英単語の習得、児童に物語を読むことなどさまざまな教育シーンがある。

３歳〜５歳の児童が、言語の急速な発展の時期で他人との会話を必要とする成長過程にある場合おいて、知能ロボットは、一日中休むことなく児童と話すことができ、児童の言語システムの成長を支援できる。知能ロボットがそばにいると、児童教育が新しい時代に入ることができる。

前記人工知能に基づくヒューマンコンピュータインターアクションの方法は、マルチモードの入力信号を受信した後、前記マルチモードの入力信号に基づいて前記ユーザの意図を判定し、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックすることにより、良好なヒューマンコンピュータインターアクションを実現することができ、高機能で高付き添い型のインテリジェントヒューマンコンピュータインターアクションも実現することができ、更にユーザエクスペリエンスを向上させることができる。

図２は本発明の一実施形態による人工知能に基づくヒューマンコンピュータインターアクションの装置を示す模式図である。本実施形態による人工知能に基づくヒューマンコンピュータインターアクションの装置は端末機器又は端末機器の一部として本発明の図１に示した実施形態のフローチャートを実現することができる。図２に示したように、前記人工知能に基づくヒューマンコンピュータインターアクションの装置は受信モジュール２１、意図判定モジュール２２と処理モジュール２３とを含むことができる。

その中で、受信モジュール２１は、ユーザが入力した音声信号、画像信号及び／又は環境センサー信号を含むマルチモードの入力信号を受信する。

具体的には、ユーザが入力した音声信号はユーザがマイクにより入力することができ、前記画像信号はカメラにより入力することができ、前記環境センサー信号は光センサー、温湿度センサー、有毒ガスセンサー、粒子状物質センサー、タッチモジュール、地理的位置定位モジュールと重力センサーの中の一つ又は複数のセンサーによって入力される信号である。

意図判定モジュール２２は、受信モジュール２１が受信したマルチモードの入力信号に基づいて前記ユーザの意図を判定する。

処理モジュール２３は、意図判定モジュールが判定した前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックする。

具体的には、処理モジュールが処理結果を前記ユーザにフィードバックするステップは、処理モジュール２３が処理結果を画像、文字列、音声、ロボットの身体の動き及び／又はロボットの点灯フィードバック等を通じてユーザにフィードバックすることを含むことができる。本実施形態は処理結果をフィードバックする方法を制限しない。

本実施形態の例示において、意図判定モジュール２２は、具体的に前記ユーザが入力した音声信号に対して音声認識を行い、音声認識の結果に基づいて、画像信号及び／又はセンサー信号と結合して前記ユーザの意図を判定する。

又は、意図判定モジュール２２は、具体的に前記ユーザが入力した音声信号に対して音声認識を行い、音源定位を通じてディスプレイを前記ユーザのいる方位に回し、カメラ支援顔認識機能を利用して前記ユーザの姓名、年齢、性別等の個人情報を識別し、音声認識の結果、前記ユーザの個人情報、保存された前記ユーザの日常的な行動や好み等の嗜好情報に基づいて前記ユーザの意図を判定する。

本例示において、処理モジュール２３は、具体的に前記ユーザの意図に基づいて、クラウド側のデータベースにおいて個別的データマッチングをし、前記ユーザに相応しい推奨情報を取得して前記ユーザに対して出力する。その中で、前記ユーザに相応しい推奨情報を前記ユーザに出力することは、処理モジュール２３によって前記ユーザに相応しい推奨情報を前記ユーザに対して音声出力することもできるし、又は前記ユーザに相応しい推奨情報を文字列としてディスプレイに表示することもできる。本実施形態は処理モジュールが前記ユーザに相応しい推奨情報を前記ユーザに対して出力する方法を制限しない。

更に、前記推奨情報にアドレス情報が含まれ、処理モジュール２３は、具体的に前記ユーザのいる場所から前記アドレス情報が指し示す場所までの交通ルートを取得し、前記ユーザの行動のパターンに従って前記ユーザに相応しい交通手段を取得し、前記交通手段を前記ユーザに推奨する。その中で、処理モジュール２３が前記交通手段を前記ユーザに推奨するには、処理モジュール２３が前記交通手段を前記ユーザに対して音声出力することも可能であり、又は前記交通手段を文字列としてディスプレイに表示することも可能である。本実施形態は処理モジュール２３が前記交通手段を前記ユーザに推奨する方法を制限しない。

つまり、本実施形態によるヒューマンコンピュータインターアクションの装置は、人間との数回の会話交流を実現でき、自然言語、表情を通じて人間とコミュニケーションすることができ、個別的学習能力を備え、インテリジェントクラウド側のサーバに接続することにより関連知識を取得し、同時にターゲットを絞ってユーザに提供する。

例えば、お年寄りが外出して何かのイベントに参加することを希望する場合で、付近に面白そうなイベントがあるかどうかを知らない場合がある。この場合、本実施形態の装置がなければ、通常の解決方法として、お年寄りは子女に電話をかけて聞くか、又は家を出て近所の人や町内会に問い合わせるしかない。

しかし、本実施形態によるヒューマンコンピュータインターアクションの装置があれば、お年寄りは本実施形態によるヒューマンコンピュータインターアクションの装置に向かって、「度ロボットちゃん、この近くに私に相応しいイベントがありませんか」と質問することができる。

受信モジュール２１が前記音声を受信した後、意図判定モジュール２２が音源定位を通じて知能ロボットのディスプレイ（例えば、知能ロボットの顔）をお年寄りのいる方位に回し、ＨＤカメラ支援顔認識機能を利用して話者の姓名、年齢、性別等の個人情報を正確に識別し、話者の日常的な行動や好み、年齢と性別等の情報に基づいて、話者が入力した音声の意図を判定し、その後処理モジュール２３が入力された音声の意図に基づいてクラクラウド側のデータベースの中において個別的データマッチングをし、話者に最も相応しい推奨情報を選び出し、前記推奨情報として、「度はお好きになるかもしれないイベントを見つけました。今日の午後２時にここから８００メートルの南湖公園でお年寄りのための社交ダンスパーティーがありますが、いかがでしょうか」を前記話者に対して音声出力する。その中で、該推奨情報にはアドレス情報「南湖公園」が含まれている。

ユーザが「よいですね。このイベントが気に入りました。どうすれば行けるのですか」と返答したとする。ユーザが入力した音声を受信した後、意図判定モジュール２２が前記ユーザにより入力された音声に対して音声認識を行い、音声認識の結果に基づいてユーザの意図が南湖公園に行きたいものであると判定すると、処理モジュール２３が地理的位置定位モジュールにより入力された信号に基づいてユーザの居る場所を確定し、自動的にユーザのいる場所から南湖公園までの交通ルートを検索し、前記ユーザの日常的な行動のパターンに従って前記ユーザに相応しい交通手段をスマートに取得し、その交通手段として、「ここから南湖まで８００メートルであり、徒歩時間がおよそ１５分であり、徒歩ルートの地図を用意しました」とユーザに推奨する。

図３は本発明の別の実施形態によるヒューマンコンピュータインターアクションの装置を示す模式図である。図２に示した装置と比べて、図３に示した装置は更に提示モジュール２４と記録モジュール２５とを含む。

本実施形態の他の例示において、前記ユーザの意図に時間情報が含まれ、処理モジュール２３は、具体的に前記ユーザの意図の時間情報に基づいて目覚まし時計の時刻を設定し、その設定結果を前記ユーザにフィードバックする。その中で、処理モジュール２３によって設定結果を前記ユーザにフィードバックするには、処理モジュール２３によって設定結果をユーザに対して音声出力してもよいし、又は処理モジュール２３によって設定結果を文字列としてユーザに対して表示してもよいし、当然ながら他のフィードバック方法を利用してもよい。本発明はこれを制限しない。

提示モジュール２４は、処理モジュール２３が設定結果を前記ユーザにフィードバックした後、前記ユーザに提示する。

記録モジュール２５は、前記ユーザの伝言メッセージを記録する。

提示モジュール２４は、更に前記目覚まし時計の設定時刻になると、アラームを鳴らす。

処理モジュール２３は、更に記録モジュール２５が記録したユーザの伝言メッセージを再生する。

例えば、朝７時に母親は早起きして出張に行かなければならないが、児童のトットちゃんがまだ熟睡しているとする。家を出るとき、母親が知能ロボットに、「度ロボットちゃん、８時にトットちゃんを起こしてもらえませんか」と言う。受信モジュール２１が音声を受信した後、意図判定モジュール２２が音声認識の結果に基づいてユーザの意図に時間情報が含まれていると識別すると、処理モジュール２３がユーザの意図における時間情報に基づいて目覚まし時計の時刻を設定、その設定結果を前記ユーザにフィードバックする。設定結果をユーザにフィードバックした後、提示モジュール２４が更にユーザに提示可能であるため、「大丈夫です、目覚まし時計の時刻を設定しておきました。１時間後のちょうど８時にトットちゃんを起こします。トットちゃんが起きてから何か伝言がありますか」と返答する。

「ありがとう、度ちゃん。トットちゃんに伝えてください。朝ごはんができていて、電子レンジにおいておきました。今日はトットちゃんの誕生日ですから、おめでとうと伝えてください」と母親が言う。この場合、記録モジュール２５がユーザの伝言メッセージを記録し、前記目覚まし時計の設定時刻になると提示モジュール２４がアラームを鳴らし、前記ユーザの伝言メッセージを再生する。

本実施形態の別の例示において、受信モジュール２１は、マルチモードの入力信号を受信する前に、更に前記ユーザと関連する別のユーザが送信したマルチメディア情報を受信することもできる。

提示モジュール２４は、更に前記ユーザに前記マルチメディア情報を再生するかどうかを提示する。ここにおいて、提示モジュール２４がユーザにマルチメディア情報を再生するかどうかを提示するには、ユーザにマルチメディア情報を再生するかどうかを提示する機能を果たせれば、音声提示を用いても、文字提示を用いても、又はその他の提示方法を用いてもかまわない。

前記ユーザの意図が前記マルチメディア情報の再生に賛成することであれば、処理モジュール２３は、具体的にユーザと関連する別のユーザが送信したマルチメディア情報を再生する。

更に、前記ヒューマンコンピュータインターアクションの装置は送信モジュール２６を含むこともできる。

受信モジュール２１は、処理モジュール２３が前記ユーザと関連する別のユーザが送信したマルチメディア情報を再生した後、更に前記ユーザが送信した音声を受信することもできる。

送信モジュール２６は、受信モジュール２１が受信した音声を前記ユーザと関連する別のユーザに送信する。その中で、送信モジュール２６が前記音声をユーザと関連する別のユーザに送信するには、送信モジュール２６が音声を直接的にユーザと関連する別のユーザが使われているスマートデバイスにインストールされたＡｐｐに送信するか、又は音声を文字に変換してユーザと関連する別のユーザが使われているスマートデバイスにインストールされたＡｐｐに送信する。

受信モジュール２１がユーザ（トットちゃん）と関連する別のユーザ（トットちゃんの母親）から送信されてマルチメディア情報（例えばビデオ）を受信した場合、提示モジュール２４がユーザにそのマルチメディア情報を再生するかどうかを提示する。「こんにちは、トットちゃん、度がお母さんから送信されたビデオを受け取りましたが、今ご覧になりますか」と音声出力をする。

トットちゃんが「すぐ再生してください」と返答する。受信モジュール２１がトットちゃんの入力した音声を受信した後、意図判定モジュール２２が音声認識を行い、音声認識の結果に基づいてユーザの意図が前記動画情報の再生に同意するものであると判定すると、処理モジュール２３がスクリーンにおいて自動的に母親が出張先で録画した誕生日祝福ビデオを再生する。

母親から送信されたビデオを再生した後、受信モジュール２１が更にトットちゃんからの音声として、「度ちゃん、お母さんに伝えてください。ありがとう、愛している、いい旅をして早く帰れるようにって」を受信することもできる。

この場合、送信モジュール２６は、自動的にトットちゃんからの音声を文字に変換し、母親の携帯電話にインストールされているＡｐｐに送信する。

本実施形態の他の例示において、ユーザの意図がマルチメディア情報の再生を要求することであってもよい。この場合、処理モジュール２３は、無線ネットワークを通じてクラウド側のサーバから前記ユーザが要求したマルチメディア情報を取得し、取得されたメルチメディア情報を再生する。

更に、受信モジュール２１は、マルチモードの入力信号を受信する前に、前記ユーザと関連する別のユーザが送信した通話リクエストを受信することもできる。

提示モジュール２４は、前記ユーザに対し通話に応答するかどうかを提示する。

前記ユーザの意図が通話に応答することである場合、処理モジュール２３は、前記ユーザを前記ユーザと関連する別のユーザとを通話させ、通話中、カメラを制御して話者である前記ユーザの方位を検出し、前記カメラを話者に回し、前記ユーザと関連する別のユーザが、前記別のユーザにより使われるスマートデバイスにインストールされたＡｐｐを通じて前記ユーザが関心を寄せている顔をクリックすると、ビデオカメラ顔追跡機能が作動し、カメラに前記ユーザが関心を寄せている顔を追跡させる。

「度ちゃん、今日は私の誕生日ですから、誕生日の歌を一曲再生してもらえませんか」とトットちゃんが知能ロボットに聞く。受信モジュール２１が前記音声を受信した後、意図判定モジュール２２が音声認識の結果に基づいてトットちゃんが入力した音声の意図がマルチメディア情報（例えば、オーディオ情報である誕生日の歌）の再生であると判定する。

すると、処理モジュール２３がＷｉＦｉを通じてスマートクラウド側のサーバから誕生日の歌を検索し、それを再生するよう自動的にローカルにダウンロードし、ユーザに処理結果として、「大丈夫です。今すぐ再生します。」とフィードバックする。

再生を終えた後、受信モジュール２１がトットちゃんの母親から送信されたビデオ通話のリクエストを受信した。すると、提示モジュール２４がトットちゃんに「ビデオ通話のリクエストを受け取りました。お母さんがトットちゃんとビデオ通話をしようとしているが、接続しますか。」と提示する。

「すぐ接続してください」とトットちゃんが言う。受信モジュール２１がトットちゃんの入力した音声を受信した後、意図判定モジュール２２がトットちゃんの入力したこの音声の意図が通話に接続することであると判定した後、処理モジュール２３が遠くの余所において出張中の母親により使われているスマートフォンにインストールされたＡｐｐと知能ロボットとのＨＤビデオカメラを接続し、母親を、トットちゃん及びその友達とビデオ通話させる。ビデオ通話中、処理モジュール２３が自身のカメラを制御して自動的に話者の方位を確かめ、カメラを話者に回す。カメラが回るとき、インテリジェントなデュアルレンズカメラを切替えるアルゴリズムによってカメラの画面の安定化が保証され、揺れが生じない。母親の方は自分の使うスマートデバイスにインストールされているＡｐｐを通じてビデオの中の顔をクリックし、ビデオカメラ顔追跡機能を作動し、知能ロボットのカメラに母親が関心を寄せている顔を追跡し続けさせる。

つまり、本実施形態による人工知能に基づくヒューマンコンピュータインターアクションの装置は、いつでも家族と連絡を取ることを実現させ、新しいインテリジェントなインターアクションの手段を有し、前記方法を実現する端末デバイスが家族間のコミュニケーション、手伝い、提示の架け橋になることができる。

本実施形態の他の例示において、前記環境センサーの信号は、現在の環境の環境情報を提示する。

処理モジュール２３は、前記環境情報に含まれている指標において警告閾値を超えた指標があるとき、危険警報をし、同時に危険を処理する方法を出力し、並びにカメラを作動して撮影する。その中で、前記警告閾値は前記環境情報の指標に応じて別々に設置できるが、本実施形態においては警告閾値の大小を制限しない。

つまり、前記人工知能に基づくヒューマンコンピュータインターアクションの装置は更に家族を災害から保護することが可能である。

例えば、ヒューマンコンピュータインターアクションの装置におけるセンサーは、ＰＭ2.5粒子状物質センサー、有毒ガスセンサー及び／又は温湿度センサー等を含むことができる。前記センサーの信号は、知能ロボットの現在の環境の環境情報を提示することができるため、いつでもホーム環境の健康度をモニタリングすることができる。前記環境情報に含まれている指標において警告閾値を超えた指標があるとき、例えば家でガス漏れのような有毒ガス漏れが発生したとき、処理モジュール２３がすぐに危険警報を送信し、音声で危険警告をし、同時に危険を処理する方法を知らせ、並びに自動的に危険状況を家族の携帯電話に送信し、自動的に警戒モードに入り、カメラを作動して家全体を撮影し記録する。

更に、処理モジュール２３は、前記環境情報に含まれている指標においてモード切替閾値に達した指標があるとき、スマートハウス制御システムによって前記モード切替閾値に達した指標に対応する家電のモードを制御し、家電の管理を実現する。その中で、前記モード切替閾値は同様に前記環境情報の指標に応じで別々に設置することができ、本実施形態においては警告閾値を制限しない。

例えば、前記ヒューマンコンピュータインターアクションの装置におけるセンサーは、ＰＭ2.5粒子状物質センサー、有毒ガスセンサー及び／又は温湿度センサー等を含むことができ、前記センサーの信号はホームの大気質や温湿度などのような現在の環境の環境情報を提示することができる。大気質の濃度が高くなり、大気質のモード切替閾値に達した場合、処理モジュール２３が自動的にブルートゥーススマートハウス制御システムを通じて空気清浄器をつける。部屋の温度が高すぎたり低すぎたりして温度のモード切替閾値に達した場合、処理モジュール２３が自動的にエアコンをつける。留守をして電気を消すのを忘れ、電気のモード切替閾値に達した場合、処理モジュール２３が自動的に電気を消す。

本実施形態の別の例示において、前記ユーザの意図が問題の解答を求めることである。この場合、処理モジュール２３は、具体的に前記ユーザが入力した音声に含まれている問題に対して、検索して前記問題の解答を取得し、前記解答をユーザに対して出力する。その中で、処理モジュール２３が前記解答をユーザに対して出力するには、前記解答をユーザに対して音声出力してもよいし、前記解答を文字列としてユーザに対して表示してもよい。

更に、処理モジュール２３は、前記解答をユーザに対して出力した後、前記ユーザが入力した音声に含まれている問題と関連する推奨情報を取得し、前記推奨情報をユーザに対して出力することもできる。その中で、処理モジュール２３が前記推奨情報をユーザに対して出力するには、前記推奨情報をユーザに対して音声出力してもよいし、前記推奨情報を文字列としてユーザに対して表示してもよい。

例えば、学習と成長盛りにある児童は世界のどんなものに対しても探求する好奇心を持っている。児童がよく「これは何ですか」又は「どうしてですか」のような質問をよく親に聞く。本実施形態による人工知能に基づくヒューマンコンピュータインターアクションの装置がなければ、親たちは自分の知識の制限のせいで答えられないことがよくあり、いくら考えても答えられなかったり、コンピュータの電源を入れていろいろ調べたりし、効率が悪く不便である。しかし、本実施形態による人工知能に基づくヒューマンコンピュータインターアクションの装置があると、児童はいつでもさまざまな質問をヒューマンコンピュータインターアクションの装置に聞くことができる。例えば、「度ちゃん、なぜ葉っぱは緑色なんですか」と聞く。受信モジュール２１が児童から入力された前記音声を受信した後、意図判定モジュール２２が前記音声に対して音声認識を行い、音声認識の結果に基づいて児童が入力した前記音声の意図が問題の解答を求めることであると判定すると、処理モジュール２３は児童が入力した音声に含まれている問題を、クラウドを通じてインテリジェントな検索を行い、多量のインターネット上の情報から最良の結果を選び出し、その解答として、「葉っぱが緑色であるのは、葉緑素があるからである。葉緑素とは植物の細胞葉緑体の中にある大切な緑色の色素であり、水、空気および光エネルギーを利用して植物に必要とされる養分を作ることができる。葉緑素が緑色であるため、植物の葉っぱも緑色であるわけである。」とユーザに対して音声出力する。

児童の問題に答えた後、処理モジュール２３は児童が入力した音声に含まれている問題と関連する推奨情報を取得し、前記推奨情報を児童に対し出力することもできる。具体的には、処理モジュール２３は自動的に児童が聞いた前記問題に基づいて拡散的な教育と啓発として、「葉緑素を知りましたが、なぜ秋になると葉っぱが枯れるのかトットちゃんはわかりますか」等々の質問をする。

３歳〜５歳の児童が、言語の急速な発展の時期で他人との会話を必要とする成長過程にある場合において、知能ロボットは、一日中休むことなく児童と話すことができ、児童の言語システムの成長を支援できる。知能ロボットがそばにいると、児童教育が新しい時代に入ることができる。

前記人工知能に基づくヒューマンコンピュータインターアクションの装置は、受信モジュール２１がマルチモードの入力信号を受信した後、前記マルチモードの入力信号に基づいて、意図判定モジュール２２が前記ユーザの意図を判定し、処理モジュール２３が前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックすることにより、良好なヒューマンコンピュータインターアクションを実現することができ、高機能で高付き添い型のインテリジェントヒューマンコンピュータインターアクションも実現することができ、更にユーザエクスペリエンスを向上させることができる。

図４は本発明の一実施形態による端末機器を示す図である。本実施形態による端末機器は本発明の図１に示したフローチャートを実現することができる。図４に示したように、該端末機器は、受信部４１、処理部４２、記憶部４３、回路基板４４と電源回路４５とを含むことができる。そのうち、回路基板４４はケースによって囲まれた空間内部に配置され、処理部４２と記憶部４３は回路基板に配置され、電源回路４５は前記端末装置の各回路又は装置に給電し、記憶部４３は実行可能なプログラムコードを記憶する。

受信部４１は、ユーザが入力した音声信号、画像信号及び／又は環境センサー信号を含むマルチモードの入力信号を受信する。

処理部４２は、前記マルチモードの入力信号に基づいて前記ユーザの意図を判定するステップと、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップとを実行できるように、記憶部４３に記憶された実行可能なプログラムコードを読み取って実行可能なプログラムコードに対応するプログラムを実行する。

具体的には、処理部４２が処理結果を前記ユーザにフィードバックするステップは、処理部４２が処理結果を画像、文字列、音声、ロボットの身体の動き及び／又はロボットの点灯フィードバック等を通じてユーザにフィードバックすることを含むことができる。本実施形態は処理結果をフィードバックする方法を制限しない。

本実施形態の例示において、処理部４２は、具体的に前記ユーザが入力した音声信号に対して音声認識を行い、音声認識の結果に基づいて、画像信号及び／又はセンサー信号と結合して前記ユーザの意図を判定する。

又は、前記端末機器は更にカメラ４６を含むこともできる。処理部４２は、具体的に前記ユーザが入力した音声信号に対して音声認識を行い、音源定位を通じてディスプレイを前記ユーザのいる方位に回し、カメラ４６支援顔認識機能を利用して前記ユーザの姓名、年齢、性別等の個人情報を識別し、音声認識の結果、前記ユーザの個人情報、保存された前記ユーザの日常的な行動や好み等の嗜好情報に基づいて前記ユーザの意図を判定する。

本例示において、処理部４２は、具体的に前記ユーザの意図に基づいて、クラウド側のデータベースにおいて個別的データマッチングをし、前記ユーザに相応しい推奨情報を取得して前記ユーザに対して出力する。その中で、処理部４２によって前記ユーザに相応しい推奨情報を前記ユーザに対して出力することは、前記ユーザに相応しい推奨情報を前記ユーザに対し音声出力することもできるし、又は前記ユーザに相応しい推奨情報を文字列としてディスプレイに表示することもできる。本実施形態は処理モジュールが前記ユーザに相応しい推奨情報を前記ユーザに対して出力する方法を制限しない。

更に、前記推奨情報にアドレス情報が含まれ、処理部４２は、具体的に前記ユーザのいる場所から前記アドレス情報が指し示す場所までの交通ルートを取得し、前記ユーザの行動のパターンに従って前記ユーザに相応しい交通手段を取得し、前記交通手段を前記ユーザに推奨する。その中で、処理部４２によって前記交通手段を前記ユーザに推奨するには、前記交通手段を前記ユーザに対して音声出力することもできるし、又は前記交通手段を文字列としてディスプレイに表示することもできる。本実施形態は前記交通手段を前記ユーザに推奨する方法を制限しない。

つまり、本実施形態による端末機器は、人間との数回の会話交流を実現でき、自然言語、表情を通じて人間とコミュニケーションすることができ、個別的学習能力を備え、インテリジェントクラウド側のサーバに接続することにより関連知識を取得し、同時にターゲットを絞ってユーザに提供する。

例えば、お年寄りが外出して何らかのイベントに参加することを希望する場合で、付近に面白そうなイベントがあるかどうかを知らない場合がある。この場合、本実施形態の端末機器がなければ、通常の解決方法として、お年寄りは子女に電話をかけて聞くか、又は家を出て近所の人や町内会に問い合わせるしかない。

しかし、本実施形態による端末機器があれば、お年寄りは本実施形態による端末機器に向かって、「度ロボットちゃん、この近くに私に相応しいイベントがありませんか」と質問することができる。

受信部４１が前記音声を受信した後、処理部４２が音源定位を通じて端末機器のディスプレイ（例えば、知能ロボットの顔）をお年寄りのいる方位に回し、ＨＤカメラ４６支援顔認識機能を利用して話者の姓名、年齢、性別等の個人情報を正確に識別し、話者の日常的な行動や好み、年齢と性別等の情報に基づいて、話者が入力した音声の意図を判定し、その後処理部４２が入力された音声の意図に基づいてクラウド側のデータベースの中において個別的データマッチングをし、話者に最も相応しい推奨情報を選び出し、前記推奨情報として、「度はお好きになるかもしれないイベントを見つけました。今日の午後２時にここから８００メートルの南湖公園でお年寄りのための社交ダンスパーティーがありますが、いかがでしょうか」を前記話者に対し音声出力する。その中で、該推奨情報にはアドレス情報「南湖公園」が含まれている。

ユーザが「よいですね。このイベントが気に入りました。どうすれば行けるんですか」と返答したとする。受信部４１が前記ユーザにより入力された音声を受信した後、処理部４２が前記ユーザにより入力された音声に対して音声認識を行い、音声認識の結果に基づいてユーザの意図が南湖公園に行きたいものであると判定すると、処理部４２が地理的位置定位モジュールにより入力された信号に基づいてユーザの居る場所を確定し、自動的にユーザのいる場所から南湖公園までの交通ルートを検索し、前記ユーザの日常的な行動のパターンに従って前記ユーザに相応しい交通手段をスマートに取得し、その交通手段として、「ここから南湖まで８００メートルであり、徒歩時間はおよそ１５分で、徒歩ルートの地図を用意しました」とユーザに推奨する。

本実施形態の別の例示において、前記ユーザの意図に時間情報が含まれ、処理部４２は、具体的に前記ユーザの意図の時間情報に基づいて目覚まし時計の時刻を設定し、その設定結果を前記ユーザにフィードバックする。その中で、処理部４２によって設定結果を前記ユーザにフィードバックするには、処理部４２によって設定結果をユーザに対して音声出力してもよいし、又は設定結果を文字列としてユーザに対して表示してもよいし、当然ながら他のフィードバック方法を利用してもよい。本発明はこれを制限しない。

更に、処理部４２は、設定結果を前記ユーザにフィードバックした後、前記ユーザに伝言メッセージを記録するように促し、前記目覚まし時計の設定時刻になると、アラームを鳴らし、前記ユーザの伝言メッセージを再生する。

例えば、朝７時に母親は早起きして出張に行かなければならないが、児童のトットちゃんがまだ熟睡しているとする。家を出るとき、母親が知能ロボットに、「度ロボットちゃん、８時にトットちゃんを起こしてもらえませんか」と言う。受信部４１が音声を受信した後、処理部４２が音声認識の結果に基づいてユーザの意図に時間情報含まれていると識別すると、処理部４２がユーザの意図における時間情報に基づいて目覚まし時計の時刻を設定、その設定結果を前記ユーザにフィードバックする。設定結果をユーザにフィードバックした後、処理部４２が更にユーザに提示することもできるため、「大丈夫です、目覚まし時計の時刻を設定しておきました。１時間後のちょうど８時にトットちゃんを起こします。トットちゃんが起きてから何か伝言がありますか」と返答する。

「ありがとう、度ちゃん。トットちゃんに伝えてください。朝ごはんができていて、電子レンジにおいておきました。今日はトットちゃんの誕生日ですから、おめでとうと伝えてください」と母親が言う。この場合、処理部４２がユーザの伝言メッセージを記録し、前記目覚まし時計の設定時刻になるとアラームを鳴らし、前記ユーザの伝言メッセージを再生する。

本実施形態の他の例示において、受信部４１は、マルチモードの入力信号を受信する前に、更に前記ユーザと関連する別のユーザが送信したマルチメディア情報を受信することもできる。

処理部４２は、更に前記ユーザに前記マルチメディア情報を再生するかどうかを提示する。ここで、処理部４２がユーザにマルチメディア情報を再生するかどうかを提示するには、ユーザにマルチメディア情報を再生するかどうかを提示する機能を果たせれば、音声提示を用いても、文字提示を用いても、又はその他の提示方法を用いてもかまわない。

前記ユーザの意図が前記マルチメディア情報の再生に賛成することであれば、処理部４２は、具体的には、ユーザと関連する別のユーザが送信したマルチメディア情報を再生する。

更に、前記端末機器は送信部４７を含むこともできる。

受信部４１は、処理部４２が前記ユーザと関連する別のユーザが送信したマルチメディア情報を再生した後、更に前記ユーザが送信した音声を受信することもできる。

送信部４７は、前記音声を前記ユーザと関連する別のユーザに送信する。その中で、送信部４７が前記音声をユーザと関連する別のユーザに送信するには、送信部４７が音声を直接、ユーザと関連する別のユーザにより使われるスマートデバイスにインストールされたＡｐｐに送信するか、又は音声を文字に変換してユーザと関連する別のユーザににより使われるスマートデバイスにインストールされたＡｐｐに送信する。

受信部４１がユーザ（トットちゃん）と関連する別のユーザ（トットちゃんの母親）から送信されたマルチメディア情報（例えばビデオ）を受信した場合、処理部４２はユーザにそのマルチメディア情報を再生するかどうかを提示する。「こんにちは、トットちゃん、度がお母さんから送信されたビデオを受け取りましたが、今ご覧になりますか」と音声出力する。

トットちゃんが「すぐ再生してください」と返答する。受信部４１はトットちゃんが入力した音声を受信した後、処理部４２は音声認識を行い、音声認識の結果に基づいてユーザの意図が前記動画情報の再生に同意するものであると判定すると、処理部４２はスクリーンにおいて自動的に母親が出張先で録画した誕生日祝福ビデオを再生する。

母親から送信されたビデオを再生した後、受信部４１は更にトットちゃんからの音声として、「度ちゃん、お母さんに伝えてください。ありがとう、愛している、いい旅をして早く帰れるようにって」を受信することもできる。

この場合、送信部４７は、自動的にトットちゃんからの音声を文字に変換し、母親の携帯電話にインストールされていたＡｐｐに送信する。

本実施形態の他の例示において、ユーザの意図がマルチメディア情報の再生を要求することであってもよい。この場合、処理部４２は、無線ネットワークを通じてクラウド側のサーバから前記ユーザが要求したマルチメディア情報を取得し、取得されたメルチメディア情報を再生する。

更に、受信部４１は、マルチモードの入力信号を受信する前に、前記ユーザと関連する別のユーザが送信した通話リクエストを受信することもできる。

処理部４２は、前記ユーザに通話に応答するかどうかを提示する。

前記ユーザの意図が通話に応答することである場合、処理部４２は、前記ユーザと前記ユーザと関連する別のユーザとを通話させ、通話中、カメラを制御して話者である前記ユーザの方位を検出し、前記カメラを話者に回し、前記ユーザと関連する別のユーザが、前記別のユーザにより使われるスマートデバイスにインストールされたＡｐｐを通じて、前記ユーザが関心を寄せている顔をクリックすると、ビデオカメラ顔追跡機能が作動し、カメラ４６に前記ユーザが関心を寄せている顔を追跡させる。

「度ちゃん、今日は私の誕生日ですから、誕生日の歌を一曲再生してもらえませんか」とトットちゃんが端末機器に聞く。受信部４１が前記音声を受信した後、処理部４２が音声認識の結果に基づいてトットちゃんが入力した音声の意図がマルチメディア情報（例えば、オーディオ情報である誕生日の歌）の再生であると判定する。

すると、処理部４２がＷｉＦｉを通じてスマートにクラウド側のサーバから誕生日の歌を検索し、それを再生するように自動的にローカルにダウンロードし、ユーザに処理結果として、「大丈夫です。今すぐ再生します。」とフィードバックする。

再生を終えた後、受信部４１がトットちゃんの母親から送信されたビデオ通話のリクエストを受信した。すると、処理部４２がトットちゃんに「ビデオ通話のリクエストを受け取りました。お母さんがトットちゃんとビデオ通話をしようとしていますが、接続しますか。」と提示する。

「すぐ接続してください」とトットちゃんが言う。受信部４１はトットちゃんが入力した音声を受信した後、処理部４２はトットちゃんにより入力されたこの音声の意図が通話に接続することであると判定した後、処理部４２は遠くの余所で出張している母親により使われるスマートフォンにインストールされたＡｐｐと知能ロボットとのＨＤビデオカメラを接続し、母親を、トットちゃん及びその友達とビデオ通話をさせる。ビデオ通話中、処理部４２が自身のカメラ４６を制御して自動的に話者の方位を確かめ、カメラを話者に回す。カメラ４６が回るとき、インテリジェントなデュアルレンズカメラを切替えるアルゴリズムによってカメラの画面の安定化が保証され、揺れが生じない。母親の方は自分の使うスマートデバイスにインストールされたＡｐｐを通じてビデオの中の顔をクリックし、ビデオカメラ顔追跡機能を作動し、知能ロボットのカメラに母親が関心を寄せている顔を追跡し続けさせる。

つまり、本実施形態による端末機器は、いつでも家族と連絡を取ることが実現し、新しいインテリジェントなインターアクションの手段を有し、前記方法を実現する端末デバイスが家族間のコミュニケーション、手伝い、提示の架け橋になれる。

本実施形態の他の例示においては、前記端末機器は更にセンサー４８を含むこともでき、センサー４８により獲得された環境センサー信号が現在の環境の環境情報を提示する。

処理部４２は、更に前記環境情報に含まれる指標において警告閾値を超えた指標があるとき、危険警報をし、同時に危険を処理する方法を出力し、並びにカメラを作動して撮影する。その中で、前記警告閾値は前記環境情報の指標に応じて別々に設定できるが、本実施形態においては警告閾値の大小を制限しない。

つまり、前記人工知能に基づくヒューマンコンピュータインターアクションの端末機器は更に家族を災害から保護することができる。

例えば、センサー４８は、ＰＭ2.5粒子状物質センサー、有毒ガスセンサー及び／又は温湿度センサー等を含むことができる。センサー４８が獲得された環境センサー信号は現在の環境の環境情報を提示することができるため、いつでもホーム環境の健康度をモニタリングすることができる。前記環境情報に含まれている指標において警告閾値を超えた指標があるとき、例えば家でガス漏れのような有毒ガス漏れが発生したとき、処理部４２がすぐに危険警報を送信し、音声で危険警告をし、同時に危険を処理する方法を知らせ、並びに自動的に危険状況を家族の携帯電話に送信し、自動的に警戒モードに入り、カメラを作動して家全体を撮影し記録する。

更に、処理部４２は、前記環境情報に含まれている指標においてモード切替閾値に達した指標があるとき、スマートハウス制御システムによって前記モード切替閾値に達した指標に対応する家電のモードを制御し、家電の管理を実現する。その中で、前記モード切替閾値は同様に前記環境情報の指標に応じで別々に設定することができ、本実施形態においては警告閾値を制限しない。

例えば、センサー４８は、ＰＭ2.5粒子状物質センサー、有毒ガスセンサー及び／又は温湿度センサー等を含むことができ、センサー４８が獲得された環境センサー信号はホームの大気質や温湿度などのような現在の環境の環境情報を提示することができる。大気質の濃度が高くなり、大気質のモード切替閾値に達した場合、処理部４２が自動的にブルートゥーススマートハウス制御システムを通じて空気清浄器をつける。部屋の温度が高すぎたり低すぎたりして温度のモード切替閾値に達した場合、処理部４２が自動的にエアコンをつける。留守をして電気を消すのを忘れ、電気のモード切替閾値に達した場合、処理部４２が自動的に電気を消す。

本実施形態の他の例示において、前記ユーザの意図が問題の解答を求めることであるとする。この場合、処理部４２は、具体的に前記ユーザが入力した音声に含まれている問題に対して、検索して前記問題の解答を取得し、前記解答をユーザに出力する。その中で、処理部４２が前記解答をユーザに出力するには、前記解答をユーザに対して音声出力してもよいし、前記解答を文字列としてユーザに対して表示してもよい。

更に、処理部４２は、前記解答をユーザに出力した後、前記ユーザが入力した音声に含まれている問題と関連する推奨情報を取得し、前記推奨情報をユーザに出力することもできる。その中で、処理部４２が前記推奨情報をユーザに出力するには、前記推奨情報をユーザに対して音声出力してもよいし、前記推奨情報を文字列としてユーザに対して表示してもよい。

例えば、学習と成長盛りにある児童は世界のどんなものに対しても探求する好奇心を持っている。児童がよく「これは何ですか」又は「どうしてですか」のような質問をよく親に聞く。本実施形態による端末機器がなければ、親たちは自分の知識の制限のせいで答えられないことがよくあり、いくら考えても答えられなかったり、コンピュータの電源を入れいろいろ調べたりしても、効率悪く不便である。しかし、前記端末機器がそばにいるとなると、児童はいつでもさまざまな質問を端末機器に聞くことができる。例えば、「度ちゃん、なぜ葉っぱは緑色なんですか」と聞く。受信部４１が児童から入力された前記音声を受信した後、処理部４２が前記音声に対して音声認識を行い、音声認識の結果に基づいて児童が入力した前記音声の意図が問題の解答を求めることであると判定すると、処理部４２が児童の入力した音声に含まれている問題を、クラウドを通じてインテリジェントな検索を行い、多量のインターネット上の情報から最良の結果を選び出し、その解答として、「葉っぱが緑色であるのは、葉緑素があるからである。葉緑素とは植物の細胞葉緑体の中にある大切な緑色の色素であり、水、空気および光エネルギーを利用して植物に必要とされる養分を作ることができる。葉緑素が緑色であるため、植物の葉っぱも緑色であるわけである。」とユーザに音声出力する。

児童の問題に答えた後、処理部４２は児童が入力した音声に含まれている問題と関連する推奨情報を取得し、前記推奨情報を児童に出力することもできる。具体的には、処理部４２は更に自動的に児童が聞いた前記問題に基づいて拡散的な教育と啓発として、「葉緑素を知りましたが、なぜ秋になると葉っぱが枯れるのかトットちゃんはわかりますか」等々の質問をする。

３歳〜５歳の児童が、言語の急速な発展の時期で他人との会話を必要とされる成長過程にある場合において、知能ロボットは一日中休むことなく児童と話すことができ、児童の言語システムの成長を支援できる。知能ロボットがそばにいると、児童教育が新しい時代に入ることができる。

前記端末機器は、受信部４１がマルチモードの入力信号を受信した後、処理部４２が前記マルチモードの入力信号に基づいて、前記ユーザの意図を判定し、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックすることにより、良好なヒューマンコンピュータインターアクションを実現することができ、高機能で高付き添い型のインテリジェントヒューマンコンピュータインターアクションも実現でき、更にユーザエクスペリエンスを向上させることができる。

図４に示した端末機器の具体的な形態は、知能ロボットであってもよい。図５は本発明の一実施形態による知能ロボットを示す図である。該知能ロボットは頭と体の三つの自由度を持つデスクトップロボット（体は３６０度水平回転でき、頭部は１８０度水平回転でき、同時に頭部はプラス又はマイナス６０度以内なら俯いたり仰向いたりすることができ、歩行能力を備えても備えなくてもよい）であってもよい。図５に示したように、知能ロボットには、高品質のステレオスピーカー、カメラ（高解像度で、顔認識及びオートフォーカス等の機能を実現できる）、高解像度のディスプレイ、高速中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、以下ＣＰＵと略称する）、接触式充電コンセント、及び感度の高いセンサー、集成ネットワークモジュールが配置されている。その中で、知能ロボットに搭載されたセンサーは、湿度センサー、温度センサー、粒子状物質（ＰＭ２．５）センサーとガスセンサーのような有毒ガスセンサー等を含むことができ、ネットワークモジュールは赤外線、ＷｉＦｉ、ブルートゥース等のモジュールを含むことができる。

また、前記知能ロボットは新しいマルチモード情報のインターアクション手段（視覚、聴覚、触覚、嗅覚及び／又は自然言語交流フィードバック）を備えている。家庭に用いられ、家族、インテリジェント装置、情報とサービスとを繋がるスマートな架け橋となり、家庭内のコミュニケーション、情感付き添い、監督保護、情報提供の支援及び教育等のニーズを満たすことができ、新しいマルチモード情報のインターアクション手段を備える。図６は本発明の一実施形態による知能ロボットによるスクリーンインターアクションを示す図である。図６に示したように、知能ロボットは、ビデオ通話、情感交流、情報伝達及び／又は音楽などのマルチメディアの再生等のマルチモードのインターアクションを行うことができる。

また、知能ロボットには相応したＡｐｐがあり、家を出た後の遠隔通信とビデオ通話を行うことができる。

本実施形態による知能ロボットには、オープンシステムプラットホームがあり、継続的にアップグレードすることができる。知能ロボットに相応したオープンオペレーティングシステムプラットホームがある。オープンインタフェースプロトコルにより、プロバイダは知能ロボットにさまざまなコンテンツとアプリケーションを開発することができる。ソフトウェアにおいて、ＷｉＦｉを通じて自動的にネットワークに接続することにより、知能ロボットは継続的にソフトの更新とアップグレードを行い、クラウドシステムも２４時間絶えずインターネット上の多量の新しい情報を取得することができるため、すべての更新とアップグレードは知能ロボットのバックステージにおいて静かに完成され、ユーザは複雑なソフト更新をする必要もなくなる。

本発明の説明には、用語「第一」、「第二」等は単に説明のためのみに用いられ、相対的な重要性に明示的にも暗示的にも関連づけられ使用されるものではない。また、本発明の説明には、別途、明確に限定した場合を除き、用語「複数」は二つ又は二つ以上を指すものとする。

フローチャートにおいてまたはここで他の方式で説明された論理またはステップは、一つ又は複数の論理機能又はステップを実現するための実行可能な命令の符号のモジュール、断片又は部分であり、並びに本発明の好ましい実施形態は他の形態も含み、例示された又は議論された順序（関与された機能とほぼ同じ方式又は逆の順序を含む）によらず実行できることは当業者であれば理解すべきである。

本発明の各部分は、ハードウェア、ソフトウエア、ファームウェア、またはそれらの組み合わせで実現することができる。上記実施形態において、複数のステップ又は方法は、メモリに格納され且つ適切な命令実行システムにより実行されるソフトウェアまたはファームウェアで実現することができる。例えば、ハードウェアで実現する場合、他の実施形態と同様に、当該技術分野で公知の以下の技術におけるいずれか１つ又はそれらの組み合わせで実現することができる。データ信号に論理機能を実現するための論理ゲート回路を有するディスクリート論理回路、適切な組み合わせ論理ゲート回路を有する専用集積回路、プログラマブルゲートアレイ（ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ以下ＰＧＡと略称する）、フィールドプログラマブルゲートアレイ（Fｉｅｌｄ Pｒｏｇｒａｍｍａｂｌｅ Gａｔｅ Aｒｒａｙ以下ＰＦＧＡと略称する）などである。

上述の実施形態を実現する方法に係る、全部又は部分のステップは、プログラムによって関連するハードウェアに命令を実行して完成でき、前記プログラムはコンピュータの読み取り可能な記憶媒体に記憶され、プログラムを実行するとき、実施形態のステップの一つ又はその組合せを含むことが本技術分野の一般の技術者は理解すべきである。

また、本発明の実施形態に係る各機能ユニットは一つの処理モジュールに集成されてもよいし、各ユニット各自の物理的存在であってもよいし、ソフトウェアによるモジュールを利用してもよい。前記統合されたモジュールはハードウェアを利用してもできるし、ソフトウェアを利用してもできる。前記統合されたモジュールはソフトウェアを利用して独立するプロダクトとして販売又は利用されるとき、コンピュータの読み取り可能な記憶媒体に記憶されてもよい。

前記記憶媒体はＲＯＭ、読み出し専用メモリ、ディスク又はＣＤ等である。

本明細書の説明において、用語の“一つの実施形態”、“一部の実施形態”、“例示”、“具体的な例示”、又は“一部の例示”等の言葉は、当該実施形態又は例示と合わせて説明された具体的な特徴、構成、材料又は特性が、本発明の少なくとも一つの実施形態又は例示に含まれることを意味する。本明細書において、上記の用語の概略表現は必ずしも同じ実施形態又は例示を指さず、且つ、任意の一つ又は複数の実施形態や例示において、説明された具体的な特徴、構成、材料又は特性を適当な方法で組み合わせることもできる。

以上本発明の実施形態を示して説明したが、当業者にとって理解できるのは、上記の実施形態は例示的なものに限らないということであり、また本発明を制限するように解釈する事は出来ないということである。本発明の原理と要旨から逸脱しない範囲で、これらの実施形態に対し様々な変更、修正、置換および変形をすることが可能である。

Claims

ユーザが入力した音声信号、画像信号及び／又は環境センサー信号を含むマルチモードの入力信号を受信するステップと、
前記マルチモードの入力信号に基づいて前記ユーザの意図を判定するステップと、
前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップと、
を含むことを特徴とする人工知能に基づくヒューマンコンピュータインターアクションの方法。
前記マルチモードの入力信号に基づいて前記ユーザの意図を判定するステップは、
前記ユーザが入力した音声信号に対して音声認識を行い、音声認識の結果に基づいて、画像信号及び／又はセンサー信号と結合して前記ユーザの意図を判定すること、
を特徴とする請求項１に記載の方法。
前記マルチモードの入力信号に基づいて前記ユーザの意図を判定するステップは、
前記ユーザが入力した音声信号に対して音声認識を行い、音源定位を通じてディスプレイを前記ユーザのいる方位に回し、カメラ支援顔認識機能を利用して前記ユーザの個人情報を識別するステップと、
前記音声認識の結果、前記ユーザの個人情報、及び保存された前記ユーザの嗜好情報に基づいて前記ユーザの意図を判定するステップと、
を含むことを特徴とする請求項１に記載の方法。
前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、
前記ユーザの意図に基づいて、クラウド側のデータベースにおいて個別的データマッチングをし、前記ユーザに相応しい推奨情報を取得して前記ユーザに出力すること、
を特徴とする請求項１又は２に記載の方法。
前記推奨情報にアドレス情報が含まれる場合において、
前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、
前記ユーザのいる場所から前記アドレス情報が指し示した場所までの交通ルートを取得し、前記ユーザの行動のパターンに従って前記ユーザに相応しい交通手段を取得し、前記交通手段を前記ユーザに推奨すること、
を特徴とする請求項４に記載の方法。
前記ユーザの意図に時間情報が含まれる場合において、
前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、
前記ユーザの意図の時間情報に基づいて目覚まし時計の時刻を設定し、その設定結果を前記ユーザにフィードバックすること、
を特徴とする請求項２又は３に記載の方法。
前記設定結果をユーザにフィードバックした後、更に、
前記ユーザに伝言メッセージを記録するように促し、前記目覚まし時計の時刻になると、アラームを鳴らし、前記ユーザの伝言メッセージを再生すること、
を特徴とする請求項６に記載の方法。
前記マルチモードの入力信号を受信する前に、更に、
前記ユーザと関連する別のユーザが送信したマルチメディア情報を受信し、前記ユーザにマルチメディア情報を再生するかどうかを提示すること、
を特徴とする請求項２又は３に記載の方法。
前記ユーザの意図が、前記マルチメディア情報の再生に賛成するものである場合において、
前記ユーザの意図を処理するステップは、前記ユーザと関連する別のユーザが送信したマルチメディア情報を再生すること、
を特徴とする請求項８に記載の方法
前記ユーザと関連する別のユーザが送信したマルチメディア情報を再生した後、更に、
前記ユーザから送信された音声を受信し、前記音声を前記ユーザと関連する別のユーザに送信すること、
を特徴とする請求項９に記載の方法。
前記ユーザの意図がマルチメディア情報の再生を要求するものである場合において、
前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、
無線ネットワークを通じてクラウド側のサーバから前記ユーザが要求したマルチメディア情報を取得し、取得されたメルチメディア情報を再生すること、
を特徴とする請求項２又は３に記載の方法。
前記マルチモードの入力信号を受信する前に、更に、
前記ユーザと関連する別のユーザが送信した通話リクエストを受信し、前記ユーザに通話に応答するかどうかを提示すること、
を特徴とする請求項２又は３に記載の方法。
前記ユーザの意図が通話に応答するものである場合において、
前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、
前記ユーザを前記ユーザと関連する別のユーザとを通話させ、通話中、カメラを制御して話者である前記ユーザの方位を検出し、カメラを話者に回すステップと、
前記ユーザと関連する別のユーザが、前記別のユーザにより使われるスマートデバイスにインストールされたＡｐｐを通じて、前記ユーザが関心を寄せる顔をクリックすると、ビデオカメラ顔追跡機能が作動し、カメラに前記ユーザが関心を寄せる顔を追跡させるステップと、
を含むことを特徴とする請求項１２に記載の方法。
前記環境センサーの信号は、現在の環境の環境情報を提示するものであり、
前記マルチモードの入力信号を受信した後、更に、
前記環境情報に含まれている指標において警告閾値を超えた指標があるとき、危険警報をし、同時に危険を処理する方法を出力し、並びにカメラを作動して撮影すること、
を特徴とする請求項１に記載の方法。
前記マルチモードの入力信号を受信した後、更に、
前記環境情報に含まれている指標においてモード切替閾値に達した指標があるとき、スマートハウス制御システムによって前記モード切替閾値に達した指標に対応する家電のモードを制御すること、
を特徴とする請求項１１に記載の方法。
前記ユーザの意図が問題の解答を求めるものである場合において、
前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップは、
前記ユーザが入力した音声に含まれている問題に対して、検索して前記問題の解答を取得し、前記解答をユーザに出力すること、
を特徴とする請求項２又は３に記載の方法。
前記解答をユーザに出力した後、更に、
前記ユーザが入力した音声に含まれている問題と関連する推奨情報を取得し、前記推奨情報をユーザに出力すること、
を特徴とする請求項１６に記載の方法。
ユーザが入力した音声信号、画像信号及び／又は環境センサー信号を含むマルチモードの入力信号を受信する受信モジュールと、
前記受信モジュールが受信したマルチモードの入力信号に基づいて前記ユーザの意図を判定する意図判定モジュールと、
前記意図判定モジュールが判定した前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックする処理モジュールと、
を含むことを特徴とする人工知能に基づくヒューマンコンピュータインターアクションの装置。
前記意図判定モジュールは、
具体的に前記ユーザが入力した音声信号に対して音声認識を行い、音声認識の結果に基づいて、画像信号及び／又はセンサー信号と結合して前記ユーザの意図を判定すること、
を特徴とする請求項１８に記載の装置。
前記意図判定モジュールは、
具体的に前記ユーザが入力した音声信号に対して音声認識を行い、音源定位を通じてディスプレイを前記ユーザのいる方位に回し、カメラ支援顔認識機能を利用して前記ユーザの個人情報を識別し、前記音声認識の結果、前記ユーザの個人情報、及び保存された前記ユーザの嗜好情報に基づいて前記ユーザの意図を判定すること、
を特徴とする請求項１８に記載の装置。
前記処理モジュールは、
具体的に前記ユーザの意図に基づいて、クラウド側のデータベースにおいて個別的データマッチングをし、前記ユーザに相応しい推奨情報を取得して前記ユーザに出力すること、
を特徴とする請求項１９又は２０に記載の装置。
前記推奨情報にアドレス情報が含まれる場合において、前記処理モジュールは、具体的に前記ユーザのいる場所から前記アドレス情報が指し示す場所までの交通ルートを取得し、前記ユーザの行動のパターンに従って前記ユーザに相応しい交通手段を取得し、前記交通手段を前記ユーザに推奨すること、
を特徴とする請求項２１に記載の装置。
前記ユーザの意図に時間情報が含まれる場合において、
前記処理モジュールは、
具体的に前記ユーザの意図の時間情報に基づいて目覚まし時計の時刻を設定し、その設定結果を前記ユーザにフィードバックすること、
を特徴とする請求項１９又は２０に記載の装置。
前記処理モジュールによって設定結果を前記ユーザにフィードバックした後、前記ユーザに提示し、並びに前記目覚まし時計の時刻になると、アラームを鳴らす提示モジュールと、
前記ユーザの伝言メッセージを記録する記録モジュールと、
を更に含み、
前記処理モジュールは、更に前記記録モジュールが記録したユーザの伝言メッセージを再生すること、
を特徴とする請求項２３に記載の装置。
前記受信モジュールは、マルチモードの入力信号を受信する前に、前記ユーザと関連する別のユーザが送信したマルチメディア情報を受信し、
前記ユーザに前記マルチメディア情報を再生するかどうかを提示する提示モジュール、
を更に含むこと特徴とする請求項１９又は２０に記載の装置。
前記ユーザの意図が前記マルチメディア情報の再生に賛成するものである場合において、
前記処理モジュールは、具体的にユーザと関連する別のユーザが送信したマルチメディア情報を再生すること、
を特徴とする請求項２５に記載の装置。
前記受信モジュールは、処理モジュールが前記ユーザと関連する別のユーザが送信したマルチメディア情報を再生した後、前記ユーザが送信した音声を受信し、
前記受信モジュールが受信した音声を前記ユーザと関連する別のユーザに送信する送信モジュール、
を更に含むことを特徴とする請求項２６に記載の装置。
前記ユーザの意図がマルチメディア情報の再生を要求するものである場合において、
前記処理モジュールは、無線ネットワークを通じてクラウド側のサーバから前記ユーザが要求したマルチメディア情報を取得し、取得されたメルチメディア情報を再生すること、
を特徴とする請求項１９又は２０に記載の装置。
前記受信モジュールは、マルチモードの入力信号を受信する前に、前記ユーザと関連する別のユーザが送信した通話リクエストを受信し、
前記ユーザに通話に応答するかどうかを提示する提示モジュール、
を更に含むことを特徴とする請求項１９又は２０に記載の装置。
前記ユーザの意図が通話に応答するものである場合において、
前記処理モジュールは、
前記ユーザと、前記ユーザと関連する別のユーザと、を通話させ、通話中、カメラを制御して、話者である前記ユーザの方位を検出し、前記カメラを話者に回し、前記ユーザと関連する別のユーザが、前記別のユーザにより使われているスマートデバイスにインストールされたＡｐｐを通じて前記ユーザが関心を寄せる顔をクリックすると、ビデオカメラ顔追跡機能が作動し、カメラに前記ユーザが関心を寄せる顔を追跡させること、
を特徴とする請求項２９に記載の装置。
前記環境センサーの信号は、現在の環境の環境情報を提示し、
前記処理モジュールは、前記環境情報に含まれている指標において警告閾値を超えた指標があるとき、危険警報をし、同時に危険を処理する方法を出力し、並びにカメラを作動して撮影すること、
を特徴とする請求項１８に記載の装置。
前記処理モジュールは、前記環境情報に含まれている指標においてモード切替閾値に達した指標があるとき、スマートハウス制御システムによって前記モード切替閾値に達した指標に対応する家電のモードを制御すること、
を特徴とする請求項３１に記載の装置。
前記ユーザの意図が問題の解答を求めるものである場合において、
前記処理モジュールは、具体的に前記ユーザが入力した音声に含まれている問題に対して、検索して前記問題の解答を取得し、前記解答をユーザに出力すること、
を特徴とする請求項１９又は２０に記載の装置。
前記処理モジュールは、前記解答をユーザに出力した後、前記ユーザが入力した音声に含まれている問題と関連する推奨情報を取得し、前記推奨情報をユーザに出力すること、
を特徴とする請求項３３に記載の装置。
受信部と、処理部と、記憶部と、回路基板と、電源回路と、を含み、そのうち、
前記回路基板はケースによって囲まれた空間内部に配置され、処理部と記憶部は回路基板に配置され、電源回路は前記端末装置の各回路又は装置に給電し、記憶部は実行可能なプログラムコードを記憶し、
前記受信部は、ユーザが入力した音声信号、画像信号及び／又は環境センサー信号を含むマルチモードの入力信号を受信し、
前記処理部は、前記マルチモードの入力信号に基づいて前記ユーザの意図を判定するステップと、前記ユーザの意図を処理し、処理結果を前記ユーザにフィードバックするステップと、を実行できるように、前記記憶部に記憶された実行可能なプログラムコードを読み取って前記実行可能なプログラムコードに対応するプログラムを実行すること、
を特徴とする端末機器。
前記処理部は、具体的に前記ユーザが入力した音声信号に対して音声認識を行い、音声認識の結果に基づいて、画像信号及び／又はセンサー信号と結合して前記ユーザの意図を判定すること、
を特徴とする請求項３５に記載の端末機器。
カメラを更に含み、
前記処理部は、具体的に前記ユーザが入力した音声信号に対して音声認識を行い、音源定位を通じてディスプレイを前記ユーザのいる方位に回し、前記カメラ支援顔認識機能を利用して前記ユーザの個人情報を識別し、前記音声認識の結果、前記ユーザの個人情報、保存された前記ユーザの嗜好情報に基づいて前記ユーザの意図を判定すること、
を特徴とする請求項３５に記載の端末機器。
前記処理部は、具体的に前記ユーザの意図に基づいて、クラウド側のデータベースにおいて個別的データマッチングをし、前記ユーザの推奨情報を取得し、前記ユーザに相応しい推奨情報を前記ユーザに出力すること、
を特徴とする請求項３６又は３７に記載の端末機器。
前記推奨情報にアドレス情報が含まれる場合において、
前記処理部は、具体的に前記ユーザのいる場所から前記アドレス情報が指し示した場所までの交通ルートを取得し、前記ユーザの行動のパターンに従って前記ユーザに相応しい交通手段を取得し、前記交通手段を前記ユーザに推奨すること、
を特徴とする請求項３８に記載の端末機器。
前記ユーザの意図に時間情報が含まれる場合において、
前記処理部は、具体的に前記ユーザの意図に係る前記時間情報に基づいて目覚まし時計の時刻を設定し、その設定結果を前記ユーザにフィードバックすること、
を特徴とする請求項３６又は３７に記載の装置。
前記処理部は、設定結果を前記ユーザにフィードバックした後、前記ユーザに伝言メッセージを記録するように促し、前記目覚ましい時計の時刻になると、アラームを鳴らし、前記ユーザの伝言メッセージを再生すること、
を特徴とする請求項４０に記載の端末機器。
前記受信部は、マルチモードの入力信号を受信する前に、更に前記ユーザと関連する別のユーザが送信したマルチメディア情報を受信し、
前記処理部は、更に前記ユーザに前記マルチメディア情報を再生するかどうかを提示すること、
を特徴とする請求項３６又は３７に記載の端末機器。
前記ユーザの意図が前記マルチメディア情報の再生に賛成するものである場合において、
前記処理部は、具体的に前記ユーザと関連する別のユーザが送信したマルチメディア情報を再生すること、
を特徴とする請求項４２に記載の端末機器。
前記受信部は、前記処理部が前記ユーザと関連する別のユーザが送信したマルチメディア情報を再生した後、更に、前記ユーザが送信した音声を受信し、
前記音声を前記ユーザと関連する別のユーザに送信する送信部、
を更に含むことを特徴とする請求項４３に記載の端末機器。
前記ユーザの意図がマルチメディア情報の再生を要求するものである場合において、
前記処理部は、無線ネットワークを通じてクラウド側のサーバから前記ユーザが要求したマルチメディア情報を取得し、取得されたメルチメディア情報を再生すること、
を特徴とする請求項３６又は３７に記載の端末機器。
前記受信部は、マルチモードの入力信号を受信する前に、前記ユーザと関連する別のユーザが送信した通話リクエストを受信し、
前記処理部は、前記ユーザに通話に応答するかどうかを提示すること、
を特徴とする請求項３６又は３７に記載の端末機器。
カメラを更に含み、
前記ユーザの意図が通話に応答するものである場合において、
前記処理部は、前記ユーザを、前記ユーザと関連する別のユーザと、通話させ、通話中、カメラを制御して話者である前記ユーザの方位を検出し、前記カメラを話者に回し、前記ユーザと関連する別のユーザが、前記別のユーザにより使われるスマートデバイスにインストールされたＡｐｐを通じて、前記ユーザが関心を寄せる顔をクリックすると、ビデオカメラ顔追跡機能が作動し、前記カメラに前記ユーザが関心を寄せる顔を追跡させること、
を特徴とする請求項４６に記載の端末機器。
センサーを更に含み、
前記センサーの信号が現在の環境の環境情報を提示し、
前記処理部は、更に前記環境情報に含まれている指標において警告閾値を超えた指標があるとき、危険警報をし、同時に危険を処理する方法を出力し、並びにカメラを作動して撮影すること、
を特徴とする請求項３５に記載の端末機器。
前記処理部は、前記環境情報に含まれている指標においてモード切替閾値に達した指標があるとき、スマートハウス制御システムによって前記モード切替閾値に達した指標に対応する家電のモードを制御すること、
を特徴とする請求項４８に記載の端末機器。
前記ユーザの意図が問題の解答を求めるものである場合において、
前記処理部は、具体的に前記ユーザが入力した音声に含まれている問題に対して、検索して前記問題の解答を取得し、前記解答をユーザに出力すること、
を特徴とする請求項３６又は３７に記載の端末機器。
前記処理部は、前記解答をユーザに出力した後、前記ユーザが入力した音声に含まれている問題と関連する推奨情報を取得し、前記推奨情報をユーザに出力すること、
を特徴とする請求項５０に記載の端末機器。