JP2019211754A

JP2019211754A - ヒューマンマシンインタラクションに使用される方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2019211754A
Application number: JP2019043632A
Authority: JP
Inventors: ウェンユゥワン，; Wenyu Wang
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-06-04
Filing date: 2019-03-11
Publication date: 2019-12-12
Anticipated expiration: 2039-03-11
Also published as: JP6810764B2; CN108877794A; US20190371319A1

Abstract

【課題】ユーザに対し人間的コミュニケーション、交流を行い良好なユーザ体験を引き起こすことができるヒューマンマシンインタラクションに使用される方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。【解決手段】方法は、クラウドでユーザからの音声命令に使用される単語を識別する。当該単語と、感情と、フィードバックとの間の予め設定されたマッピングに基づいて、音声命令に含まれる感情、及びユーザに提供される、感情に適応するフィードバックを決定し、当該フィードバックをユーザに提供する。【選択図】図２

Description

本開示の実施例は、一般的に、コンピュータ分野及び人工知能分野に関し、特に、ヒューマンマシンインタラクションに使用される方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。

現在、知能音声スクリーン付きインタラクション機器（例えば、スクリーン付き知能スピーカボックスなど）が使用される際に、機器の他の部品が十分に利用されていない。例えば、スクリーンは、通常、音声インタラクションの表示補助工具として、様々なタイプの情報を表示するに過ぎず、スクリーン機能を十分に発揮していない。即ち、従来の知能インタラクション機器は、通常、単一の音声インタラクションしか行っておらず、その他の部品は、ユーザとのインタラクションに参加していない。

しかしながら、このような単一のインタラクション方式は、知能ヒューマンマシンインタラクション機器による「知能化」という利点を発現しておらず、ヒューマンマシンインタラクション機器は、ユーザに対して更に人間的にコミュニケーション、交流することができず、良好なユーザ体験を引き起こすことができない。

本開示の実施例は、ヒューマンマシンインタラクションに使用される方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。

本開示の第１の態様では、ヒューマンマシンインタラクションに使用される方法を提供する。当該方法は、クラウドにおいて、ユーザからの音声命令に使用される単語を識別するステップを含む。当該方法は、単語と、感情と、フィードバックとの間の予め設定されたマッピングに基づいて、音声命令に含まれる感情、及びユーザに提供する、感情に適応するフィードバックを決定するステップを更に含む。当該方法は、フィードバックをユーザに提供するステップを更に含む。

本開示の第２の態様では、ヒューマンマシンインタラクションに使用される方法を提供する。当該方法は、クラウドにユーザからの音声命令を含むオーディオ信号を送信するステップを含む。当該方法は、クラウドから情報を受信し、当該情報は、ユーザに提供されるフィードバックを指示し、フィードバックが音声命令に含まれる感情に適応するステップを更に含む。当該方法は、ユーザにフィードバックを提供するステップを更に含む。

本開示の第３の態様では、ヒューマンマシンインタラクションのための装置を提供する。当該装置は、クラウドでユーザからの音声命令に使用される単語を識別するように構成される識別モジュールを含む。当該装置は、単語と、感情と、フィードバックとの間の予め設定されたマッピングに基づいて、音声命令に含まれる感情、及びユーザに提供する、感情に適応するフィードバックを決定するように構成される決定モジュールを更に含む。当該装置は、フィードバックをユーザに提供するように構成される提供モジュールを更に含む。

本開示の第４の態様では、ヒューマンマシンインタラクションのための装置を提供する。当該装置は、クラウドにユーザからの音声命令を含むオーディオ信号を送信するように構成される送信モジュールを含む。当該装置は、クラウドから情報を受信し、当該情報は、ユーザに提供されるフィードバックを指示し、フィードバックが音声命令に含まれる感情に適応するように構成される受信モジュールを更に含む。当該装置は、ユーザにフィードバックを提供するように構成されるフィードバックモジュールを更に含む。

本開示の第５の態様では、電子機器を提供する。当該電子機器は、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶するための記憶装置とを含む。一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合、一つ又は複数のプロセッサが第１の態様に係る方法を実現する。

本開示の第６の態様では、電子機器を提供する。当該電子機器は、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶するための記憶装置とを含む。一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合、一つ又は複数のプロセッサが第２の態様に係る方法を実現する。

本開示の第７の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータプログラムが、プロセッサによって実行される場合、第１の態様に係る方法を実現する。

本開示の第８の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータプログラムが、プロセッサによって実行される場合に、第２の態様に係る方法を実現する。

なお、発明の内容部分に説明する内容は、本開示の実施例に係るキー又は重要な特徴により限定されることは意図しておらず、本開示の範囲を制限するものではない。本開示のその他の特徴は、以下の説明により理解容易となる。

本発明の実施例の前記、及び付加的目的、特徴、及び利点は、下記図面を参照した実施形態に関する説明において、容易に理解される。図面において、本開示のいくつかの実施例は、例示的なものであり、本開示を限定するものと理解されてはならない。
本開示の一部の実施例を実現できる例示的な環境を示す模式図である。本開示の実施例に係るヒューマンマシンインタラクションに使用される方法を示す模式的なフローチャートである。本開示の他の実施例に係るヒューマンマシンインタラクションに使用される方法を示す模式的なフローチャートである。本開示の実施例に係るヒューマンマシンインタラクションのための装置を示す模式的なブロック図である。本開示の他の実施例に係るヒューマンマシンインタラクションのための装置を示す模式的なブロック図である。本開示の実施例を実施できる機器を示す模式的なブロック図。全ての図面において、同一又は類似の参照符号は、同一若しくは類似の部品を表す。

以下、図面に示されるいくつかの例示的な実施例を参照しながら、本開示の原理と精神を説明する。なお、これらの具体的な実施例は、以下、図面を参照しながら説明する実施形態は当業者が本開示をよく理解して実現するものに過ぎず、何らかの形態で本発明を制限するよう解釈されるべきではない。

前記のように、従来のヒューマンマシンインタラクション機器は、使用の時に、通常、単一の音声インタラクションのみを行う。しかしながら、このような単一のインタラクション方式は、知能ヒューマンマシンインタラクション機器による「知能化」という利点を発現していない。このように、ヒューマンマシンインタラクション機器は、ユーザに対してさらに人間的にコミュニケーションや、交流することを実現することができず、良好なユーザ体験を引き起こすことができず、長期間使用することによりユーザが倦怠を感じる。

従来のヒューマンマシンインタラクション機器の前記問題及びその他の潜在問題に鑑み、本開示の実施例は、ユーザ感情に基づくヒューマンマシンインタラクション形態を提供する。その要旨は、単語と、感情と、フィードバックとの間の予め設定されたマッピングを用いてユーザが音声命令で表現した感情、及び当該感情に適応する、ユーザに提出されるフィードバックを決定することにより、ユーザとの感情的なインタラクションを実現する。一部の実施例では、当該フィードバックは、例えば視覚形式、聴覚形式、触覚形式等の複数の形式を含むことができ、これにより、ユーザに「より立体的な」感情インタラクション体験を提供する。

本開示の実施例は、ヒューマンマシンインタラクション機器によるインタラクションと内容が同じであり、インタラクション方式が単調である問題を解決し、ヒューマンマシンインタラクション機器の「知能性」を提供する。ヒューマンマシンインタラクション機器は、ユーザに対して感情的なインタラクティブを行うことができ、これにより、ユーザとのヒューマンマシンインタラクションを改善する。本開示の実施例は、ユーザにより良好な使用感を提供し、ユーザ体験を向上させることができる。以下、図面を組み合わせて本開示のいくつかの実施例を説明する。

図１は、本開示の一部の実施例を実現できる例示的な環境１００の模式図である。当該示例環境１００において、ユーザ１１０は、ヒューマンマシンインタラクション機器１２０に音声命令１１５を発行してヒューマンマシンインタラクション機器１２０の操作を制御することができる。例えば、ヒューマンマシンインタラクション機器１２０が知能スピーカである場合に、音声命令１１５は、「ある歌を再生しなさい」であってもよい。しかしながら、ヒューマンマシンインタラクション機器１２０の実施例は、知能スピーカに限らず、ユーザ１１０が音声命令１１５で制御及び／又はインタラクションを行う如何なる電子機器を含んでもよいことを理解すべきである。

ヒューマンマシンインタラクション機器１２０は、マイク１２２により検出するか、又は受信ユーザ１１０からの音声命令１１５を受信することができる。一部の実施例では、マイク１２２は、マイクアレイとして実現してもよく、一つのマイクとして実現してもよい。ヒューマンマシンインタラクション機器１２０は、音声命令１１５に対してフロントエンドのノイズ低減処理を行うことにより、音声命令１１５の受信効果を改善することができる。

一部の実施例では、ユーザ１１０により発行された音声命令１１５には、感情を含んでもよい。音声命令１１５には、感情的色彩を有する単語、例えば「憂鬱」を含んでもよい。例えば、音声命令１１５は、「憂鬱な曲を１曲再生しなさい」であってもよい。ヒューマンマシンインタラクション機器１２０は、音声命令１１５に含まれる感情を検出又は決定し、当該感情を利用してユーザに対して感情のインタラクションを行うことができる。

具体的に、ヒューマンマシンインタラクション機器１２０は、音声命令１１５に使用される単語、例えば「憂鬱」を識別し、その後、単語と、感情と、フィードバックとの間のマッピング関係によってユーザ１１０の感情及びユーザ１１０に提供されるフィードバックを決定することができる。例えば、ヒューマンマシンインタラクション機器１２０は、前記マッピングによってユーザ１１０の感情が「陰鬱」であることを決定し、ユーザ１１０に提供されるフィードバックを決定することができる。例えば、当該フィードバックは、当該感情に適応するカラー、音声、ビデオ、又は温度変化等であってもよく、これにより、ユーザ１１０は、ヒューマンマシンインタラクション機器１２０とのインタラクションで、理解されたと感じる。

ユーザ１１０にフィードバックを提供するために、ヒューマンマシンインタラクション機器１２０は、ディスプレイ１２４を含む。ディスプレイ１２４は、視覚的にユーザに特定のカラーを表示してユーザ１１０感情インタラクションを行うためのものであってもよい。ヒューマンマシンインタラクション機器１２０は、スピーカ１２６を更に含む。スピーカ１２６は、聴覚的にユーザ１１０に音声１３５を再生してユーザ１１０に対して感情インタラクションを行うためのものであってもよい。さらに、ヒューマンマシンインタラクション機器１２０は、温度制御部品（図示せず）を含んでもよい。これにより、ヒューマンマシンインタラクション機器１２０の温度を調節して、ユーザ１１０がヒューマンマシンインタラクション機器１２０に接触すると、触覚的に温度変化を感じることができる。

一部の実施例において、音声命令１１５は、例えば「憂鬱な曲を１曲再生しなさい」であり、ヒューマンマシンインタラクション機器１２０は、ユーザ１１０の感情が「陰鬱」であることを分析し、ユーザ１１０が比較的憂鬱であり、又は機嫌が悪い可能性があることが分かる。これにより、ヒューマンマシンインタラクション機器１２０は、対応的に様々なフィードバックを提供することができる。一部の実施例では、ヒューマンマシンインタラクション機器１２０は、視覚的なフィードバックを提供することができる。例えば、ディスプレイ１２４で、青色を主色として背景色にするとともに、曲の歌詞などの内容を対応的に表示することができる。

その他の実施例では、ヒューマンマシンインタラクション機器１２０は、聴覚的なフィードバックを提供することができる。例えば、スピーカ１２６によりユーザ１１０に「機嫌が悪い時に、曲のお供をします」という音声を再生する。代替的に又は追加的に、ヒューマンマシンインタラクション機器１２０は、視覚及び聴覚的なフィードバックを提供することができる。例えば、ディスプレイ１２４及びスピーカ１２６によりユーザ１１０に内容が「陰鬱」な感情に適応するビデオを再生し、ユーザ１１０を慰めるか、又はユーザ１１０を心地よくする。

その他の実施例では、ヒューマンマシンインタラクション機器１２０は、触覚的なフィードバックを提供することができる。例えば、ヒューマンマシンインタラクション機器１２０は、ハウジングの温度を上昇させることで、ユーザ１１０がヒューマンマシンインタラクション機器１２０に接触又は接近すると、温かいと感じることができる。一部の実施例では、ヒューマンマシンインタラクション機器１２０は、同時に又は予め設定された順番で順次に、ユーザ１１０に前記の様々な異なる形式のフィードバックに提供することができる。

さらに、前記の説明のように、ユーザ１１０からの音声命令１１５での感情を識別する過程、及びヒューマンマシンインタラクション機器１２０が提供する相応なフィードバックを決定する過程において、プロセッサ、メモリハードウェア及び／又は適切なソフトウェア等を利用して算出する必要がある。一部の実施例では、このような算出は、クラウド１３０により実行され、これにより、ヒューマンマシンインタラクション機器１２０の算出負担を軽減することができ、ヒューマンマシンインタラクション機器１２０の複雑さを低減し、ヒューマンマシンインタラクション機器１２０のコストを低減することができる。

このような実施例では、ヒューマンマシンインタラクション機器１２０は、ユーザ１１０からの音声命令１１５をオーディオ信号１２５としてクラウド１３０に送信することができる。その後、ヒューマンマシンインタラクション機器１２０は、クラウド１３０から情報１４５を受信することができる。情報１４５は、ヒューマンマシンインタラクション機器１２０が実行すべき操作、例えばユーザ１１０に提供すべきフィードバックを指示することができる。続いて、ヒューマンマシンインタラクション機器１２０は、情報１４５に基づいてユーザ１１０に指示されたフィードバックを提供することができる。

本開示の実施例によって提供された感情に基づくヒューマンマシンインタラクション形態をより容易に理解するために、図２及び図３を参照しながら当該形態に係る操作を説明する。図２には、本開示の実施例に係るヒューマンマシンインタラクションに使用される方法２００の模式的なフローチャートが示されている。一部の実施例では、方法２００は、図１のクラウド１３０により実現することができる。検討の便宜上、その説明は、図１を組み合わせて行う。

ステップ２１０において、クラウド１３０は、ユーザ１１０からの音声命令１１５に使用される単語を識別する。一部の実施例では、音声命令１１５における単語を識別するために、クラウド１３０は、まず、音声命令１１５を含むオーディオ信号１２５を取得することができる。例えば、ヒューマンマシンインタラクション機器１２０は、ユーザ１１０からの音声命令１１５を検出し、その後、音声命令１１５を含むオーディオ信号１２５を生じるとともに、それをクラウド１３０に送信することができる。対応するように、クラウド１３０は、ヒューマンマシンインタラクション機器１２０からオーディオ信号１２５を受信することで、オーディオ信号１２５から音声命令１１５を取得することができる。

続いて、クラウド１３０は、音声命令１１５をテキスト情報に変換する。例えば、クラウド１３０は、予め訓練された深層学習モデルを用いて自動音声識別（ＡＳＲ）処理を行い、音声命令１１５を、音声命令１１５を表示するテキスト情報に変換する。その後、クラウド１３０は、当該テキスト情報から音声命令１１５に使用される単語を抽出する。このように、クラウド１３０は、成熟したＡＳＲ技術を十分に利用して音声命令１１５に使用される単語を識別することで、識別の正確性を向上させる。

なお、クラウド１３０は、ＡＳＲ技術を利用して音声命令１１５に使用される単語を識別することは、一例に過ぎない。その他の実施例では、クラウド１３０は、如何なる適当な技術を利用して音声命令１１５に使用される単語を識別してもよい。

ステップ２２０において、クラウド１３０単語と、感情と、フィードバックとの間の予め設定されたマッピングに基づいて、音声命令１１５に含まれる感情及びユーザ１１０に提供されるフィードバックを決定し、ここで、当該フィードバックと決定された感情とは、適応する。ユーザ１１０の感情及びユーザ１１０へのフィードバックを決定する場合に、クラウド１３０は、予め訓練された自然言語理解（ＮＬＵ）モデルに基づいて、単語と、感情と、フィードバックとの間のマッピング関係を利用して、音声命令１１５に含まれる感情を取得するとともに、ユーザ１１０に提供されるフィードバックを取得することができる。

なお、クラウド１３０は、ＮＬＵ技術を用いて音声命令１１５に含まれる感情を取得するとともに、ユーザ１１０に提供されるフィードバックを取得することは、一例に過ぎない。その他の実施例では、クラウド１３０は、如何なる適当な技術を用いて単語と、感情と、フィードバックとの間の予め設定されたマッピングに基づいてユーザ１１０の感情及びユーザ１１０に提供すべきフィードバックを決定することができる。

ユーザ１１０に「より立体的な」感情フィードバックを提供するために、当該フィードバックは、種々な形式を含んでもよい。色彩感情理論によると、波長や色彩の異なる光情報が人の視覚器官に作用し、視覚神経を経て脳に伝わった後、思索して過去の記憶及び経験を連想することにより、一連の色彩心理的反応を形成し、これは、人の感情と色彩との間には、一定の対応関係があることを表明する。従って、ヒューマンマシンインタラクション機器１２０は、感情に適応する色彩を視覚的に表示することにより、ユーザ１１０に対して感情インタラクションを行うことができる。

類似的に、ヒューマンマシンインタラクション機器１２０は、聴覚方式でユーザ１１０に対して感情インタラクティブを行う。例えば、ユーザ１１０の機嫌が悪い場合に、ヒューマンマシンインタラクション機器１２０は、聴覚的に慰める意味を有する音声を再生することにより、ユーザ１１０の不良気分を和らげることができる。代替的に又は追加的に、ヒューマンマシンインタラクション機器１２０は、視覚及び聴覚を組み合わせてユーザ１１０に対して感情インタラクティブを行うことができる。例えば、ディスプレイ１２４及びスピーカ１２６によりユーザ１１０に、内容がユーザ１１０の感情に適応するビデオを再生することができる。

代替的に又は追加的に、ヒューマンマシンインタラクション機器１２０は、触覚でユーザ１１０に対して感情インタラクティブを行うことができる。例えば、ヒューマンマシンインタラクション機器１２０は、機器温度を上昇、又は低減させることにより、ユーザ１１０が暖かい又は涼しいと感じるようにすることができる。さらに、ヒューマンマシンインタラクション機器１２０は、同時に又は予め設定された順番で順次にユーザ１１０に前記の様々な異なる形式のフィードバックを提供することができる。

相応的に、クラウド１３０で、以下のことを決定する：ユーザ１１０に提供されるフィードバックは、感情に適応する予め設定されたカラーをユーザ１１０に表示すること、ユーザ１１０に感情に適応する予め設定された音声を再生すること、ユーザ１１０に感情に適応する予め設定されたビデオを再生すること、及び／又はユーザ１１０が使用しているヒューマンマシンインタラクション機器１２０の温度が感情に適応して変化すること、等であってもよい。

このような形態により、ユーザ１１０に「全方位の」、「立体的な」知能化された感情インタラクション体験を提供し、ユーザ１１０が理解された感じを生じるようにする。これにより、ヒューマンマシンインタラクション機器１２０とは、より強い絆及びそばにいる感じが生じて、ユーザの依頼性を向上させる。

一部の実施例では、単語と、感情と、フィードバックとの間の予め設定されたマッピングは、単語、感情及びフィードバックの履歴情報に基づいて訓練して取得することができる。例えば、ＮＬＵ技術により、ユーザ１１０及び／又はその他のユーザが使用した音声命令に含まれる「愉快」、「楽しい」、「安易」、「活発」等の単語について、積極的な感情とマッピング関係を築き、「憂鬱」、「暗い」等の単語について、消極的な感情とマッピング関係を築くことができる。

他の態様では、ユーザ１１０及び／又はその他のユーザに対して行われたフィードバックは、感情とマッピング関係を築くことができる。視覚フィードバック（例えば色彩）を例とし、積極的な感情を若干の暖色、明るいカラーを含む一つの有限集合（例えば橙色、赤色等）にマッピングすることができる。同様に、消極的な感情を若干の寒色、暗いカラーを含む一つの有限集合（例えば青色、グレー等）にマッピングすることができる。これにより、単語、感情及びフィードバックの履歴情報に基づいて訓練し、単語と、感情と、フィードバックとの間の予め設定されたマッピングは、絶えず伸張及び／又は更新され、これにより、当該マッピングの次の使用において、より多くの感情を有する単語を識別するとともに、決定された感情の正確度を向上させることができる。

ステップ２３０において、クラウド１３０は、フィードバックをユーザ１１０に提供する。例えば、クラウド１３０は、ヒューマンマシンインタラクション機器１２０に情報１４５を送信することにより、ヒューマンマシンインタラクション機器１２０がフィードバックをユーザ１１０に提供するように制御することができる。一部の実施例では、クラウド１３０は、ヒューマンマシンインタラクション機器１２０がディスプレイ１２４によりユーザ１１０に予め設定された色彩を表示し、スピーカ１２６によりユーザ１１０に予め設定された音声を再生し、ディスプレイ１２４及びスピーカ１２６によりユーザ１１０に予め設定されたビデオを再生し、及び／又はヒューマンマシンインタラクション機器１２０の温度が変化させるように制御する。

図３には、本開示の他の実施例に係るヒューマンマシンインタラクションに使用される方法３００の模式的なフローチャートを示す。一部の実施例では、方法３００は、図１のヒューマンマシンインタラクション機器１２０により実現することができる。検討の便宜上、図１を組み合わせて方法３００を説明する。

ステップ３１０において、ヒューマンマシンインタラクション機器１２０は、クラウド１３０にユーザ１１０からの音声命令１１５を含むオーディオ信号１２５を送信する。ステップ３２０において、ヒューマンマシンインタラクション機器１２０は、クラウド１３０から情報１４５を受信し、情報１４５は、ユーザ１１０に提供されるフィードバックを指示し、当該フィードバックは、音声命令１１５に含まれる感情に適応する。ステップ３３０において、ヒューマンマシンインタラクション機器１２０は、ユーザ１１０にフィードバックを提供する。

一部の実施例では、ユーザ１１０にフィードバックを提供する場合に、ヒューマンマシンインタラクション機器１２０は、予め設定されたカラーをユーザ１１０に表示し、予め設定された音声をユーザ１１０に再生し、予め設定されたビデオをユーザ１１０に再生し、ヒューマンマシンインタラクション機器１２０の温度を変化させること等ができる。

例えば、ヒューマンマシンインタラクション機器１２０は、ディスプレイ１２４の背景色を予め設定されたカラーに設置し、ユーザ１１０に意味が感情に適応する予め設定された音声を再生し、ユーザ１１０にビデオ内容が感情に適応する予め設定されたビデオを再生し、及び／又はヒューマンマシンインタラクション機器１２０の温度を上昇又は低減させることにより、ユーザ１１０が暖かい又は涼しいと感じるようにすることができる。

さらに、ユーザ１１０に提供されるフィードバックは、予め設定された音声１３５である実施例では、情報１４５は、ユーザ１１０に再生する予め設定された音声１３５を表示するテキスト情報を含み、ヒューマンマシンインタラクション機器１２０は、当該テキスト情報を予め設定された音声１３５に変換することができる。例えば、テキスト読み上げ（ＴＴＳ）技術により当該変換を実現することができる。

なお、ＴＴＳ技術によりテキスト情報から予め設定された音声１３５への変換を実現することは一例に過ぎない。その他の実施例では、ヒューマンマシンインタラクション機器１２０は、その他の如何なる適当な技術により、本文情報によって、対応的な予め設定された音声１３５を発行することもできる。

このような形態により、クラウド１３０は、ヒューマンマシンインタラクション機器１２０に、大きいメモリスペースを占めるオーディオ情報の代わりに、小さいメモリスペースを占めるテキスト情報のみを送信することで、メモリリソース及び通信リソースを節約することができる。さらに、ヒューマンマシンインタラクション機器１２０で、成熟したＴＴＳ技術を有効利用してテキスト情報をユーザ１１０に提供する予め設定された音声に変換することができる。

図４は、本開示の実施例に係るヒューマンマシンインタラクションのための装置４００の模式的なブロック図を示す。一部の実施例では、装置４００は、図１のクラウド１３０に含まれるか、又はクラウド１３０として実現されてもよい。その他の実施例では、装置４００は、図１のヒューマンマシンインタラクション機器１２０に含まれるか、又はヒューマンマシンインタラクション機器１２０として実現されてもよい。

図４に示すように、装置４００は、識別モジュール４１０、決定モジュール４２０及び提供モジュール４３０を含む。識別モジュール４１０は、ユーザからの音声命令に使用される単語を識別するように構成される。決定モジュール４２０は、単語と、感情と、フィードバックとの間の予め設定されたマッピングに基づいて、音声命令に含まれる感情、及びユーザに提供する、感情に適応するフィードバックを決定するように構成される。提供モジュール４３０は、フィードバックをユーザに提供するように構成される。

一部の実施例では、識別モジュール４１０は、取得モジュール、変換モジュール及び抽出モジュールを含む。取得モジュールは、音声命令を含むオーディオ信号を取得するように構成される。変換モジュールは、音声命令をテキスト情報に変換するように構成される。抽出モジュールは、テキスト情報から単語を抽出するように構成される。

一部の実施例では、提供モジュール４３０は、さらに予め設定された色彩をユーザに表示することと、予め設定された音声をユーザに再生すること、予め設定されたビデオをユーザに再生すること、及びユーザが使用している機器の温度を変化させることとのうち、少なくとも一つを行うように構成される。

一部の実施例では、予め設定されたマッピングは、単語、感情及びフィードバックの履歴情報に基づいて訓練して取得される。

図５は、本開示の他の実施例に係るヒューマンマシンインタラクションのための装置５００の模式的なブロック図を示す。一部の実施例では、装置５００は、図１の知能インタラクション機器１３０に含まれ、又は知能インタラクション機器１３０として実現することができる。

図５に示すように、装置５００は、送信モジュール５１０、受信モジュール５２０及びフィードバックモジュール５３０を含む。送信モジュール５１０は、クラウドにユーザからの音声命令を含むオーディオ信号を送信するように構成される。受信モジュール５２０は、クラウドから情報を受信し、情報は、ユーザに提供されるフィードバックを指示し、フィードバックが音声命令に含まれる感情に適応するように構成される。フィードバックモジュール５３０は、ユーザにフィードバックを提供するように構成される。

一部の実施例では、フィードバックモジュール５３０は、さらに、予め設定された色彩をユーザに表示することと、予め設定された音声をユーザに再生することと、予め設定されたビデオをユーザに再生することと、及び装置５００の温度を変化させることとのうち、少なくとも一つを行うように構成される。

一部の実施例では、クラウドから受信された情報は、ユーザに再生される予め設定された音声を示すテキスト情報を含み、フィードバックモジュール５３０は、変換モジュールを含む。変換モジュールは、テキスト情報を予め設定された音声に変換するように構成される。

図６は、本開示の実施例を実施するために使用可能な機器６００のブロック図を模式的に示す。図６に示すように、機器６００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６０１を含み、それは、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）６０２に記憶されたコンピュータプログラム命令、又は記憶ユニット６０８からＲＡＭ６０３にロードされたコンピュータプログラム命令によって、各種の適切な動作及び処理を実行することができる。ＲＡＭ６０３には、機器６００の操作に必要な各種のプログラム及びデーターが記憶されてもよい。ＣＰＵ６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４によりそれぞれ接続された。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続された。

機器６００での複数の部品は、Ｉ／Ｏインターフェース６０５に接続され、例えばキーボード、マウス等の入力ユニット６０６、各種のディスプレイ、スピーカ等の出力ユニット６０７、磁気ディスク、光ディスク等の記憶ユニット６０８、及びネットワークカード、モデム、無線通信送受信機等の通信ユニット６０９を含む。通信ユニット６０９は、機器６００が例えば、インターネットのコンピュータネットワーク及び／又は各種のキャリアネットワークにより、その他の機器と情報／データーを交換することを許可する。

以上に説明した各過程及び処理、例えば方法２００又は３００は、処理ユニット６０１によって実行することができる。例えば、一部の実施例では、方法２００又は３００は、コンピュータソフトウェアプログラムとして実現され、機器読み取り可能な媒体、例えば記憶ユニット６０８に有体物として含まれる。一部の実施例では、コンピュータプログラムの一部又はすべては、ＲＯＭ６０２及び／又は通信ユニット６０９で機器６００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ６０３にロードされ、ＣＰＵ６０１によって実行される場合に、以上に説明した方法２００又は３００の一つ又は複数のステップを実行することができる。

本願に使用される、「含む」の用語及びその類似の用語は、開放的に含む、即ち「含むが限定されない」と理解されるべきである。「基づく」の用語は、「少なくとも一部が基づく」と理解されるべきである。「一実施例」又は「当該実施例」の用語は、「少なくとも一つの実施例」と理解されるべきである。「第１」、「第２」等の用語は、違い又は同一の対象を指すことができる。さらに、本願は、その他の明確及び暗黙な定義を含むことができる。

本願に使用される、「決定」の用語は、各種の動作を含む。例えば、「決定」は、運算、算出、処理、導出、調査、シーク（例えば、テーブル、データーベース又は他のデーター構造でシークする）、究明等を含むことができる。さらに、「決定」は、受信（例えば、情報を受信する）、アクセス（例えば、メモリにおけるデーターをアクセスする）等を含むことができる。さらに、「決定」は、解析、選択、採取、確立等を含むことができる。

なお、本開示の実施例は、ハードウェア、ソフトウェア又はソフトウェアとハードウェアとの組み合わせにより実現することができる。ハードウェア部分は、専用ロジックにより実現されることができ、ソフトウェア部分は、メモリに記憶され、適切な命令実行システム、例えばマイクロプロセッサ又は専用設計ハードウェアにより実行することができる。前記の機器及び方法がコンピュータ実行可能な命令を用いるか、及び／又はプロセッサ制御コードに含まれることにより実現することができる。例えば、プログラマブルメモリ又は、光的又は電子信号担体のようなデーター担体にこのようなコードを提供することで実現することができることは当業者であれば理解すべきである。

さらに、図面において特定の順番で本開示の方法の操作を説明したが、当該特定の順番でこれらの操作を実行しなければならず、又は示された全ての操作を実行しなければ、所望の結果を取得できないことを要求又は暗示するわけではない。逆に、フローチャートに描画したステップは、実行する順番を変化してもよい。付加的に又は代替的に、いくつかのステップを省略し、複数のステップを一つのステップに組み合わせて実行し、及び／又は一つのステップを複数のステップに分解して実行することができる。なお、本開示の二つ以上の装置の特徴及び機能は、一つの装置に具体化することができる。逆に、以上に説明した一つの装置の特徴及び機能は、さらに複数の装置によって具体化することができる。

いくつかの具体的な実施例を参照して本開示を説明したが、本開示は、開示された具体的な実施例に限らないと理解される。本開示は、添付の特許請求の範囲の趣旨および範囲内で様々な修正や等価の構成を含むことを意図している。

Claims

クラウドでユーザからの音声命令に使用される単語を識別するステップと、
前記単語と、感情と、フィードバックとの間の予め設定されたマッピングに基づいて、前記音声命令に含まれる感情、及び前記ユーザに提供される、前記感情に適応する前記フィードバックを決定するステップと、
前記フィードバックを前記ユーザに提供するステップと、を含むことを特徴とするヒューマンマシンインタラクションに使用される方法
ユーザからの音声命令に使用される単語を識別するステップは、
前記音声命令を含むオーディオ信号を取得するステップと、
前記音声命令をテキスト情報に変換するステップと、
前記テキスト情報から前記単語を抽出するステップと、を含むことを特徴とする請求項１に記載の方法。
前記フィードバックを前記ユーザに提供するステップは、
予め設定された色彩を前記ユーザに表示するステップと、
予め設定された音声を前記ユーザに再生するステップと、
予め設定されたビデオを前記ユーザに再生するステップと、
前記ユーザが使用している機器の温度を変化させるステップとのうち、少なくとも一つを含むことを特徴とする請求項１に記載の方法。
前記予め設定されたマッピングは、単語、感情及びフィードバックの履歴情報に基づいて訓練して取得されることを特徴とする請求項１に記載の方法。
クラウドにユーザからの音声命令を含むオーディオ信号を送信するステップと、
前記クラウドから情報を受信し、前記情報は、前記ユーザに提供されるフィードバックを指示し、前記フィードバックが前記音声命令に含まれる感情に適応するステップと、
前記ユーザに前記フィードバックを提供するステップと、を含むことを特徴とするヒューマンマシンインタラクションに使用される方法。
前記ユーザに前記フィードバックを提供するステップは、
予め設定された色彩を前記ユーザに表示するステップと、
予め設定された音声を前記ユーザに再生するステップと、
予め設定されたビデオを前記ユーザに再生するステップと、
前記ユーザが使用している機器の温度を変化させるステップとのうち、少なくとも一つを含むことを特徴とする請求項５に記載の方法。
前記情報は、前記ユーザに再生される、予め設定された音声を示すテキスト情報を含み、前記ユーザに前記フィードバックを提供するステップは、
前記テキスト情報を前記予め設定された音声に変換するステップを含むことを特徴とする請求項５に記載の方法。
クラウドでユーザからの音声命令に使用される単語を識別するように構成される識別モジュールと、
前記単語と、感情と、フィードバックとの間の予め設定されたマッピングに基づいて、前記音声命令に含まれる感情、及び前記ユーザに提供される、前記感情に適応する前記フィードバックを決定するように構成される決定モジュールと、
前記フィードバックを前記ユーザに提供するように構成される提供モジュールと、を含むことを特徴とするヒューマンマシンインタラクションに使用される装置。
前記識別モジュールは、
前記音声命令を含むオーディオ信号を取得するように構成される取得モジュールと、
前記音声命令をテキスト情報に変換するように構成される変換モジュールと、
前記テキスト情報から前記単語を抽出するように構成される抽出モジュールと、を含む、
ことを特徴とする請求項８に記載の装置。
前記提供モジュールは、さらに、
予め設定された色彩を前記ユーザに表示することと、
予め設定された音声を前記ユーザに再生することと、
予め設定されたビデオを前記ユーザに再生することと、
前記ユーザが使用している機器の温度を変化させることとのうち、少なくとも一つを行うように構成されることを特徴とする請求項８に記載の装置。
前記予め設定されたマッピングは、単語、感情及びフィードバックの履歴情報に基づいて訓練して取得されることを特徴とする請求項８に記載の装置。
クラウドにユーザからの音声命令を含むオーディオ信号を送信するように構成される送信モジュールと、
前記クラウドから情報を受信し、前記情報は、前記ユーザに提供されるフィードバックを指示し、前記フィードバックが前記音声命令に含まれる感情に適応するように構成される受信モジュールと、
前記ユーザに前記フィードバックを提供するように構成されるフィードバックモジュールと、を含むことを特徴とするヒューマンマシンインタラクションに使用される装置。
前記フィードバックモジュールは、さらに、
予め設定された色彩を前記ユーザに表示することと、
予め設定された音声を前記ユーザに再生することと、
予め設定されたビデオを前記ユーザに再生することと、
前記装置の温度を変化させることとのうち、少なくとも一つを行うように構成されることを特徴とする請求項１２に記載の装置。
前記情報は、前記ユーザに再生される予め設定された音声を示すテキスト情報を含み、前記フィードバックモジュールは、
前記テキスト情報を前記予め設定された音声に変換するように構成される変換モジュールを含むことを特徴とする請求項１２に記載の装置。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記一つ又は複数のプロセッサが請求項１から４のいずれかに記載の方法を実現することを特徴とする電子機器。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記一つ又は複数のプロセッサが請求項５から７のいずれかに記載の方法を実現する、
ことを特徴とする電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行される場合、請求項１から４のいずれかに記載の方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行される場合、請求項５から７のいずれかに記載の方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。