JP6678632B2 - 人間−機械間の感情会話のための方法及びシステム - Google Patents

人間−機械間の感情会話のための方法及びシステム Download PDF

Info

Publication number
JP6678632B2
JP6678632B2 JP2017220003A JP2017220003A JP6678632B2 JP 6678632 B2 JP6678632 B2 JP 6678632B2 JP 2017220003 A JP2017220003 A JP 2017220003A JP 2017220003 A JP2017220003 A JP 2017220003A JP 6678632 B2 JP6678632 B2 JP 6678632B2
Authority
JP
Japan
Prior art keywords
emotion
user
response
information
conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017220003A
Other languages
English (en)
Other versions
JP2019012255A (ja
Inventor
ジフン ハン
ジフン ハン
ウソブ イ
ウソブ イ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2019012255A publication Critical patent/JP2019012255A/ja
Application granted granted Critical
Publication of JP6678632B2 publication Critical patent/JP6678632B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)

Description

以下の説明は、人工知能会話システムに関する。
一般的に、個人秘書システム、チャットボットプラットフォーム(chatbot platform)、人工知能(AI)スピーカなどで使用される人工知能会話システムは、人間の命令語に対する意図を理解し、これに対応する回答文書を提供する方式を採用している。
人工知能会話システムは、人間が機能的な要求を伝達すると、その人間の要求に対する回答を機械が提供する方式を主流としており、マイク(microphone)でユーザの音声入力を受信し、受信した音声入力に基づいてデバイス動作やコンテンツ提供を制御することができる。
例えば特許文献1(公開日2011年12月30日)には、ホームネットワークサービスにおいて、移動通信網の範囲外にWi−Fiのような第二通信網を利用してホームネットワークサービスを提供することができ、ユーザが特別なボタン操作を行わなくても、ホーム内の複数のマルチメディア機器を音声命令によって多重制御することのできる技術が開示されている。
人工知能会話システムでは、人間の感情把握や機械の感情表現が排除されるのはもちろん、人間の命令語表現及び機械表現の方式も、テキストや音声のみに制限されている。言い換えれば、既存の人工知能会話システムは、人間の機能的要求を解決するには適しているが、機械表現を人間のように豊かで自然に感じられるものにすることや、人間−機械間の情緒的な交流を促すインタラクション(interaction)を実現するには不十分である。
韓国公開特許第10−2011−0139797号
人間の感情を把握し、これに対応する多様な感情を音声、視覚、動作などの統合情報で表現することができる環境を通じ、人間−機械間の情緒的共感を促すことのできる方法及びシステムを提供する。
コンピュータで実現される人工知能会話方法であって、ユーザの会話の意図を判断する段階、前記ユーザの会話の意図に対応する返答文章を決定する段階、及び前記返答文章に該当する音声ファイルを出力する段階であって、前記返答文章に含まれる感情用語を出力する時点に、前記感情用語に対応する感情情報を共に出力する段階を含む、人工知能会話方法を提供する。
一側面によると、前記判断する段階は、前記ユーザの音声入力及び顔映像のうちの少なくとも1つを利用して前記ユーザの感情情報を抽出する段階を含んでよい。
他の側面によると、前記判断する段階は、前記ユーザの音声入力を受信し、前記音声入力の文章から第1感情情報を抽出する段階、前記ユーザの顔映像を受信し、顔表情から第2感情情報を抽出する段階、及び前記第1感情情報と前記第2感情情報を総合して前記ユーザの会話の意図を判断する段階を含んでよい。
また他の側面によると、意図別に複数の文章セットが事前に定められ、前記決定する段階は、前記ユーザの会話の意図に該当する文章セットのうちから前記返答文章を選択する段階を含んでよい。
また他の側面によると、前記出力する段階は、前記返答文章に含まれる前記感情用語の各々について、該感情用語に対応する感情情報を抽出する段階、前記返答文章を前記音声ファイルに変換する段階、前記感情用語の各々について前記音声ファイル内における位置値を抽出する段階、及び前記音声ファイルの出力と共に、前記位置値に対応する時点に前記感情情報を出力する段階を含んでよい。
また他の側面によると、前記位置値に対応する時点に前記感情情報を出力する段階は、前記位置値を利用して前記音声ファイルと前記感情情報との同期を実行する段階を含んでよい。
また他の側面によると、前記出力する段階は、前記感情用語に対応する感情情報を、ディスプレイ装置とモータ制御動作装置のうちの少なくとも1つのデバイスによって出力する段階を含んでよい。
また他の側面によると、前記ユーザの音声入力及び顔映像のうちの少なくとも1つから判断される前記ユーザの感情に対して即時呼応感情を判断する段階、及び前記音声ファイルを出力する前に、前記即時呼応感情に関する情報を出力する段階を更に含んでよい。
前記人工知能会話方法をコンピュータに実行させるためのコンピュータプログラムを提供する。
前記人工知能会話方法をコンピュータに実行させるためのプログラムが記録されているコンピュータ読み取り可能な記録媒体を提供する。
コンピュータで実現される人工知能会話システムであって、コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、ユーザの会話の意図を判断し、前記ユーザの会話の意図に対応する返答文章を決定し、前記返答文章に該当する音声ファイルを出力し、前記返答文章に含まれた感情用語を出力する時点に、前記感情用語に対応する感情情報を共に出力してよい。
本発明の実施形態によると、人間の感情を把握し、これに対応する多様な感情を音声、視覚、動作などの統合情報で表現することができる環境を通じ、人間−機械間の情緒的共感を促すことができる。
本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。 本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。 本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。 本発明の一実施形態における、電子機器及びサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、人工知能会話方法の例を示したフローチャートである。 本発明の一実施形態における、統合返答生成過程の例を示したフローチャートである。 本発明の一実施形態における、統合返答情報の例を示した図である。 本発明の一実施形態における、統合返答情報の例を示した図である。 本発明の一実施形態における、統合返答情報の例を示した図である。
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
本発明の実施形態に係る人工知能会話システムは、ユーザとの会話に基づいて動作するインタフェースを提供する電子機器によって実現されてよい。ここで、人工知能会話システムは、ユーザの感情に対応して豊かで自然な機械の表現を実現することができる。
本発明の実施形態に係る人工知能会話方法は、上述した電子機器によって実行されてよい。ここで、電子機器では、本発明の一実施形態に係るコンピュータプログラムをインストールして駆動してよく、電子機器は、駆動されるコンピュータプログラムの制御に従って本発明の一実施形態に係る人工知能会話方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合され、人工知能会話方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に格納されてよい。
図1は、本発明の一実施形態における、会話基盤インタフェースを活用したサービス環境の例を示した図である。図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内のデバイスを連結して制御する技術において、ユーザとの会話に基づいて動作するインタフェースを提供する電子機器100が、ユーザ110の発話から受信した音声入力「電気消して」を認識及び分析し、家の中で電子機器100と内部ネットワークを介して連係する室内照明機器120であるライトの電源を制御する例を示している。
例えば宅内のデバイスは、上述した室内照明機器120の他にも、テレビ、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット清掃機などのような家電製品はもちろん、水道、電気、冷暖房機器のようなエネルギー消費装置、ドアロックや監視カメラのような保安機器など、オンライン上で連結して制御可能な多様なデバイスを含んでよい。また、内部ネットワークは、イーサネット(Ethernet)(登録商標)、HomePNA、IEEE 1394のような有線ネットワーク技術、ブルートゥース(Bluetooth)(登録商標)、UWB(ultra Wide Band)、ジグビー(ZigBee)(登録商標)、Wireless 1394、Home RFのような無線ネットワーク技術などが活用されてよい。
電子機器100は、宅内のデバイスのうちの1つであってよい。例えば電子機器100は、家の中に備えられた人工知能スピーカや会話ロボット、ロボット清掃機などのようなデバイスのうちの1つであってよい。また、電子機器100は、スマートフォン(smartphone)、携帯電話、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットなどのようなユーザ110のモバイル機器であってもよい。このように電子機器100は、ユーザ110の感情を認識し、これに対応する動作のために各種デバイスと連結可能な機能を含む機器であれば特に制限されることはない。また、実施形態によっては、上述したユーザ110のモバイル機器が宅内のデバイスとして含まれてもよい。
図2は、本発明の一実施形態における、会話基盤インタフェースを活用したサービス環境の他の例を示した図である。図2は、ユーザとの会話に基づいて動作するインタフェースを提供する電子機器100が、ユーザ110の発話から受信した音声入力「今日の天気」を認識及び分析し、外部ネットワークを介して外部サーバ210から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のように音声で出力する例を示している。
例えば外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。
図2の実施形態でも、電子機器100は、宅内のデバイスのうちの1つであるか、ユーザ110のモバイル機器のうちの1つであってよく、ユーザ110の感情を認識して処理するための機能と、外部ネットワークを介して外部サーバ210に接続し、外部サーバ210が提供するサービスやコンテンツをユーザ110に提供するための機能を含む機器であれば特に制限されることはない。
このように、本発明の実施形態に係る電子機器100は、会話基盤インタフェースを利用してユーザ110の音声入力及び/又は顔映像を含むユーザ命令を処理することができる機器であれば特に制限されることはない。例えば電子機器100は、ユーザの感情を直接に認識及び分析し、これに対応する動作を実行することによってユーザ命令を処理してもよいが、実施形態によっては、ユーザの感情認識や分析、ユーザに提供される音声や情報合成などの処理を、電子機器100と連係する外部のプラットフォームで実行することも可能である。
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図3は、電子機器310、クラウド人工知能プラットフォーム320及びコンテンツ・サービス330を示している。
一例として、電子機器310は、宅内に備えられたデバイスを意味してよく、少なくとも上述した電子機器100を含んでよい。このような電子機器310や電子機器310でインストール及び駆動されるアプリケーション(以下、アプリとする)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係してよい。ここで、インタフェースコネクト340は、電子機器310や電子機器310でインストール及び駆動されるアプリの開発のためのソフトウェア開発キット(SDK:Software Development Kit)及び/又は開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や電子機器310でインストール及び駆動されるアプリが、クラウド人工知能プラットフォーム320の提供する機能を活用することができるAPI(Application Program Interface)を提供してよい。具体的な例として、開発者は、インタフェースコネクト340によって提供されるソフトウェア開発キット(SDK)及び/又は開発文書を利用して開発した機器やアプリが、インタフェースコネクト340によって提供されるAPIを利用して、クラウド人工知能プラットフォーム320によって提供される機能を活用することを可能にする。
ここで、クラウド人工知能プラットフォーム320は、会話基盤のサービスを提供するための機能を提供してよい。例えばクラウド人工知能プラットフォーム320は、受信した音声入力及び/又は顔映像を認識して出力する情報を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声入力及び/又は顔映像に従って適合する情報を出力するために適切な会話を決定するための会話処理モジュール323、受信した音声入力及び/又は顔映像に適合する機能を勧めるための推薦モジュール324、人工知能がデータ学習に基づいて文章単位で言語を翻訳するようにサポートするニューラル機械翻訳(Neural Machine Translation:NMT)325などのように、会話基盤サービスを提供するための多様なモジュールを含んでよい。
例えば図1及び図2の実施形態において、電子機器100は、ユーザ110の音声入力及び/又は顔映像を、インタフェースコネクト340で提供するAPIを利用してクラウド人工知能プラットフォーム320に送信してよい。この場合、クラウド人工知能プラットフォーム320は、受信した音声入力及び/又は顔映像を、上述したモジュール(321〜325)を活用してユーザ110の感情を認識及び分析してよく、ユーザ110の感情に応じて適切な返答音声を合成して提供したり、適切な動作を勧めたりしてよい。
また、拡張キット350は、第三者であるコンテンツ開発者又は会社がクラウド人工知能プラットフォーム320に基づいて新たな人工知能会話基盤機能を実現することが可能な開発キットを提供してよい。例えば図2の実施形態において、電子機器100が受信したユーザ110の音声入力及び/又は顔映像を外部サーバ210に送信すると、外部サーバ210は、拡張キット350で提供されるAPIを利用してクラウド人工知能プラットフォーム320に音声入力及び/又は顔映像を送信してよい。この場合、上述したように、クラウド人工知能プラットフォーム320は、受信した音声入力及び/又は顔映像を認識及び分析して適切な返答情報を合成して提供したり、音声入力及び/又は顔映像に基づいて処理しなければならない機能に関する推薦情報を外部サーバ210に提供したりしてよい。一例として、図2において、外部サーバ210が、音声入力「今日の天気」をクラウド人工知能プラットフォーム320に送信すると、クラウド人工知能プラットフォーム320では、音声入力「今日の天気」の認識によって抽出されるキーワード「今日」及び「天気」を受信してよい。この場合、外部サーバ210は、キーワード「今日」及び「天気」から「今日の天気は・・・」のようなテキスト情報を生成した後、生成したテキスト情報をクラウド人工知能プラットフォーム320に再び送信してよい。このとき、クラウド人工知能プラットフォーム320は、テキスト情報から音声を合成して外部サーバ210に提供してよい。外部サーバ210は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ110から受信した音声入力「今日の天気」が処理されるようになる。
このとき、電子機器100は、音声入力及び/又は顔映像に対応するデバイス動作やコンテンツ提供のために、本発明の実施形態に係る人工知能会話方法を実行してよい。
図4は、本発明の一実施形態における、電子機器及びサーバの内部構成を説明するためのブロック図である。図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ210やクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
電子機器410とサーバ420は、メモリ411、421、プロセッサ412、422、通信モジュール413、423及び入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)及びディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROMやディスクドライブのような永久大容量記憶装置は、メモリ411、421とは区分される、別の永久記憶装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器410にインストールされ、特定のサービスの提供のために電子機器410で駆動するアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者又はアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク430を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
プロセッサ412、422は、基本的な算術、ロジック及び入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421又は通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えばプロセッサ412、422は、メモリ411、421のような記録装置に格納されたプログラムコードに従って受信される命令を実行するように構成されてよい。
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよいし、電子機器410及び/又はサーバ420が他の電子機器又は他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412が、メモリ411のような記録装置に格納されたプログラムコードに従って生成した要求が、通信モジュール413の制御に従ってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御に従って提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423とネットワーク430を経て電子機器410の通信モジュール213を通じて電子機器410に受信されてもよい。例えば通信モジュール413を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410が更に含むことのできる格納媒体(上述した永久記憶装置)に格納されてよい。
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば入力装置は、マイク、キーボード又はマウス、カメラなどの装置を、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結するかサーバ420が含むことのできる入力又は出力のための装置(図示せず)とのインタフェースのための手段であってよい。
また、他の実施形態において、電子機器410及びサーバ420は、図4の構成要素よりも少ないか、それよりも多い構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば電子機器410は、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、全地球測位システム(GPS:Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素を更に含んでもよい。より具体的な例として、電子機器410がスマートフォンである場合は、スマートフォンに一般的に含まれる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が電子機器410に更に含まれるように実現されてよい。
本実施形態において、電子機器410は、ユーザの音声入力を受信するためのマイク及び/又はユーザの顔映像を受信するためのカメラを入力/出力装置415として基本的に含んでよく、ユーザの感情に対応する音声やオーディオコンテンツのような音を出力するためのスピーカ、ユーザの感情に対応する感情情報を視覚的に出力するためのディスプレイ、ユーザの感情に対応する動作情報を出力するためのデバイスのうちの少なくとも1つを入力/出力装置415として更に含んでよい。
図5は、本発明の一実施形態における、人工知能会話方法の例を示したフローチャートである。本発明の実施形態に係る人工知能会話方法は、上述した電子機器410のようなコンピュータ装置によって実行されてよい。このとき、電子機器410のプロセッサ412は、メモリ411に含まれるオペレーティングシステムのコードや少なくとも1つのプログラムのコードによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ412は、電子機器410に格納されたコードが提供する制御命令に従って電子機器410が、図5の人工知能会話方法に含まれる段階を実行するように電子機器410を制御してよい。
段階S511において、電子機器410は、会話基盤インタフェースによってユーザの音声入力を受信してよい。例えば電子機器410は、会話基盤インタフェースとして、電子機器410に含まれるマイク又は電子機器410と連動するマイクのような音声入力装置により、ユーザの発話による音声入力を受信してよい。
段階S512において、電子機器410は、会話基盤インタフェースによってユーザの顔映像を受信してよい。例えば電子機器410は、会話基盤インタフェースとして、電子機器410に含まれるカメラ又は電子機器410と連動するカメラのような映像入力装置により、ユーザの顔映像を受信してよい。
段階S521において、電子機器410は、段階S511で受信した音声入力の文章の意図を抽出してよい。電子機器410は、ユーザの音声入力の文章自体に含まれる辞書的な意図を判断するものであって、一例として、文脈自由文法(context−free grammar)及び依存文法(dependency grammar)などを利用することで、認識された音声入力に対する文章の意図を分析してよい。電子機器410は、文脈自由文法を利用して各単語又は構文の意味役割(semantic role)及び各単語や構文の文法的関連性を把握してよく、依存文法を利用して文章の文法性又は意味的有効性を把握してよい。文章に文脈自由文法が適用されると、文章の単語又は構文に意味役割が付加され、文章全体に対して分析された意図が決定されてよい。上述した文章の意図を抽出する技術は例示的なものに過ぎず、これに限定されるものでもなく、周知の他の技術を利用することも可能である。
段階S522において、電子機器410は、段階S511で受信した音声入力の文章から感情情報(以下、「文章感情情報」とする)を抽出してよい。ここで、文章感情情報は、感情種類と感情強度(感情程度)を含んでよい。感情を示す用語、すなわち感情用語は、事前に定められ、一定の基準に従って複数の感情種類(例えば喜び、悲しみ、驚き、悩み、苦しみ、不安、恐怖、嫌悪、怒りなど)のいずれかに分類され、感情用語の強弱に従って複数の感情強度の等級(例えば1〜10)のいずれかに分類されてよい。感情用語は、感情を示す特定の単語はもちろん、特定の単語を含んだ句節や文章などを含んでもよい。例えば「好きです」や「辛いです」のような単語、あるいは「とても好きです」のような句節や文章などが感情用語の範疇に含まれてよい。一例として、電子機器410は、ユーザの音声入力による文章から形態素を抽出した後、抽出された形態素から予め定められた感情用語を抽出し、抽出された感情用語に対応する感情種類と感情強度を分類してよい。電子機器410は、音声入力の文章に複数の感情用語が含まれる場合には、感情用語が属する感情種類と感情強度に応じて加重値を計算してよく、これに基づいて文章の感情情報に対する感情ベクトルを計算することにより、該当の文章を代表する感情情報を抽出してよい。上述した文章感情情報を抽出する技術は例示的なものに過ぎず、これに限定されるものでもなく、周知の他の技術を利用することも可能である。
段階S523において、電子機器410は、段階S512で受信した顔映像から感情情報(以下、「顔感情情報」とする)を抽出してよい。電子機器410は、映像に基づいて顔の表情から感情種類と感情強度を含む顔感情情報を抽出してよい。顔の表情は、眉毛、目、鼻、口、肌のような顔の要素に変形が起こるときに発生する顔の筋肉の収縮によって現れるが、顔の表情の強度は、顔の特徴の幾何学的変化又は筋肉表現の密度によって決定されてよい。一例として、電子機器410は、表情による特徴を抽出するための関心領域(例えば目領域、眉毛領域、鼻領域、口領域など)を抽出した後、関心領域から特徴点(point)を抽出し、特徴点を利用して一定の特徴値を決定してよい。特徴値は、それぞれの特徴点の距離などによって人間の表情を示す特定の数値に該当する。電子機器410は、決定された特徴値を感情感応値モデルに適用するために、映像に示された特徴値に対する数値の程度に応じて一定の強度値を決定し、予め用意されたマッピングテーブルを利用して各特定値の数値にマッチングする一定の強度値を決定する。マッピングテーブルは、感情感応値モデルに応じて事前に用意される。電子機器410は、感情感応値モデルと強度値をマッピングさせ、該当の強度値を感情感応値モデルに適用した結果に従って決定された感情の種類と強度を抽出してよい。上述した顔感情情報を抽出する技術は例示的なものに過ぎず、これに限定されるものでもなく、周知の他の技術を利用することも可能である。
段階S531において、電子機器410は、段階S522で抽出された文章感情情報と段階S523で抽出された顔感情情報を総合してユーザ感情を判断してよい。一例として、電子機器410は、文章感情情報と顔感情情報に従って加重値を計算してよく、これに基づいて総合的なユーザ感情を判断してよい。
段階S532において、電子機器410は、段階S521で抽出された文章の意図と段階S531で判断されたユーザ感情を総合してユーザの最終意図を判断してよい。電子機器410は、文章の意図とユーザ感情に従って加重値を計算してよく、これに基づいて文章自体が示す辞書的な意図、音声入力による文章が示す感情、顔映像の表情が示す感情を総合することによって最終的な会話の意図を判断してよい。
段階S541において、電子機器410は、ユーザの最終意図に対応する返答文章を選択してよい。返答文章は、意図別に複数の文章セットが事前に定められてよく、これにより電子機器410は、ユーザの最終意図に該当する文章セットのうちから、選択回数などを考慮した推薦方式、あるいはランダム推薦方式などによって返答文章を選択してよい。さらに、返答文章は、感情種類及び/又は感情強度に基づいて一定の基準に分類されてよく、これにより電子機器410は、ユーザの最終意図に含まれる感情種類及び/又は感情強度に対応する返答文章を選択することも可能である。上述した返答文章を選択する技術は例示的なものに過ぎず、これに限定されるものでもなく、学習に基づいてユーザの最終意図への返答文章を生成する技術などのように、周知の他の技術を利用することも可能である。
段階S551において、電子機器410は、段階S541で選択された返答文章から感情情報(以下、「返答感情情報」とする)を抽出してよい。このとき、返答感情情報は、感情種類と感情強度を含んでよい。感情用語は、事前に定められ、一定の基準に従って複数の感情種類(例えば喜び、悲しみ、驚き、悩み、苦しみ、不安、恐怖、嫌悪、怒りなど)のいずれかに分類され、感情用語の強弱に従って複数の感情強度の等級(例えば1〜10)のいずれかに分類されてよい。一例として、電子機器410は、返答文章から形態素を抽出した後、抽出された形態素から事前に定められた感情用語を抽出し、抽出された感情用語に対応する感情種類と感情強度を分類してよい。電子機器410は、返答文章に複数の感情用語が含まれる場合には、それぞれの感情用語による感情種類と感情強度を抽出してよい。上述した返答感情情報を抽出する技術は例示的なものに過ぎず、これに限定されるものでもなく、周知の他の技術を利用することも可能である。
段階S561において、電子機器410は、段階S531で判断されたユーザ感情に対応する即時呼応感情を判断してよい。電子機器410は、文章感情情報と顔感情情報を総合して判断したユーザ感情に対して即時に対応する感情を判断してよい。このとき、電子機器410は、ユーザの音声入力や顔映像をリアルタイムでトラッキングし、即時に呼応することができる感情を判断してよい。即時呼応感情に関する情報にも同じように、感情種類と感情強度が含まれてよい。例えばユーザが悲しい話をしたり悲しい顔をすれば「悲しみ」を、驚いた話をしたり驚いた顔をすれば「驚き」を即時呼応感情として決定してよい。したがって、電子機器410は、ユーザの音声入力及び/又は顔映像に基づいてリアルタイムで判断されるユーザ感情に対し、即刻で対応するための呼応感情を決定してよい。
段階S570において、電子機器410は、段階S541で選択された返答文章と、段階S551で抽出された返答感情情報、及び段階S561で判断された即時呼応感情を組み合わせた統合返答情報を生成してよい。統合返答情報には、視覚的、聴覚的、触覚的出力などを行うことができる、可能な複数の互いに異なる情報が含まれてよく、一例として、音声返答、表情情報、動作情報などが含まれてよい。統合返答情報を生成する過程については、以下で具体的に説明する。
段階S581において、電子機器410は、ユーザの最終意図に対し、電子機器410に含まれるスピーカ又は電子機器410と連動するスピーカのような音声出力装置から、統合返答情報による音声返答を出力してよい。
段階S582において、電子機器410は、ユーザの最終意図に対し、電子機器410に含まれるディスプレイ又は電子機器410と連動するディスプレイのような映像出力装置から、統合返答情報による表情情報を出力してよい。例えば映像出力装置は、会話基盤インタフェースに、該当する所定のキャラクタを表示してよく、ユーザの音声入力や顔映像に対応する返答として該当のキャラクタに表情情報を反映させてよい。
段階S583において、電子機器410は、ユーザの最終意図に対し、電子機器410に含まれるモータ制御動作装置又は電子機器410と連動するモータ制御動作装置から、統合返答情報による動作情報を出力してよい。例えば電子機器410が会話ロボットである場合、ユーザの最終意図に対応する統合返答情報に従って該当の返答に関連する動作を実行させてよい。
電子機器410は、段階S570で組み合わせた統合返答情報を各種デバイスから出力してよい。例えば返答文章の音声ファイルは、スピーカから出力されてよく、返答文章から抽出された感情情報は、これに対応する表情アニメーションや動作のためにディスプレイ装置及びモータ制御動作装置のうちの少なくとも1つのデバイスから出力されてよい。
図6は、本発明の一実施形態における、統合返答生成段階570の例を示したフローチャートである。
段階S601において、電子機器410は、段階S541で選択された返答文章を音声ファイルに変換してよい。言い換えれば、電子機器410は、TTS(text to speech)音声合成機を利用して返答文章の音声ファイルを抽出してよい。
段階S602において、電子機器410は、返答文章に含まれる感情用語の各々について、音声ファイル内における位置値を抽出してよい。電子機器410は、返答文章の音声ファイルにおいて感情用語が位置する地点を把握してよい。例えば、返答文章「嫌なことが多いと思いますが、いつか良いことが起こるでしょう」において、感情用語に該当する「嫌な」と「良い」の位置値をそれぞれ抽出してよい。
段階S603において、電子機器410は、返答文章から抽出された返答感情情報、ユーザ感情に対応する即時呼応感情情報、返答文章の音声ファイル及び音声ファイル内の感情用語毎の位置値を利用することで、統合返答のための同期(synchronizing)を実行してよい。電子機器410は、音声ファイルにおける各感情用語の位置値に基づき、返答文章の音声ファイルと返答文章から抽出された返答感情情報とを同期してよい。一例として、電子機器410は、音声ファイルが出力される前に即時呼応感情を出力し、即時呼応感情が出力された後に音声ファイルを出力するが、音声ファイルの出力と共に、各感情用語の位置値に対応する時点に該当の感情が出力されるようにする返答出力制御情報を生成してよく、ユーザの最終意図に対応する統合返答がなされるように、上述した返答出力制御情報と共に、返答文章の音声ファイルを返答出力装置(例えば音声出力装置、映像出力装置、モータ制御動作装置など)に伝達してよい。このとき、返答出力装置では、装置別に定められた規則に従って、ユーザの最終意図に対応する返答データとして、返答出力制御情報に合わせて統合返答情報を出力してよい。
図7〜図9は、本発明の一実施形態における、統合返答情報の例を示した図である。
図7は、ユーザの音声入力「好きな食べ物は何ですか?」に対して生成された統合返答情報の例を示したものである。
図7の例では、ユーザの音声入力701「好きな食べ物は何ですか?」に対し、返答文章702として「チキンが大好きです!太るのは嫌ですが。」が選択され、音声入力701に対して即時呼応感情[悩み(種類)、5(強度)]が判断され、返答文章702に含まれる感情用語<大好きです>に対して感情情報[喜び、10]及び音声ファイル内の位置値0.5秒(sec)が抽出され、感情用語<嫌ですが>に対して感情情報[苦しみ、5]及び音声ファイル内の位置値1.5秒(sec)が抽出されたとする。
これにより、電子機器410は、返答文章702の音声ファイル710を出力することに先立ち、音声入力701に対して直ちに即時呼応感情[悩み、5]を優先的に出力し、この後に音声ファイル710を出力するようになるが、音声ファイル710において感情用語<大好きです>が登場する0.5sec時点に感情[喜び、10]を出力し、続いて感情用語<嫌ですが>が登場する1.5sec時点に感情[苦しみ、5]を出力するための返答出力制御情報720を生成してよい。
図8は、ユーザの音声入力「このごろ何だか憂鬱なの。」に対して生成された統合返答情報の例を示したものである。
図8の例では、ユーザの音声入力801「このごろ何だか憂鬱なの。」に対し、返答文章802として「心配ですね。甘いチョコレートを食べてみては?気分が優れるかも。」が選択され、音声入力801に対して即時呼応感情[悲しみ、7]が判断され、返答文章802に含まれた感情用語<心配です>に対して感情情報[不安、5]及び音声ファイル内の位置値0.0secが抽出され、感情用語<優れるかも>に対して感情情報[喜び、5]及び音声ファイル内の位置値2.5secが抽出されたとする。
これにより、電子機器410は、返答文章802の音声ファイル810を出力するに先立ち、音声入力801に対して直ちに即時呼応感情[悲しみ、7]を優先的に出力し、この後に音声ファイル810を出力するようになるが、音声ファイル810において感情用語<心配です>が登場する0.0sec時点に感情[不安、5]を出力し、続いて感情用語<優れるかも>が登場する2.5sec時点に感情[喜び、5]を出力するための返答出力制御情報820を生成してよい。
図9は、ユーザの音声入力「週末は旅行に行くの!」に対して生成された統合返答情報の例を示したものである。
図9の例では、ユーザの音声入力901「週末は旅行に行くの!」に対し、返答文章902として「楽しいご旅行を!車には気を付けて。」が選択され、音声入力901に対して即時呼応感情[驚き、5]が判断され、返答文章902に含まれた感情用語<楽しい>に対して感情情報[喜び、8]及び音声ファイル内の位置値0.0secが抽出され、感情用語<気を付けて>に対して感情情報[不安、5]及び音声ファイル内の位置値2.2secが抽出されたとする。
これにより、電子機器410は、返答文章902の音声ファイル910を出力するに先立ち、音声入力901に対して直ちに即時呼応感情[驚異、5]を優先的に出力し、この後に音声ファイル910を出力するようになるが、音声ファイル910において感情用語<楽しい>が登場する0.0sec時点に感情[喜び、8]を出力し、続いて感情用語<気を付けて>が登場する2.2sec時点に感情[不安、5]を出力するための返答出力制御情報920を生成してよい。
したがって、電子機器410は、ユーザの最終意図に対応する返答文章の音声ファイルを出力する過程において、音声ファイルの特定の領域で現れる特定の感情を音声形態、ディスプレイ形態、動作形態などで表現することができるし、返答音声を出力する前に、ユーザの音声入力及び/又は顔映像からリアルタイムで判断されるユーザ感情に対して即時に対応するための即時呼応感情を出力することができる。
このように、本発明の実施形態によると、人間の感情を把握し、これに対応する多様な感情を音声、視覚、動作などのように統合情報で表現することのできる環境を通じ、人間−機械間の情緒的共感を促すことができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、及び/又はハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置及び構成要素は、プロセッサ、コントローラ、算術論理演算装置(ALU:arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、フィールドプログラマグルゲートアレイ(FPGA:field programmable gate array)、プログラム可能論理ユニット(PLU:programmable logic unit)、マイクロプロセッサ、又は命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)及びOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理及び生成してもよい。理解の便宜のために、1つの処理装置が使用されるように説明されることがあるが、当業者には、処理装置が複数個の処理要素及び/又は複数種類の処理要素を含んでもよいことが理解されよう。例えば処理装置は、複数個のプロセッサ又は1つのプロセッサ及び1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの1つ以上の組み合わせを含んでもよく、所望のとおりに動作するように処理装置を構成したり、独立的又は集合的に処理装置に命令したりしてよい。ソフトウェア及び/又はデータは、処理装置に基づいて解釈されたり、処理装置に命令又はデータを提供したりするために、任意の種類の機械、コンポーネント、物理装置、コンピュータ格納媒体又は装置に具現化されてよい。ソフトウェアは、ネットワークに接続したコンピュータシステム上に分散され、分散された状態で格納されて実行されてもよい。ソフトウェア及びデータは、1つ以上のコンピュータ読み取り可能な記録媒体に格納されてもよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータによって実行可能なプログラムを継続して格納するか、実行又はダウンロードのために一時的に格納するものであってもよい。また、媒体は、単一又は数個のハードウェアが結合した形態の多様な記録手段又は格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されるものではなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、及び磁気テープのような磁気媒体、CD−ROM及びDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、及びROM、RAM、フラッシュメモリなどを含み、プログラム命令語が格納されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを流通するアプリストア、他の多様なソフトウェアを供給又は流通するサイト、サーバなどで管理する記録媒体又は格納媒体も挙げられる。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正及び変形が可能であろう。例えば説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたり又は組み合わされたり、他の構成要素又は均等物によって代替又は置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
410:電子機器
411、421:メモリ
412、422:プロセッサ
413、423:通信モジュール
414、424:入力/出力インタフェース
415:入力/出力装置
420:サーバ
430:ネットワーク

Claims (12)

  1. コンピュータで実現される人工知能会話方法であって、
    ユーザの感情情報に基づいてユーザの会話の意図を判断する段階、
    前記ユーザの会話の意図に対応する返答文章を決定する段階、及び
    前記返答文章に該当する音声ファイルを出力する段階であって、前記返答文章から返答感情情報を抽出し、前記返答文章を前記音声ファイルに変換し、前記抽出された返答感情情報に含まれる感情用語の各々について前記音声ファイル内の位置値を抽出し、前記返答文章の前記音声ファイルを出力する際に、各感情用語の前記位置値の時点に、各感情用語に対応する感情情報を共に出力する段階
    を含み、
    当該人工知能会話方法は、
    前記ユーザの音声入力及び顔映像のうちの少なくとも一方から抽出される前記ユーザの感情情報について即時呼応感情を判断する段階を更に含み、
    前記出力する段階は、
    前記抽出された位置値を利用して、前記音声ファイルと前記感情情報を同期させて、前記即時呼応感情に続いて前記音声ファイルと前記感情情報が共に出力されるように、前記即時呼応感情、前記音声ファイル及び前記感情情報を組み合わせて統合返答情報のための返答出力制御情報を生成する段階、及び
    前記返答出力制御情報によって、前記即時呼応感情と前記音声ファイル及び前記感情情報を出力する段階
    を含む、人工知能会話方法。
  2. 前記ユーザの会話の意図を判断する段階は、
    前記ユーザの音声入力及び顔映像のうちの少なくとも一方を利用して前記ユーザの感情情報を抽出する段階
    を含む、請求項1に記載の人工知能会話方法。
  3. 前記ユーザの会話の意図を判断する段階は、
    前記ユーザの音声入力を受信し、前記音声入力の文章から第1感情情報を抽出する段階、
    前記ユーザの顔映像を受信し、顔表情から第2感情情報を抽出する段階、及び
    前記第1感情情報と前記第2感情情報を総合して前記ユーザの会話の意図を判断する段階
    を含む、請求項1に記載の人工知能会話方法。
  4. 意図別に複数の文章セットが事前に定められ、
    前記決定する段階は、
    前記ユーザの会話の意図に該当する文章セットのうちから前記返答文章を選択する段階
    を含む、請求項1に記載の人工知能会話方法。
  5. 前記出力する段階は、
    前記感情用語に対応する感情情報を、ディスプレイ装置とモータ制御動作装置のうちの少なくとも1つのデバイスから出力する段階
    を含む、請求項1に記載の人工知能会話方法。
  6. 請求項1乃至のいずれか一項に記載の人工知能会話方法をコンピュータに実行させるための、コンピュータプログラム。
  7. 請求項1乃至のいずれか一項に記載の人工知能会話方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
  8. コンピュータで実現される人工知能会話システムであって、
    コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    ユーザの感情情報に基づいてユーザの会話の意図を判断し、
    前記ユーザの会話の意図に対応する返答文章を決定し、
    前記返答文章に該当する音声ファイルを出力することであって、前記返答文章から返答感情情報を抽出し、前記返答文章を前記音声ファイルに変換し、前記抽出された返答感情情報に含まれる感情用語の各々について前記音声ファイル内の位置値を抽出し、前記返答文章の前記音声ファイルを出力する際に、各感情用語の前記位置値の時点に、各感情用語に対応する感情情報を共に出力
    前記少なくとも1つのプロセッサは、
    前記ユーザの音声入力及び顔映像のうちの少なくとも一方から抽出される前記ユーザの感情情報について即時呼応感情を判断し、
    前記感情用語に対応する感情情報を出力するために、
    前記抽出された位置値を利用して、前記音声ファイルと前記感情情報を同期させて、前記即時呼応感情に続いて前記音声ファイルと前記感情情報が共に出力されるように、前記即時呼応感情、前記音声ファイル及び前記感情情報を組み合わせて統合返答情報のための返答出力制御情報を生成し、
    前記返答出力制御情報によって、前記即時呼応感情と前記音声ファイル及び前記感情情報を出力する、
    人工知能会話システム。
  9. 前記少なくとも1つのプロセッサは、前記ユーザの会話の意図を判断するために、
    前記ユーザの音声入力及び顔映像のうちの少なくとも一方を利用して前記ユーザの感情情報を抽出する、
    請求項に記載の人工知能会話システム。
  10. 前記少なくとも1つのプロセッサは、前記ユーザの会話の意図を判断するために、
    前記ユーザの音声入力を受信し、前記音声入力の文章から第1感情情報を抽出し、
    前記ユーザの顔映像を受信し、顔表情から第2感情情報を抽出し、
    前記第1感情情報と前記第2感情情報を総合して前記ユーザの会話の意図を判断する、
    請求項に記載の人工知能会話システム。
  11. 意図別に複数の文章セットが事前に定められ、
    前記少なくとも1つのプロセッサは、前記返答文章を決定するために、
    前記ユーザの会話の意図に該当する文章セットのうちから前記返答文章を選択する、
    請求項に記載の人工知能会話システム。
  12. 前記少なくとも1つのプロセッサは、前記感情用語に対応する感情情報を出力するために、
    前記感情用語に対応する感情情報を、ディスプレイ装置とモータ制御動作装置のうちの少なくとも1つのデバイスから出力する、
    請求項に記載の人工知能会話システム。
JP2017220003A 2017-06-29 2017-11-15 人間−機械間の感情会話のための方法及びシステム Active JP6678632B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0082427 2017-06-29
KR1020170082427A KR102034255B1 (ko) 2017-06-29 2017-06-29 사람-기계 간 감정 대화를 위한 방법 및 시스템

Publications (2)

Publication Number Publication Date
JP2019012255A JP2019012255A (ja) 2019-01-24
JP6678632B2 true JP6678632B2 (ja) 2020-04-08

Family

ID=65021254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017220003A Active JP6678632B2 (ja) 2017-06-29 2017-11-15 人間−機械間の感情会話のための方法及びシステム

Country Status (2)

Country Link
JP (1) JP6678632B2 (ja)
KR (1) KR102034255B1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102199928B1 (ko) * 2019-03-26 2021-01-08 한국과학기술원 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법
CN111831798A (zh) * 2019-04-19 2020-10-27 北京三星通信技术研究有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN110349577B (zh) * 2019-06-19 2022-12-06 达闼机器人股份有限公司 人机交互方法、装置、存储介质及电子设备
CN110370275A (zh) * 2019-07-01 2019-10-25 夏博洋 基于表情识别的情绪聊天机器人
KR102427508B1 (ko) * 2019-11-14 2022-08-01 주식회사 셀바스에이아이 인공 지능 기반의 정신 건강 관리를 위한 장치 및 방법
CN111210818B (zh) * 2019-12-31 2021-10-01 北京三快在线科技有限公司 匹配情感极性的词语采集方法、装置、电子设备
KR102544262B1 (ko) * 2022-08-19 2023-06-16 (주)페르소나에이아이 사용자와 메타휴먼의 쌍방향 대화 응대 서비스를 스트리밍 기반으로 제공하는 전자 장치
KR102565197B1 (ko) * 2022-11-30 2023-08-11 주식회사 엘젠 사용자 공간 방문 목적에 근거한 디지털 휴먼 제공 방법 및 시스템
KR20240141101A (ko) 2023-03-18 2024-09-25 김만돌 모범적 공감형 인공지능의 대화 방법 및 시스템
KR20240145239A (ko) 2023-03-27 2024-10-07 김만돌 공감형 챗gpt 인공지능의 대화 방법 및 시스템

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002127062A (ja) * 2000-08-18 2002-05-08 Nippon Telegr & Teleph Corp <Ntt> ロボットシステム、ロボット制御信号生成装置、ロボット制御信号生成方法、記録媒体、プログラムおよびロボット
JP3676981B2 (ja) * 2001-01-16 2005-07-27 株式会社エイ・ジー・アイ 感性発生方法及び感性発生装置並びにソフトウェア
JP3372532B2 (ja) * 2000-10-11 2003-02-04 日本電信電話株式会社 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
KR101006491B1 (ko) * 2003-06-10 2011-01-10 윤재민 자연어 기반 감정인식, 감정표현 시스템 및 그 방법
JP4409279B2 (ja) * 2003-12-22 2010-02-03 株式会社日立製作所 音声合成装置及び音声合成プログラム
JP2006043780A (ja) * 2004-07-30 2006-02-16 Shinshu Univ 曲面顔画像表示を用いたコミュニケーションロボット
JP2007264284A (ja) * 2006-03-28 2007-10-11 Brother Ind Ltd 感情付加装置、感情付加方法及び感情付加プログラム
KR101423258B1 (ko) * 2012-11-27 2014-07-24 포항공과대학교 산학협력단 상담 대화 제공 방법 및 이를 이용하는 장치
JP6359478B2 (ja) * 2015-03-31 2018-07-18 シャープ株式会社 ロボット
JP6601069B2 (ja) * 2015-09-01 2019-11-06 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム

Also Published As

Publication number Publication date
KR20190002067A (ko) 2019-01-08
KR102034255B1 (ko) 2019-10-18
JP2019012255A (ja) 2019-01-24

Similar Documents

Publication Publication Date Title
JP6678632B2 (ja) 人間−機械間の感情会話のための方法及びシステム
US20200395008A1 (en) Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
KR101925440B1 (ko) 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법
CN109410927B (zh) 离线命令词与云端解析结合的语音识别方法、装置和系统
CN110998720B (zh) 话音数据处理方法及支持该方法的电子设备
KR101949497B1 (ko) 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템
US20200279553A1 (en) Linguistic style matching agent
CN105843381B (zh) 用于实现多模态交互的数据处理方法及多模态交互系统
KR102204979B1 (ko) 딥러닝 생성모델과 다중모달 분포를 이용하여 멀티턴 대화 응답을 생성하는 방법 및 시스템
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
CN111785246B (zh) 虚拟角色语音处理方法、装置及计算机设备
CN112840396A (zh) 用于处理用户话语的电子装置及其控制方法
JP2019012506A (ja) 機械の自動活性のための方法及びシステム
CN110148406B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
KR20220129989A (ko) 아바타에 기초한 인터랙션 서비스 방법 및 장치
KR20190109651A (ko) 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템
US20220301250A1 (en) Avatar-based interaction service method and apparatus
CN117556027B (zh) 基于数字人技术的智能交互系统及方法
Aylett et al. Building and designing expressive speech synthesis
US20220051661A1 (en) Electronic device providing modified utterance text and operation method therefor
JP7169770B2 (ja) 人工知能プログラミングサーバおよびそのプログラム
KR20190018666A (ko) 기계의 자동 활성을 위한 방법 및 시스템
Vora et al. JARVIS: A PC Voice Assistant
Jeong et al. A computer remote control system based on speech recognition technologies of mobile devices and wireless communication technologies
Feng et al. A platform for building mobile virtual humans

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190527

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191204

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200317

R150 Certificate of patent or registration of utility model

Ref document number: 6678632

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250