JP2019012506A - 機械の自動活性のための方法及びシステム - Google Patents

機械の自動活性のための方法及びシステム Download PDF

Info

Publication number
JP2019012506A
JP2019012506A JP2017220004A JP2017220004A JP2019012506A JP 2019012506 A JP2019012506 A JP 2019012506A JP 2017220004 A JP2017220004 A JP 2017220004A JP 2017220004 A JP2017220004 A JP 2017220004A JP 2019012506 A JP2019012506 A JP 2019012506A
Authority
JP
Japan
Prior art keywords
emotion
conversation
user
information
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017220004A
Other languages
English (en)
Inventor
ジフン ハン
Ji-Hoon Han
ジフン ハン
ウソブ イ
Usoeb Lee
ウソブ イ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Z Intermediate Global Corp
Naver Corp
Original Assignee
Line Corp
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Line Corp, Naver Corp filed Critical Line Corp
Publication of JP2019012506A publication Critical patent/JP2019012506A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Selective Calling Equipment (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザの表情情報と音声情報のうちの少なくとも1つを利用して機械が自身を活性化させ、ユーザよりも先に会話を持ちかけることができる方法及びシステムを提供する。【解決手段】コンピュータで実現される人工知能会話方法は、会話機能が非活性化の状態で収集された情報からユーザの感情情報を抽出する段階、及び感情情報を会話活性トリガーとして使用して会話機能を活性化させる段階を含む。前記抽出する段階は、ユーザの音声入力を受信し、音声入力の文章から第1感情情報を抽出する段階、ユーザの顔映像を受信し、顔の表情から第2感情情報を抽出する段階、及び前記第1感情情報と前記第2感情情報を総合してユーザの感情情報を判断する段階を含んでよい。【選択図】図5

Description

以下の説明は、人工知能会話システムに関する。
一般的に、個人秘書システム、チャットボットプラットフォーム(chatbot platform)、人工知能(AI)スピーカなどで使用される人工知能会話システムは、人間の命令語に対する意図を理解し、これに対応する回答文書を提供する方式を採用している。
人工知能会話システムは、人間が機能的な要求を伝達すると、その人間の要求に対する回答を機械が提供する方式を主流としており、マイク(microphone)でユーザの音声入力を受信し、受信した音声入力に基づいてデバイス動作やコンテンツ提供を制御することができる。
例えば特許文献1(公開日2011年12月30日)には、ホームネットワークサービスにおいて、移動通信網の範囲外にWi−Fiのような第2通信網を利用してホームネットワークサービスを提供することができ、ユーザが特別なボタン操作を行わなくても、ホーム内の複数のマルチメディア機器を音声命令によって多重制御することのできる技術が開示されている。
一般的に、人工知能会話システムは、事前に定められたキーワード(例えば機械の名前など)を会話活性トリガーとして使用している。機械は、ユーザが機械の名前を呼ぶと、これを認識して命令語収集モードとして活性化するようになるが、機械自らが会話を活性化することはできない。
韓国公開特許第10−2011−0139797号
人工知能会話のための機械の活性化を自らトリガーすることができる方法及びシステムを提供する。
ユーザの表情情報と音声情報のうちの少なくとも1つを利用して機械が自身を活性化させ、ユーザよりも先に会話を持ちかけることができる方法及びシステムを提供する。
コンピュータで実現される人工知能会話方法であって、会話機能が非活性化の状態で収集された情報からユーザの感情情報を抽出する段階、及び前記感情情報を会話活性トリガーとして使用して前記会話機能を活性化させる段階を含む、人工知能会話方法を提供する。
一側面によると、前記抽出する段階は、前記ユーザの音声入力を受信し、前記音声入力の文章から前記感情情報を抽出してよい。
他の側面によると、前記抽出する段階は、前記ユーザの顔映像を受信し、顔の表情から前記感情情報を抽出してよい。
また他の側面によると、前記抽出する段階は、動作センサによって動作が感知される場合に映像入力装置を活性化させる段階、前記映像入力装置から前記ユーザの顔映像を受信する段階、及び前記顔映像に基づいて顔の表情から前記感情情報を抽出する段階を含んでよい。
また他の側面によると、前記動作センサの動作感知周期のためのタイマーが設定されてよい。
また他の側面によると、前記抽出する段階は、前記ユーザの音声入力を受信し、前記音声入力の文章から第1感情情報を抽出する段階、前記ユーザの顔映像を受信し、顔の表情から第2感情情報を抽出する段階、及び前記第1感情情報と前記第2感情情報を総合して前記ユーザの感情情報を判断する段階を含んでよい。
また他の側面によると、前記抽出する段階は、前記収集した情報から感情の種類と強度を含む感情情報を抽出してよい。
また他の側面によると、前記活性化させる段階は、前記感情情報に含まれた感情の強度が設定範囲を超過する場合に前記会話機能を活性化させてよい。
また他の側面によると、前記設定範囲は、前記ユーザの感情パターンに対する学習によって収斂された値で設定されてよい。
また他の側面によると、前記活性化させる段階は、前記感情情報に含まれた感情の強度が設定範囲を超過するかを判断する段階、前記感情の強度が前記設定範囲を超過する場合、前記ユーザと関連する状況情報が事前に設定された活性化条件に合致するかを判断する段階、及び前記状況情報が前記活性化条件に合致する場合に前記会話機能を活性化させる段階を含んでよい。
また他の側面によると、前記活性化条件は、前記ユーザの感情パターンや活動パターンに対する学習によって収斂された値で設定され、前記活性化条件は、時間、発話の種類や大きさ、感情の種類、動作の大きさのうちの少なくとも1つの条件が含まれてよい。
人工知能会話方法をコンピュータに実行させるためのコンピュータプログラムを提供する。
前記人工知能会話方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータで読み取り可能な記録媒体を提供する。
コンピュータで実現される人工知能会話システムであって、コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、ユーザの会話の意図を判断し、会話機能が非活性化の状態で収集された情報からユーザの感情情報を抽出し、前記感情情報を会話活性トリガーとして使用して前記会話機能を活性化させる、人工知能会話システムを提供する。
本発明の実施形態によると、ユーザの表情情報と音声情報のうちの少なくとも1つを利用して人工知能会話のための機械の活性化を自らトリガーすることができる。したがって、機械の活性化のために特別なキーワードやアクションを要求しなくてよく、ユーザが会話の意思を先に伝達しなくても、ユーザの感情に応じて機械が自ら活性化してユーザよりも先に会話を持ちかけることができるため、ユーザと機械との情緒的共感を更に深めることができる。
本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。 本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。 本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。 本発明の一実施形態における、電子機器及びサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、人工知能会話方法を示したフローチャートである。 本発明の一実施形態における、人工知能会話方法を示したフローチャートである。 本発明の一実施形態における、人工知能会話方法を示したフローチャートである。 本発明の一実施形態における、会話活性化過程の例を示したフローチャートである。
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
本発明の実施形態に係る人工知能会話システムは、ユーザとの会話に基づいて動作するインタフェースを提供する電子機器で実現されてよい。ここで、人工知能会話システムは、ユーザとの会話のための機械の活性化を自らトリガーすることができ、ユーザよりも先に会話を持ちかけることができる。
本発明の実施形態に係る人工知能会話方法は、上述した電子機器で実行されてよい。ここで、電子機器では、本発明の一実施形態に係るコンピュータプログラムがインストール及び駆動されてよく、電子機器は、駆動されるコンピュータプログラムの制御に従って本発明の一実施形態に係る人工知能会話方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合され、人工知能会話方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に格納されてよい。
図1は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内のデバイスを連結して制御する技術において、音声に基づいて動作するインタフェースを提供する電子機器100がユーザ110の発話から受信した音声入力「電気消して」を認識及び分析し、家の中で電子機器100と内部ネットワークを介して連係する室内照明機器120であるライトの電源を制御する例を示している。
例えば宅内のデバイスは、上述した室内照明機器120の他にも、テレビ、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット清掃機などのような家電製品はもちろん、水道、電気、冷暖房機器のようなエネルギー消費装置、ドアロックや監視カメラのような保安機器など、オンライン上で連結して制御可能な多様なデバイスを含んでよい。また、内部ネットワークは、イーサネット(Ethernet)(登録商標)、HomePNA、IEEE 1394のような有線ネットワーク技術、ブルートゥース(Bluetooth)(登録商標)、UWB(ultra Wide Band)、ジグビー(ZigBee)(登録商標)、Wireless 1394、Home RFのような無線ネットワーク技術などが活用されてよい。
電子機器100は、宅内のデバイスのうちの1つであってよい。例えば電子機器100は、家の中に備えられた人工知能スピーカやロボット清掃機などのようなデバイスのうちの1つであってよい。また、電子機器100は、スマートフォン(smartphone)、携帯電話、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットなどのようなユーザ110のモバイル機器であってもよい。このように電子機器100は、ユーザ110の音声入力を受信して宅内のデバイスを制御するために宅内のデバイスと連結可能な機能を備える機器であれば特に制限されることはない。また、実施形態によっては、上述したユーザ110のモバイル機器が宅内のデバイスとして含まれてもよい。
図2は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。図2は、音声に基づいて動作するインタフェースを提供する電子機器100が、ユーザ110の発話から受信した音声入力「今日の天気」を認識及び分析し、外部ネットワークを介して外部サーバ210から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のように音声で出力する例を示している。
例えば外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。
図2の実施形態でも、電子機器100は、宅内のデバイスのうちの1つであるか、ユーザ110のモバイル機器のうちの1つであってよく、ユーザ110の音声入力を認識して処理するための機能と、外部ネットワークを介して外部サーバ210に接続し、外部サーバ210が提供するサービスやコンテンツをユーザ110に提供するための機能を含む機器であれば特に制限されることはない。
このように、本発明の実施形態に係る電子機器100は、音声基盤インタフェースを利用してユーザ110の発話から受信される音声入力を少なくとも含むユーザ命令を処理することができる機器であれば、特に制限されることはない。例えば電子機器100は、ユーザの音声入力を直接に認識及び分析し、音声入力に合った動作を実行することによってユーザ命令を処理してもよいが、実施形態によっては、ユーザの音声入力に対する認識や認識された音声入力の分析、ユーザに提供される音声の合成などの処理を、電子機器100と連係する外部のプラットフォームで実行することも可能である。
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図3は、電子機器310、クラウド人工知能プラットフォーム320及びコンテンツ・サービス330を示している。
一例として、電子機器310は、宅内に備えられたデバイスを意味してよく、少なくとも上述した電子機器100を含んでよい。このような電子機器310や電子機器310でインストール及び駆動されるアプリケーション(以下、アプリとする)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係してよい。ここで、インタフェースコネクト340は、電子機器310や電子機器310でインストール及び駆動されるアプリの開発のためのソフトウェア開発キット(SDK:Software Development Kit)及び/又は開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や電子機器310でインストール及び駆動されるアプリが、クラウド人工知能プラットフォーム320の提供する機能を活用することができるAPI(Application Program Interface)を提供してよい。具体的な例として、開発者は、インタフェースコネクト340が提供するソフトウェア開発キット(SDK)及び/又は開発文書を利用して開発した機器やアプリが、インタフェースコネクト340によって提供されるAPIを利用して、クラウド人工知能プラットフォーム320によって提供される機能を活用することを可能にする。
ここで、クラウド人工知能プラットフォーム320は、音声基盤のサービスを提供するための機能を提供してよい。例えばクラウド人工知能プラットフォーム320は、受信した音声入を認識し、出力される音声を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声に従って適合する音声を出力するために適切な会話を決定するための会話処理モジュール323、受信した音声に適合する機能を勧めるための推薦モジュール324、人工知能がデータ学習に基づいて文章単位で言語を翻訳するようにサポートするニューラル機械翻訳(Neural Machine Translation:NMT)325などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。
例えば図1及び図2の実施形態において、電子機器100は、ユーザ110の音声入力を、インタフェースコネクト340で提供するAPIを利用してクラウド人工知能プラットフォーム320に送信してよい。この場合、クラウド人工知能プラットフォーム320は、受信した音声入力を、上述したモジュール321〜325を活用して認識及び分析してよく、受信した音声入力に応じて適切な返答音声を合成して提供したり、適切な動作を勧めたりしてよい。
また、拡張キット350は、第三者であるコンテンツ開発者又は会社がクラウド人工知能プラットフォーム320に基づいて新たな音声基盤機能を実現することが可能な開発キットを提供してよい。例えば図2の実施形態において、電子機器100が、受信したユーザ110の音声入力を外部サーバ210に送信すると、外部サーバ210は、拡張キット350で提供されるAPIを利用してクラウド人工知能プラットフォーム320に音声入力を送信してよい。この場合、上述したように、クラウド人工知能プラットフォーム320は、受信した音声入力を認識及び分析して適切な返答情報を合成して提供したり、音声入力に基づいて処理しなければならない機能に関する推薦情報を外部サーバ210に提供したりしてよい。一例として、図2において、外部サーバ210が、音声入力「今日の天気」をクラウド人工知能プラットフォーム320に送信すると、クラウド人工知能プラットフォーム320では、音声入力「今日の天気」の認識によって抽出されるキーワード「今日」及び「天気」を受信してよい。この場合、外部サーバ210は、キーワード「今日」及び「天気」から「今日の天気は・・・」のようなテキスト情報を生成した後、生成したテキスト情報をクラウド人工知能プラットフォーム320に再び送信してよい。このとき、クラウド人工知能プラットフォーム320は、テキスト情報から音声を合成して外部サーバ210に提供してよい。外部サーバ210は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ110から受信した音声入力「今日の天気」が処理されるようになる。
このとき、電子機器100は、ユーザとの会話に基づいたデバイス動作やコンテンツ提供のために、本発明の実施形態に係る人工知能会話方法を実行してよい。
図4は、本発明の一実施形態における、電子機器及びサーバの内部構成を説明するためのブロック図である。図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ210やクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
電子機器410とサーバ420は、メモリ411、421、プロセッサ412、422、通信モジュール413、423及び入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)及びディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROMやディスクドライブのような永久大容量記憶装置は、メモリ411、421とは区分される、別の永久記憶装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器410にインストールされ、特定のサービスの提供のために電子機器410で駆動するアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者又はアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク430を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
プロセッサ412、422は、基本的な算術、ロジック及び入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421又は通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えばプロセッサ412、422は、メモリ411、421のような記録装置に格納されたプログラムコードに従って受信される命令を実行するように構成されてよい。
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよいし、電子機器410及び/又はサーバ420が他の電子機器又は他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412がメモリ411のような記録装置に格納されたプログラムコードに従って生成した要求が、通信モジュール413の制御に従ってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御に従って提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423とネットワーク430を経て電子機器410の通信モジュール213を通じて電子機器410に受信されてもよい。例えば、通信モジュール413を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410が更に含むことのできる格納媒体(上述した永久記憶装置)に格納されてよい。
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード又はマウスなどの装置を、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結するかサーバ420が含むことのできる入力又は出力のための装置(図示せず)とのインタフェースのための手段であってよい。
また、他の実施形態において、電子機器410及びサーバ420は、図4の構成要素よりも少ないか、それよりも多い構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器410は、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、全地球測位システム(GPS:Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素を更に含んでもよい。より具体的な例として、電子機器410がスマートフォンである場合は、スマートフォンに一般的に含まれる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が電子機器410に更に含まれるように実現されてよい。
本実施形態において、電子機器410は、ユーザの音声入力を受信するためのマイク及び/又はユーザの顔映像を受信するためのカメラを入力/出力装置415として基本的に含んでよく、ユーザの音声入力及び/又は顔映像に対応する返答音声やオーディオコンテンツのような音を出力するためのスピーカを入力/出力装置415として更に含んでよい。
本発明の実施形態に係る人工知能会話方法は、上述した電子機器410のようなコンピュータ装置によって実行されてよい。このとき、電子機器410のプロセッサ412は、メモリ411に含まれるオペレーティングシステムのコードや少なくとも1つのプログラムのコードによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ412は、電子機器410に格納されたコードが提供する制御命令に従って、電子機器410が以下で説明される人工知能会話方法に含まれる段階を実行するように、電子機器410を制御してよい。
図5は、本発明の一実施形態における、人工知能会話方法の例を示したフローチャートである。
段階S511において、電子機器410は、会話機能が非活性化の状態で、会話基盤インタフェースによってユーザの音声入力を受信してよい。例えば電子機器410は、会話基盤インタフェースとして、電子機器410が含むマイク又は電子機器410と連動するマイクのような音声入力装置によってユーザの発話による音声入力を受信してよい。言い換えれば、電子機器410は、会話機能が非活性化の状態で、音声入力装置を利用してユーザの音声情報を収集してよい。
段階S521において、電子機器410は、段階S511で受信した音声入力の文章から感情情報(以下、「文章感情情報」とする)を抽出してよい。ここで、文章感情情報は、感情種類と感情強度(感情程度)を含んでよい。感情を示す用語、すなわち感情用語は、事前に定められ、一定の基準に従って複数の感情種類(例えば喜び、悲しみ、驚き、悩み、苦しみ、不安、恐怖、嫌悪、怒りなど)のいずれかに分類され、感情用語の強弱に従って複数の感情強度の等級(例えば1〜10)のいずれかに分類されてよい。一例として、電子機器410は、STT(speech to text)変換によってユーザの音声入力をテキスト形態の文章に変換してよい。また、電子機器410は、音声入力に対応する文章から形態素を抽出した後、抽出された形態素から予め定められた感情用語を抽出し、抽出された感情用語に対応する感情種類と感情強度を分類してよい。電子機器410は、音声入力の文章に複数の感情用語が含まれる場合には、感情用語が属する感情種類と感情強度に応じて加重値を計算してよく、これに基づいて文章の感情情報に対する感情ベクトルを計算し、該当の文章を代表する感情情報を抽出してよい。上述した文章感情情報を抽出する技術は例示的なものに過ぎず、これに限定されるものでもなく、周知の他の技術を利用することも可能である。
段階S530において、電子機器410は、段階S521で抽出された文章感情情報を利用し、文章感情情報に含まれる感情の強度が事前に定められた設定範囲を超過するかを確認してよい。感情の強度に対する設定範囲は、ユーザやシステムによって特定の値で事前に設定されてもよいし、ユーザの感情パターンに対する学習過程を経て収斂された値で定められてもよい。
段階S540において、電子機器410は、文章感情情報に含まれる感情の強度が設定範囲を超過する場合に会話機能を自動活性化させてよい。電子機器410は、ユーザの音声入力から設定範囲を超過する感情が感知された場合、自ら会話を活性化させてよい。
ユーザが特定のキーワードやアクションによって会話の意思を先に伝達することによって会話が活性化されていた既存の方式とは異なり、本実施形態では、特定のキーワードやアクションの代わりに、ユーザの感情強度を会話活性トリガーとして活用してよい。例えば感情の種類は、喜び、悲しみ、驚き、悩み、苦しみ、不安、恐怖、嫌悪、怒りなどに区分され、感情の強度は、複数の等級(例えば1〜10)に区分されてよい。電子機器410は、感情の強度に対して一定範囲の等級、例えば1から6までを安定範囲として設定してよい。また、電子機器410は、ユーザの感情が安定範囲を超える強度、例えば、[悲しみ、8]、[怒り、9]、[喜び、7]などと示された場合には、会話を自動活性化させてよい。このとき、電子機器410は、会話活性化のときに、電子機器410に含まれるか電子機器410と連動可能な出力装置を利用して、ユーザが会話活性状態を認知することのできる情報を出力する、例えばディスプレイをターンオンしたり効果音を出力したりしてよい。
段階S550において、電子機器410は、設定範囲を超過するユーザ感情に対して会話を自動活性化させた後、文章感情情報に対応する会話情報を出力してよい。会話情報は、会話基盤インタフェースで出力可能な情報であって、音声メッセージ、表情情報、動作情報のうちの少なくとも1つを含んでよい。一例として、電子機器410は、電子機器410に含まれるスピーカ又は電子機器410と連動するスピーカのような音声出力装置から会話情報による音声メッセージを出力してよい。また、電子機器410は、電子機器410に含まれるディスプレイ又は電子機器410と連動するディスプレイのような映像出力装置から会話情報による表情情報を出力してよい。例えば映像出力装置は、会話基盤インタフェースに該当する所定のキャラクタを表示してよく、設定範囲を超過するユーザ感情に対し、これに対応する表情情報を該当のキャラクタに反映してよい。さらに、電子機器410は、電子機器410が含むモータ制御動作装置又は電子機器410と連動するモータ制御動作装置から会話情報による動作情報を出力してよい。例えば電子機器410が会話ロボットである場合、ユーザの感情に対応する会話情報に応じて該当の会話内容と関連する動作を実現してよい。ユーザ感情が設定範囲を超過する[悲しみ、8]と示された場合には、ロボットの悲しいジェスチャと表情を出力すると同時に、<もしかして、嫌なことがありましたか?>のような音声メッセージを共に出力してよい。
したがって、本実施形態では、ユーザの音声入力からユーザの現在の感情の種類と強度を把握することができ、このようなユーザ感情を会話活性トリガーとして使用し、感情の強度が設定範囲を超過する場合には、自動的に会話を活性化することができる。
図6は、本発明の一実施形態における、人工知能会話方法の他の例を示したフローチャートである。
段階S612において、電子機器410は、会話機能が非活性化の状態で、電子機器410に含まれるか電子機器410と連動可能な動作センサ(例えば赤外線センサなど)を利用して一定の距離(例えば3m)以内の動作を感知してよい。言い換えれば、電子機器410は、赤外線センサのような動作センサによってユーザ動作を感知してよい。動作感知が極めて頻繁に発生する場合には、不必要な電力使用などの原因になり得るため、電子機器410は、動作センサに対してタイマーを設定して動作感知周期を適用させてよい。例えば電子機器410は、動作センサによって動作が感知された後、動作センサを12時間非活性化させ、12時間が経過した後に再び活性化させてよい。
段階S613において、電子機器410は、動作が感知されると、電子機器410に含まれるカメラ又は電子機器410と連動するカメラのような映像入力装置を活性化させ、該当の映像入力装置でユーザの顔映像を受信してよい。言い換えれば、電子機器410は、会話機能が非活性化の状態でユーザ動作が感知された場合にカメラを活性化させ、カメラによって、動作が感知されたユーザの顔情報を収集してよい。
段階S622において、電子機器410は、段階S613で受信した顔映像から感情情報(以下、「顔感情情報」とする)を抽出してよい。電子機器410は、映像に基づいて顔の表情から感情種類と感情強度を含む顔感情情報を抽出してよい。顔の表情は、眉毛、目、鼻、口、肌のような顔の要素に変形が起こるときに発生する顔の筋肉の収縮によって現れ、顔の表情の強度は、顔の特徴の幾何学的変化又は筋肉表現の密度によって決定されてよい。一例として、電子機器410は、表情による特徴を抽出するための関心領域(例えば目領域、眉毛領域、鼻領域、口領域など)を抽出した後、関心領域から特徴点(point)を抽出し、特徴点を利用して一定の特徴値を決定してよい。特徴値は、それぞれの特徴点間の距離などに応じて人間の表情を示す特定の数値に該当する。電子機器410は、決定された特徴値を感情感応値モデルに適用するために、映像に示された特徴値に対する数値の程度に応じて一定の強度値を決定し、予め用意されたマッピングテーブルを利用して各特定値の数値にマッチングする一定の強度値を決定する。マッピングテーブルは、感情感応値モデルに応じて事前に用意される。電子機器410は、感情感応値モデルと強度値をマッピングさせ、該当の強度値を感情感応値モデルに適用した結果に従って決定された感情の種類と強度を抽出してよい。上述した顔感情情報を抽出する技術は例示的なものに過ぎず、これに限定されるものでもなく、周知の他の技術を利用することも可能である。
段階S630において、電子機器410は、段階S622で抽出された顔感情情報を利用し、顔感情情報に含まれる感情の強度が事前に定められた設定範囲を超過するかを確認してよい。
段階S640において、電子機器410は、顔感情情報に含まれる感情の強度が設定範囲を超過する場合に会話機能を自動活性化させてよい。電子機器410は、ユーザの顔映像から設定範囲を超過する感情が感知された場合、自ら会話を活性化させてよい。
感情の強度に基づいて会話を自動活性化する具体的な内容は、図5を参照しながら説明したものと同じであるため、具体的な説明は省略する。
段階S650において、電子機器410は、設定範囲を超過するユーザ感情に対して会話を自動活性化させた後、顔感情情報に対応する会話情報を出力してよい。会話情報は、音声メッセージ、表情情報、動作情報のうちの少なくとも1つを含んでよく、電子機器410は、スピーカのような音声出力装置、ディスプレイのような映像出力装置、ロボットのようなモータ制御動作装置のうちの少なくとも1つを利用して会話情報を出力してよい。会話情報を出力する具体的な内容も、図5を参照しながら説明したものと同じであるため、具体的な説明は省略する。
したがって、本実施形態では、ユーザの顔映像内の表情からユーザの現在の感情の種類と強度を把握することができ、このようなユーザ感情を会話活性トリガーとして使用し、感情の強度が設定範囲を超過する場合に会話を自動で活性化させることができる。
図7は、本発明の一実施形態における、人工知能会話方法の更に他の例を示したフローチャートである。
段階S711において、電子機器410は、会話機能が非活性化の状態で、会話基盤インタフェースによってユーザの音声入力を受信してよい。例えば電子機器410は、会話基盤インタフェースとして、電子機器410が含むマイク又は電子機器410と連動するマイクのような音声入力装置によってユーザの発話による音声入力を受信してよい。
段階S712において、電子機器410は、電子機器410に含まれる動作センサ(例えば赤外線センサなど)を利用して一定の距離(例えば3m)以内の動作を感知してよい。言い換えれば、電子機器410は、赤外線センサのような動作センサによってユーザ動作を感知してよい。
段階S713において、電子機器410は、動作を感知すると、会話基盤インタフェースを活性化させ、該当のインタフェースによってユーザの顔映像を受信してよい。例えば電子機器410は、ユーザ動作を感知すると、電子機器410に含まれるカメラ又は電子機器410と連動するカメラのような映像入力装置を活性化させてユーザの顔映像を受信してよい。
段階S721において、電子機器410は、段階S711で受信した音声入力の文章から感情情報(すなわち、文章感情情報)を抽出してよい。このとき、文章感情情報は、感情種類と感情強度(感情程度)を含んでよい。文章感情情報を抽出する方法は、図5を参照しながら説明した段階S521と同じであるため、具体的な説明は省略する。
段階S722において、電子機器410は、段階S713で受信した顔映像から感情情報(すなわち、顔感情情報)を抽出してよい。電子機器410は、映像に基づき、顔の表情から感情種類と感情強度を含む顔感情情報を抽出してよい。顔感情情報を抽出する方法は、図6を参照しながら説明した段階S622と同じであるため、具体的な説明は省略する。
段階S723において、電子機器410は、段階S721で抽出された文章感情情報と段階S722で抽出された顔感情情報を総合した感情情報(以下、「ユーザ感情情報」とする)を判断してよい。一例として、電子機器410は、文章感情情報と顔感情情報に応じて加重値を計算してよく、これに基づいて総合的な感情情報を判断してよい。ユーザ感情情報も同じように、感情種類と感情強度を含んでよい。したがって、電子機器410は、ユーザの音声入力による文章から現れる感情とユーザ顔映像の表情から現れる感情を総合して最終的なユーザ感情を判断してよい。
段階S730において、電子機器410は、段階S723で抽出されたユーザ感情情報を利用し、ユーザ感情情報に含まれる感情の強度が事前に定められた設定範囲を超過するかを確認してよい。
段階S740において、電子機器410は、ユーザ感情情報に含まれた感情の強度が設定範囲を超過する場合に会話機能を自動活性化させてよい。電子機器410は、ユーザの音声入力から現れる感情と顔映像の表情から現れる感情を総合して判断された感情の強度が設定範囲を超過する場合、自ら会話を活性化させてよい。感情の強度に基づいて会話を自動活性化させる具体的な内容は、図5を参照しながら説明したものと同じであるため、具体的な説明は省略する。
段階S750において、電子機器410は、設定範囲を超過するユーザ感情に対して会話を自動活性化させた後、ユーザ感情情報に対応する会話情報を出力してよい。会話情報は、音声メッセージ、表情情報、動作情報のうちの少なくとも1つを含んでよく、電子機器410は、スピーカのような音声出力装置、ディスプレイのような映像出力装置、ロボットのようなモータ制御動作装置のうちの少なくとも1つを利用して会話情報を出力してよい。会話情報を出力する具体的な内容も、図5を参照しながら説明したものと同じであるため、具体的な説明は省略する。
したがって、本実施形態では、ユーザの音声入力と顔映像の両方を利用してユーザの現在感情の種類と強度を把握することができ、このようなユーザ感情を会話活性トリガーとして使用し、感情の強度が設定範囲を超過する場合に会話を自動で活性化させることができる。
さらに、本実施形態は、ユーザ感情を会話活性トリガーとして使用するが、ユーザと関連する状況情報を追加の活性化条件として適用することも可能である。
図8は、本発明の一実施形態における、会話活性化過程の例を示したフローチャートである。
段階S830において、電子機器410は、ユーザの音声入力及び/又は顔映像から判断された感情の強度が事前に定められた設定範囲を超過するかを確認してよい。
段階S831において、電子機器410は、段階S830の判断結果、感情の強度が設定範囲を超過する場合、ユーザと関連する状況情報が、事前に設定された活性化条件に合致するかどうかを判断してよい。活性化条件には、時間、発話の種類や大きさ、感情の種類、動作の大きさなどのような多様な状況条件のうちの少なくとも1つの条件が含まれてよい。上述した活性化条件は、ユーザやシステムによって特定値で事前に設定されてもよいし、ユーザの感情パターンや活動パターンに対する学習過程を経て収斂された値で定められることも可能である。
段階S840において、電子機器410は、ユーザの状況情報が活性化条件に合致する場合に会話機能を自動活性化させてよい。一例として、電子機器410は、活性化条件として、会話機能の非活性化状態が連続して維持された時間を利用してよく、非活性化状態の維持時間が活性化条件に設定された時間を超過した場合、設定範囲を超過した強度の感情に対して会話を自動活性化させてよい。他の例として、電子機器410は、活性化条件として、ユーザの普段の活動時間を利用してよく、ユーザの普段の活動時間以外の時間に設定範囲を超過した強度の感情が感知された場合、会話を自動活性化させてよい。また他の例として、電子機器410は、活性化条件として、ユーザの普段の活動時間とため息の大きさを利用してよく、ユーザの普段の活動時間以外の時間に設定された大きさ以上のため息が感知された場合、会話を自動活性化させてよい。また他の例として、電子機器410は、活性化条件として、ユーザに普段に現れる感情の種類を利用してよく、設定範囲を超過した強度の感情がユーザの普段の感情種類に該当しない場合、会話を自動活性化させてよい。更に他の例として、電子機器410は、活性化条件として、動作の大きさを利用してよく、設定範囲を超過した強度の感情と共に動作センサが感知した動作の大きさが設定範囲を超過する場合、会話を自動活性化させてよい。
したがって、本実施形態では、設定範囲を超過した強度の感情を会話活性トリガーとして使用するが、時間、発話の種類や大きさ、感情の種類、動作の大きさなどのような多様な状況情報を追加の活性化条件として適用してよい。
このように、本発明の実施形態によると、ユーザの表情情報と音声情報のうちの少なくとも1つを利用して人工知能会話のための機械の活性化を、機械が自らトリガーすることができる。したがって、機械活性化のための特別なキーワードやアクションを要求しなくてよく、ユーザが会話意思を先に伝達しなくても、ユーザの感情に応じて機械が自ら活性化してユーザよりも先に会話を持ちかけることができるため、ユーザと機械間の情緒的共感を更に高めることができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素及び/又はハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置及び構成要素は、プロセッサ、コントローラ、算術論理演算装置(ALU:arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、フィールドプログラマグルゲートアレイ(FPGA:field programmable gate array)、プログラム可能論理ユニット(PLU:programmable logic unit)、マイクロプロセッサ、又は命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)及びOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理及び生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明されることもあるが、当業者には、処理装置が複数個の処理要素及び/又は複数種類の処理要素を含んでもよいことが理解されよう。例えば処理装置は、複数個のプロセッサ又は1つのプロセッサ及び1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令又はこれらのうちの1つ以上の組み合わせを含んでもよく、所望のとおりに動作するように処理装置を構成したり、独立的又は集合的に処理装置に命令したりしてよい。ソフトウェア及び/又はデータは、処理装置に基づいて解釈されたり、処理装置に命令又はデータを提供したりするために、任意の種類の機械、コンポーネント、物理装置、コンピュータ格納媒体又は装置に具現化されてよい。ソフトウェアは、ネットワークに接続したコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェア及びデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてもよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータによって実行可能なプログラムを継続して格納するか、実行又はダウンロードのために一時的に格納するものであってもよい。また、媒体は、単一又は数個のハードウェアが結合した形態の多様な記録手段又は格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されるものではなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、及び磁気テープのような磁気媒体、CD−ROM及びDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、及びROM、RAM、フラッシュメモリなどを含み、プログラム命令語が格納されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを流通するアプリストア、その他の多様なソフトウェアを供給又は流通するサイト、サーバなどで管理する記録媒体又は格納媒体も挙げられる。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正及び変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたり又は組み合わされたり、他の構成要素又は均等物によって代替又は置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
410:電子機器
411、421:メモリ
412、422:プロセッサ
413、423:通信モジュール
414、424:入力/出力インタフェース
415:入力/出力装置
420:サーバ
430:ネットワーク

Claims (20)

  1. コンピュータで実現される人工知能会話方法であって、
    会話機能が非活性化の状態で収集された情報からユーザの感情情報を抽出する段階、及び
    前記感情情報を会話活性トリガーとして使用して前記会話機能を活性化させる段階
    を含む、人工知能会話方法。
  2. 前記抽出する段階は、
    前記ユーザの音声入力を受信し、前記音声入力の文章から前記感情情報を抽出する、請求項1に記載の人工知能会話方法。
  3. 前記抽出する段階は、
    前記ユーザの顔映像を受信し、顔の表情から前記感情情報を抽出する、請求項1に記載の人工知能会話方法。
  4. 前記抽出する段階は、
    動作センサによって動作が感知された場合に映像入力装置を活性化させる段階、
    前記映像入力装置から前記ユーザの顔映像を受信する段階、及び
    前記顔映像に基づいて顔の表情から前記感情情報を抽出する段階
    を含む、請求項1に記載の人工知能会話方法。
  5. 前記動作センサの動作感知周期のためのタイマーが設定される、請求項4に記載の人工知能会話方法。
  6. 前記抽出する段階は、
    前記ユーザの音声入力を受信し、前記音声入力の文章から第1感情情報を抽出する段階、
    前記ユーザの顔映像を受信し、顔の表情から第2感情情報を抽出する段階、及び
    前記第1感情情報と前記第2感情情報を総合して前記ユーザの感情情報を判断する段階
    を含む、請求項1に記載の人工知能会話方法。
  7. 前記抽出する段階は、
    前記収集された情報から感情の種類と強度を含む感情情報を抽出する、請求項1に記載の人工知能会話方法。
  8. 前記活性化させる段階は、
    前記感情情報に含まれた感情の強度が設定範囲を超過する場合に前記会話機能を活性化させる、請求項1に記載の人工知能会話方法。
  9. 前記設定範囲は、前記ユーザの感情パターンに対する学習によって収斂された値で設定される、請求項8に記載の人工知能会話方法。
  10. 前記活性化させる段階は、
    前記感情情報に含まれる感情の強度が設定範囲を超過するかを判断する段階、
    前記感情の強度が前記設定範囲を超過する場合、前記ユーザと関連する状況情報が事前に設定された活性化条件に合致するかを判断する段階、及び
    前記状況情報が前記活性化条件に合致する場合に前記会話機能を活性化させる段階
    を含む、請求項1に記載の人工知能会話方法。
  11. 前記活性化条件は、前記ユーザの感情パターンや活動パターンに対する学習によって収斂された値で設定され、
    前記活性化条件には、時間、発話の種類や大きさ、感情の種類、動作の大きさのうちの少なくとも1つの条件が含まれる、請求項10に記載の人工知能会話方法。
  12. 請求項1乃至11のうちのいずれか一項に記載の人工知能会話方法をコンピュータに実行させるためのコンピュータプログラム。
  13. 請求項1乃至11のうちのいずれか一項に記載の人工知能会話方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
  14. コンピュータで実現される人工知能会話システムであって、
    コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    ユーザの会話の意図を判断し、
    会話機能が非活性化の状態で収集された情報からユーザの感情情報を抽出し、
    前記感情情報を会話活性トリガーとして使用して前記会話機能を活性化させる、人工知能会話システム。
  15. 前記少なくとも1つのプロセッサは、前記感情情報を抽出するために、
    前記ユーザの音声入力及び顔映像のうちの少なくとも1つを利用して前記ユーザの感情情報を抽出する、請求項14に記載の人工知能会話システム。
  16. 前記少なくとも1つのプロセッサは、前記感情情報を抽出するために、
    動作センサによって動作が感知された場合に映像入力装置を活性化させ、
    前記映像入力装置から前記ユーザの顔映像を受信し、
    前記顔映像に基づいて顔の表情から前記感情情報を抽出する、請求項14に記載の人工知能会話システム。
  17. 前記少なくとも1つのプロセッサは、前記感情情報を抽出するために、
    前記動作センサの動作感知周期のためのタイマーを設定する、請求項16に記載の人工知能会話システム。
  18. 前記少なくとも1つのプロセッサは、前記感情情報を抽出するために、
    前記収集された情報から感情の種類と強度を含む感情情報を抽出する、請求項14に記載の人工知能会話システム。
  19. 前記少なくとも1つのプロセッサは、前記会話機能を活性化させるために、
    前記感情情報に含まれた感情の強度が設定範囲を超過する場合に前記会話機能を活性化させる、請求項14に記載の人工知能会話システム。
  20. 前記少なくとも1つのプロセッサは、前記会話機能を活性化させるために、
    前記感情情報に含まれた感情の強度が設定範囲を超過するかを判断し、
    前記感情の強度が前記設定範囲を超過する場合、前記ユーザと関連する状況情報が事前に設定された活性化条件に合致するかを判断し、
    前記状況情報が前記活性化条件に合致する場合に前記会話機能を活性化させる、請求項14に記載の人工知能会話システム。
JP2017220004A 2017-06-29 2017-11-15 機械の自動活性のための方法及びシステム Pending JP2019012506A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170082450A KR20190002073A (ko) 2017-06-29 2017-06-29 기계의 자동 활성을 위한 방법 및 시스템
KR10-2017-0082450 2017-06-29

Publications (1)

Publication Number Publication Date
JP2019012506A true JP2019012506A (ja) 2019-01-24

Family

ID=65021146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017220004A Pending JP2019012506A (ja) 2017-06-29 2017-11-15 機械の自動活性のための方法及びシステム

Country Status (2)

Country Link
JP (1) JP2019012506A (ja)
KR (1) KR20190002073A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020411A (zh) * 2019-03-29 2019-07-16 上海掌门科技有限公司 图文内容生成方法及设备
JP2021057177A (ja) * 2019-09-30 2021-04-08 日本電産コパル株式会社 スイッチ操作装置
US11341336B2 (en) 2019-05-31 2022-05-24 Fujitsu Limiited Recording medium, conversation control method, and information processing apparatus
WO2024190274A1 (ja) * 2023-03-15 2024-09-19 Necソリューションイノベータ株式会社 介護支援装置、介護支援方法、及びコンピュータ読み取り可能な記録媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445898B (zh) * 2019-08-16 2024-06-14 阿里巴巴集团控股有限公司 对话情感分析方法及装置、存储介质及处理器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310034A (ja) * 2003-03-24 2004-11-04 Matsushita Electric Works Ltd 対話エージェントシステム
JP2006123136A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International コミュニケーションロボット
JP2013157666A (ja) * 2012-01-26 2013-08-15 Sumitomo Mitsui Banking Corp 電話応対業務支援システムおよびその方法
JP2013219495A (ja) * 2012-04-06 2013-10-24 Nec Infrontia Corp 感情表現アニメーション顔表示システム、方法及びプログラム
JP2017517028A (ja) * 2014-04-17 2017-06-22 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe ロボットとの対話を取り扱う方法とシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310034A (ja) * 2003-03-24 2004-11-04 Matsushita Electric Works Ltd 対話エージェントシステム
JP2006123136A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International コミュニケーションロボット
JP2013157666A (ja) * 2012-01-26 2013-08-15 Sumitomo Mitsui Banking Corp 電話応対業務支援システムおよびその方法
JP2013219495A (ja) * 2012-04-06 2013-10-24 Nec Infrontia Corp 感情表現アニメーション顔表示システム、方法及びプログラム
JP2017517028A (ja) * 2014-04-17 2017-06-22 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe ロボットとの対話を取り扱う方法とシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020411A (zh) * 2019-03-29 2019-07-16 上海掌门科技有限公司 图文内容生成方法及设备
US11341336B2 (en) 2019-05-31 2022-05-24 Fujitsu Limiited Recording medium, conversation control method, and information processing apparatus
JP2021057177A (ja) * 2019-09-30 2021-04-08 日本電産コパル株式会社 スイッチ操作装置
WO2024190274A1 (ja) * 2023-03-15 2024-09-19 Necソリューションイノベータ株式会社 介護支援装置、介護支援方法、及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
KR20190002073A (ko) 2019-01-08

Similar Documents

Publication Publication Date Title
JP2018190413A (ja) ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム
KR102513297B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
JP6752870B2 (ja) 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム
US11004451B2 (en) System for processing sound data and method of controlling system
JP6567727B2 (ja) 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム
KR102034255B1 (ko) 사람-기계 간 감정 대화를 위한 방법 및 시스템
JP6731894B2 (ja) デバイス制御方法及び電子機器
JP2019012506A (ja) 機械の自動活性のための方法及びシステム
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
KR102508863B1 (ko) 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버
KR102595790B1 (ko) 전자 장치 및 그의 제어방법
JP6607999B2 (ja) 音声要請に対応する情報提供のためのメディア選択
KR102209092B1 (ko) 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템
US11631406B2 (en) Method for responding to user utterance and electronic device for supporting same
JP6573696B2 (ja) ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム
JP6920398B2 (ja) 人工知能機器における連続会話機能
KR102563817B1 (ko) 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US11749271B2 (en) Method for controlling external device based on voice and electronic device thereof
KR102396147B1 (ko) 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법
KR20190018666A (ko) 기계의 자동 활성을 위한 방법 및 시스템
KR20200057501A (ko) 전자 장치 및 그의 와이파이 연결 방법
US12114075B1 (en) Object selection in computer vision
US11670294B2 (en) Method of generating wakeup model and electronic device therefor
KR102239223B1 (ko) 기계의 자동 활성을 위한 방법 및 시스템
US11127400B2 (en) Electronic device and method of executing function of electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200720

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201124