JP6607999B2 - 音声要請に対応する情報提供のためのメディア選択 - Google Patents

音声要請に対応する情報提供のためのメディア選択 Download PDF

Info

Publication number
JP6607999B2
JP6607999B2 JP2018094708A JP2018094708A JP6607999B2 JP 6607999 B2 JP6607999 B2 JP 6607999B2 JP 2018094708 A JP2018094708 A JP 2018094708A JP 2018094708 A JP2018094708 A JP 2018094708A JP 6607999 B2 JP6607999 B2 JP 6607999B2
Authority
JP
Japan
Prior art keywords
response information
electronic device
information
media
medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018094708A
Other languages
English (en)
Other versions
JP2018195312A (ja
Inventor
ミョンス シン
セジン チャ
ウンジョン チェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2018195312A publication Critical patent/JP2018195312A/ja
Application granted granted Critical
Publication of JP6607999B2 publication Critical patent/JP6607999B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Selective Calling Equipment (AREA)

Description

以下の説明は、音声要請に対応する情報提供のためのメディア選択に関する技術であって、より詳細には、音声要請に対する返答および/または付加情報の提供時に、音声要請および/または応答情報に基づいて応答情報の出力のためのメディアを自動で選択して伝達する情報提供方法とシステム、および情報提供方法をコンピュータに実行させるコンピュータプログラムとその記録媒体に関する。
ホームネットワークサービスの人工知能スピーカのように音声を基盤として動作するインタフェースは、マイクでユーザの音声要請を受信し、音声要請に対応する応答情報を提供するために返答音声を合成してスピーカから提供したり、応答情報が含むコンテンツのオーディオを出力したりする。例えば、特許文献1は、ホームメディアデバイスおよびこれを利用したホームネットワークシステムと方法に関する技術であって、ホームネットワークサービスにおいて移動通信網の他にWi-Fiのような第2通信網を利用してホームネットワークサービスを提供することが可能であり、ホーム内の複数のマルチメディア機器を、ユーザのボタン操作なく音声命令に基づいてマルチコントロールすることができる技術について開示している。
しかし、このような従来技術では、応答情報の聴覚的出力だけを活用したり、聴覚的に出力される応答情報と同じ内容を特定の機器(一例として、ユーザのスマートフォン)のディスプレイにさらに出力するように予め指定されているメディアから応答情報を出力するだけで、音声要請および/または応答情報に適した出力メディアを選択することができないという問題を抱えている。
韓国公開特許第10−2011−0139797号
人工知能スピーカのような電子機器が含む音声基盤インタフェースに対応するメインメディアだけでなく、電子機器と連動する他の電子機器が含むサブメディア(一例として、スマートフォン、IPTV、スマート冷蔵庫などが含むディスプレイ)のような複数のメディアに関する情報を管理し、音声基盤インタフェースで受信された音声要請とこのような音声要請に対応する応答情報のうちの少なくとも1つに基づき、複数のメディアのうちから応答情報の出力のためのメディアを自動で選択して応答情報を出力することができる情報提供方法と情報提供システム、および情報提供方法をコンピュータに実行させるコンピュータプログラムとその記録媒体を提供する。
音声基盤インタフェースを含む電子機器の情報提供方法であって、前記音声基盤インタフェースに対応するメインメディアおよび前記電子機器と連動して視覚的出力が可能な他の電子機器が含むサブメディアを含む複数のメディアに関する情報を管理する段階、前記音声基盤インタフェースでユーザからの音声要請を受信する段階、前記音声要請に対応する応答情報を取得する段階、前記音声要請および前記応答情報のうちの少なくとも1つに基づき、前記複数のメディアのうちから前記応答情報の出力のための少なくとも1つのメディアを決定する段階、および前記決定された少なくとも1つのメディアから前記応答情報が出力されるように、前記応答情報を前記決定された少なくとも1つのメディアに伝達する段階を含むことを特徴とする、情報提供方法を提供する。
前記情報提供方法をコンピュータに実行させるコンピュータプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体を提供する。
前記情報提供方法をコンピュータに実行させるコンピュータプログラムを提供する。
電子機器であって、音声基盤インタフェース、およびコンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、前記音声基盤インタフェースに対応するメインメディアおよび前記電子機器と連動して視覚的出力が可能な他の電子機器が含むサブメディアを含む複数のメディアに関する情報を管理し、前記音声基盤インタフェースでユーザからの音声要請を受信し、前記音声要請に対応する応答情報を取得し、前記音声要請および前記応答情報のうちの少なくとも1つに基づいて前記複数のメディアのうちから前記応答情報の出力のための少なくとも1つのメディアを決定し、前記決定された少なくとも1つのメディアから前記応答情報が出力されるように、前記応答情報を前記決定された少なくとも1つのメディアに伝達することを特徴とする、電子機器を提供する。
人工知能スピーカのような電子機器が含む音声基盤インタフェースに対応するメインメディアだけではなく、電子機器と連動する他の電子機器が含むサブメディア(一例として、スマートフォン、IPTV、スマート冷蔵庫などが含むディスプレイ)のような複数のメディアに関する情報を管理し、音声基盤インタフェースに受信された音声要請とこのような音声要請に対応する応答情報のうちの少なくとも1つに基づき、複数のメディアのうちから応答情報の出力のためのメディアを自動で選択して応答情報を出力することができる。
本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。 本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の他の例を示した図である。 本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、情報提供方法の例を示したフローチャートである。 本発明の一実施形態における、メディアに関する情報の例を示した図である。 本発明の一実施形態における、メディアを決定する方法の例を示したフローチャートである。 本発明の一実施形態における、ユーザの位置によってメディアを決定する例を示した図である。 本発明の一実施形態における、複数のユーザに情報を提供する例を示した図である。 本発明の一実施形態における、応答情報の取得方法の例を示したフローチャートである。
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態に係る情報提供システムは、音声を基盤として動作するインタフェースを提供する電子機器によって実現されてよい。電子機器は、このような音声要請を直接に処理して応答情報を生成するか、インタフェースコネクトを介して連結する外部プラットフォームで認識および分析して音声要請を処理してよい。例えば、外部プラットフォームは、電子機器からユーザの音声要請を受信し、受信した音声要請を分析し、ユーザの意図に適したクエリまたは該当のクエリに対応する応答情報を生成するクラウド人工知能プラットフォームを含んでよい。このとき、電子機器は、音声要請および/または応答情報に基づき、応答情報を出力するためのメディアを選択してよい。このようなメディアは、電子機器が含む音声基盤インタフェースに対応するメインメディアおよび電子機器と連動して視覚的出力が可能な他の電子機器が含むサブメディアを含んでよい。一例として、サブメディアは、他の電子機器が含むディスプレイや、他の電子機器にインストールされた特定のアプリケーションに対応してよい。より具体的な例として、応答情報を出力するためのメディアとして他の電子機器のディスプレイが決定された場合、応答情報は、他の電子機器のディスプレイから出力されてよい。他の例として、応答情報を出力するためのメディアとして他の電子機器にインストールされた特定のアプリケーションが決定された場合、応答情報は、アプリケーションが提供するサービスと連動して出力されてよい。例えば、「近くの美味しい店を探して」というユーザの音声要請に対し、「美味しい店A」に関する情報が応答情報として取得されたとする。このとき、「美味しい店A」に関する情報は、電子機器が含む音声基盤インタフェースによって聴覚的に出力されてよい。さらに、「美味しい店A」に関する情報は、電子機器と連動する他の電子機器のディスプレイからも視覚的に出力されてよい。これだけでなく、「美味しい店A」に関する情報は、他の電子機器にインストールされた地図アプリケーションと連動し、地図上に「美味しい店A」の位置情報が表示される形態で他の電子機器のディスプレイから出力されてもよい。このようなアプリケーションは、地図アプリケーションだけではなく、音声要請および/または応答情報に応じて、スケジュール管理のためのスケジュールアプリケーション、検索アプリケーション、翻訳アプリケーション、ゲームアプリケーション、メッセンジャーアプリケーション、ストアアプリケーションなどのような既存の多様なアプリケーションを含んでもよいことは、当業者であれば容易に理解することができるであろう。
本発明の実施形態に係る情報提供方法は、上述した電子機器によって実行されてよい。このとき、電子機器には、本発明の一実施形態に係るコンピュータプログラムがインストールおよび駆動されてよく、電子機器は、駆動するコンピュータプログラムの制御にしたがって本発明の一実施形態に係る情報提供方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合し、情報提供方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納されてよい。
図1は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内の機器を連結して制御する技術において、音声基盤インタフェース(一例として、マイクとスピーカ)を含む電子機器100が、マイクに入力されたユーザ110の発話「電気を消して」121によって受信される音声要請を認識および分析し、「リビングの電気を消しましょうか?」122のような応答情報をスピーカから出力する例を示している。さらに、図1の実施形態では、応答情報に対応したユーザ110の発話「うん」123によって受信される音声要請を認識および分析し、電子機器100と内部ネットワークを介して連動する宅内照明機器130のライト電源を制御する例を示している。
ここで、宅内の機器は、上述した宅内照明機器130の他にも、IPTV、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット清掃機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器などのように、オンライン上で連結して制御されることのできる多様な機器を含んでよい。また、内部ネットワークは、イーサネット(Ethernet)(登録商標)、HomePNA、IEEE 1394のような有線ネットワーク技術、ブルートゥース(Bluetooth)(登録商標)、UWB(ultra Wide Band)、ジグビー(ZigBee)(登録商標)、Wireless 1394、Home RFのような無線ネットワーク技術などが活用されてよい。
電子機器100は、宅内の機器のうちの1つであってよい。例えば、電子機器100は、宅内に備えられた人工知能スピーカやロボット清掃機などのような機器のうちの1つであってよい。また、電子機器100は、スマートフォン(smart phone)、携帯電話、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットPCなどのようなユーザ110のモバイル機器であってもよい。このように、電子機器100は、ユーザ110の音声要請を受信し、宅内の機器を制御するために宅内の機器と連結可能な機能を備える機器であれば、特に制限されることはない。
応答情報は、図1の実施形態のように、基本的には音声基盤インタフェースに対応するメインメディア(一例として、スピーカ)から出力されてよいが、上述したように、本発明の実施形態では、応答情報が多様なメディアから出力されてよく、電子機器100は、音声要請および/または応答情報に基づいて応答情報が出力されるメディアを決定してよい。例えば、図1は、IPTV140とユーザ110のモバイル機器150をさらに示している。この場合、応答情報は、IPTV140やモバイル機器150のディスプレイから視覚的にユーザ110に出力されてもよい。このとき、電子機器100は、応答情報の出力のためのメディアを決定するだけではなく、聴覚的出力と視覚的出力の効率性に基づいて応答情報の出力のためのメディアを決定してよい。
図2は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。図2は、音声基盤インタフェースを含む電子機器100がユーザ110の発話「今日の天気」210を認識および分析し、外部ネットワークを介して外部サーバ220から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のように音声で合成して出力する例を示している。例えば、外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのようなネットワークのうちの1つ以上の任意のネットワークを含んでよい。
図2の実施形態でも、電子機器100は、宅内の機器のうちの1つであるか、ユーザ110のモバイル機器のうちの1つであってよく、ユーザ110の音声要請を受信して処理するための機能と、外部ネットワークを介して外部サーバ220と通信して外部サーバ220が提供するサービスやコンテンツをユーザ110に提供するための機能を備える機器であれば、特に制限されることはない。このように、本発明の実施形態に係る電子機器100は、音声基盤のインタフェースを利用してユーザ110の発話した音声要請を受信し処理することのできる機器であれば、特に制限されることはない。例えば、電子機器100は、ユーザの音声要請を直接に認識および分析して音声要請を処理してもよいが、実施形態によっては、電子機器100と連係する外部のプラットフォーム(一例として、上述したクラウド人工知能プラットフォーム)で音声要請を処理してもよい。
このとき、電子機器100は、ユーザの音声要請に対応する応答情報を出力するためのメディアを、音声要請および/または応答情報に基づいて自動で決定してよい。図2では、電子機器100が、「今日の天気は・・・」230のように応答情報を聴覚的に出力すると同時に、IPTV140のディスプレイにも視覚的に共に出力する例を示している。このために、電子機器100は、応答情報の出力が可能な複数のメディアに関する情報を管理してよく、音声要請および/または応答情報に基づき、複数のメディアのうちから応答情報を出力するための少なくても1つのメディアを選択して応答情報を伝達してよい。
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図3は、電子機器310、クラウド人工知能プラットフォーム320、およびコンテンツ・サービス330を示している。
一例として、電子機器310は、宅内に備えられた機器を意味してよく、少なくとも上述したような電子機器100を含んでよい。このような電子機器310や電子機器310にインストールおよび駆動されるアプリケーション(以下、アプリ)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係してよい。ここで、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリの開発のためのSDK(Software Development Kit)および/または開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリが、クラウド人工知能プラットフォーム320が提供する機能を活用することのできるAPI(Application Program Interface)を提供してよい。具体的な例として、開発者が、インタフェースコネクト340が提供するSDK(Software Development Kit)および/または開発文書を利用して開発した機器やアプリは、インタフェースコネクト340が提供するAPIを利用してクラウド人工知能プラットフォーム320が提供する機能を活用することが可能になる。
ここで、クラウド人工知能プラットフォーム320は、音声基盤のサービスを提供するための機能を提供してよい。例えば、クラウド人工知能プラットフォーム320は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声にしたがって適した音声を出力するために適切な対話を決定するための対話処理モジュール323、受信した音声に適した機能を推薦するための推薦モジュール324、人工知能がデータ学習に基づいて文章単位で言語を翻訳するように支援するニューラル機械翻訳(Neural Machine Translation:NMT)325などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。
例えば、図1および図2の実施形態において、電子機器100が、ユーザ110の音声要請を、インタフェースコネクト340から提供されるAPIを利用してクラウド人工知能プラットフォーム320に送信したとする。この場合、クラウド人工知能プラットフォーム320は、受信した音声要請を、上述したモジュール321〜325を活用して認識および分析してよく、受信した音声入力にしたがって適切な返答音声を合成して提供したり、適切な動作を推薦したりしてよい。
また、拡張キット350は、第3者コンテンツ開発者または会社が、クラウド人工知能プラットフォーム320を基盤として新たな音声基盤機能を実現することのできる開発キットを提供してよい。例えば、図2の実施形態において、電子機器100は、受信したユーザ110の音声入力を外部サーバ220に送信し、外部サーバ220は、拡張キット350から提供されるAPIに基づいてクラウド人工知能プラットフォーム320に音声入力を送信したとする。この場合、上述と同じように、クラウド人工知能プラットフォーム320は、受信した音声入力を認識および分析した後、適切な返答音声を合成して提供したり、音声入力によって処理されなければならない機能に関する推薦情報を外部サーバ220に提供したりしてよい。一例として、図2において、外部サーバ220は、音声要請「今日の天気」をクラウド人工知能プラットフォーム320に送信し、クラウド人工知能プラットフォーム320から、音声要請「今日の天気」の認識によって抽出されたキーワード「今日の」および「天気」を受信したとする。この場合、外部サーバ220は、キーワード「今日の」および「天気」に基づいて「今日の天気は・・・」のようなテキスト情報を生成し、クラウド人工知能プラットフォーム320に生成されたテキスト情報を再び送信してよい。このとき、クラウド人工知能プラットフォーム320は、テキスト情報を音声で合成して外部サーバ220に提供してよい。外部サーバ220は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ110から受信された音声要請「今日の天気」が処理されてよい。
図4は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ220やクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
電子機器410とサーバ420は、メモリ411、421、プロセッサ412、422、通信モジュール413、423、および入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータで読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROMとディスクドライブのような永久大容量記憶装置は、メモリ411、421とは区分される別の永久記憶装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電気機器410にインストールされ、特定サービスの提供のために電子機器410で駆動するアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータで読み取り可能な記録媒体からロードされてよい。このような別のコンピュータで読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配信するファイル配信システムがネットワーク430を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
プロセッサ412、422は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421または通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えば、プロセッサ412、422は、メモリ411、421のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよいし、電子機器410および/またはサーバ420が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412がメモリ411のような記録装置に格納されたプログラムコードにしたがって生成した要求が、通信モジュール413の制御にしたがってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423とネットワーク430を経て電子機器410の通信モジュール413を通じて電子機器410に受信されてもよい。例えば、通信モジュール413を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410がさらに含むことのできる格納媒体(上述した永久記憶装置)に格納されてよい。
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結するか、サーバ420が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってもよい。
また、他の実施形態において、電子機器410およびサーバ420は、図4の構成要素よりも少ないか多い構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器410は、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器410がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が電子機器410にさらに含まれるように実現されてよい。
本実施形態において、電子機器410は、ユーザの音声要請を受信するためのマイクおよび/または応答情報を聴覚的に出力するためのスピーカを入力/出力装置415として基本的に含んでよい。
図5は、本発明の一実施形態における、情報提供方法の例を示したフローチャートである。本発明の実施形態に係る情報提供方法は、上述した電子機器410のようなコンピュータ装置によって実行されてよい。このとき、電子機器410のプロセッサ412は、メモリ411が含むオペレーティングシステムのコードや、少なくとも1つのプログラムのコードによる制御命令を実行するように実現されてよい。ここで、プロセッサ412は、電子機器410に格納されたコードが提供する制御命令にしたがって電子機器410が図5の情報提供方法の含む段階510〜550を実行するように電子機器410を制御してよい。
段階510で、電子機器410は、音声基盤インタフェースに対応するメインメディアおよび電子機器410と連動して視覚的出力が可能な他の電子機器が含むサブメディアを含む複数のメディアに関する情報を管理してよい。このとき、電子機器410は、電子機器と連動して視覚的出力が可能な複数の互いに異なる電子機器が含む複数の互いに異なるサブメディアに関する情報を管理してよい。サブメディアは、一例として、他の電子機器のディスプレイや他の電子機器にインストールされたアプリケーションに対応してよい。一例として、電子機器410は、電子機器Aのディスプレイ、電子機器Aにインストールされた地図アプリケーション、電子機器Aにインストールされたスケジュールアプリケーション、電子機器Bのディスプレイ、電子機器Bにインストールされた検索アプリケーションなどのように宅内電子機器のうちでも視覚的出力が可能な電子機器に関する情報と、該当の電子機器が含むアプリケーションをそれぞれのサブメディアとして設定し、該当のサブメディアに関する情報を管理してよい。また、電子機器410は、電子機器410が含む音声基盤インタフェースに対応するメインメディアに関する情報も共に管理してよい。
段階520で、電子機器410は、音声基盤インタフェースでユーザからの音声要請を受信してよい。例えば、電子機器410は、電子機器410が含むマイクまたは電子機器410と連動するマイクのような音声入力装置で、ユーザの発話による音声要請を受信してよい。
段階530で、電子機器410は、音声要請に対応する応答情報を取得してよい。このとき、電子機器410は、音声要請を直接に認識および分析して音声要請に対応する応答情報を生成してもよいが、実施形態によっては、上述したクラウド人工知能プラットフォーム320のような外部プラットフォームから応答情報を取得してもよい。例えば、電子機器410は、受信した音声要請を外部プラットフォームに送信したとする。このとき、外部プラットフォームは、受信した音声要請を認識および分析して適切な応答情報を生成してよく、生成された応答情報を電子機器410に送信してよい。
応答情報とは、音声要請に対する返答であって、ユーザの意図を確認するための情報や、ユーザの意図に適した動作の処理を知らせるための情報、および/またはユーザの意図に基づいて検索された検索結果などのように多様な情報を含んでよい。例えば、「音楽Aをかけて」のようなユーザの音声要請に対する応答情報は、「音楽Aをかけます」のような動作の処理を知らせるための情報と共に、コンテンツ「音楽A」のオーディオ出力もさらに含んでよい。
段階540で、電子機器410は、音声要請および応答情報のうちの少なくとも1つに基づき、複数のメディアのうちから応答情報の出力のための少なくとも1つのメディアを決定してよい。言い換えれば、本発明の実施形態では、応答情報の出力のためのメディアが予め設定されているのではなく、音声要請および/または応答情報に基づいて多様なメディアのうちから選択されてよい。例えば、ユーザの発話によって認識される音声要請に基づき、応答情報を音声で合成して聴覚的に出力するだけではなく、その類型に応じて、聴覚的出力のためのメディア、視覚的出力のためのメディア、または視聴覚的出力のためのメディアなどを選択し、選択されたメディアから応答情報を出力してよい。このようなメディアの選択は、音声要請および/または応答情報から把握される聴覚的出力および視覚的出力の効率性を基盤としてよい。
段階550で、電子機器410は、決定された少なくとも1つのメディアから応答情報が出力されるように、応答情報を決定された少なくとも1つのメディアに伝達してよい。このように、本発明の実施形態によると、応答情報が視覚的に伝達される方が効率的なときには視覚的出力が可能なメディアを、応答情報が聴覚的に伝達される方が効率的なときには聴覚的出力が可能なメディアを選択するといったように、選択的なメディアの選択によって応答情報をユーザに提供することが可能となる。
図6は、本発明の一実施形態における、メディアに関する情報の例を示した図である。図6の表600は、電子機器410と連動する電子機器を識別するための機器項目610、他の電子機器の宅内位置を識別するための位置項目620、他の電子機器が含むサブメディアを識別するための出力メディア項目630、サブメディアに関する情報を含む詳細項目640、およびサブメディアがどのような情報類型と関連するかを識別するための情報類型項目650を含む例を示している。電子機器410は、表600に示すように、宅内で連動される他の電子機器に関する情報と共に、該当となる他の電子機器の出力メディアに関する情報を管理してよい。また、このような情報は、音声要請および/または応答情報の情報類型と予め連結されてよい。例えば、ユーザの音声要請や対応する応答情報が「場所」と関連する情報類型として分析される場合、電子機器410は、表600に基づき、電子機器Aの地図アプリケーションを応答情報の出力のためのメディアとして決定してよい。この場合、応答情報は、電子機器Aに伝達されてよく、電子機器Aは、電子機器Aの地図アプリケーションから応答情報に対応する地図サービスをユーザに提供してよい。他の例として、応答情報は、地図アプリケーションに地図サービスを提供するサービスサーバに伝達されてよい。この場合、サービスサーバは、電子機器Aにインストールされた地図アプリケーションで地図サービスを提供するようになる。このために、電子機器410は、サービスサーバにアクセスするための情報およびサービスサーバがユーザの電子機器Aを識別することができるようなユーザのアカウントなどのような情報をさらに管理してもよい。例えば、電子機器410は、表600で地図アプリケーションと関連付けてさらに格納するURLを利用してサービスサーバにアクセスしてよく、ユーザのアカウントと共に応答情報を伝達することにより、サービスサーバがユーザのアカウントに基づいて電子機器Aにインストールされた地図アプリケーションで応答情報と関連する地図サービスを提供できるようにしてよい。
図7は、本発明の一実施形態における、メディアを決定する方法の例を示したフローチャートである。図7の段階710および720は、図5の段階540に含まれて実行されてよい。
段階710で、電子機器410は、音声要請の類型および応答情報の類型のうちの少なくとも1つの情報類型を分析してよい。例えば、音声要請の類型は、音声要請の主題(一例として、位置、場所、交通、検索、歌手、映画など)に基づいて分類されてよく、応答情報の類型は、応答情報が含むコンテンツの表現形式(一例として、テキスト、イメージ、動画、フラッシュ(flash)など)に基づいて分類されてよい。
段階720で、電子機器410は、分析された情報類型に基づき、複数のメディアのうちの少なくとも1つのメディアを、応答情報を出力するためのメディアとして選択してよい。例えば、「場所」に対する音声要請に対応し、テキスト、イメージ、および座標(または住所)を含むウェプページが応答情報として取得された場合が考慮される。この場合、電子機器410は、テキストを音声で合成して出力するためのメインメディア、イメージを視覚的に出力するためのディスプレイに対応する第1サブメディア、および座標(または住所)を利用して地図サービスを提供するためのアプリケーションに対応する第2サブメディアの3つのメディアを選択し、3つのメディアそれぞれに取得した応答情報を伝達してよい。実施形態によっては、電子機器410は、応答情報をそれぞれのメディアで活用することのできる情報に加工してから伝達してよい。例えば、電子機器410は、応答情報として取得したウェプページから座標(または住所)を抽出し、抽出された座標(または住所)を含む地図サービスの要請を応答情報として地図アプリケーションに対応する第2サブメディアに送信してよい。
また、上述した例を参照しながら説明したように、決定された少なくとも1つのメディアは、他の電子機器のディスプレイに対応するサブメディアを含んでよい。この場合、電子機器410は、段階550で、応答情報が含む視覚情報が他の電子機器のディスプレイから出力されるように、視覚情報を他の電子機器に送信してよい。例えば、電子機器410は、ウェプページの例において、ウェプページが含むイメージや動画を他の電子機器に送信してよい。また、電子機器410は、ウェプページ自体を他の電子機器に送信してもよい。
また、決定された少なくとも1つのメディアは、他の電子機器にインストールされたアプリケーションに対応するサブメディアを含んでもよい。この場合、電子機器410は、段階550で、応答情報がアプリケーションで提供されるサービスと連係して他の電子機器から提供されるように、応答情報を他の電子機器またはアプリケーションを経てサービスを提供するサービスサーバに送信してもよい。このような実施形態については、上述で詳しく説明したとおりである。
また、上述したように、応答情報を重複的または分散的に出力するために複数のメディアが選択されてもよい。例えば、電子機器410は、段階550で、応答情報が聴覚的に出力されるように音声基盤インタフェースに対応するメインメディアに応答情報を送信し、応答情報が視覚的にさらに出力されるように他の電子機器に対応する第1サブメディアおよび他の電子機器にインストールされたアプリケーションに対応する第2サブメディアのうちの1つのサブメディアに応答情報をさらに送信してよい。上述したように、応答情報は、それぞれのメディアに適するように加工されてから分散して提供されてもよい。図2の実施形態では、「今日の天気は・・・」230のように電子機器100のスピーカから聴覚的情報を出力し、IPTV140から視覚的情報をさらに出力する例について説明した。
一方、本発明の一実施形態に係る電子機器410は、応答情報の他に、応答情報と関連する追加情報をさらに提供してもよい。このために、電子機器410は、段階530で、あるいは段階530の後に、応答情報と関連する追加情報を取得してよい。一例として、電子機器410は、応答情報はメインメディアから聴覚的に出力し、追加情報は視覚的に出力されるように、他の電子機器に対応する第1サブメディアおよび他の電子機器にインストールされたアプリケーションに対応する第2サブメディアのうちの1つのサブメディアに追加情報をさらに送信してよい。実施形態によっては、電子機器410は、応答情報の類型に応じて応答情報を出力するためのメディアを選択して伝達し、追加情報の類型に応じて追加情報を出力するためのメディアを別に選択して伝達してもよい。例えば、ユーザが映画情報を音声で要請した場合、電子機器410は、該当の映画に関するテキスト情報を音声で合成してメインメディアから聴覚的に出力し、上映スケジュールや予約リンクのような追加情報を他の電子機器のディスプレイのような視覚情報伝達メディアから視覚的に出力してよい。他の例として、ユーザが歌手情報を音声で要請した場合、電子機器410は、該当の歌手に関するテキスト情報を音声で合成してメインメディアから聴覚的に出力し、コンサート情報やコンサートチケットの前売りリンク、または新たに発売されたアルバムに関する情報やアルバム購入サイトリンクを他の電子機器のディスプレイのような視覚情報伝達メディアから視覚的に出力してよい。
実施形態によっては、音声要請に対する複数の応答結果が存在する場合、音声要請に対して最も関連性の高い応答情報を音声で合成してメインメディアから聴覚的に出力し、応答情報の全体リストを他の電子機器のディスプレイのような視覚情報伝達メディアから視覚的に出力してもよい。この場合、音声要請に対して最も関連性の高い応答情報を除いた残りの応答情報が追加情報となってよい。
応答情報や追加情報は広告をさらに含んでよく、広告だけが別途で他のメディアから出力されてもよい。例えば、応答情報はメインメディアから聴覚的に出力され、広告はサブメディアから視覚的に出力される状況が考えられる。
一方、ユーザの位置と他の電子機器との位置間に基づいてメディアが決定されてもよい。
図8は、本発明の一実施形態における、ユーザの位置によってメディアを決定する例を示した図である。上述した図2では、聴覚的情報を電子機器100から出力すると同時に、視覚的情報をIPTV140から出力する例について説明した。一方、図6を参照しながら説明したように、視覚的情報の出力が可能な多様な電子機器が存在することもある。図8では、視覚的情報の出力が可能なIPTV140とモバイル機器150のうち、ユーザ110からより近くに位置するモバイル機器150のメディアを選択する例を示している。
例えば、電子機器100は、複数のメディアに対応して電子機器100と連動する、複数の互いに異なる電子機器の位置を管理してよい。図6の表600は、それぞれの電子機器の位置が管理される例について説明している。このとき、宅内の電子機器の位置は、多様な方式によって設定されてよい。例えば、このような位置は、ユーザ110や管理者によって電子機器100に入力および設定されてもよく、電子機器100が他の電子機器と通信するために送受信する信号の強度などのような周知の位置測位技術を活用して測定されてもよい。特に、モバイル機器150の場合には、その位置が位置測位を活用して動的に測定されるようになる。このとき、電子機器100は、ユーザ110の位置と複数の他の電子機器の位置に基づいて測定される、ユーザ110と複数の他の電子機器との距離間をさらに利用して少なくとも1つのメディアを決定してよい。このとき、ユーザ110の位置は、ユーザ110の発話を基盤として測定されてよい。例えば、電子機器100は、音声基盤のインタフェースが含む複数のマイクに入力された音声入力の位相変化(phase shift)を基盤として音声入力と関連する位置情報を生成してよく、生成された位置情報をユーザ110の位置として決定してよい。複数のマイクに入力される同じ音信号の位相差を利用して音信号の発生位置を測定する技術は、ビームフォーミング技術のような周知技術の適用が可能であることは、当業者であれば容易に理解することができるであろう。この場合、電子機器100は、ユーザ110の位置と他の電子機器の位置に基づき、ユーザ110から最も近くに位置する他の電子機器に応答情報を伝達してよい。例えば、図8の実施形態では、視覚的出力が可能なIPTV140とモバイル機器150のうち、ユーザ110から最も近い位置に存在するモバイル機器150に応答情報が伝達される様子を示している。
一方、複数のユーザが存在する実施形態も考えられる。
図9は、本発明の一実施形態における、複数のユーザに情報を提供する例を示した図である。1つの空間内に複数のユーザ910および920が存在している場合が考えられる。このとき、電子機器100は、周辺に位置する複数のユーザ910および920を認識してよい。ユーザの認識は、ユーザの音声を基盤として識別されてよい。このとき、電子機器100は、複数のユーザのうちの少なくとも1人のユーザによって識別されるジェスチャートリガ、または複数のユーザそれぞれに対して予め設定された主題別の選好度に基づいて複数のユーザのうちから少なくとも1人のユーザを選定してよく、選定された少なくとも1人のユーザと連係するメディアを応答情報の出力のためのメディアとして選択してよい。
例えば、図9は、第1ユーザ910の発話「歌手A」930に対応し、電子機器100が「歌手A」に関する情報「歌手Aは・・・」をメインメディアで聴覚的に提供する例を示している。このとき、電子機器100は、「歌手A」に関する追加情報(一例として、コンサートのスケジュールおよびコンサートチケットの前売りリンク)をさらに取得してよく、このような追加情報を出力するための追加メディアをさらに選択してよい。この場合、電子機器100は、複数のユーザ910および920のうちで特定のジェスチャーを示したユーザ、または「歌手A」に対して特定の選好度をもっているユーザを選択してよい。図9では、第1ユーザ910が発話したにもかかわらず、第2ユーザ920と連係するメディア(モバイル機器950および960のうち、第2ユーザ920と連係するモバイル機器960が含むメディア)に追加情報が提供される例を示している。
ジェスチャートリガとは、手を上げるなどの行為のように予め設定されたジェスチャーを意味してよい。例えば、電子機器100は、カメラに入力されるイメージを分析することにより、予め設定されたジェスチャーを示したユーザを選択してよい。他の例として、電子機器100は、モバイル機器960を握っている方の手を上げる行為を、モバイル機器960から受信されるセンサの出力値を基盤として認識し、第2ユーザ920を選択してもよい。
一方、主題別の選好度は、応答情報と関連する主題に対するユーザの選好度を含んでよい。このために、電子機器100は、主題別の選好度に関する情報をユーザ別に管理してよい。このような選好度情報は、ユーザが送受信するインスタントメッセージや、SNSにアップロードする情報、ユーザが好むチャンネルや放送プログラムなどのような既存の情報を分析して予め設定されてよい。例えば、「歌手A」に対する音声要請が第1ユーザ910によってなされたが、第2ユーザ920が「歌手A」に対して高い選好度をもつ場合、追加情報は、第2ユーザ920のモバイル機器960に伝達されるようになる。
図10は、本発明の一実施形態における、応答情報の取得方法の例を示したフローチャートである。図10の段階1010〜1030は、図5を参照しながら説明した段階530に含まれて実行されてよい。
段階1010で、電子機器410は、音声要請を電子機器とインタフェースコネクトを介して連結するクラウド人工知能プラットフォームに送信してよい。ここで、クラウド人工知能プラットフォームとインタフェースコネクトは、図3を参照しながら説明したクラウド人工知能プラットフォーム320およびインタフェースコンテンツ340にそれぞれ対応してよい。
段階1020で、電子機器410は、クラウド人工知能プラットフォームで音声要請を分析して生成されたクエリまたはクエリに対応する応答情報を受信してよい。応答情報を受信する場合、電子機器410は、受信した応答情報を利用して段階540を実行してよい。これに対し、クエリを受信する場合、電子機器410は、段階1030を実行してよい。
段階1030で、電子機器410は、クエリが受信された場合、ネットワークを介してクエリに対応する応答情報を収集してよい。この後、電子機器410は、収集された応答情報を利用して段階540を実行してよい。
以上のように、本発明の実施形態によると、人工知能スピーカのような電子機器が含む音声基盤インタフェースに対応するメインメディアだけではなく、電子機器と連動する他の電子機器が含むサブメディア(一例として、スマートフォン、IPTV、スマート冷蔵庫などが含むディスプレイ)のような複数のメディアに関する情報を管理し、音声基盤インタフェースに受信された音声要請とこのような音声要請に対応する応答情報のうちの少なくとも1つに基づき、複数のメディアのうちから応答情報の出力のためのメディアを自動で選択して応答情報を出力することができる。また、応答情報を聴覚的および/または視覚的に出力するだけではなく、選択されたメディアが提供するサービス(一例として、スマートフォンにインストールされたアプリケーションで提供するサービス)と連係するか、または応答情報および応答情報と関連する追加情報を互いに異なるメディアで提供することにより、情報の提供以後に発生し得る後続行動に容易に連結させることができる。さらに、応答情報をサブメディアに提供する場合にも、複数のサブメディアのうちのどのサブメディアに応答情報を提供したらよいかを効率的に決定することができる。
上述したシステムまたは装置は、ハードウェア構成要素、ソフトウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。前記コンピュータで読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータによって実行可能なプログラムを継続して格納するものであっても、実行またはダウンロードのために臨時で格納するものであってもよい。また、媒体は、単一または複数個のハードウェアが結合した形態の多様な記録手段または格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されてはならず、ネットワーク上に分散存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含んでプログラム命令語が格納されるように構成されたものであってよい。また、他の媒体の例として、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給ないし流通するサイト、サーバなどで管理する記録媒体ないし格納媒体が挙げられてもよい。プログラム命令の例には、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
本発明の実施形態は、更に以下の課題を解決する。
応答情報を聴覚的および/または視覚的に出力するだけでなく、選択されたメディアが提供するサービス(一例として、スマートフォンにインストールされたアプリケーションが提供するサービス)と連係するか、または応答情報および応答情報と関連する追加情報を互いに異なるメディアから提供することにより、情報の提供後に発生し得る後続行動に容易に連結させることができる情報提供方法と情報提供システム、および情報提供方法をコンピュータに実行させるコンピュータプログラムとその記録媒体を提供する。
応答情報をサブメディアから提供する場合にも、複数のサブメディアのうちのどのサブメディアから応答情報を提供したらよいかを効率的に決定することができる情報提供方法と情報提供システム、および情報提供方法をコンピュータに実行させるコンピュータプログラムとその記録媒体を提供する。
本発明の実施形態は、更に以下の効果を達成する。
応答情報を聴覚的および/または視覚的に出力するだけでなく、選択されたメディアが提供するサービス(一例として、スマートフォンにインストールされたアプリケーションが提供するサービス)と連係するか、または応答情報および応答情報と関連する追加情報を互いに異なるメディアから提供することにより、情報の提供以後に発生し得る後続行動に容易に連結させることができる。
応答情報をサブメディアから提供する場合にも、複数のサブメディアのうちのどのサブメディアから応答情報を提供したらよいかを効率的に決定することができる。
100:電子機器
110:ユーザ
140:IPTV
150:モバイル機器
220:外部サーバ

Claims (20)

  1. 音声基盤インタフェースを含む電子機器の情報提供方法であって、
    前記音声基盤インタフェースに対応するメインメディアおよび前記電子機器と連動して視覚的出力が可能な他の電子機器が含むサブメディアを含む複数のメディアに関する情報を管理する段階、
    前記音声基盤インタフェースでユーザからの音声要請を受信する段階、
    前記音声要請に対応する応答情報を取得する段階、
    前記音声要請の主題に基づいて分類される前記音声要請の情報類型を分析し、前記分析された情報類型に応じ、前記複数のメディアのうちから前記応答情報の出力のための少なくとも1つのメディアを決定する段階であって、前記決定された少なくとも1つのメディアは、前記他の電子機器にインストールされたアプリケーションに対応するサブメディアを含む、段階、および
    前記決定された少なくとも1つのメディアから前記応答情報が出力されるように、前記応答情報を前記決定された少なくとも1つのメディアに伝達する段階
    を含み、
    前記応答情報の出力のための少なくとも1つのメディアを決定する段階は、
    前記電子機器の周辺に位置する複数のユーザを認識する段階、
    前記複数のユーザそれぞれに対して予め設定された主題別の選好度に基づき、前記複数のユーザのうちから少なくとも1人のユーザを選定する段階、および
    前記選定された少なくとも1人のユーザと連係するメディアを前記応答情報の出力のためのメディアとして選択する段階、
    を含むことを特徴とする、情報提供方法。
  2. 前記応答情報の出力のための少なくとも1つのメディアを決定する段階は、
    記応答情報の報類型をさらに分析する段階、および
    前記分析された応答情報の情報類型にさらに基づき、前記複数のメディアのうちの少なくとも1つのメディアを、前記応答情報を出力するためのメディアとして選択する段階
    を含むことを特徴とする、請求項1に記載の情報提供方法。
  3. 前記応答情報の情報類型は、前記応答情報が含むコンテンツの表現形式に基づいて分類されることを特徴とする、請求項2に記載の情報提供方法。
  4. 前記応答情報を前記決定された少なくとも1つのメディアに伝達する段階は、
    前記応答情報を伝達しようとするメディアに応じて前記応答情報を加工してから該当のメディアに送信することを特徴とする、請求項1に記載の情報提供方法。
  5. 前記決定された少なくとも1つのメディアは、前記他の電子機器のディスプレイに対応するサブメディアを含み、
    前記応答情報を前記決定された少なくとも1つのメディアに伝達する段階は、
    前記応答情報に含まれる視覚情報が前記他の電子機器のディスプレイから出力されるように、前記視覚情報を前記他の電子機器に送信することを特徴とする、請求項1に記載の情報提供方法。
  6. 前記応答情報を前記決定された少なくとも1つのメディアに伝達する段階は、
    前記応答情報が前記アプリケーションを経て提供されるサービスと連係して前記他の電子機器から提供されるように、前記応答情報を、前記他の電子機器または前記アプリケーションを経てサービスを提供するサービスサーバに送信することを特徴とする、請求項1に記載の情報提供方法。
  7. 前記応答情報を前記決定された少なくとも1つのメディアに伝達する段階は、
    前記応答情報が聴覚的に出力されるように、前記音声基盤インタフェースに対応するメインメディアに前記応答情報を送信する段階、および
    前記応答情報が視覚的にさらに出力されるように、前記他の電子機器に対応する第1サブメディアおよび前記他の電子機器にインストールされたアプリケーションに対応する第2サブメディアのうちの1つのサブメディアに前記応答情報をさらに送信する段階
    を含むことを特徴とする、請求項1に記載の情報提供方法。
  8. 前記応答情報と関連する追加情報を取得する段階
    をさらに含み、
    前記応答情報を前記決定された少なくとも1つのメディアに伝達する段階は、
    前記応答情報が聴覚的に出力されるように、前記音声基盤インタフェースに対応するメインメディアに前記応答情報を送信する段階、および
    前記追加情報が視覚的に出力されるように、前記他の電子機器に対応する第1サブメディアおよび前記他の電子機器にインストールされたアプリケーションに対応する第2サブメディアのうちの1つのサブメディアに前記追加情報をさらに送信する段階
    を含むことを特徴とする、請求項1に記載の情報提供方法。
  9. 前記複数のメディアに対応し、前記電子機器と連動する複数の互いに異なる電子機器の位置を管理する段階、および
    前記ユーザの位置を取得する段階
    をさらに含み、
    前記応答情報の出力のための少なくとも1つのメディアを決定する段階は、
    前記ユーザの位置と前記複数の他の電子機器の位置に基づいて測定される前記ユーザと前記複数の他の電子機器との距離間をさらに利用して前記少なくとも1つのメディアを決定することを特徴とする、請求項1に記載の情報提供方法。
  10. 前記応答情報の出力のための少なくとも1つのメディアを決定する段階は、
    前記複数のユーザのうちの少なくとも1人のユーザによって識別されるジェスチャートリガにさらに基づき、前記複数のユーザのうちから少なくとも1人のユーザを選定する段階、
    を含むことを特徴とする、請求項1に記載の情報提供方法。
  11. 前記音声要請に対応する応答情報を取得する段階は、
    前記音声要請を前記電子機器とインタフェースコネクトを介して連結するクラウド人工知能プラットフォームに送信する段階、
    前記クラウド人工知能プラットフォームで前記音声要請を分析して生成されたクエリまたは前記クエリに対応する応答情報を受信する段階、および
    前記クエリが受信された場合、ネットワークを介して前記クエリに対応する応答情報を収集する段階
    を含むことを特徴とする、請求項1に記載の情報提供方法。
  12. 請求項1〜10のうちのいずれか一項に記載の方法をコンピュータに実行させるコンピュータプログラム。
  13. 請求項1〜11のうちのいずれか一項に記載の方法をコンピュータに実行させるコンピュータプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体。
  14. 電子機器であって、
    音声基盤インタフェース、および
    コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    前記音声基盤インタフェースに対応するメインメディアおよび前記電子機器と連動して視覚的出力が可能な他の電子機器が含むサブメディアを含む複数のメディアに関する情報を管理し、
    前記音声基盤インタフェースでユーザからの音声要請を受信し、
    前記音声要請に対応する応答情報を取得し、
    前記音声要請の主題に基づいて分類される前記音声要請の情報類型を分析し、前記分析された情報類型に応じ、前記複数のメディアのうちから前記応答情報の出力のための少なくとも1つのメディアを決定し、前記決定された少なくとも1つのメディアは、前記他の電子機器にインストールされたアプリケーションに対応するサブメディアを含み、
    前記決定された少なくとも1つのメディアから前記応答情報が出力されるように、前記応答情報を前記決定された少なくとも1つのメディアに伝達し、
    前記応答情報の出力のための少なくとも1つのメディアを決定することは、
    前記電子機器の周辺に位置する複数のユーザを認識し、
    前記複数のユーザそれぞれに対して予め設定された主題別の選好度に基づき、前記複数のユーザのうちから少なくとも1人のユーザを選定し、および
    前記選定された少なくとも1人のユーザと連係するメディアを前記応答情報の出力のためのメディアとして選択する、 ことを特徴とする、電子機器。
  15. 前記少なくとも1つのプロセッサは、
    前記応答情報の出力のための少なくとも1つのメディアを決定するために、
    記応答情報の報類型をさらに分析し、
    前記分析された応答情報の情報類型さらに基づき、前記複数のメディアのうちの少なくとも1つのメディアを、前記応答情報を出力するためのメディアとして選択すること
    を特徴とする、請求項14に記載の電子機器。
  16. 前記応答情報の情報類型は、前記応答情報が含むコンテンツの表現形式に基づいて分類されることを特徴とする、請求項15に記載の電子機器。
  17. 前記少なくとも1つのプロセッサは、
    前記応答情報を前記決定された少なくとも1つのメディアに伝達するために、前記応答情報を伝達しようとするメディアに応じて前記応答情報を加工してから該当のメディアに送信すること
    を特徴とする、請求項14に記載の電子機器。
  18. 前記決定された少なくとも1つのメディアは、前記他の電子機器のディスプレイに対応するサブメディアを含み、
    前記少なくとも1つのプロセッサは、
    前記応答情報を前記決定された少なくとも1つのメディアに伝達するために、前記応答情報に含まれる視覚情報が前記他の電子機器のディスプレイから出力されるように、前記視覚情報を前記他の電子機器に送信すること
    を特徴とする、請求項14に記載の電子機器。
  19. 前記少なくとも1つのプロセッサは、
    前記応答情報を前記決定された少なくとも1つのメディアに伝達するために、前記応答情報が前記アプリケーションを経て提供されるサービスと連係して前記他の電子機器から提供されるように、前記応答情報を、前記他の電子機器または前記アプリケーションを経てサービスを提供するサービスサーバに送信すること
    を特徴とする、請求項14に記載の電子機器。
  20. 前記少なくとも1つのプロセッサは、
    前記応答情報を前記決定された少なくとも1つのメディアに伝達するために、
    前記応答情報が聴覚的に出力されるように、前記音声基盤インタフェースに対応するメインメディアに前記応答情報を送信し、
    前記応答情報が視覚的にさらに出力されるように、前記他の電子機器に対応する第1サブメディアおよび前記他の電子機器にインストールされたアプリケーションに対応する第2サブメディアのうちの1つのサブメディアに前記応答情報をさらに送信すること
    を特徴とする、請求項14に記載の電子機器。
JP2018094708A 2017-05-19 2018-05-16 音声要請に対応する情報提供のためのメディア選択 Active JP6607999B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0062113 2017-05-19
KR1020170062113A KR101968725B1 (ko) 2017-05-19 2017-05-19 음성요청에 대응하는 정보 제공을 위한 미디어 선택

Publications (2)

Publication Number Publication Date
JP2018195312A JP2018195312A (ja) 2018-12-06
JP6607999B2 true JP6607999B2 (ja) 2019-11-20

Family

ID=64274187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018094708A Active JP6607999B2 (ja) 2017-05-19 2018-05-16 音声要請に対応する情報提供のためのメディア選択

Country Status (4)

Country Link
US (1) US20200090654A1 (ja)
JP (1) JP6607999B2 (ja)
KR (1) KR101968725B1 (ja)
WO (1) WO2018212470A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200091278A (ko) 2019-01-22 2020-07-30 삼성전자주식회사 음성 입력과 관련된 비주얼 정보를 표시하는 방법 및 이를 지원하는 전자 장치
JP7412414B2 (ja) * 2019-03-22 2024-01-12 三菱重工サーマルシステムズ株式会社 制御装置、機器制御システム、制御方法及びプログラム
US11393465B2 (en) 2019-04-17 2022-07-19 Lg Electronics Inc. Artificial intelligence apparatus for speech interaction and method for the same
KR102276591B1 (ko) * 2019-08-12 2021-07-12 에스케이브로드밴드주식회사 음성 기반 추천서비스장치 및 그 장치의 동작 방법
WO2021084512A1 (en) * 2019-10-30 2021-05-06 Element Ai Inc. System and method for operating an event-driven architecture
KR20210068901A (ko) * 2019-12-02 2021-06-10 삼성전자주식회사 음성 기반 인터페이스를 제공하는 전자 장치 및 그의 제어 방법
KR20230027673A (ko) * 2021-08-19 2023-02-28 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20230029038A (ko) * 2021-08-23 2023-03-03 삼성전자주식회사 전자 장치 및 이의 제어 방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4408549B2 (ja) * 2000-10-12 2010-02-03 株式会社ユニバーサルエンターテインメント 情報表示システム
US8478880B2 (en) * 2007-08-31 2013-07-02 Palm, Inc. Device profile-based media management
KR20090084212A (ko) * 2008-01-31 2009-08-05 포항공과대학교 산학협력단 멀티모달 대화 인터페이스를 이용하는 홈 네트워크 제어시스템 및 그 방법
KR101064948B1 (ko) * 2008-12-10 2011-09-16 한국전자통신연구원 유비쿼터스 지능형 로봇을 이용한 홈 네트워크 서비스 방법
US20110239142A1 (en) * 2010-03-25 2011-09-29 Nokia Corporation Method and apparatus for providing content over multiple displays
US9092516B2 (en) * 2011-06-20 2015-07-28 Primal Fusion Inc. Identifying information of interest based on user preferences
JP6180072B2 (ja) * 2011-08-24 2017-08-16 サターン ライセンシング エルエルシーSaturn Licensing LLC 表示装置、表示システム、及び表示方法
US10133546B2 (en) * 2013-03-14 2018-11-20 Amazon Technologies, Inc. Providing content on multiple devices
MX370927B (es) * 2013-06-05 2020-01-03 Interdigital Ce Patent Holdings Metodo y aparato para distribucion de contenido por medio de visualizacion multipantalla.
JP6503557B2 (ja) * 2014-03-03 2019-04-24 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
KR20150103586A (ko) * 2014-03-03 2015-09-11 삼성전자주식회사 음성 입력을 처리하는 방법 및 이를 수행하는 전자 장치
KR20160071732A (ko) * 2014-12-12 2016-06-22 삼성전자주식회사 음성 입력을 처리하는 방법 및 장치
CN104965426A (zh) * 2015-06-24 2015-10-07 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人控制系统、方法和装置
US9892732B1 (en) * 2016-08-12 2018-02-13 Paypal, Inc. Location based voice recognition system

Also Published As

Publication number Publication date
KR20180126946A (ko) 2018-11-28
KR101968725B1 (ko) 2019-04-12
JP2018195312A (ja) 2018-12-06
WO2018212470A1 (ko) 2018-11-22
US20200090654A1 (en) 2020-03-19

Similar Documents

Publication Publication Date Title
JP6607999B2 (ja) 音声要請に対応する情報提供のためのメディア選択
JP6731894B2 (ja) デバイス制御方法及び電子機器
JP2018190413A (ja) ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム
JP6752870B2 (ja) 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム
JP6567727B2 (ja) 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム
JP6947687B2 (ja) 情報提供方法、電子機器、コンピュータプログラム及び記録媒体
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
KR102209092B1 (ko) 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템
JP6716630B2 (ja) 情報を提供する装置、方法、コンピュータプログラムおよび記録媒体
KR101739976B1 (ko) Ir 신호를 학습하여 종속 전자 장치를 제어하거나 종속 전자 장치의 제어를 지원하기 위한 방법 및 장치
JP6681940B2 (ja) ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置
JP6920398B2 (ja) 人工知能機器における連続会話機能
JP2018180542A (ja) ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム
JP2019012506A (ja) 機械の自動活性のための方法及びシステム
JP6775563B2 (ja) 人工知能機器の自動不良検出のための方法およびシステム
CN111835866A (zh) 一种数据搜索方法、装置、系统、介质和物联网终端
KR102255844B1 (ko) 사용자의 위치 및 공간에 알맞은 정보를 능동적으로 제공하는 방법 및 장치
JP6713032B2 (ja) 雰囲気コントロールが可能な音源ミキシング方法およびシステム
KR102239223B1 (ko) 기계의 자동 활성을 위한 방법 및 시스템
JP2020022158A (ja) 音源フィルタリングのための方法およびシステム
CN117806587A (zh) 显示设备和多轮对话预料生成方法
KR20170004495A (ko) 리모컨 신호를 학습하여 리모컨 없이도 음성 명령만으로 다양한 전자 장치를 제어하거나 제어하도록 지원하기 위한 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191021

R150 Certificate of patent or registration of utility model

Ref document number: 6607999

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350