JP2019164345A - サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法 - Google Patents

サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法 Download PDF

Info

Publication number
JP2019164345A
JP2019164345A JP2019046536A JP2019046536A JP2019164345A JP 2019164345 A JP2019164345 A JP 2019164345A JP 2019046536 A JP2019046536 A JP 2019046536A JP 2019046536 A JP2019046536 A JP 2019046536A JP 2019164345 A JP2019164345 A JP 2019164345A
Authority
JP
Japan
Prior art keywords
module
user
information
processor
user terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019046536A
Other languages
English (en)
Other versions
JP7317529B2 (ja
Inventor
兌 九 金
Taegu Kim
兌 九 金
相 勇 朴
Sangyong Park
相 勇 朴
正 ウク 朴
Jungwook Park
正 ウク 朴
大 日 魯
Dale Noh
大 日 魯
東 鎬 張
Dongho Jang
東 鎬 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2019164345A publication Critical patent/JP2019164345A/ja
Application granted granted Critical
Publication of JP7317529B2 publication Critical patent/JP7317529B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】オーディオデータを認識して機能を実行するパスルールを生成する。【解決手段】サウンドデータを処理するシステムは、通信インターフェースと、通信インターフェースと接続された少なくとも一つのプロセッサと、プロセッサと接続された少なくとも一つのメモリーと、を含み、メモリーは、動作時、プロセッサが、通信インターフェースを介して第1外部装置からサウンドデータを受信し、サウンドデータで音声信号とノイズ信号を抽出し、音声信号をテキストデータに変更し、ノイズパターンを決定し、テキストデータとノイズパターンを用いてドメインを決定する命令語を記憶する。規則基盤モデル又は人工知能モデルはオーディオデータを入力値で用いて判断された結果であるパスルールを生成する。【選択図】図9

Description

本発明は、サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法に係り、より詳しくは、ユーザの音声又はノイズを含むサウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法に関する。
キーボードやマウスを用いた伝統的な入力方式に付加し、最近の電子装置は音声入力のような多様な入力方式をサポートする。例えば、スマートフォンやタブレットのような電子装置は音声認識サービスが実行された状態で入力されるユーザの音声を認識し、音声入力に対応する動作を実行するか、検索結果を提供する。
近年、音声認識サービスは自然語を処理する技術に基づいて発展しつつある。自然語を処理する技術はユーザ発話の意図を把握し、意図に当たる結果をユーザに提供する技術である。
また、自然語を処理する技術のうちの一つとして人工知能システムが用いられている。人工知能システムは既存のルール(rule)基盤のスマートシステムと異なり、機械が自ら学習して判断して利口になるシステムである。人工知能システムは使用するほど認識率が向上してユーザ趣向をより正確に理解するようになり、既存のルール基盤のスマートシステムは徐徐にディープランニング基盤の人工知能システムに取り替えられている。
人工知能技術は機械学習(例えば、ディープランニング)及び機械学習を活用した要素技術から構成される。
機械学習は入力データの特徴を自ら分類/学習するアルゴリズム技術であり、要素技術はディープランニングなどの機械学習アルゴリズムを活用して人間頭脳の認知、判断などの機能を模写する技術として、言語的理解、視覚的理解、推論/予測、知識表現、動作制御などの技術分野から構成される。
人工知能技術が応用される多様な分野は次の通りである。言語的理解は、人間の言語/文字を認識して応用/処理する技術として、自然語処理、機械翻訳、対話システム、質疑応答、音声認識/合成などを含む。視覚的理解は、事物を人間の視覚のように認識して処理する技術として、客体認識、客体追跡、映像検索、人間認識、場面理解、空間理解、映像改善などを含む。推論予測は、情報を判断して論理的に推論して予測する技術として、知識/確率基盤推論、最適化予測、選好基盤計画、推薦などを含む。知識表現は、人間の経験情報を知識データで自動化処理する技術として、知識構築(データ生成/分類)、知識管理(データ活用)などを含む。動作制御は、車の自律走行、ロボットの動きを制御する技術として、動き制御(航法、衝突、走行)、操作制御(行動制御)などを含む。
大韓民国特許出願10−2004−0053393A号公報
音声認識機能のような知能化サービスは音声を受信し、受信した音声の内容を認識して機能を実行する時、音声が受信される状況を考慮できずに機能が行われる。
本発明の多様な実施形態は、受信した音声の内容に対応する機能を実行する時、音声が受信される環境に対する情報を用いてユーザにより適合の機能を提供しようとする。
一実施形態によるシステムは、通信インターフェースと、前記通信インターフェースと作動的に接続された少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと作動的に接続された少なくとも一つのメモリーと、を含み、前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、前記通信インターフェースを介して第1外部装置からサウンドデータを受信し、自動音声認識モジュールの少なくとも一部を用いて前記サウンドデータで音声信号とノイズ信号を抽出し、前記音声信号をテキストデータに変更し、前記ノイズ信号の少なくとも一部に基づいてノイズパターンを決定し、前記テキストデータ及び前記ノイズパターンを用いてドメインを決定するように設定された命令語を記憶する。
一実施形態によるシステムの制御方法は、第1外部装置からサウンドデータを受信する動作と、前記サウンドデータで音声信号とノイズ信号を抽出する動作と、前記音声信号をテキストデータに変更する動作と、前記ノイズ信号の少なくとも一部に基づいてノイズパターンを決定する動作と、前記テキストデータと前記ノイズパターンを用いてドメインを決定する動作と、を含む。
本発明の一実施形態によれば、ユーザ端末はユーザの音声に対応する機能実行時、ユーザが位置した環境に対する情報を用いて機能を実行できる。
本発明の多様な実施形態によれば、ユーザ端末はユーザの音声に対応する機能実行時、ユーザの状況に対する情報を用いて機能に含まれた動作を変更できる。
本発明の多様な実施形態によれば、ユーザ端末はユーザの音声に対応する機能実行時、ユーザが位置した環境に対する情報を用いて追加的な機能を実行できる。
本発明の多様な実施形態による統合知能化システムを示す図面である。 本発明の一実施形態による統合知能化システムのユーザ端末を示すブロック図である。 本発明の一実施形態によるユーザ端末の知能型アプリを実行させることを示す図面である。 本発明の一実施形態による知能型サービスモジュールのコンテキストモジュールが現状を収集することを示す図面である。 本発明の一実施形態による知能型サービスモジュールの提案モジュールを示すブロック図である。 本発明の一実施形態による統合知能化システムの知能型サーバーを示すブロック図である。 本発明の一実施形態によるパスプランナーモジュール(path planner module)のパスルール(path rule)を生成する方法を示す図面である。 本発明の一実施形態による知能型サービスモジュールのペルソナモジュール(persona module)がユーザの情報を管理することを示す図面である。 一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて機能を実行する状況を説明する図面である。 一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて機能を実行する他の状況を説明する図面である。 一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて他の装置を制御する状況を説明する図面である。 一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いてパスルールを生成する状況を説明するフローチャートである。 一実施形態による知能化システムで用いられる学習モデルを生成する動作を図式化した図面である。 一実施形態による知能化システムで知能化サービスを実行する状況を説明する図面である。 一実施形態による知能化システムで知能化サービスを実行する他の状況を説明する図面である。 一実施形態による統合知能化システムでユーザ端末に入力されるオーディオデータを用いて知能化サービスを実行する状況を説明するフローチャートである。 多様な実施形態による、ネットワーク環境内の電子装置のブロック図である。
本文書に開示した多様な実施形態による電子装置は多様な形態の装置となる。電子装置は、例えば、携帯用通信装置(例えば、スマートフォン)、コンピューター装置、携帯用マルチメディア装置、携帯用医療機器、カメラ、ウェアラブル装置、サーバー又は家電装置のうちの少なくとも一つを含む。本文書の実施形態による電子装置は前述した機器に限定されない。
本文書の多様な実施形態及びここに用いた用語は、本文書に記載した技術を特定の実施形態に対して限定しようとするものではなく、当該実施形態の多様な変更、均等物、及び/又は代替物を含むと理解されなければならない。図面の説明と関連して類似の構成要素に対しては類似の参照符号を用いる。単数の表現は文脈上、明白に意図しない限り、複数の表現を含む。本文書において、‘‘A又はB’’、‘‘A及び/又はBのうちの少なくとも一つ’’、‘‘A、B又はC’’又は‘‘A、B及び/又はCのうちの少なくとも一つ’’などの表現は、共に羅列された項目のすべての可能な組合を含む。‘‘第1’’、‘‘第2’’、‘‘一番目’’又は‘‘二番目’’などの表現は当該構成要素を、順序又は重要度に構わずに修飾し、一つの構成要素を他の構成要素と区分するために用いるだけで当該構成要素を限定しない。どんな(例えば、第1構成要素が異なる(例えば、第2)構成要素に‘‘(機能的又は通信的に)接続され’’たり‘‘接続されて’’いると言及した時には、前記どんな構成要素が前記他の構成要素に直接的に接続されたり、他の構成要素(例えば、第3構成要素)を介して接続される。
以下、本文書の多様な実施形態が添付した図面を参照しながら詳しく説明する。
本発明の一実施形態を述べる前に、本発明の一実施形態が適用される統合知能化システムに対して説明する。
図1は、本発明の多様な実施形態による統合知能化システムを示す図面である。
図1を参照すれば、統合知能化システム10は、ユーザ端末100、知能型サーバー200、個人化情報サーバー300、提案サーバー400又は通信ネットワーク500を含む。
ユーザ端末100はユーザ端末100内部に記憶されたアプリ(app)(又は、アプリケーションプログラム(application program))(例えば、アラームアプリ、メッセージアプリ、写真(ギャラリー)アプリ等)を介してユーザに必要なサービスを提供する。例えば、ユーザ端末100はユーザ端末100内部に記憶された知能型アプリ(又は、音声認識アプリ)を介して他のアプリを実行して動作させる。ユーザ端末100の前記知能型アプリを介して前記他のアプリの実行して動作を実行させるためのユーザ入力を受信する。前記ユーザ入力は、例えば、物理的ボタン、タッチパッド、音声入力、遠隔入力などを介して受信される。一実施形態によれば、ユーザ端末100は携帯電話、スマートフォン、PDA(personal digital assistant)又はノートパソコンコンピューターなどのインターネットに接続可能な各種端末装置(又は、電子装置)が該当する。
一実施形態によれば、ユーザ端末100はユーザの発話をユーザ入力として受信する。ユーザ端末100はユーザの発話を受信し、前記ユーザの発話に基づいてアプリを動作させる命令を生成する。これにより、ユーザ端末100は前記命令を用いて前記アプリを動作させる。
知能型サーバー200は、通信網を介してユーザ端末100からユーザ音声入力(voice input)を受信してテキストデータ(text data)に変更する。他の実施形態では、知能型サーバー200は前記テキストデータに基づいてパスルール(path rule)を生成(又は、選択)する。前記パスルールはアプリの機能を実行するための動作(action)(又は、オペレーション(operation))に対する情報又は前記動作を実行するために必要なパラメーターに対する情報を含む。また、前記パスルールは前記アプリの前記動作の手順を含む。ユーザ端末100は前記パスルールを受信し、前記パスルールによってアプリを選択し、前記選択したアプリで前記パスルールに含まれた動作を実行させる。
本文書の‘‘パスルール(path rule)’’という用語は一般的に、電子装置がユーザによってリクエストされたタスクを実行するための状態のシーケンスを意味するが、これに制限されない。言い換えれば、パスルールは状態のシーケンスに対する情報を含む。前記タスクは、例えば、知能型アプリが提供するある動作(action)である。前記タスクは日程を生成するか、望む相手に写真を送信するか、天気情報を提供することを含む。ユーザ端末100は少なくとも一つ以上の状態(例えば、ユーザ端末100の動作状態)を順次に有することによって、前記タスクを実行する。
一実施形態によれば、パスルールは規則基盤モデル又は人工知能(artificial intelligent、AI)システムによって提供されたり、生成される。人工知能システムはルールベースドシステム(rule−based system)であり、神経網ベースシステム(neural network−based system(例えば、フィードフォワード神経網(feedforward neural network、FNN))、循環神経網(recurrent neural network、RNN)である。又は、前述したことの組合わせ又はこれと異なる人工知能システムである。一実施形態によれば、パスルールは予め定義されたパスルールの集合から選択されるか、ユーザのリクエストに応答してリアルタイムに生成される。例えば、人工知能システムは予め定義された複数のパスルールのうちの少なくとも1つのパスルールを選択するか、動的(又は、リアルタイム)でパスルールを生成する。また、ユーザ端末100はパスルールを提供するためにハイブリッドシステムを用いる。
一実施形態によれば、ユーザ端末100は前記動作を実行し、動作を実行したユーザ端末100の状態に対応する画面をディスプレーに表示する。他に例えば、ユーザ端末100は前記動作を実行し、動作を実行した結果をディスプレーに表示しないこともある。ユーザ端末100は、例えば、複数の動作を実行し、前記複数の動作の一部結果だけをディスプレーに表示する。ユーザ端末100は、例えば、最後の手順の動作を実行した結果だけをディスプレーに表示する。また、他に例えば、ユーザ端末100はユーザの入力を受信して前記動作を実行した結果をディスプレーに表示する。
個人化情報サーバー300は、ユーザ情報が記憶されたデータベースを含む。例えば、個人化情報サーバー300はユーザ端末100からユーザ情報(例えば、コンテキスト情報、アプリ実行など)を受信して前記データベースに記憶する。知能型サーバー200は通信網を介して個人化情報サーバー300から前記ユーザ情報を受信してユーザ入力に対するパスルールを生成する場合に用いる。一実施形態によれば、ユーザ端末100は通信網を介して個人化情報サーバー300からユーザ情報を受信してデータベースを管理するための情報として用いる。
提案サーバー400は端末内に機能、或いはアプリケーションの紹介又は提供される機能に対する情報が記憶されたデータベースを含む。例えば、提案サーバー400は個人化情報サーバー300からユーザ端末機100のユーザ情報を受信してユーザが用いることができる機能に対するデータベースを含む。ユーザ端末100は通信網を介して提案サーバー400から前記提供される機能に対する情報を受信してユーザに情報を提供する。
図2は、本発明の一実施形態による統合知能化システムのユーザ端末を示すブロック図である。
図2を参照すれば、ユーザ端末100は入力モジュール110、ディスプレー120、スピーカー130、メモリー140又はプロセッサ150を含む。ユーザ端末100はハウジングをさらに含み、前記ユーザ端末100の構成は前記ハウジングの内部に安着されたりハウジング上に(on the housing)位置する。ユーザ端末100は前記ハウジングの内部に位置した通信回路をさらに含む。ユーザ端末100は前記通信回路を介して外部サーバー(例えば、知能型サーバー200とデータ(又は、情報)を送受信する。
一実施形態による、入力モジュール110はユーザからユーザ入力を受信する。例えば、入力モジュール110は接続された外部装置(例えば、キーボード、ヘッドセット)からユーザ入力を受信する。他に例えば、入力モジュール110はディスプレー120と結合されたタッチスクリーン(例えば、タッチスクリーンディスプレー)を含む。また、他に例えば、入力モジュール110はユーザ端末100(又は、ユーザ端末100のハウジング)に位置したハードウェアキー(又は、物理的キー)を含む。
一実施形態によれば、入力モジュール110はユーザの発話を音声信号で受信するマイクを含む。例えば、入力モジュール110は発話入力システム(speech input system)を含み、前記発話入力システムを介してユーザの発話を音声信号で受信する。前記マイクは、例えば、ハウジングの一部分(例えば、第1部分)を介して露出される。
一実施形態による、ディスプレー120はイメージやビデオ、及び/又はアプリケーションの実行画面を表示する。例えば、ディスプレー120はアプリのグラフィックユーザインターフェース(graphic user interface)(GUI)を表示する。一実施形態によれば、ディスプレー120はハウジングの一部分(例えば、第2部分)を介して露出される。
一実施形態によれば、スピーカー130は音声信号を出力する。例えば、スピーカー130はユーザ端末100内部で生成された音声信号を外部に出力する。一実施形態によれば、スピーカー130はハウジングの一部分(例えば、第3部分)を介して露出される。
一実施形態によれば、メモリー140は複数のアプリ(又は、アプリケーションプログラム(application program))141、143を記憶する。複数のアプリ141、143は、例えば、ユーザ入力に対応する機能を実行するためのプログラム(program)である。一実施形態によれば、メモリー140は知能型エージェント145、実行マネージャーモジュール147又は知能型サービスモジュール149を記憶する。知能型エージェント145、実行マネージャーモジュール147及び知能型サービスモジュール149は、例えば、受信したユーザ入力(例えば、ユーザ発話)を処理するためのフレームワーク(framework又は、アプリケーションフレームワーク(application framework))である。
一実施形態によれば、メモリー140はユーザ入力を認識するのに必要な情報を記憶するデータベースを含む。例えば、メモリー140はログ(log)情報を記憶するログデータベースを含む。他に例えば、メモリー140はユーザ情報を記憶するペルソナデータベースを含む。
一実施形態によれば、メモリー140は複数のアプリ141、143を記憶し、複数のアプリ141、143はロードされて動作する。例えば、メモリー140に記憶された複数のアプリ141、143は実行マネージャーモジュール147によってロードされて動作される。複数のアプリ141、143は機能を実行する実行サービスモジュール141a、143aを含む。一実施形態において、複数のアプリ141、143は機能を実行するために実行サービスモジュール141a、143aを介して複数の動作(例えば、状態のシーケンス)141b、143bを実行する。言い換えれば、実行サービスモジュール141a、143aは実行マネージャーモジュール147によって活性化され、複数の動作141b、143bを実行する。
一実施形態によれば、アプリ141、143の動作141b、143bが実行された時、動作141b、143bの実行による実行状態画面はディスプレー120に表示される。前記実行状態画面は、例えば、動作141b、143bが完了した状態の画面である。前記実行状態画面は、他に例えば、動作141b、143bの実行が停止された状態(partial landing(例えば、動作141b、143b)に必要なパラメーターが入力されない場合)の画面である。
一実施形態による、実行サービスモジュール141a、143aはパスルールによって動作141b、143bを実行する。例えば、実行サービスモジュール141a、143aは実行マネージャーモジュール147によって活性化され、実行マネージャーモジュール147から前記パスルールによって実行リクエストが伝達され、前記実行リクエストに応じて動作141b、143bをすることによって、アプリ141、143の機能を実行する。実行サービスモジュール141a、143aは前記動作141b、143bの実行が完了すると、完了情報を実行マネージャーモジュール147へ伝達する。
一実施形態によれば、アプリ141、143で複数の動作141b、143bが実行される場合、複数の動作141b、143bは順次に実行される。実行サービスモジュール141a、143aは一つの動作(例えば、第1アプリ141の動作1、第2アプリ143の動作1)の実行が完了すれば次の動作(例えば、第1アプリ141の動作2、第2アプリ143の動作2)をオープンして完了情報を実行マネージャーモジュール147に送信する。ここで、任意の動作をオープンするということは、任意の動作を実行可能な状態に遷移させるか、任意の動作の実行を準備すると理解される。言い替えれば、任意の動作がオープンされなければ、当該の動作は実行されない。実行マネージャーモジュール147は前記完了情報を受信すると、次の動作(例えば、第1アプリ141の動作2、第2アプリ143の動作2)に対する実行リクエストを実行サービスモジュールに伝達する。一実施形態によれば、複数のアプリ141、143が実行される場合、複数のアプリ141、143は順次に実行される。例えば、第1アプリ141の最後の動作(例えば、第1アプリ141の動作3)の実行が完了して完了情報を受信すると、実行マネージャーモジュール147は第2アプリ143の第1動作(例えば、第2アプリ143の動作1)の実行リクエストを実行サービス143aに送信する。
一実施形態によれば、アプリ141、143で複数の動作141b、143bが実行された場合、前記実行された複数の動作141b、143bのそれぞれの実行による結果画面はディスプレー120に表示される。一実施形態によれば、前記実行された複数の動作141b、143bの実行による複数の結果画面の中の一部だけがディスプレー120に表示される。
一実施形態によれば、メモリー140は知能型エージェント145と連動された知能型アプリ(例えば、音声認識アプリ)を記憶する。知能型エージェント145と連動されたアプリはユーザの発話を音声信号で受信して処理する。一実施形態によれば、知能型エージェント145と連動されたアプリは入力モジュール110を介して入力される特定入力(例えば、ハードウェアキーを通じる入力、タッチスクリーンを通じる入力、特定音声入力)によって動作される。
一実施形態によれば、メモリー140に記憶された知能型エージェント145、実行マネージャーモジュール147又は知能型サービスモジュール149がプロセッサ150によって実行される。知能型エージェント145、実行マネージャーモジュール147又は知能型サービスモジュール149の機能はプロセッサ150によって具現される。前記知能型エージェント145、実行マネージャーモジュール147及び知能型サービスモジュール149の機能に対してプロセッサ150の動作で説明する。一実施形態によれば、メモリー140に記憶された知能型エージェント145、実行マネージャーモジュール147又は知能型サービスモジュール149はソフトウェアだけではなくハードウェアで具現される。
一実施形態によれば、プロセッサ150はユーザ端末100の全般的な動作を制御する。例えば、プロセッサ150は入力モジュール110を制御してユーザ入力を受信する。プロセッサ150はディスプレー120を制御してイメージを表示する。プロセッサ150はスピーカー130を制御して音声信号を出力する。プロセッサ150はメモリー140を制御してプログラムを実行させて、必要な情報を呼び出すか、記憶する。
一実施形態によれば、プロセッサ150はメモリー140に記憶された知能型エージェント145、実行マネージャーモジュール147又は知能型サービスモジュール149を実行させる。これにより、プロセッサ150は知能型エージェント145、実行マネージャーモジュール147又は知能型サービスモジュール149の機能を具現する。
一実施形態による、プロセッサ150は知能型エージェント145を実行して受信されたユーザ入力の音声信号に基づいてアプリを動作させる命令を生成する。一実施形態による、プロセッサ150は実行マネージャーモジュール147を実行して前記生成された命令に応じてメモリー140に記憶されたアプリ141、143を実行させる。一実施形態によれば、プロセッサ150は知能型サービスモジュール149を実行してユーザの情報を管理し、前記ユーザの情報を用いてユーザ入力を処理する。
プロセッサ150は知能型エージェント145を実行して入力モジュール110を介して受信したユーザ入力を知能型サーバー200に送信し、知能型サーバー200を介して前記ユーザ入力を処理する。
一実施形態によれば、プロセッサ150は知能型エージェント145を実行して前記ユーザ入力を知能型サーバー200に送信する前に前記ユーザ入力を前処理する。一実施形態によれば、知能型エージェント145は前記ユーザ入力を前処理するために、適応エコーキャンセラ(adaptive echo canceller、AEC)モジュール、ノイズ抑制(noise suppression、NS)モジュール、終点検出(end−point detection、EPD)モジュール又は自動利得制御(automatic gain control、AGC)モジュールを含む。前記適応反響除去モジュールは前記ユーザ入力に含まれたエコー(echo)を除去する。前記ノイズ抑制モジュールは前記ユーザ入力に含まれた背景雑音を抑制する。前記終点検出モジュールは前記ユーザ入力に含まれたユーザ音声の終点を検出し、前記検出された終点を用いてユーザの音声が存在する部分をサーチする。前記自動利得制御モジュールは前記ユーザ入力を認識し、前記認識されたユーザ入力の処理に適合するように前記ユーザ入力の音量を調節する。一実施形態によれば、プロセッサ150は性能のために前記前処理構成を全部実行させることができるが、他の実施形態においてプロセッサ150は低電力で動作するために前記前処理構成のうちの一部のみを実行させる。
一実施形態によれば、知能型エージェント145はユーザの呼び出しを認識するためにメモリー140に記憶されたウェークアップ(wake up)認識モジュールを実行させる。これにより、プロセッサ150は前記ウェークアップ認識モジュールを介してユーザのウェークアップ命令を認識し、前記ウェークアップ命令を受信した場合、ユーザ入力を受信するための知能型エージェント145を実行させる。前記ウェークアップ認識モジュールは低電力プロセッサ(例えば、オーディオデータコデックスに含まれたプロセッサ)で具現される。一実施形態によれば、プロセッサ150はハードウェアキーを通じるユーザ入力を受信した時に知能型エージェント145を実行させる。知能型エージェント145が実行された場合、知能型エージェント145と連動された知能型アプリ(例えば、音声認識アプリ)が実行される。
一実施形態によれば、知能型エージェント145はユーザ入力を実行するための音声認識モジュールを含む。プロセッサ150は前記音声認識モジュールを介してアプリの動作を実行するようにするためのユーザ入力を認識する。例えば、プロセッサ150は前記音声認識モジュールを介してアプリ141、143で前記ウェークアップ命令のような動作を実行する制限されたユーザ(音声)入力(例えば、カメラアプリが実行中である時の撮影動作を実行させる‘‘パチリと’’のような発話など)を認識する。プロセッサ150は前記知能型サーバー200を補助して前記音声認識モジュールを介してユーザ端末100内で処理するユーザ命令を認識して早く処理する。一実施形態によれば、ユーザ入力を実行するための知能型エージェント145の音声認識モジュールはアプリプロセッサで具現される。
一実施形態によれば、知能型エージェント145の音声認識モジュール(ウェークアップモジュールの音声認識モジュールを含む)は音声を認識するためのアルゴリズムを用いてユーザ入力を認識する。前記音声を認識するために用いられるアルゴリズムは、例えば、HMM(hidden markov model)アルゴリズム、ANN(artificial neural network)アルゴリズム又はDTW(dynamic time warping)アルゴリズムのうちの少なくとも一つである。
一実施形態によれば、プロセッサ150は知能型エージェント145を実行してユーザの音声入力をテキストデータに変換する。例えば、プロセッサ150は知能型エージェント145を介してユーザの音声を知能型サーバー200に送信し、知能型サーバー200からユーザの音声に対応するテキストデータを受信する。これにより、プロセッサ150は前記変換されたテキストデータをディスプレー120に表示する。
一実施形態によれば、プロセッサ150は知能型エージェント145を実行して知能型サーバー200からパスルールを受信する。一実施形態によれば、プロセッサ150は知能型エージェント145を介して前記パスルールを実行マネージャーモジュール147へ伝達する。
一実施形態によれば、プロセッサ150は知能型エージェント145を実行して知能型サーバー200から受信したパスルールによる実行結果ログ(log)を知能型サービスモジュール149へ伝達し、前記伝達した実行結果ログはペルソナモジュール(persona manager)149bのユーザの選好(preference)情報に累積されて管理される。
一実施形態による、プロセッサ150は実行マネージャーモジュール147を実行して知能型エージェント145からパスルールの伝達を受けてアプリ141、143を実行させて、アプリ141、143が前記パスルールに含まれた動作141b、143bを実行するようにできる。例えば、プロセッサ150は実行マネージャーモジュール147を介してアプリ141、143で動作141b、143bを実行するための命令情報(例えば、パスルール情報)を送信し、前記アプリ141、143から動作141b、143bの完了情報の伝達を受ける。
一実施形態によれば、プロセッサ150は実行マネージャーモジュール147を実行して知能型エージェント145とアプリ141、143の間でアプリ141、143の動作141b、143b)を実行するための命令情報(例えば、パスルール情報)を伝達する。プロセッサ150は実行マネージャーモジュール147を介して前記パスルールによって実行するアプリ141、143をバインディング(binding)し、前記パスルールに含まれた動作141b、143bの命令情報(例えば、パスルール情報)をアプリ141、143へ伝達する。例えば、プロセッサ150は実行マネージャーモジュール147を介して前記パスルールに含まれた動作141b、143bを順次にアプリ141、143へ伝達し、アプリ141、143の動作141b、143bを前記パスルールによって順次に実行させる。
一実施形態によれば、プロセッサ150は実行マネージャーモジュール147を実行してアプリ141、143の動作141b、143bの実行状態を管理する。例えば、プロセッサ150は実行マネージャーモジュール147を介してアプリ141、143から前記動作141b、143b)の実行状態に対する情報の伝達を受ける。前記動作141b、143bの実行状態が、例えば、停止された状態(partial landing)の場合(例えば、動作141b、143b)に必要なパラメーターが入力されない場合)、プロセッサ150は実行マネージャーモジュール147を介して前記止められた状態に対する情報を知能型エージェント145へ伝達する。プロセッサ150は知能型エージェント145を介して前記伝達された情報を用い、ユーザに必要な情報(例えば、パラメーター情報)の入力をリクエストする。動作141b、143bの実行状態が、他に例えば、動作状態の場合、プロセッサ150は知能型エージェント145を介してユーザから発話を受信する。プロセッサ150は実行マネージャーモジュール147を介して実行されているアプリ141、143及びアプリ141、143の実行状態に対する情報を知能型エージェント145に伝達する。プロセッサ150は知能型エージェント145を介して前記ユーザ発話を知能型サーバー200に送信する。プロセッサ150は知能型エージェント145を介して知能型サーバー200から前記ユーザの発話のパラメーター情報を受信する。プロセッサ150は知能型エージェント145を介して前記受信されたパラメーター情報を実行マネージャーモジュール147へ伝達する。実行マネージャーモジュール147は前記受信したパラメーター情報を用いて動作141b、143bのパラメーターを新しいパラメーターに変更する。
一実施形態によれば、プロセッサ150は実行マネージャーモジュール147を実行してパスルールに含まれたパラメーター情報をアプリ141、143へ伝達する。前記パスルールによって複数のアプリ141、143が順次に実行される場合、実行マネージャーモジュール147は一つのアプリから他のアプリにパスルールに含まれたパラメーター情報を伝達する。
一実施形態によれば、プロセッサ150は実行マネージャーモジュール147を実行して複数のパスルールを受信する。プロセッサ150は実行マネージャーモジュール147を介してユーザの発話に基づいて複数のパスルールを選択する。例えば、プロセッサ150は実行マネージャーモジュール147を介してユーザの発話が一部動作141aを実行する一部アプリ141を特定したが、残り動作143bを実行する他のアプリ143を特定しない場合、一部動作141aを実行する同一のアプリ141(例えば、ギャラリーアプリ)が実行されて残り動作143bを実行することができる互いに異なるアプリ143(例えば、メッセージアプリ、テレグラムアプリ)がそれぞれ実行される互いに異なる複数のパスルールを受信する。プロセッサ150は、例えば、実行マネージャーモジュール147を介して前記複数のパスルールの同一の動作141b、143b(例えば、連続された同一の動作141b、143b)を実行する。プロセッサ150は前記同様動作まで実行した場合、実行マネージャーモジュール147介して前記複数のパスルールにそれぞれ含まれた互いに異なるアプリ141、143を選択する状態画面をディスプレー120に表示する。
一実施形態によれば、知能型サービスモジュール149はコンテキストモジュール149a、ペルソナモジュール149b又は提案モジュール149cを含む。
プロセッサ150はコンテキストモジュール149aを実行してアプリ141、143からアプリ141、143の現状を収集する。例えば、プロセッサ150はコンテキストモジュール149aを実行してアプリ141、143の現状を示すコンテキスト情報を受信し、前記受信したコンテキスト情報を介してアプリ141、143の現状を収集する。
プロセッサ150はペルソナモジュール149bを実行してユーザ端末100を用いるユーザの個人情報を管理する。例えば、プロセッサ150はペルソナモジュール149bを実行してユーザ端末100の使用情報及び実行結果を収集し、前記収集したユーザ端末100の使用情報及び実行結果を用いてユーザの個人情報を管理する。
プロセッサ150は提案モジュール149cを実行してユーザの意図を予測し、前記ユーザの意図に基づいてユーザに命令を勧める。例えば、プロセッサ150は提案モジュール149cを実行してユーザの現状(例えば、時間、場所、状況、アプリ)によってユーザに命令を勧める。
図3は、本発明の一実施形態によるユーザ端末の知能型アプリを実行させることを示す図面である。
図3を参照すれば、ユーザ端末100がユーザ入力を受信して知能型エージェント145と連動された知能型アプリ(例えば、音声認識アプリ)を実行させることを示す図面である。
一実施形態によれば、ユーザ端末100はハードウェアキー112を介して音声を認識するための知能型アプリを実行させる。例えば、ユーザ端末100はハードウェアキー112を介してユーザ入力を受信した場合、ディスプレー120に知能型アプリのUI(user interface)121を表示する。ユーザは、例えば、知能型アプリのUI121がディスプレー120に表示された状態で音声を入力120bするために知能型アプリのUI121の音声認識ボタン121aをタッチする。ユーザは、他に例えば、音声を入力120bするためにハードウェアキー112を持続的に押して音声を入力120bする。
一実施形態によれば、ユーザ端末100はマイク111を介して音声を認識するための知能型アプリを実行させる。例えば、ユーザ端末100はマイク111を介して指定された音声(例えば、‘‘起きて’(wake up)’’)が入力120aされた場合、ディスプレー120に知能型アプリのUI121を表示する。
図4は、本発明の一実施形態による知能型サービスモジュールのコンテキストモジュールが現状を収集することを示す図面である。
図4を参照すれば、プロセッサ150は知能型エージェント145からコンテキストリクエストを受信(1)すれば、コンテキストモジュール149aを介してアプリ141、143の現状を示すコンテキスト情報をリクエスト(2)する。一実施形態によれば、プロセッサ150はコンテキストモジュール149aを介してアプリ141、143から前記コンテキスト情報を受信(3)して知能型エージェント145に送信(4)する。
一実施形態によれば、プロセッサ150はコンテキストモジュール149aを介してアプリ141、143から複数のコンテキスト情報の伝達を受ける。前記コンテキスト情報は、例えば、最も最近実行されたアプリ141、143に対する情報である。前記コンテキスト情報は、他に例えば、アプリ141、143内の現状に対する情報(例えば、ギャラリーで写真を見ている場合、当該写真に対する情報)である。
一実施形態によれば、プロセッサ150はコンテキストモジュール149aを介してアプリ141、143だけでなく、デバイスプラットホーム(device platform)からユーザ端末100の現状を示すコンテキスト情報を受信する。前記コンテキスト情報は一般的コンテキスト情報、ユーザコンテキスト情報又は装置コンテキスト情報を含む。
前記一般的コンテキスト情報はユーザ端末100の一般的な情報を含む。前記一般的コンテキスト情報はデバイスプラットホームのセンサーハーブなどを介してデータが伝達されて内部アルゴリズムを介して確認される。例えば、前記一般的コンテキスト情報は現在時空間に対する情報を含む。前記現在時空間に対する情報は、例えば、現在時間又はユーザ端末100の現在位置に対する情報を含む。前記現在時間はユーザ端末100上での時間を介して確認され、前記現在位置に対する情報はGPS(global positioning system)を介して確認される。他に例えば、前記一般的コンテキスト情報は物理的動きに対する情報を含む。前記物理的動きに対する情報は、例えば、歩くこと、走ること、運転中などに対する情報を含む。前記物理的動き情報はモーションセンサー(motion sensor)を介して確認される。前記運転中に対する情報は前記モーションセンサーを介して運行を確認するだけではなく、車内のブルートゥース(登録商標)接続を検出して搭乗及び駐車を確認する。また、他に例えば、前記一般的コンテキスト情報はユーザ活動情報を含む。前記ユーザ活動情報は、例えば、出退勤、ショッピング、旅行などに対する情報を含む。前記ユーザ活動情報はユーザ又はアプリがデータベースに登録した場所に対する情報を用いて確認される。
前記ユーザコンテキスト情報はユーザに対する情報を含む。例えば、前記ユーザコンテキスト情報はユーザの感情的状態に対する情報を含む。前記感情的状態に対する情報は、例えば、ユーザの幸せ、悲しみ、怒りなどに対する情報を含む。他に例えば、前記ユーザコンテキスト情報はユーザの現状に対する情報を含む。前記現状に対する情報は、例えば、関心、意図など(例えば、ショッピング)に対する情報を含む。
前記装置コンテキスト情報はユーザ端末100の状態に対する情報を含む。例えば、前記装置コンテキスト情報は実行マネージャーモジュール147が実行したパスルールに対する情報を含む。他に例えば、前記デバイス情報はバッテリーに対する情報を含む。前記バッテリーに対する情報は、例えば、前記バッテリーの充電及び放電状態を介して確認される。また他に例えば、前記デバイス情報は接続された装置及びネットワークに対する情報を含む。前記接続された装置に対する情報は、例えば、前記装置が接続された通信インターフェースを介して確認される。
図5は、本発明の一実施形態による知能型サービスモジュールの提案モジュールを示すブロック図である。
図5を参照すれば、提案モジュール149cはヒント提供モジュール149c−1、コンテキストヒント生成モジュール149c−2、条件チェッキングモジュール149c−3、条件モデルモジュール149c−4、再使用ヒント生成モジュール149c−5又は紹介ヒント生成モジュール149c−6を含む。
一実施形態によれば、プロセッサ150はヒント提供モジュール149c−1を実行してユーザにヒント(hint)を提供する。例えば、プロセッサ150はヒント提供モジュール149c−1を介してコンテキストヒント生成モジュール149c−2、再使用ヒント生成モジュール149c−5又は紹介ヒント生成モジュール149c−6から生成されたヒントが伝達されてユーザにヒントを提供する。
一実施形態によれば、プロセッサ150は条件チェッキングモジュール149c−3又は条件モデルモジュール149c−4を実行して現状によって推薦されるヒントを生成する。プロセッサ150は条件チェッキングモジュール149c−3を実行して現状に対応する情報が伝達され、条件モデルモジュール149c−4を実行して前記伝達受けた情報を用いて条件モデル(condition model)を設定する。例えば、プロセッサ150は条件モデルモジュールが149c−4を実行してユーザにヒントを提供する時点の時間、位置、状況使用中のアプリなどを把握して当該条件で用いる可能性が高いヒントを優先順位が高い順でユーザに提供する。
一実施形態によれば、プロセッサ150は再使用ヒント生成モジュール149c−5を実行して使用頻度によって推薦するヒントを生成する。例えば、プロセッサ150は再使用ヒント生成モジュール149c−5を実行してユーザの使用パターンに基づいたヒントを生成する。
一実施形態によれば、紹介ヒント生成モジュール149c−6はユーザに新規機能又は他のユーザが多用する機能を紹介するヒントを生成する。例えば、前記新規機能を紹介するヒントには知能型エージェント145に対する紹介(例えば、作動方法)を含む。
他の実施形態によれば、提案モジュール149cのコンテキストヒント生成モジュール149c−2、条件チェッキングモジュール149c−3、条件モデルモジュール149c−4、再使用ヒント生成モジュール149c−5又は紹介ヒント生成モジュール149c−6は個人化情報サーバー300に含まれる。例えば、プロセッサ150は提案モジュール149cのヒント提供モジュール149c−1を介してユーザ個人化情報サーバー300のコンテキストヒント生成モジュール149c−2、再使用ヒント生成モジュール149c−5又は紹介ヒント生成モジュール149c−6からヒントを受信してユーザに前記受信したヒントを提供する。
一実施形態によれば、ユーザ端末100は次の一連のプロセスによってヒントを提供する。例えば、プロセッサ150は知能型エージェント145からヒント提供リクエストを受信すれば、ヒント提供モジュール149c−1を介してコンテキストヒント生成モジュール149c−2にヒント生成リクエストを伝達する。プロセッサ150は前記ヒント生成リクエストが伝達されると、条件チェッキングモジュール149c−3を介してコンテキストモジュール149a及びペルソナモジュール149bから現状に対応する情報が伝達される。プロセッサ150は条件チェッキングモジュール149c−3を介して前記伝達された情報を条件モデルモジュール149c−4へ伝達し、条件モデルモジュール149c−4を介して前記情報を用いてユーザに提供されるヒントのうちの前記条件に使用可能性が高い順番でヒントに対して優先順位を付与する。プロセッサ150はコンテキストヒント生成モジュール149c−2を介して前記条件を確認し、前記現状に対応するヒントを生成する。プロセッサ150はコンテキストヒント生成モジュール149c−2を介して前記生成されたヒントをヒント提供モジュール149c−1へ伝達する。プロセッサ150はヒント提供モジュール149c−1を介して指定された規則に従って前記ヒントを整列し、前記ヒントを知能型エージェント145へ伝達する。
一実施形態によれば、プロセッサ150はヒント提供モジュール149c−1を介して複数のコンテキストヒントを生成し、指定された規則に応じて複数のコンテキストヒントに優先順位を指定する。一実施形態によれば、プロセッサ150はヒント提供モジュール149c−1を介して前記複数のコンテキストヒントのうちで優先順位が高いことをユーザに先ず提供する。
一実施形態によれば、ユーザ端末100は使用頻度によるヒントを提案する。例えば、プロセッサ150は知能型エージェント145からヒント提供リクエストが伝達されると、ヒント提供モジュール149c−1を介して再使用ヒント生成モジュール149c−5にヒント生成リクエストを伝達する。プロセッサ150は前記ヒント生成リクエストが伝達されると、再使用ヒント生成モジュール149c−5を介してペルソナモジュール149bからユーザ情報が伝達される。例えば、プロセッサ150は再使用ヒント生成モジュール149c−5を介してペルソナモジュール149bのユーザのプリファランス情報に含まれたパスルール、パスルールに含まれたパラメーター、アプリの実行頻度、アプリが用いられた時空間情報を伝達される。プロセッサ150は再使用ヒント生成モジュール149c−5を介して前記伝達されたユーザ情報に対応するヒントを生成する。プロセッサ150は再使用ヒント生成モジュール149c−5を介して前記生成されたヒントをヒント提供モジュール149c−1へ伝達する。プロセッサ150はヒント提供モジュール149c−1を介して前記ヒントを整列し、前記ヒントを知能型エージェント145へ伝達する。
一実施形態によれば、ユーザ端末100は新しい機能に対するヒントを提案する。例えば、プロセッサ150は知能型エージェント145からヒント提供リクエストが伝達されると、ヒント提供モジュール149c−1を介して紹介ヒント生成モジュール149c−6にヒント生成リクエストを伝達する。プロセッサ150は、紹介ヒント生成モジュール149c−6を介して提案サーバー400から紹介ヒント提供リクエストが伝達されて提案サーバー400から紹介される機能に対する情報を受信する。提案サーバー400は、例えば、紹介される機能に対する情報を記憶し、前記紹介される機能に対するヒントリスト(hint list)はサービス運営者によりアップデートされる。プロセッサ150は、紹介ヒント生成モジュール149c−6を介して前記生成されたヒントをヒント提供モジュール149c−1へ伝達する。プロセッサ150はヒント提供モジュール149c−1を介して前記ヒントを整列し、前記ヒントを知能型エージェント145へ送信する。
これにより、プロセッサ150は、提案モジュール149cを介してコンテキストヒント生成モジュール149c−2、再使用ヒント生成モジュール149c−5又は紹介ヒント生成モジュール149c−6で生成されたヒントをユーザに提供する。例えば、プロセッサ150は提案モジュール149cを介して前記生成されたヒントを知能型エージェント145を動作させるアプリに表示し、前記アプリを介してユーザから前記ヒントを選択する入力を受信する。
図6は、本発明の一実施形態による統合知能化システムの知能型サーバーを示すブロック図である。
図6を参照すれば、知能型サーバー200は自動音声認識(automatic speech recognition、ASR)モジュール210、自然語理解(natural language understanding、NLU)モジュール220、パスプランナー(path planner)モジュール230、対話マネージャー(dialogue manager、DM)モジュール240、自然語生成(natural language generator、NLG)モジュール250又はテキスト音声変換(text to speech、TTS)モジュール260を含む。一実施形態によれば、知能型サーバー200は通信回路、メモリー及びプロセッサを含む。前記プロセッサは前記メモリーに記憶された命令語を実行して自動音声認識モジュール210、自然語理解モジュール220、パスプランナーモジュール230、対話マネージャーモジュール240、自然語生成モジュール250及びテキスト音声変換モジュール260を駆動させる。知能型サーバー200は前記通信回路を介して外部電子装置(例えば、ユーザ端末100とデータ(又は、情報))と送受信する。
知能型サーバー200の自然語理解モジュール220又はパスプランナーモジュール230はパスルール(path rule)を生成する。
一実施形態によれば、自動音声認識(automatic speech recognition、ASR)モジュール210はユーザ端末100から受信したユーザ入力をテキストデータに変換する。
一実施形態によれば、自動音声認識モジュール210はユーザ端末100から受信したユーザ入力をテキストデータに変換する。例えば、自動音声認識モジュール210は発話認識モジュールを含む。前記発話認識モジュールは音響(acoustic)モデル及び言語(language)モデルを含む。例えば、前記音響モデルは発声に係る情報を含み、前記言語モデルは単位音素情報及び単位音素情報の組合わせに対する情報を含む。前記発話認識モジュールは発声に係る情報及び単位音素情報に対する情報を用いてユーザ発話をテキストデータに変換する。前記音響モデル及び言語モデルに対する情報は、例えば、自動音声認識データベース(automatic speech recognition database、ASR DB)211に記憶される。
一実施形態によれば、自然語理解モジュール220は文法的分析(syntactic analyze)又は意味的分析(semantic analyze)を実行してユーザ意図を把握する。前記文法的分析はユーザ入力を文法的単位(例えば、単語、句、形態素など)で分け、前記分けられた単位がどんな文法的な要素を有するかを把握する。前記意味的分析は意味(semantic)マッチング、ルール(rule)マッチング、フォーミュラ(formula)マッチングなどを用いて行う。これにより、自然語理解モジュール220はユーザ入力がどのドメイン(domain)、意図(intent)又は前記意図を表現するのに必要なパラメーター(parameter)(又は、スロット(slot))を得ることができる。
一実施形態によれば、自然語理解モジュール220はドメイン(domain)、意図(intend)及び前記意図を把握するのに必要なパラメーター(parameter)(又は、スロット(slot))で分けられたマッチング規則を用いてユーザの意図及びパラメーターを決定する。例えば、前記一つのドメイン(例えば、アラーム)は複数の意図(例えば、アラーム設定、アラーム解除など)を含み、一つの意図は複数のパラメーター(例えば、時間、繰り返し回数、アラーム音など)を含む。複数のルールは、例えば、一つ以上の必須要素パラメーターを含む。前記マッチング規則は自然語認識データベース(natural language understanding database、NLUDB)221に記憶される。
一実施形態によれば、自然語理解モジュール220は形態素、句などの言語的特徴(例えば、文法的要素)を用いてユーザ入力から抽出された単語の意味を把握し、前記把握された単語の意味をドメイン及び意図にマッチングさせてユーザの意図を決定する。例えば、自然語理解モジュール220はそれぞれのドメイン及び意図にユーザ入力で抽出された単語がいくら含まれているかを計算してユーザ意図を決定する。
一実施形態によれば、自然語理解モジュール220は前記意図を把握するのに基づいた単語を用いてユーザ入力のパラメーターを決定する。一実施形態によれば、自然語理解モジュール220はユーザ入力の意図を把握するための言語的特徴が記憶された自然語認識データベース221を用いてユーザの意図を決定する。他の実施形態によれば、自然語理解モジュール220は個人化言語モデル(personal language model、PLM)を用いてユーザの意図を決定する。例えば、自然語理解モジュール220は個人化された情報(例えば、連絡先リスト、音楽リスト)を用いてユーザの意図を決定する。前記個人化言語モデルは、例えば、自然語認識データベース221に記憶される。一実施形態によれば、自然語理解モジュール220だけでなく自動音声認識モジュール210も自然語認識データベース221に記憶された個人化言語モデルを参考にしてユーザの音声を認識する。
一実施形態によれば、自然語理解モジュール220はユーザ入力の意図及びパラメーターに基づいてパスルールを生成する。例えば、自然語理解モジュール220はユーザ入力の意図に基づいて実行されるアプリを選択し、前記選択したアプリで実行される動作を決定する。前記自然語理解モジュール220は前記決定した動作に対応するパラメーターを決定してパスルールを生成する。一実施形態によれば、自然語理解モジュール220によって生成されたパスルールは実行されるアプリ、前記アプリで実行される動作(例えば、少なくとも一つ以上の状態(state))及び前記動作を実行するのに必要なパラメーターに対する情報を含む。
一実施形態によれば、自然語理解モジュール220はユーザ入力の意図及びパラメーターに基づいて一つのパスルール、又は複数のパスルールを生成する。例えば、自然語理解モジュール220はパスプランナーモジュール230からユーザ端末100に対応するパスルールセットを受信し、ユーザ入力の意図及びパラメーターを前記受信したパスルールセットにマッピングしてパスルールを決定する。
他の実施形態によれば、自然語理解モジュール220はユーザ入力の意図及びパラメーターに基づいて実行されるアプリ、前記アプリで実行される動作及び前記動作を実行するのに必要なパラメーターを決定して一つのパスルール、又は複数のパスルールを生成する。例えば、自然語理解モジュール220はユーザ端末100の情報を用いて前記実行されるアプリ及び前記アプリで実行される動作をユーザ入力の意図によってオントロジー(ontology)又はグラフモデル(graph model)形態で配列してパスルールを生成する。前記生成されたパスルールは、例えば、パスプランナーモジュール230を介してパスルールデータベース(path rule database、PR DB)231に記憶される。前記生成されたパスルールはデータベース231のパスルールセットに追加される。
一実施形態によれば、自然語理解モジュール220は生成された複数のパスルールのうちの少なくとも一つのパスルールを選択する。例えば、自然語理解モジュール220は前記複数のパスルール最適のパスルールを選択する。他に例えば、自然語理解モジュール220はユーザ発話に基づいて一部動作だけが特定された場合、複数のパスルールを選択する。自然語理解モジュール220はユーザの追加入力によって前記複数のパスルールのうちの一つのパスルールを決定する。
一実施形態によれば、自然語理解モジュール220はユーザ入力に対するリクエストでパスルールをユーザ端末100に送信する。例えば、自然語理解モジュール220はユーザ入力に対応する一つのパスルールをユーザ端末100に送信する。他に例えば、自然語理解モジュール220はユーザ入力に対応する複数のパスルールをユーザ端末100に送信する。前記複数のパスルールは、例えば、ユーザ発話に基づいて一部動作だけが特定された場合、自然語理解モジュール220により生成される。
一実施形態によれば、パスプランナーモジュール230は複数のパスルールのうちの少なくとも一つのパスルールを選択する。
一実施形態によれば、パスプランナーモジュール230は自然語理解モジュール220に複数のパスルールを含むパスルールセットを伝達する。前記パスルールセットの複数のパスルールはパスプランナーモジュール230に接続されたパスルールデータベース231にテーブル形態で記憶される。例えば、パスプランナーモジュール230は知能型エージェント145から受信されたユーザ端末100の情報(例えば、OS情報、アプリ情報)に対応するパスルールセットを自然語理解モジュール220へ伝達する。前記パスルールデータベース231に記憶されたテーブルは、例えば、ドメイン又はドメインのバージョン別で記憶される。
一実施形態によれば、パスプランナーモジュール230はパスルールセットの一つのパスルール、又は複数のパスルールを選択して自然語理解モジュール220へ伝達する。例えば、パスプランナーモジュール230はユーザの意図及びパラメーターをユーザ端末100に対応するパスルールセットにマッチングして一つのパスルール、又は複数のパスルールを選択して自然語理解モジュール220へ伝達する。
一実施形態によれば、パスプランナーモジュール230はユーザ意図及びパラメーターを用いて一つのパスルール、又は複数のパスルールを生成する。例えば、パスプランナーモジュール230はユーザ意図及びパラメーターに基づいて実行されるアプリ及び前記アプリで実行される動作を決定して一つのパスルール、又は複数のパスルールを生成する。一実施形態によれば、パスプランナーモジュール230は前記生成したパスルールをパスルールデータベース231に記憶する。
一実施形態によれば、パスプランナーモジュール230は自然語理解モジュール220で生成されたパスルールをパスルールデータベース231に記憶する。前記生成されたパスルールはパスルールデータベース231に記憶されたパスルールセットに追加される。
一実施形態によれば、パスルールデータベース231に記憶されたテーブルには複数のパスルール又は複数のパスルールセットを含む。複数のパスルール又は複数のパスルールセットは各パスルールを行う装置の種類、バージョン、タイプ、又は特性を反映する。
一実施形態によれば、対話マネージャーモジュール240は自然語理解モジュール220により把握されたユーザの意図が明確であるか否かを判断する。例えば、対話マネージャーモジュール240はパラメーターの情報が十分であるか否かに基づいてユーザの意図が明確であるか否かを判断する。対話マネージャーモジュール240は自然語理解モジュール220で把握されたパラメーターがタスクを実行するのに十分であるか否かを判断する。一実施形態によれば、対話マネージャーモジュール240はユーザの意図が明確ではない場合、ユーザに必要な情報をリクエストするフィードバックを実行する。例えば、対話マネージャーモジュール240はユーザの意図を把握するためのパラメーターに対する情報をリクエストするフィードバックを実行する。
一実施形態によれば、対話マネージャーモジュール240はコンテンツ提供(content provider)モジュールを含む。前記コンテンツ提供モジュールは自然語理解モジュール220で把握された意図及びパラメーターに基づいて動作を実行する場合、ユーザ入力に対応するタスクを実行した結果を生成する。一実施形態によれば、対話マネージャーモジュール240はユーザ入力に対する応答で前記コンテンツ提供モジュールで生成された前記結果をユーザ端末100に送信する。
一実施形態によれば、自然語生成モジュール(NLG)250は指定された情報をテキスト形態に変更する。前記テキスト形態に変更された情報は自然語発話の形態である。前記指定された情報は、例えば、追加入力に対する情報、ユーザ入力に対応する動作の完了を案内する情報又はユーザの追加入力を案内する情報(例えば、ユーザ入力に対するフィードバック情報)である。前記テキスト形態に変更された情報はユーザ端末100に送信されてディスプレー120に表示されるか、テキスト音声変換モジュール260に送信されて音声形態に変更される。
一実施形態によれば、テキスト音声変換モジュール260はテキスト形態の情報を音声形態の情報に変更する。テキスト音声変換モジュール260は自然語生成モジュール250からテキスト形態の情報を受信し、前記テキスト形態の情報を音声形態の情報に変更してユーザ端末100に送信する。ユーザ端末100は前記音声形態の情報をスピーカー130で出力する。
一実施形態によれば、自然語理解モジュール220、パスプランナーモジュール230及び対話マネージャーモジュール240は一つのモジュールで具現できる。例えば、自然語理解モジュール220、パスプランナーモジュール230及び対話マネージャーモジュール240は一つのモジュールで具現されてユーザの意図及びパラメーターを決定し、前記決定されたユーザの意図及びパラメーターに対応する応答(例えば、パスルール)を生成する。これにより、生成された応答はユーザ端末100に送信される。
図7は、本発明の一実施形態によるパスプランナーモジュール(path planner module)のパスルール(path rule)を生成する方法を示す図面である。
図7を参照すれば、一実施形態による、自然語理解モジュール220はアプリの機能をいずれか一つの動作(例えば、状態A乃至状態F)で区分してパスルールデータベース231に記憶させる。例えば、自然語理解モジュール220はいずれか一つの動作(例えば、状態)で区分された複数のパスルール(A−B1−C1、A−B1−C2、A−B1−C3−D−F、A−B1−C3−D−E−F)を含むパスルールセットをデータベース231に記憶させる。
一実施形態によれば、パスプランナーモジュール230のパスルールデータベース231はアプリの機能を実行するためのパスルールセットを記憶する。前記パスルールセットは複数の動作(例えば、状態のシーケンス)を含む複数のパスルールを含む。前記複数のパスルールは複数の動作のそれぞれに入力されるパラメーターによって実行される動作が順次に配列される。一実施形態によれば、前記複数のパスルールはオントロジー(ontology)又はグラフモデル(graph model)形態で構成されてパスルールデータベース231に記憶される。
一実施形態によれば、自然語理解モジュール220はユーザ入力の意図及びパラメータに対応する前記複数のパスルール(A−B1−C1、A−B1−C2、A−B1−C3−D−F、A−B1−C3−D−E−F)のうち最適のパスルール(A−B1−C3−D−F)を選択する。
一実施形態によれば、自然語理解モジュール220はユーザ入力に完壁にマッチングされるパスルールがない場合、ユーザ端末100に複数のルールを伝達する。例えば、自然語理解モジュール220はユーザ入力に部分的に対応したパスルール(例えば、A−B1)を選択する。自然語理解モジュール220はユーザ入力に部分的に対応したパスルール(例えば、A−B1)を含む一つ以上のパスルール(例えば、A−B1−C1、A−B1−C2、A−B1−C3−D−F、A−B1−C3−D−E−F)を選択してユーザ端末100に伝達する。
一実施形態によれば、自然語理解モジュール220はユーザ端末100の追加入力に基づいて複数のパスルールのうちの一つを選択し、前記選択された一つのパスルールをユーザ端末100へ伝達する。例えば、自然語理解モジュール220はユーザ端末100で追加に入力されたユーザ入力(例えば、C3を選択する入力)によって複数のパスルール(例えば、A−B1−C1、A−B1−C2、A−B1−C3−D−F、A−B1−C3−D−E−F)のうちの一つのパスルール(例えば、A−B1−C3−D−F)を選択してユーザ端末100に送信する。
また、他の実施形態によれば、自然語理解モジュール220は自然語理解モジュール220を介してユーザ端末100に追加に入力されたユーザ入力(例えば、C3を選択する入力)に対応するユーザの意図及びパラメーターを決定し、前記決定されたユーザの意図又はパラメーターをユーザ端末100に送信する。ユーザ端末100は前記送信した意図又は前記パラメーターに基づいて、複数のパスルール(例えば、A−B1−C1、A−B1−C2、A−B1−C3−D−F、A−B1−C3−D−E−F)うちの一つのパスルール(例えば、A−B1−C3−D−F)を選択する。
これにより、ユーザ端末100は前記選択された一つのパスルールによってアプリ141、143の動作を完了させる。
一実施形態によれば、自然語理解モジュール220は情報が不足なユーザ入力が知能型サーバー200に受信された場合、前記受信したユーザ入力に部分的に対応されるパスルールを生成する。
例えば、自然語理解モジュール220は前記部分的に対応したパスルールを知能型エージェント145に送信する。プロセッサ150は知能型エージェント145を実行して前記パスルールを受信し、実行マネージャーモジュール147に前記部分的に対応されたパスルールを伝達する。プロセッサ150は実行マネージャーモジュール147を介して前記パスルールによって第1アプリ141を実行させる。プロセッサ150は実行マネージャーモジュール147を介して第1アプリ141を実行しながら不足なパラメーターに対する情報を知能型エージェント145に送信する。プロセッサ150は知能型エージェント145を介して前記不足なパラメーターに対する情報を用いてユーザに追加入力をリクエストする。プロセッサ150は知能型エージェント145を介してユーザによって追加入力が受信されると、ユーザ入力を知能型サーバー200に送信して処理する。自然語理解モジュール220は前記追加に入力されたユーザ入力の意図及びパラメーター情報に基づいて追加されたパスルールを生成して知能型エージェント145に送信する。プロセッサ150は知能型エージェント145を介して実行マネージャーモジュール147に前記パスルールを送信して第2アプリ143を実行する。
一実施形態によれば、自然語理解モジュール220は一部情報が抜け落ちたユーザ入力が知能型サーバー200に受信された場合、個人化情報サーバー300にユーザ情報リクエストを送信する。個人化情報サーバー300はペルソナデータベースに記憶されたユーザ入力が入力されたユーザ情報を自然語理解モジュール220に送信する。自然語理解モジュール220は前記ユーザ情報を用いて一部動作が抜け落ちたユーザ入力に対応するパスルールを選択する。これにより、自然語理解モジュール220は一部情報が抜け落ちたユーザ入力が知能型サーバー200に受信されても抜け落ちた情報をリクエストして追加入力を受けるか、ユーザ情報を用いて前記ユーザ入力に対応するパスルールを決定する。
以下、添付した表1は一実施形態によるユーザがリクエストしたタスクに係るパスルールの例示的形態を示す。
Figure 2019164345
表1を参照すれば、ユーザ発話(例えば、‘‘写真共有してくれ’’)によって知能型サーバー(図1の知能型サーバー200)で生成または選択されるパスルールは少なくとも一つの状態(state)(25、26、27、28、29又は30)を含む。例えば、前記少なくとも一つの状態(例えば、端末のある一動作状態)は写真アプリケーション実行(Pictures View)(25)、写真検索機能実行(Search View)(26)、検索結果表示画面出力(Search View Result)(27)、写真が未(non)選択された検索結果表示画面出力(Search Empty Selected View)(28)、少なくとも一つの写真が選択された検索結果表示画面出力(Search Selected View)(29)又は共有アプリケーション選択画面出力(Cross Share)(30)のうちの少なくとも一つに該当する。
一実施形態で、前記パスルールのパラメーター情報は少なくとも一つの状態(state)に対応する。例えば、前記少なくとも一つの写真が選択された検索結果表示画面出力29状態になる。
前記状態(25、26、27、28、29)のシーケンスを含むパスルールの実行結果、ユーザがリクエストしたタスク(例えば、‘‘写真共有してくれ’’)が実行される。
図8は、本発明の一実施形態による知能型サービスモジュールのペルソナモジュール(persona module)がユーザの情報を管理することを示す図面である。
図8を参照すれば、プロセッサ150はペルソナモジュール149bを介してアプリ141、143、実行マネージャーモジュール147又はコンテキストモジュール149aからユーザ端末100の情報を伝達される。プロセッサ150はアプリ141、143及び実行マネージャーモジュール147を介してアプリの動作を実行した結果情報を動作ログデータベースに記憶する。プロセッサ150はコンテキストモジュール149aを介してユーザ端末100の現状に対する情報をコンテキストデータベースに記憶する。プロセッサ150はペルソナモジュール149bを介して前記動作ログデータベース又は前記コンテキストデータベースから前記記憶された情報を伝達される。前記動作ログデータベース及び前記コンテキストデータベースに記憶されたデータは、例えば、分析エンジン(analysis engine)により分析されてペルソナモジュール149bに伝達される。
一実施形態によれば、プロセッサ150はペルソナモジュール149bを介してアプリ141、143、実行マネージャーモジュール147又はコンテキストモジュール149aから受信した情報を提案モジュール149cに送信する。例えば、プロセッサ150はペルソナモジュール149bを介して前記動作ログデータベース又は前記コンテキストデータベースに記憶されたデータを提案モジュール149cへ伝達する。
一実施形態によれば、プロセッサ150はペルソナモジュール149bを介してアプリ141、143、実行マネージャーモジュール147又はコンテキストモジュール149aから伝達された情報を個人化情報サーバー300に送信する。例えば、プロセッサ150はペルソナモジュール149bを介して前記動作ログデータベース又は前記コンテキストデータベースに累積されて記憶されたデータを周期的に個人化情報サーバー300に送信する。
一実施形態によれば、プロセッサ150はペルソナモジュール149bを介して前記動作ログデータベース又は前記コンテキストデータベースに記憶されたデータを提案モジュール149cへ伝達する。ペルソナモジュール149b介して生成されたユーザ情報はペルソナデータベースに記憶される。ペルソナモジュール149bは前記ペルソナデータベースに記憶されたユーザ情報を周期的に個人化情報サーバー300に送信する。一実施形態によれば、ペルソナモジュール149bを介して個人化情報サーバー300に送信された情報はペルソナデータベースに記憶される。個人化情報サーバー300は前記ペルソナデータベースに記憶された情報を用いて知能型サーバー200のパスルール生成に必要なユーザ情報を推論する。
一実施形態によれば、ペルソナモジュール149bを介して送信された情報を用いて推論されたユーザ情報はプロファイル(profile)情報又はプリファランス(preference)情報を含む。前記プロセッサ情報又はプリファランス情報はユーザのアカウント(account)及び累積された情報を介して推論される。
前記プロセッサ情報はユーザの身上情報を含む。例えば、前記プロファイル情報はユーザの統計情報を含む。前記統計情報は、例えば、ユーザの性(gender)、年齢などを含む。他に例えば、前記プロファイル情報はライフイベント(life event)情報を含む。前記ライフイベント情報は、例えば、ログ情報をライフイベントモデル(life event model)と比べて推論されて、行動パターン(behavior patter)を分析して補強される。また、他に例えば、前記プロファイル情報は関心(interest)情報を含む。前記関心情報は、例えば、関心ショッピング物品、関心分野(例えば、スポーツ、政治など)などを含む。また、他に例えば、前記プロファイル情報は活動地域情報を含む。前記活動地域情報は、例えば、家、働く所などに対する情報を含む。前記活動地域に対する情報は場所の位置に対する情報だけではなく累積滞留時間及び訪問回数を基準にして優先順位が記録された地域に対する情報を含む。また、他に例えば、前記プロセッサ情報は活動時間情報を含む。前記活動時間情報は、例えば、起床時間、出退勤時間、睡眠時間などに対する情報を含む。前記出退勤時間に対する情報は前記活動地域情報(例えば、家及び働く所に対する情報)を用いて推論される。前記睡眠時間に対する情報はユーザ端末100の不使用時間を介して推論される。
前記プリファランス情報はユーザの選好度情報を含む。例えば、前記プリファランス情報はアプリ選好度に対する情報を含む。前記アプリ選好度は、例えば、アプリの使用記録(例えば、時間別、場所別使用記録)を介して推論される。前記アプリの選好度はユーザの現状(例えば、時間、場所)によって実行されるアプリを決定するために用いられる。他に例えば、前記プリファランス情報は連絡先選好度に対する情報を含む。前記連絡先選好度は、例えば、連絡先の連絡頻度(例えば、時間別、場所別の連絡する頻度)情報を分析して推論される。前記連絡先選好度はユーザの現状(例えば、重複された名前に対する連絡)によって連絡する連絡先を決定するために用いられる。また、他に例えば、前記プリファランス情報はセッティング(setting)情報を含む。前記セッティング情報は、例えば、特定セッティング値の設定頻度(例えば、時間別、場所別セッティング値で設定する頻度)情報を分析して推論される。前記セッティング情報はユーザの現状(例えば、時間、場所、状況)によって特定セッティング値を設定するために用いられる。また、他に例えば、前記プリファランス情報は場所選好度を含む。前記場所選好度は、例えば、特定場所の訪問記録(例えば、時間別の訪問記録)を介して推論される。前記場所選好度はユーザの現状(例えば、時間)によって訪問している場所を決定するために用いられる。また、他に例えば、前記プリファランス情報は命令選好度を含む。前記命令選好度は、例えば、命令使用頻度(例えば、時間別、場所別の使用頻度)を介して推論される。前記命令選好度はユーザの現状(例えば、時間、場所)によって用いられる命令語パターンを決定するために用いられる。特に、前記命令選好度はログ情報を分析して実行されているアプリの現状でユーザが最も多く選択したメニューに対する情報を含む。
図9は、一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて機能を実行する状況を説明する図面である。
動作(1)で、ユーザ端末100は音楽再生をリクエストするユーザの命令を受信する。例えば、ユーザ端末100は入力モジュール(例えば、図1の入力モジュール110)を用いて音楽再生をリクエストするユーザの音声を受信する。この場合、ユーザ端末100はユーザの音声と共にユーザが位置する場所で発生する環境音(例えば、ノイズ、周辺音など)を受信する。すなわち、ユーザ端末100は音声と環境音を含むオーディオデータ(又は、サウンドデータ)を受信する。
例えば、ユーザ端末100は地下鉄に乗って移動しながら、‘‘音楽を再生してくれ’’と言うユーザの音声を受信する。この場合、ユーザはユーザ端末100を用いて目的地までの経路をリクエストして地下鉄利用に対する案内を確認した状態である。また、ユーザ端末100は地下鉄で放送される‘‘次の駅はサダンです。’’という次の駅の名称を案内する環境音も受信する。
多様な実施形態によれば、ユーザ端末100は内部に記憶された知能型エージェント(例えば、図2の知能型エージェント145)を用いてオーディオデータの内容を認識し、当該機能を実行する。図9では、ユーザ端末100が知能型サーバー200と連動して機能を実行することを仮定して説明する。
動作(2)で、ユーザ端末100は通信網を介して受信した音声と環境音を知能型サーバー200に送信する。
動作(3)で、知能型サーバー200は受信した音声と環境音を用いてパスルールを生成する。
一実施形態によれば、知能型サーバー200のASRモジュール210は受信したオーディオデータで音声信号と環境音信号を抽出する。ASRモジュール210は音声信号と環境音信号をテキストデータ形態に変更する。例えば、ASRモジュール210に含まれた発話認識モジュールは音声信号と環境音信号に含まれた発声と音素情報及び音素情報の組合わせに対する情報を用いて受信した音声信号と環境音信号をテキストデータ形態に変換する。
多様な実施形態によれば、環境音信号が音声ではない場合、ASRモジュール210は環境音信号のパターンを決定する動作を実行する。
一実施形態によれば、知能型サーバー200のNLUモジュール220はテキストデータに変換にされた‘‘音楽を再生してくれ’’という音声信号に対して文法的分析又は意味的分析を実行して音声の内容を把握する。例えば、NLUモジュール220は受信した音声のドメイン(例えば、音楽)、意図(例えば、音楽再生)又は前記意図を表現するのに必要なパラメーター(例えば、音楽ファイル、ラジオチャンネルなど)を得る。
NLUモジュール220はユーザ入力の意図及びパラメーターに基づいて一つのパスルール、又は複数のパスルールを生成する。例えば、NLUモジュール220は音楽再生アプリケーションを選択し、再生する音楽ファイルを決定するパスルールを選択する。多様な実施形態によれば、NLUモジュール220はラジオ再生アプリケーションを選択し、再生するチャンネルを決定するパスルールを生成する。
一実施形態によれば、PPモジュール230は複数のパスルールのうちの少なくとも一つのパスルールを選択する。
PPモジュール230はユーザ端末100の知能型エージェント(例えば、図2の知能型エージェント145)から受信したユーザ端末100の情報(例えば、アプリ情報など)に対応するパスルールを選択してNLUモジュール220に送信する。例えば、PPモジュール230はユーザが音楽再生アプリケーションをラジオアプリケーションより多く用いた状況に対する情報を受信し、音楽再生アプリケーションを実行するパスルールを選択する。PPモジュール230は選択されたパスルールをNLUモジュール220へ送信する。
本発明の一実施形態によれば、知能型サーバー200は音楽再生をリクエストする音声の大きさによって前記パスルールに含まれた動作を変更する。例えば、知能型サーバー200は受信したユーザの音声大きさが累積された状況より小さい場合に音楽再生時のボリュームをユーザが平素に設定した段階より低く設定されるようにパスルールに含まれた動作を変更する。
本発明の一実施形態によれば、知能型サーバー200のNLUモジュール220はテキストデータで変換された‘‘次の駅はサダンです’’という環境音信号に対して文法的分析又は意味的分析を実行して音声の内容を把握する。
一実施形態によれば、NLUモジュール220はユーザの意図及び分析した環境音信号に基づいて一つのパスルール、又は複数のパスルールを生成する。例えば、NLUモジュール220は次の駅の名称を案内する環境音信号の意味を把握し、ユーザ端末100がユーザに目的地までの経路を案内した状況を確認し、目的地まで行くために残った地下鉄駅を案内するパスルールを生成する。
一実施形態によれば、NLUモジュール220は地下鉄路線図アプリケーションを実行し、ユーザの移動経路の中で残った地下鉄駅を表示するパスルールを生成する。多様な実施形態によれば、NLUモジュール220はスピーカーを実行して残った地下鉄駅の個数を音声で案内するパスルールを生成する。
一実施形態によれば、PPモジュール230は複数のパスルールのうちの少なくとも一つのパスルールを選択する。
PPモジュール230はユーザ端末100の知能型エージェント(例えば、図2の知能型エージェント145)から受信したユーザ端末100の情報(例えば、アプリ情報など)に対応するパスルールを選択してNLUモジュール220に送信する。例えば、PPモジュール230はユーザ端末100が音楽再生アプリケーションを実行することを確認し、スピーカーを実行して残る地下鉄駅の個数を音声で案内するパスルールを選択する。
動作(4)で、知能型サーバー200は選択されたパスルールをユーザ端末100に送信する。
動作(5)で、ユーザ端末100は受信したパスルールによって音楽再生アプリケーションを実行し、選択された音楽ファイルを再生する。また、ユーザ端末100は目的地と現在駅の位置によって残った駅の個数を算出してスピーカーを介してユーザに残った駅の個数を案内する。
このように、本発明の一実施形態による知能化システムはユーザの命令によるパスルール生成時の環境音(例えば、地下鉄案内コメント)を用いて生成された環境情報(例えば、ユーザが地下鉄に乗って移動する状況)を用いて追加的なパスルールを生成する。
図10は、一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて機能を実行する他の状況を説明する図面である。
動作(1)で、ユーザ端末100は音楽再生をリクエストするユーザの命令を受信する。例えば、ユーザ端末100は入力モジュール(例えば、図1の入力モジュール110)を用いて音楽再生をリクエストするユーザの音声を受信する。この場合、ユーザ端末100はユーザの音声と共にユーザが位置する場所で発生される環境音(例えば、ノイズ、周辺音など)を受信する。すなわち、ユーザ端末100は音声と環境音を含むオーディオデータを受信する。
例えば、ユーザ端末100は雨が降る場所で‘‘音楽を再生してくれ’’と言うユーザの音声を受信する。また、ユーザ端末100は雨が降る音をユーザが位置する状況に対する環境音として受信する。
動作(2)で、ユーザ端末100は通信網を介して受信した音声と環境音を知能型サーバー200に送信する。
動作(3)で、知能型サーバー200は受信した音声と環境音を用いてパスルールを生成する。
一実施形態によれば、知能型サーバー200のASRモジュール210は受信したオーディオデータで音声信号と環境音信号を抽出する。ASRモジュール210は音声信号と環境音信号をテキストデータ形態に変更する。ASRモジュール210は環境音信号が分離した音声信号をテキストデータ形態に変更する。例えば、ASRモジュール210に含まれた発話認識モジュールは受信した音声信号に含まれた発声と音素情報及び音素情報の組合わせに対する情報を用いて受信した音声信号をテキストデータ形態に変換する。
一実施形態によれば、知能型サーバー200のNLUモジュール220はテキストデータに変換された‘‘音楽を再生してくれ’’という音声信号に対して文法的分析又は意味的分析を実行して音声の内容を把握する。例えば、NLUモジュール220は受信した音声のドメイン(例えば、音楽)、意図(例えば、音楽再生)又は前記意図を表現するのに必要なパラメーター(例えば、音楽ファイル、ラジオチャンネルなど)を得る。
NLUモジュール220はユーザ入力の意図及びパラメーターに基づいて一つのパスルール、又は複数個のパスルールを生成する。例えば、NLUモジュール220は音楽再生アプリケーションを選択し、再生する音楽ファイルを決定するパスルールを生成する。多様な実施形態によれば、NLUモジュール220はラジオ再生アプリケーションを選択し、再生するチャンネルを決定するパスルールを生成する。
一実施形態によれば、PPモジュール230は複数個のパスルールのうちの少なくとも一つのパスルールを選択する。
PPモジュール230はユーザ端末100の知能型エージェント(例えば、図2の知能型エージェント145)から受信したユーザ端末100の情報(例えば、アプリ情報など)に対応するパスルールを選択してNLUモジュール220に送信する。例えば、PPモジュール230はユーザが最近ラジオアプリケーションを実行した状況に対する情報を受信し、ラジオアプリケーションを実行するパスルールを選択する。PPモジュール230は選択されたパスルールをNLUモジュール220に送信する。
多様な実施形態によれば、知能型サーバー200は音楽再生をリクエストするユーザの音声トーンによってパスルールに含まれた動作を変更する。例えば、知能型サーバー200は受信した音声を分析してユーザの気持ち(例えば、憂鬱な状態、楽しい状態、悲しい状態など)によって再生しようとする音楽ファイルが異なるように設定されるようにパスルールに含まれた動作を変更する。
本発明の一実施形態によれば、知能型サーバー200のNLUモジュール220は環境音信号のパターンを決定(又は、分析、確認)する。例えば、NLUモジュール220は環境音信号のパターンを分析してユーザが位置した地域に雨が降っていることを確認する。
追加的に、NLUモジュール220はユーザ端末100の知能型エージェント(例えば、図2の知能型エージェント145)から受信したユーザ端末100の情報を活用する。例えば、NLUモジュール220はユーザ端末100で受信した位置情報、天気情報を用いてユーザが位置した地域に雨が降っていることに対する正確度を高める。
NLUモジュール220は分析された環境音信号のパターンに基づいて一つのパスルール、又は複数のパスルールを生成する。例えば、NLUモジュール220は傘を準備することを案内するパスルールを生成する。
一実施形態によれば、NLUモジュール220は天気アプリケーションを実行し、傘を準備するように案内するユーザインターフェースを表示する。多様な実施形態によれば、NLUモジュール220はスピーカーを実行して傘を準備することを音声で案内するパスルールを生成する。
一実施形態によれば、PPモジュール230は複数のパスルールのうちの少なくとも一つのパスルールを選択する。
PPモジュール230はユーザ端末100の知能型エージェント(例えば、図2の知能型エージェント145)から受信したユーザ端末100の情報(例えば、アプリ情報など)に対応するパスルールを選択してNLUモジュール220に送信する。例えば、PPモジュール230はユーザ端末100が音楽再生アプリケーションを実行することを確認し、スピーカーを実行して傘を準備することを音声で案内するパスルールを選択する。
動作(4)で、知能型サーバー200は選択されたパスルールをユーザ端末100に送信する。
動作(5)で、ユーザ端末100は受信したパスルールによって音楽再生アプリケーションを実行し、選択された音楽ファイルを再生する。また、ユーザ端末100は傘を準備することを音声で案内する。
一実施形態によれば、知能型サーバー200は上述したように一つのASRモジュール210、NLUモジュール220を用いて音声信号と環境音信号に対する認識を実行する。しかし、これに限定されず、知能型サーバー200は音声信号と環境音信号のためのそれぞれのASRモジュール210とNLUモジュール220を含む。
このように、本発明の一実施形態による知能化システムはユーザの命令によるパスルール生成時の環境音信号のパターンを用いて生成された環境(例えば、雨が降る状況)を用いて追加的なパスルールを生成する。
図11は、一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて他の装置を制御する状況を説明する図面である。
動作(1)で、ユーザ端末100は音を小さくすることをリクエストするユーザの命令を受信する。例えば、ユーザ端末100は入力モジュール(例えば、図1の入力モジュール110)を用いて音を小さくすることをリクエストするユーザの音声を受信する。この場合、ユーザ端末100はユーザの音声と共にユーザが位置する場所で発生する環境音(例えば、TV音、ホームスピーカー音など)を受信する。すなわち、ユーザ端末100は音声と環境音を含むオーディオデータを受信する。
例えば、ユーザ端末100はTVを視聴する場所で‘‘音を小さくしてくれ’’と言うユーザの音声を受信する。
動作(2)で、ユーザ端末100は通信網を介して受信した音声と環境音を知能型サーバー200に送信する。
動作(3)で、知能型サーバー200は受信した音声と環境音を用いてパスルールを生成する。
一実施形態によれば、知能型サーバー200のASRモジュール210は受信したオーディオデータで音声信号と環境音信号を抽出する。ASRモジュール210は音声信号と環境音信号をテキストデータ形態に変更する。ASRモジュール210は環境音信号が分離した音声信号をテキストデータ形態に変更する。例えば、ASRモジュール210に含まれた発話認識モジュールは受信した音声信号に含まれた発声と音素情報及び音素情報の組合わせに対する情報を用いて受信した音声信号をテキストデータ形態に変換する。
一実施形態によれば、知能型サーバー200のNLUモジュール220はテキストデータに変換された‘‘音を小さくしてくれ’’という音声信号に対して文法的分析又は意味的分析を実行して音声の内容を把握する。
一実施形態によれば、知能型サーバー200のNLUモジュール220は環境音信号のパターンを決定(又は分析、確認、識別)する。例えば、NLUモジュール220は環境音信号のパターンを分析してユーザがTVを視聴する場所にあることを確認する。
NLUモジュール220は音声信号の内容と環境音信号のパターンを用いて一つのパスルール、又は複数のパスルールを生成する。例えば、NLUモジュール220は音声信号の内容と環境音信号のパターンを組合わせてユーザの意図を推定するDeep NLUモジュール(図示せず)を含む。
Deep NLUモジュールは音声信号の内容に対する分析結果、環境音信号のパターンを分析して音を小さくするべき客体がないことを識別し、ユーザの意図はTV1010の音を小さくするということと推定する。
そして、Deep NLUモジュールは予めユーザ端末100と通信が樹立されたTV1010に対して音を小さくする信号を送信するパスルールを生成する。
一実施形態によれば、PPモジュール230は複数のパスルールのうちの少なくとも一つのパスルールを選択する。
例えば、PPモジュール230はユーザ端末100が、通信の樹立されたTV1010に向けて音を小さくすることをリクエストする信号を送信するパスルールを選択する。
動作(4)で、知能型サーバー200は選択されたパスルールをユーザ端末100に送信する。
動作(5)で、ユーザ端末100は受信したパスルールによってTV1010のボリュームを制御する信号を生成して送信する。
一実施形態によれば、知能型サーバー200は上述したように一つのASRモジュール210、NLUモジュール220を用いて音声信号と環境音信号に対する認識を行う。しかし、これに限定されず、知能型サーバー200は音声信号と環境音信号のためのそれぞれのASRモジュール210とNLUモジュール220を含む。
このように、本発明の一実施形態による知能化システムは、ユーザの命令と環境音信号のパターンを組合わせてユーザの意図を反映したパスルールを生成する。また、本発明の一実施形態による知能化システムは第1電子装置(例えば、ユーザ端末100を用いて第2電子装置(例えば、TV1010))を制御する。
図12は、一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いてパスルールを生成する状況を説明するフローチャートである。
一実施形態によれば、図12で第1構成要素1101は例えば、ユーザ端末100となり、第2構成要素1102は例えば、知能型サーバー(例えば、図1の知能型サーバー200)となる。又は、第1構成要素1101は例えば、汎用プロセッサとなり、第2構成要素1102は例えば、人工知能専用プロセッサとなる。又は、第1構成要素1101は例えば、少なくとも一つのアプリケーションとなり、第2構成要素1102は例えば、オペレーティングシステム(operating system、OS)となる。
第2構成要素1102は第1構成要素1101より集積化されるか、専用化されるか、ディレー(delay)が小さいか、性能が優れるか、又は多くのリソースを有する構成要素として、音声信号と環境音信号を含むオーディオデータの認識のための学習モデルの生成、更新又は適用時に要求される多くの演算を第1構成要素1101より速やかに処理する構成要素となる。したがって、第1構成要素1101も学習モデルの生成、更新又は適用を処理できる。
一実施形態によれば、学習モデルは少なくとも一つのハードウェアチップ形態で製作されて電子装置に搭載される。例えば、学習モデルは人工知能(AI;artificial intelligence)のための専用ハードウェアチップ形態で製作され、又は既存の汎用プロセッサ(例えば、CPU又はapplication processor)又はグラフィック専用プロセッサ(例えば、GPU)の一部で製作されて前述した各種電子装置に搭載される。
多様な実施形態によれば、前記学習モデルは、例えば、図6のASRモジュール210、NLUモジュール220、パスプランナーモジュール230、DMモジュール240、NLGモジュール250、又はTTSモジュール260のうちの少なくとも一つ以上を取り替えることができる。例えば、前述したモジュールのうちの少なくとも一つ以上の役目を前記学習モデルが実行する。前記学習モデルは複数のサブ学習モデルから構成され、前述したモジュールの役目を実行し、又は一つの学習モデルから構成され、前述したモジュールの役目をいずれも実行することもできる。
多様な実施形態によれば、前記学習モデルは、例えば、図2の知能型エージェント145、知能型サービスモジュール149、又は実行マネージャーモジュール147うちの少なくとも一つ以上を取り替えることができる。例えば、前述したモジュールのうちの少なくとも一つ以上の役目を前記学習モデルが実行できる。例えば、前述したモジュールのうちの少なくとも一つ以上の役目を前記学習モデルが実行する。前記学習モデルは複数のサブ学習モデルから構成され、前述したモジュールの役目を実行し、又は一つの学習モデルから構成され、前述したモジュールの役目をいずれも実行できる。
多様な実施形態によれば、第2構成要素1102と類似の機能を実行する第3構成要素(図示せず)が追加されることができる。例えば、第2構成要素1102はオーディオデータ中で音声信号を認識するように設定された学習モデルの生成、更新又は適用時要求される演算を実行する構成要素となる。また、第3構成要素(図示せず)はオーディオデータ中の環境音信号を認識するように設定された学習モデルの生成、更新又は適用時の要求される演算を実行する構成要素となる。しかし、これに限定されるものではない。
この場合、第1構成要素1101及び第2構成要素1102間のデータを送/受信するためのインターフェースが定義される。
例えば、学習モデルに適用する学習用データを因子値(又は、媒介値又は伝達値)で有するAPI(application program interface)が定義される。APIはどの一つのプロトコル(例えば、ユーザ端末100で定義されたプロトコル)で他のプロトコル(例えば、知能型サーバー200で定義されたプロトコル)の処理のために呼び出すことができるサブルーチン又は関数の集合で定義される。すなわち、APIを介していずれか一つのプロトコルで他のプロトコルの動作が実行される環境が提供される。
動作1110で、第1構成要素1101はオーディオデータを受信する。例えば、第1構成要素1101はユーザの音声とユーザが位置した所で生成される音声と環境音をオーディオデータで受信する。
動作1120で、第1構成要素1101はオーディオデータの内容を推定することを第2構成要素1102にリクエストする。
例えば、第1構成要素1101に対応するユーザ端末(例えば、図9のユーザ端末100)は第2構成要素1102に対応する知能型サーバー(例えば、図9の知能型サーバー200)にオーディオデータを送信しながらオーディオデータの内容を推定することをリクエストする。
多様な実施形態によれば、第1構成要素1101に対応するユーザ端末(例えば、図2のユーザ端末100)に含まれたプロセッサ(例えば、図2のプロセッサ150)は第2構成要素1102に対応するユーザ端末(例えば、図2のユーザ端末100)に含まれた知能型サービスモジュール(例えば、図2の知能型サービスモジュール149)にオーディオデータを送信しながらオーディオデータの内容を推定することをリクエストする。
動作1130で、第2構成要素1102はオーディオデータ中で音声信号を学習モデルに適用して音声信号の内容を推定する。例えば、第2構成要素1102は自動音声認識モジュール、自然語理解モジュールなどを用いて音声の内容を推定する。
動作1140で、第2構成要素1102はオーディオデータ中の環境音信号を学習モデルに適用して環境情報を推定する。例えば、第2構成要素1102はユーザの音声信号と環境音信号を区分して抽出する。そして、第2構成要素1102に含まれた自動音声認識モジュールはユーザの音声信号以外の環境音信号に含まれた音声の内容を推定する。また、自動音声認識モジュールは環境音信号のパターンを推定してユーザが位置した環境を推定する。
動作1150で、第2構成要素1102は音声信号の内容と環境音信号のパターンを用いてパスルールを生成する。
動作1160で第2構成要素1102はパスルールを第1構成要素1101に送信する。第1構成要素1101は受信したパスルールによって少なくとも一つ以上のアプリケーション又は機能を実行する。
図13は、一実施形態による知能化システムで用いられる学習モデルを生成する動作を図式化した図面である。
一実施形態による学習モデルは、例えば、音声と環境音を含むオーディオデータの内容を推定して知能化サービスを実行するように設定された学習モデルである。
多様な実施形態によれば、前記学習モデルは、例えば、図6のASRモジュール210、NLUモジュール220、パスプランナーモジュール230、DMモジュール240、NLGモジュール250、又はTTSモジュール260うちの少なくとも一つを含む。
多様な実施形態によれば、前記学習モデルは、例えば、図2の知能型エージェント145、知能型サービスモジュール149、又は実行マネージャーモジュール147のうちの少なくとも一つを含む。
多様な実施形態によれば、知能化システムは音声信号の内容を推定する学習モデルと環境音信号の内容を推定するか、又は環境音信号のパターンを推定するように設定された学習モデルを一つで具現するか、又はそれぞれ具現する。
図13を参照すると、学習データ1210を基盤とし、学習モデルを学習させるモデリング過程1220が実行される。この場合、学習データ1210は、例えば、オーディオデータ1212、オーディオデータの特徴(例えば、オーディオデータの波形など)1214、オーディオデータの内容1216及びオーディオデータに対応するパスルール1218のうちの少なくとも一つを含む。
一実施形態によれば、学習モデルはオーディオデータ1212のカテゴリーを区分する。例えば、第1カテゴリは衝撃音(例えば、車の衝突、建物の崩壊時発生する騷音)を含むカテゴリーである。第2カテゴリーは脅威、救助要請、感嘆詞、泣き声などの高音を含むカテゴリーである。第3カテゴリーは俗語を含むカテゴリーなどを含む。しかし、これに限定されない。例えば、学習モデルは、カテゴリー指定なしに、入力されるオーディオデータをクラスタリングして複数個のクラスタを生成する。
例えば、学習モデルはオーディオデータ1212中の環境音は第1カテゴリー又は第2カテゴリーのうちの少なくとも一つのカテゴリーに区分する。また、学習モデルはオーディオデータ1212のうちの音声は第2カテゴリー又は第3カテゴリーのうちの少なくとも一つのカテゴリーに区分する。
一実施形態によれば、オーディオデータの特徴1214は、例えば、オーディオデータ波形の特徴である。オーディオデータ波形の特徴は、例えば、時間によるオーディオデータの大きさの高低を意味する。
一実施形態によれば、オーディオデータの内容1216は各カテゴリーのオーディオデータが発生した状況を意味する。例えば、衝撃音を含む第1カテゴリーに属する環境音はユーザが位置した環境で事故(例えば、自動車衝突、建物崩壊など)が発生したことを意味する。脅威、救助要請、感嘆詞、又は泣き声など高音を含む第2カテゴリーに属する環境音又は音声はユーザが助けをリクエストする状況を意味する。俗語を含む第3カテゴリーが属する音声はユーザが他人から脅威にあう状況を意味する。
モデリング過程1220が実行されると、音声化環境音を含むオーディオデータの内容を推定し、これに対する結果としてユーザの状況を推定し、これに対応するパスルールを生成するように設定された学習モデル1230が導出される。
多様な実施形態によれば、知能型サーバー200又はユーザ端末100の知能型エージェント(例えば、図2の知能型エージェント145)は上述した学習モデルを用いてオーディオデータの内容を推定してユーザの状況を推定し、これに対応するパスルールを生成する。
図14は、一実施形態による知能化システムで知能化サービスを実行する状況を説明する図面である。
一実施形態によれば、ユーザ端末100は、オーディオデータの大きさの変化量が予め設定された範囲を超過する場合に、受信されるオーディオデータ中の一定時間(例えば、10乃至30sec)のオーディオデータを記憶する。例えば、40dB程度のオーディオデータが受信されている中、90dBに近いオーディオデータが短い時間(例えば、1乃至3秒)以内に受信される場合がオーディオデータ大きさの変化量が大きい状況である。しかし、これに限定されるものではない。
多様な実施形態によれば、ユーザ端末100はユーザ端末の動きが予め設定された範囲を超過する場合に一定時間のオーディオデータを受信して記憶する。例えば、ユーザ端末100が1秒以内に50乃至70cm以上動くことがユーザ端末100に含まれた加速度センサー、ジャイロセンサーなどを介して確認される場合、受信されるオーディオデータ中の一定時間を記憶する。
動作(1)で、ユーザ端末100は自動車が衝突して発生する衝撃音、又は人が倒れながら大声を出す高音の感嘆詞を受信する。一実施形態によれば、ユーザ端末100は知能型エージェント(例えば、図2の知能型エージェント145)に含まれたウェークアップ認識モジュールを介して衝撃音又は高音を受信する。このために、ウェークアップ認識モジュールは低電力プロセッサで具現される。
自動車の衝突により生成される衝撃音、又は事故により人が大声を出す場合はオーディオデータの大きさの変化量が予め設定された範囲を越す場合である。したがって、ユーザ端末100は予め設定された時間の間のオーディオデータを受信して記憶する。
多様な実施形態によれば、ユーザ端末100はユーザが倒れながらユーザ端末が早い時間に予め設定された距離を移動することを検出する。したがって、この場合、ユーザの倒れることによるユーザ端末の動きを検出し、予め設定された時間の間のオーディオデータを受信して記憶する。
動作(2)で、ユーザ端末100は受信したオーディオデータを用いてパスルールを生成する。
一実施形態によれば、ユーザ端末100に含まれた知能型エージェント(例えば、図2の知能型エージェント145)は受信したオーディオデータのカテゴリーを推定する。
一実施形態によれば、知能型エージェント(例えば、図2の知能型エージェント145)は受信したオーディオデータを音声と環境音で区分する。
例えば、知能型エージェント(例えば、図2の知能型エージェント145)は自動車が衝突しながら生じた環境音は、衝撃音を含む第1カテゴリーに属すると推定する。また、知能型エージェント(例えば、図2の知能型エージェント145)は人が倒れながら生成した音声(例えば、高音の感嘆詞)は、高音を含む第2カテゴリーに属すると推定する。
知能型エージェント(例えば、図2の知能型エージェント145)は各カテゴリーに対応するパスルールを生成する。例えば、知能型エージェント(例えば、図2の知能型エージェント145)は予め設定された対象(例えば、家族)に事故発生を案内するメッセージを送信するパスルールを生成する。
ユーザ端末100は生成されたパスルールによって機能を実行する。
動作(3)で、ユーザ端末100は通信網を介して、受信したオーディオデータを知能型サーバー200に送信する。
動作(4)で、知能型サーバー200はオーディオデータのカテゴリーを推定する。一実施形態によれば、知能型サーバー200は受信されたオーディオデータを音声と環境音で区分してそれぞれのカテゴリーを推定する。例えば、知能型サーバー200のNLUモジュール220は自動車が衝突しながら生じた環境音は衝撃音を含む第1カテゴリーに属すると推定する。また、NLUモジュール220は人が倒れながら生成した音声(例えば、高音の感嘆詞)は高音を含む第2カテゴリーに属すると推定する。
NLUモジュール220は各カテゴリーに対応するパスルールを生成する。例えば、NLUモジュール220は予め設定された対象に事故発生情報を知らせる。
動作(5)で、知能型サーバー200は緊急出動サービスをサポートする業体(例えば、事故発生地域と隣接した所に位置する消防署、警察署など)が運営するサーバーに事故発生情報を送信する。多様な実施形態によれば。知能型サーバー200は交通情報に係る情報を提供するサーバーに事故発生情報を送信する。
動作(6)で、前記のサーバーは受信した情報によって緊急出動サービスを実行するか、交通案内情報を更新する。また、知能型サーバー200は事故発生地域と隣接した所に位置した多様な装置(例えば、スマートフォン、コネクテッドカーなど)に事故発生情報を送信する。
動作(7)で、知能型サーバー200は知能型サーバー200が生成したパスルールによって実行された動作をユーザ端末100に送信してユーザに案内する。
図15は、一実施形態による知能化システムで知能化サービスを実行する他の状況を説明する図面である。
動作(1)で、ユーザ端末100はオーディオデータを受信する。
多様な実施形態によれば、ユーザ端末100は予め設定された単語、又は文章が受信される場合に一定時間のオーディオデータを受信して記憶する。
例えば、ユーザ端末100は予め設定された俗語などが受信される状況で受信したオーディオデータ中の一定時間のオーディオデータを記憶する。
動作(2)で、ユーザ端末100は通信網を介して受信したオーディオデータを知能型サーバー200に送信する。
動作(3)で、知能型サーバー200は受信したオーディオデータを用いてパスルールを生成する。
一実施形態によれば、知能型サーバー200のASRモジュール210はオーディオデータで音声と環境音を区分する。ASRモジュール210は区分された音声をテキストデータ形態に変更する。例えば、ASRモジュール210に含まれた発話認識モジュールは受信した音声に含まれた発声と音素情報及び音素情報の組合わせに対する情報を用いて、受信した音声と環境音をテキストデータ形態に変換する。
一実施形態によれば、知能型サーバー200のNLUモジュール220はテキストデータに対して文法的分析又は意味的分析を実行して音声の内容を把握する。
NLUモジュール220は音声の内容に基づいて一つのパスルール、又は複数個のパスルールを生成する。例えば、NLUモジュール220は録音アプリケーションを実行するパスルールを生成する。多様な実施形態によれば、NLUモジュール220はカメラアプリケーションを実行するパスルールを生成する。
一実施形態によれば。PPモジュール230は複数個のパスルールのうちの少なくとも一つのパスルールを選択する。
PPモジュール230はユーザ端末100の知能型エージェント(例えば、図2の知能型エージェント145)から受信したユーザ端末100の情報(例えば、アプリ使用情報、端末の姿勢情報など)に対応するパスルールを選択してNLUモジュール220に送信する。例えば、PPモジュール230は、ユーザの端末がカバンやポケットなど暗い環境に位置している情報を受信し、録音アプリケーションを実行するパスルールを選択する。PPモジュール230は選択されたパスルールをNLUモジュール220に送信する。
動作(4)で、知能型サーバー200は選択されたパスルールをユーザ端末100に送信する。
動作(5)で、ユーザ端末100は受信したパスルールによって録音アプリケーションを実行し、オーディオデータ録音を開始する。
多様な実施形態によれば、ユーザ端末100はユーザ端末100に含まれた知能型エージェント(例えば、図2の知能型エージェント145)、知能型サービスモジュール(例えば、図2の知能型サービスモジュール149)、及び実行マネージャーモジュール147などを用いて知能型サーバー200と連動なしに上述した過程を実行する。
図16は、一実施形態による統合知能化システムでユーザ端末に入力されるオーディオデータを用いて知能化サービスを実行する状況を説明するフローチャートである。
動作1510で、第1構成要素1101は音声と環境音を含むオーディオデータを受信する。
動作1515で、第1構成要素1101は受信したオーディオデータが知能化サービスの自動実行条件を満足するかを確認する。例えば、第1構成要素1101は受信したオーディオデータの大きさが予め設定された値以上に大きくなるか、予め設定された単語又は文章が受信した場合、自動実行条件を満足したと確認する。また、第1構成要素1101はユーザ端末100が短い時間に予め設定された距離以上動くと、自動実行条件を満足したと確認する。
動作1520で、第1構成要素1101は知能化サービスの自動実行のための条件が満足されたと確認されると、予め設定された時間の間のオーディオデータを記憶する。
動作1525で、第1構成要素1101はオーディオデータを適用する学習モデルを決定する。
一実施形態によれば、第1構成要素1101に対応するユーザ端末(例えば、図9のユーザ端末100)はオーディオデータに含まれた音声と環境音を区分する。例えば、ユーザ端末(例えば、図9のユーザ端末100)はオーディオデータに含まれた衝撃音は環境音として区分し、俗語及び高音は音声として区分する。
動作1530で、俗語を受信して知能化サービスが自動実行される場合に、第1構成要素1101は記憶されたオーディオデータ(例えば、俗語)を学習モデルに適用して内容を推定する。一実施形態による、第1構成要素1101はオーディオデータ(例えば、俗語)をテキストデータに変換し、テキストデータに対して文法的分析又は意味的分析を実行して音声の内容を把握し、オーディオデータ(例えば、俗語)のカテゴリーを推定する。
動作1535で、第1構成要素1101は推定した内容及びオーディオデータ(例えば、俗語)のカテゴリーによってパスルールを生成する。例えば、第1構成要素1101は録音アプリケーションを実行するパスルールを生成する。
動作1540で、第1構成要素1101はパスルールによる機能を実行する。例えば、第1構成要素1101は録音アプリケーションを実行する。
動作1545で、衝撃音、又は高音の感嘆詞が受信されて知能化サービスが自動実行される場合に、第1構成要素1101はオーディオデータ(例えば、衝撃音又は高音)の内容を推定することを第2構成要素1102にリクエストする。
動作1550で、第2構成要素1102はオーディオデータ(例えば、衝撃音又は高音)を学習モデルに適用して内容を推定する。一実施形態による第2構成要素1102は、オーディオデータ(例えば、衝撃音又は高音)のカテゴリーを推定する。
動作1555で、第2構成要素1102は推定した内容を用いてパスルールを生成する。例えば、第2構成要素1102はオーディオデータ(例えば、衝撃音又は高音)のカテゴリーによってパスルールを生成する。例えば、第2構成要素1102は予め設定された対象(例えば、消防署、警察署、交通案内センターなど)に事故発生に対する情報を知らせるパスルールを生成する。
動作1560で、第2構成要素1102はパスルールによる機能を実行する。例えば、第2構成要素1102は消防署などに事故発生を知らせる。
10 統合知能化システム
100 ユーザ端末
110 入力モジュール
111 マイク
112 ハードウェアキー
120 ディスプレイ
120a、120b 入力
121 UI(user interface)
121a 音声認識ボタン
130 スピーカー
140、1630 メモリー
141、143 アプリ(アプリケーションプログラム)
141a、143a 実行サービスモジュール
141b、143b 動作
145 知能型エージェント
147 実行マネージャーモジュール
149 知能型サービスモジュール
149a コンテキストモジュール
149b ペルソナモジュール
149c 提案モジュール
149c−1 ヒント提供モジュール
149c−2 コンテキストヒント生成モジュール
149c−3 条件チェッキングモジュール
149c−4 条件モデルモジュール
149c−5 再使用ヒント生成モジュール
149c−6 紹介ヒント生成モジュール
150 プロセッサ
200 知能型サーバー
210 自動音声認識(ASR)モジュール
211 自動音声認識データベース
220 自然語理解(NLU)モジュール
221 自然語認識データベース
230 パスプランナー(PP)モジュール
231 パスルールデータベース
240 対話マネージャー(DM)モジュール
250 自然語生成(NLG)モジュール
260 テキスト音声変換(TTS)モジュール
300 個人化情報サーバー
400 提案サーバー
500 通信ネットワーク
1010 TV
1101 第1構成要素
1102 第2構成要素
1210 学習データ
1212 オーディオデータ
1214 オーディオデータの特徴
1216 オーディオデータの内容
1218 パスルール
1601 ネットワーク環境内の電子装置
1602、1604 電子装置
1608 サーバー
1620 プロセッサ
1621 メインプロセッサ
1623 補助プロセッサ
1632 揮発性メモリー
1634 非揮発性メモリー
1636 内装メモリー
1638 外装メモリー
1640 プログラム
1642 オペレーティングシステム
1644 ミドルウェア
1646 アプリケーション
1650 入力装置
1655 音響出力装置
1660 表示装置
1670 オーディオモジュール
1676 センサモジュール
1677 インターフェース
1678 接続端子
1679 ハプティックモジュール
1680 カメラモジュール
1688 電力管理モジュール
1689 バッテリ
1690 通信モジュール
1692 無線通信モジュール
1694 有線通信モジュール
1696 加入者識別モジュール
1697 アンテナモジュール
1699 ネットワーク

Claims (15)

  1. サウンドデータを処理するシステムであって、
    通信インターフェースと、
    前記通信インターフェースと作動的に接続された少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと作動的に接続された少なくとも一つのメモリーと、を含み、
    前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
    前記通信インターフェースを介して第1外部装置からサウンドデータを受信し、
    自動音声認識モジュールの少なくとも一部を用いて前記サウンドデータで音声信号とノイズ信号を抽出し、
    前記音声信号をテキストデータに変更し、
    前記ノイズ信号の少なくとも一部に基づいてノイズパターンを決定し、
    前記テキストデータ及び前記ノイズパターンを用いてドメインを決定するように設定された命令語を記憶する、ことを特徴とするシステム。
  2. 前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
    前記テキストデータの少なくとも一部に基づいて意図を決定するように設定された命令語を記憶する、ことを特徴とする請求項1に記載のシステム。
  3. 前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
    前記第1外部装置が前記音声信号に係るタスクを実行するための状態のシーケンスを決定するように設定された命令語を記憶する、ことを特徴とする請求項2に記載のシステム。
  4. 前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
    前記通信インターフェースを介して前記状態のシーケンスを前記第1外部装置に提供するように設定された命令語を記憶する、ことを特徴とする請求項3に記載のシステム。
  5. 前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
    第2外部装置が前記音声信号に係るタスクを実行するための状態のシーケンスを決定するように設定された命令語を記憶する、ことを特徴とする請求項3に記載のシステム。
  6. 前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
    前記通信インターフェースを介して前記状態のシーケンスを前記第1外部装置に提供するように設定された命令語を記憶する、ことを特徴とする請求項5に記載のシステム。
  7. 入力モジュールと、
    メモリーと、
    プロセッサと、を含み、
    前記メモリーは、前記プロセッサが、
    前記入力モジュールを介して受信される音声信号と環境音信号を含むオーディオデータを、人工知能アルゴリズムを用いて学習された学習モデルに適用して前記オーディオデータの内容を推定した結果であるパスルールを生成するが、前記学習モデルは前記環境音信号から獲得した環境音信号のパターンを用いて前記パスルールを生成するように設定された命令語を記憶し、
    前記学習モデルはオーディオデータ、オーディオデータの内容、オーディオデータの特徴、及びオーディオデータに対応するパスルールのうちの少なくとも一つを学習データとして学習され、前記オーディオデータの内容を推定してパスルールを生成するように設定された学習モデルである、ことを特徴とするユーザ端末。
  8. 前記ユーザ端末は通信部をさらに含み、
    前記メモリーは、前記プロセッサが、
    前記入力モジュールを介して受信される前記オーディオデータが外部装置へ送信されるように前記通信部を制御し、
    前記オーディオデータを前記外部装置に記憶された学習モデルに適用した結果であるパスルールが前記通信部を介して前記外部装置から受信されると、前記パスルールによる機能を実行するように設定された命令語を記憶し、
    前記学習モデルは、前記音声信号から推定した内容及び前記環境音から獲得した環境音信号のパターンによってパスルールを生成するように設定された学習モデルである、ことを特徴とする請求項7に記載のユーザ端末。
  9. 前記メモリーは、前記プロセッサが、
    前記環境音信号から推定した前記環境音信号のパターンを用いる状況で、
    前記環境音信号のパターンを用いて前記パスルールに含まれた少なくとも一つの動作の内容を変更するように設定された命令語を記憶する、ことを特徴とする請求項7に記載のユーザ端末。
  10. 前記メモリーは、前記プロセッサが、
    前記環境音信号から推定した前記環境音信号のパターンを用いる状況で、
    前記環境音信号のパターンを用いて前記パスルール以外に他のパスルールを生成するように設定された命令語を記憶する、ことを特徴とする請求項7に記載のユーザ端末。
  11. 前記メモリーは、前記プロセッサが、
    予め設定された距離を予め設定された時間内に移動するか、受信されたオーディオデータの大きさが予め設定された大きさ以上に大きくなるか、又は受信されたオーディオデータが予め設定された単語又は文章を含むことが確認される状況のうちの少なくとも一つの状況で、前記オーディオデータを前記学習モデルに適用するように設定された、ことを特徴とする請求項7に記載のユーザ端末。
  12. 第1外部装置からサウンドデータを受信する動作と、
    前記サウンドデータで音声信号とノイズ信号を抽出する動作と、
    前記音声信号をテキストデータに変更する動作と、
    前記ノイズ信号の少なくとも一部に基づいてノイズパターンを決定する動作と、
    前記テキストデータと前記ノイズパターンを用いてドメインを決定する動作と、を含む、ことを特徴とするサウンドデータを処理するシステムの制御方法。
  13. 前記システムの制御方法は、
    前記テキストデータの少なくとも一部に基づいて意図を決定する動作を含む、ことを特徴とする請求項12に記載のサウンドデータを処理するシステムの制御方法。
  14. 前記システムの制御方法は、
    前記第1外部装置が前記音声信号に係るタスクを実行するための状態のシーケンスを決定する動作を含む、ことを特徴とする請求項12に記載のサウンドデータを処理するシステムの制御方法。
  15. 前記システムの制御方法は、
    前記状態のシーケンスを前記第1外部装置に提供する動作を含む、ことを特徴とする請求項14に記載のサウンドデータを処理するシステムの制御方法。
JP2019046536A 2018-03-19 2019-03-13 サウンドデータを処理するシステム、及びシステムの制御方法 Active JP7317529B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0031472 2018-03-19
KR1020180031472A KR102635811B1 (ko) 2018-03-19 2018-03-19 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법

Publications (2)

Publication Number Publication Date
JP2019164345A true JP2019164345A (ja) 2019-09-26
JP7317529B2 JP7317529B2 (ja) 2023-07-31

Family

ID=65903984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019046536A Active JP7317529B2 (ja) 2018-03-19 2019-03-13 サウンドデータを処理するシステム、及びシステムの制御方法

Country Status (6)

Country Link
US (1) US11004451B2 (ja)
EP (1) EP3543999A3 (ja)
JP (1) JP7317529B2 (ja)
KR (1) KR102635811B1 (ja)
CN (1) CN110288987B (ja)
WO (1) WO2019182226A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11792185B2 (en) 2019-01-08 2023-10-17 Universal Electronics Inc. Systems and methods for associating services and/or devices with a voice assistant
US11700412B2 (en) 2019-01-08 2023-07-11 Universal Electronics Inc. Universal voice assistant
US11756412B2 (en) 2011-10-28 2023-09-12 Universal Electronics Inc. Systems and methods for associating services and/or devices with a voice assistant
CN108600911B (zh) 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备
US11776539B2 (en) 2019-01-08 2023-10-03 Universal Electronics Inc. Voice assistant with sound metering capabilities
EP3994688A1 (en) * 2019-07-05 2022-05-11 GN Audio A/S A method and a noise indicator system for identifying one or more noisy persons
CN112581961A (zh) * 2019-09-27 2021-03-30 百度在线网络技术(北京)有限公司 一种语音信息处理方法及装置
US10798583B1 (en) * 2019-10-07 2020-10-06 Paypal, Inc. Mobile device user detection
CN114556241B (zh) * 2019-10-14 2024-05-07 西门子股份公司 将人工智能(ai)集成到自动化中的可编程逻辑控制器(plc)程序中功能块的ai伴侣
KR20210045241A (ko) * 2019-10-16 2021-04-26 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령어 공유 방법
CN111081248A (zh) * 2019-12-27 2020-04-28 安徽仁昊智能科技有限公司 一种人工智能语音识别装置
EP4066239A4 (en) * 2019-12-31 2023-01-18 Universal Electronics Inc. VOICE ASSISTANT WITH NOISE MEASUREMENT CAPABILITIES
WO2021165900A1 (en) * 2020-02-21 2021-08-26 Das Mrinmoy Jyoti An automated system to perform desired orchestration activity
KR102400903B1 (ko) * 2020-03-13 2022-05-24 주식회사 코클 오디오 데이터 식별장치
KR20210119181A (ko) 2020-03-24 2021-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11929079B2 (en) * 2020-10-27 2024-03-12 Samsung Electronics Co., Ltd Electronic device for managing user model and operating method thereof
CN112465664B (zh) * 2020-11-12 2022-05-03 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN113976478A (zh) * 2021-11-15 2022-01-28 中国联合网络通信集团有限公司 矿石检测方法、服务器、终端及系统
US11995755B1 (en) * 2022-12-31 2024-05-28 Theai, Inc. Emotional state models and continuous update of emotional states of artificial intelligence characters

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002737A (ja) * 2012-06-15 2014-01-09 Samsung Electronics Co Ltd サーバ及びサーバの制御方法
JP2014509757A (ja) * 2011-03-31 2014-04-21 マイクロソフト コーポレーション ロケーションベースの会話理解
JP2015517709A (ja) * 2012-06-30 2015-06-22 インテル コーポレイション コンテキストに基づくメディアを適応配信するシステム
WO2016136062A1 (ja) * 2015-02-27 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US20160378747A1 (en) * 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
JP2017010516A (ja) * 2015-06-24 2017-01-12 百度在線網絡技術(北京)有限公司 人工知能に基づくヒューマンコンピュータインターアクションの方法、装置及び端末機器

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040053393A (ko) 2002-12-14 2004-06-24 삼성전자주식회사 이동통신 단말기를 이용한 응급구조 요청방법
KR100679043B1 (ko) * 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
US7490042B2 (en) * 2005-03-29 2009-02-10 International Business Machines Corporation Methods and apparatus for adapting output speech in accordance with context of communication
US8323189B2 (en) 2006-05-12 2012-12-04 Bao Tran Health monitoring appliance
US7792813B2 (en) * 2007-08-31 2010-09-07 Microsoft Corporation Presenting result items based upon user behavior
US8311820B2 (en) * 2010-01-28 2012-11-13 Hewlett-Packard Development Company, L.P. Speech recognition based on noise level
US9489375B2 (en) * 2011-06-19 2016-11-08 Mmodal Ip Llc Speech recognition using an operating system hooking component for context-aware recognition models
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US20150248454A1 (en) * 2012-09-28 2015-09-03 Nec Corporation Query similarity-degree evaluation system, evaluation method, and program
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
KR102516577B1 (ko) * 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9236046B2 (en) * 2013-03-14 2016-01-12 Covidien Lp Systems and methods for identifying patient distress based on a sound signal
US9412373B2 (en) * 2013-08-28 2016-08-09 Texas Instruments Incorporated Adaptive environmental context sample and update for comparing speech recognition
US9432768B1 (en) * 2014-03-28 2016-08-30 Amazon Technologies, Inc. Beam forming for a wearable computer
JP6410491B2 (ja) * 2014-06-27 2018-10-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム
KR102169692B1 (ko) * 2014-07-08 2020-10-26 삼성전자주식회사 멀티-코어 프로세서를 포함하는 시스템 온 칩 및 그것의 동적 전력 관리 방법
KR102332729B1 (ko) * 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
KR102247533B1 (ko) * 2014-07-30 2021-05-03 삼성전자주식회사 음성 인식 장치 및 그 제어 방법
US9799329B1 (en) 2014-12-03 2017-10-24 Amazon Technologies, Inc. Removing recurring environmental sounds
KR101941273B1 (ko) 2014-12-09 2019-04-10 경희대학교 산학협력단 모바일 단말기 기반의 생활 코칭 방법과 모바일 단말기 및 이 방법을 기록한 컴퓨터로 읽을 수 있는 기록 매체
JP6584795B2 (ja) * 2015-03-06 2019-10-02 株式会社東芝 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム
KR101774236B1 (ko) * 2015-05-22 2017-09-12 한국항공대학교산학협력단 사용자 상황 인지 장치 및 방법
KR20170000722A (ko) * 2015-06-24 2017-01-03 엘지전자 주식회사 전자기기 및 그의 음성 인식 방법
KR20170018140A (ko) * 2015-08-05 2017-02-16 한국전자통신연구원 비언어적 음성 인식을 포함하는 응급 상황 진단 방법 및 장치
KR20170032114A (ko) * 2015-09-14 2017-03-22 삼성전자주식회사 음성 인식 장치 및 그의 제어방법
US10289381B2 (en) * 2015-12-07 2019-05-14 Motorola Mobility Llc Methods and systems for controlling an electronic device in response to detected social cues
CN107195296B (zh) * 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN107516511B (zh) * 2016-06-13 2021-05-25 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
KR101772156B1 (ko) * 2016-07-22 2017-09-12 이풍우 음성 인식 하드웨어 모듈
CN109075815A (zh) * 2016-08-09 2018-12-21 华为技术有限公司 一种片上系统和处理设备
KR102515996B1 (ko) * 2016-08-26 2023-03-31 삼성전자주식회사 음성 인식을 위한 전자 장치 및 그 제어 방법
US10360910B2 (en) * 2016-08-29 2019-07-23 Garmin Switzerland Gmbh Automatic speech recognition (ASR) utilizing GPS and sensor data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014509757A (ja) * 2011-03-31 2014-04-21 マイクロソフト コーポレーション ロケーションベースの会話理解
JP2014002737A (ja) * 2012-06-15 2014-01-09 Samsung Electronics Co Ltd サーバ及びサーバの制御方法
JP2015517709A (ja) * 2012-06-30 2015-06-22 インテル コーポレイション コンテキストに基づくメディアを適応配信するシステム
WO2016136062A1 (ja) * 2015-02-27 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017010516A (ja) * 2015-06-24 2017-01-12 百度在線網絡技術(北京)有限公司 人工知能に基づくヒューマンコンピュータインターアクションの方法、装置及び端末機器
US20160378747A1 (en) * 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback

Also Published As

Publication number Publication date
EP3543999A3 (en) 2019-11-06
CN110288987B (zh) 2024-02-06
KR20190109868A (ko) 2019-09-27
KR102635811B1 (ko) 2024-02-13
CN110288987A (zh) 2019-09-27
JP7317529B2 (ja) 2023-07-31
US20190287525A1 (en) 2019-09-19
WO2019182226A1 (en) 2019-09-26
US11004451B2 (en) 2021-05-11
EP3543999A2 (en) 2019-09-25

Similar Documents

Publication Publication Date Title
JP7317529B2 (ja) サウンドデータを処理するシステム、及びシステムの制御方法
US10832674B2 (en) Voice data processing method and electronic device supporting the same
US11670302B2 (en) Voice processing method and electronic device supporting the same
US11367439B2 (en) Electronic device and method for providing artificial intelligence services based on pre-gathered conversations
KR102389625B1 (ko) 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법
US10521723B2 (en) Electronic apparatus, method of providing guide and non-transitory computer readable recording medium
KR102339819B1 (ko) 프레임워크를 이용한 자연어 표현 생성 방법 및 장치
KR102508863B1 (ko) 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버
CN110945584A (zh) 基于上下文信息确定接收语音输入的持续时间的电子设备和系统
KR20200074690A (ko) 전자 장치 및 이의 제어 방법
KR102594838B1 (ko) 사용자 발화에 응답하여 통화를 포함하는 태스크를 수행하는 전자 장치 및 그 동작 방법
KR102369309B1 (ko) 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치
KR102421745B1 (ko) Tts 모델을 생성하는 시스템 및 전자 장치
US11443738B2 (en) Electronic device processing user utterance and control method thereof
KR102519635B1 (ko) 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치
KR102396147B1 (ko) 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법
US11127400B2 (en) Electronic device and method of executing function of electronic device
KR102643720B1 (ko) 로봇용 인공지능 인터페이스 시스템
KR20220082577A (ko) 전자장치 및 그의 제어방법
JP2021047507A (ja) 通知システム、通知制御装置、通知制御方法、及び通知制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230719

R150 Certificate of patent or registration of utility model

Ref document number: 7317529

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150