JP2019164345A

JP2019164345A - サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法

Info

Publication number: JP2019164345A
Application number: JP2019046536A
Authority: JP
Inventors: 兌九金; Taegu Kim; 相勇朴; Sangyong Park; 正ウク朴; Jungwook Park; 大日魯; Dale Noh; 東鎬張; Dongho Jang
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-03-19
Filing date: 2019-03-13
Publication date: 2019-09-26
Anticipated expiration: 2039-03-13
Also published as: EP3543999A3; CN110288987B; KR20190109868A; KR102635811B1; CN110288987A; JP7317529B2; US20190287525A1; WO2019182226A1; US11004451B2; EP3543999A2

Abstract

【課題】オーディオデータを認識して機能を実行するパスルールを生成する。【解決手段】サウンドデータを処理するシステムは、通信インターフェースと、通信インターフェースと接続された少なくとも一つのプロセッサと、プロセッサと接続された少なくとも一つのメモリーと、を含み、メモリーは、動作時、プロセッサが、通信インターフェースを介して第１外部装置からサウンドデータを受信し、サウンドデータで音声信号とノイズ信号を抽出し、音声信号をテキストデータに変更し、ノイズパターンを決定し、テキストデータとノイズパターンを用いてドメインを決定する命令語を記憶する。規則基盤モデル又は人工知能モデルはオーディオデータを入力値で用いて判断された結果であるパスルールを生成する。【選択図】図９

Description

本発明は、サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法に係り、より詳しくは、ユーザの音声又はノイズを含むサウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法に関する。

キーボードやマウスを用いた伝統的な入力方式に付加し、最近の電子装置は音声入力のような多様な入力方式をサポートする。例えば、スマートフォンやタブレットのような電子装置は音声認識サービスが実行された状態で入力されるユーザの音声を認識し、音声入力に対応する動作を実行するか、検索結果を提供する。

近年、音声認識サービスは自然語を処理する技術に基づいて発展しつつある。自然語を処理する技術はユーザ発話の意図を把握し、意図に当たる結果をユーザに提供する技術である。

また、自然語を処理する技術のうちの一つとして人工知能システムが用いられている。人工知能システムは既存のルール（ｒｕｌｅ）基盤のスマートシステムと異なり、機械が自ら学習して判断して利口になるシステムである。人工知能システムは使用するほど認識率が向上してユーザ趣向をより正確に理解するようになり、既存のルール基盤のスマートシステムは徐徐にディープランニング基盤の人工知能システムに取り替えられている。

人工知能技術は機械学習（例えば、ディープランニング）及び機械学習を活用した要素技術から構成される。

機械学習は入力データの特徴を自ら分類／学習するアルゴリズム技術であり、要素技術はディープランニングなどの機械学習アルゴリズムを活用して人間頭脳の認知、判断などの機能を模写する技術として、言語的理解、視覚的理解、推論／予測、知識表現、動作制御などの技術分野から構成される。

人工知能技術が応用される多様な分野は次の通りである。言語的理解は、人間の言語／文字を認識して応用／処理する技術として、自然語処理、機械翻訳、対話システム、質疑応答、音声認識／合成などを含む。視覚的理解は、事物を人間の視覚のように認識して処理する技術として、客体認識、客体追跡、映像検索、人間認識、場面理解、空間理解、映像改善などを含む。推論予測は、情報を判断して論理的に推論して予測する技術として、知識／確率基盤推論、最適化予測、選好基盤計画、推薦などを含む。知識表現は、人間の経験情報を知識データで自動化処理する技術として、知識構築（データ生成／分類）、知識管理（データ活用）などを含む。動作制御は、車の自律走行、ロボットの動きを制御する技術として、動き制御（航法、衝突、走行）、操作制御（行動制御）などを含む。

大韓民国特許出願１０−２００４−００５３３９３Ａ号公報

音声認識機能のような知能化サービスは音声を受信し、受信した音声の内容を認識して機能を実行する時、音声が受信される状況を考慮できずに機能が行われる。

本発明の多様な実施形態は、受信した音声の内容に対応する機能を実行する時、音声が受信される環境に対する情報を用いてユーザにより適合の機能を提供しようとする。

一実施形態によるシステムは、通信インターフェースと、前記通信インターフェースと作動的に接続された少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと作動的に接続された少なくとも一つのメモリーと、を含み、前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、前記通信インターフェースを介して第１外部装置からサウンドデータを受信し、自動音声認識モジュールの少なくとも一部を用いて前記サウンドデータで音声信号とノイズ信号を抽出し、前記音声信号をテキストデータに変更し、前記ノイズ信号の少なくとも一部に基づいてノイズパターンを決定し、前記テキストデータ及び前記ノイズパターンを用いてドメインを決定するように設定された命令語を記憶する。

一実施形態によるシステムの制御方法は、第１外部装置からサウンドデータを受信する動作と、前記サウンドデータで音声信号とノイズ信号を抽出する動作と、前記音声信号をテキストデータに変更する動作と、前記ノイズ信号の少なくとも一部に基づいてノイズパターンを決定する動作と、前記テキストデータと前記ノイズパターンを用いてドメインを決定する動作と、を含む。

本発明の一実施形態によれば、ユーザ端末はユーザの音声に対応する機能実行時、ユーザが位置した環境に対する情報を用いて機能を実行できる。

本発明の多様な実施形態によれば、ユーザ端末はユーザの音声に対応する機能実行時、ユーザの状況に対する情報を用いて機能に含まれた動作を変更できる。

本発明の多様な実施形態によれば、ユーザ端末はユーザの音声に対応する機能実行時、ユーザが位置した環境に対する情報を用いて追加的な機能を実行できる。

本発明の多様な実施形態による統合知能化システムを示す図面である。本発明の一実施形態による統合知能化システムのユーザ端末を示すブロック図である。本発明の一実施形態によるユーザ端末の知能型アプリを実行させることを示す図面である。本発明の一実施形態による知能型サービスモジュールのコンテキストモジュールが現状を収集することを示す図面である。本発明の一実施形態による知能型サービスモジュールの提案モジュールを示すブロック図である。本発明の一実施形態による統合知能化システムの知能型サーバーを示すブロック図である。本発明の一実施形態によるパスプランナーモジュール（ｐａｔｈｐｌａｎｎｅｒｍｏｄｕｌｅ）のパスルール（ｐａｔｈｒｕｌｅ）を生成する方法を示す図面である。本発明の一実施形態による知能型サービスモジュールのペルソナモジュール（ｐｅｒｓｏｎａｍｏｄｕｌｅ）がユーザの情報を管理することを示す図面である。一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて機能を実行する状況を説明する図面である。一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて機能を実行する他の状況を説明する図面である。一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて他の装置を制御する状況を説明する図面である。一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いてパスルールを生成する状況を説明するフローチャートである。一実施形態による知能化システムで用いられる学習モデルを生成する動作を図式化した図面である。一実施形態による知能化システムで知能化サービスを実行する状況を説明する図面である。一実施形態による知能化システムで知能化サービスを実行する他の状況を説明する図面である。一実施形態による統合知能化システムでユーザ端末に入力されるオーディオデータを用いて知能化サービスを実行する状況を説明するフローチャートである。多様な実施形態による、ネットワーク環境内の電子装置のブロック図である。

本文書に開示した多様な実施形態による電子装置は多様な形態の装置となる。電子装置は、例えば、携帯用通信装置（例えば、スマートフォン）、コンピューター装置、携帯用マルチメディア装置、携帯用医療機器、カメラ、ウェアラブル装置、サーバー又は家電装置のうちの少なくとも一つを含む。本文書の実施形態による電子装置は前述した機器に限定されない。

本文書の多様な実施形態及びここに用いた用語は、本文書に記載した技術を特定の実施形態に対して限定しようとするものではなく、当該実施形態の多様な変更、均等物、及び／又は代替物を含むと理解されなければならない。図面の説明と関連して類似の構成要素に対しては類似の参照符号を用いる。単数の表現は文脈上、明白に意図しない限り、複数の表現を含む。本文書において、‘‘Ａ又はＢ’’、‘‘Ａ及び／又はＢのうちの少なくとも一つ’’、‘‘Ａ、Ｂ又はＣ’’又は‘‘Ａ、Ｂ及び／又はＣのうちの少なくとも一つ’’などの表現は、共に羅列された項目のすべての可能な組合を含む。‘‘第１’’、‘‘第２’’、‘‘一番目’’又は‘‘二番目’’などの表現は当該構成要素を、順序又は重要度に構わずに修飾し、一つの構成要素を他の構成要素と区分するために用いるだけで当該構成要素を限定しない。どんな（例えば、第１構成要素が異なる（例えば、第２）構成要素に‘‘（機能的又は通信的に）接続され’’たり‘‘接続されて’’いると言及した時には、前記どんな構成要素が前記他の構成要素に直接的に接続されたり、他の構成要素（例えば、第３構成要素）を介して接続される。

以下、本文書の多様な実施形態が添付した図面を参照しながら詳しく説明する。

本発明の一実施形態を述べる前に、本発明の一実施形態が適用される統合知能化システムに対して説明する。

図１は、本発明の多様な実施形態による統合知能化システムを示す図面である。
図１を参照すれば、統合知能化システム１０は、ユーザ端末１００、知能型サーバー２００、個人化情報サーバー３００、提案サーバー４００又は通信ネットワーク５００を含む。

ユーザ端末１００はユーザ端末１００内部に記憶されたアプリ（ａｐｐ）（又は、アプリケーションプログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ））（例えば、アラームアプリ、メッセージアプリ、写真（ギャラリー）アプリ等）を介してユーザに必要なサービスを提供する。例えば、ユーザ端末１００はユーザ端末１００内部に記憶された知能型アプリ（又は、音声認識アプリ）を介して他のアプリを実行して動作させる。ユーザ端末１００の前記知能型アプリを介して前記他のアプリの実行して動作を実行させるためのユーザ入力を受信する。前記ユーザ入力は、例えば、物理的ボタン、タッチパッド、音声入力、遠隔入力などを介して受信される。一実施形態によれば、ユーザ端末１００は携帯電話、スマートフォン、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）又はノートパソコンコンピューターなどのインターネットに接続可能な各種端末装置（又は、電子装置）が該当する。

一実施形態によれば、ユーザ端末１００はユーザの発話をユーザ入力として受信する。ユーザ端末１００はユーザの発話を受信し、前記ユーザの発話に基づいてアプリを動作させる命令を生成する。これにより、ユーザ端末１００は前記命令を用いて前記アプリを動作させる。

知能型サーバー２００は、通信網を介してユーザ端末１００からユーザ音声入力（ｖｏｉｃｅｉｎｐｕｔ）を受信してテキストデータ（ｔｅｘｔｄａｔａ）に変更する。他の実施形態では、知能型サーバー２００は前記テキストデータに基づいてパスルール（ｐａｔｈｒｕｌｅ）を生成（又は、選択）する。前記パスルールはアプリの機能を実行するための動作（ａｃｔｉｏｎ）（又は、オペレーション（ｏｐｅｒａｔｉｏｎ））に対する情報又は前記動作を実行するために必要なパラメーターに対する情報を含む。また、前記パスルールは前記アプリの前記動作の手順を含む。ユーザ端末１００は前記パスルールを受信し、前記パスルールによってアプリを選択し、前記選択したアプリで前記パスルールに含まれた動作を実行させる。

本文書の‘‘パスルール（ｐａｔｈｒｕｌｅ）’’という用語は一般的に、電子装置がユーザによってリクエストされたタスクを実行するための状態のシーケンスを意味するが、これに制限されない。言い換えれば、パスルールは状態のシーケンスに対する情報を含む。前記タスクは、例えば、知能型アプリが提供するある動作（ａｃｔｉｏｎ）である。前記タスクは日程を生成するか、望む相手に写真を送信するか、天気情報を提供することを含む。ユーザ端末１００は少なくとも一つ以上の状態（例えば、ユーザ端末１００の動作状態）を順次に有することによって、前記タスクを実行する。

一実施形態によれば、パスルールは規則基盤モデル又は人工知能（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｔ、ＡＩ）システムによって提供されたり、生成される。人工知能システムはルールベースドシステム（ｒｕｌｅ−ｂａｓｅｄｓｙｓｔｅｍ）であり、神経網ベースシステム（ｎｅｕｒａｌｎｅｔｗｏｒｋ−ｂａｓｅｄｓｙｓｔｅｍ（例えば、フィードフォワード神経網（ｆｅｅｄｆｏｒｗａｒｄｎｅｕｒａｌｎｅｔｗｏｒｋ、ＦＮＮ））、循環神経網（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ、ＲＮＮ）である。又は、前述したことの組合わせ又はこれと異なる人工知能システムである。一実施形態によれば、パスルールは予め定義されたパスルールの集合から選択されるか、ユーザのリクエストに応答してリアルタイムに生成される。例えば、人工知能システムは予め定義された複数のパスルールのうちの少なくとも１つのパスルールを選択するか、動的（又は、リアルタイム）でパスルールを生成する。また、ユーザ端末１００はパスルールを提供するためにハイブリッドシステムを用いる。

一実施形態によれば、ユーザ端末１００は前記動作を実行し、動作を実行したユーザ端末１００の状態に対応する画面をディスプレーに表示する。他に例えば、ユーザ端末１００は前記動作を実行し、動作を実行した結果をディスプレーに表示しないこともある。ユーザ端末１００は、例えば、複数の動作を実行し、前記複数の動作の一部結果だけをディスプレーに表示する。ユーザ端末１００は、例えば、最後の手順の動作を実行した結果だけをディスプレーに表示する。また、他に例えば、ユーザ端末１００はユーザの入力を受信して前記動作を実行した結果をディスプレーに表示する。

個人化情報サーバー３００は、ユーザ情報が記憶されたデータベースを含む。例えば、個人化情報サーバー３００はユーザ端末１００からユーザ情報（例えば、コンテキスト情報、アプリ実行など）を受信して前記データベースに記憶する。知能型サーバー２００は通信網を介して個人化情報サーバー３００から前記ユーザ情報を受信してユーザ入力に対するパスルールを生成する場合に用いる。一実施形態によれば、ユーザ端末１００は通信網を介して個人化情報サーバー３００からユーザ情報を受信してデータベースを管理するための情報として用いる。

提案サーバー４００は端末内に機能、或いはアプリケーションの紹介又は提供される機能に対する情報が記憶されたデータベースを含む。例えば、提案サーバー４００は個人化情報サーバー３００からユーザ端末機１００のユーザ情報を受信してユーザが用いることができる機能に対するデータベースを含む。ユーザ端末１００は通信網を介して提案サーバー４００から前記提供される機能に対する情報を受信してユーザに情報を提供する。

図２は、本発明の一実施形態による統合知能化システムのユーザ端末を示すブロック図である。
図２を参照すれば、ユーザ端末１００は入力モジュール１１０、ディスプレー１２０、スピーカー１３０、メモリー１４０又はプロセッサ１５０を含む。ユーザ端末１００はハウジングをさらに含み、前記ユーザ端末１００の構成は前記ハウジングの内部に安着されたりハウジング上に（ｏｎｔｈｅｈｏｕｓｉｎｇ）位置する。ユーザ端末１００は前記ハウジングの内部に位置した通信回路をさらに含む。ユーザ端末１００は前記通信回路を介して外部サーバー（例えば、知能型サーバー２００とデータ（又は、情報）を送受信する。

一実施形態による、入力モジュール１１０はユーザからユーザ入力を受信する。例えば、入力モジュール１１０は接続された外部装置（例えば、キーボード、ヘッドセット）からユーザ入力を受信する。他に例えば、入力モジュール１１０はディスプレー１２０と結合されたタッチスクリーン（例えば、タッチスクリーンディスプレー）を含む。また、他に例えば、入力モジュール１１０はユーザ端末１００（又は、ユーザ端末１００のハウジング）に位置したハードウェアキー（又は、物理的キー）を含む。

一実施形態によれば、入力モジュール１１０はユーザの発話を音声信号で受信するマイクを含む。例えば、入力モジュール１１０は発話入力システム（ｓｐｅｅｃｈｉｎｐｕｔｓｙｓｔｅｍ）を含み、前記発話入力システムを介してユーザの発話を音声信号で受信する。前記マイクは、例えば、ハウジングの一部分（例えば、第１部分）を介して露出される。

一実施形態による、ディスプレー１２０はイメージやビデオ、及び／又はアプリケーションの実行画面を表示する。例えば、ディスプレー１２０はアプリのグラフィックユーザインターフェース（ｇｒａｐｈｉｃｕｓｅｒｉｎｔｅｒｆａｃｅ）（ＧＵＩ）を表示する。一実施形態によれば、ディスプレー１２０はハウジングの一部分（例えば、第２部分）を介して露出される。

一実施形態によれば、スピーカー１３０は音声信号を出力する。例えば、スピーカー１３０はユーザ端末１００内部で生成された音声信号を外部に出力する。一実施形態によれば、スピーカー１３０はハウジングの一部分（例えば、第３部分）を介して露出される。

一実施形態によれば、メモリー１４０は複数のアプリ（又は、アプリケーションプログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ））１４１、１４３を記憶する。複数のアプリ１４１、１４３は、例えば、ユーザ入力に対応する機能を実行するためのプログラム（ｐｒｏｇｒａｍ）である。一実施形態によれば、メモリー１４０は知能型エージェント１４５、実行マネージャーモジュール１４７又は知能型サービスモジュール１４９を記憶する。知能型エージェント１４５、実行マネージャーモジュール１４７及び知能型サービスモジュール１４９は、例えば、受信したユーザ入力（例えば、ユーザ発話）を処理するためのフレームワーク（ｆｒａｍｅｗｏｒｋ又は、アプリケーションフレームワーク（ａｐｐｌｉｃａｔｉｏｎｆｒａｍｅｗｏｒｋ））である。

一実施形態によれば、メモリー１４０はユーザ入力を認識するのに必要な情報を記憶するデータベースを含む。例えば、メモリー１４０はログ（ｌｏｇ）情報を記憶するログデータベースを含む。他に例えば、メモリー１４０はユーザ情報を記憶するペルソナデータベースを含む。

一実施形態によれば、メモリー１４０は複数のアプリ１４１、１４３を記憶し、複数のアプリ１４１、１４３はロードされて動作する。例えば、メモリー１４０に記憶された複数のアプリ１４１、１４３は実行マネージャーモジュール１４７によってロードされて動作される。複数のアプリ１４１、１４３は機能を実行する実行サービスモジュール１４１ａ、１４３ａを含む。一実施形態において、複数のアプリ１４１、１４３は機能を実行するために実行サービスモジュール１４１ａ、１４３ａを介して複数の動作（例えば、状態のシーケンス）１４１ｂ、１４３ｂを実行する。言い換えれば、実行サービスモジュール１４１ａ、１４３ａは実行マネージャーモジュール１４７によって活性化され、複数の動作１４１ｂ、１４３ｂを実行する。

一実施形態によれば、アプリ１４１、１４３の動作１４１ｂ、１４３ｂが実行された時、動作１４１ｂ、１４３ｂの実行による実行状態画面はディスプレー１２０に表示される。前記実行状態画面は、例えば、動作１４１ｂ、１４３ｂが完了した状態の画面である。前記実行状態画面は、他に例えば、動作１４１ｂ、１４３ｂの実行が停止された状態（ｐａｒｔｉａｌｌａｎｄｉｎｇ（例えば、動作１４１ｂ、１４３ｂ）に必要なパラメーターが入力されない場合）の画面である。

一実施形態による、実行サービスモジュール１４１ａ、１４３ａはパスルールによって動作１４１ｂ、１４３ｂを実行する。例えば、実行サービスモジュール１４１ａ、１４３ａは実行マネージャーモジュール１４７によって活性化され、実行マネージャーモジュール１４７から前記パスルールによって実行リクエストが伝達され、前記実行リクエストに応じて動作１４１ｂ、１４３ｂをすることによって、アプリ１４１、１４３の機能を実行する。実行サービスモジュール１４１ａ、１４３ａは前記動作１４１ｂ、１４３ｂの実行が完了すると、完了情報を実行マネージャーモジュール１４７へ伝達する。

一実施形態によれば、アプリ１４１、１４３で複数の動作１４１ｂ、１４３ｂが実行される場合、複数の動作１４１ｂ、１４３ｂは順次に実行される。実行サービスモジュール１４１ａ、１４３ａは一つの動作（例えば、第１アプリ１４１の動作１、第２アプリ１４３の動作１）の実行が完了すれば次の動作（例えば、第１アプリ１４１の動作２、第２アプリ１４３の動作２）をオープンして完了情報を実行マネージャーモジュール１４７に送信する。ここで、任意の動作をオープンするということは、任意の動作を実行可能な状態に遷移させるか、任意の動作の実行を準備すると理解される。言い替えれば、任意の動作がオープンされなければ、当該の動作は実行されない。実行マネージャーモジュール１４７は前記完了情報を受信すると、次の動作（例えば、第１アプリ１４１の動作２、第２アプリ１４３の動作２）に対する実行リクエストを実行サービスモジュールに伝達する。一実施形態によれば、複数のアプリ１４１、１４３が実行される場合、複数のアプリ１４１、１４３は順次に実行される。例えば、第１アプリ１４１の最後の動作（例えば、第１アプリ１４１の動作３）の実行が完了して完了情報を受信すると、実行マネージャーモジュール１４７は第２アプリ１４３の第１動作（例えば、第２アプリ１４３の動作１）の実行リクエストを実行サービス１４３ａに送信する。

一実施形態によれば、アプリ１４１、１４３で複数の動作１４１ｂ、１４３ｂが実行された場合、前記実行された複数の動作１４１ｂ、１４３ｂのそれぞれの実行による結果画面はディスプレー１２０に表示される。一実施形態によれば、前記実行された複数の動作１４１ｂ、１４３ｂの実行による複数の結果画面の中の一部だけがディスプレー１２０に表示される。

一実施形態によれば、メモリー１４０は知能型エージェント１４５と連動された知能型アプリ（例えば、音声認識アプリ）を記憶する。知能型エージェント１４５と連動されたアプリはユーザの発話を音声信号で受信して処理する。一実施形態によれば、知能型エージェント１４５と連動されたアプリは入力モジュール１１０を介して入力される特定入力（例えば、ハードウェアキーを通じる入力、タッチスクリーンを通じる入力、特定音声入力）によって動作される。

一実施形態によれば、メモリー１４０に記憶された知能型エージェント１４５、実行マネージャーモジュール１４７又は知能型サービスモジュール１４９がプロセッサ１５０によって実行される。知能型エージェント１４５、実行マネージャーモジュール１４７又は知能型サービスモジュール１４９の機能はプロセッサ１５０によって具現される。前記知能型エージェント１４５、実行マネージャーモジュール１４７及び知能型サービスモジュール１４９の機能に対してプロセッサ１５０の動作で説明する。一実施形態によれば、メモリー１４０に記憶された知能型エージェント１４５、実行マネージャーモジュール１４７又は知能型サービスモジュール１４９はソフトウェアだけではなくハードウェアで具現される。

一実施形態によれば、プロセッサ１５０はユーザ端末１００の全般的な動作を制御する。例えば、プロセッサ１５０は入力モジュール１１０を制御してユーザ入力を受信する。プロセッサ１５０はディスプレー１２０を制御してイメージを表示する。プロセッサ１５０はスピーカー１３０を制御して音声信号を出力する。プロセッサ１５０はメモリー１４０を制御してプログラムを実行させて、必要な情報を呼び出すか、記憶する。

一実施形態によれば、プロセッサ１５０はメモリー１４０に記憶された知能型エージェント１４５、実行マネージャーモジュール１４７又は知能型サービスモジュール１４９を実行させる。これにより、プロセッサ１５０は知能型エージェント１４５、実行マネージャーモジュール１４７又は知能型サービスモジュール１４９の機能を具現する。

一実施形態による、プロセッサ１５０は知能型エージェント１４５を実行して受信されたユーザ入力の音声信号に基づいてアプリを動作させる命令を生成する。一実施形態による、プロセッサ１５０は実行マネージャーモジュール１４７を実行して前記生成された命令に応じてメモリー１４０に記憶されたアプリ１４１、１４３を実行させる。一実施形態によれば、プロセッサ１５０は知能型サービスモジュール１４９を実行してユーザの情報を管理し、前記ユーザの情報を用いてユーザ入力を処理する。

プロセッサ１５０は知能型エージェント１４５を実行して入力モジュール１１０を介して受信したユーザ入力を知能型サーバー２００に送信し、知能型サーバー２００を介して前記ユーザ入力を処理する。

一実施形態によれば、プロセッサ１５０は知能型エージェント１４５を実行して前記ユーザ入力を知能型サーバー２００に送信する前に前記ユーザ入力を前処理する。一実施形態によれば、知能型エージェント１４５は前記ユーザ入力を前処理するために、適応エコーキャンセラ（ａｄａｐｔｉｖｅｅｃｈｏｃａｎｃｅｌｌｅｒ、ＡＥＣ）モジュール、ノイズ抑制（ｎｏｉｓｅｓｕｐｐｒｅｓｓｉｏｎ、ＮＳ）モジュール、終点検出（ｅｎｄ−ｐｏｉｎｔｄｅｔｅｃｔｉｏｎ、ＥＰＤ）モジュール又は自動利得制御（ａｕｔｏｍａｔｉｃｇａｉｎｃｏｎｔｒｏｌ、ＡＧＣ）モジュールを含む。前記適応反響除去モジュールは前記ユーザ入力に含まれたエコー（ｅｃｈｏ）を除去する。前記ノイズ抑制モジュールは前記ユーザ入力に含まれた背景雑音を抑制する。前記終点検出モジュールは前記ユーザ入力に含まれたユーザ音声の終点を検出し、前記検出された終点を用いてユーザの音声が存在する部分をサーチする。前記自動利得制御モジュールは前記ユーザ入力を認識し、前記認識されたユーザ入力の処理に適合するように前記ユーザ入力の音量を調節する。一実施形態によれば、プロセッサ１５０は性能のために前記前処理構成を全部実行させることができるが、他の実施形態においてプロセッサ１５０は低電力で動作するために前記前処理構成のうちの一部のみを実行させる。

一実施形態によれば、知能型エージェント１４５はユーザの呼び出しを認識するためにメモリー１４０に記憶されたウェークアップ（ｗａｋｅｕｐ）認識モジュールを実行させる。これにより、プロセッサ１５０は前記ウェークアップ認識モジュールを介してユーザのウェークアップ命令を認識し、前記ウェークアップ命令を受信した場合、ユーザ入力を受信するための知能型エージェント１４５を実行させる。前記ウェークアップ認識モジュールは低電力プロセッサ（例えば、オーディオデータコデックスに含まれたプロセッサ）で具現される。一実施形態によれば、プロセッサ１５０はハードウェアキーを通じるユーザ入力を受信した時に知能型エージェント１４５を実行させる。知能型エージェント１４５が実行された場合、知能型エージェント１４５と連動された知能型アプリ（例えば、音声認識アプリ）が実行される。

一実施形態によれば、知能型エージェント１４５はユーザ入力を実行するための音声認識モジュールを含む。プロセッサ１５０は前記音声認識モジュールを介してアプリの動作を実行するようにするためのユーザ入力を認識する。例えば、プロセッサ１５０は前記音声認識モジュールを介してアプリ１４１、１４３で前記ウェークアップ命令のような動作を実行する制限されたユーザ（音声）入力（例えば、カメラアプリが実行中である時の撮影動作を実行させる‘‘パチリと’’のような発話など）を認識する。プロセッサ１５０は前記知能型サーバー２００を補助して前記音声認識モジュールを介してユーザ端末１００内で処理するユーザ命令を認識して早く処理する。一実施形態によれば、ユーザ入力を実行するための知能型エージェント１４５の音声認識モジュールはアプリプロセッサで具現される。

一実施形態によれば、知能型エージェント１４５の音声認識モジュール（ウェークアップモジュールの音声認識モジュールを含む）は音声を認識するためのアルゴリズムを用いてユーザ入力を認識する。前記音声を認識するために用いられるアルゴリズムは、例えば、ＨＭＭ（ｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌ）アルゴリズム、ＡＮＮ（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）アルゴリズム又はＤＴＷ（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ）アルゴリズムのうちの少なくとも一つである。

一実施形態によれば、プロセッサ１５０は知能型エージェント１４５を実行してユーザの音声入力をテキストデータに変換する。例えば、プロセッサ１５０は知能型エージェント１４５を介してユーザの音声を知能型サーバー２００に送信し、知能型サーバー２００からユーザの音声に対応するテキストデータを受信する。これにより、プロセッサ１５０は前記変換されたテキストデータをディスプレー１２０に表示する。

一実施形態によれば、プロセッサ１５０は知能型エージェント１４５を実行して知能型サーバー２００からパスルールを受信する。一実施形態によれば、プロセッサ１５０は知能型エージェント１４５を介して前記パスルールを実行マネージャーモジュール１４７へ伝達する。

一実施形態によれば、プロセッサ１５０は知能型エージェント１４５を実行して知能型サーバー２００から受信したパスルールによる実行結果ログ（ｌｏｇ）を知能型サービスモジュール１４９へ伝達し、前記伝達した実行結果ログはペルソナモジュール（ｐｅｒｓｏｎａｍａｎａｇｅｒ）１４９ｂのユーザの選好（ｐｒｅｆｅｒｅｎｃｅ）情報に累積されて管理される。

一実施形態による、プロセッサ１５０は実行マネージャーモジュール１４７を実行して知能型エージェント１４５からパスルールの伝達を受けてアプリ１４１、１４３を実行させて、アプリ１４１、１４３が前記パスルールに含まれた動作１４１ｂ、１４３ｂを実行するようにできる。例えば、プロセッサ１５０は実行マネージャーモジュール１４７を介してアプリ１４１、１４３で動作１４１ｂ、１４３ｂを実行するための命令情報（例えば、パスルール情報）を送信し、前記アプリ１４１、１４３から動作１４１ｂ、１４３ｂの完了情報の伝達を受ける。

一実施形態によれば、プロセッサ１５０は実行マネージャーモジュール１４７を実行して知能型エージェント１４５とアプリ１４１、１４３の間でアプリ１４１、１４３の動作１４１ｂ、１４３ｂ）を実行するための命令情報（例えば、パスルール情報）を伝達する。プロセッサ１５０は実行マネージャーモジュール１４７を介して前記パスルールによって実行するアプリ１４１、１４３をバインディング（ｂｉｎｄｉｎｇ）し、前記パスルールに含まれた動作１４１ｂ、１４３ｂの命令情報（例えば、パスルール情報）をアプリ１４１、１４３へ伝達する。例えば、プロセッサ１５０は実行マネージャーモジュール１４７を介して前記パスルールに含まれた動作１４１ｂ、１４３ｂを順次にアプリ１４１、１４３へ伝達し、アプリ１４１、１４３の動作１４１ｂ、１４３ｂを前記パスルールによって順次に実行させる。

一実施形態によれば、プロセッサ１５０は実行マネージャーモジュール１４７を実行してアプリ１４１、１４３の動作１４１ｂ、１４３ｂの実行状態を管理する。例えば、プロセッサ１５０は実行マネージャーモジュール１４７を介してアプリ１４１、１４３から前記動作１４１ｂ、１４３ｂ）の実行状態に対する情報の伝達を受ける。前記動作１４１ｂ、１４３ｂの実行状態が、例えば、停止された状態（ｐａｒｔｉａｌｌａｎｄｉｎｇ）の場合（例えば、動作１４１ｂ、１４３ｂ）に必要なパラメーターが入力されない場合）、プロセッサ１５０は実行マネージャーモジュール１４７を介して前記止められた状態に対する情報を知能型エージェント１４５へ伝達する。プロセッサ１５０は知能型エージェント１４５を介して前記伝達された情報を用い、ユーザに必要な情報（例えば、パラメーター情報）の入力をリクエストする。動作１４１ｂ、１４３ｂの実行状態が、他に例えば、動作状態の場合、プロセッサ１５０は知能型エージェント１４５を介してユーザから発話を受信する。プロセッサ１５０は実行マネージャーモジュール１４７を介して実行されているアプリ１４１、１４３及びアプリ１４１、１４３の実行状態に対する情報を知能型エージェント１４５に伝達する。プロセッサ１５０は知能型エージェント１４５を介して前記ユーザ発話を知能型サーバー２００に送信する。プロセッサ１５０は知能型エージェント１４５を介して知能型サーバー２００から前記ユーザの発話のパラメーター情報を受信する。プロセッサ１５０は知能型エージェント１４５を介して前記受信されたパラメーター情報を実行マネージャーモジュール１４７へ伝達する。実行マネージャーモジュール１４７は前記受信したパラメーター情報を用いて動作１４１ｂ、１４３ｂのパラメーターを新しいパラメーターに変更する。

一実施形態によれば、プロセッサ１５０は実行マネージャーモジュール１４７を実行してパスルールに含まれたパラメーター情報をアプリ１４１、１４３へ伝達する。前記パスルールによって複数のアプリ１４１、１４３が順次に実行される場合、実行マネージャーモジュール１４７は一つのアプリから他のアプリにパスルールに含まれたパラメーター情報を伝達する。

一実施形態によれば、プロセッサ１５０は実行マネージャーモジュール１４７を実行して複数のパスルールを受信する。プロセッサ１５０は実行マネージャーモジュール１４７を介してユーザの発話に基づいて複数のパスルールを選択する。例えば、プロセッサ１５０は実行マネージャーモジュール１４７を介してユーザの発話が一部動作１４１ａを実行する一部アプリ１４１を特定したが、残り動作１４３ｂを実行する他のアプリ１４３を特定しない場合、一部動作１４１ａを実行する同一のアプリ１４１（例えば、ギャラリーアプリ）が実行されて残り動作１４３ｂを実行することができる互いに異なるアプリ１４３（例えば、メッセージアプリ、テレグラムアプリ）がそれぞれ実行される互いに異なる複数のパスルールを受信する。プロセッサ１５０は、例えば、実行マネージャーモジュール１４７を介して前記複数のパスルールの同一の動作１４１ｂ、１４３ｂ（例えば、連続された同一の動作１４１ｂ、１４３ｂ）を実行する。プロセッサ１５０は前記同様動作まで実行した場合、実行マネージャーモジュール１４７介して前記複数のパスルールにそれぞれ含まれた互いに異なるアプリ１４１、１４３を選択する状態画面をディスプレー１２０に表示する。

一実施形態によれば、知能型サービスモジュール１４９はコンテキストモジュール１４９ａ、ペルソナモジュール１４９ｂ又は提案モジュール１４９ｃを含む。

プロセッサ１５０はコンテキストモジュール１４９ａを実行してアプリ１４１、１４３からアプリ１４１、１４３の現状を収集する。例えば、プロセッサ１５０はコンテキストモジュール１４９ａを実行してアプリ１４１、１４３の現状を示すコンテキスト情報を受信し、前記受信したコンテキスト情報を介してアプリ１４１、１４３の現状を収集する。

プロセッサ１５０はペルソナモジュール１４９ｂを実行してユーザ端末１００を用いるユーザの個人情報を管理する。例えば、プロセッサ１５０はペルソナモジュール１４９ｂを実行してユーザ端末１００の使用情報及び実行結果を収集し、前記収集したユーザ端末１００の使用情報及び実行結果を用いてユーザの個人情報を管理する。

プロセッサ１５０は提案モジュール１４９ｃを実行してユーザの意図を予測し、前記ユーザの意図に基づいてユーザに命令を勧める。例えば、プロセッサ１５０は提案モジュール１４９ｃを実行してユーザの現状（例えば、時間、場所、状況、アプリ）によってユーザに命令を勧める。

図３は、本発明の一実施形態によるユーザ端末の知能型アプリを実行させることを示す図面である。
図３を参照すれば、ユーザ端末１００がユーザ入力を受信して知能型エージェント１４５と連動された知能型アプリ（例えば、音声認識アプリ）を実行させることを示す図面である。

一実施形態によれば、ユーザ端末１００はハードウェアキー１１２を介して音声を認識するための知能型アプリを実行させる。例えば、ユーザ端末１００はハードウェアキー１１２を介してユーザ入力を受信した場合、ディスプレー１２０に知能型アプリのＵＩ（ｕｓｅｒｉｎｔｅｒｆａｃｅ）１２１を表示する。ユーザは、例えば、知能型アプリのＵＩ１２１がディスプレー１２０に表示された状態で音声を入力１２０ｂするために知能型アプリのＵＩ１２１の音声認識ボタン１２１ａをタッチする。ユーザは、他に例えば、音声を入力１２０ｂするためにハードウェアキー１１２を持続的に押して音声を入力１２０ｂする。

一実施形態によれば、ユーザ端末１００はマイク１１１を介して音声を認識するための知能型アプリを実行させる。例えば、ユーザ端末１００はマイク１１１を介して指定された音声（例えば、‘‘起きて’（ｗａｋｅｕｐ）’’）が入力１２０ａされた場合、ディスプレー１２０に知能型アプリのＵＩ１２１を表示する。

図４は、本発明の一実施形態による知能型サービスモジュールのコンテキストモジュールが現状を収集することを示す図面である。
図４を参照すれば、プロセッサ１５０は知能型エージェント１４５からコンテキストリクエストを受信（１）すれば、コンテキストモジュール１４９ａを介してアプリ１４１、１４３の現状を示すコンテキスト情報をリクエスト（２）する。一実施形態によれば、プロセッサ１５０はコンテキストモジュール１４９ａを介してアプリ１４１、１４３から前記コンテキスト情報を受信（３）して知能型エージェント１４５に送信（４）する。

一実施形態によれば、プロセッサ１５０はコンテキストモジュール１４９ａを介してアプリ１４１、１４３から複数のコンテキスト情報の伝達を受ける。前記コンテキスト情報は、例えば、最も最近実行されたアプリ１４１、１４３に対する情報である。前記コンテキスト情報は、他に例えば、アプリ１４１、１４３内の現状に対する情報（例えば、ギャラリーで写真を見ている場合、当該写真に対する情報）である。

一実施形態によれば、プロセッサ１５０はコンテキストモジュール１４９ａを介してアプリ１４１、１４３だけでなく、デバイスプラットホーム（ｄｅｖｉｃｅｐｌａｔｆｏｒｍ）からユーザ端末１００の現状を示すコンテキスト情報を受信する。前記コンテキスト情報は一般的コンテキスト情報、ユーザコンテキスト情報又は装置コンテキスト情報を含む。

前記一般的コンテキスト情報はユーザ端末１００の一般的な情報を含む。前記一般的コンテキスト情報はデバイスプラットホームのセンサーハーブなどを介してデータが伝達されて内部アルゴリズムを介して確認される。例えば、前記一般的コンテキスト情報は現在時空間に対する情報を含む。前記現在時空間に対する情報は、例えば、現在時間又はユーザ端末１００の現在位置に対する情報を含む。前記現在時間はユーザ端末１００上での時間を介して確認され、前記現在位置に対する情報はＧＰＳ（ｇｌｏｂａｌｐｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ）を介して確認される。他に例えば、前記一般的コンテキスト情報は物理的動きに対する情報を含む。前記物理的動きに対する情報は、例えば、歩くこと、走ること、運転中などに対する情報を含む。前記物理的動き情報はモーションセンサー（ｍｏｔｉｏｎｓｅｎｓｏｒ）を介して確認される。前記運転中に対する情報は前記モーションセンサーを介して運行を確認するだけではなく、車内のブルートゥース（登録商標）接続を検出して搭乗及び駐車を確認する。また、他に例えば、前記一般的コンテキスト情報はユーザ活動情報を含む。前記ユーザ活動情報は、例えば、出退勤、ショッピング、旅行などに対する情報を含む。前記ユーザ活動情報はユーザ又はアプリがデータベースに登録した場所に対する情報を用いて確認される。

前記ユーザコンテキスト情報はユーザに対する情報を含む。例えば、前記ユーザコンテキスト情報はユーザの感情的状態に対する情報を含む。前記感情的状態に対する情報は、例えば、ユーザの幸せ、悲しみ、怒りなどに対する情報を含む。他に例えば、前記ユーザコンテキスト情報はユーザの現状に対する情報を含む。前記現状に対する情報は、例えば、関心、意図など（例えば、ショッピング）に対する情報を含む。

前記装置コンテキスト情報はユーザ端末１００の状態に対する情報を含む。例えば、前記装置コンテキスト情報は実行マネージャーモジュール１４７が実行したパスルールに対する情報を含む。他に例えば、前記デバイス情報はバッテリーに対する情報を含む。前記バッテリーに対する情報は、例えば、前記バッテリーの充電及び放電状態を介して確認される。また他に例えば、前記デバイス情報は接続された装置及びネットワークに対する情報を含む。前記接続された装置に対する情報は、例えば、前記装置が接続された通信インターフェースを介して確認される。

図５は、本発明の一実施形態による知能型サービスモジュールの提案モジュールを示すブロック図である。
図５を参照すれば、提案モジュール１４９ｃはヒント提供モジュール１４９ｃ−１、コンテキストヒント生成モジュール１４９ｃ−２、条件チェッキングモジュール１４９ｃ−３、条件モデルモジュール１４９ｃ−４、再使用ヒント生成モジュール１４９ｃ−５又は紹介ヒント生成モジュール１４９ｃ−６を含む。

一実施形態によれば、プロセッサ１５０はヒント提供モジュール１４９ｃ−１を実行してユーザにヒント（ｈｉｎｔ）を提供する。例えば、プロセッサ１５０はヒント提供モジュール１４９ｃ−１を介してコンテキストヒント生成モジュール１４９ｃ−２、再使用ヒント生成モジュール１４９ｃ−５又は紹介ヒント生成モジュール１４９ｃ−６から生成されたヒントが伝達されてユーザにヒントを提供する。

一実施形態によれば、プロセッサ１５０は条件チェッキングモジュール１４９ｃ−３又は条件モデルモジュール１４９ｃ−４を実行して現状によって推薦されるヒントを生成する。プロセッサ１５０は条件チェッキングモジュール１４９ｃ−３を実行して現状に対応する情報が伝達され、条件モデルモジュール１４９ｃ−４を実行して前記伝達受けた情報を用いて条件モデル（ｃｏｎｄｉｔｉｏｎｍｏｄｅｌ）を設定する。例えば、プロセッサ１５０は条件モデルモジュールが１４９ｃ−４を実行してユーザにヒントを提供する時点の時間、位置、状況使用中のアプリなどを把握して当該条件で用いる可能性が高いヒントを優先順位が高い順でユーザに提供する。

一実施形態によれば、プロセッサ１５０は再使用ヒント生成モジュール１４９ｃ−５を実行して使用頻度によって推薦するヒントを生成する。例えば、プロセッサ１５０は再使用ヒント生成モジュール１４９ｃ−５を実行してユーザの使用パターンに基づいたヒントを生成する。

一実施形態によれば、紹介ヒント生成モジュール１４９ｃ−６はユーザに新規機能又は他のユーザが多用する機能を紹介するヒントを生成する。例えば、前記新規機能を紹介するヒントには知能型エージェント１４５に対する紹介（例えば、作動方法）を含む。

他の実施形態によれば、提案モジュール１４９ｃのコンテキストヒント生成モジュール１４９ｃ−２、条件チェッキングモジュール１４９ｃ−３、条件モデルモジュール１４９ｃ−４、再使用ヒント生成モジュール１４９ｃ−５又は紹介ヒント生成モジュール１４９ｃ−６は個人化情報サーバー３００に含まれる。例えば、プロセッサ１５０は提案モジュール１４９ｃのヒント提供モジュール１４９ｃ−１を介してユーザ個人化情報サーバー３００のコンテキストヒント生成モジュール１４９ｃ−２、再使用ヒント生成モジュール１４９ｃ−５又は紹介ヒント生成モジュール１４９ｃ−６からヒントを受信してユーザに前記受信したヒントを提供する。

一実施形態によれば、ユーザ端末１００は次の一連のプロセスによってヒントを提供する。例えば、プロセッサ１５０は知能型エージェント１４５からヒント提供リクエストを受信すれば、ヒント提供モジュール１４９ｃ−１を介してコンテキストヒント生成モジュール１４９ｃ−２にヒント生成リクエストを伝達する。プロセッサ１５０は前記ヒント生成リクエストが伝達されると、条件チェッキングモジュール１４９ｃ−３を介してコンテキストモジュール１４９ａ及びペルソナモジュール１４９ｂから現状に対応する情報が伝達される。プロセッサ１５０は条件チェッキングモジュール１４９ｃ−３を介して前記伝達された情報を条件モデルモジュール１４９ｃ−４へ伝達し、条件モデルモジュール１４９ｃ−４を介して前記情報を用いてユーザに提供されるヒントのうちの前記条件に使用可能性が高い順番でヒントに対して優先順位を付与する。プロセッサ１５０はコンテキストヒント生成モジュール１４９ｃ−２を介して前記条件を確認し、前記現状に対応するヒントを生成する。プロセッサ１５０はコンテキストヒント生成モジュール１４９ｃ−２を介して前記生成されたヒントをヒント提供モジュール１４９ｃ−１へ伝達する。プロセッサ１５０はヒント提供モジュール１４９ｃ−１を介して指定された規則に従って前記ヒントを整列し、前記ヒントを知能型エージェント１４５へ伝達する。

一実施形態によれば、プロセッサ１５０はヒント提供モジュール１４９ｃ−１を介して複数のコンテキストヒントを生成し、指定された規則に応じて複数のコンテキストヒントに優先順位を指定する。一実施形態によれば、プロセッサ１５０はヒント提供モジュール１４９ｃ−１を介して前記複数のコンテキストヒントのうちで優先順位が高いことをユーザに先ず提供する。

一実施形態によれば、ユーザ端末１００は使用頻度によるヒントを提案する。例えば、プロセッサ１５０は知能型エージェント１４５からヒント提供リクエストが伝達されると、ヒント提供モジュール１４９ｃ−１を介して再使用ヒント生成モジュール１４９ｃ−５にヒント生成リクエストを伝達する。プロセッサ１５０は前記ヒント生成リクエストが伝達されると、再使用ヒント生成モジュール１４９ｃ−５を介してペルソナモジュール１４９ｂからユーザ情報が伝達される。例えば、プロセッサ１５０は再使用ヒント生成モジュール１４９ｃ−５を介してペルソナモジュール１４９ｂのユーザのプリファランス情報に含まれたパスルール、パスルールに含まれたパラメーター、アプリの実行頻度、アプリが用いられた時空間情報を伝達される。プロセッサ１５０は再使用ヒント生成モジュール１４９ｃ−５を介して前記伝達されたユーザ情報に対応するヒントを生成する。プロセッサ１５０は再使用ヒント生成モジュール１４９ｃ−５を介して前記生成されたヒントをヒント提供モジュール１４９ｃ−１へ伝達する。プロセッサ１５０はヒント提供モジュール１４９ｃ−１を介して前記ヒントを整列し、前記ヒントを知能型エージェント１４５へ伝達する。

一実施形態によれば、ユーザ端末１００は新しい機能に対するヒントを提案する。例えば、プロセッサ１５０は知能型エージェント１４５からヒント提供リクエストが伝達されると、ヒント提供モジュール１４９ｃ−１を介して紹介ヒント生成モジュール１４９ｃ−６にヒント生成リクエストを伝達する。プロセッサ１５０は、紹介ヒント生成モジュール１４９ｃ−６を介して提案サーバー４００から紹介ヒント提供リクエストが伝達されて提案サーバー４００から紹介される機能に対する情報を受信する。提案サーバー４００は、例えば、紹介される機能に対する情報を記憶し、前記紹介される機能に対するヒントリスト（ｈｉｎｔｌｉｓｔ）はサービス運営者によりアップデートされる。プロセッサ１５０は、紹介ヒント生成モジュール１４９ｃ−６を介して前記生成されたヒントをヒント提供モジュール１４９ｃ−１へ伝達する。プロセッサ１５０はヒント提供モジュール１４９ｃ−１を介して前記ヒントを整列し、前記ヒントを知能型エージェント１４５へ送信する。

これにより、プロセッサ１５０は、提案モジュール１４９ｃを介してコンテキストヒント生成モジュール１４９ｃ−２、再使用ヒント生成モジュール１４９ｃ−５又は紹介ヒント生成モジュール１４９ｃ−６で生成されたヒントをユーザに提供する。例えば、プロセッサ１５０は提案モジュール１４９ｃを介して前記生成されたヒントを知能型エージェント１４５を動作させるアプリに表示し、前記アプリを介してユーザから前記ヒントを選択する入力を受信する。

図６は、本発明の一実施形態による統合知能化システムの知能型サーバーを示すブロック図である。
図６を参照すれば、知能型サーバー２００は自動音声認識（ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）モジュール２１０、自然語理解（ｎａｔｕｒａｌｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ、ＮＬＵ）モジュール２２０、パスプランナー（ｐａｔｈｐｌａｎｎｅｒ）モジュール２３０、対話マネージャー（ｄｉａｌｏｇｕｅｍａｎａｇｅｒ、ＤＭ）モジュール２４０、自然語生成（ｎａｔｕｒａｌｌａｎｇｕａｇｅｇｅｎｅｒａｔｏｒ、ＮＬＧ）モジュール２５０又はテキスト音声変換（ｔｅｘｔｔｏｓｐｅｅｃｈ、ＴＴＳ）モジュール２６０を含む。一実施形態によれば、知能型サーバー２００は通信回路、メモリー及びプロセッサを含む。前記プロセッサは前記メモリーに記憶された命令語を実行して自動音声認識モジュール２１０、自然語理解モジュール２２０、パスプランナーモジュール２３０、対話マネージャーモジュール２４０、自然語生成モジュール２５０及びテキスト音声変換モジュール２６０を駆動させる。知能型サーバー２００は前記通信回路を介して外部電子装置（例えば、ユーザ端末１００とデータ（又は、情報））と送受信する。

知能型サーバー２００の自然語理解モジュール２２０又はパスプランナーモジュール２３０はパスルール（ｐａｔｈｒｕｌｅ）を生成する。

一実施形態によれば、自動音声認識（ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）モジュール２１０はユーザ端末１００から受信したユーザ入力をテキストデータに変換する。

一実施形態によれば、自動音声認識モジュール２１０はユーザ端末１００から受信したユーザ入力をテキストデータに変換する。例えば、自動音声認識モジュール２１０は発話認識モジュールを含む。前記発話認識モジュールは音響（ａｃｏｕｓｔｉｃ）モデル及び言語（ｌａｎｇｕａｇｅ）モデルを含む。例えば、前記音響モデルは発声に係る情報を含み、前記言語モデルは単位音素情報及び単位音素情報の組合わせに対する情報を含む。前記発話認識モジュールは発声に係る情報及び単位音素情報に対する情報を用いてユーザ発話をテキストデータに変換する。前記音響モデル及び言語モデルに対する情報は、例えば、自動音声認識データベース（ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｄａｔａｂａｓｅ、ＡＳＲＤＢ）２１１に記憶される。

一実施形態によれば、自然語理解モジュール２２０は文法的分析（ｓｙｎｔａｃｔｉｃａｎａｌｙｚｅ）又は意味的分析（ｓｅｍａｎｔｉｃａｎａｌｙｚｅ）を実行してユーザ意図を把握する。前記文法的分析はユーザ入力を文法的単位（例えば、単語、句、形態素など）で分け、前記分けられた単位がどんな文法的な要素を有するかを把握する。前記意味的分析は意味（ｓｅｍａｎｔｉｃ）マッチング、ルール（ｒｕｌｅ）マッチング、フォーミュラ（ｆｏｒｍｕｌａ）マッチングなどを用いて行う。これにより、自然語理解モジュール２２０はユーザ入力がどのドメイン（ｄｏｍａｉｎ）、意図（ｉｎｔｅｎｔ）又は前記意図を表現するのに必要なパラメーター（ｐａｒａｍｅｔｅｒ）（又は、スロット（ｓｌｏｔ））を得ることができる。

一実施形態によれば、自然語理解モジュール２２０はドメイン（ｄｏｍａｉｎ）、意図（ｉｎｔｅｎｄ）及び前記意図を把握するのに必要なパラメーター（ｐａｒａｍｅｔｅｒ）（又は、スロット（ｓｌｏｔ））で分けられたマッチング規則を用いてユーザの意図及びパラメーターを決定する。例えば、前記一つのドメイン（例えば、アラーム）は複数の意図（例えば、アラーム設定、アラーム解除など）を含み、一つの意図は複数のパラメーター（例えば、時間、繰り返し回数、アラーム音など）を含む。複数のルールは、例えば、一つ以上の必須要素パラメーターを含む。前記マッチング規則は自然語認識データベース（ｎａｔｕｒａｌｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇｄａｔａｂａｓｅ、ＮＬＵＤＢ）２２１に記憶される。

一実施形態によれば、自然語理解モジュール２２０は形態素、句などの言語的特徴（例えば、文法的要素）を用いてユーザ入力から抽出された単語の意味を把握し、前記把握された単語の意味をドメイン及び意図にマッチングさせてユーザの意図を決定する。例えば、自然語理解モジュール２２０はそれぞれのドメイン及び意図にユーザ入力で抽出された単語がいくら含まれているかを計算してユーザ意図を決定する。

一実施形態によれば、自然語理解モジュール２２０は前記意図を把握するのに基づいた単語を用いてユーザ入力のパラメーターを決定する。一実施形態によれば、自然語理解モジュール２２０はユーザ入力の意図を把握するための言語的特徴が記憶された自然語認識データベース２２１を用いてユーザの意図を決定する。他の実施形態によれば、自然語理解モジュール２２０は個人化言語モデル（ｐｅｒｓｏｎａｌｌａｎｇｕａｇｅｍｏｄｅｌ、ＰＬＭ）を用いてユーザの意図を決定する。例えば、自然語理解モジュール２２０は個人化された情報（例えば、連絡先リスト、音楽リスト）を用いてユーザの意図を決定する。前記個人化言語モデルは、例えば、自然語認識データベース２２１に記憶される。一実施形態によれば、自然語理解モジュール２２０だけでなく自動音声認識モジュール２１０も自然語認識データベース２２１に記憶された個人化言語モデルを参考にしてユーザの音声を認識する。

一実施形態によれば、自然語理解モジュール２２０はユーザ入力の意図及びパラメーターに基づいてパスルールを生成する。例えば、自然語理解モジュール２２０はユーザ入力の意図に基づいて実行されるアプリを選択し、前記選択したアプリで実行される動作を決定する。前記自然語理解モジュール２２０は前記決定した動作に対応するパラメーターを決定してパスルールを生成する。一実施形態によれば、自然語理解モジュール２２０によって生成されたパスルールは実行されるアプリ、前記アプリで実行される動作（例えば、少なくとも一つ以上の状態（ｓｔａｔｅ））及び前記動作を実行するのに必要なパラメーターに対する情報を含む。

一実施形態によれば、自然語理解モジュール２２０はユーザ入力の意図及びパラメーターに基づいて一つのパスルール、又は複数のパスルールを生成する。例えば、自然語理解モジュール２２０はパスプランナーモジュール２３０からユーザ端末１００に対応するパスルールセットを受信し、ユーザ入力の意図及びパラメーターを前記受信したパスルールセットにマッピングしてパスルールを決定する。

他の実施形態によれば、自然語理解モジュール２２０はユーザ入力の意図及びパラメーターに基づいて実行されるアプリ、前記アプリで実行される動作及び前記動作を実行するのに必要なパラメーターを決定して一つのパスルール、又は複数のパスルールを生成する。例えば、自然語理解モジュール２２０はユーザ端末１００の情報を用いて前記実行されるアプリ及び前記アプリで実行される動作をユーザ入力の意図によってオントロジー（ｏｎｔｏｌｏｇｙ）又はグラフモデル（ｇｒａｐｈｍｏｄｅｌ）形態で配列してパスルールを生成する。前記生成されたパスルールは、例えば、パスプランナーモジュール２３０を介してパスルールデータベース（ｐａｔｈｒｕｌｅｄａｔａｂａｓｅ、ＰＲＤＢ）２３１に記憶される。前記生成されたパスルールはデータベース２３１のパスルールセットに追加される。

一実施形態によれば、自然語理解モジュール２２０は生成された複数のパスルールのうちの少なくとも一つのパスルールを選択する。例えば、自然語理解モジュール２２０は前記複数のパスルール最適のパスルールを選択する。他に例えば、自然語理解モジュール２２０はユーザ発話に基づいて一部動作だけが特定された場合、複数のパスルールを選択する。自然語理解モジュール２２０はユーザの追加入力によって前記複数のパスルールのうちの一つのパスルールを決定する。

一実施形態によれば、自然語理解モジュール２２０はユーザ入力に対するリクエストでパスルールをユーザ端末１００に送信する。例えば、自然語理解モジュール２２０はユーザ入力に対応する一つのパスルールをユーザ端末１００に送信する。他に例えば、自然語理解モジュール２２０はユーザ入力に対応する複数のパスルールをユーザ端末１００に送信する。前記複数のパスルールは、例えば、ユーザ発話に基づいて一部動作だけが特定された場合、自然語理解モジュール２２０により生成される。

一実施形態によれば、パスプランナーモジュール２３０は複数のパスルールのうちの少なくとも一つのパスルールを選択する。

一実施形態によれば、パスプランナーモジュール２３０は自然語理解モジュール２２０に複数のパスルールを含むパスルールセットを伝達する。前記パスルールセットの複数のパスルールはパスプランナーモジュール２３０に接続されたパスルールデータベース２３１にテーブル形態で記憶される。例えば、パスプランナーモジュール２３０は知能型エージェント１４５から受信されたユーザ端末１００の情報（例えば、ＯＳ情報、アプリ情報）に対応するパスルールセットを自然語理解モジュール２２０へ伝達する。前記パスルールデータベース２３１に記憶されたテーブルは、例えば、ドメイン又はドメインのバージョン別で記憶される。

一実施形態によれば、パスプランナーモジュール２３０はパスルールセットの一つのパスルール、又は複数のパスルールを選択して自然語理解モジュール２２０へ伝達する。例えば、パスプランナーモジュール２３０はユーザの意図及びパラメーターをユーザ端末１００に対応するパスルールセットにマッチングして一つのパスルール、又は複数のパスルールを選択して自然語理解モジュール２２０へ伝達する。

一実施形態によれば、パスプランナーモジュール２３０はユーザ意図及びパラメーターを用いて一つのパスルール、又は複数のパスルールを生成する。例えば、パスプランナーモジュール２３０はユーザ意図及びパラメーターに基づいて実行されるアプリ及び前記アプリで実行される動作を決定して一つのパスルール、又は複数のパスルールを生成する。一実施形態によれば、パスプランナーモジュール２３０は前記生成したパスルールをパスルールデータベース２３１に記憶する。

一実施形態によれば、パスプランナーモジュール２３０は自然語理解モジュール２２０で生成されたパスルールをパスルールデータベース２３１に記憶する。前記生成されたパスルールはパスルールデータベース２３１に記憶されたパスルールセットに追加される。

一実施形態によれば、パスルールデータベース２３１に記憶されたテーブルには複数のパスルール又は複数のパスルールセットを含む。複数のパスルール又は複数のパスルールセットは各パスルールを行う装置の種類、バージョン、タイプ、又は特性を反映する。

一実施形態によれば、対話マネージャーモジュール２４０は自然語理解モジュール２２０により把握されたユーザの意図が明確であるか否かを判断する。例えば、対話マネージャーモジュール２４０はパラメーターの情報が十分であるか否かに基づいてユーザの意図が明確であるか否かを判断する。対話マネージャーモジュール２４０は自然語理解モジュール２２０で把握されたパラメーターがタスクを実行するのに十分であるか否かを判断する。一実施形態によれば、対話マネージャーモジュール２４０はユーザの意図が明確ではない場合、ユーザに必要な情報をリクエストするフィードバックを実行する。例えば、対話マネージャーモジュール２４０はユーザの意図を把握するためのパラメーターに対する情報をリクエストするフィードバックを実行する。

一実施形態によれば、対話マネージャーモジュール２４０はコンテンツ提供（ｃｏｎｔｅｎｔｐｒｏｖｉｄｅｒ）モジュールを含む。前記コンテンツ提供モジュールは自然語理解モジュール２２０で把握された意図及びパラメーターに基づいて動作を実行する場合、ユーザ入力に対応するタスクを実行した結果を生成する。一実施形態によれば、対話マネージャーモジュール２４０はユーザ入力に対する応答で前記コンテンツ提供モジュールで生成された前記結果をユーザ端末１００に送信する。

一実施形態によれば、自然語生成モジュール（ＮＬＧ）２５０は指定された情報をテキスト形態に変更する。前記テキスト形態に変更された情報は自然語発話の形態である。前記指定された情報は、例えば、追加入力に対する情報、ユーザ入力に対応する動作の完了を案内する情報又はユーザの追加入力を案内する情報（例えば、ユーザ入力に対するフィードバック情報）である。前記テキスト形態に変更された情報はユーザ端末１００に送信されてディスプレー１２０に表示されるか、テキスト音声変換モジュール２６０に送信されて音声形態に変更される。

一実施形態によれば、テキスト音声変換モジュール２６０はテキスト形態の情報を音声形態の情報に変更する。テキスト音声変換モジュール２６０は自然語生成モジュール２５０からテキスト形態の情報を受信し、前記テキスト形態の情報を音声形態の情報に変更してユーザ端末１００に送信する。ユーザ端末１００は前記音声形態の情報をスピーカー１３０で出力する。

一実施形態によれば、自然語理解モジュール２２０、パスプランナーモジュール２３０及び対話マネージャーモジュール２４０は一つのモジュールで具現できる。例えば、自然語理解モジュール２２０、パスプランナーモジュール２３０及び対話マネージャーモジュール２４０は一つのモジュールで具現されてユーザの意図及びパラメーターを決定し、前記決定されたユーザの意図及びパラメーターに対応する応答（例えば、パスルール）を生成する。これにより、生成された応答はユーザ端末１００に送信される。

図７は、本発明の一実施形態によるパスプランナーモジュール（ｐａｔｈｐｌａｎｎｅｒｍｏｄｕｌｅ）のパスルール（ｐａｔｈｒｕｌｅ）を生成する方法を示す図面である。
図７を参照すれば、一実施形態による、自然語理解モジュール２２０はアプリの機能をいずれか一つの動作（例えば、状態Ａ乃至状態Ｆ）で区分してパスルールデータベース２３１に記憶させる。例えば、自然語理解モジュール２２０はいずれか一つの動作（例えば、状態）で区分された複数のパスルール（Ａ−Ｂ１−Ｃ１、Ａ−Ｂ１−Ｃ２、Ａ−Ｂ１−Ｃ３−Ｄ−Ｆ、Ａ−Ｂ１−Ｃ３−Ｄ−Ｅ−Ｆ）を含むパスルールセットをデータベース２３１に記憶させる。

一実施形態によれば、パスプランナーモジュール２３０のパスルールデータベース２３１はアプリの機能を実行するためのパスルールセットを記憶する。前記パスルールセットは複数の動作（例えば、状態のシーケンス）を含む複数のパスルールを含む。前記複数のパスルールは複数の動作のそれぞれに入力されるパラメーターによって実行される動作が順次に配列される。一実施形態によれば、前記複数のパスルールはオントロジー（ｏｎｔｏｌｏｇｙ）又はグラフモデル（ｇｒａｐｈｍｏｄｅｌ）形態で構成されてパスルールデータベース２３１に記憶される。

一実施形態によれば、自然語理解モジュール２２０はユーザ入力の意図及びパラメータに対応する前記複数のパスルール（Ａ−Ｂ１−Ｃ１、Ａ−Ｂ１−Ｃ２、Ａ−Ｂ１−Ｃ３−Ｄ−Ｆ、Ａ−Ｂ１−Ｃ３−Ｄ−Ｅ−Ｆ）のうち最適のパスルール（Ａ−Ｂ１−Ｃ３−Ｄ−Ｆ）を選択する。

一実施形態によれば、自然語理解モジュール２２０はユーザ入力に完壁にマッチングされるパスルールがない場合、ユーザ端末１００に複数のルールを伝達する。例えば、自然語理解モジュール２２０はユーザ入力に部分的に対応したパスルール（例えば、Ａ−Ｂ１）を選択する。自然語理解モジュール２２０はユーザ入力に部分的に対応したパスルール（例えば、Ａ−Ｂ１）を含む一つ以上のパスルール（例えば、Ａ−Ｂ１−Ｃ１、Ａ−Ｂ１−Ｃ２、Ａ−Ｂ１−Ｃ３−Ｄ−Ｆ、Ａ−Ｂ１−Ｃ３−Ｄ−Ｅ−Ｆ）を選択してユーザ端末１００に伝達する。

一実施形態によれば、自然語理解モジュール２２０はユーザ端末１００の追加入力に基づいて複数のパスルールのうちの一つを選択し、前記選択された一つのパスルールをユーザ端末１００へ伝達する。例えば、自然語理解モジュール２２０はユーザ端末１００で追加に入力されたユーザ入力（例えば、Ｃ３を選択する入力）によって複数のパスルール（例えば、Ａ−Ｂ１−Ｃ１、Ａ−Ｂ１−Ｃ２、Ａ−Ｂ１−Ｃ３−Ｄ−Ｆ、Ａ−Ｂ１−Ｃ３−Ｄ−Ｅ−Ｆ）のうちの一つのパスルール（例えば、Ａ−Ｂ１−Ｃ３−Ｄ−Ｆ）を選択してユーザ端末１００に送信する。

また、他の実施形態によれば、自然語理解モジュール２２０は自然語理解モジュール２２０を介してユーザ端末１００に追加に入力されたユーザ入力（例えば、Ｃ３を選択する入力）に対応するユーザの意図及びパラメーターを決定し、前記決定されたユーザの意図又はパラメーターをユーザ端末１００に送信する。ユーザ端末１００は前記送信した意図又は前記パラメーターに基づいて、複数のパスルール（例えば、Ａ−Ｂ１−Ｃ１、Ａ−Ｂ１−Ｃ２、Ａ−Ｂ１−Ｃ３−Ｄ−Ｆ、Ａ−Ｂ１−Ｃ３−Ｄ−Ｅ−Ｆ）うちの一つのパスルール（例えば、Ａ−Ｂ１−Ｃ３−Ｄ−Ｆ）を選択する。

これにより、ユーザ端末１００は前記選択された一つのパスルールによってアプリ１４１、１４３の動作を完了させる。

一実施形態によれば、自然語理解モジュール２２０は情報が不足なユーザ入力が知能型サーバー２００に受信された場合、前記受信したユーザ入力に部分的に対応されるパスルールを生成する。

例えば、自然語理解モジュール２２０は前記部分的に対応したパスルールを知能型エージェント１４５に送信する。プロセッサ１５０は知能型エージェント１４５を実行して前記パスルールを受信し、実行マネージャーモジュール１４７に前記部分的に対応されたパスルールを伝達する。プロセッサ１５０は実行マネージャーモジュール１４７を介して前記パスルールによって第１アプリ１４１を実行させる。プロセッサ１５０は実行マネージャーモジュール１４７を介して第１アプリ１４１を実行しながら不足なパラメーターに対する情報を知能型エージェント１４５に送信する。プロセッサ１５０は知能型エージェント１４５を介して前記不足なパラメーターに対する情報を用いてユーザに追加入力をリクエストする。プロセッサ１５０は知能型エージェント１４５を介してユーザによって追加入力が受信されると、ユーザ入力を知能型サーバー２００に送信して処理する。自然語理解モジュール２２０は前記追加に入力されたユーザ入力の意図及びパラメーター情報に基づいて追加されたパスルールを生成して知能型エージェント１４５に送信する。プロセッサ１５０は知能型エージェント１４５を介して実行マネージャーモジュール１４７に前記パスルールを送信して第２アプリ１４３を実行する。

一実施形態によれば、自然語理解モジュール２２０は一部情報が抜け落ちたユーザ入力が知能型サーバー２００に受信された場合、個人化情報サーバー３００にユーザ情報リクエストを送信する。個人化情報サーバー３００はペルソナデータベースに記憶されたユーザ入力が入力されたユーザ情報を自然語理解モジュール２２０に送信する。自然語理解モジュール２２０は前記ユーザ情報を用いて一部動作が抜け落ちたユーザ入力に対応するパスルールを選択する。これにより、自然語理解モジュール２２０は一部情報が抜け落ちたユーザ入力が知能型サーバー２００に受信されても抜け落ちた情報をリクエストして追加入力を受けるか、ユーザ情報を用いて前記ユーザ入力に対応するパスルールを決定する。

以下、添付した表１は一実施形態によるユーザがリクエストしたタスクに係るパスルールの例示的形態を示す。

表１を参照すれば、ユーザ発話（例えば、‘‘写真共有してくれ’’）によって知能型サーバー（図１の知能型サーバー２００）で生成または選択されるパスルールは少なくとも一つの状態（ｓｔａｔｅ）（２５、２６、２７、２８、２９又は３０）を含む。例えば、前記少なくとも一つの状態（例えば、端末のある一動作状態）は写真アプリケーション実行（ＰｉｃｔｕｒｅｓＶｉｅｗ）（２５）、写真検索機能実行（ＳｅａｒｃｈＶｉｅｗ）（２６）、検索結果表示画面出力（ＳｅａｒｃｈＶｉｅｗＲｅｓｕｌｔ）（２７）、写真が未（ｎｏｎ）選択された検索結果表示画面出力（ＳｅａｒｃｈＥｍｐｔｙＳｅｌｅｃｔｅｄＶｉｅｗ）（２８）、少なくとも一つの写真が選択された検索結果表示画面出力（ＳｅａｒｃｈＳｅｌｅｃｔｅｄＶｉｅｗ）（２９）又は共有アプリケーション選択画面出力（ＣｒｏｓｓＳｈａｒｅ）（３０）のうちの少なくとも一つに該当する。

一実施形態で、前記パスルールのパラメーター情報は少なくとも一つの状態（ｓｔａｔｅ）に対応する。例えば、前記少なくとも一つの写真が選択された検索結果表示画面出力２９状態になる。

前記状態（２５、２６、２７、２８、２９）のシーケンスを含むパスルールの実行結果、ユーザがリクエストしたタスク（例えば、‘‘写真共有してくれ’’）が実行される。

図８は、本発明の一実施形態による知能型サービスモジュールのペルソナモジュール（ｐｅｒｓｏｎａｍｏｄｕｌｅ）がユーザの情報を管理することを示す図面である。

図８を参照すれば、プロセッサ１５０はペルソナモジュール１４９ｂを介してアプリ１４１、１４３、実行マネージャーモジュール１４７又はコンテキストモジュール１４９ａからユーザ端末１００の情報を伝達される。プロセッサ１５０はアプリ１４１、１４３及び実行マネージャーモジュール１４７を介してアプリの動作を実行した結果情報を動作ログデータベースに記憶する。プロセッサ１５０はコンテキストモジュール１４９ａを介してユーザ端末１００の現状に対する情報をコンテキストデータベースに記憶する。プロセッサ１５０はペルソナモジュール１４９ｂを介して前記動作ログデータベース又は前記コンテキストデータベースから前記記憶された情報を伝達される。前記動作ログデータベース及び前記コンテキストデータベースに記憶されたデータは、例えば、分析エンジン（ａｎａｌｙｓｉｓｅｎｇｉｎｅ）により分析されてペルソナモジュール１４９ｂに伝達される。

一実施形態によれば、プロセッサ１５０はペルソナモジュール１４９ｂを介してアプリ１４１、１４３、実行マネージャーモジュール１４７又はコンテキストモジュール１４９ａから受信した情報を提案モジュール１４９ｃに送信する。例えば、プロセッサ１５０はペルソナモジュール１４９ｂを介して前記動作ログデータベース又は前記コンテキストデータベースに記憶されたデータを提案モジュール１４９ｃへ伝達する。

一実施形態によれば、プロセッサ１５０はペルソナモジュール１４９ｂを介してアプリ１４１、１４３、実行マネージャーモジュール１４７又はコンテキストモジュール１４９ａから伝達された情報を個人化情報サーバー３００に送信する。例えば、プロセッサ１５０はペルソナモジュール１４９ｂを介して前記動作ログデータベース又は前記コンテキストデータベースに累積されて記憶されたデータを周期的に個人化情報サーバー３００に送信する。

一実施形態によれば、プロセッサ１５０はペルソナモジュール１４９ｂを介して前記動作ログデータベース又は前記コンテキストデータベースに記憶されたデータを提案モジュール１４９ｃへ伝達する。ペルソナモジュール１４９ｂ介して生成されたユーザ情報はペルソナデータベースに記憶される。ペルソナモジュール１４９ｂは前記ペルソナデータベースに記憶されたユーザ情報を周期的に個人化情報サーバー３００に送信する。一実施形態によれば、ペルソナモジュール１４９ｂを介して個人化情報サーバー３００に送信された情報はペルソナデータベースに記憶される。個人化情報サーバー３００は前記ペルソナデータベースに記憶された情報を用いて知能型サーバー２００のパスルール生成に必要なユーザ情報を推論する。

一実施形態によれば、ペルソナモジュール１４９ｂを介して送信された情報を用いて推論されたユーザ情報はプロファイル（ｐｒｏｆｉｌｅ）情報又はプリファランス（ｐｒｅｆｅｒｅｎｃｅ）情報を含む。前記プロセッサ情報又はプリファランス情報はユーザのアカウント（ａｃｃｏｕｎｔ）及び累積された情報を介して推論される。

前記プロセッサ情報はユーザの身上情報を含む。例えば、前記プロファイル情報はユーザの統計情報を含む。前記統計情報は、例えば、ユーザの性（ｇｅｎｄｅｒ）、年齢などを含む。他に例えば、前記プロファイル情報はライフイベント（ｌｉｆｅｅｖｅｎｔ）情報を含む。前記ライフイベント情報は、例えば、ログ情報をライフイベントモデル（ｌｉｆｅｅｖｅｎｔｍｏｄｅｌ）と比べて推論されて、行動パターン（ｂｅｈａｖｉｏｒｐａｔｔｅｒ）を分析して補強される。また、他に例えば、前記プロファイル情報は関心（ｉｎｔｅｒｅｓｔ）情報を含む。前記関心情報は、例えば、関心ショッピング物品、関心分野（例えば、スポーツ、政治など）などを含む。また、他に例えば、前記プロファイル情報は活動地域情報を含む。前記活動地域情報は、例えば、家、働く所などに対する情報を含む。前記活動地域に対する情報は場所の位置に対する情報だけではなく累積滞留時間及び訪問回数を基準にして優先順位が記録された地域に対する情報を含む。また、他に例えば、前記プロセッサ情報は活動時間情報を含む。前記活動時間情報は、例えば、起床時間、出退勤時間、睡眠時間などに対する情報を含む。前記出退勤時間に対する情報は前記活動地域情報（例えば、家及び働く所に対する情報）を用いて推論される。前記睡眠時間に対する情報はユーザ端末１００の不使用時間を介して推論される。

前記プリファランス情報はユーザの選好度情報を含む。例えば、前記プリファランス情報はアプリ選好度に対する情報を含む。前記アプリ選好度は、例えば、アプリの使用記録（例えば、時間別、場所別使用記録）を介して推論される。前記アプリの選好度はユーザの現状（例えば、時間、場所）によって実行されるアプリを決定するために用いられる。他に例えば、前記プリファランス情報は連絡先選好度に対する情報を含む。前記連絡先選好度は、例えば、連絡先の連絡頻度（例えば、時間別、場所別の連絡する頻度）情報を分析して推論される。前記連絡先選好度はユーザの現状（例えば、重複された名前に対する連絡）によって連絡する連絡先を決定するために用いられる。また、他に例えば、前記プリファランス情報はセッティング（ｓｅｔｔｉｎｇ）情報を含む。前記セッティング情報は、例えば、特定セッティング値の設定頻度（例えば、時間別、場所別セッティング値で設定する頻度）情報を分析して推論される。前記セッティング情報はユーザの現状（例えば、時間、場所、状況）によって特定セッティング値を設定するために用いられる。また、他に例えば、前記プリファランス情報は場所選好度を含む。前記場所選好度は、例えば、特定場所の訪問記録（例えば、時間別の訪問記録）を介して推論される。前記場所選好度はユーザの現状（例えば、時間）によって訪問している場所を決定するために用いられる。また、他に例えば、前記プリファランス情報は命令選好度を含む。前記命令選好度は、例えば、命令使用頻度（例えば、時間別、場所別の使用頻度）を介して推論される。前記命令選好度はユーザの現状（例えば、時間、場所）によって用いられる命令語パターンを決定するために用いられる。特に、前記命令選好度はログ情報を分析して実行されているアプリの現状でユーザが最も多く選択したメニューに対する情報を含む。

図９は、一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて機能を実行する状況を説明する図面である。

動作（１）で、ユーザ端末１００は音楽再生をリクエストするユーザの命令を受信する。例えば、ユーザ端末１００は入力モジュール（例えば、図１の入力モジュール１１０）を用いて音楽再生をリクエストするユーザの音声を受信する。この場合、ユーザ端末１００はユーザの音声と共にユーザが位置する場所で発生する環境音（例えば、ノイズ、周辺音など）を受信する。すなわち、ユーザ端末１００は音声と環境音を含むオーディオデータ（又は、サウンドデータ）を受信する。

例えば、ユーザ端末１００は地下鉄に乗って移動しながら、‘‘音楽を再生してくれ’’と言うユーザの音声を受信する。この場合、ユーザはユーザ端末１００を用いて目的地までの経路をリクエストして地下鉄利用に対する案内を確認した状態である。また、ユーザ端末１００は地下鉄で放送される‘‘次の駅はサダンです。’’という次の駅の名称を案内する環境音も受信する。

多様な実施形態によれば、ユーザ端末１００は内部に記憶された知能型エージェント（例えば、図２の知能型エージェント１４５）を用いてオーディオデータの内容を認識し、当該機能を実行する。図９では、ユーザ端末１００が知能型サーバー２００と連動して機能を実行することを仮定して説明する。

動作（２）で、ユーザ端末１００は通信網を介して受信した音声と環境音を知能型サーバー２００に送信する。

動作（３）で、知能型サーバー２００は受信した音声と環境音を用いてパスルールを生成する。

一実施形態によれば、知能型サーバー２００のＡＳＲモジュール２１０は受信したオーディオデータで音声信号と環境音信号を抽出する。ＡＳＲモジュール２１０は音声信号と環境音信号をテキストデータ形態に変更する。例えば、ＡＳＲモジュール２１０に含まれた発話認識モジュールは音声信号と環境音信号に含まれた発声と音素情報及び音素情報の組合わせに対する情報を用いて受信した音声信号と環境音信号をテキストデータ形態に変換する。

多様な実施形態によれば、環境音信号が音声ではない場合、ＡＳＲモジュール２１０は環境音信号のパターンを決定する動作を実行する。

一実施形態によれば、知能型サーバー２００のＮＬＵモジュール２２０はテキストデータに変換にされた‘‘音楽を再生してくれ’’という音声信号に対して文法的分析又は意味的分析を実行して音声の内容を把握する。例えば、ＮＬＵモジュール２２０は受信した音声のドメイン（例えば、音楽）、意図（例えば、音楽再生）又は前記意図を表現するのに必要なパラメーター（例えば、音楽ファイル、ラジオチャンネルなど）を得る。

ＮＬＵモジュール２２０はユーザ入力の意図及びパラメーターに基づいて一つのパスルール、又は複数のパスルールを生成する。例えば、ＮＬＵモジュール２２０は音楽再生アプリケーションを選択し、再生する音楽ファイルを決定するパスルールを選択する。多様な実施形態によれば、ＮＬＵモジュール２２０はラジオ再生アプリケーションを選択し、再生するチャンネルを決定するパスルールを生成する。

一実施形態によれば、ＰＰモジュール２３０は複数のパスルールのうちの少なくとも一つのパスルールを選択する。

ＰＰモジュール２３０はユーザ端末１００の知能型エージェント（例えば、図２の知能型エージェント１４５）から受信したユーザ端末１００の情報（例えば、アプリ情報など）に対応するパスルールを選択してＮＬＵモジュール２２０に送信する。例えば、ＰＰモジュール２３０はユーザが音楽再生アプリケーションをラジオアプリケーションより多く用いた状況に対する情報を受信し、音楽再生アプリケーションを実行するパスルールを選択する。ＰＰモジュール２３０は選択されたパスルールをＮＬＵモジュール２２０へ送信する。

本発明の一実施形態によれば、知能型サーバー２００は音楽再生をリクエストする音声の大きさによって前記パスルールに含まれた動作を変更する。例えば、知能型サーバー２００は受信したユーザの音声大きさが累積された状況より小さい場合に音楽再生時のボリュームをユーザが平素に設定した段階より低く設定されるようにパスルールに含まれた動作を変更する。

本発明の一実施形態によれば、知能型サーバー２００のＮＬＵモジュール２２０はテキストデータで変換された‘‘次の駅はサダンです’’という環境音信号に対して文法的分析又は意味的分析を実行して音声の内容を把握する。

一実施形態によれば、ＮＬＵモジュール２２０はユーザの意図及び分析した環境音信号に基づいて一つのパスルール、又は複数のパスルールを生成する。例えば、ＮＬＵモジュール２２０は次の駅の名称を案内する環境音信号の意味を把握し、ユーザ端末１００がユーザに目的地までの経路を案内した状況を確認し、目的地まで行くために残った地下鉄駅を案内するパスルールを生成する。

一実施形態によれば、ＮＬＵモジュール２２０は地下鉄路線図アプリケーションを実行し、ユーザの移動経路の中で残った地下鉄駅を表示するパスルールを生成する。多様な実施形態によれば、ＮＬＵモジュール２２０はスピーカーを実行して残った地下鉄駅の個数を音声で案内するパスルールを生成する。

ＰＰモジュール２３０はユーザ端末１００の知能型エージェント（例えば、図２の知能型エージェント１４５）から受信したユーザ端末１００の情報（例えば、アプリ情報など）に対応するパスルールを選択してＮＬＵモジュール２２０に送信する。例えば、ＰＰモジュール２３０はユーザ端末１００が音楽再生アプリケーションを実行することを確認し、スピーカーを実行して残る地下鉄駅の個数を音声で案内するパスルールを選択する。

動作（４）で、知能型サーバー２００は選択されたパスルールをユーザ端末１００に送信する。

動作（５）で、ユーザ端末１００は受信したパスルールによって音楽再生アプリケーションを実行し、選択された音楽ファイルを再生する。また、ユーザ端末１００は目的地と現在駅の位置によって残った駅の個数を算出してスピーカーを介してユーザに残った駅の個数を案内する。

このように、本発明の一実施形態による知能化システムはユーザの命令によるパスルール生成時の環境音（例えば、地下鉄案内コメント）を用いて生成された環境情報（例えば、ユーザが地下鉄に乗って移動する状況）を用いて追加的なパスルールを生成する。

図１０は、一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて機能を実行する他の状況を説明する図面である。

動作（１）で、ユーザ端末１００は音楽再生をリクエストするユーザの命令を受信する。例えば、ユーザ端末１００は入力モジュール（例えば、図１の入力モジュール１１０）を用いて音楽再生をリクエストするユーザの音声を受信する。この場合、ユーザ端末１００はユーザの音声と共にユーザが位置する場所で発生される環境音（例えば、ノイズ、周辺音など）を受信する。すなわち、ユーザ端末１００は音声と環境音を含むオーディオデータを受信する。

例えば、ユーザ端末１００は雨が降る場所で‘‘音楽を再生してくれ’’と言うユーザの音声を受信する。また、ユーザ端末１００は雨が降る音をユーザが位置する状況に対する環境音として受信する。

一実施形態によれば、知能型サーバー２００のＡＳＲモジュール２１０は受信したオーディオデータで音声信号と環境音信号を抽出する。ＡＳＲモジュール２１０は音声信号と環境音信号をテキストデータ形態に変更する。ＡＳＲモジュール２１０は環境音信号が分離した音声信号をテキストデータ形態に変更する。例えば、ＡＳＲモジュール２１０に含まれた発話認識モジュールは受信した音声信号に含まれた発声と音素情報及び音素情報の組合わせに対する情報を用いて受信した音声信号をテキストデータ形態に変換する。

一実施形態によれば、知能型サーバー２００のＮＬＵモジュール２２０はテキストデータに変換された‘‘音楽を再生してくれ’’という音声信号に対して文法的分析又は意味的分析を実行して音声の内容を把握する。例えば、ＮＬＵモジュール２２０は受信した音声のドメイン（例えば、音楽）、意図（例えば、音楽再生）又は前記意図を表現するのに必要なパラメーター（例えば、音楽ファイル、ラジオチャンネルなど）を得る。

ＮＬＵモジュール２２０はユーザ入力の意図及びパラメーターに基づいて一つのパスルール、又は複数個のパスルールを生成する。例えば、ＮＬＵモジュール２２０は音楽再生アプリケーションを選択し、再生する音楽ファイルを決定するパスルールを生成する。多様な実施形態によれば、ＮＬＵモジュール２２０はラジオ再生アプリケーションを選択し、再生するチャンネルを決定するパスルールを生成する。

一実施形態によれば、ＰＰモジュール２３０は複数個のパスルールのうちの少なくとも一つのパスルールを選択する。

ＰＰモジュール２３０はユーザ端末１００の知能型エージェント（例えば、図２の知能型エージェント１４５）から受信したユーザ端末１００の情報（例えば、アプリ情報など）に対応するパスルールを選択してＮＬＵモジュール２２０に送信する。例えば、ＰＰモジュール２３０はユーザが最近ラジオアプリケーションを実行した状況に対する情報を受信し、ラジオアプリケーションを実行するパスルールを選択する。ＰＰモジュール２３０は選択されたパスルールをＮＬＵモジュール２２０に送信する。

多様な実施形態によれば、知能型サーバー２００は音楽再生をリクエストするユーザの音声トーンによってパスルールに含まれた動作を変更する。例えば、知能型サーバー２００は受信した音声を分析してユーザの気持ち（例えば、憂鬱な状態、楽しい状態、悲しい状態など）によって再生しようとする音楽ファイルが異なるように設定されるようにパスルールに含まれた動作を変更する。

本発明の一実施形態によれば、知能型サーバー２００のＮＬＵモジュール２２０は環境音信号のパターンを決定（又は、分析、確認）する。例えば、ＮＬＵモジュール２２０は環境音信号のパターンを分析してユーザが位置した地域に雨が降っていることを確認する。

追加的に、ＮＬＵモジュール２２０はユーザ端末１００の知能型エージェント（例えば、図２の知能型エージェント１４５）から受信したユーザ端末１００の情報を活用する。例えば、ＮＬＵモジュール２２０はユーザ端末１００で受信した位置情報、天気情報を用いてユーザが位置した地域に雨が降っていることに対する正確度を高める。

ＮＬＵモジュール２２０は分析された環境音信号のパターンに基づいて一つのパスルール、又は複数のパスルールを生成する。例えば、ＮＬＵモジュール２２０は傘を準備することを案内するパスルールを生成する。

一実施形態によれば、ＮＬＵモジュール２２０は天気アプリケーションを実行し、傘を準備するように案内するユーザインターフェースを表示する。多様な実施形態によれば、ＮＬＵモジュール２２０はスピーカーを実行して傘を準備することを音声で案内するパスルールを生成する。

ＰＰモジュール２３０はユーザ端末１００の知能型エージェント（例えば、図２の知能型エージェント１４５）から受信したユーザ端末１００の情報（例えば、アプリ情報など）に対応するパスルールを選択してＮＬＵモジュール２２０に送信する。例えば、ＰＰモジュール２３０はユーザ端末１００が音楽再生アプリケーションを実行することを確認し、スピーカーを実行して傘を準備することを音声で案内するパスルールを選択する。

動作（５）で、ユーザ端末１００は受信したパスルールによって音楽再生アプリケーションを実行し、選択された音楽ファイルを再生する。また、ユーザ端末１００は傘を準備することを音声で案内する。

一実施形態によれば、知能型サーバー２００は上述したように一つのＡＳＲモジュール２１０、ＮＬＵモジュール２２０を用いて音声信号と環境音信号に対する認識を実行する。しかし、これに限定されず、知能型サーバー２００は音声信号と環境音信号のためのそれぞれのＡＳＲモジュール２１０とＮＬＵモジュール２２０を含む。

このように、本発明の一実施形態による知能化システムはユーザの命令によるパスルール生成時の環境音信号のパターンを用いて生成された環境（例えば、雨が降る状況）を用いて追加的なパスルールを生成する。

図１１は、一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いて他の装置を制御する状況を説明する図面である。

動作（１）で、ユーザ端末１００は音を小さくすることをリクエストするユーザの命令を受信する。例えば、ユーザ端末１００は入力モジュール（例えば、図１の入力モジュール１１０）を用いて音を小さくすることをリクエストするユーザの音声を受信する。この場合、ユーザ端末１００はユーザの音声と共にユーザが位置する場所で発生する環境音（例えば、ＴＶ音、ホームスピーカー音など）を受信する。すなわち、ユーザ端末１００は音声と環境音を含むオーディオデータを受信する。

例えば、ユーザ端末１００はＴＶを視聴する場所で‘‘音を小さくしてくれ’’と言うユーザの音声を受信する。

一実施形態によれば、知能型サーバー２００のＮＬＵモジュール２２０はテキストデータに変換された‘‘音を小さくしてくれ’’という音声信号に対して文法的分析又は意味的分析を実行して音声の内容を把握する。

一実施形態によれば、知能型サーバー２００のＮＬＵモジュール２２０は環境音信号のパターンを決定（又は分析、確認、識別）する。例えば、ＮＬＵモジュール２２０は環境音信号のパターンを分析してユーザがＴＶを視聴する場所にあることを確認する。

ＮＬＵモジュール２２０は音声信号の内容と環境音信号のパターンを用いて一つのパスルール、又は複数のパスルールを生成する。例えば、ＮＬＵモジュール２２０は音声信号の内容と環境音信号のパターンを組合わせてユーザの意図を推定するＤｅｅｐＮＬＵモジュール（図示せず）を含む。

ＤｅｅｐＮＬＵモジュールは音声信号の内容に対する分析結果、環境音信号のパターンを分析して音を小さくするべき客体がないことを識別し、ユーザの意図はＴＶ１０１０の音を小さくするということと推定する。

そして、ＤｅｅｐＮＬＵモジュールは予めユーザ端末１００と通信が樹立されたＴＶ１０１０に対して音を小さくする信号を送信するパスルールを生成する。

一実施形態によれば、ＰＰモジュール２３０は複数のパスルールのうちの少なくとも一つのパスルールを選択する。
例えば、ＰＰモジュール２３０はユーザ端末１００が、通信の樹立されたＴＶ１０１０に向けて音を小さくすることをリクエストする信号を送信するパスルールを選択する。

動作（５）で、ユーザ端末１００は受信したパスルールによってＴＶ１０１０のボリュームを制御する信号を生成して送信する。

一実施形態によれば、知能型サーバー２００は上述したように一つのＡＳＲモジュール２１０、ＮＬＵモジュール２２０を用いて音声信号と環境音信号に対する認識を行う。しかし、これに限定されず、知能型サーバー２００は音声信号と環境音信号のためのそれぞれのＡＳＲモジュール２１０とＮＬＵモジュール２２０を含む。

このように、本発明の一実施形態による知能化システムは、ユーザの命令と環境音信号のパターンを組合わせてユーザの意図を反映したパスルールを生成する。また、本発明の一実施形態による知能化システムは第１電子装置（例えば、ユーザ端末１００を用いて第２電子装置（例えば、ＴＶ１０１０））を制御する。

図１２は、一実施形態による統合知能化システムでユーザ端末に入力される音声と環境音を用いてパスルールを生成する状況を説明するフローチャートである。

一実施形態によれば、図１２で第１構成要素１１０１は例えば、ユーザ端末１００となり、第２構成要素１１０２は例えば、知能型サーバー（例えば、図１の知能型サーバー２００）となる。又は、第１構成要素１１０１は例えば、汎用プロセッサとなり、第２構成要素１１０２は例えば、人工知能専用プロセッサとなる。又は、第１構成要素１１０１は例えば、少なくとも一つのアプリケーションとなり、第２構成要素１１０２は例えば、オペレーティングシステム（ｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ、ＯＳ）となる。

第２構成要素１１０２は第１構成要素１１０１より集積化されるか、専用化されるか、ディレー（ｄｅｌａｙ）が小さいか、性能が優れるか、又は多くのリソースを有する構成要素として、音声信号と環境音信号を含むオーディオデータの認識のための学習モデルの生成、更新又は適用時に要求される多くの演算を第１構成要素１１０１より速やかに処理する構成要素となる。したがって、第１構成要素１１０１も学習モデルの生成、更新又は適用を処理できる。

一実施形態によれば、学習モデルは少なくとも一つのハードウェアチップ形態で製作されて電子装置に搭載される。例えば、学習モデルは人工知能（ＡＩ；ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用ハードウェアチップ形態で製作され、又は既存の汎用プロセッサ（例えば、ＣＰＵ又はａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）又はグラフィック専用プロセッサ（例えば、ＧＰＵ）の一部で製作されて前述した各種電子装置に搭載される。

多様な実施形態によれば、前記学習モデルは、例えば、図６のＡＳＲモジュール２１０、ＮＬＵモジュール２２０、パスプランナーモジュール２３０、ＤＭモジュール２４０、ＮＬＧモジュール２５０、又はＴＴＳモジュール２６０のうちの少なくとも一つ以上を取り替えることができる。例えば、前述したモジュールのうちの少なくとも一つ以上の役目を前記学習モデルが実行する。前記学習モデルは複数のサブ学習モデルから構成され、前述したモジュールの役目を実行し、又は一つの学習モデルから構成され、前述したモジュールの役目をいずれも実行することもできる。

多様な実施形態によれば、前記学習モデルは、例えば、図２の知能型エージェント１４５、知能型サービスモジュール１４９、又は実行マネージャーモジュール１４７うちの少なくとも一つ以上を取り替えることができる。例えば、前述したモジュールのうちの少なくとも一つ以上の役目を前記学習モデルが実行できる。例えば、前述したモジュールのうちの少なくとも一つ以上の役目を前記学習モデルが実行する。前記学習モデルは複数のサブ学習モデルから構成され、前述したモジュールの役目を実行し、又は一つの学習モデルから構成され、前述したモジュールの役目をいずれも実行できる。

多様な実施形態によれば、第２構成要素１１０２と類似の機能を実行する第３構成要素（図示せず）が追加されることができる。例えば、第２構成要素１１０２はオーディオデータ中で音声信号を認識するように設定された学習モデルの生成、更新又は適用時要求される演算を実行する構成要素となる。また、第３構成要素（図示せず）はオーディオデータ中の環境音信号を認識するように設定された学習モデルの生成、更新又は適用時の要求される演算を実行する構成要素となる。しかし、これに限定されるものではない。

この場合、第１構成要素１１０１及び第２構成要素１１０２間のデータを送／受信するためのインターフェースが定義される。

例えば、学習モデルに適用する学習用データを因子値（又は、媒介値又は伝達値）で有するＡＰＩ（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｉｎｔｅｒｆａｃｅ）が定義される。ＡＰＩはどの一つのプロトコル（例えば、ユーザ端末１００で定義されたプロトコル）で他のプロトコル（例えば、知能型サーバー２００で定義されたプロトコル）の処理のために呼び出すことができるサブルーチン又は関数の集合で定義される。すなわち、ＡＰＩを介していずれか一つのプロトコルで他のプロトコルの動作が実行される環境が提供される。

動作１１１０で、第１構成要素１１０１はオーディオデータを受信する。例えば、第１構成要素１１０１はユーザの音声とユーザが位置した所で生成される音声と環境音をオーディオデータで受信する。

動作１１２０で、第１構成要素１１０１はオーディオデータの内容を推定することを第２構成要素１１０２にリクエストする。

例えば、第１構成要素１１０１に対応するユーザ端末（例えば、図９のユーザ端末１００）は第２構成要素１１０２に対応する知能型サーバー（例えば、図９の知能型サーバー２００）にオーディオデータを送信しながらオーディオデータの内容を推定することをリクエストする。

多様な実施形態によれば、第１構成要素１１０１に対応するユーザ端末（例えば、図２のユーザ端末１００）に含まれたプロセッサ（例えば、図２のプロセッサ１５０）は第２構成要素１１０２に対応するユーザ端末（例えば、図２のユーザ端末１００）に含まれた知能型サービスモジュール（例えば、図２の知能型サービスモジュール１４９）にオーディオデータを送信しながらオーディオデータの内容を推定することをリクエストする。

動作１１３０で、第２構成要素１１０２はオーディオデータ中で音声信号を学習モデルに適用して音声信号の内容を推定する。例えば、第２構成要素１１０２は自動音声認識モジュール、自然語理解モジュールなどを用いて音声の内容を推定する。

動作１１４０で、第２構成要素１１０２はオーディオデータ中の環境音信号を学習モデルに適用して環境情報を推定する。例えば、第２構成要素１１０２はユーザの音声信号と環境音信号を区分して抽出する。そして、第２構成要素１１０２に含まれた自動音声認識モジュールはユーザの音声信号以外の環境音信号に含まれた音声の内容を推定する。また、自動音声認識モジュールは環境音信号のパターンを推定してユーザが位置した環境を推定する。

動作１１５０で、第２構成要素１１０２は音声信号の内容と環境音信号のパターンを用いてパスルールを生成する。

動作１１６０で第２構成要素１１０２はパスルールを第１構成要素１１０１に送信する。第１構成要素１１０１は受信したパスルールによって少なくとも一つ以上のアプリケーション又は機能を実行する。

図１３は、一実施形態による知能化システムで用いられる学習モデルを生成する動作を図式化した図面である。
一実施形態による学習モデルは、例えば、音声と環境音を含むオーディオデータの内容を推定して知能化サービスを実行するように設定された学習モデルである。

多様な実施形態によれば、前記学習モデルは、例えば、図６のＡＳＲモジュール２１０、ＮＬＵモジュール２２０、パスプランナーモジュール２３０、ＤＭモジュール２４０、ＮＬＧモジュール２５０、又はＴＴＳモジュール２６０うちの少なくとも一つを含む。

多様な実施形態によれば、前記学習モデルは、例えば、図２の知能型エージェント１４５、知能型サービスモジュール１４９、又は実行マネージャーモジュール１４７のうちの少なくとも一つを含む。

多様な実施形態によれば、知能化システムは音声信号の内容を推定する学習モデルと環境音信号の内容を推定するか、又は環境音信号のパターンを推定するように設定された学習モデルを一つで具現するか、又はそれぞれ具現する。

図１３を参照すると、学習データ１２１０を基盤とし、学習モデルを学習させるモデリング過程１２２０が実行される。この場合、学習データ１２１０は、例えば、オーディオデータ１２１２、オーディオデータの特徴（例えば、オーディオデータの波形など）１２１４、オーディオデータの内容１２１６及びオーディオデータに対応するパスルール１２１８のうちの少なくとも一つを含む。

一実施形態によれば、学習モデルはオーディオデータ１２１２のカテゴリーを区分する。例えば、第１カテゴリは衝撃音（例えば、車の衝突、建物の崩壊時発生する騷音）を含むカテゴリーである。第２カテゴリーは脅威、救助要請、感嘆詞、泣き声などの高音を含むカテゴリーである。第３カテゴリーは俗語を含むカテゴリーなどを含む。しかし、これに限定されない。例えば、学習モデルは、カテゴリー指定なしに、入力されるオーディオデータをクラスタリングして複数個のクラスタを生成する。

例えば、学習モデルはオーディオデータ１２１２中の環境音は第１カテゴリー又は第２カテゴリーのうちの少なくとも一つのカテゴリーに区分する。また、学習モデルはオーディオデータ１２１２のうちの音声は第２カテゴリー又は第３カテゴリーのうちの少なくとも一つのカテゴリーに区分する。

一実施形態によれば、オーディオデータの特徴１２１４は、例えば、オーディオデータ波形の特徴である。オーディオデータ波形の特徴は、例えば、時間によるオーディオデータの大きさの高低を意味する。

一実施形態によれば、オーディオデータの内容１２１６は各カテゴリーのオーディオデータが発生した状況を意味する。例えば、衝撃音を含む第１カテゴリーに属する環境音はユーザが位置した環境で事故（例えば、自動車衝突、建物崩壊など）が発生したことを意味する。脅威、救助要請、感嘆詞、又は泣き声など高音を含む第２カテゴリーに属する環境音又は音声はユーザが助けをリクエストする状況を意味する。俗語を含む第３カテゴリーが属する音声はユーザが他人から脅威にあう状況を意味する。

モデリング過程１２２０が実行されると、音声化環境音を含むオーディオデータの内容を推定し、これに対する結果としてユーザの状況を推定し、これに対応するパスルールを生成するように設定された学習モデル１２３０が導出される。

多様な実施形態によれば、知能型サーバー２００又はユーザ端末１００の知能型エージェント（例えば、図２の知能型エージェント１４５）は上述した学習モデルを用いてオーディオデータの内容を推定してユーザの状況を推定し、これに対応するパスルールを生成する。

図１４は、一実施形態による知能化システムで知能化サービスを実行する状況を説明する図面である。

一実施形態によれば、ユーザ端末１００は、オーディオデータの大きさの変化量が予め設定された範囲を超過する場合に、受信されるオーディオデータ中の一定時間（例えば、１０乃至３０ｓｅｃ）のオーディオデータを記憶する。例えば、４０ｄＢ程度のオーディオデータが受信されている中、９０ｄＢに近いオーディオデータが短い時間（例えば、１乃至３秒）以内に受信される場合がオーディオデータ大きさの変化量が大きい状況である。しかし、これに限定されるものではない。

多様な実施形態によれば、ユーザ端末１００はユーザ端末の動きが予め設定された範囲を超過する場合に一定時間のオーディオデータを受信して記憶する。例えば、ユーザ端末１００が１秒以内に５０乃至７０ｃｍ以上動くことがユーザ端末１００に含まれた加速度センサー、ジャイロセンサーなどを介して確認される場合、受信されるオーディオデータ中の一定時間を記憶する。

動作（１）で、ユーザ端末１００は自動車が衝突して発生する衝撃音、又は人が倒れながら大声を出す高音の感嘆詞を受信する。一実施形態によれば、ユーザ端末１００は知能型エージェント（例えば、図２の知能型エージェント１４５）に含まれたウェークアップ認識モジュールを介して衝撃音又は高音を受信する。このために、ウェークアップ認識モジュールは低電力プロセッサで具現される。

自動車の衝突により生成される衝撃音、又は事故により人が大声を出す場合はオーディオデータの大きさの変化量が予め設定された範囲を越す場合である。したがって、ユーザ端末１００は予め設定された時間の間のオーディオデータを受信して記憶する。

多様な実施形態によれば、ユーザ端末１００はユーザが倒れながらユーザ端末が早い時間に予め設定された距離を移動することを検出する。したがって、この場合、ユーザの倒れることによるユーザ端末の動きを検出し、予め設定された時間の間のオーディオデータを受信して記憶する。

動作（２）で、ユーザ端末１００は受信したオーディオデータを用いてパスルールを生成する。
一実施形態によれば、ユーザ端末１００に含まれた知能型エージェント（例えば、図２の知能型エージェント１４５）は受信したオーディオデータのカテゴリーを推定する。

一実施形態によれば、知能型エージェント（例えば、図２の知能型エージェント１４５）は受信したオーディオデータを音声と環境音で区分する。

例えば、知能型エージェント（例えば、図２の知能型エージェント１４５）は自動車が衝突しながら生じた環境音は、衝撃音を含む第１カテゴリーに属すると推定する。また、知能型エージェント（例えば、図２の知能型エージェント１４５）は人が倒れながら生成した音声（例えば、高音の感嘆詞）は、高音を含む第２カテゴリーに属すると推定する。

知能型エージェント（例えば、図２の知能型エージェント１４５）は各カテゴリーに対応するパスルールを生成する。例えば、知能型エージェント（例えば、図２の知能型エージェント１４５）は予め設定された対象（例えば、家族）に事故発生を案内するメッセージを送信するパスルールを生成する。
ユーザ端末１００は生成されたパスルールによって機能を実行する。

動作（３）で、ユーザ端末１００は通信網を介して、受信したオーディオデータを知能型サーバー２００に送信する。

動作（４）で、知能型サーバー２００はオーディオデータのカテゴリーを推定する。一実施形態によれば、知能型サーバー２００は受信されたオーディオデータを音声と環境音で区分してそれぞれのカテゴリーを推定する。例えば、知能型サーバー２００のＮＬＵモジュール２２０は自動車が衝突しながら生じた環境音は衝撃音を含む第１カテゴリーに属すると推定する。また、ＮＬＵモジュール２２０は人が倒れながら生成した音声（例えば、高音の感嘆詞）は高音を含む第２カテゴリーに属すると推定する。

ＮＬＵモジュール２２０は各カテゴリーに対応するパスルールを生成する。例えば、ＮＬＵモジュール２２０は予め設定された対象に事故発生情報を知らせる。

動作（５）で、知能型サーバー２００は緊急出動サービスをサポートする業体（例えば、事故発生地域と隣接した所に位置する消防署、警察署など）が運営するサーバーに事故発生情報を送信する。多様な実施形態によれば。知能型サーバー２００は交通情報に係る情報を提供するサーバーに事故発生情報を送信する。

動作（６）で、前記のサーバーは受信した情報によって緊急出動サービスを実行するか、交通案内情報を更新する。また、知能型サーバー２００は事故発生地域と隣接した所に位置した多様な装置（例えば、スマートフォン、コネクテッドカーなど）に事故発生情報を送信する。

動作（７）で、知能型サーバー２００は知能型サーバー２００が生成したパスルールによって実行された動作をユーザ端末１００に送信してユーザに案内する。

図１５は、一実施形態による知能化システムで知能化サービスを実行する他の状況を説明する図面である。

動作（１）で、ユーザ端末１００はオーディオデータを受信する。
多様な実施形態によれば、ユーザ端末１００は予め設定された単語、又は文章が受信される場合に一定時間のオーディオデータを受信して記憶する。

例えば、ユーザ端末１００は予め設定された俗語などが受信される状況で受信したオーディオデータ中の一定時間のオーディオデータを記憶する。

動作（２）で、ユーザ端末１００は通信網を介して受信したオーディオデータを知能型サーバー２００に送信する。

動作（３）で、知能型サーバー２００は受信したオーディオデータを用いてパスルールを生成する。
一実施形態によれば、知能型サーバー２００のＡＳＲモジュール２１０はオーディオデータで音声と環境音を区分する。ＡＳＲモジュール２１０は区分された音声をテキストデータ形態に変更する。例えば、ＡＳＲモジュール２１０に含まれた発話認識モジュールは受信した音声に含まれた発声と音素情報及び音素情報の組合わせに対する情報を用いて、受信した音声と環境音をテキストデータ形態に変換する。

一実施形態によれば、知能型サーバー２００のＮＬＵモジュール２２０はテキストデータに対して文法的分析又は意味的分析を実行して音声の内容を把握する。

ＮＬＵモジュール２２０は音声の内容に基づいて一つのパスルール、又は複数個のパスルールを生成する。例えば、ＮＬＵモジュール２２０は録音アプリケーションを実行するパスルールを生成する。多様な実施形態によれば、ＮＬＵモジュール２２０はカメラアプリケーションを実行するパスルールを生成する。

一実施形態によれば。ＰＰモジュール２３０は複数個のパスルールのうちの少なくとも一つのパスルールを選択する。
ＰＰモジュール２３０はユーザ端末１００の知能型エージェント（例えば、図２の知能型エージェント１４５）から受信したユーザ端末１００の情報（例えば、アプリ使用情報、端末の姿勢情報など）に対応するパスルールを選択してＮＬＵモジュール２２０に送信する。例えば、ＰＰモジュール２３０は、ユーザの端末がカバンやポケットなど暗い環境に位置している情報を受信し、録音アプリケーションを実行するパスルールを選択する。ＰＰモジュール２３０は選択されたパスルールをＮＬＵモジュール２２０に送信する。

動作（５）で、ユーザ端末１００は受信したパスルールによって録音アプリケーションを実行し、オーディオデータ録音を開始する。

多様な実施形態によれば、ユーザ端末１００はユーザ端末１００に含まれた知能型エージェント（例えば、図２の知能型エージェント１４５）、知能型サービスモジュール（例えば、図２の知能型サービスモジュール１４９）、及び実行マネージャーモジュール１４７などを用いて知能型サーバー２００と連動なしに上述した過程を実行する。

図１６は、一実施形態による統合知能化システムでユーザ端末に入力されるオーディオデータを用いて知能化サービスを実行する状況を説明するフローチャートである。

動作１５１０で、第１構成要素１１０１は音声と環境音を含むオーディオデータを受信する。

動作１５１５で、第１構成要素１１０１は受信したオーディオデータが知能化サービスの自動実行条件を満足するかを確認する。例えば、第１構成要素１１０１は受信したオーディオデータの大きさが予め設定された値以上に大きくなるか、予め設定された単語又は文章が受信した場合、自動実行条件を満足したと確認する。また、第１構成要素１１０１はユーザ端末１００が短い時間に予め設定された距離以上動くと、自動実行条件を満足したと確認する。

動作１５２０で、第１構成要素１１０１は知能化サービスの自動実行のための条件が満足されたと確認されると、予め設定された時間の間のオーディオデータを記憶する。

動作１５２５で、第１構成要素１１０１はオーディオデータを適用する学習モデルを決定する。
一実施形態によれば、第１構成要素１１０１に対応するユーザ端末（例えば、図９のユーザ端末１００）はオーディオデータに含まれた音声と環境音を区分する。例えば、ユーザ端末（例えば、図９のユーザ端末１００）はオーディオデータに含まれた衝撃音は環境音として区分し、俗語及び高音は音声として区分する。

動作１５３０で、俗語を受信して知能化サービスが自動実行される場合に、第１構成要素１１０１は記憶されたオーディオデータ（例えば、俗語）を学習モデルに適用して内容を推定する。一実施形態による、第１構成要素１１０１はオーディオデータ（例えば、俗語）をテキストデータに変換し、テキストデータに対して文法的分析又は意味的分析を実行して音声の内容を把握し、オーディオデータ（例えば、俗語）のカテゴリーを推定する。

動作１５３５で、第１構成要素１１０１は推定した内容及びオーディオデータ（例えば、俗語）のカテゴリーによってパスルールを生成する。例えば、第１構成要素１１０１は録音アプリケーションを実行するパスルールを生成する。

動作１５４０で、第１構成要素１１０１はパスルールによる機能を実行する。例えば、第１構成要素１１０１は録音アプリケーションを実行する。

動作１５４５で、衝撃音、又は高音の感嘆詞が受信されて知能化サービスが自動実行される場合に、第１構成要素１１０１はオーディオデータ（例えば、衝撃音又は高音）の内容を推定することを第２構成要素１１０２にリクエストする。

動作１５５０で、第２構成要素１１０２はオーディオデータ（例えば、衝撃音又は高音）を学習モデルに適用して内容を推定する。一実施形態による第２構成要素１１０２は、オーディオデータ（例えば、衝撃音又は高音）のカテゴリーを推定する。

動作１５５５で、第２構成要素１１０２は推定した内容を用いてパスルールを生成する。例えば、第２構成要素１１０２はオーディオデータ（例えば、衝撃音又は高音）のカテゴリーによってパスルールを生成する。例えば、第２構成要素１１０２は予め設定された対象（例えば、消防署、警察署、交通案内センターなど）に事故発生に対する情報を知らせるパスルールを生成する。

動作１５６０で、第２構成要素１１０２はパスルールによる機能を実行する。例えば、第２構成要素１１０２は消防署などに事故発生を知らせる。

１０統合知能化システム
１００ユーザ端末
１１０入力モジュール
１１１マイク
１１２ハードウェアキー
１２０ディスプレイ
１２０ａ、１２０ｂ入力
１２１ＵＩ（ｕｓｅｒｉｎｔｅｒｆａｃｅ）
１２１ａ音声認識ボタン
１３０スピーカー
１４０、１６３０メモリー
１４１、１４３アプリ（アプリケーションプログラム）
１４１ａ、１４３ａ実行サービスモジュール
１４１ｂ、１４３ｂ動作
１４５知能型エージェント
１４７実行マネージャーモジュール
１４９知能型サービスモジュール
１４９ａコンテキストモジュール
１４９ｂペルソナモジュール
１４９ｃ提案モジュール
１４９ｃ−１ヒント提供モジュール
１４９ｃ−２コンテキストヒント生成モジュール
１４９ｃ−３条件チェッキングモジュール
１４９ｃ−４条件モデルモジュール
１４９ｃ−５再使用ヒント生成モジュール
１４９ｃ−６紹介ヒント生成モジュール
１５０プロセッサ
２００知能型サーバー
２１０自動音声認識（ＡＳＲ）モジュール
２１１自動音声認識データベース
２２０自然語理解（ＮＬＵ）モジュール
２２１自然語認識データベース
２３０パスプランナー（ＰＰ）モジュール
２３１パスルールデータベース
２４０対話マネージャー（ＤＭ）モジュール
２５０自然語生成（ＮＬＧ）モジュール
２６０テキスト音声変換（ＴＴＳ）モジュール
３００個人化情報サーバー
４００提案サーバー
５００通信ネットワーク
１０１０ＴＶ
１１０１第１構成要素
１１０２第２構成要素
１２１０学習データ
１２１２オーディオデータ
１２１４オーディオデータの特徴
１２１６オーディオデータの内容
１２１８パスルール
１６０１ネットワーク環境内の電子装置
１６０２、１６０４電子装置
１６０８サーバー
１６２０プロセッサ
１６２１メインプロセッサ
１６２３補助プロセッサ
１６３２揮発性メモリー
１６３４非揮発性メモリー
１６３６内装メモリー
１６３８外装メモリー
１６４０プログラム
１６４２オペレーティングシステム
１６４４ミドルウェア
１６４６アプリケーション
１６５０入力装置
１６５５音響出力装置
１６６０表示装置
１６７０オーディオモジュール
１６７６センサモジュール
１６７７インターフェース
１６７８接続端子
１６７９ハプティックモジュール
１６８０カメラモジュール
１６８８電力管理モジュール
１６８９バッテリ
１６９０通信モジュール
１６９２無線通信モジュール
１６９４有線通信モジュール
１６９６加入者識別モジュール
１６９７アンテナモジュール
１６９９ネットワーク

Claims

サウンドデータを処理するシステムであって、
通信インターフェースと、
前記通信インターフェースと作動的に接続された少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと作動的に接続された少なくとも一つのメモリーと、を含み、
前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
前記通信インターフェースを介して第１外部装置からサウンドデータを受信し、
自動音声認識モジュールの少なくとも一部を用いて前記サウンドデータで音声信号とノイズ信号を抽出し、
前記音声信号をテキストデータに変更し、
前記ノイズ信号の少なくとも一部に基づいてノイズパターンを決定し、
前記テキストデータ及び前記ノイズパターンを用いてドメインを決定するように設定された命令語を記憶する、ことを特徴とするシステム。
前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
前記テキストデータの少なくとも一部に基づいて意図を決定するように設定された命令語を記憶する、ことを特徴とする請求項１に記載のシステム。
前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
前記第１外部装置が前記音声信号に係るタスクを実行するための状態のシーケンスを決定するように設定された命令語を記憶する、ことを特徴とする請求項２に記載のシステム。
前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
前記通信インターフェースを介して前記状態のシーケンスを前記第１外部装置に提供するように設定された命令語を記憶する、ことを特徴とする請求項３に記載のシステム。
前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
第２外部装置が前記音声信号に係るタスクを実行するための状態のシーケンスを決定するように設定された命令語を記憶する、ことを特徴とする請求項３に記載のシステム。
前記少なくとも一つのメモリーは、動作時、前記少なくとも一つのプロセッサが、
前記通信インターフェースを介して前記状態のシーケンスを前記第１外部装置に提供するように設定された命令語を記憶する、ことを特徴とする請求項５に記載のシステム。
入力モジュールと、
メモリーと、
プロセッサと、を含み、
前記メモリーは、前記プロセッサが、
前記入力モジュールを介して受信される音声信号と環境音信号を含むオーディオデータを、人工知能アルゴリズムを用いて学習された学習モデルに適用して前記オーディオデータの内容を推定した結果であるパスルールを生成するが、前記学習モデルは前記環境音信号から獲得した環境音信号のパターンを用いて前記パスルールを生成するように設定された命令語を記憶し、
前記学習モデルはオーディオデータ、オーディオデータの内容、オーディオデータの特徴、及びオーディオデータに対応するパスルールのうちの少なくとも一つを学習データとして学習され、前記オーディオデータの内容を推定してパスルールを生成するように設定された学習モデルである、ことを特徴とするユーザ端末。
前記ユーザ端末は通信部をさらに含み、
前記メモリーは、前記プロセッサが、
前記入力モジュールを介して受信される前記オーディオデータが外部装置へ送信されるように前記通信部を制御し、
前記オーディオデータを前記外部装置に記憶された学習モデルに適用した結果であるパスルールが前記通信部を介して前記外部装置から受信されると、前記パスルールによる機能を実行するように設定された命令語を記憶し、
前記学習モデルは、前記音声信号から推定した内容及び前記環境音から獲得した環境音信号のパターンによってパスルールを生成するように設定された学習モデルである、ことを特徴とする請求項７に記載のユーザ端末。
前記メモリーは、前記プロセッサが、
前記環境音信号から推定した前記環境音信号のパターンを用いる状況で、
前記環境音信号のパターンを用いて前記パスルールに含まれた少なくとも一つの動作の内容を変更するように設定された命令語を記憶する、ことを特徴とする請求項７に記載のユーザ端末。
前記メモリーは、前記プロセッサが、
前記環境音信号から推定した前記環境音信号のパターンを用いる状況で、
前記環境音信号のパターンを用いて前記パスルール以外に他のパスルールを生成するように設定された命令語を記憶する、ことを特徴とする請求項７に記載のユーザ端末。
前記メモリーは、前記プロセッサが、
予め設定された距離を予め設定された時間内に移動するか、受信されたオーディオデータの大きさが予め設定された大きさ以上に大きくなるか、又は受信されたオーディオデータが予め設定された単語又は文章を含むことが確認される状況のうちの少なくとも一つの状況で、前記オーディオデータを前記学習モデルに適用するように設定された、ことを特徴とする請求項７に記載のユーザ端末。
第１外部装置からサウンドデータを受信する動作と、
前記サウンドデータで音声信号とノイズ信号を抽出する動作と、
前記音声信号をテキストデータに変更する動作と、
前記ノイズ信号の少なくとも一部に基づいてノイズパターンを決定する動作と、
前記テキストデータと前記ノイズパターンを用いてドメインを決定する動作と、を含む、ことを特徴とするサウンドデータを処理するシステムの制御方法。
前記システムの制御方法は、
前記テキストデータの少なくとも一部に基づいて意図を決定する動作を含む、ことを特徴とする請求項１２に記載のサウンドデータを処理するシステムの制御方法。
前記システムの制御方法は、
前記第１外部装置が前記音声信号に係るタスクを実行するための状態のシーケンスを決定する動作を含む、ことを特徴とする請求項１２に記載のサウンドデータを処理するシステムの制御方法。
前記システムの制御方法は、
前記状態のシーケンスを前記第１外部装置に提供する動作を含む、ことを特徴とする請求項１４に記載のサウンドデータを処理するシステムの制御方法。