JP7136201B2 - 情報処理装置および情報処理方法 - Google Patents
情報処理装置および情報処理方法 Download PDFInfo
- Publication number
- JP7136201B2 JP7136201B2 JP2020523522A JP2020523522A JP7136201B2 JP 7136201 B2 JP7136201 B2 JP 7136201B2 JP 2020523522 A JP2020523522 A JP 2020523522A JP 2020523522 A JP2020523522 A JP 2020523522A JP 7136201 B2 JP7136201 B2 JP 7136201B2
- Authority
- JP
- Japan
- Prior art keywords
- macro
- information processing
- name
- user
- function execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 157
- 238000003672 processing method Methods 0.000 title claims description 10
- 230000006870 function Effects 0.000 claims description 240
- 230000006978 adaptation Effects 0.000 claims description 124
- 230000004044 response Effects 0.000 claims description 59
- 230000001419 dependent effect Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 230000007812 deficiency Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 19
- 238000010411 cooking Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 11
- 230000000737 periodic effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 235000021152 breakfast Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000004851 dishwashing Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/3017—Runtime instruction translation, e.g. macros
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
1.実施形態
1.1.概要
1.2.システム構成例
1.3.情報処理端末10の機能構成例
1.4.情報処理サーバ20の機能構成例
1.5.機能の詳細
2.ハードウェア構成例
3.まとめ
<<1.1.概要>>
まず、本開示の一実施形態の概要について説明する。上述したように、近年では、発話による操作が可能な機器が広く普及している。上記のような機器には、例えば、音声によりユーザのとの対話を行いながら、種々の機能をユーザに提供するエージェント装置が挙げられる。
次に、本開示の一実施形態に係るシステム構成例について説明する。図2は、本実施形態に係るシステム構成例を示す図である。図2を参照すると、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10と情報処理サーバ20は、互いに通信が行えるように、ネットワーク30を介して接続される。
本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザとの対話を行いながら種々の機能を提供する情報処理装置である。本実施形態に係る情報処理端末10は、例えば、スマートフォン、タブレット、PC(Personal Computer)、ウェアラブル装置などであってもよい。また、本実施形態に係る情報処理端末10は、据え置き型または自律移動型の専用端末であってもよい。
本実施形態に係る情報処理サーバ20は、マクロの自動推定や名称決定を行う情報処理装置である。また、本実施形態に係る情報処理サーバ20は、登録済みマクロの名称がユーザにより発話された場合、当該マクロに対応する複数の機能の実行を制御する機能を有する。
ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図3は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図3を参照すると、本実施形態に係る情報処理端末10は、表示部110、音声出力部120、音声入力部130、撮像部140、センサ入力部150、制御部160、およびサーバ通信部170を備える。
本実施形態に係る表示部110は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部110は、例えば、情報処理サーバ20による制御に基づいて、テキストや画像を表示する。
本実施形態に係る音声出力部120は、音声を含む種々の音を出力する機能を有する。本実施形態に係る音声出力部120は、例えば、情報処理サーバ20による制御に基づいて、音声を出力する。このために、本実施形態に係る音声出力部120は、スピーカやアンプなどの音声出力装置を備える。
本実施形態に係る音声入力部130は、ユーザによる発話や、情報処理端末10の周囲で発生する周囲音などの音情報を収集する機能を有する。音声入力部130が収集する音情報は、情報処理サーバ20による自動音声認識処理やコンテキストの取得などに用いられる。本実施形態に係る音声入力部130は、音情報を収集するためのマイクロフォンを備える。
本実施形態に係る撮像部140は、ユーザや周囲環境の画像を撮像する機能を有する。撮像部140が撮像した画像情報は、情報処理サーバ20によるユーザの行動認識や状態認識、周囲環境の認識に用いられる。本実施形態に係る撮像部140は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。
本実施形態に係るセンサ入力部150は、周囲環境やユーザの行動、状態に関する種々のセンサ情報を収集する機能を有する。センサ入力部150が収集したセンサ情報は、情報処理サーバ20による周囲環境の認識やユーザの行動認識、状態認識に用いられる。センサ入力部150は、例えば、赤外線センサを含む光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、振動センサ、GNSS(Global Navigation Satellite System)信号受信装置などを備える。
本実施形態に係る制御部160は、情報処理端末10が備える各構成を制御する機能を有する。制御部160は、例えば、各構成の起動や停止を制御する。また、制御部160は、情報処理サーバ20により生成される制御信号などを表示部110や音声出力部120に入力する。
本実施形態に係るサーバ通信部170は、ネットワーク30を介して情報処理サーバ20との情報通信を行う機能を有する。具体的には、サーバ通信部170は、音声入力部130が収集した音情報や、撮像部140が撮像した画像情報、センサ入力部150が収集したセンサ情報を情報処理サーバ20に送信する。また、サーバ通信部170は、情報処理サーバ20から応答出力に係る制御信号などを受信する。
次に、本開示の一実施形態に係る情報処理サーバ20の機能構成例について説明する。図4は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図4を参照すると、本実施形態に係る情報処理端末10は、音声認識部210、意味解析部220、画像認識部230、センサ認識部240、発話学習適応部250、記憶部260、応答制御部270、音声合成部285、画像処理部290、および端末通信部295を備える。
本実施形態に係る音声認識部210は、情報処理端末10が収集したユーザの発話に基づく自動音声認識処理を行う。
本実施形態に係る意味解析部220は、音声認識部210による自動音声認識処理の結果に対する自然言語理解処理を行い、ユーザの発話に係るインテントとエンティティを抽出する機能を有する。
本実施形態に係る画像認識部230は、情報処理端末10が撮像した画像に基づく種々の認識処理を行う。本実施形態に係る画像認識部230は、例えば、上記の画像からユーザや周辺環境の状態などを認識することができる。画像認識部230による認識処理の結果は、発話学習適応部250によるコンテキストの取得に用いられる。
本実施形態に係るセンサ認識部240は、情報処理端末10が収集したセンサ情報に基づく種々の認識処理を行う。本実施形態に係るセンサ認識部240は、例えば、上記のセンサ情報からユーザの行動や周囲の状態などを認識することができる。センサ認識部240による認識処理の結果は、発話学習適応部250によるコンテキストの取得に用いられる。
本実施形態に係る発話学習適応部250は、音声認識部210による自動音声認識処理の結果と、意味解析部220が抽出したインテントおよびエンティティと、取得したコンテキストとを対応づけた機能実行指示履歴264を記憶部260に記憶させる。この際、本実施形態に係る発話学習適応部250は、画像認識部230やセンサ認識部240による各種の認識結果に基づいて、上記のコンテキストを取得することができる。
本実施形態に係る記憶部260は、機能テンプレート262、機能実行指示履歴264、マクロ学習データ266などを記憶する。
本実施形態に係る応答制御部270は、意味解析部220が抽出したインテントおよびエンティティ、発話学習適応部250による発話学習適応処理などに基づいて、ユーザに対する応答を制御する機能を有する。本実施形態に係る応答制御部270は、例えば、登録されたマクロの名称がユーザにより発話されたことに基づいて、当該マクロに対応する複数の機能の実行を制御することができる。
本実施形態に係る音声合成部285は、応答制御部270による制御に基づいて、音声合成を行う機能を有する。
画像処理部290は、応答制御部270による制御に基づいて、画像などの生成を行う機能を有する。
本実施形態に係る端末通信部295は、ネットワーク30を介して、情報処理端末10との情報通信を行う。端末通信部295は、例えば、情報処理端末10から、ユーザの発話に係る音情報や、画像、センサ情報などを受信する。また、端末通信部295は、応答制御部270が生成した制御信号や、合成音声、画像などを情報処理端末10に送信する。
次に、本実施形態に係る情報処理サーバ20が有する機能について詳細に説明する。上述したように、本実施形態に係る発話学習適応部250は、複数の機能実行指示を含むクラスタをマクロとして推定し、名称とともにユーザに提示することが可能である。この際、本実施形態に係る発話学習適応部250は、予め設定された機能テンプレート262に基づいて、マクロの名称の決定を行ってもよい。
次に、本開示の一実施形態に係る情報処理サーバ20のハードウェア構成例について説明する。図14は、本開示の一実施形態に係る情報処理サーバ20のハードウェア構成例を示すブロック図である。図14を参照すると、情報処理サーバ20は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
以上説明したように、本開示の一実施形態に係る情報処理方法を実現する情報処理サーバ20は、ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定する発話学習適応部250と、マクロに係る情報提示を制御する応答制御部270と、を備える。また、本開示の一実施形態に係る発話学習適応部250は、上記クラスタが含む複数の機能実行指示が行われた際に取得されたコンテキストに基づいて、推定したマクロの名称を決定すること、を特徴の一つとする。また、本開示の一実施形態に係る応答制御部270は、ユーザに対するマクロの名称の通知を制御すること、を特徴の一つとする。ここで、上記における複数の機能実行指示は、発話による機能実行指示を少なくとも1つ含むものとする。係る構成によれば、より覚えやすいマクロの名称を自動で決定することが可能となる。
(1)
ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定する発話学習適応部と、
前記マクロに係る情報提示を制御する応答制御部と、
を備え、
前記発話学習適応部は、前記クラスタが含む複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて、推定した前記マクロの名称を決定し、
前記応答制御部は、前記ユーザに対する前記マクロの名称の通知を制御し、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも1つ含む、
情報処理装置。
(2)
前記発話学習適応部は、前記コンテキストと前記クラスタが含む複数の前記機能実行指示の内容とに基づいて、前記マクロの名称を決定する、
前記(1)に記載の情報処理装置。
(3)
前記発話学習適応部は、前記コンテキストの要旨と前記クラスタが含む複数の前記機能実行指示の要旨とを含む名称を決定する、
前記(2)に記載の情報処理装置。
(4)
前記発話学習適応部は、取得された複数の前記コンテキストのうち、依存性が高いコンテキストに基づいて、前記マクロの名称を決定する、
前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
前記発話学習適応部は、推定した前記マクロと類似する登録済みの前記マクロが存在する場合、推定した前記マクロと登録済みの前記マクロとの差分に基づいて、推定した前記マクロの名称を決定する、
前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における前記コンテキストの差分、または前記クラスタが含む複数の前記機能実行指示の差分に基づいて、推定した前記マクロの名称を決定する、
前記(5)に記載の情報処理装置。
(7)
前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における周期性コンテキストの差分に基づいて、推定した前記マクロの名称を決定する、
前記(6)に記載の情報処理装置。
(8)
前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における前記機能実行指示の過不足に基づいて、推定した前記マクロの名称を決定する、
前記(6)または(7)に記載の情報処理装置。
(9)
前記発話学習適応部は、登録済みの前記マクロに関し、登録時とは異なる前記コンテキストへの依存性が高くなったことが推定された場合、前記依存性の高い前記コンテキストに基づいて、登録済みの前記マクロの名称を更新する、
前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対する前記ユーザからのフィードバックに基づいて、当該登録済みの前記マクロを修正する、
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対し前記ユーザが実行内容の修正を指示した場合、当該登録済みの前記マクロにおいて、当該機能に係る前記実行内容を変数化する、
前記(10)に記載の情報処理装置。
(12)
前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対し前記ユーザが実行内容の修正を指示した場合、当該登録済みの前記マクロにおいて、当該機能に係る前記実行内容を更新する、
前記(10)に記載の情報処理装置。
(13)
登録済みの前記マクロに基づき実行された機能に対する前記ユーザからのフィードバックに基づいて、前記フィードバックを反映した新たな前記マクロを推定する、
前記(1)~(12)のいずれかに記載の情報処理装置。
(14)
前記発話学習適応部は、前記クラスタの複合度または前記クラスタの検出頻度に基づいて、前記クラスタを前記マクロとして推定する、
前記(1)~(13)のいずれかに記載の情報処理装置。
(15)
ユーザによる複数の機能実行指示に係るクラスタリングに基づいて登録されたマクロの名称が、前記ユーザにより発話されたことに基づいて、前記マクロに対応する複数の機能の実行を制御する応答制御部、
を備え、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも1つ含み、
前記マクロの名称は、複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて決定された名称である、
情報処理装置。
(16)
前記応答制御部は、前記マクロの名称の決定に用いられた前記コンテキストと、前記マクロの実行を指示する前記ユーザの発話時点において取得される前記コンテキストとが一致する場合、前記ユーザが前記マクロの名称に含まれるコンテキスト文言を省略して発話した場合であっても、前記マクロに対応する複数の機能を実行させる、
前記(15)に記載の情報処理装置。
(17)
前記応答制御部は、前記ユーザによる登録済みの前記マクロの実行を補助する発話ガイドに係る表示を制御する、
前記(15)または(16)に記載の情報処理装置。
(18)
前記応答制御部は、前記ユーザの発話の意図が、登録済みの前記マクロに定義される複数の意図のいずれかに一致する場合、前記発話ガイドを表示させる、
前記(17)に記載の情報処理装置。
(19)
プロセッサが、ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定することと、
前記マクロに係る情報提示を制御することと、
を含み、
前記推定することは、前記クラスタが含む複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて、推定した前記マクロの名称を決定すること、をさらに含み、
前記制御することは、前記ユーザに対する前記マクロの名称の通知を制御すること
をさらに含み、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも1つ含む、
情報処理方法。
(20)
プロセッサが、ユーザによる複数の機能実行指示に係るクラスタリングに基づいて登録されたマクロの名称が、前記ユーザにより発話されたことに基づいて、前記マクロに対応する複数の機能の実行を制御すること、
を含み、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも1つ含み、
前記マクロの名称は、複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて決定された名称である、
情報処理方法。
20 情報処理サーバ
210 音声認識部
220 意味解析部
230 画像認識部
240 センサ認識部
250 発話学習適応部
260 記憶部
262 機能テンプレート
264 機能実行指示履歴
266 マクロ学習データ
270 応答制御部
Claims (20)
- ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定する発話学習適応部と、
前記マクロに係る情報提示を制御する応答制御部と、
を備え、
前記発話学習適応部は、前記クラスタが含む複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて、推定した前記マクロの名称を決定し、
前記応答制御部は、前記ユーザに対する前記マクロの名称の通知を制御し、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも1つ含む、
情報処理装置。 - 前記発話学習適応部は、前記コンテキストと前記クラスタが含む複数の前記機能実行指示の内容とに基づいて、前記マクロの名称を決定する、
請求項1に記載の情報処理装置。 - 前記発話学習適応部は、前記コンテキストの要旨と前記クラスタが含む複数の前記機能実行指示の要旨とを含む名称を決定する、
請求項2に記載の情報処理装置。 - 前記発話学習適応部は、取得された複数の前記コンテキストのうち、依存性が高いコンテキストに基づいて、前記マクロの名称を決定する、
請求項1に記載の情報処理装置。 - 前記発話学習適応部は、推定した前記マクロと類似する登録済みの前記マクロが存在する場合、推定した前記マクロと登録済みの前記マクロとの差分に基づいて、推定した前記マクロの名称を決定する、
請求項1に記載の情報処理装置。 - 前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における前記コンテキストの差分、または前記クラスタが含む複数の前記機能実行指示の差分に基づいて、推定した前記マクロの名称を決定する、
請求項5に記載の情報処理装置。 - 前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における周期性コンテキストの差分に基づいて、推定した前記マクロの名称を決定する、
請求項6に記載の情報処理装置。 - 前記発話学習適応部は、推定した前記マクロと登録済みの前記マクロとの間における前記機能実行指示の過不足に基づいて、推定した前記マクロの名称を決定する、
請求項6に記載の情報処理装置。 - 前記発話学習適応部は、登録済みの前記マクロに関し、登録時とは異なる前記コンテキストへの依存性が高くなったことが推定された場合、前記依存性の高い前記コンテキストに基づいて、登録済みの前記マクロの名称を更新する、
請求項1に記載の情報処理装置。 - 前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対する前記ユーザからのフィードバックに基づいて、当該登録済みの前記マクロを修正する、
請求項1に記載の情報処理装置。 - 前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対し前記ユーザが実行内容の修正を指示した場合、当該登録済みの前記マクロにおいて、当該機能に係る前記実行内容を変数化する、
請求項10に記載の情報処理装置。 - 前記発話学習適応部は、登録済みの前記マクロに基づき実行された機能に対し前記ユーザが実行内容の修正を指示した場合、当該登録済みの前記マクロにおいて、当該機能に係る前記実行内容を更新する、
請求項10に記載の情報処理装置。 - 登録済みの前記マクロに基づき実行された機能に対する前記ユーザからのフィードバックに基づいて、前記フィードバックを反映した新たな前記マクロを推定する、
請求項1に記載の情報処理装置。 - 前記発話学習適応部は、前記クラスタの複合度または前記クラスタの検出頻度に基づいて、前記クラスタを前記マクロとして推定する、
請求項1に記載の情報処理装置。 - ユーザによる複数の機能実行指示に係るクラスタリングに基づいて登録されたマクロの名称が、前記ユーザにより発話されたことに基づいて、前記マクロに対応する複数の機能の実行を制御する応答制御部、
を備え、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも1つ含み、
前記マクロの名称は、複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて決定された名称である、
情報処理装置。 - 前記応答制御部は、前記マクロの名称の決定に用いられた前記コンテキストと、前記マクロの実行を指示する前記ユーザの発話時点において取得される前記コンテキストとが一致する場合、前記ユーザが前記マクロの名称に含まれるコンテキスト文言を省略して発話した場合であっても、前記マクロに対応する複数の機能を実行させる、
請求項15に記載の情報処理装置。 - 前記応答制御部は、前記ユーザによる登録済みの前記マクロの実行を補助する発話ガイドに係る表示を制御する、
請求項15に記載の情報処理装置。 - 前記応答制御部は、前記ユーザの発話の意図が、登録済みの前記マクロに定義される複数の意図のいずれかに一致する場合、前記発話ガイドを表示させる、
請求項17に記載の情報処理装置。 - プロセッサが、ユーザによる複数の機能実行指示に係るクラスタリングを実行し、複数の前記機能実行指示を含むクラスタをマクロとして推定することと、
前記マクロに係る情報提示を制御することと、
を含み、
前記推定することは、前記クラスタが含む複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて、推定した前記マクロの名称を決定すること、をさらに含み、
前記制御することは、前記ユーザに対する前記マクロの名称の通知を制御すること
をさらに含み、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも1つ含む、
情報処理方法。 - プロセッサが、ユーザによる複数の機能実行指示に係るクラスタリングに基づいて登録されたマクロの名称が、前記ユーザにより発話されたことに基づいて、前記マクロに対応する複数の機能の実行を制御すること、
を含み、
複数の前記機能実行指示は、発話による前記機能実行指示を少なくとも1つ含み、
前記マクロの名称は、複数の前記機能実行指示が行われた際に取得されたコンテキストに基づいて決定された名称である、
情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018109314 | 2018-06-07 | ||
JP2018109314 | 2018-06-07 | ||
PCT/JP2019/009538 WO2019235013A1 (ja) | 2018-06-07 | 2019-03-08 | 情報処理装置および情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019235013A1 JPWO2019235013A1 (ja) | 2021-07-15 |
JP7136201B2 true JP7136201B2 (ja) | 2022-09-13 |
Family
ID=68769332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020523522A Active JP7136201B2 (ja) | 2018-06-07 | 2019-03-08 | 情報処理装置および情報処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210224066A1 (ja) |
JP (1) | JP7136201B2 (ja) |
WO (1) | WO2019235013A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200027753A (ko) * | 2018-09-05 | 2020-03-13 | 삼성전자주식회사 | 전자 장치 및 단축 명령어에 대응하는 태스크 수행 방법 |
US11605375B2 (en) * | 2021-03-05 | 2023-03-14 | Capital One Services, Llc | Systems and methods for dynamically updating machine learning models that provide conversational responses |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007243602A (ja) | 2006-03-08 | 2007-09-20 | Bandai Co Ltd | 電子装置の制御装置および制御方法 |
US20140267933A1 (en) | 2013-03-15 | 2014-09-18 | Toshiba America Information Systems, Inc. | Electronic Device with Embedded Macro-Command Functionality |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9575963B2 (en) * | 2012-04-20 | 2017-02-21 | Maluuba Inc. | Conversational agent |
US9117444B2 (en) * | 2012-05-29 | 2015-08-25 | Nuance Communications, Inc. | Methods and apparatus for performing transformation techniques for data clustering and/or classification |
US9286892B2 (en) * | 2014-04-01 | 2016-03-15 | Google Inc. | Language modeling in speech recognition |
WO2019077897A1 (ja) * | 2017-10-17 | 2019-04-25 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US11688268B2 (en) * | 2018-01-23 | 2023-06-27 | Sony Corporation | Information processing apparatus and information processing method |
US20220350605A1 (en) * | 2019-05-30 | 2022-11-03 | Sony Group Corporation | Information processing apparatus |
US20220093094A1 (en) * | 2020-09-21 | 2022-03-24 | Amazon Technologies, Inc. | Dialog management for multiple users |
-
2019
- 2019-03-08 WO PCT/JP2019/009538 patent/WO2019235013A1/ja active Application Filing
- 2019-03-08 US US15/733,885 patent/US20210224066A1/en active Pending
- 2019-03-08 JP JP2020523522A patent/JP7136201B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007243602A (ja) | 2006-03-08 | 2007-09-20 | Bandai Co Ltd | 電子装置の制御装置および制御方法 |
US20140267933A1 (en) | 2013-03-15 | 2014-09-18 | Toshiba America Information Systems, Inc. | Electronic Device with Embedded Macro-Command Functionality |
Also Published As
Publication number | Publication date |
---|---|
US20210224066A1 (en) | 2021-07-22 |
JPWO2019235013A1 (ja) | 2021-07-15 |
WO2019235013A1 (ja) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102444709B1 (ko) | 디바이스들 간의 상태 상호작용의 캡슐화 및 동기화 | |
JP6738445B2 (ja) | デジタルアシスタントサービスの遠距離拡張 | |
KR102041063B1 (ko) | 정보 처리 장치, 정보 처리 방법 및 프로그램 | |
US20210104232A1 (en) | Electronic device for processing user utterance and method of operating same | |
US10192552B2 (en) | Digital assistant providing whispered speech | |
KR102325697B1 (ko) | 정보 처리 장치, 정보 처리 방법 및 프로그램 | |
JP6482911B2 (ja) | 機器制御方法および電気機器 | |
WO2017168870A1 (ja) | 情報処理装置及び情報処理方法 | |
WO2019098038A1 (ja) | 情報処理装置、及び情報処理方法 | |
KR20200127814A (ko) | 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법 | |
JP7136201B2 (ja) | 情報処理装置および情報処理方法 | |
JP2017144521A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20210225363A1 (en) | Information processing device and information processing method | |
CN103426429B (zh) | 语音控制方法和装置 | |
JPWO2019155717A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
KR20220037819A (ko) | 복수의 기동어를 인식하는 인공 지능 장치 및 그 방법 | |
WO2019239659A1 (ja) | 情報処理装置および情報処理方法 | |
KR20200017272A (ko) | 음성에 기반하여 기능을 실행하기 위한 방법 및 이를 지원하는 사용자 전자 장치 | |
WO2017199486A1 (ja) | 情報処理装置 | |
WO2020202862A1 (ja) | 応答生成装置及び応答生成方法 | |
WO2019146187A1 (ja) | 情報処理装置および情報処理方法 | |
JPWO2019017027A1 (ja) | 情報処理装置および情報処理方法 | |
JP2016156877A (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR20200040562A (ko) | 사용자 발화를 처리하기 위한 시스템 | |
Fernandes et al. | A review of voice user interfaces for interactive TV |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20210323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210329 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220802 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220815 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7136201 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |