JP7234926B2 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents
情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDFInfo
- Publication number
- JP7234926B2 JP7234926B2 JP2019531188A JP2019531188A JP7234926B2 JP 7234926 B2 JP7234926 B2 JP 7234926B2 JP 2019531188 A JP2019531188 A JP 2019531188A JP 2019531188 A JP2019531188 A JP 2019531188A JP 7234926 B2 JP7234926 B2 JP 7234926B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- user
- learning
- information
- learning data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
- G10L2015/0636—Threshold criteria for the updating
Description
この音声認識システムにおいては、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づく応答を生成してスピーカーから出力する処理を行う。あるいは、ユーザが、「テレビを消して」と発話した場合、テレビをオフにする動作を行う。
発話ユーザには、様々な方言、年代を持つユーザが含まれ、また、システムの対応言語を母国語としないノンネィティブ(non-native)の人なども含まれる。
このような様々なタイプのユーザの発話は特徴的であり、システムが理解できない場合がある。
しかし、このような学習処理を利用しても、多様なユーザ発話の全てについて、正確な意図理解を行うことは困難である。
システムが発話意図を理解してくれない場合、ユーザはシステムに対する話しかけを止めてしまうことが多い。
音声入力部(マイク)から入力したユーザ発話音声を自動音声認識(ASR:Automatic Speech Recognition)機能を有する音声認識部に入力して、音声データをテキストデータに変換する。
音声認識部が生成したテキストデータを意図理解部に入力し、意図理解部が自然言語理解(NLU)処理を実行して、テキストデータから発話意図を解析する。
一般的な音声対話システムは、このような処理を実行する。
特許文献2は、音声認識システムがユーザに対して複数の発話を実行させて、第1発話と第2発話との意味論的なつながりに基づいて、ユーザ発話の意図把握の精度を高める構成を開示している。
しかし、これらの従来技術の構成は、ユーザ固有の独特な言い回しに対する正しい意図理解を実現するには不十分である。また、ユーザが音声認識システム側に解釈の修正を求めるといった処理を実行してユーザ発話の正しい意図理解を行うといったこともできない。
ユーザ発話の意図(インテント)を解析する発話学習適応処理部を有し、
前記発話学習適応処理部は、
ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報(エンティティ)と、正しい意図を対応付けた学習データを生成して記憶部に格納する情報処理装置にある。
ユーザ端末と、データ処理サーバを有する情報処理システムであり、
前記ユーザ端末は、
ユーザ発話を入力する音声入力部を有し、
前記データ処理サーバは、
前記ユーザ端末から受信する前記ユーザ発話の意図(インテント)を解析する発話学習適応処理部を有し、
前記発話学習適応処理部は、
ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報(エンティティ)と、正しい意図を対応付けた学習データを生成して記憶部に格納する情報処理システムにある。
情報処理装置において実行する情報処理方法であり、
音声入力部が、ユーザ発話を入力し、
発話学習適応処理部が、前記ユーザ発話の意図(インテント)を解析する発話学習適応処理を実行し、
前記発話学習適応処理において、
ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報(エンティティ)と、正しい意図を対応付けた学習データを生成して記憶部に格納する処理を実行する情報処理方法にある。
ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
前記ユーザ端末が、
ユーザ発話を入力する音声入力処理を実行し、
前記データ処理サーバが、
前記ユーザ端末から受信する前記ユーザ発話の意図(インテント)を解析する発話学習適応処理を実行し、
前記発話学習適応処理において、
ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報(エンティティ)と、正しい意図を対応付けた学習データを生成して記憶部に格納する処理を実行する情報処理方法にある。
情報処理装置において情報処理を実行させるプログラムであり、
音声入力部に、ユーザ発話を入力させる音声入力ステップと、
発話学習適応処理部に、前記ユーザ発話の意図(インテント)を解析する発話学習適応処理を実行させ、
前記発話学習適応処理において、
ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報(エンティティ)と、正しい意図を対応付けた学習データを生成して記憶部に格納する処理を実行させるプログラムにある。
具体的には、例えば、発話学習適応処理部が、ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報と、正しい意図を対応付けた学習データを生成して記憶部に格納する。発話学習適応処理部は、意図の不明確な第1のユーザ発話の入力後の装置発話に対するユーザからの応答発話から取得した意図を、第1のユーザ発話に含まれる実体情報に対応付けて記録した学習データを生成する。学習データには実体情報の上位意味概念情報を含めて記録する。新たなユーザ発話に対する意図推定時には、上位意味概念情報の類似する学習データを利用する。
本構成により、ユーザ発話の高精度な意図推定を可能とした装置、方法が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
1.情報処理装置の構成例について
2.発話学習適応処理部が実行する学習対話フローの詳細について
3.様々な意味を有する同一発話データである多義語に対する処理について
4.誤った学習処理に対する対策について
5.学習データの自動忘却処理について
6.発話学習適応処理部が実行する学習対話フローの詳細について
7.学習データを適用したユーザ発話の意図推定処理の詳細について
8.その他の実施例について
9.本開示の情報処理装置の状態遷移と処理の効果について
10.情報処理装置、および情報処理システムの構成例について
11.情報処理装置のハードウェア構成例について
12.本開示の構成のまとめ
まず、図1以下を参照して、本開示の一実施例の情報処理装置の構成例について説明する。
情報処理装置10は、ユーザの発話、例えば、
ユーザ発話=「大阪の明日、午後の天気を教えて」
このユーザ発話の音声認識処理を実行する。
図1に示す例では、ユーザ発話=「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して生成した応答を、スピーカー14を介して出力する。
図1に示す例では、情報処理装置10は、以下の装置応答を行っている。
装置応答=「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
図1に示す情報処理装置10は、カメラ11、マイク12、表示部13、スピーカー14を有しており、音声入出力と画像入出力が可能な構成を有する。
本開示の情報処理装置10は、図2に示すように、エージェント機器10aに限らず、スマホ10bやPC10c等のような様々な装置形態とすることが可能である。
例えばユーザ発話が「テレビのチャンネルを1に変えて」、あるいは「エアコンの設定温度を20度にして」といった要求である場合、情報処理装置10は、このユーザ発話の音声認識結果に基づいて、外部機器30に対して制御信号(Wi-Fi、赤外光など)を出力して、ユーザ発話に従った制御を実行する。
図3は、ユーザ発話を認識して応答を行う情報処理装置100の一構成例を示す図である。
なお、これらの構成要素は、全てを1つの情報処理装置100内部に構成することも可能であるが、一部の構成や機能を他の情報処理装置や外部サーバに備える構成としてもよい。
音声入力部(マイク)101は、入力したユーザ発話音声を音声認識部102に入力する。
音声認識部102は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。
発話意味解析部103は、テキストに含まれるユーザの意図候補を選択して出力する。
発話意味解析部103は、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータから、ユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
ユーザ発話=明日の大阪の午後の天気を教えて
このユーザ発話の、
意図(インテント)は、天気を知りたいであり、
実体情報(エンティティ)は、大阪、明日、午後、これらのワードである。
例えば、上記の例では、明日の大阪の午後の天気を取得して、応答として出力することができる。
その一つが、発話学習適応処理部108である。
(1)音声認識部102が、ユーザ発話に基づいて生成したテキストデータ、
(2)発話意味解析部103が、テキストデータに対する自然言語理解(NLU)を実行して生成したユーザ発話の意図(インテント)と実体情報(エンティティ)、
(3)カメラなどの画像入力部104が取得した発話ユーザおよびその周囲の画像に対する画像認識部105の画像認識結果情報、
(4)センサー106が取得した発話ユーザおよびその周囲の状態の検出情報に基づいて、センサー情報解析部107が解析したセンサー解析情報、
発話学習適応処理部108において実行された学習処理の結果データである発話学習データは、発話学習データ記憶部112に格納される。
この学習処理の詳細については後述する。
この推定処理は、学習データを利用することで、より高精度な処理として実行することができる。
知識辞書データ記憶部111には、様々な事実や、常識、習慣、経験等の一般的な知識をコンピュータ可読形式のデータとしてデータベース化した知識辞書データが格納されている。知識辞書データは、ナレッジベース辞書データとも呼ばれる。
この推定結果は、応答生成部121に入力される。
応答音声を出力する場合は、音声合成部122において生成した音声情報が、スピーカー等の音声出力部123を介して出力される。
応答画像を出力する場合は、表示画像合成部124において生成した表示画像情報が、ディスプレイ等の画像出力部125を介して出力される。
図4に示すフローチャートに従った処理は、例えば情報処理装置100の記憶部に格納されたプログラムに従って実行することが可能である。
発話学習適応処理部108における処理は、例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として行うことができる。
以下、図4に示すフローの各ステップの処理について説明する。
まず、ステップS101において、発話学習適応処理部108は、ユーザ発話に対して発話意味解析部103が実行した自然言語理解(NLU)結果を取得し、発話学習データ記憶部112に格納された学習データを適用して、ユーザ発話の意図(インテント)と実体情報(エンティティ)を推定する。
(1)音声認識部102が、ユーザ発話に基づいて生成したテキストデータ、
(2)発話意味解析部103が、テキストデータに対する自然言語理解(NLU)を実行して生成したユーザ発話の意図(インテント)と実体情報(エンティティ)、
(3)カメラなどの画像入力部104が取得した発話ユーザおよびその周囲の画像に対する画像認識部105の画像認識結果情報、
(4)センサー106が取得した発話ユーザおよびその周囲の状態の検出情報に基づいて、センサー情報解析部が解析したセンサー解析情報、
なお。この学習データ適応処理の詳細については後述する。
なお、初期状態で、学習データ自体が存在しない場合も、同様の処理を行う。
この学習データの生成、修正、破棄等の処理は、次に説明するステップS103やステップS104において実行される。
すなわち、発話学習データ記憶部112に格納される学習データは、次に説明するステップS103やステップS104において実行される学習処理により、逐次更新されることになる。
この最新の学習データを用いたユーザ発話の意図(インテント)と実体情報(エンティティ)の推定処理の詳細シーケンスについては、ステップS103やステップS104において実行される学習処理の詳細説明を行った後に、図12、図13に示すフローチャートを参照して説明する。
ステップS102において、発話学習適応処理部108は、
ステップS101で実行したユーザ発話の意図(インテント)と実体情報(エンティティ)の推定処理の結果を以下の3つに分類する。
(推定結果1)ユーザ発話は、意図解釈不可(OOD)発話である。
(推定結果2)ユーザ発話は、意図解釈間違い指摘発話である。
(推定結果3)ユーザ発話は、情報処理装置100への依頼、応答発話である。
上記(推定結果1)に示す「意図解釈不可(OOD)発話」とは、ユーザ発話の意図(インテント)や実体情報(エンティティ)を理解できなかったことを意味する。
発話意味解析部103が実行した自然言語理解(NLU)によって推定したユーザ発話の意図(インテント)や実体情報(エンティティ)に設定される属性情報としての信頼度スコアが既定のしきい値より低い場合も同様である。
(推定結果1)ユーザ発話は、意図解釈不可(OOD)発話である。
と判定された場合は、ステップS103に進む。
また、
(推定結果2)ユーザ発話は、意図解釈間違い指摘発話である。
と判定された場合は、ステップS104に進む。
さらに、
(推定結果3)ユーザ発話は、情報処理装置100への依頼、応答発話である。
と判定された場合は、ステップS105に進む。
上述したように、ステップS101において実行されたユーザ発話の意図(インテント)と実体情報(エンティティ)の推定処理の結果が、
(推定結果1)ユーザ発話は、意図解釈不可(OOD)発話である。
と判定された場合は、ステップS103に進む。
この学習処理Aは、ユーザ発話意図の学習対話フローの実行処理である。
この学習対話フローの実行により、ユーザ発話の真の意図を獲得すると学習データを生成して、発話学習データ記憶部112に記憶する。
ステップS103において実行する「学習処理A=ユーザ発話意図の学習対話フロー」の詳細については後述する。
また、ステップS101において実行されたユーザ発話の意図(インテント)と実体情報(エンティティ)の推定処理の結果が、
(推定結果2)ユーザ発話は、意図解釈間違い指摘発話である。
と判定された場合は、ステップS104に進む。
この学習処理Bは、ユーザ発話意図の修正対話フローの実行処理である。
このユーザ発話意図の修正対話フローの実行により、ユーザ発話の真の意図を獲得すると、発話学習データ記憶部112に記録する学習データの生成、または発話学習データ記憶部112に格納済みの学習データの修正を行う。
なお、このフローの実行によってユーザ発話の真の意図を得られなかった場合には前回のユーザ発話に対する学習データは破棄される。
このステップS104において実行する「学習処理B=ユーザ発話意図の修正対話フロー」の詳細については後述する。
さらに、ステップS101において実行されたユーザ発話の意図(インテント)と実体情報(エンティティ)の推定処理の結果が、
(推定結果3)ユーザ発話は、情報処理装置への依頼、応答発話である。
と判定された場合は、ステップS105に進む。
なお、ステップS103の「学習処理A=ユーザ発話意図の学習対話フロー」の実行、あるいはステップS104における「学習処理B=ユーザ発話意図の修正対話フロー」の実行によって、ユーザ発話の真の意図を獲得できた場合にも、ステップS105に進み、ユーザ発話意図に応じた処理や応答処理を実行する。
ユーザ発話=大阪の明日、午後の天気を教えて
情報処理装置100は、音声出力部123を介して大阪の明日、午後の天気情報を音声出力する。
次に、図4のフローチャートのステップS103において、発話学習適応処理部108が実行する「学習処理A=ユーザ発話意図の学習対話フロー」について説明する。
このステップS103では、学習データの生成処理や学習データの適応処理が行われる。
「鈴木さんの読んで」
と発話する。
すなわち、ステップS122において、ユーザ発話の自然言語理解(NLU)結果を「意図解釈不可(OOD)」と判定する。
ここで実行する学習処理では、ユーザ発話の発話文言(発話テキスト)そのものをユーザ発話の意図(インテント)に紐づけて、学習データとして記憶部(発話学習データ記憶部112)に格納するからである。
「"ユーザのOOD発話内容"の意味を教えてください」
上記のような問い合わせ応答を出力する。
「言い換えてください」
「分からなかったので、違う言い方で言ってください」
など、様々な文言の利用が可能である。
図5に示す例では、情報処理装置100は、ステップS123において、
「「鈴木さんの4で」の意味を教えてください」
上記の問い合わせ応答を出力している。
具体的には、ユーザ発話「鈴木さんのメッセージを読み上げて」の自然言語理解(NLU)結果(または学習データの適用結果)を「鈴木さんの4で」の真の発話意図として記憶する。
すなわち、学習データとして、発話学習データ記憶部112に格納する。
繰り返しは、予め規定した上限回数まで行い、上限階数に達した場合には学習対話フローを終了するようにしてもよい。
また、繰り返しが発生し、真の発話意図が獲得できた場合には、最初の意図解釈不可(OOD)と判定したユーザ発話のみを学習データとして記憶部に格納(ユーザ発話=繰り返しにより獲得できた真の発話意図として記録)してもよいし、問い合わせの繰り返しによって得られた全てのユーザ発話を学習データとして記憶部に格納(ユーザ発話=繰り返しにより獲得できた真の発話意図として記録)してもよい。
「「鈴木さんの4で」の意味を教えてください」
上記の問い合わせを出力し、その後、規定時間(5秒)以内のユーザ発話としてステップS124の発話、すなわち、
「鈴木さんのメッセージを読み上げて」というユーザ発話がなされている。
「鈴木さんのメッセージを読み上げて」
このユーザ発話の自然言語理解(NLU)結果(または学習データの適用結果)を先に意図解釈不可(OOD)と判定したユーザ発話「鈴木さんの4で」の真の発話意図として記憶する。
すなわち、学習データとして、発話学習データ記憶部112に格納する。
ユーザ発話の意図(インテント)と、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ)を記録したデータである。このデータが発話テキスト(発話文言)「鈴木さんの4で」に対応付けて発話学習データ記憶部112に記録される。
ユーザ発話「鈴木さんの4で」は、
意図(インテント)=メッセージ読み上げ(READ_MESSAGE)、
実体情報(エンティティ)=鈴木
これらの意図と実体情報を有するユーザ発話であることの学習データを生成して発話学習データ記憶部112に記録する。
鈴木さんのメッセージの読み上げ処理を実行する。
意図(インテント)=メッセージ読み上げ(READ_MESSAGE)、
実体情報(エンティティ)=鈴木
これらの意図,実体情報データの構成例を示している。
学習データは、このように、「ユーザ発話」と「意図,実体情報データ」との対応データとなる。
図6(a)学習データ例は、1つのユーザ発話に対して設定される学習データの例である。
図6(b)実体情報(エンティティ)構成例は、図6(a)学習データの構成データである実体情報(エンティティ)の詳細データ例である。
(1)ユーザ発話テキスト(Speech)
(2)意図(インテント)
(3)実体情報(エンティティ)
(4)その値の属性情報(ユーザ発話日時(date)、ユーザ発話の回数(SpeechCount))
(1)ユーザ発話テキスト(Speech)=「桑原圭祐にして」
このユーザ発話に対応付けられた学習データである。
このユーザ発話テキスト(Speech)=「桑原圭祐にして」の、
(2)意図(インテント)は、音楽再生(PLAY_MUSIC)であり、
(3)実体情報(エンティティ)は、図6(b)に示す各データであることが学習データとして記録される。
なお、(4)その値の属性情報(ユーザ発話日時(date)、ユーザ発話の回数(SpeechCount))
についても記録されることになる。
なお、図6(b)に示すデータは、ユーザ発話に含まれる1つのエンティティ=「桑原圭祐」に関する情報である。
ユーザ発話に複数のエンティティがある場合、各エンティティについて、図6(b)に示すデータが登録される。
(1)エンティティのユーザ発話文字(Literal)=「桑原圭祐」
(2)エンティティのタイプ(type)=再生対象(TARGET_MUSIC)
(3)エンティティの自然言語処理情報(nlpInfo)として、
(3a)エンティティを含む文節の句の種別:名詞句
(3b)エンティティを含む文節の格(主格、時間格、場所格など5W1Hや修飾節を表す):連用修飾節
(3c)エンティティを含む文節の言語的な意味判定結果:対象、依頼、願望
(3d)エンティティ単語の品詞と種別:名詞:一般名詞:固有名詞:名:人物
(3e)エンティティ単語の上位意味概念:コンテンツ:音楽:人物
なお、これらの実体情報(エンティティ)に記録するための情報は、例えば、知識辞書データ記憶部111に格納された辞書データから取得可能である。
(1)ユーザ発話テキスト(Speech)
(2)意図(インテント)
(3)実体情報(エンティティ)
(4)その値の属性情報(ユーザ発話日時(date)、ユーザ発話の回数(SpeechCount))
これらの構成データからなる学習データが、発話学習適応処理部108において生成されて、発話学習データ記憶部112に格納される。
図5に示す例においても、図6を参照して説明したと同様の構成データからなる学習データが生成されて記憶部に格納される。例えば、以下のデータからなる学習データである。
(1)ユーザ発話テキスト(Speech)=鈴木さんの4で
(2)意図(インテント)=READ_MESSAGE
(3)実体情報(エンティティ)=鈴木
(4)その値の属性情報(ユーザ発話日時(date)、ユーザ発話の回数(SpeechCount))
図4に示すステップS103の学習処理Aでは、これらの全てのデータを有する学習データが発話学習適応処理部108において生成されて、発話学習データ記憶部112に格納される。
図7に示すように、ユーザは、まず、ステップS131において、ミュージシャンである桑原圭祐の曲を聴きたいという意図で、
「桑原圭祐にして」
と発話する。
すなわち、ステップS132において、ユーザ発話の自然言語理解(NLU)結果を「意図解釈不可(OOD)」と判定する。
すなわち、ステップS133において、意図解釈不可(OOD)と判定した「ユーザのOOD発話内容」についての問い合わせ文を、音声合成処理(TTS:Text To Speech)により生成して、
「「桑原圭祐にして」の意味を教えてください」
上記の問い合わせ応答を出力する。
「桑原圭祐の曲を再生して」
このユーザ発話の自然言語理解(NLU)結果(または学習データの適用結果)を、最初のOOD判定とされたユーザ発話、すなわち、
「桑原圭祐にして」
このユーザ発話の意図として記憶する。
「桑原圭祐の曲を再生して」というユーザ発話(教師発話)から、真の意図、
意図(インテント)=音楽再生(PLAY_MUSIC)、
実体情報(エンティティ)=桑原圭祐、
これらのデータを得る。
このデータが、ステップS131の「意図解釈不可(OOD)発話」と判定されたユーザ発話「桑原圭祐にして」に含まれることから、学習データにはOOD発話を、知識辞書を用いて自然言語処理した"桑原圭祐"の部分の結果としての[学習意味概念A]が記憶される。
エンティティの自然言語処理情報(nlpInfo)、すなわち、
(a)エンティティを含む文節の句の種別:名詞句
(b)エンティティを含む文節の格(主格、時間格、場所格など5W1Hや修飾節を表す):連用修飾節
(c)エンティティを含む文節の言語的な意味判定結果:対象、依頼、願望
(d)エンティティ単語の品詞と種別:名詞:一般名詞:固有名詞:名:人物
(e)エンティティ単語の上位意味概念:コンテンツ:音楽:人物
これらの情報の少なくともいずれかを含む。
実体情報(エンティティ)単語が、音楽関係のアーティストを示す単語、
実体情報(エンティティ)単語が、映画タイトルを示す単語、
実体情報(エンティティ)単語が、ゲームタイトルを示す単語、
実体情報(エンティティ)単語が、都市名を示す単語、
等、実体情報(エンティティ)単語の属するカテゴリー等を識別可能とした情報である。
このように、発話学習適応処理部108は、実体情報(エンティティ)の上位意味概念を学習データとして、発話学習データ記憶部112に格納する。このようなデータを学習データに含めて記録することで、発話学習適応処理部108は、その後の新たなユーザ発話の意図解析処理に際して、その新たなユーザ発話に含まれる実体情報(エンティティ)の上位意味概念と同様の上位意味概念を持つ学習データを選択取得し、その学習データに記録された意図(インテント)を、その新たなユーザ発話の意図であると推定することが可能となる。
この処理については、後段で、図8を参照して説明する。
具体的には、例えば、第1のユーザ発話と第2のユーザ発話に共通に含まれる実体情報(桑原圭祐)と、正しい意図(インテント)を対応付けた学習データを生成して、発話学習データ記憶部112に記憶する。
意図(インテント)=音楽再生(PLAY_MUSIC)
実体情報(エンティティ)=[学習意味概念A]を含むデータ
発話学習適応処理部108は、このような意図(インテント)と、実体情報(エンティティ)の対応データを有する学習データを生成して、発話学習データ記憶部112に格納する。
なお、この学習データは、
ユーザ発話テキスト(Speech)=「桑原圭祐にして」
に対応付けて格納される。
学習データの全体構成は、先に図6を参照して説明した通りである。
意図(インテント)=音楽再生(PLAY_MUSIC)
実体情報(エンティティ)=[学習意味概念A]を含むデータ
このような意図(インテント)と、実体情報(エンティティ)の対応データを有する学習データが発話学習データ記憶部112に格納された後のユーザ発話に対する処理の実行例である。
「星野ゆかりにして」
と発話する。
ユーザ発話=「星野ゆかりにして」
このユーザ発話に含まれる
実体情報(エンティティ)=星野ゆかり
この「星野ゆかり」に関する情報を知識辞書データ記憶部111から取得する。取得する情報は、
エンティティの自然言語処理情報(nlpInfo)、すなわち、
(a)エンティティを含む文節の句の種別:名詞句
(b)エンティティを含む文節の格(主格、時間格、場所格など5W1Hや修飾節を表す):連用修飾節
(c)エンティティを含む文節の言語的な意味判定結果:対象、依頼、願望
(d)エンティティ単語の品詞と種別:名詞:一般名詞:固有名詞:名:人物
(e)エンティティ単語の上位意味概念:コンテンツ:音楽:人物
これらの情報を含む。
発話学習適応処理部108は、
ユーザ発話=「星野ゆかりにして」
このユーザ発話に含まれる
実体情報(エンティティ)=星野ゆかりに対応する[学習意味概念A]と、類似する[学習意味概念A]を登録した学習データを発話学習データ記憶部112から検索する。
意図(インテント)=音楽再生(PLAY_MUSIC)
実体情報(エンティティ)=[学習意味概念A]を含むデータ
この意図(インテント)と、実体情報(エンティティ)の対応データを有する学習データが抽出される。
この学習データは、先に図7を参照して説明した学習処理によって発話学習データ記憶部112に格納された学習データである。
なお、この学習データは、
ユーザ発話テキスト(Speech)=「桑原圭祐にして」
に対応付けて格納されている。
ユーザ発話に含まれる"星野ゆかり"は、学習データとして記録された1つの学習データ、すなわち、
意図(インテント)=音楽再生(PLAY_MUSIC)
実体情報(エンティティ)=[学習意味概念A]を含むデータ
この対応データを記録した学習データと一致すると判定する。
ユーザ発話=「星野ゆかりにして」
このユーザ発話に含まれる実体情報(エンティティ)である「星野ゆかり」以外の発話テキスト(発話文言)の構成部分「にして」が学習データに記録された、
ユーザ発話テキスト(Speech)=「桑原圭祐にして」
と一致すると判定する。
図8に示すステップS141において実行されたユーザ発話、すなわち、
「星野ゆかりにして」
このユーザ発話の意図(インテント)を、
意図(インテント)=音楽再生(PLAY_MUSIC)、
と判定する。
しかし、本開示の発話学習適応処理部108は、知識ベース辞書を使用して、ユーザ発話に含まれる実体情報(エンティティ)の意味概念を学習して、学習データとして記憶部(発話学習データ記憶部112)に格納する構成としている。、
なお、上述したように、実体情報(エンティティ)の意味概念には、エンティティ単語の上位意味概念、すなわち、実体情報(エンティティ)の種類を示す情報も含まれる。
「<学習意味概念=アーティスト名>にして」で音楽再生、
「<学習意味概念=食べ物>にして」でレシピ提示、
このような処理を行うことができる。
次に、様々な意味を有する同一発話データである多義語に対する処理について説明する。
「<学習意味概念=アーティスト名>にして」で音楽再生、
「<学習意味概念=食べ物>にして」でレシピ提示、
このような処理を行うことができる。
例えば、
食べ物名=ブルーベリー
が存在し、さらに、
アーティスト名=ブルーベリー
が存在するとする。
ユーザ発話=「ブルーベリーにして」
このようなユーザ発話があった場合、情報処理装置100は、音楽再生と、レシピ提示のどちらを行うべきかを判断することが困難になる。
(多義語対策構成例1)
ユーザ発話実行時の対話状態(ステート)を区分し、区分ステート単位の個別の学習データを生成して記録する。
(多義語対策構成例2)
ユーザ発話の意図(インテント)に併せてユーザ発話時の状況情報(コンテキスト)を記録した学習データを生成して記録する。
以下、これらの構成例について、順次、説明する。
ユーザ発話実行時の対話状態(ステート)を区分し、区分ステート単位の個別の学習データを生成して記録する。
まず、多義語対策構成例1として、ユーザ発話実行時の対話状態(ステート)を区分し、区分ステート単位の個別の学習データを生成して記録する構成例について、図9を参照して説明する。
ステート1=メッセージ通知状態ステート
ステート2=メッセージ読み上げステート
ステート3=メッセージ送信ステート
ステート4=単機能処理依頼ステート
ステート5=シーケンス機能処理依頼ステート
なお、このステート区分は一例であり、その他の区分設定としてもよい。
具体的には、ユーザと装置の対話内容が食べ物や料理の話をしているときは食べ物ステート、音楽の話をしているときは音楽ステート、スポーツの話をしているときはスポーツステート、旅行の話をしているときは旅行ステート等である。
各対話の内容に応じたステート単位のステート対応の学習データやNLUを設定して利用する。
学習処理を実行して学習データの生成、更新等を実行する際には、判定したステートに応じて、利用する記憶領域を決定する。
ユーザ発話=「ブルーベリーにして」
このようなユーザ発話があった場合の対応例について考察する。
まず、装置発話として、
「何を食べたいですか」
上記発話後に、
ユーザ発話=「ブルーベリーにして」
が入力された場合、
情報処理装置100の発話学習適応処理部108は、この対話ステートが、食べ物ステートであると判定し、食べ物ステート対応の学習データと、NLUデータを適用した処理を実行する、
この処理により、情報処理装置100は、食べ物であるブルーベリーを使ったレシピを提示することが可能となる。
まず、装置発話として、
「何の曲をかけますか」
上記発話後に、
ユーザ発話=「ブルーベリーにして」
が入力された場合、
情報処理装置100の発話学習適応処理部108は、この対話ステートが、音楽ステートであると判定し、音楽ステート対応の学習データと、NLUデータを適用した処理を実行する、
この処理により、情報処理装置100は、ミュージシャンであるブルーベリーの曲を再生することが可能となる。
ユーザ発話の意図(インテント)に併せてユーザ発話時の状況情報(コンテキスト)を記録した学習データを生成して記録する。
次に、多義語対策構成例2として、ユーザ発話の意図(インテント)に併せてユーザ発話時の状況情報(コンテキスト)を記録した学習データを生成して記録する処理例について説明する。
(1)ユーザ発話テキスト(Speech)
(2)意図(インテント)
(3)実体情報(エンティティ)
(4)その値の属性情報(ユーザ発話日時(date)、ユーザ発話の回数(SpeechCount))
(a)時刻情報(朝/午前中/昼/午後/夕方/夜/夜中)
(b)機器の使用状態情報(音楽再生中/動画再生中/ゲーム中)
(c)ユーザ状態情報(ユーザの位置/顔向き/視線方向)
(d)外部機器使用情報(テレビのON,OFF/ラジオのON,OFF/エアコンのON,OFF等)
各候補の学習データ生成時のコンテキスト情報と、意図推定対象である新たなユーザ発話時のコンテキスト情報の類似度を算出し、最も類似度が高い学習データを選択して、その選択学習データに記録された意図(インテント)を意図推定対象である新たなユーザ発話の意図(インテント)と判定する。
音楽のタイトルと、ゲームタイトルとで同じタイトル、例えば、「ブルースカイX」が利用されているとする。
ユーザ発話として、以下の発話がなされたとする。
ユーザ発話=「ブルースカイXお願い」
具体的には、
ユーザが何をしている状態か(音楽再生中、ゲーム中)、
機器の使用状態(ゲーム機がON/OFF)
これらのコンテキスト情報を取得する。
さらに、選択した学習データに記録された意図(インテント)を取得する。
この取得した意図(インテント)には、ゲーム「ブルースカイX」の再生と記録されている。
ユーザ発話=「ブルースカイXお願い」
このユーザ発話の意図は、ゲーム「ブルースカイX」の再生を行ってほしいという意図であると理解して、ゲーム再生を開始する。
さらに、選択した学習データに記録された意図(インテント)を取得する。
この取得した意図(インテント)には、音楽「ブルースカイX」の再生と記録されている。
ユーザ発話=「ブルースカイXお願い」
このユーザ発話の意図は、音楽「ブルースカイX」の再生を行ってほしいという意図であると理解して、音楽再生を開始する。
ユーザ発話=「目覚まし見せて」
利用コンテキスト=時刻情報、外部機器情報
朝、いつもの時間に発話ユーザが、テレビを見ていたら"目覚まし(番組)"のチャンネルに変える。
それ以外の時間だったら、アラームの時刻を提示する。
ユーザ発話=「ブルーベリーでなんかある?」
利用コンテキスト=ユーザ状態
ユーザが、キッチンで調理中ならブルーベリー(食材)を使ったレシピを提示
ユーザがリビングにいたら、ブルーベリー(アーティスト)の曲を再生。
ユーザ発話=「父さんにメール」
利用コンテキスト=ユーザ状態
発話ユーザが家の子供である場合、パパにメールする。
発話ユーザが、子供のお父さんである場合、(子供の)おじいちゃんにメールする。
ユーザ発話=「音量あげて」
利用コンテキスト=ユーザ状態
発話ユーザが見ている方向(テレビ等)の音量を上げる。
ユーザ発話=「切り方(焼き方)教えて」
利用コンテキスト=ユーザ状態
発話ユーザが、キッチンにいたら「調理法としての切り方(焼き方)」を提示する。
発話ユーザが、PCなどの機器を操作していたら「機器操作法としての電源の切り方、メディアへの焼き方」を提示する。
ユーザ発話=「たこのあげかた教えて」
利用コンテキスト=ユーザ状態
発話ユーザが、キッチンにいたら調理法として「蛸」の揚げ方を提示する。
発話ユーザの近くに子供が写っていたら遊び方としての「凧」のあげ方を提示する。
本開示の情報処理装置100の発話学習適応処理部108は、ユーザ発話の学習処理により、ユーザ発話の意図推定を正しく実行するための学習データを生成し、またこの学習データを利用して発話の意図推定を行う。
例えば、情報処理装置100の発話学習適応処理部108が、ユーザ発話の意図を確認するために、ユーザに対して問い合わせ発話として、
装置発話=「~~の意味を教えてください」
と発話したとする。
例えば、
ユーザ発話=「桑原圭祐にして」
装置発話=「「桑原圭祐にして」の意味を教えてください」
このような対話がなされた後、ユーザが、
ユーザ発話=「午前2時にアラームをセットして」
このような発話を行うことがある。
以下、このような誤学習による誤った学習データの生成や、記憶部(発話学習データ記憶部112)に対する格納処理を防止可能とした構成について説明する。
以下の2つの構成例について説明する。
(誤学習対策構成例1)
言語解析による実体情報(エンティティ)の意味概念の相違度を検証して誤学習を防止する。
(誤学習対策構成例2)
画像による個人識別を使った学習データの適用範囲を判定して誤学習を防止する。
以下、これらの構成例について、順次、説明する。
言語解析による実体情報(エンティティ)の意味概念の相違度を検証して誤学習を防止する。
まず、誤学習対策構成例1として、言語解析による実体情報(エンティティ)の意味概念の相違度を検証して誤学習を防止する構成について説明する。
(1)ユーザの最初の発話、すなわち、「意図解釈不可(OOD)発話」と判定されたユーザ発話と、
(2)その後の情報処理装置100からの問い合わせに対するユーザの言い直し発話、
これら2つの発話内に含まれる実体情報(エンティティ)の候補となる対象格や主格の意味概念を抽出する。
2つの発話のエンティティのベクトル距離が近いほど、2つの発話は類似すると判定する。
一方、2つの発話のエンティティのベクトル距離が遠いほど、2つの発話は非類似であると判定する。
2つの発話のエンティティのベクトル距離がしきい値以上である場合、2つの発話は類似しない、すなわち、無関係の発話であると判断し、ユーザの言い直しの発話を学習処理の対象から除外する。
(1)ユーザの最初の発話、すなわち、「意図解釈不可(OOD)発話」と判定されたユーザ発話内の実体情報(エンティティ)=桑原圭祐の意味概念=<アーティスト>
(2)その後の情報処理装置100からの問い合わせに対するユーザの言い直し発話内の実体情報(エンティティ)=午前2時の意味概念=<時刻>。
<アーティスト>
<時刻>
これらの意味概念の類似度を、例えばベクトル距離により算出する。
ベトトル距離は、規定のしきい値より大きく、類似度が低いと判定する。その結果、ユーザの言い直しの発話を学習処理の対象から除外する。
画像による個人識別を使った学習データの適用範囲を判定して誤学習を防止する。
次に、誤学習対策構成例2として、画像による個人識別を使った学習データの適用範囲を判定して誤学習を防止する構成について説明する。
「意図解釈不可(OOD)発話」に対する言い直し発話を行って学習対話を行ったユーザ本人を、この「意図解釈不可(OOD)発話」の学習データに対する適用対象ユーザとして学習データ内に記録する。また、学習対話時に一緒にいることが画像から確認されたユーザも適用対象ユーザとして学習データ内に記録する。
その後の発話解析時には画像から確認した発話ユーザが、学習データの適用対象ユーザに含まれている場合のみ適用を行う。
具体的には、お父さん(B)と一緒にいるおばあちゃん(A)が、「この人の教えてもらうよ」と情報処理装置100に話しかける。その後、おばあちゃん(A)がいない時にお父さん(B)が行った学習発話による学習データは、おばあちゃん(A)の発話の解析に利用される。
例えば、お父さん(B)が、おばあちゃん(A)の「意図解釈不可(OOD)発話」を真似た発話を実行して、その後、言い直し発話を行って学習処理を実行するといった処理が可能である。
次に、学習データの自動忘却処理について説明する。
すなわち、発話学習データ記憶部112に格納された学習データを自動的に破棄する処理である。
上記の(誤学習対策構成例1,2)を利用しても、すべての誤学習を防止することは困難である。
従って、発話学習データ記憶部112には、正しい学習データに併せて誤学習データも蓄積されてしまうことになる。
情報処理装置100の発話学習適応処理部108は、発話学習データ記憶部112に格納された学習データ各々について、以下の(式1)に従って学習データ忘却スコアf(t,c)を算出する。
f(t,c)=(kc/c)log(ktt+1)・・・(式1)
t:学習データ対応の発話をユーザが最後に発話してから経過した時間(日数(Days))
c:学習データ対応の発話をユーザが繰り返した回数
kt:時間の重み係数
kc:繰り返し回数の重み係数
図10には、学習データの発話をユーザが繰り返した回数:c=1,2,3,4,5の5つの例の学習データ忘却スコアf(t,c)を示している。
横軸が、時間(t)、縦軸が学習データ忘却スコアf(t,c)である。
横軸の時間(t)は、上記の定義のtであり、
t:学習データの発話をユーザが最後に発話してから経過した時間(日数(Days))
に相当する。
c:学習データの発話をユーザが繰り返した回数
このパラメータcの更新処理は、以下の「発話繰り返し回数c更新ルール」に従って行う。
1日以上、時間が空いて同じ発話が入力された場合に更新(+1)する。
1日以下の時間間隔で同じ発話が入力された場合は、
(発話間隔間隔/1日の総時間)を、現在のcの値に加算する。
情報処理装置100の発話学習適応処理部108は、上記の「発話繰り返し回数c更新ルール」に従ってパラメータcの更新処理を行う。
(1)再認可能忘却しきい値、
(2)完全忘却しきい値、
図10には、一例として、
(1)再認可能忘却しきい値=忘却スコアf(t,c)=1、
(2)完全忘却しきい値=忘却スコアf(t,c)=1.4、
この設定とした例を示している。
このしきい値設定は、様々な設定が可能である。
ユーザ発話の解析処理に適用する学習データは、忘却スコアf(t,c)が、再認可能忘却閾値以下の学習データのみとする。
また、情報処理装置100の起動/終了時や各対話ステートの開始/終了時に行うようにしてもよい。
情報処理装置100の発話学習適応処理部108は、発話学習データ記憶部112に格納されている1つの学習データを適用した際、その学習データの忘却スコアが再認可能忘却閾値より低い場合には、その学習データの日時情報を適応時の日時に更新し、発話繰り返し回数cを更新する。発話繰り返し回数cの更新は、上述した「発話繰り返し回数c更新ルール」に従って行う。
この更新処理により、その学習データの忘却スコアは0にリセットされ、新たな更新後の発話繰り返し回数cによる曲線に遷移する。
すなわち、誤学習などで1回のみ記憶した発話はすぐに忘却するが、繰り返されるユーザ固有の言い回し等は長期に渡って記憶部に記憶される。
図4に示すステップS104において実行される学習処理B(修正対話フロー)の詳細については後述する。
c:学習データの発話をユーザが繰り返した回数
このパラメータcの更新処理を、以下の「発話繰り返し回数c更新ルール」に従って行う。
1日以上、時間が空いて同じ発話が入力された場合に更新(+1)する。
1日以下の時間間隔で同じ発話が入力された場合は、
(発話間隔間隔/1日の総時間)を、現在のcの値に加算する。
情報処理装置100の発話学習適応処理部108は、上記の「発話繰り返し回数c更新ルール」に従ってパラメータcの更新処理を行う。
また、短時間内(1日以下)の繰り返し発話は発話回数cがほぼ増加しないため早期に(数日で)破棄される。
1年から数年に1回のイベント関連の言葉に関連する学習データは、発話学習データ記憶部112に長期記憶される。
例えば、「運動会の日は晴れ?」「今日金メダル撮った?」を数日間に渡り、毎日、発話されると、この発話関連の学習データが発話学習データ記憶部112に長期記憶される。
この結果、1~数年後も発話学習データ記憶部112に学習データが残る。
なお、発話時期により忘却しやすさを変えてもよい。例えば、12月は「クリスマス」を含む文言を忘れにくくする等の処理である。
これは、例えば、知識辞書データ記憶部111に格納された知識辞書データを参照して行うことがてきる。
定期的に来る親戚の発話は覚え、単発の客人の発話は忘れる。
例えば、情報処理装置100に発話を行うユーザが、週2回来る祖母であり、関西弁の発話ユーザである場合、上記のパラメータcの更新処理を適用することで長期記憶の対象となる。すなわち、上述したように時間を空けて繰り返された発話は指数的に長期記憶となる。
一方、めったに来ないが短期間で繰り返し発話された友人の九州弁は数日で忘れる。
単発の流行り言葉を破棄しやすい。
例えば、「品川の事件の犯人捕まった?」など単発ニュースに関連するワードは、短時間で繰り返し発話される傾向があるが、このような短時間間隔の繰り返し発話に関連する学習データは、本開示の処理では、長期記憶対象とはなりにくい。
環境による音声認識の誤認識。
例えば、情報処理装置100が設置された部屋でたまたまついていたテレビ番組の音を入力して、情報処理装置100がその入力ワードに基づく学習処理を行って学習データを発話学習データ記憶部112に格納した場合、早期に破棄される可能性が高くなる。
一方、近くを通る電車の騒音など定期・定常的に家の中で発生しているノイズについては、ノイズ環境下での音声認識の誤認識を含むユーザ発話による学習と適用が定期的に繰り返し行われ、定期・定常的なノイズ環境下での学習データが発話学習データ記憶部112に長期記憶される。
次に、図4のフローチャートのステップS104において、発話学習適応処理部108が実行する「学習処理B=ユーザ発話意図の修正対話フロー」による学習データの生成処理の詳細について説明する。
図11に示すように、まず、ユーザはメッセージの一覧を見せてほしい意図を持ち、ステップS151において、
ユーザ発話=「見せて」
と発話する。
さらに、この意図判定結果に基づく処理として、ステップS153において、情報処理装置100の音声出力部123を介して、
装置発話=「5件のタスクがあります」
との装置発話を実行し、さらに、画像出力部125にタスクの一覧表示を行う。
ユーザ発話=「ちがうよ」
を発話する。
発話学習適応処理部108は、これらのユーザ発話を間違い指摘発話として認識する。
「"ユーザの最初の発話内容"の意味を教えてください」
上記のような問い合わせ応答を出力する。
図11に示す例では、情報処理装置100は、ステップS156において、
「「見せて」の意味を教えてください」
上記の問い合わせ応答を出力している。
上記のユーザ発話意図獲得のための問い合わせ発話後、予め規定した時間内(例えば5秒以内)に実行されたユーザ発話(図11の例ではステップS157のユーザ発話)の自然言語理解(NLU)結果(または学習データの適用結果)を「鈴木さんの4で」の真の発話意図として記憶する。
すなわち、学習データとして、発話学習データ記憶部112に格納する。
もし、最初のユーザ発話=「見せて」発話の意図(インテント)を、「タスクを見せて(SHOW_TASK)」であると判定する処理に、学習データを適用している場合は、その学習データを破棄、または修正する。
また、最初の「見せて」発話の意図(インテント)を「タスクを見せて(SHOW_TASK)」であると判定した処理が、自然言語理解(NLU)の処理結果に基づくものだった場合には新規の学習データを生成して記憶する。
なお、学習データの適用時には、自然言語理解(NLU)結果より学習データが優先して適用される。
「「見せて」の意味を教えてください」
上記の問い合わせの出力に対するユーザ応答として、ステップS157において、
「メッセージの一覧を見せて」
このようなユーザ応答があると、図11のステップS158において、ステップS158に示すデータを学習データとして発話学習データ記憶部112に格納する。
ユーザ発話の意図(インテント)=「メッセージ出力(SHOW_MESAAGE)」を記録したデータである。このデータがユーザテキスト(発話文言)=「見せて」に対応付けて発話学習データ記憶部112に記録される。
発話テキスト(発話文言)=「見せて」は、
意図(インテント)=メッセージ出力(SHOW_MESSAGE)、
この意図を有するユーザ発話であることの学習データを生成して発話学習データ記憶部112に記録する。
メッセージ出力に関連する装置発話処理を実行する。図に示す例では、
装置発話=「3件のメッセージがあります」
を実行している。
この機能を備えた構成とすることで、例えば、誤学習のユーザによる訂正や、音声認識や自然言語理解(NLU)の性能限界による装置誤動作を、ユーザが修正することができる。
次に、図4に示すフローのステップS101において実行する処理、すなわち、学習データを適用したユーザ発話の意図推定処理の詳細について説明する
(1)音声認識部102が、ユーザ発話に基づいて生成したテキストデータ、
(2)発話意味解析部103が、テキストデータに対する自然言語理解(NLU)を実行して生成したユーザ発話の意図(インテント)と実体情報(エンティティ)、
(3)カメラなどの画像入力部104が取得した発話ユーザおよびその周囲の画像に対する画像認識部105の画像認識結果情報、
(4)センサー106が取得した発話ユーザおよびその周囲の状態の検出情報に基づいて、センサー情報解析部が解析したセンサー解析情報、
適用できるデータが発話学習データ記憶部112に格納済みの発話学習データに存在する場合は、学習データを利用して、ユーザ発話の意図(インテント)と実体情報(エンティティ)を推定する。
なお、初期状態で、学習データ自体が存在しない場合も、同様の処理を行う。
先に説明したように、学習データの生成、修正、破棄等の処理は、次に説明するステップS103やステップS104において実行される。
すなわち、発話学習データ記憶部112に格納される学習データは、ステップS103やステップS104において実行される学習処理により、逐次更新されたデータである。
この発話学習データ記憶部112に格納された学習データを用いたユーザ発話の意図(インテント)と実体情報(エンティティ)の推定処理の詳細シーケンスについて、図12、図13に示すフローチャートを参照して説明する。
発話学習適応処理部108における処理は、例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として実行可能である。
以下、図12、図13に示すフローの各ステップの処理について説明する。
まず、発話学習適応処理部108は、ステップS201において、ユーザ発話入力に応じて、記憶部に格納された学習データの検索を行う。
すなわち、図3に示す情報処理装置100の発話学習データ記憶部112に格納されている学習データの検索を行う。
なお、学習データの各々は、先に図9を参照して説明したように、対話状態(ステート)毎に異なるデータセットを持っている。
ステップS201ではステップ実行時点の対話状態(ステート)を解析して、その対話状態(ステート)対応の学習データを検索対象とした検索を行う。
この処理を行うことで、対話の文脈に合わせた学習データの適用が可能となり、誤解釈を低減できる。
次に、発話学習適応処理部108は、ステップS202において、ユーザ発話の意図推定に適用可能な学習データが発話学習データ記憶部112に格納されているか否かを判定する。
一方、ユーザ発話の意図推定に適用可能な学習データが発話学習データ記憶部112に格納されている場合は、ステップS203に進む。
次に、発話学習適応処理部108は、ステップS203において、音声認識部102が、ユーザ発話に基づいて生成したテキストデータを入力する。
次に、発話学習適応処理部108は、ステップS204において、知識辞書データ記憶部111に格納された知識辞書データを参照して、テキストデータに対する自然言語処理を実行して生成したユーザ発話に含まれる実体情報(エンティティ)対応の意味概念の抽出を行う。
すなわち、ユーザ発話から取得される実体情報(エンティティ)の自然言語処理情報(nlpInfo)、すなわち、
(a)エンティティを含む文節の句の種別
(b)エンティティを含む文節の格(主格、時間格、場所格など5W1Hや修飾節を表す)
(c)エンティティを含む文節の言語的な意味判定結果
(d)エンティティ単語の品詞と種別
(e)エンティティ単語の上位意味概念
これらの情報を含む。
ステップS205~S212は、発話学習データ記憶部112に格納されている学習データ各々(学習データ要素)について、順次、実行するループ処理である。
なお、学習データ各々(学習データ要素)は、先に図6を参照して説明したデータ構成を有する。すなわち、以下の構成データを有する。
(1)ユーザ発話テキスト(Speech)
(2)意図(インテント)
(3)実体情報(エンティティ)
(4)その値の属性情報(ユーザ発話日時(date)、ユーザ発話の回数(SpeechCount))
(1)エンティティのユーザ発話文字(Literal)、
(2)エンティティのタイプ(type)、
(3)エンティティの自然言語処理情報(nlpInfo)として、
(3a)エンティティを含む文節の句の種別
(3b)エンティティを含む文節の格(主格、時間格、場所格など5W1Hや修飾節を表す)
(3c)エンティティを含む文節の言語的な意味判定結果
(3d)エンティティ単語の品詞と種別
(3e)エンティティ単語の上位意味概念
これらの情報が、学習データ各々に記録されている。
この処理は、先に図8、図9を参照して説明した処理と同様の処理である。
この処理は、具体的には、例えば、先に図7、図8を参照して説明した処理における
「桑原圭祐にして」と、
「星野ゆかりにして」
のエンティティ(桑原圭祐、星野ゆか)以外の「にして」の一致性の判定処理である。
この処理は、先に図10を参照して説明した学習データ忘却スコアf(t,c)の算出処理である。
f(t,c)=(kc/c)log(ktt+1)・・・(式1)
なお、上記(式1)において、各パラメータは以下の意味を持つ。
t:学習データ対応の発話をユーザが最後に発話してから経過した時間(日数(Days))
c:学習データ対応の発話をユーザが繰り返した回数
kt:時間の重み係数
kc:繰り返し回数の重み係数
忘却スコアが再認可能忘却閾値以下である場合は、ステップS211に進む。
忘却スコアが再認可能忘却閾値以下でない場合は、現学習データのループ処理を終了して、次の学習データ要素についてのループ処理に移行する。
発話学習適応処理部108は、ステップS211において、ループ中の今の学習データ要素と意味概念一致で抽出したエンティティを、意図推定候補の一つとしてメモリに一時記憶する。
発話学習適応処理部108は、ステップS221において、ステップS208~S212の学習データ要素サーチで抽出、一時記憶した意図推定候補となる学習データ要素をメモリから取出す。
発話学習適応処理部108は、ステップS222において、メモリから取得した意図推定候補がいくつ有るかを判定する。
2つ以上ある場合は、ステップS223に進む。
1つのみの場合は、ステップS224に進む。
1つもない場合は、ステップS225に進む。
発話学習適応処理部108は、メモリから取得した意図推定候補が2つ以上ある場合は、ステップS223において、意図推定候補の中で学習データ要素のコンテキスト情報が現在のコンテキストと最も類似している意図推定候補を、最終意図推定用学習データ要素として選択する。
この場合は、先に説明したコンテキストの解析を行い、ユーザ発話の実行された状況を示すコンテキストと類似するコンテキストが記録された1つの学習データ(要素)を選択する。
また、発話学習適応処理部108は、メモリから取得した意図推定候補が1つのみである場合は、ステップS224において、取得した1つの意図推定候補を、最終意図推定用学習データ要素とする。
また、発話学習適応処理部108は、メモリから取得した意図推定候補が1つもない場合は、ステップS225において、発話意味解析部103から、解析結果として入力された意図(Intent)と実体情報(Entity)を推定結果として後段フローに出力して処理を終了する。
すなわち、図4に示すフローのステップS101の処理を終了して、ステップS102に進む。
一方、ステップS223、またはステップS224において、最終意図推定用学習データ要素を決定した場合は、ステップS226に進む。
発話学習適応処理部108は、ステップS226において、選択した最終意図推定学習データ要素の発話の回数cを更新する。
回数パラメータcは、学習データの発話をユーザが繰り返した回数であり、以下の「発話繰り返し回数c更新ルール」に従って更新を行う。
1日以上、時間が空いて同じ発話が入力された場合に更新(+1)する。
1日以下の時間間隔で同じ発話が入力された場合は、
(発話間隔間隔/1日の総時間)を、現在のcの値に加算する。
このように、発話学習適応処理部108は、上記の「発話繰り返し回数c更新ルール」に従ってパラメータcの更新処理を行う。
また、ステップS226において、選択した最終意図推定学習データ要素のユーザ発話日時情報を、ステップを実行している適応時の日時に更新してもよい。
次に、発話学習適応処理部108は、ステップS227において、選択した最終意図推定学習データ要素の意図(Intent)と、意味概念一致で抽出したエンティテイ(Entity)を後段フローに出力して処理を終了する。
すなわち、図4に示すフローのステップS101の処理を終了して、ステップS102に進む。
次に、その他の実施例について説明する。
以下の実施例について説明する。
(a)汎用的な自然言語理解(NLU)の学習データの生成を行う構成、
(b)ユーザからの言い換えによる発話学習を行う構成
(c)学習処理の内容をユーザに提示する構成
(d)その他の変形例
(a)汎用的な自然言語理解(NLU)の学習データの生成を行う構成、
多数の情報処理装置100を、ネットワークを介してサーバに接続するる。
サーバは、各情報処理装置100において実行された学習データを収集し、発話文言と、意図(インテント)と実体情報(エンティティ)との対応データの解析を行う。
次に、ユーザからの言い換えによる発話学習を行う構成例について説明する。
図14にユーザからの言い換えによる発話学習フローの例を示す。
ユーザ発話=「品川駅から横浜に行く電車の時間を教えて」
ユーザ発話の意図(インテント)=電車の時間確認(CHECK_TRAIN_TIME)、
ユーザ発話の実体情報(エンティティ)=品川駅、横浜方面、
これらを取得する。
装置発話=「8時32分発の東海道線があります」
と装置発話を出力する。
ユーザ発話=「言い換える」
を発話する。
意図(インテント)=発話学習(LEARN_SPEECH)
としたユーザ発話に対する自然言語理解(NLU)結果を取得し、さらに、ステップS316において、具体的な言い換え文言の発話を求める質問を行う。すなわち、
「何て言われた時に今の操作をしますか?」
上記の装置発話を行う。
ユーザ発話=「電車の時間は」
を実行する。
意図(インテント)=電車の時間確認(CHECK_TRAIN_TIME)、
ユーザ発話の実体情報(エンティティ)=品川駅、横浜方面、
これらを、
ユーザ発話テキスト(speech)=「電車の時間は」に対して記録した学習データを生成して、発話学習データ記憶部112に格納する。
意図(インテント)=電車の時間確認(CHECK_TRAIN_TIME)、
ユーザ発話の実体情報(エンティティ)=品川駅、横浜方面、
これらの意図(インテント)と、実体情報(エンティティ)を含む発話であると判定する。
ユーザ発話=「明日7時にアラームをセットして」
情報処理装置100の発話学習適応処理部108は、ステップS352において、ユーザ発話に対する自然言語理解(NLU)結果として、
ユーザ発話の意図(インテント)=アラームセット(ALERM_SET)、
ユーザ発話の実体情報(エンティティ)=明日の午前7時、
これらを取得する。
さらに、情報処理装置100の発話学習適応処理部108は、ステップS353において、以下の応答発話を行う。
装置発話=「明日の午前7時にアラームをセットしました」
ユーザ発話=「玄関のカギ閉めて」
情報処理装置100の発話学習適応処理部108は、ステップS355において、ユーザ発話に対する自然言語理解(NLU)結果として、
ユーザ発話の意図(インテント)=カギロック(KEY_LOCK)、
ユーザ発話の実体情報(エンティティ)=玄関、
これらを取得する。
さらに、情報処理装置100の発話学習適応処理部108は、ステップS356において、以下の応答発話を行う。
装置発話=「玄関の鍵を閉めました」
ユーザ発話=「この部屋の電気を消して」
情報処理装置100の発話学習適応処理部108は、ステップS358において、ユーザ発話に対する自然言語理解(NLU)結果として、
ユーザ発話の意図(インテント)=電気オフ(LIGHT_OFF)、
ユーザ発話の実体情報(エンティティ)=寝室、
これらを取得する。
さらに、情報処理装置100の発話学習適応処理部108は、ステップS359において、以下の応答発話を行う。
装置発話=「電気を消しました」
ユーザ発話=「まとめて覚えて」
情報処理装置100の発話学習適応処理部108は、ステップS361において、ユーザ発話に対する自然言語理解(NLU)結果として、
ユーザ発話の意図(インテント)=発話学習(LEARN_SPEECH)
これらを取得し、さらに、ステップS362において、具体的な言い換え文言の発話を求める質問を行う。すなわち、
装置発話=「何て言われた時に今の操作をしますか?」
上記の装置発話を行う。
ユーザ発話=「おやすみ」
を実行する。
ユーザ発話=「おやすみ」
に対応付けた学習データとして、以下の3つの意図(インテント)と、実体情報(エンティティ)を持つ学習データを生成して記憶部に格納する。
(1a)ユーザ発話の意図(インテント)=アラームセット(ALERM_SET)、
(1b)ユーザ発話の実体情報(エンティティ)=明日の午前7時、
(2a)ユーザ発話の意図(インテント)=カギロック(KEY_LOCK)、
(2b)ユーザ発話の実体情報(エンティティ)=玄関、
(3a)ユーザ発話の意図(インテント)=電気オフ(LIGHT_OFF)、
(3b)ユーザ発話の実体情報(エンティティ)=寝室、
装置発話=「「おやすみ」を覚えました」
複数の機能をマクロ的に短く簡単な発話で一括実行できるようになり利便性が上がる。
次に、学習処理の内容をユーザに提示する構成例について説明する。
情報処理装置100が実行する学習処理の態様は様々であり、ユーザは、情報処理装置がどのような学習処理を実行して、どのような学習データが生成されているかを確認したい場合がある。
具体的な表示データの例について、図16、図17を参照して説明する。
この学習内容説明表示例1は、
ユーザ発話が、意図解釈不可(OOD)発話であり、図4に示すステップS103のユーザ発話意図の学習対話フローを実行する場合、または、
ユーザ発話が、意図解釈間違い指摘発話であり、図4に示すステップS104のユーザ発話意図の修正対話フローを実行する場合、
これらいずれかの場合の学習内容説明表示例である。
この場合、画像出力部125には、
ユーザの意図解釈不可(OOD)発話の発話内容
「鈴木さんの選んで」
を表示するとともに、
学習候補であることを示すアイコン「?」を表示する。
この学習内容説明表示例2は、例えば先に図14、図15を参照して説明したユーザからの言い換え指示の発話があった場合の表示例である。
システム(情報処理装置100)が、ユーザに言い換え文言を聞く時の画面表示例に相当する。
言い換えの対象となる(複数の)発話内容と、
その意図(インテント)や、実体情報(エンティティ)を明示する。
さらに、実行順を示す番号(のアイコン)を明示する。
学習したデータの発話文言と、
その意図(インテント)や、実体情報(エンティティ)を表示する。
なお、この表示処理においては、
既存学習済みのデータに対して今回学習したデータを、輝度、またはフォントを区別する、またはアニメーション表示等を行うことによって強調表示することが好ましい。
次に、その他の変形例について説明する。
上述した本開示の情報処理装置100の発話学習適応処理部108は、さらに、以下の処理を行う構成としてもよい。
ユーザ発話の自然言語理解(NLU)結果として複数の意図が取得できた場合、システム(情報処理装置100)からユーザに複数の意図のうちどれがユーザの真の発話意図であるかを質問し、その回答を最初のユーザ発話の意図として学習してもよい。
「タスク一覧とメッセージ一覧のどちらを見ますか?」
という質問発話を行い、ユーザから、
「メッセージ見せて」
という回答があったら、最初のユーザ発話「見せて」を、
意図(インテント)=SHOW_MESSAGE
として学習する。
意図(インテント)=SHOW_TASK
として学習する。
ユーザ発話の自然言語理解(NLU)結果として取得した意図の信頼度スコアが低い場合、システム(情報処理装置100)からユーザに信頼度スコアの低い意図がユーザの真の発話意図であるかを質問し、その回答を最初のユーザ発話の意図として学習してもよい。
「桑原圭祐にして」
という発話に対し、自然言語理解(NLU)結果として
意図(インテント)=音楽再生(PLAY_MUSIC)、
実体情報(エンティティ)=桑原圭祐、
これらのデータの信頼度スコアが、予め規定したしきい値より低い場合、機能実行(音楽再生)を行う前にシステム(情報処理装置100)からユーザに、
「桑原圭祐の音楽再生でよろしいですか?」
という質問発話を行う。
意図(インテント)=音楽再生(PLAY_MUSIC)、
実体情報(エンティティ)=桑原圭祐、
として学習する。
システム(情報処理装置100)から、
「桑原圭祐にしての意味を教えてください」
と質問を行い、図7を参照して説明した処理を実行する。
ユーザからの発話指示により、学習を行わないモード(非学習モード)に入ってもよい。
例えば、ユーザから「言ったこと覚えないで」と発話されると、非学習モードに入り、以降は学習データの生成や修正を行わない。
しかし、学習データを発話学習データ記憶部112に記憶しない。
また、ユーザから「言ったこと覚えて」と発話されると非学習モードから抜けて、その後は、通常の学習処理を行う。
これは、例えば発話ユーザのプライバシーに関するデータを記憶部に記憶しないために有効な構成である。
あるユーザ発話の学習時に外部連携機器の使用状況を含めて学習し、新たなユーザ発話の意図解析時にも外部連携機器の使用状況を取得し、学習データに記録された外部連携機器使用状況と比較して、同じ使用状況のデータを持つ学習データを適用するようにしてもよい。
例えば、テレビが電源OFFの時に学習したユーザ発話「つけて」の、
意図(インテント)=テレビ電源ON(POWERON_TV)
は、テレビが電源ONの時のユーザ発話「つけて」には適用しない。
テレビが電源OFFの時のユーザ発話「つけて」にのみ適用する。
このような処理が可能となる。
このような設定とすることで、外部連携機器の使用状況に応じた最適な処理(機能実行)が可能となる。
画像やセンサーなどの情報から学習時のユーザ状況を認識し、ユーザが余裕のある時に真の意図を取得して学習を行う。
ユーザの動きが大きい場合や、部屋出て行こうとしていて急いでいる状況の時はユーザの「意図解釈不可(OOD)発話」、例えば、
「見せて」に対して、
「分かりません」とシステム(情報処理装置100)が応答を行う。
「朝言われた「見せて」の意味を教えてください」
この質問発話に基づくユーザ発話を入力して学習を行う。
次に、本開示の情報処理装置の状態遷移と処理の効果について説明する。
本開示の情報処理装置100は図18に示すように、以下の5つの状態を持ち、実行する処理に応じて各状態間を遷移する。
状態1=対話状態
状態2=学習状態
状態3=適応状態
状態4=修正状態
状態5=忘却状態
これらの状態は、情報処理装置100の発話学習適応処理部108の状態に相当し、発話学習適応処理部108の実行する処理に応じて、各状態を遷移する。
情報処理装置100が対話によりユーザ意図(インテント)を獲得すると、
状態2=学習状態
に移行する。
新たなユーザ発話が入力されると発話学習データ記憶部112に格納された学習データを利用するための記憶照会を行うことにより、状態3=適応状態に移行する。
状態3=適応状態で新たなユーザ発話に対して学習データの適用が行われると、学習データ内のユーザ発話回数情報を更新して長期記憶となる記憶強化が行われる。
状態5=忘却状態
に移行し学習データは破棄される。
なお、発話学習適応処理部108は、先に図10を参照して説明したように、発話学習データ記憶部112に格納された学習データの各々について、以下の(式1)に従って学習データ忘却スコアf(t,c)を算出する。
f(t,c)=(kc/c)log(ktt+1)・・・(式1)
すなわち図11に示すシーケンスに従って実行される学習データの修正処理を行う状態である。
この処理により、発話学習データ記憶部112に格納された学習データの修正や、破棄が行われる。
例えば、この処理が、図18に示す状態3=適応状態から状態4=修正状態への移行(ユーザ指摘)と、状態4=修正状態から状態5=忘却状態への移行(手動破棄)に相当する。
情報処理装置100が、様々なユーザ発話を入力し、ユーザとの対話を実行することで、図18に示す状態遷移が継続して実行される。その結果、発話学習データ記憶部112に格納される学習データは、ユーザ発話の正確な意図把握が可能となるように最適化される。
(1)システム(情報処理装置100)がユーザ固有の言い回しとその意図を使用中に学習し適応することで、ユーザは従来の汎用的に発話を学習したNLUエンジンではカバーしきれない多様な自然発話による音声入力が可能となる。
(2)ユーザは人に話しかけるように自然発話でシステム(情報処理装置100)に話しかけることができるようになるため、音声入力の負荷が下がり継続的に音声対話システム(情報処理装置100)を使用できるようになる。
(4)システム(情報処理装置100)は、ユーザが定常的に使用しない(誤学習データを含む)発話学習データを自動で破棄し、またユーザ発話によっても学習データを修正・破棄が可能となるため、システム(情報処理装置100)のユーザ発話意図とは異なる誤動作の低減ができる。
(6)個人化学習データを汎用的な自然言語理解(NLU)エンジンの学習データとして使用することにより、その時々でよく使用されている発話(ある程度定着している流行りの言い回し)の学習データを効率的に自動収集することが可能となる。
複数の実施例について説明したが、これらの実施例において説明した様々な処理機能、例えば、図3に示す情報処理装置100の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやPC等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。
図19(1)情報処理システム構成例1は、図3に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやPC、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置410内に構成した例である。
ユーザ端末に相当する情報処理装置410は、例えば応答文生成時に外部アプリを利用する場合にのみ、アプリ実行サーバ420と通信を実行する。
なお、ユーザ端末側の機能と、サーバ側の機能の機能分轄態様は、様々な異なる設定が可能であり、また、1つの機能を双方で実行する構成も可能である。
次に、図20を参照して、情報処理装置のハードウェア構成例について説明する。
図20を参照して説明するハードウェアは、先に図3を参照して説明した情報処理装置のハードウェア構成例であり、また、図19を参照して説明したデータ処理サーバ460を構成する情報処理装置のハードウェア構成の一例である。
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
(1) ユーザ発話の意図(インテント)を解析する発話学習適応処理部を有し、
前記発話学習適応処理部は、
ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報(エンティティ)と、正しい意図を対応付けた学習データを生成して記憶部に格納する情報処理装置。
意図の不明確な第1のユーザ発話の入力後に、
意図確認のための装置発話を実行して、該装置発話に対するユーザからの応答発話である第2のユーザ発話を入力し、
前記第2のユーザ発話の解析結果として取得した意図を、前記第1のユーザ発話の発話テキストと実体情報に対応付けて記録した学習データを生成する(1)に記載の情報処理装置。
意図の不明確な第1のユーザ発話の入力後に、
意図確認のための装置発話を実行して、該装置発話に対するユーザからの応答発話である第2のユーザ発話を入力し、
(a)前記第1のユーザ発話の発話テキストと、
(b)前記第1のユーザ発話と前記第2のユーザ発話に共通に含まれる実体情報と、
(c)前記第2のユーザ発話の解析結果として取得した正しい意図、
これらを対応付けた学習データを生成する(1)または(2)に記載の情報処理装置。
前記学習データに前記実体情報の上位意味概念情報を含めて記録する(1)~(3)いずれかに記載の情報処理装置。
前記実体情報の種類を示す情報である(4)に記載の情報処理装置。
前記学習データに前記実体情報の上位意味概念情報を含む自然言語処理情報を含めて記録する(1)~(5)いずれかに記載の情報処理装置。
新たなユーザ発話の意図解析処理に際して、該新たなユーザ発話に含まれる実体情報の上位意味概念情報を取得し、取得情報と類似する上位意味概念情報を記録した学習データを記憶部から抽出し、
前記新たなユーザ発話に含まれる実体情報以外の発話テキストと、抽出した学習データに記録された発話テキストとの一致が確認された場合、抽出した学習データに記録された意図を、前記新たなユーザ発話の意図として推定する(1)~(6)いずれかに記載の情報処理装置。
ユーザから意図解釈間違いを指摘するユーザ発話を入力した場合、
前記ユーザからの再発話に基づいて正しい意図を取得し、
意図推定に適用した学習データに記録された誤った意図情報を、正しい意図情報に修正する処理を行う(1)~(7)いずれかに記載の情報処理装置。
ユーザ発話実行時の対話状態(ステート)に応じて区分されたステート単位の複数の学習データから構成されている(1)~(8)いずれかに記載の情報処理装置。
記憶部に格納された学習データの利用状況に応じて破棄、または利用停止を行う(1)~(9)いずれかに記載の情報処理装置。
記憶部に格納された学習データ各々について、
学習データ対応の発話をユーザが最後に発話してから経過した時間:tと、
学習データ対応の発話をユーザが繰り返した回数:c、
これらのパラメータに基づいて、学習データ忘却スコアf(t,c)を算出し、
算出した学習データ忘却スコアf(t,c)の値と規定しきい値とを比較して、各学習データの破棄、または利用停止を行う(10)に記載の情報処理装置。
ユーザ発話実行時のコンテキスト情報を記録した学習データであり、
前記発話学習適応処理部は、
新たなユーザ発話入力時のコンテキスト情報を取得し、取得情報と類似するコンテキスト情報を記録した学習データを記憶部から抽出し、抽出した学習データに記録された意図を、前記新たなユーザ発話の意図として推定する(1)~(11)いずれかに記載の情報処理装置。
ユーザ発話が意図解釈不可発話である場合に実行されたユーザからの言い直し発話を解析し、
前記ユーザ発話と、前記言い直し発話との意味概念の相違度が予め規定したしきい値以上である場合、前記言い直し発話に基づく学習処理を実行しない(1)~(12)いずれかに記載の情報処理装置。
意図解釈不可発話に対する言い直し発話を行った第1のユーザと、第2のユーザが一緒にいることがカメラ撮影画像から確認された場合、または、
前記第1のユーザが、前記第2のユーザから学習発話を許可されたユーザであることが確認された場合、
前記第1のユーザによる言い直し発話に基づく学習データを、前記第2のユーザの新たな発話に適応して意図推定処理を実行する(1)~(13)いずれかに記載の情報処理装置。
先行して実行されたユーザ発話の意図に対するユーザからの発話の対応付けの指示として、ユーザ発話の言い換え要求を入力した場合、
言い換え要求後のユーザ発話に、先行して実行されたユーザ発話に対応する意図および実体情報を対応付けた学習データを生成する(1)~(14)いずれかに記載の情報処理装置。
複数のユーザ発話に対応する複数の意図を、1つのユーザ発話に対応付けた学習データを生成する(1)~(15)いずれかに記載の情報処理装置。
前記ユーザ端末は、
ユーザ発話を入力する音声入力部を有し、
前記データ処理サーバは、
前記ユーザ端末から受信する前記ユーザ発話の意図(インテント)を解析する発話学習適応処理部を有し、
前記発話学習適応処理部は、
ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報(エンティティ)と、正しい意図を対応付けた学習データを生成して記憶部に格納する情報処理システム。
音声入力部が、ユーザ発話を入力し、
発話学習適応処理部が、前記ユーザ発話の意図(インテント)を解析する発話学習適応処理を実行し、
前記発話学習適応処理において、
ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報(エンティティ)と、正しい意図を対応付けた学習データを生成して記憶部に格納する処理を実行する情報処理方法。
前記ユーザ端末が、
ユーザ発話を入力する音声入力処理を実行し、
前記データ処理サーバが、
前記ユーザ端末から受信する前記ユーザ発話の意図(インテント)を解析する発話学習適応処理を実行し、
前記発話学習適応処理において、
ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報(エンティティ)と、正しい意図を対応付けた学習データを生成して記憶部に格納する処理を実行する情報処理方法。
音声入力部に、ユーザ発話を入力させる音声入力ステップと、
発話学習適応処理部に、前記ユーザ発話の意図(インテント)を解析する発話学習適応処理を実行させ、
前記発話学習適応処理において、
ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報(エンティティ)と、正しい意図を対応付けた学習データを生成して記憶部に格納する処理を実行させるプログラム。
具体的には、例えば、発話学習適応処理部が、ユーザから入力する複数のユーザ発話を解析して、意図の不明確なユーザ発話に含まれる実体情報と、正しい意図を対応付けた学習データを生成して記憶部に格納する。発話学習適応処理部は、意図の不明確な第1のユーザ発話の入力後の装置発話に対するユーザからの応答発話から取得した意図を、第1のユーザ発話に含まれる実体情報に対応付けて記録した学習データを生成する。学習データには実体情報の上位意味概念情報を含めて記録する。新たなユーザ発話に対する意図推定時には、上位意味概念情報の類似する学習データを利用する。
本構成により、ユーザ発話の高精度な意図推定を可能とした装置、方法が実現される。
11 カメラ
12 マイク
13 表示部
14 スピーカー
20 サーバ
30 外部機器
100 情報処理装置
101 音声入力部
102 音声認識部
103 発話意味解析部
104 画像入力部
105 画像認識部
106 センサー
107 センサー情報解析部
108 発話学習適応処理部
111 知識辞書データ記憶部
112 発話学習データ記憶部
121 応答生成部
122 音声合成部
123 音声出力部
124 表示画像生成部
125 画像出力部
410 情報処理装置
420 アプリ実行サーサーバ
460 データ処理サーバ
501 CPU
502 ROM
503 RAM
504 バス
505 入出力インタフェース
506 入力部
507 出力部
508 記憶部
509 通信部
510 ドライブ
511 リムーバブルメディア
Claims (18)
- ユーザ発話の意図(インテント)を解析する発話学習適応処理部を有し、
前記発話学習適応処理部は、
意図の不明確な第1のユーザ発話の入力後に、
意図確認のための装置発話を実行して、該装置発話に対するユーザからの応答発話である第2のユーザ発話を入力し、
(a)前記第1のユーザ発話の発話テキストと、
(b)前記第1のユーザ発話と前記第2のユーザ発話に共通に含まれる有意要素である発話文字と、該発話文字に関する詳細情報を含む実体情報と、
(c)前記第2のユーザ発話の解析結果として取得した正しい意図、
これらを対応付けた学習データを生成して記憶部に格納する情報処理装置。 - 前記学習データとして、前記発話テキスト、および前記正しい意図に対応付けて前記記憶部に格納される前記実体情報は、前記発話文字に関する詳細情報として、前記発話文字の上位意味概念情報を含む請求項1に記載の情報処理装置。
- 前記上位意味概念情報は、
前記第1のユーザ発話と前記第2のユーザ発話に共通に含まれる有意要素である発話文字の種類を示す情報である請求項2に記載の情報処理装置。 - 前記学習データとして、前記発話テキスト、および前記正しい意図に対応付けて前記記憶部に格納される前記実体情報は、
前記第1のユーザ発話と前記第2のユーザ発話に共通に含まれる有意要素である発話文字の上位意味概念情報を含む自然言語処理情報を含む請求項1に記載の情報処理装置。 - 前記発話学習適応処理部は、
前記学習データの生成後に入力する新たなユーザ発話の意図解析処理に際して、該新たなユーザ発話に含まれる実体情報に相当する有意要素である発話文字の上位意味概念情報を取得し、取得情報と類似する上位意味概念情報を記録した学習データを記憶部から抽出し、
前記新たなユーザ発話に含まれる有意要素の発話文字以外の発話文字と、抽出した学習データに記録された発話テキスト構成部との一致が確認された場合、抽出した学習データに記録された意図を、前記新たなユーザ発話の意図として推定する請求項1に記載の情報処理装置。 - 前記発話学習適応処理部は、
ユーザから意図解釈間違いを指摘するユーザ発話を入力した場合、
前記ユーザからの再発話に基づいて正しい意図を取得し、
意図推定に適用した学習データに記録された誤った意図情報を、正しい意図情報に修正する処理を行う請求項1に記載の情報処理装置。 - 前記学習データは、
ユーザ発話実行時の対話状態(ステート)に応じて区分されたステート単位の複数の学習データから構成されている請求項1に記載の情報処理装置。 - 前記発話学習適応処理部は、
記憶部に格納された学習データの利用状況に応じて破棄、または利用停止を行う請求項1に記載の情報処理装置。 - 前記発話学習適応処理部は、
記憶部に格納された学習データ各々について、
学習データ対応の発話をユーザが最後に発話してから経過した時間:tと、
学習データ対応の発話をユーザが繰り返した回数:c、
これらのパラメータに基づいて、学習データ忘却スコアf(t,c)を算出し、
算出した学習データ忘却スコアf(t,c)の値と規定しきい値とを比較して、各学習データの破棄、または利用停止を行う請求項8に記載の情報処理装置。 - 前記学習データは、
ユーザ発話実行時のコンテキスト情報を記録した学習データであり、
前記発話学習適応処理部は、
新たなユーザ発話入力時のコンテキスト情報を取得し、取得情報と類似するコンテキスト情報を記録した学習データを記憶部から抽出し、抽出した学習データに記録された意図を、前記新たなユーザ発話の意図として推定する請求項1に記載の情報処理装置。 - 前記発話学習適応処理部は、
ユーザ発話が意図解釈不可発話である場合に実行されたユーザからの言い直し発話を解析し、
前記ユーザ発話と、前記言い直し発話との意味概念の相違度が予め規定したしきい値以上である場合、前記言い直し発話に基づく学習処理を実行しない請求項1に記載の情報処理装置。 - 前記発話学習適応処理部は、
意図解釈不可発話に対する言い直し発話を行った第1のユーザと、第2のユーザが一緒にいることがカメラ撮影画像から確認された場合、または、
前記第1のユーザが、前記第2のユーザから学習発話を許可されたユーザであることが確認された場合、
前記第1のユーザによる言い直し発話に基づく学習データを、前記第2のユーザの新たな発話に適応して意図推定処理を実行する請求項1に記載の情報処理装置。 - 前記発話学習適応処理部は、さらに、
先行して実行されたユーザ発話の意図に対するユーザからの発話の対応付けの指示として、ユーザ発話の言い換え要求を入力した場合、
言い換え要求後のユーザ発話に、先行して実行されたユーザ発話に対応する意図および実体情報を対応付けた学習データを生成する請求項1に記載の情報処理装置。 - 前記発話学習適応処理部は、
ユーザ発話に対応する複数の意図のいずれかを、1つのユーザ発話に対応付けた学習データを生成する請求項1に記載の情報処理装置。 - ユーザ端末と、データ処理サーバを有する情報処理システムであり、
前記ユーザ端末は、
ユーザ発話を入力する音声入力部を有し、
前記データ処理サーバは、
前記ユーザ端末から受信する前記ユーザ発話の意図(インテント)を解析する発話学習適応処理部を有し、
前記発話学習適応処理部は、
意図の不明確な第1のユーザ発話の入力後に、
意図確認のための装置発話を実行して、該装置発話に対するユーザからの応答発話である第2のユーザ発話を入力し、
(a)前記第1のユーザ発話の発話テキストと、
(b)前記第1のユーザ発話と前記第2のユーザ発話に共通に含まれる有意要素である発話文字と、該発話文字に関する詳細情報を含む実体情報と、
(c)前記第2のユーザ発話の解析結果として取得した正しい意図、
これらを対応付けた学習データを生成して記憶部に格納する情報処理システム。 - 情報処理装置において実行する情報処理方法であり、
音声入力部が、ユーザ発話を入力し、
発話学習適応処理部が、前記ユーザ発話の意図(インテント)を解析する発話学習適応処理を実行し、
前記発話学習適応処理において、
意図の不明確な第1のユーザ発話の入力後に、
意図確認のための装置発話を実行して、該装置発話に対するユーザからの応答発話である第2のユーザ発話を入力し、
(a)前記第1のユーザ発話の発話テキストと、
(b)前記第1のユーザ発話と前記第2のユーザ発話に共通に含まれる有意要素である発話文字と、該発話文字に関する詳細情報を含む実体情報と、
(c)前記第2のユーザ発話の解析結果として取得した正しい意図、
これらを対応付けた学習データを生成して記憶部に格納する処理を実行する情報処理方法。 - ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
前記ユーザ端末が、
ユーザ発話を入力する音声入力処理を実行し、
前記データ処理サーバが、
前記ユーザ端末から受信する前記ユーザ発話の意図(インテント)を解析する発話学習適応処理を実行し、
前記発話学習適応処理において、
意図の不明確な第1のユーザ発話の入力後に、
意図確認のための装置発話を実行して、該装置発話に対するユーザからの応答発話である第2のユーザ発話を入力し、
(a)前記第1のユーザ発話の発話テキストと、
(b)前記第1のユーザ発話と前記第2のユーザ発話に共通に含まれる有意要素である発話文字と、該発話文字に関する詳細情報を含む実体情報と、
(c)前記第2のユーザ発話の解析結果として取得した正しい意図、
これらを対応付けた学習データを生成して記憶部に格納する処理を実行する情報処理方法。 - 情報処理装置において情報処理を実行させるプログラムであり、
音声入力部に、ユーザ発話を入力させる音声入力ステップと、
発話学習適応処理部に、前記ユーザ発話の意図(インテント)を解析する発話学習適応処理を実行させ、
前記発話学習適応処理において、
意図の不明確な第1のユーザ発話の入力後に、
意図確認のための装置発話を実行して、該装置発話に対するユーザからの応答発話である第2のユーザ発話を入力し、
(a)前記第1のユーザ発話の発話テキストと、
(b)前記第1のユーザ発話と前記第2のユーザ発話に共通に含まれる有意要素である発話文字と、該発話文字に関する詳細情報を含む実体情報と、
(c)前記第2のユーザ発話の解析結果として取得した正しい意図、
これらを対応付けた学習データを生成して記憶部に格納する処理を実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018005061 | 2018-01-16 | ||
JP2018005061 | 2018-01-16 | ||
PCT/JP2018/039826 WO2019142427A1 (ja) | 2018-01-16 | 2018-10-26 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019142427A1 JPWO2019142427A1 (ja) | 2020-11-19 |
JP7234926B2 true JP7234926B2 (ja) | 2023-03-08 |
Family
ID=67302078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019531188A Active JP7234926B2 (ja) | 2018-01-16 | 2018-10-26 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11270074B2 (ja) |
EP (1) | EP3598437A4 (ja) |
JP (1) | JP7234926B2 (ja) |
WO (1) | WO2019142427A1 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10430519B2 (en) * | 2016-08-16 | 2019-10-01 | International Business Machines Corporation | Determining the user's current preferred manner in communicating with user |
US11398221B2 (en) | 2018-02-22 | 2022-07-26 | Sony Corporation | Information processing apparatus, information processing method, and program |
US11314940B2 (en) * | 2018-05-22 | 2022-04-26 | Samsung Electronics Co., Ltd. | Cross domain personalized vocabulary learning in intelligent assistants |
US11200884B1 (en) * | 2018-11-06 | 2021-12-14 | Amazon Technologies, Inc. | Voice profile updating |
US11004454B1 (en) * | 2018-11-06 | 2021-05-11 | Amazon Technologies, Inc. | Voice profile updating |
US11874861B2 (en) * | 2019-05-17 | 2024-01-16 | International Business Machines Corporation | Retraining a conversation system based on negative feedback |
US11184298B2 (en) * | 2019-08-28 | 2021-11-23 | International Business Machines Corporation | Methods and systems for improving chatbot intent training by correlating user feedback provided subsequent to a failed response to an initial user intent |
KR20190118995A (ko) * | 2019-10-01 | 2019-10-21 | 엘지전자 주식회사 | 음성 처리 방법 및 음성 처리 장치 |
CN110866090A (zh) | 2019-11-14 | 2020-03-06 | 百度在线网络技术(北京)有限公司 | 用于语音交互的方法、装置、电子设备和计算机存储介质 |
US11651250B2 (en) * | 2019-11-20 | 2023-05-16 | International Business Machines Corporation | Automatically generated conversation output |
US11176942B2 (en) * | 2019-11-26 | 2021-11-16 | Vui, Inc. | Multi-modal conversational agent platform |
KR102381387B1 (ko) * | 2019-12-03 | 2022-03-31 | 주식회사 리노스 | 챗봇 학습용 데이터 생성 방법 |
CN113127609A (zh) * | 2019-12-31 | 2021-07-16 | 华为技术有限公司 | 语音控制方法、装置、服务器、终端设备及存储介质 |
US11386890B1 (en) * | 2020-02-11 | 2022-07-12 | Amazon Technologies, Inc. | Natural language understanding |
US11626106B1 (en) * | 2020-02-25 | 2023-04-11 | Amazon Technologies, Inc. | Error attribution in natural language processing systems |
WO2021246056A1 (ja) * | 2020-06-05 | 2021-12-09 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びにコンピュータプログラム |
CN112382279B (zh) * | 2020-11-24 | 2021-09-14 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
KR20220072480A (ko) * | 2020-11-25 | 2022-06-02 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 작동 방법 |
US11605375B2 (en) * | 2021-03-05 | 2023-03-14 | Capital One Services, Llc | Systems and methods for dynamically updating machine learning models that provide conversational responses |
TWI817106B (zh) * | 2021-04-14 | 2023-10-01 | 台達電子工業股份有限公司 | 查詢回饋裝置以及方法 |
CN113379233B (zh) * | 2021-06-08 | 2023-02-28 | 重庆大学 | 一种基于高阶矩的行程时间可靠性估计方法及装置 |
JP6954549B1 (ja) * | 2021-06-15 | 2021-10-27 | ソプラ株式会社 | エンティティとインテントとコーパスの自動生成装置及びプログラム |
KR20230017971A (ko) * | 2021-07-28 | 2023-02-07 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
KR20230112781A (ko) * | 2022-01-20 | 2023-07-28 | 주식회사 마인드웨어웍스 | 질의 처리 장치 |
CN116107573B (zh) * | 2023-04-12 | 2023-06-30 | 广东省新一代通信与网络创新研究院 | 一种基于有限状态机的意图分析方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000330587A (ja) | 1999-05-21 | 2000-11-30 | Nec Corp | 音声認識方法および装置 |
JP2006215317A (ja) | 2005-02-04 | 2006-08-17 | Hitachi Ltd | 音声認識システム、音声認識装置及び音声認識プログラム |
JP2008058465A (ja) | 2006-08-30 | 2008-03-13 | Toshiba Corp | インタフェース装置及びインタフェース処理方法 |
JP2013041448A (ja) | 2011-08-17 | 2013-02-28 | Hitachi Ltd | 異常検知・診断方法、および異常検知・診断システム |
US20140278413A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2016067418A1 (ja) | 2014-10-30 | 2016-05-06 | 三菱電機株式会社 | 対話制御装置および対話制御方法 |
WO2016151699A1 (ja) | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 学習装置、方法およびプログラム |
WO2016151698A1 (ja) | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 対話装置、方法及びプログラム |
JP2016180917A (ja) | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10579682B1 (en) * | 2013-09-17 | 2020-03-03 | Google Llc | Machine-learned disambiguation of user action data |
US10726831B2 (en) * | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
US10460720B2 (en) * | 2015-01-03 | 2019-10-29 | Microsoft Technology Licensing, Llc. | Generation of language understanding systems and methods |
US9741337B1 (en) * | 2017-04-03 | 2017-08-22 | Green Key Technologies Llc | Adaptive self-trained computer engines with associated databases and methods of use thereof |
US10699706B1 (en) * | 2017-09-26 | 2020-06-30 | Amazon Technologies, Inc. | Systems and methods for device communications |
-
2018
- 2018-10-26 US US16/485,620 patent/US11270074B2/en active Active
- 2018-10-26 JP JP2019531188A patent/JP7234926B2/ja active Active
- 2018-10-26 EP EP18901306.3A patent/EP3598437A4/en not_active Withdrawn
- 2018-10-26 WO PCT/JP2018/039826 patent/WO2019142427A1/ja unknown
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000330587A (ja) | 1999-05-21 | 2000-11-30 | Nec Corp | 音声認識方法および装置 |
JP2006215317A (ja) | 2005-02-04 | 2006-08-17 | Hitachi Ltd | 音声認識システム、音声認識装置及び音声認識プログラム |
JP2008058465A (ja) | 2006-08-30 | 2008-03-13 | Toshiba Corp | インタフェース装置及びインタフェース処理方法 |
JP2013041448A (ja) | 2011-08-17 | 2013-02-28 | Hitachi Ltd | 異常検知・診断方法、および異常検知・診断システム |
US20140278413A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2016067418A1 (ja) | 2014-10-30 | 2016-05-06 | 三菱電機株式会社 | 対話制御装置および対話制御方法 |
WO2016151699A1 (ja) | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 学習装置、方法およびプログラム |
WO2016151698A1 (ja) | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 対話装置、方法及びプログラム |
JP2016180917A (ja) | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2019142427A1 (ja) | 2019-07-25 |
EP3598437A1 (en) | 2020-01-22 |
US20190371296A1 (en) | 2019-12-05 |
JPWO2019142427A1 (ja) | 2020-11-19 |
US11270074B2 (en) | 2022-03-08 |
EP3598437A4 (en) | 2020-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7234926B2 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
US11017765B2 (en) | Intelligent assistant with intent-based information resolution | |
US11100384B2 (en) | Intelligent device user interactions | |
US11676575B2 (en) | On-device learning in a hybrid speech processing system | |
JP7064018B2 (ja) | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント | |
US10339166B1 (en) | Systems and methods for providing natural responses to commands | |
US20180293221A1 (en) | Speech parsing with intelligent assistant | |
US11495229B1 (en) | Ambient device state content display | |
US11100922B1 (en) | System and methods for triggering sequences of operations based on voice commands | |
US20210158812A1 (en) | Automatic turn delineation in multi-turn dialogue | |
US20240029743A1 (en) | Intermediate data for inter-device speech processing | |
EP3776173A1 (en) | Intelligent device user interactions | |
WO2020202862A1 (ja) | 応答生成装置及び応答生成方法 | |
WO2019118147A1 (en) | Speech parsing with intelligent assistant | |
US11605380B1 (en) | Coordinating content-item output across multiple electronic devices | |
US20230215422A1 (en) | Multimodal intent understanding for automated assistant | |
US20210193142A1 (en) | Computing device and method of operating the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230206 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7234926 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |