JP7486540B2 - 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント - Google Patents
複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント Download PDFInfo
- Publication number
- JP7486540B2 JP7486540B2 JP2022069441A JP2022069441A JP7486540B2 JP 7486540 B2 JP7486540 B2 JP 7486540B2 JP 2022069441 A JP2022069441 A JP 2022069441A JP 2022069441 A JP2022069441 A JP 2022069441A JP 7486540 B2 JP7486540 B2 JP 7486540B2
- Authority
- JP
- Japan
- Prior art keywords
- natural language
- user
- automated assistant
- implementations
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004044 response Effects 0.000 claims description 61
- 238000000034 method Methods 0.000 claims description 45
- 230000015572 biosynthetic process Effects 0.000 claims description 21
- 238000003786 synthesis reaction Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 9
- 230000003993 interaction Effects 0.000 description 29
- 238000012549 training Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 239000003795 chemical substances by application Substances 0.000 description 11
- 230000002452 interceptive effect Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 9
- 235000013550 pizza Nutrition 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000005352 clarification Methods 0.000 description 8
- 241001465754 Metazoa Species 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 239000008267 milk Substances 0.000 description 5
- 210000004080 milk Anatomy 0.000 description 5
- 235000013336 milk Nutrition 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 241000283086 Equidae Species 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 244000052616 bacterial pathogen Species 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 240000008574 Capsicum frutescens Species 0.000 description 1
- 240000008790 Musa x paradisiaca Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 201000003723 learning disability Diseases 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 235000013580 sausages Nutrition 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Electric Clocks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
Description
も部分的に生成される可能性がある。
プと、所定の年齢グループに基づいて、ユーザの意図が解決可能であると判定するステップと、応答データを生成するためにユーザの意図を解決するステップと、クライアントデバイスのうちの1つまたは複数の1つまたは複数の出力構成要素において応答データを出力するステップとを含む、1つまたは複数のプロセッサによって実行される方法が、提供される。
120によって実行される動作は、複数のコンピュータシステムに分散される可能性がある。自動化されたアシスタント120は、たとえば、ネットワークを通じて互いに結合される1つまたは複数の場所の1つまたは複数のコンピュータ上で実行されるコンピュータプログラムとして実装される可能性がある。
がネットワークに適用されるとき、生成された出力と訓練例に関連するラベルとの間の違いが、たとえば、損失関数を最小化するために使用される可能性がある。そして、ニューラルネットワークの様々な重みが、たとえば、勾配降下および/または逆伝播などの標準的な技術を使用して調整される可能性がある。
術を使用してデバイスに搭載された呼び出しモデルを訓練するために使用される可能性がある。一部の実装においては、デバイスに搭載された呼び出しモデルが発話が呼び出しとして適することを示すが、出力に関連する信頼スコアが(たとえば、発話が間違った発音をしがちな子供によって生成されたために)比較的低い場合、低い信頼性スコア自体が、たとえば、子供の年齢を推定するために習熟度ディテクタ111によって使用される可能性がある。
練される人工知能モデル(たとえば、様々な種類のニューラルネットワーク)を含む可能性がある。一部のそのような実装において、そのようなモデルのための訓練データは、たとえば、音声の実際のテキストによってラベル付けされた、ノイズを入れた大人からのオーディオ録音(またはオーディオ録音を示すデータ)を含む可能性がある。追加的にまたは代替的に、一部の実装において、訓練データは、子供の話しのテキストによってラベル付けされた子供からのオーディオ録音を含む可能性がある。
スタンドアロンの音声作動式の製品から遠ざかり、そして後でその音声作動式の製品に戻る)、セッション間のクライアントデバイスのロック/スリープ、自動化されたアシスタント120の1つまたは複数のインスタンスとインターフェースを取るために使用されるクライアントデバイスの変更などの様々な合図に基づいてユーザとの複数の対話セッションを区別する可能性がある。
る。エンティティタガーは、特定のエンティティを解決するために自然言語入力の内容に依拠する可能性があり、および/または特定のエンティティを解決するためにナレッジグラフもしくはその他のエンティティデータベースと任意で通信する可能性がある。
または「パラメータ」)によって埋められ得るスロット(たとえば、<artist>)を有する。スロット値は、様々な方法で決定される可能性がある。多くの場合、ユーザは、スロット値を先回りして与える。たとえば、文法「Order me a <topping> pizza」に関して、ユーザは、フレーズ「order me a sausage pizza」と言う見込みが大きい可能性があり、その場合、スロット<topping>は、自動的に埋められる。追加的にまたは代替的に、ユーザがスロット値を先回りして与えることなしにユーザがスロット値によって埋められるスロットを含む文法を呼び出す場合、自動化されたアシスタント120が、ユーザにそれらのスロット値を求める可能性がある(たとえば、「what type of crust do you want on your pizza?」)。
すようなことをする可能性がある。文法および/またはモデルの別の組は、2歳から4歳までの子供および/または限られた語彙を有するその他の者(たとえば、自動化されたアシスタント120によって使用される言語を学習中のユーザ)との関わり合いを容易にするように構成される可能性がある。文法および/またはモデルのそのような組は、誤りに関して若干低い許容度を有する可能性があるが、しかしなおも比較的寛大である可能性がある。文法および/またはモデルの別の組は、「次の」年齢層および/または語彙、たとえば、5歳から7歳までのおよび/または中級の話者との関わり合いを容易にするように構成される可能性があり、誤りの許容度がさらに低い可能性がある。文法および/またはモデルのさらに別の組は、大人、より年上の子供、および/またはその他の比較的習熟した話者との「通常の」関わり合いを容易にするように構成される可能性がある--文法、語彙、および/または発音の誤りに関する許容度は、文法/モデルのそのような組に関しては比較的低い可能性がある。
ザの年齢に応じてユーザが何にアクセスすることができ、何にアクセスすることができないのかを指示するウェブサイト、統一資源識別子(URI)、ユニバーサルリソースロケータ(URL)、ドメインなどの1つまたは複数のホワイトリストおよび/またはブラックリストを記憶する可能性がある。データベース125は、どのようにしてユーザが自動化されたアシスタント120を上述のようにたとえば品物もしくはサービスを注文するために使用され得るサードパーティアプリケーションと関わり合わせることができるのか、および/またはユーザが自動化されたアシスタント120を上述のようにたとえば品物もしくはサービスを注文するために使用され得るサードパーティアプリケーションと関わり合わせることができるのかどうかを指示する1つまたは複数の規則も含む可能性がある。
Gテンプレートに記載の論理は、自然言語ジェネレータ126によって選択される自然言語出力が「It's gonna be chilly, you might want a hat and gloves, and be careful on the road.」などのフレーズであると指示する可能性がある。以下同様である。
120をトリガするように意図されたものとしてまたは意図されないものとしてユーザの発話を分類する可能性がある。上述のように、呼び出しモジュール112が発話を適切な呼び出しとして分類するために満たされなければならない閾値は、比較的低い語彙レベルを有する子供または別のユーザに関して引き下げられる可能性がある。
モジュール116は、ユーザの推定された年齢層および/または語彙レベルに基づいてデータベース115から、ユーザにオーディオ出力を伝えるために自動化されたアシスタント120によって使用される1つまたは複数の音声合成器を選択する可能性がある。TTSモジュール116によって生成されたオーディオ出力は、ユーザ201によって運用されるクライアントデバイスの1つまたは複数のI/O構成要素250に提供される可能性があり、その結果、そのオーディオ出力は、1つもしくは複数のスピーカを介して聞こえるようにおよび/または1つもしくは複数のディスプレイ上で視覚的に出力される可能性がある。
力に影響を与えるために使用される可能性がある。
。上述のように、本明細書において使用されるとき、「エージェント」は、たとえば、自動化されたアシスタントまたは他の場所からスロット値、意図などの入力を受け取り、それに応じて出力を提供するプロセスを指す可能性がある。ウェブサービスは、エージェントの一例である。上述のサードパーティアプリケーションも、エージェントと考えられ得る。エージェントは、ユーザの要求を遂行することなどの様々な目的のために自動化されたアシスタントによって提供されるスロット値を使用する可能性がある。
クライアントデバイスがどのようにして動作するかのその他の点が、自動化されたアシスタント120がキッズモードに遷移することによって影響を受ける可能性がある。たとえば、一部の実装においては、キッズモードのとき子供の聴覚を守るために、ボリューム設定が上限を定められる可能性がある。
インタラクションを可能にする。ネットワークインターフェースサブシステム716は、外部ネットワークへのインターフェースを提供し、その他のコンピューティングデバイスの対応するインターフェースデバイスに結合される。
れたコンピューティングデバイスよりも少ない構成要素を有するコンピューティングデバイス710の多くのその他の構成が、可能である。
108 自動化されたアシスタントクライアント
110 音声キャプチャモジュール
111 習熟度ディテクタ
112 呼び出しモジュール
113 習熟度モデルデータベース
115 データベース
116 クラウドに基づくTTSモジュール
117 クラウドに基づくSTTモジュール
118 データベース
119 クラウドに基づく自動化されたアシスタント構成要素
120 自動化されたアシスタント
122 自然言語プロセッサ
124 遂行モジュール
125 データベース
126 自然言語ジェネレータ
130 リソースモジュール
135 自然言語理解モジュール
136 意図マッチャ
137 データベース
150 検索モジュール
201 ユーザ
250 I/O構成要素
301A 第1のユーザ
301B ユーザ
306 クライアントデバイス
401A ユーザ
406A クライアントデバイス
401B ユーザ
406B クライアントデバイス
501A ユーザ
501B ユーザ
600 方法
710 コンピューティングデバイス
712 バスサブシステム
714 プロセッサ
716 ネットワークインターフェースサブシステム
720 ユーザインターフェース出力デバイス
722 ユーザインターフェース入力デバイス
724 ストレージサブシステム
725 メモリサブシステム
726 ファイルストレージサブシステム
730 RAM
732 ROM
Claims (15)
1つまたは複数のクライアントデバイスの1つまたは複数の入力構成要素において、ユーザから音声の発話を受信するステップと、
前記音声の発話の分析に基づいて、前記ユーザが所定のカテゴリに分類されると決定するステップと、
前記音声の発話によって運ばれる前記ユーザの意図の解決に基づいて、自然言語応答を生成するステップであって、
前記所定のカテゴリに関連付けられる所与の自然言語生成モデルを複数の候補自然言語生成モデルから選択するステップであって、前記所与の自然言語生成モデルは、前記複数の候補自然言語生成モデルのうちの他の1つよりも複雑な語彙を使用して自然言語応答を生成する、ステップと、
前記選択された所与の自然言語生成モデルを用いて、前記自然言語応答の全体を生成するステップを含む、
前記自然言語応答を生成するステップと、
前記クライアントデバイスのうちの1つまたは複数の1つまたは複数の出力構成要素において、前記自然言語応答の全体を出力するステップと
を含む、方法。
前記自然言語応答の全体を出力するステップが、前記所与の音声合成モデルを使用して、前記自然言語応答の全体を出力するステップを含む、請求項1に記載の方法。
前記生成するステップが、前記所定のカテゴリに基づいて選択される詳細のレベルにおいて、前記質問に応答する文書の内容に基づいて前記自然言語応答を生成するステップを含む、請求項1に記載の方法。
前記命令は、前記命令の実行に応答して、前記1つまたは複数のプロセッサに、
音声の発話の分析に基づいて、ユーザが所定のカテゴリに分類されると決定することと、
前記音声の発話によって運ばれる前記ユーザの意図の解決に基づいて、自然言語応答を生成することであって、
前記所定のカテゴリに関連付けられる所与の自然言語生成モデルを複数の候補自然言語生成モデルから選択することであって、前記所与の自然言語生成モデルは、前記複数の候補自然言語生成モデルのうちの他の1つよりも複雑な語彙を使用して自然言語応答を生成する、ことと、
前記選択された所与の自然言語生成モデルを用いて、前記自然言語応答の全体を生成することを含む、
前記自然言語応答を生成することと、
クライアントデバイスのうちの1つまたは複数の1つまたは複数の出力構成要素において、前記自然言語応答の全体を出力することと
を行わせる、システム。
前記所定のカテゴリを対象とする特定の種類の声をエミュレートする所与の音声合成モデルを、複数の候補音声合成モデルから選択すること
をさらに行わせ、
前記自然言語応答の全体を出力することが、前記所与の音声合成モデルを使用して、前記自然言語応答の全体を出力することを含む、請求項6に記載のシステム。
前記生成することを行うための命令が、前記所定のカテゴリに基づいて選択される詳細のレベルにおいて、前記質問に応答する文書の内容に基づいて前記自然言語応答を生成するための命令を含む、請求項6に記載のシステム。
前記命令は、プロセッサによる前記命令の実行に応答して、前記プロセッサに、
音声の発話の分析に基づいて、ユーザが所定のカテゴリに分類されると決定することと、
前記音声の発話によって運ばれる前記ユーザの意図の解決に基づいて、自然言語応答を生成することであって、
前記所定のカテゴリに関連付けられる所与の自然言語生成モデルを複数の候補自然言語生成モデルから選択することであって、前記所与の自然言語生成モデルは、前記複数の候補自然言語生成モデルのうちの他の1つよりも複雑な語彙を使用して自然言語応答を生成する、ことと、
前記選択された所与の自然言語生成モデルを用いて、前記自然言語応答の全体を生成することを含む、
前記自然言語応答を生成することと、
クライアントデバイスのうちの1つまたは複数の1つまたは複数の出力構成要素において、前記自然言語応答の全体を出力することと
を行わせる、非一時的コンピュータ可読媒体。
前記所定のカテゴリを対象とする特定の種類の声をエミュレートする所与の音声合成モデルを、複数の候補音声合成モデルから選択すること
をさらに行わせ、
前記自然言語応答の全体を出力することが、前記所与の音声合成モデルを使用して、前記自然言語応答の全体を出力することを含む、請求項11に記載の非一時的コンピュータ可読媒体。
前記生成することを行うための命令が、前記所定のカテゴリに基づいて選択される詳細のレベルにおいて、前記質問に応答する文書の内容に基づいて前記自然言語応答を生成するための命令を含む、請求項11に記載の非一時的コンピュータ可読媒体。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/954,174 US10573298B2 (en) | 2018-04-16 | 2018-04-16 | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
US15/954,174 | 2018-04-16 | ||
JP2020556879A JP7064018B2 (ja) | 2018-04-16 | 2019-04-16 | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント |
PCT/US2019/027598 WO2019204252A1 (en) | 2018-04-16 | 2019-04-16 | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020556879A Division JP7064018B2 (ja) | 2018-04-16 | 2019-04-16 | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022103191A JP2022103191A (ja) | 2022-07-07 |
JP7486540B2 true JP7486540B2 (ja) | 2024-05-17 |
Family
ID=66324004
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020556879A Active JP7064018B2 (ja) | 2018-04-16 | 2019-04-16 | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント |
JP2022069441A Active JP7486540B2 (ja) | 2018-04-16 | 2022-04-20 | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020556879A Active JP7064018B2 (ja) | 2018-04-16 | 2019-04-16 | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント |
Country Status (6)
Country | Link |
---|---|
US (5) | US10573298B2 (ja) |
EP (2) | EP4296846A3 (ja) |
JP (2) | JP7064018B2 (ja) |
KR (3) | KR102446962B1 (ja) |
CN (1) | CN112119454B (ja) |
WO (1) | WO2019204252A1 (ja) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2569335B (en) * | 2017-12-13 | 2022-07-27 | Sage Global Services Ltd | Chatbot system |
US10573298B2 (en) * | 2018-04-16 | 2020-02-25 | Google Llc | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
US10963273B2 (en) | 2018-04-20 | 2021-03-30 | Facebook, Inc. | Generating personalized content summaries for users |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11307880B2 (en) * | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11200893B2 (en) * | 2018-05-07 | 2021-12-14 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
EP3586332A1 (en) | 2018-05-07 | 2020-01-01 | Google LLC. | Multi-modal interaction between users, automated assistants, and other computing services |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
US11182557B2 (en) * | 2018-11-05 | 2021-11-23 | International Business Machines Corporation | Driving intent expansion via anomaly detection in a modular conversational system |
JP7135896B2 (ja) * | 2019-01-28 | 2022-09-13 | トヨタ自動車株式会社 | 対話装置、対話方法及びプログラム |
US11468881B2 (en) * | 2019-03-29 | 2022-10-11 | Samsung Electronics Co., Ltd. | Method and system for semantic intelligent task learning and adaptive execution |
US11093715B2 (en) | 2019-03-29 | 2021-08-17 | Samsung Electronics Co., Ltd. | Method and system for learning and enabling commands via user demonstration |
US20220157293A1 (en) * | 2019-04-08 | 2022-05-19 | Sony Group Corporation | Response generation device and response generation method |
KR20210001529A (ko) * | 2019-06-28 | 2021-01-06 | 엘지전자 주식회사 | 로봇, 그와 연결되는 서버, 및 로봇을 이용한 음성 인식 방법 |
US11538468B2 (en) * | 2019-09-12 | 2022-12-27 | Oracle International Corporation | Using semantic frames for intent classification |
KR20210033837A (ko) * | 2019-09-19 | 2021-03-29 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11393477B2 (en) | 2019-09-24 | 2022-07-19 | Amazon Technologies, Inc. | Multi-assistant natural language input processing to determine a voice model for synthesized speech |
US11120790B2 (en) | 2019-09-24 | 2021-09-14 | Amazon Technologies, Inc. | Multi-assistant natural language input processing |
KR20210042523A (ko) * | 2019-10-10 | 2021-04-20 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11836179B1 (en) * | 2019-10-29 | 2023-12-05 | Meta Platforms Technologies, Llc | Multimedia query system |
CN112749565A (zh) * | 2019-10-31 | 2021-05-04 | 华为终端有限公司 | 基于人工智能的语义识别方法、装置和语义识别设备 |
US11531818B2 (en) * | 2019-11-15 | 2022-12-20 | 42 Maru Inc. | Device and method for machine reading comprehension question and answer |
US11574634B2 (en) * | 2019-11-27 | 2023-02-07 | Google Llc | Interfacing with applications via dynamically updating natural language processing |
US11444893B1 (en) * | 2019-12-13 | 2022-09-13 | Wells Fargo Bank, N.A. | Enhanced chatbot responses during conversations with unknown users based on maturity metrics determined from history of chatbot interactions |
US10841251B1 (en) * | 2020-02-11 | 2020-11-17 | Moveworks, Inc. | Multi-domain chatbot |
JP2022030754A (ja) * | 2020-08-07 | 2022-02-18 | 株式会社東芝 | 入力支援システム、入力支援方法およびプログラム |
US20220189475A1 (en) * | 2020-12-10 | 2022-06-16 | International Business Machines Corporation | Dynamic virtual assistant speech modulation |
US11967319B2 (en) * | 2020-12-22 | 2024-04-23 | Direct Cursus Technology L.L.C | Method and electronic device for processing a spoken utterance |
US11908453B2 (en) * | 2021-02-10 | 2024-02-20 | Direct Cursus Technology L.L.C | Method and system for classifying a user of an electronic device |
US11837221B2 (en) * | 2021-02-26 | 2023-12-05 | Rovi Guides, Inc. | Age-sensitive automatic speech recognition |
US20220284049A1 (en) * | 2021-03-05 | 2022-09-08 | Google Llc | Natural language understanding clarifications |
US11842737B2 (en) * | 2021-03-24 | 2023-12-12 | Google Llc | Automated assistant interaction prediction using fusion of visual and audio input |
CN113096654B (zh) * | 2021-03-26 | 2022-06-24 | 山西三友和智慧信息技术股份有限公司 | 一种基于大数据的计算机语音识别系统 |
US11861315B2 (en) | 2021-04-21 | 2024-01-02 | Meta Platforms, Inc. | Continuous learning for natural-language understanding models for assistant systems |
CN113282711B (zh) * | 2021-06-03 | 2023-09-22 | 中国软件评测中心(工业和信息化部软件与集成电路促进中心) | 一种车联网文本匹配方法、装置、电子设备及存储介质 |
US11568139B2 (en) * | 2021-06-18 | 2023-01-31 | Google Llc | Determining and utilizing secondary language proficiency measure |
JP2023535102A (ja) | 2021-07-19 | 2023-08-16 | グーグル エルエルシー | サードパーティデジタルアシスタントのアクションのためのビットベクトルに基づくコンテンツマッチング |
US11816246B2 (en) * | 2021-07-26 | 2023-11-14 | Microsoft Technology Licensing, Llc | Modeling techniques to classify data sets containing personal identifiable information comprising numerical identifiers |
US20230097338A1 (en) * | 2021-09-28 | 2023-03-30 | Google Llc | Generating synthesized speech input |
KR102648990B1 (ko) * | 2021-09-30 | 2024-04-23 | (주)듣는교과서 | 또래 학습 추천 방법 및 장치 |
CN113742459B (zh) * | 2021-11-05 | 2022-03-04 | 北京世纪好未来教育科技有限公司 | 词汇展示方法、装置、电子设备及存储介质 |
US11922938B1 (en) | 2021-11-22 | 2024-03-05 | Amazon Technologies, Inc. | Access to multiple virtual assistants |
US11545043B1 (en) | 2022-02-18 | 2023-01-03 | Marlyn Andrew Morgan | Interface for educational tool |
US11983329B1 (en) | 2022-12-05 | 2024-05-14 | Meta Platforms, Inc. | Detecting head gestures using inertial measurement unit signals |
WO2024130188A1 (en) * | 2022-12-16 | 2024-06-20 | Google Llc | Language model assisted human-to-computer interaction |
KR102627463B1 (ko) * | 2022-12-19 | 2024-01-23 | 주식회사 비플러스헬스케어 | 인공지능 문진 및 의료기록 생성 시스템 및 그 방법 |
CN116069915A (zh) * | 2023-02-16 | 2023-05-05 | 支付宝(杭州)信息技术有限公司 | 政务服务处理方法及装置 |
CN116628340B (zh) * | 2023-06-15 | 2024-01-02 | 中科聚信信息技术(北京)有限公司 | 职位代理人推荐方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108362A (ja) | 2001-07-23 | 2003-04-11 | Matsushita Electric Works Ltd | コミュニケーション支援装置およびコミュニケーション支援システム |
JP2004109323A (ja) | 2002-09-17 | 2004-04-08 | Denso Corp | 音声対話装置及びプログラム |
US20040215453A1 (en) | 2003-04-25 | 2004-10-28 | Orbach Julian J. | Method and apparatus for tailoring an interactive voice response experience based on speech characteristics |
JP2009139390A (ja) | 2007-12-03 | 2009-06-25 | Nec Corp | 情報処理システム、処理方法及びプログラム |
JP2013190985A (ja) | 2012-03-13 | 2013-09-26 | Sakae Takeuchi | 知識応答システム、方法およびコンピュータプログラム |
JP2015088086A (ja) | 2013-11-01 | 2015-05-07 | ソニー株式会社 | 情報処理装置および情報処理方法 |
US20170221471A1 (en) | 2016-01-28 | 2017-08-03 | Google Inc. | Adaptive text-to-speech outputs |
CN107507612A (zh) | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
JP2018049588A (ja) | 2017-06-20 | 2018-03-29 | ヤフー株式会社 | 生成装置、生成方法及び生成プログラム |
CN107910004A (zh) | 2017-11-10 | 2018-04-13 | 科大讯飞股份有限公司 | 语音翻译处理方法及装置 |
Family Cites Families (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7519529B1 (en) * | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
WO2005076258A1 (ja) * | 2004-02-03 | 2005-08-18 | Matsushita Electric Industrial Co., Ltd. | ユーザ適応型装置およびその制御方法 |
US20060122840A1 (en) * | 2004-12-07 | 2006-06-08 | David Anderson | Tailoring communication from interactive speech enabled and multimodal services |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7490042B2 (en) * | 2005-03-29 | 2009-02-10 | International Business Machines Corporation | Methods and apparatus for adapting output speech in accordance with context of communication |
US8073697B2 (en) * | 2006-09-12 | 2011-12-06 | International Business Machines Corporation | Establishing a multimodal personality for a multimodal application |
JP2009104020A (ja) | 2007-10-25 | 2009-05-14 | Panasonic Electric Works Co Ltd | 音声認識装置 |
US8086444B2 (en) * | 2008-05-21 | 2011-12-27 | Resolvity, Inc. | Method and system for grammar relaxation |
JP5281659B2 (ja) * | 2009-01-20 | 2013-09-04 | 旭化成株式会社 | 音声対話装置、対話制御方法及び対話制御プログラム |
WO2012090196A1 (en) * | 2010-12-30 | 2012-07-05 | Melamed Gal | Method and system for processing content |
CN103842773B (zh) * | 2011-09-13 | 2017-05-17 | 三菱电机株式会社 | 导航装置 |
US8798995B1 (en) | 2011-09-23 | 2014-08-05 | Amazon Technologies, Inc. | Key word determinations from voice data |
JP2015055653A (ja) | 2013-09-10 | 2015-03-23 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、電子機器 |
US9484025B2 (en) * | 2013-10-15 | 2016-11-01 | Toyota Jidosha Kabushiki Kaisha | Configuring dynamic custom vocabulary for personalized speech recognition |
US10430024B2 (en) * | 2013-11-13 | 2019-10-01 | Microsoft Technology Licensing, Llc | Media item selection using user-specific grammar |
CN104795067B (zh) | 2014-01-20 | 2019-08-06 | 华为技术有限公司 | 语音交互方法及装置 |
EP3097553B1 (en) * | 2014-01-23 | 2022-06-01 | Nuance Communications, Inc. | Method and apparatus for exploiting language skill information in automatic speech recognition |
US9412358B2 (en) | 2014-05-13 | 2016-08-09 | At&T Intellectual Property I, L.P. | System and method for data-driven socially customized models for language generation |
EP3158427B1 (en) * | 2014-06-19 | 2022-12-28 | Robert Bosch GmbH | System and method for speech-enabled personalized operation of devices and services in multiple operating environments |
CN107003723A (zh) * | 2014-10-21 | 2017-08-01 | 罗伯特·博世有限公司 | 用于会话系统中的响应选择和组成的自动化的方法和系统 |
US10453098B2 (en) | 2015-03-04 | 2019-10-22 | Google Llc | Privacy-aware personalized content for the smart home |
US10114351B2 (en) | 2015-03-05 | 2018-10-30 | Google Llc | Smart-home automation system that suggests or autmatically implements selected household policies based on sensed observations |
US10811005B2 (en) * | 2015-06-19 | 2020-10-20 | Lenovo (Singapore) Pte. Ltd. | Adapting voice input processing based on voice input characteristics |
US20170092278A1 (en) | 2015-09-30 | 2017-03-30 | Apple Inc. | Speaker recognition |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US9928840B2 (en) | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10706853B2 (en) * | 2015-11-25 | 2020-07-07 | Mitsubishi Electric Corporation | Speech dialogue device and speech dialogue method |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) * | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US20180068031A1 (en) * | 2016-08-16 | 2018-03-08 | Ebay Inc. | Enhancing user queries using implicit indicators |
US10269356B2 (en) * | 2016-08-22 | 2019-04-23 | Disney Enterprises, Inc. | Systems and methods for estimating age of a speaker based on speech |
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
CN106648082A (zh) | 2016-12-09 | 2017-05-10 | 厦门快商通科技股份有限公司 | 一种模拟真人互动的智能服务设备及方法 |
US11238854B2 (en) * | 2016-12-14 | 2022-02-01 | Google Llc | Facilitating creation and playback of user-recorded audio |
US10347245B2 (en) * | 2016-12-23 | 2019-07-09 | Soundhound, Inc. | Natural language grammar enablement by speech characterization |
US10339926B2 (en) * | 2016-12-31 | 2019-07-02 | Oath Inc. | Digital assistant |
US10391414B2 (en) * | 2017-01-26 | 2019-08-27 | International Business Machines Corporation | Interactive device with advancing levels of communication capability |
KR102367778B1 (ko) * | 2017-03-15 | 2022-02-25 | 삼성전자주식회사 | 언어 정보를 처리하기 위한 방법 및 그 전자 장치 |
US10957325B2 (en) * | 2017-03-23 | 2021-03-23 | Hello Clover, Llc | Method and apparatus for speech interaction with children |
US10347244B2 (en) * | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
US10038938B1 (en) * | 2017-06-02 | 2018-07-31 | Rovi Guides, Inc. | Systems and methods for controlling permissions to change parental control settings based on vocal characteristics of a user |
US10643632B2 (en) * | 2018-01-12 | 2020-05-05 | Wells Fargo Bank, N.A. | Automated voice assistant personality selector |
US20190235831A1 (en) * | 2018-01-31 | 2019-08-01 | Amazon Technologies, Inc. | User input processing restriction in a speech processing system |
JP7235441B2 (ja) | 2018-04-11 | 2023-03-08 | 株式会社Subaru | 音声認識装置及び音声認識方法 |
US10573298B2 (en) | 2018-04-16 | 2020-02-25 | Google Llc | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
-
2018
- 2018-04-16 US US15/954,174 patent/US10573298B2/en active Active
-
2019
- 2019-04-16 CN CN201980032199.7A patent/CN112119454B/zh active Active
- 2019-04-16 WO PCT/US2019/027598 patent/WO2019204252A1/en unknown
- 2019-04-16 JP JP2020556879A patent/JP7064018B2/ja active Active
- 2019-04-16 EP EP23208928.4A patent/EP4296846A3/en active Pending
- 2019-04-16 EP EP19720325.0A patent/EP3602543B1/en active Active
- 2019-04-16 KR KR1020207032814A patent/KR102446962B1/ko active IP Right Grant
- 2019-04-16 KR KR1020247001864A patent/KR20240013280A/ko active Application Filing
- 2019-04-16 KR KR1020227032463A patent/KR102627948B1/ko active IP Right Grant
- 2019-04-24 US US16/393,785 patent/US10679614B2/en active Active
- 2019-12-27 US US16/728,582 patent/US11495217B2/en active Active
-
2020
- 2020-05-26 US US16/883,690 patent/US11521600B2/en active Active
-
2022
- 2022-04-20 JP JP2022069441A patent/JP7486540B2/ja active Active
- 2022-10-10 US US17/962,636 patent/US11756537B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108362A (ja) | 2001-07-23 | 2003-04-11 | Matsushita Electric Works Ltd | コミュニケーション支援装置およびコミュニケーション支援システム |
JP2004109323A (ja) | 2002-09-17 | 2004-04-08 | Denso Corp | 音声対話装置及びプログラム |
US20040215453A1 (en) | 2003-04-25 | 2004-10-28 | Orbach Julian J. | Method and apparatus for tailoring an interactive voice response experience based on speech characteristics |
JP2009139390A (ja) | 2007-12-03 | 2009-06-25 | Nec Corp | 情報処理システム、処理方法及びプログラム |
JP2013190985A (ja) | 2012-03-13 | 2013-09-26 | Sakae Takeuchi | 知識応答システム、方法およびコンピュータプログラム |
JP2015088086A (ja) | 2013-11-01 | 2015-05-07 | ソニー株式会社 | 情報処理装置および情報処理方法 |
US20170221471A1 (en) | 2016-01-28 | 2017-08-03 | Google Inc. | Adaptive text-to-speech outputs |
JP2018049588A (ja) | 2017-06-20 | 2018-03-29 | ヤフー株式会社 | 生成装置、生成方法及び生成プログラム |
CN107507612A (zh) | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN107910004A (zh) | 2017-11-10 | 2018-04-13 | 科大讯飞股份有限公司 | 语音翻译处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2021513119A (ja) | 2021-05-20 |
US11495217B2 (en) | 2022-11-08 |
US11521600B2 (en) | 2022-12-06 |
CN112119454B (zh) | 2024-05-14 |
KR102446962B1 (ko) | 2022-09-23 |
EP4296846A2 (en) | 2023-12-27 |
JP7064018B2 (ja) | 2022-05-09 |
KR102627948B1 (ko) | 2024-01-23 |
US10573298B2 (en) | 2020-02-25 |
US20200286473A1 (en) | 2020-09-10 |
EP4296846A3 (en) | 2024-03-20 |
KR20200142066A (ko) | 2020-12-21 |
US20190325864A1 (en) | 2019-10-24 |
US20190348030A1 (en) | 2019-11-14 |
KR20240013280A (ko) | 2024-01-30 |
EP3602543B1 (en) | 2023-12-20 |
US20200135181A1 (en) | 2020-04-30 |
EP3602543A1 (en) | 2020-02-05 |
US10679614B2 (en) | 2020-06-09 |
JP2022103191A (ja) | 2022-07-07 |
US11756537B2 (en) | 2023-09-12 |
US20230031521A1 (en) | 2023-02-02 |
WO2019204252A1 (en) | 2019-10-24 |
CN112119454A (zh) | 2020-12-22 |
KR20220133312A (ko) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7486540B2 (ja) | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント | |
JP7498149B2 (ja) | ユーザプログラマブル自動アシスタント | |
KR102048030B1 (ko) | 자동화 어시스턴트와의 단대단 다국어 통신 촉진 | |
EP3642833B1 (en) | Dynamic and/or context-specific hot words to invoke automated assistant | |
US11347801B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
US11810557B2 (en) | Dynamic and/or context-specific hot words to invoke automated assistant | |
US10803850B2 (en) | Voice generation with predetermined emotion type | |
CN112955911B (zh) | 数字图像分类和注释 | |
Abercrombie et al. | Mirages: On anthropomorphism in dialogue systems | |
Sicilia et al. | ISABEL: An Inclusive and Collaborative Task-Oriented Dialogue System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220519 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220519 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7486540 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |