JP2024520983A - 副次的なデジタルアシスタントに提供するクエリ内容の選択的マスキング - Google Patents
副次的なデジタルアシスタントに提供するクエリ内容の選択的マスキング Download PDFInfo
- Publication number
- JP2024520983A JP2024520983A JP2023559077A JP2023559077A JP2024520983A JP 2024520983 A JP2024520983 A JP 2024520983A JP 2023559077 A JP2023559077 A JP 2023559077A JP 2023559077 A JP2023559077 A JP 2023559077A JP 2024520983 A JP2024520983 A JP 2024520983A
- Authority
- JP
- Japan
- Prior art keywords
- automated assistant
- query
- audio data
- response
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000873 masking effect Effects 0.000 title description 2
- 230000004044 response Effects 0.000 claims abstract description 194
- 238000000034 method Methods 0.000 claims abstract description 73
- 230000001755 vocal effect Effects 0.000 claims description 98
- 238000012545 processing Methods 0.000 claims description 67
- 230000003993 interaction Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims 1
- 238000001914 filtration Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 27
- 230000009471 action Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 9
- 230000035945 sensitivity Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/043—Distributed expert systems; Blackboards
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
105 第1のスタンドアロン型インタラクティブスピーカ
110 第2のスタンドアロン型インタラクションスピーカ
115 口頭の発話
205 第1のクライアントデバイス
210 第2のクライアントデバイス
215 第1の自動アシスタント
220 第2の自動アシスタント
225 マイクロフォン
230 マイクロフォン
245 第3の自動アシスタント
305 主たる自動アシスタント
310、315、320 副次的な自動アシスタント
335 呼び出しエンジン
340 信頼測定基準エンジン
345 クエリ機密性エンジン
350 応答分析エンジン
355 API
360 クエリ処理エンジン
405 口頭の発話
406 呼び出し
407 クエリ
410 処理されたクエリ
415 処理されたクエリ
420 処理されたクエリ
510 応答
515 応答
520 応答
525 応答
600 方法
710 コンピューティングデバイス
712 バスサブシステム
714 プロセッサ
716 ネットワークインターフェースサブシステム
720 ユーザインターフェース出力デバイス
722 ユーザインターフェース入力デバイス
724 ストレージサブシステム
725 メモリサブシステム
726 ファイルストレージサブシステム
730 RAM
732 ROM
Claims (21)
- クライアントデバイスの1つまたは複数のプロセッサによって実施される方法であって、
呼び出しを高位の自動アシスタントによって受け取るステップであって、前記呼び出しの受け取りが、前記高位の自動アシスタントを呼び出させる、ステップと、
前記高位の自動アシスタントを介して、呼び出しに応答して、口頭のクエリをキャプチャし、前記クライアントデバイスの1つまたは複数のマイクロフォンによって生成されるオーディオデータを受け取るステップと、
副次的な自動アシスタントの信頼測定基準を特定するステップであって、前記信頼測定基準が、前記副次的な自動アシスタントのインスタンスとの1人または複数のユーザの過去のインタラクションに基づく、ステップと、
前記高位の自動アシスタントによって、処理されたクエリを生成するために前記信頼測定基準に基づいて前記オーディオデータを処理するステップと、
前記処理されたクエリを前記副次的な自動アシスタントに提供するステップと
を含む、方法。 - 追加の副次的な自動アシスタントの追加の信頼測定基準を特定するステップであって、前記追加の信頼測定基準が、前記追加の副次的な自動アシスタントのインスタンスとの1人または複数のユーザの過去のインタラクションに基づく、ステップと、
前記高位の自動アシスタントによって、追加の処理されたクエリを生成するために前記追加の信頼測定基準に基づいて前記オーディオデータを処理するステップであって、前記追加の処理されたクエリが、前記処理されたクエリと異なる、ステップと、
前記追加の処理されたクエリを前記追加の副次的な自動アシスタントに提供するステップと
をさらに含む請求項1に記載の方法。 - 前記処理されたクエリが、前記オーディオデータの少なくとも一部を含み、
前記追加の処理されたクエリが、前記オーディオデータのいずれかを欠くが、前記オーディオデータに基づいて生成された少なくともいくつかの音声認識結果、および/または前記少なくともいくつかの音声認識結果に基づいて生成された自然言語理解データを含む請求項2に記載の方法。 - 前記処理されたクエリが、前記オーディオデータの所与の部分を含み、
前記追加の処理されたクエリが、前記オーディオデータの前記所与の部分を欠くか、または前記オーディオデータの前記所与の部分の難読化されたバージョンを含む請求項2に記載の方法。 - 前記追加の処理されたクエリを生成するために前記追加の信頼測定基準に基づいて前記口頭のクエリを処理するステップが、
前記追加の信頼測定基準に基づいて、前記処理されたクエリから特定の特徴を除外すると決定することと、
前記所与の部分が前記特定の特徴を含むと判定することと、
前記所与の部分が前記特定の特徴を含むという判定に応答して、
前記追加の処理されたクエリから前記オーディオデータの前記所与の部分を削除することか、または前記追加の処理されたクエリからの前記オーディオデータの前記所与の部分を難読化することと
を含む請求項4に記載の方法。 - 前記所与の部分が前記特定の特徴を含むと判定することが、前記所与の部分が機密情報を含むと判定することを含む請求項5に記載の方法。
- 前記処理されたクエリが、前記オーディオデータの特定の部分に関する音声認識結果を含み、
前記追加の処理されたクエリが、前記オーディオデータの前記特定の部分に関する前記音声認識結果を欠いている請求項2に記載の方法。 - 前記信頼測定基準に基づいて前記オーディオデータを処理するステップが、
前記口頭のクエリに含まれる機密情報を特定することと、
前記信頼測定基準がしきい値を満たし得ないことに応答して、
前記処理されたクエリから前記機密情報を除外することと
を含む請求項1から7のいずれか一項に記載の方法。 - 前記オーディオデータを処理するステップが、
前記口頭のクエリに含まれる機密情報の種類を決定することであって、前記しきい値が、機密情報の前記種類に基づく、決定することを含む請求項8に記載の方法。 - 前記処理されたクエリが、前記オーディオデータの第1のサブセットを含むが、前記オーディオデータの第2のサブセットを除外し、
前記オーディオデータの前記第2のサブセットが、前記機密情報を含み、
前記処理されたクエリから前記機密情報を除外することが、オーディオデータの前記第2のサブセットを除外することを含む請求項8または請求項9に記載の方法。 - 前記処理されたクエリが、前記オーディオデータの第1のサブセットおよび前記オーディオデータの第2のサブセットを含み、
前記オーディオデータの前記第2のサブセットが、前記機密情報を含み、
前記処理されたクエリから前記機密情報を除外することが、前記オーディオデータの前記第2のサブセットを難読化することを含む請求項8または請求項9に記載の方法。 - オーディオデータの前記第2のサブセットを難読化することが、
オーディオデータの前記第2のサブセットの少なくとも一部の一般化を決定することを含み、
前記オーディオデータの前記第2のサブセットを難読化することが、オーディオデータの前記第2のサブセットを前記一般化で置き換えることを含む請求項11に記載の方法。 - 前記オーディオデータを処理するステップが、
自動音声認識を使用して、前記口頭のクエリを示すテキストを生成することを含む請求項1から12のいずれか一項に記載の方法。 - 前記副次的な自動アシスタントから応答を受け取るステップと、
前記応答が前記口頭のクエリを発話したユーザの意図を充足しないと判定するステップと、
前記応答が前記ユーザの前記意図を充足しないという判定に応答して、
前記応答が前記口頭のクエリを発話した前記ユーザに提供されることを防止するステップと
をさらに含む請求項1から13のいずれか一項に記載の方法。 - 前記副次的な自動アシスタントから応答を受け取るステップであって、前記応答が、前記口頭のクエリを発話したユーザが追加の情報を提供する要求を含む、ステップと、
前記信頼測定基準に基づいて、前記副次的な自動アシスタントが要求された前記追加の情報を受け取ることを認可されないと判定するステップと、
前記副次的な自動アシスタントが要求された前記追加の情報を受け取ることを認可されないという判定に応答して、
前記応答が前記口頭のクエリを発話した前記ユーザに提供されることを防止するステップと
をさらに含む請求項1から13のいずれか一項に記載の方法。 - 前記副次的な自動アシスタントへの前記口頭のクエリの提供に応答して、追加の情報の要求を受け取るステップと、
前記口頭のクエリを発話したユーザに前記要求を提供するステップと、
前記要求の提供に応答して、前記口頭のクエリを発話した前記ユーザからの前記要求に対する後続の応答を特定するステップと、
前記後続の応答に基づいて前記信頼測定基準を調整するステップと
をさらに含む請求項1から13のいずれか一項に記載の方法。 - 1つまたは複数のプロセッサによって実施される方法であって、
クライアントデバイスにおけるアシスタント呼び出しイベントの発生の検出に応答して、
高位の自動アシスタントによって、ユーザの口頭のクエリをキャプチャし、前記クライアントデバイスの1つまたは複数のマイクロフォンによって生成されるオーディオデータを処理するステップ、
副次的な自動アシスタントの以前に生成された信頼測定基準を特定するステップ、
前記副次的な自動アシスタントの前記信頼測定基準がしきい値を満たすかどうかを判定するステップ、
前記信頼測定基準が前記しきい値を満たすという判定に応答して、
前記オーディオデータに基づく第1の内容を前記副次的な自動アシスタントに提供するステップ、
前記信頼測定基準が前記しきい値を満たし得ないという判定に応答して、
前記オーディオデータに基づく第2の内容を提供するステップであって、前記第2の内容が、前記第1の内容と異なる、ステップ
を含む、方法。 - 前記第1の内容が、前記オーディオデータの少なくとも一部を含み、
前記第2の内容が、前記オーディオデータの少なくとも一部を除外または難読化する請求項17に記載の方法。 - クライアントデバイスの1つまたは複数のプロセッサによって実施される方法であって、
呼び出しを高位の自動アシスタントによって受け取るステップであって、前記呼び出しの受け取りが、前記高位の自動アシスタントを呼び出させる、ステップと、
呼び出された前記高位の自動アシスタントを介して、口頭のクエリをキャプチャし、前記クライアントデバイスの1つまたは複数のマイクロフォンによって生成されるオーディオデータを受け取るステップと、
前記口頭のクエリの分類を決定するステップと、
副次的な自動アシスタントおよび前記分類に関する信頼測定基準を特定するステップであって、前記信頼測定基準が、前記副次的な自動アシスタントおよび前記分類に固有であり、前記分類に関する、前記副次的な自動アシスタントのインスタンスとの1人または複数のユーザの過去のインタラクションに基づく、ステップと、
前記高位の自動アシスタントによって、処理されたクエリを生成するために前記信頼測定基準に基づいて前記口頭のクエリを処理するステップと、
前記処理されたクエリを前記副次的な自動アシスタントに提供するステップと
を含む、方法。 - コンピューティングシステムの1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに請求項1から19のいずれか一項に記載の方法を実行させる命令を含むコンピュータプログラム。
- 請求項1から19のいずれか一項に記載の方法を実行するように構成された1つまたは複数のコンピューティングデバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/538,766 | 2021-11-30 | ||
US17/538,766 US20230169963A1 (en) | 2021-11-30 | 2021-11-30 | Selectively masking query content to provide to a secondary digital assistant |
PCT/US2021/063636 WO2023101698A1 (en) | 2021-11-30 | 2021-12-15 | Selectively masking query content to provide to a secondary digital assistant |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7486680B1 JP7486680B1 (ja) | 2024-05-17 |
JP2024520983A true JP2024520983A (ja) | 2024-05-28 |
Family
ID=79425314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023559077A Active JP7486680B1 (ja) | 2021-11-30 | 2021-12-15 | 副次的なデジタルアシスタントに提供するクエリ内容の選択的マスキング |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230169963A1 (ja) |
EP (1) | EP4211679A1 (ja) |
JP (1) | JP7486680B1 (ja) |
KR (1) | KR20230164736A (ja) |
CN (1) | CN117121101A (ja) |
WO (1) | WO2023101698A1 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109844855B (zh) * | 2016-10-03 | 2023-12-05 | 谷歌有限责任公司 | 任务的多重计算代理执行 |
US10224031B2 (en) | 2016-12-30 | 2019-03-05 | Google Llc | Generating and transmitting invocation request to appropriate third-party agent |
US11188808B2 (en) * | 2017-04-11 | 2021-11-30 | Lenovo (Singapore) Pte. Ltd. | Indicating a responding virtual assistant from a plurality of virtual assistants |
JP2020144275A (ja) | 2019-03-07 | 2020-09-10 | 本田技研工業株式会社 | エージェント装置、エージェント装置の制御方法、およびプログラム |
US11195532B2 (en) * | 2019-04-26 | 2021-12-07 | Oracle International Corporation | Handling multiple intents in utterances |
US11657797B2 (en) * | 2019-04-26 | 2023-05-23 | Oracle International Corporation | Routing for chatbots |
-
2021
- 2021-11-30 US US17/538,766 patent/US20230169963A1/en active Pending
- 2021-12-15 EP EP21841140.3A patent/EP4211679A1/en active Pending
- 2021-12-15 WO PCT/US2021/063636 patent/WO2023101698A1/en active Application Filing
- 2021-12-15 JP JP2023559077A patent/JP7486680B1/ja active Active
- 2021-12-15 CN CN202180096692.2A patent/CN117121101A/zh active Pending
- 2021-12-15 KR KR1020237038086A patent/KR20230164736A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023101698A1 (en) | 2023-06-08 |
CN117121101A (zh) | 2023-11-24 |
KR20230164736A (ko) | 2023-12-04 |
EP4211679A1 (en) | 2023-07-19 |
US20230169963A1 (en) | 2023-06-01 |
JP7486680B1 (ja) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11798541B2 (en) | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface | |
JP7541118B2 (ja) | 環境干渉が自動アシスタントの特定のインタラクションを妨げることが予測されるときに代替インターフェースを提案すること | |
KR20230147157A (ko) | 어시스턴트 명령(들)의 컨텍스트적 억제 | |
JP7486680B1 (ja) | 副次的なデジタルアシスタントに提供するクエリ内容の選択的マスキング | |
WO2023101783A1 (en) | Automatically adapting audio data based assistant processing | |
JP7536899B2 (ja) | 捕捉された音声および/または他のセンサデータのセキュリティを確実にするサンドボックス化特徴検出プロセスの活用 | |
US20240087564A1 (en) | Restricting third party application access to audio data content | |
US11972764B2 (en) | Providing related queries to a secondary automated assistant based on past interactions | |
US20230186909A1 (en) | Selecting between multiple automated assistants based on invocation properties | |
US20240127808A1 (en) | Automated assistant that utilizes radar data to determine user presence and virtually segment an environment | |
US20240046925A1 (en) | Dynamically determining whether to perform candidate automated assistant action determined from spoken utterance | |
US20220261475A1 (en) | Utilization of sandboxed feature detection process to ensure security of captured audio and/or other sensor data | |
WO2023086229A1 (en) | Providing related queries to a secondary automated assistant based on past interactions | |
WO2023113877A1 (en) | Selecting between multiple automated assistants based on invocation properties |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231108 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20231108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7486680 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |