JP2019109503A - プライバシー保護音声対話のための装置及び方法 - Google Patents

プライバシー保護音声対話のための装置及び方法 Download PDF

Info

Publication number
JP2019109503A
JP2019109503A JP2018226745A JP2018226745A JP2019109503A JP 2019109503 A JP2019109503 A JP 2019109503A JP 2018226745 A JP2018226745 A JP 2018226745A JP 2018226745 A JP2018226745 A JP 2018226745A JP 2019109503 A JP2019109503 A JP 2019109503A
Authority
JP
Japan
Prior art keywords
speaker
name
ambiguous
answer
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018226745A
Other languages
English (en)
Other versions
JP2019109503A5 (ja
JP7166900B2 (ja
Inventor
フォンティーヌ,パトリック
Fontaine Patrick
ノイマン,クリストフ
Neumann Christoph
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
InterDigital CE Patent Holdings SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital CE Patent Holdings SAS filed Critical InterDigital CE Patent Holdings SAS
Publication of JP2019109503A publication Critical patent/JP2019109503A/ja
Publication of JP2019109503A5 publication Critical patent/JP2019109503A5/ja
Application granted granted Critical
Publication of JP7166900B2 publication Critical patent/JP7166900B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42008Systems for anonymous communication between parties, e.g. by use of disposal contact identifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Respiratory Apparatuses And Protective Means (AREA)

Abstract

【課題】プライバシー保護音声対話のためのホームアシスタント装置及び方法を提供する。【解決手段】マイクロホン102が、音声ユーザクエリーに対応するオーディオ信号121を捕捉する。話者名122が決定され、識別された話者名に対応して曖昧な名前126が生成される。オーディオ信号がユーザのインテント123を決定するために解析され、個人化された答え124が曖昧な名前と組み合わせて生成される。この答えが、話者名を再導入することによって明瞭にされる。明瞭な答え127が話者に与えられる。【選択図】図1B

Description

技術分野
本開示は、音声対話の領域に関し、特にマルチユーザホームアシスタント環境におけるユーザのプライバシーを保護する。
背景
このセクションは、技術の様々な態様を読者に紹介するように意図され、技術の様々な態様は、以下で説明され且つ/又は特許請求される本開示の様々な態様に関係し得る。この説明は、本開示の様々な態様のよりよい理解を促進するために、読者に背景情報を提供する際に有用であると考えられる。従って、これらの所説は、この観点で読まれるべきであり、先行技術の承認として読まれるべきではないことを理解されたい。
Microsoft Cortana又はApple Siriなどのホームアシスタントサービスと同様に、Amazon Echo又はGoogle Homeなどのホームアシスタント装置を通した住宅環境における音声制御の利用が大衆市場の現実となった。かかる装置又はサービスは、数百万の家庭で用いられている。ホームアシスタント装置は、マイクロホンを通して家族ユーザからの自然なスピーチを捕捉し、ユーザクエリーを解析し、適切な応答又はサービスを提供する。実行されるクエリーは、家庭内の装置を利用できる(例えば、TVの音を消す、シャッターを閉める等)が、家庭外サービスを利用することもできる(例えば、天気予報又は株価を検索する、装置故障に関する支援を得る等)。加えて、最新世代のホームアシスタント装置は、話者識別も実行する。かかる認識は、アクセス制御(例えば、子供は、ホームネットワークを構成できない、成人映画にアクセスできない等)、対話の個人化(例えば、対話の語彙は、幼い子供、ティーンエージャ、成人又は高齢者間で選択される話者の範疇に適合され得る)などの複数の機能をイネーブルにする。しかしながら、これは、ユーザプライバシーの低下という犠牲で得られる。実際に、これらの音声対話エコシステムにおいて用いられるスピーチ解析及び会話論理は、家庭環境の外部で典型的にはクラウドにおいて従来的に操作される。
従って、先行技術の問題の少なくとも幾つかに取り組む、住宅における話者認識のための解決法の必要性が存在することが理解され得る。本開示は、かかる解決法を提供する。
概要
本開示は、プライバシー保護音声対話のためのホームアシスタント装置及び方法を説明する。マイクロホンが、音声ユーザクエリーに対応するオーディオ信号を捕捉する。話者の識別が決定され、及び識別された話者に対応して曖昧な名前が生成される。オーディオ信号がユーザのインテントを決定するために解析され、及び個人化された答えが曖昧な名前と組み合わされて生成される。次に、この答えが、話者名を再導入することによって明瞭にされる。次に、明瞭な答えが話者に与えられる。
第1の態様において、本開示は、プライバシー保護音声対話を実行するための装置であって、話者からのクエリーに関する発話音声を表すオーディオ信号を捕捉するように構成されたマイクロホンと、捕捉されたオーディオ信号から話者の識別を決定するように構成された話者識別子と、識別された話者に対応する曖昧な話者名を生成し、且つ話者名と曖昧な話者名との間の対応関係のリストを格納するように構成されたプライバシーエンフォーサと、通信インターフェースであって、捕捉されたオーディオ信号及び曖昧な話者名を外部装置に提供することと、話者クエリーへの答えを外部装置から受信することとを行うように構成された通信インターフェースとを含み、プライバシーエンフォーサは、受信された答えがリストの曖昧な話者名を含むかどうかを決定し、且つこの場合、受信された答えにおいて、曖昧な話者名を対応する名前によって取り替え、従って明瞭な答えを生成するように更に構成される、装置に関する。
第1の態様の第1の変形形態において、受信された答えは、テキスト形式であり、及び装置は、明瞭な答えをテキスト形式からオーディオ信号に変換するように構成されたテキストトゥスピーチ(text-to-speech)コンバータを更に含む。
第1の態様の第2の変形形態において、受信された答えは、オーディオフォーマットであり、及びプライバシーエンフォーサは、リストの話者名を検出し、且つその話者名を、対応する曖昧な話者名を表すオーディオ信号によって取り替えることにより、捕捉されたオーディオ信号を曖昧にするように更に構成される。
第1の態様の第3の変形形態において、プライバシーエンフォーサは、匿名モードをオン又はオフにするための設定であって、第1の場合、プライバシーエンフォーサは、話者名を提供する前に話者名を曖昧にし、且つ受信された答えが曖昧な話者名を含む場合、受信された答えを明瞭にし、及び第2の場合、プライバシーエンフォーサは、話者名をもはや曖昧にせず、且つ受信された答えが曖昧な話者名を含むかどうかをもはや決定しない、設定を更に含む。
第2の態様において、本開示は、プライバシー保護音声対話を実行するための方法であって、話者からのクエリーに関する発話音声を表すオーディオ信号を捕捉することと、捕捉されたオーディオ信号から話者を識別することと、識別された話者に対応する曖昧な話者名を生成し、且つ話者名と曖昧な話者名との間の対応関係のリストを格納することと、捕捉されたオーディオ信号及び曖昧な話者名を外部装置に提供することと、クエリーへの答えを外部装置から取得することと、受信された答えがリストの曖昧な話者名を含むかどうかを決定し、且つこの場合、受信された答えにおいて、曖昧な話者名を対応する名前によって取り替え、従って明瞭な答えを生成することと、答えを話者に提供することとを含む方法に関する。
第2の態様の第1の変形形態において、受信された答えは、テキスト形式であり、及び方法は、リストの話者名を検出し、且つその話者名を、対応する曖昧な話者名を表すオーディオ信号によって取り替えることを更に含む。
第2の態様の第2の変形形態は、匿名モードをオン又はオフにするための設定であって、第1の場合、話者名を提供する前に話者名を曖昧にし、且つ受信された答えが曖昧な話者名を含む場合、受信された答えを明瞭にし、及び第2の場合、話者名をもはや曖昧にせず、且つ受信された答えが曖昧な話者名を含むかどうかをもはや決定しない、設定を更に含む。
第2の態様の第3の変形形態は、曖昧な話者名を一新することを含む。
第3の態様において、本開示は、第2の態様の方法のいずれかの実施形態を実行するためにプロセッサによって実行可能なプログラムコード命令を含むコンピュータプログラムに関する。
第4の態様において、本開示は、非一時的コンピュータ可読媒体上に格納され、且つ第2の態様の方法のいずれかの実施形態を実行するためにプロセッサによって実行可能なプログラムコード命令を含むコンピュータプログラム製品に関する。
図面の簡単な説明
ここで、本開示の好ましい特徴が添付の図面に関連して非限定的な例として説明される。
先行技術による例示的なホームアシスタントエコシステムを示す。 本開示の少なくとも一部が実行され得る例示的なホームアシスタントエコシステムを示す。 本開示の実施形態によるプライバシー保護音声対話の方法の例示的なフローチャートを示す。
実施形態の説明
図1Aは、先行技術による例示的なホームアシスタントエコシステムを示す。当業者は、明確にするために図示の装置が簡略化されていることを理解するであろう。ホームアシスタントエコシステムは、通信インターフェース120を通してサービスプロバイダと対話する少なくともホームアシスタント装置100を含む。サービスプロバイダは、サービスが音声対話と個人ユーザに向けられた個人化とに基づいているという特殊性を用いて、複数のサービスをユーザに提案する。サービスは、話者の要求に答えるために協力する専用ソフトウェアアプリケーションによって提供される。これらのソフトウェアアプリケーションは、典型的には、クラウドにおける家庭外装置上で従来的に実行され、図1Aに示されるような単一のサービスオペレータ140によって操作することができ、又は協力している複数のサービスプロバイダ間で分割することができる。
ホームアシスタント装置は、音声クエリーを行うユーザによって生成された発話音声を捕捉し、且つ対応するオーディオ信号121を生成するマイクロホン102を含む。話者識別子モジュール104は、家族ユーザの集合間で話者を識別するためにオーディオ信号121を解析し、且つ話者識別122をサービスプロバイダ140に提供する。スピーチトゥインテント(speech-to-intent)150は、オーディオ信号121を受信し、それを解析し、それをテキストに転換し、且つインテントを生成する。「スピーチトゥインテント」機能は、「スピーチトゥテキスト(speech-to-text)」機能と異なる。実際に、インテントは、概念に対応し、且つ単純な認識された単語よりも一般的である。例えば、インテントは、話者が「グーテンターク」、「ボンジュール」、「ハイ」等と言う場合、「こんにちは」であり得る。会話論理160は、インテント123及び話者識別122を受信する。話者との前の対話を認識しているため、会話論理160は、最後のインテントに応じて適切な答え124を生成する。会話論理が話者識別を認識しているため、会話論理は、例えば、応答に話者の名前を挿入することによって答えを個人化する。答え124は、テキスト文字列であり、且つホームアシスタント装置へ送出されてラウドスピーカ110上で与えられるオーディオ信号125に答え124を変換するテキストトゥスピーチ160に提供される。
例えば、図1Aに示されているように、ユーザのBobがエコシステムと対話することを望む場合、Bobは、Amazonエコシステムの場合には単純なクエリー「Alexa、こんにちは!」でスタートする。エコシステムは、「こんにちは、Bob」と言うことによって答え、従って認識された話者の名前を挿入することによって応答を個人化する。
かかる仕組みを用いて、ホームアシスタント装置100は、話者の識別をサービスプロバイダに提供する。しかしながら、ユーザは、自らの識別が開示されることを常に望むわけではなく、自らのプライバシーに関する改善を期待する。
図1Bは、本開示の少なくとも一部が実現され得る例示的なホームアシスタントエコシステムを示す。ホームアシスタントエコシステムは、プライバシーフレンドリなホームアシスタント装置100’を含み、且つ図1Aに示されている先行技術システムにおけるものと同じサービスオペレータ環境140を正確に操作し、一方で話者のプライバシーを改善することができる。
ホームアシスタント装置100’は、ユーザからのオーディオを捕捉するように構成されたマイクロホン102と、家族ユーザ間の話者の識別を検出するように構成された話者識別子104と、話者名を仮称と取り替え、且つ仮称を逆に着信データに挿入することにより、発信データにおける話者の識別を曖昧にするように構成されたプライバシーエンフォーサ106と、テキストの答えを音声信号に変換するように構成された任意選択のテキストトゥスピーチコンバータ108と、オーディオ信号を出力するように構成されたラウドスピーカ110と、通信インターフェース120とを含む。ホームアシスタント装置100’は、装置の操作にとって不可欠であるが、本発明に関係がないために示されていない他の要素(システムを構成するボタン、電子コンポーネントを操作する電源、ラウドスピーカを駆動するオーディオ増幅器等)も含む。ホームアシスタント装置100’は、スタンドアロンの装置として実現することができ、又はセットトップボックス、ゲートウェイ、テレビ受像機、コンピュータ、スマートフォン、タブレットなどの従来の消費者装置に統合することができる。
通信インターフェース120は、少なくともスピーチトゥインテント及び会話論理機能を実行するクラウドにおけるデータサーバ及びプロセッサなどの家庭外装置と対話するように構成される。ADSL、ケーブルモデム、3G又は4Gは、この目的に使用され得る通信インターフェースの例である。他の通信インターフェースが用いられ得る。
ホームアシスタント装置100’は、会話論理によってホームアシスタント装置100’に提供される答えのタイプに依存して、2つのモードの1つで動作する。第1のモードは、会話論理160が答えをテキストフォーマットで送出する場合に用いられる。この場合、サービスプロバイダ140のテキストトゥスピーチコンバータ170は用いられず、オーディオへの変換は、テキストトゥスピーチコンバータ108により、ホームアシスタント装置100’内で行われる。第2のモードは、レガシーサービスプロバイダと共に用いられ、そこでは、答えは、オーディオ信号として、従ってサービスプロバイダ140のテキストトゥスピーチコンバータ170を用いて送出される。
好ましい実施形態によれば、ホームアシスタントエコシステムは、第1のモードで動作する。話者は、「Alexa、今日の天気はどう?」などの音声クエリーを行うために発話音声を生成する。マイクロホン102は、この発話音声を捕捉し、且つ対応するオーディオ信号121を生成する。話者識別子モジュール104は、オーディオ信号121を解析し、且つその識別子がXYZ−002であり、その名前がBobである話者として話者を識別する。かかる識別は、例えば、GMM−UBMモデル(ガウス混合モデル−ユニバーサルバックグラウンドモデル)を用いる分類など、従来の話者認識技術を用いて行われる。話者が識別されると、話者名122は、プライバシーエンフォーサ106、即ち仮称126(図1Bの例における「tak」)を生成し、サービスプロバイダ140に仮称を提供し、それによって話者の本名及び識別を曖昧にするプライバシーエンフォーサ106に提供される。プライバシーエンフォーサ106は、話者識別子と曖昧な名前126との間の関係を格納する。これは、例えば、識別された話者の名前(又はそのローカル識別子/プロファイル)と曖昧な名前との間の関連性をマッピングテーブルに格納することによって行われる。表1は、かかるマッピングテーブルの例を示す。
ランダムテキスト文字列を生成すること又は家族の名前と異なるランダムテキストのリストにおいて1つの要素をランダムに選択することなど、曖昧な名前を生成するために複数の技術が利用され得る。曖昧な名前は、一般名又は一般的な単語に対応しないことが好ましい。これを保証するために、生成されるランダムテキストは、それが氏名辞書及び従来の辞書の一部でない場合にのみ用いることができる。そうでない場合、新しい生成が行われなければならない。
次に、プライバシーエンフォーサ106は、オーディオ信号に121’及び曖昧な名前126をサービスオペレータ140に提供する。スピーチトゥインテント150は、受信されたオーディオ信号121’を解析し、且つ対応するインテント123を生成する。次に、会話論理160は、インテント123を解析し、且つ例えば曖昧な名前を含む個人化された答え124を生成する。次に、この答えは、テキスト形式でホームアシスタント装置100’に逆に直接送信される。プライバシーエンフォーサ106は、受信された答え124を解析し、それがマッピングテーブルの曖昧な名前のリストにおける曖昧な名前を含むかどうかをチェックする。含む場合、検出された曖昧な名前は、対応する話者名によって取り替えられ、従ってラウドスピーカ110によって与えられるオーディオ信号127へテキストトゥスピーチコンバータ108によって変換される明瞭な答え124’を生成する。
図1Bに示されている例において、Bobは、「Alexa、今日の天気はどう?」と言う。話者は、「Bob」として識別され、従って対応する曖昧な名前は、「tak」である。オーディオ解析は、インテントが「今日の天気」であったことを明らかにする。次に、今日の天気予報が取ってこられ、答えは、話者の名前を追加することによって個人化される。即ち、「こんにちは、tak。今日の天気は...」であり、やはり曖昧な話者名を含む。答えが解析されると、リストにおける曖昧な話者名の1つ(「tak」)が検出される。それは、対応する実際の話者名「Bob」と取り替えられ、従って最終的な応答「こんにちは、Bob。今日の天気は...」を生成する。結果は、話者名がホームアシスタント装置100’の外部で開示されず、従ってホームアシスタント装置の複数のユーザのプライバシーを保護することである。
代替実施形態によれば、ホームアシスタントエコシステムは、第2のモードで動作する。第1のモードとの差は、会話論理が答え124を生成する場合、この答えがテキスト形式ではなく、オーディオ形式でホームアシスタント装置100’に直接提供されることである。なぜなら、このオーディオ信号125は、サービスプロバイダ140のテキストトゥスピーチコンバータ170によって生成されるからである。従って、ホームアシスタント装置100’が答え125を受信すると、プライバシーエンフォーサ106は、曖昧な名前を検出するためにオーディオ信号125を解析する。その目的のために、プライバシーエンフォーサは、曖昧な名前のオーディオ表現を取得し、且つ例えば2つのオーディオ信号の相互相関を用いて、オーディオ領域におけるオーディオ信号125内のこれらの表現を検索する。曖昧な名前が見つかると、それは、対応する話者名によって取り替えられ、従ってラウドスピーカ110によって与えられる明瞭な答え127を生成する。
この第2のモードにおいて、選択された曖昧な名前は、表1に示されているように話者名と同様の長さを有し得る。代替として、それは、家族の人数を決定するために用いられ得る情報の提供を回避するために固定長を有し得る。かかる曖昧な名前を生成するための技術の一例は、固定数の文字にわたって任意の子音及び任意の母音を互い違いにすることである。かかる場合、表1の曖昧な名前の例は、「kadopabo」、「jilybelo」、「gatekomu」及び「dagopasa」であり得る。
代替実施形態において、プライバシーの改善のために、録音されたオーディオ信号121は、録音された音声の音声特性が認識され得ないようにプライバシーエンフォーサによって別のオーディオ信号121’に修正される。これは、任意の音声変換アルゴリズム(音声モーフィング、韻律の修正、又は更にはスピーチトゥテキストを適用し、それにテキストトゥスピーチが続くこと等)を用いて行われ、従って話されるテキストを変更せずに特性を変換する。かかる変換の結果は、ホームネットワークを出る全ての音声が同じであり、従って区別不能になることであろう。この追加の防御措置は、両方のモードに当てはまる。
代替実施形態において、プライバシーエンフォーサは、録音装置オーディオ信号121からの発信オーディオ信号121’のテキストも曖昧にする。これは、例えば、表1のマッピングテーブルにリストされているような家族の話者の名前の1つをオーディオ信号内で検出することによって行われる。話者名が見つかると、それは、対応する曖昧な名前によって取り替えられる。この実施形態は、任意選択である。なぜなら、それは、幾つかの状況においてクエリーの失敗につながり得るからである。例えば、上記の表1を用いてこの特徴が活性化された場合、映画「Alice in Wonderland」を見ることは不可能であろう。なぜなら、クエリーが「okul in Wonderland」に変形されることになるからである。
代替実施形態では、曖昧さは、各クエリーについて装置の各始動時、毎日、15分ごと等において、デフォルト設定、ユーザ選択又はユーザ選好における設定の制御下で周期的に一新される。曖昧さが各クエリーについて一新される事例は、2つの連続的な要求間の非連結性を増進する。しかしながら、それは、会話論理が各一新後に空の文脈から常にスタートするため、クエリーの文脈化の低減という欠点を伴う。なぜなら、クエリーは、推定上の新しい話者によって実行されるからである。
実施形態によれば、プライバシーエンフォーサ106は、例えば、ユーザ選択又はユーザ選好における設定の管理下でオン又はオフにされ得る。これは、プライバシーエンフォーサによって提供されるプライバシーのレベルを制御し、且つ従ってプライバシーレベル設定と命名される。プライバシーレベル設定が「NO_PRIVACY」である場合、プライバシーエンフォーサ106は、完全に透過性である。即ち、それは、ホームアシスタント装置100’の発信クエリーに影響を与えず、且つ着信結果を修正しない。プライバシーレベル設定が「INCOGNITO」である場合、プライバシーエンフォーサ106は、完全にアクティブである。即ち、それは、クエリーにおける話者名を曖昧にするために発信クエリーを解析し、いかなる話者名もオーディオから除去し、発信音声クエリーを変形し、且つ着信結果における話者名を復活する。例えば、音声変換を実行しない他の中間プライバシーレベル設定も可能である。
実施形態によれば、プライバシーレベル設定は、プライバシーエンフォーサをイネーブルにするための「プライベートモードの開始」、「匿名モードの開始」「私の身元の隠蔽」など、及びプライバシーエンフォーサを回避するための「プライベートモードの停止」、「匿名モードの停止」などのオーディオクエリー自体を用いて調整することができる。このクエリーは、プライバシーエンフォーサによって検出され、それに応じてプライバシーエンフォーサは、その挙動を調整する。
図2は、本開示の実施形態によるプライバシー保護音声対話の方法の例示的なフローチャートを示す。ステップ200において、マイクロホンは、音声クエリーを形成するユーザによって実行された発話音声を捕捉し、且つ対応するオーディオ信号を生成する。ステップ202において、話者識別子は、捕捉されたオーディオ信号の話者の識別を識別し、ステップ204において、プライバシーエンフォーサは、曖昧な話者名を生成する。任意選択的に、並列ステップ206において、プライバシーエンフォーサは、オーディオ信号を曖昧にする。ステップ208において、オーディオ信号が取得され、解析され、対応するインテントが生成される。ステップ210において、個人化された応答は、曖昧な話者名を取得した後に生成される。ステップ212において、応答は、答えの曖昧な名前を対応する話者名によって取り替えるプライバシーエンフォーサによって解析される。ステップ214において、ラウドスピーカは、明瞭な答えを与える。曖昧化ステップ204及び206並びに明瞭化ステップ212は、プライバシーレベル設定の制御下にあり、設定が「NO_PRIVACY」である場合に回避される。
当業者によって理解されるであろうように、上記の本原理及び特徴の態様は、完全なハードウェア実施形態、完全なソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又はハードウェア及びソフトウェアの態様を組み合わせる実施形態の形式を取ることができる。例えば、説明は、話者識別子104、プライバシーエンフォーサ106及びテキストトゥスピーチコンバータ108のためのハードウェアコンポーネントを用いて行われるが、これらの要素は、本開示の少なくとも1つの実施形態の方法を実行するように構成された少なくとも1つのハードウェアプロセッサと、本開示の少なくとも1つの実施形態を実行するために必要とされるデータを格納するように構成されたメモリと、本開示の少なくとも1つの実施形態を実行するプロセッサによって実行可能なコンピュータ可読プログラムコードとを用いるソフトウエアコンポーネントとして実現することができる。従って、かかる実装形態において、ハードウェアプロセッサは、話者識別子104、プライバシーエンフォーサ106及びテキストトゥスピーチコンバータ108の少なくとも機能を実行し、且つ通信インターフェース120を通してサービスプロバイダとインターフェースするように構成される。その目的のために、ハードウェアプロセッサは、少なくとも、ユーザ識別ステップ202、名前曖昧化ステップ204、オーディオクエリー曖昧化ステップ206、明瞭化ステップ212、及び答え提供ステップ214を含む図2のステップを実行するように構成される。
更に、異なる代替実施形態が別々に説明されたが、それらは、任意の形式で一緒に組み合わせることができる。
100、100’ ホームアシスタント装置
102 マイクロホン
104 話者識別子
106 プライバシーエンフォーサ
108 テキストトゥスピーチコンバータ
110 ラウドスピーカ
120 通信インターフェース
121、121’、125 オーディオ信号
122 話者名
123 インテント
124、124’ 答え
126 曖昧な名前
127 明瞭な答え
140 サービスプロバイダ
150 スピーチトゥインテント
160 会話論理
170 テキストトゥスピーチコンバータ
200 ステップ
202 ユーザ識別ステップ
204 曖昧化ステップ
206 オーディオクエリー曖昧化ステップ
208 ステップ
210 ステップ
212 明瞭化ステップ
214 提供ステップ

Claims (15)

  1. プライバシー保護音声対話を実行するための装置(100’)であって、
    − 話者からのクエリーに関する発話音声を表すオーディオ信号(121)を捕捉するように構成されたマイクロホン(102)と、
    − 前記捕捉されたオーディオ信号(121)から話者の識別を決定するように構成された話者識別子(104)と、
    − 前記識別された話者に対応する曖昧な話者名(122)を生成し、且つ話者名と曖昧な話者名との間の対応関係のリストを格納するように構成されたプライバシーエンフォーサ(106)と、
    − 通信インターフェース(120)であって、
    − 前記捕捉されたオーディオ信号(121)及び前記曖昧な話者名(122)を外部装置に提供することと、
    − 前記話者クエリーへの答え(124、125)を外部装置から受信することと
    を行うように構成された通信インターフェース(120)と
    を含み、前記プライバシーエンフォーサは、前記受信された答えが前記リストの曖昧な話者名を含むかどうかを決定し、且つこの場合、前記受信された答えにおいて、前記曖昧な話者名を前記対応する名前によって取り替えるように更に構成される、装置(100’)。
  2. 前記話者に前記答えを提供することを更に含む、請求項1に記載の装置。
  3. 前記受信された答え(124)は、テキスト形式である、請求項1に記載の装置。
  4. 明瞭な答え(124’)をテキスト形式からオーディオ信号(127)に変換するように構成されたテキストトゥスピーチコンバータ(108)を更に含む、請求項3に記載の装置。
  5. 前記受信された答え(124)は、オーディオフォーマットである、請求項1に記載の装置。
  6. 前記プライバシーエンフォーサは、前記リストの話者名を検出し、且つ前記話者名を、前記対応する曖昧な話者名を表すオーディオ信号によって取り替えることにより、前記捕捉されたオーディオ信号(121)を曖昧にするように更に構成される、請求項1に記載の装置。
  7. 前記プライバシーエンフォーサは、匿名モードをオン又はオフにするための設定であって、第1の場合、前記プライバシーエンフォーサは、前記話者名を提供する前に前記話者名を曖昧にし、且つ前記受信された答えが曖昧な話者名を含む場合、前記受信された答えを明瞭にし、及び第2の場合、前記プライバシーエンフォーサは、前記話者名をもはや曖昧にせず、且つ前記受信された答えが曖昧な話者名を含むかどうかをもはや決定しない、設定を更に含む、請求項1に記載の装置。
  8. プライバシー保護音声対話を実行するための方法であって、
    − 話者からのクエリーに関する発話音声を表すオーディオ信号を捕捉すること(200)と、
    − 前記捕捉されたオーディオ信号から話者を識別すること(202)と、
    − 前記識別された話者に対応する曖昧な話者名を生成し、且つ話者名と曖昧な話者名との間の対応関係のリストを格納すること(204)と、
    − 前記捕捉されたオーディオ信号及び前記曖昧な話者名を外部装置に提供することと、
    − 前記クエリーへの答えを外部装置から取得することと、
    − 前記受信された答えが前記リストの曖昧な話者名を含むかどうかを決定し、且つこの場合、前記受信された答えにおいて、前記曖昧な話者名を前記対応する名前によって取り替えること(212)と
    を含む方法。
  9. 前記答えを前記話者に提供することを更に含む、請求項8に記載の方法。
  10. 前記受信された答え(124)は、テキスト形式又はオーディオ形式である、請求項8に記載の方法。
  11. 前記リストの話者名を検出し、且つ前記話者名を、前記対応する曖昧な話者名を表すオーディオ信号によって取り替えることにより、前記捕捉されたオーディオ信号(121)を曖昧にすることを更に含む、請求項8に記載の方法。
  12. 匿名モードをオン又はオフにするための設定であって、第1の場合、前記話者名を提供する前に前記話者名を曖昧にし、且つ前記受信された答えが曖昧な話者名を含む場合、前記受信された答えを明瞭にし、及び第2の場合、前記話者名をもはや曖昧にせず、且つ前記受信された答えが曖昧な話者名を含むかどうかをもはや決定しない、設定を更に含む、請求項8に記載の方法。
  13. 前記リストの前記曖昧な話者名を一新することを更に含む、請求項8に記載の方法。
  14. 請求項8〜13のいずれか一項に記載の方法のステップを実行するためにプロセッサによって実行可能なプログラムコード命令を含むコンピュータプログラム。
  15. 非一時的コンピュータ可読媒体上に格納され、且つ請求項8〜13のいずれか一項に記載の方法のステップを実行するためにプロセッサによって実行可能なプログラムコード命令を含むコンピュータプログラム製品。
JP2018226745A 2017-12-07 2018-12-03 プライバシー保護音声対話のための装置及び方法 Active JP7166900B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17306719.0A EP3496090A1 (en) 2017-12-07 2017-12-07 Device and method for privacy-preserving vocal interaction
EP17306719.0 2017-12-07

Publications (3)

Publication Number Publication Date
JP2019109503A true JP2019109503A (ja) 2019-07-04
JP2019109503A5 JP2019109503A5 (ja) 2022-01-06
JP7166900B2 JP7166900B2 (ja) 2022-11-08

Family

ID=60811978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018226745A Active JP7166900B2 (ja) 2017-12-07 2018-12-03 プライバシー保護音声対話のための装置及び方法

Country Status (8)

Country Link
US (1) US11069362B2 (ja)
EP (2) EP3496090A1 (ja)
JP (1) JP7166900B2 (ja)
KR (1) KR20190067697A (ja)
BR (1) BR102018075377B1 (ja)
CA (1) CA3026205A1 (ja)
MX (1) MX2018015218A (ja)
RU (1) RU2768506C2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909978B2 (en) * 2017-06-28 2021-02-02 Amazon Technologies, Inc. Secure utterance storage
EP3496090A1 (en) * 2017-12-07 2019-06-12 Thomson Licensing Device and method for privacy-preserving vocal interaction
DE102018202018B3 (de) * 2018-02-09 2019-05-09 Siemens Schweiz Ag Verfahren und System zum Bereitstellen eines sprachbasierten Dienstes, insbesondere für die Ansteuerung von Raumbedienelementen in Gebäuden
US11769496B1 (en) * 2019-12-12 2023-09-26 Amazon Technologies, Inc. Predictive deletion of user input
EP4136637A4 (en) * 2020-04-15 2024-04-17 Pindrop Security, Inc. PASSIVE, CONTINUOUS MULTI-SPEAKER VOICE BIOMETRICS
US11217223B2 (en) * 2020-04-28 2022-01-04 International Business Machines Corporation Speaker identity and content de-identification
US11449674B2 (en) 2020-04-28 2022-09-20 International Business Machines Corporation Utility-preserving text de-identification with privacy guarantees
EP3905631B1 (en) * 2020-05-01 2024-05-29 Avago Technologies International Sales Pte. Limited Systems and methods for speaker anonymization
CN111597580B (zh) * 2020-05-13 2023-04-14 贵州大学 机器人听觉隐私信息监听处理方法
CN113066485B (zh) * 2021-03-25 2024-05-17 支付宝(杭州)信息技术有限公司 一种语音数据处理方法、装置及设备
US20220399009A1 (en) * 2021-06-09 2022-12-15 International Business Machines Corporation Protecting sensitive information in conversational exchanges
CN113782027B (zh) * 2021-09-01 2024-06-21 维沃移动通信(杭州)有限公司 音频处理方法及音频处理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
US20140278409A1 (en) * 2004-07-30 2014-09-18 At&T Intellectual Property Ii, L.P. Preserving privacy in natural langauge databases
US20140372126A1 (en) * 2013-06-17 2014-12-18 Motorola Mobility Llc Privacy mode for always-on voice-activated information assistant
WO2017003579A1 (en) * 2015-06-29 2017-01-05 Google Inc. Privacy-preserving training corpus selection

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7920682B2 (en) * 2001-08-21 2011-04-05 Byrne William J Dynamic interactive voice interface
US6839417B2 (en) * 2002-09-10 2005-01-04 Myriad Entertainment, Inc. Method and apparatus for improved conference call management
CA2618623C (en) * 2005-08-09 2015-01-06 Mobilevoicecontrol, Inc. Control center for a voice controlled wireless communication device system
US9330668B2 (en) * 2005-12-20 2016-05-03 International Business Machines Corporation Sharing voice application processing via markup
RU2337020C1 (ru) * 2007-09-26 2008-10-27 Общество с ограниченной ответственностью "АЛЬТОНИКА" (ООО"АЛЬТОНИКА") Система голосового распознавания пользователя транспортного средства
US9542956B1 (en) * 2012-01-09 2017-01-10 Interactive Voice, Inc. Systems and methods for responding to human spoken audio
US9131369B2 (en) 2013-01-24 2015-09-08 Nuance Communications, Inc. Protection of private information in a client/server automatic speech recognition system
US9437207B2 (en) 2013-03-12 2016-09-06 Pullstring, Inc. Feature extraction for anonymized speech recognition
US9514741B2 (en) 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition acoustic model training under data retention restrictions
US10333904B2 (en) * 2015-08-08 2019-06-25 Peter J. Tormey Voice access and control
US20180053504A1 (en) * 2016-08-19 2018-02-22 Otis Elevator Company Intention recognition for triggering voice recognition system
EP3577646B1 (en) * 2017-05-16 2021-07-21 Google LLC Handling calls on a shared speech-enabled device
EP3496090A1 (en) * 2017-12-07 2019-06-12 Thomson Licensing Device and method for privacy-preserving vocal interaction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278409A1 (en) * 2004-07-30 2014-09-18 At&T Intellectual Property Ii, L.P. Preserving privacy in natural langauge databases
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
US20140372126A1 (en) * 2013-06-17 2014-12-18 Motorola Mobility Llc Privacy mode for always-on voice-activated information assistant
WO2017003579A1 (en) * 2015-06-29 2017-01-05 Google Inc. Privacy-preserving training corpus selection

Also Published As

Publication number Publication date
RU2018142910A3 (ja) 2021-08-17
CA3026205A1 (en) 2019-06-07
US20190180759A1 (en) 2019-06-13
CN110033774A (zh) 2019-07-19
BR102018075377B1 (pt) 2022-08-02
MX2018015218A (es) 2019-07-04
US11069362B2 (en) 2021-07-20
RU2768506C2 (ru) 2022-03-24
EP3496091B1 (en) 2020-07-01
EP3496090A1 (en) 2019-06-12
EP3496091A1 (en) 2019-06-12
KR20190067697A (ko) 2019-06-17
BR102018075377A2 (pt) 2019-06-25
JP7166900B2 (ja) 2022-11-08
RU2018142910A (ru) 2020-06-05

Similar Documents

Publication Publication Date Title
JP7166900B2 (ja) プライバシー保護音声対話のための装置及び方法
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
US8655659B2 (en) Personalized text-to-speech synthesis and personalized speech feature extraction
CN108391149B (zh) 显示设备、控制显示设备的方法、服务器以及控制服务器的方法
JP5598998B2 (ja) 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
KR20190100334A (ko) 문맥상의 핫워드들
JP2017107078A (ja) 音声対話方法、音声対話装置及び音声対話プログラム
US11776541B2 (en) Communicating announcements
JP2017535809A (ja) サウンド検出モデルを生成するためのサウンドサンプル検証
JP2018054790A (ja) 音声対話システムおよび音声対話方法
CN111919249A (zh) 词语的连续检测和相关的用户体验
KR20150017662A (ko) 텍스트-음성 변환 방법, 장치 및 저장 매체
US11948564B2 (en) Information processing device and information processing method
US20130332170A1 (en) Method and system for processing content
WO2019155716A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
EP3113175A1 (en) Method for converting text to individual speech, and apparatus for converting text to individual speech
JP2013254395A (ja) 処理装置、処理システム、出力方法およびプログラム
KR20200016547A (ko) 등록된 사용자에 의한 인증을 통해 새로운 사용자를 등록하기 위한 전자 장치 및 방법
US11024303B1 (en) Communicating announcements
JP2005151553A (ja) ボイス・ポータル
CN110033774B (zh) 用于隐私保护型语音交互的设备和方法
KR20140138011A (ko) 음성 인식 장치 및 그 제어 방법
WO2020110744A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111968630A (zh) 信息处理方法、装置和电子设备
EP3776300A1 (en) Temporary account association with voice-enabled devices

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211126

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221026

R150 Certificate of patent or registration of utility model

Ref document number: 7166900

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150