JP2019109503A

JP2019109503A - プライバシー保護音声対話のための装置及び方法

Info

Publication number: JP2019109503A
Application number: JP2018226745A
Authority: JP
Inventors: フォンティーヌ，パトリック; Fontaine Patrick; ノイマン，クリストフ; Neumann Christoph
Original assignee: InterDigital CE Patent Holdings SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2017-12-07
Filing date: 2018-12-03
Publication date: 2019-07-04
Anticipated expiration: 2038-12-03
Also published as: CA3026205A1; EP3496091A1; BR102018075377A2; CN110033774A; KR20190067697A; EP3496090A1; CN110033774B; US11069362B2; MX2018015218A; RU2768506C2; US20190180759A1; JP7166900B2; BR102018075377B1; RU2018142910A; RU2018142910A3; EP3496091B1

Abstract

【課題】プライバシー保護音声対話のためのホームアシスタント装置及び方法を提供する。【解決手段】マイクロホン１０２が、音声ユーザクエリーに対応するオーディオ信号１２１を捕捉する。話者名１２２が決定され、識別された話者名に対応して曖昧な名前１２６が生成される。オーディオ信号がユーザのインテント１２３を決定するために解析され、個人化された答え１２４が曖昧な名前と組み合わせて生成される。この答えが、話者名を再導入することによって明瞭にされる。明瞭な答え１２７が話者に与えられる。【選択図】図１Ｂ

Description

技術分野
本開示は、音声対話の領域に関し、特にマルチユーザホームアシスタント環境におけるユーザのプライバシーを保護する。

背景
このセクションは、技術の様々な態様を読者に紹介するように意図され、技術の様々な態様は、以下で説明され且つ／又は特許請求される本開示の様々な態様に関係し得る。この説明は、本開示の様々な態様のよりよい理解を促進するために、読者に背景情報を提供する際に有用であると考えられる。従って、これらの所説は、この観点で読まれるべきであり、先行技術の承認として読まれるべきではないことを理解されたい。

Microsoft Cortana又はApple Siriなどのホームアシスタントサービスと同様に、Amazon Echo又はGoogle Homeなどのホームアシスタント装置を通した住宅環境における音声制御の利用が大衆市場の現実となった。かかる装置又はサービスは、数百万の家庭で用いられている。ホームアシスタント装置は、マイクロホンを通して家族ユーザからの自然なスピーチを捕捉し、ユーザクエリーを解析し、適切な応答又はサービスを提供する。実行されるクエリーは、家庭内の装置を利用できる（例えば、ＴＶの音を消す、シャッターを閉める等）が、家庭外サービスを利用することもできる（例えば、天気予報又は株価を検索する、装置故障に関する支援を得る等）。加えて、最新世代のホームアシスタント装置は、話者識別も実行する。かかる認識は、アクセス制御（例えば、子供は、ホームネットワークを構成できない、成人映画にアクセスできない等）、対話の個人化（例えば、対話の語彙は、幼い子供、ティーンエージャ、成人又は高齢者間で選択される話者の範疇に適合され得る）などの複数の機能をイネーブルにする。しかしながら、これは、ユーザプライバシーの低下という犠牲で得られる。実際に、これらの音声対話エコシステムにおいて用いられるスピーチ解析及び会話論理は、家庭環境の外部で典型的にはクラウドにおいて従来的に操作される。

従って、先行技術の問題の少なくとも幾つかに取り組む、住宅における話者認識のための解決法の必要性が存在することが理解され得る。本開示は、かかる解決法を提供する。

概要
本開示は、プライバシー保護音声対話のためのホームアシスタント装置及び方法を説明する。マイクロホンが、音声ユーザクエリーに対応するオーディオ信号を捕捉する。話者の識別が決定され、及び識別された話者に対応して曖昧な名前が生成される。オーディオ信号がユーザのインテントを決定するために解析され、及び個人化された答えが曖昧な名前と組み合わされて生成される。次に、この答えが、話者名を再導入することによって明瞭にされる。次に、明瞭な答えが話者に与えられる。

第１の態様において、本開示は、プライバシー保護音声対話を実行するための装置であって、話者からのクエリーに関する発話音声を表すオーディオ信号を捕捉するように構成されたマイクロホンと、捕捉されたオーディオ信号から話者の識別を決定するように構成された話者識別子と、識別された話者に対応する曖昧な話者名を生成し、且つ話者名と曖昧な話者名との間の対応関係のリストを格納するように構成されたプライバシーエンフォーサと、通信インターフェースであって、捕捉されたオーディオ信号及び曖昧な話者名を外部装置に提供することと、話者クエリーへの答えを外部装置から受信することとを行うように構成された通信インターフェースとを含み、プライバシーエンフォーサは、受信された答えがリストの曖昧な話者名を含むかどうかを決定し、且つこの場合、受信された答えにおいて、曖昧な話者名を対応する名前によって取り替え、従って明瞭な答えを生成するように更に構成される、装置に関する。

第１の態様の第１の変形形態において、受信された答えは、テキスト形式であり、及び装置は、明瞭な答えをテキスト形式からオーディオ信号に変換するように構成されたテキストトゥスピーチ（text-to-speech）コンバータを更に含む。

第１の態様の第２の変形形態において、受信された答えは、オーディオフォーマットであり、及びプライバシーエンフォーサは、リストの話者名を検出し、且つその話者名を、対応する曖昧な話者名を表すオーディオ信号によって取り替えることにより、捕捉されたオーディオ信号を曖昧にするように更に構成される。

第１の態様の第３の変形形態において、プライバシーエンフォーサは、匿名モードをオン又はオフにするための設定であって、第１の場合、プライバシーエンフォーサは、話者名を提供する前に話者名を曖昧にし、且つ受信された答えが曖昧な話者名を含む場合、受信された答えを明瞭にし、及び第２の場合、プライバシーエンフォーサは、話者名をもはや曖昧にせず、且つ受信された答えが曖昧な話者名を含むかどうかをもはや決定しない、設定を更に含む。

第２の態様において、本開示は、プライバシー保護音声対話を実行するための方法であって、話者からのクエリーに関する発話音声を表すオーディオ信号を捕捉することと、捕捉されたオーディオ信号から話者を識別することと、識別された話者に対応する曖昧な話者名を生成し、且つ話者名と曖昧な話者名との間の対応関係のリストを格納することと、捕捉されたオーディオ信号及び曖昧な話者名を外部装置に提供することと、クエリーへの答えを外部装置から取得することと、受信された答えがリストの曖昧な話者名を含むかどうかを決定し、且つこの場合、受信された答えにおいて、曖昧な話者名を対応する名前によって取り替え、従って明瞭な答えを生成することと、答えを話者に提供することとを含む方法に関する。

第２の態様の第１の変形形態において、受信された答えは、テキスト形式であり、及び方法は、リストの話者名を検出し、且つその話者名を、対応する曖昧な話者名を表すオーディオ信号によって取り替えることを更に含む。

第２の態様の第２の変形形態は、匿名モードをオン又はオフにするための設定であって、第１の場合、話者名を提供する前に話者名を曖昧にし、且つ受信された答えが曖昧な話者名を含む場合、受信された答えを明瞭にし、及び第２の場合、話者名をもはや曖昧にせず、且つ受信された答えが曖昧な話者名を含むかどうかをもはや決定しない、設定を更に含む。

第２の態様の第３の変形形態は、曖昧な話者名を一新することを含む。

第３の態様において、本開示は、第２の態様の方法のいずれかの実施形態を実行するためにプロセッサによって実行可能なプログラムコード命令を含むコンピュータプログラムに関する。

第４の態様において、本開示は、非一時的コンピュータ可読媒体上に格納され、且つ第２の態様の方法のいずれかの実施形態を実行するためにプロセッサによって実行可能なプログラムコード命令を含むコンピュータプログラム製品に関する。

図面の簡単な説明
ここで、本開示の好ましい特徴が添付の図面に関連して非限定的な例として説明される。

先行技術による例示的なホームアシスタントエコシステムを示す。本開示の少なくとも一部が実行され得る例示的なホームアシスタントエコシステムを示す。本開示の実施形態によるプライバシー保護音声対話の方法の例示的なフローチャートを示す。

実施形態の説明
図１Ａは、先行技術による例示的なホームアシスタントエコシステムを示す。当業者は、明確にするために図示の装置が簡略化されていることを理解するであろう。ホームアシスタントエコシステムは、通信インターフェース１２０を通してサービスプロバイダと対話する少なくともホームアシスタント装置１００を含む。サービスプロバイダは、サービスが音声対話と個人ユーザに向けられた個人化とに基づいているという特殊性を用いて、複数のサービスをユーザに提案する。サービスは、話者の要求に答えるために協力する専用ソフトウェアアプリケーションによって提供される。これらのソフトウェアアプリケーションは、典型的には、クラウドにおける家庭外装置上で従来的に実行され、図１Ａに示されるような単一のサービスオペレータ１４０によって操作することができ、又は協力している複数のサービスプロバイダ間で分割することができる。

ホームアシスタント装置は、音声クエリーを行うユーザによって生成された発話音声を捕捉し、且つ対応するオーディオ信号１２１を生成するマイクロホン１０２を含む。話者識別子モジュール１０４は、家族ユーザの集合間で話者を識別するためにオーディオ信号１２１を解析し、且つ話者識別１２２をサービスプロバイダ１４０に提供する。スピーチトゥインテント（speech-to-intent）１５０は、オーディオ信号１２１を受信し、それを解析し、それをテキストに転換し、且つインテントを生成する。「スピーチトゥインテント」機能は、「スピーチトゥテキスト(speech-to-text)」機能と異なる。実際に、インテントは、概念に対応し、且つ単純な認識された単語よりも一般的である。例えば、インテントは、話者が「グーテンターク」、「ボンジュール」、「ハイ」等と言う場合、「こんにちは」であり得る。会話論理１６０は、インテント１２３及び話者識別１２２を受信する。話者との前の対話を認識しているため、会話論理１６０は、最後のインテントに応じて適切な答え１２４を生成する。会話論理が話者識別を認識しているため、会話論理は、例えば、応答に話者の名前を挿入することによって答えを個人化する。答え１２４は、テキスト文字列であり、且つホームアシスタント装置へ送出されてラウドスピーカ１１０上で与えられるオーディオ信号１２５に答え１２４を変換するテキストトゥスピーチ１６０に提供される。

例えば、図１Ａに示されているように、ユーザのBobがエコシステムと対話することを望む場合、Bobは、Amazonエコシステムの場合には単純なクエリー「Alexa、こんにちは！」でスタートする。エコシステムは、「こんにちは、Bob」と言うことによって答え、従って認識された話者の名前を挿入することによって応答を個人化する。

かかる仕組みを用いて、ホームアシスタント装置１００は、話者の識別をサービスプロバイダに提供する。しかしながら、ユーザは、自らの識別が開示されることを常に望むわけではなく、自らのプライバシーに関する改善を期待する。

図１Ｂは、本開示の少なくとも一部が実現され得る例示的なホームアシスタントエコシステムを示す。ホームアシスタントエコシステムは、プライバシーフレンドリなホームアシスタント装置１００’を含み、且つ図１Ａに示されている先行技術システムにおけるものと同じサービスオペレータ環境１４０を正確に操作し、一方で話者のプライバシーを改善することができる。

ホームアシスタント装置１００’は、ユーザからのオーディオを捕捉するように構成されたマイクロホン１０２と、家族ユーザ間の話者の識別を検出するように構成された話者識別子１０４と、話者名を仮称と取り替え、且つ仮称を逆に着信データに挿入することにより、発信データにおける話者の識別を曖昧にするように構成されたプライバシーエンフォーサ１０６と、テキストの答えを音声信号に変換するように構成された任意選択のテキストトゥスピーチコンバータ１０８と、オーディオ信号を出力するように構成されたラウドスピーカ１１０と、通信インターフェース１２０とを含む。ホームアシスタント装置１００’は、装置の操作にとって不可欠であるが、本発明に関係がないために示されていない他の要素（システムを構成するボタン、電子コンポーネントを操作する電源、ラウドスピーカを駆動するオーディオ増幅器等）も含む。ホームアシスタント装置１００’は、スタンドアロンの装置として実現することができ、又はセットトップボックス、ゲートウェイ、テレビ受像機、コンピュータ、スマートフォン、タブレットなどの従来の消費者装置に統合することができる。

通信インターフェース１２０は、少なくともスピーチトゥインテント及び会話論理機能を実行するクラウドにおけるデータサーバ及びプロセッサなどの家庭外装置と対話するように構成される。ＡＤＳＬ、ケーブルモデム、３Ｇ又は４Ｇは、この目的に使用され得る通信インターフェースの例である。他の通信インターフェースが用いられ得る。

ホームアシスタント装置１００’は、会話論理によってホームアシスタント装置１００’に提供される答えのタイプに依存して、２つのモードの１つで動作する。第１のモードは、会話論理１６０が答えをテキストフォーマットで送出する場合に用いられる。この場合、サービスプロバイダ１４０のテキストトゥスピーチコンバータ１７０は用いられず、オーディオへの変換は、テキストトゥスピーチコンバータ１０８により、ホームアシスタント装置１００’内で行われる。第２のモードは、レガシーサービスプロバイダと共に用いられ、そこでは、答えは、オーディオ信号として、従ってサービスプロバイダ１４０のテキストトゥスピーチコンバータ１７０を用いて送出される。

好ましい実施形態によれば、ホームアシスタントエコシステムは、第１のモードで動作する。話者は、「Alexa、今日の天気はどう？」などの音声クエリーを行うために発話音声を生成する。マイクロホン１０２は、この発話音声を捕捉し、且つ対応するオーディオ信号１２１を生成する。話者識別子モジュール１０４は、オーディオ信号１２１を解析し、且つその識別子がＸＹＺ−００２であり、その名前がBobである話者として話者を識別する。かかる識別は、例えば、ＧＭＭ−ＵＢＭモデル（ガウス混合モデル−ユニバーサルバックグラウンドモデル）を用いる分類など、従来の話者認識技術を用いて行われる。話者が識別されると、話者名１２２は、プライバシーエンフォーサ１０６、即ち仮称１２６（図１Ｂの例における「tak」）を生成し、サービスプロバイダ１４０に仮称を提供し、それによって話者の本名及び識別を曖昧にするプライバシーエンフォーサ１０６に提供される。プライバシーエンフォーサ１０６は、話者識別子と曖昧な名前１２６との間の関係を格納する。これは、例えば、識別された話者の名前（又はそのローカル識別子／プロファイル）と曖昧な名前との間の関連性をマッピングテーブルに格納することによって行われる。表１は、かかるマッピングテーブルの例を示す。

ランダムテキスト文字列を生成すること又は家族の名前と異なるランダムテキストのリストにおいて１つの要素をランダムに選択することなど、曖昧な名前を生成するために複数の技術が利用され得る。曖昧な名前は、一般名又は一般的な単語に対応しないことが好ましい。これを保証するために、生成されるランダムテキストは、それが氏名辞書及び従来の辞書の一部でない場合にのみ用いることができる。そうでない場合、新しい生成が行われなければならない。

次に、プライバシーエンフォーサ１０６は、オーディオ信号に１２１’及び曖昧な名前１２６をサービスオペレータ１４０に提供する。スピーチトゥインテント１５０は、受信されたオーディオ信号１２１’を解析し、且つ対応するインテント１２３を生成する。次に、会話論理１６０は、インテント１２３を解析し、且つ例えば曖昧な名前を含む個人化された答え１２４を生成する。次に、この答えは、テキスト形式でホームアシスタント装置１００’に逆に直接送信される。プライバシーエンフォーサ１０６は、受信された答え１２４を解析し、それがマッピングテーブルの曖昧な名前のリストにおける曖昧な名前を含むかどうかをチェックする。含む場合、検出された曖昧な名前は、対応する話者名によって取り替えられ、従ってラウドスピーカ１１０によって与えられるオーディオ信号１２７へテキストトゥスピーチコンバータ１０８によって変換される明瞭な答え１２４’を生成する。

図１Ｂに示されている例において、Bobは、「Alexa、今日の天気はどう？」と言う。話者は、「Bob」として識別され、従って対応する曖昧な名前は、「tak」である。オーディオ解析は、インテントが「今日の天気」であったことを明らかにする。次に、今日の天気予報が取ってこられ、答えは、話者の名前を追加することによって個人化される。即ち、「こんにちは、tak。今日の天気は．．．」であり、やはり曖昧な話者名を含む。答えが解析されると、リストにおける曖昧な話者名の１つ（「tak」）が検出される。それは、対応する実際の話者名「Bob」と取り替えられ、従って最終的な応答「こんにちは、Bob。今日の天気は．．．」を生成する。結果は、話者名がホームアシスタント装置１００’の外部で開示されず、従ってホームアシスタント装置の複数のユーザのプライバシーを保護することである。

代替実施形態によれば、ホームアシスタントエコシステムは、第２のモードで動作する。第１のモードとの差は、会話論理が答え１２４を生成する場合、この答えがテキスト形式ではなく、オーディオ形式でホームアシスタント装置１００’に直接提供されることである。なぜなら、このオーディオ信号１２５は、サービスプロバイダ１４０のテキストトゥスピーチコンバータ１７０によって生成されるからである。従って、ホームアシスタント装置１００’が答え１２５を受信すると、プライバシーエンフォーサ１０６は、曖昧な名前を検出するためにオーディオ信号１２５を解析する。その目的のために、プライバシーエンフォーサは、曖昧な名前のオーディオ表現を取得し、且つ例えば２つのオーディオ信号の相互相関を用いて、オーディオ領域におけるオーディオ信号１２５内のこれらの表現を検索する。曖昧な名前が見つかると、それは、対応する話者名によって取り替えられ、従ってラウドスピーカ１１０によって与えられる明瞭な答え１２７を生成する。

この第２のモードにおいて、選択された曖昧な名前は、表１に示されているように話者名と同様の長さを有し得る。代替として、それは、家族の人数を決定するために用いられ得る情報の提供を回避するために固定長を有し得る。かかる曖昧な名前を生成するための技術の一例は、固定数の文字にわたって任意の子音及び任意の母音を互い違いにすることである。かかる場合、表１の曖昧な名前の例は、「kadopabo」、「jilybelo」、「gatekomu」及び「dagopasa」であり得る。

代替実施形態において、プライバシーの改善のために、録音されたオーディオ信号１２１は、録音された音声の音声特性が認識され得ないようにプライバシーエンフォーサによって別のオーディオ信号１２１’に修正される。これは、任意の音声変換アルゴリズム（音声モーフィング、韻律の修正、又は更にはスピーチトゥテキストを適用し、それにテキストトゥスピーチが続くこと等）を用いて行われ、従って話されるテキストを変更せずに特性を変換する。かかる変換の結果は、ホームネットワークを出る全ての音声が同じであり、従って区別不能になることであろう。この追加の防御措置は、両方のモードに当てはまる。

代替実施形態において、プライバシーエンフォーサは、録音装置オーディオ信号１２１からの発信オーディオ信号１２１’のテキストも曖昧にする。これは、例えば、表１のマッピングテーブルにリストされているような家族の話者の名前の１つをオーディオ信号内で検出することによって行われる。話者名が見つかると、それは、対応する曖昧な名前によって取り替えられる。この実施形態は、任意選択である。なぜなら、それは、幾つかの状況においてクエリーの失敗につながり得るからである。例えば、上記の表１を用いてこの特徴が活性化された場合、映画「Alice in Wonderland」を見ることは不可能であろう。なぜなら、クエリーが「okul in Wonderland」に変形されることになるからである。

代替実施形態では、曖昧さは、各クエリーについて装置の各始動時、毎日、１５分ごと等において、デフォルト設定、ユーザ選択又はユーザ選好における設定の制御下で周期的に一新される。曖昧さが各クエリーについて一新される事例は、２つの連続的な要求間の非連結性を増進する。しかしながら、それは、会話論理が各一新後に空の文脈から常にスタートするため、クエリーの文脈化の低減という欠点を伴う。なぜなら、クエリーは、推定上の新しい話者によって実行されるからである。

実施形態によれば、プライバシーエンフォーサ１０６は、例えば、ユーザ選択又はユーザ選好における設定の管理下でオン又はオフにされ得る。これは、プライバシーエンフォーサによって提供されるプライバシーのレベルを制御し、且つ従ってプライバシーレベル設定と命名される。プライバシーレベル設定が「NO_PRIVACY」である場合、プライバシーエンフォーサ１０６は、完全に透過性である。即ち、それは、ホームアシスタント装置１００’の発信クエリーに影響を与えず、且つ着信結果を修正しない。プライバシーレベル設定が「INCOGNITO」である場合、プライバシーエンフォーサ１０６は、完全にアクティブである。即ち、それは、クエリーにおける話者名を曖昧にするために発信クエリーを解析し、いかなる話者名もオーディオから除去し、発信音声クエリーを変形し、且つ着信結果における話者名を復活する。例えば、音声変換を実行しない他の中間プライバシーレベル設定も可能である。

実施形態によれば、プライバシーレベル設定は、プライバシーエンフォーサをイネーブルにするための「プライベートモードの開始」、「匿名モードの開始」「私の身元の隠蔽」など、及びプライバシーエンフォーサを回避するための「プライベートモードの停止」、「匿名モードの停止」などのオーディオクエリー自体を用いて調整することができる。このクエリーは、プライバシーエンフォーサによって検出され、それに応じてプライバシーエンフォーサは、その挙動を調整する。

図２は、本開示の実施形態によるプライバシー保護音声対話の方法の例示的なフローチャートを示す。ステップ２００において、マイクロホンは、音声クエリーを形成するユーザによって実行された発話音声を捕捉し、且つ対応するオーディオ信号を生成する。ステップ２０２において、話者識別子は、捕捉されたオーディオ信号の話者の識別を識別し、ステップ２０４において、プライバシーエンフォーサは、曖昧な話者名を生成する。任意選択的に、並列ステップ２０６において、プライバシーエンフォーサは、オーディオ信号を曖昧にする。ステップ２０８において、オーディオ信号が取得され、解析され、対応するインテントが生成される。ステップ２１０において、個人化された応答は、曖昧な話者名を取得した後に生成される。ステップ２１２において、応答は、答えの曖昧な名前を対応する話者名によって取り替えるプライバシーエンフォーサによって解析される。ステップ２１４において、ラウドスピーカは、明瞭な答えを与える。曖昧化ステップ２０４及び２０６並びに明瞭化ステップ２１２は、プライバシーレベル設定の制御下にあり、設定が「NO_PRIVACY」である場合に回避される。

当業者によって理解されるであろうように、上記の本原理及び特徴の態様は、完全なハードウェア実施形態、完全なソフトウェア実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、又はハードウェア及びソフトウェアの態様を組み合わせる実施形態の形式を取ることができる。例えば、説明は、話者識別子１０４、プライバシーエンフォーサ１０６及びテキストトゥスピーチコンバータ１０８のためのハードウェアコンポーネントを用いて行われるが、これらの要素は、本開示の少なくとも１つの実施形態の方法を実行するように構成された少なくとも１つのハードウェアプロセッサと、本開示の少なくとも１つの実施形態を実行するために必要とされるデータを格納するように構成されたメモリと、本開示の少なくとも１つの実施形態を実行するプロセッサによって実行可能なコンピュータ可読プログラムコードとを用いるソフトウエアコンポーネントとして実現することができる。従って、かかる実装形態において、ハードウェアプロセッサは、話者識別子１０４、プライバシーエンフォーサ１０６及びテキストトゥスピーチコンバータ１０８の少なくとも機能を実行し、且つ通信インターフェース１２０を通してサービスプロバイダとインターフェースするように構成される。その目的のために、ハードウェアプロセッサは、少なくとも、ユーザ識別ステップ２０２、名前曖昧化ステップ２０４、オーディオクエリー曖昧化ステップ２０６、明瞭化ステップ２１２、及び答え提供ステップ２１４を含む図２のステップを実行するように構成される。

更に、異なる代替実施形態が別々に説明されたが、それらは、任意の形式で一緒に組み合わせることができる。

１００、１００’ ホームアシスタント装置
１０２マイクロホン
１０４話者識別子
１０６プライバシーエンフォーサ
１０８テキストトゥスピーチコンバータ
１１０ラウドスピーカ
１２０通信インターフェース
１２１、１２１’、１２５オーディオ信号
１２２話者名
１２３インテント
１２４、１２４’ 答え
１２６曖昧な名前
１２７明瞭な答え
１４０サービスプロバイダ
１５０スピーチトゥインテント
１６０会話論理
１７０テキストトゥスピーチコンバータ
２００ステップ
２０２ユーザ識別ステップ
２０４曖昧化ステップ
２０６オーディオクエリー曖昧化ステップ
２０８ステップ
２１０ステップ
２１２明瞭化ステップ
２１４提供ステップ

Claims

プライバシー保護音声対話を実行するための装置（１００’）であって、
− 話者からのクエリーに関する発話音声を表すオーディオ信号（１２１）を捕捉するように構成されたマイクロホン（１０２）と、
− 前記捕捉されたオーディオ信号（１２１）から話者の識別を決定するように構成された話者識別子（１０４）と、
− 前記識別された話者に対応する曖昧な話者名（１２２）を生成し、且つ話者名と曖昧な話者名との間の対応関係のリストを格納するように構成されたプライバシーエンフォーサ（１０６）と、
− 通信インターフェース（１２０）であって、
− 前記捕捉されたオーディオ信号（１２１）及び前記曖昧な話者名（１２２）を外部装置に提供することと、
− 前記話者クエリーへの答え（１２４、１２５）を外部装置から受信することと
を行うように構成された通信インターフェース（１２０）と
を含み、前記プライバシーエンフォーサは、前記受信された答えが前記リストの曖昧な話者名を含むかどうかを決定し、且つこの場合、前記受信された答えにおいて、前記曖昧な話者名を前記対応する名前によって取り替えるように更に構成される、装置（１００’）。
前記話者に前記答えを提供することを更に含む、請求項１に記載の装置。
前記受信された答え（１２４）は、テキスト形式である、請求項１に記載の装置。
明瞭な答え（１２４’）をテキスト形式からオーディオ信号（１２７）に変換するように構成されたテキストトゥスピーチコンバータ（１０８）を更に含む、請求項３に記載の装置。
前記受信された答え（１２４）は、オーディオフォーマットである、請求項１に記載の装置。
前記プライバシーエンフォーサは、前記リストの話者名を検出し、且つ前記話者名を、前記対応する曖昧な話者名を表すオーディオ信号によって取り替えることにより、前記捕捉されたオーディオ信号（１２１）を曖昧にするように更に構成される、請求項１に記載の装置。
前記プライバシーエンフォーサは、匿名モードをオン又はオフにするための設定であって、第１の場合、前記プライバシーエンフォーサは、前記話者名を提供する前に前記話者名を曖昧にし、且つ前記受信された答えが曖昧な話者名を含む場合、前記受信された答えを明瞭にし、及び第２の場合、前記プライバシーエンフォーサは、前記話者名をもはや曖昧にせず、且つ前記受信された答えが曖昧な話者名を含むかどうかをもはや決定しない、設定を更に含む、請求項１に記載の装置。
プライバシー保護音声対話を実行するための方法であって、
− 話者からのクエリーに関する発話音声を表すオーディオ信号を捕捉すること（２００）と、
− 前記捕捉されたオーディオ信号から話者を識別すること（２０２）と、
− 前記識別された話者に対応する曖昧な話者名を生成し、且つ話者名と曖昧な話者名との間の対応関係のリストを格納すること（２０４）と、
− 前記捕捉されたオーディオ信号及び前記曖昧な話者名を外部装置に提供することと、
− 前記クエリーへの答えを外部装置から取得することと、
− 前記受信された答えが前記リストの曖昧な話者名を含むかどうかを決定し、且つこの場合、前記受信された答えにおいて、前記曖昧な話者名を前記対応する名前によって取り替えること（２１２）と
を含む方法。
前記答えを前記話者に提供することを更に含む、請求項８に記載の方法。
前記受信された答え（１２４）は、テキスト形式又はオーディオ形式である、請求項８に記載の方法。
前記リストの話者名を検出し、且つ前記話者名を、前記対応する曖昧な話者名を表すオーディオ信号によって取り替えることにより、前記捕捉されたオーディオ信号（１２１）を曖昧にすることを更に含む、請求項８に記載の方法。
匿名モードをオン又はオフにするための設定であって、第１の場合、前記話者名を提供する前に前記話者名を曖昧にし、且つ前記受信された答えが曖昧な話者名を含む場合、前記受信された答えを明瞭にし、及び第２の場合、前記話者名をもはや曖昧にせず、且つ前記受信された答えが曖昧な話者名を含むかどうかをもはや決定しない、設定を更に含む、請求項８に記載の方法。
前記リストの前記曖昧な話者名を一新することを更に含む、請求項８に記載の方法。
請求項８〜１３のいずれか一項に記載の方法のステップを実行するためにプロセッサによって実行可能なプログラムコード命令を含むコンピュータプログラム。
非一時的コンピュータ可読媒体上に格納され、且つ請求項８〜１３のいずれか一項に記載の方法のステップを実行するためにプロセッサによって実行可能なプログラムコード命令を含むコンピュータプログラム製品。