JP6486503B2 - プライバシー保護を行うトレーニングコーパス選択 - Google Patents

プライバシー保護を行うトレーニングコーパス選択 Download PDF

Info

Publication number
JP6486503B2
JP6486503B2 JP2017556799A JP2017556799A JP6486503B2 JP 6486503 B2 JP6486503 B2 JP 6486503B2 JP 2017556799 A JP2017556799 A JP 2017556799A JP 2017556799 A JP2017556799 A JP 2017556799A JP 6486503 B2 JP6486503 B2 JP 6486503B2
Authority
JP
Japan
Prior art keywords
data
received
speech recognition
sensitive
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017556799A
Other languages
English (en)
Other versions
JP2018506081A (ja
Inventor
ユージーン・ウェインスタイン
ペドロ・ジェイ・モレノ・メンヒバル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2018506081A publication Critical patent/JP2018506081A/ja
Application granted granted Critical
Publication of JP6486503B2 publication Critical patent/JP6486503B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2111Location-sensitive, e.g. geographical location, GPS
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本明細書は、一般に、自動音声認識に関する。
音声認識(Speech Recognition)は、人間によって話される言葉を文字に起こすことに関する。音声認識の実行において、音響および言語モデルが、自動音声認識(ASR)エンジンにより用いられ、話者によって話される言葉を反映する1つまたは複数の推定トランスクリプション(Likely Transcription)を生成するために、符号化された発話を統計的に分析する。
一実施形態によれば、本明細書は、例えば、ASR等の認識システムにユーザが提示するデータのうちの機密情報(Sensitive Information)を識別するためのプロセスであり、機密情報が消去される前に、認識システムの後続の反復によって使用される、例えば光学認識モデル、音響モデル、または言語モデルである認識器モデルをトレーニングするためにその情報を使用するためのプロセスを説明する。その際に、認識システムのさらなる反復は、機密情報の収集または記録に関して、全ての適切なデータプライバシースキームに適合しながらも、より正確に、類似の機密情報を含む提示されたデータを認識することができる。
いくつかの態様では、本明細書で説明される主題は、方法で具現化されてよく、当該方法は、自動音声認識部を含むシステムによって、クライアントデバイスからデータを受信する動作と、受信されたデータの少なくとも一部が推定機密データ(Likely Sensitive Data)であることを判定する動作とを含んでよく、機密データは、クライアントデバイスから受信されるデータのログの中に記録されることなく、システムによって消去されるデータであるか、または受信の所定期間内にシステムにより削除されるデータである。追加の動作は、受信されたデータの前記少なくとも一部が消去される前に、受信されたデータの前記少なくとも一部を、自動音声認識部のための認識モデルをトレーニングするモデルトレーニングエンジンに提供することを含んでよい。さらなる動作は、受信されたデータの前記少なくとも一部が提供された後に、受信されたデータの前記少なくとも一部を消去することを含んでよい。
他の変形例では、コンピュータ記録デバイス上に符号化された前記方法の動作を実行するように構成される、対応するシステム、装置、およびコンピュータプログラム含む。
これらの、およびその他の変形例は、それぞれ、下記の特徴をうちの1つまたは複数を任意に含む。例えば、いくつかの実施形態において、受信されたデータは、音声データ、トランスクリプションデータ、およびコンテキストメタデータ(Contextual Metadata)のうちの1つまたは複数を含む。ある態様では、前記所定期間はデフォルトの期間よりも短く、機密ではなさそうだと判定されたデータはこのデフォルトの期間後に消去される。
いくつかの態様では、受信されたデータの少なくとも一部が推定機密データであることを判定することを含む動作は、受信されたデータの前記少なくとも一部を複数の分類器に提供することであって、複数の分類器の各分類器は、異なる機密データの種類に関連付けられる、ことと、受信されたデータの前記少なくとも一部が、特定の機密データの種類に関連付けられるものとして、ある信頼性しきい値(Confidence Threshold)を上回ることの表示を、特定の機密データの種類に関連付けられる特定の分類器から受信することとを含む。いくつかの実施形態では、機密データの各種類は、関連付けられる消去についての所定期間を有する。
ある態様では、動作は、受信されたデータの前記少なくとも一部を匿名化すること、およびクライアントデバイスから受信されるデータのログの中に匿名化されたデータを記録することを含む。いくつかの実施形態では、動作は、モデルトレーニングエンジンから、更新された認識モデルを受信すること、更新された認識モデルを自動音声認識部に提供すること、および更新された認識モデルを使用して、後に受信される音声データを認識することを含む。
いくつかの態様において、機密データは、連絡先情報、バックグラウンド音声データ、個人識別情報、所定のトランスクリプションキーワード、および地理的座標のうちの1つまたは複数を含む。
有利な実施形態において、下記の特徴のうちの1つまたは複数を含んでもよい。音声認識モデルが適合されることになる、いくつかの静的な発話、または例えば新しい電話からのクエリ、新しいノイズ状態、もしくは新しいアクセントであるデータセットがあることを想定することに代えて、説明される音声認識技術は、音声録音がログに入るときに、連続的なループにおいて常にトレーニングを行ってもよい。これは、正確に発話を認識するために必要な一定の音声発話および/またはコンテキスト情報が、ログ可能ではないかもしれない、および例えば数秒、数分、数日等ですぐにシステムから除去される必要があるかもしれないという課題を解決する。本明細書で説明される技術を用いて、モデルトレーニングは、分散型の逆伝播ニューラルネットワークトレーニングの実施に従ってよい。選択およびトランスクリプションアルゴリズムは、プロダクション設定に組み込まれてもよく、データポイントは、ログ内にデータが到達したときにリアルタイムでトレーニングサーバに送り込まれてもよい。ログを取ることが最小限に抑えられなければならない、またはログが一時的なストレージ内で実行されなければならないということを困難な法的環境が要求する市場において、説明される技術は、潜在的に、大規模な音声認識システムがよりうまく動作することを可能にする。
本明細書で説明される主題の1つまたは複数の実施の詳細は、以下の添付の図面および記載において説明される。主題のその他の潜在的な特徴、態様、および利点は、明細書、図面、および特許請求の範囲から明らかになるだろう。
なお、種々の図面における類似の参照番号および記号表示は、類似の構成要素を示すものである。
例示的な音声認識システムの図である。 音声認識をトレーニングするための例示的なプロセスを示すフローチャートである。 例示的なプライバシー保護を行う音声認識システムの図である。 本明細書で説明される技術を実施するために使用可能な、コンピューティングデバイスの例、およびモバイルコンピューティングデバイスの例である。
音声認識のための音響モデルをトレーニングすることは、例えば、数百、または数千ものマシンである相当な計算資源を消費するアルゴリズムを伴うものであり、良い品質を得るためには、例えば1週間またはそれ以上の非常に長い時間を要する。いくつかのトレーニング方法では、音声データの録音を常に保存することができることが想定され、これは、ユーザのプライバシー制限を伴うケースでなくてよい。プライバシー機微(Privacy-Sensitive)なプロダクション設定では、音声データは時として、ログすることが不可能なことあり、または短い期間でのみログすることが可能なことがある。時として、発話をより正確に文字に起こすために必要な追加のコンテキスト情報は、ログすることが不可能である。
例えば、「ジョンにテキストメッセージを送信して」等の音声動作のための連絡先認識は、認識が行われたときに、ユーザの所有する連絡先が音声認識部に知らされる必要があり得る。この情報は、プロダクションクエリが入るときにアクセス可能であってよいが、ユーザの連絡先データベースを記録することは、様々なプライバシー上の懸念(Privacy Implication)が含まれ得る。時としてそのようなコンテキスト情報は、大きな音声認識の品質利益を可能にし得る。つまり、全ての法上の、およびセキュリティ上の基準を満たしつつも、音声認識および分析環境内においてそのような情報を取り扱うための、非ログコンテキスト情報を使用することが望ましい。従って、そのようなデータを音声認識および分析環境においてどのように取り扱い、記録し、または処理するかということにおける1つまたは複数の制限の対象である機密データのための高品質音声認識を提供するための向上した技術、システム、および方法の必要性が存在している。
よって、本開示は、自動音声認識のための音響モデルをトレーニングする際に機密データを使用するための技術を説明する。例えば、機密データは、クライアントデバイスから受信されるデータのログに記録されることなく、システムによって消去されるデータであってよい。他の例では、機密データは、受信の所定期間内でシステムにより消去されるデータであってよい。この技術は、音声認識中の機密データの識別を含む。識別された機密データが削除される前に、データは、自動音声認識部をトレーニングするために使用されてよい。機密データは、例えば、データの音声内容内の機密情報、または音声内容のコンテキストに関連する機密情報を含むことができる。
図1は、例示的な音声認識システム100の図である。ユーザ102は、認識およびトランスクリプションのための音声処理システム106に発話104を提示する。この例では、ユーザ102によって提示される発話104が、「私はボブ・スミスです。私のクレジットカードの番号は、01-234です。」というフレーズである。ユーザ102は、例えば、モバイルコンピューティングデバイス、タブレットコンピュータ、装着型コンピュータ、eブックリーダ、ラップトップコンピュータ等のコンピューティングデバイス112に発話104を伝える。コンピューティングデバイス112は、例えば、音声認識入力を伴うテキストエディタ、フリーフォーム入力を伴う検索バー、またはその他の適切なプログラムを実行していてよい。コンピューティングデバイス112は、例えば、発話104を符号化する、波形のデータファイル、音声ファイル、またはその他のデータタイプである音声データアイテム108aを含む音声認識リクエスト107を生成してよい。
音声認識リクエスト107は、コンテキストデータ108bも含んでよい。コンテキストデータ108bは、例えば、発話104中にユーザ102がアクセスしていたアプリケーションもしくはウェブページに関連付けられる情報、ユーザ102の地理的座標、ユーザ102の連絡先リストに関連付けられる情報、またはその他のコンテキスト情報等であるコンテキスト情報を含んでよい。コンテキストデータ108bのその他の例は、リクエスト107のメタデータ、例えば、性別、年齢、アクセント、またはその他の特徴であるユーザ102の生体的な特徴、ノイズ状態、ユーザの所在する国/地域、および対話状況(Dialog State)を含む。ある場合では、音声認識リクエスト107は、機密データを含んでよい。コンピューティングデバイス112は、音声処理システム106にリクエスト107を送信してよい。
音声処理システム106は、発話104に関連付けられる音声認識リクエスト107を受信し、リクエスト107を分析し、発話104のテキストトランスクリプション110を生成するシステムである。一般的に、テキストトランスクリプション110は、リクエスト107の発話の内容である、音声認識部の最有力候補を示す文字列またはその他のテキスト表現を含んでよい。トランスクリプション110は、コンピューティングデバイス112、またはその他のシステムもしくはプログラムに送信されてよい。音声処理システム106は、リアルタイム、または例えば、何十ミリ秒、何百ミリ秒、もしくはその他の時間期間である準リアルタイムで、ユーザ102にトランスクリプション110を送信してよい。
一般に、音声処理システム106等のシステムは、大規模なユーザ母体内の複数のユーザからの音声認識リクエスト107を受信し得る。音声認識装置システムは、各リクエスト107に応答して、音声認識部によりリクエスト107について実行される1つまたは複数の認識処理のテキスト結果110を生成してよい。明確さのために単一のユーザ102が示されているが、音声認識部は、例えば、何万ものより大規模な数のユーザからリクエスト107を受信してよく、受信されたリクエスト107のいくつか、または全てを並列的に処理してよく、他のリクエスト107が受信および処理される間に各ユーザにはテキスト結果110を提供する。
さらに、音声認識装置システムは、音声認識タスクを実行するための任意の種類の適切なシステムであってよい。例えば、音声認識装置は、異なるサービス、タスク、またはアプリケーションのための仮想マシンまたはジョブをもホスティングしている大規模な分散コンピューティング環境上で動作する仮想マシンまたはジョブのグループによって構成されてもよい。いくつかの実施形態では、音声認識装置は、サーバもしくはサービスの大規模システムの構成要素であってもよいし、またはいくつかの製品またはサービスと共に提供される多くのサービスのうちの1つのみであってもよい。
例示的な音声処理システム106は、コンピューティングデバイス112から音声認識リクエスト107を受信するフロントエンド114を含む。フロントエンド114は、例えば、音声認識リクエスト107を受信し、処理のためにリクエスト107のデータの準備を行ってよい。フロントエンド114は、機密情報識別部116にリクエスト107を送信してよい。機密情報識別部116は、リクエスト内のデータの少なくとも一部が推定機密データであるか否かを判定するためにリクエスト107を分析してよい。
機密情報識別部116は、リクエスト107内の推定機密データの種類を識別してよい。推定機密データは、音声データ108aおよび/またはコンテキストデータ108bに含まれ得る。機密情報識別部116は、推定機密情報について、音声データ108a内に存在するバックグラウンド音声を分析してよい。例えば、バックグラウンド音声は、ユーザの位置、ユーザ以外の話者を識別する情報、またはその他の推定機密情報を含んでよい。
機密情報識別部116は、クレジットカード情報、銀行口座情報、合計金額、またはその他の推定機密金融情報である推定機密金融情報を識別してよい。機密情報識別部116は、例えば、ユーザの連絡先リスト上の人物、電話番号、Eメールアドレス、またはその他の推定機密連絡先情報であるユーザ連絡先情報も識別してよい。機密情報識別部116は、氏名、社会保障番号(Social Security Number)、住所、電話番号、またはその他の推定機密個人情報である推定機密個人情報を識別してよい。識別可能な機密データの例示的な種類が存在し、他の実施形態では、その他の機密データの種類が識別されてよい。例えば、他の情報は、全地球測位システム(GPS)座標等の位置情報、モバイル電話情報、ワイヤレスアクセス情報、ウェブページ情報、またはその他の情報もしくはデータを含んでよい。
機密情報識別部116は、1つまたは複数の機密データ分類器118a〜eを含んでよく、各分類器a〜eは、異なる機密データの種類に関連付けられる。例えば、上記された機密データの各種類は、関連付けられる分類器を有してよい。各分類器は、リクエスト107の少なくとも一部が、その分類器に関連付けられる機密データを含むことの表示を提供してよい。例えば、分類器は、リクエスト107が、その分類器の関連付けられる機密データの種類に関連付けられるある信頼性しきい値(Confidence Threshold)を超える機密データ包含の尤度を有することの表示を提供してよい。
図1に示される例を参照すると、機密情報識別部116は、リクエスト107内のいくつかの推定機密情報を識別している。バックグラウンド音声分類器118aは、バックグラウンド音声が機密情報を含んでいるようであると識別している。例えば、バックグラウンド音声は、ユーザ102が病院内に位置していることを示す音声を含んでよい。クレジットカード分類器118bは、発話104の音声データ108aが、推定機密クレジットカード情報、つまりクレジットカード番号「01-234」を含んでいることを識別している。一方で、ユーザ連絡先リスト分類器118cは、音声データ108aが、ユーザの連絡先リストについて推定機密情報を含んでいないことを判定している。個人情報分類器118dは、推定機密個人情報、つまり氏名「ボブ・スミス」を識別している。分類器118eで示されるその他の分類器は、その他の機密データの種類を判定してよい。
機密情報識別部116は、リクエスト107のデータの一部、または全てをトレーニングエンジン118に送信してよい。ある場合では、リクエスト107のデータの一部、または全ては、フロントエンド114によって直接トレーニングエンジン118に送信される。トレーニングエンジン118は、自動音声認識装置、例えば自動音声認識部120によって使用され得る認識モデルをトレーニングする構成要素である。
トレーニングエンジン118は、音声データ108aおよびコンテキストデータ108bの一部または全てを使用して、音声認識モデルを生成するか、または既存の音声モデルを更新してよい。場合によっては、音声データ108aを伴うコンテキストデータ108bの使用は、音声データ108aの単独の使用よりも、より正確な音声認識モデルを可能にすることができる。音声認識モデルは、トレーニングエンジン118と自動音声認識部120を接続する矢印119により図1で示されるように、自動音声認識部に提供されてよい。この方法では、トレーニングエンジン118は、任意の推定機密データが消去される前に、推定機密データを含む、リクエスト107からの受信されたデータを使用することが可能である。
リクエスト107のデータの一部または全てが自動音声認識部120に送信されてもよい。自動音声認識部120は、トレーニングエンジン118によって提供される音声認識モデルを使用して、音声データ108aのトランスクリプト110を生成する。トランスクリプト110は、コンピューティングデバイス112に提供される。
リクエスト107のデータの一部または全ては、機密情報マネージャ122にも送信される。さらに、機密情報信号123が、機密情報識別部116から機密情報マネージャ122に送信されてよい。トランスクリプト110は、機密情報マネージャ122にも提供されてよい。機密情報信号123は、例えば、リクエスト107および/またはトランスクリプト110のどの部分が機密情報を含むようであるかを示してよい。機密情報信号123は、分類器118a〜eからの表示に基づいてよい。機密情報信号123に基づき、機密情報マネージャ122は、リクエスト107および/またはトランスクリプト110のどの部分がログされるべきであり、どの部分がログされるべきではないかを判定してよい。ログされるべきではないリクエスト107および/またはトランスクリプト110の一部は、例えば、消去されてよい。場合によっては、機密情報マネージャ122は、リクエストデータ107および/またはトランスクリプト110を匿名化してよい。例えば、トランスクリプト「私はボブ・スミスです」は、「私は〔氏名〕です」に匿名化されてよい。その他の匿名化技術も可能である。機密情報マネージャ122は、リクエスト107および/またはトランスクリプト110の一部を、記録のためのロガー124に提供してよい。
図2は、自動音声認識部をトレーニングするための例示的なプロセス200を示すフローチャートである。例示的なプロセス200は、例えば、音声認識システム100の一部または全てによって実施されてよい。202において、クライアントデバイスからのデータが、自動音声認識部を含むシステムによって受信される。例えば、データは、波形のデータファイル、音声ファイル、もしくは発話を符号化するその他のデータタイプ、発話に関連付けられるメタデータ、トランスクリプションデータ、および/または発話に関連付けられるコンテキストデータを含んでよい。クライアントデバイス、ポータブルコンピュータ、スマートフォン、または以前で説明されたその他のクライアントデバイスであってよい。音声認識部は、音声データのトランスクリプションを生成する際に、例えば音響モデル、言語モデル、またはその他の種類の音声認識部の構成要素である1つまたは複数の音声認識部の構成要素を使用してよい。音声認識部の構成要素の1つまたは複数は、ニューラルネットワークを基礎とするものであってよい。
204で、受信されたデータの少なくとも一部は、機密データであるようだと判定される。ある場合では、機密データは、クライアントデバイスから受信されるデータのログに記録されることなく、システムによって消去されるデータである。ある場合では、機密データは、連絡先情報、バックグラウンド音声データ、個人識別情報、所定のトランスクリプションキーワード、または地理的位置のうちの1つまたは複数を含んでよい。機密データは、受信の所定期間内にシステムにより消去されるデータであってもよい。例えば、この所定期間はデフォルトの期間よりも短くてよく、機密ではなさそうだと判定されたデータはこのデフォルトの期間後に消去される。いくつかの実施形態では、機密データの各種類は、消去について関連付けられる所定期間を有する。
受信されたデータの少なくとも一部が推定機密データを含むことを判定することは、受信されたデータの少なくとも一部を1つまたは複数の分類器に提供することを含んでよい。各分類器は、機密データの異なる種類に関連付けられてよい。特定の機密データの種類に関連付けられる特定の分類器は、受信されたデータが、その特定の機密データの種類に関連付けられることの表示を生成してよい。
206において、受信されたデータの少なくとも一部が消去される前に、受信されたデータの少なくとも一部は、自動音声認識部のための認識モデルをトレーニングするモデルトレーニングエンジンに提供される。受信されたデータの少なくとも一部は、音声データおよび/またはコンテキストデータであってよい。いくつかの実施形態では、自動音声認識部は、モデルトレーニングエンジンから更新された認識モデルを受信してよい。更新された認識モデルは、後に受信される音声データを認識するために、自動音声認識部によって使用されてよい。
208において、受信されたデータの少なくとも一部がモデルトレーニングエンジンに提供された後に、受信されたデータの少なくとも一部が消去される。いくつかの実施形態では、受信されたデータの少なくとも一部が匿名化されてよく、匿名化されたデータは、クライアントデバイスから受信されるデータのログに記録されてよい。
図3は、例示的な音声認識システム300の図である。システム300は、例えば、図1に示される音声認識システム100、または図2に示されるプロセスで実施されてよい。音声認識システム300は、プライバシー機密データ302を含む。プライバシー機密データ302は、音声認識リクエストであってよい。プライバシー機密データ302は、コンテキスト情報304および音声データ306を含んでよい。
プライバシー機密データ302の一部は、ログ可能であると判定されることがある。例えば、プライバシー機密データ302の一部が、機密情報を含まないことがあり、その一部はログ可能であってよい。その他の例では、プライバシー機密データ302の一部は匿名化されてもよい。プライバシー機密データのログ可能な部分は、記録のためにロガー308に提供されてよい。いくつかの実施形態では、ロガー308は、個別の音声ストレージ310aおよび個別のコンテキストストレージ310bを含む。例えば、音声ストレージ310aは、音声データ306を記録してよく、コンテキストストレージは、コンテキストデータ304を記録してよい。いくつかの実施形態では、音声データ306は、コンテキストデータ304とは別に記録されない。
プライバシー機密データの一部または全ては、例示的なモデルトレーニング部312に提供されてよい。モデルトレーニング部312は、例えば、音声認識部のためのトレーニングエンジンであってよい。いくつかの実施形態では、プライバシー機密データ302は、消去の前に、トレーニングのために一度だけ使用され、新たなプライバシー機密データ302が、連続的にモデルトレーニング部312に提供される。モデルトレーニング部312は、1つまたは複数の構成要素を含んでよい。例えば、モデルトレーニング部312は、314aに示されるように、ヒューリスティックベースのデータ選択を使用して、プライバシー機密データ302からのトレーニングデータを選択してよい。モデルトレーニング部312は、例えば、314bに示されるように、候補モデルを生成するために、ミニバッチトレーニング(Minibatch Training)技術、およびトレーニングループ技術を使用してよい。候補モデルが、314cに示されるように、ベストパフォーマンスを有するモデルを識別するために、検査および分析されてよい。モデルトレーニング部312は、その他の構成要素を含んでもよく、またはその他の技術を使用してもよい。
音声モデル316は、モデルトレーニング部312からプロダクション音声認識サーバ318に提供されてよい。プロダクション音声認識サーバ318は、クライアントデバイスから音声認識リクエストを受信することができ、1つまたは複数の音声モデル316を使用して、音声トランスクリプションをクライアントデバイスに提供し返すことができる。この方法では、プライバシー機密データ保持に関連するシステムの任意のポリシーを維持しつつも、音声モデル316は、プライバシー機密データ302およびモデルトレーニング部312を使用して、連続的に更新されることが可能である。
図4は、本明細書で説明する技術を実施するために使用することができる、コンピューティングデバイス400の例示、およびモバイルコンピューティングデバイスの例示を示す。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータ等の種々の形態のデジタルコンピュータを表すことが意図されている。モバイルコンピューティングデバイスは、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、およびその他の類似のコンピューティングデバイス等の種々の形態のモバイルデバイスを表すことが意図されている。ここに示されている構成要素、それらの接続および関係、ならびにそれらの機能は、例示することのみを意図されており、本明細書において説明され、および/または請求されている発明の実施を制限することを意図されていない。
コンピューティングデバイス400は、プロセッサ402、メモリ404、記録デバイス406、メモリ404および高速拡張ポート410に接続する高速インターフェイス408、ならびに低速拡張ポート414および記録デバイス406に接続する低速インターフェイス412を備える。プロセッサ402、メモリ404、記録デバイス406、高速インターフェイス408、高速拡張ポート410、および低速インターフェイス412の各々は、種々のバスを使用して相互接続され、共通のマザーボード上に取り付けられてもよいし、または適切にその他の方法で取り付けられてもよい。プロセッサ402は、コンピューティングデバイス400内で、実行のための命令を処理することができ、当該命令は、高速インターフェイス408に結合されているディスプレイ416等の、外部入力/出力デバイス上にGUIのグラフィック情報を表示するために、メモリ404内に、または記録デバイス406上に、格納されている命令を含む。その他の実施では、複数のプロセッサおよび/または複数のバスが、適宜、複数のメモリおよび複数の種類のメモリとともに使用されてよい。また、複数のコンピューティングデバイスが、例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして、必要な動作の一部を提供する各デバイスと接続されてよい。
メモリ404は、コンピューティングデバイス400内の情報を格納する。いくつかの実施形態では、メモリ404は、1つまたは複数の揮発性メモリユニットである。いくつかの実施形態では、メモリ404は、1つまたは複数の不揮発性メモリユニットである。メモリ404は、磁気ディスクまたは光ディスク等のコンピュータ可読媒体のその他の形態のものとすることもできる。
記録デバイス406は、コンピューティングデバイス400のための大容量ストレージを提供することもできる。いくつかの実施形態では、記録デバイス406は、ストレージエリアネットワークまたは他の構成のデバイスを含む、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の類似のソリッドステートメモリデバイス、またはデバイスアレイ等のコンピュータ可読媒体であるか、またはそのようなコンピュータ可読媒体を含むことができる。コンピュータプログラム製品は、情報キャリアにおいて明確に具現化されうる。コンピュータプログラム製品は、実行されると上記で説明したような1つまたは複数の方法を実行する命令も包含することができる。コンピュータプログラム製品は、メモリ404、記録デバイス406、またはプロセッサ402上のメモリ等の、コンピュータまたは機械可読な媒体において明確に具現化されることも可能である。
高速インターフェイス408は、コンピューティングデバイス400に対する帯域幅を集中的に使用する動作を管理する一方で、低速インターフェイス412は、帯域幅を集中的に使用する程度の低いオペレーションを管理する。機能のこのような割り振りは例示的なものにすぎない。いくつかの実施形態では、高速インターフェイス408は、例えば、グラフィックスプロセッサまたはアクセラレータを介してメモリ404、ディスプレイ416に結合されるとともに、種々の拡張カード(図示せず)を受け入れることができる高速拡張ポート410に結合される。この実施では、低速インターフェイス412は、記録デバイス406および低速拡張ポート414に結合される。種々の通信ポート(例えば、USB、Bluetooth(登録商標)、Ethernet(登録商標)、無線Ethernet(登録商標))を含み得る、低速拡張ポート414は、キーボード、ポインティングデバイス、スキャナ、または例えば、ネットワークアダプタを介して、スイッチまたはルーター等のネットワーキングデバイス等の1つまたは複数の入力/出力デバイスに結合することができる。
コンピューティングデバイス400は、図に示されるように、数多くの異なる形態で実施されてよい。例えば、標準サーバ420として、またはそのようなサーバのグループで何倍もの数で実施されてよい。さらに、ラップトップコンピュータ422等のパーソナルコンピュー内で実施されてもよい。また、ラックサーバシステム424の一部としても実施することができる。代替的に、コンピューティングデバイス400からの構成要素をモバイルコンピューティングデバイス450等のモバイルデバイス(図示せず)内の他の構成要素と組み合わせてもよい。そのようなデバイスのそれぞれは、コンピューティングデバイス400およびモバイルコンピューティングデバイス450のうちの1つまたは複数を包含してよく、システム全体が、互いに通信する複数のコンピューティングデバイスで構成されてよい。
モバイルコンピューティングデバイス450は、数ある中でも、プロセッサ452、メモリ464、ディスプレイ454等の入力/出力デバイス、通信インターフェイス466、およびトランシーバ468を備える。モバイルコンピューティングデバイス450は、追加のストレージを提供するためにマイクロドライブまたは他のデバイス等の記録デバイスを備えてもよい。プロセッサ452、メモリ464、ディスプレイ454、通信インターフェイス466、およびトランシーバ468の各々は、様々なバスを使用して相互接続され、これらの構成要素のうちのいくつかは、共通マザーボード上に取り付けられるか、または適切な他の方法で取り付けられてよい。
プロセッサ452は、メモリ464内に記録されている命令を含む、モバイルコンピューティングデバイス450内の命令を実行することができる。プロセッサは、個別の、および複数の、アナログおよびデジタルプロセッサを含むチップのチップセットとして実施されてよい。プロセッサは、例えば、ユーザインターフェイスの制御、モバイルコンピューティングデバイス450によるアプリケーション実行、モバイルコンピューティングデバイス450によるワイヤレス通信等の、モバイルコンピューティングデバイス450の他のコンポーネントの調整を提供してよい。
プロセッサ452は、制御インターフェイス458およびディスプレイ454に結合されているディスプレイインターフェイス456を介してユーザと通信することができる。ディスプレイ454は、例えば、TFT(薄膜トランジスタ液晶ディスプレイ)ディスプレイまたはOLED(有機発光ダイオード)ディスプレイ、またはその他の適切なディスプレイ技術であってよい。ディスプレイインターフェイス456は、グラフィックおよび他の情報をユーザに提示するようにディスプレイ454を駆動するための適切な回路を備えてよい。制御インターフェイス458は、ユーザからコマンドを受け取り、それらをプロセッサ452に送るために変換してよい。加えて、外部インターフェイス462は、プロセッサ452と通信するように構成され、モバイルコンピューティングデバイス450と他のデバイスとの近距離通信を行うことを可能にする。外部インターフェイス462は、例えば、いくつかの実施形態における有線通信、または他の実施における無線通信を行うことができ、複数のインターフェイスが使用されてもよい。
メモリ464は、モバイルコンピューティングデバイス450内の情報を記録する。メモリ464は、1つもしくは複数のコンピュータ可読媒体、1つもしくは複数の揮発性メモリユニット、または1つもしくは複数の不揮発性メモリユニットのうちの1つまたは複数として実施することができる。拡張メモリ474も、例えば、SIMM(シングルインラインメモリモジュール)カードインターフェイスを含み得る、拡張インターフェイス472を介して提供され、モバイルコンピューティングデバイス450に接続され得る。このような拡張メモリ474は、モバイルコンピューティングデバイス450に対する付加的な記録領域を設けることができるか、またはモバイルコンピューティングデバイス450のためのアプリケーションまたは他の情報を記録することもできる。特に、拡張メモリ474は、上記のプロセスを実行するか、または補助する命令を含んでよく、またセキュア情報も含んでよい。したがって、例えば、拡張メモリ474は、モバイルコンピューティングデバイス450に対するセキュリティモジュールとして提供されてよく、モバイルコンピューティングデバイス450の安全な使用を可能にする命令でプログラムされてよい。それに加えて、安全なアプリケーションは、SIMMカードを介して、ハッキングできない形でSIMMカード上に識別情報を配置する等、付加情報とともに提供されてもよい。
メモリは、例えば、後述のように、フラッシュメモリおよび/またはNVRAMメモリ(非不揮発性ランダムアクセスメモリ)が挙げられる。いくつかの実施形態では、コンピュータプログラム製品は、情報キャリアで明確に具現化される。コンピュータプログラム製品は、実行されると上記のような1つまたは複数の方法を実行する命令を含む。コンピュータプログラム製品は、メモリ464、拡張メモリ474、またはプロセッサ452上のメモリ等のコンピュータ可読媒体または機械可読媒体であってよい。いくつかの実施形態では、コンピュータプログラム製品は、例えば、トランシーバ468または外部インターフェイス462を介して伝搬信号内で受信されてよい。
モバイルコンピューティングデバイス450は、必要に応じ、デジタル信号処理回路を備え得る通信インターフェイス466を介して無線で通信することができる。通信インターフェイス466は、特に、GSM(登録商標) (Global System for Mobile communications)音声電話、SMS(Short Message Service)、EMS(Enhanced Messaging Service)、またはMMS(Multimedia Messaging Service)メッセージング、CDMA(Code Division Multiple Access)、TDMA(Time Division Multiple Access)、PDC(Personal Digital Cellular)、WCDMA(登録商標)(Wideband Code Division Multiple Access)、CDMA2000、またはGPRS(General Packet Radio Service)等の、様々なモードまたはプロトコルでの通信を提供してよい。そのような通信は、例えば、無線周波トランシーバ468を介して行うことができる。それに加えて、Bluetooth(登録商標)、WiFi、または他のそのようなトランシーバ(図示せず)等を使用して、近距離通信を実行することができる。それに加えて、GPS(全地球測位システム)受信機モジュール470は、追加のナビゲーションおよび位置関係無線データをモバイルコンピューティングデバイス450に送ることができ、これはモバイルコンピューティングデバイス450上で実行するアプリケーションによって適宜使用され得る。
モバイルコンピューティングデバイス450は、オーディオコーデック460を使用して音声で通信してもよく、オーディオコーデック460は、ユーザから発話情報を受信し、それを使用可能なデジタル情報に変換することができる。オーディオコーデック460は、さらに、例えばモバイルコンピューティングデバイス450のハンドセットのスピーカー等を介して、ユーザに対する可聴音を発生することができる。このような音声は、音声電話からの音声を含んでもよいし、例えば、音声メッセージ、音楽ファイル等である記録された音声を含んでもよいし、または、モバイルコンピューティングデバイス450上で動作するアプリケーションによって生成される音声も含んでよい。
モバイルコンピューティングデバイス450は、図に示されているように、数多くの異なる形態で実施されてよい。例えば、セルラ電話480として実施されてよい。また、スマートフォン382、パーソナルデジタルアシスタント、または他の類似のモバイルデバイスの一部として実施することもできる。
本明細書で説明されているシステムおよび技術の様々な実施は、デジタル電子回路、集積回路、専用設計ASIC(特定用途向け集積回路)、コンピュータのハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組合せで実現されてよい。これらの様々な実施は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスにデータおよび命令を送るように結合された、特定の、または一般的な用途であってよい、少なくとも1つのプログラム可能なプロセッサを備えるプログラム可能なシステム上で実行可能であり、および/または解釈可能である1つまたは複数のコンピュータプログラムによる実施を含んでよい。
プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られるこれらのコンピュータプログラムは、プログラム可能なプロセッサ用の機械語命令を含み、高水準手続き型および/またはオブジェクト指向プログラミング言語で、および/またはアセンブリ/機械語で実装されうる。本明細書で使用されているように、「機械可読媒体」、「コンピュータ可読媒体」という用語は、機械可読信号として機械語命令を受け取る機械可読媒体を含む、機械語命令および/またはデータをプログラム可能なプロセッサに供給するために使用されるコンピュータプログラム製品、装置、および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス(PLD))を指す。「機械可読信号」という用語は、機械語命令および/またはデータをプログラム可能なプロセッサに供給するために使用される信号を指す。
ユーザと情報のやり取りを行うために、本明細書で説明されるシステムおよび技術は、ユーザに情報を表示するための表示デバイス(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)、ならびにユーザがコンピュータに入力を提供するために使用可能なキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)を有するコンピュータ上で実施することができる。他の種類のデバイスも、ユーザと情報をやり取りするために使用されてよく、例えば、ユーザに返されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってよく、ユーザからの入力は、音響、音声、または触覚入力を含む、任意の形態で受信されてよい。
本明細書で説明されるシステムおよび技術は、例えばデータサーバとしてのバックエンド構成要素を含む、または例えばアプリケーションサーバであるミドルウェア構成要素を含む、または例えば、ユーザが本明細書で説明されているシステムおよび技術の実施とやり取りを行うのに使用されるグラフィカルユーザインターフェイスまたはウェブブラウザを有するクライアントコンピュータであるフロントエンド構成要素を含むコンピューティングシステム、またはそのようなバックエンド、ミドルウェア、もしくはフロントエンドコンポーネントの任意の組合せで実施することができる。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)によって相互接続されてよい。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、およびインターネットを含む。
コンピューティングシステムは、クライアントおよびサーバを含んでよい。クライアントおよびサーバは、一般に、互いに遠隔に位置しており、典型的には、通信ネットワークを介して情報のやり取りを行う。クライアントとサーバとの関係は、コンピュータプログラムが各コンピュータ上で実行され、互いとの間にクライアント-サーバ関係を有することによって発生する。
多くの実施形態が説明されてきた。しかしながら、本開示の主旨および範囲から逸脱することなく様々な修正を加えることができることは理解されるであろう。 それに加えて、図に示されている論理の流れは、所望の結果を得るために、図示されている特定の順序、またはシーケンシャルな順序を必要としない。それに加えて、他のステップを与えるか、または説明されている流れからステップを取り除くこともでき、また他のコンポーネントを説明されているシステムに追加するか、または説明されているシステムから取り除くことができる。したがって、他の実施形態は、請求項の範囲内に収まる。
100 音声認識システム
102 ユーザ
104 発話
106 音声処理システム
107 音声認識リクエスト
108a 音声データ
108b コンテキストデータ
110 トランスクリプション/テキスト結果
112 コンピューティングデバイス
114 フロントエンド
116 機密情報識別部
118 トレーニングエンジン
118a バックグラウンド音声分類器
118b クレジットカード分類器
118c ユーザ連絡先リスト分類器
118d 個人情報分類器
118e 分類器
120 自動音声認識部
122 機密情報マネージャ
123 機密情報信号
124 ロガー
200 プロセス
300 音声認識システム
302 プライバシー機密データ
304 コンテキストデータ
306 音声データ
308 ロガー
310a 音声ストレージ
310b コンテキストストレージ
312 モデルトレーニング部
316 音声モデル
318 プロダクション音声認識サーバ
380 セルラ電話
382 スマートフォン
400 コンピューティングデバイス
402 プロセッサ
404 メモリ
406 記録デバイス
408 高速インターフェイス
410 高速拡張ポート
412 低速インターフェイス
414 低速拡張ポート
416 ディスプレイ
420 標準サーバ
422 ラップトップコンピュータ
424 ラックサーバシステム
450 モバイルコンピューティングデバイス
452 プロセッサ
454 ディスプレイ
456 ディスプレイインターフェイス
458 制御インターフェイス
460 オーディオコーデック
462 外部インターフェイス
464 メモリ
466 通信インターフェイス
468 無線周波トランシーバ
470 GPS受信機モジュール
472 拡張インターフェイス
474 拡張メモリ

Claims (10)

  1. 複数のクライアントデバイスからの音声認識リクエストに応じて音声認識を行うコンピュータにより実行される方法であって、
    自動音声認識部および機密情報識別部を含むシステムによって、前記クライアントデバイスからデータを受信するステップと、
    前記機密情報識別部により、前記受信されたデータの少なくとも一部が推定機密データであることを判定するステップであって、機密データは、前記クライアントデバイスから受信されるデータのログに記録されずに前記システムに消去されるデータであるか、または受信の所定期間内に前記システムにより消去されるデータである、ステップと、
    前記推定機密データであると判定された前記受信されたデータの前記少なくとも一部が消去される前に、前記自動音声認識部ための音声認識モデルをトレーニングするモデルトレーニングエンジンに前記受信されたデータの前記少なくとも一部を提供するステップであって、前記モデルトレーニングエンジンは、前記受信されたデータの前記少なくとも一部を使用して、音声認識モデルを生成するため、または既存の音声認識モデルを更新するために構成され、前記生成または更新されたモデルは、前記システムにより受信される後のデータを認識するために、前記自動音声認識部によって使用される、ステップと、
    前記受信されたデータの前記少なくとも一部が提供された後に、前記受信されたデータの前記少なくとも一部を消去するステップとを含む、方法。
  2. 前記受信されたデータは、音声データ、トランスクリプションデータ、およびコンテキストメタデータのうちの1つまたは複数を含む、請求項1に記載の方法。
  3. 前記所定期間は、デフォルトの期間よりも短く、
    前記受信されたデータの少なくとも一部が推定機密データであることを判定するステップにおいて、機密ではなさそうだと判定されたデータは、前記受信されたデータの前記少なくとも一部を消去するステップにおいて、前記デフォルトの期間後に消去される、請求項1に記載の方法。
  4. 前記受信されたデータの少なくとも一部が推定機密データであると判定するステップが、
    前記受信されたデータの前記少なくとも一部を複数の分類器提供するステップであって、前記複数の分類器のうちの各分類器は、異なる機密データの種類に関連付けられる、ステップと、
    前記受信されたデータの前記少なくとも一部が、特定の機密データの種類に関連付けられるものとして、ある信頼性しきい値を上回ることの表示を、前記特定の機密データの種類に関連付けられる特定の分類器から受信するステップとを含む、請求項1に記載の方法。
  5. 機密データの各種類は、関連付けられる消去についての所定期間を有する、請求項4に記載の方法。
  6. 前記受信されたデータの前記少なくとも一部を匿名化するステップと、クライアントデバイスから受信されるデータの前記ログ内に前記匿名化されたデータを記録するステップとをさらに含む、請求項1に記載の方法。
  7. 前記モデルトレーニングエンジンから、更新された認識モデルを受信するステップと、
    前記更新された認識モデルを前記自動音声認識部に提供するステップと、
    後に受信される音声データを認識するために、前記更新された認識モデルを使用するステップとをさらに含む、請求項1に記載の方法。
  8. 機密データは、連絡先情報、バックグラウンド音声データ、個人識別情報、所定のトランスクリプションキーワード、および地理的座標のうちの1つまたは複数を含む、請求項1に記載の方法。
  9. 自動音声認識部および機密情報識別部を含む、音声認識のためのシステムであって、
    1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されるときに、前記1つまたは複数のコンピュータに、請求項1から8のいずれか一項に記載の方法を実行させるように動作可能な命令を記録した1つまたは複数の記録デバイスとを含む、システム。
  10. 1つまたは複数のコンピュータによって実行可能な命令を含むソフトウェアを記録したコンピュータ可読記録媒体であって、前記命令は、実行時に、前記1つまたは複数のコンピュータに請求項1から8のいずれか一項に記載の方法を実行させる、コンピュータ可読記録媒体。
JP2017556799A 2015-06-29 2016-05-23 プライバシー保護を行うトレーニングコーパス選択 Active JP6486503B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/753,912 US9881613B2 (en) 2015-06-29 2015-06-29 Privacy-preserving training corpus selection
US14/753,912 2015-06-29
PCT/US2016/033773 WO2017003579A1 (en) 2015-06-29 2016-05-23 Privacy-preserving training corpus selection

Publications (2)

Publication Number Publication Date
JP2018506081A JP2018506081A (ja) 2018-03-01
JP6486503B2 true JP6486503B2 (ja) 2019-03-20

Family

ID=56097336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017556799A Active JP6486503B2 (ja) 2015-06-29 2016-05-23 プライバシー保護を行うトレーニングコーパス選択

Country Status (8)

Country Link
US (2) US9881613B2 (ja)
EP (1) EP3234944B1 (ja)
JP (1) JP6486503B2 (ja)
KR (2) KR102109876B1 (ja)
CN (2) CN107209842B (ja)
DE (1) DE112016000292B4 (ja)
GB (1) GB2551917B (ja)
WO (1) WO2017003579A1 (ja)

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9881613B2 (en) * 2015-06-29 2018-01-30 Google Llc Privacy-preserving training corpus selection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US20180358021A1 (en) * 2015-12-23 2018-12-13 Intel Corporation Biometric information for dialog system
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10755172B2 (en) 2016-06-22 2020-08-25 Massachusetts Institute Of Technology Secure training of multi-party deep neural network
CN117577099A (zh) * 2017-04-20 2024-02-20 谷歌有限责任公司 设备上的多用户认证的方法、系统和介质
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
US11210461B2 (en) * 2017-07-05 2021-12-28 Interactions Llc Real-time privacy filter
US10540521B2 (en) * 2017-08-24 2020-01-21 International Business Machines Corporation Selective enforcement of privacy and confidentiality for optimization of voice applications
WO2019077013A1 (en) * 2017-10-18 2019-04-25 Soapbox Labs Ltd. METHODS AND SYSTEMS FOR PROCESSING AUDIO SIGNALS CONTAINING VOICE DATA
US11216745B2 (en) 2017-11-07 2022-01-04 Google Llc Incognito mode for personalized machine-learned models
EP3496090A1 (en) * 2017-12-07 2019-06-12 Thomson Licensing Device and method for privacy-preserving vocal interaction
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
KR102155380B1 (ko) * 2018-06-29 2020-09-14 주식회사 디플리 실시간 소리 분석 방법 및 장치
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN111031329B (zh) * 2018-10-10 2023-08-15 北京默契破冰科技有限公司 一种用于管理音频数据的方法、设备和计算机存储介质
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
CN112997247A (zh) * 2018-11-05 2021-06-18 株式会社赛斯特安国际 利用大数据的最佳语言模型生成方法及用于其的装置
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
KR102041621B1 (ko) * 2019-02-25 2019-11-06 (주)미디어코퍼스 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11545136B2 (en) * 2019-10-21 2023-01-03 Nuance Communications, Inc. System and method using parameterized speech synthesis to train acoustic models
US11769496B1 (en) * 2019-12-12 2023-09-26 Amazon Technologies, Inc. Predictive deletion of user input
CN111064797B (zh) * 2019-12-20 2023-01-10 深圳前海微众银行股份有限公司 一种数据处理方法及装置
JP7310673B2 (ja) * 2020-03-23 2023-07-19 横河電機株式会社 データ管理システム、データ管理方法、および、データ管理プログラム
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111711562A (zh) * 2020-07-16 2020-09-25 网易(杭州)网络有限公司 消息处理方法及装置、计算机存储介质、电子设备
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio
CN113033191A (zh) * 2021-03-30 2021-06-25 上海思必驰信息科技有限公司 语音数据处理方法、电子设备及计算机可读存储介质
US11960625B2 (en) * 2021-05-06 2024-04-16 Jpmorgan Chase Bank, N.A. Systems and methods for protecting sensitive data in user online activities
US20220399009A1 (en) * 2021-06-09 2022-12-15 International Business Machines Corporation Protecting sensitive information in conversational exchanges

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3725470B2 (ja) * 2001-12-28 2005-12-14 株式会社東芝 統計的言語モデルを作成するためのコーパス処理装置及び方法並びにプログラム
US8473451B1 (en) * 2004-07-30 2013-06-25 At&T Intellectual Property I, L.P. Preserving privacy in natural language databases
US20070244700A1 (en) * 2006-04-12 2007-10-18 Jonathan Kahn Session File Modification with Selective Replacement of Session File Components
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
JP2008219534A (ja) * 2007-03-06 2008-09-18 Sharp Corp 無線通信システム
US8346532B2 (en) 2008-07-11 2013-01-01 International Business Machines Corporation Managing the creation, detection, and maintenance of sensitive information
JP5164922B2 (ja) * 2009-05-19 2013-03-21 日本電信電話株式会社 個人情報削除装置とその方法、そのプログラムと記録媒体
US9111540B2 (en) * 2009-06-09 2015-08-18 Microsoft Technology Licensing, Llc Local and remote aggregation of feedback data for speech recognition
US8683547B2 (en) * 2009-10-28 2014-03-25 Liveops, Inc. System and method for implementing adaptive security zones
US9099087B2 (en) * 2010-09-03 2015-08-04 Canyon IP Holdings, LLC Methods and systems for obtaining language models for transcribing communications
US8401853B2 (en) * 2010-09-22 2013-03-19 At&T Intellectual Property I, L.P. System and method for enhancing voice-enabled search based on automated demographic identification
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
CN102572839B (zh) * 2010-12-14 2016-03-02 中国移动通信集团四川有限公司 一种控制语音通信的方法和系统
JP5939645B2 (ja) * 2011-03-25 2016-06-22 日本電気株式会社 情報漏洩防止装置、方法及びプログラム
US8688601B2 (en) * 2011-05-23 2014-04-01 Symantec Corporation Systems and methods for generating machine learning-based classifiers for detecting specific categories of sensitive information
US8554559B1 (en) * 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US8990091B2 (en) * 2012-07-27 2015-03-24 Nuance Communications, Inc. Parsimonious protection of sensitive data in enterprise dialog systems
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US9093069B2 (en) * 2012-11-05 2015-07-28 Nuance Communications, Inc. Privacy-sensitive speech model creation via aggregation of multiple user models
US8494853B1 (en) * 2013-01-04 2013-07-23 Google Inc. Methods and systems for providing speech recognition systems based on speech recordings logs
US9131369B2 (en) * 2013-01-24 2015-09-08 Nuance Communications, Inc. Protection of private information in a client/server automatic speech recognition system
WO2014133525A1 (en) 2013-02-28 2014-09-04 Nuance Communication, Inc. Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission
US9514741B2 (en) * 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition acoustic model training under data retention restrictions
US9514740B2 (en) * 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition language model training under data retention restrictions
US9305174B2 (en) * 2013-04-09 2016-04-05 Robert Hansen Electronic clipboard protection
US9881613B2 (en) * 2015-06-29 2018-01-30 Google Llc Privacy-preserving training corpus selection

Also Published As

Publication number Publication date
EP3234944A1 (en) 2017-10-25
EP3234944B1 (en) 2023-02-22
KR20190071010A (ko) 2019-06-21
KR20170094415A (ko) 2017-08-17
US20180108355A1 (en) 2018-04-19
CN107209842A (zh) 2017-09-26
CN107209842B (zh) 2020-05-05
US20160379639A1 (en) 2016-12-29
KR102109876B1 (ko) 2020-05-28
DE112016000292B4 (de) 2021-10-07
US9881613B2 (en) 2018-01-30
US9990925B2 (en) 2018-06-05
CN111695146A (zh) 2020-09-22
WO2017003579A1 (en) 2017-01-05
DE112016000292T5 (de) 2017-11-09
KR101991473B1 (ko) 2019-09-30
JP2018506081A (ja) 2018-03-01
GB201711683D0 (en) 2017-09-06
GB2551917A (en) 2018-01-03
GB2551917B (en) 2021-10-06
CN111695146B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
JP6486503B2 (ja) プライバシー保護を行うトレーニングコーパス選択
US10276163B1 (en) Speech recognition parameter adjustment
CN108463849B (zh) 一种计算机实现的方法和计算系统
US10319366B2 (en) Predicting recognition quality of a phrase in automatic speech recognition systems
US11677811B2 (en) Method and system for securely identifying users
US9275641B1 (en) Platform for creating customizable dialog system engines
JP6474762B2 (ja) 発話者の検証のための動的な閾値
CN105793921A (zh) 基于部分热词发起动作
US11756299B2 (en) System for preserving image and acoustic sensitivity using reinforcement learning
WO2020233381A1 (zh) 基于语音识别的服务请求方法、装置及计算机设备
US10984193B1 (en) Unsupervised text segmentation by topic
US10296510B2 (en) Search query based form populator
US20150006169A1 (en) Factor graph for semantic parsing
US11314783B2 (en) System for implementing cognitive self-healing in knowledge-based deep learning models
US9104759B1 (en) Identifying stem variants of search query terms

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190219

R150 Certificate of patent or registration of utility model

Ref document number: 6486503

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250