JP2010079235A - 個人(オーディ)情報を含まないメディア・ストリームを保存する方法 - Google Patents

個人(オーディ)情報を含まないメディア・ストリームを保存する方法 Download PDF

Info

Publication number
JP2010079235A
JP2010079235A JP2008319176A JP2008319176A JP2010079235A JP 2010079235 A JP2010079235 A JP 2010079235A JP 2008319176 A JP2008319176 A JP 2008319176A JP 2008319176 A JP2008319176 A JP 2008319176A JP 2010079235 A JP2010079235 A JP 2010079235A
Authority
JP
Japan
Prior art keywords
segment
personal information
audio
processing system
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008319176A
Other languages
English (en)
Inventor
George William Erhart
ウイリアム エルハート ジョージ
Valentine C Matula
シー. ムトゥラ バレンタイン
David Joseph Skiba
ジョセフ スキバ ディビィット
Lawrence O'gorman
オー’ゴーマン ローレンス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avaya Inc
Original Assignee
Avaya Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avaya Inc filed Critical Avaya Inc
Publication of JP2010079235A publication Critical patent/JP2010079235A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • G10L21/045Time compression or expansion by changing speed using thinning out or insertion of a waveform
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2088Call or conference reconnect, e.g. resulting from isdn terminal portability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/5027Dropping a party from a conference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/60Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
    • H04M2203/6009Personal information, e.g. profiles or personal directories being only provided to authorised persons

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Storage Device Security (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract


【課題】 個人情報を含む可能性のあるオーディオ情報から個人情報の消去(又はトーンを被せる、サイレンス(無音)にする)処理を行う。
【解決手段】 本発明のデータ処理システムは、オーディオ・ストリーム(更に画像のようなの他の種類の媒体を含むメディア・ストリーム)を受領する。本発明のデータ処理システムがデータを受領すると、データ処理システムは、受信したメディア・ストリームから個人情報を含むオーディオ・ストリームを抽出する。その後このデータ処理システムは、オーディオ・ストリームを解析して、個人オーディオ・コンテンツを抽出する。この為に、本発明のデータ処理システムは、取り除くべき個人情報を記述するモデルを用いる。その後このシステムは、個人オーディオ・コンテンツを、処理されたオーディオを含むストリームから省く。
【選択図】 図1

Description

本発明は、通信に関し、特に個人(オーディオ)情報をメディア・ストリームから削除する方法に関する。
企業のコンタクト・センタ(例、消費者センタ)は、様々な目的で通話データを記録する。例えば、エージェントの成績の評価、システムの解析、売上げ分析を行うためである。通常コンタクト・センタは、通話を記録する際、通話の音声全体を記録する。通話の性質上又はコンタクト・センタでの仕事によっては、これらは、通話中に交換された個人情報を含むことがある。このような個人情報は、発呼者より話された個人情報、例えば、社会保障番号、銀行口座番号、電話番号等である。さらに、エージェントにより話された情報は、例えば、取引情報、勘定残高、誕生日等である。
通話記録が非揮発性メモリに記録されると問題が生じる。記録が残されると、企業には、記録されたデータの守秘義務が発生する。さらに、正統な第3者によりこのような通話記録(例えば、コンタクト・センタの成績解析、解析的なモデル開発、トレーニング等の目的で)にアクセスすることが要求される。それ故に、通話記録を共有し、企業の責任を減らすために、通話の秘密的な財産セグメントの特別な取り扱いが必要となる。
現在最も一般的なアプローチは、通話の個人情報セグメントを手作業で削除することである。手作業では、作業者がその通話記録を聞き、個人情報を含むと判断したセグメントを削除する。検出されたメディア・ファイルの個人情報は、単一のトーン又はサイレンス(無音)で置換する。その後、この新たなメディア記録(サイレンス又はトーンで置換された個人情報部分を含む通話記録)全部を保存する。
別のアプローチは、ファイル全体を暗号化することである。暗号化されると、プライバシのセーフガードが行われるが、オーディオ・ファイルが再生されると、プライバシは守られない。
他のアプローチは、通話を全く記録しないことである。このアプローチは、データを記録することに伴う複雑さと責任の全てを回避できる。しかし、トレーニングと良好な解析的システムの利点は失われる。
それ故に、現在必要とされていることは、私的なオーディオ・コンテンツ(個人情報)を含むメディア・ストリームを従来の欠点を有さずに処理する技術である。
本発明により、個人情報を含む可能性のあるオーディオ情報の中のオーディオ・ストリームの処理を従来よりもより簡便な方法で実行できる。本発明の実施例のデータ処理システムは、オーディオ・ストリーム(更には画像のようなの他の種類の媒体を含むメディア・ストリーム)を受領する。データ処理システムが、データを受領すると、受信したメディア・ストリームから個人情報を含むオーディオ・ストリームを抽出する。その後このデータ処理システムは、オーディオ・ストリームを解析して、個人オーディオ・コンテンツを抽出する。この為に、本発明のデータ処理システムは、削除すべき個人情報を記述するモデルを用いる。その後このシステムは、個人オーディオ・コンテンツを、処理されたオーディオを含むストリームから省く。
本発明の解析方法は、本発明の実施例の1つ又は複数の技術からなる。第1技術では、データ処理システムは、個人情報を含むセグメントを探し出し変更する。第2技術では、データ処理システムは、個人情報が無いセグメントを探し出し記憶する。個人情報が無いセグメントを探し出す第2技術は、個人情報のセグメントを探し出す第1技術とは対照的である。第2技術の変形例は、(i)非個人情報のみを含む表現(会話、通話)を保存すること、又は(ii)理解可能な表現を含まない音響シグネチャ(特徴、痕跡:acoustic signature)を生成すること、又はその両方である。当業者は、他の変形例も容易に想到できる。
本発明の一実施例によれば、解析すべきオーディオ・ストリームは、(i)通話(電話)中エージェントと話す発呼者の発する発呼者音声波形と、(ii)通話中発呼者と話すエージェントの発するエージェント音声波形を含む。しかし当業者は、本明細書を参照することにより、他の種類の音声波形を解析できる他の実施例も想到できる。他の種類の音声波形とは、例えば、「発呼者」と「エージェント」以外の関係者、又は全く無関係な人の音声波形である。さらに他の実施例においては、人間ではない音声源により生成された(例、双方向音声応答システムにより生成された)音声波形も解析できる。最後に、本発明の他の実施例においては、処理すべきオーディオ・ストリームは、通話以外の会話から生成してもよい。
本発明のオーディストリームから個人情報を削除する方法は、(A)オーディオ・ストリームをデータ処理システムで受領するステップと、前記オーディオ・ストリームは、(i)通話中第1当事者により生成された第1音声波形と、(ii)通話中第2当事者により生成された第2音声波形とを搬送し、(B)前記第1音声波形の第1セグメントが個人情報を含むか否かを決定するステップと、前記(B)ステップは、(i)第1音声波形の第1セグメントの前の第2セグメントのコンテンツ、又は(ii)第2音声波形の所定のセグメントのコンテンツに基づいて行われ、(C)前記第1セグメントが個人情報を含むと決定された時には、前記第1セグメントにタグを付すステップとを有する。
図1は、本発明の一実施例による個人情報処理環境100のブロック図である。個人情報処理環境100は、データ処理システム101と、プライバシ・モデル・サーバ102と、通信ネットワーク103と、未処理のオーディオ・ファイル・サーバ104と、処理済のオーディオ・ファイル・サーバ105とを、図に示したように相互接続した状態で有する。
データ処理システム101は、コンピュータベースのシステムで、信号を受信し、この信号を処理し、この処理された信号を出力する。データ処理システム101がデータを処理する際に実行するタスクを図2−7を参照して以下説明する。
本発明の一実施例によれば、データ処理システム101は、オーディオ・ストリーム(更に画像のような他の媒体を含むメディア・ストリーム)を受領する。このオーディオ・ストリームは、オーディオ・コンテンツを含む。その一部は、性質上個人情報である。データ処理システム101は、メディア・ストリームを生ストリーム又は予め記録したストリームのいずれかで受領する。例えば、データ処理システム101には、ライブ・フィードが通信ネットワーク103を介して与えられる。この通信ネットワーク103は、ボイス・オーバ・コンタクト・センタ又はライブメディア・ストリームの他のソースに繋がれている。他の例として、データ処理システム101は、未処理のオーディオ・ファイル・サーバ104又は他の種類のデータ記憶装置のような音源から、予め記録されたストリームにアクセスできる。この実施例においては、受領したメディア・ストリームのフォーマットは、リアルタイム・プロトコル・フォーマット(Real-Time Protocol format)である。データ処理システム101は、他の種類のソースからのデータ又は他のフォーマットで表されたデータも処理できる。
本発明の一実施例によれば、解析すべきオーディオ・ストリームは、(i)通話(電話)中エージェントと話す発呼者の発する発呼者音声波形と、(ii)通話中発呼者と話すエージェントの発するエージェント音声波形を含む。しかし当業者は、本明細書を参照することにより、他の種類の音声波形を解析できる他の実施例も想到できる。他の種類の音声波形とは、例えば、「発呼者」と「エージェント」以外の関係者、又は全く無関係な人の音声波形である。さらに他の実施例においては、人間ではない音声源により生成された(例、双方向音声応答システムにより生成された)音声波形も解析できる。最後に、本発明の他の実施例においては、処理すべきオーディオ・ストリームは、通話以外の会話から生成してもよい。
本発明の実施例のデータ処理システム101は、データを受領すると、受信したメディア・ストリームからオーディオ・ストリームを抽出する。その後このシステムは、オーディオ・ストリームを解析して、個人情報を得る。本発明の一実施例では、本発明のデータ処理システム101は、取り除くべき個人情報を記述するモデル(サーバ102に記録されたプライバシ・モデル)を用いる。その後このシステム101は、個人情報を、得られたストリームから省く。その結果得られた処理済みのストリームを記憶するか、別のシステム例えば処理済のオーディオ・ファイル・サーバ105に転送する。
図2−7は、本発明の一実施例の動作に関連するタスクのフロー・チャートを示す。本発明の他の実施例においては、図示されたタスクの一部のみが実行される。さらに別の実施例においては、タスクの少なくとも一部は、同時に又は図示したのとは異なる順に実行される。
図2を参照すると、タスク201において、データ処理システム101は、オーディオ・ストリーム内に存在する個人情報の特徴を記述するモデルを生成又は獲得する。このモデルは、データ処理システム101又は他の手段により予め生成され、削除すべき個人情報を規定する。このモデルは、データの一般的な話しの単語に基づく。例えば、パスワード、メールアドレス、服用した医薬品、社会保障番号、電話番号、口座番号、銀行の預金残高、ドル残高等である。
各プライバシ・モデルの特定の表現は、キーワード、キー・フレーズ、音響シグネチャに基づいてもよい。この表現がキーワード又はキー・フレーズに基づいた場合には、個人情報に関連する実際のワードは、例えば、「アドレス」、「治療記録」、「パスワード」である。この表現が音響的特徴/痕跡(シグネチャ)に基づく場合(実際の表現(通話、会話)は記憶されず、音声の表現には関連しない特徴が記録される)には、プライバシ・モデルは、一般的に生成できる。例えば、「母親の旧姓」の音節の数は、誰が実際に名前を発音しようとも、一定である。
音響的特徴/痕跡(シグネチャ)を用いる他の技術は、これらのフレーズを発音する特定のエージェントを記録し、発音の韻律に基づいたプライバシ・モデルを生成することである。「韻律」とは、音声の音律(リズム)、強勢(ストレス)、抑揚(イントネーション)である。従って、生成されたモデルは、解析すべき特定のオーディオ・ストリームに関係する特定のエージェントに用いることができる。韻律も、発呼者により発音されるフレーズを識別するのに用いることができる。このようなフレーズは、例えば、発呼者の社会保障番号と電話番号である。個人識別は、ある一連の番号の規則的なパターンにより可能である。この場合、発呼者の発声が、識別可能なパターンを生成する。これは話された数字(又は文字)は、各発呼者又はエージェント毎に異なっている場合でも当てはまる。
本発明の他の実施例においては、プライバシ・モデルは、上記以外の技術によっても形成できる。
データ処理システム101が、他のソースからプライバシ・モデルを得る代わりに、プライバシ・モデルを初期化(最初に作成)すると、データ処理システム101は、この初期化されたモデルをプライバシ・モデル・サーバ102に書き込み、後で使用できるようにする。
タスク202において、データ処理システム101は、メディア・ストリームを受領する。このメディア・ストリームから個人オーディオ情報が取り除かれる。解析すべきメディア・ストリームは、1つ又は複数の波形を搬送するオーディオ・ストリームを含む。その内の第1波形は、発呼者音声波形(即ち「第1」音声波形)で、エージェントと話す発呼者(即ち通話の「第1当事者」)により生成される。第2波形はエージェント音声波形(即ち「第2」音声波形)で、発呼者と話すエージェント(即ち通話の「第2当事者」)により生成される。このオーディオ・ストリームは、生のメディア・ストリーム(例えばVoIPのコンタクト・センタからの)又は予め記録されたメディア・ファイルの一部である。
この実施例によれば、複数の波形(例、発呼者音声波形、エージェント音声波形等)は、同一の予め記録されたメディア・ファイル内にある様々な音源からの音声信号である。本明細書を参照することにより、発声者の波形を記録する他の実施例又は別のメディア・ファイルで表現され処理される他の実施例も当業者には明らかである。
タスク203において、データ処理システム101は、オーディオ・ストリームを解析して、その中の個人情報を削除する。タスク203は図3を参照して説明する。
タスク204において、データ処理システム101は、その結果得られた個人情報を含まないオーディオ・ストリームであるストリームを出力又は記憶する。
図2によれば、データ処理システム101は、一時に1個のオーディオ・ストリームを処理しその後停止する。少なくとも、データ処理システム101の処理が別のオーディオ・ストリームを操作するため、再度起動されるまで、停止している。データ処理システム101が、連続するオーディオ・ストリームを得る為、又は同一のオーディオ・ストリームの連続する部分を得る為に、図示されたタスクを連続して実行する他の実施例も当業者には明らかである。
図3は、本発明の一実施例のタスク203の実行に伴うタスクのフロー・チャートを示す。図示されたタスクは、発呼者音声波形の1つ又は複数のセグメントに対し実行されるか、又はタスク202で受領したオーディオ・ストリームにより搬送されたエージェント音声波形に対し実行される。
タスク301において、データ処理システム101は、処理中のセグメントから個人情報を取り除く。タスク301は図4を参照して説明する。
タスク302において、データ処理システム101は、処理中のオーディオ・セグメントの表示を記憶する。このセグメントは、(i)個人情報の無い実際のセグメント。又は(ii)全体のオーディオ・システムの音響特徴/痕跡又はセグメントである。この音響特徴/痕跡は、認識可能な表現では存在しない。タスク302は図5を参照して説明する。
本発明の一実施例によれば、データ処理システム101は、タスク301とタスク302の両方を実行して、解析中のオーディオ・セグメントから、個人情報を削除し、非個人情報のみを記憶する。タスク301又はタスク302のいずれかを実行する他の実施例、又はタスク301とタスク302の異なる組み合わせを処理すべき異なるオーディオ・セグメントに対して実行する他の実施例は、本明細書を参照することにより、当業者には明らかである。
タスク303において、データ処理システム101は、処理すべき更なるオーディオ・セグメントが存在するか否かを決定する。存在する場合には、タスクの実行は、タスク304に進み、それ以外は、タスク204に進む。
タスク304において、データ処理システム101は、次のオーディオ・セグメントを処理するために準備する。これは、カウンターを更新し、次のセグメントを処理用メモリ内に読み込むことにより行う。タスクの実行は、その後タスク301に戻る。
図4は、本発明の一実施例によるタスク301の実行に関連するタスクのフロー・チャートを示す。
タスク401において、データ処理システム101は、処理中のオーディオ・セグメントが個人情報を含むか否かを決定する。この実施例によれば、この決定は、次に述べるいくつかの方法で行われる。ただしこれに限定されない。
i.発呼者音声波形内の時間位置により行う。
この技術は、通話は予測可能な方法で処理ができるという洞察に基づく。エージェントは、発呼者のIDを、名前、住所、社会保障番号、パスワード、個人識別番号(PIN)を尋ねることにより、知る。この問い合わせに対する発呼者の応答は、個人情報と見なされ、自動的にオーディオ・ストリームから削除される。
個人情報におけるオーディオ・セグメントの時間位置は、絶対時間又は相対時間の観点で決まる。絶対時間は、応答速度に依存する。例えば、時間位置は、質問したエージェントの音声波形を含むセグメントの直後に起こると見なされる。他の実施例においては、個人情報が発声される時間間隔は、会話の所定部分(例、発呼者音声波形又は記録されたオーディオの最初のM秒である。)内で発生すると見なされる。これに対し、相対時間は、エージェントと発呼者の間で交わされる会話のセグメントの中での特定のオーディオ・セグメントの位置に基づく。例えば、個人情報を有するオーディオ・セグメントの時間位置は、発呼者がエージェントへの5番目、9番目又は10番目の応答と見なされるが、これはその応答が行われた速度には無関係である。
ii.エージェント音声波形内のキーワード又はフレーズによる。
通話が、上記の技術(i)に対し見なされたよりもより構造的でない場合、又は個人情報が通話の本質部分の間で要求された場合には、個人情報は、エージェントにより話されたキーワードにより認識することができる。例えば、エージェントが「あなたの住所をもう一度おっしゃっていただけますか?」と言った場合には、このキー・フレーズが認識され、発呼者の応答は削除される。
iii.発呼者音声波形内のキーワード又はフレーズによる。
発呼者の音声を認識した時には、個人情報を示す単語(例、「現在、服用している薬は…」)に続く部分の表現は、オーディオ・セグメントから削除される。
iv.ワードの種類による。
この技術において、データ処理システム101は、音声波形のセグメントがある種類の場合には、自動的に認識するようチューニングされる。例えば、データ処理システム101が話された一連の番号を検出した場合、データ処理システム101は、「6232418」は電話番号であり、韻律や番号の組み合わせではない(例えば、"6 too 3 to for won ate.")と決定する。データ処理システム101によるこの意味的な認識が与えられると、このモデリング又は他のカスタムメイドのモデリングを用いて、個人情報を有するセグメントを検出し削除することができる。
v.韻律による。
音声(韻律)の種類は、例えば、その長さ、音節の数、抑揚により認識できる。これらは、タスク201で議論した「韻律」の明示/表現である。この技術は、比較的長い明瞭なフレーズ、例えば、「社会保障番号」やそれを表す発声された数字列、「母親の旧姓」に対し最も上手く機能する。データ処理システム101は、様々なフレーズをその韻律に基づいて探し、それらを状況に応じて削除する。
vi.第2セグメントの個人情報コンテンツを予測するために第1のオーディオ・セグメントを解析する。
この技術は、エージェント音声波形のセグメントを用いて、発呼者音声波形の後続のセグメントが個人情報を含むのを予測するのに類似する。これは、発呼者音声波形の第1セグメントを用いて、発呼者音声波形の第2セグメントが個人情報を含むのを予測することができる。
これらの方法は、より信頼性を高めるために、1つ又は複数の方法と共に用いることもできる。さらに当業者は、発呼者又はエージェントのみならず、あらゆる音源から発声された波形に対し、これらの1つ又は複数の方法を一般化して用いることができる。
タスク402において、データ処理システム101は、処理中のオーディオ・セグメントが個人情報を含む場合には、それにタグを付す。本発明の一実施例によれば、このタグを付することは、メモリ中で、どのセグメントが、個人情報故に、変更すべきか、又は削除すべきかを特定するためにのみ、行われる。本発明の他の実施例においては、タグの付されたオーディオ・セグメントは、そのタグと共に記憶される。これにより、これらのセグメントが個人情報を含むことを示す。本発明のさらに他の実施例においては、このタグを付することは、省略し、タスク403に進むこともできる。
この実施例のタスク403において、データ処理システム101は、オーディオ・セグメントがタスク402でタグを付された場合、或いは別の方法で特定された場合、オーディオ・セグメントを変更する。本発明の他の実施例においては、この変更プロセスは、タグの付されたオーディオ・セグメントを可聴トーンで置換する。他の実施例では、この変更ステップは、タグの付されたオーディオ・セグメントをサイレンス(無音)で置換する。このトーン又はサイレンスは、生成された処理済みのオーディオ・ストリームにおいては、未処理のストリーム内の個人情報を含むオーディオ・セグメントに置き換わる。当業者は、トーン又はサイレンスを置換する以外の他の方法を用いて、個人情報を含むオーディオ・セグメントを置換することもできる。
図5は、本発明の一実施例によるタスク302を実行するタスクのフロー・チャートを示す。このタスクにおいては、強調が記憶されている非個人情報に対し行われる。これは、タスク301で行われた個人情報を削除するのとは、対照的(逆)である。
タスク501において、ある実施例では、データ処理システム101は、解析中のオーディオ・セグメントで、の非個人情報のみを含む表現(発声)を記憶する。タスク501を図6を参照して説明する。
タスク502において、ある実施例では、データ処理システム101は、音響特徴/痕跡を生成する。これは、通話の非個人情報の完全なオーディオを生成するのとは対照的である。タスク502を図7を参照して説明する。
ある実施例においては、タスク501又はタスク502のいずれかが実行され両方は実行されない。他の実施例においては、タスク501とタスク502の両方が実行される。タスク501とタスク502の両方は、ある状況下で実行される。この状況においては、発声された時に選択されたキーワード又はキー・フレーズを記憶することが重要な場合であり、かつ処理中のオーディオ・ストリームの一部又は全ての音響特徴/痕跡を記憶することが重要な場合である。
図6は、本発明の一実施例によるタスク501を実行するタスクのフロー・チャートを示す。
タスク601において、データ処理システム101は、処理中のオーディオ・セグメントが非個人情報を含むか否かを決定する。ここでは、個人情報を削除する代わりに、データ処理システム101は、逆のことを行う。これは、(非個人情報の表現をいじらずに)非個人情報のみを記憶することにより行う。これは、問題の情報量が比較的小さい場合、例えば、「ありがとう」と言われたて通話を終わることを記録する場合、通話が顧客の満足度に対し評価する場合である。この場合、例えば、データ処理システム101は、発呼者音声波形又はオーディオ記録の最後のN秒の間に起きたオーディオ・セグメントを記憶する。
タスク602において、データ処理システム101は、セグメントが非個人情報のみを有する場合には、このセグメントをメモリ内に記憶する。
図7は、本発明の一実施例によるタスク502を実行するタスクのフロー・チャートを示す。
タスク701において、データ処理システム101は、1つ又は複数のセグメントを得るために音響特徴/痕跡を生成する。ここで音響特徴/痕跡は、通話の長さ、サイレンス、抑揚等を記憶する。しかし、未処理の波形内で発音された単語は削除する。その結果、識別可能な韻律が削除される。データ処理システム101は、このプロセスを、例えば通話中にピッチ、エネルギー等の特徴を計算し記憶することにより、行う。ある実施例において、データ処理システム101は、保存された特徴が表示された各セグメントを介していかに変化するかに関する情報(例、相対的な抑揚)を計算し記憶する。別な構成として、データ処理システム101は、音響周波数に対する通話を、ローパス・フィルターで処理する。これにより、識別可能なワードを取り除き、波形中の少なくともある非韻律特徴を記憶する。
タスク702において、データ処理システム101は、音響特徴/痕跡を、解析中のオーディオ・ストリームの表現として、メモリ内に記憶する。
以上の説明は、本発明の一実施例に関するもので、この技術分野の当業者であれば、本発明の種々の変形例を考え得るが、それらはいずれも本発明の技術的範囲に包含される。特許請求の範囲の構成要素の後に記載した括弧内の番号は、図面の部品番号に対応し、発明の容易なる理解の為に付したものであり、発明を限定的に解釈するために用いてはならない。また、同一番号でも明細書と特許請求の範囲の部品名は必ずしも同一ではない。これは上記した理由による。
本発明の一実施例による個人情報処理環境100のブック図。 本発明の一実施例の動作のタスクを表すフロー・チャート。 本発明の一実施例によるタスク203の動作に関連するタスクのフロー・チャート。 本発明の一実施例によるタスク301の動作に関連するタスクのフロー・チャート。 本発明の一実施例によるタスク302の動作に関連するタスクのフロー・チャート。 本発明の一実施例によるタスク501の動作に関連するタスクのフロー・チャート。 本発明の一実施例によるタスク502の動作に関連するタスクのフロー・チャート。
符号の説明
図1
100 個人情報処理環境
101 データ処理システム
102 プライバシ・モデル・サーバ
103 通信ネットワーク
104 未処理のオーディオ・ファイル・サーバ
105 処理済のオーディオ・ファイル・サーバ
図2
開始
201 オーディオ・ストリーム内の個人情報の特徴を記述するモデルを生成する
202 オーディオ・ストリームを受領する
このオーディオ・ストリームは、(i)発呼者音声波形と(ii)エージェント 音声波形を搬送する
203 個人情報を削除するためにオーディオ・ストリームを解析する
204 個人情報の無いオーディオ・ストリームを出力又は記憶する
終了
図3
タスク202から
301 個人情報を処理中のオーディオ・セグメントから削除する
302 個人情報の無いオーディオ・セグメントの表現を記憶する
303 処理すべき更なるセグメントがあるか?
304 次のセグメントに進む
タスク204へ
図4
タスク202から
401 処理中のオーディオ・セグメントが個人情報を含むか否かを次の基準に基づいて決定する
(i)発呼者音声波形内の時間位置
(ii)エージェント音声波形内のキーワード又はキー・フレーズ
(iii)発呼者音声波形内のキーワード又はキー・フレーズ
(iv)ワードの種類
(v)韻律
(vi)発呼者音声波形の様々なセグメント
402 オーディオ・セグメントが個人情報を含む場合には、それにタグを付す
403 タグが付いている場合には、オーディオ・セグメントを変更する
タスク302へ
図5
タスク301から
501 非個人情報のみを含む表現を記憶する
502 音響特徴/痕跡を生成する
タスク303へ
図6
タスク301から
601 セグメントが非個人情報を含むか否かを決定する
602 セグメントが非個人情報のみを含む場合には、それを記憶する
タスク502へ
図7
タスク501から
701 音響セグメント用の音響特徴/痕跡を生成する
702 音響特徴/痕跡をオーディオ・ストリームの表現として記憶する
タスク303へ


Claims (10)

  1. (A)オーディオ・ストリームをデータ処理システムで受領するステップと、
    前記オーディオ・ストリームは、(i)通話中第1当事者により生成された第1音声波形と、(ii)通話中第2当事者により生成された第2音声波形とを搬送し、
    (B)前記第1音声波形の第1セグメントが個人情報を含むか否かを決定するステップと、
    前記(B)ステップは、(i)第1音声波形の第1セグメントの前の第2セグメントのコンテンツ、又は(ii)第2音声波形の所定のセグメントのコンテンツに基づいて行われ、
    (C)前記第1セグメントが個人情報を含むと決定された時には、前記第1セグメントにタグを付すステップと
    を有する
    ことを特徴とするオーディストリームから個人情報を削除する方法。
  2. 前記(B)ステップは、第1音声波形内の第1セグメントの時間位置に基づいて行われる
    ことを特徴とする請求項1記載の方法。
  3. 前記第1セグメントが個人情報を含むと決定されるのは、第1セグメントの時間位置が第1音声波形の最初のM秒内にある時であり、
    前記Mは、第1音声波形の時間長さの秒数未満の正数である
    ことを特徴とする請求項2記載の方法。
  4. 前記(B)ステップは、第2音声波形の所定のセグメントの韻律に基づいて行われる
    ことを特徴とする請求項1記載の方法。
  5. (D)前記第1音声波形の第3セグメント又は第4セグメントが、非個人情報を含むか否かを決定するステップと、
    (E)前記第3セグメントのみが非個人情報を含むと決定された時には、第3セグメントのみを記憶するステップと
    をさらに有する
    ことを特徴とする請求項1記載の方法。
  6. 前記(D)ステップは、前記第3セグメントのコンテンツがキーワード又はキー・フレーズとマッチするか否かに基づいて行われる
    ことを特徴とする請求項5記載の方法。
  7. 前記(D)ステップは、第1音声波形内の第3セグメントの時間位置に基づいて行われる
    ことを特徴とする請求項5記載の方法。
  8. 前記第3セグメントが非個人情報を含むと決定されるのは、第3セグメントの時間位置が第1音声波形の最後のN秒内にある時であり、
    前記Nは、第1音声波形の時間長さの秒数未満の正数である
    ことを特徴とする請求項7記載の方法。
  9. (F)第1セグメントにタグが付された時に、前記第1セグメントを変更するステップ
    をさらに有する
    ことを特徴とする請求項1記載の方法。
  10. 前記(F)のステップは、第1セグメントの場所にトーンを入れる
    ことを特徴とする請求項9記載の方法。

JP2008319176A 2008-09-28 2008-12-16 個人(オーディ)情報を含まないメディア・ストリームを保存する方法 Pending JP2010079235A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/239,798 US8244531B2 (en) 2008-09-28 2008-09-28 Method of retaining a media stream without its private audio content

Publications (1)

Publication Number Publication Date
JP2010079235A true JP2010079235A (ja) 2010-04-08

Family

ID=41213390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008319176A Pending JP2010079235A (ja) 2008-09-28 2008-12-16 個人(オーディ)情報を含まないメディア・ストリームを保存する方法

Country Status (5)

Country Link
US (1) US8244531B2 (ja)
EP (1) EP2169669B1 (ja)
JP (1) JP2010079235A (ja)
KR (1) KR101344630B1 (ja)
CA (1) CA2646118C (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019220791A1 (ja) * 2018-05-14 2019-11-21 株式会社Nttドコモ 対話装置
WO2020255600A1 (ja) * 2019-06-20 2020-12-24 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9111540B2 (en) * 2009-06-09 2015-08-18 Microsoft Technology Licensing, Llc Local and remote aggregation of feedback data for speech recognition
US20110218798A1 (en) * 2010-03-05 2011-09-08 Nexdia Inc. Obfuscating sensitive content in audio sources
US9253304B2 (en) * 2010-12-07 2016-02-02 International Business Machines Corporation Voice communication management
US8700406B2 (en) * 2011-05-23 2014-04-15 Qualcomm Incorporated Preserving audio data collection privacy in mobile devices
FR2979465B1 (fr) * 2011-08-31 2013-08-23 Alcatel Lucent Procede et dispositif de ralentissement d'un signal audionumerique
CN103295575B (zh) * 2012-02-27 2019-01-25 北京三星通信技术研究有限公司 一种语音识别方法和客户端
US9576114B2 (en) * 2012-03-05 2017-02-21 Marvin Marshall System and method for securely retrieving and playing digital media
US9183849B2 (en) 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9195649B2 (en) 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US9158760B2 (en) * 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
US9779760B1 (en) 2013-11-15 2017-10-03 Noble Systems Corporation Architecture for processing real time event notifications from a speech analytics system
US9307084B1 (en) 2013-04-11 2016-04-05 Noble Systems Corporation Protecting sensitive information provided by a party to a contact center
US9225833B1 (en) 2013-07-24 2015-12-29 Noble Systems Corporation Management system for using speech analytics to enhance contact center agent conformance
US9456083B1 (en) 2013-11-06 2016-09-27 Noble Systems Corporation Configuring contact center components for real time speech analytics
US9407758B1 (en) 2013-04-11 2016-08-02 Noble Systems Corporation Using a speech analytics system to control a secure audio bridge during a payment transaction
US9602665B1 (en) 2013-07-24 2017-03-21 Noble Systems Corporation Functions and associated communication capabilities for a speech analytics component to support agent compliance in a call center
US9674357B1 (en) 2013-07-24 2017-06-06 Noble Systems Corporation Using a speech analytics system to control whisper audio
US9191508B1 (en) 2013-11-06 2015-11-17 Noble Systems Corporation Using a speech analytics system to offer callbacks
US9154623B1 (en) 2013-11-25 2015-10-06 Noble Systems Corporation Using a speech analytics system to control recording contact center calls in various contexts
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US9602666B2 (en) 2015-04-09 2017-03-21 Avaya Inc. Silence density models
US9544438B1 (en) * 2015-06-18 2017-01-10 Noble Systems Corporation Compliance management of recorded audio using speech analytics
KR102177786B1 (ko) * 2016-05-13 2020-11-12 구글 엘엘씨 미디어 출력 디바이스들 사이의 미디어 전달
US10423797B2 (en) * 2017-03-21 2019-09-24 International Business Machines Corporation Skull conduction-based telephonic conversation management
US10021245B1 (en) 2017-05-01 2018-07-10 Noble Systems Corportion Aural communication status indications provided to an agent in a contact center
US10909978B2 (en) * 2017-06-28 2021-02-02 Amazon Technologies, Inc. Secure utterance storage
US11210461B2 (en) * 2017-07-05 2021-12-28 Interactions Llc Real-time privacy filter
US10540521B2 (en) 2017-08-24 2020-01-21 International Business Machines Corporation Selective enforcement of privacy and confidentiality for optimization of voice applications
CN108091332A (zh) * 2017-12-27 2018-05-29 盯盯拍(深圳)技术股份有限公司 基于行车记录仪的语音处理方法以及基于行车记录仪的语音处理装置
EP3598444B1 (en) * 2018-07-16 2023-12-27 Tata Consultancy Services Limited Method and system for muting classified information from an audio
US10468026B1 (en) * 2018-08-17 2019-11-05 Century Interactive Company, LLC Dynamic protection of personal information in audio recordings
US11030337B2 (en) * 2018-08-24 2021-06-08 International Business Machines Corporation Confidential audio content loss mitigation
US10304442B1 (en) 2018-09-06 2019-05-28 International Business Machines Corporation Identifying digital private information and preventing privacy violations
US11310209B2 (en) * 2019-09-10 2022-04-19 Motorola Solutions, Inc. Method and device for protecting confidentiality of audio messages
US11900927B2 (en) 2020-12-23 2024-02-13 Optum Technology, Inc. Cybersecurity for sensitive-information utterances in interactive voice sessions using risk profiles
US11854553B2 (en) 2020-12-23 2023-12-26 Optum Technology, Inc. Cybersecurity for sensitive-information utterances in interactive voice sessions
US11368585B1 (en) 2021-03-23 2022-06-21 International Business Machines Corporation Secured switch for three-way communications
US12003575B2 (en) 2022-02-22 2024-06-04 Optum, Inc. Routing of sensitive-information utterances through secure channels in interactive voice sessions

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63165900A (ja) * 1986-12-27 1988-07-09 沖電気工業株式会社 会話音声認識方式
JPH06175677A (ja) * 1992-12-07 1994-06-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2006178203A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声情報加工システム、音声情報加工方法及び音声情報加工プログラム
WO2007009028A2 (en) * 2005-07-13 2007-01-18 Hyperquality, Inc. Selective security masking within recorded speech utilizing speech recognition techniques
JP2007041443A (ja) * 2005-08-05 2007-02-15 Advanced Telecommunication Research Institute International 音声変換装置、音声変換プログラムおよび音声変換方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5420866A (en) * 1994-03-29 1995-05-30 Scientific-Atlanta, Inc. Methods for providing conditional access information to decoders in a packet-based multiplexed communications system
JP3180655B2 (ja) * 1995-06-19 2001-06-25 日本電信電話株式会社 パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US6014427A (en) * 1996-12-26 2000-01-11 At&T Corp Voice mail with embedded executable responses
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6850893B2 (en) 2000-01-14 2005-02-01 Saba Software, Inc. Method and apparatus for an improved security system mechanism in a business applications management system platform
US6922411B1 (en) 2000-09-29 2005-07-26 Voxeo Corporation Networked computer telephony system driven by web-based applications
US8266451B2 (en) * 2001-08-31 2012-09-11 Gemalto Sa Voice activated smart card
US7664056B2 (en) * 2003-03-10 2010-02-16 Meetrix Corporation Media based collaboration using mixed-mode PSTN and internet networks
US7418600B2 (en) * 2003-03-13 2008-08-26 International Business Machines Corporation Secure database access through partial encryption
US7450566B2 (en) 2003-06-05 2008-11-11 Oracle International Corporation Apparatus and method for providing a unified telephony solution
US8645420B2 (en) 2003-08-05 2014-02-04 Accenture Global Services Limited Methodology framework and delivery vehicle
US7158026B2 (en) * 2004-02-06 2007-01-02 @Security Broadband Corp. Security system configured to provide video and/or audio information to public or private safety personnel at a call center or other fixed or mobile emergency assistance unit
US7484107B2 (en) 2004-04-15 2009-01-27 International Business Machines Corporation Method for selective encryption within documents
US7502741B2 (en) * 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
US7847813B2 (en) * 2005-03-10 2010-12-07 Avaya Inc. Dynamic multimedia content stream delivery based on quality of service
US7778397B2 (en) * 2005-03-10 2010-08-17 Avaya Inc. Dynamic video generation in interactive voice response systems
US7940897B2 (en) 2005-06-24 2011-05-10 American Express Travel Related Services Company, Inc. Word recognition system and method for customer and employee assessment
US8433915B2 (en) 2006-06-28 2013-04-30 Intellisist, Inc. Selective security masking within recorded speech
US8019078B2 (en) * 2007-07-17 2011-09-13 International Business Machines Corporation Phone call mute notification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63165900A (ja) * 1986-12-27 1988-07-09 沖電気工業株式会社 会話音声認識方式
JPH06175677A (ja) * 1992-12-07 1994-06-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2006178203A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声情報加工システム、音声情報加工方法及び音声情報加工プログラム
WO2007009028A2 (en) * 2005-07-13 2007-01-18 Hyperquality, Inc. Selective security masking within recorded speech utilizing speech recognition techniques
JP2009501942A (ja) * 2005-07-13 2009-01-22 ハイパークオリティー,インク. 音声認識技術を利用した録音した音声内の選択的セキュリティマスキング
JP2007041443A (ja) * 2005-08-05 2007-02-15 Advanced Telecommunication Research Institute International 音声変換装置、音声変換プログラムおよび音声変換方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019220791A1 (ja) * 2018-05-14 2019-11-21 株式会社Nttドコモ 対話装置
JPWO2019220791A1 (ja) * 2018-05-14 2021-02-12 株式会社Nttドコモ 対話装置
JP7033195B2 (ja) 2018-05-14 2022-03-09 株式会社Nttドコモ 対話装置
WO2020255600A1 (ja) * 2019-06-20 2020-12-24 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
CA2646118A1 (en) 2010-03-28
US20100082342A1 (en) 2010-04-01
EP2169669B1 (en) 2013-06-19
US8244531B2 (en) 2012-08-14
EP2169669A1 (en) 2010-03-31
KR101344630B1 (ko) 2013-12-26
CA2646118C (en) 2013-10-22
KR20100036153A (ko) 2010-04-07

Similar Documents

Publication Publication Date Title
JP2010079235A (ja) 個人(オーディ)情報を含まないメディア・ストリームを保存する方法
US10446134B2 (en) Computer-implemented system and method for identifying special information within a voice recording
US10685657B2 (en) Biometrics platform
JP6714607B2 (ja) 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム
WO2019210557A1 (zh) 语音质检方法、装置、计算机设备及存储介质
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US7991613B2 (en) Analyzing audio components and generating text with integrated additional session information
US11693988B2 (en) Use of ASR confidence to improve reliability of automatic audio redaction
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
EP3262634B1 (en) Obfuscating training data
CN110807093A (zh) 语音处理方法、装置及终端设备
Płaza et al. Call transcription methodology for contact center systems
JP5164922B2 (ja) 個人情報削除装置とその方法、そのプログラムと記録媒体
CN112565242B (zh) 基于声纹识别的远程授权方法、系统、设备及存储介质
JP2005308950A (ja) 音声処理装置および音声処理システム
JP2022553338A (ja) 音声認識モデルのためのトレーニングセット生成
WO2023081962A1 (en) User authentication and login methods
JP2002258889A (ja) 辞書編集可能な音声認識装置
JP2014186062A (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130627