JP2021505032A - オーディオ・ストリームに含まれるセンシティブ・データの自動ブロッキング - Google Patents

オーディオ・ストリームに含まれるセンシティブ・データの自動ブロッキング Download PDF

Info

Publication number
JP2021505032A
JP2021505032A JP2020528400A JP2020528400A JP2021505032A JP 2021505032 A JP2021505032 A JP 2021505032A JP 2020528400 A JP2020528400 A JP 2020528400A JP 2020528400 A JP2020528400 A JP 2020528400A JP 2021505032 A JP2021505032 A JP 2021505032A
Authority
JP
Japan
Prior art keywords
sensitive
information
computer
text
audio stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020528400A
Other languages
English (en)
Other versions
JP2021505032A5 (ja
JP7255811B2 (ja
JPWO2019106517A5 (ja
Inventor
シュミット、ジェフェリー、アラン
ブラハム、アダム、デール
ニコライ、ジェイソン
サントスオッソ、ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021505032A publication Critical patent/JP2021505032A/ja
Publication of JP2021505032A5 publication Critical patent/JP2021505032A5/ja
Publication of JPWO2019106517A5 publication Critical patent/JPWO2019106517A5/ja
Application granted granted Critical
Publication of JP7255811B2 publication Critical patent/JP7255811B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5166Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with interactive voice response systems or voice portals, e.g. as front-ends
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/60Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
    • H04M2203/6009Personal information, e.g. profiles or personal directories being only provided to authorised persons
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/436Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing

Abstract

【課題】可聴センシティブ・データの自動ブロッキングのためのシステム、方法、およびコンピュータ・プログラム製品を提供する。【解決手段】入力されたオーディオはテキストに変換され、センシティブ情報について分析される。ソースからのセンシティブ情報の検出に基づいて、受信者は、可聴センシティブ情報の受信からブロックされる。【選択図】図1

Description

本開示は音声認識に関し、より詳細には、オーディオ・ストリームに含まれるセンシティブ・データの自動ブロッキングに関する。
自動音声認識は、コンピュータまたはシステムによって受信された会話などのオーディオ信号を、テキストに変換するためのプロセスである。この変換は、オーディオ信号に基づいてテキストのシーケンスを自動的に生成するために、コンピュータ・プログラムを介して実装されるアルゴリズムを使用する、音声テキスト化エンジン(speech-to-text engine)によって達成される。
顧客がコール・センターに電話をするとき、顧客は時折、クレジット・カード番号または社会保障番号などの個人情報を与える。問題は、情報を与えている人物が信頼できるかどうかを発呼者がどのように知るかである。ほとんどのコール・センターは従業員が署名した契約書を有しており、違反した従業員には法的措置を取る。ほとんどのコール・センターは監督人およびカメラを有している。しかしながら、これらは費用が掛かり、絶対確実であるとは言い難い信頼のできないソリューションである。さらに、これらは事後手段である(たとえば、従業員が逮捕される場合、彼らは逮捕されるような規則違反を起こしたに違いない)。
したがって、当技術分野では前述の問題に対処することが求められている。
第1の態様から見ると、本発明はオーディオ・ストリーム内のセンシティブ情報をブロックするためのシステムを提供し、システムは、少なくとも1つのプロセッサと、少なくとも1つのメモリ・コンポーネントと、1つまたは複数の発話ワードを有するオーディオ・ストリームと、センシティブ・ワード・リストと、オーディオ・ストリームをテキストに復号するように構成された少なくとも1つの音声テキスト化エンジンと、テキスト文字列内のワードをセンシティブ・ワード・リストとマッチングする際に、センシティブ情報を示すテキスト文字列についてテキストを分析するように構成されたセンシティブ・ワード検出エンジンと、センシティブ・ワード・リストにマッチするワードがオーディオ・ストリームから検出された場合に、オーディオ・ストリームをブロックするように構成されたブロッキング・エンジンと、を備える。
さらなる態様から見ると、本発明は、オーディオ・ストリーム内のセンシティブ情報をブロックするための方法を提供し、方法は、オーディオ・フィードから、発話ワードを有するオーディオ・ストリームを受信すること、少なくとも1つの音声テキスト化エンジンを用いてオーディオ・ストリームをテキストに変換すること、センシティブ・ワード検出エンジンによって、テキスト文字列内のワードをセンシティブ・ワード・リストとマッチングする際に、センシティブ情報を示すテキスト文字列についてテキストを分析すること、および、ブロッキング・エンジンによってオーディオ・ストリームの少なくとも一部をブロックすることであって、ブロックされるオーディオ・ストリームの一部は検出されたセンシティブ・ワードの少なくとも一部である、ブロックすること、を含む。
さらなる態様から見ると、本発明は、オーディオ・ストリーム内のセンシティブ情報をブロックするためのコンピュータ・プログラム製品を提供し、コンピュータ・プログラム製品は、コンピュータ可読記憶媒体を備え、コンピュータ可読記憶媒体は、処理回路によって読み取り可能であり、本発明のステップを実行するための方法を実行するために処理回路による実行のための命令を記憶する。
さらなる態様から見ると、本発明は、コンピュータ可読媒体上に記憶され、デジタル・コンピュータの内部メモリにロード可能な、コンピュータ・プログラムを提供し、コンピュータ・プログラムは、当該プログラムがコンピュータ上で実行されるとき、本発明のステップを実行するためのソフトウェア・コード部分を備える。
様々な実施形態は、可聴センシティブ・データの自動ブロッキングを選択するための方法を対象とする。これは、1つまたは複数の音声テキスト化エンジンを用いて音声データの一部を復号し、センシティブ・データが開示されようとしているかまたは開示されていることを示すキー・ワードについて、テキストを分析する。1つまたは複数のキー・ワードが識別されると、システムは、聞き手にセンシティブ情報が聞こえないようにブロックすることができる。
一実施形態において、方法、コンピュータ・プログラム製品、およびシステムは、オーディオ・フィードからオーディオ・ストリームを受信することであって、オーディオ・ストリームは発話ワードを有する、受信すること、少なくとも1つの音声テキスト化エンジンを用いてオーディオ・ストリームをテキストに変換すること、センシティブ・ワード検出エンジンによって、テキスト文字列内のワードをセンシティブ・ワード・リストとマッチングする際に、センシティブ情報を示すテキスト文字列についてテキストを分析すること、および、ブロッキング・エンジンによってオーディオ・ストリームの少なくとも一部をブロックすることであって、ブロックされるオーディオ・ストリームの一部は検出されたセンシティブ・ワードの少なくとも一部である、ブロックすること、を含む。
次に、本発明の実施形態を、添付の図面を参照しながら単なる例として説明する。
本開示のいくつかの実施形態に従った、センシティブ音声ブロッキング・システムを示すブロック図である。 本開示のいくつかの実施形態に従った、例示のセンシティブ音声ブロッキング・プロセスを示す流れ図である。 本開示のいくつかの実施形態に従った、コンピュータ・システムを示すブロック図である。 本開示のいくつかの実施形態に従った、クラウド・コンピューティング環境を示す概略図である。 本開示のいくつかの実施形態に従った、抽象モデル層を示す概略図である。
本明細書で説明する可聴センシティブ・データの自動ブロッキングのプロセスは、聞き手がリアル・タイムまたはほぼリアル・タイムでセンシティブ・データを聞くのを自動的にブロックすることを含む。クレジット・カード情報などのセンシティブ情報は、しばしば、組織のために働く従業員に電話を介して与えられる。そうした従業員がセンシティブ情報を盗み、これを違法な目的に使用する、複数のインスタンスが存在する。オーディオ・フィードを遮断してセンシティブ情報を従業員からブロックすることで、従業員がセンシティブ情報を盗むのを防ぐために役立つ1つの安全対策となる。
オーディオ・ストリーム内に含まれるセンシティブ・データの自動ブロッキング・プロセスは、1つまたは複数の音声テキスト化エンジンを用いて音声データの一部を復号し、センシティブ・データが開示されようとしているかまたは開示されていることを示すキー・ワードについてテキストを分析する。1つまたは複数のキー・ワードが識別されると、システムは話し手が開示するセンシティブ情報を聞き手が聞くのをブロックすることができる。システムは、センシティブ情報が話されようとしているときに、より正確に識別するために、実際の会話ストリーム(たとえば、コール・データ)を使用することによってトレーニングされる。いくつかの実施形態において、システムは、各コール・センターにおける各コール対応オペレータ向けにカスタマイズされる。たとえば、異なるコール対応オペレータは、通話者によって話されようとしているセンシティブ情報を示す異なるキー・ワード・パターンを有することができる。したがって、システムは、異なる通話者、言語、方言、アクセントなどに対処することによって、より多くの情報を得るため、より正確になる。
センシティブ音声またはセンシティブ・オーディオ情報(たとえば、クレジット・カード情報、健康情報、位置、識別情報など)をブロックすることは、様々な応用例で使用可能である。応用例の一例は、コール・センターの従業員と話すときに、コール・センターにクレジット・カード情報を与えることを含むことができる。このような例において、会社の代表は、潜在顧客に発呼するか、または潜在顧客からの呼を受けることができる。呼の間に、潜在顧客はクレジット・カード情報を与えることが必要な場合がある。たとえば、「私のクレジット・カード番号は」と言うことで、コンピュータ・システムをトリガし、コール・センターの従業員に情報を聞かせることなく、それに続くクレジット・カード情報をブロックし、および、コンピュータに情報を記録する。コンピュータ・システムが、通話者がもはやセンシティブ情報を開示していないものと決定した後、コンピュータ・システムは、コール・センターの従業員が情報を聞くのをブロックすることを停止することができる。
いくつかの実施形態において、センシティブ情報がすでに開示され始めた後にシステムがセンシティブ情報を検出した場合、システムはセンシティブ情報を遮断することも可能である。たとえば、通話者がクレジット・カードの番号を言い始めた場合、システムは、すべてのクレジット・カード番号を言い終わる前に、他の当事者から即時にオーディオ・フィードをブロックし始めることができる。この側面は、システムのトレーニングにも使用可能である。たとえば、システムがセンシティブ情報を検出した後、センシティブ情報に先行するワードを、センシティブ情報が与えられようとしていることを示すワードとして目録に追加することができる。
図1は、オーディオ・フィード内のセンシティブ音声をブロックする、センシティブ音声ブロッキング・システム100のコンポーネントを示すブロック図である。センシティブ音声ブロッキング・システム100は、可聴入力101と、図1では102−1、102−2、102−Nと示され、集合的に102と示される、少なくとも1つのチャネルと、コンピュータ可読音声データ105と、本明細書では集合的に120と示される1つまたは複数の音声テキスト化エンジン120−1、120−2、120−3、120−4、120−Nと、テキスト・データ115と、センシティブ・ワード・リスト132を伴うセンシティブ・ワード検出エンジンと、ブロッキング・エンジン140と、設定160と、レポート・エンジン180とを含む。図1のコンポーネントは、ソフトウェア、ハードウェア、またはそれらの組合せとすることができる。
センシティブ音声ブロッキング・システム100は、聞き手がセンシティブ情報(たとえば、社会保障番号、銀行支店コード、口座番号、健康情報、またはクレジット・カード情報、あるいはその組合せ)を聞くのをブロックするプロセスを実施する。可聴入力101は音声データ105のソースであり、プロセッサが処理可能な(たとえば、デジタル符号化されるか、またはアナログ形式の)データに変換される発話された言語とすることができる。可聴入力101は、様々なソースから発せられるものであり、異なる様式で記録および処理することができる。可聴入力101は、生の音声または事前に記録された音声などの、任意の形の音声とすることができる。可聴入力101は、コンピュータによって生成される音声などの合成音声とすることもできる。可聴入力101は、たとえば、電話での会話、記録デバイスに吹き込まれた音声、ビデオ・チャットを使用する会話などを含むことができる。可聴入力101はデジタル化することが可能であり、結果として生じるコンピュータ可読音声データ105は、後続のステップで分析可能である。
可聴入力101は、少なくとも1つのチャネル、102−1、102−2、および102−Nによって受信される。チャネルは、ワイヤ、ケーブル、光ファイバなどの、任意のタイプの伝送媒体とすることができる。いくつかの場合、可聴入力101は単一チャネル102上に記録可能であり、他の場合には、1つまたは複数の可聴入力を別個のチャネル102上に記録可能である。図1は、1つのセンシティブ音声ブロッキング・システム100を示している。しかしながら、いくつかの実施形態において、複数のシステムを採用することが可能である。加えて、図1には3つのチャネルが示されているが、いくつかの実施形態において、システム100内により多いかまたは少ないチャネル102が存在してよい。
図1に示されるセンシティブ音声ブロッキング・システム100は、1つまたは複数の音声テキスト化エンジン120−1、120−2、120−3、120−4、120−Nおよびセンシティブ・ワード検出エンジン130を使用して、受信した音声データ105を復号する。
音声テキスト化エンジン120は、コンピュータ可読音声データ105に変換された会話を復号するために使用可能である。音声テキスト化エンジン120の各々は、変動する速さまたは変動する確度レベル、あるいはその両方で動作可能であり、音声データ105を復号するときに、アソート・モデルを採用することができる。これらのモデルの2つの例は音響モデル125および言語モデル135であり、図1では音声テキスト化エンジン120−1に含まれるように示されている。しかしながら、これらのモデルは他の音声テキスト化エンジンにも存在可能であることに留意されたい。音響モデル125および言語モデル135は、使用可能なモデルの例であるが、他のモデルも使用可能である。使用可能な他のモデルの例は、音声ワードモデル、言語モデル、センテンス・モデルなどを含むことができ、音声の様々な他の要素を検出すること、および音声データの様々な他の特徴を認識することが可能である。追加のモデルおよび動作を含めることが可能であり、いくつかの実施形態では、本明細書で考察するモデルおよび動作を省略することができる。
センシティブ音声ブロッキング・システム100によって受信される音声データ105は、より小さな部分にセグメント化することができる。これは、音声データ105をしばしば「フレーム」と呼ばれるチャンクに分割することを含むことができる。音声データ105をセグメント化するための1つの手法は、固定長さの時間またはデータのフレームに分割することである。一般的なフレーム長さは10ミリ秒である。しかしながら、他のフレーム長さが使用可能である。音声データ105をフレームに分割することは、セグメント化の1つの例示的な方法であるが、他の手法も同様に使用可能である。たとえば、音声データ105を、個別のワードまたはフレーズであるものと決定される可能性が高いセクションに分割することができる。
システムは復号された言語を取り、センシティブ・ワード検出エンジン130で処理する。いくつかの実施形態において、センシティブ・ワード検出エンジン130は、音声テキスト化エンジン120によって提供されたワードまたはフレーズあるいはその両方を、センシティブ・ワード・リスト132と比較する。受信したテキストは、下記でより詳細に考察される、音声テキスト化エンジン120内の様々なモデル(たとえば、モデル125およびモデル135)のうちの1つによって識別される様々なマーカを有することができる。マーカは、各ワードの定義と共に分析するために、センシティブ・ワード検出エンジン130に口調または方言などの音声変化を示すことができる。たとえば、プラスチックというワードに言及するとき、人によってポリマーまたはクレジット・カードのいずれかを意味する場合がある。いくつかの実施形態において、センシティブ・ワード検出エンジン130は、人物の履歴または地域の方言に基づいて、ワードの意味を識別することができる。
いくつかの実施形態において、センシティブ・ワード検出エンジン130は、個人情報の共有を防ぐために、会話に関与する任意の当事者からの言語を分析する。たとえばコール・センターの従業員はクレジット・カードを要求する場合があり、または別のインスタンスでは、消費者は「ここに私のクレジット・カードがあります」と言う場合がある。いずれのインスタンスでも、システムはセンシティブ情報が話されようとしていることを予測できる。
現在、センシティブ情報が話されているか、または話されようとしているものと決定された後、ブロッキング・エンジン140は、呼の当事者のうちの1人または複数が情報を聞くのをブロックすることができる。いくつかの実施形態において、システム100は、複数のブロッキング・エンジン140を有することができる。たとえば、コール・センターの従業員は、すべてのセンシティブ情報をブロックするより制限的なブロッキング・エンジンを有するが、管理者は、何らかのセンシティブ情報を聞くことができるそれほど制限的でないエンジンを有することがある。
センシティブ・ワード検出エンジン130が、個人データがすでに話されていると判定され、先行するパターンが検出されなかった場合には、話し手のオーディオ・ストリームを聞き手からブロックするように、ブロッキング・エンジン140に指示することができる。たとえば、クレジット・カード番号が読まれているが、クレジット・カード番号の先行パターンが検出されなかった場合、クレジット・カード番号が読まれている旨をシステム100が決定すると即時に(たとえば、1つまたはそれ以上の数字のあと)、ブロッキング・エンジンは、聞き手からのクレジット・カード番号のブロックを開始することができる。
いくつかの実施形態において、レポート・エンジン180は、情報を処理するように指定されたセキュア・システム190にセンシティブ情報をレポートする。いくつかの実施形態において、セキュア・システムは通常のシステムの機能のすべてを含むが、センシティブ・データへの未許可のアクセスを防止するために機能強化されたセキュリティ制御を備える。いくつかの実施形態において、セキュア・システムはセンシティブ情報を取り扱うように設計された別個のシステムである。センシティブ情報が必要なとき、ブロッキング・エンジン140は聞き手が情報を聞くのをブロックすることが可能であり、レポート・エンジン180は情報を処理するためにセキュア・システム190にレポートすることができる。たとえば、患者が病院の課金エージェントと電話をしている場合、課金システムは患者の社会保障番号を必要とする場合があるが、エージェントはその情報を直接聞く必要がない。レポート・エンジンは、音声テキスト化エンジン120によってテキスト化された社会保障番号を、エージェントを迂回して課金システムにセキュアに伝送することができる。
ブロッキング・エンジン140は、センシティブ情報がもはや通信されていない旨をセンシティブ・ワード検出エンジン130が決定すると、センシティブ情報のブロックを停止するように構成された、システム100のコンポーネントである。いくつかの実施形態において、センシティブ・ワード検出エンジン130は、話し手が情報の提供を完了した旨を決定し、ブロッキング・エンジン140にブロックの停止を指示する。たとえば、社会保障番号の最後の数字が読まれると、センシティブ・ワード検出エンジンは、さらなるセンシティブ情報がすぐに話されることはない旨を決定することができる。継続のワードまたはフレーズが話された旨をセンシティブ・ワード検出エンジン130が決定した場合、センシティブ・ワード検出エンジン130は、ブロックを再開するようにブロッキング・エンジン140に指示することができる。継続のワードまたはフレーズとは、たとえば「繰り返して」、「それを繰り返して」、「しまった」、「間違えた」、「番号が違う」、「もう一度試して」などとすることができる。
一実施形態において、センシティブ・ワード検出エンジン130は、センシティブ情報の途切れを決定し、一時的に呼をブロック解除することができる。たとえば、話し手が「待ってください、VISAと言いましたか」などの質問を差し挟んだ場合、センシティブ・ワード検出エンジン130は、一時停止が必要な間、呼のブロックを解除するようにブロッキング・エンジン140に指示し、センシティブ情報の発話が再開されたとき、オーディオ・フィードをブロックするようにブロッキング・エンジン140に指示することができる。
いくつかの実施形態において、システムは、情報をレポートせずブロックするだけである。たとえば子供の携帯電話は、未承認の通話者に子供が位置情報を与えるのをブロックすることができる。
いくつかの実施形態において、センシティブ情報が聞かれていないことを保証するために、オーディオ信号を遅延させることができる。これは、たとえばセンシティブ・ワード検出エンジン130が、センシティブ情報をブロックするための時間内にテキストの先行パターンに気付かない場合、使用することができる。オーディオ信号の遅延は、余分な情報がブロックされる場合、聞き手が話し手にそれら自体を繰り返すように求める必要がないように、使用することもできる。たとえば、患者が自分の症状を病院のコール・センターの従業員に説明しているとき、コール・センターの従業員が通話者の個人情報を聞くための適切な資格を持たない場合、システムは情報をブロックする可能性がある。しかしながら、患者が個人情報を与えた直後に質問する場合、オーディオ・フィードが依然としてブロックされていると、コール・センターの従業員は質問を聞き逃す可能性がある。オーディオ・フィードにわずかな遅延を与えることによって、システムは、ブロックを除去するのに十分な時間を有し、コール・センターの従業員が質問を聞けるようにすることができる。
いくつかの実施形態において、ブロッキング・エンジン140は、聞き手が情報を聞くための適切な資格を有するかどうかを判別し、オーディオ信号がブロックされるべきであるかどうかを判別する。センシティブ・ワード検出エンジン130は、オーディオの各ワードまたはセクションにレベル値を付与することが可能であり、ブロッキング・エンジン140は、そのレベル値を聞き手のレベルと比較して、オーディオをブロックするべきか否かを決定することができる。たとえば会社は、異なるレベルのコール・センターの従業員を有する場合がある。第1のレベルは低いセンシティブ情報レベルを有する可能性があるため、いずれのセンシティブ情報も聞く許可は与えられていないが、第5のレベルの従業員は高いセンシティブ情報レベルを有する可能性があるため、すべてのセンシティブ情報を聞く資格が与えられている。
いくつかの実施形態において、センシティブ情報が話される前にテキストの先行パターンが検出された場合、テキストの先行パターンはセンシティブ・ワード・リスト132に記憶される。先行パターンは、先行パターンが検出されなかった場合に記憶することができる。先行パターンは、パターンが検出されたが検出された先行パターンがセンシティブ・ワード・リスト132内のいずれのエントリとも異なった場合にも記憶可能である。たとえば、センシティブ・ワード検出エンジン130は、「soc」が「社会保障番号」の省略であると決定した場合でも、「soc」をセンシティブ・ワード・リスト132に記憶することができる。いくつかの実施形態において、システムは機械学習を使用して、センシティブ・ワード・リスト132に入力されたワードまたはフレーズを分析し、センシティブ・ワード認識システムを向上させる。
いくつかの実施形態において、システムは、センシティブ情報につながらない非指示テキスト(non-indicative text)も記憶する。テキストがセンシティブ情報の前に来ないが、センシティブ情報につながる先行パターン・テキストと緊密に関連している場合、非指示テキストとラベル付けされる。非指示テキストは、センシティブ情報につながらないワードまたはフレーズとしてセンシティブ・ワード・リスト132に記憶することができる。たとえばシステムは、「社会化(socialize)」を「社会保障番号」の俗語として連携させるが、「社会化」はセンシティブ情報にはつながらない。したがって、「社会化」のインスタンスの後に社会保障番号が続かないとき、このインスタンスはセンシティブ・ワード検出エンジン130によって非指示テキストであるものと決定され、センシティブ情報につながらないワードとしてセンシティブ・ワード・リスト132に記憶する場合がある。
音響モデル125は、音声データ105を備える個々の音の特徴をシステム100が検出および解釈できるようにする。音響モデル125は、可聴入力101と個々の音の単位(たとえば、音素、ワード、フレーズ、センテンスなどの言語特徴)との間の関係を表すことができる。音響モデル125は、既存のオーディオ記録のセット(たとえば、以前の呼の記録)を、それらの記録の既存のトランスクリプトと比較することによって、トレーニングすることができる。たとえば、センシティブ情報が開示された、以前の呼である。これらの比較に基づき、言語の異なる特徴を構成する音の統計的表現を作成することができる。畳み込みニューラル・ネットワークなどの人工ニューラル・ネットワークは、個々の音およびワードなどの単位を分類することが可能な音響モデル化手法の例である。隠れマルコフ・モデル(HMM)、格子ベース分析、エントロピー・ベース音声分節化アルゴリズムなどの、他の手法も使用可能である。いくつかの例において、記録された音の特徴を、音響モデル125によって認識された特定のワードまたは他の音とマッチングさせることができる。
音響モデル125の確度を強化するために、モデル125は、音声データ105内の一般的な特徴を認識するようにトレーニングすることができる。これらの特徴のうちのいくつかは、記録された音声の明瞭さに干渉する場合がある。風または自動車からの雑音などの周囲雑音は、起こり得る干渉特徴の例である。音響モデル125がこの雑音を認識して除去するようにトレーニングされた場合、言語特徴などの認識すべき音を分離することができる。たとえば、音声データ105内の言語特徴を分離することで、テキスト・データ115への変換を容易にすることができる。
加えて、音響モデル125は、音声の可聴特徴における変動を認識するようにトレーニングすることができる。このトレーニングは、様々な様式で達成可能である。1つの手法は、1人または複数の人がスクリプト付きステートメントを声に出して読むのを記録し、その後、この発話されたステートメントをその書かれたスクリプトと比較することである。いくつかの実施形態において、音響モデル125は、特定のアクセントを認識するようにトレーニングすることができる。たとえば、アイルランドアクセントのある少なくとも1人の人物が、音響モデル125をトレーニングするためにスクリプト付きステートメントを読むのを記録することができる。この音響モデル125は、その後、アイルランドアクセントで話された言語を復号する際に特に有効であり得る。このようなモデル125は、アイルランドのコール・センターで採用することができる。さらに高い特異性について、音響モデル125は特定の人物を認識するようにトレーニングすることができる。一例では、コール・センターで働く人物が、仕事を開始する前にスクリプト付きステートメントを復唱することができる。これにより、チャネル102上で動作する音声テキスト化エンジン120、またはセンシティブ・ワード検出エンジン130が、それら個々の声の音をより容易に認識できるようになり、ひいては先行パターン・テキストを認識できるようになる。
音声テキスト化エンジン120は、さらに、言語モデル135の助けを借りて音声データ105を復号することができる。図1では、言語モデル135はエンジン120−1内に示されている。言語モデル135は、互いに同様に聞こえるワードまたはフレーズを区別するのに役立つコンテキストを提供することができる。いくつかの実施形態において、これは、特定のコンテキスト内にワードが現れる確率を推定するために、統計モデルを使用して実行できる。言語モデル135は、隠れマルコフ・モデル(HMM)を含む、音響モデル125と同じ復号のための手法のうちの多くを採用することができる。隠れマルコフ・モデルは、ワードおよびフレーズの所与のセットによって提供されるコンテキストに基づいて、気付かれていないいずれのワードおよびフレーズが現れる可能性が高いかを予測することができる。
一例において、言語モデル135は、「retirement(退職)」および「investments(投資)」のようなワードが「fund(資金)」および「secure(安全)」のようなワードと共に頻繁に見つかると予測することができる。これによって、言語モデル135は、音響モデル125によって認識されるワードまたはフレーズの2つの可能な解釈間の相違を決定することができる。たとえば、音声データ105の一部を復号する音声テキスト化エンジン120は、「I think my retirement fund is secure because of my investments(私の退職資金は私の投資によって安全であると思われる)」および「I think my re−tire mint fund is secure because of my in vest mints」という、2つの代替テキスト解釈を生成する可能性がある。この2つの解釈は、「retirement」および「re−tire mint」、ならびに「investments」および「in vest mints」というワードにおいて異なっている。しかしながら、どちらの解釈も「fund」というワードを含んでいる。「fund」というワードは、言語モデル135によって、一般に「retirement」および「investment」のようなワードと共に見つかることが知られているため、モデル135は、第1の解釈の方が正しい可能性が高いものと決定できる。
言語モデル135は、音響モデル125と同様の様式でトレーニングすることができる。たとえば、アイルランドアクセントの人々によって話されたスクリプト付きステートメントの記録を用いて音響モデル125をトレーニングすることに加えて、言語モデル135は、アイルランド内で話される際の英語と共通の特定のワードおよび文法構造を認識するようにトレーニングすることができる。このトレーニングに対する1つの手法は、この地域に共通したワード、センテンス、および文法上の慣習の例を、モデル135に入力することである。これらの例は、話される言語またはテキストの形とすることが可能であり、ユーザによる入力が可能である。
音声データ105を復号した後に、音声テキスト化エンジン120によって出力されるテキスト・データ115は、様々な目的で使用可能である。たとえばテキスト・データ115を閲覧者に表示することができる。いくつかの場合、テキスト・データ115は、音声データ105が復号される際にリアル・タイムで表示することができる。リアル・タイムのテキスト・データ115を閲覧者に表示する例は、キャプション付き電話呼、データ・エントリ、およびトランスクリプトなどを含む。
他の実施形態において、テキスト・データ115は、表示されないかまたは完全には表示されない場合がある。この1つの例が、ある人物と販売員との口頭でのやりとりであり得る。このような場合、顧客はある商品の購入を希望する可能性がある。販売員は顧客に製品の詳細を話しており、最終的には購入を完了させるためにクレジット・カード情報を必要とする可能性がある。システムは、顧客の関連情報を消し、販売員が検証するための非センシティブ情報をスクリーン上に表示することができる。センシティブ情報が与えられたとき、販売員のオーディオ・フィードはブロックされ、クレジット・カード情報は販売員のスクリーン上に表示されないか、または不明瞭にすることができる。
図2は、いくつかの実施形態に従った、センシティブ情報ブロッキング・プロセス200を示す流れ図である。プロセス200は、単一のコンピュータ・システムによって実施されているように示されているが、他の実施形態では、プロセスは複数のコンピュータ・システムによって実施することができる。プロセス200は、音声データ105の一部がセンシティブ音声ブロッキング・システム100に入力されたときに開始する。音声データ105は、図1に関連して説明したように、コンピュータ可読音声データ105に変換された可聴入力101によってもたらされることが可能である。プロセス200のステップ210において、音声データまたは会話ストリームは、システム100データ105内に受信される。
いくつかの実施形態において、すべての使用可能な音声テキスト化エンジン120を使用して、ステップ220で、音声データ105をテキストに変換することができる。ステップ220では、音声の異なる側面が分析され、センシティブ・ワード検出エンジン130による使用のためにタグ付けされてもよい。たとえば、データの特定のセグメントは、方言、アクセント、人物の識別情報、俗語などについてタグ付けされ得る。
ステップ220で復号された音声データ105は、ステップ230において、たとえばセンシティブ・ワード検出エンジン130によってセンシティブ音声について分析される。センシティブ・ワード・リスト132に記憶された復号された音声のサンプルは、ステップ230において、音声テキスト化エンジン120によって提供されるテキストと比較され、センシティブ情報が与えられようとしているか、与えられたか、または検出されていないかを、判別することができる。
センシティブ情報の分析に続き、センシティブ・ワード検出エンジン130は、センシティブ情報が与えられているかどうかを判別する。これは、ステップ240に示されている。センシティブ情報(すなわち、すでに開示されているセンシティブ情報、または、センシティブ情報が開示されようとしていることを示すキー・ワードが検出された)が検出された場合、ブロッキング・エンジン140はステップ260で、聞き手からオーディオ・ストリームをブロックする。たとえば、ブロッキング・エンジンは、クレジット・カード番号が読み上げられる前、またはクレジット・カード番号が読み上げられている間に、オーディオ・ストリームのブロックを開始することができる。
センシティブ・ワード検出エンジン130は、ステップ270で、センシティブ情報が依然として開示されているかどうかを判別するために、前述のように、会話の監視を続行することができる。いくつかの実施形態において、これは、センシティブ情報が完了した(たとえば、クレジット・カード番号全体が与えられた)こと、または、センシティブ情報の開示において休止が存在する(たとえば、話し手が質問をする)ことの、決定を含む。いくつかの実施形態において、センシティブ情報のストリームが停止していない場合、ブロッキング・エンジン140は、ステップ260によってセンシティブ情報のブロックを続行する。いくつかの実施形態において、センシティブ情報の流れが停止した場合、センシティブ・ワード検出エンジン130は、ステップ240において会話ストリーム(たとえば、音声テキスト化エンジン120からのテキスト)の分析を続行することになる。
いくつかの実施形態において、ステップ240で、開示されようとしているセンシティブ情報がないものと決定した場合、システムはステップ280で、会話が終了したかどうかをチェックする。会話が終了していない場合、システムはステップ240で、会話ストリームの分析を続行することになる。ステップ280でシステムが、会話が終了したものと決定した場合、システムは会話を終えることになる。いくつかの実施形態において、センシティブ・ワード検出エンジン130は、呼の終了または停止ワード(たとえば、さようなら)の検出に起因して、システム100が停止するように命じるまで、音声データ105の復号を続行する。ステップ280において、情報ブロッキング・プロセス200のステップ240を停止するための命令が存在するかどうかが判別される。これらの命令は設定160に記憶することができる。
いくつかの実施形態では、ステップ280において、センシティブ音声ブロッキング・システム100に1つまたは複数のステップを反復するように指示する命令が存在するかどうかが判別される。これらの命令も設定160に記憶することができる。システムに、たとえばステップ210を反復するように指示する命令が存在する場合、プロセス200はステップ210に戻り、ステップ210、220、230、240などの反復において、音声データ105の次の部分を復号および分析するために、音声テキスト化エンジンが再度選択される。ステップ280において、ステップが反復されないものと決定された場合、プロセス200は終了する。いくつかの実施形態において、1つまたは複数のステップは同時におよび/または並行して実行することができる。
図3は、本開示の実施形態に従って(たとえば、コンピュータの1つもしくは複数のプロセッサ回路またはコンピュータ・プロセッサを使用して)、本明細書で説明する方法、ツール、およびコンポーネント、ならびに任意の関係機能のうちの1つまたは複数の実装において使用可能な、例示のコンピュータ・システム300を示す高水準ブロック図である。いくつかの実施形態において、コンピュータ・システム300の主要なコンポーネントは、1つまたは複数のプロセッサ302、メモリ・サブシステム309、端末インターフェース312、ストレージ・インターフェース316、I/O(入力/出力)デバイス・インターフェース314、およびネットワーク・インターフェース318を備えることができ、それらのすべては、コンポーネント間通信のために、メモリ・バス303、I/Oバス308、バス・インターフェース・ユニット307、およびI/Oバス・インターフェース・ユニット310を介して、直接または間接的に、通信可能に結合可能である。
コンピュータ・システム300は、本明細書では概してCPU302と呼ぶ、1つまたは複数の汎用プログラム可能中央処理ユニット(CPU)302−1、302−2、および302−Nを含むことができる。いくつかの実施形態において、コンピュータ・システム300は、相対的に大きなシステムに特有なように複数のプロセッサを含むことが可能であるが、他の実施形態では代替として、コンピュータ・システム300は単一のCPUシステムとすることができる。各CPU302は、メモリ・サブシステム309に記憶された命令を実行すること、および、1つまたは複数のレベルのオンボード・キャッシュを含むことができる。
メモリ309は、データおよびプログラムを記憶するかまたは符号化するための、ランダム・アクセス半導体メモリ、記憶デバイス、または記憶媒体(揮発性または不揮発性のいずれか)を含むことができる。いくつかの実施形態において、メモリ309はコンピュータ・システム300の仮想メモリ全体を表し、また、コンピュータ・システム300に結合されるかまたはネットワークを介して接続された、他のコンピュータ・システムの仮想メモリを含むこともできる。メモリ309は、概念上は単一のモノリシック・エンティティであるが、他の実施形態では、メモリ309は、キャッシュおよび他のメモリ・デバイスの階層などの、より複雑な配置である。たとえばメモリは、複数レベルのキャッシュ内に存在することができ、これらのキャッシュは、1つのキャッシュが命令を保持し、別のキャッシュが非命令データを保持するというように、1つまたは複数のプロセッサによって使用される、機能によってさらに分割可能である。メモリは、さらに分散可能であり、様々ないわゆる不均等メモリ・アクセス(NUMA)コンピュータ・アーキテクチャのうちのいずれかで知られるような、異なるCPUまたはCPUのセットに関連付けることができる。メモリ309はセンシティブ音声ブロッキング・システム100を記憶することもできる。センシティブ音声ブロッキング・システム100は、可聴入力101を記録するための1つまたは複数のチャネル(たとえば、図1の102−1、102−2、102−N)、1つまたは複数の音声テキスト化エンジン(たとえば、図1の120−1、120−2、120−3、120−4、120−N)、センシティブ・ワード検出エンジン(たとえば、図1の130)、ブロッキング・エンジン(たとえば、図1の140)、レポート・エンジン(たとえば、図1の180)、出力比較コンポーネント、または設定(たとえば、図1の160)、あるいはそれらの組合せを含むことができる。
センシティブ音声ブロッキング・システム100は、コンピュータ・システム300のメモリ309内に含まれるものとして示されているが、他の実施形態では、センシティブ音声ブロッキング・システム100は、1つまたは複数の異なるコンピュータ・システム内または間で具体化可能であり、たとえばネットワークを介してリモートにアクセス可能である。コンピュータ・システム300は、コンピュータ・システム300のプログラムが、複数のより小さな記憶エンティティへのアクセスではなく、大きな単一の記憶エンティティへのアクセス権のみを有するかのように挙動することを可能にする、仮想アドレス指定機構を使用することができる。したがって、センシティブ音声ブロッキング・システムはメモリ309内に含まれるように示されているが、必ずしも同時に同じ記憶デバイス内に完全に含まれるものではない。さらに、センシティブ音声ブロッキング・システム100のコンポーネントは別個のエンティティとすることができるが、他の実施形態では、これらのコンポーネントのうちのいくつか、これらのコンポーネントのうちのいくつかの一部、または、これらのコンポーネントすべてを、まとめてパッケージングすることができる。
いくつかの実施形態において、センシティブ音声ブロッキング・システム100は、本開示でさらに説明するような機能を実施するために、プロセッサ302上で実行する命令、または、プロセッサ302上で実行する命令によって解釈される命令を含むことができる。別の実施形態において、センシティブ音声ブロッキング・システム100は、プロセッサ・ベース・システムの代わりに、またはこれに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、または他の物理ハードウェア・デバイス、あるいはそれらの組合せを介して、ハードウェア内に実装される。別の実施形態では、センシティブ音声ブロッキング・システム100は、命令に加えてデータを含むことができる。
図3では、メモリ・バス303は、CPU302、メモリ・サブシステム309、ディスプレイ・システム306、バス・インターフェース307、およびI/Oバス・インターフェース310の間で、直接通信パスを提供する単一のバス構造として示されているが、メモリ・バス303は、いくつかの実施形態において、階層、星、または網型の構成における2地点間リンク、複数の階層バス、並列および冗長パス、または任意の他の適切なタイプの構成などの、様々な形のいずれかで配置可能な、複数の異なるバスまたは通信パスを含むことができる。さらに、I/Oバス・インターフェース310およびI/Oバス308は単一のそれぞれのユニットとして示されているが、コンピュータ・システム300は、いくつかの実施形態において、複数のI/Oバス・インターフェース・ユニット310、複数のI/Oバス308、またはその両方を含むことができる。さらに、様々なI/Oデバイスに通じる様々な通信パスからI/Oバス308を分離する、複数のI/Oインターフェース・ユニットが示されているが、他の実施形態では、I/Oデバイスのいくつかまたはすべてを、1つまたは複数のシステムI/Oバスに直接接続することができる。
コンピュータ・システム300は、プロセッサ302、メモリ309、ディスプレイ・システム306、およびI/Oバス・インターフェース・ユニット310の間の通信を取り扱うために、バス・インターフェース・ユニット307を含むことができる。I/Oバス・インターフェース・ユニット310は、様々なI/Oユニットの間でデータを転送するために、I/Oバス308と結合することができる。I/Oバス・インターフェース・ユニット310は、I/Oバス308を介して、I/Oプロセッサ(IOP)またはI/Oアダプタ(IOA)とも知られる、複数のI/Oインターフェース・ユニット312、314、316、および318と通信する。ディスプレイ・システム306はディスプレイ・コントローラを含むことができる。ディスプレイ・コントローラは、視覚、聴覚、またはその両方のタイプのデータをディスプレイ・デバイス305に提供することができる。ディスプレイ・システム306は、スタンドアロン型ディスプレイ・スクリーン、コンピュータ・モニタ、テレビジョン、またはタブレット、もしくはハンドヘルド・デバイス・ディスプレイなどの、ディスプレイ・デバイス305と結合することができる。代替実施形態において、ディスプレイ・システム306によって提供される機能のうちの1つまたは複数は、プロセッサ302搭載集積回路とすることができる。加えて、バス・インターフェース・ユニット307によって提供される機能のうちの1つまたは複数は、プロセッサ302搭載集積回路とすることができる。
いくつかの実施形態において、コンピュータ・システム300は、マルチユーザ・メインフレーム・コンピュータ・システム、シングルユーザ・システム、またはダイレクト・ユーザ・インターフェースをほとんどまたは全く有さないが他のコンピュータ・システム(クライアント)から要求を受信するサーバ・コンピュータもしくは同様のデバイスとすることができる。さらに、いくつかの実施形態において、コンピュータ・システム300は、デスクトップ・コンピュータ、ポータブル・コンピュータ、ラップトップまたはノート型コンピュータ、タブレット・コンピュータ、ポケット・コンピュータ、電話、スマートフォン、ネットワーク・スイッチまたはルータ、あるいは、任意の他の適切なタイプの電子デバイスとして実装可能である。
図3は、例示のコンピュータ・システム300の代表的な主要コンポーネントを示すものと意図されることに留意されたい。しかしながら、いくつかの実施形態において、個々のコンポーネントは図3に提示されたよりも高いかまたは低い複雑さを有することが可能であり、図3に示されたもの以外、またはそれに加えてコンポーネントが存在可能であり、さらにこうしたコンポーネントの数、タイプ、および構成は変更可能である。
いくつかの実施形態において、本明細書で説明する音声テキスト化エンジン選択プロセスは、図4および図5に関して以下で説明するクラウド・コンピューティング環境で実装可能である。本開示はクラウド・コンピューティングの詳細な説明を含むが、本明細書に示された教示の実装はクラウド・コンピューティング環境に限定されないことを理解されよう。むしろ、本開示の実施形態は、現在知られているかまたは今後開発される、任意の他のタイプのコンピューティング環境に関連して実装されることが可能である。
クラウド・コンピューティングは、最小限の管理努力またはサービスのプロバイダとの対話で、高速にプロビジョニングおよび解除することが可能な、構成可能なコンピューティング・リソース(たとえば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス)の共有プールへの便利なオンデマンド・ネットワーク・アクセスを実行可能にするための、サービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特徴、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含むことができる。
特徴は下記の通りである。
オンデマンド・セルフサービス:クラウド消費者は、人とサービス・プロバイダとの対話を必要とせず、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。
ブロード・ネットワーク・アクセス:機能は、ネットワークを介して利用可能であり、異種のシンまたはシック・クライアント・プラットフォーム(たとえば、モバイル・フォン、ラップトップ、およびPDA)による使用を促進する標準機構を介してアクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースは、要求に従って動的に割り当ておよび再割り当てされる、異なる物理リソースおよび仮想リソースと共に、マルチテナント・モデルを使用して複数の消費者にサービスを提供するためにプールされる。消費者は一般に、提供されるリソースの正確な位置に対する制御または知識を有さないが、より高い抽象化レベル(たとえば、国、州、またはデータセンター)で位置を指定できる可能性があるという点で、位置独立感がある。
高速弾性:機能は、迅速にスケール・アウトするために、高速かつ弾力的に、いくつかの場合には自動的にプロビジョニング可能であり、迅速にスケール・インするために、高速に解除可能である。消費者にとって、プロビジョニングに利用可能な機能は、しばしば無制限に見え、いつでもどれだけでも購入可能である。
サービスの測定:クラウド・システムは、サービスのタイプ(たとえば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)に適した何らかのレベルの抽象化で計測機能を利用することによって、リソースの使用を自動的に制御および最適化する。リソースの使用率は、利用サービスのプロバイダおよび消費者の両方に対して透明性を与えながら、監視、制御、および報告することができる。
サービス・モデルは下記の通りである。
サービスとしてのソフトウェア(SaaS):消費者に提供される機能は、クラウド・インフラストラクチャ上で実行するプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブ・ブラウザ(たとえば、ウェブベースの電子メール)などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。消費者は、ネットワーク、サーバ、オペレーティング・システム、ストレージ、あるいは個々のアプリケーション機能を含む、基礎となるクラウド・インフラストラクチャを管理または制御しないが、制限付きのユーザ固有のアプリケーション構成設定は例外の可能性がある。
サービスとしてのプラットフォーム(PaaS):消費者に提供される機能は、プログラミング言語およびプロバイダによってサポートされるツールを使用して作成された、消費者作成または獲得アプリケーションを、クラウド・インフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基礎となるクラウド・インフラストラクチャを管理または制御しないが、展開されたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を介した制御を有する。
サービスとしてのインフラストラクチャ(IaaS):消費者に提供される機能は、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることであり、消費者は、オペレーティング・システムおよびアプリケーションを含むことが可能な、任意のソフトウェアを展開および実行することが可能である。消費者は、基礎となるクラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、展開されたアプリケーション、および場合によっては、ネットワーキング・コンポーネント(たとえば、ホスト・ファイアウォール)の選択の制限付き制御を介した、制御を有する。
展開モデルは下記の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは、単に組織のために動作される。組織または第三者によって管理可能であり、オンプレミスまたはオフプレミスに存在可能である。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有懸案事項(たとえば、任務、セキュリティ要件、ポリシー、およびコンプライアンス問題)を有する特定のコミュニティをサポートする。組織または第三者によって管理可能であり、オンプレミスまたはオフプレミスに存在可能である。
パブリック・クラウド:クラウド・インフラストラクチャは、一般市民または大企業グループが利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性(たとえば、クラウド間の負荷分散のためのクラウド・バースティング)を実行可能にする標準化またはプロプライエタリ技術によって結び付けられた、2つまたはそれ以上のクラウド(プライベート、コミュニティ、またはパブリック)の混成物である。
クラウド・コンピューティング環境は、ステートレス性、疎結合、モジュール方式、およびセマンティック相互運用性に重点を置いた、サービス指向性である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。
次に、図4を参照すると、クラウド・コンピューティング環境450の概略図が示されている。図に示されるように、クラウド・コンピューティング環境450は、たとえば、携帯情報端末(PDA)または携帯電話454−1、デスクトップ・コンピュータ454−2、ラップトップ・コンピュータ454−3、または自動車用コンピュータ・システム454−4、あるいはそれらの組合せなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスと通信することができる、1つまたは複数のコンピューティング・ノード410を含む。ノード410は互いに通信することができる。これらは、上記で説明したような、プライベート、コミュニティ、パブリック、またはハイブリッドのクラウド、あるいはそれらの組合せなどの、1つまたは複数のネットワークにおいて、物理的または仮想的にグループ化することができる(図示せず)。これによって、クラウド・コンピューティング環境450は、インフラストラクチャ、プラットフォーム、またはサービスとしてのソフトウェア、あるいはそれらの組合せを、提示できるようになり、クラウド消費者はローカル・コンピューティング・デバイス上でリソースを維持する必要がない。図4に示されるタイプのコンピューティング・デバイス454−1〜454−4は、単なる例示であるものと意図されること、ならびに、コンピューティング・ノード410およびクラウド・コンピューティング環境450は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能接続あるいはその両方を介して(たとえば、ウェブ・ブラウザを使用して)、任意のタイプのコンピュータ化されたデバイスと通信可能であることを理解されよう。
次に図5を参照すると、クラウド・コンピューティング環境450(図4)によって提供される機能抽象化層のセットの概略図が示されている。図5に示されるコンポーネント、層、および機能は単なる例示であり、開示の実施形態はそれらに限定されないものと意図されることを、あらかじめ理解されたい。図に示されるように、下記の層および対応する機能が提供される。ハードウェアおよびソフトウェア層560は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム561、RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベース・サーバ562、サーバ563、ブレード・サーバ564、ストレージ・デバイス565、ならびに、ネットワークおよびネットワーキング・コンポーネント566を含む。いくつかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア567およびデータベース・ソフトウェア568を含む。
仮想化層570は、仮想サーバ571、仮想ストレージ572、仮想プライベート・ネットワークを含む仮想ネットワーク573、仮想アプリケーションおよびオペレーティング・システム574、ならびに仮想クライアント575という、仮想エンティティの例が提供可能な、抽象化層を提供する。
一例では、管理層580は下記で説明する機能を提供することができる。リソース・プロビジョニング581は、クラウド・コンピューティング環境内でタスクを実行するために利用される、コンピューティング・リソースおよび他のリソースの動的調達を提供する。計測およびプライシング582は、クラウド・コンピューティング環境内でリソースが利用される際の費用追跡、および、これらのリソースの消費のための課金またはインボイス作成を提供する。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含むことができる。セキュリティは、クラウド消費者およびタスクについての識別検証、ならびにデータおよび他のリソースのための保護を提供する。ユーザ・ポータル583は、消費者およびシステム管理者のためにクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理584は、必要なサービス・レベルを満たすようなクラウド・コンピューティング・リソースの割振りおよび管理を提供する。サービス・レベル合意書(SLA)の計画および達成585は、SLAに従って将来の要件が予測される、クラウド・コンピューティング・リソースの事前配置および調達を提供する。
作業負荷層590は、クラウド・コンピューティング環境が利用可能な機能性の例を提供する。この層から提供可能な作業負荷および機能の例は、マッピングおよびナビゲーション591、ソフトウェア開発およびライフサイクル管理592、仮想教室教育配信593、データ分析処理594、トランザクション処理595、および音声テキスト化エンジン選択596を含む。
本明細書においてより詳細に考察するように、本明細書で説明する方法の実施形態のいくつかのうちのいくつかまたはすべての動作は、代替の順序で実行可能であるか、または全く実行しなくてもよく、さらに複数の動作は同時に、またはより大きなプロセスの内部として発生可能であることが企図される。
本開示は、システム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組合せとすることができる。コンピュータ・プログラム製品は、本開示の態様をプロセッサに実施させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(単数または複数)を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することが可能な、有形デバイスとすることができる。コンピュータ可読記憶媒体は、たとえば電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、またはそれらの任意の好適な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより特定の例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、静的ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピィ・ディスク、パンチカードまたは溝内に命令が記録された隆起構造などの機械的符号化デバイス、ならびに、それらの任意の好適な組合せを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波または他の自由に伝搬する電磁波、導波路または他の伝送媒体を介して伝搬する電磁波(たとえば、光ファイバ・ケーブルを通過する光パルス)、または、ワイヤを介して伝送される電気信号などのように、それ自体が一過性の信号であるように解釈されることはない。
本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスへ、あるいは、たとえばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークまたはワイヤレス・ネットワーク、あるいはそれらの組合せなどのネットワークを介して外部コンピュータまたは外部記憶デバイスへ、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組合せを備えることができる。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するために、コンピュータ可読プログラム命令を転送する。
本開示のステップを実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいは、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで作成された、ソース・コードまたはオブジェクト・コードのいずれか、とすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン型ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上および部分的にリモート・コンピュータ上で、あるいは、完全にリモート・コンピュータまたはサーバ上で、実行可能である。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む、任意のタイプのネットワークを介して、ユーザのコンピュータに接続することができるか、あるいは、(たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに接続することができる。いくつかの実施形態において、たとえば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラム可能論理アレイ(PLA)を含む、電子回路は、本開示の態様を実行するために、電子回路を個人化するためにコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行することができる。
本明細書において、本開示の実施形態に従った方法、装置(システム)、およびコンピュータ・プログラム製品の、流れ図またはブロック図あるいはその両方を参照しながら、本開示の態様を説明する。流れ図またはブロック図あるいはその両方の各ブロック、および、流れ図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実装可能であることを理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行する命令が、流れ図またはブロック図あるいはその両方の1つまたは複数のブロック内に指定された機能/動作を実装するための手段を作り出すべく、汎用コンピュータ、特定用途向けコンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されて、マシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、内部に命令が記憶されたコンピュータ可読記憶媒体が、流れ図またはブロック図あるいはその両方の1つまたは複数のブロック内に指定された機能/動作の態様を実装する命令を含む製品を備えるべく、コンピュータ可読記憶媒体内に記憶され、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組合せに特定の様式で機能するように指示することが可能なものであってもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、流れ図またはブロック図あるいはその両方の1つまたは複数のブロック内に指定された機能/動作を実装するべく、コンピュータ実装プロセスを作成するために、コンピュータ、他のプログラム可能データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラム可能装置、または他のデバイスに、一連のステップを実行させるものであってもよい。
図面内の流れ図およびブロック図は、本開示の様々な実施形態に従った、システム、方法、およびコンピュータ・プログラム製品の、アーキテクチャ、機能性、ならびに可能な実装のステップを示す。この点に関して、流れ図またはブロック図内の各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能命令を備える、コンポーネント、セグメント、または命令の一部を表すことができる。いくつかの代替の実装において、ブロック内に示される機能は、図面内に示された順序以外で実行することができる。たとえば、連続して示される2つのブロックは実際にはほぼ同時に実行可能であるか、またはブロックは、時折、含まれる機能性に応じて逆の順序で実行可能である。ブロック図または流れ図あるいはその両方の各ブロック、およびブロック図または流れ図あるいはその両方のブロックの組合せは、指定された機能または動作を実行するか、あるいは特定用途向けハードウェアおよびコンピュータ命令の組合せを実施する、特定用途向けハードウェア・ベース・システムによって実装可能であることにも留意されよう。
本開示の様々な実施形態の説明を例示の目的で提示してきたが、これらは網羅的ではなく、また開示された実施形態に限定されるものでもないことが意図される。当業者であれば、説明した実施形態の範囲および思想から逸脱することなく、多くの変更および変形が明らかとなろう。本明細書で使用される用語は、実施形態、実際の適用例、または市場に見られる技術を介した技術的改良の原理を、最も良く説明するために、あるいは、本明細書で開示する実施形態を当業者が理解できるようにするために選択された。
本開示は特定の実施形態に関して説明してきたが、当業者であれば、それらの変更および改変が明らかとなろう。したがって、下記の特許請求の範囲は、本開示の範囲内に入るようなすべての変更および改変をカバーするように解釈されるべきであることが意図される。
本開示は、任意の可能な技術的詳細レベルの統合における、システム、方法、またはコンピュータ・プログラム製品あるいはそれらの組合せとすることができる。コンピュータ・プログラム製品は、プロセッサに本開示の態様を実施させるためのコンピュータ可読プログラム命令を有する、コンピュータ可読記憶媒体(単数または複数)を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することが可能な、有形デバイスとすることができる。コンピュータ可読記憶媒体は、たとえば電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、またはそれらの任意の好適な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより特定の例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、静的ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピィ・ディスク、パンチカードまたは溝内に命令が記録された隆起構造などの機械的符号化デバイス、ならびに、それらの任意の好適な組合せを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を介して伝搬する電磁波(たとえば、光ファイバ・ケーブルを通過する光パルス)、または、ワイヤを介して伝送される電気信号などのように、それ自体が一過性の信号であるように解釈されることはない。
本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスへ、あるいは、たとえばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークまたはワイヤレス・ネットワーク、あるいはそれらの組合せなどのネットワークを介して外部コンピュータまたは外部記憶デバイスへ、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組合せを備えることができる。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するために、コンピュータ可読プログラム命令を転送する。
本開示のステップを実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用構成データ、あるいは、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語などの手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで作成された、ソース・コードまたはオブジェクト・コードのいずれか、とすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン型ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上および部分的にリモート・コンピュータ上で、あるいは、完全にリモート・コンピュータまたはサーバ上で、実行可能である。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む、任意のタイプのネットワークを介して、ユーザのコンピュータに接続することができるか、あるいは、(たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに接続することができる。いくつかの実施形態において、たとえば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラム可能論理アレイ(PLA)を含む、電子回路は、本開示の態様を実行するために、電子回路を個人化するためにコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行することができる。
本明細書において、本開示の実施形態に従った方法、装置(システム)、およびコンピュータ・プログラム製品の、流れ図またはブロック図あるいはその両方を参照しながら、本開示の態様を説明する。流れ図またはブロック図あるいはその両方の各ブロック、および、流れ図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実装可能であることを理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行する命令が、流れ図またはブロック図あるいはその両方の1つまたは複数のブロック内に指定された機能/動作を実装するための手段を作り出すべく、汎用コンピュータ、特定用途向けコンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されて、マシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、内部に命令が記憶されたコンピュータ可読記憶媒体が、流れ図またはブロック図あるいはその両方の1つまたは複数のブロック内に指定された機能/動作の態様を実装する命令を含む製品を備えるべく、コンピュータ可読記憶媒体内に記憶され、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組合せに特定の様式で機能するように指示することが可能なものであってもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、流れ図またはブロック図あるいはその両方の1つまたは複数のブロック内に指定された機能/動作を実装するべく、コンピュータ実装プロセスを作成するために、コンピュータ、他のプログラム可能データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラム可能装置、または他のデバイスに、一連のステップを実行させるものであってもよい。
図面内の流れ図およびブロック図は、本開示の様々な実施形態に従った、システム、方法、およびコンピュータ・プログラム製品の、アーキテクチャ、機能性、ならびに可能な実装のステップを示す。この点に関して、流れ図またはブロック図内の各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能命令を備える、コンポーネント、セグメント、または命令の一部を表すことができる。いくつかの代替の実装において、ブロック内に示される機能は、図面内に示された順序以外で実行することができる。たとえば、連続して示される2つのブロックは実際にはほぼ同時に実行可能であるか、またはブロックは、時折、含まれる機能性に応じて逆の順序で実行可能である。ブロック図または流れ図あるいはその両方の各ブロック、およびブロック図または流れ図あるいはその両方のブロックの組合せは、指定された機能または動作を実行するか、あるいは特定用途向けハードウェアおよびコンピュータ命令の組合せを実施する、特定用途向けハードウェア・ベース・システムによって実装可能であることにも留意されよう。
本開示の様々な実施形態の説明を例示の目的で提示してきたが、これらは網羅的ではなく、また開示された実施形態に限定されるものでもないことが意図される。当業者であれば、説明した実施形態の範囲から逸脱することなく、多くの変更および変形が明らかとなろう。本明細書で使用される用語は、実施形態、実際の適用例、または市場に見られる技術を介した技術的改良の原理を、最も良く説明するために、あるいは、本明細書で開示する実施形態を当業者が理解できるようにするために選択された。

Claims (16)

  1. オーディオ・ストリーム内のセンシティブ情報をブロックするためのシステムであって、
    少なくとも1つのプロセッサと、
    少なくとも1つのメモリ・コンポーネントと、
    1つまたは複数の発話ワードを有する前記オーディオ・ストリームと、
    センシティブ・ワード・リストと、
    前記オーディオ・ストリームをテキストに復号するように構成された少なくとも1つの音声テキスト化エンジンと、
    テキスト文字列内のワードを前記センシティブ・ワード・リストとマッチングする際に、センシティブ情報を示す前記テキスト文字列についてテキストを分析するように構成されたセンシティブ・ワード検出エンジンと、
    前記センシティブ・ワード・リストにマッチするワードが前記オーディオ・ストリームから検出された場合に、前記オーディオ・ストリームをブロックするように構成されたブロッキング・エンジンと、
    を備える、オーディオ・ストリーム内のセンシティブ情報をブロックするためのシステム。
  2. 前記オーディオ・ストリームは電話呼の間に記録される会話である、請求項1に記載のシステム。
  3. 前記センシティブ情報は、金融情報、健康情報、クレジット情報、暗証番号情報、識別情報、および位置情報からなる群から選択される、請求項1または2に記載のシステム。
  4. 前記分析することは、前記テキストを既知のセンシティブ・トリガ・ワードのリストと比較することを含む、請求項1ないし3のいずれかに記載のシステム。
  5. 前記テキスト文字列はセンシティブ情報を含む、請求項1ないし4のいずれかに記載のシステム。
  6. 前記テキスト文字列は、一般にセンシティブ情報の前に来る1つまたは複数のワードを含む、請求項5に記載のシステム。
  7. 前記選択することは、確度閾値に合致するかまたはこれを超える音声テキスト化エンジンを選択する、請求項1ないし6のいずれかに記載のシステム。
  8. オーディオ・ストリーム内のセンシティブ情報をブロックするための方法であって、
    発話ワードを有する前記オーディオ・ストリームをオーディオ・フィードから受信することと、
    少なくとも1つの音声テキスト化エンジンを用いて前記オーディオ・ストリームをテキストに変換することと、
    センシティブ・ワード検出エンジンによって、前記テキスト文字列内のワードを前記センシティブ・ワード・リストとマッチングする際に、センシティブ情報を示す前記テキスト文字列についてテキストを分析することと、
    ブロッキング・エンジンによって前記オーディオ・ストリームの少なくとも一部をブロックすることであって、ブロックされる前記オーディオ・ストリームの前記一部は前記検出されたセンシティブ・ワードの少なくとも一部である、前記ブロックすることと、
    を含む、
    オーディオ・ストリーム内のセンシティブ情報をブロックするための方法。
  9. 前記オーディオ・ストリームは電話呼である、請求項8に記載の方法。
  10. 前記センシティブ情報は、金融情報、健康情報、クレジット情報、暗証番号情報、識別情報、および位置情報からなる群から選択される、請求項8または9記載の方法。
  11. 前記分析することは、前記テキストを既知のセンシティブ・トリガ・ワードのリストと比較することを含む、請求項8ないし10のいずれかに記載の方法。
  12. 前記テキスト文字列はセンシティブ情報を含む、請求項8ないし11のいずれかに記載の方法。
  13. 前記テキスト文字列は、一般にセンシティブ情報の前に来る1つまたは複数のワードを含む、請求項12に記載の方法。
  14. 前記選択することは、確度閾値に合致するかまたはこれを超える音声テキスト化エンジンを選択する、請求項8ないし13のいずれかに記載の方法。
  15. オーディオ・ストリーム内のセンシティブ情報をブロックするためのコンピュータ・プログラム製品であって、コンピュータ可読記憶媒体を備え、前記コンピュータ可読記憶媒体は、処理回路によって読み取り可能であると共に請求項8ないし14のいずれかに記載の方法を実行するために前記処理回路による実行のための命令を記憶する、コンピュータ・プログラム製品。
  16. コンピュータ可読媒体上に記憶され、デジタル・コンピュータの内部メモリにロード可能な、コンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項8ないし14のいずれかに記載の方法を実行するためのソフトウェア・コード部分を備える、コンピュータ・プログラム。
JP2020528400A 2017-11-28 2018-11-26 オーディオ・ストリームに含まれるセンシティブ・データの自動ブロッキング Active JP7255811B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/824,051 2017-11-28
US15/824,051 US10453447B2 (en) 2017-11-28 2017-11-28 Filtering data in an audio stream
PCT/IB2018/059300 WO2019106517A1 (en) 2017-11-28 2018-11-26 Automatic blocking of sensitive data contained in an audio stream

Publications (4)

Publication Number Publication Date
JP2021505032A true JP2021505032A (ja) 2021-02-15
JP2021505032A5 JP2021505032A5 (ja) 2021-03-25
JPWO2019106517A5 JPWO2019106517A5 (ja) 2022-11-14
JP7255811B2 JP7255811B2 (ja) 2023-04-11

Family

ID=66633386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020528400A Active JP7255811B2 (ja) 2017-11-28 2018-11-26 オーディオ・ストリームに含まれるセンシティブ・データの自動ブロッキング

Country Status (6)

Country Link
US (2) US10453447B2 (ja)
JP (1) JP7255811B2 (ja)
CN (1) CN111226274B (ja)
DE (1) DE112018005421B4 (ja)
GB (1) GB2583281B (ja)
WO (1) WO2019106517A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11210461B2 (en) * 2017-07-05 2021-12-28 Interactions Llc Real-time privacy filter
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device
US11822885B1 (en) * 2019-06-03 2023-11-21 Amazon Technologies, Inc. Contextual natural language censoring
US11706337B1 (en) * 2019-08-29 2023-07-18 United Services Automobile Association (Usaa) Artificial intelligence assistant for customer service representatives
CN112560472B (zh) * 2019-09-26 2023-07-11 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
CN111105788B (zh) * 2019-12-20 2023-03-24 北京三快在线科技有限公司 敏感词分数检测方法、装置、电子设备及存储介质
CN111753539B (zh) * 2020-06-30 2023-12-26 北京搜狗科技发展有限公司 一种识别敏感文本的方法及装置
US11349983B2 (en) 2020-07-06 2022-05-31 At&T Intellectual Property I, L.P. Protecting user data during audio interactions
CN111883128A (zh) * 2020-07-31 2020-11-03 中国工商银行股份有限公司 语音处理方法及系统、语音处理装置
CN112183079A (zh) * 2020-09-07 2021-01-05 绿瘦健康产业集团有限公司 一种语音监测方法、装置、介质及终端设备
CN112333321A (zh) * 2020-09-24 2021-02-05 咪咕文化科技有限公司 语音检测方法、装置、电子设备及存储介质
RO135860A2 (ro) * 2020-12-02 2022-06-30 Repsmate Software S.R.L. Sistem şi metodă pentru anonimizarea datelor de identificare a persoanelor aflate într-o convorbire audio/video
CN112559776A (zh) * 2020-12-21 2021-03-26 绿瘦健康产业集团有限公司 一种敏感信息的定位方法及系统
US11854553B2 (en) * 2020-12-23 2023-12-26 Optum Technology, Inc. Cybersecurity for sensitive-information utterances in interactive voice sessions
US11900927B2 (en) 2020-12-23 2024-02-13 Optum Technology, Inc. Cybersecurity for sensitive-information utterances in interactive voice sessions using risk profiles
CN112634881B (zh) * 2020-12-30 2023-08-11 广州博士信息技术研究院有限公司 一种基于科技成果数据库的语音智能识别方法及系统
CN112885371B (zh) * 2021-01-13 2021-11-23 北京爱数智慧科技有限公司 音频脱敏的方法、装置、电子设备以及可读存储介质
EP4292090A1 (en) * 2021-02-15 2023-12-20 Koninklijke Philips N.V. Methods and systems for processing voice audio to segregate personal health information
US20220272448A1 (en) * 2021-02-25 2022-08-25 Carnegie Mellon University Enabling environmental sound recognition in intelligent vehicles
US20220399009A1 (en) * 2021-06-09 2022-12-15 International Business Machines Corporation Protecting sensitive information in conversational exchanges
CN113840247A (zh) * 2021-10-12 2021-12-24 深圳追一科技有限公司 音频通信方法、装置、系统、电子设备及存储介质
CN114007131B (zh) * 2021-10-29 2023-04-25 平安科技(深圳)有限公司 视频监控方法、装置及相关设备
US20230259653A1 (en) * 2022-02-14 2023-08-17 Twilio Inc. Personal information redaction and voice deidentification
WO2023196624A1 (en) * 2022-04-08 2023-10-12 Modulate, Inc. Predictive audio redaction for realtime communication
CN114786035A (zh) * 2022-05-25 2022-07-22 上海氪信信息技术有限公司 直播场景的合规质检和互动问答系统及方法
CN115081440B (zh) * 2022-07-22 2022-11-01 湖南湘生网络信息有限公司 文本中变种词的识别及提取原敏感词的方法、装置及设备
CN116072123B (zh) * 2023-03-06 2023-06-23 南昌航天广信科技有限责任公司 广播信息播放方法、装置、可读存储介质及电子设备
CN117273054A (zh) * 2023-09-28 2023-12-22 南京八点八数字科技有限公司 一种应用不同场景的虚拟人交互方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178203A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声情報加工システム、音声情報加工方法及び音声情報加工プログラム
US20070016419A1 (en) * 2005-07-13 2007-01-18 Hyperquality, Llc Selective security masking within recorded speech utilizing speech recognition techniques
JP2012123163A (ja) * 2010-12-08 2012-06-28 Internatl Business Mach Corp <Ibm> 秘匿情報をフィルタリングする情報処理装置、方法およびプログラム
JP2015055653A (ja) * 2013-09-10 2015-03-23 セイコーエプソン株式会社 音声認識装置及び方法、並びに、電子機器
CN106504744A (zh) * 2016-10-26 2017-03-15 科大讯飞股份有限公司 一种语音处理方法及装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8473451B1 (en) 2004-07-30 2013-06-25 At&T Intellectual Property I, L.P. Preserving privacy in natural language databases
US7650628B2 (en) * 2004-10-21 2010-01-19 Escription, Inc. Transcription data security
US7502741B2 (en) * 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
US8433915B2 (en) * 2006-06-28 2013-04-30 Intellisist, Inc. Selective security masking within recorded speech
US20080208579A1 (en) 2007-02-27 2008-08-28 Verint Systems Ltd. Session recording and playback with selective information masking
US20080221882A1 (en) * 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
US8140012B1 (en) 2007-10-25 2012-03-20 At&T Mobility Ii Llc Bluetooth security profile
CN110086830B (zh) 2012-08-15 2022-03-04 维萨国际服务协会 可搜索的经加密的数据
US9131369B2 (en) 2013-01-24 2015-09-08 Nuance Communications, Inc. Protection of private information in a client/server automatic speech recognition system
US9437207B2 (en) 2013-03-12 2016-09-06 Pullstring, Inc. Feature extraction for anonymized speech recognition
US9514741B2 (en) 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition acoustic model training under data retention restrictions
US9407758B1 (en) * 2013-04-11 2016-08-02 Noble Systems Corporation Using a speech analytics system to control a secure audio bridge during a payment transaction
US9307084B1 (en) * 2013-04-11 2016-04-05 Noble Systems Corporation Protecting sensitive information provided by a party to a contact center
US9413891B2 (en) 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
CN104679729B (zh) * 2015-02-13 2018-06-26 广州市讯飞樽鸿信息技术有限公司 录音留言有效性处理方法及系统
CN105335483B (zh) * 2015-10-14 2018-11-09 广州市畅运信息科技有限公司 一种文本敏感词过滤系统和方法
CN105843950A (zh) 2016-04-12 2016-08-10 乐视控股(北京)有限公司 敏感词过滤方法及装置
US10754978B2 (en) * 2016-07-29 2020-08-25 Intellisist Inc. Computer-implemented system and method for storing and retrieving sensitive information
CN106528731A (zh) 2016-10-27 2017-03-22 新疆大学 一种敏感词过滤方法及系统
US10762221B2 (en) * 2016-11-14 2020-09-01 Paymentus Corporation Method and apparatus for multi-channel secure communication and data transfer
GB2559130B (en) * 2017-01-25 2020-05-27 Syntec Holdings Ltd Secure data exchange by voice in telephone calls
US11210461B2 (en) * 2017-07-05 2021-12-28 Interactions Llc Real-time privacy filter

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178203A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声情報加工システム、音声情報加工方法及び音声情報加工プログラム
US20070016419A1 (en) * 2005-07-13 2007-01-18 Hyperquality, Llc Selective security masking within recorded speech utilizing speech recognition techniques
JP2009501942A (ja) * 2005-07-13 2009-01-22 ハイパークオリティー,インク. 音声認識技術を利用した録音した音声内の選択的セキュリティマスキング
JP2012123163A (ja) * 2010-12-08 2012-06-28 Internatl Business Mach Corp <Ibm> 秘匿情報をフィルタリングする情報処理装置、方法およびプログラム
JP2015055653A (ja) * 2013-09-10 2015-03-23 セイコーエプソン株式会社 音声認識装置及び方法、並びに、電子機器
CN106504744A (zh) * 2016-10-26 2017-03-15 科大讯飞股份有限公司 一种语音处理方法及装置

Also Published As

Publication number Publication date
GB202009699D0 (en) 2020-08-12
DE112018005421T5 (de) 2020-07-16
US11024295B2 (en) 2021-06-01
US10453447B2 (en) 2019-10-22
US20190164539A1 (en) 2019-05-30
US20200005773A1 (en) 2020-01-02
JP7255811B2 (ja) 2023-04-11
CN111226274B (zh) 2023-09-22
GB2583281B (en) 2022-09-21
GB2583281A (en) 2020-10-21
WO2019106517A1 (en) 2019-06-06
DE112018005421B4 (de) 2022-07-21
CN111226274A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN111226274B (zh) 自动阻止音频流中包含的敏感数据
US10339923B2 (en) Ranking based on speech pattern detection
US11184298B2 (en) Methods and systems for improving chatbot intent training by correlating user feedback provided subsequent to a failed response to an initial user intent
US10062385B2 (en) Automatic speech-to-text engine selection
US10755719B2 (en) Speaker identification assisted by categorical cues
US11580959B2 (en) Improving speech recognition transcriptions
US10971168B2 (en) Dynamic communication session filtering
US11605385B2 (en) Project issue tracking via automated voice recognition
US10535352B2 (en) Automated cognitive recording and organization of speech as structured text
US20230401978A1 (en) Enhancing video language learning by providing catered context sensitive expressions
US20180042546A1 (en) Daily cognitive monitoring of early signs of hearing loss
US20220101835A1 (en) Speech recognition transcriptions
US10896664B1 (en) Providing adversarial protection of speech in audio signals
WO2022127485A1 (en) Speaker-specific voice amplification
US20220188525A1 (en) Dynamic, real-time collaboration enhancement
US10991370B2 (en) Speech to text conversion engine for non-standard speech
US20230237987A1 (en) Data sorting for generating rnn-t models
US20180122404A1 (en) Determining a behavior of a user utilizing audio data
US20220189475A1 (en) Dynamic virtual assistant speech modulation
US11556718B2 (en) Altering messaging using sentiment analysis
US20230178079A1 (en) Adversarial speech-text protection against automated analysis
US20240029712A1 (en) Speech recognition using cadence patterns
US20230281396A1 (en) Message mapping and combination for intent classification
US20220375484A1 (en) Acoustic data augmentation with mixed normalization factors

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210128

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210423

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220902

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220902

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20220902

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20221102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230308

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20230308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230322

R150 Certificate of patent or registration of utility model

Ref document number: 7255811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150