JP2021505032A

JP2021505032A - オーディオ・ストリームに含まれるセンシティブ・データの自動ブロッキング

Info

Publication number: JP2021505032A
Application number: JP2020528400A
Authority: JP
Inventors: シュミット、ジェフェリー、アラン; ブラハム、アダム、デール; ニコライ、ジェイソン; サントスオッソ、ジョン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-11-28
Filing date: 2018-11-26
Publication date: 2021-02-15
Anticipated expiration: 2038-11-26
Also published as: GB202009699D0; DE112018005421T5; US11024295B2; US10453447B2; US20190164539A1; US20200005773A1; JP7255811B2; CN111226274B; GB2583281B; GB2583281A; WO2019106517A1; DE112018005421B4; CN111226274A

Abstract

【課題】可聴センシティブ・データの自動ブロッキングのためのシステム、方法、およびコンピュータ・プログラム製品を提供する。【解決手段】入力されたオーディオはテキストに変換され、センシティブ情報について分析される。ソースからのセンシティブ情報の検出に基づいて、受信者は、可聴センシティブ情報の受信からブロックされる。【選択図】図１

Description

本開示は音声認識に関し、より詳細には、オーディオ・ストリームに含まれるセンシティブ・データの自動ブロッキングに関する。

自動音声認識は、コンピュータまたはシステムによって受信された会話などのオーディオ信号を、テキストに変換するためのプロセスである。この変換は、オーディオ信号に基づいてテキストのシーケンスを自動的に生成するために、コンピュータ・プログラムを介して実装されるアルゴリズムを使用する、音声テキスト化エンジン（speech-to-text engine）によって達成される。

顧客がコール・センターに電話をするとき、顧客は時折、クレジット・カード番号または社会保障番号などの個人情報を与える。問題は、情報を与えている人物が信頼できるかどうかを発呼者がどのように知るかである。ほとんどのコール・センターは従業員が署名した契約書を有しており、違反した従業員には法的措置を取る。ほとんどのコール・センターは監督人およびカメラを有している。しかしながら、これらは費用が掛かり、絶対確実であるとは言い難い信頼のできないソリューションである。さらに、これらは事後手段である（たとえば、従業員が逮捕される場合、彼らは逮捕されるような規則違反を起こしたに違いない）。

したがって、当技術分野では前述の問題に対処することが求められている。

第１の態様から見ると、本発明はオーディオ・ストリーム内のセンシティブ情報をブロックするためのシステムを提供し、システムは、少なくとも１つのプロセッサと、少なくとも１つのメモリ・コンポーネントと、１つまたは複数の発話ワードを有するオーディオ・ストリームと、センシティブ・ワード・リストと、オーディオ・ストリームをテキストに復号するように構成された少なくとも１つの音声テキスト化エンジンと、テキスト文字列内のワードをセンシティブ・ワード・リストとマッチングする際に、センシティブ情報を示すテキスト文字列についてテキストを分析するように構成されたセンシティブ・ワード検出エンジンと、センシティブ・ワード・リストにマッチするワードがオーディオ・ストリームから検出された場合に、オーディオ・ストリームをブロックするように構成されたブロッキング・エンジンと、を備える。

さらなる態様から見ると、本発明は、オーディオ・ストリーム内のセンシティブ情報をブロックするための方法を提供し、方法は、オーディオ・フィードから、発話ワードを有するオーディオ・ストリームを受信すること、少なくとも１つの音声テキスト化エンジンを用いてオーディオ・ストリームをテキストに変換すること、センシティブ・ワード検出エンジンによって、テキスト文字列内のワードをセンシティブ・ワード・リストとマッチングする際に、センシティブ情報を示すテキスト文字列についてテキストを分析すること、および、ブロッキング・エンジンによってオーディオ・ストリームの少なくとも一部をブロックすることであって、ブロックされるオーディオ・ストリームの一部は検出されたセンシティブ・ワードの少なくとも一部である、ブロックすること、を含む。

さらなる態様から見ると、本発明は、オーディオ・ストリーム内のセンシティブ情報をブロックするためのコンピュータ・プログラム製品を提供し、コンピュータ・プログラム製品は、コンピュータ可読記憶媒体を備え、コンピュータ可読記憶媒体は、処理回路によって読み取り可能であり、本発明のステップを実行するための方法を実行するために処理回路による実行のための命令を記憶する。

さらなる態様から見ると、本発明は、コンピュータ可読媒体上に記憶され、デジタル・コンピュータの内部メモリにロード可能な、コンピュータ・プログラムを提供し、コンピュータ・プログラムは、当該プログラムがコンピュータ上で実行されるとき、本発明のステップを実行するためのソフトウェア・コード部分を備える。

様々な実施形態は、可聴センシティブ・データの自動ブロッキングを選択するための方法を対象とする。これは、１つまたは複数の音声テキスト化エンジンを用いて音声データの一部を復号し、センシティブ・データが開示されようとしているかまたは開示されていることを示すキー・ワードについて、テキストを分析する。１つまたは複数のキー・ワードが識別されると、システムは、聞き手にセンシティブ情報が聞こえないようにブロックすることができる。

一実施形態において、方法、コンピュータ・プログラム製品、およびシステムは、オーディオ・フィードからオーディオ・ストリームを受信することであって、オーディオ・ストリームは発話ワードを有する、受信すること、少なくとも１つの音声テキスト化エンジンを用いてオーディオ・ストリームをテキストに変換すること、センシティブ・ワード検出エンジンによって、テキスト文字列内のワードをセンシティブ・ワード・リストとマッチングする際に、センシティブ情報を示すテキスト文字列についてテキストを分析すること、および、ブロッキング・エンジンによってオーディオ・ストリームの少なくとも一部をブロックすることであって、ブロックされるオーディオ・ストリームの一部は検出されたセンシティブ・ワードの少なくとも一部である、ブロックすること、を含む。

次に、本発明の実施形態を、添付の図面を参照しながら単なる例として説明する。

本開示のいくつかの実施形態に従った、センシティブ音声ブロッキング・システムを示すブロック図である。本開示のいくつかの実施形態に従った、例示のセンシティブ音声ブロッキング・プロセスを示す流れ図である。本開示のいくつかの実施形態に従った、コンピュータ・システムを示すブロック図である。本開示のいくつかの実施形態に従った、クラウド・コンピューティング環境を示す概略図である。本開示のいくつかの実施形態に従った、抽象モデル層を示す概略図である。

本明細書で説明する可聴センシティブ・データの自動ブロッキングのプロセスは、聞き手がリアル・タイムまたはほぼリアル・タイムでセンシティブ・データを聞くのを自動的にブロックすることを含む。クレジット・カード情報などのセンシティブ情報は、しばしば、組織のために働く従業員に電話を介して与えられる。そうした従業員がセンシティブ情報を盗み、これを違法な目的に使用する、複数のインスタンスが存在する。オーディオ・フィードを遮断してセンシティブ情報を従業員からブロックすることで、従業員がセンシティブ情報を盗むのを防ぐために役立つ１つの安全対策となる。

オーディオ・ストリーム内に含まれるセンシティブ・データの自動ブロッキング・プロセスは、１つまたは複数の音声テキスト化エンジンを用いて音声データの一部を復号し、センシティブ・データが開示されようとしているかまたは開示されていることを示すキー・ワードについてテキストを分析する。１つまたは複数のキー・ワードが識別されると、システムは話し手が開示するセンシティブ情報を聞き手が聞くのをブロックすることができる。システムは、センシティブ情報が話されようとしているときに、より正確に識別するために、実際の会話ストリーム（たとえば、コール・データ）を使用することによってトレーニングされる。いくつかの実施形態において、システムは、各コール・センターにおける各コール対応オペレータ向けにカスタマイズされる。たとえば、異なるコール対応オペレータは、通話者によって話されようとしているセンシティブ情報を示す異なるキー・ワード・パターンを有することができる。したがって、システムは、異なる通話者、言語、方言、アクセントなどに対処することによって、より多くの情報を得るため、より正確になる。

センシティブ音声またはセンシティブ・オーディオ情報（たとえば、クレジット・カード情報、健康情報、位置、識別情報など）をブロックすることは、様々な応用例で使用可能である。応用例の一例は、コール・センターの従業員と話すときに、コール・センターにクレジット・カード情報を与えることを含むことができる。このような例において、会社の代表は、潜在顧客に発呼するか、または潜在顧客からの呼を受けることができる。呼の間に、潜在顧客はクレジット・カード情報を与えることが必要な場合がある。たとえば、「私のクレジット・カード番号は」と言うことで、コンピュータ・システムをトリガし、コール・センターの従業員に情報を聞かせることなく、それに続くクレジット・カード情報をブロックし、および、コンピュータに情報を記録する。コンピュータ・システムが、通話者がもはやセンシティブ情報を開示していないものと決定した後、コンピュータ・システムは、コール・センターの従業員が情報を聞くのをブロックすることを停止することができる。

いくつかの実施形態において、センシティブ情報がすでに開示され始めた後にシステムがセンシティブ情報を検出した場合、システムはセンシティブ情報を遮断することも可能である。たとえば、通話者がクレジット・カードの番号を言い始めた場合、システムは、すべてのクレジット・カード番号を言い終わる前に、他の当事者から即時にオーディオ・フィードをブロックし始めることができる。この側面は、システムのトレーニングにも使用可能である。たとえば、システムがセンシティブ情報を検出した後、センシティブ情報に先行するワードを、センシティブ情報が与えられようとしていることを示すワードとして目録に追加することができる。

図１は、オーディオ・フィード内のセンシティブ音声をブロックする、センシティブ音声ブロッキング・システム１００のコンポーネントを示すブロック図である。センシティブ音声ブロッキング・システム１００は、可聴入力１０１と、図１では１０２−１、１０２−２、１０２−Ｎと示され、集合的に１０２と示される、少なくとも１つのチャネルと、コンピュータ可読音声データ１０５と、本明細書では集合的に１２０と示される１つまたは複数の音声テキスト化エンジン１２０−１、１２０−２、１２０−３、１２０−４、１２０−Ｎと、テキスト・データ１１５と、センシティブ・ワード・リスト１３２を伴うセンシティブ・ワード検出エンジンと、ブロッキング・エンジン１４０と、設定１６０と、レポート・エンジン１８０とを含む。図１のコンポーネントは、ソフトウェア、ハードウェア、またはそれらの組合せとすることができる。

センシティブ音声ブロッキング・システム１００は、聞き手がセンシティブ情報（たとえば、社会保障番号、銀行支店コード、口座番号、健康情報、またはクレジット・カード情報、あるいはその組合せ）を聞くのをブロックするプロセスを実施する。可聴入力１０１は音声データ１０５のソースであり、プロセッサが処理可能な（たとえば、デジタル符号化されるか、またはアナログ形式の）データに変換される発話された言語とすることができる。可聴入力１０１は、様々なソースから発せられるものであり、異なる様式で記録および処理することができる。可聴入力１０１は、生の音声または事前に記録された音声などの、任意の形の音声とすることができる。可聴入力１０１は、コンピュータによって生成される音声などの合成音声とすることもできる。可聴入力１０１は、たとえば、電話での会話、記録デバイスに吹き込まれた音声、ビデオ・チャットを使用する会話などを含むことができる。可聴入力１０１はデジタル化することが可能であり、結果として生じるコンピュータ可読音声データ１０５は、後続のステップで分析可能である。

可聴入力１０１は、少なくとも１つのチャネル、１０２−１、１０２−２、および１０２−Ｎによって受信される。チャネルは、ワイヤ、ケーブル、光ファイバなどの、任意のタイプの伝送媒体とすることができる。いくつかの場合、可聴入力１０１は単一チャネル１０２上に記録可能であり、他の場合には、１つまたは複数の可聴入力を別個のチャネル１０２上に記録可能である。図１は、１つのセンシティブ音声ブロッキング・システム１００を示している。しかしながら、いくつかの実施形態において、複数のシステムを採用することが可能である。加えて、図１には３つのチャネルが示されているが、いくつかの実施形態において、システム１００内により多いかまたは少ないチャネル１０２が存在してよい。

図１に示されるセンシティブ音声ブロッキング・システム１００は、１つまたは複数の音声テキスト化エンジン１２０−１、１２０−２、１２０−３、１２０−４、１２０−Ｎおよびセンシティブ・ワード検出エンジン１３０を使用して、受信した音声データ１０５を復号する。

音声テキスト化エンジン１２０は、コンピュータ可読音声データ１０５に変換された会話を復号するために使用可能である。音声テキスト化エンジン１２０の各々は、変動する速さまたは変動する確度レベル、あるいはその両方で動作可能であり、音声データ１０５を復号するときに、アソート・モデルを採用することができる。これらのモデルの２つの例は音響モデル１２５および言語モデル１３５であり、図１では音声テキスト化エンジン１２０−１に含まれるように示されている。しかしながら、これらのモデルは他の音声テキスト化エンジンにも存在可能であることに留意されたい。音響モデル１２５および言語モデル１３５は、使用可能なモデルの例であるが、他のモデルも使用可能である。使用可能な他のモデルの例は、音声ワードモデル、言語モデル、センテンス・モデルなどを含むことができ、音声の様々な他の要素を検出すること、および音声データの様々な他の特徴を認識することが可能である。追加のモデルおよび動作を含めることが可能であり、いくつかの実施形態では、本明細書で考察するモデルおよび動作を省略することができる。

センシティブ音声ブロッキング・システム１００によって受信される音声データ１０５は、より小さな部分にセグメント化することができる。これは、音声データ１０５をしばしば「フレーム」と呼ばれるチャンクに分割することを含むことができる。音声データ１０５をセグメント化するための１つの手法は、固定長さの時間またはデータのフレームに分割することである。一般的なフレーム長さは１０ミリ秒である。しかしながら、他のフレーム長さが使用可能である。音声データ１０５をフレームに分割することは、セグメント化の１つの例示的な方法であるが、他の手法も同様に使用可能である。たとえば、音声データ１０５を、個別のワードまたはフレーズであるものと決定される可能性が高いセクションに分割することができる。

システムは復号された言語を取り、センシティブ・ワード検出エンジン１３０で処理する。いくつかの実施形態において、センシティブ・ワード検出エンジン１３０は、音声テキスト化エンジン１２０によって提供されたワードまたはフレーズあるいはその両方を、センシティブ・ワード・リスト１３２と比較する。受信したテキストは、下記でより詳細に考察される、音声テキスト化エンジン１２０内の様々なモデル（たとえば、モデル１２５およびモデル１３５）のうちの１つによって識別される様々なマーカを有することができる。マーカは、各ワードの定義と共に分析するために、センシティブ・ワード検出エンジン１３０に口調または方言などの音声変化を示すことができる。たとえば、プラスチックというワードに言及するとき、人によってポリマーまたはクレジット・カードのいずれかを意味する場合がある。いくつかの実施形態において、センシティブ・ワード検出エンジン１３０は、人物の履歴または地域の方言に基づいて、ワードの意味を識別することができる。

いくつかの実施形態において、センシティブ・ワード検出エンジン１３０は、個人情報の共有を防ぐために、会話に関与する任意の当事者からの言語を分析する。たとえばコール・センターの従業員はクレジット・カードを要求する場合があり、または別のインスタンスでは、消費者は「ここに私のクレジット・カードがあります」と言う場合がある。いずれのインスタンスでも、システムはセンシティブ情報が話されようとしていることを予測できる。

現在、センシティブ情報が話されているか、または話されようとしているものと決定された後、ブロッキング・エンジン１４０は、呼の当事者のうちの１人または複数が情報を聞くのをブロックすることができる。いくつかの実施形態において、システム１００は、複数のブロッキング・エンジン１４０を有することができる。たとえば、コール・センターの従業員は、すべてのセンシティブ情報をブロックするより制限的なブロッキング・エンジンを有するが、管理者は、何らかのセンシティブ情報を聞くことができるそれほど制限的でないエンジンを有することがある。

センシティブ・ワード検出エンジン１３０が、個人データがすでに話されていると判定され、先行するパターンが検出されなかった場合には、話し手のオーディオ・ストリームを聞き手からブロックするように、ブロッキング・エンジン１４０に指示することができる。たとえば、クレジット・カード番号が読まれているが、クレジット・カード番号の先行パターンが検出されなかった場合、クレジット・カード番号が読まれている旨をシステム１００が決定すると即時に（たとえば、１つまたはそれ以上の数字のあと）、ブロッキング・エンジンは、聞き手からのクレジット・カード番号のブロックを開始することができる。

いくつかの実施形態において、レポート・エンジン１８０は、情報を処理するように指定されたセキュア・システム１９０にセンシティブ情報をレポートする。いくつかの実施形態において、セキュア・システムは通常のシステムの機能のすべてを含むが、センシティブ・データへの未許可のアクセスを防止するために機能強化されたセキュリティ制御を備える。いくつかの実施形態において、セキュア・システムはセンシティブ情報を取り扱うように設計された別個のシステムである。センシティブ情報が必要なとき、ブロッキング・エンジン１４０は聞き手が情報を聞くのをブロックすることが可能であり、レポート・エンジン１８０は情報を処理するためにセキュア・システム１９０にレポートすることができる。たとえば、患者が病院の課金エージェントと電話をしている場合、課金システムは患者の社会保障番号を必要とする場合があるが、エージェントはその情報を直接聞く必要がない。レポート・エンジンは、音声テキスト化エンジン１２０によってテキスト化された社会保障番号を、エージェントを迂回して課金システムにセキュアに伝送することができる。

ブロッキング・エンジン１４０は、センシティブ情報がもはや通信されていない旨をセンシティブ・ワード検出エンジン１３０が決定すると、センシティブ情報のブロックを停止するように構成された、システム１００のコンポーネントである。いくつかの実施形態において、センシティブ・ワード検出エンジン１３０は、話し手が情報の提供を完了した旨を決定し、ブロッキング・エンジン１４０にブロックの停止を指示する。たとえば、社会保障番号の最後の数字が読まれると、センシティブ・ワード検出エンジンは、さらなるセンシティブ情報がすぐに話されることはない旨を決定することができる。継続のワードまたはフレーズが話された旨をセンシティブ・ワード検出エンジン１３０が決定した場合、センシティブ・ワード検出エンジン１３０は、ブロックを再開するようにブロッキング・エンジン１４０に指示することができる。継続のワードまたはフレーズとは、たとえば「繰り返して」、「それを繰り返して」、「しまった」、「間違えた」、「番号が違う」、「もう一度試して」などとすることができる。

一実施形態において、センシティブ・ワード検出エンジン１３０は、センシティブ情報の途切れを決定し、一時的に呼をブロック解除することができる。たとえば、話し手が「待ってください、ＶＩＳＡと言いましたか」などの質問を差し挟んだ場合、センシティブ・ワード検出エンジン１３０は、一時停止が必要な間、呼のブロックを解除するようにブロッキング・エンジン１４０に指示し、センシティブ情報の発話が再開されたとき、オーディオ・フィードをブロックするようにブロッキング・エンジン１４０に指示することができる。

いくつかの実施形態において、システムは、情報をレポートせずブロックするだけである。たとえば子供の携帯電話は、未承認の通話者に子供が位置情報を与えるのをブロックすることができる。

いくつかの実施形態において、センシティブ情報が聞かれていないことを保証するために、オーディオ信号を遅延させることができる。これは、たとえばセンシティブ・ワード検出エンジン１３０が、センシティブ情報をブロックするための時間内にテキストの先行パターンに気付かない場合、使用することができる。オーディオ信号の遅延は、余分な情報がブロックされる場合、聞き手が話し手にそれら自体を繰り返すように求める必要がないように、使用することもできる。たとえば、患者が自分の症状を病院のコール・センターの従業員に説明しているとき、コール・センターの従業員が通話者の個人情報を聞くための適切な資格を持たない場合、システムは情報をブロックする可能性がある。しかしながら、患者が個人情報を与えた直後に質問する場合、オーディオ・フィードが依然としてブロックされていると、コール・センターの従業員は質問を聞き逃す可能性がある。オーディオ・フィードにわずかな遅延を与えることによって、システムは、ブロックを除去するのに十分な時間を有し、コール・センターの従業員が質問を聞けるようにすることができる。

いくつかの実施形態において、ブロッキング・エンジン１４０は、聞き手が情報を聞くための適切な資格を有するかどうかを判別し、オーディオ信号がブロックされるべきであるかどうかを判別する。センシティブ・ワード検出エンジン１３０は、オーディオの各ワードまたはセクションにレベル値を付与することが可能であり、ブロッキング・エンジン１４０は、そのレベル値を聞き手のレベルと比較して、オーディオをブロックするべきか否かを決定することができる。たとえば会社は、異なるレベルのコール・センターの従業員を有する場合がある。第１のレベルは低いセンシティブ情報レベルを有する可能性があるため、いずれのセンシティブ情報も聞く許可は与えられていないが、第５のレベルの従業員は高いセンシティブ情報レベルを有する可能性があるため、すべてのセンシティブ情報を聞く資格が与えられている。

いくつかの実施形態において、センシティブ情報が話される前にテキストの先行パターンが検出された場合、テキストの先行パターンはセンシティブ・ワード・リスト１３２に記憶される。先行パターンは、先行パターンが検出されなかった場合に記憶することができる。先行パターンは、パターンが検出されたが検出された先行パターンがセンシティブ・ワード・リスト１３２内のいずれのエントリとも異なった場合にも記憶可能である。たとえば、センシティブ・ワード検出エンジン１３０は、「ｓｏｃ」が「社会保障番号」の省略であると決定した場合でも、「ｓｏｃ」をセンシティブ・ワード・リスト１３２に記憶することができる。いくつかの実施形態において、システムは機械学習を使用して、センシティブ・ワード・リスト１３２に入力されたワードまたはフレーズを分析し、センシティブ・ワード認識システムを向上させる。

いくつかの実施形態において、システムは、センシティブ情報につながらない非指示テキスト（non-indicative text）も記憶する。テキストがセンシティブ情報の前に来ないが、センシティブ情報につながる先行パターン・テキストと緊密に関連している場合、非指示テキストとラベル付けされる。非指示テキストは、センシティブ情報につながらないワードまたはフレーズとしてセンシティブ・ワード・リスト１３２に記憶することができる。たとえばシステムは、「社会化（ｓｏｃｉａｌｉｚｅ）」を「社会保障番号」の俗語として連携させるが、「社会化」はセンシティブ情報にはつながらない。したがって、「社会化」のインスタンスの後に社会保障番号が続かないとき、このインスタンスはセンシティブ・ワード検出エンジン１３０によって非指示テキストであるものと決定され、センシティブ情報につながらないワードとしてセンシティブ・ワード・リスト１３２に記憶する場合がある。

音響モデル１２５は、音声データ１０５を備える個々の音の特徴をシステム１００が検出および解釈できるようにする。音響モデル１２５は、可聴入力１０１と個々の音の単位（たとえば、音素、ワード、フレーズ、センテンスなどの言語特徴）との間の関係を表すことができる。音響モデル１２５は、既存のオーディオ記録のセット（たとえば、以前の呼の記録）を、それらの記録の既存のトランスクリプトと比較することによって、トレーニングすることができる。たとえば、センシティブ情報が開示された、以前の呼である。これらの比較に基づき、言語の異なる特徴を構成する音の統計的表現を作成することができる。畳み込みニューラル・ネットワークなどの人工ニューラル・ネットワークは、個々の音およびワードなどの単位を分類することが可能な音響モデル化手法の例である。隠れマルコフ・モデル（ＨＭＭ）、格子ベース分析、エントロピー・ベース音声分節化アルゴリズムなどの、他の手法も使用可能である。いくつかの例において、記録された音の特徴を、音響モデル１２５によって認識された特定のワードまたは他の音とマッチングさせることができる。

音響モデル１２５の確度を強化するために、モデル１２５は、音声データ１０５内の一般的な特徴を認識するようにトレーニングすることができる。これらの特徴のうちのいくつかは、記録された音声の明瞭さに干渉する場合がある。風または自動車からの雑音などの周囲雑音は、起こり得る干渉特徴の例である。音響モデル１２５がこの雑音を認識して除去するようにトレーニングされた場合、言語特徴などの認識すべき音を分離することができる。たとえば、音声データ１０５内の言語特徴を分離することで、テキスト・データ１１５への変換を容易にすることができる。

加えて、音響モデル１２５は、音声の可聴特徴における変動を認識するようにトレーニングすることができる。このトレーニングは、様々な様式で達成可能である。１つの手法は、１人または複数の人がスクリプト付きステートメントを声に出して読むのを記録し、その後、この発話されたステートメントをその書かれたスクリプトと比較することである。いくつかの実施形態において、音響モデル１２５は、特定のアクセントを認識するようにトレーニングすることができる。たとえば、アイルランドアクセントのある少なくとも１人の人物が、音響モデル１２５をトレーニングするためにスクリプト付きステートメントを読むのを記録することができる。この音響モデル１２５は、その後、アイルランドアクセントで話された言語を復号する際に特に有効であり得る。このようなモデル１２５は、アイルランドのコール・センターで採用することができる。さらに高い特異性について、音響モデル１２５は特定の人物を認識するようにトレーニングすることができる。一例では、コール・センターで働く人物が、仕事を開始する前にスクリプト付きステートメントを復唱することができる。これにより、チャネル１０２上で動作する音声テキスト化エンジン１２０、またはセンシティブ・ワード検出エンジン１３０が、それら個々の声の音をより容易に認識できるようになり、ひいては先行パターン・テキストを認識できるようになる。

音声テキスト化エンジン１２０は、さらに、言語モデル１３５の助けを借りて音声データ１０５を復号することができる。図１では、言語モデル１３５はエンジン１２０−１内に示されている。言語モデル１３５は、互いに同様に聞こえるワードまたはフレーズを区別するのに役立つコンテキストを提供することができる。いくつかの実施形態において、これは、特定のコンテキスト内にワードが現れる確率を推定するために、統計モデルを使用して実行できる。言語モデル１３５は、隠れマルコフ・モデル（ＨＭＭ）を含む、音響モデル１２５と同じ復号のための手法のうちの多くを採用することができる。隠れマルコフ・モデルは、ワードおよびフレーズの所与のセットによって提供されるコンテキストに基づいて、気付かれていないいずれのワードおよびフレーズが現れる可能性が高いかを予測することができる。

一例において、言語モデル１３５は、「ｒｅｔｉｒｅｍｅｎｔ（退職）」および「ｉｎｖｅｓｔｍｅｎｔｓ（投資）」のようなワードが「ｆｕｎｄ（資金）」および「ｓｅｃｕｒｅ（安全）」のようなワードと共に頻繁に見つかると予測することができる。これによって、言語モデル１３５は、音響モデル１２５によって認識されるワードまたはフレーズの２つの可能な解釈間の相違を決定することができる。たとえば、音声データ１０５の一部を復号する音声テキスト化エンジン１２０は、「Ｉｔｈｉｎｋｍｙｒｅｔｉｒｅｍｅｎｔｆｕｎｄｉｓｓｅｃｕｒｅｂｅｃａｕｓｅｏｆｍｙｉｎｖｅｓｔｍｅｎｔｓ（私の退職資金は私の投資によって安全であると思われる）」および「Ｉｔｈｉｎｋｍｙｒｅ−ｔｉｒｅｍｉｎｔｆｕｎｄｉｓｓｅｃｕｒｅｂｅｃａｕｓｅｏｆｍｙｉｎｖｅｓｔｍｉｎｔｓ」という、２つの代替テキスト解釈を生成する可能性がある。この２つの解釈は、「ｒｅｔｉｒｅｍｅｎｔ」および「ｒｅ−ｔｉｒｅｍｉｎｔ」、ならびに「ｉｎｖｅｓｔｍｅｎｔｓ」および「ｉｎｖｅｓｔｍｉｎｔｓ」というワードにおいて異なっている。しかしながら、どちらの解釈も「ｆｕｎｄ」というワードを含んでいる。「ｆｕｎｄ」というワードは、言語モデル１３５によって、一般に「ｒｅｔｉｒｅｍｅｎｔ」および「ｉｎｖｅｓｔｍｅｎｔ」のようなワードと共に見つかることが知られているため、モデル１３５は、第１の解釈の方が正しい可能性が高いものと決定できる。

言語モデル１３５は、音響モデル１２５と同様の様式でトレーニングすることができる。たとえば、アイルランドアクセントの人々によって話されたスクリプト付きステートメントの記録を用いて音響モデル１２５をトレーニングすることに加えて、言語モデル１３５は、アイルランド内で話される際の英語と共通の特定のワードおよび文法構造を認識するようにトレーニングすることができる。このトレーニングに対する１つの手法は、この地域に共通したワード、センテンス、および文法上の慣習の例を、モデル１３５に入力することである。これらの例は、話される言語またはテキストの形とすることが可能であり、ユーザによる入力が可能である。

音声データ１０５を復号した後に、音声テキスト化エンジン１２０によって出力されるテキスト・データ１１５は、様々な目的で使用可能である。たとえばテキスト・データ１１５を閲覧者に表示することができる。いくつかの場合、テキスト・データ１１５は、音声データ１０５が復号される際にリアル・タイムで表示することができる。リアル・タイムのテキスト・データ１１５を閲覧者に表示する例は、キャプション付き電話呼、データ・エントリ、およびトランスクリプトなどを含む。

他の実施形態において、テキスト・データ１１５は、表示されないかまたは完全には表示されない場合がある。この１つの例が、ある人物と販売員との口頭でのやりとりであり得る。このような場合、顧客はある商品の購入を希望する可能性がある。販売員は顧客に製品の詳細を話しており、最終的には購入を完了させるためにクレジット・カード情報を必要とする可能性がある。システムは、顧客の関連情報を消し、販売員が検証するための非センシティブ情報をスクリーン上に表示することができる。センシティブ情報が与えられたとき、販売員のオーディオ・フィードはブロックされ、クレジット・カード情報は販売員のスクリーン上に表示されないか、または不明瞭にすることができる。

図２は、いくつかの実施形態に従った、センシティブ情報ブロッキング・プロセス２００を示す流れ図である。プロセス２００は、単一のコンピュータ・システムによって実施されているように示されているが、他の実施形態では、プロセスは複数のコンピュータ・システムによって実施することができる。プロセス２００は、音声データ１０５の一部がセンシティブ音声ブロッキング・システム１００に入力されたときに開始する。音声データ１０５は、図１に関連して説明したように、コンピュータ可読音声データ１０５に変換された可聴入力１０１によってもたらされることが可能である。プロセス２００のステップ２１０において、音声データまたは会話ストリームは、システム１００データ１０５内に受信される。

いくつかの実施形態において、すべての使用可能な音声テキスト化エンジン１２０を使用して、ステップ２２０で、音声データ１０５をテキストに変換することができる。ステップ２２０では、音声の異なる側面が分析され、センシティブ・ワード検出エンジン１３０による使用のためにタグ付けされてもよい。たとえば、データの特定のセグメントは、方言、アクセント、人物の識別情報、俗語などについてタグ付けされ得る。

ステップ２２０で復号された音声データ１０５は、ステップ２３０において、たとえばセンシティブ・ワード検出エンジン１３０によってセンシティブ音声について分析される。センシティブ・ワード・リスト１３２に記憶された復号された音声のサンプルは、ステップ２３０において、音声テキスト化エンジン１２０によって提供されるテキストと比較され、センシティブ情報が与えられようとしているか、与えられたか、または検出されていないかを、判別することができる。

センシティブ情報の分析に続き、センシティブ・ワード検出エンジン１３０は、センシティブ情報が与えられているかどうかを判別する。これは、ステップ２４０に示されている。センシティブ情報（すなわち、すでに開示されているセンシティブ情報、または、センシティブ情報が開示されようとしていることを示すキー・ワードが検出された）が検出された場合、ブロッキング・エンジン１４０はステップ２６０で、聞き手からオーディオ・ストリームをブロックする。たとえば、ブロッキング・エンジンは、クレジット・カード番号が読み上げられる前、またはクレジット・カード番号が読み上げられている間に、オーディオ・ストリームのブロックを開始することができる。

センシティブ・ワード検出エンジン１３０は、ステップ２７０で、センシティブ情報が依然として開示されているかどうかを判別するために、前述のように、会話の監視を続行することができる。いくつかの実施形態において、これは、センシティブ情報が完了した（たとえば、クレジット・カード番号全体が与えられた）こと、または、センシティブ情報の開示において休止が存在する（たとえば、話し手が質問をする）ことの、決定を含む。いくつかの実施形態において、センシティブ情報のストリームが停止していない場合、ブロッキング・エンジン１４０は、ステップ２６０によってセンシティブ情報のブロックを続行する。いくつかの実施形態において、センシティブ情報の流れが停止した場合、センシティブ・ワード検出エンジン１３０は、ステップ２４０において会話ストリーム（たとえば、音声テキスト化エンジン１２０からのテキスト）の分析を続行することになる。

いくつかの実施形態において、ステップ２４０で、開示されようとしているセンシティブ情報がないものと決定した場合、システムはステップ２８０で、会話が終了したかどうかをチェックする。会話が終了していない場合、システムはステップ２４０で、会話ストリームの分析を続行することになる。ステップ２８０でシステムが、会話が終了したものと決定した場合、システムは会話を終えることになる。いくつかの実施形態において、センシティブ・ワード検出エンジン１３０は、呼の終了または停止ワード（たとえば、さようなら）の検出に起因して、システム１００が停止するように命じるまで、音声データ１０５の復号を続行する。ステップ２８０において、情報ブロッキング・プロセス２００のステップ２４０を停止するための命令が存在するかどうかが判別される。これらの命令は設定１６０に記憶することができる。

いくつかの実施形態では、ステップ２８０において、センシティブ音声ブロッキング・システム１００に１つまたは複数のステップを反復するように指示する命令が存在するかどうかが判別される。これらの命令も設定１６０に記憶することができる。システムに、たとえばステップ２１０を反復するように指示する命令が存在する場合、プロセス２００はステップ２１０に戻り、ステップ２１０、２２０、２３０、２４０などの反復において、音声データ１０５の次の部分を復号および分析するために、音声テキスト化エンジンが再度選択される。ステップ２８０において、ステップが反復されないものと決定された場合、プロセス２００は終了する。いくつかの実施形態において、１つまたは複数のステップは同時におよび／または並行して実行することができる。

図３は、本開示の実施形態に従って（たとえば、コンピュータの１つもしくは複数のプロセッサ回路またはコンピュータ・プロセッサを使用して）、本明細書で説明する方法、ツール、およびコンポーネント、ならびに任意の関係機能のうちの１つまたは複数の実装において使用可能な、例示のコンピュータ・システム３００を示す高水準ブロック図である。いくつかの実施形態において、コンピュータ・システム３００の主要なコンポーネントは、１つまたは複数のプロセッサ３０２、メモリ・サブシステム３０９、端末インターフェース３１２、ストレージ・インターフェース３１６、Ｉ／Ｏ（入力／出力）デバイス・インターフェース３１４、およびネットワーク・インターフェース３１８を備えることができ、それらのすべては、コンポーネント間通信のために、メモリ・バス３０３、Ｉ／Ｏバス３０８、バス・インターフェース・ユニット３０７、およびＩ／Ｏバス・インターフェース・ユニット３１０を介して、直接または間接的に、通信可能に結合可能である。

コンピュータ・システム３００は、本明細書では概してＣＰＵ３０２と呼ぶ、１つまたは複数の汎用プログラム可能中央処理ユニット（ＣＰＵ）３０２−１、３０２−２、および３０２−Ｎを含むことができる。いくつかの実施形態において、コンピュータ・システム３００は、相対的に大きなシステムに特有なように複数のプロセッサを含むことが可能であるが、他の実施形態では代替として、コンピュータ・システム３００は単一のＣＰＵシステムとすることができる。各ＣＰＵ３０２は、メモリ・サブシステム３０９に記憶された命令を実行すること、および、１つまたは複数のレベルのオンボード・キャッシュを含むことができる。

メモリ３０９は、データおよびプログラムを記憶するかまたは符号化するための、ランダム・アクセス半導体メモリ、記憶デバイス、または記憶媒体（揮発性または不揮発性のいずれか）を含むことができる。いくつかの実施形態において、メモリ３０９はコンピュータ・システム３００の仮想メモリ全体を表し、また、コンピュータ・システム３００に結合されるかまたはネットワークを介して接続された、他のコンピュータ・システムの仮想メモリを含むこともできる。メモリ３０９は、概念上は単一のモノリシック・エンティティであるが、他の実施形態では、メモリ３０９は、キャッシュおよび他のメモリ・デバイスの階層などの、より複雑な配置である。たとえばメモリは、複数レベルのキャッシュ内に存在することができ、これらのキャッシュは、１つのキャッシュが命令を保持し、別のキャッシュが非命令データを保持するというように、１つまたは複数のプロセッサによって使用される、機能によってさらに分割可能である。メモリは、さらに分散可能であり、様々ないわゆる不均等メモリ・アクセス（ＮＵＭＡ）コンピュータ・アーキテクチャのうちのいずれかで知られるような、異なるＣＰＵまたはＣＰＵのセットに関連付けることができる。メモリ３０９はセンシティブ音声ブロッキング・システム１００を記憶することもできる。センシティブ音声ブロッキング・システム１００は、可聴入力１０１を記録するための１つまたは複数のチャネル（たとえば、図１の１０２−１、１０２−２、１０２−Ｎ）、１つまたは複数の音声テキスト化エンジン（たとえば、図１の１２０−１、１２０−２、１２０−３、１２０−４、１２０−Ｎ）、センシティブ・ワード検出エンジン（たとえば、図１の１３０）、ブロッキング・エンジン（たとえば、図１の１４０）、レポート・エンジン（たとえば、図１の１８０）、出力比較コンポーネント、または設定（たとえば、図１の１６０）、あるいはそれらの組合せを含むことができる。

センシティブ音声ブロッキング・システム１００は、コンピュータ・システム３００のメモリ３０９内に含まれるものとして示されているが、他の実施形態では、センシティブ音声ブロッキング・システム１００は、１つまたは複数の異なるコンピュータ・システム内または間で具体化可能であり、たとえばネットワークを介してリモートにアクセス可能である。コンピュータ・システム３００は、コンピュータ・システム３００のプログラムが、複数のより小さな記憶エンティティへのアクセスではなく、大きな単一の記憶エンティティへのアクセス権のみを有するかのように挙動することを可能にする、仮想アドレス指定機構を使用することができる。したがって、センシティブ音声ブロッキング・システムはメモリ３０９内に含まれるように示されているが、必ずしも同時に同じ記憶デバイス内に完全に含まれるものではない。さらに、センシティブ音声ブロッキング・システム１００のコンポーネントは別個のエンティティとすることができるが、他の実施形態では、これらのコンポーネントのうちのいくつか、これらのコンポーネントのうちのいくつかの一部、または、これらのコンポーネントすべてを、まとめてパッケージングすることができる。

いくつかの実施形態において、センシティブ音声ブロッキング・システム１００は、本開示でさらに説明するような機能を実施するために、プロセッサ３０２上で実行する命令、または、プロセッサ３０２上で実行する命令によって解釈される命令を含むことができる。別の実施形態において、センシティブ音声ブロッキング・システム１００は、プロセッサ・ベース・システムの代わりに、またはこれに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、または他の物理ハードウェア・デバイス、あるいはそれらの組合せを介して、ハードウェア内に実装される。別の実施形態では、センシティブ音声ブロッキング・システム１００は、命令に加えてデータを含むことができる。

図３では、メモリ・バス３０３は、ＣＰＵ３０２、メモリ・サブシステム３０９、ディスプレイ・システム３０６、バス・インターフェース３０７、およびＩ／Ｏバス・インターフェース３１０の間で、直接通信パスを提供する単一のバス構造として示されているが、メモリ・バス３０３は、いくつかの実施形態において、階層、星、または網型の構成における２地点間リンク、複数の階層バス、並列および冗長パス、または任意の他の適切なタイプの構成などの、様々な形のいずれかで配置可能な、複数の異なるバスまたは通信パスを含むことができる。さらに、Ｉ／Ｏバス・インターフェース３１０およびＩ／Ｏバス３０８は単一のそれぞれのユニットとして示されているが、コンピュータ・システム３００は、いくつかの実施形態において、複数のＩ／Ｏバス・インターフェース・ユニット３１０、複数のＩ／Ｏバス３０８、またはその両方を含むことができる。さらに、様々なＩ／Ｏデバイスに通じる様々な通信パスからＩ／Ｏバス３０８を分離する、複数のＩ／Ｏインターフェース・ユニットが示されているが、他の実施形態では、Ｉ／Ｏデバイスのいくつかまたはすべてを、１つまたは複数のシステムＩ／Ｏバスに直接接続することができる。

コンピュータ・システム３００は、プロセッサ３０２、メモリ３０９、ディスプレイ・システム３０６、およびＩ／Ｏバス・インターフェース・ユニット３１０の間の通信を取り扱うために、バス・インターフェース・ユニット３０７を含むことができる。Ｉ／Ｏバス・インターフェース・ユニット３１０は、様々なＩ／Ｏユニットの間でデータを転送するために、Ｉ／Ｏバス３０８と結合することができる。Ｉ／Ｏバス・インターフェース・ユニット３１０は、Ｉ／Ｏバス３０８を介して、Ｉ／Ｏプロセッサ（ＩＯＰ）またはＩ／Ｏアダプタ（ＩＯＡ）とも知られる、複数のＩ／Ｏインターフェース・ユニット３１２、３１４、３１６、および３１８と通信する。ディスプレイ・システム３０６はディスプレイ・コントローラを含むことができる。ディスプレイ・コントローラは、視覚、聴覚、またはその両方のタイプのデータをディスプレイ・デバイス３０５に提供することができる。ディスプレイ・システム３０６は、スタンドアロン型ディスプレイ・スクリーン、コンピュータ・モニタ、テレビジョン、またはタブレット、もしくはハンドヘルド・デバイス・ディスプレイなどの、ディスプレイ・デバイス３０５と結合することができる。代替実施形態において、ディスプレイ・システム３０６によって提供される機能のうちの１つまたは複数は、プロセッサ３０２搭載集積回路とすることができる。加えて、バス・インターフェース・ユニット３０７によって提供される機能のうちの１つまたは複数は、プロセッサ３０２搭載集積回路とすることができる。

いくつかの実施形態において、コンピュータ・システム３００は、マルチユーザ・メインフレーム・コンピュータ・システム、シングルユーザ・システム、またはダイレクト・ユーザ・インターフェースをほとんどまたは全く有さないが他のコンピュータ・システム（クライアント）から要求を受信するサーバ・コンピュータもしくは同様のデバイスとすることができる。さらに、いくつかの実施形態において、コンピュータ・システム３００は、デスクトップ・コンピュータ、ポータブル・コンピュータ、ラップトップまたはノート型コンピュータ、タブレット・コンピュータ、ポケット・コンピュータ、電話、スマートフォン、ネットワーク・スイッチまたはルータ、あるいは、任意の他の適切なタイプの電子デバイスとして実装可能である。

図３は、例示のコンピュータ・システム３００の代表的な主要コンポーネントを示すものと意図されることに留意されたい。しかしながら、いくつかの実施形態において、個々のコンポーネントは図３に提示されたよりも高いかまたは低い複雑さを有することが可能であり、図３に示されたもの以外、またはそれに加えてコンポーネントが存在可能であり、さらにこうしたコンポーネントの数、タイプ、および構成は変更可能である。

いくつかの実施形態において、本明細書で説明する音声テキスト化エンジン選択プロセスは、図４および図５に関して以下で説明するクラウド・コンピューティング環境で実装可能である。本開示はクラウド・コンピューティングの詳細な説明を含むが、本明細書に示された教示の実装はクラウド・コンピューティング環境に限定されないことを理解されよう。むしろ、本開示の実施形態は、現在知られているかまたは今後開発される、任意の他のタイプのコンピューティング環境に関連して実装されることが可能である。

クラウド・コンピューティングは、最小限の管理努力またはサービスのプロバイダとの対話で、高速にプロビジョニングおよび解除することが可能な、構成可能なコンピューティング・リソース（たとえば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス）の共有プールへの便利なオンデマンド・ネットワーク・アクセスを実行可能にするための、サービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特徴、少なくとも３つのサービス・モデル、および少なくとも４つの展開モデルを含むことができる。

特徴は下記の通りである。
オンデマンド・セルフサービス：クラウド消費者は、人とサービス・プロバイダとの対話を必要とせず、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。
ブロード・ネットワーク・アクセス：機能は、ネットワークを介して利用可能であり、異種のシンまたはシック・クライアント・プラットフォーム（たとえば、モバイル・フォン、ラップトップ、およびＰＤＡ）による使用を促進する標準機構を介してアクセスされる。
リソース・プーリング：プロバイダのコンピューティング・リソースは、要求に従って動的に割り当ておよび再割り当てされる、異なる物理リソースおよび仮想リソースと共に、マルチテナント・モデルを使用して複数の消費者にサービスを提供するためにプールされる。消費者は一般に、提供されるリソースの正確な位置に対する制御または知識を有さないが、より高い抽象化レベル（たとえば、国、州、またはデータセンター）で位置を指定できる可能性があるという点で、位置独立感がある。
高速弾性：機能は、迅速にスケール・アウトするために、高速かつ弾力的に、いくつかの場合には自動的にプロビジョニング可能であり、迅速にスケール・インするために、高速に解除可能である。消費者にとって、プロビジョニングに利用可能な機能は、しばしば無制限に見え、いつでもどれだけでも購入可能である。
サービスの測定：クラウド・システムは、サービスのタイプ（たとえば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント）に適した何らかのレベルの抽象化で計測機能を利用することによって、リソースの使用を自動的に制御および最適化する。リソースの使用率は、利用サービスのプロバイダおよび消費者の両方に対して透明性を与えながら、監視、制御、および報告することができる。

サービス・モデルは下記の通りである。
サービスとしてのソフトウェア（ＳａａＳ）：消費者に提供される機能は、クラウド・インフラストラクチャ上で実行するプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブ・ブラウザ（たとえば、ウェブベースの電子メール）などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。消費者は、ネットワーク、サーバ、オペレーティング・システム、ストレージ、あるいは個々のアプリケーション機能を含む、基礎となるクラウド・インフラストラクチャを管理または制御しないが、制限付きのユーザ固有のアプリケーション構成設定は例外の可能性がある。
サービスとしてのプラットフォーム（ＰａａＳ）：消費者に提供される機能は、プログラミング言語およびプロバイダによってサポートされるツールを使用して作成された、消費者作成または獲得アプリケーションを、クラウド・インフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基礎となるクラウド・インフラストラクチャを管理または制御しないが、展開されたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を介した制御を有する。
サービスとしてのインフラストラクチャ（ＩａａＳ）：消費者に提供される機能は、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることであり、消費者は、オペレーティング・システムおよびアプリケーションを含むことが可能な、任意のソフトウェアを展開および実行することが可能である。消費者は、基礎となるクラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、展開されたアプリケーション、および場合によっては、ネットワーキング・コンポーネント（たとえば、ホスト・ファイアウォール）の選択の制限付き制御を介した、制御を有する。

展開モデルは下記の通りである。
プライベート・クラウド：クラウド・インフラストラクチャは、単に組織のために動作される。組織または第三者によって管理可能であり、オンプレミスまたはオフプレミスに存在可能である。
コミュニティ・クラウド：クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有懸案事項（たとえば、任務、セキュリティ要件、ポリシー、およびコンプライアンス問題）を有する特定のコミュニティをサポートする。組織または第三者によって管理可能であり、オンプレミスまたはオフプレミスに存在可能である。
パブリック・クラウド：クラウド・インフラストラクチャは、一般市民または大企業グループが利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド：クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性（たとえば、クラウド間の負荷分散のためのクラウド・バースティング）を実行可能にする標準化またはプロプライエタリ技術によって結び付けられた、２つまたはそれ以上のクラウド（プライベート、コミュニティ、またはパブリック）の混成物である。

クラウド・コンピューティング環境は、ステートレス性、疎結合、モジュール方式、およびセマンティック相互運用性に重点を置いた、サービス指向性である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。

次に、図４を参照すると、クラウド・コンピューティング環境４５０の概略図が示されている。図に示されるように、クラウド・コンピューティング環境４５０は、たとえば、携帯情報端末（ＰＤＡ）または携帯電話４５４−１、デスクトップ・コンピュータ４５４−２、ラップトップ・コンピュータ４５４−３、または自動車用コンピュータ・システム４５４−４、あるいはそれらの組合せなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスと通信することができる、１つまたは複数のコンピューティング・ノード４１０を含む。ノード４１０は互いに通信することができる。これらは、上記で説明したような、プライベート、コミュニティ、パブリック、またはハイブリッドのクラウド、あるいはそれらの組合せなどの、１つまたは複数のネットワークにおいて、物理的または仮想的にグループ化することができる（図示せず）。これによって、クラウド・コンピューティング環境４５０は、インフラストラクチャ、プラットフォーム、またはサービスとしてのソフトウェア、あるいはそれらの組合せを、提示できるようになり、クラウド消費者はローカル・コンピューティング・デバイス上でリソースを維持する必要がない。図４に示されるタイプのコンピューティング・デバイス４５４−１〜４５４−４は、単なる例示であるものと意図されること、ならびに、コンピューティング・ノード４１０およびクラウド・コンピューティング環境４５０は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能接続あるいはその両方を介して（たとえば、ウェブ・ブラウザを使用して）、任意のタイプのコンピュータ化されたデバイスと通信可能であることを理解されよう。

次に図５を参照すると、クラウド・コンピューティング環境４５０（図４）によって提供される機能抽象化層のセットの概略図が示されている。図５に示されるコンポーネント、層、および機能は単なる例示であり、開示の実施形態はそれらに限定されないものと意図されることを、あらかじめ理解されたい。図に示されるように、下記の層および対応する機能が提供される。ハードウェアおよびソフトウェア層５６０は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム５６１、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベース・サーバ５６２、サーバ５６３、ブレード・サーバ５６４、ストレージ・デバイス５６５、ならびに、ネットワークおよびネットワーキング・コンポーネント５６６を含む。いくつかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア５６７およびデータベース・ソフトウェア５６８を含む。

仮想化層５７０は、仮想サーバ５７１、仮想ストレージ５７２、仮想プライベート・ネットワークを含む仮想ネットワーク５７３、仮想アプリケーションおよびオペレーティング・システム５７４、ならびに仮想クライアント５７５という、仮想エンティティの例が提供可能な、抽象化層を提供する。

一例では、管理層５８０は下記で説明する機能を提供することができる。リソース・プロビジョニング５８１は、クラウド・コンピューティング環境内でタスクを実行するために利用される、コンピューティング・リソースおよび他のリソースの動的調達を提供する。計測およびプライシング５８２は、クラウド・コンピューティング環境内でリソースが利用される際の費用追跡、および、これらのリソースの消費のための課金またはインボイス作成を提供する。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含むことができる。セキュリティは、クラウド消費者およびタスクについての識別検証、ならびにデータおよび他のリソースのための保護を提供する。ユーザ・ポータル５８３は、消費者およびシステム管理者のためにクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理５８４は、必要なサービス・レベルを満たすようなクラウド・コンピューティング・リソースの割振りおよび管理を提供する。サービス・レベル合意書（ＳＬＡ）の計画および達成５８５は、ＳＬＡに従って将来の要件が予測される、クラウド・コンピューティング・リソースの事前配置および調達を提供する。

作業負荷層５９０は、クラウド・コンピューティング環境が利用可能な機能性の例を提供する。この層から提供可能な作業負荷および機能の例は、マッピングおよびナビゲーション５９１、ソフトウェア開発およびライフサイクル管理５９２、仮想教室教育配信５９３、データ分析処理５９４、トランザクション処理５９５、および音声テキスト化エンジン選択５９６を含む。

本明細書においてより詳細に考察するように、本明細書で説明する方法の実施形態のいくつかのうちのいくつかまたはすべての動作は、代替の順序で実行可能であるか、または全く実行しなくてもよく、さらに複数の動作は同時に、またはより大きなプロセスの内部として発生可能であることが企図される。

本開示は、システム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組合せとすることができる。コンピュータ・プログラム製品は、本開示の態様をプロセッサに実施させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（単数または複数）を含むことができる。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することが可能な、有形デバイスとすることができる。コンピュータ可読記憶媒体は、たとえば電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、またはそれらの任意の好適な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより特定の例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、静的ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピィ・ディスク、パンチカードまたは溝内に命令が記録された隆起構造などの機械的符号化デバイス、ならびに、それらの任意の好適な組合せを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波または他の自由に伝搬する電磁波、導波路または他の伝送媒体を介して伝搬する電磁波（たとえば、光ファイバ・ケーブルを通過する光パルス）、または、ワイヤを介して伝送される電気信号などのように、それ自体が一過性の信号であるように解釈されることはない。

本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスへ、あるいは、たとえばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークまたはワイヤレス・ネットワーク、あるいはそれらの組合せなどのネットワークを介して外部コンピュータまたは外部記憶デバイスへ、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組合せを備えることができる。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するために、コンピュータ可読プログラム命令を転送する。

本開示のステップを実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいは、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで作成された、ソース・コードまたはオブジェクト・コードのいずれか、とすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン型ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上および部分的にリモート・コンピュータ上で、あるいは、完全にリモート・コンピュータまたはサーバ上で、実行可能である。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む、任意のタイプのネットワークを介して、ユーザのコンピュータに接続することができるか、あるいは、（たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに接続することができる。いくつかの実施形態において、たとえば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラム可能論理アレイ（ＰＬＡ）を含む、電子回路は、本開示の態様を実行するために、電子回路を個人化するためにコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行することができる。

本明細書において、本開示の実施形態に従った方法、装置（システム）、およびコンピュータ・プログラム製品の、流れ図またはブロック図あるいはその両方を参照しながら、本開示の態様を説明する。流れ図またはブロック図あるいはその両方の各ブロック、および、流れ図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実装可能であることを理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行する命令が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロック内に指定された機能／動作を実装するための手段を作り出すべく、汎用コンピュータ、特定用途向けコンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されて、マシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、内部に命令が記憶されたコンピュータ可読記憶媒体が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロック内に指定された機能／動作の態様を実装する命令を含む製品を備えるべく、コンピュータ可読記憶媒体内に記憶され、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組合せに特定の様式で機能するように指示することが可能なものであってもよい。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロック内に指定された機能／動作を実装するべく、コンピュータ実装プロセスを作成するために、コンピュータ、他のプログラム可能データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラム可能装置、または他のデバイスに、一連のステップを実行させるものであってもよい。

図面内の流れ図およびブロック図は、本開示の様々な実施形態に従った、システム、方法、およびコンピュータ・プログラム製品の、アーキテクチャ、機能性、ならびに可能な実装のステップを示す。この点に関して、流れ図またはブロック図内の各ブロックは、指定された論理機能を実装するための１つまたは複数の実行可能命令を備える、コンポーネント、セグメント、または命令の一部を表すことができる。いくつかの代替の実装において、ブロック内に示される機能は、図面内に示された順序以外で実行することができる。たとえば、連続して示される２つのブロックは実際にはほぼ同時に実行可能であるか、またはブロックは、時折、含まれる機能性に応じて逆の順序で実行可能である。ブロック図または流れ図あるいはその両方の各ブロック、およびブロック図または流れ図あるいはその両方のブロックの組合せは、指定された機能または動作を実行するか、あるいは特定用途向けハードウェアおよびコンピュータ命令の組合せを実施する、特定用途向けハードウェア・ベース・システムによって実装可能であることにも留意されよう。

本開示の様々な実施形態の説明を例示の目的で提示してきたが、これらは網羅的ではなく、また開示された実施形態に限定されるものでもないことが意図される。当業者であれば、説明した実施形態の範囲および思想から逸脱することなく、多くの変更および変形が明らかとなろう。本明細書で使用される用語は、実施形態、実際の適用例、または市場に見られる技術を介した技術的改良の原理を、最も良く説明するために、あるいは、本明細書で開示する実施形態を当業者が理解できるようにするために選択された。

本開示は特定の実施形態に関して説明してきたが、当業者であれば、それらの変更および改変が明らかとなろう。したがって、下記の特許請求の範囲は、本開示の範囲内に入るようなすべての変更および改変をカバーするように解釈されるべきであることが意図される。

本開示は、任意の可能な技術的詳細レベルの統合における、システム、方法、またはコンピュータ・プログラム製品あるいはそれらの組合せとすることができる。コンピュータ・プログラム製品は、プロセッサに本開示の態様を実施させるためのコンピュータ可読プログラム命令を有する、コンピュータ可読記憶媒体（単数または複数）を含むことができる。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することが可能な、有形デバイスとすることができる。コンピュータ可読記憶媒体は、たとえば電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、またはそれらの任意の好適な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより特定の例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、静的ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピィ・ディスク、パンチカードまたは溝内に命令が記録された隆起構造などの機械的符号化デバイス、ならびに、それらの任意の好適な組合せを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を介して伝搬する電磁波（たとえば、光ファイバ・ケーブルを通過する光パルス）、または、ワイヤを介して伝送される電気信号などのように、それ自体が一過性の信号であるように解釈されることはない。

本開示のステップを実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用構成データ、あるいは、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語などの手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで作成された、ソース・コードまたはオブジェクト・コードのいずれか、とすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン型ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上および部分的にリモート・コンピュータ上で、あるいは、完全にリモート・コンピュータまたはサーバ上で、実行可能である。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む、任意のタイプのネットワークを介して、ユーザのコンピュータに接続することができるか、あるいは、（たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに接続することができる。いくつかの実施形態において、たとえば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラム可能論理アレイ（ＰＬＡ）を含む、電子回路は、本開示の態様を実行するために、電子回路を個人化するためにコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行することができる。

本開示の様々な実施形態の説明を例示の目的で提示してきたが、これらは網羅的ではなく、また開示された実施形態に限定されるものでもないことが意図される。当業者であれば、説明した実施形態の範囲から逸脱することなく、多くの変更および変形が明らかとなろう。本明細書で使用される用語は、実施形態、実際の適用例、または市場に見られる技術を介した技術的改良の原理を、最も良く説明するために、あるいは、本明細書で開示する実施形態を当業者が理解できるようにするために選択された。

Claims

オーディオ・ストリーム内のセンシティブ情報をブロックするためのシステムであって、
少なくとも１つのプロセッサと、
少なくとも１つのメモリ・コンポーネントと、
１つまたは複数の発話ワードを有する前記オーディオ・ストリームと、
センシティブ・ワード・リストと、
前記オーディオ・ストリームをテキストに復号するように構成された少なくとも１つの音声テキスト化エンジンと、
テキスト文字列内のワードを前記センシティブ・ワード・リストとマッチングする際に、センシティブ情報を示す前記テキスト文字列についてテキストを分析するように構成されたセンシティブ・ワード検出エンジンと、
前記センシティブ・ワード・リストにマッチするワードが前記オーディオ・ストリームから検出された場合に、前記オーディオ・ストリームをブロックするように構成されたブロッキング・エンジンと、
を備える、オーディオ・ストリーム内のセンシティブ情報をブロックするためのシステム。
前記オーディオ・ストリームは電話呼の間に記録される会話である、請求項１に記載のシステム。
前記センシティブ情報は、金融情報、健康情報、クレジット情報、暗証番号情報、識別情報、および位置情報からなる群から選択される、請求項１または２に記載のシステム。
前記分析することは、前記テキストを既知のセンシティブ・トリガ・ワードのリストと比較することを含む、請求項１ないし３のいずれかに記載のシステム。
前記テキスト文字列はセンシティブ情報を含む、請求項１ないし４のいずれかに記載のシステム。
前記テキスト文字列は、一般にセンシティブ情報の前に来る１つまたは複数のワードを含む、請求項５に記載のシステム。
前記選択することは、確度閾値に合致するかまたはこれを超える音声テキスト化エンジンを選択する、請求項１ないし６のいずれかに記載のシステム。
オーディオ・ストリーム内のセンシティブ情報をブロックするための方法であって、
発話ワードを有する前記オーディオ・ストリームをオーディオ・フィードから受信することと、
少なくとも１つの音声テキスト化エンジンを用いて前記オーディオ・ストリームをテキストに変換することと、
センシティブ・ワード検出エンジンによって、前記テキスト文字列内のワードを前記センシティブ・ワード・リストとマッチングする際に、センシティブ情報を示す前記テキスト文字列についてテキストを分析することと、
ブロッキング・エンジンによって前記オーディオ・ストリームの少なくとも一部をブロックすることであって、ブロックされる前記オーディオ・ストリームの前記一部は前記検出されたセンシティブ・ワードの少なくとも一部である、前記ブロックすることと、
を含む、
オーディオ・ストリーム内のセンシティブ情報をブロックするための方法。
前記オーディオ・ストリームは電話呼である、請求項８に記載の方法。
前記センシティブ情報は、金融情報、健康情報、クレジット情報、暗証番号情報、識別情報、および位置情報からなる群から選択される、請求項８または９記載の方法。
前記分析することは、前記テキストを既知のセンシティブ・トリガ・ワードのリストと比較することを含む、請求項８ないし１０のいずれかに記載の方法。
前記テキスト文字列はセンシティブ情報を含む、請求項８ないし１１のいずれかに記載の方法。
前記テキスト文字列は、一般にセンシティブ情報の前に来る１つまたは複数のワードを含む、請求項１２に記載の方法。
前記選択することは、確度閾値に合致するかまたはこれを超える音声テキスト化エンジンを選択する、請求項８ないし１３のいずれかに記載の方法。
オーディオ・ストリーム内のセンシティブ情報をブロックするためのコンピュータ・プログラム製品であって、コンピュータ可読記憶媒体を備え、前記コンピュータ可読記憶媒体は、処理回路によって読み取り可能であると共に請求項８ないし１４のいずれかに記載の方法を実行するために前記処理回路による実行のための命令を記憶する、コンピュータ・プログラム製品。
コンピュータ可読媒体上に記憶され、デジタル・コンピュータの内部メモリにロード可能な、コンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項８ないし１４のいずれかに記載の方法を実行するためのソフトウェア・コード部分を備える、コンピュータ・プログラム。