JP2022553338A

JP2022553338A - 音声認識モデルのためのトレーニングセット生成

Info

Publication number: JP2022553338A
Application number: JP2022523608A
Authority: JP
Inventors: ファイザコフ、アブラハム; ハイキン、レフ; マッツァ、アルノン; コーニック、ヨハイ; モセク、シャハル
Original assignee: ジェネシスクラウドサービシーズホールディングスセカンドエルエルシー
Priority date: 2019-10-21
Filing date: 2020-10-21
Publication date: 2022-12-22
Also published as: WO2021081061A1; EP3813059A1; CA3154261A1; CN114556468A; AU2020369562A1; BR112022007512A2

Abstract

方法であって、入力オーディオファイルを受信することと、訓練された音声認識アルゴリズムを入力オーディオファイルに適用して、入力オーディオファイルの各々に対応する認識された音声を取得することと、指定された構文パターンを有する１つ以上の部分（「選択された部分」）を選択することと、選択された部分をフィルタリングして、選択された部分のフィルタリングされたセットを導出することであって、フィルタリングすることは、選択された部分のコンテンツ、持続時間、又は信頼スコアのうちの１つに基づいている、フィルタリングすることと、フィルタリングされたセット内の選択された部分の各々についてトレーニングオーディオファイルを作成することと、トレーニングオーディオファイルの各々のトレーニング転写を取得することと、選択された部分のフィルタリングされたセット内の選択された部分の各々について、トレーニングオーディオファイル及び対応するトレーニング転写を有するトレーニングセットで訓練された音声認識アルゴリズムを再訓練することと、を含む、方法。【選択図】図１

Description

（関連出願の相互参照及び優先権の主張）
本出願は、２０１９年１０月２１日に出願された「ＯＰＴＩＭＡＬＰＩＩ－ＳＡＦＥＴＲＡＩＮＩＮＧＳＥＴＧＥＮＥＲＡＴＩＯＮＦＯＲＳＰＥＥＣＨＲＥＣＯＧＮＩＴＩＯＮＭＯＤＥＬ」と題する米国仮特許出願第６２／９２３，９０６号、及び２０１９年１２月１９日に出願された「ＯＰＴＩＭＡＬＰＩＩ－ＳＡＦＥＴＲＡＩＮＩＮＧＳＥＴＧＥＮＥＲＡＴＩＯＮＦＯＲＳＰＥＥＣＨＲＥＣＯＧＮＩＴＩＯＮＭＯＤＥＬ」と題する欧州特許出願第１９２１８２５６．６号に対する優先権を主張し、これらの内容は、本明細書に組み込まれる。

本発明は、概して、データ収集の分野に関する。より具体的には、本発明は、機械学習トレーニングモデルのデータを最適に改善するためのシステム及び方法に関する。

現代世界では、技術が進行するにつれて、人工知能（ＡＩ）システムは、業界のすべての分野においてより大きな役割を果たす。ＡＩシステムは、「データ－ハングリー」であり、トレーニング段階を有する機械学習技術に基づいている。トレーニングモデルは、良好な結果を提供するために、入力として大量のデータを必要とする。データが多様になるほど、機械学習システムの結果がより良好になる。ＡＩトレーニングモデルに大量のデータを提供する必要性は、常に直面する課題である。

データ収集の分野における別の課題は、プライバシー保護課題である。ＥＵ一般データ保護規則（ＧＰＤＲ）などのプライバシー規則は、プライバシー侵害に対して会社に大きなペナルティを課す。ユーザの私的情報の使用を回避するために、顧客（コールセンタ）サイトを離れる前に、データからすべての私的情報を削除する必要がある。

以下の実施形態及びその態様は、範囲を限定するものではない、代表的かつ例示的であることを意味するシステム、ツール、及び方法と併せて説明及び例示される。

一実施形態では、入力として、１つ以上のオーディオファイルを受信することと、訓練された音声認識アルゴリズムを１つ以上のオーディオファイルに適用して、１つ以上のオーディオファイルの各々に対応する認識された音声を取得することと、１つ以上のオーディオファイルの各々から、指定された構文パターンを有する１つ以上の部分を選択することと、選択された部分を、（ｉ）当該部分の各々のコンテンツ、（ｉｉ）当該部分の各々の持続時間、及び（ｉｉｉ）当該部分の各々に割り当てられた信頼スコアのうちの少なくとも１つに基づいて、フィルタリングすることと、当該部分の各々の転写を取得することと、（ｉｖ）フィルタリングされた選択された部分に対応する認識された音声、及び（ｖ）フィルタリングされた選択された部分に対応する転写を含む訓練セットで、訓練された音声認識アルゴリズムを再訓練することと、を含む、方法が提供される。

一実施形態では、少なくとも１つのハードウェアプロセッサと、プログラム命令を記憶する非一時的コンピュータ可読記憶媒体であって、プログラム命令は、少なくとも１つのハードウェアプロセッサによって、入力として１つ以上のオーディオファイルを受信することと、訓練された音声認識アルゴリズムを１つ以上のオーディオファイルに適用して、１つ以上のオーディオファイルの各々に対応する認識された音声を取得することと、１つ以上のオーディオファイルの各々から、指定された構文パターンを有する１つ以上の部分を選択することと、選択された部分を、（ｉ）当該部分の各々のコンテンツ、（ｉｉ）当該部分の各々の持続時間、及び（ｉｉｉ）当該部分の各々に割り当てられた信頼スコアのうちの少なくとも１つに基づいて、フィルタリングすることと、当該部分の各々の転写を取得することと、（ｉｖ）フィルタリングされた選択された部分に対応する認識された音声、及び（ｖ）フィルタリングされた選択された部分に対応する転写を含む訓練セットで、訓練された音声認識アルゴリズムを再訓練することと、を行うように、実行可能である、非一時的コンピュータ可読記憶媒体と、含む、システムが提供される。

一実施形態では、プログラム命令を具現化する非一時的コンピュータ可読記憶媒体であって、プログラム命令は、少なくとも１つのハードウェアプロセッサによって、入力として１つ以上のオーディオファイルを受信することと、訓練された音声認識アルゴリズムを１つ以上のオーディオファイルに適用して、１つ以上のオーディオファイルの各々に対応する認識された音声を取得することと、１つ以上のオーディオファイルの各々から、指定された構文パターンを有する１つ以上の部分を選択することと、選択された部分を、（ｉ）当該部分の各々のコンテンツ、（ｉｉ）当該部分の各々の持続時間、及び（ｉｉｉ）当該部分の各々に割り当てられた信頼スコアのうちの少なくとも１つに基づいて、フィルタリングすることと、当該部分の各々の転写を取得することと、（ｉｖ）フィルタリングされた選択された部分に対応する認識された音声、及び（ｖ）フィルタリングされた選択された部分に対応する転写を含む訓練セットで、訓練された音声認識アルゴリズムを再訓練することと、を行うように、実行可能である、非一時的コンピュータ可読記憶媒体を含む、コンピュータプログラム製品が提供される。

いくつかの実施形態では、コンテンツフィルタは、選択された部分を、当該部分を、コンテンツデータベースと一致させることに基づいて、フィルタリングするように構成されている。いくつかの実施形態では、コンテンツデータベースは、個人の個人識別可能情報を含む。いくつかの実施形態では、コンテンツフィルタは、選択された部分のうちの少なくともいくつかをフィルタリングするように構成されており、選択された部分のうちの少なくともいくつかは、選択された部分のうちの別の部分と同一である認識されたコンテンツを有する。いくつかの実施形態では、コンテンツフィルタは、数字列を含む選択された部分をフィルタリングするように構成されている。

いくつかの実施形態では、持続時間フィルタは、４～６秒の持続時間を有する選択された部分をフィルタリングするように構成されている。いくつかの実施形態では、信頼スコアは、訓練された音声認識アルゴリズムによって割り当てられ、信頼スコアフィルタは、０．７～０．９の信頼スコアを有する選択された部分をフィルタリングするように構成されている。いくつかの実施形態では、１つ以上のオーディオファイルは、コールセンタからのコールレコードである。

また、一実施形態では、入力としてオーディオファイル（以下、「入力オーディオファイル」）を受信することと、訓練された音声認識アルゴリズムを入力オーディオファイルに適用して、入力オーディオファイルの各々に対応する認識された音声を取得することと、入力オーディオファイルの認識された音声から、指定された構文パターンを有する１つ以上の部分（以下、「選択された部分」）を選択することと、選択された部分をフィルタリングして、選択された部分のフィルタリングされたセットを導出することであって、フィルタリングすることは、選択された部分の各々のコンテンツ、選択された部分の各々の持続時間、及び選択された部分の各々に割り当てられた信頼スコアのうちの少なくとも１つに基づいている、フィルタリングすることと、選択された部分のフィルタリングされたセット内の選択された部分の各々のためのトレーニングオーディオファイルを作成することであって、トレーニングオーディオファイルの各々は、選択された部分のフィルタリングされたセット内の選択された部分のうちの特定の１つに関連する入力オーディオファイルの一部分を含む、作成することと、トレーニングオーディオファイルの各々のトレーニング転写を取得することと、選択された部分のフィルタリングされたセット内の選択された部分の各々について、トレーニングオーディオファイル及び対応するトレーニング転写を含むトレーニングセットで訓練された音声認識アルゴリズムを再訓練することと、を含む、方法が提供される。

いくつかの実施形態では、選択された部分は、選択された部分の各々と関連付けられたチャネルに基づいて、フィルタリングされる。チャネルフィルタは、選択された部分のうちの第１の部分が、選択された部分のうちの第１の部分のチャネルと関連付けられたスピーカが、選択された部分のうちの第２の部分のチャネルと関連付けられたスピーカと同じであると判定することに基づいて、選択された部分のフィルタリングされたセットに含まれることを防止するように構成され得る。

いくつかの実施形態では、フィルタリングすることは、選択された部分の各々のコンテンツに基づいている。コンテンツフィルタは、選択された部分のコンテンツを、コンテンツデータベース内に記憶されたコンテンツと一致させることに基づいて、選択された部分をフィルタリングするように構成され得る。コンテンツデータベース内のコンテンツは、個人の個人識別可能情報を含み得る。個人識別可能情報は、クレジットカード番号及び個人ＩＤ番号のうちの少なくとも１つを含む私的情報を含み得る。

いくつかの実施形態では、フィルタリングすることは、選択された部分の各々のコンテンツに基づいている。コンテンツフィルタは、選択された部分のうちの第１の部分が、選択された部分のうちの第１の部分のコンテンツが、選択された部分のうちの第２の部分のコンテンツと実質的に同一であると判定することに基づいて、選択された部分のフィルタリングされたセットに含まれることを防止するように構成され得る。

いくつかの実施形態では、フィルタリングすることは、選択された部分の各々のコンテンツに基づいている。コンテンツフィルタは、数字列に基づいて、選択された部分をフィルタリングするように構成され得る。

いくつかの実施形態では、フィルタリングすることは、選択された部分の各々の持続時間に基づいている。持続時間フィルタは、選択された部分のフィルタリングされたセット内に含まれる選択された部分のうちの部分が、４～６秒の持続時間を含むように、選択された部分をフィルタリングするように構成され得る。

いくつかの実施形態では、フィルタリングすることは、選択された部分の各々の信頼スコアに基づいており、信頼スコアは、訓練された音声認識アルゴリズムによって割り当てられる。信頼スコアは、パーセンテージを介して表される信頼度の指標を含み得、１００％のスコアは、認識された音声が、最高の信頼度又は１００％の信頼度で認識されたことを意味し、０％のスコアは、音声が最低の信頼度又は信頼度なしで認識されたことを意味する。信頼スコアフィルタは、選択された部分のフィルタリングされたセット内に含まれる選択された部分のうちの部分が、７０％～９０％の信頼スコアを含むように、選択された部分をフィルタリングするように構成され得る。

いくつかの実施形態では、入力オーディオファイルは、コールセンタからのコールレコードから導出され、コールレコードの各々は、顧客とコールセンタのエージェントとの間の会話を含む。トレーニング転写は、手動転写（すなわち、人によって完了した転写）であり得る。本方法は、品詞（「ＰＯＳ」）タグ付けを使用して、認識された音声の各単語を、単語の音声の一部を示すＰＯＳタグでタグ付けすることを更に含み得る。指定された構文パターンは、認識された音声内に現れる一連の連続する単語内の品詞の指定されたパターンを含み得る。

いくつかの実施形態では、選択された部分をフィルタリングすることは、選択された部分の各々のコンテンツ、選択された部分の各々の持続時間、及び選択された部分の各々に割り当てられた信頼スコアの各々に基づいている。

上記の例示的な態様及び実施形態に加えて、更なる態様及び実施形態は、図面を参照することによって、及び以下の詳細な説明の研究によって明らかになるであろう。

例示的な実施形態は、参照図に例解されている。図に示される構成要素及び特徴の寸法は、概して、提示の便宜性及び明確さのために選択され、必ずしも縮尺通りに示されていない。図を以下に列挙する。

本発明の一実施形態による本発明のシステムのブロック図を概略的に示す。

本発明の実施形態による本発明の方法を概略的に示す。

本明細書では、機械学習モデルを連続的に訓練するためのトレーニングデータセットを最適化するための方法及びシステムが開示される。加えて、トレーニングモデルの入力として使用されるデータセットから私的情報を削除するための方法も開示される。

ＥＵ一般データ保護規則（ＧＰＤＲ）などのプライバシー規則は、プライバシー侵害に対して会社に大きなペナルティを課す。加えて、会社は、顧客の私的データの取り扱いを誤ることから生じるイメージ悪化に直面し得る。したがって、本発明は、意図的な不正使用及び／又は不正流用、並びに意図しない漏れから保護されなければならない、オンライン小売業者、金融機関、ヘルスケア提供者、及び大量の顧客の個人情報をデジタル的にホストする任意の他の企業などのサービスプロバイダに特に有用であり得る。意図されていないプライバシー侵害は、例えば、私的情報を含むデータが、誤った受信者に送信され、それらが承認されていない目的で使用され、不適切な記憶媒体又は場所に記憶されるか、又はサーバが公的にアクセス可能である場合に生じ得る。意図的な不正流用は、不正なサードパーティが、サービスプロバイダのサーバ及び使用、例えば、金融詐欺、個人情報窃盗、嫌がらせなどのために、個人のアドレス、金融取引、又は医療記録にアクセスする場合に生じ得る。

本明細書で使用される場合、「私的情報」（ＰＩ）という用語は、個人の個人生活、職業生活、又は社会生活に関連するすべてのタイプの情報を広く指す。ＰＩは、いくつか例を挙げると、名前、ホームアドレス、写真、電子メール若しくは電話連絡先詳細、銀行詳細、ソーシャルネットワーキングウェブサイト上のポスト、医療情報、又はコンピュータのＩＰアドレスなどの個人に関する任意のデータポイントを包含することができる。ＰＩの１つのサブカテゴリは、「個人識別可能情報」（ＰＩＩ）を含み、これは概して、個人を識別、個人と連絡、及び／又は個人を特定するためにそれ自体で又は他の情報と共に使用され得る情報である。「要配慮個人情報」（ＳＰＩ）は、失ったか、漏洩したか、又は開示された場合、個人に対する重大な害、困惑、不都合、又は不公平をもたらす可能性がある情報として定義される。

本発明の私的情報削除方法を使用することにより、機械学習アルゴリズムを訓練するために利用可能なトレーニング材料の量を絶えず増加させ、したがってシステムの性能を改善することができる。

本発明の一実施形態では、本発明の方法及びシステムの使用は、音声認識システムに関連し得る。音声認識結果を改善し、音声認識をノイズ及び新しい音／人／アクセントに対してより安定させるために、新しいトレーニング材料を常に取得及び追加する必要性がある。トレーニングデータの１つの潜在的なソースは、多数の顧客コールを行う、コールセンタ及び／又は顧客サービスセンタであり得る。したがって、新しいトレーニング材料を取得するための標準的な方法は、コールセンタから受信した完了呼を転写し、それをデータセットとして使用することである。しかしながら、これは、ＰＩ及び／又はＰＩＩがデータセットに存在し得る場合に問題となり得る。ほとんどのコールセンタ及び／又は同様の企業は、クレジットカード番号、アドレスなどの要配慮情報が含まれる危険性のために、完全な顧客コミュニケーションを公開することができない。したがって、本発明の方法は、ＰＩＩ安全であり、またそれが音声認識システムを提供する改善において最適であるコールセンタのサイトからデータを取得することを可能にする。

図１は、本発明の一実施形態による例示的なシステム１００のブロック図を概略的に示す。システム１００は、入力としてオーディオファイルを受信する。本発明の一実施形態では、コールセンタからのコールは、オーディオファイルであり得る。オーディオファイルは、音声認識部１０１によって受信され、これは、例えば、１つ以上の音声認識及び／又は類似の技術を適用することによって、オーディオファイルをテキストに自動的に転写し、各オーディオファイルの認識されたコンテンツを提供する。オーディオファイル及び自動転写は、システム１００によって使用される原材料である。いくつかの実施形態では、各オーディオファイルの転写及び認識されたコンテンツは、構文ルールモジュール１０２への入力として提供される。構文ルールモジュールは、提供された転写の構文パターンを見つけ出し、各転写から、例えば、１つ以上の所望の構文パターンを満たすフラグメントを抽出する。フラグメントは出力され、個人識別可能情報及び／又は任意の他のタイプの私的情報（例えば、クレジットカード番号、ＩＤ番号など）を含む全てのフラグメントを削除する私的情報フィルタ１１０への入力として提供される。本発明の一実施形態では、私的情報フィルタは、３つのフィルタを含む。名前フィルタ１１１、数値フィルタ１１２、及び持続時間フィルタ１１３。名前フィルタ１１１は、文字列比較によって名前を認識し、フラグメントが削除されるように、認識された名前を有するフラグメントを削除し、残りのプロセスでは使用されない。数値フィルタ１１２は、フラグメントの文字列比較を通じて数字及び番号を認識し、認識された数字及び番号を有するフラグメントを削除する。このようにして、クレジットカード番号、社会保障番号（ＳＳＮ）、個人名、郵便番号などのＰＩを有するフラグメントは、転写及び更なる使用のために選択されない。

持続時間フィルタ１１３は、名前、数字、及び番号を含まないフラグメントを受信し、任意選択で、フラグメントの連続オーディオの量を制限するために最大持続時間を用いる。最大持続時間の例は、６秒であり得る。音声認識エラーのために、私的情報を有するフラグメントが選択されても、私的情報の一部分のみが存在し得るという意味で限定される。例えば、名前はあるがクレジットカード番号はないか、又はクレジットカード番号はあるがカードの背面の３つの数字はない。持続時間フィルタはまた、短いフラグメントが使用されても、言語モデリングのためのいくつかのコンテキストが依然として存在することを確実にするために、最小持続時間を用いる。

いくつかの実施形態では、４～６秒の持続期間を有するフラグメントを選択することは、データが音声認識システムを改善するのに有用であることを確実にしつつ、私的情報リスクを最小限に抑える。最終的に、図１に見られるように、あらゆるオーディオファイルからの１つのフラグメントのみが機械学習システムのトレーニングに使用される。

いくつかの実施形態では、アクティブラーニングフィルタ１０３は、持続時間フィルタ１１３によって出力されたフラグメントを受信する。

いくつかの実施形態では、０～１の信頼スコアが各フラグメントに与えられる。スコア１は、フラグメントのコンテンツが１００％の信頼度で認識されることを意味し、０のスコアは、信頼度なしで認識されることを意味する。いくつかの実施形態では、アクティブラーニングフィルタ１０３は、０．７～０．９の信頼スコアを有するフラグメントのみを選択する。所与の量（例えば、トレーニング時間の量）に対する最良の改善を得るために、手動転写のために０．７～０．９などの特定の信頼範囲内の発話を選択する必要があることを示す実質的な研究が行われた。下限は、発話がノイズが多すぎる閾値として機能する。上限は、認識部の情報の増加が低くなる閾値を指す。

いくつかの実施形態では、各フラグメントは、その認識されたコンテンツに従ってラベル付けされる。いくつかの実施形態では、アクティブラーニングフィルタ１０３は、それらのラベルに従って、各フラグメントの認識されたコンテンツを、フラグメントの残りの部分と比較し、同じ認識されたコンテンツを有するフラグメントの数は、指定された数に限定される。この段階は、一方で言語の多様性を維持するのに役立ち、他方で同じ文の多くの繰り返しを回避する。例えば、典型的なコールセンタでは、「私は接続の問題を有する」又は「私はセットトップボックスに問題を有する」などの数百の語句があり得る。繰り返しを避け、更に言語及び語彙の多様性を維持するために、同一のコンテンツの最大数は、指定された閾値に限定される。

いくつかの実施形態では、チャネルフィルタ１０４は、異なるチャネル及び多様なチャネルからオーディオを選択するために使用される。例えば、コールセンタから受信したオーディオの場合、スピーカの多様性を確保するために、顧客チャネルからのオーディオがエージェントチャネルよりも好ましい。会社は多数のエージェントを有するが、通常、桁違いに多くの顧客を有する。顧客チャネルは、より多様な音及び環境を確保する。例えば、エージェントは、ほとんど常にオフィス環境にあり、比較的高い性能のヘッドセットを使用しているが、顧客は、車、スピーカ、屋内の場所、又は屋外の場所のような異なる環境から呼び出す。

フラグメント選択モジュール１０５は、最終的に、手動転写のために各オーディオファイルから１つのフラグメントを選択する。選択されたフラグメントは、最大持続時間、例えば６秒よりも短い最長フラグメントである。

各オーディオファイルからのフラグメントが選択されると、オーディオ抽出器１０６によって新しいオーディオファイルが作成される。新しいファイルは、実際には、音声認識部１０１による入力として受信された元のオーディオファイルの一部である。新しいファイルは、コール全体からの関連する数秒を含み、ローカルフォルダに記憶される。例えば、選択されたフラグメントが、元のオーディオファイル上の時間４：３７～４：４２である場合、関連するコンテンツを有するフラグメントのみを含む、５秒の持続時間を有する新しいオーディオファイルが作成される。

この時点で、各短いオーディオファイルの認識されたコンテンツ（認識されたコンテンツは、機械転写テキストである）を有する短いオーディオファイルのセットが提供される。この情報（オーディオ＋テキスト）は、将来の使用のために保持される。

フラグメントは、手動で転写されなければならず、そうでなければ改善の可能性はない。

いくつかの実施形態では、手動転写モジュール１０７は、例えば、人間の専門家による手動転写のために、選択されたフラグメントを受信する。これは、一般的に機械学習及び特に音声認識のためのトレーニング材料を追加するために必要である。

手動転写後、名前及び数字は、私的情報ポストフィルタ１０８によってフラグメントにおいて再びチェックされる。任意のＰＩ及び／又はＰＩＩを含む任意のファイルが削除される。統計的に、フラグメントの大部分は、名前又は数字を含まず、それらは保持される。残りのフラグメントは、機械学習システムのトレーニングモデル１０９を訓練するために使用される。このように、モデルトレーニングに利用可能な材料の量が増加するため、機械学習システムの結果が改善される。例えば、音声認識システムに従って、言語及び音響モデルを改善することが可能になる。

図２は、本発明の一実施形態による、本発明の方法における機能的ステップを説明するフローチャートを概略的に示す。第１のステップ２０１は、入力としてオーディオファイルを受信し、訓練された音声認識アルゴリズムを使用してオーディオファイルを自動的に転写することを提供する。本発明の一実施形態では、オーディオファイルは、コールセンタから受信された完了呼である。

ステップ２０２において、構文パターン、例えば、主語－動詞－目的語は、転写において識別され、フラグメントは、構文規則に従って抽出される。構文規則は、抽出されたフラグメントの開始及び終了を決定するためのセグメント化機構として使用される。識別されたパターンは、文法的に良いテキストが、理解がより容易であり、転写における人間の努力が低減されるため、手動転写のステップを容易にする。

例えば、シーケンスを抽出する規則があり得る：
ＰＲＰ－Ｖ－（ＴＯ）－Ｖ－ＤＴ－Ｎ｛１＋｝

そのルールを満たす単語シーケンスを捕捉するために、まずは、品詞（ＰｏＳ）タグ付き（例えば、ＰＯＳタグ付けを含む言語分析機能を提供するＣ＋＋ライブラリである、ＦｒｅｅＬｉｎｇ、ｈｔｔｐ：／／ｎｌｐ．ｌｓｉ．ｕｐｃ．ｅｄｕ／ｆｒｅｅｌｉｎｇ／ｉｎｄｅｘ．ｐｈｐ／ｎｏｄｅ／１を参照）が使用され、各単語に、音声の一部を割り当てられ、例えば：

次いで、所望のシーケンスと一致するＰｏＳタグのシーケンスが見つかる。次の例で見ることができるように：

ステップ２０３で、私的情報が見つかり、転写物からフィルタリングされる。本発明の一実施形態では、私的情報は、名前又は数字として定義されるが、別の実施形態では、私的情報は、特定のキーワードを含むデータ、又は私的データと見なされる任意の他のデータとして定義され得る。

本発明の一実施形態では、名前、数字、及び／又は番号は、既知のリストに対する文字列比較を通じて認識され、名前、数字、及び／又は番号を含むフラグメントが削除される。このように、例えば、クレジットカード番号、社会保障番号（ＳＳＮ）、個人名、国民識別番号、郵便番号などの私的情報を有するフラグメントが削除され、手動転写のために選択されない。加えて、持続時間フィルタリングは、各オーディオファイルフラグメントの最小持続時間及び最大持続時間を決定することによって用いられる。持続時間フィルタリングは、フラグメントにおける連続オーディオの量を制限する。最小持続時間及び最大持続時間の例は、４～６秒であり得る。音声認識エラーのために、ＰＩを有するフラグメントが選択されても、潜在的な暴露は、その一部分のみが存在し得るため、更に限定され得る。例えば、名前はあるがクレジットカード番号はないか、又はクレジットカード番号はあるがクレジットカードの背面の３つの照合番号はない。最小持続時間フィルタは、短いフラグメントが使用されても、言語モデリングに依然としていくつかのコンテキストがあることを確実にするために用いられる。本発明の一実施形態では、４～６秒の持続時間を有するフラグメントの選択は、ＰＩリスクを最小限に抑え、更にデータが、音声認識システムの改善に有用であることを確実にする。

ステップ２０４で、機械学習トレーニングモデルの改善されたデータセットを提供するために、フラグメントは、アクティブラーニングフィルタ１０３において更に処理される。このステップは、各フラグメントの認識されたコンテンツに従ってフラグメントをラベル付けし、各フラグメントを０～１の信頼スコアで等級付けすることを含む。次いで、手動転写、及び機械学習トレーニングモデルのための最良のフラグメントを選択するために、ラベル付けされたフラグメントを比較する。フラグメントは、以下の基準に従って選択される：
・同じ認識されたコンテンツの繰り返し対言語及び語彙における多様性。指定された閾値は、一方で同一の認識されたコンテンツを有するフラグメントの数を制限し、他方で言語の多様性を維持するために予め決定される。
・信頼スコア範囲が予め決定され、所定の範囲内のスコアを有するフラグメントが選択される。所与の量（例えば、トレーニング時間の量）に対する最良の改善を得るために、手動転写のために０．７～０．９などの特定の信頼範囲内の発話を選択する必要があることを示す実質的な研究が行われた。下限は、発話がノイズが多すぎる閾値として機能する。音声認識部１０１はすでに十分にうまく機能するため、上限は、認識部の情報の増加が低くなる閾値を指す。
・チャネルフィルタリング－スピーカの多様性を確保するために、多様かつ異なるチャネルから受信されたオーディオファイルのフラグメントが選択される。例えば、コールセンタでは、エージェントチャネルとは対照的に、顧客チャネルを選択し得る。

ステップ２０５で、１つのフラグメントが各オーディオファイルから選択される。選択されたフラグメントは、上記の例では、最大持続時間、例えば６秒よりも短い最長フラグメントである。各オーディオファイルからのフラグメントが選択されると、新しいオーディオファイルが作成される。新しいオーディオファイルは、実際には、入力として受信された元のオーディオファイルの一部である。新しいファイルは、オーディオファイル全体からの関連する数秒を含み、ローカルフォルダに記憶される。

ステップ２０６で、各オーディオファイルから選択されたフラグメントが手動で転写され、次いで、ポストフィルタリングのステップ２０７において、名前及び数字が再びチェックされる。任意のＰＩを含む任意のフラグメントが削除される。

最後に、ステップ２０８で、ポストフィルタリングステップで削除されなかった残りのフラグメントを使用して、機械学習システムのトレーニングモデル１０９を再訓練する。改善されたデータを用いた再訓練は、機械学習システムのより良好な結果をもたらす。

本発明は、システム、方法、及び／又はコンピュータプログラム製品であり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（又は媒体）を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持及び記憶することができる有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は前述の任意の好適な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、以下：ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ若しくはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリ読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、その上に記録された命令を有する機械的に符号化されたデバイス、及び上記の任意の適切な組み合わせを含む。本明細書で使用される場合、コンピュータ可読記憶媒体は、いわば、電波又は他の自由に伝播する電磁波などの一時的な信号、導波管又は他の伝送媒体を通って伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを介して伝送される電気信号であると解釈されるべきではない。むしろ、コンピュータ可読記憶媒体は、非一時的（すなわち、不揮発性）媒体である。

本明細書に記載のコンピュータ可読プログラム命令は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク、及び／又は無線ネットワークを介して、コンピュータ可読記憶媒体又は外部コンピュータ又は外部記憶デバイスからそれぞれの計算／処理デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び／又はエッジサーバを含み得る。各計算／処理デバイスのネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれの計算／処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、例えば、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語などの従来の手続型プログラミング言語を含む１つ以上のプログラミング言語の任意の組み合わせで書き込まれたソースコード又はオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に、スタンドアローンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に、ユーザのコンピュータ上で部分的に、かつリモートコンピュータ上で部分的に又はリモートコンピュータ若しくはサーバ上で全体的に実行することができる。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得るか、又は（例えば、インターネットサービスプロバイダを使用してインターネットを介して）外部コンピュータへの接続が行われ得る。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個別化することによって、コンピュータ可読プログラム命令を実行することができる。

本発明の態様は、本発明の実施形態による方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図及び／又はブロック図を参照して本明細書に記載されている。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はブロック図におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することができることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び／又はブロック図ブロック又はブロックで指定された機能／動作を実装するための手段を作成するように、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサに提供され得る。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図ブロック又はブロックで指定された機能／作用の態様を実装する命令を含む製造物品を含むように、コンピュータ、プログラマブルデータ処理装置、及び／又は他のデバイスを特定の方法で機能させるように指示することができるコンピュータ可読記憶媒体に記憶され得る。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能な装置、又は他のデバイス上で実行される命令が、フローチャート及び／又はブロック図ブロック又はブロックで指定された機能／動作を実装するように、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、又は他のデバイス上で一連の動作ステップが実行され、コンピュータ実装プロセスを生成し得る。

図中のフローチャート及びブロック図は、本発明の様々な実施形態によるシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図の各ブロックは、指定された論理機能（複数可）を実装するための１つ以上の実行可能命令を含む、命令のモジュール、セグメント、又は部分を表し得る。いくつかの代替の実施態様では、ブロックに記載されている機能は、図に記載された順序以外で発生し得る。例えば、連続して示される２つのブロックは、実際には、実質的に同時に実行され得るか、又はブロックは、関与する機能に応じて、逆の順序で実行されることもあり得る。ブロック図及び／又はフローチャート図の各ブロック、並びにブロック図及び／又はフローチャート図におけるブロックの組み合わせは、特定の機能又は動作を実行するか、又は専用ハードウェアとコンピュータ命令との組み合わせを行う専用ハードウェアベースのシステムによって実装することができることにも留意されたい。

数値範囲の説明は、その範囲内のすべての可能な部分範囲及び個々の数値を具体的に開示していると考えられるべきである。例えば、１～６の範囲の説明は、１～３、１～４、１～５、２～４、２～６、３～６など、及びその範囲内の個々の数字、例えば、１、２、３、４、５、及び６などの具体的に開示された部分範囲を有すると考えられるべきである。これは、範囲の幅に関係なく適用される。

本発明の様々な実施形態の説明は、例示の目的で提示されており、網羅的であること、又は開示された実施形態に限定されることを意図するものではない。説明された実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場に見られる技術に対する実用的な用途又は技術的改善を最もよく説明するか、又は当業者が本明細書に開示される実施形態を理解することを可能にするように選択された。

行われ、上述された実験は、本発明の実施形態の有用性及び有効性を示す。本発明のいくつかの実施形態は、特定の実験方法及び／又は実験結果に基づいて構成され得る。したがって、以下の実験方法及び／又は実験結果は、本発明の実施形態と見なされるべきである。

Claims

方法であって、
入力としてオーディオファイル（以下、「入力オーディオファイル」）を受信することと、
訓練された音声認識アルゴリズムを前記入力オーディオファイルに適用して、前記入力オーディオファイルの各々に対応する認識された音声を取得することと、
前記入力オーディオファイルの前記認識された音声から、指定された構文パターンを有する１つ以上の部分（以下、「選択された部分」）を選択することと、
前記選択された部分をフィルタリングして、選択された部分のフィルタリングされたセットを導出することであって、前記フィルタリングすることは、前記選択された部分の各々のコンテンツ、前記選択された部分の各々の持続時間、及び前記選択された部分の各々に割り当てられた信頼スコアのうちの少なくとも１つに基づいている、フィルタリングすることと、
選択された部分の前記フィルタリングされたセット内の前記選択された部分の各々のためのトレーニングオーディオファイルを作成することであって、前記トレーニングオーディオファイルの各々は、選択された部分の前記フィルタリングされたセット内の前記選択された部分のうちの特定の１つに関連する前記入力オーディオファイルの一部分を含む、作成することと、
前記トレーニングオーディオファイルの各々のトレーニング転写を取得することと、
選択された部分の前記フィルタリングされたセット内の前記選択された部分の各々について、前記トレーニングオーディオファイル及び前記対応するトレーニング転写を含むトレーニングセットで前記訓練された音声認識アルゴリズムを再訓練することと、を含む、方法。
前記選択された部分の各々と関連付けられたチャネルに基づいて、前記選択された部分をフィルタリングすることを更に含み、
チャネルフィルタは、前記選択された部分のうちの第１の部分が、前記選択された部分のうちの前記第１の部分の前記チャネルと関連付けられたスピーカが、前記選択された部分のうちの第２の部分の前記チャネルと関連付けられたスピーカと同じであると判定することに基づいて、選択された部分の前記フィルタリングされたセットに含まれることを防止するように構成されている、請求項１に記載の方法。
前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
コンテンツフィルタは、前記選択された部分の前記コンテンツを、コンテンツデータベース内に記憶されたコンテンツと一致させることに基づいて、前記選択された部分をフィルタリングするように構成されており、
前記コンテンツデータベース内の前記コンテンツは、個人の個人識別可能情報を含み、前記個人識別可能情報は、クレジットカード番号及び個人ＩＤ番号のうちの少なくとも１つを含む私的情報を含む、請求項１に記載の方法。
前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
前記コンテンツフィルタは、前記選択された部分のうちの第１の部分が、前記選択された部分のうちの前記第１の部分の前記コンテンツが、前記選択された部分のうちの第２の部分の前記コンテンツと実質的に同一であると判定することに基づいて、選択された部分の前記フィルタリングされたセットに含まれることを防止するように構成されている、請求項１に記載の方法。
前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
前記コンテンツフィルタは、数字列に基づいて、前記選択された部分をフィルタリングするように構成されている、請求項１に記載の方法。
前記フィルタリングすることは、前記選択された部分の各々の前記持続時間に基づいており、
持続時間フィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、４～６秒の持続時間を含むように、前記選択された部分をフィルタリングするように構成されている、請求項１に記載の方法。
前記フィルタリングすることは、前記選択された部分の各々の前記信頼スコアに基づいており、前記信頼スコアは、前記訓練された音声認識アルゴリズムによって割り当てられ、
前記信頼スコアは、パーセンテージを介して表される信頼度の指標を含み、
１００％のスコアは、前記認識された音声が、最高の信頼度又は１００％の信頼度で認識されたことを意味し、
０％のスコアは、前記音声が、最低の信頼度又は信頼度なしで認識されたことを意味し、
信頼スコアフィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、７０％～９０％の信頼スコアを含むように、前記選択された部分をフィルタリングするように構成されている、請求項１に記載の方法。
前記入力オーディオファイルは、コールセンタからのコールレコードから導出され、前記コールレコードの各々は、顧客と前記コールセンタのエージェントとの間の会話を含み、
前記トレーニング転写は、手動転写を含み、
品詞（「ＰＯＳ」）タグ付けを使用して、前記認識された音声の各単語を、前記単語の品詞を示すＰＯＳタグでタグ付けすることを更に含み、
前記指定された構文パターンは、前記認識された音声内に現れる一連の連続する単語内の品詞の指定されたパターンを含む、請求項１に記載の方法。
前記選択された部分を前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツ、前記選択された部分の各々の前記持続時間、及び前記選択された部分の各々に割り当てられた前記信頼スコアの各々に基づいており、
前記指定された構文パターンは、品詞の指定されたパターンを含み、
前記認識された音声から前記選択された部分を前記選択することは、品詞の前記指定されたパターンを繰り返す、前記認識された音声における単語のセグメントを識別することを含む、請求項１に記載の方法。
前記信頼スコアは、前記訓練された音声認識アルゴリズムによって割り当てられ、
前記信頼スコアは、パーセンテージを介して表される信頼度の指標を含み、
１００％のスコアは、前記認識された音声が、最高の信頼度又は１００％の信頼度で認識されたことを意味し、
０％のスコアは、前記音声が、最低の信頼度又は信頼度なしで認識されたことを意味し、
持続時間フィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、４～６秒の持続時間を含むように、前記選択された部分をフィルタリングするように構成され、
前記信頼スコアフィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、７０％～９０％の信頼スコアを含むように、前記選択された部分をフィルタリングするように構成されている、請求項９に記載の方法。
システムであって、
少なくとも１つのハードウェアプロセッサと、
プログラム命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記プログラム命令は、前記少なくとも１つのハードウェアプロセッサによって、
入力としてオーディオファイル（以下、「入力オーディオファイル」）を受信することと、
訓練された音声認識アルゴリズムを前記入力オーディオファイルに適用して、前記入力オーディオファイルの各々に対応する認識された音声を取得することと、
前記入力オーディオファイルの前記認識された音声から、指定された構文パターンを有する１つ以上の部分（以下、「選択された部分」）を選択することと、
前記選択された部分をフィルタリングして、選択された部分のフィルタリングされたセットを導出することであって、前記フィルタリングすることは、前記選択された部分の各々のコンテンツ、前記選択された部分の各々の持続時間、及び前記選択された部分の各々に割り当てられた信頼スコアのうちの少なくとも１つに基づいている、フィルタリングすることと、
選択された部分の前記フィルタリングされたセット内の前記選択された部分の各々のためのトレーニングオーディオファイルを作成することであって、前記トレーニングオーディオファイルの各々は、選択された部分の前記フィルタリングされたセット内の前記選択された部分のうちの特定の１つに関連する前記入力オーディオファイルの一部分を含む、作成することと、
前記トレーニングオーディオファイルの各々のトレーニング転写を取得することと、
選択された部分の前記フィルタリングされたセット内の前記選択された部分の各々について、前記トレーニングオーディオファイル及び前記対応するトレーニング転写を含むトレーニングセットで前記訓練された音声認識アルゴリズムを再訓練することと、を行うように、実行可能である、非一時的コンピュータ可読記憶媒体と、を含む、システム。
前記プログラム命令は、実行されるときに、前記少なくとも１つのハードウェアプロセッサに、
前記選択された部分の各々と関連付けられたチャネルに基づいて、前記選択された部分をフィルタリングすることを更に行わせ、
チャネルフィルタは、前記選択された部分のうちの第１の部分が、前記選択された部分のうちの前記第１の部分の前記チャネルと関連付けられたスピーカが、前記選択された部分のうちの第２の部分の前記チャネルと関連付けられたスピーカと同じであると判定することに基づいて、選択された部分の前記フィルタリングされたセットに含まれることを防止するように構成されている、請求項１１に記載のシステム。
前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
コンテンツフィルタは、前記選択された部分の前記コンテンツを、コンテンツデータベース内に記憶されたコンテンツと一致させることに基づいて、前記選択された部分をフィルタリングするように構成されており、
前記コンテンツデータベース内の前記コンテンツは、個人の個人識別可能情報を含み、前記個人識別可能情報は、クレジットカード番号及び個人ＩＤ番号のうちの少なくとも１つを含む私的情報を含む、請求項１１に記載のシステム。
前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
前記コンテンツフィルタは、前記選択された部分のうちの第１の部分が、前記選択された部分のうちの前記第１の部分の前記コンテンツが、前記選択された部分のうちの第２の部分の前記コンテンツと実質的に同一であると判定することに基づいて、選択された部分の前記フィルタリングされたセットに含まれることを防止するように構成されている、請求項１１に記載のシステム。
前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
前記コンテンツフィルタは、数字列に基づいて、前記選択された部分をフィルタリングするように構成されている、請求項１１に記載のシステム。
前記フィルタリングすることは、前記選択された部分の各々の前記持続時間に基づいており、
持続時間フィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、４～６秒の持続時間を含むように、前記選択された部分をフィルタリングするように構成されている、請求項１１に記載のシステム。
前記フィルタリングすることは、前記選択された部分の各々の前記信頼スコアに基づいており、前記信頼スコアは、前記訓練された音声認識アルゴリズムによって割り当てられ、
前記信頼スコアは、パーセンテージを介して表される信頼度の指標を含み、
１００％のスコアは、前記認識された音声が、最高の信頼度又は１００％の信頼度で認識されたことを意味し、
０％のスコアは、前記音声が、最低の信頼度又は信頼度なしで認識されたことを意味し、
信頼スコアフィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、７０％～９０％の信頼スコアを含むように、前記選択された部分をフィルタリングするように構成されている、請求項１１に記載のシステム。
前記入力オーディオファイルは、コールセンタからのコールレコードから導出され、前記コールレコードの各々は、顧客と前記コールセンタのエージェントとの間の会話を含み、
前記トレーニング転写は、手動転写を含み、
前記プログラム命令は、実行されるときに、前記少なくとも１つのハードウェアプロセッサに、
品詞（「ＰＯＳ」）タグ付けを使用して、前記認識された音声の各単語を、前記単語の品詞を示すＰＯＳタグでタグ付けすることを更に行わせ、
前記指定された構文パターンは、前記認識された音声内に現れる一連の連続する単語内の品詞の指定されたパターンを含む、請求項１１に記載のシステム。
前記選択された部分を前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツ、前記選択された部分の各々の前記持続時間、及び前記選択された部分の各々に割り当てられた前記信頼スコアの各々に基づいており、
前記指定された構文パターンは、品詞の指定されたパターンを含み、
前記認識された音声から前記選択された部分を前記選択することは、品詞の前記指定されたパターンを繰り返す、前記認識された音声における単語のセグメントを識別することを含む、請求項１１に記載のシステム。
前記信頼スコアは、前記訓練された音声認識アルゴリズムによって割り当てられ、
前記信頼スコアは、パーセンテージを介して表される信頼度の指標を含み、
１００％のスコアは、前記認識された音声が、最高の信頼度又は１００％の信頼度で認識されたことを意味し、
０％のスコアは、前記音声が、最低の信頼度又は信頼度なしで認識されたことを意味し、
持続時間フィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、４～６秒の持続時間を含むように、前記選択された部分をフィルタリングするように構成され、
前記信頼スコアフィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、７０％～９０％の信頼スコアを含むように、前記選択された部分をフィルタリングするように構成されている、請求項１９に記載のシステム。