JP2022553338A - 音声認識モデルのためのトレーニングセット生成 - Google Patents
音声認識モデルのためのトレーニングセット生成 Download PDFInfo
- Publication number
- JP2022553338A JP2022553338A JP2022523608A JP2022523608A JP2022553338A JP 2022553338 A JP2022553338 A JP 2022553338A JP 2022523608 A JP2022523608 A JP 2022523608A JP 2022523608 A JP2022523608 A JP 2022523608A JP 2022553338 A JP2022553338 A JP 2022553338A
- Authority
- JP
- Japan
- Prior art keywords
- selected portions
- content
- speech
- portions
- confidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 59
- 238000001914 filtration Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000013518 transcription Methods 0.000 claims description 22
- 230000035897 transcription Effects 0.000 claims description 22
- 239000012634 fragment Substances 0.000 description 59
- 238000010801 machine learning Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioethics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
方法であって、入力オーディオファイルを受信することと、訓練された音声認識アルゴリズムを入力オーディオファイルに適用して、入力オーディオファイルの各々に対応する認識された音声を取得することと、指定された構文パターンを有する1つ以上の部分(「選択された部分」)を選択することと、選択された部分をフィルタリングして、選択された部分のフィルタリングされたセットを導出することであって、フィルタリングすることは、選択された部分のコンテンツ、持続時間、又は信頼スコアのうちの1つに基づいている、フィルタリングすることと、フィルタリングされたセット内の選択された部分の各々についてトレーニングオーディオファイルを作成することと、トレーニングオーディオファイルの各々のトレーニング転写を取得することと、選択された部分のフィルタリングされたセット内の選択された部分の各々について、トレーニングオーディオファイル及び対応するトレーニング転写を有するトレーニングセットで訓練された音声認識アルゴリズムを再訓練することと、を含む、方法。【選択図】図1
Description
(関連出願の相互参照及び優先権の主張)
本出願は、2019年10月21日に出願された「OPTIMAL PII-SAFE TRAINING SET GENERATION FOR SPEECH RECOGNITION MODEL」と題する米国仮特許出願第62/923,906号、及び2019年12月19日に出願された「OPTIMAL PII-SAFE TRAINING SET GENERATION FOR SPEECH RECOGNITION MODEL」と題する欧州特許出願第19218256.6号に対する優先権を主張し、これらの内容は、本明細書に組み込まれる。
本出願は、2019年10月21日に出願された「OPTIMAL PII-SAFE TRAINING SET GENERATION FOR SPEECH RECOGNITION MODEL」と題する米国仮特許出願第62/923,906号、及び2019年12月19日に出願された「OPTIMAL PII-SAFE TRAINING SET GENERATION FOR SPEECH RECOGNITION MODEL」と題する欧州特許出願第19218256.6号に対する優先権を主張し、これらの内容は、本明細書に組み込まれる。
本発明は、概して、データ収集の分野に関する。より具体的には、本発明は、機械学習トレーニングモデルのデータを最適に改善するためのシステム及び方法に関する。
現代世界では、技術が進行するにつれて、人工知能(AI)システムは、業界のすべての分野においてより大きな役割を果たす。AIシステムは、「データ-ハングリー」であり、トレーニング段階を有する機械学習技術に基づいている。トレーニングモデルは、良好な結果を提供するために、入力として大量のデータを必要とする。データが多様になるほど、機械学習システムの結果がより良好になる。AIトレーニングモデルに大量のデータを提供する必要性は、常に直面する課題である。
データ収集の分野における別の課題は、プライバシー保護課題である。EU一般データ保護規則(GPDR)などのプライバシー規則は、プライバシー侵害に対して会社に大きなペナルティを課す。ユーザの私的情報の使用を回避するために、顧客(コールセンタ)サイトを離れる前に、データからすべての私的情報を削除する必要がある。
以下の実施形態及びその態様は、範囲を限定するものではない、代表的かつ例示的であることを意味するシステム、ツール、及び方法と併せて説明及び例示される。
一実施形態では、入力として、1つ以上のオーディオファイルを受信することと、訓練された音声認識アルゴリズムを1つ以上のオーディオファイルに適用して、1つ以上のオーディオファイルの各々に対応する認識された音声を取得することと、1つ以上のオーディオファイルの各々から、指定された構文パターンを有する1つ以上の部分を選択することと、選択された部分を、(i)当該部分の各々のコンテンツ、(ii)当該部分の各々の持続時間、及び(iii)当該部分の各々に割り当てられた信頼スコアのうちの少なくとも1つに基づいて、フィルタリングすることと、当該部分の各々の転写を取得することと、(iv)フィルタリングされた選択された部分に対応する認識された音声、及び(v)フィルタリングされた選択された部分に対応する転写を含む訓練セットで、訓練された音声認識アルゴリズムを再訓練することと、を含む、方法が提供される。
一実施形態では、少なくとも1つのハードウェアプロセッサと、プログラム命令を記憶する非一時的コンピュータ可読記憶媒体であって、プログラム命令は、少なくとも1つのハードウェアプロセッサによって、入力として1つ以上のオーディオファイルを受信することと、訓練された音声認識アルゴリズムを1つ以上のオーディオファイルに適用して、1つ以上のオーディオファイルの各々に対応する認識された音声を取得することと、1つ以上のオーディオファイルの各々から、指定された構文パターンを有する1つ以上の部分を選択することと、選択された部分を、(i)当該部分の各々のコンテンツ、(ii)当該部分の各々の持続時間、及び(iii)当該部分の各々に割り当てられた信頼スコアのうちの少なくとも1つに基づいて、フィルタリングすることと、当該部分の各々の転写を取得することと、(iv)フィルタリングされた選択された部分に対応する認識された音声、及び(v)フィルタリングされた選択された部分に対応する転写を含む訓練セットで、訓練された音声認識アルゴリズムを再訓練することと、を行うように、実行可能である、非一時的コンピュータ可読記憶媒体と、含む、システムが提供される。
一実施形態では、プログラム命令を具現化する非一時的コンピュータ可読記憶媒体であって、プログラム命令は、少なくとも1つのハードウェアプロセッサによって、入力として1つ以上のオーディオファイルを受信することと、訓練された音声認識アルゴリズムを1つ以上のオーディオファイルに適用して、1つ以上のオーディオファイルの各々に対応する認識された音声を取得することと、1つ以上のオーディオファイルの各々から、指定された構文パターンを有する1つ以上の部分を選択することと、選択された部分を、(i)当該部分の各々のコンテンツ、(ii)当該部分の各々の持続時間、及び(iii)当該部分の各々に割り当てられた信頼スコアのうちの少なくとも1つに基づいて、フィルタリングすることと、当該部分の各々の転写を取得することと、(iv)フィルタリングされた選択された部分に対応する認識された音声、及び(v)フィルタリングされた選択された部分に対応する転写を含む訓練セットで、訓練された音声認識アルゴリズムを再訓練することと、を行うように、実行可能である、非一時的コンピュータ可読記憶媒体を含む、コンピュータプログラム製品が提供される。
いくつかの実施形態では、コンテンツフィルタは、選択された部分を、当該部分を、コンテンツデータベースと一致させることに基づいて、フィルタリングするように構成されている。いくつかの実施形態では、コンテンツデータベースは、個人の個人識別可能情報を含む。いくつかの実施形態では、コンテンツフィルタは、選択された部分のうちの少なくともいくつかをフィルタリングするように構成されており、選択された部分のうちの少なくともいくつかは、選択された部分のうちの別の部分と同一である認識されたコンテンツを有する。いくつかの実施形態では、コンテンツフィルタは、数字列を含む選択された部分をフィルタリングするように構成されている。
いくつかの実施形態では、持続時間フィルタは、4~6秒の持続時間を有する選択された部分をフィルタリングするように構成されている。いくつかの実施形態では、信頼スコアは、訓練された音声認識アルゴリズムによって割り当てられ、信頼スコアフィルタは、0.7~0.9の信頼スコアを有する選択された部分をフィルタリングするように構成されている。いくつかの実施形態では、1つ以上のオーディオファイルは、コールセンタからのコールレコードである。
また、一実施形態では、入力としてオーディオファイル(以下、「入力オーディオファイル」)を受信することと、訓練された音声認識アルゴリズムを入力オーディオファイルに適用して、入力オーディオファイルの各々に対応する認識された音声を取得することと、入力オーディオファイルの認識された音声から、指定された構文パターンを有する1つ以上の部分(以下、「選択された部分」)を選択することと、選択された部分をフィルタリングして、選択された部分のフィルタリングされたセットを導出することであって、フィルタリングすることは、選択された部分の各々のコンテンツ、選択された部分の各々の持続時間、及び選択された部分の各々に割り当てられた信頼スコアのうちの少なくとも1つに基づいている、フィルタリングすることと、選択された部分のフィルタリングされたセット内の選択された部分の各々のためのトレーニングオーディオファイルを作成することであって、トレーニングオーディオファイルの各々は、選択された部分のフィルタリングされたセット内の選択された部分のうちの特定の1つに関連する入力オーディオファイルの一部分を含む、作成することと、トレーニングオーディオファイルの各々のトレーニング転写を取得することと、選択された部分のフィルタリングされたセット内の選択された部分の各々について、トレーニングオーディオファイル及び対応するトレーニング転写を含むトレーニングセットで訓練された音声認識アルゴリズムを再訓練することと、を含む、方法が提供される。
いくつかの実施形態では、選択された部分は、選択された部分の各々と関連付けられたチャネルに基づいて、フィルタリングされる。チャネルフィルタは、選択された部分のうちの第1の部分が、選択された部分のうちの第1の部分のチャネルと関連付けられたスピーカが、選択された部分のうちの第2の部分のチャネルと関連付けられたスピーカと同じであると判定することに基づいて、選択された部分のフィルタリングされたセットに含まれることを防止するように構成され得る。
いくつかの実施形態では、フィルタリングすることは、選択された部分の各々のコンテンツに基づいている。コンテンツフィルタは、選択された部分のコンテンツを、コンテンツデータベース内に記憶されたコンテンツと一致させることに基づいて、選択された部分をフィルタリングするように構成され得る。コンテンツデータベース内のコンテンツは、個人の個人識別可能情報を含み得る。個人識別可能情報は、クレジットカード番号及び個人ID番号のうちの少なくとも1つを含む私的情報を含み得る。
いくつかの実施形態では、フィルタリングすることは、選択された部分の各々のコンテンツに基づいている。コンテンツフィルタは、選択された部分のうちの第1の部分が、選択された部分のうちの第1の部分のコンテンツが、選択された部分のうちの第2の部分のコンテンツと実質的に同一であると判定することに基づいて、選択された部分のフィルタリングされたセットに含まれることを防止するように構成され得る。
いくつかの実施形態では、フィルタリングすることは、選択された部分の各々のコンテンツに基づいている。コンテンツフィルタは、数字列に基づいて、選択された部分をフィルタリングするように構成され得る。
いくつかの実施形態では、フィルタリングすることは、選択された部分の各々の持続時間に基づいている。持続時間フィルタは、選択された部分のフィルタリングされたセット内に含まれる選択された部分のうちの部分が、4~6秒の持続時間を含むように、選択された部分をフィルタリングするように構成され得る。
いくつかの実施形態では、フィルタリングすることは、選択された部分の各々の信頼スコアに基づいており、信頼スコアは、訓練された音声認識アルゴリズムによって割り当てられる。信頼スコアは、パーセンテージを介して表される信頼度の指標を含み得、100%のスコアは、認識された音声が、最高の信頼度又は100%の信頼度で認識されたことを意味し、0%のスコアは、音声が最低の信頼度又は信頼度なしで認識されたことを意味する。信頼スコアフィルタは、選択された部分のフィルタリングされたセット内に含まれる選択された部分のうちの部分が、70%~90%の信頼スコアを含むように、選択された部分をフィルタリングするように構成され得る。
いくつかの実施形態では、入力オーディオファイルは、コールセンタからのコールレコードから導出され、コールレコードの各々は、顧客とコールセンタのエージェントとの間の会話を含む。トレーニング転写は、手動転写(すなわち、人によって完了した転写)であり得る。本方法は、品詞(「POS」)タグ付けを使用して、認識された音声の各単語を、単語の音声の一部を示すPOSタグでタグ付けすることを更に含み得る。指定された構文パターンは、認識された音声内に現れる一連の連続する単語内の品詞の指定されたパターンを含み得る。
いくつかの実施形態では、選択された部分をフィルタリングすることは、選択された部分の各々のコンテンツ、選択された部分の各々の持続時間、及び選択された部分の各々に割り当てられた信頼スコアの各々に基づいている。
上記の例示的な態様及び実施形態に加えて、更なる態様及び実施形態は、図面を参照することによって、及び以下の詳細な説明の研究によって明らかになるであろう。
例示的な実施形態は、参照図に例解されている。図に示される構成要素及び特徴の寸法は、概して、提示の便宜性及び明確さのために選択され、必ずしも縮尺通りに示されていない。図を以下に列挙する。
本明細書では、機械学習モデルを連続的に訓練するためのトレーニングデータセットを最適化するための方法及びシステムが開示される。加えて、トレーニングモデルの入力として使用されるデータセットから私的情報を削除するための方法も開示される。
EU一般データ保護規則(GPDR)などのプライバシー規則は、プライバシー侵害に対して会社に大きなペナルティを課す。加えて、会社は、顧客の私的データの取り扱いを誤ることから生じるイメージ悪化に直面し得る。したがって、本発明は、意図的な不正使用及び/又は不正流用、並びに意図しない漏れから保護されなければならない、オンライン小売業者、金融機関、ヘルスケア提供者、及び大量の顧客の個人情報をデジタル的にホストする任意の他の企業などのサービスプロバイダに特に有用であり得る。意図されていないプライバシー侵害は、例えば、私的情報を含むデータが、誤った受信者に送信され、それらが承認されていない目的で使用され、不適切な記憶媒体又は場所に記憶されるか、又はサーバが公的にアクセス可能である場合に生じ得る。意図的な不正流用は、不正なサードパーティが、サービスプロバイダのサーバ及び使用、例えば、金融詐欺、個人情報窃盗、嫌がらせなどのために、個人のアドレス、金融取引、又は医療記録にアクセスする場合に生じ得る。
本明細書で使用される場合、「私的情報」(PI)という用語は、個人の個人生活、職業生活、又は社会生活に関連するすべてのタイプの情報を広く指す。PIは、いくつか例を挙げると、名前、ホームアドレス、写真、電子メール若しくは電話連絡先詳細、銀行詳細、ソーシャルネットワーキングウェブサイト上のポスト、医療情報、又はコンピュータのIPアドレスなどの個人に関する任意のデータポイントを包含することができる。PIの1つのサブカテゴリは、「個人識別可能情報」(PII)を含み、これは概して、個人を識別、個人と連絡、及び/又は個人を特定するためにそれ自体で又は他の情報と共に使用され得る情報である。「要配慮個人情報」(SPI)は、失ったか、漏洩したか、又は開示された場合、個人に対する重大な害、困惑、不都合、又は不公平をもたらす可能性がある情報として定義される。
本発明の私的情報削除方法を使用することにより、機械学習アルゴリズムを訓練するために利用可能なトレーニング材料の量を絶えず増加させ、したがってシステムの性能を改善することができる。
本発明の一実施形態では、本発明の方法及びシステムの使用は、音声認識システムに関連し得る。音声認識結果を改善し、音声認識をノイズ及び新しい音/人/アクセントに対してより安定させるために、新しいトレーニング材料を常に取得及び追加する必要性がある。トレーニングデータの1つの潜在的なソースは、多数の顧客コールを行う、コールセンタ及び/又は顧客サービスセンタであり得る。したがって、新しいトレーニング材料を取得するための標準的な方法は、コールセンタから受信した完了呼を転写し、それをデータセットとして使用することである。しかしながら、これは、PI及び/又はPIIがデータセットに存在し得る場合に問題となり得る。ほとんどのコールセンタ及び/又は同様の企業は、クレジットカード番号、アドレスなどの要配慮情報が含まれる危険性のために、完全な顧客コミュニケーションを公開することができない。したがって、本発明の方法は、PII安全であり、またそれが音声認識システムを提供する改善において最適であるコールセンタのサイトからデータを取得することを可能にする。
図1は、本発明の一実施形態による例示的なシステム100のブロック図を概略的に示す。システム100は、入力としてオーディオファイルを受信する。本発明の一実施形態では、コールセンタからのコールは、オーディオファイルであり得る。オーディオファイルは、音声認識部101によって受信され、これは、例えば、1つ以上の音声認識及び/又は類似の技術を適用することによって、オーディオファイルをテキストに自動的に転写し、各オーディオファイルの認識されたコンテンツを提供する。オーディオファイル及び自動転写は、システム100によって使用される原材料である。いくつかの実施形態では、各オーディオファイルの転写及び認識されたコンテンツは、構文ルールモジュール102への入力として提供される。構文ルールモジュールは、提供された転写の構文パターンを見つけ出し、各転写から、例えば、1つ以上の所望の構文パターンを満たすフラグメントを抽出する。フラグメントは出力され、個人識別可能情報及び/又は任意の他のタイプの私的情報(例えば、クレジットカード番号、ID番号など)を含む全てのフラグメントを削除する私的情報フィルタ110への入力として提供される。本発明の一実施形態では、私的情報フィルタは、3つのフィルタを含む。名前フィルタ111、数値フィルタ112、及び持続時間フィルタ113。名前フィルタ111は、文字列比較によって名前を認識し、フラグメントが削除されるように、認識された名前を有するフラグメントを削除し、残りのプロセスでは使用されない。数値フィルタ112は、フラグメントの文字列比較を通じて数字及び番号を認識し、認識された数字及び番号を有するフラグメントを削除する。このようにして、クレジットカード番号、社会保障番号(SSN)、個人名、郵便番号などのPIを有するフラグメントは、転写及び更なる使用のために選択されない。
持続時間フィルタ113は、名前、数字、及び番号を含まないフラグメントを受信し、任意選択で、フラグメントの連続オーディオの量を制限するために最大持続時間を用いる。最大持続時間の例は、6秒であり得る。音声認識エラーのために、私的情報を有するフラグメントが選択されても、私的情報の一部分のみが存在し得るという意味で限定される。例えば、名前はあるがクレジットカード番号はないか、又はクレジットカード番号はあるがカードの背面の3つの数字はない。持続時間フィルタはまた、短いフラグメントが使用されても、言語モデリングのためのいくつかのコンテキストが依然として存在することを確実にするために、最小持続時間を用いる。
いくつかの実施形態では、4~6秒の持続期間を有するフラグメントを選択することは、データが音声認識システムを改善するのに有用であることを確実にしつつ、私的情報リスクを最小限に抑える。最終的に、図1に見られるように、あらゆるオーディオファイルからの1つのフラグメントのみが機械学習システムのトレーニングに使用される。
いくつかの実施形態では、アクティブラーニングフィルタ103は、持続時間フィルタ113によって出力されたフラグメントを受信する。
いくつかの実施形態では、0~1の信頼スコアが各フラグメントに与えられる。スコア1は、フラグメントのコンテンツが100%の信頼度で認識されることを意味し、0のスコアは、信頼度なしで認識されることを意味する。いくつかの実施形態では、アクティブラーニングフィルタ103は、0.7~0.9の信頼スコアを有するフラグメントのみを選択する。所与の量(例えば、トレーニング時間の量)に対する最良の改善を得るために、手動転写のために0.7~0.9などの特定の信頼範囲内の発話を選択する必要があることを示す実質的な研究が行われた。下限は、発話がノイズが多すぎる閾値として機能する。上限は、認識部の情報の増加が低くなる閾値を指す。
いくつかの実施形態では、各フラグメントは、その認識されたコンテンツに従ってラベル付けされる。いくつかの実施形態では、アクティブラーニングフィルタ103は、それらのラベルに従って、各フラグメントの認識されたコンテンツを、フラグメントの残りの部分と比較し、同じ認識されたコンテンツを有するフラグメントの数は、指定された数に限定される。この段階は、一方で言語の多様性を維持するのに役立ち、他方で同じ文の多くの繰り返しを回避する。例えば、典型的なコールセンタでは、「私は接続の問題を有する」又は「私はセットトップボックスに問題を有する」などの数百の語句があり得る。繰り返しを避け、更に言語及び語彙の多様性を維持するために、同一のコンテンツの最大数は、指定された閾値に限定される。
いくつかの実施形態では、チャネルフィルタ104は、異なるチャネル及び多様なチャネルからオーディオを選択するために使用される。例えば、コールセンタから受信したオーディオの場合、スピーカの多様性を確保するために、顧客チャネルからのオーディオがエージェントチャネルよりも好ましい。会社は多数のエージェントを有するが、通常、桁違いに多くの顧客を有する。顧客チャネルは、より多様な音及び環境を確保する。例えば、エージェントは、ほとんど常にオフィス環境にあり、比較的高い性能のヘッドセットを使用しているが、顧客は、車、スピーカ、屋内の場所、又は屋外の場所のような異なる環境から呼び出す。
フラグメント選択モジュール105は、最終的に、手動転写のために各オーディオファイルから1つのフラグメントを選択する。選択されたフラグメントは、最大持続時間、例えば6秒よりも短い最長フラグメントである。
各オーディオファイルからのフラグメントが選択されると、オーディオ抽出器106によって新しいオーディオファイルが作成される。新しいファイルは、実際には、音声認識部101による入力として受信された元のオーディオファイルの一部である。新しいファイルは、コール全体からの関連する数秒を含み、ローカルフォルダに記憶される。例えば、選択されたフラグメントが、元のオーディオファイル上の時間4:37~4:42である場合、関連するコンテンツを有するフラグメントのみを含む、5秒の持続時間を有する新しいオーディオファイルが作成される。
この時点で、各短いオーディオファイルの認識されたコンテンツ(認識されたコンテンツは、機械転写テキストである)を有する短いオーディオファイルのセットが提供される。この情報(オーディオ+テキスト)は、将来の使用のために保持される。
フラグメントは、手動で転写されなければならず、そうでなければ改善の可能性はない。
いくつかの実施形態では、手動転写モジュール107は、例えば、人間の専門家による手動転写のために、選択されたフラグメントを受信する。これは、一般的に機械学習及び特に音声認識のためのトレーニング材料を追加するために必要である。
手動転写後、名前及び数字は、私的情報ポストフィルタ108によってフラグメントにおいて再びチェックされる。任意のPI及び/又はPIIを含む任意のファイルが削除される。統計的に、フラグメントの大部分は、名前又は数字を含まず、それらは保持される。残りのフラグメントは、機械学習システムのトレーニングモデル109を訓練するために使用される。このように、モデルトレーニングに利用可能な材料の量が増加するため、機械学習システムの結果が改善される。例えば、音声認識システムに従って、言語及び音響モデルを改善することが可能になる。
図2は、本発明の一実施形態による、本発明の方法における機能的ステップを説明するフローチャートを概略的に示す。第1のステップ201は、入力としてオーディオファイルを受信し、訓練された音声認識アルゴリズムを使用してオーディオファイルを自動的に転写することを提供する。本発明の一実施形態では、オーディオファイルは、コールセンタから受信された完了呼である。
ステップ202において、構文パターン、例えば、主語-動詞-目的語は、転写において識別され、フラグメントは、構文規則に従って抽出される。構文規則は、抽出されたフラグメントの開始及び終了を決定するためのセグメント化機構として使用される。識別されたパターンは、文法的に良いテキストが、理解がより容易であり、転写における人間の努力が低減されるため、手動転写のステップを容易にする。
例えば、シーケンスを抽出する規則があり得る:
PRP-V-(TO)-V-DT-N{1+}
PRP-V-(TO)-V-DT-N{1+}
そのルールを満たす単語シーケンスを捕捉するために、まずは、品詞(PoS)タグ付き(例えば、POSタグ付けを含む言語分析機能を提供するC++ライブラリである、FreeLing、http://nlp.lsi.upc.edu/freeling/index.php/node/1を参照)が使用され、各単語に、音声の一部を割り当てられ、例えば:
ステップ203で、私的情報が見つかり、転写物からフィルタリングされる。本発明の一実施形態では、私的情報は、名前又は数字として定義されるが、別の実施形態では、私的情報は、特定のキーワードを含むデータ、又は私的データと見なされる任意の他のデータとして定義され得る。
本発明の一実施形態では、名前、数字、及び/又は番号は、既知のリストに対する文字列比較を通じて認識され、名前、数字、及び/又は番号を含むフラグメントが削除される。このように、例えば、クレジットカード番号、社会保障番号(SSN)、個人名、国民識別番号、郵便番号などの私的情報を有するフラグメントが削除され、手動転写のために選択されない。加えて、持続時間フィルタリングは、各オーディオファイルフラグメントの最小持続時間及び最大持続時間を決定することによって用いられる。持続時間フィルタリングは、フラグメントにおける連続オーディオの量を制限する。最小持続時間及び最大持続時間の例は、4~6秒であり得る。音声認識エラーのために、PIを有するフラグメントが選択されても、潜在的な暴露は、その一部分のみが存在し得るため、更に限定され得る。例えば、名前はあるがクレジットカード番号はないか、又はクレジットカード番号はあるがクレジットカードの背面の3つの照合番号はない。最小持続時間フィルタは、短いフラグメントが使用されても、言語モデリングに依然としていくつかのコンテキストがあることを確実にするために用いられる。本発明の一実施形態では、4~6秒の持続時間を有するフラグメントの選択は、PIリスクを最小限に抑え、更にデータが、音声認識システムの改善に有用であることを確実にする。
ステップ204で、機械学習トレーニングモデルの改善されたデータセットを提供するために、フラグメントは、アクティブラーニングフィルタ103において更に処理される。このステップは、各フラグメントの認識されたコンテンツに従ってフラグメントをラベル付けし、各フラグメントを0~1の信頼スコアで等級付けすることを含む。次いで、手動転写、及び機械学習トレーニングモデルのための最良のフラグメントを選択するために、ラベル付けされたフラグメントを比較する。フラグメントは、以下の基準に従って選択される:
・同じ認識されたコンテンツの繰り返し対言語及び語彙における多様性。指定された閾値は、一方で同一の認識されたコンテンツを有するフラグメントの数を制限し、他方で言語の多様性を維持するために予め決定される。
・信頼スコア範囲が予め決定され、所定の範囲内のスコアを有するフラグメントが選択される。所与の量(例えば、トレーニング時間の量)に対する最良の改善を得るために、手動転写のために0.7~0.9などの特定の信頼範囲内の発話を選択する必要があることを示す実質的な研究が行われた。下限は、発話がノイズが多すぎる閾値として機能する。音声認識部101はすでに十分にうまく機能するため、上限は、認識部の情報の増加が低くなる閾値を指す。
・チャネルフィルタリング-スピーカの多様性を確保するために、多様かつ異なるチャネルから受信されたオーディオファイルのフラグメントが選択される。例えば、コールセンタでは、エージェントチャネルとは対照的に、顧客チャネルを選択し得る。
・同じ認識されたコンテンツの繰り返し対言語及び語彙における多様性。指定された閾値は、一方で同一の認識されたコンテンツを有するフラグメントの数を制限し、他方で言語の多様性を維持するために予め決定される。
・信頼スコア範囲が予め決定され、所定の範囲内のスコアを有するフラグメントが選択される。所与の量(例えば、トレーニング時間の量)に対する最良の改善を得るために、手動転写のために0.7~0.9などの特定の信頼範囲内の発話を選択する必要があることを示す実質的な研究が行われた。下限は、発話がノイズが多すぎる閾値として機能する。音声認識部101はすでに十分にうまく機能するため、上限は、認識部の情報の増加が低くなる閾値を指す。
・チャネルフィルタリング-スピーカの多様性を確保するために、多様かつ異なるチャネルから受信されたオーディオファイルのフラグメントが選択される。例えば、コールセンタでは、エージェントチャネルとは対照的に、顧客チャネルを選択し得る。
ステップ205で、1つのフラグメントが各オーディオファイルから選択される。選択されたフラグメントは、上記の例では、最大持続時間、例えば6秒よりも短い最長フラグメントである。各オーディオファイルからのフラグメントが選択されると、新しいオーディオファイルが作成される。新しいオーディオファイルは、実際には、入力として受信された元のオーディオファイルの一部である。新しいファイルは、オーディオファイル全体からの関連する数秒を含み、ローカルフォルダに記憶される。
ステップ206で、各オーディオファイルから選択されたフラグメントが手動で転写され、次いで、ポストフィルタリングのステップ207において、名前及び数字が再びチェックされる。任意のPIを含む任意のフラグメントが削除される。
最後に、ステップ208で、ポストフィルタリングステップで削除されなかった残りのフラグメントを使用して、機械学習システムのトレーニングモデル109を再訓練する。改善されたデータを用いた再訓練は、機械学習システムのより良好な結果をもたらす。
本発明は、システム、方法、及び/又はコンピュータプログラム製品であり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(又は媒体)を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持及び記憶することができる有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は前述の任意の好適な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、以下:ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM若しくはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリ読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、その上に記録された命令を有する機械的に符号化されたデバイス、及び上記の任意の適切な組み合わせを含む。本明細書で使用される場合、コンピュータ可読記憶媒体は、いわば、電波又は他の自由に伝播する電磁波などの一時的な信号、導波管又は他の伝送媒体を通って伝播する電磁波(例えば、光ファイバケーブルを通過する光パルス)、又はワイヤを介して伝送される電気信号であると解釈されるべきではない。むしろ、コンピュータ可読記憶媒体は、非一時的(すなわち、不揮発性)媒体である。
本明細書に記載のコンピュータ可読プログラム命令は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク、及び/又は無線ネットワークを介して、コンピュータ可読記憶媒体又は外部コンピュータ又は外部記憶デバイスからそれぞれの計算/処理デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び/又はエッジサーバを含み得る。各計算/処理デバイスのネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれの計算/処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、例えば、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語などの従来の手続型プログラミング言語を含む1つ以上のプログラミング言語の任意の組み合わせで書き込まれたソースコード又はオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に、スタンドアローンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に、ユーザのコンピュータ上で部分的に、かつリモートコンピュータ上で部分的に又はリモートコンピュータ若しくはサーバ上で全体的に実行することができる。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得るか、又は(例えば、インターネットサービスプロバイダを使用してインターネットを介して)外部コンピュータへの接続が行われ得る。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブルロジックアレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個別化することによって、コンピュータ可読プログラム命令を実行することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図及び/又はブロック図を参照して本明細書に記載されている。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することができることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び/又はブロック図ブロック又はブロックで指定された機能/動作を実装するための手段を作成するように、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサに提供され得る。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図ブロック又はブロックで指定された機能/作用の態様を実装する命令を含む製造物品を含むように、コンピュータ、プログラマブルデータ処理装置、及び/又は他のデバイスを特定の方法で機能させるように指示することができるコンピュータ可読記憶媒体に記憶され得る。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能な装置、又は他のデバイス上で実行される命令が、フローチャート及び/又はブロック図ブロック又はブロックで指定された機能/動作を実装するように、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、又は他のデバイス上で一連の動作ステップが実行され、コンピュータ実装プロセスを生成し得る。
図中のフローチャート及びブロック図は、本発明の様々な実施形態によるシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図の各ブロックは、指定された論理機能(複数可)を実装するための1つ以上の実行可能命令を含む、命令のモジュール、セグメント、又は部分を表し得る。いくつかの代替の実施態様では、ブロックに記載されている機能は、図に記載された順序以外で発生し得る。例えば、連続して示される2つのブロックは、実際には、実質的に同時に実行され得るか、又はブロックは、関与する機能に応じて、逆の順序で実行されることもあり得る。ブロック図及び/又はフローチャート図の各ブロック、並びにブロック図及び/又はフローチャート図におけるブロックの組み合わせは、特定の機能又は動作を実行するか、又は専用ハードウェアとコンピュータ命令との組み合わせを行う専用ハードウェアベースのシステムによって実装することができることにも留意されたい。
数値範囲の説明は、その範囲内のすべての可能な部分範囲及び個々の数値を具体的に開示していると考えられるべきである。例えば、1~6の範囲の説明は、1~3、1~4、1~5、2~4、2~6、3~6など、及びその範囲内の個々の数字、例えば、1、2、3、4、5、及び6などの具体的に開示された部分範囲を有すると考えられるべきである。これは、範囲の幅に関係なく適用される。
本発明の様々な実施形態の説明は、例示の目的で提示されており、網羅的であること、又は開示された実施形態に限定されることを意図するものではない。説明された実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場に見られる技術に対する実用的な用途又は技術的改善を最もよく説明するか、又は当業者が本明細書に開示される実施形態を理解することを可能にするように選択された。
行われ、上述された実験は、本発明の実施形態の有用性及び有効性を示す。本発明のいくつかの実施形態は、特定の実験方法及び/又は実験結果に基づいて構成され得る。したがって、以下の実験方法及び/又は実験結果は、本発明の実施形態と見なされるべきである。
Claims (20)
- 方法であって、
入力としてオーディオファイル(以下、「入力オーディオファイル」)を受信することと、
訓練された音声認識アルゴリズムを前記入力オーディオファイルに適用して、前記入力オーディオファイルの各々に対応する認識された音声を取得することと、
前記入力オーディオファイルの前記認識された音声から、指定された構文パターンを有する1つ以上の部分(以下、「選択された部分」)を選択することと、
前記選択された部分をフィルタリングして、選択された部分のフィルタリングされたセットを導出することであって、前記フィルタリングすることは、前記選択された部分の各々のコンテンツ、前記選択された部分の各々の持続時間、及び前記選択された部分の各々に割り当てられた信頼スコアのうちの少なくとも1つに基づいている、フィルタリングすることと、
選択された部分の前記フィルタリングされたセット内の前記選択された部分の各々のためのトレーニングオーディオファイルを作成することであって、前記トレーニングオーディオファイルの各々は、選択された部分の前記フィルタリングされたセット内の前記選択された部分のうちの特定の1つに関連する前記入力オーディオファイルの一部分を含む、作成することと、
前記トレーニングオーディオファイルの各々のトレーニング転写を取得することと、
選択された部分の前記フィルタリングされたセット内の前記選択された部分の各々について、前記トレーニングオーディオファイル及び前記対応するトレーニング転写を含むトレーニングセットで前記訓練された音声認識アルゴリズムを再訓練することと、を含む、方法。 - 前記選択された部分の各々と関連付けられたチャネルに基づいて、前記選択された部分をフィルタリングすることを更に含み、
チャネルフィルタは、前記選択された部分のうちの第1の部分が、前記選択された部分のうちの前記第1の部分の前記チャネルと関連付けられたスピーカが、前記選択された部分のうちの第2の部分の前記チャネルと関連付けられたスピーカと同じであると判定することに基づいて、選択された部分の前記フィルタリングされたセットに含まれることを防止するように構成されている、請求項1に記載の方法。 - 前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
コンテンツフィルタは、前記選択された部分の前記コンテンツを、コンテンツデータベース内に記憶されたコンテンツと一致させることに基づいて、前記選択された部分をフィルタリングするように構成されており、
前記コンテンツデータベース内の前記コンテンツは、個人の個人識別可能情報を含み、前記個人識別可能情報は、クレジットカード番号及び個人ID番号のうちの少なくとも1つを含む私的情報を含む、請求項1に記載の方法。 - 前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
前記コンテンツフィルタは、前記選択された部分のうちの第1の部分が、前記選択された部分のうちの前記第1の部分の前記コンテンツが、前記選択された部分のうちの第2の部分の前記コンテンツと実質的に同一であると判定することに基づいて、選択された部分の前記フィルタリングされたセットに含まれることを防止するように構成されている、請求項1に記載の方法。 - 前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
前記コンテンツフィルタは、数字列に基づいて、前記選択された部分をフィルタリングするように構成されている、請求項1に記載の方法。 - 前記フィルタリングすることは、前記選択された部分の各々の前記持続時間に基づいており、
持続時間フィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、4~6秒の持続時間を含むように、前記選択された部分をフィルタリングするように構成されている、請求項1に記載の方法。 - 前記フィルタリングすることは、前記選択された部分の各々の前記信頼スコアに基づいており、前記信頼スコアは、前記訓練された音声認識アルゴリズムによって割り当てられ、
前記信頼スコアは、パーセンテージを介して表される信頼度の指標を含み、
100%のスコアは、前記認識された音声が、最高の信頼度又は100%の信頼度で認識されたことを意味し、
0%のスコアは、前記音声が、最低の信頼度又は信頼度なしで認識されたことを意味し、
信頼スコアフィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、70%~90%の信頼スコアを含むように、前記選択された部分をフィルタリングするように構成されている、請求項1に記載の方法。 - 前記入力オーディオファイルは、コールセンタからのコールレコードから導出され、前記コールレコードの各々は、顧客と前記コールセンタのエージェントとの間の会話を含み、
前記トレーニング転写は、手動転写を含み、
品詞(「POS」)タグ付けを使用して、前記認識された音声の各単語を、前記単語の品詞を示すPOSタグでタグ付けすることを更に含み、
前記指定された構文パターンは、前記認識された音声内に現れる一連の連続する単語内の品詞の指定されたパターンを含む、請求項1に記載の方法。 - 前記選択された部分を前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツ、前記選択された部分の各々の前記持続時間、及び前記選択された部分の各々に割り当てられた前記信頼スコアの各々に基づいており、
前記指定された構文パターンは、品詞の指定されたパターンを含み、
前記認識された音声から前記選択された部分を前記選択することは、品詞の前記指定されたパターンを繰り返す、前記認識された音声における単語のセグメントを識別することを含む、請求項1に記載の方法。 - 前記信頼スコアは、前記訓練された音声認識アルゴリズムによって割り当てられ、
前記信頼スコアは、パーセンテージを介して表される信頼度の指標を含み、
100%のスコアは、前記認識された音声が、最高の信頼度又は100%の信頼度で認識されたことを意味し、
0%のスコアは、前記音声が、最低の信頼度又は信頼度なしで認識されたことを意味し、
持続時間フィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、4~6秒の持続時間を含むように、前記選択された部分をフィルタリングするように構成され、
前記信頼スコアフィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、70%~90%の信頼スコアを含むように、前記選択された部分をフィルタリングするように構成されている、請求項9に記載の方法。 - システムであって、
少なくとも1つのハードウェアプロセッサと、
プログラム命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記プログラム命令は、前記少なくとも1つのハードウェアプロセッサによって、
入力としてオーディオファイル(以下、「入力オーディオファイル」)を受信することと、
訓練された音声認識アルゴリズムを前記入力オーディオファイルに適用して、前記入力オーディオファイルの各々に対応する認識された音声を取得することと、
前記入力オーディオファイルの前記認識された音声から、指定された構文パターンを有する1つ以上の部分(以下、「選択された部分」)を選択することと、
前記選択された部分をフィルタリングして、選択された部分のフィルタリングされたセットを導出することであって、前記フィルタリングすることは、前記選択された部分の各々のコンテンツ、前記選択された部分の各々の持続時間、及び前記選択された部分の各々に割り当てられた信頼スコアのうちの少なくとも1つに基づいている、フィルタリングすることと、
選択された部分の前記フィルタリングされたセット内の前記選択された部分の各々のためのトレーニングオーディオファイルを作成することであって、前記トレーニングオーディオファイルの各々は、選択された部分の前記フィルタリングされたセット内の前記選択された部分のうちの特定の1つに関連する前記入力オーディオファイルの一部分を含む、作成することと、
前記トレーニングオーディオファイルの各々のトレーニング転写を取得することと、
選択された部分の前記フィルタリングされたセット内の前記選択された部分の各々について、前記トレーニングオーディオファイル及び前記対応するトレーニング転写を含むトレーニングセットで前記訓練された音声認識アルゴリズムを再訓練することと、を行うように、実行可能である、非一時的コンピュータ可読記憶媒体と、を含む、システム。 - 前記プログラム命令は、実行されるときに、前記少なくとも1つのハードウェアプロセッサに、
前記選択された部分の各々と関連付けられたチャネルに基づいて、前記選択された部分をフィルタリングすることを更に行わせ、
チャネルフィルタは、前記選択された部分のうちの第1の部分が、前記選択された部分のうちの前記第1の部分の前記チャネルと関連付けられたスピーカが、前記選択された部分のうちの第2の部分の前記チャネルと関連付けられたスピーカと同じであると判定することに基づいて、選択された部分の前記フィルタリングされたセットに含まれることを防止するように構成されている、請求項11に記載のシステム。 - 前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
コンテンツフィルタは、前記選択された部分の前記コンテンツを、コンテンツデータベース内に記憶されたコンテンツと一致させることに基づいて、前記選択された部分をフィルタリングするように構成されており、
前記コンテンツデータベース内の前記コンテンツは、個人の個人識別可能情報を含み、前記個人識別可能情報は、クレジットカード番号及び個人ID番号のうちの少なくとも1つを含む私的情報を含む、請求項11に記載のシステム。 - 前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
前記コンテンツフィルタは、前記選択された部分のうちの第1の部分が、前記選択された部分のうちの前記第1の部分の前記コンテンツが、前記選択された部分のうちの第2の部分の前記コンテンツと実質的に同一であると判定することに基づいて、選択された部分の前記フィルタリングされたセットに含まれることを防止するように構成されている、請求項11に記載のシステム。 - 前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツに基づいており、
前記コンテンツフィルタは、数字列に基づいて、前記選択された部分をフィルタリングするように構成されている、請求項11に記載のシステム。 - 前記フィルタリングすることは、前記選択された部分の各々の前記持続時間に基づいており、
持続時間フィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、4~6秒の持続時間を含むように、前記選択された部分をフィルタリングするように構成されている、請求項11に記載のシステム。 - 前記フィルタリングすることは、前記選択された部分の各々の前記信頼スコアに基づいており、前記信頼スコアは、前記訓練された音声認識アルゴリズムによって割り当てられ、
前記信頼スコアは、パーセンテージを介して表される信頼度の指標を含み、
100%のスコアは、前記認識された音声が、最高の信頼度又は100%の信頼度で認識されたことを意味し、
0%のスコアは、前記音声が、最低の信頼度又は信頼度なしで認識されたことを意味し、
信頼スコアフィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、70%~90%の信頼スコアを含むように、前記選択された部分をフィルタリングするように構成されている、請求項11に記載のシステム。 - 前記入力オーディオファイルは、コールセンタからのコールレコードから導出され、前記コールレコードの各々は、顧客と前記コールセンタのエージェントとの間の会話を含み、
前記トレーニング転写は、手動転写を含み、
前記プログラム命令は、実行されるときに、前記少なくとも1つのハードウェアプロセッサに、
品詞(「POS」)タグ付けを使用して、前記認識された音声の各単語を、前記単語の品詞を示すPOSタグでタグ付けすることを更に行わせ、
前記指定された構文パターンは、前記認識された音声内に現れる一連の連続する単語内の品詞の指定されたパターンを含む、請求項11に記載のシステム。 - 前記選択された部分を前記フィルタリングすることは、前記選択された部分の各々の前記コンテンツ、前記選択された部分の各々の前記持続時間、及び前記選択された部分の各々に割り当てられた前記信頼スコアの各々に基づいており、
前記指定された構文パターンは、品詞の指定されたパターンを含み、
前記認識された音声から前記選択された部分を前記選択することは、品詞の前記指定されたパターンを繰り返す、前記認識された音声における単語のセグメントを識別することを含む、請求項11に記載のシステム。 - 前記信頼スコアは、前記訓練された音声認識アルゴリズムによって割り当てられ、
前記信頼スコアは、パーセンテージを介して表される信頼度の指標を含み、
100%のスコアは、前記認識された音声が、最高の信頼度又は100%の信頼度で認識されたことを意味し、
0%のスコアは、前記音声が、最低の信頼度又は信頼度なしで認識されたことを意味し、
持続時間フィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、4~6秒の持続時間を含むように、前記選択された部分をフィルタリングするように構成され、
前記信頼スコアフィルタは、選択された部分の前記フィルタリングされたセット内に含まれる前記選択された部分のうちの部分が、70%~90%の信頼スコアを含むように、前記選択された部分をフィルタリングするように構成されている、請求項19に記載のシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962923906P | 2019-10-21 | 2019-10-21 | |
US62/923,906 | 2019-10-21 | ||
EP19218256.6 | 2019-12-19 | ||
EP19218256.6A EP3813059A1 (en) | 2019-10-21 | 2019-12-19 | Optimal pii-safe training set generation for speech recognition model |
PCT/US2020/056611 WO2021081061A1 (en) | 2019-10-21 | 2020-10-21 | Training set generation for speech recognition model |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022553338A true JP2022553338A (ja) | 2022-12-22 |
Family
ID=69061055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022523608A Pending JP2022553338A (ja) | 2019-10-21 | 2020-10-21 | 音声認識モデルのためのトレーニングセット生成 |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP3813059A1 (ja) |
JP (1) | JP2022553338A (ja) |
CN (1) | CN114556468A (ja) |
AU (1) | AU2020369562A1 (ja) |
BR (1) | BR112022007512A2 (ja) |
CA (1) | CA3154261A1 (ja) |
WO (1) | WO2021081061A1 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9514740B2 (en) * | 2013-03-13 | 2016-12-06 | Nuance Communications, Inc. | Data shredding for speech recognition language model training under data retention restrictions |
US10002639B1 (en) * | 2016-06-20 | 2018-06-19 | United Services Automobile Association (Usaa) | Sanitization of voice records |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
-
2019
- 2019-12-19 EP EP19218256.6A patent/EP3813059A1/en active Pending
-
2020
- 2020-10-21 WO PCT/US2020/056611 patent/WO2021081061A1/en active Application Filing
- 2020-10-21 BR BR112022007512A patent/BR112022007512A2/pt unknown
- 2020-10-21 CN CN202080073153.2A patent/CN114556468A/zh active Pending
- 2020-10-21 CA CA3154261A patent/CA3154261A1/en active Pending
- 2020-10-21 JP JP2022523608A patent/JP2022553338A/ja active Pending
- 2020-10-21 AU AU2020369562A patent/AU2020369562A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021081061A1 (en) | 2021-04-29 |
EP3813059A1 (en) | 2021-04-28 |
CA3154261A1 (en) | 2021-04-29 |
CN114556468A (zh) | 2022-05-27 |
AU2020369562A1 (en) | 2022-05-05 |
BR112022007512A2 (pt) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10446134B2 (en) | Computer-implemented system and method for identifying special information within a voice recording | |
US11074416B2 (en) | Transformation of chat logs for chat flow prediction | |
US10623573B2 (en) | Personalized support routing based on paralinguistic information | |
US10157609B2 (en) | Local and remote aggregation of feedback data for speech recognition | |
Ahmed et al. | Preech: A system for {Privacy-Preserving} speech transcription | |
US11693988B2 (en) | Use of ASR confidence to improve reliability of automatic audio redaction | |
US8145562B2 (en) | Apparatus and method for fraud prevention | |
KR102081495B1 (ko) | 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체 | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
WO2019106517A1 (en) | Automatic blocking of sensitive data contained in an audio stream | |
US11580959B2 (en) | Improving speech recognition transcriptions | |
US20120209606A1 (en) | Method and apparatus for information extraction from interactions | |
US20230163988A1 (en) | Computer-implemented system and method for providing an artificial intelligence powered digital meeting assistant | |
CN113064983B (zh) | 语义检测方法、装置、计算机设备及存储介质 | |
US20220101835A1 (en) | Speech recognition transcriptions | |
CN109299227A (zh) | 基于语音识别的信息查询方法和装置 | |
US10282417B2 (en) | Conversational list management | |
Kruthika et al. | Speech Processing and Analysis for Forensics and Cybercrime: A Systematic Review | |
JP2022553338A (ja) | 音声認識モデルのためのトレーニングセット生成 | |
KR20230146398A (ko) | 바트 모델을 활용한 시퀀셜 텍스트 요약 처리 장치 및 그 제어방법 | |
JP7028203B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP6743108B2 (ja) | パターン認識モデル及びパターン学習装置、その生成方法、それを用いたfaqの抽出方法及びパターン認識装置、並びにプログラム | |
Rudrappa et al. | Standardized GUI Framework Using Python for Speech Processing: NLP | |
Fernandes | CALTRANSCENSE: A REAL-TIME SPEAKER IDENTIFICATION SYSTEM | |
JP2022010410A (ja) | 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20220517 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220819 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231004 |