JP2023532182A

JP2023532182A - トーン及び音声分類のための累積平均スペクトルエントロピー分析

Info

Publication number: JP2023532182A
Application number: JP2022574354A
Authority: JP
Inventors: ヴァージン、リヴァロール; マクダウェル、ジェイソン、アンソニー; ポー、アダム、エム．
Original assignee: ジェネシスクラウドサービシーズホールディングスセカンドエルエルシー
Priority date: 2020-06-30
Filing date: 2021-06-30
Publication date: 2023-07-27
Also published as: US11290594B2; BR112022025073A2; AU2021300121A1; WO2022006233A1; CA3184152A1; EP4173271A1; US20210409543A1; CN115956359A

Abstract

一実施形態による、トーン及び音声分類を含むコール進行分析を実施するためのコンタクトセンターシステムは、少なくとも１つのプロセッサと、記憶された複数の命令を含む、少なくとも１つのメモリであって、該命令が、少なくとも１つのプロセッサによる実行に応答して、コンタクトセンターシステムに、コンタクトセンターシステムによって受信されたオーディオ信号のエントロピーの累積平均を決定させ、オーディオ信号の累積平均パワースペクトル振幅及び累積平均スペクトルエントロピーを決定させ、エントロピーの累積平均と累積平均スぺクトルエントロピーとの間の差として、オーディオ信号の差測定値を計算させ、差測定値に基づいてオーディオ信号のトーンと音声とを区別させ、オーディオ信号中の１つ以上のトーンの識別に応答して、オーディオ信号の１つ以上のトーンを処理させる、少なくとも１つのメモリと、を含む。【選択図】図１Ａ

Description

関連出願の相互参照
本出願は、２０２０年６月３０日に出願された「ＣｕｍｕｌａｔｉｖｅＡｖｅｒａｇｅＳｐｅｃｔｒａｌＥｎｔｒｏｐｙＡｎａｌｙｓｉｓｆｏｒＴｏｎｅａｎｄＳｐｅｅｃｈＣｌａｓｓｉｆｉｃａｔｉｏｎ」と題された米国仮特許出願第６３／０４５，９０８号の優先権及び利益を主張し、その内容は、参照によりその全体が本明細書に組み込まれる。

コール分析又はコール進行分析（Call Progress Analysis、ＣＰＡ）は、コールの結果を判定するために、トーン及び音声の両方からなる、コールセットアップ中のオーディオ信号に対して動作する信号処理アルゴリズムのセットに関する用語である。人間は、様々なトーン（例えば、ダイヤルを回す前のダイヤルトーン、リングバック、ビジー、応答など）を聞いて、検出することが容易に可能である。しかしながら、機械が同じことを同じ精度で行うことができるためには、特にネットワークキャリアメッセージ内の人間の音声を様々なトーンから区別しなければならない場合、その実装にかなりの注意を要する。

アウトバウンドコール能力を伴う電話用途は、ネットワークによって呼び出し側エンティティに送達されるコール進行トーン（例えば、リングバック及びビジー）を正確かつ迅速に解釈する能力を必要とする。ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ（国際電気通信連合）は、国ごとに推奨されるトーン定義を公開しており、これらの定義は概ね順守されているが、特定のイベントをシグナリングするために全ての電話プロバイダによって全世界で使用されるトーン周波数及びパターンの一貫した標準セットは存在しないままであり、このことが、コール進行分析を複雑にしている。プロバイダは、コールの進行を分析するプロセスに伴う異なるトーンを検出及び識別する試みにおいて、様々なアプローチを使用する。しかしながら、現在採用されている信号処理アルゴリズムのほとんどは、分析中のオーディオ信号が、貧弱な伝送ネットワークによって又は別様に劣化する場合、不十分に機能する傾向がある。

一実施形態は、トーン及び音声分類のための、累積平均スペクトルエントロピー分析のための独自のシステム、構成要素、及び方法に関する。他の実施形態は、トーン及び音声分類のための、累積平均スペクトルエントロピー分析のための装置、システム、デバイス、ハードウェア、方法、及びそれらの組み合わせを対象とする。

一実施形態によれば、トーン及び音声分類を使用してコール進行分析を実施するためのコンタクトセンターシステムは、少なくとも１つのプロセッサと、記憶された複数の命令を含む、少なくとも１つのメモリであって、該命令が、少なくとも１つのプロセッサによる実行に応答して、コンタクトセンターシステムに、コンタクトセンターシステムによって受信されたオーディオ信号のエントロピーの累積平均を決定させ、オーディオ信号の累積平均パワースペクトル振幅、及びオーディオ信号の累積平均パワースペクトル振幅に基づくオーディオ信号の累積平均スペクトルエントロピーを決定させ、オーディオ信号のエントロピーの累積平均と、オーディオ信号の累積平均スぺクトルエントロピーとの間の差として、オーディオ信号の差測定値を計算させ、オーディオ信号の差測定値に基づいてオーディオ信号のトーンと音声とを区別させ、オーディオ信号内の１つ以上のトーンの識別に応答して、オーディオ信号の１つ以上のトーンを処理させる、少なくとも１つのメモリと、を含み得る。

いくつかの実施形態では、オーディオ信号の１つ以上のトーンを処理することは、オーディオ信号の１つ以上のトーン内のコール進行トーンパターンを識別することと、オーディオ信号の１つ以上のトーン内のコール進行トーンパターンの識別に応答して、電話コールをコンタクトセンターシステムの第１のシステムからコンタクトセンターシステムの第２のシステムに転送することとを含み得る。

いくつかの実施形態では、オーディオ信号の１つ以上のトーンを処理することは、アウトバウンドコールをコンタクトセンターシステムの自動双方向音声応答（interactive voice response、ＩＶＲ）システムに接続することを含み得る。

いくつかの実施形態では、オーディオ信号の１つ以上のトーンを処理することは、アウトバウンドコールをコンタクトセンターシステムのエージェントに接続することを含み得る。

いくつかの実施形態では、オーディオ信号の１つ以上のトーンは、コール進行トーンパターンを含み得る。

いくつかの実施形態では、コール進行トーンパターンは、ビジー信号パターン、リングバックパターン、又は特別情報トーンパターンであり得る。

いくつかの実施形態では、オーディオ信号の１つ以上のトーンを処理することは、オーディオ信号の１つ以上のトーンの各々の対応する周波数を決定することを含み得る。

いくつかの実施形態では、オーディオ信号のエントロピーの累積平均を決定することは、オーディオ信号のエントロピーを計算することを含み得る。

別の実施形態によれば、記憶された複数の命令を含む、１つ以上の非一時的機械可読記憶媒体であって、該命令が、少なくとも１つのプロセッサによる実行に応答して、コンタクトセンターシステムに、コンタクトセンターシステムによって受信されたオーディオ信号のエントロピーを計算させ、オーディオ信号のエトロピーの累積平均を計算させ、オーディオ信号の累積平均パワースペクトル振幅を計算させ、オーディオ信号の累積平均パワースペクトル振幅に基づいて、オーディオ信号の累積平均スペクトルエントロピーを計算させ、オーディオ信号のエントロピーの累積平均と、オーディオ信号の累積平均スぺクトルエントロピーとの間の差として、オーディオ信号の差測定値を計算させ、オーディオ信号の差測定値に基づいてオーディオ信号のトーン及び音声を分類させ、オーディオ信号内の１つ以上のトーンの識別に応答して、オーディオ信号の１つ以上のトーンを処理させ得る、１つ以上の非一時的機械可読記憶媒体。

いくつかの実施形態では、オーディオ信号の１つ以上のトーンを処理することは、オーディオ信号の１つ以上のトーン内のコール進行トーンパターンの識別に応答して、電話コールをコンタクトセンターシステムの第１のシステムからコンタクトセンターシステムの第２のシステムに転送することを含み得る。

いくつかの実施形態では、オーディオ信号の１つ以上のトーンを処理することは、アウトバウンドコールをコンタクトセンターシステムの自動双方向音声応答（ＩＶＲ）システムに接続することを含み得る。

更に別の実施形態によれば、コンタクトセンターシステム内のトーン及び音声分類を使用してコール進行分析を実施するための方法は、コンタクトセンターシステムによってオーディオ信号を受信することと、コンタクトセンターシステムによって受信されたオーディオ信号のエントロピーを、コンタクトセンターシステムによって決定することと、コンタクトセンターシステムによって、オーディオ信号のエントロピーの累積平均を決定することと、コンタクトセンターシステムによって、オーディオ信号の累積平均パワースペクトル振幅を決定することと、コンタクトセンターシステムによって、オーディオ信号の累積平均パワースペクトル振幅に基づいて、オーディオ信号の累積平均スペクトルエントロピーを決定することと、コンタクトセンターシステムによって、オーディオ信号のエントロピーの累積平均と、オーディオ信号の累積平均スペクトルエントロピーとの差として、オーディオ信号の差測定値を決定することと、コンタクトセンターシステムによって、オーディオ信号の差測定値に基づいて、オーディオ信号のトーン及び音声を分類することと、コンタクトセンターシステムによって、オーディオ信号内の１つ以上のトーンの識別に応答して、オーディオ信号の１つ以上のトーンを処理することと、を含み得る。

いくつかの実施形態では、オーディオ信号の１つ以上のトーンを処理することは、オーディオ信号の１つ以上のトーン内のコール進行トーンパターンを識別することと、オーディオ信号の１つ以上のトーン内のコール進行トーンパターンを識別することに応答して、電話コールをコンタクトセンターシステムの第１のシステムからコンタクトセンターシステムの第２のシステムに転送することと、を含み得る。

いくつかの実施形態では、オーディオ信号の１つ以上のトーンを処理することは、アウトバウンドコールをコンタクトセンターシステムのエージェント又は自動双方向音声応答（ＩＶＲ）システムに接続することを含み得る。

この概要は、特許請求される主題の重要な又は本質的な特徴を識別することを意図するものではなく、特許請求される主題の範囲を限定する助けとして使用されることも意図されていない。本出願の更なる実施形態、形態、特徴、及び態様は、本明細書と共に提供される説明及び図から明らかになるであろう。

本明細書に記載された概念は、例として例示されており、添付の図面における限定としてではない。説明を簡単かつ明確にするために、図に示す要素は必ずしも縮尺通りに描かれていない。適切であると考えられる場合、参照ラベルは、対応する又は類似の要素を示すために図面間で繰り返されている。
トーン及び音声分類を使用してコール進行分析を実施する方法の少なくとも１つの実施形態の簡略フロー図である。トーン及び音声分類を使用してコール進行分析を実施する方法の少なくとも１つの実施形態の簡略フロー図である。コールセンターシステムの少なくとも１つの実施形態の簡略ブロック図である。コンピューティングシステムの少なくとも１つの実施形態の簡略ブロック図である。トーン信号及び音声信号の両方を含む例示的なオーディオ信号のスペクトログラムである。トーン及び音声中のオーディオ信号のスペクトル平坦度のグラフである。トーン及び音声中のオーディオ信号のエントロピー測定値のグラフである。コールセンターで観察された例示的な低品質トーンのオーディオ信号のスペクトログラムである。オーディオトーン信号のエントロピー測定値のグラフである。劣化したトーンを有するオーディオ信号の３つのエントロピー測定値のグラフである。トーン及び音声中のオーディオ信号の３つのエントロピー測定値のグラフである。

本開示の概念は様々な修正及び代替形態の影響を受けやすいが、特定の実施形態が図面に例として示されており、本明細書で詳細に説明される。しかしながら、本開示の概念を開示された特定の形態に限定する意図はなく、逆に、その意図は、本開示及び添付の特許請求の範囲と一致する全ての修正、等価物、及び代替物を網羅することであることを理解されたい。

「１つの実施形態」、「一実施形態」、「例示的な実施形態」などの言及は、記載された実施形態が特定の特徴、構造、又は特性を含み得るが、全ての実施形態が特定の特徴、構造、又は特性を必ず含んでもよく、あるいは含まなくてもよいことを示す。更に、かかる語句は、必ずしも同じ実施形態を指しているわけではない。「好ましい」構成要素又は特徴への言及は、一実施形態に関する特定の構成要素又は特徴の望ましいことを示すことができるが、本開示は、そのような構成要素又は特徴を省略することができる他の実施形態に関してそのように限定するものではないことを更に理解されたい。更に、特定の特徴、構造、又は特性が実施形態と関連して記載される場合、明確に記載されているかどうかに関わりなく、他の実施形態と関連するこのような特徴、構造、又は特性への実施は、当業者の知見内であるものとする。更に、特定の特徴、構造、又は特性は、様々な実施形態において、任意の好適な組み合わせ及び／又は部分的組み合わせで組み合わされ得る。

更に、「Ａ、Ｂ、及びＣの少なくとも１つ」の形式のリストに含まれる項目は、（Ａ）、（Ｂ）、（Ｃ）、（Ａ及びＢ）、（Ｂ及びＣ）、（Ａ及びＣ）、又は（Ａ、Ｂ、及びＣ）を意味することができることを理解されたい。同様に、「Ａ、Ｂ、又はＣの少なくとも１つ」の形式で列挙された項目は、（Ａ）（Ｂ）、（Ｃ）、（Ａ及びＢ）、（Ｂ及びＣ）、（Ａ及びＣ）、又は（Ａ、Ｂ、及びＣ）を意味することができることを理解されたい。更に、特許請求の範囲に関して、「１つの（a）」、「１つの（an）」、「少なくとも１つの（at least one）」、及び／又は「少なくとも１つの部分（at least one portion）」などの単語及び句の使用は、特に反対の記載がない限り、そのような要素の１つのみに限定されるように解釈されるべきではなく、「少なくとも一部の（at least a portion）」及び／又は「一部の（a portion）」などの句の使用は、特に反対の記載がない限り、そのような要素の一部のみを含む実施形態及びそのような要素の全体を含む実施形態の両方を包含するように解釈されるべきである。

開示された実施形態は、場合によっては、ハードウェア、ファームウェア、ソフトウェア、又はそれらの組み合わせで実施されてもよい。開示された実施形態はまた、１つ以上のプロセッサによって読み取られ実行され得る１つ以上の一時的又は非一時的機械可読（例えば、コンピュータ可読）記憶媒体によって実行されるか又は記憶される命令として実装され得る。機械可読記憶媒体は、機械（例えば、揮発性若しくは不揮発性メモリ、メディアディスク、又は他のメディアデバイス）によって読み取り可能な形式で情報を記憶又は送信するための任意の記憶デバイス、機構、又は他の物理的構造として具現化されてもよい。

図面では、いくつかの構造的又は方法的特徴を特定の配置及び／又は順序で示すことができる。しかしながら、そのような特定の配置及び／又は順序付けは必要とされなくてもよいことを理解されたい。むしろ、いくつかの実施形態では、そのような特徴は、反対のことが示されていない限り、例示的な図面に示されているものとは異なる方法及び／又は順序で配置されてもよい。更に、特定の図に構造的又は方法的特徴を含めることは、そのような特徴が全ての実施形態で必要とされることを意味するものではなく、いくつかの実施形態では、含まれなくてもよく、又は他の特徴と組み合わされてもよい。

プロバイダは、コールの進行を分析するプロセスに伴う様々なトーンを検出及び識別する試みにおいて、様々なアプローチを使用する。例えば、いくつかの実施形態では、Ｇｏｅｒｔｚｅｌアルゴリズム又は高速フーリエ変換（Fast Fourier Transform、ＦＦＴ）が使用され得、それらの各々は、異なる長所及び短所を示す。トーンの検出及び識別は、Ｇｏｅｒｔｚｅｌアルゴリズムを用いて同時に実施される。すなわち、アルゴリズムは、単にトーンの存在を検出するだけでなく、どのトーンが検出されているかも識別する。しかしながら、ＦＦＴアルゴリズムが使用される場合、プロセスは、概して２つのステップに分離される。第１のステップでは、一般的なトーン対音声分類（generic tone versus speech classification）が実施される。第２のステップでは、トーンが存在することが知られると、コールの結果を解釈するために、その周波数が識別される。本明細書に記載の技術は、「累積平均スペクトルエントロピー」を分析に組み込むことによってＦＦＴアルゴリズムを改善し、それにより、オーディオ信号が貧弱な伝送ネットワークによって劣化したときに、プロセスをより頑健にする。

電話ネットワークは、世界中で標準化されていない。例えば、欧州では、イベントを報告するために単一のトーンが主に使用され、欧州のほとんどの国のリングバックトーンは４２５Ｈｚである。しかしながら、北米では、リングバックを示すために３５０～４４０Ｈｚのデュアルトーンを使用するという点で、デュアルトーンが好まれる。したがって、比較的複雑なセットアップが、異なる国にサービスを提供することを所望する任意の電話プロバイダから要求されることが多い。Ｇｏｅｒｔｚｅｌアルゴリズム及びＦＦＴアルゴリズムは、トーンを検出及び識別するための２つのアプローチを示す。

Ｇｏｅｒｔｚｅｌアルゴリズムは、離散フーリエ変換（Discrete Fourier Transform、ＤＦＴ）における個々の項の効率的な評価のためにデジタル信号処理（digital signal processing、ＤＳＰ）で使用される技術であり、信号｛ｘ（ｎ），ｎ＝［０，Ｎ］｝のｋ番目のＤＦＴ成分を計算するために使用される。Ｇｏｅｒｔｚｅｌアルゴリズムは、離散信号からの１つの選択可能な周波数成分を分析する。

によって指定される既知の周波数ω_０を仮定し、
式中、Ｎは、オーディオ信号シーケンス中の項数（例えば、一般に、Ｎ＝２０５）であるとする。Ｇｏｅｒｔｚｅｌアルゴリズムは、中間シーケンスｓ［ｎ］＝ｘ［ｎ］＋２ｃｏｓω_０ｓ［ｎ－１］－ｓ［ｎ－２］を計算する第１のステージと、ｓ［ｎ］にフィルタを適用して、出力シーケンス

を生成する第２のステージとを含む、基本方程式によって定義される。ｓ［ｎ］及びｙ［ｎ］の値は、ｎ＝Ｎまで、繰り返し計算される。

Ｇｏｅｒｔｚｅｌアルゴリズムは、比較的単純であり、ほとんどの状況で良好に機能することを理解されたい。しかしながら、Ｇｏｅｒｔｚｅｌアルゴリズムの１つの重要な制約は、目的の特定の周波数が先験的に把握されなければならないことである。目的の周波数は、インデックスｋによって定義され、インデックス番号ｋ∈｛０，１，２、．．．，Ｎ－１｝から選択される。電話で一般的である８０００Ｈｚのサンプリング周波数を仮定すると、周波数分解能Δｆは、

によって求められる。
値ｆ_ｓ＝８０００及びＮ＝２０５は、何らかの特定の周波数帯域を分析するために、Ｇｏｅｒｔｚｅｌアルゴリズムが電話に適用される場合に使用されることが多いことを理解されたい。

電話では、Ｇｏｅｒｔｚｅｌアルゴリズムは、デュアルトーンマルチ周波数（Dual-Tone Multi-Frequency、ＤＴＭＦ）信号を検出するために使用され得、シグナリングの意味は、合計８つの周波数のうちの２つが同時に存在することによって決定される。以下に提示する表１に示すように、８つの異なる周波数が同時に評価されるため、Ｇｏｅｒｔｚｅｌアルゴリズムは、周波数ω_０を定義するｋの異なる値を有するｎの各値について、８回評価される。Ｇｏｅｒｔｚｅｌアルゴリズムは、ＦＦＴよりも高次の複雑さを有するが、少数の選択された周波数成分を計算するために効率的なままである。

電話で使用される他の可聴信号としては、電話コールの進行又は性質を示すコール進行トーンパターンを含む。ビジー信号、リングバック、及び特別情報トーン（special information tone、ＳＩＴ）が、そのようなコール進行トーンパターンの全ての例である。ＣＰＡでは、トーンパターンを分類することが可能であるために、トーンの大きなセットを区別する必要がある。例えば、北米では、以下に提示する表２に示すような最大１６個のトーン周波数が、異なるトーンパターンを作成するために使用され、それらのトーンパターンの各々は、特定の間隔で再生される１つ以上の周波数で構成される。上記のように、ＦＦＴがＣＰＡのために使用される場合、プロセスは、トーンの存在を検出するステップと、その周波数を識別するステップとの２つのステップに分離される。

スペクトル平坦度測定値及びエントロピー測定値は、オーディオ信号の周波数領域で計算され得る。以下に記載するように、スペクトル平坦度及びエントロピー測定値は、トーンと音声とを区別するために比較的うまく機能する。具体的には、オーディオ信号は、最初に、重複するフレームにセグメント化され得る。例えば、いくつかの実施形態では、各フレームは、０．０３秒の長さを有し、同じ長さのハミングウィンドウによって重み付けされ得る。使用される重複は、ウィンドウが、各時間ステップで０．０１秒だけ前進させられるように、２／３であり得る。２５６ポイントのＦＦＴが、各フレームにわたって実施され得る。いくつかの実施形態では、実際の信号については、パワースペクトル振幅が対称であるため、後続の分析のために、パワースペクトル振幅係数Ｘ_ｋの半分だけが、インデックスｋ ∈［１，１２８］で保持される。図４は、トーン信号及び音声信号の両方を含む例示的なオーディオ信号のスペクトログラムを示す。

スペクトル平坦度又はトーナリティ係数は、オーディオスペクトルを特徴付けるためにＤＳＰで使用される測定値である。スペクトル平坦度又はトーナリティ係数は、音が、ノイズ様であることとは対照的に、いかにトーン様であるかを定量化する方法を提供する。スペクトル平坦度測定値は、

に従って、パワースペクトルの幾何平均を、パワースペクトルの算術平均で除算することによって、計算される。
高い平坦度値（すなわち、１．０に近い値を有する）は、スペクトルが、全てのスペクトル帯域において同様の量のパワーを有することを示し、このことは、ノイズである可能性が高い一方、低いスペクトル平坦度値は、スペクトルパワーが比較的少数の周波数帯域に集中していることを示す。したがって、ゼロに近い平坦度値は、純粋なトーンである可能性がより高い。図５は、トーン及び音声中のスペクトル平坦度の例を示す。

いくつかの実施形態では、エントロピーは、トーンと音声とを区別するためのランダム性の測定値として使用され得る。エントロピーの定義は、離散集合の観点から、

として表され得る。
一般性を失うことなく、ｐ_ｋ＝０及びｐ_ｋ＝１についてｐ_ｋｌｏｇｐ_ｋ＝０を仮定し、確率の離散集合ｐ_ｋを、正規化されたパワー振幅スペクトルによって置き換えると、エントロピーＨ（Ｘ）は、図６に示される、トーン中のより低い値と、音声中のより高い値とを有することが理解されるであろう。

平坦度及びエントロピーの両方の測定値は、多くの場合、音声中に大きく変化するため（図５及び図６を参照）、累積平均が、概して、瞬間値よりも好ましい。例えば、エントロピー測定値については、エントロピーの累積平均

は、

┤によって求められ、
パラメータｔ_ｂは、オーディオ信号の現在のブロックの開始点を示す。エントロピーの累積平均は、この点ｔ_ｂと現在時間ｔまでとの間で計算される。エントロピー及び平坦度の値は、無音中にゼロに設定され得る。

しかしながら、多くの場合、オーディオ品質は、例えば、貧弱な伝送ネットワークに起因して低く、それにより、典型的には、ＣＰＡシステムを標準以下に機能させる。図７は、コールセンターで観察された低品質トーンオーディオ信号の例を示し、図８は、図７のオーディオ信号の対応するエントロピー測定値を示す。トーン信号の各ブロックが同じ近似値を有することが期待されるであろうが、図８から、低品質のトーン信号は、トーン信号の各ブロックが異なるエントロピー値を有する結果をもたらし、それにより、トーン信号と音声信号とを区別するための適切な閾値を見出すことが困難になり得ることが、明らかである。したがって、そのような不良なオーディオ信号を提示された場合、ＣＰＡアルゴリズムは、多くの場合、トーンを適切に分類しようと努力する。

上記のように、トーンと音声とを区別するために使用され得るエントロピー測定値の累積平均

は、

┤によって求められる。
しかしながら、図８を参照して上述したように、例えば、

によって求められる値は、劣化したトーン中に大きく変化し過ぎて、改善がないとトーン対音声分類に有用とならない。

本明細書に記載の改善された技術は、音声とトーンとを区別する際に使用するための累積平均スペクトルエントロピー測定値を生成するように、累積平均スペクトル分析を活用することによって、劣化したオーディオ信号によって引き起こされるこの問題を克服する。例示的な実施形態では、累積平均パワースペクトル振幅は、

┤に従って、

によって定義される。

次いで、累積平均パワースペクトル振幅値

を使用して、システムは、累積平均スペクトルエントロピー測定値

を、

に従って計算する。

本質的に、累積平均パワースペクトル振幅

は、エントロピー

自体を評価する前に計算される。例示的な実施形態では、累積平均パワースペクトル振幅

は、アクティブなオーディオ信号が検出されたときにのみ計算され、そうでなければ、値

は、ゼロに設定される。累積平均パワースペクトル振幅

は、間隔［ｔ_ｂ，ｔ］内で計算され、式中、ｔは、現在のフレームインデックスであり、ｔ_ｂは、オーディオ信号がアクティブであり始める最後の位置をマークする。

図９は、分析中の同じ例示的な劣化したトーン信号の瞬時エントロピー測定値、平均エントロピー測定値

累積平均エントロピー測定値

及び差

を示す。トーンと音声とを区別するために使用される差測定値Ｄ（ｔ）は、音声分類を大幅に改善する。平均エントロピー測定値

及び累積平均スペクトル測定値

の値が、劣化したトーン中に変化する場合でも、差測定値Ｄ（ｔ）は、比較的低いままである。実際、図９に示すように、差測定値Ｄ（ｔ）は、トーン（劣化しているか、又は劣化していない）中ほぼゼロであり、現在分析中のオーディオ信号の部分が、トーンである可能性が最も高いことを示す。比較として、図１０は、トーン及び音声の両方を有する信号を分析する場合の同じ測定値を示す。示すように、差測定値Ｄ（ｔ）は、オーディオ信号が音声であるときに変化する（図１０の右側）が、トーン中にゼロ近くに留まる（図１０の左側の２つのオーディオ信号）。

改善された技術及びアルゴリズム（すなわち、新しい方法）の性能及び頑健性を検証するために、非常に貧弱な伝送ネットワークにわたって搬送されるオーディオ信号のセットを分析した。より具体的には、システムの頑健性を評価するために使用されるオーディオファイルは、問題であるとして報告されたコンタクトセンターからの全てのオーディオ信号であった。第１のステップでは、時折の音声を伴う主にトーン信号を含む５２５個のファイルが、差測定値

を使用して分類を行う新しい方法を使用して分析された。また、同じファイルが、Ｇｏｅｒｔｚｅｌアルゴリズムをスペクトル平坦度及び平均エントロピー測定値

と組み合わせて分類を行うことからなる方法（すなわち、古い方法）を使用して分析された。ファイルはまた、トレーニングされたニューラルネット（ＮＮ）モデルを使用して分析された。結果が以下の表３に提供されており、表中、「Ｓ－Ｍ－Ｔ」は、トーンとしてマーク／分類された音声を示し、「Ｔ－Ｍ－Ｓ」は、音声としてマーク／分類されたトーンを示し、「Ｃ－Ｃ」は、正しい分類を示す。

示すように、新しい方法は、トーンとしてマークされた音声の場合にほぼ２０％少ないエラー、及び音声としてマークされたトーンの場合に６５％少ないエラーを生じることによって、ＮＮモデルよりも性能が優れていることを含めて、代替方法よりも少ない分類エラーを生じる。したがって、そのような結果は、新しい方法／技術の実現可能性において実質的な信頼性を提供することを理解されたい。

第２のステップでは、時折のトーンを伴う主に音声のオーディオ信号を含む２２５個のファイルが、同じ方法を使用して分析された。結果が以下の表４に提供されている。

したがって、時折のトーンを伴う主に音声を含むオーディオ信号の分析は、同様の比較結果をもたらし、新しい方法／技術は、分析された他の２つの方法よりも少ない分類エラーを生じる。

オーディオストリーム内にトーンがいつ存在するかを正確かつ効率的に検出できることは、コール進行分析（ＣＰＡ）システムにおける重要なステップである。信号がトーンを表すと仮定すると、特定のトーンを（例えば、４００Ｈｚのトーン又は６７９Ｈｚのトーンとして）識別することは、典型的には、比較的単純である。累積平均スペクトル分析を伴う本明細書に記載の方法及び技術は、劣化したオーディオ信号に遭遇する場合でも、トーンと音声とを区別する能力において頑健であり、したがって、世界中でＣＰＡシステムの性能を大幅に改善するのに役立つであろう。

オーディオ信号は、例えば、コールを自動的に解釈／処理するために、本明細書に記載の技術を使用して、オーディオ信号のトーンと音声とを区別する、コンタクトセンターシステム（例えば、図２のコンタクトセンターシステム）の１つ以上のデバイスによって受信及び／又は分析され得ることを理解されたい。例えば、いくつかの実施形態では、コールの開始者（例えば、自動アウトバウンドダイヤラシステム）は、アウトバウンドコールをエージェント又は自動双方向音声応答（ＩＶＲ）システムに接続するなど、次の適切なアクションを取るために、回線がビジーであるかどうか、誰かが応答したかどうかなどを知ることに関心がある。

ここで図１Ａ及び図１Ｂを参照すると、使用中、システムは、トーン及び音声分類を使用してコール進行分析を実施するための方法１００を実行し得る。いくつかの実施形態では、システムは、コンピューティングデバイス（例えば、図３のコンピューティングデバイス３００）及び／又はコンタクトセンターシステム（例えば、図２のコンタクトセンターシステム２００）若しくはそのシステム／デバイスとして具現化され得ることを理解されたい。方法１００の特定のブロックは例として示されており、そのようなブロックは、反対のことが述べられていない限り、特定の実施形態に応じて、全体的又は部分的に組み合わされ、又は分割され、追加され、又は除去され、及び／又は並べ替えられてもよいことを理解されたい。

例示的な方法１００は、システム（例えば、コンピューティングデバイス３００又はコンタクトセンターシステム２００）がオーディオ信号を受信する、図１Ａのブロック１０２から始まる。ブロック１０４で、システムは、受信されたオーディオ信号のエントロピーを決定する。そうする際に、ブロック１０６で、システムは、

に従って、受信されたオーディオ信号のエントロピーを計算し得る。

ブロック１０８で、システムは、オーディオ信号のエントロピーの累積平均を決定する。そうする際に、ブロック１１０で、システムは、

┤に従って、オーディオ信号のエントロピーの累積平均を計算し得る。

ブロック１１２で、システムは、オーディオ信号の累積平均パワースペクトル振幅を決定する。そうする際に、ブロック１１４で、システムは、

┤に従って、オーディオ信号の累積平均パワースペクトル振幅を計算し得る。

図１Ｂのブロック１１６で、システムは、オーディオ信号の累積平均パワースペクトル振幅に基づいて、オーディオ信号の累積平均スペクトルエントロピーを決定する。そうする際に、ブロック１１８で、システムは、

に従って、オーディオ信号の累積平均スペクトルエントロピーを計算し得る。

ブロック１２０で、システムは、オーディオ信号のエントロピーの累積平均と、オーディオ信号の累積平均スペクトルエントロピーとの差として、オーディオ信号の差測定値を決定する。そうする際に、ブロック１２２で、システムは、

に従って、オーディオ信号の差測定値を計算し得る。

ブロック１２４では、システムは、オーディオ信号の差測定値に基づいて、トーン及び音声を分類する。例えば、上述のように、差測定値は、トーン中にゼロに近いか又はほぼゼロであり得、差測定値がほぼゼロである場合、分析中のオーディオ信号の部分（例えば、周波数範囲）が、トーンに対応する可能性が高いことを示す。したがって、いくつかの実施形態では、システムは、１つ以上の閾値を利用して、オーディオ信号のトーン部分と音声部分とを区別し得る。具体的には、システムは、所定の閾値を下回るオーディオ信号の部分をオーディオ信号のトーン部分であるとし、所定の閾値を上回る（又は少なくとも所定の閾値の）オーディオ信号の部分をオーディオ信号の音声部分であるとして、識別し得る。他の実施形態では、システムは、オーディオ信号の差測定値に基づいて、別様にトーン及び音声を区別／分類し得ることを理解されたい。

ブロック１２６で、システムは、オーディオ信号内で１つ以上のトーンが識別されたかどうかを判定する。該当する場合、方法１００は、ブロック１２８に進み、システムは、１つ以上のトーンを処理する（又は処理することを試みる）。そうでなければ、方法１００は、終了し得る。オーディオ信号内でトーンが識別される状況では、識別されたトーンは、１つ以上のコール進行トーンパターンであり得るか、又はそれを含み得ることを理解されたい。例えば、いくつかの実施形態では、トーンは、ビジー信号パターン、リングバックパターン、又は特別情報トーン（ＳＩＴ）パターンを含むか、又は表し得る。システムは、任意の好適な技術及び／又はアルゴリズムを使用して、例えば、オーディオ信号内で識別されたトーンの各々の対応する周波数を決定することによって、１つ以上のトーンを処理し得ることを理解されたい。例えば、いくつかの実施形態では、システムは、オーディオ信号の１つ以上のトーン内のコール進行トーンパターンを識別して、電話コールを別のエンティティに転送し得る。具体的には、コンタクトセンターシステムの文脈において、電話コールは、コンタクトセンターシステムの第１のシステムからコンタクトセンターシステムの第２のシステムに転送され得る。別の実施形態では、オーディオ信号のトーン（例えば、コール進行トーンパターン）の処理は、アウトバウンドコールを、コンタクトセンターシステムのエージェント又は自動双方向音声応答（ＩＶＲ）システムに接続することを含み得る。

ブロック１０２～１２８は比較的直列的に記載されているが、方法１００の様々なブロックは、いくつかの実施形態では並列に実施され得ることを理解されたい。

ここで図２を参照すると、本明細書に記載の実施形態のうちの１つ以上と併せて使用され得る、通信インフラストラクチャ及び／又はコンテンツセンターシステムの少なくとも１つの実施形態の簡略ブロック図が示されている。コンタクトセンターシステム２００は、コンタクトセンターサービス（例えば、コールセンターサービス、チャットセンターサービス、ＳＭＳセンターサービスなど）をエンドユーザに提供すること、及び別様に本明細書に記載の機能を実施することが可能な任意のシステムとして具現化され得る。例示的なコンタクトセンターシステム２００は、顧客デバイス２０５、ネットワーク２１０、スイッチ／メディアゲートウェイ２１２、コールコントローラ２１４、双方向メディア応答（interactive media response、ＩＭＲ）サーバ２１６、ルーティングサーバ２１８、記憶デバイス２２０、統計サーバ２２６、エージェントデバイス２３０Ａ、２３０Ｂ、２３０Ｃ、メディアサーバ２３４、知識管理サーバ２３６、知識システム２３８、チャットサーバ２４０、ウェブサーバ２４２、インタラクション（ｉＸｎ）サーバ２４４、ユニバーサルコンタクトサーバ２４６、レポーティングサーバ２４８、メディアサービスサーバ２４９、及び分析モジュール２５０を含む。図２の例示的な実施形態には１つの顧客デバイス２０５、１つのネットワーク２１０、１つのスイッチ／メディアゲートウェイ２１２、１つのコールコントローラ２１４、１つのＩＭＲサーバ２１６、１つのルーティングサーバ２１８、１つの記憶デバイス２２０、１つの統計サーバ２２６、１つのメディアサーバ２３４、１つの知識管理サーバ２３６、１つの知識システム２３８、１つのチャットサーバ２４０、１つのｉＸｎサーバ２４４、１つのユニバーサルコンタクトサーバ２４６、１つのレポーティングサーバ２４８、１つのメディアサービスサーバ２４９、及び１つの分析モジュール２５０しか示されていないが、コンタクトセンターシステム２００は、他の実施形態において、複数の顧客デバイス２０５、ネットワーク２１０、スイッチ／メディアゲートウェイ２１２、コールコントローラ２１４、ＩＭＲサーバ２１６、ルーティングサーバ２１８、記憶デバイス２２０、統計サーバ２２６、メディアサーバ２３４、知識管理サーバ２３６、知識システム２３８、チャットサーバ２４０、ｉＸｎサーバ２４４、ユニバーサルコンタクトサーバ２４６、レポーティングサーバ２４８、メディアサービスサーバ２４９、及び／又は分析モジュール２５０を含み得る。更に、いくつかの実施形態では、本明細書に記載の構成要素のうちの１つ以上は、システム２００から除外され得、独立しているものとして記載されている構成要素のうちの１つ以上は、別の構成要素の一部分を形成し得、かつ／又は別の構成要素の一部分を形成するものとして記載されている構成要素のうちの１つ以上は、独立し得る。

本明細書では、「コンタクトセンターシステム」という用語は、図２に示すシステム及び／又はその構成要素を指すために使用される一方、「コンタクトセンター」という用語は、より一般的に、コンタクトセンターシステム、これらのシステムを動作させる顧客サービスプロバイダ、及び／又はそれらに関連付けられた組織若しくは企業を指すために使用されることを理解されたい。したがって、特に限定されない限り、「コンタクトセンター」という用語は、概して、コンタクトセンターシステム（コンタクトセンターシステム２００など）、関連する顧客サービスプロバイダ（コンタクトセンターシステム２００を通して顧客サービスを提供する特定の顧客サービスプロバイダなど）、並びに顧客サービスが代理で提供されている組織又は企業を指す。

背景として、顧客サービスプロバイダは、コンタクトセンターを通して多くのタイプのサービスを提供し得る。そのようなコンタクトセンターは、従業員若しくは顧客サービスエージェント（又は単に「エージェント」）が配置され得、エージェントは、会社、企業、政府機関、又は組織（以下、互換的に「組織」又は「企業」と称される）と、ユーザ、個人、又は顧客などの人々（以下、互換的に「個人」又は「顧客」と称される）との間のインターフェースとして機能する。例えば、コンタクトセンターのエージェントは、購入の決定、注文の受け付け、又は既に受け取った製品若しくはサービスに関する問題を解決する際に顧客を支援することができる。コンタクトセンター内で、コンタクトセンターエージェントと外部エンティティ又は顧客との間のそのようなインタラクションは、例えば、音声（例えば、電話コール又はボイスオーバーＩＰ、すなわち、ＶｏＩＰコール）、ビデオ（例えば、ビデオ会議）、テキスト（例えば、電子メール及びテキストチャット）、画面共有、コブラウジング、及び／又は他の通信チャネルなどの様々な通信チャネルを介して、行われ得る。

運用上、コンタクトセンターは、一般に、コストを最小限に抑えながら、質の高いサービスを顧客に提供するように努力する。例えば、コンタクトセンターが動作する１つの方法が、ライブエージェントとの全顧客インタラクションを取り扱うことである。このアプローチは、サービス品質の観点から十分に成功し得る一方、エージェントの労働の高いコストに起因して、法外に高価となる可能性が高いであろう。このため、ほとんどのコンタクトセンターは、ライブエージェントの代わりに、例えば、双方向音声応答（ＩＶＲ）システム、双方向メディア応答（ＩＭＲ）システム、インターネットロボット、すなわち、「ボット」、自動チャットモジュール、すなわち、「チャットボット」、及び／又は他の自動処理されたなどの、あるレベルの自動プロセスを利用する。多くの場合、これは、自動プロセスが、特定のタイプのインタラクションを取り扱うのに非常に効率的であり、ライブエージェントの必要性を低減するのに効果的であり得るため、成功戦略であることが証明されている。そのような自動化により、コンタクトセンターが、人間のエージェントの使用をより困難な顧客インタラクションに標的化することを可能にする一方で、自動プロセスは、より反復的又は日常的なタスクを取り扱う。更に、自動プロセスは、効率を最適化し、繰り返し性を促進する方法で構造化され得る。人間のエージェント、すなわち、ライブエージェントは、特定の質問に応える、若しくは特定の詳細を徹底的に追及することを忘れ得るが、そのような誤りは、典型的には、自動プロセスの使用を通して回避される。顧客サービスプロバイダは、顧客と相互作用する自動プロセスにますます依存する一方、顧客によるそのような技術の使用は、はるかに未発達のままである。したがって、インタラクションのコンタクトセンター側では、ＩＶＲシステム、ＩＭＲシステム、及び／又はボットが使用されて、インタラクションの部分を自動化する一方、顧客側のアクションは、顧客が手動で実施するままである。

コンタクトセンターシステム２００は、様々なタイプのサービスを顧客に提供するために、顧客サービスプロバイダによって使用され得ることを理解されたい。例えば、コンタクトセンターシステム２００は、自動プロセス（若しくはボット）又は人間のエージェントが顧客と通信するインタラクションに参加する、及びインタラクションを管理するために使用され得る。理解されるように、コンタクトセンターシステム２００は、企業を通して利用可能な製品及びサービスに関連する販売及び顧客サービスの機能を実施するためのビジネス又は企業の社内施設であり得る。別の実施形態では、コンタクトセンターシステム２００は、別の組織に代わってサービスを提供するように契約するサードパーティサービスプロバイダによって運用され得る。更に、コンタクトセンターシステム２００は、企業又はサードパーティサービスプロバイダ専用の機器上に配備され、かつ／又は、例えば、複数の企業のために複数のコンタクトセンターをサポートするためのインフラストラクチャを備えたプライベート若しくはパブリッククラウド環境などのリモートコンピューティング環境内に配備され得る。コンタクトセンターシステム２００は、構内で若しくはリモートで、又はそれらの何らかの組み合わせで実行され得るソフトウェアアプリケーション若しくはプログラムを含み得る。更に、コンタクトセンターシステム２００の様々な構成要素は、様々な地理的位置にわたって分散され得、必ずしも単一の場所又はコンピューティング環境に含まれるわけではないことを理解されたい。

更に、特に別様に限定されない限り、本発明のコンピューティング要素のいずれかは、クラウドベース又はクラウドコンピューティング環境内に実装され得ることを理解されたい。本明細書で使用され、更にコンピューティングデバイス３００に関連して以下に記載される場合、「クラウドコンピューティング」又は単に「クラウド」は、仮想化を介して迅速にプロビジョンされ、最小限の管理努力若しくはサービスプロバイダインタラクションでリリースされ、次いで適宜スケーリングされ得る構成可能なコンピューティングリソース（例えば、ネットワーク、サーバ、記憶装置、アプリケーション、及びサービス）の共有プールへのユビキタスで便利なオンデマンドのネットワークアクセスを可能にするためのモデルとして定義される。クラウドコンピューティングは、様々な特性（例えば、オンデマンドセルフサービス、広域ネットワークアクセス、リソースプーリング、迅速な弾力性、測定可能なサービスなど）、サービスモデル（例えば、サービスとしてのソフトウェア（Software as a Service、「ＳａａＳ」）、サービスとしてのプラットフォーム（Platform as a Service、「ＰａａＳ」）、サービスとしてのインフラストラクチャ（Infrastructure as a Service、「ＩａａＳ」）、及び配備モデル（例えば、プライベートクラウド、コミュニティクラウド、パブリッククラウドなど）で構成され得る。「サーバレスアーキテクチャ」としばしば呼ばれるクラウド実行モデルは、一般に、所望の機能を達成するために、リモートサーバの割り当て及びプロビジョニングを動的に管理するサービスプロバイダを含む。

図２に関連して説明されたコンピュータ実装構成要素、モジュール、又はサーバのいずれかは、例えば、図３のコンピューティングデバイス３００などの１つ以上のタイプのコンピューティングデバイスを介して実装され得ることを理解されたい。理解されるように、コンタクトセンターシステム２００は、一般に、電話、電子メール、チャット、又は他の通信機構を介したサービスの配信を可能にするために、リソース（例えば、人材、コンピュータ、電気通信機器など）を管理する。そのようなサービスは、コンタクトセンターのタイプに応じて変化し得、例えば、顧客サービス、ヘルプデスク機能、緊急応答、テレマーケティング、受注、及び／又は他の特性を含み得る。

コンタクトセンターシステム２００からサービスを受けることを所望する顧客は、顧客デバイス２０５を介して、コンタクトセンターシステム２００へのインバウンド通信（例えば、電話、電子メール、チャットなど）を開始し得る。図２は、１つのそのような顧客デバイス、すなわち顧客デバイス２０５を示しているが、任意の数の顧客デバイス２０５が存在し得ることを理解されたい。顧客デバイス２０５は、例えば、電話、スマートフォン、コンピュータ、タブレット、又はラップトップなどの通信デバイスであり得る。本明細書に記載の機能によれば、顧客は、一般に、顧客デバイス２０５を使用して、電話コール、電子メール、チャット、テキストメッセージ、ウェブブラウジングセッション、及び他のマルチメディアトランザクションなど、コンタクトセンターシステム２００との通信を開始、管理、及び実行し得る。

顧客デバイス２０５からの、及び顧客デバイス２０５へのインバウンド通信及びアウトバウンド通信は、典型的には、使用されている顧客デバイスのタイプ及び通信の形態に依存するネットワークの性質により、ネットワーク２１０を横断し得る。一例として、ネットワーク２１０としては、電話、セルラー、及び／又はデータサービスの通信ネットワークが挙げられ得る。ネットワーク２１０は、プライベート若しくは公衆交換電話網（public switched telephone network、ＰＳＴＮ）、ローカルエリアネットワーク（local area network、ＬＡＮ）、プライベートワイドエリアネットワーク（wide area network、ＷＡＮ）、及び／又はインターネットなどのパブリックＷＡＮであり得る。更に、ネットワーク２１０は、符号分割多重アクセス（code division multiple access、ＣＤＭＡ）ネットワーク、モバイル通信のためのグローバルシステム（global system for mobile communications、ＧＳＭ）ネットワーク、又は３Ｇ、４Ｇ、ＬＴＥ、５Ｇなどを含むがこれらに限定されない、当該技術分野で慣用の任意の無線ネットワーク／技術を含む、無線キャリアネットワークを含み得る。

スイッチ／メディアゲートウェイ２１２は、顧客とコンタクトセンターシステム２００との間の電話コールを受信及び伝送するために、ネットワーク２１０に結合され得る。スイッチ／メディアゲートウェイ２１２としては、センター内でのエージェントレベルルーティングのための中央スイッチとして機能するように構成された電話スイッチ又は通信スイッチが挙げられ得る。スイッチは、ハードウェアスイッチングシステムであるか、又はソフトウェアを介して実装され得る。例えば、スイッチ２１２としては、自動コールディストリビュータ、構内交換機（private branch exchange、ＰＢＸ）、ＩＰベースのソフトウェアスイッチ、及び／又は顧客からインターネットソース型インタラクション並びに／若しくは電話網ソース型インタラクションを受信し、これらのインタラクションを、例えば、エージェントデバイス２３０のうちの１つにルーティングするように構成された専用ハードウェア及びソフトウェアを有する任意の他のスイッチが、挙げられ得る。したがって、一般に、スイッチ／メディアゲートウェイ２１２は、顧客デバイス２０５とエージェントデバイス２３０との間の接続を確立することによって、顧客とエージェントとの間の音声接続を確立する。

更に示すように、スイッチ／メディアゲートウェイ２１２は、例えば、コンタクトセンターシステム２００のスイッチと他のルーティング、監視、及び通信処理構成要素との間のアダプタ又はインターフェースとして機能するコールコントローラ２１４に結合され得る。コールコントローラ２１４は、ＰＳＴＮコール、ＶｏＩＰコール、及び又は他のタイプのコールを処理するように構成され得る。例えば、コールコントローラ２１４は、スイッチ／メディアゲートウェイ及び他の構成要素とインターフェース接続するためのコンピュータ－電話統合（computer-telephone integration、ＣＴＩ）ソフトウェアを含み得る。コールコントローラ２１４は、セッション開始プロトコル（session initiation protocol、ＳＩＰ）コールを処理するためのＳＩＰサーバを含み得る。コールコントローラ２１４はまた、顧客の電話番号、ＩＰアドレス、又は電子メールアドレスなどの入来インタラクションに関するデータを抽出し、次いで、インタラクションを処理する際に、これらを他のコンタクトセンター構成要素と通信することができる。

双方向メディア応答（interactive media response、ＩＭＲ）サーバ２１６は、自己ヘルプ機能又は仮想アシスタント機能を可能にするように構成され得る。具体的には、ＩＭＲサーバ２１６は、ＩＭＲサーバ２１６が音声に制限されず、様々なメディアチャネルをカバーし得ることを除いて、双方向音声応答（ＩＶＲ）サーバと同様であり得る。音声を説明する例では、ＩＭＲサーバ２１６は、顧客に顧客のニーズを問い合わせるためのＩＭＲスクリプトで構成され得る。例えば、銀行のコンタクトセンターは、顧客が自分の預金残高を検索したい場合に「１を押す」ように、ＩＭＲスクリプトを介して顧客に指示し得る。ＩＭＲサーバ２１６との継続的なインタラクションを介して、顧客は、エージェントと話をする必要なしに、サービスを受けることできる。ＩＭＲサーバ２１６はまた、通信が、適切なリソースにルーティングされ得るように、顧客がコンタクトセンターに接触している理由を確認するように構成され得る。ＩＭＲ構成は、コンタクトセンター環境（例えば、Ｇｅｎｅｓｙｓ（登録商標）Ｄｅｓｉｇｎｅｒ）内で実行されるＩＶＲアプリケーション及びルーティングアプリケーションを開発するためのウェブベースのツールを含むセルフサービス及び／又はアシストサービスツールの使用を通して実施され得る。

ルーティングサーバ２１８は、入来インタラクションをルーティングするように機能し得る。例えば、インバウンド通信が、人間のエージェントによって処理されるべきであることが決定されると、ルーティングサーバ２１８内の機能は、最も適切なエージェントを選択して、通信をそのエージェントにルーティングし得る。このエージェント選択は、どの利用可能なエージェントが通信を取り扱うために最適であるかに基づき得る。より具体的には、適切なエージェントの選択は、ルーティングサーバ２１８によって実装されるルーティング戦略又はアルゴリズムに基づき得る。これを行う際に、ルーティングサーバ２１８は、入来インタラクションに関連するデータ、例えば、特定の顧客、利用可能なエージェント、及びインタラクションのタイプに関連するデータをクエリし得、このデータは、本明細書に記載するように、特定のデータベースに記憶され得る。エージェントが選択されると、ルーティングサーバ２１８は、コールコントローラ２１４とインタラクションして、入来インタラクションを、対応するエージェントデバイス２３０にルーティング（すなわち、接続）し得る。この接続の一部として、顧客に関する情報が、選択されたエージェントに、それらのエージェントデバイス２３０を介して提供され得る。この情報は、エージェントが顧客に提供できるサービスを強化することを意図している。

コンタクトセンターシステム２００は、データをコンタクトセンターの機能に関連する１つ以上のデータベースに記憶するための１つ以上の大容量記憶デバイス（一般的に記憶デバイス２２０によって表される）を含み得ることを理解されたい。例えば、記憶デバイス２２０は、顧客データベースに維持される顧客データを記憶し得る。そのような顧客データとしては、例えば、顧客プロファイル、連絡先情報、サービスレベル合意書（service level agreement、ＳＬＡ）、及びインタラクション履歴（例えば、以前のインタラクションの性質、処分データ、待ち時間、処理時間、及び顧客の問題を解決するためにコンタクトセンターによって取られたアクションを含む、特定の顧客との以前のインタラクションの詳細）が挙げられ得る。別の例として、記憶デバイス２２０は、エージェントデータをエージェントデータベースに記憶し得る。コンタクトセンターシステム２００によって維持されるエージェントデータは、例えば、エージェントの利用可能性及びエージェントプロファイル、スケジュール、スキル、処理時間、及び／又は他の関連データを含み得る。別の例として、記憶デバイス２２０は、インタラクションデータをインタラクションデータベースに記憶し得る。インタラクションデータは、例えば、顧客とコンタクトセンターとの間の多数の過去のインタラクションに関連するデータを含み得る。より一般的には、特に指定されない限り、記憶デバイス２２０は、データベースを含み、かつ／又は本明細書に記載の情報のタイプのいずれかに関連するデータを記憶するように構成され得、これらのデータベース及び／又はデータは、本明細書に記載の機能を容易にする方法で、コンタクトセンターシステム２００の他のモジュール又はサーバにアクセス可能であることを理解されたい。例えば、コンタクトセンターシステム２００のサーバ又はモジュールは、そのようなデータベースをクエリして、データベース内に記憶されたデータを検索するか、又は記憶するためにデータをデータベースに送信し得る。記憶デバイス２２０は、例えば、任意の従来の記憶媒体の形態をとり得、ローカルに収容されるか、又はリモート位置から操作され得る。一例として、データベースは、Ｃａｓｓａｎｄｒａデータベース、ＮｏＳＱＬデータベース、又はＳＱＬデータベースであり、Ｏｒａｃｌｅ、ＩＢＭＤＢ２、ＭｉｃｒｏｓｏｆｔＳＱＬサーバ、又はＭｉｃｒｏｓｏｆｔＡｃｃｅｓｓ、ＰｏｓｔｇｒｅＳＱＬなどのデータベース管理システムによって管理され得る。

統計サーバ２２６は、コンタクトセンターシステム２００の性能及び動作態様に関連するデータを記録及び集計するように構成され得る。そのような情報は、統計サーバ２２６によってコンパイルされ、他のサーバ及びモジュール、例えば、レポーティングサーバ２４８に利用可能にされ得、次いで、レポーティングサーバ２４８は、データを使用して、コンタクトセンターの動作態様を管理し、本明細書に記載の機能に従って自動化されたアクションを実行するために使用されるレポートを生成し得る。そのようなデータは、コンタクトセンターのリソースの状態、例えば、平均待ち時間、破棄率、エージェントの占有率、及び本明細書に記載の機能が必要とするであろうその他に関連し得る。

コンタクトセンターシステム２００のエージェントデバイス２３０は、本明細書に記載の機能を容易にする方法で、コンタクトセンターシステム２００の様々な構成要素及びモジュールと相互作用するように構成された通信デバイスであり得る。例えば、エージェントデバイス２３０は、通常の電話コール又はＶｏＩＰコールに適合された電話を含み得る。エージェントデバイス２３０は、コンタクトセンターシステム２００のサーバと通信し、動作に関連付けられたデータ処理を実施し、本明細書に記載の機能に従って、音声、チャット、電子メール、及び他のマルチメディア通信機構を介して顧客とインターフェース接続するように構成されたコンピューティングデバイスを更に含み得る。図２は、３つのそのようなエージェントデバイス２３０、すなわち、エージェントデバイス２３０Ａ、２３０Ｂ、及び２３０Ｃを示すが、特定の実施形態では、任意の数の薬剤デバイス２３０が存在し得ることを理解されたい。

マルチメディア／ソーシャルメディアサーバ２３４は、顧客デバイス２０５及び／又はサーバ２４２との（音声以外の）メディアインタラクションを容易にするように構成され得る。そのようなメディアインタラクションは、例えば、電子メール、音声メール、チャット、ビデオ、テキストメッセージング、ウェブ、ソーシャルメディア、コブラウジングなどに関連し得る。マルチメディア／ソーシャルメディアサーバ２３４は、マルチメディアイベント及び通信を受信、処理、及び転送するための専用ハードウェア及びソフトウェアを有する、当該技術分野で慣用の任意のＩＰルータの形態を取り得る。

知識管理サーバ２３６は、顧客と知識システム２３８との間のインタラクションを容易にするように構成され得る。概して、知識システム２３８は、質問、すなわちクエリを受信し、それに応じて回答を提供することができるコンピュータシステムであり得る。知識システム２３８は、コンタクトセンターシステム２００の一部として含まれるか、又はサードパーティによってリモートで操作され得る。知識システム２３８は、参考資料として知識システム２３８に提出された百科事典、辞書、ニュースワイヤ記事、文学作品、又は他の文書などの情報源から情報を取得することによって、自然言語で提示された質問に回答することができる人工知能コンピュータシステムを含み得る。一例として、知識システム２３８は、ＩＢＭワトソン又は同様のシステムとして具現化され得る。

チャットサーバ２４０は、顧客との電子チャット通信を行い、オーケストレーションし、かつ管理するように構成され得る。一般に、チャットサーバ２４０は、チャット会話を実施及び維持し、チャットトランスクリプトを生成するように構成される。そのようなチャット通信は、顧客が、自動化されたチャットボット、人間のエージェント、又はその両方と通信するような方法で、チャットサーバ２４０によって行われ得る。例示的な実施形態では、チャットサーバ２４０は、チャットボット及び利用可能な人間のエージェントの間にチャット会話をディスパッチするチャットオーケストレーションサーバとして機能し得る。そのような場合、チャットサーバ２４０の処理ロジックは、利用可能なチャットリソース間でインテリジェントなワークロード分配を活用するために、そのように駆動されるルールであり得る。チャットサーバ２４０は更に、顧客デバイス２０５又はエージェントデバイス２３０のいずれかで生成されるユーザインターフェース（user interfaces、ＵＩ）を含む、チャット機能に関連付けられたＵＩを実装、管理、及び円滑化し得る。チャットサーバ２４０は、特定の顧客との単一のチャットセッション内で、例えば、チャットセッションが、チャットボットから人間のエージェントに、又は人間のエージェントからチャットボットに移動するように、チャットを自動ソースと人間ソースとの間で転送するように構成され得る。チャットサーバ２４０はまた、例えば、関連する記事へのリンクが提供され得るように、チャット中に居客によって提示されたクエリに対する提案及び回答を受信するために、知識管理サーバ２３６及び知識システム２３８に結合され得る。

ウェブサーバ２４２は、Ｆａｃｅｂｏｏｋ、Ｔｗｉｔｔｅｒ、Ｉｎｓｔａｇｒａｍなど、顧客がサブスクライブする様々なソーシャルインタラクションサイトのサイトホストを提供するために含まれ得る。コンタクトセンターシステム２００の一部として示されているが、ウェブサーバ２４２は、サード－パーティによって提供され得、及び／又はリモートに維持され得ることを理解されたい。ウェブサーバ２４２はまた、コンタクトセンターシステム２００によってサポートされている企業又は組織のウェブページを提供し得る。例えば、顧客は、ウェブページを閲覧して、特定の企業の製品及びサービスに関する情報を受信し得る。そのような企業のウェブページ内で、例えば、ウェブチャット、音声、又は電子メールを介して、コンタクトセンターシステム２００とのインタラクションを開始するための機構が提供され得る。そのような機構の一例が、ウェブサーバ２４２上にホストされるウェブページ又はウェブサイト上に展開され得るウィジェットである。本明細書で使用される場合、ウィジェットは、特定の機能を実施するユーザインターフェース構成要素を指す。いくつかの実装例では、ウィジェットは、インターネットを介して顧客に表示されたウェブページ上にオーバーレイされ得るグラフィカルユーザインターフェースコントロールを含み得る。ウィジェットは、ウィンドウ又はテキストボックスなどに情報を示すか、又はファイルを共有若しくは開くこと、又は通信を開始することなど、特定の機能にユーザがアクセスすることを可能にするボタン又は他のコントロールを含み得る。いくつかの実装例では、ウィジェットは、コンパイルなしで別個のウェブページ内にインストールされ、かつ実行され得るコードの可搬部分を有するユーザインターフェース構成要素を含む。いくつかのウィジェットは、対応する又は追加のユーザインターフェースを含み得、様々なローカルリソース（例えば、顧客デバイス上のカレンダー若しくはコンタクト情報）又はネットワークを介してリモートリソース（例えば、インスタントメッセージング、電子メール、又はソーシャルネットワーキングアップデート）にアクセスするように構成され得る。

インタラクション（ｉＸｎ）サーバ２４４は、コンタクトセンターの延期可能なアクティビティ、及び完了のための、そのアクティビティの人間のエージェントへのルーティングを管理するように構成され得る。本明細書で使用される場合、延期可能なアクティビティとしては、オフラインで実施され得るバックオフィスワーク、例えば、電子メールに対応すること、トレーニングに参加すること、及び顧客とのリアルタイム通信を必要としない他のアクティビティが挙げられる。一例として、インタラクション（ｉＸｎ）サーバ２４４は、延期可能なアクティビティの各々を処理するのに適したエージェントを選択するために、ルーティングサーバ２１８と相互作用するように構成され得る。特定のエージェントに割り当てられると、延期可能なアクティビティは、そのエージェントにプッシュされ、その結果、延期可能なアクティビティは、選択されたエージェントのエージェントデバイス２３０上に表示される。延期可能なアクティビティは、選択されたエージェントが完了させるタスクとして、ワークビン内に表示され得る。ワークビンの機能は、例えば、リンクされたリスト、アレイなどの任意の従来のデータ構造、及び／又は他の好適なデータ構造を介して実装され得る。エージェントデバイス２３０の各々は、ワークビンを含み得る。一例として、ワークビンは、対応するエージェントデバイス２３０のバッファメモリ内に維持され得る。

ユニバーサルコンタクトサーバ（universal contact server、ＵＣＳ）２４６は、顧客データベースに記憶された情報を検索し、及び／又は顧客データベースに記憶するために情報を顧客データベースに送信するように構成され得る。例えば、ＵＣＳ２４６は、特定の顧客とのチャットがどのように処理されたかに関する履歴を維持することを容易にするために、チャット機能の一部として利用され得、次いで、この履歴は、将来のチャット通信をどのように処理すべきかに関する参照として使用され得る。より一般的には、ＵＣＳ２４６は、好ましいメディアチャネル及びコンタクトする最良の時間などの顧客選好の履歴を維持することを容易にするように構成され得る。これを行うために、ＵＣＳ２４６は、例えば、エージェントからのコメント、顧客通信履歴などに関するデータなど、各顧客のインタラクション履歴に関連するデータを識別するように構成され得る。これらのデータタイプの各々は、次に、顧客データベース２２２又は他のモジュールに記憶されて、本明細書に記載の機能が必要とするときに、検索され得る。

レポーティングサーバ２４８は、統計サーバ２２６又は他のソースによってコンパイル及び集計されたデータからレポートを生成するように構成され得る。そのようなレポートは、準リアルタイムレポート又は履歴レポートを含み、例えば、平均待ち時間、破棄率、及び／又はエージェントの占有率など、コンタクトセンターリソース及び性能特性の状態に関係し得る。レポートは、自動的に、又は要求元（例えば、エージェント／管理者、コンタクトセンターアプリケーションなど）からの特定の要求に応じて生成され得る。次いで、レポートは、本明細書に記載の機能に従って、コンタクトセンターの動作を管理するために使用され得る。

メディアサービスサーバ２４９は、コンタクトセンター機能をサポートするために、オーディオサービス及び／又はビデオサービスを提供するように構成され得る。本明細書に記載の機能によると、そのような機能としては、ＩＶＲ若しくはＩＭＲシステムのプロンプト（例えば、オーディオファイルの再生）、保留音、ボイスメール／単一パーティの記録、マルチパーティの記録（例えば、オーディオ及び／又はビデオコールの）、音声認識、デュアルトーンマルチ周波数（dual tone multi frequency、ＤＴＭＦ）認識、ファックス、オーディオ及びビデオトランスコーディング、セキュアなリアルタイム転送プロトコル（secure real-time transport protocol、ＳＲＴＰ）、電話会議、ビデオ会議、コーチング（例えば、コーチが顧客とエージェントとの間のインタラクションを立ち聞きするための、及び顧客がコメントを聞くことなしに、コーチがエージェントにコメントを提供するためのサポート）、コール分析、キーワードスポッティング、及び／又は他の関連する機能が、挙げられ得る。

分析モジュール２５０は、本明細書に記載の機能が必要とし得る場合に、複数の異なるデータソースから受信されたデータに対して分析を実施するためのシステム及び方法を提供するように構成され得る。例示的な実施形態によれば、分析モジュール２５０はまた、例えば、顧客データ、エージェントデータ、及びインタラクションデータなどの収集されたデータに基づいて、予測因子又はモデルを生成、更新、トレーニング、及び修正し得る。モデルは、顧客又はエージェントの行動モデルを含み得る。行動モデルは、様々な状況で、例えば、顧客又はエージェントの行動を予測するために使用され得、それにより、本発明の実施形態が、そのような予測に基づいてインタラクションを調整するか、又は将来のインタラクションの予測される特性に備えてリソースを割り当てることを可能にし、それにより、全体的なコンタクセンター性能及び顧客体験を改善する。分析モジュールは、コンタクトセンターの一部であると説明されているが、そのような行動モデルはまた、顧客システム（又は本明細書でも使用されているように、インタラクションの「顧客側」）に実装されて、顧客の利益のために使用され得ることが理解されよう。

例示的な実施形態によれば、分析モジュール２５０は、顧客データベース及びエージェントデータベースを含む記憶デバイス２２０に記憶されたデータへのアクセスを有し得る。分析モジュール２５０はまた、インタラクション及びインタラクションコンテンツ（例えば、その中に検出されたインタラクション及びイベントのトランスクリプト）、インタラクションメタデータ（例えば、顧客識別子、エージェント識別子、インタラクションの媒体、インタラクションの長さ、インタラクション開始及び終了時間、部門、タグ付きカテゴリ）、及びアプリケーション設定（例えば、コンタクトセンターを通るインタラクション経路）に関連するデータを記憶するインタラクションデータベースへのアクセスを有し得る。更に、分析モジュール２５０は、例えば、機械学習技術を適用することによって、アルゴリズム及びモデルを開発及びトレーニングする際に使用するために、記憶デバイス２２０内に記憶されたデータを検索するように構成され得る。

含まれるモデルのうちの１つ以上は、顧客若しくはエージェントの挙動、及び／又はコンタクトセンターの動作及び性能に関連する態様を予測するように構成され得る。更に、モデルのうちの１つ以上は、自然言語処理に使用されて、例えば、意図認識などを含み得る。モデルは、システムを記述する既知の第１原理方程式、実験モデルをもたらすデータ、又は既知の第１原理方程式とデータとの組み合わせに基づいて、開発され得る。本実施形態で使用するためのモデルを開発する際に、第１原理方程式は、多くの場合利用可能でないか又は容易に導出されないため、収集及び記憶されたデータに基づいて経験的モデルを構築することが一般的に好ましくあり得る。複雑系の操作変数／外乱変数と制御変数との間の関係を適切に捕捉するために、いくつかの実施形態では、モデルが非線形であることが好ましい場合がある。これは、非線形モデルが、本明細書で論じられるものなどの複雑系に一般的である、操作変数／外乱変数と制御変数との間の直線関係ではなく、曲線関係を示す可能性があるためである。前述の要件を考慮すると、機械学習又はニューラルネットワークベースのアプローチが、モデルを実装するための好ましい実施形態であり得る。例えば、ニューラルネットワークは、高度な回帰アルゴリズムを使用して、経験的データに基づいて開発され得る。

分析モジュール２５０は、オプティマイザを更に含み得る。理解されるように、オプティマイザを使用して、制約のセットが適用される「コスト関数」を最小化することができ、コスト関数は、所望の目的又はシステム動作の数学的表現である。モデルは非線形であり得るため、オプティマイザは、非線形プログラミングオプティマイザであり得る。しかしながら、本明細書に記載の技術は、以下に限定されないが、線形プログラミング、二次プログラミング、混合整数非線形プログラミング、確率的プログラミング、グローバル非線形プログラミング、遺伝的アルゴリズム、粒子／スワーム技術などを含む様々な異なるタイプの最適化アプローチを個別に又は組み合わせて使用することによって実装され得ることが企図される。

いくつかの実施形態によれば、モデル及びオプティマイザは、一緒に、最適化システム内で使用され得る。例えば、分析モジュール２５０は、最適化システムを、コンタクトセンターの性能及び動作の態様が最適化されるか、又は少なくとも強化される最適化プロセスの一部として利用し得る。これは、例えば、顧客体験、エージェント体験、インタラクションルーティング、自然言語処理、意図認識、又は自動プロセスに関連する他の機能に関連する特徴を含み得る。

図２（並びに本明細書に含まれる他の図）の様々な構成要素、モジュール、及び／又はサーバは各々、コンピュータプログラム命令を実行し、かつ本明細書に記載の様々な機能を実施するために、他のシステム構成要素と相互作用する１つ以上のプロセッサを含み得る。そのようなコンピュータプログラム命令は、例えば、ランダムアクセスメモリ（random-access memory、ＲＡＭ）などの標準のメモリデバイスを使用して実装されるメモリ内に記憶されるか、又は例えば、ＣＤ－ＲＯＭ、フラッシュドライブなどの他の非一時的コンピュータ可読媒体に記憶され得る。サーバの各々の機能は、特定のサーバによって提供されるものとして記載されているが、当業者は、様々なサーバの機能が、組み合わされるか若しくは単一のサーバに統合され得るか、又は特定のサーバの機能が、本発明の範囲から逸脱することなく、１つ以上の他のサーバにわたって分散され得ることを理解すべきである。更に、「インタラクション」及び「通信」という用語は、互換的に使用され、概して、以下に限定されないが、電話コール（ＰＳＴＮ若しくはＶｏＩＰコール）、電子メール、Ｖメール、ビデオ、チャット、画面共有、テキストメッセージ、ソーシャルメディアメッセージ、ＷｅｂＲＴＣコールなどを含む任意の通信チャネルを使用する任意のリアルタイム及び非リアルタイムのインタラクションを指す。コンタクトセンターシステム２００のコンポーネントへのアクセス及びコントロールセンターシステム２００のコンポーネントの制御は、顧客デバイス２０５及び／又はエージェントデバイス２３０上に生成され得るユーザインターフェース（ＵＩ）を通して影響を受けることがある。既に述べたように、コンタクトセンターシステム２００は、クラウドベースの環境又はクラウドコンピューティング環境などで一部又は全ての構成要素がリモートでホストされるハイブリッドシステムとして運用され得る。コンタクトセンターシステム２００のデバイスの各々は、図３を参照して以下に説明されるコンピューティングデバイス３００と同様の１つ以上のコンピューティングデバイスの一部として具現化されるか、それを含むか、又はそれを形成し得ることを理解されたい。

ここで図３を参照すると、コンピューティングデバイス３００の少なくとも一実施形態の簡略ブロック図が示されている。例示的なコンピューティングデバイス３００は、本明細書に記載のコンピューティングデバイス、システム、サービサ、コントローラ、スイッチ、ゲートウェイ、エンジン、モジュール、及び／又はコンピューティング構成要素（例えば、本明細書の簡潔さのために、互換的にコンピューティングデバイス、サーバ、又はモジュールと称され得る）の各々の少なくとも１つの実施形態を示す。例えば、様々なコンピューティングデバイスは、本明細書に記載の様々な機能を実施するために、コンピュータプログラム命令を実行し、かつ他のシステムモジュールとインタラクションしていられ得る、１つ以上のコンピューティングデバイス３００の１つ以上のプロセッサ上で実行されているプロセス又はスレッドであり得る。特に限定されない限り、複数のコンピューティングデバイスに関連して記載される機能は、単一のコンピューティングデバイスに統合され得るか、又は単一のコンピューティングデバイスに関連して記載される様々な機能は、いくつかのコンピューティングデバイスにわたって分散され得る。更に、図２のコンタクトセンターシステム２００などの本明細書に記載のコンピューティングシステムに関連して、そのシステムの様々なサーバ及びコンピュータデバイスは、ローカルコンピューティングデバイス３００（例えば、コンタクトセンターのエージェントと同じ物理的位置のオンサイト）、リモートコンピューティングデバイス３００（例えば、オフサイト、すなわちクラウドベースの環境内、又はクラウドコンピューティング環境内、例えば、ネットワークを介して接続されたリモートデータセンター内）、又はそれらの何らかの組み合わせ上に位置し得る。いくつかの実施形態では、オフサイトのコンピューティングデバイス上に位置するサーバによって提供される機能は、かかるサーバがオンサイトにあるかのように、仮想プライベートネットワーク（virtual private network、ＶＰＮ）を介してアクセス及び提供され得るか、又は機能は、様々なプロトコルを使用してインターネットを介してアクセスされるサービスとしてのソフトウェア（ＳａａＳ）を使用して、例えば、拡張可能なマークアップ言語（extensible markup language、ＸＭＬ）、ＪＳＯＮを介してデータを交換することによって提供され得、及び／又は機能は、他の方法でアクセス／活用され得る。

いくつかの実施形態では、コンピューティングデバイス３００は、サーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ノートブック、ネットブック、Ｕｌｔｒａｂｏｏｋ（商標）、携帯電話、モバイルコンピューティングデバイス、スマートフォン、ウェアラブルコンピューティングデバイス、パーソナルデジタルアシスタント、モノのインターネット（Internet of Things、ＩｏＴ）デバイス、処理システム、ワイヤレスアクセスポイント、ルータ、ゲートウェイ、及び／又は本明細書に記載の機能を実施することができる任意の他のコンピューティングデバイス、処理デバイス、並びに／若しくは通信デバイスとして具現化され得る。

コンピューティングデバイス３００は、動作ロジック３０８に従ってアルゴリズムを実行し、かつ／又はデータを処理する処理デバイス３０２と、コンピューティングデバイス３００と１つ以上の外部デバイス３１０との間の通信を可能にする入出力デバイス３０４と、例えば、入出力デバイス３０４を介して外部デバイス３１０から受信したデータを記憶するメモリ３０６とを含む。

入出力デバイス３０４は、コンピューティングデバイス３００が外部デバイス３１０と通信することを可能にする。例えば、入出力デバイス３０４は、送受信機、ネットワークアダプタ、ネットワークカード、インターフェース、１つ以上の通信ポート（例えば、ＵＳＢポート、シリアルポート、パラレルポート、アナログポート、デジタルポート、ＶＧＡ、ＤＶＩ、ＨＤＭＩ、ＦｉｒｅＷｉｒｅ、ＣＡＴ５、又は任意の他のタイプの通信ポート若しくはインターフェース）、及び／又は他の通信回路を含み得る。コンピューティングデバイス３００の通信回路は、特定のコンピューティングデバイス３００に応じて、任意の１つ以上の通信技術（例えば、無線又は有線通信）及び関連プロトコル（例えば、Ｅｔｈｅｒｎｅｔ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）、ＷｉＭＡＸなど）を使用してそのような通信を行うように構成され得る。入出力デバイス３０４は、本明細書に記載の技術を行うのに適したハードウェア、ソフトウェア、及び／又はファームウェアを含み得る。

外部デバイス３１０は、データがコンピューティングデバイス３００から入力又は出力されることを可能にする任意のタイプのデバイスであってもよい。例えば、様々な実施形態では、外部デバイス３１０は、本明細書に記載のデバイス／システム、及び／又はその一部分のうちの１つ以上として具現化され得る。更に、いくつかの実施形態では、外部デバイス３１０は、別のコンピューティングデバイス、スイッチ、診断ツール、コントローラ、プリンタ、ディスプレイ、アラーム、周辺デバイス（例えば、キーボード、マウス、タッチスクリーンディスプレイなど）、及び／又は本明細書に記載の機能を実施することができる任意の他のコンピューティング、処理、及び／又は通信デバイスとして具現化され得る。更に、いくつかの実施形態では、外部デバイス３１０をコンピューティングデバイス３００に統合することができることを理解されたい。

処理デバイス３０２は、本明細書に記載の機能を実施することができる任意のタイプのプロセッサとして具現化され得る。特に、処理デバイス３０２は、１つ以上のシングルコア若しくはマルチコアプロセッサ、マイクロコントローラ、又は他のプロセッサ若しくは処理／制御回路として具現化され得る。例えば、いくつかの実施形態では、処理デバイス３０２は、算術ロジックユニット（arithmetic logic unit、ＡＬＵ）、中央処理ユニット（central processing unit、ＣＰＵ）、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）、グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）、フィールドプログラマブルゲートアレイ（field-programmable gate array、ＦＰＧＡ）、特定用途向け集積回路（application-specific integrated circuit、ＡＳＩＣ）、及び／又は別の好適なプロセッサを含むか、又はそれらとして具現化され得る。処理デバイス３０２は、プログラム可能なタイプ、専用のハードワイヤードステートマシン、又はそれらの組み合わせであり得る。複数の処理ユニットを有する処理デバイス３０２は、様々な実施形態において、分散処理、パイプライン処理、及び／又は並列処理を利用し得る。更に、処理デバイス３０２は、本明細書で説明される動作のみの実施専用であってもよく、又は１つ以上の追加のアプリケーションで利用されてもよい。例示的な実施形態では、処理デバイス３０２はプログラム可能であり、メモリ３０６に記憶されたプログラミング命令（ソフトウェア又はファームウェアなど）によって定義された動作ロジック３０８に従ってアルゴリズムを実行し、かつ／又はデータを処理する。追加的又は代替的に、処理デバイス３０２の動作ロジック３０８は、ハードワイヤードロジック又は他のハードウェアによって少なくとも部分的に定義され得る。更に、処理デバイス３０２は、入出力デバイス３０４から、又は他の構成要素若しくはデバイスから受信した信号を処理し、所望の出力信号を提供するのに適した任意のタイプの１つ以上の構成要素を含み得る。そのような構成要素は、デジタル回路、アナログ回路、又はそれらの組み合わせを含み得る。

メモリ３０６は、ソリッドステートメモリ、電磁メモリ、光メモリ、又はそれらの組み合わせなどの、非一時的コンピュータ可読媒体のうちの１つ以上の種類であってもよい。更に、メモリ３０６は、揮発性及び／又は不揮発性であり得、いくつかの実施形態では、メモリ３０６の一部又は全部は、ディスク、テープ、メモリスティック、カートリッジ、及び／又は他の適切な携帯型メモリなどの携帯型のものであり得る。動作中、メモリ３０６は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ、及びドライバなどのコンピューティングデバイス３００の動作中に使用される様々なデータ及びソフトウェアを記憶し得る。メモリ３０６は、処理デバイス３０２の動作ロジック３０８によって操作されるデータ、例えば、動作ロジック３０８を定義するプログラミング命令を記憶することに加えて、又はその代わりに、入出力デバイス３０４から受信された信号、及び／又は入出力デバイスに送信された信号を表すデータを記憶し得ることを理解されたい。図３に示すように、メモリ３０６は、特定の実施形態に応じて、処理デバイス３０２に含まれる、及び／又は処理デバイス３０２に結合され得る。例えば、いくつかの実施形態では、処理デバイス３０２、メモリ３０６、及び／又はコンピューティングデバイス３００の他の構成要素は、システムオンチップ（ＳｏＣ）の一部を形成し、単一の集積回路チップに組み込まれてもよい。

いくつかの実施形態では、コンピューティングデバイス３００の様々な構成要素（例えば、処理デバイス３０２及びメモリ３０６）は、処理デバイス３０２、メモリ３０６、及びコンピューティングデバイス３００の他の構成要素との入出力動作を容易にするための回路及び／又は構成要素として具現化され得る入出力サブシステムを介して通信可能に結合されてもよい。例えば、入出力サブシステムは、メモリコントローラハブ、入出力制御ハブ、ファームウェアデバイス、通信リンク（すなわち、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレースなど）、及び／又は入出力動作を容易にするための他の構成要素及びサブシステムとして具現化されてもよく、あるいはそれらを含んでもよい。

コンピューティングデバイス３００は、他の実施形態では、典型的なコンピューティングデバイス（例えば、様々な入出力デバイス及び／又は他の構成要素）に一般的に見られるものなどの他の又は追加の構成要素を含み得る。本明細書に記載のコンピューティングデバイス３００の構成要素のうちの１つ以上は、複数のコンピューティングデバイスにわたって分散され得ることを更に理解されたい。言い換えれば、本明細書に記載の技術は、１つ以上のコンピューティングデバイスを含むコンピューティングシステムによって採用され得る。更に、図３には単一の処理デバイス３０２、Ｉ／Ｏデバイス３０４、及びメモリ３０６のみが例示的に示されているが、他の実施形態では、特定のコンピューティングデバイス３００が複数の処理デバイス３０２、Ｉ／Ｏデバイス３０４、及び／又はメモリ３０６を含み得ることを理解されたい。更に、いくつかの実施形態では、複数の外部デバイス３１０がコンピューティングデバイス３００と通信し得る。

コンピューティングデバイス３００は、ネットワークによって接続された、又はネットワークを介して他のシステム／リソースに接続された複数のデバイスのうちの１つであり得る。ネットワークは、ネットワークを介して通信可能に接続された様々なデバイス間の通信を容易にすることができる任意の１つ以上のタイプの通信ネットワークとして具現化され得る。したがって、ネットワークは、１つ以上のネットワーク、ルータ、スイッチ、アクセスポイント、ハブ、コンピュータ、クライアントデバイス、エンドポイント、及び／又は他の介在ネットワークデバイスを含み得る。例えば、ネットワークは、１つ以上のセルラーネットワーク、電話ネットワーク、ローカル若しくはワイドエリアネットワーク、公衆利用可能なグローバルネットワーク（例えば、インターネット）、アドホックネットワーク、近距離通信リンク、若しくはそれらの組み合わせとして具現化されるか、又はさもなければそれらを含み得る。いくつかの実施形態では、ネットワークは、回路交換音声若しくはデータネットワーク、パケット交換音声若しくはデータネットワーク、及び／又は音声並びに／若しくはデータを搬送することができる任意の他のネットワークを含み得る。特に、いくつかの実施形態では、ネットワークは、インターネットプロトコル（Internet Protocol、ＩＰ）ベースのネットワーク及び／又は非同期転送モード（asynchronous transfer mode、ＡＴＭ）ベースのネットワークを含み得る。いくつかの実施形態では、ネットワークは、音声トラフィック（例えば、ボイスオーバーＩＰ（Voice over IP、ＶＯＩＰ）ネットワークを介して）、ウェブトラフィック、及び／又は他のネットワークトラフィックを、特定の実施形態並びに／若しくは互いに通信するシステムのデバイスに応じて取り扱い得る。様々な実施形態では、ネットワークは、アナログ又はデジタルの有線及び無線ネットワーク（例えば、ＩＥＥＥ８０２．１１ネットワーク、公衆交換電話網（ＰＳＴＮ）、統合サービスデジタル網（Integrated Services Digital Network、ＩＳＤＮ）、並びにデジタル加入者回線（Digital Subscriber Line、ｘＤＳＬ））、第３世代（Third Generation、３Ｇ）移動体通信網、第４世代（Fourth Generation、４Ｇ）移動体通信網、第５世代（Fifth Generation、５Ｇ）移動体通信網、有線Ｅｔｈｅｒｎｅｔネットワーク、プライベートネットワーク（例えば、イントラネットなど）、ラジオ、テレビ、ケーブル、衛星、及び／又はデータを搬送するための任意の他の配信若しくはトンネリング機構、又はそのようなネットワークの任意の適切な組み合わせを含み得る。様々なデバイス／システムは、送信元及び／又は宛先デバイス／システムに応じて、異なるネットワークを介して互いに通信し得ることを理解されたい。

コンピューティングデバイス３００は、セキュアソケット層又はトランスポート層セキュリティなど、任意のタイプのゲートウェイ又はトンネリングプロトコルを介して、他のコンピューティングデバイス３００と通信し得ることを理解されたい。ネットワークインターフェースとしては、コンピューティングデバイスを、本明細書に記載の動作を実施することができる任意のタイプのネットワークにインターフェース接続するのに適した、ネットワークインターフェースカードなどの内蔵型ネットワークアダプタが挙げられ得る。更に、ネットワーク環境は、様々なネットワーク構成要素が仮想化される仮想ネットワーク環境であってもよい。例えば、各種マシンは、物理マシン上で実行されるソフトウェアベースのコンピュータとして実装された仮想マシンであってもよい。仮想マシンは、同じオペレーティングシステムを共有し得るか、又は他の実施形態では、異なるオペレーティングシステムが、各仮想マシンインスタンス上で実行され得る。例えば、複数の仮想マシンが、同じホスト物理マシン上で実行され、各々が、独自の専用ボックスを有するかのように機能する「ハイパーバイザ」タイプの仮想化が使用される。他のタイプの仮想化が、他の実施形態、例えば、ネットワーク（例えば、ソフトウェア定義ネットワーキングを介して）又は機能（例えば、ネットワーク機能仮想化を介して）で、採用され得る。

したがって、本明細書に記載のコンピューティングデバイス３００のうちの１つ以上は、１つ以上のクラウドベースのシステムとして具現化されるか、又はその一部分を形成し得る。クラウドベースの実施形態では、クラウドベースのシステムは、例えば、複数の命令をオンデマンドで実行し、特定のアクティビティ／トリガによってプロンプトされたときにのみ命令を実行し、使用されないときにはコンピューティングリソースを消費しないサーバアンビギュアス（server-ambiguous）コンピューティングソリューションとして具現化され得る。すなわち、システムは、様々な仮想関数（例えば、ラムダ関数、Ａｚｕｒｅ関数、Ｇｏｏｇｌｅクラウド関数、及び／又は他の好適な仮想関数）が、本明細書に記載のシステムの機能に対応して実行され得るコンピューティングシステム（例えば、デバイスの分散ネットワーク）「上に」存在する仮想コンピューティング環境として具現化され得る。例えば、イベントが発生する（例えば、データが処理のためにシステムに転送される）と、仮想コンピューティング環境が、（例えば、仮想コンピューティング環境のＡＰＩへの要求を介して）通信され得、それにより、ＡＰＩは、一連のルールに基づいて、正しい仮想機能（例えば、特定のサーバアンビギュアスコンピューティングリソース）に要求をルーティングし得る。したがって、データの送信の要求が（例えば、システムへの適切なユーザインターフェースを介して）ユーザによってなされる場合、適切な仮想関数は、仮想関数のインスタンスを削除する前にアクションを実施するように実行され得る。

Claims

トーン及び音声分類を使用してコール進行分析を実施するためのコンタクトセンターシステムであって、
少なくとも１つのプロセッサと、
記憶された複数の命令を含む、少なくとも１つのメモリであって、前記命令が、前記少なくとも１つのプロセッサによる実行に応答して、前記コンタクトセンターシステムに、
前記コンタクトセンターシステムによって受信されたオーディオ信号のエントロピーの累積平均を決定させ、
前記オーディオ信号の累積平均パワースペクトル振幅、及び前記オーディオ信号の前記累積平均パワースペクトル振幅に基づく前記オーディオ信号の累積平均スペクトルエントロピーを決定させ、
前記オーディオ信号の前記エントロピーの前記累積平均と、前記オーディオ信号の前記累積平均スペクトルエントロピーとの間の差として、前記オーディオ信号の差測定値を計算させ、
前記オーディオ信号の前記差測定値に基づいて、前記オーディオ信号のトーンと音声とを区別させ、
前記オーディオ信号中の１つ以上のトーンの識別に応答して、前記オーディオ信号の前記１つ以上のトーンを処理させる、少なくとも１つのメモリと、
を備える、コンタクトセンターシステム。
前記オーディオ信号の前記１つ以上のトーンを処理することが、
前記オーディオ信号の前記１つ以上のトーン内のコール進行トーンパターンを識別することと、
前記オーディオ信号の前記１つ以上のトーン内の前記コール進行トーンパターンの識別に応答して、電話コールを前記コンタクトセンターシステムの第１のシステムから前記コンタクトセンターシステムの第２のシステムに転送することと、を含む、請求項１に記載のコンタクトセンターシステム。
前記オーディオ信号の前記１つ以上のトーンを処理することが、アウトバウンドコールを前記コンタクトセンターシステムの自動双方向音声応答（ＩＶＲ）システムに接続することを含む、請求項１に記載のコンタクトセンターシステム。
前記オーディオ信号の前記１つ以上のトーンを処理することが、アウトバウンドコールを前記コンタクトセンターシステムのエージェントに接続することを含む、請求項１に記載のコンタクトセンターシステム。
前記オーディオ信号の前記１つ以上のトーンが、コール進行トーンパターンを含む、請求項１に記載のコンタクトセンターシステム。
前記コール進行トーンパターンが、ビジー信号パターン、リングバックパターン、又は特別情報トーンパターンのうちの１つを含む、請求項１に記載のコンタクトセンターシステム。
前記オーディオ信号の前記１つ以上のトーンを処理することが、前記オーディオ信号の前記１つ以上のトーンの各々の対応する周波数を決定することを含む、請求項１に記載のコンタクトセンターシステム。
前記オーディオ信号の前記エントロピーの前記累積平均を決定することが、前記オーディオ信号の前記エントロピーを計算することを含む、請求項１に記載のコンタクトセンターシステム。
記憶された複数の命令を含む、１つ以上の非一時的機械可読記憶媒体であって、前記命令が、少なくとも１つのプロセッサによる実行に応答して、コンタクトセンターシステムに、
前記コンタクトセンターシステムによって受信されたオーディオ信号のエントロピーを計算させ、
前記オーディオ信号の前記エントロピーの累積平均を計算させ、
前記オーディオ信号の累積平均パワースペクトル振幅を計算させ、
前記オーディオ信号の前記累積平均パワースペクトル振幅に基づいて、前記オーディオ信号の累積平均スペクトルエントロピーを計算させ、
前記オーディオ信号の前記エントロピーの前記累積平均と、前記オーディオ信号の前記累積平均スペクトルエントロピーとの差として、前記オーディオ信号の差測定値を計算させ、
前記オーディオ信号の前記差測定値に基づいて、前記オーディオ信号のトーン及び音声を分類させ、
前記オーディオ信号中の１つ以上のトーンの識別に応答して、前記オーディオ信号の前記１つ以上のトーンを処理させる、１つ以上の非一時的機械可読記憶媒体。
前記オーディオ信号の前記１つ以上のトーンを処理することが、前記オーディオ信号の前記１つ以上のトーン内のコール進行トーンパターンの識別に応答して、電話コールを前記コンタクトセンターシステムの第１のシステムから前記コンタクトセンターシステムの第２のシステムに転送することを含む、請求項９に記載の１つ以上の非一時的機械可読記憶媒体。
前記オーディオ信号の前記１つ以上のトーンを処理することが、アウトバウンドコールを前記コンタクトセンターシステムの自動双方向音声応答（ＩＶＲ）システムに接続することを含む、請求項９に記載の１つ以上の非一時的機械可読記憶媒体。
前記オーディオ信号の前記１つ以上のトーンを処理することが、アウトバウンドコールを前記コンタクトセンターシステムのエージェントに接続することを含む、請求項９に記載の１つ以上の非一時的機械可読記憶媒体。
前記オーディオ信号の前記１つ以上のトーンが、コール進行トーンパターンを含む、請求項９に記載の１つ以上の非一時的機械可読記憶媒体。
前記コール進行トーンパターンが、ビジー信号パターン、リングバックパターン、又は特別情報トーンパターンのうちの１つを含む、請求項９に記載の１つ以上の非一時的機械可読記憶媒体。
前記オーディオ信号の前記１つ以上のトーンを処理することが、前記オーディオ信号の前記１つ以上のトーンの各々の対応する周波数を決定することを含む、請求項９に記載の１つ以上の非一時的機械可読記憶媒体。
コンタクトセンターシステム内のトーン及び音声分類を使用してコール進行分析を実施する方法であって、
前記コンタクトセンターシステムによってオーディオ信号を受信することと、
前記コンタクトセンターシステムによって受信された前記オーディオ信号のエントロピーを、前記コンタクトセンターシステムによって決定することと、
前記コンタクトセンターシステムによって、前記オーディオ信号の前記エントロピーの累積平均を決定することと、
前記コンタクトセンターシステムによって、前記オーディオ信号の累積平均パワースペクトル振幅を決定することと、
前記コンタクトセンターシステムによって、前記オーディオ信号の前記累積平均パワースペクトル振幅に基づいて、前記オーディオ信号の累積平均スペクトルエントロピーを決定することと、
前記コンタクトセンターシステムによって、前記オーディオ信号の前記エントロピーの前記累積平均と、前記オーディオ信号の前記累積平均スペクトルエントロピーとの差として、前記オーディオ信号の差測定値を決定することと、
前記コンタクトセンターシステムによって、前記オーディオ信号の前記差測定値に基づいて、前記オーディオ信号のトーン及び音声を分類することと、
前記コンタクトセンターシステムによって、前記オーディオ信号内の１つ以上のトーンの識別に応答して、前記オーディオ信号の前記１つ以上のトーンを処理することと、を含む、方法。
前記オーディオ信号の前記１つ以上のトーンを処理することが、
前記オーディオ信号の前記１つ以上のトーン内のコール進行トーンパターンを識別することと、
前記オーディオ信号の前記１つ以上のトーン内のコール進行トーンパターンを識別することに応答して、電話コールを前記コンタクトセンターシステムの第１のシステムから前記コンタクトセンターシステムの第２のシステムに転送することと、を含む、請求項１６に記載の方法。
前記オーディオ信号の前記１つ以上のトーンを処理することが、アウトバウンドコールを前記コンタクトセンターシステムのエージェント又は自動双方向音声応答（ＩＶＲ）システムのうちの１つに接続することを含む、請求項１６に記載の方法。
前記オーディオ信号の前記１つ以上のトーンが、コール進行トーンパターンを含む、請求項１６に記載の方法。
前記オーディオ信号の前記１つ以上のトーンを処理することが、前記オーディオ信号の前記１つ以上のトーンの各々の対応する周波数を決定することを含む、請求項１６に記載の方法。