JP2024073501A

JP2024073501A - キュー内で待機する呼に関する最適化

Info

Publication number: JP2024073501A
Application number: JP2024033199A
Authority: JP
Inventors: スイグアンハン; ジアンペンフイ; リーキン; シャオピン; リウニャオキン; ゾウシャン; チュヨンピンピン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-09-13
Filing date: 2024-03-05
Publication date: 2024-05-29
Also published as: GB2600847B; US10897534B1; GB202201196D0; WO2021047209A1; CN114365217A; DE112020004317T5; JP2023507703A; GB2600847A

Abstract

【課題】コールセンタによって提供されるスタッフ・サービスに対する要求中にキュー内で待機する呼を管理するための方法、システム、コンピュータ・プログラム製品を提供する。【解決手段】方法は、通信デバイス、コンピュータ・システム／サーバ又はポータブル電子デバイス等のデバイスによって行われた呼において受信する第１の音声セグメントを最初に記録し、次に、第１の音声セグメントの一部分を、第１の事前定義された音声セグメントと関係しているかどうかが決定し、第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係していることに応答して、デバイスの音量を調整するか又は第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係しないことに応答して、デバイスのユーザに警報を出する。【選択図】図４

Description

本発明の実施形態は、コンピュータ・ソフトウェアの分野に関する。より詳細には、実施形態は、キュー内で待機する呼に関して呼を管理するための方法、システム、およびコンピュータ・プログラム製品に関する。

今日、コールセンタが、多くの業界、例えば、金融業界およびその他のサービス業界において広く使用される。

或る態様において、コールセンタのスタッフの一員からサービスを受けようと試みるときにキュー内で待機するコールセンタに対する呼を管理するための方法が、開示される。方法によれば、デバイスによって行われた呼において受信される第１の音声セグメントが、最初に記録される。次に、第１の音声セグメントの一部分が、第１の事前定義された音声セグメントと関係しているかどうかが決定される。最後に、第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係していることに応答して、デバイスの音量が調整される一方で、第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係しないことに応答して、デバイスのユーザに警報が出される。

別の態様において、コンピュータによって実施されるシステムが、開示される。システムは、コンピュータ可読メモリ・ユニットに結合されたコンピュータ・プロセッサを含んでよく、そのメモリ・ユニットは、コンピュータ・プロセッサによって実行されたとき、前述の方法を実施する命令を備える。

さらに別の態様において、コンピュータ・プログラム製品が、開示される。コンピュータ・プログラム製品は、プログラム命令が実体化されているコンピュータ可読記憶媒体を備える。１つまたは複数のプロセッサ上で実行されたとき、命令は、その１つまたは複数のプロセッサに前述の方法を実行させてよい。

添付の図面における本開示の一部の実施形態のより詳細な説明を通じて、本開示の以上、およびその他の目的、特徴、および利点が、より明らかとなり、図面において、同一の参照符号は、一般に、本開示の実施形態における同一の構成要素を指す。

本発明の実施形態によるクラウド・コンピューティング・ノードを示す図である。本発明の実施形態によるクラウド・コンピューティング環境を示す図である。本発明の実施形態による抽象化モデル層を示す図である。本発明の実施形態によるスタッフ・サービスのための呼を管理するための方法を示す概略フローチャートである。本発明の実施形態による、第１の音声セグメントの一部分を第１の事前定義された音声セグメントと継続的に比較することを示す例示的な図である。本発明の実施形態によるユーザの体験を向上させるための図４における方法に包含される方法を示す概略フローチャートである。

一部の実施形態は、本開示の実施形態が例示されている添付の図面を参照して、より詳細に説明される。しかし、本開示は、様々な様態で実施されることが可能であり、それ故、本明細書に開示される実施形態に限定されるものと解釈されるべきではない。

本開示は、クラウド・コンピューティングに関する詳細な説明を含むものの、本明細書に記載される教示の実施は、クラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在、知られている、または後に開発される他の任意のタイプのコンピューティング環境と連携して実施されることが可能である。

クラウド・コンピューティングは、最小限の管理作業またはサービスのプロバイダとの最小限の対話しか伴わずに迅速にプロビジョニングされ、リリースされることが可能である、構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有されるプールに対する便利な、オンデマンドのネットワーク・アクセスを可能にするためのサービス・デリバリのモデルである。このクラウド・モデルは、少なくとも５つの特徴と、少なくとも３つのサービス・モデルと、少なくとも４つの展開モデルとを含むことが可能である。

特徴は、以下のとおりである。

オンデマンドのセルフ・サービスクラウド消費者が、サービスのプロバイダとの人間対話を必要とすることなしに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることが可能である。

広いネットワーク・アクセス能力が、ネットワークを介して利用可能であり、かつ異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム（例えば、モバイル電話、ラップトップ、およびＰＤＡ）による使用を促進する標準の機構を介してアクセスされる。

リソース・プーリングプロバイダのコンピューティング・リソースが、マルチテナント・モデルを使用して多数の消費者に役立てられるようにプールされ、様々な物理リソースおよび仮想リソースが、デマンドに応じて動的に割当てられ、かつ動的に再割当てされる。消費者が、提供されるリソースの厳密なロケーションを一般に支配することも、知ることもないが、抽象化のより高いレベル（例えば、国、州、またはデータセンタ）でロケーションを指定することができ得るという点でロケーション独立の感覚が存在する。

迅速な弾力性能力は、急速にスケールアウトすること、および迅速にリリースされて、急速にスケールインすることが行われるように、迅速に、弾力的に、いくつかの事例においては自動的にプロビジョニングされることが可能である。消費者には、プロビジョニングのために利用可能な能力は、しばしば、無限であるように見え、任意の時点で任意の量で購入されることが可能である。

測定されるサービスクラウド・システムが、サービスのタイプ（例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント）に適切な抽象化の何らかのレベルで計測能力を活用することによってリソース使用を自動的に制御し、最適化する。リソース使用は、監視され、制御され、報告されて、利用されるサービスのプロバイダと消費者の両方に透明性をもたらすことが可能である。

サービス・モデルは、以下のとおりである。

ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ（ＳａａＳ）消費者に提供される能力は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。それらのアプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インタフェース（例えば、ウェブ・ベースの電子メール）を介して様々なクライアント・デバイスからアクセス可能である。消費者は、限られたユーザ特有のアプリケーション構成設定を可能な例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション能力さえ含め、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしない。

ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ（ＰａａＳ）消費者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびプログラミング・ツールを使用して作成された、消費者が作成した、または消費者が獲得したアプリケーションをクラウド・インフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含め、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしないが、展開されたアプリケーション、および、場合により、アプリケーション・ホスティング環境構成を支配する。

ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ（ＩａａＳ）消費者に提供される能力は、消費者が、オペレーティング・システムと、アプリケーションとを含み得る任意のソフトウェアを展開して、実行することができる、処理、ストレージ、ネットワーク、および他の基本的な計算リソースをプロビジョニングすることである。消費者は、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションを支配し、場合により、選定されたネットワーキング構成要素（例えば、ホスト・ファイアウォール）の限られた支配を有する。

展開モデルは、以下のとおりである。

プライベート・クラウドクラウド・インフラストラクチャが、専ら組織のために運用される。クラウド・インフラストラクチャは、その組織によって管理されても、第三者によって管理されてもよく、敷地内に存在しても、敷地外に存在してもよい。

コミュニティ・クラウドクラウド・インフラストラクチャが、いくつかの組織によって共有され、共有される関心（例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンス配慮事項）を有する特定のコミュニティをサポートする。クラウド・インフラストラクチャは、その組織によって管理されても、第三者によって管理されてもよく、敷地内に存在しても、敷地外に存在してもよい。

パブリック・クラウドクラウド・インフラストラクチャが、一般の公衆または大きい業界グループによる利用に供され、クラウド・サービスを販売する組織によって所有される。

ハイブリッド・クラウドクラウド・インフラストラクチャは、独自のエンティティであるままであるが、データ移植性およびアプリケーション移植性を可能にする標準化された技術もしくは独自の技術（例えば、クラウド間で負荷分散するためのクラウド・バースティング）によって一緒に結び付けられた２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の合成である。

クラウド・コンピューティング環境は、ステートレスである性質、低結合、モジュール性、およびセマンティクスの相互運用性に焦点を合わせていて、サービス指向である。クラウド・コンピューティングの中核には、互いに接続されたノードのネットワークを含むインフラストラクチャがある。

次に、図１を参照すると、クラウド・コンピューティング・ノードの実施例の概略図が示される。クラウド・コンピューティング・ノード１０は、適切なクラウド・コンピューティング・ノードの一実施例に過ぎず、本明細書において説明される実施形態の用途または機能の範囲について限定を示唆することはまったく意図していない。いずれにせよ、クラウド・コンピューティング・ノード１０は、前段で示される機能のいずれかとして実装されること、またはそのような機能のいずれかを実行すること、あるいはその組合せが可能である。

クラウド・コンピューティング・ノード１０において、他の多数の汎用または専用のコンピューティング・システム環境またはコンピューティング・システム構成で動作可能である、通信デバイスなどのコンピュータ・システム／サーバ１２またはポータブル電子デバイスが存在する。コンピュータ・システム／サーバ１２と一緒に使用するのに適することがあるよく知られたコンピューティング・システム、コンピューティング環境、またはコンピューティング・システム構成、あるいはその組合せの例は、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルド・デバイスもしくはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セットトップ・ボックス、プログラマブル家庭用電化製品、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および前述のシステムもしくはデバイスのいずれかを含む分散型クラウド・コンピューティング環境、ならびにそれに類するものを含むが、これらには限定されない。

コンピュータ・システム／サーバ１２は、コンピュータ・システムによって実行されている、プログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な脈絡で説明されてよい。一般に、プログラム・モジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、ロジック、データ構造などを含んでよい。コンピュータ・システム／サーバ１２は、タスクが、通信ネットワークを介して結び付けられた遠隔処理デバイスによって実行される、分散型クラウド・コンピューティング環境において実施されてよい。分散型クラウド・コンピューティング環境において、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカル・コンピュータ・システム記憶媒体と遠隔コンピュータ・システム記憶媒体の両方に配置されてよい。

図１に示されるとおり、クラウド・コンピューティング・ノード１０におけるコンピュータ・システム／サーバ１２は、汎用コンピューティング・デバイスの形態で示される。コンピュータ・システム／サーバ１２の構成要素は、１つまたは複数のプロセッサまたは処理装置１６、システム・メモリ２８、ならびにシステム・メモリ２８を含む様々なシステム構成要素をプロセッサ１６に結合するバス１８を含んでよいが、これらには限定されない。

バス１８は、様々なバス・アーキテクチャのいずれかを使用する、メモリ・バスもしくはメモリ・コントローラ、周辺バス、アクセラレーテッド・グラフィックス・ポート、およびプロセッサ・バスもしくはローカル・バスを含む、いくつかのタイプのバス構造のいずれかの１つまたは複数を表す。例として、限定としてではなく、そのようなアーキテクチャは、インダストリ・スタンダード・アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、エンハンストＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ）ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト（ＰＣＩ）バスを含む。

コンピュータ・システム／サーバ１２は、通常、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム／サーバ１２によってアクセス可能である任意の利用可能な媒体であってよく、そのような媒体は、揮発性媒体と不揮発性媒体、取外し可能な媒体と取外し可能でない媒体の両方を含む。

システム・メモリ２８は、ランダム・アクセス・メモリ（ＲＡＭ）３０またはキャッシュ・メモリ３２、あるいはその両方などの揮発性メモリの形態でコンピュータ・システム可読媒体を含むことが可能である。コンピュータ・システム／サーバ１２は、他の取外し可能な／取外し可能でない、揮発性／不揮発性のコンピュータ・システム記憶媒体をさらに含んでよい。単に例として、ストレージ・システム３４が、取外し可能でない、不揮発性の磁気媒体（図示されず、通常、「ハードドライブ」と呼ばれる）から読み取ること、およびそのような磁気媒体に書き込むことを行うために備えられることが可能である。図示されないものの、取外し可能な、不揮発性の磁気ディスク（例えば、「フロッピ・ディスク」）から読み取ること、およびそのような磁気ディスクに書き込むことを行うための磁気ディスク・ドライブ、ならびにＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、または他の光媒体などの取外し可能な、不揮発性の光ディスクから読み取ること、またはそのような光ディスクに書き込むことを行うための光ディスク・ドライブが、備えられることが可能である。そのような事例において、各媒体は、１つまたは複数のデータ媒体インタフェースによってバス１８に接続されることが可能である。後段でさらに示され、説明されるとおり、メモリ２８は、本発明の実施形態の機能を実行すべく構成されたプログラム・モジュールのセット（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含んでよい。

例として、限定としてではなく、プログラム・モジュール４２のセット（少なくとも１つ）を有するプログラム／ユーティリティ４０、ならびにオペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データが、メモリ２８に記憶されてよい。オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データ、あるいはその何らかの組合せの各々が、ネットワーキング環境の実装例を含んでよい。プログラム・モジュール４２は、一般に、本明細書において説明される本発明の実施形態の機能または方法、あるいはその組合せを実行する。

また、コンピュータ・システム／サーバ１２は、キーボード、ポインティング・デバイス、ディスプレイ２４、その他などの１つもしくは複数の外部デバイス１４、ユーザがコンピュータ・システム／サーバ１２と対話することを可能にする１つもしくは複数のデバイス、またはコンピュータ・システム／サーバ１２が他の１つもしくは複数のコンピューティング・デバイスと通信することを可能にする任意のデバイス（例えば、ネットワーク・カード、モデム、その他）、あるいはその組合せと通信してもよい。そのような通信は、入出力（Ｉ／Ｏ）インタフェース２２を介して行われることが可能である。さらに、コンピュータ・システム／サーバ１２は、ローカル・エリア・ネットワーク（ＬＡＮ）、汎用ワイド・エリア・ネットワーク（ＷＡＮ）、またはパブリック・ネットワーク（例えば、インターネット）、あるいはその組合せなどの１つまたは複数のネットワークと通信することができる。図示されるとおり、ネットワーク・アダプタ２０が、バス１８を介してコンピュータ・システム／サーバ１２の他の構成要素と通信する。図示されないものの、他のハードウェア構成要素またはソフトウェア構成要素、あるいはその組合せが、コンピュータ・システム／サーバ１２と連携して使用されることも可能であることを理解されたい。例は、マイクロコード、デバイス・ドライバ、冗長な処理装置、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システム、その他を含むが、これらには限定されない。

次に、図２を参照すると、例示的なクラウド・コンピューティング環境５０が示される。図示されるとおり、クラウド・コンピューティング環境５０は、例えば、携帯情報端末（ＰＤＡ）もしくはセルラ電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、または自動車コンピュータ・システム５４Ｎ、あるいはその組合せなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスが相手として通信してよい１つまたは複数のクラウド・コンピューティング・ノード１０を含む。ノード１０は、互いに通信してよい。ノード１０は、前段で説明されるプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、またはハイブリッド・クラウド、あるいはその組合せなどの１つまたは複数のネットワークにおいて、物理的に、または仮想でグループ化されて（図示せず）よい。このことは、クラウド・コンピューティング環境５０が、クラウド消費者がそのためにローカル・コンピューティング・デバイス上にリソースを維持する必要のないインフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せをサービスとして提供することを可能にする。図２に示されるコンピューティング・デバイス５４Ａ～Ｎのタイプは、単に例示的であることが意図されること、ならびにコンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能な接続あるいはその両方を介して（例えば、ウェブ・ブラウザを使用して）任意のタイプのコンピュータ化されたデバイスと通信することができるものと理解される。

次に、図３を参照すると、クラウド・コンピューティング環境（図２）によって提供される機能抽象化層のセットが示される。図３に示される構成要素、層、および機能は、単に例示的であることが意図され、本発明の実施形態は、それに限定されないことをあらかじめ理解されたい。図示されるとおり、次の層および対応する機能が提供される。

ハードウェアおよびソフトウェア層６０が、ハードウェア構成要素およびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム６１、ＲＩＳＣ（Reduced Instruction Set Computer）アーキテクチャ・ベースのサーバ６２、サーバ６３、ブレード・サーバ６４、ストレージ・デバイス６５、ならびにネットワークおよびネットワーキング構成要素６６を含む。一部の実施形態において、ソフトウェア構成要素は、ネットワーク・アプリケーション・サーバ・ソフトウェア６７と、データベース・ソフトウェア６８とを含む。

仮想化層７０が、仮想エンティティの以下の例、すなわち、仮想サーバ７１、仮想ストレージ７２、仮想プライベート・ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよび仮想オペレーティング・システム７４、ならびに仮想クライアント７５が提供されてよい抽象化層を提供する。

一例において、管理層８０が、後段で説明される機能を提供することが可能である。リソース・プロビジョニング８１が、クラウド・コンピューティング環境内でタスクを実行するのに利用される計算リソースおよび他のリソースの動的調達を提供する。計測および価格設定８２が、クラウド・コンピューティング環境内でリソースが利用されるにつれての費用追跡、ならびにこれらのリソースの消費に関する料金請求もしくはインボイス送付を提供する。一例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含んでよい。セキュリティが、クラウド消費者およびタスクに関する識別情報検証、ならびにデータおよび他のリソースに関する保護を提供する。ユーザ・ポータル８３が、クラウド・コンピューティング環境へのアクセスを消費者およびシステム管理者に提供する。サービス・レベル管理８４が、要求されるサービス・レベルが満たされるようにクラウド・コンピューティング・リソース割当ておよびクラウド・コンピューティング・リソース管理を提供する。サービス・レベル・アグリーメント（ＳＬＡ）計画および履行８５が、ＳＬＡにより将来の要件が予期されるクラウド・コンピューティング・リソースに関する事前取決め、およびそのようなリソースの調達を提供する。

作業負荷層９０が、クラウド・コンピューティング環境が利用されてよい機能の例を提供する。この層から提供されてよい作業負荷および機能の例は、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室教育デリバリ９３、データ解析処理９４、トランザクション処理９５、ならびに呼管理９６を含む。

労働費用の増加とともに、多くの企業は、現在、コールセンタのためにより少ないサービス・スタッフを提供することを選好する。このことは、多くのユーザの呼が、以降、スタッフ・サービスと呼ばれる支援またはサービスを受けるべくコールセンタ・スタッフ一員にユーザが話すことができるまでに長時間にわたってキュー内で待機しなければならないことをもたらす。これらの待機ユーザは、サービス・スタッフ一員が対応可能になるまで、「対応可能なサービス・スタッフがおりません、このままでお待ちください．．．」などの、コールセンタからの繰り返されるプロンプト・トーンを聴かなければならない。この待機プロセスは、ユーザにとって非常に退屈であるが、ユーザが、それらのプロンプト・トーンに注意を払わない場合、ユーザは、ユーザが待機しているスタッフ・サービスを逸することがある。例として、それらのプロンプト・トーンは、「こんにちは、ご用件をお知らせください。」などの、対応可能なスタッフからの音声を含むことがある。

以上の状況下で、ユーザが、待機プロセス中、ユーザのデバイスをすぐに置き、他のタスクを実行することができ、かつサービス・スタッフ一員が対応可能になった後、ユーザがサービス・スタッフに適時に話すことができるように、ユーザに即時に警報が出され得る場合、ユーザの体験は、大幅に向上させられる。

コールセンタにおける呼管理のための既存の技術は、人工知能（ＡＩ）技術を使用してユーザの問題を解決しようと試みるロボットを含む。しかし、サービス・スタッフ一員からの助けを依然として要求するいくつかの問題が存在する。例えば、ＡＩロボットは、ユーザのアクセントに起因してユーザの問題を理解できないことがあり、またはＡＩロボットは、ユーザからの新たな問題に対する解決策を提供しない、といった具合である。

したがって、ユーザがスタッフ・サービスを待たなければならないとき、ユーザ体験を向上させるべくスタッフ・サービスに対する要求に関する呼を管理するためのアプローチを提供する必要性が、存在する。

本発明の実施形態は、ユーザ体験を向上させるスタッフ・サービスを要求する呼を管理するための方法を提供した。方法によれば、ユーザが、スタッフ・サービスを要求してコールセンタを呼び出し、対応可能なサービス・スタッフ一員が存在しない場合、ユーザは、本発明の方法を実施するソフトウェア・モジュールを起動することができ、次に、ユーザは、デバイスを置き、他のタスクを実行することができる。ソフトウェア・モジュールは、ユーザが邪魔されないようにデバイスの音量を調整しながら、コールセンタの応答を監視することができる。ソフトウェア・モジュールが、対応可能なサービス・スタッフ一員が存在することを見出すと、ソフトウェア・モジュールは、ユーザがサービス・スタッフに適時に話すことができるように、ユーザに即時に警報を出すことができる。

図４は、本発明の実施形態によるスタッフ・サービスを要求する呼を管理するための方法４００の概略フローチャートを示す。一部の実施形態において、方法４００は、一方が記録スレッドであり、他方が呼スレッドである２つのスレッドを備えたモジュールで実装されることが可能である。方法４００は、デバイスのユーザによって開始されることが可能である。例えば、デバイスのオペレーティング・システムが、ユーザが本発明のモジュールを活性化すべく押す呼インタフェースにおけるボタンを提供することができ、ユーザがコールセンタを相手に呼をセットアップし、ユーザのサービス要求が待機プロセスに入ったとき、ユーザは、モジュールがデバイス上で本発明の方法を実施することができるように、本発明のモジュールを活性化すべくボタンを押すことができる。一部の実施形態において、方法は、モジュールのユーザによる構成により自動的に開始されることが可能である。

図４を参照すると、ステップ４１０において、デバイスによって行われた呼の間にコールセンタから受信される第１の音声セグメントが、呼スレッドによって記録される。一部の実施形態において、第１の音声セグメントは、１つの音声ファイルに継続的に記憶されることが可能である。一部の実施形態において、第１の音声セグメントは、メモリに継続的に記憶されることが可能である。記録スレッドは、呼スレッドと一緒に並行に実行されてよい。

ステップ４２０において、第１の音声セグメントの一部分が、呼スレッドにおける第１の事前定義された音声セグメントと関係しているかどうかが決定される。第１の事前定義された音声セグメントは、音声セグメント、「対応可能なサービス・スタッフがおりません、このままでお待ちください．．．」などの、コールセンタから受信される繰り返される音声セグメントであることが可能である。現在の音声サブセグメント（第１の音声セグメントから選択された音声サブセグメント）が、第１の事前定義された音声セグメントと関係している場合、対応可能なサービス・スタッフがまだ存在しないものと結論づけられることが可能である。しかし、現在の音声サブセグメントが、第１の事前定義された音声セグメントとは完全に異なる場合、例えば、現在の音声セグメントが、「サービス・スタッフ一員番号１２３が対応可能です、おはようございます、ご用件をお知らせください」である場合、対応可能なサービス・スタッフが存在するものと結論づけられることが可能である。

一部の実施形態において、第１の事前定義された音声セグメントは、いくつかの事前定義された音声サブセグメントを備えてよい。例えば、１つの事前定義された音声サブセグメントが、「対応可能なサービス・スタッフがおりません、そのままでお待ちください．．．」であってよく、別の事前定義された音声サブセグメントが、コールセンタからの通知音声セグメントであってよい。説明を簡略化すべく、第１の事前定義された音声セグメントは、以降、１つだけの事前定義された音声セグメントを備える。

一部の実施形態において、第１の事前定義された音声セグメントは、コールセンタからの、以降、繰り返される音声セグメントと呼ばれる、繰り返される音声セグメントを記録することを介して、ユーザによって決定されることが可能である。例えば、本発明のモジュールは、デバイスのユーザが、繰り返される音声セグメントを第１の事前定義された音声セグメントとして記録するオプションを提供することができる。ユーザは、音声－テキスト・フィーチャによって生成されたテキストに対応する繰り返される音声セグメント、「対応可能なサービス・スタッフがおりません、そのままでお待ちください．．．」が受信される前に「記録を開始する」ボタンを押してよく、繰り返される音声セグメントが記録された後、ユーザは、「記録を終了する」ボタンを押してよい。次に、繰り返される音声セグメントが、第１の事前定義された音声セグメントとして記憶されることが可能である。一部の実施形態において、第１の事前定義された音声セグメントは、第三者から獲得されることが可能であり、例えば、第１の事前定義された音声セグメントは、コールセンタのウェブサイトからダウンロードされることが可能である。一部の実施形態において、第１の事前定義された音声セグメントは、既存の音声セグメントからユーザによって選択されてよい。

一部の実施形態において、第１の事前定義された音声セグメントは、自動的に決定されることが可能である。例えば、モジュールは、２０秒などの事前定義された時間にわたってデバイスを介してその呼の上で受信される第２の音声セグメントを記録してよい。次に、モジュールは、第２の音声セグメントからの繰り返される音声セグメントを識別してよい。

一部の実施形態において、第２の音声セグメントのピッチが、繰り返される音声セグメントを識別すべく使用されてよく、次に、識別された繰り返される音声セグメントが、第１の事前定義された音声セグメントとして使用されてよい。具体的には、第２の音声セグメントが、スライディング・ウインドウを使用して複数の音声サブセグメントに分割されてよい（２つの音声サブセグメントの間に重なり合いが存在してよい）。例えば、スライディング・ウインドウが、５秒の幅を有する音声セグメントに対応し、スライディング長が、１秒の長さを有する音声セグメントに対応する（パラメータは、必要に応じて他の値であるように定義されることが可能であり、ウインドウの幅、およびスライディング長もまた、必要に応じてユーザによって定義されることが可能である）ものと想定すると、第１の音声サブセグメントが、開始から５秒に対応するポイント（開始）まで第２の音声セグメントに対応し、第２の音声サブセグメントが、１秒に対応するポイント（開始）から６秒に対応するポイント（開始）まで第２の音声セグメントに対応し、第３の音声サブセグメントが、２秒に対応するポイント（開始）から７秒に対応するポイント（開始）まで第２の音声セグメントに対応するといった具合である。次に、前述の複数の音声サブセグメントのピッチの複数のセットが、決定されることが可能である。次に、ピッチの繰り返されるセットが、ピッチの複数のセットから識別されることが可能であり、ピッチの繰り返されるセットに対応する複数の音声サブセグメントのうちの或る音声サブセグメントが、第１の事前定義された音声セグメントとして識別されることが可能である（例えば、ピッチの２つのセットの差が、事前定義されたしきい値範囲内である）。例えば、第２の音声セグメント内に４つの音声サブセグメントが存在し、ピッチの４つのセットが、それぞれ、｛Ａ，Ａ，Ｂ，Ｃ｝、｛Ａ＋０．０５Ａ，Ｂ＋０．０６Ｂ，Ｃ＋０．０８Ｃ，Ｄ｝、｛Ａ＋０．０１Ａ，Ａ＋０．０２Ａ，Ｂ＋０．０４Ｂ，Ｃ＋０．０３Ｃ｝、｛Ｂ＋０．０９Ｂ，Ｃ＋０．０９Ｃ，Ｄ＋０．０２Ｄ，Ｅ｝であるものと考えると、｛Ａ，Ａ，Ｂ，Ｃ｝が、ピッチの繰り返されるセットとして識別されることが可能である。ピッチの繰り返されるセット｛Ａ，Ａ，Ｂ，Ｃ｝に対応する音声サブセグメントが、第１の事前定義された音声セグメントとして識別されることが可能である。当業者は、ピッチの前述の４つのセットは、単に例示の目的のためであるものと理解してよく、ピッチのセットの値は、既存の技術を使用して当業者によって決定され得る。

一部の実施形態において、メル周波数ケプストラム係数（ＭＦＣＣ）が、第２の音声セグメントにおいて繰り返される音声セグメントを識別すべく前述のピッチに取って代わることが可能である。具体的には、当業者によって知られ得る、前述の複数の音声サブセグメントの各サブセグメントのＭＦＣＣの各セットが、最初に決定されることが可能である。次に、繰り返されるＭＦＣＣのセットが、ＭＦＣＣの複数のセットから識別されることが可能である（例えば、ＭＦＣＣの２つのセットの差が、事前定義されたしきい値範囲内である）。次に、ＭＦＣＣの繰り返されるセットに対応する複数の音声サブセグメントのうちの或る音声サブセグメントが、第１の事前定義された音声セグメントとして識別されることが可能である。音声セグメントに関するＭＦＣＣの決定は、当業者によってよく知られており、ここでは省略される。

一部の実施形態において、第２の音声セグメントが、第１のテキストに変換されてよく、次に、第１のテキスト内で繰り返される第２のテキスト（以降、「繰り返されるテキスト」と呼ばれる）が、テキスト認識技術を使用して識別されることが可能である。例えば、第１のテキスト内で２つの同一の語が、最初に探索され、次に、第１のテキスト内のそれらの同一の語に対するそれぞれの次の語が、比較され、繰り返されるテキストが見出されるまで、そのプロセスが、繰り返される。次に、第２の音声セグメントにおいて繰り返されるテキストに対応する複数の音声サブセグメントのうちの或る音声サブセグメントが、第１の事前定義された音声セグメントとして獲得されることが可能である。

一部の実施形態において、前述の複数の音声サブセグメントは、複数のテキストに変換されることが可能である。次に、繰り返されるテキストが、複数のテキストから識別されることが可能である。例えば、２つのテキストが実質的に関係している（例えば、８０％の語が同一である）場合、その２つのテキストのうちの１つが、繰り返されるテキストとして識別される。その後、繰り返されるテキストに対応する複数の音声サブセグメントのうちの或る音声サブセグメントが、第１の事前定義された音声セグメントであると決定されることが可能である。

当業者は、他の音声フィーチャが、第２の音声セグメントにおける繰り返される音声セグメントを識別すべく使用されることも可能であるものと理解してよい。また、フィルタリング、その他などの一部の一般的な音声処理ステップは、それらのステップが当業者にはよく知られているので、ここでは省かれる。一般に、音声－テキスト変換を使用する様態が、精度、利用可能性、およびリソース利用効率の点で他の様態と比べて、より優れている。

一部の実施形態において、第１の音声セグメントが、１つの音声ファイルに記憶されるとき、繰り返される音声セグメントを識別すべく使用されるスライディング・ウインドウと類似したスライディング・ウインドウが、第１の音声セグメントのその一部分を獲得すべく使用されることが可能である。図５は、本発明の実施形態による、第１の音声セグメントのその一部分を第１の事前定義された音声セグメントと継続的に比較するための例示的な図を示す。第１の事前定義された音声セグメント５０１は、スライディング・ウインドウと同一の幅である、５秒の幅を有する。毎回、スライディング・ウインドウは、スライディング・ウインドウ内の次の音声サブセグメントを第１の音声セグメントのその一部分として獲得すべく、第１の音声セグメントに沿って１秒などに対応する音声セグメントの長さだけスライドさせられる。スライディング長が小さいほど、比較結果が良好となる。図５に示されるとおり、第１の音声セグメント５０２は、複数の音声サブセグメントに分割され（現在の音声サブセグメントと次の音声サブセグメントの間に重なり合いを有して）、ここで、第１の音声サブセグメント５０３が、開始から５秒に対応するポイント（開始）まで第１の音声セグメントに対応し、第２の音声サブセグメント５０４が、１秒に対応するポイント（開始）から６秒に対応するポイント（開始）まで第１の音声セグメントに対応するといった具合である。この場合、５０３、５０４、その他などの、第１の音声セグメントの各音声サブセグメント（例えば、第１の音声セグメントのその一部分）が、第１の事前定義された音声セグメント５０１と、その両方の音声セグメントが関係しているかどうかを決定すべく比較されることが可能である。両方の音声セグメントが関係している場合、第１の音声セグメント内でスライディング・ウインドウを使用することによって獲得される次の音声サブセグメントが、第１の事前定義された音声セグメント５０１と比較されることが可能であり、比較プロセスは、第１の事前定義された音声セグメント５０１と関係していない音声サブセグメント５０５が見出されるまで、繰り返される。

第１の音声セグメントの一部分が第１の事前定義された音声セグメントと関係しているかどうかが、ピッチのそれぞれのセット、ＭＦＣＣのセット、または２つの音声サブセグメントのテキストに基づいて決定されることが可能である。一部の実施形態において、第１の音声セグメントのその一部分が、第１のテキストに変換され、第１の事前定義された音声セグメントが、第２のテキストに変換され、第１のテキストが第２のテキストと関係しているかどうかが、それらのテキストを比較することによって決定されることが可能である。次に、第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係しているかどうかが、第１のテキストと第２のテキストの間の比較に基づいて決定されることが可能である。実施例において、第１のテキストが第２のテキストと関係している場合、第１の音声セグメントのその一部分と第１の事前定義された音声セグメントは、関係していると決定されることが可能である。別の実施例において、第１のテキストと第２のテキストの間の差が、所定のしきい値未満である場合、第１の音声セグメントのその一部分と第１の事前定義された音声セグメントは、関係していると決定されることが可能である。

一部の実施形態において、第１の音声セグメントのその一部分のピッチのセットが、最初に決定され、次に、第１の事前定義された音声セグメントのピッチのセットが、決定される。次に、第１の音声セグメントのその一部分のピッチのセットと第１の事前定義された音声セグメントのピッチのセットが、第１の音声セグメントのその一部分のピッチのセットが第１の事前定義された音声セグメントのピッチのセットと関係しているかどうかを決定すべく比較される。したがって、第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係しているかどうかが、第１の音声セグメントのその一部分のピッチのセットと第１の事前定義された音声セグメントのピッチのセットの比較に基づいて決定されることが可能である。実施例において、第１の音声セグメントのその一部分のピッチのセットが、第１の事前定義された音声セグメントのピッチのセットと関係している場合、第１の音声セグメントのその一部分と第１の事前定義された音声セグメントは、関係していると決定されることが可能である。別の実施例において、第１の音声セグメントのその一部分のピッチのセットと第１の事前定義された音声セグメントのピッチのセットの間の差が、所定のしきい値未満である場合、第１の音声セグメントのその一部分と第１の事前定義された音声セグメントは、関係していると決定されることが可能である。

一部の実施形態において、第１の音声セグメントのその一部分のＭＦＣＣのセットが、最初に決定され、次に、第１の事前定義された音声セグメントのＭＦＣＣのセットが、決定される。次に、第１の音声セグメントのその一部分のＭＦＣＣのセットと第１の事前定義された音声セグメントのＭＦＣＣのセットが、受信される音声のその一部分のＭＦＣＣのセットが第１の事前定義された音声セグメントのＭＦＣＣのセットと関係しているかどうかを決定すべく比較される。したがって、第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係しているかどうかが、第１の音声セグメントのその一部分のＭＦＣＣのセットと第１の事前定義された音声セグメントのＭＦＣＣのセットの間の比較に基づいて決定されることが可能である。実施例において、第１の音声セグメントのその一部分のＭＦＣＣのセットが第１の事前定義された音声セグメントのＭＦＣＣのセットと関係している場合、第１の音声セグメントのその一部分と第１の事前定義された音声セグメントは、関係していると決定されることが可能である。別の実施例において、第１の音声セグメントのその一部分のＭＦＣＣのセットと第１の事前定義された音声セグメントのＭＦＣＣのセットの間の差が、所定のしきい値未満である場合、第１の音声セグメントのその一部分と第１の事前定義された音声セグメントは、関係していると決定されることが可能である。

一部の実施形態において、第１の音声セグメントのその一部分が、第１の事前定義された音声セグメントと関係しているかどうかが、第１の音声セグメントのその一部分と第１の事前定義された音声セグメントの間の相互関係に基づいて決定されることが可能である。第１の音声セグメントのその一部分と第１の事前定義された音声セグメントの間の相互関係は、音声－テキストを介して獲得された、第１の音声セグメントのその一部分のテキストと、音声－テキストを介して獲得された、第１の事前定義された音声セグメントのテキストとの間の相互関係、または第１の音声セグメントのその一部分のピッチのセットと第１の事前定義された音声セグメントのピッチのセットの間の相互関係、または第１の音声セグメントのその一部分のＭＦＣＣのセットと第１の事前定義された音声セグメントのＭＦＣＣのセットの間の相互関係、その他として表されることが可能である。さらに、様々な相互関係が定義されることが可能である。一部の実施形態において、第１の音声セグメントのその一部分と第１の事前定義された音声セグメントの間の相互関係が、所定のしきい値を超えている場合、第１の音声セグメントのその一部分と第１の事前定義された音声セグメントは、関係していると決定されることが可能である。例えば、相互関係は、これら２つの音声サブセグメントに対応する２つのテキスト内に包含される同一の語の数として定義されることが可能である。一部の実施形態において、第１の音声セグメントのその一部分と第１の事前定義された音声セグメントの間の相互関係が、所定のしきい値未満である場合、第１の音声セグメントのその一部分と第１の事前定義された音声セグメントは、関係していると決定されることが可能である。例えば、相互関係は、２つの音声サブセグメントのピッチの２つのセットの間の累積された差として定義されることが可能である。

図４を再び参照すると、ステップ４３０において、第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係していることに応答して、呼スレッドにおいて呼の音量を低減すること、および呼をミュートにさえすることなどによって、デバイスの音量が調整される。図５に示されるとおり、２つの音声サブセグメント５０３および５０４のそれぞれが、第１の事前定義された音声セグメント５０１と関係しており、コールセンタが、対応する期間中、繰り返される音声セグメントを送信している、言い換えると、その期間中、対応可能なサービス・スタッフが存在しないと決定されることが可能である。それ故、デバイスの音量は、ユーザが邪魔されないようにするために調整される。

ステップ４４０において、第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係していないことに応答して、呼スレッドにおいてデバイスのユーザに警報が出される。図５に示されるとおり、音声サブセグメント５０５と第１の事前定義された音声セグメント５０１が関係していないと決定されたとき、コールセンタが、その期間中、異なる音声サブセグメントを送信している、言い換えると、サービス呼のための対応可能なサービス・スタッフ一員が、今や存在すると決定されることが可能である。音声警報、デバイス振動、デバイスからの光信号、デバイスの画面上に表示される情報、およびデバイスの呼出し音、その他などの既存の方法を使用して、ユーザに警報が出されることが可能である。次に、方法４００は、終了される。この時点で対応可能なサービス・スタッフ一員が存在するので、ユーザは、そのサービス・スタッフに直接に話すことができる。図５に示されるとおり、第１の音声セグメント５０５のその一部分の終わりに、ユーザに警報が出される。その時点に先立って、ユーザが邪魔されないようにデバイスの音量が調整される。

図５から、スタッフ一員が対応可能になったときに対応可能なサービス・スタッフ一員によって告げられるものと見込まれる音声サブセグメント５０５をユーザが逸する可能性があることが判明し得る。その目的で、本発明の実施形態は、ユーザのために音声サブセグメント５０５を繰り返すことを含んでよい。

図６は、本発明の実施形態による、キュー内で待機する呼の最中のユーザ体験を向上させるための方法６００の概略フローチャートを示す。図４の方法４００と同様に、図６の方法もまた、デバイスによって行われた呼の間にコールセンタから受信される第１の音声セグメントを呼スレッドに記録すること４１０、第１の音声セグメントの一部分が、呼スレッドにおける第１の事前定義された音声セグメントと関係しているかどうかを決定すること４２０、デバイスの音量を調整すること４３０、第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係していないことに応答して、呼スレッドにおいてユーザに警報を出すこと４４０を含む。図６の方法において、第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係していないことに応答して、ステップ６１０において、第１の音声セグメントのその一部分（図５における音声サブセグメント５０５などの）が、通常の発話速度と比べて、より速い速度で呼スレッドにおいて再生される。例えば、速度は、通常の発話速度の２倍、または通常の発話速度と比べて、より速い他の任意の発話速度であることが可能である。ステップ６２０において、呼において受信される次の音声セグメント（図５における音声セグメント５０６などの）が、記録スレッドに記録される。ステップ６１０とステップ６２０の両方が、異なるスレッドにおいて並行に実行されることが可能である。第１の音声セグメント（５０５）のその一部分が再生された後、ステップ６３０において、次の音声セグメント（５０６）が、この次の音声セグメントの終わりまで、通常の発話速度と比べて、より速い速度で呼スレッドにおいて再生される。この場合、終わりとは、この次の音声セグメントに関する再生プロセス、およびこの次の音声セグメントに関する記録プロセスが、この次の音声セグメントの同一の時点に達することを意味する。次に、ユーザが、サービス・スタッフに直接に話すことができる。ステップ６１０とステップ６２０が、異なるスレッドにおいて実質的に同じような時点で実行され得ること、ならびにステップ６１０とステップ４４０が、任意の順序で実行され得ること、例えば、ステップ６１０の後にステップ４４０が続き得ること、またはステップ４４０の後にステップ６１０が続き得ることが判明し得る。

一部の実施形態において、方法４００は、第１の音声セグメントのその一部分が第１の事前定義された音声セグメントと関係していないことに応答して、第２の事前定義された音声セグメントを使用して、その呼の他方の側（例えば、コールセンタ）を呼び出す、方法４００の終了に先立つ、ステップをさらに含む。実施例において、第２の事前定義された音声セグメントは、対応可能なサービス・スタッフ一員が現在の状況を知ることができ、呼を継続すべく少し待つことができるように、「発呼者は、待機プロセスにあり、可能な限り早急に呼を引き受けます。少しお待ちください。」という音声セグメントなどであることが可能である。発呼者に警報を出した後、方法４００のほとんどを実施する呼スレッドは、ユーザが、デバイスを取り上げ、話すとき、対応可能なサービス・スタッフが、ユーザ体験を向上させるべく５０５などの繰り返される音声セグメントを繰り返すことができるように、対応可能なサービス・スタッフに警報を出す前述の第２の事前定義された音声セグメントを送信してよい。当業者は、このステップが図６の方法と組み合わされ得るものと理解してよい。再生速度は、再生プロセスと記録プロセスがともに、最終的に同時に終えられることが可能であるように、記録速度より速い。ユーザは、逸せられた音声サブセグメントおよび次の音声セグメントを聴いており、その間、対応可能なサービス・スタッフは、第２の事前定義された音声セグメントを聴いており、次に、ユーザを待ってよい。次に、ユーザとサービス・スタッフは、図４の方法４００または図６の方法６００の終わりに直接に話すことができる。

本開示の実施形態によるスタッフ・サービスのための呼を管理する処理は、図１のコンピュータ・システム／サーバ１２によって実施されることが可能であることに留意されたい。

本発明は、可能な任意の技術的詳細の統合レベルにおけるシステム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（または複数の媒体）を含んでよい。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持すること、および記憶することができる有形のデバイスであることが可能である。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、または以上の任意の適切な組合せであってよいが、これらには限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、以下、すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭもしくはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピ・ディスク、命令が記録されているパンチカードもしくは溝の中の隆起構造などの機械的に符号化されたデバイス、および以上の任意の適切な組合せを含む。本明細書において使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝達媒体を介して伝播する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または配線を介して伝送される電気信号などの一過性の信号そのものであると解釈されるべきではない。

本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、または無線ネットワーク、あるいはその組合せを介して外部コンピュータもしくは外部ストレージ・デバイスにダウンロードされることが可能である。ネットワークは、銅伝送ケーブル、伝送光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを備えてよい。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶されるようにコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、またはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋、もしくはそれに類するものなどのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語もしくはそれに類似したプログラミング言語などの手続き型プログラミング言語を含め、１つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、全体がユーザのコンピュータ上で実行されても、一部がユーザのコンピュータ上で実行されても、スタンドアロンのソフトウェア・パッケージとして実行されても、一部がユーザのコンピュータ上で、かつ一部が遠隔コンピュータ上で実行されても、全体が遠隔コンピュータもしくは遠隔サーバの上で実行されてもよい。全体が遠隔コンピュータもしくは遠隔サーバの上で実行されるシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてよく、または接続は、外部コンピュータに対して行われてもよい（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）。一部の実施形態において、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路が、本発明の態様を実行するために、電子回路をカスタマイズするようにコンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行してよい。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャートまたはブロック図あるいはその両方を参照して本明細書において説明される。フローチャートまたはブロック図あるいはその両方の各ブロック、ならびにフローチャートまたはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施されることが可能であることが理解されよう。

これらのコンピュータ可読プログラム命令は、そのコンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行されるそれらの命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定される機能／動作を実施する手段を作り出すべく、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサに提供されて機械を作り出すものであってよい。また、これらのコンピュータ可読プログラム命令は、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作の態様を実施する命令を含む製造品を備えるべく、特定の様態で機能するようにコンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せを導くことができるコンピュータ可読記憶媒体に記憶されてもよい。

また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスの上で実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施するように、コンピュータによって実施されるプロセスを作り出すべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、または他のデバイスの上で一連の動作ステップを実行させるものであってもよい。

図におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を例示する。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を備える、命令のモジュール、セグメント、または部分を表すことが可能である。一部の代替の実装形態において、ブロックに記載される機能は、図に記載される順序を外れて生じてよい。例えば、連続して示される２つのブロックが、実際には、１つのステップとして実現されてよく、同時に実行されてよく、部分的に、もしくは完全に時間的に重なり合うように、実質的に同時に実行されてよく、またはそれらのブロックが、ときとして、関与する機能に依存して、逆の順序で実行されてよい。また、ブロック図またはフローチャートあるいはその両方の各ブロック、ならびにブロック図またはフローチャートあるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を実行する、または専用ハードウェア命令とコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムによって実施されることが可能であることにも留意されたい。

本発明の様々な実施形態の説明は、例示の目的で提示されてきたが、網羅的であることも、開示される実施形態に限定されることも意図していない。説明される実施形態の範囲および思想を逸脱することなく、多くの変形形態および変更形態が、当業者には明白となろう。本明細書において使用される術語は、実施形態の原理、実際的な応用、もしくは市場において見られる技術に優る技術的改良を最もよく説明すべく、または他の当業者が、本明細書において開示される実施形態を理解することを可能にすべく選択された。

［項１］
コンピュータによって実施される方法であって、
１つまたは複数のプロセッサにより、デバイスによって行われた呼において受信される第１の音声セグメントを記録するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの一部分が第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションと
を含む方法。
［項２］
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分を、通常発話速度と比べて、より速い速度で再生するアクションと、
１つまたは複数のプロセッサにより、前記呼において受信される次の音声セグメントを記録するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分を再生する前記アクションの終わりに応答して、前記次の音声セグメントを、通常発話速度と比べて、より速い速度で、前記次の音声セグメントの終わりまで再生するアクションと
をさらに含む、項１に記載の方法。
［項３］
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、前記呼の他方の側に第２の事前定義された音声セグメントを送信するアクションをさらに含む、項１に記載の方法。
［項４］
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分を第１のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記第１の事前定義された音声セグメントを第２のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記第１のテキストと前記第２のテキストの間の比較に基づいて、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項１に記載の方法。
［項５］
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のピッチのセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の事前定義された音声セグメントのピッチのセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のピッチの前記セットと前記第１の事前定義された音声セグメントのピッチの前記セットの間の比較に基づいて、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項１に記載の方法。
［項６］
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のメル周波数ケプストラム係数（ＭＦＣＣ）のセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の事前定義された音声セグメントのＭＦＣＣのセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のＭＦＣＣの前記セットと前記第１の事前定義された音声セグメントのＭＦＣＣの前記セットの間の比較に基づいて、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項１に記載の方法。
［項７］
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼において受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを第３のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記第３のテキスト内で繰り返されるテキストを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記第２の音声セグメントの一部分を前記第１の事前定義された音声セグメントとして獲得するアクションとによって獲得される、項１に記載の方法。
［項８］
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼において受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記複数のテキストから繰り返されるテキストを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションとによって獲得される、項１に記載の方法。
［項９］
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼によって受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントのピッチの複数のセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記複数のピッチから繰り返されるピッチのセットを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返されるピッチの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションとによって獲得される、項１に記載の方法。
［項１０］
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼の上で受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントのメル周波数ケプストラム係数（ＭＦＣＣ）の複数のセットを決定するアクションと、
１つまたは複数のプロセッサにより、ＭＦＣＣの前記複数のセットから繰り返されるＭＦＣＣのセットを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返されるＭＦＣＣの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションとによって獲得される、項１に記載の方法。
［項１１］
前記デバイスの前記ユーザに警報を出す前記アクションが、音声警報、デバイス振動、前記デバイスからの光信号、前記デバイスの画面上で表示される情報、および前記デバイスの呼出し音のうちの少なくとも１つを使用して前記デバイスの前記ユーザに警報を出すアクションを含む、項１に記載の方法。
［項１２］
システムであって、
１つまたは複数のプロセッサと、
前記プロセッサのうちの少なくとも１つに結合されたメモリと、
前記メモリに記憶されたコンピュータ・プログラム命令のセットであって、
デバイスによって行われた呼において受信される第１の音声セグメントを記録するアクションと、
前記第１の音声セグメントの一部分が第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションとを実行するために前記プロセッサのうちの少なくとも１つによって実行される、コンピュータ・プログラム命令の前記セットと
を備えるシステム。
［項１３］
前記アクションが、
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、
前記第１の音声セグメントの前記一部分を、通常発話速度と比べて、より速い速度で再生するアクションと、
前記呼において受信される次の音声セグメントを記録するアクションと、
前記第１の音声セグメントの前記一部分を再生する前記アクションの終わりに応答して、前記次の音声セグメントを、通常発話速度と比べて、より速い速度で、前記次の音声セグメントの終わりまで再生するアクションとをさらに含む、項１２に記載のシステム。
［項１４］
前記アクションが、
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、前記呼の他方の側に第２の事前定義された音声セグメントを送信するアクションをさらに含む、項１２に記載のシステム。
［項１５］
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
前記第１の音声セグメントの前記一部分を第１のテキストに変換するアクションと、
前記第１の事前定義された音声セグメントを第２のテキストに変換するアクションと、
前記第１のテキストと前記第２のテキストの間の比較に基づいて、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項１２に記載のシステム。
［項１６］
前記第１の事前定義された音声セグメントが、
前記呼において受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
前記第２の音声セグメントを第３のテキストに変換するアクションと、
前記第３のテキスト内で繰り返されるテキストを識別するアクションと、
繰り返される前記テキストに対応する前記第２の音声セグメントの一部分を前記第１の事前定義された音声セグメントとして獲得するアクションとによって獲得される、項１２に記載のシステム。
［項１７］
前記第１の事前定義された音声セグメントが、
前記呼の上で受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
前記複数のテキストから繰り返されるテキストを識別するアクションと、
繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションとによって獲得される、項１２に記載のシステム。
［項１８］
前記デバイスの前記ユーザに警報を出す前記アクションが、音声警報、デバイス振動、前記デバイスからの光信号、前記デバイスの画面上で表示される情報、および前記デバイスの呼出し音のうちの少なくとも１つを使用して前記デバイスの前記ユーザに警報を出すアクションを含む、項１２に記載のシステム。
［項１９］
コンピュータ・プログラム製品であって、
プロセッサによって、前記プロセッサに、
デバイスによって行われた呼において受信される第１の音声セグメントを記録するアクションと、
前記第１の音声セグメントの一部分が第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションとを行わせるように実行可能であるプログラム命令を記憶しているコンピュータ可読記憶媒体を備えるコンピュータ・プログラム製品。
［項２０］
前記プログラム命令が、プロセッサによって、前記プロセッサに、
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、
前記第１の音声セグメントの前記一部分を、通常発話速度と比べて、より速い速度で再生するアクションと、
前記呼において受信される次の音声セグメントを記録するアクションと、
前記第１の音声セグメントの前記一部分を再生する前記アクションの終わりに応答して、前記次の音声セグメントを、通常発話速度と比べて、より速い速度で、前記次の音声セグメントの終わりまで再生するアクションとをさらに行わせるように実行可能である、項１９に記載のコンピュータ・プログラム製品。

Claims

コンピュータによって実施される方法であって、
１つまたは複数のプロセッサにより、デバイスによって行われた呼において受信される第１の音声セグメントを記録するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの一部分が第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションと
を含み、
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、下記の（ａ）、（ｂ）又は（ｃ）のうちのいずれか1つを含む、
（ａ）前記アクションが、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分を第１のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記第１の事前定義された音声セグメントを第２のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記第１のテキストと前記第２のテキストの間の比較に基づいて、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含み、又は、
（ｂ）前記アクションが、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のピッチのセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の事前定義された音声セグメントのピッチのセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のピッチの前記セットと前記第１の事前定義された音声セグメントのピッチの前記セットの間の比較に基づいて、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含み、又は、
ｃ）前記アクションが、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のメル周波数ケプストラム係数（ＭＦＣＣ）のセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の事前定義された音声セグメントのＭＦＣＣのセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のＭＦＣＣの前記セットと前記第１の事前定義された音声セグメントのＭＦＣＣの前記セットの間の比較に基づいて、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含む、
前記方法。
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分を第１のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記第１の事前定義された音声セグメントを第２のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記第１のテキストと前記第２のテキストの間の比較に基づいて、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含む、請求項１に記載の方法。
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のピッチのセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の事前定義された音声セグメントのピッチのセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のピッチの前記セットと前記第１の事前定義された音声セグメントのピッチの前記セットの間の比較に基づいて、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含む、請求項１に記載の方法。
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のメル周波数ケプストラム係数（ＭＦＣＣ）のセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の事前定義された音声セグメントのＭＦＣＣのセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分のＭＦＣＣの前記セットと前記第１の事前定義された音声セグメントのＭＦＣＣの前記セットの間の比較に基づいて、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含む、請求項１に記載の方法。
前記第１の事前定義された音声セグメントが、下記の（ａ’）、（ｂ’）、（ｃ’）又は（ｄ’）のうちのいずれかによって獲得される：
（ａ’）前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼において受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを第３のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記第３のテキスト内で繰り返されるテキストを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記第２の音声セグメントの一部分を前記第１の事前定義された音声セグメントとして獲得するアクションと
によって獲得される、又は、
（ｂ’）前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼において受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記複数のテキストから繰り返されるテキストを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、又は、
（ｃ’）前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼によって受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントのピッチの複数のセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記複数のピッチから繰り返されるピッチのセットを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返されるピッチの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、又は、
（ｄ’）前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼の上で受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントのメル周波数ケプストラム係数（ＭＦＣＣ）の複数のセットを決定するアクションと、
１つまたは複数のプロセッサにより、ＭＦＣＣの前記複数のセットから繰り返されるＭＦＣＣのセットを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返されるＭＦＣＣの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、
請求項１に記載の方法。
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼において受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを第３のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記第３のテキスト内で繰り返されるテキストを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記第２の音声セグメントの一部分を前記第１の事前定義された音声セグメントとして獲得するアクションと
によって獲得される、請求項５に記載の方法。
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼において受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記複数のテキストから繰り返されるテキストを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項５に記載の方法。
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼によって受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントのピッチの複数のセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記複数のピッチから繰り返されるピッチのセットを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返されるピッチの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項５に記載の方法。
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼の上で受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントのメル周波数ケプストラム係数（ＭＦＣＣ）の複数のセットを決定するアクションと、
１つまたは複数のプロセッサにより、ＭＦＣＣの前記複数のセットから繰り返されるＭＦＣＣのセットを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返されるＭＦＣＣの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項５に記載の方法。
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、１つまたは複数のプロセッサにより、前記呼の他方の側に第２の事前定義された音声セグメントを送信するアクションをさらに含む、請求項１～９のいずれか１項に記載の方法。
前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分を、通常発話速度と比べて、より速い速度で再生するアクションと、
１つまたは複数のプロセッサにより、前記呼において受信される次の音声セグメントを記録するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分を再生する前記アクションの終わりに応答して、前記次の音声セグメントを、通常発話速度と比べて、より速い速度で、前記次の音声セグメントの終わりまで再生するアクションと
をさらに含む、請求項１～９のいずれか１項に記載の方法。
前記デバイスの前記ユーザに警報を出す前記アクションが、音声警報、デバイス振動、前記デバイスからの光信号、前記デバイスの画面上で表示される情報、および前記デバイスの呼出し音のうちの少なくとも１つを使用して前記デバイスの前記ユーザに警報を出すアクションを含む、請求項１～１０のいずれか１項に記載の方法。
コンピュータによって実施される方法であって、
１つまたは複数のプロセッサにより、デバイスによって行われた呼において受信される第１の音声セグメントを記録するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの一部分が第１の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
１つまたは複数のプロセッサにより、前記第１の音声セグメントの前記一部分が前記第１の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションと
を含み、
前記第１の事前定義された音声セグメントが、
前記第１の事前定義された音声セグメントが、下記の（ａ’）、（ｂ’）、（ｃ’）又は（ｄ’）のうちのいずれかによって獲得される：
（ａ’）前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼において受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを第３のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記第３のテキスト内で繰り返されるテキストを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記第２の音声セグメントの一部分を前記第１の事前定義された音声セグメントとして獲得するアクションと
によって獲得される、又は、
（ｂ’）前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼において受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記複数のテキストから繰り返されるテキストを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、又は、
（ｃ’）前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼によって受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントのピッチの複数のセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記複数のピッチから繰り返されるピッチのセットを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返されるピッチの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、又は、
（ｄ’）前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼の上で受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントのメル周波数ケプストラム係数（ＭＦＣＣ）の複数のセットを決定するアクションと、
１つまたは複数のプロセッサにより、ＭＦＣＣの前記複数のセットから繰り返されるＭＦＣＣのセットを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返されるＭＦＣＣの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、
前記方法。
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼において受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを第３のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記第３のテキスト内で繰り返されるテキストを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記第２の音声セグメントの一部分を前記第１の事前定義された音声セグメントとして獲得するアクションと
によって獲得される、請求項１３に記載の方法。
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼において受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
１つまたは複数のプロセッサにより、前記複数のテキストから繰り返されるテキストを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項１３に記載の方法。
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼によって受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントのピッチの複数のセットを決定するアクションと、
１つまたは複数のプロセッサにより、前記複数のピッチから繰り返されるピッチのセットを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返されるピッチの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項１３に記載の方法。
前記第１の事前定義された音声セグメントが、
１つまたは複数のプロセッサにより、前記呼の上で受信される第２の音声セグメントを事前定義された時間にわたって記録するアクションと、
１つまたは複数のプロセッサにより、前記第２の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
１つまたは複数のプロセッサにより、前記複数の音声サブセグメントのメル周波数ケプストラム係数（ＭＦＣＣ）の複数のセットを決定するアクションと、
１つまたは複数のプロセッサにより、ＭＦＣＣの前記複数のセットから繰り返されるＭＦＣＣのセットを識別するアクションと、
１つまたは複数のプロセッサにより、繰り返されるＭＦＣＣの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第１の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項１３に記載の方法。
コンピュータ・プログラムであって、請求項１～１７のいずれか１項に記載の方法の各ステップをコンピュータに実行させるための、コンピュータ・プログラム。
請求項１８に記載のコンピュータ・プログラムを記録した、コンピュータ可読記憶媒体。
システムであって、
１つまたは複数のプロセッサと、
前記プロセッサのうちの少なくとも１つに結合されたメモリであって、請求項１８に記載のコンピュータ・プログラムを記憶した前記メモリと
を備えているシステム。