JP2024073501A - キュー内で待機する呼に関する最適化 - Google Patents
キュー内で待機する呼に関する最適化 Download PDFInfo
- Publication number
- JP2024073501A JP2024073501A JP2024033199A JP2024033199A JP2024073501A JP 2024073501 A JP2024073501 A JP 2024073501A JP 2024033199 A JP2024033199 A JP 2024033199A JP 2024033199 A JP2024033199 A JP 2024033199A JP 2024073501 A JP2024073501 A JP 2024073501A
- Authority
- JP
- Japan
- Prior art keywords
- segment
- processors
- predefined
- audio
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000004044 response Effects 0.000 claims abstract description 31
- 238000004590 computer program Methods 0.000 claims abstract description 14
- 230000009471 action Effects 0.000 claims description 73
- 239000011295 pitch Substances 0.000 claims description 60
- 230000015654 memory Effects 0.000 claims description 24
- 238000004891 communication Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000007726 management method Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/428—Arrangements for placing incoming calls on hold
- H04M3/4286—Notifying a held subscriber when his held call is removed from hold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/80—Telephone line holding circuits
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/82—Line monitoring circuits for call progress or status discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6016—Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/64—Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
- H04M1/65—Recording arrangements for recording a message from the calling party
- H04M1/656—Recording arrangements for recording a message from the calling party for recording conversations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/20—Aspects of automatic or semi-automatic exchanges related to features of supplementary services
- H04M2203/2027—Live party detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】コールセンタによって提供されるスタッフ・サービスに対する要求中にキュー内で待機する呼を管理するための方法、システム、コンピュータ・プログラム製品を提供する。【解決手段】方法は、通信デバイス、コンピュータ・システム/サーバ又はポータブル電子デバイス等のデバイスによって行われた呼において受信する第1の音声セグメントを最初に記録し、次に、第1の音声セグメントの一部分を、第1の事前定義された音声セグメントと関係しているかどうかが決定し、第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係していることに応答して、デバイスの音量を調整するか又は第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係しないことに応答して、デバイスのユーザに警報を出する。【選択図】図4
Description
本発明の実施形態は、コンピュータ・ソフトウェアの分野に関する。より詳細には、実施形態は、キュー内で待機する呼に関して呼を管理するための方法、システム、およびコンピュータ・プログラム製品に関する。
今日、コールセンタが、多くの業界、例えば、金融業界およびその他のサービス業界において広く使用される。
或る態様において、コールセンタのスタッフの一員からサービスを受けようと試みるときにキュー内で待機するコールセンタに対する呼を管理するための方法が、開示される。方法によれば、デバイスによって行われた呼において受信される第1の音声セグメントが、最初に記録される。次に、第1の音声セグメントの一部分が、第1の事前定義された音声セグメントと関係しているかどうかが決定される。最後に、第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係していることに応答して、デバイスの音量が調整される一方で、第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係しないことに応答して、デバイスのユーザに警報が出される。
別の態様において、コンピュータによって実施されるシステムが、開示される。システムは、コンピュータ可読メモリ・ユニットに結合されたコンピュータ・プロセッサを含んでよく、そのメモリ・ユニットは、コンピュータ・プロセッサによって実行されたとき、前述の方法を実施する命令を備える。
さらに別の態様において、コンピュータ・プログラム製品が、開示される。コンピュータ・プログラム製品は、プログラム命令が実体化されているコンピュータ可読記憶媒体を備える。1つまたは複数のプロセッサ上で実行されたとき、命令は、その1つまたは複数のプロセッサに前述の方法を実行させてよい。
添付の図面における本開示の一部の実施形態のより詳細な説明を通じて、本開示の以上、およびその他の目的、特徴、および利点が、より明らかとなり、図面において、同一の参照符号は、一般に、本開示の実施形態における同一の構成要素を指す。
一部の実施形態は、本開示の実施形態が例示されている添付の図面を参照して、より詳細に説明される。しかし、本開示は、様々な様態で実施されることが可能であり、それ故、本明細書に開示される実施形態に限定されるものと解釈されるべきではない。
本開示は、クラウド・コンピューティングに関する詳細な説明を含むものの、本明細書に記載される教示の実施は、クラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在、知られている、または後に開発される他の任意のタイプのコンピューティング環境と連携して実施されることが可能である。
クラウド・コンピューティングは、最小限の管理作業またはサービスのプロバイダとの最小限の対話しか伴わずに迅速にプロビジョニングされ、リリースされることが可能である、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有されるプールに対する便利な、オンデマンドのネットワーク・アクセスを可能にするためのサービス・デリバリのモデルである。このクラウド・モデルは、少なくとも5つの特徴と、少なくとも3つのサービス・モデルと、少なくとも4つの展開モデルとを含むことが可能である。
特徴は、以下のとおりである。
オンデマンドのセルフ・サービス クラウド消費者が、サービスのプロバイダとの人間対話を必要とすることなしに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることが可能である。
広いネットワーク・アクセス 能力が、ネットワークを介して利用可能であり、かつ異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム(例えば、モバイル電話、ラップトップ、およびPDA)による使用を促進する標準の機構を介してアクセスされる。
リソース・プーリング プロバイダのコンピューティング・リソースが、マルチテナント・モデルを使用して多数の消費者に役立てられるようにプールされ、様々な物理リソースおよび仮想リソースが、デマンドに応じて動的に割当てられ、かつ動的に再割当てされる。消費者が、提供されるリソースの厳密なロケーションを一般に支配することも、知ることもないが、抽象化のより高いレベル(例えば、国、州、またはデータセンタ)でロケーションを指定することができ得るという点でロケーション独立の感覚が存在する。
迅速な弾力性 能力は、急速にスケールアウトすること、および迅速にリリースされて、急速にスケールインすることが行われるように、迅速に、弾力的に、いくつかの事例においては自動的にプロビジョニングされることが可能である。消費者には、プロビジョニングのために利用可能な能力は、しばしば、無限であるように見え、任意の時点で任意の量で購入されることが可能である。
測定されるサービス クラウド・システムが、サービスのタイプ(例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント)に適切な抽象化の何らかのレベルで計測能力を活用することによってリソース使用を自動的に制御し、最適化する。リソース使用は、監視され、制御され、報告されて、利用されるサービスのプロバイダと消費者の両方に透明性をもたらすことが可能である。
サービス・モデルは、以下のとおりである。
Software as a Service(SaaS) 消費者に提供される能力は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。それらのアプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インタフェース(例えば、ウェブ・ベースの電子メール)を介して様々なクライアント・デバイスからアクセス可能である。消費者は、限られたユーザ特有のアプリケーション構成設定を可能な例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション能力さえ含め、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしない。
Platform as a Service(PaaS) 消費者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびプログラミング・ツールを使用して作成された、消費者が作成した、または消費者が獲得したアプリケーションをクラウド・インフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含め、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしないが、展開されたアプリケーション、および、場合により、アプリケーション・ホスティング環境構成を支配する。
Infrastructure as a Service(IaaS) 消費者に提供される能力は、消費者が、オペレーティング・システムと、アプリケーションとを含み得る任意のソフトウェアを展開して、実行することができる、処理、ストレージ、ネットワーク、および他の基本的な計算リソースをプロビジョニングすることである。消費者は、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションを支配し、場合により、選定されたネットワーキング構成要素(例えば、ホスト・ファイアウォール)の限られた支配を有する。
展開モデルは、以下のとおりである。
プライベート・クラウド クラウド・インフラストラクチャが、専ら組織のために運用される。クラウド・インフラストラクチャは、その組織によって管理されても、第三者によって管理されてもよく、敷地内に存在しても、敷地外に存在してもよい。
コミュニティ・クラウド クラウド・インフラストラクチャが、いくつかの組織によって共有され、共有される関心(例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンス配慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラストラクチャは、その組織によって管理されても、第三者によって管理されてもよく、敷地内に存在しても、敷地外に存在してもよい。
パブリック・クラウド クラウド・インフラストラクチャが、一般の公衆または大きい業界グループによる利用に供され、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド クラウド・インフラストラクチャは、独自のエンティティであるままであるが、データ移植性およびアプリケーション移植性を可能にする標準化された技術もしくは独自の技術(例えば、クラウド間で負荷分散するためのクラウド・バースティング)によって一緒に結び付けられた2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成である。
クラウド・コンピューティング環境は、ステートレスである性質、低結合、モジュール性、およびセマンティクスの相互運用性に焦点を合わせていて、サービス指向である。クラウド・コンピューティングの中核には、互いに接続されたノードのネットワークを含むインフラストラクチャがある。
次に、図1を参照すると、クラウド・コンピューティング・ノードの実施例の概略図が示される。クラウド・コンピューティング・ノード10は、適切なクラウド・コンピューティング・ノードの一実施例に過ぎず、本明細書において説明される実施形態の用途または機能の範囲について限定を示唆することはまったく意図していない。いずれにせよ、クラウド・コンピューティング・ノード10は、前段で示される機能のいずれかとして実装されること、またはそのような機能のいずれかを実行すること、あるいはその組合せが可能である。
クラウド・コンピューティング・ノード10において、他の多数の汎用または専用のコンピューティング・システム環境またはコンピューティング・システム構成で動作可能である、通信デバイスなどのコンピュータ・システム/サーバ12またはポータブル電子デバイスが存在する。コンピュータ・システム/サーバ12と一緒に使用するのに適することがあるよく知られたコンピューティング・システム、コンピューティング環境、またはコンピューティング・システム構成、あるいはその組合せの例は、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルド・デバイスもしくはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セットトップ・ボックス、プログラマブル家庭用電化製品、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および前述のシステムもしくはデバイスのいずれかを含む分散型クラウド・コンピューティング環境、ならびにそれに類するものを含むが、これらには限定されない。
コンピュータ・システム/サーバ12は、コンピュータ・システムによって実行されている、プログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な脈絡で説明されてよい。一般に、プログラム・モジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、ロジック、データ構造などを含んでよい。コンピュータ・システム/サーバ12は、タスクが、通信ネットワークを介して結び付けられた遠隔処理デバイスによって実行される、分散型クラウド・コンピューティング環境において実施されてよい。分散型クラウド・コンピューティング環境において、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカル・コンピュータ・システム記憶媒体と遠隔コンピュータ・システム記憶媒体の両方に配置されてよい。
図1に示されるとおり、クラウド・コンピューティング・ノード10におけるコンピュータ・システム/サーバ12は、汎用コンピューティング・デバイスの形態で示される。コンピュータ・システム/サーバ12の構成要素は、1つまたは複数のプロセッサまたは処理装置16、システム・メモリ28、ならびにシステム・メモリ28を含む様々なシステム構成要素をプロセッサ16に結合するバス18を含んでよいが、これらには限定されない。
バス18は、様々なバス・アーキテクチャのいずれかを使用する、メモリ・バスもしくはメモリ・コントローラ、周辺バス、アクセラレーテッド・グラフィックス・ポート、およびプロセッサ・バスもしくはローカル・バスを含む、いくつかのタイプのバス構造のいずれかの1つまたは複数を表す。例として、限定としてではなく、そのようなアーキテクチャは、インダストリ・スタンダード・アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、エンハンストISA(EISA)バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション(VESA)ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト(PCI)バスを含む。
コンピュータ・システム/サーバ12は、通常、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム/サーバ12によってアクセス可能である任意の利用可能な媒体であってよく、そのような媒体は、揮発性媒体と不揮発性媒体、取外し可能な媒体と取外し可能でない媒体の両方を含む。
システム・メモリ28は、ランダム・アクセス・メモリ(RAM)30またはキャッシュ・メモリ32、あるいはその両方などの揮発性メモリの形態でコンピュータ・システム可読媒体を含むことが可能である。コンピュータ・システム/サーバ12は、他の取外し可能な/取外し可能でない、揮発性/不揮発性のコンピュータ・システム記憶媒体をさらに含んでよい。単に例として、ストレージ・システム34が、取外し可能でない、不揮発性の磁気媒体(図示されず、通常、「ハードドライブ」と呼ばれる)から読み取ること、およびそのような磁気媒体に書き込むことを行うために備えられることが可能である。図示されないものの、取外し可能な、不揮発性の磁気ディスク(例えば、「フロッピ・ディスク」)から読み取ること、およびそのような磁気ディスクに書き込むことを行うための磁気ディスク・ドライブ、ならびにCD-ROM、DVD-ROM、または他の光媒体などの取外し可能な、不揮発性の光ディスクから読み取ること、またはそのような光ディスクに書き込むことを行うための光ディスク・ドライブが、備えられることが可能である。そのような事例において、各媒体は、1つまたは複数のデータ媒体インタフェースによってバス18に接続されることが可能である。後段でさらに示され、説明されるとおり、メモリ28は、本発明の実施形態の機能を実行すべく構成されたプログラム・モジュールのセット(例えば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含んでよい。
例として、限定としてではなく、プログラム・モジュール42のセット(少なくとも1つ)を有するプログラム/ユーティリティ40、ならびにオペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データが、メモリ28に記憶されてよい。オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データ、あるいはその何らかの組合せの各々が、ネットワーキング環境の実装例を含んでよい。プログラム・モジュール42は、一般に、本明細書において説明される本発明の実施形態の機能または方法、あるいはその組合せを実行する。
また、コンピュータ・システム/サーバ12は、キーボード、ポインティング・デバイス、ディスプレイ24、その他などの1つもしくは複数の外部デバイス14、ユーザがコンピュータ・システム/サーバ12と対話することを可能にする1つもしくは複数のデバイス、またはコンピュータ・システム/サーバ12が他の1つもしくは複数のコンピューティング・デバイスと通信することを可能にする任意のデバイス(例えば、ネットワーク・カード、モデム、その他)、あるいはその組合せと通信してもよい。そのような通信は、入出力(I/O)インタフェース22を介して行われることが可能である。さらに、コンピュータ・システム/サーバ12は、ローカル・エリア・ネットワーク(LAN)、汎用ワイド・エリア・ネットワーク(WAN)、またはパブリック・ネットワーク(例えば、インターネット)、あるいはその組合せなどの1つまたは複数のネットワークと通信することができる。図示されるとおり、ネットワーク・アダプタ20が、バス18を介してコンピュータ・システム/サーバ12の他の構成要素と通信する。図示されないものの、他のハードウェア構成要素またはソフトウェア構成要素、あるいはその組合せが、コンピュータ・システム/サーバ12と連携して使用されることも可能であることを理解されたい。例は、マイクロコード、デバイス・ドライバ、冗長な処理装置、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システム、その他を含むが、これらには限定されない。
次に、図2を参照すると、例示的なクラウド・コンピューティング環境50が示される。図示されるとおり、クラウド・コンピューティング環境50は、例えば、携帯情報端末(PDA)もしくはセルラ電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54N、あるいはその組合せなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスが相手として通信してよい1つまたは複数のクラウド・コンピューティング・ノード10を含む。ノード10は、互いに通信してよい。ノード10は、前段で説明されるプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、またはハイブリッド・クラウド、あるいはその組合せなどの1つまたは複数のネットワークにおいて、物理的に、または仮想でグループ化されて(図示せず)よい。このことは、クラウド・コンピューティング環境50が、クラウド消費者がそのためにローカル・コンピューティング・デバイス上にリソースを維持する必要のないインフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せをサービスとして提供することを可能にする。図2に示されるコンピューティング・デバイス54A~Nのタイプは、単に例示的であることが意図されること、ならびにコンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能な接続あるいはその両方を介して(例えば、ウェブ・ブラウザを使用して)任意のタイプのコンピュータ化されたデバイスと通信することができるものと理解される。
次に、図3を参照すると、クラウド・コンピューティング環境(図2)によって提供される機能抽象化層のセットが示される。図3に示される構成要素、層、および機能は、単に例示的であることが意図され、本発明の実施形態は、それに限定されないことをあらかじめ理解されたい。図示されるとおり、次の層および対応する機能が提供される。
ハードウェアおよびソフトウェア層60が、ハードウェア構成要素およびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム61、RISC(Reduced Instruction Set Computer)アーキテクチャ・ベースのサーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーキング構成要素66を含む。一部の実施形態において、ソフトウェア構成要素は、ネットワーク・アプリケーション・サーバ・ソフトウェア67と、データベース・ソフトウェア68とを含む。
仮想化層70が、仮想エンティティの以下の例、すなわち、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよび仮想オペレーティング・システム74、ならびに仮想クライアント75が提供されてよい抽象化層を提供する。
一例において、管理層80が、後段で説明される機能を提供することが可能である。リソース・プロビジョニング81が、クラウド・コンピューティング環境内でタスクを実行するのに利用される計算リソースおよび他のリソースの動的調達を提供する。計測および価格設定82が、クラウド・コンピューティング環境内でリソースが利用されるにつれての費用追跡、ならびにこれらのリソースの消費に関する料金請求もしくはインボイス送付を提供する。一例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含んでよい。セキュリティが、クラウド消費者およびタスクに関する識別情報検証、ならびにデータおよび他のリソースに関する保護を提供する。ユーザ・ポータル83が、クラウド・コンピューティング環境へのアクセスを消費者およびシステム管理者に提供する。サービス・レベル管理84が、要求されるサービス・レベルが満たされるようにクラウド・コンピューティング・リソース割当ておよびクラウド・コンピューティング・リソース管理を提供する。サービス・レベル・アグリーメント(SLA)計画および履行85が、SLAにより将来の要件が予期されるクラウド・コンピューティング・リソースに関する事前取決め、およびそのようなリソースの調達を提供する。
作業負荷層90が、クラウド・コンピューティング環境が利用されてよい機能の例を提供する。この層から提供されてよい作業負荷および機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室教育デリバリ93、データ解析処理94、トランザクション処理95、ならびに呼管理96を含む。
労働費用の増加とともに、多くの企業は、現在、コールセンタのためにより少ないサービス・スタッフを提供することを選好する。このことは、多くのユーザの呼が、以降、スタッフ・サービスと呼ばれる支援またはサービスを受けるべくコールセンタ・スタッフ一員にユーザが話すことができるまでに長時間にわたってキュー内で待機しなければならないことをもたらす。これらの待機ユーザは、サービス・スタッフ一員が対応可能になるまで、「対応可能なサービス・スタッフがおりません、このままでお待ちください...」などの、コールセンタからの繰り返されるプロンプト・トーンを聴かなければならない。この待機プロセスは、ユーザにとって非常に退屈であるが、ユーザが、それらのプロンプト・トーンに注意を払わない場合、ユーザは、ユーザが待機しているスタッフ・サービスを逸することがある。例として、それらのプロンプト・トーンは、「こんにちは、ご用件をお知らせください。」などの、対応可能なスタッフからの音声を含むことがある。
以上の状況下で、ユーザが、待機プロセス中、ユーザのデバイスをすぐに置き、他のタスクを実行することができ、かつサービス・スタッフ一員が対応可能になった後、ユーザがサービス・スタッフに適時に話すことができるように、ユーザに即時に警報が出され得る場合、ユーザの体験は、大幅に向上させられる。
コールセンタにおける呼管理のための既存の技術は、人工知能(AI)技術を使用してユーザの問題を解決しようと試みるロボットを含む。しかし、サービス・スタッフ一員からの助けを依然として要求するいくつかの問題が存在する。例えば、AIロボットは、ユーザのアクセントに起因してユーザの問題を理解できないことがあり、またはAIロボットは、ユーザからの新たな問題に対する解決策を提供しない、といった具合である。
したがって、ユーザがスタッフ・サービスを待たなければならないとき、ユーザ体験を向上させるべくスタッフ・サービスに対する要求に関する呼を管理するためのアプローチを提供する必要性が、存在する。
本発明の実施形態は、ユーザ体験を向上させるスタッフ・サービスを要求する呼を管理するための方法を提供した。方法によれば、ユーザが、スタッフ・サービスを要求してコールセンタを呼び出し、対応可能なサービス・スタッフ一員が存在しない場合、ユーザは、本発明の方法を実施するソフトウェア・モジュールを起動することができ、次に、ユーザは、デバイスを置き、他のタスクを実行することができる。ソフトウェア・モジュールは、ユーザが邪魔されないようにデバイスの音量を調整しながら、コールセンタの応答を監視することができる。ソフトウェア・モジュールが、対応可能なサービス・スタッフ一員が存在することを見出すと、ソフトウェア・モジュールは、ユーザがサービス・スタッフに適時に話すことができるように、ユーザに即時に警報を出すことができる。
図4は、本発明の実施形態によるスタッフ・サービスを要求する呼を管理するための方法400の概略フローチャートを示す。一部の実施形態において、方法400は、一方が記録スレッドであり、他方が呼スレッドである2つのスレッドを備えたモジュールで実装されることが可能である。方法400は、デバイスのユーザによって開始されることが可能である。例えば、デバイスのオペレーティング・システムが、ユーザが本発明のモジュールを活性化すべく押す呼インタフェースにおけるボタンを提供することができ、ユーザがコールセンタを相手に呼をセットアップし、ユーザのサービス要求が待機プロセスに入ったとき、ユーザは、モジュールがデバイス上で本発明の方法を実施することができるように、本発明のモジュールを活性化すべくボタンを押すことができる。一部の実施形態において、方法は、モジュールのユーザによる構成により自動的に開始されることが可能である。
図4を参照すると、ステップ410において、デバイスによって行われた呼の間にコールセンタから受信される第1の音声セグメントが、呼スレッドによって記録される。一部の実施形態において、第1の音声セグメントは、1つの音声ファイルに継続的に記憶されることが可能である。一部の実施形態において、第1の音声セグメントは、メモリに継続的に記憶されることが可能である。記録スレッドは、呼スレッドと一緒に並行に実行されてよい。
ステップ420において、第1の音声セグメントの一部分が、呼スレッドにおける第1の事前定義された音声セグメントと関係しているかどうかが決定される。第1の事前定義された音声セグメントは、音声セグメント、「対応可能なサービス・スタッフがおりません、このままでお待ちください...」などの、コールセンタから受信される繰り返される音声セグメントであることが可能である。現在の音声サブセグメント(第1の音声セグメントから選択された音声サブセグメント)が、第1の事前定義された音声セグメントと関係している場合、対応可能なサービス・スタッフがまだ存在しないものと結論づけられることが可能である。しかし、現在の音声サブセグメントが、第1の事前定義された音声セグメントとは完全に異なる場合、例えば、現在の音声セグメントが、「サービス・スタッフ一員番号123が対応可能です、おはようございます、ご用件をお知らせください」である場合、対応可能なサービス・スタッフが存在するものと結論づけられることが可能である。
一部の実施形態において、第1の事前定義された音声セグメントは、いくつかの事前定義された音声サブセグメントを備えてよい。例えば、1つの事前定義された音声サブセグメントが、「対応可能なサービス・スタッフがおりません、そのままでお待ちください...」であってよく、別の事前定義された音声サブセグメントが、コールセンタからの通知音声セグメントであってよい。説明を簡略化すべく、第1の事前定義された音声セグメントは、以降、1つだけの事前定義された音声セグメントを備える。
一部の実施形態において、第1の事前定義された音声セグメントは、コールセンタからの、以降、繰り返される音声セグメントと呼ばれる、繰り返される音声セグメントを記録することを介して、ユーザによって決定されることが可能である。例えば、本発明のモジュールは、デバイスのユーザが、繰り返される音声セグメントを第1の事前定義された音声セグメントとして記録するオプションを提供することができる。ユーザは、音声-テキスト・フィーチャによって生成されたテキストに対応する繰り返される音声セグメント、「対応可能なサービス・スタッフがおりません、そのままでお待ちください...」が受信される前に「記録を開始する」ボタンを押してよく、繰り返される音声セグメントが記録された後、ユーザは、「記録を終了する」ボタンを押してよい。次に、繰り返される音声セグメントが、第1の事前定義された音声セグメントとして記憶されることが可能である。一部の実施形態において、第1の事前定義された音声セグメントは、第三者から獲得されることが可能であり、例えば、第1の事前定義された音声セグメントは、コールセンタのウェブサイトからダウンロードされることが可能である。一部の実施形態において、第1の事前定義された音声セグメントは、既存の音声セグメントからユーザによって選択されてよい。
一部の実施形態において、第1の事前定義された音声セグメントは、自動的に決定されることが可能である。例えば、モジュールは、20秒などの事前定義された時間にわたってデバイスを介してその呼の上で受信される第2の音声セグメントを記録してよい。次に、モジュールは、第2の音声セグメントからの繰り返される音声セグメントを識別してよい。
一部の実施形態において、第2の音声セグメントのピッチが、繰り返される音声セグメントを識別すべく使用されてよく、次に、識別された繰り返される音声セグメントが、第1の事前定義された音声セグメントとして使用されてよい。具体的には、第2の音声セグメントが、スライディング・ウインドウを使用して複数の音声サブセグメントに分割されてよい(2つの音声サブセグメントの間に重なり合いが存在してよい)。例えば、スライディング・ウインドウが、5秒の幅を有する音声セグメントに対応し、スライディング長が、1秒の長さを有する音声セグメントに対応する(パラメータは、必要に応じて他の値であるように定義されることが可能であり、ウインドウの幅、およびスライディング長もまた、必要に応じてユーザによって定義されることが可能である)ものと想定すると、第1の音声サブセグメントが、開始から5秒に対応するポイント(開始)まで第2の音声セグメントに対応し、第2の音声サブセグメントが、1秒に対応するポイント(開始)から6秒に対応するポイント(開始)まで第2の音声セグメントに対応し、第3の音声サブセグメントが、2秒に対応するポイント(開始)から7秒に対応するポイント(開始)まで第2の音声セグメントに対応するといった具合である。次に、前述の複数の音声サブセグメントのピッチの複数のセットが、決定されることが可能である。次に、ピッチの繰り返されるセットが、ピッチの複数のセットから識別されることが可能であり、ピッチの繰り返されるセットに対応する複数の音声サブセグメントのうちの或る音声サブセグメントが、第1の事前定義された音声セグメントとして識別されることが可能である(例えば、ピッチの2つのセットの差が、事前定義されたしきい値範囲内である)。例えば、第2の音声セグメント内に4つの音声サブセグメントが存在し、ピッチの4つのセットが、それぞれ、{A,A,B,C}、{A+0.05A,B+0.06B,C+0.08C,D}、{A+0.01A,A+0.02A,B+0.04B,C+0.03C}、{B+0.09B,C+0.09C,D+0.02D,E}であるものと考えると、{A,A,B,C}が、ピッチの繰り返されるセットとして識別されることが可能である。ピッチの繰り返されるセット{A,A,B,C}に対応する音声サブセグメントが、第1の事前定義された音声セグメントとして識別されることが可能である。当業者は、ピッチの前述の4つのセットは、単に例示の目的のためであるものと理解してよく、ピッチのセットの値は、既存の技術を使用して当業者によって決定され得る。
一部の実施形態において、メル周波数ケプストラム係数(MFCC)が、第2の音声セグメントにおいて繰り返される音声セグメントを識別すべく前述のピッチに取って代わることが可能である。具体的には、当業者によって知られ得る、前述の複数の音声サブセグメントの各サブセグメントのMFCCの各セットが、最初に決定されることが可能である。次に、繰り返されるMFCCのセットが、MFCCの複数のセットから識別されることが可能である(例えば、MFCCの2つのセットの差が、事前定義されたしきい値範囲内である)。次に、MFCCの繰り返されるセットに対応する複数の音声サブセグメントのうちの或る音声サブセグメントが、第1の事前定義された音声セグメントとして識別されることが可能である。音声セグメントに関するMFCCの決定は、当業者によってよく知られており、ここでは省略される。
一部の実施形態において、第2の音声セグメントが、第1のテキストに変換されてよく、次に、第1のテキスト内で繰り返される第2のテキスト(以降、「繰り返されるテキスト」と呼ばれる)が、テキスト認識技術を使用して識別されることが可能である。例えば、第1のテキスト内で2つの同一の語が、最初に探索され、次に、第1のテキスト内のそれらの同一の語に対するそれぞれの次の語が、比較され、繰り返されるテキストが見出されるまで、そのプロセスが、繰り返される。次に、第2の音声セグメントにおいて繰り返されるテキストに対応する複数の音声サブセグメントのうちの或る音声サブセグメントが、第1の事前定義された音声セグメントとして獲得されることが可能である。
一部の実施形態において、前述の複数の音声サブセグメントは、複数のテキストに変換されることが可能である。次に、繰り返されるテキストが、複数のテキストから識別されることが可能である。例えば、2つのテキストが実質的に関係している(例えば、80%の語が同一である)場合、その2つのテキストのうちの1つが、繰り返されるテキストとして識別される。その後、繰り返されるテキストに対応する複数の音声サブセグメントのうちの或る音声サブセグメントが、第1の事前定義された音声セグメントであると決定されることが可能である。
当業者は、他の音声フィーチャが、第2の音声セグメントにおける繰り返される音声セグメントを識別すべく使用されることも可能であるものと理解してよい。また、フィルタリング、その他などの一部の一般的な音声処理ステップは、それらのステップが当業者にはよく知られているので、ここでは省かれる。一般に、音声-テキスト変換を使用する様態が、精度、利用可能性、およびリソース利用効率の点で他の様態と比べて、より優れている。
一部の実施形態において、第1の音声セグメントが、1つの音声ファイルに記憶されるとき、繰り返される音声セグメントを識別すべく使用されるスライディング・ウインドウと類似したスライディング・ウインドウが、第1の音声セグメントのその一部分を獲得すべく使用されることが可能である。図5は、本発明の実施形態による、第1の音声セグメントのその一部分を第1の事前定義された音声セグメントと継続的に比較するための例示的な図を示す。第1の事前定義された音声セグメント501は、スライディング・ウインドウと同一の幅である、5秒の幅を有する。毎回、スライディング・ウインドウは、スライディング・ウインドウ内の次の音声サブセグメントを第1の音声セグメントのその一部分として獲得すべく、第1の音声セグメントに沿って1秒などに対応する音声セグメントの長さだけスライドさせられる。スライディング長が小さいほど、比較結果が良好となる。図5に示されるとおり、第1の音声セグメント502は、複数の音声サブセグメントに分割され(現在の音声サブセグメントと次の音声サブセグメントの間に重なり合いを有して)、ここで、第1の音声サブセグメント503が、開始から5秒に対応するポイント(開始)まで第1の音声セグメントに対応し、第2の音声サブセグメント504が、1秒に対応するポイント(開始)から6秒に対応するポイント(開始)まで第1の音声セグメントに対応するといった具合である。この場合、503、504、その他などの、第1の音声セグメントの各音声サブセグメント(例えば、第1の音声セグメントのその一部分)が、第1の事前定義された音声セグメント501と、その両方の音声セグメントが関係しているかどうかを決定すべく比較されることが可能である。両方の音声セグメントが関係している場合、第1の音声セグメント内でスライディング・ウインドウを使用することによって獲得される次の音声サブセグメントが、第1の事前定義された音声セグメント501と比較されることが可能であり、比較プロセスは、第1の事前定義された音声セグメント501と関係していない音声サブセグメント505が見出されるまで、繰り返される。
第1の音声セグメントの一部分が第1の事前定義された音声セグメントと関係しているかどうかが、ピッチのそれぞれのセット、MFCCのセット、または2つの音声サブセグメントのテキストに基づいて決定されることが可能である。一部の実施形態において、第1の音声セグメントのその一部分が、第1のテキストに変換され、第1の事前定義された音声セグメントが、第2のテキストに変換され、第1のテキストが第2のテキストと関係しているかどうかが、それらのテキストを比較することによって決定されることが可能である。次に、第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係しているかどうかが、第1のテキストと第2のテキストの間の比較に基づいて決定されることが可能である。実施例において、第1のテキストが第2のテキストと関係している場合、第1の音声セグメントのその一部分と第1の事前定義された音声セグメントは、関係していると決定されることが可能である。別の実施例において、第1のテキストと第2のテキストの間の差が、所定のしきい値未満である場合、第1の音声セグメントのその一部分と第1の事前定義された音声セグメントは、関係していると決定されることが可能である。
一部の実施形態において、第1の音声セグメントのその一部分のピッチのセットが、最初に決定され、次に、第1の事前定義された音声セグメントのピッチのセットが、決定される。次に、第1の音声セグメントのその一部分のピッチのセットと第1の事前定義された音声セグメントのピッチのセットが、第1の音声セグメントのその一部分のピッチのセットが第1の事前定義された音声セグメントのピッチのセットと関係しているかどうかを決定すべく比較される。したがって、第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係しているかどうかが、第1の音声セグメントのその一部分のピッチのセットと第1の事前定義された音声セグメントのピッチのセットの比較に基づいて決定されることが可能である。実施例において、第1の音声セグメントのその一部分のピッチのセットが、第1の事前定義された音声セグメントのピッチのセットと関係している場合、第1の音声セグメントのその一部分と第1の事前定義された音声セグメントは、関係していると決定されることが可能である。別の実施例において、第1の音声セグメントのその一部分のピッチのセットと第1の事前定義された音声セグメントのピッチのセットの間の差が、所定のしきい値未満である場合、第1の音声セグメントのその一部分と第1の事前定義された音声セグメントは、関係していると決定されることが可能である。
一部の実施形態において、第1の音声セグメントのその一部分のMFCCのセットが、最初に決定され、次に、第1の事前定義された音声セグメントのMFCCのセットが、決定される。次に、第1の音声セグメントのその一部分のMFCCのセットと第1の事前定義された音声セグメントのMFCCのセットが、受信される音声のその一部分のMFCCのセットが第1の事前定義された音声セグメントのMFCCのセットと関係しているかどうかを決定すべく比較される。したがって、第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係しているかどうかが、第1の音声セグメントのその一部分のMFCCのセットと第1の事前定義された音声セグメントのMFCCのセットの間の比較に基づいて決定されることが可能である。実施例において、第1の音声セグメントのその一部分のMFCCのセットが第1の事前定義された音声セグメントのMFCCのセットと関係している場合、第1の音声セグメントのその一部分と第1の事前定義された音声セグメントは、関係していると決定されることが可能である。別の実施例において、第1の音声セグメントのその一部分のMFCCのセットと第1の事前定義された音声セグメントのMFCCのセットの間の差が、所定のしきい値未満である場合、第1の音声セグメントのその一部分と第1の事前定義された音声セグメントは、関係していると決定されることが可能である。
一部の実施形態において、第1の音声セグメントのその一部分が、第1の事前定義された音声セグメントと関係しているかどうかが、第1の音声セグメントのその一部分と第1の事前定義された音声セグメントの間の相互関係に基づいて決定されることが可能である。第1の音声セグメントのその一部分と第1の事前定義された音声セグメントの間の相互関係は、音声-テキストを介して獲得された、第1の音声セグメントのその一部分のテキストと、音声-テキストを介して獲得された、第1の事前定義された音声セグメントのテキストとの間の相互関係、または第1の音声セグメントのその一部分のピッチのセットと第1の事前定義された音声セグメントのピッチのセットの間の相互関係、または第1の音声セグメントのその一部分のMFCCのセットと第1の事前定義された音声セグメントのMFCCのセットの間の相互関係、その他として表されることが可能である。さらに、様々な相互関係が定義されることが可能である。一部の実施形態において、第1の音声セグメントのその一部分と第1の事前定義された音声セグメントの間の相互関係が、所定のしきい値を超えている場合、第1の音声セグメントのその一部分と第1の事前定義された音声セグメントは、関係していると決定されることが可能である。例えば、相互関係は、これら2つの音声サブセグメントに対応する2つのテキスト内に包含される同一の語の数として定義されることが可能である。一部の実施形態において、第1の音声セグメントのその一部分と第1の事前定義された音声セグメントの間の相互関係が、所定のしきい値未満である場合、第1の音声セグメントのその一部分と第1の事前定義された音声セグメントは、関係していると決定されることが可能である。例えば、相互関係は、2つの音声サブセグメントのピッチの2つのセットの間の累積された差として定義されることが可能である。
図4を再び参照すると、ステップ430において、第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係していることに応答して、呼スレッドにおいて呼の音量を低減すること、および呼をミュートにさえすることなどによって、デバイスの音量が調整される。図5に示されるとおり、2つの音声サブセグメント503および504のそれぞれが、第1の事前定義された音声セグメント501と関係しており、コールセンタが、対応する期間中、繰り返される音声セグメントを送信している、言い換えると、その期間中、対応可能なサービス・スタッフが存在しないと決定されることが可能である。それ故、デバイスの音量は、ユーザが邪魔されないようにするために調整される。
ステップ440において、第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係していないことに応答して、呼スレッドにおいてデバイスのユーザに警報が出される。図5に示されるとおり、音声サブセグメント505と第1の事前定義された音声セグメント501が関係していないと決定されたとき、コールセンタが、その期間中、異なる音声サブセグメントを送信している、言い換えると、サービス呼のための対応可能なサービス・スタッフ一員が、今や存在すると決定されることが可能である。音声警報、デバイス振動、デバイスからの光信号、デバイスの画面上に表示される情報、およびデバイスの呼出し音、その他などの既存の方法を使用して、ユーザに警報が出されることが可能である。次に、方法400は、終了される。この時点で対応可能なサービス・スタッフ一員が存在するので、ユーザは、そのサービス・スタッフに直接に話すことができる。図5に示されるとおり、第1の音声セグメント505のその一部分の終わりに、ユーザに警報が出される。その時点に先立って、ユーザが邪魔されないようにデバイスの音量が調整される。
図5から、スタッフ一員が対応可能になったときに対応可能なサービス・スタッフ一員によって告げられるものと見込まれる音声サブセグメント505をユーザが逸する可能性があることが判明し得る。その目的で、本発明の実施形態は、ユーザのために音声サブセグメント505を繰り返すことを含んでよい。
図6は、本発明の実施形態による、キュー内で待機する呼の最中のユーザ体験を向上させるための方法600の概略フローチャートを示す。図4の方法400と同様に、図6の方法もまた、デバイスによって行われた呼の間にコールセンタから受信される第1の音声セグメントを呼スレッドに記録すること410、第1の音声セグメントの一部分が、呼スレッドにおける第1の事前定義された音声セグメントと関係しているかどうかを決定すること420、デバイスの音量を調整すること430、第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係していないことに応答して、呼スレッドにおいてユーザに警報を出すこと440を含む。図6の方法において、第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係していないことに応答して、ステップ610において、第1の音声セグメントのその一部分(図5における音声サブセグメント505などの)が、通常の発話速度と比べて、より速い速度で呼スレッドにおいて再生される。例えば、速度は、通常の発話速度の2倍、または通常の発話速度と比べて、より速い他の任意の発話速度であることが可能である。ステップ620において、呼において受信される次の音声セグメント(図5における音声セグメント506などの)が、記録スレッドに記録される。ステップ610とステップ620の両方が、異なるスレッドにおいて並行に実行されることが可能である。第1の音声セグメント(505)のその一部分が再生された後、ステップ630において、次の音声セグメント(506)が、この次の音声セグメントの終わりまで、通常の発話速度と比べて、より速い速度で呼スレッドにおいて再生される。この場合、終わりとは、この次の音声セグメントに関する再生プロセス、およびこの次の音声セグメントに関する記録プロセスが、この次の音声セグメントの同一の時点に達することを意味する。次に、ユーザが、サービス・スタッフに直接に話すことができる。ステップ610とステップ620が、異なるスレッドにおいて実質的に同じような時点で実行され得ること、ならびにステップ610とステップ440が、任意の順序で実行され得ること、例えば、ステップ610の後にステップ440が続き得ること、またはステップ440の後にステップ610が続き得ることが判明し得る。
一部の実施形態において、方法400は、第1の音声セグメントのその一部分が第1の事前定義された音声セグメントと関係していないことに応答して、第2の事前定義された音声セグメントを使用して、その呼の他方の側(例えば、コールセンタ)を呼び出す、方法400の終了に先立つ、ステップをさらに含む。実施例において、第2の事前定義された音声セグメントは、対応可能なサービス・スタッフ一員が現在の状況を知ることができ、呼を継続すべく少し待つことができるように、「発呼者は、待機プロセスにあり、可能な限り早急に呼を引き受けます。少しお待ちください。」という音声セグメントなどであることが可能である。発呼者に警報を出した後、方法400のほとんどを実施する呼スレッドは、ユーザが、デバイスを取り上げ、話すとき、対応可能なサービス・スタッフが、ユーザ体験を向上させるべく505などの繰り返される音声セグメントを繰り返すことができるように、対応可能なサービス・スタッフに警報を出す前述の第2の事前定義された音声セグメントを送信してよい。当業者は、このステップが図6の方法と組み合わされ得るものと理解してよい。再生速度は、再生プロセスと記録プロセスがともに、最終的に同時に終えられることが可能であるように、記録速度より速い。ユーザは、逸せられた音声サブセグメントおよび次の音声セグメントを聴いており、その間、対応可能なサービス・スタッフは、第2の事前定義された音声セグメントを聴いており、次に、ユーザを待ってよい。次に、ユーザとサービス・スタッフは、図4の方法400または図6の方法600の終わりに直接に話すことができる。
本開示の実施形態によるスタッフ・サービスのための呼を管理する処理は、図1のコンピュータ・システム/サーバ12によって実施されることが可能であることに留意されたい。
本発明は、可能な任意の技術的詳細の統合レベルにおけるシステム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体(または複数の媒体)を含んでよい。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持すること、および記憶することができる有形のデバイスであることが可能である。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、または以上の任意の適切な組合せであってよいが、これらには限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、以下、すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、消去可能なプログラマブル読取り専用メモリ(EPROMもしくはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピ・ディスク、命令が記録されているパンチカードもしくは溝の中の隆起構造などの機械的に符号化されたデバイス、および以上の任意の適切な組合せを含む。本明細書において使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝達媒体を介して伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または配線を介して伝送される電気信号などの一過性の信号そのものであると解釈されるべきではない。
本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、または無線ネットワーク、あるいはその組合せを介して外部コンピュータもしくは外部ストレージ・デバイスにダウンロードされることが可能である。ネットワークは、銅伝送ケーブル、伝送光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを備えてよい。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶されるようにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、またはSmalltalk(R)、C++、もしくはそれに類するものなどのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくはそれに類似したプログラミング言語などの手続き型プログラミング言語を含め、1つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、全体がユーザのコンピュータ上で実行されても、一部がユーザのコンピュータ上で実行されても、スタンドアロンのソフトウェア・パッケージとして実行されても、一部がユーザのコンピュータ上で、かつ一部が遠隔コンピュータ上で実行されても、全体が遠隔コンピュータもしくは遠隔サーバの上で実行されてもよい。全体が遠隔コンピュータもしくは遠隔サーバの上で実行されるシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてよく、または接続は、外部コンピュータに対して行われてもよい(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)。一部の実施形態において、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路が、本発明の態様を実行するために、電子回路をカスタマイズするようにコンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行してよい。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャートまたはブロック図あるいはその両方を参照して本明細書において説明される。フローチャートまたはブロック図あるいはその両方の各ブロック、ならびにフローチャートまたはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施されることが可能であることが理解されよう。
これらのコンピュータ可読プログラム命令は、そのコンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行されるそれらの命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施する手段を作り出すべく、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサに提供されて機械を作り出すものであってよい。また、これらのコンピュータ可読プログラム命令は、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作の態様を実施する命令を含む製造品を備えるべく、特定の様態で機能するようにコンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せを導くことができるコンピュータ可読記憶媒体に記憶されてもよい。
また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスの上で実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施するように、コンピュータによって実施されるプロセスを作り出すべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、または他のデバイスの上で一連の動作ステップを実行させるものであってもよい。
図におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を例示する。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を備える、命令のモジュール、セグメント、または部分を表すことが可能である。一部の代替の実装形態において、ブロックに記載される機能は、図に記載される順序を外れて生じてよい。例えば、連続して示される2つのブロックが、実際には、1つのステップとして実現されてよく、同時に実行されてよく、部分的に、もしくは完全に時間的に重なり合うように、実質的に同時に実行されてよく、またはそれらのブロックが、ときとして、関与する機能に依存して、逆の順序で実行されてよい。また、ブロック図またはフローチャートあるいはその両方の各ブロック、ならびにブロック図またはフローチャートあるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を実行する、または専用ハードウェア命令とコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムによって実施されることが可能であることにも留意されたい。
本発明の様々な実施形態の説明は、例示の目的で提示されてきたが、網羅的であることも、開示される実施形態に限定されることも意図していない。説明される実施形態の範囲および思想を逸脱することなく、多くの変形形態および変更形態が、当業者には明白となろう。本明細書において使用される術語は、実施形態の原理、実際的な応用、もしくは市場において見られる技術に優る技術的改良を最もよく説明すべく、または他の当業者が、本明細書において開示される実施形態を理解することを可能にすべく選択された。
[項1]
コンピュータによって実施される方法であって、
1つまたは複数のプロセッサにより、デバイスによって行われた呼において受信される第1の音声セグメントを記録するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの一部分が第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションと
を含む方法。
[項2]
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分を、通常発話速度と比べて、より速い速度で再生するアクションと、
1つまたは複数のプロセッサにより、前記呼において受信される次の音声セグメントを記録するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分を再生する前記アクションの終わりに応答して、前記次の音声セグメントを、通常発話速度と比べて、より速い速度で、前記次の音声セグメントの終わりまで再生するアクションと
をさらに含む、項1に記載の方法。
[項3]
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記呼の他方の側に第2の事前定義された音声セグメントを送信するアクションをさらに含む、項1に記載の方法。
[項4]
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分を第1のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントを第2のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第1のテキストと前記第2のテキストの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項1に記載の方法。
[項5]
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のピッチのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントのピッチのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のピッチの前記セットと前記第1の事前定義された音声セグメントのピッチの前記セットの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項1に記載の方法。
[項6]
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のメル周波数ケプストラム係数(MFCC)のセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントのMFCCのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のMFCCの前記セットと前記第1の事前定義された音声セグメントのMFCCの前記セットの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項1に記載の方法。
[項7]
前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを第3のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第3のテキスト内で繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記第2の音声セグメントの一部分を前記第1の事前定義された音声セグメントとして獲得するアクションとによって獲得される、項1に記載の方法。
[項8]
前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記複数のテキストから繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションとによって獲得される、項1に記載の方法。
[項9]
前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼によって受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのピッチの複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記複数のピッチから繰り返されるピッチのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるピッチの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションとによって獲得される、項1に記載の方法。
[項10]
前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼の上で受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのメル周波数ケプストラム係数(MFCC)の複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、MFCCの前記複数のセットから繰り返されるMFCCのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるMFCCの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションとによって獲得される、項1に記載の方法。
[項11]
前記デバイスの前記ユーザに警報を出す前記アクションが、音声警報、デバイス振動、前記デバイスからの光信号、前記デバイスの画面上で表示される情報、および前記デバイスの呼出し音のうちの少なくとも1つを使用して前記デバイスの前記ユーザに警報を出すアクションを含む、項1に記載の方法。
[項12]
システムであって、
1つまたは複数のプロセッサと、
前記プロセッサのうちの少なくとも1つに結合されたメモリと、
前記メモリに記憶されたコンピュータ・プログラム命令のセットであって、
デバイスによって行われた呼において受信される第1の音声セグメントを記録するアクションと、
前記第1の音声セグメントの一部分が第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションとを実行するために前記プロセッサのうちの少なくとも1つによって実行される、コンピュータ・プログラム命令の前記セットと
を備えるシステム。
[項13]
前記アクションが、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、
前記第1の音声セグメントの前記一部分を、通常発話速度と比べて、より速い速度で再生するアクションと、
前記呼において受信される次の音声セグメントを記録するアクションと、
前記第1の音声セグメントの前記一部分を再生する前記アクションの終わりに応答して、前記次の音声セグメントを、通常発話速度と比べて、より速い速度で、前記次の音声セグメントの終わりまで再生するアクションとをさらに含む、項12に記載のシステム。
[項14]
前記アクションが、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記呼の他方の側に第2の事前定義された音声セグメントを送信するアクションをさらに含む、項12に記載のシステム。
[項15]
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
前記第1の音声セグメントの前記一部分を第1のテキストに変換するアクションと、
前記第1の事前定義された音声セグメントを第2のテキストに変換するアクションと、
前記第1のテキストと前記第2のテキストの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項12に記載のシステム。
[項16]
前記第1の事前定義された音声セグメントが、
前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
前記第2の音声セグメントを第3のテキストに変換するアクションと、
前記第3のテキスト内で繰り返されるテキストを識別するアクションと、
繰り返される前記テキストに対応する前記第2の音声セグメントの一部分を前記第1の事前定義された音声セグメントとして獲得するアクションとによって獲得される、項12に記載のシステム。
[項17]
前記第1の事前定義された音声セグメントが、
前記呼の上で受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
前記複数のテキストから繰り返されるテキストを識別するアクションと、
繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションとによって獲得される、項12に記載のシステム。
[項18]
前記デバイスの前記ユーザに警報を出す前記アクションが、音声警報、デバイス振動、前記デバイスからの光信号、前記デバイスの画面上で表示される情報、および前記デバイスの呼出し音のうちの少なくとも1つを使用して前記デバイスの前記ユーザに警報を出すアクションを含む、項12に記載のシステム。
[項19]
コンピュータ・プログラム製品であって、
プロセッサによって、前記プロセッサに、
デバイスによって行われた呼において受信される第1の音声セグメントを記録するアクションと、
前記第1の音声セグメントの一部分が第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションとを行わせるように実行可能であるプログラム命令を記憶しているコンピュータ可読記憶媒体を備えるコンピュータ・プログラム製品。
[項20]
前記プログラム命令が、プロセッサによって、前記プロセッサに、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、
前記第1の音声セグメントの前記一部分を、通常発話速度と比べて、より速い速度で再生するアクションと、
前記呼において受信される次の音声セグメントを記録するアクションと、
前記第1の音声セグメントの前記一部分を再生する前記アクションの終わりに応答して、前記次の音声セグメントを、通常発話速度と比べて、より速い速度で、前記次の音声セグメントの終わりまで再生するアクションとをさらに行わせるように実行可能である、項19に記載のコンピュータ・プログラム製品。
コンピュータによって実施される方法であって、
1つまたは複数のプロセッサにより、デバイスによって行われた呼において受信される第1の音声セグメントを記録するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの一部分が第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションと
を含む方法。
[項2]
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分を、通常発話速度と比べて、より速い速度で再生するアクションと、
1つまたは複数のプロセッサにより、前記呼において受信される次の音声セグメントを記録するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分を再生する前記アクションの終わりに応答して、前記次の音声セグメントを、通常発話速度と比べて、より速い速度で、前記次の音声セグメントの終わりまで再生するアクションと
をさらに含む、項1に記載の方法。
[項3]
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記呼の他方の側に第2の事前定義された音声セグメントを送信するアクションをさらに含む、項1に記載の方法。
[項4]
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分を第1のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントを第2のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第1のテキストと前記第2のテキストの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項1に記載の方法。
[項5]
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のピッチのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントのピッチのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のピッチの前記セットと前記第1の事前定義された音声セグメントのピッチの前記セットの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項1に記載の方法。
[項6]
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のメル周波数ケプストラム係数(MFCC)のセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントのMFCCのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のMFCCの前記セットと前記第1の事前定義された音声セグメントのMFCCの前記セットの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項1に記載の方法。
[項7]
前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを第3のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第3のテキスト内で繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記第2の音声セグメントの一部分を前記第1の事前定義された音声セグメントとして獲得するアクションとによって獲得される、項1に記載の方法。
[項8]
前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記複数のテキストから繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションとによって獲得される、項1に記載の方法。
[項9]
前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼によって受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのピッチの複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記複数のピッチから繰り返されるピッチのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるピッチの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションとによって獲得される、項1に記載の方法。
[項10]
前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼の上で受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのメル周波数ケプストラム係数(MFCC)の複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、MFCCの前記複数のセットから繰り返されるMFCCのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるMFCCの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションとによって獲得される、項1に記載の方法。
[項11]
前記デバイスの前記ユーザに警報を出す前記アクションが、音声警報、デバイス振動、前記デバイスからの光信号、前記デバイスの画面上で表示される情報、および前記デバイスの呼出し音のうちの少なくとも1つを使用して前記デバイスの前記ユーザに警報を出すアクションを含む、項1に記載の方法。
[項12]
システムであって、
1つまたは複数のプロセッサと、
前記プロセッサのうちの少なくとも1つに結合されたメモリと、
前記メモリに記憶されたコンピュータ・プログラム命令のセットであって、
デバイスによって行われた呼において受信される第1の音声セグメントを記録するアクションと、
前記第1の音声セグメントの一部分が第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションとを実行するために前記プロセッサのうちの少なくとも1つによって実行される、コンピュータ・プログラム命令の前記セットと
を備えるシステム。
[項13]
前記アクションが、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、
前記第1の音声セグメントの前記一部分を、通常発話速度と比べて、より速い速度で再生するアクションと、
前記呼において受信される次の音声セグメントを記録するアクションと、
前記第1の音声セグメントの前記一部分を再生する前記アクションの終わりに応答して、前記次の音声セグメントを、通常発話速度と比べて、より速い速度で、前記次の音声セグメントの終わりまで再生するアクションとをさらに含む、項12に記載のシステム。
[項14]
前記アクションが、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記呼の他方の側に第2の事前定義された音声セグメントを送信するアクションをさらに含む、項12に記載のシステム。
[項15]
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
前記第1の音声セグメントの前記一部分を第1のテキストに変換するアクションと、
前記第1の事前定義された音声セグメントを第2のテキストに変換するアクションと、
前記第1のテキストと前記第2のテキストの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションとを含む、項12に記載のシステム。
[項16]
前記第1の事前定義された音声セグメントが、
前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
前記第2の音声セグメントを第3のテキストに変換するアクションと、
前記第3のテキスト内で繰り返されるテキストを識別するアクションと、
繰り返される前記テキストに対応する前記第2の音声セグメントの一部分を前記第1の事前定義された音声セグメントとして獲得するアクションとによって獲得される、項12に記載のシステム。
[項17]
前記第1の事前定義された音声セグメントが、
前記呼の上で受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
前記複数のテキストから繰り返されるテキストを識別するアクションと、
繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションとによって獲得される、項12に記載のシステム。
[項18]
前記デバイスの前記ユーザに警報を出す前記アクションが、音声警報、デバイス振動、前記デバイスからの光信号、前記デバイスの画面上で表示される情報、および前記デバイスの呼出し音のうちの少なくとも1つを使用して前記デバイスの前記ユーザに警報を出すアクションを含む、項12に記載のシステム。
[項19]
コンピュータ・プログラム製品であって、
プロセッサによって、前記プロセッサに、
デバイスによって行われた呼において受信される第1の音声セグメントを記録するアクションと、
前記第1の音声セグメントの一部分が第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションとを行わせるように実行可能であるプログラム命令を記憶しているコンピュータ可読記憶媒体を備えるコンピュータ・プログラム製品。
[項20]
前記プログラム命令が、プロセッサによって、前記プロセッサに、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、
前記第1の音声セグメントの前記一部分を、通常発話速度と比べて、より速い速度で再生するアクションと、
前記呼において受信される次の音声セグメントを記録するアクションと、
前記第1の音声セグメントの前記一部分を再生する前記アクションの終わりに応答して、前記次の音声セグメントを、通常発話速度と比べて、より速い速度で、前記次の音声セグメントの終わりまで再生するアクションとをさらに行わせるように実行可能である、項19に記載のコンピュータ・プログラム製品。
Claims (20)
- コンピュータによって実施される方法であって、
1つまたは複数のプロセッサにより、デバイスによって行われた呼において受信される第1の音声セグメントを記録するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの一部分が第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションと
を含み、
前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、下記の(a)、(b)又は(c)のうちのいずれか1つを含む、
(a)前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分を第1のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントを第2のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第1のテキストと前記第2のテキストの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含み、又は、
(b)前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のピッチのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントのピッチのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のピッチの前記セットと前記第1の事前定義された音声セグメントのピッチの前記セットの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含み、又は、
c)前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のメル周波数ケプストラム係数(MFCC)のセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントのMFCCのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のMFCCの前記セットと前記第1の事前定義された音声セグメントのMFCCの前記セットの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含む、
前記方法。 - 前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分を第1のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントを第2のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第1のテキストと前記第2のテキストの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含む、請求項1に記載の方法。 - 前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のピッチのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントのピッチのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のピッチの前記セットと前記第1の事前定義された音声セグメントのピッチの前記セットの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含む、請求項1に記載の方法。 - 前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定する前記アクションが、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のメル周波数ケプストラム係数(MFCC)のセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の事前定義された音声セグメントのMFCCのセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分のMFCCの前記セットと前記第1の事前定義された音声セグメントのMFCCの前記セットの間の比較に基づいて、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと
を含む、請求項1に記載の方法。 - 前記第1の事前定義された音声セグメントが、下記の(a’)、(b’)、(c’)又は(d’)のうちのいずれかによって獲得される:
(a’)前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを第3のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第3のテキスト内で繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記第2の音声セグメントの一部分を前記第1の事前定義された音声セグメントとして獲得するアクションと
によって獲得される、又は、
(b’)前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記複数のテキストから繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、又は、
(c’)前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼によって受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのピッチの複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記複数のピッチから繰り返されるピッチのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるピッチの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、又は、
(d’)前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼の上で受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのメル周波数ケプストラム係数(MFCC)の複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、MFCCの前記複数のセットから繰り返されるMFCCのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるMFCCの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、
請求項1に記載の方法。 - 前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを第3のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第3のテキスト内で繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記第2の音声セグメントの一部分を前記第1の事前定義された音声セグメントとして獲得するアクションと
によって獲得される、請求項5に記載の方法。 - 前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記複数のテキストから繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項5に記載の方法。 - 前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼によって受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのピッチの複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記複数のピッチから繰り返されるピッチのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるピッチの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項5に記載の方法。 - 前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼の上で受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのメル周波数ケプストラム係数(MFCC)の複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、MFCCの前記複数のセットから繰り返されるMFCCのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるMFCCの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項5に記載の方法。 - 前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、1つまたは複数のプロセッサにより、前記呼の他方の側に第2の事前定義された音声セグメントを送信するアクションをさらに含む、請求項1~9のいずれか1項に記載の方法。
- 前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分を、通常発話速度と比べて、より速い速度で再生するアクションと、
1つまたは複数のプロセッサにより、前記呼において受信される次の音声セグメントを記録するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分を再生する前記アクションの終わりに応答して、前記次の音声セグメントを、通常発話速度と比べて、より速い速度で、前記次の音声セグメントの終わりまで再生するアクションと
をさらに含む、請求項1~9のいずれか1項に記載の方法。 - 前記デバイスの前記ユーザに警報を出す前記アクションが、音声警報、デバイス振動、前記デバイスからの光信号、前記デバイスの画面上で表示される情報、および前記デバイスの呼出し音のうちの少なくとも1つを使用して前記デバイスの前記ユーザに警報を出すアクションを含む、請求項1~10のいずれか1項に記載の方法。
- コンピュータによって実施される方法であって、
1つまたは複数のプロセッサにより、デバイスによって行われた呼において受信される第1の音声セグメントを記録するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの一部分が第1の事前定義された音声セグメントと関係しているかどうかを決定するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していることに応答して、前記デバイスの音量を調整するアクションと、
1つまたは複数のプロセッサにより、前記第1の音声セグメントの前記一部分が前記第1の事前定義された音声セグメントと関係していないことに応答して、前記デバイスのユーザに警報を出すアクションと
を含み、
前記第1の事前定義された音声セグメントが、
前記第1の事前定義された音声セグメントが、下記の(a’)、(b’)、(c’)又は(d’)のうちのいずれかによって獲得される:
(a’)前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを第3のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第3のテキスト内で繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記第2の音声セグメントの一部分を前記第1の事前定義された音声セグメントとして獲得するアクションと
によって獲得される、又は、
(b’)前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記複数のテキストから繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、又は、
(c’)前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼によって受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのピッチの複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記複数のピッチから繰り返されるピッチのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるピッチの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、又は、
(d’)前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼の上で受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのメル周波数ケプストラム係数(MFCC)の複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、MFCCの前記複数のセットから繰り返されるMFCCのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるMFCCの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、
前記方法。 - 前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを第3のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記第3のテキスト内で繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記第2の音声セグメントの一部分を前記第1の事前定義された音声セグメントとして獲得するアクションと
によって獲得される、請求項13に記載の方法。 - 前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼において受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントを複数のテキストに変換するアクションと、
1つまたは複数のプロセッサにより、前記複数のテキストから繰り返されるテキストを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返される前記テキストに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項13に記載の方法。 - 前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼によって受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのピッチの複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、前記複数のピッチから繰り返されるピッチのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるピッチの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項13に記載の方法。 - 前記第1の事前定義された音声セグメントが、
1つまたは複数のプロセッサにより、前記呼の上で受信される第2の音声セグメントを事前定義された時間にわたって記録するアクションと、
1つまたは複数のプロセッサにより、前記第2の音声セグメントを、スライディング・ウインドウを使用して複数の音声サブセグメントに分割するアクションと、
1つまたは複数のプロセッサにより、前記複数の音声サブセグメントのメル周波数ケプストラム係数(MFCC)の複数のセットを決定するアクションと、
1つまたは複数のプロセッサにより、MFCCの前記複数のセットから繰り返されるMFCCのセットを識別するアクションと、
1つまたは複数のプロセッサにより、繰り返されるMFCCの前記セットに対応する前記複数の音声サブセグメントのうちの或る音声サブセグメントを、前記第1の事前定義された音声セグメントとして識別するアクションと
によって獲得される、請求項13に記載の方法。 - コンピュータ・プログラムであって、請求項1~17のいずれか1項に記載の方法の各ステップをコンピュータに実行させるための、コンピュータ・プログラム。
- 請求項18に記載のコンピュータ・プログラムを記録した、コンピュータ可読記憶媒体。
- システムであって、
1つまたは複数のプロセッサと、
前記プロセッサのうちの少なくとも1つに結合されたメモリであって、請求項18に記載のコンピュータ・プログラムを記憶した前記メモリと
を備えているシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/569,806 | 2019-09-13 | ||
US16/569,806 US10897534B1 (en) | 2019-09-13 | 2019-09-13 | Optimization for a call that waits in queue |
PCT/CN2020/092362 WO2021047209A1 (en) | 2019-09-13 | 2020-05-26 | Optimization for a call that waits in queue |
JP2022515140A JP2023507703A (ja) | 2019-09-13 | 2020-05-26 | キュー内で待機する呼に関する最適化 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022515140A Division JP2023507703A (ja) | 2019-09-13 | 2020-05-26 | キュー内で待機する呼に関する最適化 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024073501A true JP2024073501A (ja) | 2024-05-29 |
Family
ID=74180603
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022515140A Pending JP2023507703A (ja) | 2019-09-13 | 2020-05-26 | キュー内で待機する呼に関する最適化 |
JP2024033199A Pending JP2024073501A (ja) | 2019-09-13 | 2024-03-05 | キュー内で待機する呼に関する最適化 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022515140A Pending JP2023507703A (ja) | 2019-09-13 | 2020-05-26 | キュー内で待機する呼に関する最適化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10897534B1 (ja) |
JP (2) | JP2023507703A (ja) |
CN (1) | CN114365217A (ja) |
DE (1) | DE112020004317T5 (ja) |
GB (1) | GB2600847B (ja) |
WO (1) | WO2021047209A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11610591B2 (en) * | 2021-05-19 | 2023-03-21 | Capital One Services, Llc | Machine learning for improving quality of voice biometrics |
EP4221169A1 (en) * | 2022-01-31 | 2023-08-02 | Koa Health B.V. Sucursal en España | System and method for monitoring communication quality |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4301896B2 (ja) | 2003-08-22 | 2009-07-22 | シャープ株式会社 | 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器 |
US8774387B2 (en) | 2007-06-20 | 2014-07-08 | At&T Intellectual Property Ii, Lp | System and method for avoiding hold times on a telephone call |
US8619965B1 (en) * | 2010-05-07 | 2013-12-31 | Abraham & Son | On-hold processing for telephonic systems |
CN102917142B (zh) * | 2011-08-01 | 2015-11-25 | 上海贝尔股份有限公司 | 遇忙建立呼叫的方法和装置 |
CN102625005A (zh) | 2012-03-05 | 2012-08-01 | 广东天波信息技术股份有限公司 | 具有服务质量实时监督功能的呼叫中心系统及其实现方法 |
US8681950B2 (en) * | 2012-03-28 | 2014-03-25 | Interactive Intelligence, Inc. | System and method for fingerprinting datasets |
CN103701999B (zh) | 2012-09-27 | 2017-03-01 | 中国电信股份有限公司 | 呼叫中心语音通话的监控方法与系统 |
US8977555B2 (en) * | 2012-12-20 | 2015-03-10 | Amazon Technologies, Inc. | Identification of utterance subjects |
US20170006161A9 (en) | 2013-03-15 | 2017-01-05 | Genesys Telecommunications Laboratories, Inc. | Intelligent automated agent for a contact center |
JP2015055790A (ja) * | 2013-09-12 | 2015-03-23 | 株式会社東芝 | 音声応答システム、音声処理装置、音声応答装置、音声応答方法、及び音声処理プログラム |
US20150341763A1 (en) * | 2014-05-22 | 2015-11-26 | Lenovo (Singapore) Pte. Ltd. | On hold detection |
US9571639B2 (en) | 2014-12-29 | 2017-02-14 | Ebay Inc. | Call holding management |
CN105261362B (zh) | 2015-09-07 | 2019-07-05 | 科大讯飞股份有限公司 | 一种通话语音监测方法及系统 |
CN107871501A (zh) | 2016-09-27 | 2018-04-03 | Fmr有限责任公司 | 使用智能语音识别的自动化软件执行方法 |
US10148815B2 (en) | 2017-01-27 | 2018-12-04 | International Business Machines Corporation | Managing telephone interactions of a user and an agent |
-
2019
- 2019-09-13 US US16/569,806 patent/US10897534B1/en active Active
-
2020
- 2020-05-26 GB GB2201196.9A patent/GB2600847B/en active Active
- 2020-05-26 CN CN202080062134.XA patent/CN114365217A/zh active Pending
- 2020-05-26 WO PCT/CN2020/092362 patent/WO2021047209A1/en active Application Filing
- 2020-05-26 JP JP2022515140A patent/JP2023507703A/ja active Pending
- 2020-05-26 DE DE112020004317.7T patent/DE112020004317T5/de active Pending
-
2024
- 2024-03-05 JP JP2024033199A patent/JP2024073501A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
GB2600847B (en) | 2022-12-07 |
US10897534B1 (en) | 2021-01-19 |
GB202201196D0 (en) | 2022-03-16 |
WO2021047209A1 (en) | 2021-03-18 |
CN114365217A (zh) | 2022-04-15 |
DE112020004317T5 (de) | 2022-06-09 |
JP2023507703A (ja) | 2023-02-27 |
GB2600847A (en) | 2022-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021505032A (ja) | オーディオ・ストリームに含まれるセンシティブ・データの自動ブロッキング | |
US20160034558A1 (en) | Generating a clustering model and clustering based on the clustering model | |
JP2024073501A (ja) | キュー内で待機する呼に関する最適化 | |
US10395658B2 (en) | Pre-processing partial inputs for accelerating automatic dialog response | |
US11562747B2 (en) | Speech-to-text transcription with multiple languages | |
US20180042546A1 (en) | Daily cognitive monitoring of early signs of hearing loss | |
WO2022048595A1 (en) | Speech-to-text auto-scaling for live use cases | |
JP2022075545A (ja) | 音声および顔バイオメトリクスを用いてテキスト・メッセージを適切な時点で送付する方法、コンピュータ・プログラム、およびコンピュータ・システム | |
US9916127B1 (en) | Audio input replay enhancement with closed captioning display | |
US11157406B2 (en) | Methods for providing data values using asynchronous operations and querying a plurality of servers | |
WO2023216857A1 (en) | Multi-agent chatbot with multi-intent recognition | |
US20230085012A1 (en) | Ai based system and method for corners of trust for a caller | |
US20220189475A1 (en) | Dynamic virtual assistant speech modulation | |
US11677832B2 (en) | Voice activated device enabling | |
US20220222034A1 (en) | Dynamically managing sounds in a chatbot environment | |
CN114144773B (zh) | 基于人-机认知交互中的行为调整对话流 | |
US20180122404A1 (en) | Determining a behavior of a user utilizing audio data | |
WO2018203185A1 (en) | Asynchronous data store operations | |
US11997021B1 (en) | Automated provisioning techniques for distributed applications with independent resource management at constituent services | |
US11847054B2 (en) | Providing data values using asynchronous operations and based on timing of occurrence of requests for the data values | |
US11640276B2 (en) | Mask device for a listening device | |
US20230419047A1 (en) | Dynamic meeting attendee introduction generation and presentation | |
US20230342397A1 (en) | Techniques for predicting a personalized url document to assist a conversation | |
US11410082B2 (en) | Data loss machine learning model update | |
US11914650B2 (en) | Data amalgamation management between multiple digital personal assistants |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240305 |
|
RD16 | Notification of change of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7436 Effective date: 20240322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240322 |