JP2014178380A

JP2014178380A - 音声認識装置、音声認識プログラム及び音声認識方法

Info

Publication number: JP2014178380A
Application number: JP2013051030A
Authority: JP
Inventors: Atsushi Koinuma; 敦鯉沼
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-03-13
Filing date: 2013-03-13
Publication date: 2014-09-25

Abstract

【課題】複数の通話音声を効率良く音声認識する。
【解決手段】実施の形態の音声認識装置は、通話音声取得部、優先度判定部及び音声認識制御部を備えている。通話音声取得部は、複数の通話音声を取得する。優先度判定部は、取得された各通話音声の優先度を判定する。音声認識制御部は、判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御する。
【選択図】図２

Description

本発明の実施形態は、音声認識装置、音声認識プログラム及び音声認識方法に関する。

顧客からの注文の受付けや製品の問合せなどを電話応対するコールセンタにおいて、顧客の声の活用やオペレータの負荷軽減のために音声認識処理が利用されている。大規模なコールセンタは、多数の回線を有しており、これらの回線から得られた多数の通話音声を例えば同時に音声認識することが可能である。

音声認識処理は、顧客とオペレータとの間での通話音声をリアルタイムに音声認識してテキスト化する場合や、通話録音装置に一旦録音された通話音声を後で音声認識してテキスト化する場合など、様々なかたちで利用されている。

特開２００７−１０８４０７号公報

しかしながら、録音された通話音声の音声認識中に、例えば自動音声応答装置と顧客との間での通話音声をリアルタイムに音声認識させる処理が新たに要求された場合、タイミングの重なったこれらの音声認識処理が互いに大きく遅延してしまうことなどが懸念される。

そこで、本発明が解決しようとする課題は、複数の通話音声を効率良く音声認識することができる音声認識装置、音声認識プログラム及び音声認識方法を提供することである。

実施の形態の音声認識装置は、通話音声取得部、優先度判定部及び音声認識制御部を備えている。通話音声取得部は、複数の通話音声を取得する。優先度判定部は、取得された各通話音声の優先度を判定する。音声認識制御部は、判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御する。

実施の形態に係る電話応対システムを示す構成図。図１の電話応対システムが備えた音声認識装置を示す機能ブロック図。図２の音声認識装置による音声認識の一例を示す図。図２の音声認識装置による音声認識の他の例を示す図。図２の音声認識装置による音声認識方法を示すフローチャート。

以下、実施の形態を図面に基づき説明する。
図１に示すように、実施の形態に係る電話応対システム１０は、公衆網１１、構内交換機１２、操作端末１６、スイッチングハブやＬ（layer）３スイッチなどのＮＷ（network）スイッチ１５、通話録音装置７、通話録音ＤＢ（通話録音データベース）８、オペレータ用電話機５ａ、５ｂ（及び５ｃ）…、オペレータ用ＰＣ６ａ、６ｂ（及び６ｃ）…、ＣＴＩ（Computer Telephony Integration）装置１７、音声認識装置２０、音声認識結果ＤＢ（音声認識結果データベース）１９、自動音声応答装置（ＩＶＲ：Interactive Voice Response）１８を備えている。

公衆網１１は、例えばＰＳＴＮ（Public Switched Telephone Networks）などである。構内交換機１２は、例えばＩＰ（Internet Protocol）−ＰＢＸ（Private Branch eXchange）である。構内交換機１２は、コールセンタにおいて、公衆網１１を介した顧客（ユーザ）からの呼の着信制御、及び発信制御を行う。この構内交換機１２と、通話録音装置７、オペレータ用電話機５ａ、５ｂ、ＣＴＩ装置１７、音声認識装置２０、自動音声応答装置１８などとは、ＬＡＮなどのネットワーク１４及び上記したＮＷスイッチ１５を介して互いに接続されている。

オペレータ用電話機５ａ、５ｂは、顧客（ユーザ）からの電話をオペレータが受けて電話応対業務を行うための電話機である。オペレータ用ＰＣ６ａ、６ｂは、ＮＷスイッチ１５を介して通知される顧客の情報やオペレータがキーボードから入力した情報を画面に表示させつつ、オペレータが電話応対業務を行うための情報端末である。

自動音声応答装置１８は、構内交換機１２側から着信した呼に対応する音声ガイダンスを流し、オペレータなどによる人為的な応対を介在させずにユーザの要望に自動応答する装置である。詳述すると、自動音声応答装置１８には、予め設定された応答メッセージと、電話機のボタンの番号（トーン）に対応した業務種別の識別情報である業務指定番号（業務ＩＤ）と、が紐付けされている。また、自動音声応答装置１８には、この業務指定番号の業務にて電話応対するオペレータの識別情報であるオペレータ番号（オペレータＩＤ）や、オペレータ用電話機５ａ、５ｂの識別情報などが設定されている。さらに、自動音声応答装置１８は、顧客が行った電話機のボタン操作（トーン発信操作）で業務指定番号を特定し、顧客の着呼を、現在空いているオペレータ用電話機５ａ、５ｂへ接続する。

ＣＴＩ装置１７は、構内交換機１２を通じてオペレータが電話応対したときの情報（顧客の電話機の発信者番号、業務指定番号など）を構内交換機１２側から受け取り、呼情報（オペレータ番号と業務指定番号との対）を生成して記憶保持する。つまり、ＣＴＩ装置１７は、顧客に電話応対したオペレータ番号とオペレータが担当する業務種別の業務指定番号とを対応付けた呼情報を生成する。

通話録音装置７は、構内交換機１２に着信された通話音声を、ＮＷスイッチ１５のミラーポートを使用して、コピー（ミラーリング）することによって、顧客（ユーザ）とオペレータとの通話の内容（通話音声）を録音する装置である。具体的には、通話録音装置７は、顧客とオペレータとの通話音声（会話の内容）をそれぞれ別の音声ファイルとして着呼ＩＤなどで関連付けして通話録音ＤＢ８に記憶させる（録音する）。また、オペレータ用ＰＣ６ａ、６ｂからの操作によって、通話録音装置７は、通話録音ＤＢ８に録音された通話音声を、日時などをキーにして検索することが可能である。なお、通話録音ＤＢ８は、通話録音装置７に外部接続されるものであってもよいし、通話録音装置７本体に設けられていてもよい。

操作端末１６は、スーパーバイザーなどの電話応対システム１０の管理者が操作する端末である。操作端末１６は、構内交換機１２、通話録音装置７、音声認識装置２０、自動音声応答装置１８などへアクセスして、各種設定を実施する装置である。操作端末１６は、通話録音装置７が録音した通話音声を音声認識装置２０に音声認識させて得たテキストデータをモニタに表示させ、電話応対の過程でオペレータから発話された不適切なワードや、顧客のニーズの把握に必要なワードを、例えばキーワード検索する。

音声認識装置２０は、音声の特徴量（特徴ベクトルなど）とテキストデータとを互いに対応付けて記憶した音声認識用のデータベース（音声認識辞書）を参照しつつ、ＮＷスイッチ１５を介して取得した通話音声を、音声認識してテキストデータに変換する。さらに、音声認識装置２０は、変換したこのテキストデータを、取得した通話音声の電話応対時の顧客の発信者番号、業務指定番号、オペレータ番号などと、紐付けして音声認識結果ＤＢ１９に記憶させる。なお、音声認識結果ＤＢ１９は、音声認識装置２０に外部接続されるものであってもよいし、音声認識装置２０本体に設けられていてもよい。

ここで、音声認識装置２０の構成を図２に基づき詳述する。図２に示すように、音声認識装置２０は、音声認識処理部として機能する音声認識エンジン２３、データを送受信する際のインタフェースである送受信制御部２４、通話音声取得部２１、音声認識管理部２２を備えている。

ここで、音声認識装置２０は、ＲＡＭなどのメインメモリ、ＨＤＤなどの補助（二次）記憶装置、ＣＰＵ、ＲＯＭといった各種のハードウェアを搭載している。音声認識装置２０は、外部記憶装置やＲＯＭなどに予め格納された音声認識プログラムをメインメモリ上にロードすることによって、上記した音声認識エンジン２３、送受信制御部２４、通話音声取得部２１、音声認識管理部２２を例えばソフトウェアによって実現する。なお、これらの構成要素は、ソフトウェアに代えてハードウェアで構成されていてもよい。

図２に示すように、通話音声取得部２１は、ＮＷスイッチ１５を介して複数の通話音声、つまり電話応対時の通話の内容に対応した音声データを取得する。具体的には、通話音声取得部２１は、構内交換機１２でリアルタイムに受け付けた通話音声、通話録音装置７が通話録音ＤＢ８に録音させた通話音声、及び、構内交換機１２を介して自動音声応答装置１８にリアルタイムに着信された通話音声、を送受信制御部２４を通じてそれぞれ取得する。通話音声取得部２１は、図２に示すように、取得した通話音声を、記憶バッファである一次出力ＤＢ（一次出力データベース）３１に格納する。

また、通話音声取得部２１は、図２に示すように、取得タイミング設定部３４を備えている。取得タイミング設定部３４は、複数の通話音声をそれぞれ取得するタイミングを設定する機能を有している。取得タイミング設定部３４は、現在の時刻が、予め設定された例えば録音通話音声取得時間範囲内に該当している場合、通話録音ＤＢ８に録音させた通話音声を取得する。

音声認識管理部２２は、優先度判定部３３及び音声認識制御部３２を有しており、一次出力ＤＢ３１に一次記憶された通話音声を取り込む。優先度判定部３３は、通話音声取得部２１によって取得されて、上記の一次出力ＤＢ３１に一次記憶されていた各通話音声の優先度を判定する。また、優先度判定部３３は、判定条件設定部３５を備えている。判定条件設定部３５は、スーパーバイザーなどによる操作端末１６からの入力操作に応じて、優先度の判定条件を切替可能に設定する。

詳述すると、判定条件設定部３５は、例えば、顧客の発信者番号（発信元の電話番号）、業務指定番号、オペレータ番号、オペレータが発話した不適切なワードなどのうちの少なくとも一つの判定項目と、優先度の判定対象の通話音声と、が対応関係を有しているか否かといったことを優先度の判定条件として設定する。判定条件設定部３５は、例えば、上記四つの判定項目全てと対応関係を有している通話音声を、優先度が閾値よりも高い通話音声として判定する判定条件などを設定可能である。また、これに代えて、判定条件設定部３５は、例えば、不適切なワード（若しくは発信者番号）と対応関係を有している通話音声を、優先度が閾値よりも高い通話音声として判定する判定条件などを設定可能である。

さらに、これに代えて、判定条件設定部３５は、不適切なワード（若しくは発信者番号）と対応関係を有している通話音声を、その他の三つの判定項目と対応関係を有している通話音声よりも、相対的に優先度の高い通話音声として判定する判定条件などを設定可能である。つまり、優先度判定部３３は、判定条件設定部３５によって、このように設定された判定条件に応じて、通話音声の優先度を判定する。なお、上記した不適切なワードは、顧客とオペレータとの電話応対時において、例えばこの不適切なワードを確認したスーパーバイザーによる操作端末１６からの入力操作によって、音声認識装置２０側に通知され、この電話応対時の通話音声と紐付けされる。

一方、音声認識制御部３２は、優先度判定部３３によって判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御する。具体的には、音声認識制御部３２は、優先度が閾値よりも高いと判定された通話音声を音声認識エンジン２３に受け渡して音声認識させる。さらに、音声認識制御部３２は、判定された優先度に基づいて、取得された複数の通話音声のうちの一つ以上の通話音声を録音させる。例えば、音声認識制御部３２は、優先度が閾値よりも低いと判定された通話音声を通話録音装置７に受け渡して通話録音ＤＢ８に録音させる。また、音声認識制御部３２は、取得された複数の通話音声のうちで、他の通話音声よりも相対的に優先度が高いと判定されたものから順に、音声認識エンジン２３に受け渡して音声認識を実行させる。

音声認識エンジン２３は、例えば、図３に例示するように、構内交換機１２でリアルタイムに受け付けた通話音声及び通話録音ＤＢ８に録音させた通話音声を、音声認識制御部３２によって制御されるタイミング（音声認識制御部から受け渡されたタイミング）でそれぞれ音声認識する。この際、音声認識エンジン２３は、音声認識により通話音声から変換されたテキストデータと、電話応対時の発信者番号、業務指定番号、応対したオペレータ番号、応対日時などと、を互いに対応付けて音声認識結果ＤＢ１９に記憶（例えばデータ１、２、３…などを記憶）させる。

図３の例では、業務指定番号Ａ〜Ｃのうち、業務指定番号Ａ対応する業務Ａが顧客によって選択さえた場合を示している。より詳細には、音声認識管理部２２を有する音声認識装置２０は、ＮＷスイッチ１５のミラーリングによって得られた通話音声と共に発信者番号などの優先度判定データを構内交換機１２側から取得することによって、優先度を判定したうえで音声認識を所望のタイミングで実行させることができる。

一方、図４に例示するように、音声認識エンジン２３は、構内交換機１２を介して自動音声応答装置１８にリアルタイムに着信された通話音声及び通話録音ＤＢ８に録音させた通話音声を、音声認識制御部３２によって制御されるタイミング（音声認識制御部３２から受け渡されたタイミング）でそれぞれ音声認識する。具体的には、音声認識管理部２２を有する音声認識装置２０は、優先度が閾値よりも低いと判定されたリアルタイムの通話音声を、ＮＷスイッチ１５のミラーリングの機能を利用して、通話録音装置７が通話録音ＤＢ８に録音させる。

この際、通話録音装置７は、構内交換機１２側から取得した電話応対時の発信者番号などの優先度判定データを、上記の通話音声に対応付けて通話録音ＤＢ８に記憶させる。このようにして通話録音ＤＢ８に格納された通話音声は、例えば夜間などの都合のよい時間帯に、バッチ処理などで音声認識の処理を実行させることが可能となる。さらに、図４の例は、オペレータが不在となる夜間の時間帯などにおいて、自動音声応答装置１８に着信された通話音声を、音声認識装置２０に転送して音声認識する処理の流れを示している。このように、自動音声応答装置１８による自動応答時の音声認識についても、音声認識装置２０を連携させて有効に活用することができ、例えば、夜間などの時間帯を利用して音声認識結果を集計することなどが可能となる。

次に、このように構成された音声認識装置２０により実現される音声認識方法を、図５に示すフローチャートに基づき説明する。音声認識装置２０は、図５に示すように、まず、構内交換機１２側からの着信の有無を検出する（Ｓ［ステップ］１）。着信がない場合、音声認識装置２０は、現在の時刻が、予め設定された例えば録音通話音声取得時間範囲内に該当しているか否かを判定する（Ｓ２）。現在の時刻が、録音通話音声取得時間範囲内に該当している場合（Ｓ２のＹＥＳ）、及び構内交換機１２側からの着信が検出された場合（Ｓ１のＹＥＳ）、音声認識装置２０の通話音声取得部２１は、リアルタイムの通話音声又は通話録音ＤＢ８に記憶させていた通話音声を取得し（Ｓ３）、取得したこの通話音声と共に発信者番号などの優先度判定データを一次出力ＤＢ３１に一次記憶させる（Ｓ４）。

音声認識管理部２２は、一次出力ＤＢ３１から優先度判定データと共に通話音声を取得し（Ｓ５）、優先度判定部３３は、予め設定された優先度の判定条件と取得された優先度判定データとに基づいて、通話音声の優先度を判定する（Ｓ６）。音声認識制御部３２は、判定された通話音声の優先度が閾値よりも高い場合（Ｓ７のＹＥＳ）、この通話音声を音声認識エンジン２３に受け渡して音声認識させる（Ｓ８）。一方、音声認識制御部３２は、判定された通話音声の優先度が閾値よりも低い場合（Ｓ７のＮＯ）、この通話音声を優先度判定データと共に通話記録装置７に受け渡してこれらを通話録音ＤＢ８に記憶させる（Ｓ９）。

既述したように、本実施形態の音声認識装置２０によれば、取得した複数の通話音声の優先度を判定し、判定されたその優先度に基づいて、通話音声それぞれを音声認識させるタイミングを制御するので、取得した複数の通話音声を効率良く音声認識することができる。また、本実施形態の音声認識装置２０によれば、一般の業務が終了した夜間などのシステムの負荷が低い時間帯に、通話録音ＤＢ８に記憶させておいた通話音声を取得し、取得したこの通話音声を効率的に音声認識することが可能となる。

以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施することが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形例は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

７…通話録音装置、８…通話録音ＤＢ、１０…電話応対システム、１２…構内交換機、１５…ＮＷスイッチ、１８…自動音声応答装置、１９…音声認識結果ＤＢ、２０…音声認識装置、２１…通話音声取得部、２２…音声認識管理部、２３…音声認識エンジン、３２…音声認識制御部、３３…優先度判定部、３４…取得タイミング設定部、３５…判定条件設定部。

Claims

複数の通話音声を取得する通話音声取得部と、
前記取得された各通話音声の優先度を判定する優先度判定部と、
前記判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御する音声認識制御部と、
を備える音声認識装置。
前記通話音声取得部は、前記複数の通話音声をそれぞれ取得するタイミングを設定する取得タイミング設定部を備える、
請求項１記載の音声認識装置。
前記優先度判定部は、前記優先度の判定条件を切替可能に設定する判定条件設定部を備える、
請求項１又は２記載の音声認識装置。
前記音声認識制御部は、前記判定された優先度に基づいて、前記取得された複数の通話音声のうちの一つ以上の通話音声を録音させる、
請求項１ないし３のいずれか１項に記載の音声認識装置。
前記通話音声取得部は、構内交換機でリアルタイムに受け付けた通話音声及び前記録音させた通話音声を取得し、
前記リアルタイムに受け付けた通話音声及び前記録音させた通話音声を、前記音声認識制御部によって制御されるタイミングでそれぞれ音声認識する音声認識処理部をさらに備える、
請求項４記載の音声認識装置。
前記通話音声取得部は、構内交換機を介して自動音声応答装置にリアルタイムに着信された通話音声及び前記録音させた通話音声を取得し、
前記リアルタイムに着信された通話音声及び前記録音させた通話音声を、前記音声認識制御部によって制御されるタイミングでそれぞれ音声認識する音声認識処理部をさらに備える、
請求項４記載の音声認識装置。
複数の通話音声を取得する通話音声取得部と、
前記取得された各通話音声の優先度を判定する優先度判定部と、
前記判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御する音声認識制御部、
としてコンピュータを機能させる音声認識プログラム。
複数の通話音声を取得するステップと、
前記取得された各通話音声の優先度を判定するステップと、
前記判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御するステップと、
を有する音声認識方法。