JP2014178380A - 音声認識装置、音声認識プログラム及び音声認識方法 - Google Patents

音声認識装置、音声認識プログラム及び音声認識方法 Download PDF

Info

Publication number
JP2014178380A
JP2014178380A JP2013051030A JP2013051030A JP2014178380A JP 2014178380 A JP2014178380 A JP 2014178380A JP 2013051030 A JP2013051030 A JP 2013051030A JP 2013051030 A JP2013051030 A JP 2013051030A JP 2014178380 A JP2014178380 A JP 2014178380A
Authority
JP
Japan
Prior art keywords
call
voice
voice recognition
priority
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013051030A
Other languages
English (en)
Inventor
Atsushi Koinuma
敦 鯉沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013051030A priority Critical patent/JP2014178380A/ja
Publication of JP2014178380A publication Critical patent/JP2014178380A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Sub-Exchange Stations And Push- Button Telephones (AREA)

Abstract

【課題】複数の通話音声を効率良く音声認識する。
【解決手段】実施の形態の音声認識装置は、通話音声取得部、優先度判定部及び音声認識制御部を備えている。通話音声取得部は、複数の通話音声を取得する。優先度判定部は、取得された各通話音声の優先度を判定する。音声認識制御部は、判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御する。
【選択図】図2

Description

本発明の実施形態は、音声認識装置、音声認識プログラム及び音声認識方法に関する。
顧客からの注文の受付けや製品の問合せなどを電話応対するコールセンタにおいて、顧客の声の活用やオペレータの負荷軽減のために音声認識処理が利用されている。大規模なコールセンタは、多数の回線を有しており、これらの回線から得られた多数の通話音声を例えば同時に音声認識することが可能である。
音声認識処理は、顧客とオペレータとの間での通話音声をリアルタイムに音声認識してテキスト化する場合や、通話録音装置に一旦録音された通話音声を後で音声認識してテキスト化する場合など、様々なかたちで利用されている。
特開2007−108407号公報
しかしながら、録音された通話音声の音声認識中に、例えば自動音声応答装置と顧客との間での通話音声をリアルタイムに音声認識させる処理が新たに要求された場合、タイミングの重なったこれらの音声認識処理が互いに大きく遅延してしまうことなどが懸念される。
そこで、本発明が解決しようとする課題は、複数の通話音声を効率良く音声認識することができる音声認識装置、音声認識プログラム及び音声認識方法を提供することである。
実施の形態の音声認識装置は、通話音声取得部、優先度判定部及び音声認識制御部を備えている。通話音声取得部は、複数の通話音声を取得する。優先度判定部は、取得された各通話音声の優先度を判定する。音声認識制御部は、判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御する。
実施の形態に係る電話応対システムを示す構成図。 図1の電話応対システムが備えた音声認識装置を示す機能ブロック図。 図2の音声認識装置による音声認識の一例を示す図。 図2の音声認識装置による音声認識の他の例を示す図。 図2の音声認識装置による音声認識方法を示すフローチャート。
以下、実施の形態を図面に基づき説明する。
図1に示すように、実施の形態に係る電話応対システム10は、公衆網11、構内交換機12、操作端末16、スイッチングハブやL(layer)3スイッチなどのNW(network)スイッチ15、通話録音装置7、通話録音DB(通話録音データベース)8、オペレータ用電話機5a、5b(及び5c)…、オペレータ用PC6a、6b(及び6c)…、CTI(Computer Telephony Integration)装置17、音声認識装置20、音声認識結果DB(音声認識結果データベース)19、自動音声応答装置(IVR:Interactive Voice Response)18を備えている。
公衆網11は、例えばPSTN(Public Switched Telephone Networks)などである。構内交換機12は、例えばIP(Internet Protocol)−PBX(Private Branch eXchange)である。構内交換機12は、コールセンタにおいて、公衆網11を介した顧客(ユーザ)からの呼の着信制御、及び発信制御を行う。この構内交換機12と、通話録音装置7、オペレータ用電話機5a、5b、CTI装置17、音声認識装置20、自動音声応答装置18などとは、LANなどのネットワーク14及び上記したNWスイッチ15を介して互いに接続されている。
オペレータ用電話機5a、5bは、顧客(ユーザ)からの電話をオペレータが受けて電話応対業務を行うための電話機である。オペレータ用PC6a、6bは、NWスイッチ15を介して通知される顧客の情報やオペレータがキーボードから入力した情報を画面に表示させつつ、オペレータが電話応対業務を行うための情報端末である。
自動音声応答装置18は、構内交換機12側から着信した呼に対応する音声ガイダンスを流し、オペレータなどによる人為的な応対を介在させずにユーザの要望に自動応答する装置である。詳述すると、自動音声応答装置18には、予め設定された応答メッセージと、電話機のボタンの番号(トーン)に対応した業務種別の識別情報である業務指定番号(業務ID)と、が紐付けされている。また、自動音声応答装置18には、この業務指定番号の業務にて電話応対するオペレータの識別情報であるオペレータ番号(オペレータID)や、オペレータ用電話機5a、5bの識別情報などが設定されている。さらに、自動音声応答装置18は、顧客が行った電話機のボタン操作(トーン発信操作)で業務指定番号を特定し、顧客の着呼を、現在空いているオペレータ用電話機5a、5bへ接続する。
CTI装置17は、構内交換機12を通じてオペレータが電話応対したときの情報(顧客の電話機の発信者番号、業務指定番号など)を構内交換機12側から受け取り、呼情報(オペレータ番号と業務指定番号との対)を生成して記憶保持する。つまり、CTI装置17は、顧客に電話応対したオペレータ番号とオペレータが担当する業務種別の業務指定番号とを対応付けた呼情報を生成する。
通話録音装置7は、構内交換機12に着信された通話音声を、NWスイッチ15のミラーポートを使用して、コピー(ミラーリング)することによって、顧客(ユーザ)とオペレータとの通話の内容(通話音声)を録音する装置である。具体的には、通話録音装置7は、顧客とオペレータとの通話音声(会話の内容)をそれぞれ別の音声ファイルとして着呼IDなどで関連付けして通話録音DB8に記憶させる(録音する)。また、オペレータ用PC6a、6bからの操作によって、通話録音装置7は、通話録音DB8に録音された通話音声を、日時などをキーにして検索することが可能である。なお、通話録音DB8は、通話録音装置7に外部接続されるものであってもよいし、通話録音装置7本体に設けられていてもよい。
操作端末16は、スーパーバイザーなどの電話応対システム10の管理者が操作する端末である。操作端末16は、構内交換機12、通話録音装置7、音声認識装置20、自動音声応答装置18などへアクセスして、各種設定を実施する装置である。操作端末16は、通話録音装置7が録音した通話音声を音声認識装置20に音声認識させて得たテキストデータをモニタに表示させ、電話応対の過程でオペレータから発話された不適切なワードや、顧客のニーズの把握に必要なワードを、例えばキーワード検索する。
音声認識装置20は、音声の特徴量(特徴ベクトルなど)とテキストデータとを互いに対応付けて記憶した音声認識用のデータベース(音声認識辞書)を参照しつつ、NWスイッチ15を介して取得した通話音声を、音声認識してテキストデータに変換する。さらに、音声認識装置20は、変換したこのテキストデータを、取得した通話音声の電話応対時の顧客の発信者番号、業務指定番号、オペレータ番号などと、紐付けして音声認識結果DB19に記憶させる。なお、音声認識結果DB19は、音声認識装置20に外部接続されるものであってもよいし、音声認識装置20本体に設けられていてもよい。
ここで、音声認識装置20の構成を図2に基づき詳述する。図2に示すように、音声認識装置20は、音声認識処理部として機能する音声認識エンジン23、データを送受信する際のインタフェースである送受信制御部24、通話音声取得部21、音声認識管理部22を備えている。
ここで、音声認識装置20は、RAMなどのメインメモリ、HDDなどの補助(二次)記憶装置、CPU、ROMといった各種のハードウェアを搭載している。音声認識装置20は、外部記憶装置やROMなどに予め格納された音声認識プログラムをメインメモリ上にロードすることによって、上記した音声認識エンジン23、送受信制御部24、通話音声取得部21、音声認識管理部22を例えばソフトウェアによって実現する。なお、これらの構成要素は、ソフトウェアに代えてハードウェアで構成されていてもよい。
図2に示すように、通話音声取得部21は、NWスイッチ15を介して複数の通話音声、つまり電話応対時の通話の内容に対応した音声データを取得する。具体的には、通話音声取得部21は、構内交換機12でリアルタイムに受け付けた通話音声、通話録音装置7が通話録音DB8に録音させた通話音声、及び、構内交換機12を介して自動音声応答装置18にリアルタイムに着信された通話音声、を送受信制御部24を通じてそれぞれ取得する。通話音声取得部21は、図2に示すように、取得した通話音声を、記憶バッファである一次出力DB(一次出力データベース)31に格納する。
また、通話音声取得部21は、図2に示すように、取得タイミング設定部34を備えている。取得タイミング設定部34は、複数の通話音声をそれぞれ取得するタイミングを設定する機能を有している。取得タイミング設定部34は、現在の時刻が、予め設定された例えば録音通話音声取得時間範囲内に該当している場合、通話録音DB8に録音させた通話音声を取得する。
音声認識管理部22は、優先度判定部33及び音声認識制御部32を有しており、一次出力DB31に一次記憶された通話音声を取り込む。優先度判定部33は、通話音声取得部21によって取得されて、上記の一次出力DB31に一次記憶されていた各通話音声の優先度を判定する。また、優先度判定部33は、判定条件設定部35を備えている。判定条件設定部35は、スーパーバイザーなどによる操作端末16からの入力操作に応じて、優先度の判定条件を切替可能に設定する。
詳述すると、判定条件設定部35は、例えば、顧客の発信者番号(発信元の電話番号)、業務指定番号、オペレータ番号、オペレータが発話した不適切なワードなどのうちの少なくとも一つの判定項目と、優先度の判定対象の通話音声と、が対応関係を有しているか否かといったことを優先度の判定条件として設定する。判定条件設定部35は、例えば、上記四つの判定項目全てと対応関係を有している通話音声を、優先度が閾値よりも高い通話音声として判定する判定条件などを設定可能である。また、これに代えて、判定条件設定部35は、例えば、不適切なワード(若しくは発信者番号)と対応関係を有している通話音声を、優先度が閾値よりも高い通話音声として判定する判定条件などを設定可能である。
さらに、これに代えて、判定条件設定部35は、不適切なワード(若しくは発信者番号)と対応関係を有している通話音声を、その他の三つの判定項目と対応関係を有している通話音声よりも、相対的に優先度の高い通話音声として判定する判定条件などを設定可能である。つまり、優先度判定部33は、判定条件設定部35によって、このように設定された判定条件に応じて、通話音声の優先度を判定する。なお、上記した不適切なワードは、顧客とオペレータとの電話応対時において、例えばこの不適切なワードを確認したスーパーバイザーによる操作端末16からの入力操作によって、音声認識装置20側に通知され、この電話応対時の通話音声と紐付けされる。
一方、音声認識制御部32は、優先度判定部33によって判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御する。具体的には、音声認識制御部32は、優先度が閾値よりも高いと判定された通話音声を音声認識エンジン23に受け渡して音声認識させる。さらに、音声認識制御部32は、判定された優先度に基づいて、取得された複数の通話音声のうちの一つ以上の通話音声を録音させる。例えば、音声認識制御部32は、優先度が閾値よりも低いと判定された通話音声を通話録音装置7に受け渡して通話録音DB8に録音させる。また、音声認識制御部32は、取得された複数の通話音声のうちで、他の通話音声よりも相対的に優先度が高いと判定されたものから順に、音声認識エンジン23に受け渡して音声認識を実行させる。
音声認識エンジン23は、例えば、図3に例示するように、構内交換機12でリアルタイムに受け付けた通話音声及び通話録音DB8に録音させた通話音声を、音声認識制御部32によって制御されるタイミング(音声認識制御部から受け渡されたタイミング)でそれぞれ音声認識する。この際、音声認識エンジン23は、音声認識により通話音声から変換されたテキストデータと、電話応対時の発信者番号、業務指定番号、応対したオペレータ番号、応対日時などと、を互いに対応付けて音声認識結果DB19に記憶(例えばデータ1、2、3…などを記憶)させる。
図3の例では、業務指定番号A〜Cのうち、業務指定番号A対応する業務Aが顧客によって選択さえた場合を示している。より詳細には、音声認識管理部22を有する音声認識装置20は、NWスイッチ15のミラーリングによって得られた通話音声と共に発信者番号などの優先度判定データを構内交換機12側から取得することによって、優先度を判定したうえで音声認識を所望のタイミングで実行させることができる。
一方、図4に例示するように、音声認識エンジン23は、構内交換機12を介して自動音声応答装置18にリアルタイムに着信された通話音声及び通話録音DB8に録音させた通話音声を、音声認識制御部32によって制御されるタイミング(音声認識制御部32から受け渡されたタイミング)でそれぞれ音声認識する。具体的には、音声認識管理部22を有する音声認識装置20は、優先度が閾値よりも低いと判定されたリアルタイムの通話音声を、NWスイッチ15のミラーリングの機能を利用して、通話録音装置7が通話録音DB8に録音させる。
この際、通話録音装置7は、構内交換機12側から取得した電話応対時の発信者番号などの優先度判定データを、上記の通話音声に対応付けて通話録音DB8に記憶させる。このようにして通話録音DB8に格納された通話音声は、例えば夜間などの都合のよい時間帯に、バッチ処理などで音声認識の処理を実行させることが可能となる。さらに、図4の例は、オペレータが不在となる夜間の時間帯などにおいて、自動音声応答装置18に着信された通話音声を、音声認識装置20に転送して音声認識する処理の流れを示している。このように、自動音声応答装置18による自動応答時の音声認識についても、音声認識装置20を連携させて有効に活用することができ、例えば、夜間などの時間帯を利用して音声認識結果を集計することなどが可能となる。
次に、このように構成された音声認識装置20により実現される音声認識方法を、図5に示すフローチャートに基づき説明する。音声認識装置20は、図5に示すように、まず、構内交換機12側からの着信の有無を検出する(S[ステップ]1)。着信がない場合、音声認識装置20は、現在の時刻が、予め設定された例えば録音通話音声取得時間範囲内に該当しているか否かを判定する(S2)。現在の時刻が、録音通話音声取得時間範囲内に該当している場合(S2のYES)、及び構内交換機12側からの着信が検出された場合(S1のYES)、音声認識装置20の通話音声取得部21は、リアルタイムの通話音声又は通話録音DB8に記憶させていた通話音声を取得し(S3)、取得したこの通話音声と共に発信者番号などの優先度判定データを一次出力DB31に一次記憶させる(S4)。
音声認識管理部22は、一次出力DB31から優先度判定データと共に通話音声を取得し(S5)、優先度判定部33は、予め設定された優先度の判定条件と取得された優先度判定データとに基づいて、通話音声の優先度を判定する(S6)。音声認識制御部32は、判定された通話音声の優先度が閾値よりも高い場合(S7のYES)、この通話音声を音声認識エンジン23に受け渡して音声認識させる(S8)。一方、音声認識制御部32は、判定された通話音声の優先度が閾値よりも低い場合(S7のNO)、この通話音声を優先度判定データと共に通話記録装置7に受け渡してこれらを通話録音DB8に記憶させる(S9)。
既述したように、本実施形態の音声認識装置20によれば、取得した複数の通話音声の優先度を判定し、判定されたその優先度に基づいて、通話音声それぞれを音声認識させるタイミングを制御するので、取得した複数の通話音声を効率良く音声認識することができる。また、本実施形態の音声認識装置20によれば、一般の業務が終了した夜間などのシステムの負荷が低い時間帯に、通話録音DB8に記憶させておいた通話音声を取得し、取得したこの通話音声を効率的に音声認識することが可能となる。
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施することが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形例は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
7…通話録音装置、8…通話録音DB、10…電話応対システム、12…構内交換機、15…NWスイッチ、18…自動音声応答装置、19…音声認識結果DB、20…音声認識装置、21…通話音声取得部、22…音声認識管理部、23…音声認識エンジン、32…音声認識制御部、33…優先度判定部、34…取得タイミング設定部、35…判定条件設定部。

Claims (8)

  1. 複数の通話音声を取得する通話音声取得部と、
    前記取得された各通話音声の優先度を判定する優先度判定部と、
    前記判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御する音声認識制御部と、
    を備える音声認識装置。
  2. 前記通話音声取得部は、前記複数の通話音声をそれぞれ取得するタイミングを設定する取得タイミング設定部を備える、
    請求項1記載の音声認識装置。
  3. 前記優先度判定部は、前記優先度の判定条件を切替可能に設定する判定条件設定部を備える、
    請求項1又は2記載の音声認識装置。
  4. 前記音声認識制御部は、前記判定された優先度に基づいて、前記取得された複数の通話音声のうちの一つ以上の通話音声を録音させる、
    請求項1ないし3のいずれか1項に記載の音声認識装置。
  5. 前記通話音声取得部は、構内交換機でリアルタイムに受け付けた通話音声及び前記録音させた通話音声を取得し、
    前記リアルタイムに受け付けた通話音声及び前記録音させた通話音声を、前記音声認識制御部によって制御されるタイミングでそれぞれ音声認識する音声認識処理部をさらに備える、
    請求項4記載の音声認識装置。
  6. 前記通話音声取得部は、構内交換機を介して自動音声応答装置にリアルタイムに着信された通話音声及び前記録音させた通話音声を取得し、
    前記リアルタイムに着信された通話音声及び前記録音させた通話音声を、前記音声認識制御部によって制御されるタイミングでそれぞれ音声認識する音声認識処理部をさらに備える、
    請求項4記載の音声認識装置。
  7. 複数の通話音声を取得する通話音声取得部と、
    前記取得された各通話音声の優先度を判定する優先度判定部と、
    前記判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御する音声認識制御部、
    としてコンピュータを機能させる音声認識プログラム。
  8. 複数の通話音声を取得するステップと、
    前記取得された各通話音声の優先度を判定するステップと、
    前記判定された優先度に基づいて、前記取得された通話音声それぞれを音声認識させるタイミングを制御するステップと、
    を有する音声認識方法。
JP2013051030A 2013-03-13 2013-03-13 音声認識装置、音声認識プログラム及び音声認識方法 Pending JP2014178380A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013051030A JP2014178380A (ja) 2013-03-13 2013-03-13 音声認識装置、音声認識プログラム及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013051030A JP2014178380A (ja) 2013-03-13 2013-03-13 音声認識装置、音声認識プログラム及び音声認識方法

Publications (1)

Publication Number Publication Date
JP2014178380A true JP2014178380A (ja) 2014-09-25

Family

ID=51698419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013051030A Pending JP2014178380A (ja) 2013-03-13 2013-03-13 音声認識装置、音声認識プログラム及び音声認識方法

Country Status (1)

Country Link
JP (1) JP2014178380A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018098742A (ja) * 2016-12-16 2018-06-21 株式会社アドバンスト・メディア 情報処理システム、情報処理装置及び情報処理方法
WO2020004213A1 (ja) * 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018098742A (ja) * 2016-12-16 2018-06-21 株式会社アドバンスト・メディア 情報処理システム、情報処理装置及び情報処理方法
WO2020004213A1 (ja) * 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2020004213A1 (ja) * 2018-06-29 2021-07-08 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP7459791B2 (ja) 2018-06-29 2024-04-02 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US12067971B2 (en) 2018-06-29 2024-08-20 Sony Corporation Information processing apparatus and information processing method
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统

Similar Documents

Publication Publication Date Title
JP2015049337A (ja) 音声応答装置、音声応答プログラム及び音声応答方法
JP6218568B2 (ja) 通信装置、通信システム、通信方法、および通信プログラム
EP2709346A2 (en) Method, call centre and system for seat terminal to receive call
US9674359B2 (en) Call center telephone system, privacy call method, and non-transitory computer readable medium storing privacy call program
JP2014178380A (ja) 音声認識装置、音声認識プログラム及び音声認識方法
US9762632B2 (en) Systems and methods for establishing and controlling conference call bridges
US11399097B2 (en) Systems and methods for search based call routing
JP2008252849A (ja) 情報通信端末および情報通信システム
JP2013145953A (ja) コールセンタシステム及び呼接続制御方法
US9313337B2 (en) Telephone exchange system, telephone exchanger, and incoming call switching method
JP2017067881A (ja) 音声認識装置、音声認識システムおよび音声認識方法
JP6772927B2 (ja) 情報処理装置、情報処理プログラムおよび情報処理方法
US11025780B2 (en) Systems and methods for search based call routing
JPWO2008078458A1 (ja) 電話中継システムおよび電話中継装置ならびに電話中継方法
JP4716902B2 (ja) 内線電話システム
US9621715B2 (en) Delivering a toll-free caller ID on toll-free calls
JP4408260B2 (ja) 顧客対応支援方法及び顧客対応支援システム
US20170078340A1 (en) Systems and methods for establishing and controlling conference call bridges
US20170078339A1 (en) Systems and methods for providing conference calling functions
US20140241512A1 (en) Systems and methods to support using analog tty devices with voice-only pc soft clients
JP7452090B2 (ja) 処理システム、処理方法、管理者装置、及びプログラム
US11570302B1 (en) System for providing caption feedback service to call center agent during phone call between call center agent and TRS user
JP2017163198A (ja) 音声認識システム、コネクト装置および音声認識方法
CA2973566C (en) System and method for language specific routing
JP6665577B2 (ja) 通信処理装置、通信処理方法及びプログラム