JP2013257428A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2013257428A
JP2013257428A JP2012133132A JP2012133132A JP2013257428A JP 2013257428 A JP2013257428 A JP 2013257428A JP 2012133132 A JP2012133132 A JP 2012133132A JP 2012133132 A JP2012133132 A JP 2012133132A JP 2013257428 A JP2013257428 A JP 2013257428A
Authority
JP
Japan
Prior art keywords
voice
speech recognition
speech
recognition
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012133132A
Other languages
English (en)
Inventor
Shizumaro Sakai
静磨 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012133132A priority Critical patent/JP2013257428A/ja
Publication of JP2013257428A publication Critical patent/JP2013257428A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】 音声自動応答システムにおける音声認識処理の正確性評価を容易に行うことができる音声自動応答システム及び音声認識装置を提供することを目的とする。
【解決手段】 音声自動応答システムに用いられ、入力された音声信号に対して音声認識処理を行う音声認識装置であって、制御部は、通話毎に識別子を発行するとともに、音声認識結果を外部へ出力する。音声認識エンジンは、入力された音声信号に対して音声認識処理を行いその音声認識結果を生成して制御部へ出力するとともに、入力された音声信号の有音期間を検知する。録音記憶部は、音声認識エンジンにより検知された有音区間の入力音声を、有音区間の音声ファイルとして録音する。認識結果データベースは、有音区間の音声ファイルのファイル名と音声認識結果とが、制御部により発行される識別子を用いて対応付けられた管理テーブルを記憶する。
【選択図】 図2

Description

本発明の実施形態は、例えば、音声自動応答システムにおける音声認識処理結果に対する処理品質の評価に関する。
通話音声を認識するシステムである音声自動応答システムは、企業への電話での問い合わせや各種電話受付に用いられる。音声自動音声システムは、電話機のユーザが発話した内容を音声認識処理しその結果に基づき各種対応を行うため、音声認識する際の認識処理結果の正確性が音声認識エンジンの性能や品質に直結する。音声認識処理の正確性向上のためには多数の通話音声を音声認識エンジンに入力し、その結果の正確性を一つ一つ検証する作業を繰り返しながら、課題を洗い出していくプロセスが非常に重要である。
このような音声認識処理の正確性評価のために、固定の音声メッセージを音声認識処理し、その音声認識処理結果を評価することが考えられている。
特開2002−300259号公報
しかしながら、実際に入力される音声に対する音声認識処理の正確性を評価するためには、実際の音声自動応答システムにおける音声認識処理の結果を評価することが求められる。音声自動応答システムにおいて音声認識処理の結果を評価する場合、音声認識対象となる通話音声とその結果とを保守者等が比較するが、その音声認識対象となる通話音声と音声認識結果との対応付けが困難であった。例えば、音声自動応答処理によるアナウンスを発信者が聞いている間は無言となるため、通話を録音したファイルにはそのような音声認識を行わなくてよい無言の時間も含まれている。そのため、音声認識結果がその通話録音ファイルのうちのどの音声と対応しているのかの対応付けが難しい。
また、音声認識エンジンの正確性を向上させるためにはその評価を多数行うことが必要になるが、上記のような無言の時間を含む通話録音ファイルを再生して評価を行う場合、無言の時間分だけ作業時間が無駄になる。
そこで、目的は、音声自動応答システムにおける音声認識処理の正確性評価を容易に行うことができる音声自動応答システム及び音声認識装置を提供することにある。
また、上記目的を達成するための音声認識装置は、音声自動応答システムに用いられ、入力された音声信号に対して音声認識処理を行う音声認識装置であって、通話毎に識別子を発行するとともに、音声認識結果を外部へ出力する制御部と、入力された音声信号に対して音声認識処理を行いその音声認識結果を生成して前記制御部へ出力するとともに、入力された音声信号の有音期間を検知する音声認識エンジンと、前記検知された有音区間の入力音声を、有音区間の音声ファイルとして録音する録音記憶部と、前記有音区間の音声ファイルのファイル名と前記音声認識結果とが、前記識別子を用いて対応付けられた管理テーブルを記憶する認識結果データベースと、を有することを特徴とする。
本発明の一実施の形態に係る音声自動応答システムの構成を示すブロック図。 図1の音声自動応答システムに設けられる音声認識装置の論理構成を示すブロック図。 図2の音声認識装置の認識結果データベースの一例を示す図。
以下、本発明の実施例を、図面を参照して説明する。
(実施形態)
[構成]
まず、図1乃至図3を参照して、本実施形態の構成を説明する。
図1は、一実施の形態を示す音声自動応答システムの構成を示すブロック図である。
音声自動応答システム(以下、IVRシステムと称する。)は、IP交換装置(以下、IP−PBXと称する。)10、音声自動応答装置(以下、IVRと称する。)20、及び音声認識装置30を有する。IP−PBX10は、公衆電話通信網50及びIVR20と接続され、IVR20は、音声認識装置30と接続される。IVRシステムの各装置の接続は、例えばLAN(Local Area Network)が用いられる。また、このIVRシステムは、IVR20にPC40がさらに接続される。また、IVR20は、公衆電話通信網50を介して電話機60からの着信を受ける。なお、電話機60は、ここでは1台のみ図示したが、公衆電話通信網50を介して接続される電話機の台数は、1台に限られない。
IP−PBX10は、公衆電話通信網50を介して電話機60からの発信が発生すると、IVR20へ着信させる。
IVR20は、電話機60から着信を受けると、その着信呼に自動応答する。このときIVRは予め指定された応答フローに従って、応答アナウンスを出力する。例えば、最初のアナウンスであれば、「お電話ありがとうございます。始めに、お客様のお名前をお願いいたします。」等のメッセージをアナウンスする。これに応じて電話機60から音声が送られてきた場合、その音声を音声認識装置30に出力する。また、音声認識装置30からはその音声認識結果として、テキストデータがIVR20に対して応答信号として送られてくる。
音声認識装置30は、IVR20からの指示に従い、入力される音声に対して音声認識処理を行い、その音声認識処理の結果であるテキストデータをIVR20に対して応答信号として出力する。また、音声認識装置30は、入力される音声を通話毎に音声ファイル化して記憶するとともに、その通話のうちの有音区間のみを検知する有音検知機能を用いて、有音区間のみを音声ファイル化して記憶する。さらに、音声認識装置30は、通話毎にインデックス番号を発行して、通話毎の音声ファイル、有音区間のみの音声ファイル、及び音声認識結果を対応付けする。この対応付けされたものを、管理テーブルと称する。この管理テーブルは、認識結果データベース(DB)33に記憶される。
PC40は、IVR20を介して音声認識装置30に対してアクセスすることにより、音声認識装置30が記憶する認識結果DB33を参照する。音声認識結果の評価を行うユーザは、このPC40を用いて認識結果DB33へアクセスし、有音区間のみの音声ファイルを再生して音声認識結果と比較する。このとき、通話毎の音声ファイルは有音区間のみのファイルが生成されているため、そしてその有音区間のファイルと音声認識結果との対応付けが既にされているため、評価者は評価作業を容易に行うことができる。
図2は、図1の音声自動応答システムに設けられる音声認識装置30の論理構成を示すブロック図である。
音声認識装置30は、音声認識エンジン30a通信プロトコル制御部31、音声認識制御部32、認識結果データベース(DB)33、及び、通話録音記憶部34を有する。
音声認識エンジン30aは、音声認識制御部32から入力される音声をテキスト化する処理を行う。これを音声認識処理という。音声認識エンジン30aは、有音検知機能を備え、音声認識制御部32から入力される音声データに音声認識すべき音声がある場合、すなわち、例えば無音でない(有音)場合は、有音検知機能により有音を検知し、有音検知信号30bを音声認識制御部32に出力する。この有音検知信号30bには、後述するインデックス番号が含まれる。また、音声認識エンジン30aは、有音を検知した場合、音声認識処理を行い、その認識結果30cを通信プロトコル制御部31へ出力する。なお、認識結果30cには、音声認識処理の結果であるテキストデータ及び後述するインデックス番号が含まれる。
通信プロトコル制御部31は、IVR20からの音声認識要求を受けた場合、音声認識待ち受け状態に移行させる。音声認識待ち受け状態へ移行させるために、音声認識制御部32に対して音声待ち受け状態へ遷移するよう通知するとともに、通話毎の識別子であるインデックス番号も発行し、そのインデックス番号も併せて通知する。そして、そのインデックス番号を音声認識エンジン30aにも通知するとともに、認識結果DB33にそのインデックス番号を記憶させる。また、IVR20からの音声認識処理終了通知を受けた場合、音声認識制御部32に対して音声認識待ち受け状態を終了させる。さらに、通信プロトコル制御部31は、音声認識エンジン30aからの認識結果30cを受けた場合、その認識結果の内容(テキストデータ)をIVR20へ出力するとともに、後述する認識結果DBの管理テーブルに、インデックス番号に対応する音声認識結果としてテキストデータを格納する。
音声認識制御部32は、通信プロトコル制御部31からインデックス番号が通知された場合に音声入力を待ち受ける状態に遷移する。待ち受け状態でIVR20から音声が入力されると、その音声を通話毎にファイル化して通話録音記憶部34に記憶させるとともに、その音声を音声認識エンジン30aへ出力する。また、音声認識制御部32は、ファイル化した音声のファイル名とそれに対応するインデックス番号とを対応付けて認識結果DB33に記憶させる。さらに、音声認識制御部32は、音声認識エンジン30aから有音検知信号30bを受けると、その時点からIVR20より送られてくる音声を、通話毎のファイルとは別に有音区間のみの音声ファイルとして通話録音記憶部34へ記憶させる。なお、この有音区間のみの音声ファイルのクローズは、音声認識エンジン30aからの通知に基づき行う。
認識結果DB33は、音声認識制御部32の処理により、通話毎に発行されるインデックス番号、通話毎の音声ファイルである入力音声ファイル名、その通話のうちの有音区間のみの音声ファイルである有音区間音声ファイル名、及び有音区間音声ファイルに対応する音声認識結果が対応付けられた管理テーブルを記憶する。インデックス番号と入力音声ファイル名は1対1であるが、そのインデックス番号に対応する有音区間音声ファイル名は1つの場合もあるが複数が対応付けすることができる。また、音声認識結果は、有音区間音声ファイル毎に記憶される。その認識結果DB33に記憶される管理テーブルの一例を図3に示す。図3の例では、インデックス番号が1から5まで発行され、インデックス番号「1」に対応する入力音声ファイル名は「20121222080000−1」である。なお、ここでは拡張子は省略している。また、インデックス番号「1」に対応する有音区間音声ファイル名は、「20121222080000−1−1」「20121222080000−1−2」が記憶され、その音声認識結果は、それぞれ「鈴木太郎」「東京都港区」である。
[処理動作]
次に、音声認識装置30の処理動作について説明する。ここでは、電話機60から公衆電話通信網50及びIP−PBX10を介して、IVR20に着信された場合の例を説明する。
まず、IVR20が発信者に発話を促すアナウンスを流した後、IVR20は音声入力待ち状態に移行する。このときIVR20は通信プロトコル制御部31に対して音声認識要求を行い、音声認識装置30を音声認識待受け状態に移行させる。具体的には、通信プロトコル制御部31がIVR20からの音声認識要求に応じてインデックス番号を発行し、そのインデックス番号を認識結果DB33の管理テーブルへ記憶させるとともに、音声認識制御部32に対して音声入力の待ち受け状態へ移行するよう通知するとともに通話毎の識別子であるインデックス番号も発行し、そのインデックス番号も併せて通知する。さらに、通信プロトコル制御部31は、音声認識エンジン30aに対してもインデックス番号の通知を行う。
音声認識制御部32は、通信プロトコル制御部31の指示に基きづき待機状態に移行した後、音声待ち受け状態に移行したことをIVR20に通知する。その後、音声認識制御部32に対してIVR20から音声入力が開始され、音声認識制御部32は入力音声の録音を開始する。すなわち、入力音声を通話毎に作成されるファイルにファイル化して通話録音記憶部34へ記憶させる。音声認識制御部32は、その音声ファイル名を対応する認識結果データベース33の該当インデックス番号の入力音声ファイル名テーブルに格納する。また、音声認識制御部32は、上記の録音処理と並行して、入力音声をインデックス番号とともに音声認識エンジン30aへ出力する。以降、音声認識制御部32は通信プロトコル制御部31から音声認識終了通知を受信するまで音声認識エンジン30aに対して音声入力を継続する。
音声認識エンジン30aは、音声認識制御部32からの入力音声の受信を開始するが、一般的には入力音声は無音区間から開始される。その後、音声認識エンジン30aは電話機60のユーザの発話開始を有音検知機能により検知する。このとき音声認識エンジン30aは、有音検知信号30bを音声認識制御部32へ出力する。音声認識制御部32は、有音検知信号30bに従い、入力音声の録音とは別に有音区間音声の録音を開始するとともに、有音区間音声のファイル名を認識結果DB33が記憶する管理テーブル中の該当インデックス番号に対応付けられた有音区間ファイル名の箇所に格納する。音声認識エンジン30aは有音検知した後の入力音声の認識処理を開始し、音声認識処理の結果としてテキストデータを生成する。音声認識エンジン30aは、生成した音声認識結果を通信プロトコル制御部31に出力する。音声認識結果を受信した通信プロトコル制御部31は、IVR20に対して音声認識結果を出力するとともに、認識結果DB33の管理テーブル中の該当インデックス番号の音声認識結果の箇所に認識結果であるテキストデータを格納する。
IVR20は音声認識結果を判定し、その判定結果に応じて等、所定の処理手順に基づいて、認識処理終了通知を通信プロトコル制御部31に対して出力する。認識処理終了通知を受信した通信プロトコル制御部31は、音声認識制御部32に対して認識処理終了を通知する。音声認識制御部32は認識処理終了通知に伴って音声受信処理を停止するとともに、音声録音処理を停止し、録音用に生成していたファイルをクローズする。
応答フロー上、引続き次の発話を促す必要がある場合は、改めて同じ通話の中でIVR20から発話を促すアナウンスを流して、上記と同様の音声認識処理を行う。その場合、同じ通話の中での次の音声認識処理であるため、同じインデックス番号に対応する有音区間音声ファイル名がもう1つ生成される。
以降の着信呼についても上記と同様の処理を行うことで、各々の通話に対応するインデックス番号、入力音声ファイル名、有音区間音声ファイル名、音声認識結果が互いに対応付けられる。このように生成された音声認識結果の一覧は、評価者がPC40を用いて参照することができる。
このように、音声認識装置30が、入力音声の有音を検知して有音箇所のみの音声ファイルを作成するとともに、その有音箇所のみの音声ファイルと音声認識結果とを対応付けて認識結果DB33へ記憶するようにしているため、音声認識処理の正確性評価を行う際に、音声認識結果とそれに対応する音声ファイルとが既に対応付けられた状態である。そのため、音声認識結果が通話音声のうちのどの箇所かの特定を行う等の評価者作業が不要となる。そして、評価者は、音声認識結果とそれに対応する音声ファイルとを一覧で取得できるため、大量の評価対象について評価を行う場合には、評価者の作業効率が大幅に向上する。すなわち、評価者は音声認識エンジンや音声認識処理に用いられる音声認識辞書の改良すべき対象をピックアップする作業を行うが、大量の評価対象がある場合その作業時間を大幅に短縮することができる。
また、通話毎にインデックス番号を発行し、そのインデックス番号に対応付けて有音区間音声、及び音声認識結果を記憶させるようにしているため、それらは通話毎にまとめられている。それにより、音声認識結果に対する分析も可能となる。つまり、特定の単語の音声認識の正確性が低いのか、それとも、通話者の発音やイントネーション等の通話者個人による影響によって音声認識の正確性が低いのか、というような分析を行うことができる。
なお、本発明の実施形態は、以上の構成に限定されるものではなく、種々の変形が可能である。例えば、上記実施形態では、図3の管理テーブルにおいて、1つのインデックス番号に対して、入力音声ファイル名、有音区間音声ファイル名、および音声認識結果が対応付けられているが、評価者による音声認識処理の評価に入力音声ファイルが不要であれば、入力音声ファイル名は対応付けて記憶されていなくてもよい。また、上記実施形態では、音声認識装置30内で生成される通知がインデックス番号を含むと説明したが、インデックス番号はそれらの通知とともに送られる等、それらの通知がどのインデックス番号に対応するかがわかる形式であればよい。
10…IP−PBX、20…IVR、30…音声認識装置、30a…音声認識エンジン、31…通信プロトコル制御部、32…音声認識制御部、33…認識結果DB、34…通話録音記憶部、40…PC、50…公衆電話通信網、60…電話機。

Claims (3)

  1. 音声自動応答システムに用いられ、入力された音声信号に対して音声認識処理を行う音声認識装置であって、
    通話毎に識別子を発行するとともに、音声認識結果を外部へ出力する制御部と、
    入力された音声信号に対して音声認識処理を行いその音声認識結果を生成して前記制御部へ出力するとともに、入力された音声信号の有音期間を検知する音声認識エンジンと、
    前記検知された有音区間の入力音声を、有音区間の音声ファイルとして録音する録音記憶部と、
    前記有音区間の音声ファイルのファイル名と前記音声認識結果とが、前記識別子を用いて対応付けられた管理テーブルを記憶する認識結果データベースと、
    を有することを特徴とする音声認識装置。
  2. 前記認識結果データベースは、1つの識別子に対応する有音区間の音声ファイルを複数記憶し、それぞれの有恩区間の音声ファイル毎に音声認識結果を記憶することを特徴とする音声認識装置。
  3. 前記音声認識エンジンによる有音検知に基づき前記認識結果データベース及び前記録音記憶部に対する記憶制御を行う音声認識制御部をさらに有し、
    前記音声認識エンジンは、前記有音を検知した場合に有音を検知したことを示すとともに前記識別子と対応付けられた有音検知通知を前記音声認識制御部へ出力し、前記音声認識結果は前記識別子と対応付けて出力することを特徴とする音声認識装置。
JP2012133132A 2012-06-12 2012-06-12 音声認識装置 Pending JP2013257428A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012133132A JP2013257428A (ja) 2012-06-12 2012-06-12 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012133132A JP2013257428A (ja) 2012-06-12 2012-06-12 音声認識装置

Publications (1)

Publication Number Publication Date
JP2013257428A true JP2013257428A (ja) 2013-12-26

Family

ID=49953912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012133132A Pending JP2013257428A (ja) 2012-06-12 2012-06-12 音声認識装置

Country Status (1)

Country Link
JP (1) JP2013257428A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221341A (zh) * 2017-06-06 2017-09-29 北京云知声信息技术有限公司 一种语音测试方法及装置
JP2020017901A (ja) * 2018-07-27 2020-01-30 株式会社Jvcケンウッド 無線通信装置、音声信号制御方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316374A (ja) * 2002-04-26 2003-11-07 Hokkaido Technology Licence Office Co Ltd 音声データへの注釈付与方法と音声注釈システム
JP2009053342A (ja) * 2007-08-24 2009-03-12 Junichi Shibuya 議事録作成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316374A (ja) * 2002-04-26 2003-11-07 Hokkaido Technology Licence Office Co Ltd 音声データへの注釈付与方法と音声注釈システム
JP2009053342A (ja) * 2007-08-24 2009-03-12 Junichi Shibuya 議事録作成装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221341A (zh) * 2017-06-06 2017-09-29 北京云知声信息技术有限公司 一种语音测试方法及装置
JP2020017901A (ja) * 2018-07-27 2020-01-30 株式会社Jvcケンウッド 無線通信装置、音声信号制御方法、およびプログラム
JP7059852B2 (ja) 2018-07-27 2022-04-26 株式会社Jvcケンウッド 無線通信装置、音声信号制御方法、およびプログラム

Similar Documents

Publication Publication Date Title
KR102223017B1 (ko) 공유된 음성 작동 디바이스상의 호출 핸들링
JP5124573B2 (ja) 音声認識機能を使用した応答マシンの検出
US10110741B1 (en) Determining and denying call completion based on detection of robocall or telemarketing call
US8326624B2 (en) Detecting and communicating biometrics of recorded voice during transcription process
EP2523441B1 (en) A Mass-Scale, User-Independent, Device-Independent, Voice Message to Text Conversion System
CN102868836B (zh) 用于呼叫中心的真人话术系统及其实现方法
US8929519B2 (en) Analyzing speech application performance
US20140018045A1 (en) Transcription device and method for transcribing speech
US9936068B2 (en) Computer-based streaming voice data contact information extraction
US9077802B2 (en) Automated response system
EP2124427B1 (en) Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto
EP2124425B1 (en) System for handling a plurality of streaming voice signals for determination of responsive action thereto
JP2013257428A (ja) 音声認識装置
JP2016225740A (ja) 通話振り分けシステム、呼制御装置およびプログラム
EP2124426B1 (en) Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto
US20090326940A1 (en) Automated voice-operated user support
CN114598773B (zh) 一种智能应答系统及方法
JP6064718B2 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20140812

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140902

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150206

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160426

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20160426

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160920