JP2008015439A

JP2008015439A - 音声認識システム

Info

Publication number: JP2008015439A
Application number: JP2006212590A
Authority: JP
Inventors: Takashi I; 傑易
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-07-07
Filing date: 2006-07-07
Publication date: 2008-01-24

Abstract

【課題】電話等から取得される音声を認識する際に、処理速度を低下させることなく、音声認識精度を向上させる。
【解決手段】予め、顧客情報データベース７１に、氏名等と、個人等の住所等とを関連づけて蓄積しておき、住所等の音声データ、及び氏名等の音声データを取得し、この取得した音声データから文字列を認識し、住所等に基づいて絞り込まれた検索結果から、氏名等の音声データに基づいて氏名等を認識する。
【選択図】図１

Description

本発明は、固定電話、携帯電話又はインタネット電話等の音声通話が可能な通信網（以下、「通信網」とする）を通じて取得される音声データに基づいて、個人、法人又はその他の組織（以下、「個人等」とする）の名称などを認識する音声認識システムに関する。

従来から、資料請求、テレフォンショッピング、アフターサポート等のサービスを電話で提供するためのコールセンターが多く設置されている。これらのサービスでは、電話をかけてきた相手を同定するため顧客の氏名等を特定する必要がある。

また、近年においては、音声自動応答装置（ＩＶＲ）等を利用して、音声による自動応答を行うコンピュータシステムが普及しつつある。このＩＶＲでは、例えば、発信者のダイヤル操作によるプッシュ信号を受信し、これに応じて、予め録音してある音声を発信者側に自動的に再生し、情報提供や資料請求、懸賞や応募の受け付けなど定型的な対応を無人で行うことができる。

このようなＩＶＲによれば、オペレータに要する人件費を削減することが可能であるうえ、２４時間受け付けが実現できる。また、受け付け内容は即座にデータベースに記録されるため、データ処理の迅速化、入力コストの削減が可能である。

そして、最近ではコンピュータ技術の進歩により、このＩＶＲに音声認識機能（例えば、特許文献１）を設け、利用者の発話を認識し、その認識結果に応じてサービスの選択や、再生内容の変更など利便性を高めた技術も開発されている。
特開２００２２９７１８号公報

しかしながら、前記通信網から取得される電話音声を認識して、前記個人等の氏名又は名称（以下、「氏名等」とする）の特定において、実用レベルの認識精度を維持するのは大変困難である。日本人の氏名は２０数万種類あると言われており、最先端のコンピュータシステムと音声認識技術を用いても、リアルタイムかつ実用精度での処理が難しいとされる。また、日本人名リストに基づいて音声を認識するため、外国人利用者が利用できない難点もある。さらに、音声認識では、音声データをカナなどの表音記号の文字列に変換し、その文字列に対応する漢字表記に変換するが、人の手を介さない限り同音異字の氏名等（例えば、「伊東」と「伊藤」）を漢字表記に変換できない。
一方、処理速度を向上させるため、現在では出現頻度上位の数千〜数万の氏名に絞って音声認識を行なっているが、カバー率を高めるためには、演算処理量を増大させなければならず、これによって処理速度が遅延することが考えられ、実用性に欠けるという問題もある。

そこで、本発明は以上の点に鑑みてなされたもので、通信網から取得される音声を認識する際に、処理速度を低下させることなく、音声認識精度を向上させることのできる音声認識システムを提供することをその課題とする。

上記課題を解決するために、本発明は、音声通話が可能な通信網を通じて取得される音声データに基づいて、個人等を認識する音声認識システムであって、個人等の氏名等と、個人等の住所、居所又は所在地（以下、「住所等」とする）又はこれらの郵便番号、電話番号又は職業等の関連情報（以下、「関連情報等」とする）とを関連づけて蓄積するデータベースと、音声データを取得する音声データ取得部と、音声データ取得部が取得した音声データから文字列を認識する音声認識部と、音声認識部が認識した文字列に基づいて、データベースを検索する検索部とを備え、音声認識部は、住所等の一部又は全部に基づいて絞り込まれた検索部による検索結果を用いて、氏名等を認識することを特徴とするものである。

また、この発明は、音声通話が可能な通信網を通じて取得される音声データに基づいて、個人等を認識する音声認識システムであって、予め、検索データベースに、氏名等と、住所等と、関連情報等とを関連づけて蓄積しておき、住所等の一部又は全部、若しくは関連情報等を取得し、この取得された住所等の一部又は全部、若しくは関連情報等に基づいて検索データベースを検索し、この検索結果を用いて、氏名等の音声データを認識することを特徴とするものである。

上記発明によれば、住所、居所、所在地又はこれらの郵便番号、或いは電話番号などは、氏名等と比較して、文字数が長く、また同音文字のバリエーションも少ないことから、より高い精度で認識することができる。従って、この住所等により絞り込まれた候補の中から氏名等の認識を行うことによって、ほぼ１００％に近い、認識率を実現することができる。

上記発明では、通信網を通じて、ユーザー操作に基づく住所等の一部、若しくは関連情報等を特定する操作信号を取得し、これにより特定された前記住所等の一部若しくは関連情報等に基づいてデータベースを検索してもよい。

この場合には、例えば、郵便番号など簡単な操作によって入力できる操作信号を利用して住所等の検索を行うことができるため、音声認識による誤り率を補うことが可能となり、その後の氏名等の認識をより確実なものとすることができる。

上記発明では、データベースの検索結果、又は音声認識による認識結果に応じて、オペレータ端末又は録音装置に接続する接続切替部をさらに有することが好ましい。

この場合には、上記検索又は認識が不可能であるときに、オペレータ端末又は録音装置に接続することが可能となり、オペレータによってサポートを続行したり、録音された情報によって後にサポートを行うなど、音声認識によるサービスの限界を補うことができる。

上記発明において、住所等の一部又は全部、若しくは関連情報等に基づいて絞り込まれた検索結果を、氏名等の発音文字列のリストとして生成するとともに、リスト中の各発音文字列に対し、任意の識別子を付与し、このリストを用いて氏名等の認識を行い、認識された氏名等に付与された識別子を認識結果として出力するようにしてもよい。なお、ここで、発音文字列とは、例えばカナ表記や、アルファベット表記、又は発音記号表記などをいう。

この場合には、例えば、音声認識を行うサービスと、データベースにより情報を提供するサービスとが別途独立した企業により実施されているときに、これらの企業間で送受される情報に関するセキュリティを向上させることができる。すなわち、住所等により絞り込まれた検索結果は、単にカナ表記等による氏名のリストであるため、これにより個人を特定することを極めて困難にすることができる。また、最終的に認識された氏名等は、検索データベース側で任意に付与された識別子であるため、これがデータベース側に送信する間に漏洩しても、個人を特定することは不可能となる。

また、この場合には、例えば住所等の一部分で十分に認識できるようなときに、不要な情報を発話或いは入力を要求する必要がなくなり、ユーザー負担が軽減されるとともに、個人情報が漏洩する機会を低減させることが可能となり、セキュリティの向上を図ることができる。

上記発明における音声認識において、住所等の一部、若しくは関連情報等に基づいて氏名等の認識を行い、この認識結果に同姓同名が複数ある場合に、さらにこれらの同姓同名の詳細な住所を取得するとともに、この取得された詳細な住所等を用いて、ユーザーに住所等を発声させ、この住所等の音声データを認識することによって、最終的に氏名等を間接的に認識することができる。

以上説明したように本発明によれば、電話等から取得される音声を認識する際に、住所等の音声データに基づいて絞り込まれた検索結果から、氏名等を認識することによって、処理速度を低下させることなく、音声認識精度を向上させ、さらには個人情報が漏洩する可能性を低減させることができる。

また、外国人であっても、データベースに登録されていれば、正しく認識されることができる。さらに、データベースには氏名等は漢字で登録されているため、氏名等の音声認識の結果は漢字で出力することができ、ダイレクトメール等の住所ラベルに漢字で印刷できるため、好感を持てる。

本発明の実施形態について、図面を参照しつつ説明する。本実施形態においては、本発明の音声認識システムを、コールセンターのサポートサービスに適用した場合を例に説明する。図１は、本実施形態に係るサポートサービスシステムの概略構成を示すブロック図である。なお、下記の説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、或いはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。

図１に示すように、本実施形態に係るサポートサービスは、ユーザーと直接対話し窓口業務を提供するサポート窓口１００と、個人情報を管理するデータベース会社２００と、実際にサポートサービスを行うサポート部署３００とによって提供される。

サポート窓口１００は、電話回線２０によりユーザーＸが使用する電話機１ａに接続される。電話機１ａは、通常の公衆回線や無線通信回線等により音声信号を送受する固定電話や携帯電話等の通信機であってもよく、また、例えばＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）技術により音声データとＩＰパケットデータとを相互に変換してＩＰ網を通じて通話を行うＩＰ電話であってもよい。電話回線２０は、電話機１ａが固定電話である場合は、公衆回線であり、電話機１ａが携帯電話等の無線電話機である場合には、無線回線であり、電話機１ａがＩＰ電話である場合には、ＩＰ網回線である。

具体的に、サポート窓口１００は、窓口業務を行う機能に関し、電話回線２０が接続される接続切替部１と、システム全体を制御する応答プログラム実行部２と、ＩＶＲ機能を果たすためのメッセージ選択・出力部３と、ＩＶＲ機能では対応しきれない場合に接続されるオペレータ接続部８とを備えている。

接続切替部１は、例えばＰＢＸ（ＰｒｉｖａｔｅＢｒａｎｃｈｅＸｃｈａｎｇｅ：構内交換機）や、ルーター等、通信回線（或いは通信信号）を交換接続する機能を実現する装置であり、応答プログラム実行部２による制御に従って、電話機１ａを音声認識システムやメッセージ選択・出力部３、オペレータ接続部８に選択的に接続する。

応答プログラム実行部２は、例えば、情報提供や資料請求、懸賞や応募の受け付けなどの定型的なサポートサービスを自動的に行うための応答プログラムを実行する情報処理装置であり、ユーザーＸからの操作信号、発話、及び音声認識システムによる認識結果により、ユーザーＸに対する対応（メッセージ等の選択及び出力、操作・音声信号の取得及び蓄積等）を決定する。

メッセージ選択・出力部３は、音声データを蓄積するメッセージ音声蓄積部３１を備えており、応答プログラム実行部２による制御に従って、メッセージ音声蓄積部３１内の音声データを読み出し、接続切替部１を通じて、ユーザーＸの電話機１ａに送出するモジュールである。メッセージ音声蓄積部３１には、例えば、ガイダンス等の案内メッセージや、エラーメッセージ、サポート用のメッセージがＷＡＶ等の音声データとして蓄積されている。

オペレータ接続部８は、応答プログラム実行部２による無人対応による応答が不可能である場合に、オペレータによる有人サービスのためのオペレータ端末２ａや、暫定的にユーザーからの発話を録音するサービスを提供する録音部２ｂに接続する交換機である。なお、有人サービスや録音サービスへの切り替えは、応答プログラム実行部２で判断され、応答プログラム実行部２が有人サービスへ切り替える旨のメッセージをメッセージ選択・出力部３により出力させた後、接続切替部１を切り替えて、オペレータ接続部８に接続させる。また、録音部２ｂに録音された音声は、オペレータによって再生され、サポート部署３００に対して送信されるデータとして書き起こされる。

次いで、音声認識システムの具体的な構成について説明する。図１に示すように、音声認識システムは、サポート窓口１００側に配置された、音声データ取得部４１と、操作信号取得部４２と、音声認識部６と、結果判定部５と、音声認識辞書データベース６１と、音響モデルデータベース６２と、データベース会社２００側に配置された、検索部７と、顧客情報データベース７１と、候補リスト生成部７２と、リストＩＤ管理部７３とを備えている。

音声データ取得部４１は、接続切替部１を介して、電話機１ａから音声データを取得するモジュールであり、応答プログラム実行部２による制御により動作し、取得された音声データはファイル形式に変換されて、音声認識部６に渡される。本実施形態において音声データ取得部４１は、ユーザーＸから、住所等（住所や郵便番号、電話番号）の音声と、氏名等（氏名や法人名）の音声とを別々のデータとして取得し、前者を住所等音声データとし、後者を氏名等音声データとして音声認識部６へ送出する。

音声認識部６は、音声データ取得部４１が取得した音声データからカナ表記の文字列を認識するモジュールであり、認識処理のために音声認識辞書データベース６１と音響モデルデータベース６２とが接続されている。

音声認識辞書データベース６１は、カナ表記の文字列のリストを辞書データとして保持するデータベースであり、本実施形態では全国の地名等を都道府県市町村等の行政区分に従って階層的に分割してカナ表記のリストとした住所等標準辞書Ｔ２と、日本国内に在住する個人等の名字や名称の上位２０％〜３０％（人口カバー率９５％以上）をカナ表記のリストとした氏名等標準辞書Ｔ３とを有している。また、音響モデルデータベース６２は、音声波形パターンと、この音声波形パターンに対応する文字（発音記号を含む）とを関連づけて蓄積する音響モデル辞書Ｔ４を格納するデータベース装置である。

また、上記音声認識部６では、音声データ取得部４１から音声データが、住所等音声データ及び氏名等音声データとして別々に入力され、これらの音声データについてそれぞれ認識を行う、氏名等認識部６ａ及び住所等認識部６ｂとを有している。住所等認識部６ｂは、住所等の個人情報に関する音声データに基づいて、住所等標準辞書Ｔ２を検索し、検索結果を住所等の認識結果として検索部７に出力するモジュールである。氏名等認識部６ａは、住所等の認識結果によって絞り込まれた氏名等のカナ表記リストである候補リストＬ１を用いて、氏名等の音声データから氏名等を認識するモジュールである。なお、本実施形態において、候補リストＬ１内の各データには、各データ固有のＬＩＤが付与されており、氏名等認識部６ａは、氏名等の最終的な認識結果を、これに付与されたＬＩＤとして出力し、データベース会社２００側のリストＩＤ管理部７３に送信する機能を備えている。

そして、上記音声認識部６の氏名等認識部６ａ及び住所等認識部６ｂは、音声データの波形パターンと一致する（或いは近似する）音声波形パターンを音響モデルデータベース６２から検索し、音声波形パターンとの一致度に応じて優先度を文字毎に付与し、優先度の高い文字の組み合わせでいくつかの認識文字列の候補を生成する。この認識文字列の候補と、音声認識辞書データベース６１内の辞書Ｔ２，Ｔ３又は候補リストＬ１を照合し、辞書Ｔ２，Ｔ３又は候補リストＬ１内の文字列のうち最も一致度の高い文字列を、最終的な認識文字列として出力する。

結果判定部５は、検索部７における検索や、音声認識部６における認識の成果を判定するモジュールであり、具体的には、検索・認識結果が１つのみであるか、０個であるか、複数あるかを判定し、その判定結果を応答プログラム実行部２に報告する。応答プログラム実行部２では、この結果判定部５による判定結果に基づいて、検索・認識結果が１つのみであれば認識処理を終了し、次のサポート処理に移行し、検索・認識結果が０個又は複数あるときには、エラー処理を実行する。このエラー処理としては、再度認識処理を実行するリトライ処理や、有人サービスに切り替えるオペレータ接続処理、強制終了処理等が挙げられる。

データベース会社２００側において検索部７は、音声認識部６の認識結果である文字列に基づいて、顧客情報データベース７１を検索するモジュールであり、検索結果は、サポート窓口１００側や、サポート部署３００側に送出される。具体的に、この検索部７は、サポート窓口１００側の住所等認識部６ｂによって認識された住所等や、操作信号取得部４２によって取得された郵便番号や電話番号によって、その住所等によって絞り込まれる個人等を顧客情報データベース７１から抽出し、抽出された個人等の氏名等を、カナ表記のリストとして、候補リスト生成部７２に出力する。また、この検索部７は、音声認識部６による認識処理によって最終的に特定された個人等をリストＩＤ管理部７３から受け取り、特定された個人情報（ユーザーＩＤ、住所等の漢字表記、電話番号など）をサポート部署３００に送出する。さらに、検索部７は、検索処理により検出された結果のデータ数などを結果判定部５に送信する。

顧客情報データベース７１は、個人、法人又はその他の組織の氏名又は名称と、これら個人等の住所、居所、所在地又はこれらの郵便番号、或いは電話番号などの個人情報とを関連づけて蓄積するとともに、これら氏名等や住所等それぞれのカナ表記を顧客リストＴ１として保持するデータベースであり、各個人等には、ユーザーＩＤが付与されている。

候補リスト生成部７２は、住所等の個人情報に関する音声認識結果に基づいて、顧客情報データベース７１から検索された個人情報に含まれる氏名等のカナ表記を氏名等の候補リストＬ１として、氏名等認識部６ａに出力するモジュールである。また、リストＩＤ管理部７３は、候補リスト生成部７２で生成された候補リストＬ１の各データに対し、任意に設定された各データ固有のリストＩＤ（ＬＩＤ）を付与するとともに、各データとＬＩＤとの関係を記憶保持しておくモジュールである。このリストＩＤ管理部７３では、氏名等認識部６ａから認識結果として受け取ったＬＩＤにより、このＬＩＤに関連づけられた候補リストのデータ（氏名等のカナ表記）を特定し、検索部７に出力する機能を備えている。

（サポートサービス方法）
以上の構成を有するサポートサービスシステムを動作させることによって、以下のようなサポートサービス方法を実施することができる。本発明の音声認識方法は、このサポートサービス方法の一環として実施される。図２は、本実施形態に係るサポートサービスシステムの動作を示すフローチャート図であり、図３は、図２における動作に伴い、サポート窓口１００、データベース会社２００及びサポート部署３００との間で送受されるデータの内容を示すブロック図である。

図２に示すように、先ず、ユーザーＸにおいてサポート窓口１００に対して発呼処理（Ｓ１０１）がなされ、サポートサービスが開始され、応答プログラム実行部２により応答プログラムが起動される。

そして、応答プログラムの制御に従って、サポートサービス内容に応じた応答メッセージがメッセージ選択・出力部３により選択され、電話機１ａに対して出力される（Ｓ１０２）。このとき、例えばＩＶＲ等の手段を用いて、ユーザーＸに対してボタン操作を促し、その操作信号を取得することによって、ユーザーが要求しているサービスの内容を特定するサポートナンバーを取得する（Ｓ１０３）。なお、ここで取得されたサポートナンバーはデータＤ４（図３参照）として、後述するステップＳ１１５の顧客別応答処理において、サポート部署３００に送信される。

いま、サポートサービスの必要上、ユーザーＸを特定する必要が生じたものと仮定する。この必要に応じて、本実施形態では、応答プログラム実行部２は、ユーザーＸに対してメッセージを出力し、郵便番号のボタン入力か、発話による音声認識かの選択を促し（Ｓ１０４）、ボタン操作による場合には、郵便番号のボタン入力を要求し、その操作信号を操作信号取得部４２により取得する（Ｓ１０５）。取得された郵便番号は、データベース会社２００側の検索部７にデータＤ１（図３参照）として送信され、後述するステップＳ１０９における住所等のデータベース検索で用いられる。この操作信号の取得が成功した場合（ステップＳ１０６における“Ｙ”）には、ステップＳ１０９に移行し、操作信号の取得に失敗した場合（ステップＳ１０６における“Ｎ”）には、ステップＳ１０７に移行し、発話に対する音声認識を開始する。

ステップＳ１０７では、ユーザーＸに対し発話を促し、音声データ取得部４１により、住所等の音声データを取得する。ここでは、住所等の前半部分（例えば、都道府県及び市町村程度）を取得する。この取得された住所等の音声データは、住所等認識部６ｂにおいて、住所等標準辞書Ｔ２と照合することにより、カナ表記の文字列として認識され（Ｓ１０８）、データベース会社２００側の検索部７にデータＤ２として（図３参照）受け渡される。なお、図３においてこのデータＤ２は「アキタケンＸＸシＸＸチョウ」と認識されたものとしている。

そして、検索部７では、住所等の個人情報に関する音声認識結果に基づいて、顧客情報データベース７１を検索し（Ｓ１０９）、候補リスト生成部７２により、検索結果を氏名等のカナ表記リストである候補リストＬ１として、氏名等認識部６ａに出力する（Ｓ１１０）。すなわち、図３に示すように、秋田県ＸＸ市ＸＸ町に住んでいる全ての個人等の氏名のカナ表記が、顧客情報データベース７１から抽出され、この抽出された結果が候補リスト生成部７２に出力される。なお、図３に示した例では、秋田県ＸＸ市ＸＸ町に二人の顧客が在住しており、これらの氏名が「ヤマダタロウ」及び「スズキハナコ」であったとしている。また、この候補リストＬ１内の各データに対しては、リストＩＤ管理部７３によって、リストＩＤ（ＬＩＤ）が付与されている。

次いで、図２に示すように、応答プログラム実行部２は、ユーザーＸに対してメッセージを出力し、氏名等の発話を促し、音声データ取得部４１により、氏名等の音声データを取得する（Ｓ１１１）。この取得された氏名等の音声データについて、氏名等認識部６ａで音響モデルデータベース６２の音響モデル辞書Ｔ４を照合しつつ、文字列を認識するとともに、認識文字列について候補リストＬ１を照合し、その一致度に基づいて、氏名等を認識する（Ｓ１１２）。なお、このとき、候補リストＬ１を用いた認識では不十分であるときに適宜、音声認識辞書データベース６１内の氏名等標準辞書Ｔ３を用いて認識する。なお、図３に示した例では、氏名等の認識結果は、「ヤマダタロウ」であり、これに付与された「ＬＩＤ：１」が、認識結果であるデータＤ３として出力される。

また、これと併せて住所等認識部６ｂは、その認識結果を結果判定部５に出力する。結果判定部５では、認識結果が１つのみであるか、０個であるか、複数あるかを判定し、その判定結果を応答プログラム実行部２に報告する。応答プログラム実行部２では、この結果判定部５による判定結果に基づいて、認識処理が成功しているか否かを判断し（Ｓ１１３）、検索結果が１つのみであれば（ステップＳ１１３における“Ｙ”）、認識結果を音声認識辞書に反映すべく辞書を更新し（Ｓ１１４）、特定された顧客に適したサービスを実施すべく、顧客別応答メッセージをメッセージ選択・出力部３から出力させ（Ｓ１１５）、処理を終了する。

このステップＳ１１５では、図３に示すように、認識結果のデータＤ３を、データベース会社２００側のリストＩＤ管理部７３に送信し、送信されたＬＩＤ（データＤ３である「ＬＩＤ：１」）に関連づけられた氏名等（「ヤマダタロウ」）であるデータＤ５と、前記ステップＳ１０８で取得された住所等（「アキタケンＸＸシＸＸチョウ」）であるデータＤ２とに基づいて、顧客情報データベース７１の顧客リストＴ１を検索する（図３におけるステップＳ２０１）。そして、該当する個人等（ユーザーＩＤ：Ｘ、山田太郎）を特定し、この特定された個人情報を、データＤ６としてサポート部署３００に送信する。

また、ステップＳ１１５では、ステップＳ１０３で取得されたサポートナンバーをデータＤ４としてサポート部署３００に送信していることから、サポート部署３００では、秋田県ＸＸ市ＸＸ町在住の「ユーザーＩＤ：Ｘ、氏名：・山田太郎」に対して、サポートナンバーにより特定されるサポートサービス（例えば、資料の送付など）を実施（図３におけるステップＳ２０３）することができる。

一方、図２のステップＳ１１３において、検索結果が０個又は複数あるときには、認識処理が失敗していると判断し（ステップＳ１１３における“Ｎ”）、再度認識処理（リトライ）をすべきか否かを判断する（Ｓ１１６）。この判断としては、例えば、リトライ回数をカウントしておき、リトライ回数が上限に達しているか否か、タイムアップなどを基準にするなどが挙げられる。

ステップＳ１１６においてリトライすべきと判断したとき（ステップＳ１１６における“Ｙ”）には、ステップＳ１０２に戻り、上述したステップＳ１０２以降の処理を実行する。この２度目の住所等の認識に際しては、第１回目で発話させた住所等の前半部分のみならず、さらに詳細な住所等の後半部分（例えば、丁目、番地、マンション名、室号など）まで発話させる。これにより、住所等による絞り込み精度を高めることができ、１回目で複数あった認識結果の数を減らすことが可能となる。

また、ステップＳ１１６においてリトライすべきではないと判断したとき（ステップＳ１１６における“Ｎ”）には、ステップＳ１１７に移行し、有人サービス又は録音サービスに切り替えるためのオペレータ接続処理を実行すべきか否かを判断する（Ｓ１１７）。オペレータサービスや録音サービスに接続する必要があるとき（ステップＳ１１７における“Ｙ”）には、ステップＳ１１９に移行し、オペレータ接続部８を起動し、オペレータへの接続が不要であるとき（ステップＳ１１７における“Ｎ”）には、メッセージ選択・出力部３からエラーメッセージを出力させ（Ｓ１１８）、処理を終了させる。

ステップＳ１１９においてオペレータの端末２ａに接続した場合には、オペレータによりユーザーＸの住所等、氏名等及びサポートナンバーを聞き取り、これをデータ化してサポート部署３００に対して送信する（図３におけるステップＳ２０２）。また、録音部２ｂに接続した場合には、ユーザーＸに対して発話を行わせ、これを認識処理することなく録音し、後にオペレータにより再生し、ユーザーＸの住所等、氏名等及びサポートナンバーを聞き取り、これをデータ化してサポート部署３００に対して送信する（図３におけるステップＳ２０２）。

なお、本実施形態では、住所等の認識処理（Ｓ１０８）が終了した後に、氏名等の音声データの取得及び認識（Ｓ１１１，Ｓ１１２）を実行したが、住所等及び氏名等の音声データの取得は、各認識処理の前にまとめて行ってもよい。

（本実施形態による作用・効果）
以上説明した本実施形態に係る音声認識システム及び音声認識方法によれば、住所等は、氏名等と比較して、文字数が長く、また同音文字のバリエーションも少ないことから、より高い精度で認識することができ、住所等認識部６ｂにより絞り込まれた候補リストＬ１を用いて、氏名等認識部６ａにおいて氏名等の認識を行うことにより、ほぼ１００％に近い、認識率を実現することができる。この結果、本実施形態によれば、コールセンターにおけるサポートサービスにおいて、電話等から取得される音声を認識する際に、処理速度を低下させることなく、ユーザーの特定精度を向上させることができる。

本実施形態では、音声認識に際し、１回目の認識では、住所等の前半部分を取得し、これによる氏名等の認識結果が複数ある場合に、さらに詳細な住所等を取得して、この取得された詳細な住所等を用いて、ユーザーＸに住所等を発声させ、この住所等の音声データを認識することによって、最終的に氏名等を間接的に認識することから、例えば住所等の前半部分で、十分に認識できるようなときに、不要な情報を発話或いは入力する必要がなくなり、ユーザー負担が軽減されるとともに、個人情報が漏洩する機会を低減させることが可能となり、セキュリティの向上を図ることができる。

また、本実施形態では、操作信号取得部４２により、住所等の音声認識に先行させて、ユーザー操作により郵便番号を取得するため、簡単な操作によって入力できる情報を利用して住所等による絞り込みを行うことができ、ユーザーに対する負担を増大させることなく、音声認識による誤り率を補うことが可能となる。

さらに、本実施形態では、音声認識による自動対応ができない場合に、オペレータ端末２ａ又は録音部２ｂに接続するため、音声認識が不可能であるときであっても、サポートを続行したり、録音された情報によって後にサポートを行うなどが可能となり、音声認識によるサービスの限界を補うことができる。

特に、本実施形態では、住所等に基づいて絞り込まれた検索結果を、氏名等のカナ表記とＬＩＤとから構成される候補リストＬ１として、データベース会社２００から、サポート窓口１００に対して送信するため、データベース会社２００に保持された個人情報が、外部に漏洩するのを防止することができ、セキュリティの向上を図ることができる。

詳述すると、サポート窓口１００側で住所等を認識した時点では、住所のみが認識されているに過ぎず、仮に、これをデータベース会社２００側に送信する際に、悪意の第三者に傍受されたとしても、個人を特定することはできない。

また、住所等の認識結果に対するデータベース会社２００からの返信は、カナ表記の氏名等と、これらにランダムに付与されたＬＩＤとからなるリストのみなので、仮にこれらのデータが悪意の第三者に傍受されたとしても、他のデータと関連性のないカナ表記の氏名の羅列が漏洩するだけであり、これによっても個人を特定することはできない。

さらに、サポート窓口１００での最終的な認識結果であるユーザーの氏名は、データベース会社２００側でランダムに付与されたＬＩＤとしてデータベース会社２００側に送信されるため、仮にこれが悪意の第三者に傍受されても、これによって個人情報が漏洩されることはない。

この結果、本実施形態によれば、音声認識を行うサポート窓口１００と、顧客データベースにより情報を提供するデータベース会社２００、さらにはサポートを提供するサポート部署３００とが別途独立した企業により実施されているときであっても、これらの企業間で送受される情報に関するセキュリティを向上させることができる。

実施形態に係るサポートサービスシステムの概略構成を示すブロック図である。実施形態に係るサポートサービスシステムの動作を示すフローチャート図である。実施形態に係るサポートサービスシステムの動作に伴い、サポート窓口１００、データベース会社２００及びサポート部署３００との間で送受されるデータの内容を示すブロック図である。

符号の説明

Ｄ１〜６…データ
Ｌ１…候補リスト
Ｔ１…顧客リスト
Ｔ２…住所等標準辞書
Ｔ３…氏名等標準辞書
Ｔ４…音響モデル辞書
Ｘ…ユーザー
１…接続切替部
１ａ…電話機（ユーザー使用）
２…応答プログラム実行部
２ａ…オペレータ端末
２ｂ…録音部
３…メッセージ選択・出力部
５…結果判定部
６…音声認識部
６ａ…氏名等認識部
６ｂ…住所等認識部
７…検索部
８…オペレータ接続部
２０…電話回線
３１…メッセージ音声蓄積部
４１…音声データ取得部
４２…操作信号取得部
６１…音声認識辞書データベース
６２…音響モデルデータベース
７１…顧客情報データベース
７２…候補リスト生成部
７３…リストＩＤ管理部
１００…サポート窓口
２００…データベース会社
３００…サポート部署

Claims

固定電話、携帯電話又はインタネット電話などのアナログ又はデジタル通信網（以下、「通信網」とする）から取得した音声データに基づいて、個人、法人又は組織（以下、「個人等」とする）を認識する音声認識システムであって、
前記個人等の氏名又は名称（以下、「氏名等」とする）と、該個人等の住所、居所又は所在地（以下、「住所等」とする）と、郵便番号、電話番号又は職業などのその他の関連情報（以下、「関連情報等」とする）とを関連づけて蓄積するデータベースと、
前記音声データを取得する音声データ取得部と、前記音声データ取得部が取得した前記音声データから文字列を認識する音声認識部と、前記音声認識部が認識した文字列に基づいて、前記データベースを検索する検索部とを備え、
前記検索部は、前記音声認識部から認識した住所等一部又は全部の文字列に基づいて絞り込まれた検索結果から、前記氏名等の音声データから氏名等を認識することを特徴とする音声認識システム。
前記通信網等を通じて、ユーザー操作に基づく操作信号を取得する操作信号取得部をさらに有し、前記操作信号取得部は、前記住所等の一部又は関連情報等を特定する操作信号を取得する機能を備え、
前記検索部は、前記操作信号取得部により特定された記住所等の一部又は関連情報等に基づいて前記データベースを検索する機能を備えることを特徴とする請求項１に記載の音声認識システム。
前記検索部による検索結果、又は前記音声認識部による認識結果に応じて、オペレータ端末又は録音装置に接続する接続切替部をさらに有することを特徴とする請求項１又は２に記載の音声認識システム。
前記住所等の一部又は全部に基づいて絞り込まれた検索結果を、氏名等の発音文字列のリスト（以下、「氏名リスト」とする）として生成する候補リスト生成部と、前記氏名リスト中の各発音文字列に対し、任意の識別子を付与するリストＩＤ管理部とを備え、
前記音声認識部は、前記氏名リストを用いて前記氏名等の認識を行い、認識された氏名等に付与された前記識別子を認識結果として出力することを特徴とする請求項１又は２に記載の音声認識システム。
前記音声認識部は、前記氏名リストに基づいて該氏名等の認識を行い、
認識結果に同姓同名又は同一名称が複数ある場合に、前記検索部が前記データベースより該同姓同名の個人等の住所等を取得し、前記候補リスト生成部が住所等の発音文字列リスト（以下、「住所リスト」とする）を生成し、前記リストＩＤ管理部が前記住所リスト中の各発音文字列に対し、任意の識別子を付与し、
前記音声データ取得部に対し、さらに詳細な住所等の音声データを取得させ、前記住所リストを用いて前記詳細な住所等の認識を行い、認識された住所等に付与された前記識別子を認識結果として出力することを特徴とする請求項１又は２に記載の音声認識システム。