JP2008015439A - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP2008015439A
JP2008015439A JP2006212590A JP2006212590A JP2008015439A JP 2008015439 A JP2008015439 A JP 2008015439A JP 2006212590 A JP2006212590 A JP 2006212590A JP 2006212590 A JP2006212590 A JP 2006212590A JP 2008015439 A JP2008015439 A JP 2008015439A
Authority
JP
Japan
Prior art keywords
address
unit
name
list
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006212590A
Other languages
English (en)
Inventor
Takashi I
傑 易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2006212590A priority Critical patent/JP2008015439A/ja
Publication of JP2008015439A publication Critical patent/JP2008015439A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 電話等から取得される音声を認識する際に、処理速度を低下させることなく、音声認識精度を向上させる。
【解決手段】 予め、顧客情報データベース71に、氏名等と、個人等の住所等とを関連づけて蓄積しておき、住所等の音声データ、及び氏名等の音声データを取得し、この取得した音声データから文字列を認識し、住所等に基づいて絞り込まれた検索結果から、氏名等の音声データに基づいて氏名等を認識する。
【選択図】図1

Description

本発明は、固定電話、携帯電話又はインタネット電話等の音声通話が可能な通信網(以下、「通信網」とする)を通じて取得される音声データに基づいて、個人、法人又はその他の組織(以下、「個人等」とする)の名称などを認識する音声認識システムに関する。
従来から、資料請求、テレフォンショッピング、アフターサポート等のサービスを電話で提供するためのコールセンターが多く設置されている。これらのサービスでは、電話をかけてきた相手を同定するため顧客の氏名等を特定する必要がある。
また、近年においては、音声自動応答装置(IVR)等を利用して、音声による自動応答を行うコンピュータシステムが普及しつつある。このIVRでは、例えば、発信者のダイヤル操作によるプッシュ信号を受信し、これに応じて、予め録音してある音声を発信者側に自動的に再生し、情報提供や資料請求、懸賞や応募の受け付けなど定型的な対応を無人で行うことができる。
このようなIVRによれば、オペレータに要する人件費を削減することが可能であるうえ、24時間受け付けが実現できる。また、受け付け内容は即座にデータベースに記録されるため、データ処理の迅速化、入力コストの削減が可能である。
そして、最近ではコンピュータ技術の進歩により、このIVRに音声認識機能(例えば、特許文献1)を設け、利用者の発話を認識し、その認識結果に応じてサービスの選択や、再生内容の変更など利便性を高めた技術も開発されている。
特開200229718号公報
しかしながら、前記通信網から取得される電話音声を認識して、前記個人等の氏名又は名称(以下、「氏名等」とする)の特定において、実用レベルの認識精度を維持するのは大変困難である。日本人の氏名は20数万種類あると言われており、最先端のコンピュータシステムと音声認識技術を用いても、リアルタイムかつ実用精度での処理が難しいとされる。また、日本人名リストに基づいて音声を認識するため、外国人利用者が利用できない難点もある。さらに、音声認識では、音声データをカナなどの表音記号の文字列に変換し、その文字列に対応する漢字表記に変換するが、人の手を介さない限り同音異字の氏名等(例えば、「伊東」と「伊藤」)を漢字表記に変換できない。
一方、処理速度を向上させるため、現在では出現頻度上位の数千〜数万の氏名に絞って音声認識を行なっているが、カバー率を高めるためには、演算処理量を増大させなければならず、これによって処理速度が遅延することが考えられ、実用性に欠けるという問題もある。
そこで、本発明は以上の点に鑑みてなされたもので、通信網から取得される音声を認識する際に、処理速度を低下させることなく、音声認識精度を向上させることのできる音声認識システムを提供することをその課題とする。
上記課題を解決するために、本発明は、音声通話が可能な通信網を通じて取得される音声データに基づいて、個人等を認識する音声認識システムであって、個人等の氏名等と、個人等の住所、居所又は所在地(以下、「住所等」とする)又はこれらの郵便番号、電話番号又は職業等の関連情報(以下、「関連情報等」とする)とを関連づけて蓄積するデータベースと、音声データを取得する音声データ取得部と、音声データ取得部が取得した音声データから文字列を認識する音声認識部と、音声認識部が認識した文字列に基づいて、データベースを検索する検索部とを備え、音声認識部は、住所等の一部又は全部に基づいて絞り込まれた検索部による検索結果を用いて、氏名等を認識することを特徴とするものである。
また、この発明は、音声通話が可能な通信網を通じて取得される音声データに基づいて、個人等を認識する音声認識システムであって、予め、検索データベースに、氏名等と、住所等と、関連情報等とを関連づけて蓄積しておき、住所等の一部又は全部、若しくは関連情報等を取得し、この取得された住所等の一部又は全部、若しくは関連情報等に基づいて検索データベースを検索し、この検索結果を用いて、氏名等の音声データを認識することを特徴とするものである。
上記発明によれば、住所、居所、所在地又はこれらの郵便番号、或いは電話番号などは、氏名等と比較して、文字数が長く、また同音文字のバリエーションも少ないことから、より高い精度で認識することができる。従って、この住所等により絞り込まれた候補の中から氏名等の認識を行うことによって、ほぼ100%に近い、認識率を実現することができる。
上記発明では、通信網を通じて、ユーザー操作に基づく住所等の一部、若しくは関連情報等を特定する操作信号を取得し、これにより特定された前記住所等の一部若しくは関連情報等に基づいてデータベースを検索してもよい。
この場合には、例えば、郵便番号など簡単な操作によって入力できる操作信号を利用して住所等の検索を行うことができるため、音声認識による誤り率を補うことが可能となり、その後の氏名等の認識をより確実なものとすることができる。
上記発明では、データベースの検索結果、又は音声認識による認識結果に応じて、オペレータ端末又は録音装置に接続する接続切替部をさらに有することが好ましい。
この場合には、上記検索又は認識が不可能であるときに、オペレータ端末又は録音装置に接続することが可能となり、オペレータによってサポートを続行したり、録音された情報によって後にサポートを行うなど、音声認識によるサービスの限界を補うことができる。
上記発明において、住所等の一部又は全部、若しくは関連情報等に基づいて絞り込まれた検索結果を、氏名等の発音文字列のリストとして生成するとともに、リスト中の各発音文字列に対し、任意の識別子を付与し、このリストを用いて氏名等の認識を行い、認識された氏名等に付与された識別子を認識結果として出力するようにしてもよい。なお、ここで、発音文字列とは、例えばカナ表記や、アルファベット表記、又は発音記号表記などをいう。
この場合には、例えば、音声認識を行うサービスと、データベースにより情報を提供するサービスとが別途独立した企業により実施されているときに、これらの企業間で送受される情報に関するセキュリティを向上させることができる。すなわち、住所等により絞り込まれた検索結果は、単にカナ表記等による氏名のリストであるため、これにより個人を特定することを極めて困難にすることができる。また、最終的に認識された氏名等は、検索データベース側で任意に付与された識別子であるため、これがデータベース側に送信する間に漏洩しても、個人を特定することは不可能となる。
また、この場合には、例えば住所等の一部分で十分に認識できるようなときに、不要な情報を発話或いは入力を要求する必要がなくなり、ユーザー負担が軽減されるとともに、個人情報が漏洩する機会を低減させることが可能となり、セキュリティの向上を図ることができる。
上記発明における音声認識において、住所等の一部、若しくは関連情報等に基づいて氏名等の認識を行い、この認識結果に同姓同名が複数ある場合に、さらにこれらの同姓同名の詳細な住所を取得するとともに、この取得された詳細な住所等を用いて、ユーザーに住所等を発声させ、この住所等の音声データを認識することによって、最終的に氏名等を間接的に認識することができる。
以上説明したように本発明によれば、電話等から取得される音声を認識する際に、住所等の音声データに基づいて絞り込まれた検索結果から、氏名等を認識することによって、処理速度を低下させることなく、音声認識精度を向上させ、さらには個人情報が漏洩する可能性を低減させることができる。
また、外国人であっても、データベースに登録されていれば、正しく認識されることができる。さらに、データベースには氏名等は漢字で登録されているため、氏名等の音声認識の結果は漢字で出力することができ、ダイレクトメール等の住所ラベルに漢字で印刷できるため、好感を持てる。
本発明の実施形態について、図面を参照しつつ説明する。本実施形態においては、本発明の音声認識システムを、コールセンターのサポートサービスに適用した場合を例に説明する。図1は、本実施形態に係るサポートサービスシステムの概略構成を示すブロック図である。なお、下記の説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、或いはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。
図1に示すように、本実施形態に係るサポートサービスは、ユーザーと直接対話し窓口業務を提供するサポート窓口100と、個人情報を管理するデータベース会社200と、実際にサポートサービスを行うサポート部署300とによって提供される。
サポート窓口100は、電話回線20によりユーザーXが使用する電話機1aに接続される。電話機1aは、通常の公衆回線や無線通信回線等により音声信号を送受する固定電話や携帯電話等の通信機であってもよく、また、例えばVoIP(VoiceoverInternetProtocol)技術により音声データとIPパケットデータとを相互に変換してIP網を通じて通話を行うIP電話であってもよい。電話回線20は、電話機1aが固定電話である場合は、公衆回線であり、電話機1aが携帯電話等の無線電話機である場合には、無線回線であり、電話機1aがIP電話である場合には、IP網回線である。
具体的に、サポート窓口100は、窓口業務を行う機能に関し、電話回線20が接続される接続切替部1と、システム全体を制御する応答プログラム実行部2と、IVR機能を果たすためのメッセージ選択・出力部3と、IVR機能では対応しきれない場合に接続されるオペレータ接続部8とを備えている。
接続切替部1は、例えばPBX(Private Branch eXchange:構内交換機)や、ルーター等、通信回線(或いは通信信号)を交換接続する機能を実現する装置であり、応答プログラム実行部2による制御に従って、電話機1aを音声認識システムやメッセージ選択・出力部3、オペレータ接続部8に選択的に接続する。
応答プログラム実行部2は、例えば、情報提供や資料請求、懸賞や応募の受け付けなどの定型的なサポートサービスを自動的に行うための応答プログラムを実行する情報処理装置であり、ユーザーXからの操作信号、発話、及び音声認識システムによる認識結果により、ユーザーXに対する対応(メッセージ等の選択及び出力、操作・音声信号の取得及び蓄積等)を決定する。
メッセージ選択・出力部3は、音声データを蓄積するメッセージ音声蓄積部31を備えており、応答プログラム実行部2による制御に従って、メッセージ音声蓄積部31内の音声データを読み出し、接続切替部1を通じて、ユーザーXの電話機1aに送出するモジュールである。メッセージ音声蓄積部31には、例えば、ガイダンス等の案内メッセージや、エラーメッセージ、サポート用のメッセージがWAV等の音声データとして蓄積されている。
オペレータ接続部8は、応答プログラム実行部2による無人対応による応答が不可能である場合に、オペレータによる有人サービスのためのオペレータ端末2aや、暫定的にユーザーからの発話を録音するサービスを提供する録音部2bに接続する交換機である。なお、有人サービスや録音サービスへの切り替えは、応答プログラム実行部2で判断され、応答プログラム実行部2が有人サービスへ切り替える旨のメッセージをメッセージ選択・出力部3により出力させた後、接続切替部1を切り替えて、オペレータ接続部8に接続させる。また、録音部2bに録音された音声は、オペレータによって再生され、サポート部署300に対して送信されるデータとして書き起こされる。
次いで、音声認識システムの具体的な構成について説明する。図1に示すように、音声認識システムは、サポート窓口100側に配置された、音声データ取得部41と、操作信号取得部42と、音声認識部6と、結果判定部5と、音声認識辞書データベース61と、音響モデルデータベース62と、データベース会社200側に配置された、検索部7と、顧客情報データベース71と、候補リスト生成部72と、リストID管理部73とを備えている。
音声データ取得部41は、接続切替部1を介して、電話機1aから音声データを取得するモジュールであり、応答プログラム実行部2による制御により動作し、取得された音声データはファイル形式に変換されて、音声認識部6に渡される。本実施形態において音声データ取得部41は、ユーザーXから、住所等(住所や郵便番号、電話番号)の音声と、氏名等(氏名や法人名)の音声とを別々のデータとして取得し、前者を住所等音声データとし、後者を氏名等音声データとして音声認識部6へ送出する。
音声認識部6は、音声データ取得部41が取得した音声データからカナ表記の文字列を認識するモジュールであり、認識処理のために音声認識辞書データベース61と音響モデルデータベース62とが接続されている。
音声認識辞書データベース61は、カナ表記の文字列のリストを辞書データとして保持するデータベースであり、本実施形態では全国の地名等を都道府県市町村等の行政区分に従って階層的に分割してカナ表記のリストとした住所等標準辞書T2と、日本国内に在住する個人等の名字や名称の上位20%〜30%(人口カバー率95%以上)をカナ表記のリストとした氏名等標準辞書T3とを有している。また、音響モデルデータベース62は、音声波形パターンと、この音声波形パターンに対応する文字(発音記号を含む)とを関連づけて蓄積する音響モデル辞書T4を格納するデータベース装置である。
また、上記音声認識部6では、音声データ取得部41から音声データが、住所等音声データ及び氏名等音声データとして別々に入力され、これらの音声データについてそれぞれ認識を行う、氏名等認識部6a及び住所等認識部6bとを有している。住所等認識部6bは、住所等の個人情報に関する音声データに基づいて、住所等標準辞書T2を検索し、検索結果を住所等の認識結果として検索部7に出力するモジュールである。氏名等認識部6aは、住所等の認識結果によって絞り込まれた氏名等のカナ表記リストである候補リストL1を用いて、氏名等の音声データから氏名等を認識するモジュールである。なお、本実施形態において、候補リストL1内の各データには、各データ固有のLIDが付与されており、氏名等認識部6aは、氏名等の最終的な認識結果を、これに付与されたLIDとして出力し、データベース会社200側のリストID管理部73に送信する機能を備えている。
そして、上記音声認識部6の氏名等認識部6a及び住所等認識部6bは、音声データの波形パターンと一致する(或いは近似する)音声波形パターンを音響モデルデータベース62から検索し、音声波形パターンとの一致度に応じて優先度を文字毎に付与し、優先度の高い文字の組み合わせでいくつかの認識文字列の候補を生成する。この認識文字列の候補と、音声認識辞書データベース61内の辞書T2,T3又は候補リストL1を照合し、辞書T2,T3又は候補リストL1内の文字列のうち最も一致度の高い文字列を、最終的な認識文字列として出力する。
結果判定部5は、検索部7における検索や、音声認識部6における認識の成果を判定するモジュールであり、具体的には、検索・認識結果が1つのみであるか、0個であるか、複数あるかを判定し、その判定結果を応答プログラム実行部2に報告する。応答プログラム実行部2では、この結果判定部5による判定結果に基づいて、検索・認識結果が1つのみであれば認識処理を終了し、次のサポート処理に移行し、検索・認識結果が0個又は複数あるときには、エラー処理を実行する。このエラー処理としては、再度認識処理を実行するリトライ処理や、有人サービスに切り替えるオペレータ接続処理、強制終了処理等が挙げられる。
データベース会社200側において検索部7は、音声認識部6の認識結果である文字列に基づいて、顧客情報データベース71を検索するモジュールであり、検索結果は、サポート窓口100側や、サポート部署300側に送出される。具体的に、この検索部7は、サポート窓口100側の住所等認識部6bによって認識された住所等や、操作信号取得部42によって取得された郵便番号や電話番号によって、その住所等によって絞り込まれる個人等を顧客情報データベース71から抽出し、抽出された個人等の氏名等を、カナ表記のリストとして、候補リスト生成部72に出力する。また、この検索部7は、音声認識部6による認識処理によって最終的に特定された個人等をリストID管理部73から受け取り、特定された個人情報(ユーザーID、住所等の漢字表記、電話番号など)をサポート部署300に送出する。さらに、検索部7は、検索処理により検出された結果のデータ数などを結果判定部5に送信する。
顧客情報データベース71は、個人、法人又はその他の組織の氏名又は名称と、これら個人等の住所、居所、所在地又はこれらの郵便番号、或いは電話番号などの個人情報とを関連づけて蓄積するとともに、これら氏名等や住所等それぞれのカナ表記を顧客リストT1として保持するデータベースであり、各個人等には、ユーザーIDが付与されている。
候補リスト生成部72は、住所等の個人情報に関する音声認識結果に基づいて、顧客情報データベース71から検索された個人情報に含まれる氏名等のカナ表記を氏名等の候補リストL1として、氏名等認識部6aに出力するモジュールである。また、リストID管理部73は、候補リスト生成部72で生成された候補リストL1の各データに対し、任意に設定された各データ固有のリストID(LID)を付与するとともに、各データとLIDとの関係を記憶保持しておくモジュールである。このリストID管理部73では、氏名等認識部6aから認識結果として受け取ったLIDにより、このLIDに関連づけられた候補リストのデータ(氏名等のカナ表記)を特定し、検索部7に出力する機能を備えている。
(サポートサービス方法)
以上の構成を有するサポートサービスシステムを動作させることによって、以下のようなサポートサービス方法を実施することができる。本発明の音声認識方法は、このサポートサービス方法の一環として実施される。図2は、本実施形態に係るサポートサービスシステムの動作を示すフローチャート図であり、図3は、図2における動作に伴い、サポート窓口100、データベース会社200及びサポート部署300との間で送受されるデータの内容を示すブロック図である。
図2に示すように、先ず、ユーザーXにおいてサポート窓口100に対して発呼処理(S101)がなされ、サポートサービスが開始され、応答プログラム実行部2により応答プログラムが起動される。
そして、応答プログラムの制御に従って、サポートサービス内容に応じた応答メッセージがメッセージ選択・出力部3により選択され、電話機1aに対して出力される(S102)。このとき、例えばIVR等の手段を用いて、ユーザーXに対してボタン操作を促し、その操作信号を取得することによって、ユーザーが要求しているサービスの内容を特定するサポートナンバーを取得する(S103)。なお、ここで取得されたサポートナンバーはデータD4(図3参照)として、後述するステップS115の顧客別応答処理において、サポート部署300に送信される。
いま、サポートサービスの必要上、ユーザーXを特定する必要が生じたものと仮定する。この必要に応じて、本実施形態では、応答プログラム実行部2は、ユーザーXに対してメッセージを出力し、郵便番号のボタン入力か、発話による音声認識かの選択を促し(S104)、ボタン操作による場合には、郵便番号のボタン入力を要求し、その操作信号を操作信号取得部42により取得する(S105)。取得された郵便番号は、データベース会社200側の検索部7にデータD1(図3参照)として送信され、後述するステップS109における住所等のデータベース検索で用いられる。この操作信号の取得が成功した場合(ステップS106における“Y”)には、ステップS109に移行し、操作信号の取得に失敗した場合(ステップS106における“N”)には、ステップS107に移行し、発話に対する音声認識を開始する。
ステップS107では、ユーザーXに対し発話を促し、音声データ取得部41により、住所等の音声データを取得する。ここでは、住所等の前半部分(例えば、都道府県及び市町村程度)を取得する。この取得された住所等の音声データは、住所等認識部6bにおいて、住所等標準辞書T2と照合することにより、カナ表記の文字列として認識され(S108)、データベース会社200側の検索部7にデータD2として(図3参照)受け渡される。なお、図3においてこのデータD2は「アキタケンXXシXXチョウ」と認識されたものとしている。
そして、検索部7では、住所等の個人情報に関する音声認識結果に基づいて、顧客情報データベース71を検索し(S109)、候補リスト生成部72により、検索結果を氏名等のカナ表記リストである候補リストL1として、氏名等認識部6aに出力する(S110)。すなわち、図3に示すように、秋田県XX市XX町に住んでいる全ての個人等の氏名のカナ表記が、顧客情報データベース71から抽出され、この抽出された結果が候補リスト生成部72に出力される。なお、図3に示した例では、秋田県XX市XX町に二人の顧客が在住しており、これらの氏名が「ヤマダタロウ」及び「スズキハナコ」であったとしている。また、この候補リストL1内の各データに対しては、リストID管理部73によって、リストID(LID)が付与されている。
次いで、図2に示すように、応答プログラム実行部2は、ユーザーXに対してメッセージを出力し、氏名等の発話を促し、音声データ取得部41により、氏名等の音声データを取得する(S111)。この取得された氏名等の音声データについて、氏名等認識部6aで音響モデルデータベース62の音響モデル辞書T4を照合しつつ、文字列を認識するとともに、認識文字列について候補リストL1を照合し、その一致度に基づいて、氏名等を認識する(S112)。なお、このとき、候補リストL1を用いた認識では不十分であるときに適宜、音声認識辞書データベース61内の氏名等標準辞書T3を用いて認識する。なお、図3に示した例では、氏名等の認識結果は、「ヤマダタロウ」であり、これに付与された「LID:1」が、認識結果であるデータD3として出力される。
また、これと併せて住所等認識部6bは、その認識結果を結果判定部5に出力する。結果判定部5では、認識結果が1つのみであるか、0個であるか、複数あるかを判定し、その判定結果を応答プログラム実行部2に報告する。応答プログラム実行部2では、この結果判定部5による判定結果に基づいて、認識処理が成功しているか否かを判断し(S113)、検索結果が1つのみであれば(ステップS113における“Y”)、認識結果を音声認識辞書に反映すべく辞書を更新し(S114)、特定された顧客に適したサービスを実施すべく、顧客別応答メッセージをメッセージ選択・出力部3から出力させ(S115)、処理を終了する。
このステップS115では、図3に示すように、認識結果のデータD3を、データベース会社200側のリストID管理部73に送信し、送信されたLID(データD3である「LID:1」)に関連づけられた氏名等(「ヤマダタロウ」)であるデータD5と、前記ステップS108で取得された住所等(「アキタケンXXシXXチョウ」)であるデータD2とに基づいて、顧客情報データベース71の顧客リストT1を検索する(図3におけるステップS201)。そして、該当する個人等(ユーザーID:X、山田太郎)を特定し、この特定された個人情報を、データD6としてサポート部署300に送信する。
また、ステップS115では、ステップS103で取得されたサポートナンバーをデータD4としてサポート部署300に送信していることから、サポート部署300では、秋田県XX市XX町在住の「ユーザーID:X、氏名:・山田太郎」に対して、サポートナンバーにより特定されるサポートサービス(例えば、資料の送付など)を実施(図3におけるステップS203)することができる。
一方、図2のステップS113において、検索結果が0個又は複数あるときには、認識処理が失敗していると判断し(ステップS113における“N”)、再度認識処理(リトライ)をすべきか否かを判断する(S116)。この判断としては、例えば、リトライ回数をカウントしておき、リトライ回数が上限に達しているか否か、タイムアップなどを基準にするなどが挙げられる。
ステップS116においてリトライすべきと判断したとき(ステップS116における“Y”)には、ステップS102に戻り、上述したステップS102以降の処理を実行する。この2度目の住所等の認識に際しては、第1回目で発話させた住所等の前半部分のみならず、さらに詳細な住所等の後半部分(例えば、丁目、番地、マンション名、室号など)まで発話させる。これにより、住所等による絞り込み精度を高めることができ、1回目で複数あった認識結果の数を減らすことが可能となる。
また、ステップS116においてリトライすべきではないと判断したとき(ステップS116における“N”)には、ステップS117に移行し、有人サービス又は録音サービスに切り替えるためのオペレータ接続処理を実行すべきか否かを判断する(S117)。オペレータサービスや録音サービスに接続する必要があるとき(ステップS117における“Y”)には、ステップS119に移行し、オペレータ接続部8を起動し、オペレータへの接続が不要であるとき(ステップS117における“N”)には、メッセージ選択・出力部3からエラーメッセージを出力させ(S118)、処理を終了させる。
ステップS119においてオペレータの端末2aに接続した場合には、オペレータによりユーザーXの住所等、氏名等及びサポートナンバーを聞き取り、これをデータ化してサポート部署300に対して送信する(図3におけるステップS202)。また、録音部2bに接続した場合には、ユーザーXに対して発話を行わせ、これを認識処理することなく録音し、後にオペレータにより再生し、ユーザーXの住所等、氏名等及びサポートナンバーを聞き取り、これをデータ化してサポート部署300に対して送信する(図3におけるステップS202)。
なお、本実施形態では、住所等の認識処理(S108)が終了した後に、氏名等の音声データの取得及び認識(S111,S112)を実行したが、住所等及び氏名等の音声データの取得は、各認識処理の前にまとめて行ってもよい。
(本実施形態による作用・効果)
以上説明した本実施形態に係る音声認識システム及び音声認識方法によれば、住所等は、氏名等と比較して、文字数が長く、また同音文字のバリエーションも少ないことから、より高い精度で認識することができ、住所等認識部6bにより絞り込まれた候補リストL1を用いて、氏名等認識部6aにおいて氏名等の認識を行うことにより、ほぼ100%に近い、認識率を実現することができる。この結果、本実施形態によれば、コールセンターにおけるサポートサービスにおいて、電話等から取得される音声を認識する際に、処理速度を低下させることなく、ユーザーの特定精度を向上させることができる。
本実施形態では、音声認識に際し、1回目の認識では、住所等の前半部分を取得し、これによる氏名等の認識結果が複数ある場合に、さらに詳細な住所等を取得して、この取得された詳細な住所等を用いて、ユーザーXに住所等を発声させ、この住所等の音声データを認識することによって、最終的に氏名等を間接的に認識することから、例えば住所等の前半部分で、十分に認識できるようなときに、不要な情報を発話或いは入力する必要がなくなり、ユーザー負担が軽減されるとともに、個人情報が漏洩する機会を低減させることが可能となり、セキュリティの向上を図ることができる。
また、本実施形態では、操作信号取得部42により、住所等の音声認識に先行させて、ユーザー操作により郵便番号を取得するため、簡単な操作によって入力できる情報を利用して住所等による絞り込みを行うことができ、ユーザーに対する負担を増大させることなく、音声認識による誤り率を補うことが可能となる。
さらに、本実施形態では、音声認識による自動対応ができない場合に、オペレータ端末2a又は録音部2bに接続するため、音声認識が不可能であるときであっても、サポートを続行したり、録音された情報によって後にサポートを行うなどが可能となり、音声認識によるサービスの限界を補うことができる。
特に、本実施形態では、住所等に基づいて絞り込まれた検索結果を、氏名等のカナ表記とLIDとから構成される候補リストL1として、データベース会社200から、サポート窓口100に対して送信するため、データベース会社200に保持された個人情報が、外部に漏洩するのを防止することができ、セキュリティの向上を図ることができる。
詳述すると、サポート窓口100側で住所等を認識した時点では、住所のみが認識されているに過ぎず、仮に、これをデータベース会社200側に送信する際に、悪意の第三者に傍受されたとしても、個人を特定することはできない。
また、住所等の認識結果に対するデータベース会社200からの返信は、カナ表記の氏名等と、これらにランダムに付与されたLIDとからなるリストのみなので、仮にこれらのデータが悪意の第三者に傍受されたとしても、他のデータと関連性のないカナ表記の氏名の羅列が漏洩するだけであり、これによっても個人を特定することはできない。
さらに、サポート窓口100での最終的な認識結果であるユーザーの氏名は、データベース会社200側でランダムに付与されたLIDとしてデータベース会社200側に送信されるため、仮にこれが悪意の第三者に傍受されても、これによって個人情報が漏洩されることはない。
この結果、本実施形態によれば、音声認識を行うサポート窓口100と、顧客データベースにより情報を提供するデータベース会社200、さらにはサポートを提供するサポート部署300とが別途独立した企業により実施されているときであっても、これらの企業間で送受される情報に関するセキュリティを向上させることができる。
実施形態に係るサポートサービスシステムの概略構成を示すブロック図である。 実施形態に係るサポートサービスシステムの動作を示すフローチャート図である。 実施形態に係るサポートサービスシステムの動作に伴い、サポート窓口100、データベース会社200及びサポート部署300との間で送受されるデータの内容を示すブロック図である。
符号の説明
D1〜6…データ
L1…候補リスト
T1…顧客リスト
T2…住所等標準辞書
T3…氏名等標準辞書
T4…音響モデル辞書
X…ユーザー
1…接続切替部
1a…電話機(ユーザー使用)
2…応答プログラム実行部
2a…オペレータ端末
2b…録音部
3…メッセージ選択・出力部
5…結果判定部
6…音声認識部
6a…氏名等認識部
6b…住所等認識部
7…検索部
8…オペレータ接続部
20…電話回線
31…メッセージ音声蓄積部
41…音声データ取得部
42…操作信号取得部
61…音声認識辞書データベース
62…音響モデルデータベース
71…顧客情報データベース
72…候補リスト生成部
73…リストID管理部
100…サポート窓口
200…データベース会社
300…サポート部署

Claims (5)

  1. 固定電話、携帯電話又はインタネット電話などのアナログ又はデジタル通信網(以下、「通信網」とする)から取得した音声データに基づいて、個人、法人又は組織(以下、「個人等」とする)を認識する音声認識システムであって、
    前記個人等の氏名又は名称(以下、「氏名等」とする)と、該個人等の住所、居所又は所在地(以下、「住所等」とする)と、郵便番号、電話番号又は職業などのその他の関連情報(以下、「関連情報等」とする)とを関連づけて蓄積するデータベースと、
    前記音声データを取得する音声データ取得部と、前記音声データ取得部が取得した前記音声データから文字列を認識する音声認識部と、前記音声認識部が認識した文字列に基づいて、前記データベースを検索する検索部とを備え、
    前記検索部は、前記音声認識部から認識した住所等一部又は全部の文字列に基づいて絞り込まれた検索結果から、前記氏名等の音声データから氏名等を認識することを特徴とする音声認識システム。
  2. 前記通信網等を通じて、ユーザー操作に基づく操作信号を取得する操作信号取得部をさらに有し、前記操作信号取得部は、前記住所等の一部又は関連情報等を特定する操作信号を取得する機能を備え、
    前記検索部は、前記操作信号取得部により特定された記住所等の一部又は関連情報等に基づいて前記データベースを検索する機能を備えることを特徴とする請求項1に記載の音声認識システム。
  3. 前記検索部による検索結果、又は前記音声認識部による認識結果に応じて、オペレータ端末又は録音装置に接続する接続切替部をさらに有することを特徴とする請求項1又は2に記載の音声認識システム。
  4. 前記住所等の一部又は全部に基づいて絞り込まれた検索結果を、氏名等の発音文字列のリスト(以下、「氏名リスト」とする)として生成する候補リスト生成部と、前記氏名リスト中の各発音文字列に対し、任意の識別子を付与するリストID管理部とを備え、
    前記音声認識部は、前記氏名リストを用いて前記氏名等の認識を行い、認識された氏名等に付与された前記識別子を認識結果として出力することを特徴とする請求項1又は2に記載の音声認識システム。
  5. 前記音声認識部は、前記氏名リストに基づいて該氏名等の認識を行い、
    認識結果に同姓同名又は同一名称が複数ある場合に、前記検索部が前記データベースより該同姓同名の個人等の住所等を取得し、前記候補リスト生成部が住所等の発音文字列リスト(以下、「住所リスト」とする)を生成し、前記リストID管理部が前記住所リスト中の各発音文字列に対し、任意の識別子を付与し、
    前記音声データ取得部に対し、さらに詳細な住所等の音声データを取得させ、前記住所リストを用いて前記詳細な住所等の認識を行い、認識された住所等に付与された前記識別子を認識結果として出力することを特徴とする請求項1又は2に記載の音声認識システム。
JP2006212590A 2006-07-07 2006-07-07 音声認識システム Pending JP2008015439A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006212590A JP2008015439A (ja) 2006-07-07 2006-07-07 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006212590A JP2008015439A (ja) 2006-07-07 2006-07-07 音声認識システム

Publications (1)

Publication Number Publication Date
JP2008015439A true JP2008015439A (ja) 2008-01-24

Family

ID=39072485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006212590A Pending JP2008015439A (ja) 2006-07-07 2006-07-07 音声認識システム

Country Status (1)

Country Link
JP (1) JP2008015439A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009258791A (ja) * 2008-04-11 2009-11-05 Pfu Ltd セルフサービス端末装置およびガイダンス画面制御方法
JP2014178839A (ja) * 2013-03-14 2014-09-25 Nec Fielding Ltd 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2014197140A (ja) * 2013-03-29 2014-10-16 株式会社日本総合研究所 オペレータ本人確認支援システム及びその方法
JP2015049337A (ja) * 2013-08-30 2015-03-16 株式会社東芝 音声応答装置、音声応答プログラム及び音声応答方法
JP2018522303A (ja) * 2015-11-17 2018-08-09 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 アカウント追加方法、端末、サーバ、およびコンピュータ記憶媒体
JP2019008605A (ja) * 2017-06-26 2019-01-17 積水ハウス株式会社 情報処理システム
JP2019522914A (ja) * 2016-06-13 2019-08-15 グーグル エルエルシー 人間のオペレータへのエスカレーション
US10827064B2 (en) 2016-06-13 2020-11-03 Google Llc Automated call requests with status updates
US11303749B1 (en) 2020-10-06 2022-04-12 Google Llc Automatic navigation of an interactive voice response (IVR) tree on behalf of human user(s)
US11468893B2 (en) 2019-05-06 2022-10-11 Google Llc Automated calling system

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009258791A (ja) * 2008-04-11 2009-11-05 Pfu Ltd セルフサービス端末装置およびガイダンス画面制御方法
JP2014178839A (ja) * 2013-03-14 2014-09-25 Nec Fielding Ltd 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2014197140A (ja) * 2013-03-29 2014-10-16 株式会社日本総合研究所 オペレータ本人確認支援システム及びその方法
JP2015049337A (ja) * 2013-08-30 2015-03-16 株式会社東芝 音声応答装置、音声応答プログラム及び音声応答方法
JP2018522303A (ja) * 2015-11-17 2018-08-09 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 アカウント追加方法、端末、サーバ、およびコンピュータ記憶媒体
US10827064B2 (en) 2016-06-13 2020-11-03 Google Llc Automated call requests with status updates
JP2019522914A (ja) * 2016-06-13 2019-08-15 グーグル エルエルシー 人間のオペレータへのエスカレーション
US20190306314A1 (en) 2016-06-13 2019-10-03 Google Llc Automated call requests with status updates
US10917522B2 (en) 2016-06-13 2021-02-09 Google Llc Automated call requests with status updates
US11563850B2 (en) 2016-06-13 2023-01-24 Google Llc Automated call requests with status updates
US11936810B2 (en) 2016-06-13 2024-03-19 Google Llc Automated call requests with status updates
JP2019008605A (ja) * 2017-06-26 2019-01-17 積水ハウス株式会社 情報処理システム
US11468893B2 (en) 2019-05-06 2022-10-11 Google Llc Automated calling system
US11303749B1 (en) 2020-10-06 2022-04-12 Google Llc Automatic navigation of an interactive voice response (IVR) tree on behalf of human user(s)
US20220201119A1 (en) 2020-10-06 2022-06-23 Google Llc Automatic navigation of an interactive voice response (ivr) tree on behalf of human user(s)
US11843718B2 (en) 2020-10-06 2023-12-12 Google Llc Automatic navigation of an interactive voice response (IVR) tree on behalf of human user(s)

Similar Documents

Publication Publication Date Title
JP2008015439A (ja) 音声認識システム
US8328089B2 (en) Hands free contact database information entry at a communication device
US6996531B2 (en) Automated database assistance using a telephone for a speech based or text based multimedia communication mode
KR100369696B1 (ko) 자동 호출 및 데이터 전송 프로세싱 시스템 및 방법
US5905773A (en) Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models
US6580790B1 (en) Calling assistance system and method
US6891932B2 (en) System and methodology for voice activated access to multiple data sources and voice repositories in a single session
US6687673B2 (en) Speech recognition system
EP0943203B1 (en) Method and apparatus for locating a desired record in a telephone directory
US6163596A (en) Phonebook
JP3868423B2 (ja) 音声認識を通じて構築された個人電話番号簿データベースを利用した音声自動接続サービス方法
US8185539B1 (en) Web site or directory search using speech recognition of letters
US20040260543A1 (en) Pattern cross-matching
JPH0685893A (ja) 音声テレフォン・ダイヤリング
US6223156B1 (en) Speech recognition of caller identifiers using location information
KR100822170B1 (ko) 음성 인식 ars 서비스를 위한 데이터베이스 구축 방법및 시스템
US20030081738A1 (en) Method and apparatus for improving access to numerical information in voice messages
US20020164978A1 (en) System and method for making telecommunication calls
US8213966B1 (en) Text messages provided as a complement to a voice session
JP5007209B2 (ja) ユーザデータ管理システム、情報提供システム、およびユーザデータ管理方法
KR100574007B1 (ko) 음성 인식 기반의 개인별 전화국 서비스 제공 시스템 및 그 방법, 상기 방법을 실행하기 위한 프로그램이 기록된 기록매체
JPH1013546A (ja) 音声ダイヤルシステム
JP2000278369A (ja) 通信装置、データ取得装置及びデータの取得方法
JP2000253135A (ja) 自動応答装置及び方法