JP5042194B2

JP5042194B2 - 話者テンプレートを更新する装置及び方法

Info

Publication number: JP5042194B2
Application number: JP2008275807A
Authority: JP
Inventors: 紫三木; 雅美野口
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2008-10-27
Filing date: 2008-10-27
Publication date: 2012-10-03
Anticipated expiration: 2028-10-27
Also published as: US10621974B2; US8775178B2; US11335330B2; US20140278414A1; US20200227027A1; US20100106501A1; JP2010102254A

Description

本発明は、話者テンプレートを更新する装置及び方法に関する。特に、本発明は、話者をその音声に基づいて認識するための話者テンプレートを更新する装置及び方法に関する。

話者が発する音声に基づいて話者を認識する場合、話者テンプレートが用いられる。ここで、話者テンプレートとは、話者を認識のための参照用データであり、例えば、話者が発した音声信号を音響分析することで得られる音響ベクトル列におけるケプストラム係数等のパラメータを用いて作成されるものである。
通常、この話者テンプレートは、話者となるユーザがシステムの使用を開始する時点等で登録される。ところが、その後にユーザの発話様式が変わることも十分に考えられ、そうなると、同じ話者テンプレートを用いたのでは、話者認識率が下がってしまう。このような場合、話者テンプレートを再登録することも考えられるが、これはユーザに余計な作業を強いることになり、好ましくない。

そこで、話者認識において発話様式や経時変化等による誤認識を従来よりも削減する技術が提案されている（例えば、特許文献１参照）。
特許文献１では、テンプレートと認識データ間の距離を、複数の話者全体に対するＶＱコードブックと認識データとのＶＱ歪みを引いて補正しており、このように補正した値は発話様式や経時変化等によるバラツキが小さくなるので、補正した値を話者類似尺度に用いて話者認識を行っている。

特開平１１−８５１８２号公報

このように、従来、話者認識において発話様式や経時変化等による誤認識を削減する試みはなされていた。
しかしながら、特許文献１では、実際の話者認識時にテンプレートと認識データ間の距離を補正することで、発話様式や経時変化等によるバラツキを小さくしているので、話者認識の処理を行う都度、同様の補正による処理時間がかかるという問題点があった。

本発明の目的は、ユーザに余計な作業を強いることなく、実際の話者認識にかかる処理時間を短く抑えて、話者認識の精度を向上することにある。
本発明の他の目的は、話者認識の精度を向上するために更新すべき話者テンプレートの検索を高速化することにある。

かかる目的のもと、本発明は、話者を話者が発する音声に基づいて認識するための話者テンプレートを更新する装置であって、複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、特定の話者が発した音声メッセージに基づいて、特定の話者が発する音声の特徴を抽出する特徴抽出部と、記憶部に記憶された複数の話者テンプレートの中から、特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、選択部により選択された特定の話者テンプレートを、特徴抽出部により抽出された音声の特徴に基づいて更新する更新部とを備えた、装置を提供する。

ここで、この装置は、特定の話者が発した音声メッセージの宛先人を特定する特定部と、特定部により特定された宛先人の音声メッセージの交換の履歴に基づいて、特定の話者テンプレートの候補である複数の候補テンプレートを決定する決定部とを更に備え、選択部は、決定部により決定された複数の候補テンプレートの中から、特定の話者テンプレートを選択する、ものであってよい。その場合、決定部は、宛先人が過去に音声メッセージを交換したことのある複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを、複数の候補テンプレートとして決定する、ものであってよい。

また、この装置は、特定の話者が発した音声メッセージを音声認識する音声認識部と、音声認識部による音声認識の結果として得られた特定のデータからキーワードを抽出するキーワード抽出部と、キーワード抽出部により抽出されたキーワードに基づいて、特定の話者テンプレートの候補である複数の候補テンプレートを決定する決定部とを更に備え、選択部は、決定部により決定された複数の候補テンプレートの中から、特定の話者テンプレートを選択する、ものであってよい。その場合、決定部は、キーワード抽出部により抽出されたキーワードに関係するものとして予め定められた複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを、複数の候補テンプレートとして決定する、ものであってよい。

更に、この装置において、特定の話者が発した音声メッセージは、特定の話者と特定の話者以外の他の話者との間で電話回線を介して交換されたものであり、特徴抽出部は、特定の電話回線から得られた音声メッセージに基づいて、特定の話者が発する音声の特徴を抽出する、ものであってよい。
更にまた、この装置は、特定の話者以外の他の話者が発した音声メッセージを特定の話者に聴取させるに当たって、特定の話者テンプレートを用いて特定の話者を認証する認証部を更に備えた、ものであってよい。

また、本発明は、話者を話者が発する音声に基づいて認識するための話者テンプレートを更新する装置であって、複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、特定の話者と特定の話者以外の他の話者との間で電話回線を介して交換された音声メッセージに基づいて、特定の話者が発する音声の特徴を抽出する特徴抽出部と、記憶部に記憶された複数の話者テンプレートの中から、他の話者が過去に音声メッセージを交換したことのある複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する決定部と、決定部により決定された複数の候補テンプレートの中から、特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、選択部により選択された特定の話者テンプレートを、特徴抽出部により抽出された音声の特徴に基づいて更新する更新部とを備えた、装置を提供する。

また、本発明は、話者を話者が発する音声に基づいて認識するための話者テンプレートを更新する装置であって、複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、特定の話者が電話回線を介して発した音声メッセージに基づいて、特定の話者が発する音声の特徴を抽出する特徴抽出部と、特定の話者が電話回線を介して発した音声メッセージを音声認識する音声認識部と、音声認識部による音声認識の結果として得られた特定のデータからキーワードを抽出するキーワード抽出部と、記憶部に記憶された複数の話者テンプレートの中から、キーワード抽出部により抽出されたキーワードに関係するものとして予め定められた複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する決定部と、決定部により決定された複数の候補テンプレートの中から、特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、選択部により選択された特定の話者テンプレートを、特徴抽出部により抽出された音声の特徴に基づいて更新する更新部とを備えた、装置も提供する。

更に、本発明は、話者を話者が発する音声に基づいて認識するための話者テンプレートを更新する方法であって、複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶するステップと、特定の話者が発した音声メッセージに基づいて、特定の話者が発する音声の特徴を抽出するステップと、記憶された複数の話者テンプレートの中から、抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択するステップと、選択された特定の話者テンプレートを、抽出された音声の特徴に基づいて更新するステップとを含む、方法も提供する。

更にまた、本発明は、話者を話者が発する音声に基づいて認識するための話者テンプレートを更新する装置としてコンピュータを機能させるプログラムであって、コンピュータを、複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、特定の話者が発した音声メッセージに基づいて、特定の話者が発する音声の特徴を抽出する特徴抽出部と、記憶部に記憶された複数の話者テンプレートの中から、特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、選択部により選択された特定の話者テンプレートを、特徴抽出部により抽出された音声の特徴に基づいて更新する更新部として機能させる、プログラムも提供する。

本発明によれば、ユーザに余計な作業を強いることなく、実際の話者認識にかかる処理時間を短く抑えて、話者認識の精度を向上することができる。

以下、添付図面を参照して、本発明を実施するための最良の形態（以下、「実施の形態」という）について詳細に説明する。尚、本実施の形態では、メッセージボックスに登録された音声メッセージ（以下、単に「メッセージ」という）が一定時間未開封であった場合に、その音声メッセージの宛先人とは別の代理人に音声メッセージを確認させるシステムを前提とする。そして、このシステムで代理人の認証のために用いられる話者テンプレート（以下、単に「テンプレート」という）を自動更新するものとして説明する。

まず、本実施の形態が適用されるコンピュータシステムについて説明する。
図１は、このようなコンピュータシステムの全体構成例を示した図である。
図示するように、このコンピュータシステムは、電話機１０ａ〜１０ｆと、公衆網２０と、ＰＢＸ（Private Branch eXchange）３０と、ＩＶＲ（Interactive Voice Response）４０と、メッセージ管理装置５０と、声紋認証装置６０とを含んでいる。

電話機１０ａ〜１０ｆは、音声による空気の振動を電気信号に変えて相手の電話機に送信する送話器と、相手の電話機から受信した電気信号を空気の振動に変える受話器とからなり、遠隔地間での会話を可能とした機器である。ここで、電話機１０ａ〜１０ｃは外線電話機であり、公衆網２０を介してＰＢＸ３０と接続されており、電話機１０ｄ〜１０ｆは内線電話機であり、内線を介してＰＢＸ３０と接続されている。尚、図では、６台の電話機１０しか示していないが、７台以上の電話機１０を設けてもよい。また、電話機１０ａ〜１０ｆは、固定電話機であっても、携帯電話機であってもよい。更に、以下で、電話機１０ａ〜１０ｆを区別しない場合は、単に「電話機１０」ということもある。

公衆網２０は、一般の加入電話回線ネットワークである。
ＰＢＸ３０は、構内交換機である。即ち、企業等において、内線電話機である電話機１０どうしの接続や、公衆網２０への接続を行う。また、電話機１０から入力された音声をデジタル化した音声データからなるメッセージとしてＩＶＲ４０に出力する。

ＩＶＲ４０は、音声自動応答装置である。即ち、発信者が電話機１０を操作すると、その操作の内容を受け付け、その操作に対して予め決められている音声を自動的に出力する。また、発信者が電話機１０からメッセージを入力すると、そのメッセージを受け付ける。
メッセージ管理装置５０は、電話機１０から入力されたメッセージをメッセージボックスに登録して管理し、管理しているメッセージを電話機１０で再生するために読み出して出力する。
声紋認証装置６０は、メッセージ管理装置５０で管理されるメッセージを電話機１０で再生する場合に、その電話機１０でのメッセージの聴取者が正当であるかをその聴取者の声紋を用いて認証する。

このような構成を有するコンピュータシステムにおいて、本実施の形態では、メッセージがメッセージボックスに登録されてから一定時間未開封の場合に、代理人にメッセージを開封させ、聴取（確認）させる。また、セキュリティ上、代理人がメッセージを確認する際には、代理人の認証を行う。そして、特に、この認証に用いるテンプレートを自動的に更新することで、精密な話者特定を実現する。

次に、このような動作を実現するためのＩＶＲ４０、メッセージ管理装置５０、声紋認証装置６０の機能構成について説明する。
図２は、ＩＶＲ４０、メッセージ管理装置５０、声紋認証装置６０の機能構成例を示したブロック図である。
まず、ＩＶＲ４０の機能構成について説明する。
図示するように、ＩＶＲ４０は、音声応答部４１と、音声認識部４２と、ダイヤルアウト部４３と、会話記憶部４４とを備える。

音声応答部４１は、ＰＢＸ３０から電話機１０のダイヤル操作の情報やメッセージを受け付け、機械音声による応答を行う。そして、受け付けた情報を、メッセージ管理装置５０や声紋認証装置６０に出力し、受け付けたメッセージは音声認識部４２にも出力する。また、会話記憶部４４から回線ごとの会話データを読み出す。本実施の形態では、音声メッセージの宛先人を特定する特定部の一例として、音声応答部４１を設けている。
音声認識部４２は、音声応答部４１から入力されたメッセージをリアルタイムで認識し、データ化する。本実施の形態では、音声メッセージを音声認識する音声認識部の一例として、音声認識部４２を設けている。

ダイヤルアウト部４３は、ＰＢＸ３０にダイヤル情報を送信して、指定された電話番号に電話をかけるように指示する。
会話記憶部４４は、電話回線を介して二者間で交換される会話の音声データ（以下、「会話データ」という）をＰＢＸ３０から取得して回線別に記憶する。例えば、ユーザＡとユーザＢが電話で話した場合であれば、ユーザＡが電話をかけてきた回線の回線ＩＤに関連付けてユーザＡの会話データを記憶し、ユーザＢが電話をかけてきた回線の回線ＩＤに関連付けてユーザＢの会話データを記憶する。ここで、回線ＩＤは、回線を一意に識別する識別情報である。

次に、メッセージ管理装置５０の機能構成について説明する。
図示するように、メッセージ管理装置５０は、メッセージ記憶部５１と、データベース（ＤＢ）管理部５５と、言語解析部５７とを備える。

メッセージ記憶部５１は、メッセージボックス、ＩＶＲ４０から入力されたメッセージ、そのメッセージの確認を依頼する代理人等を対応付けたメッセージ情報を記憶する。
ＤＢ管理部５５は、メッセージ記憶部５１を管理する。例えば、ＩＶＲ４０から入力されたメッセージ等をメッセージ記憶部５１に記憶し、未開封のメッセージを代理人に確認させるために読み出す。また、メッセージの確認を依頼する代理人を決定する。本実施の形態では、発信者に対して予め定められ、かつ、キーワードに対して予め定められたユーザを、代理人として決定する決定部の一例として、ＤＢ管理部５５を設けている。
言語解析部５７は、ＩＶＲ４０の音声認識部４２による音声認識の結果として得られたデータを解析して、メッセージの話者及び案件を特定する。本実施の形態では、電子メッセージの発信者を特定する特定部の一例として、また、電子メッセージからその主題を表すキーワードを抽出する抽出部の一例として、言語解析部５７を設けている。

次いで、声紋認証装置６０の機能構成について説明する。
図示するように、声紋認証装置６０は、テンプレート情報記憶部６１と、履歴情報記憶部６２と、キーワード情報記憶部６３と、データベース（ＤＢ）管理部６５と、音声解析部６６と、言語解析部６７とを備える。

テンプレート情報記憶部６１は、ユーザＩＤ、ボックスＩＤ、ユーザ名、声紋認証に用いられるテンプレート等を対応付けたテンプレート情報を記憶する。本実施の形態では、複数の話者テンプレートを記憶する記憶部の一例として、テンプレート情報記憶部６１を設けている。
履歴情報記憶部６２は、内線番号と、過去にその内線番号からメッセージが届けられたメッセージボックスのボックスＩＤとを対応付けた履歴情報を記憶する。
キーワード情報記憶部６３は、キーワードと、そのキーワードに関連する会話を行うことが想定されるユーザのメッセージボックスのボックスＩＤとを対応付けたキーワード情報を記憶する。

ＤＢ管理部６５は、テンプレート情報記憶部６１、履歴情報記憶部６２、キーワード情報記憶部６３を管理する。例えば、ＩＶＲ４０から入力された代理人を特定する情報に基づいてテンプレート情報記憶部６１を参照することにより、テンプレートを読み出す。また、ＩＶＲ４０から入力された回線ＩＤに対応する内線番号に基づいて履歴情報記憶部６２を検索したり、言語解析部６７が音声認識の結果を解析して得たキーワードに基づいてキーワード情報記憶部６３を検索したりすることにより、検索範囲のボックスＩＤを決定する。そして、テンプレート情報記憶部６１のそのボックスＩＤに対応するテンプレートを対象として、更新対象のテンプレートを検索する。本実施の形態では、特定の話者テンプレートを選択する選択部の一例として、特定の話者テンプレートを更新する更新部の一例として、また、特定の話者テンプレートの候補である複数の候補テンプレートを決定する決定部の一例として、更には、特定の話者テンプレートを用いて特定の話者を認証する認証部の一例として、ＤＢ管理部６５を設けている。

音声解析部６６は、ＩＶＲ４０の音声認識部４２により認識された音声の特徴を解析する。本実施の形態では、特定の話者が発する音声の特徴を抽出する特徴抽出部の一例として、音声解析部６６を設けている。
言語解析部６７は、ＩＶＲ４０の音声認識部４２による音声認識の結果として得られたデータを解析して、キーワードを抽出する。本実施の形態では、キーワードを抽出するキーワード抽出部の一例として、言語解析部６７を設けている。

ここで、メッセージ記憶部５１に記憶されたメッセージ情報について詳細に説明する。
図３は、このようなメッセージ情報の一例を示した図である。
図示するように、メッセージ情報は、ボックスＩＤとメッセージと転送希望の有無と待機時間とユーザＩＤと開封状況とを対応付けたものとなっている。
ボックスＩＤは、メッセージボックスを一意に識別する識別情報であり、図では、「BOX#」と表記している。また、転送希望の有無としては「YES」が設定されているが、これは代理人による確認を希望することを意味する。代理人による確認を希望しない場合には「NO」が設定される。更に、「待機時間」としては、メッセージが未開封だった場合に代理人に確認を依頼するまでの時間が分を単位として設定される。例えば、図のように「120」が設定されている場合、メッセージが登録されてから１２０分経過しても未開封だった場合に、そのメッセージの確認が代理人に依頼される。また、ユーザＩＤは、ユーザを一意に識別する識別情報であるが、ここでは、メッセージの確認を依頼する代理人を特定する情報として設定されている。図では、ユーザＩＤとして「U1」が設定されており、メッセージの確認は、ユーザＩＤ「U1」を有する代理人に依頼されることになる。更に、開封状況としては「CLOSE」が設定されているが、これはメッセージが未開封であることを意味する。メッセージが開封されると開封状況は「OPEN」に書き換えられる。

また、テンプレート情報記憶部６１に記憶されたテンプレート情報についても詳細に説明する。
図４は、このようなテンプレート情報の一例を示した図である。
図示するように、テンプレート情報は、ユーザＩＤとボックスＩＤと名前とテンプレートとを対応付けたものになっている。
既述の通り、ユーザＩＤは、ユーザを一意に識別する識別情報であり、ボックスＩＤは、メッセージボックスを一意に識別する識別情報である。但し、全てのユーザがメッセージボックスを持っているとは限らないので、メッセージボックスを持たないユーザに対してはボックスＩＤを登録しなくてもよい。名前としては、対応するユーザＩＤを有するユーザの名前が設定される。テンプレートは、対応するユーザＩＤを有するユーザの声の特徴が認証のための参照データとして登録されたものである。図では、テンプレートを「T1」、「T2」、「T3」といった単純な記号で示しているが、実際は、多くのパラメータ値の集合が設定される。或いは、このようなパラメータ値の集合が記憶された記憶領域に対するポインタが設定されてもよい。

更に、履歴情報記憶部６２に記憶された履歴情報についても詳細に説明する。
図５は、このような履歴情報の一例を示した図である。
図示するように、履歴情報は、内線番号とボックスＩＤとを対応付けたものになっている。
内線番号は、内線を介してＰＢＸ３０に接続された電話機１０に割り振られ、例えば、企業等の組織内での電話番号として用いられる番号である。また、ボックスＩＤは、既述の通り、メッセージボックスを一意に識別する識別情報であるが、ここでは、対応する内線番号の電話機１０から過去にメッセージが送られたことのあるメッセージボックスのボックスＩＤが履歴として設定されている。例えば、図では、内線番号「23」の電話機１０から、ボックスＩＤ「12」、「32」、「48」のメッセージボックスにメッセージが送られたことがあることが示されている。但し、古い履歴は意味がないことも多いので、ある程度以上前の履歴は保持しないようにしてもよい。尚、ここでは、管理のし易さから、内線を介してＰＢＸ３０に接続された電話機１０の履歴を保持するようにしたが、公衆網２０を介してＰＢＸ３０に接続された電話機１０の履歴についても、それがＰＢＸ３０等に残っていれば同様に保持することは可能である。

更にまた、キーワード情報記憶部６３に記憶されたキーワード情報についても詳細に説明する。
図６は、このようなキーワード情報の一例を示した図である。
図示するように、キーワード情報は、キーワードとボックスＩＤとを対応付けたものになっている。
キーワードとしては、電話機１０を用いた会話に出現し得る語句が設定される。このような語句としては、会話を行っているユーザをある程度類推できるようなものが望ましい。また、ボックスＩＤは、既述の通り、メッセージボックスを一意に識別する識別情報であるが、ここでは、対応するキーワードを含む会話を行うことが想定されるユーザのメッセージボックスのボックスＩＤが設定されている。例えば、図では、ボックスＩＤ「12」、「32」、「48」のメッセージボックスを有するユーザが、キーワード「XXXプロジェクト」を会話で用いる可能性があること、及び、ボックスＩＤ「1」、「5」、「9」、「24」のメッセージボックスを有するユーザが、キーワード「営業一課」を会話で用いる可能性があることが示されている。

以下、本実施の形態の動作について説明する。尚、本実施の形態の動作は、メッセージを登録する際の動作と、未開封のメッセージの確認を代理人に依頼する際の動作と、代理人の認証に用いるテンプレートを自動更新する際の動作とがあるので、これらを分けて説明する。

［メッセージを登録する際の動作］
図７は、このときのＩＶＲ４０及びメッセージ管理装置５０の動作例を示したフローチャートである。
ＩＶＲ４０では、まず、音声応答部４１が、メッセージを受け付ける（ステップ４０１）。具体的には、メッセージの入力を促す機械音声を出力し、これに応じてユーザがメッセージを発話すると、そのメッセージを受け付ける。例えば、ユーザが「今日のミーティングは明日に変更です。」とのメッセージを発話すると、そのメッセージを受け付ける。そして、このメッセージは、メッセージ管理装置５０のＤＢ管理部５５へ出力されると共に、音声認識部４２へも出力される。
次に、音声応答部４１は、転送希望の有無を受け付ける（ステップ４０２）。具体的には、転送希望の有無の入力を促す機械音声を出力し、これに応じてユーザが転送を希望するかどうかをダイヤル操作で入力すると、入力された情報を受け付ける。例えば、音声応答部４１は、「メッセージの未開封時、ユーザ指定代理人への転送を希望する場合は『１』を、切断する場合は『２』を押して下さい。」という機械音声を出力し、ユーザが「１」を押すと、そのダイヤル操作の情報を受け付ける。そして、この転送希望の有無は、メッセージ管理装置５０のＤＢ管理部５５へ出力される。

次いで、音声応答部４１は、転送を希望する旨の入力があったかどうかを判定する（ステップ４０３）。
その結果、転送を希望する旨の入力があったと判定すると、音声応答部４１は、待機時間を受け付ける（ステップ４０４）。具体的には、待機時間の入力を促す機械音声を出力し、これに応じてユーザが待機時間をダイヤル操作で入力すると、入力された待機時間を受け付ける。例えば、音声応答部４１は、「未開封の場合に代理人に確認を依頼するまでの待機時間を分で入力して下さい。」という機械音声を出力し、ユーザが「１」、「２」、「０」と押すと、そのダイヤル操作の情報を受け付ける。そして、この待機時間は、メッセージ管理装置５０のＤＢ管理部５５へ出力される。

また、音声認識部４２は、音声応答部４１から受け取ったメッセージに対して音声認識処理を行い、メッセージをデータ化する（ステップ４０５）。そして、このデータ化されたメッセージは、メッセージ管理装置５０のＤＢ管理部５５へ出力される。

メッセージ管理装置５０では、ＤＢ管理部５５が、入力されたメッセージを言語解析部５７に受け渡し、言語解析部５７が、音声認識の結果であるメッセージのデータを解析して、メッセージの話者及び案件を特定する（ステップ４０６）。
ここで、音声認識の結果を解析して話者及び案件を特定する方法としては、例えば、次のような方法がある。
まず、話者を特定する方法としては、話者の前後に発言される可能性の高い語句を手がかりとする方法がある。例えば、「○○会社の」、「○○部の」等が来れば、その直後を話者と判定し、「こんにちは」、「お世話になります」等が来れば、その直前又は直後を話者と判定する、といった方法である。
また、案件を特定する方法としては、案件を表すキーワードを手がかりとする方法がある。例えば、予めこのようなキーワードを登録しておき、登録されたキーワードのうち最も出現回数の多かったものが表す案件を、メッセージが表す案件と判定する、といった方法である。

そして、特定された話者及び案件は、ＤＢ管理部５５に戻され、ＤＢ管理部５５が、代理人を決定する（ステップ４０７）。ここでは、例えば、ステップ４０６で特定された話者及び案件の組み合わせに対して予め設定されているユーザＩＤを有するユーザを代理人に決定すればよい。

その後、ＤＢ管理部５５は、ステップ４０１でＩＶＲ４０の音声応答部４１から入力されたメッセージ、ステップ４０２でＩＶＲ４０の音声応答部４１から入力された転送希望の有無、ステップ４０４でＩＶＲ４０の音声応答部４１から入力された待機時間、ステップ４０７で決定された代理人のユーザＩＤをメッセージ記憶部５１に記憶し、開封状況として「CLOSE」を設定する（ステップ４０８）。即ち、メッセージ記憶部５１には、図３に示したような情報が登録される。

一方、ステップ４０３で転送を希望しない旨の入力があったと判定すると、音声応答部４１は、その旨の情報をメッセージ管理装置５０のＤＢ管理部５５に伝え、ＤＢ管理部５５が、ステップ４０１でＩＶＲ４０の音声応答部４１から入力されたメッセージ、ステップ４０２でＩＶＲ４０の音声応答部４１から入力された転送希望の有無をメッセージ記憶部５１に記憶し、開封状況として「CLOSE」を設定する（ステップ４０９）。

このようにしてメッセージ記憶部５１へのメッセージ情報の登録が完了すると、その旨がＩＶＲ４０を介して声紋認証装置６０に伝えられ、声紋認証装置６０では、ＤＢ管理部６５が、履歴情報記憶部６２に履歴情報を記憶する（ステップ４１０）。具体的には、メッセージ管理装置５０のＤＢ管理部５５が、メッセージ情報の登録が完了した旨をＩＶＲ４０の音声応答部４１に伝え、音声応答部４１が、メッセージを送ってきた電話機１０の内線番号と、指定されたメッセージボックスのボックスＩＤとを声紋認証装置６０のＤＢ管理部６５に伝える。これにより、ＤＢ管理部６５が、ボックスＩＤを内線番号に関連付けて履歴情報記憶部６２に記憶する。

ところで、上記動作例では、ステップ４０４で、メッセージが登録されてから代理人に確認を依頼するまでの時間である待機時間を受け付けたが、これには限らない。例えば、代理人に確認を依頼する日時である確認依頼日時を受け付けるようにしてもよい。

また、上記動作例では、ステップ４０６で、音声認識の結果を解析して話者を特定するようにしたが、これには限らない。即ち、メッセージを音声認識する前に別の情報から話者を特定するようにしてもよい。これには、第一に、話者がメッセージを登録するのに用いた機器に関する情報に基づいて、話者を特定する方法が考えられる。例えば、話者がメッセージを登録するのに電話機を用いたとすると、発信者番号をキーとして電話帳から話者を特定する。また、第二に、話者がメッセージを発話した際の音声の声紋に基づいて、話者を特定する方法が考えられる。そして、これらの方法によって話者を特定できた場合には、音声認識の結果を解析することによる話者の特定は行わないようにしてもよい。

［未開封のメッセージの確認を代理人に依頼する際の動作］
図８は、このときのＩＶＲ４０、メッセージ管理装置５０、声紋認証装置６０の動作例を示したフローチャートである。
メッセージ管理装置５０では、まず、ＤＢ管理部５５が、代理人による確認を希望し、確認依頼時刻が到来し、未開封のメッセージが登録されたメッセージボックスを特定する（ステップ４２１）。具体的には、メッセージ記憶部５１に記憶されたメッセージ情報を定期的に監視し、転送希望が「YES」で、メッセージが登録された時刻に待機時間を加えた時刻よりも現在時刻が後で、開封状況が「CLOSE」のままになっているメッセージ情報がないかを判断する。そして、そのようなメッセージ情報があれば、そのメッセージ情報からボックスＩＤを取り出す。

また、ＤＢ管理部５５は、そのメッセージ情報から代理人を特定する（ステップ４２２）。具体的には、代理人のユーザＩＤを取り出す。
そして、そのユーザＩＤと、そのユーザＩＤに対して事前に設定されている電話番号とをＩＶＲ４０のダイヤルアウト部４３に伝え、その電話番号に電話がかかるようにダイヤルアウト部４３に指示する（ステップ４２３）。その際、ダイヤルアウト部４３は、ユーザＩＤを音声応答部４１に伝えておく。

その後、音声応答部４１は、代理人の名前を受け付ける（ステップ４２４）。具体的には、名前の入力を促す機械音声を出力し、これに応じて代理人が名前を発話すると、その名前の音声を受け付ける。例えば、音声応答部４１は、「○○のメッセージが未開封による代理確認依頼です。お名前を録音して下さい。」という機械音声を出力し、代理人が「ＡＡＡ」と発話すると、「ＡＡＡ」という音声を受け付ける。そして、この音声は、ダイヤルアウト部４３から伝えられたユーザＩＤと共に、声紋認証装置６０のＤＢ管理部６５へ出力される。

これにより、声紋認証装置６０では、ＤＢ管理部６５が、ＩＶＲ４０から入力された音声を音声解析部６６に受け渡し、音声解析部６６が、渡された音声の特徴を解析する（ステップ４２５）。そして、この音声の特徴は、ＤＢ管理部６５へ出力される。
次に、ＤＢ管理部６５は、代理人の声について声紋認証を行う（ステップ４２６）。具体的には、テンプレート情報記憶部６１に記憶されたテンプレート情報において、音声応答部４１から入力されたユーザＩＤに対応付けられているテンプレートと、音声解析部６６から入力された音声の特徴とを比較する。

そして、声紋認証が成功したかどうかを判定する（ステップ４２７）。具体的には、テンプレート情報記憶部６１に記憶されたテンプレート情報において、音声応答部４１から入力されたユーザＩＤに対応付けられているテンプレートと、音声解析部６６から入力された音声の特徴との類似度が所定の閾値を超えているかどうかを判定する。

その結果、声紋認証が成功したと判定した場合、つまり、類似度が所定の閾値を超えていると判定した場合、その旨が、ＩＶＲ４０の音声応答部４１に伝えられ、音声応答部４１が、メッセージの確認希望の有無を受け付ける（ステップ４２８）。具体的には、声紋認証が成功した旨を知らせると共に確認希望の有無の入力を促す機械音声を出力し、これに応じてユーザが確認を希望するかどうかをダイヤル操作で入力すると、入力された情報を受け付ける。例えば、音声応答部４１は、「認証に成功しました。メッセージを確認するには『１』を押して下さい。」という機械音声を出力し、ユーザが「１」を押すと、そのダイヤル操作の情報を受け付ける。そして、この確認希望の有無は、メッセージ管理装置５０のＤＢ管理部５５へ出力される。

これにより、メッセージ管理装置５０では、ＤＢ管理部５５が、代理人がメッセージの確認を希望しているかどうかを判定する（ステップ４２９）。
その結果、メッセージの確認を希望していると判定した場合、ＤＢ管理部５５は、ステップ４２１で特定したメッセージボックスに登録されているメッセージを取り出してＩＶＲ４０の音声応答部４１に渡し、音声応答部４１がメッセージを出力する（ステップ４３０）。また、このとき、ＤＢ管理部５５は、メッセージ記憶部５１においてその取り出したメッセージに対応する開封状況を「CLOSE」から「OPEN」に書き換える（ステップ４３１）。

一方、ステップ４２７で声紋認証が成功しなかったと判定した場合、及び、ステップ４２９で代理人がメッセージの確認を希望していないと判定した場合、ＤＢ管理部５５は、メッセージボックスからメッセージを取り出すことなく、処理を終了する。

［代理人の認証に用いるテンプレートを自動更新する際の動作］
ところで、本実施の形態では、このような代理人の認証に用いるテンプレートを、代理人となり得るユーザが電話機１０を用いて会話を行っている間に自動的に更新する。
図９は、このときのＩＶＲ４０及び声紋認証装置６０の動作例を示したフローチャートである。尚、この動作例に先立ち、ＩＶＲ４０の会話記憶部４４には、電話機１０の回線ごとに、会話データが記憶されているものとする。

例えば、ユーザＡとユーザＢとの間で電話機１０を用いて次のような会話がなされたとする。但し、この例では、ユーザＡを「Ａ」と表記し、ユーザＢを「Ｂ」と表記している。
Ａ：Ｂさんですか？営業のＡです。
Ｂ：Ａさん、お久しぶりです。
Ａ：XXXプロジェクトの進捗はどうなっていますか？
Ｂ：順調ですよ。近況をまとめたXXXプロジェクトの資料を送りましょうか？
Ａ：そうしていただけますか？よろしくお願いします。
Ｂ：了解しました。

このような会話がなされた場合、ユーザＡが使用した電話機１０の回線の回線ＩＤに、「Ｂさんですか？営業のＡです。」、「XXXプロジェクトの進捗はどうなっていますか？」、「そうしていただけますか？よろしくお願いします。」というユーザＡの会話データが対応付けて記憶されることになる。また、ユーザＢが使用した電話機１０の回線の回線ＩＤに、「Ａさん、お久しぶりです。」、「順調ですよ。近況をまとめたXXXプロジェクトの資料を送りましょうか？」、「了解しました。」というユーザＢの会話データが対応付けて記憶されることになる。

このような状態で、本実施の形態では、ユーザＡの会話データを用いてユーザＡのテンプレートを自動更新すると共に、ユーザＢの会話データを用いてユーザＢのテンプレートを自動更新する。但し、ユーザＡの会話データを用いた処理と、ユーザＢの会話データを用いた処理とは同様であるので、以下では、一方のユーザの会話データを用いた処理についてのみ説明する。尚、ここでは、処理対象のユーザの会話データが対応付けられた回線の回線ＩＤを回線＃１とし、そのユーザと会話をしている相手ユーザの会話データが対応付けられた回線の回線ＩＤを回線＃２とする。

ＩＶＲ４０では、まず、音声認識部４２が、回線＃１に対応付けられた会話データのうち、自身が認識できるだけの会話データ（以下、「会話単位」という）を会話記憶部４４から読み出し、この会話単位に対して音声認識処理を行い、その結果を声紋認証装置６０のＤＢ管理部６５に出力する（ステップ４４１）。
また、音声応答部４１も、音声応答部４１が読み出したものと同じ会話単位を会話記憶部４４から読み出して声紋認証装置６０のＤＢ管理部６５に出力し、音声解析部６６がこの会話単位を受け取って音声の特徴を学習する（ステップ４４２）。

次に、ＤＢ管理部６５は、回線＃１に既に紐付けられているボックスＩＤがあるかどうかを判定する（ステップ４４３）。即ち、以降の処理で、話者にテンプレートが紐付けられた場合は、ＤＢ管理部６５が回線ＩＤとボックスＩＤとを関連付けた情報を保持することになるので、ＤＢ管理部６５がそのような情報を保持しているかどうかを判定する。

ここで、最初の会話単位を処理する場合において、回線＃１にボックスＩＤは紐付けられていないので、まず、そのときの動作を説明する。
この場合、ＤＢ管理部６５は、履歴情報記憶部６２において回線＃２に対応する内線番号に対応付けられたボックスＩＤのメッセージボックスを対象として、テンプレート情報記憶部６１からテンプレートを検索する（ステップ４４４）。具体的には、回線＃２に対応する内線番号に基づいて履歴情報記憶部６２を検索することにより、過去にその内線番号からメッセージが送られたことのあるメッセージボックスのボックスＩＤを読み出す。そして、テンプレート情報記憶部６１に記憶されたテンプレートのうち、このボックスＩＤに対応するテンプレートを検索対象のテンプレートとし、この検索対象のテンプレートから更新対象のテンプレートを検索する。尚、この場合のテンプレートの検索は、検索対象のテンプレートのパラメータ値と、音声解析部６６が解析して得た音声の音響ベクトルとの間の距離（類似度）を、ＤＰ（Dynamic Programming）法等で求め、その距離が所定の閾値以上で最大となる場合に、その検索対象のテンプレート選択することによって行えばよい。

そして、ＤＢ管理部６５は、検索が成功したかどうかを判定する（ステップ４４５）。
その結果、検索が成功した場合、ＤＢ管理部６５は、検索によって見つかったテンプレートに対応するボックスＩＤを回線＃１に紐付ける（ステップ４４６）。また、検索によって見つかったテンプレートを、音声解析部６６が解析して得た音声の音響ベクトルにおけるパラメータ値に基づいて更新する（ステップ４４７）。尚、この場合のテンプレートの更新は、最新の会話単位から得られたパラメータ値を用いて作成された最新のテンプレートで既存のテンプレートを置き換えるものでもよいし、そのような最新のテンプレートを既存のテンプレートに追加するものでもよい。

一方、検索が成功しなかった場合、ＤＢ管理部６５は、ＩＶＲ４０の音声認識部４２から入力された音声認識の結果を言語解析部６７に渡し、言語解析部６７が音声認識の結果からキーワードを抽出する（ステップ４４８）。具体的には、キーワード情報記憶部６３に記憶されたキーワードが音声認識の結果中に出現するかどうかを判断し、出現していれば、そのキーワードを抽出する。

また、ＤＢ管理部６５は、言語解析部６７が抽出したキーワードに対応付けられたボックスＩＤのメッセージボックスを対象として、テンプレート情報記憶部６１からテンプレートを検索する（ステップ４４９）。具体的には、ステップ４４８で抽出されたキーワードに基づいてキーワード情報記憶部６３を検索することにより、そのキーワードに関係するユーザが有するメッセージボックスのボックスＩＤを読み出す。そして、テンプレート情報記憶部６１に記憶されたテンプレートのうち、このボックスＩＤに対応するテンプレートを検索対象のテンプレートとし、この検索対象のテンプレートから更新対象のテンプレートを検索する。尚、この場合のテンプレートの検索は、検索対象のテンプレートのパラメータ値と、音声解析部６６が解析して得た音声の音響ベクトルとの間の距離（類似度）を、ＤＰ法等で求め、その距離が所定の閾値以上で最大となる場合に、その検索対象のテンプレート選択することによって行えばよい。

そして、ＤＢ管理部６５は、検索が成功したかどうかを判定する（ステップ４５０）。
その結果、検索が成功した場合、ＤＢ管理部６５は、検索によって見つかったテンプレートに対応するボックスＩＤを回線＃１に紐付ける（ステップ４４６）。また、検索によって見つかったテンプレートを、音声解析部６６が解析して得た音声の音響ベクトルにおけるパラメータ値に基づいて更新する（ステップ４４７）。尚、この場合のテンプレートの更新は、最新の会話単位から得られたパラメータ値を用いて作成された最新のテンプレートで既存のテンプレートを置き換えるものでもよいし、そのような最新のテンプレートを既存のテンプレートに追加するものでもよい。

一方、検索が成功しなかった場合、ＤＢ管理部６５は、ステップ４４２で学習した音声の特徴、例えば、音響ベクトルにおけるパラメータ値を用いて作成されるテンプレートを、テンプレート情報記憶部６１におけるテンポラリの記憶領域に記憶する（ステップ４５１）。例えば、図４では、ユーザＡのテンプレートが登録されていないとする。この場合、ステップ４４５でもステップ４５０でも検索は失敗するので、図の最下行に示したテンポラリの記憶領域（「ｔｅｍｐ」と表記）にテンプレートが記憶される。尚、ここでテンポラリの記憶領域に記憶されたテンプレートは、以降の会話単位の処理で特定の話者に紐付けられると、このテンポラリの記憶領域からは削除される。

その後、音声応答部４１及び音声認識部４２は、会話記憶部４４に次の会話単位が記憶されているかどうかを判定する（ステップ４５２）。ここで、次の会話単位が記憶されていれば、ステップ４４１〜４５１の処理を繰り返す。即ち、この時点で回線＃１にテンプレートが紐付いていれば、回線＃１に対応付けられた会話データの以降の会話単位についてのリアルタイムの音声解析に基づいて、回線＃１に紐付いたテンプレートをリアルタイムで更新する（ステップ４４７）。また、この時点で回線＃１にテンプレートが紐付いていなければ、履歴情報記憶部６２に記憶された履歴情報やキーワード情報記憶部６３に記憶されたキーワード情報を用いて、回線＃１に対するテンプレートの紐付けを再度試みる。一方、ステップ４５２で次の会話単位が記憶されていなければ、ステップ４５１でテンポラリの記憶領域に記憶されたテンプレートがそのまま残っているときは、そのテンプレートの処理に移る。

即ち、ＤＢ管理部６５は、テンポラリの記憶領域にテンプレートが記憶されているかどうかを判定する（ステップ４５３）。
ここで、テンポラリの記憶領域にテンプレートが記憶されていなければ、処理は終了するが、テンポラリの記憶領域にテンプレートが記憶されていれば、ＤＢ管理部６５は、全てのボックスＩＤのメッセージボックスを対象として、テンプレート情報記憶部６１からテンプレートを検索する（ステップ４５４）。具体的には、テンプレート情報記憶部６１に記憶された全てのテンプレートを検索対象のテンプレートとし、この検索対象のテンプレートから更新対象のテンプレートを検索する。尚、この場合のテンプレートの検索は、検索対象のテンプレートのパラメータ値と、音声解析部６６が解析して得た音声の音響ベクトルとの間の距離（類似度）を、ＤＰ法等で求め、その距離が所定の閾値以上で最大となる場合に、その検索対象のテンプレート選択することによって行えばよい。

そして、ＤＢ管理部６５は、検索が成功したかどうかを判定する（ステップ４５５）。
その結果、検索が成功した場合、ＤＢ管理部６５は、検索によって見つかったテンプレートに対応するボックスＩＤを回線＃１に紐付ける（ステップ４５６）。また、検索によって見つかったテンプレートを、音声解析部６６が解析して得た音声の音響ベクトルにおけるパラメータ値に基づいて更新する（ステップ４５７）。尚、この場合のテンプレートの更新は、最新の会話単位から得られたパラメータ値を用いて作成された最新のテンプレートで既存のテンプレートを置き換えるものでもよいし、そのような最新のテンプレートを既存のテンプレートに追加するものでもよい。
一方、検索が成功しなかった場合、ＤＢ管理部６５は、テンプレート情報記憶部６１に新規にエントリを作成し、テンポラリの記憶領域に記憶されていたテンプレートをこのエントリに登録する（ステップ４５８）。

ところで、上記動作例では、履歴情報記憶部６２を参照してテンプレートを検索し、見つからなかった場合に、キーワード情報記憶部６３を参照してテンプレートを検索するようにした。しかしながら、この順番はこれに限らない。即ち、キーワード情報記憶部６３を参照してテンプレートを検索し、見つからなかった場合に、履歴情報記憶部６２を参照してテンプレートを検索するようにしてもよい。また、履歴情報記憶部６２及びキーワード情報記憶部６３のうちの何れか一方のみを参照してテンプレートを検索するようにしてもよいし、何れの情報も参照することなくテンプレートを検索するようにしてもよい。

以上、本実施の形態について詳細に説明してきた。
尚、本実施の形態において、声紋認証装置６０は、１つのＩＶＲ４０に接続されるものとしたが、複数のＩＶＲ４０に接続され、複数のＩＶＲ４０で１つの声紋認証装置６０を共有するようにしてもよい。或いは、テンプレート情報記憶部６１のみを共有個人情報データベースとして、複数の声紋認証装置６０の間で共有するようにしてもよい。

また、本実施の形態では、テンプレート情報記憶部６１と履歴情報記憶部６２とキーワード情報記憶部６３とを別々に設けたが、テンプレート情報記憶部６１と履歴情報記憶部６２を１つのテーブルで構成してもよいし、テンプレート情報記憶部６１とキーワード情報記憶部６３を１つのテーブルで構成してもよいし、テンプレート情報記憶部６１と履歴情報記憶部６２とキーワード情報記憶部６３を１つのテーブルで構成してもよい。例えば、テンプレート情報記憶部６１と履歴情報記憶部６２を１つのテーブルで構成する場合は、テンプレート情報記憶部６１のボックスＩＤに対して、そのボックスＩＤのメッセージボックスにメッセージを送ったことのある電話機１０の内線番号を設定するとよい。また、テンプレート情報記憶部６１とキーワード情報記憶部６３を１つのテーブルで構成する場合は、テンプレート情報記憶部６１のボックスＩＤに対して、そのボックスＩＤのメッセージボックスを持つユーザが会話で用いる可能性のあるキーワードを設定するとよい。

ここで、本実施の形態において、会話を音声認識した結果をバックグラウンドで言語解析し、その言語解析の結果に基づいて話者を動的に登録するようにしてもよい。即ち、指定されたキーワードが会話中に出現した場合、キーワード情報記憶部６３において、そのキーワードに対し、そのキーワードを話した話者を追加することで、手間をかけることなくキーワードのリストを更新することができる。
また、会話を音声認識した結果を言語解析することにより、頻繁に出てくる言葉を、自動的にキーワード情報記憶部６３にキーワードとして設定するようにしてもよい。

更に、本実施の形態では、更新されたテンプレートを、他人宛てのメッセージを確認する際の認証において用いることとしたが、これに限らず、話者の認識が必要な様々な場面で用いることができる。例えば、ユーザごとに声紋ごとのアクションを設定可能とし、特定の声紋をもつユーザからの電話があった場合には特定のアクションを行う等の機能を実現することも可能である。例えば、ユーザＡの声紋に対してユーザＡにメールを送信するアクションを設定しておけば、ユーザＡがユーザＢに伝言を残した場合にユーザＡにメールを送信する、といった機能を実現できる。

以上説明したように、本実施の形態では、話者が電話で話した音声に基づいて、テンプレートを更新するようにした。これにより、電話を使えば使うほど、そのユーザの声紋抽出の精度が向上する。尚、本実施の形態では、電話で交換される音声メッセージを用いてテンプレートを更新するようにしたが、ボイスメールで発信される音声メッセージを用いた場合でも、同様にテンプレートを更新することはできる。
また、本実施の形態では、更新対象のテンプレートを検索する際の検索範囲を履歴やキーワードを用いて絞り込むようにした。これにより、データベース内の膨大な数のテンプレートにアクセスすることを避け、検索を高速化できるようになった。
更に、本実施の形態では、話者とテンプレートとを対応付けたデータベースを共有可能とした。これにより、どの電話機１０からも全てのテンプレートの更新が常時可能となった。

最後に、本実施の形態を適用するのに好適なコンピュータのハードウェア構成について説明する。図１０は、このようなコンピュータのハードウェア構成の一例を示した図である。図示するように、コンピュータは、演算手段であるＣＰＵ（Central Processing Unit）９０ａと、Ｍ／Ｂ（マザーボード）チップセット９０ｂを介してＣＰＵ９０ａに接続されたメインメモリ９０ｃと、同じくＭ／Ｂチップセット９０ｂを介してＣＰＵ９０ａに接続された表示機構９０ｄとを備える。また、Ｍ／Ｂチップセット９０ｂには、ブリッジ回路９０ｅを介して、ネットワークインターフェイス９０ｆと、磁気ディスク装置（ＨＤＤ）９０ｇと、音声機構９０ｈと、キーボード／マウス９０ｉと、フレキシブルディスクドライブ９０ｊとが接続されている。

尚、図１０において、各構成要素は、バスを介して接続される。例えば、ＣＰＵ９０ａとＭ／Ｂチップセット９０ｂの間や、Ｍ／Ｂチップセット９０ｂとメインメモリ９０ｃの間は、ＣＰＵバスを介して接続される。また、Ｍ／Ｂチップセット９０ｂと表示機構９０ｄとの間は、ＡＧＰ（Accelerated Graphics Port）を介して接続されてもよいが、表示機構９０ｄがＰＣＩＥｘｐｒｅｓｓ対応のビデオカードを含む場合、Ｍ／Ｂチップセット９０ｂとこのビデオカードの間は、ＰＣＩＥｘｐｒｅｓｓ（ＰＣＩｅ）バスを介して接続される。また、ブリッジ回路９０ｅと接続する場合、ネットワークインターフェイス９０ｆについては、例えば、ＰＣＩＥｘｐｒｅｓｓを用いることができる。また、磁気ディスク装置９０ｇについては、例えば、シリアルＡＴＡ（AT Attachment）、パラレル転送のＡＴＡ、ＰＣＩ（Peripheral Components Interconnect）を用いることができる。更に、キーボード／マウス９０ｉ、及び、フレキシブルディスクドライブ９０ｊについては、ＵＳＢ（Universal Serial Bus）を用いることができる。

ここで、本発明は、全てハードウェアで実現してもよいし、全てソフトウェアで実現してもよい。また、ハードウェア及びソフトウェアの両方により実現することも可能である。また、本発明は、コンピュータ、データ処理システム、コンピュータプログラムとして実現することができる。このコンピュータプログラムは、コンピュータにより読取り可能な媒体に記憶され、提供され得る。ここで、媒体としては、電子的、磁気的、光学的、電磁的、赤外線又は半導体システム（装置又は機器）、或いは、伝搬媒体が考えられる。また、コンピュータにより読取り可能な媒体としては、半導体、ソリッドステート記憶装置、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスク、及び光ディスクが例示される。現時点における光ディスクの例には、コンパクトディスク−リードオンリーメモリ（ＣＤ−ＲＯＭ）、コンパクトディスク−リード／ライト（ＣＤ−Ｒ／Ｗ）及びＤＶＤが含まれる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神及び範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。

本発明の実施の形態におけるコンピュータシステムの全体構成を示した図である。本発明の実施の形態におけるＩＶＲ、メッセージ管理装置、声紋認証装置の機能構成例を示したブロック図である。本発明の実施の形態で用いるメッセージ情報の一例を示した図である。本発明の実施の形態で用いるテンプレート情報の一例を示した図である。本発明の実施の形態で用いる履歴情報の一例を示した図である。本発明の実施の形態で用いるキーワード情報の一例を示した図である。本発明の実施の形態におけるメッセージ登録時の動作例を示したフローチャートである。本発明の実施の形態における未開封メッセージの代理人への確認依頼時の動作例を示したフローチャートである。本発明の実施の形態におけるテンプレートの自動更新時の動作例を示したフローチャートである。本発明の実施の形態を適用可能なコンピュータのハードウェア構成を示した図である。

符号の説明

１０…電話機、２０…公衆網、３０…ＰＢＸ、４０…ＩＶＲ、４１…音声応答部、４２…音声認識部、４３…ダイヤルアウト部、４４…会話記憶部、５０…メッセージ管理装置、５１…メッセージ記憶部、５５…ＤＢ管理部、５７…言語解析部、６０…声紋認証装置、６１…テンプレート情報記憶部、６２…履歴情報記憶部、６３…キーワード情報記憶部、６５…ＤＢ管理部、６６…音声解析部、６７…言語解析部

Claims

話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する装置であって、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、
第１の話者と第２の話者との間で当該第１の話者が使用する第１の電話回線及び当該第２の話者が使用する第２の電話回線を介して会話が行われた際に当該第１の電話回線から得られた、当該第１の話者が発する音声の特徴を抽出する特徴抽出部と、
前記記憶部に記憶された前記複数の話者テンプレートの中から、前記第２の電話回線から過去に音声メッセージが送られたことのあるメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する決定部と、
前記決定部により決定された前記複数の候補テンプレートの中から、前記特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、
前記選択部により選択された前記特定の話者テンプレートを、前記特徴抽出部により抽出された音声の特徴に基づいて、前記会話が行われている間に更新する更新部と
を備えた、装置。
前記第１の電話回線から得られた音声を音声認識する音声認識部と、
前記音声認識部による音声認識の結果に予め定められたキーワードが出現すれば当該キーワードを抽出するキーワード抽出部と
を更に備え、
前記決定部は、前記第２の電話回線から過去に音声メッセージが送られたことのあるメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定できない場合に、前記キーワード抽出部により抽出された前記キーワードに対応付けられたメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する、請求項１の装置。
前記第１の話者が有するメッセージボックスに送られた音声メッセージを当該第１の話者が再生する際に、前記特定の話者テンプレートを用いて当該第１の話者を認証する認証部を更に備えた、請求項１の装置。
話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する装置であって、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、
第１の話者と第２の話者との間で当該第１の話者が使用する第１の電話回線及び当該第２の話者が使用する第２の電話回線を介して会話が行われた際に当該第１の電話回線から得られた、当該第１の話者が発する音声の特徴を抽出する特徴抽出部と、
前記第１の電話回線から得られた音声を音声認識する音声認識部と、
前記音声認識部による音声認識の結果に予め定められたキーワードが出現すれば当該キーワードを抽出するキーワード抽出部と、
前記記憶部に記憶された前記複数の話者テンプレートの中から、前記キーワード抽出部により抽出された前記キーワードに対応付けられたメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する決定部と、
前記決定部により決定された前記複数の候補テンプレートの中から、前記特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、
前記選択部により選択された前記特定の話者テンプレートを、前記特徴抽出部により抽出された音声の特徴に基づいて、前記会話が行われている間に更新する更新部と
を備えた、装置。
話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する方法であって、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶するステップと、
第１の話者と第２の話者との間で当該第１の話者が使用する第１の電話回線及び当該第２の話者が使用する第２の電話回線を介して会話が行われた際に当該第１の電話回線から得られた、当該第１の話者が発する音声の特徴を抽出するステップと、
記憶された前記複数の話者テンプレートの中から、前記第２の電話回線から過去に音声メッセージが送られたことのあるメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定するステップと、
決定された前記複数の候補テンプレートの中から、抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択するステップと、
選択された前記特定の話者テンプレートを、抽出された音声の特徴に基づいて、前記会話が行われている間に更新するステップと
を含む、方法。
話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する方法であって、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶するステップと、
第１の話者と第２の話者との間で当該第１の話者が使用する第１の電話回線及び当該第２の話者が使用する第２の電話回線を介して会話が行われた際に当該第１の電話回線から得られた、当該第１の話者が発する音声の特徴を抽出するステップと、
前記第１の電話回線から得られた音声を音声認識するステップと、
前記音声認識の結果に予め定められたキーワードが出現すれば当該キーワードを抽出するステップと、
記憶された前記複数の話者テンプレートの中から、抽出された前記キーワードに対応付けられたメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定するステップと、
決定された前記複数の候補テンプレートの中から、抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択するステップと、
選択された前記特定の話者テンプレートを、抽出された音声の特徴に基づいて、前記会話が行われている間に更新するステップと
を含む、方法。
話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する装置としてコンピュータを機能させるプログラムであって、
前記コンピュータを、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、
第１の話者と第２の話者との間で当該第１の話者が使用する第１の電話回線及び当該第２の話者が使用する第２の電話回線を介して会話が行われた際に当該第１の電話回線から得られた、当該第１の話者が発する音声の特徴を抽出する特徴抽出部と、
前記記憶部に記憶された前記複数の話者テンプレートの中から、前記第２の電話回線から過去に音声メッセージが送られたことのあるメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する決定部と、
前記決定部により決定された前記複数の候補テンプレートの中から、前記特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、
前記選択部により選択された前記特定の話者テンプレートを、前記特徴抽出部により抽出された音声の特徴に基づいて、前記会話が行われている間に更新する更新部と
して機能させる、プログラム。
話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する装置としてコンピュータを機能させるプログラムであって、
前記コンピュータを、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、
第１の話者と第２の話者との間で当該第１の話者が使用する第１の電話回線及び当該第２の話者が使用する第２の電話回線を介して会話が行われた際に当該第１の電話回線から得られた、当該第１の話者が発する音声の特徴を抽出する特徴抽出部と、
前記第１の電話回線から得られた音声を音声認識する音声認識部と、
前記音声認識部による音声認識の結果に予め定められたキーワードが出現すれば当該キーワードを抽出するキーワード抽出部と、
前記記憶部に記憶された前記複数の話者テンプレートの中から、前記キーワード抽出部により抽出された前記キーワードに対応付けられたメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する決定部と、
前記決定部により決定された前記複数の候補テンプレートの中から、前記特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、
前記選択部により選択された前記特定の話者テンプレートを、前記特徴抽出部により抽出された音声の特徴に基づいて、前記会話が行われている間に更新する更新部と
して機能させる、プログラム。