JP5239600B2

JP5239600B2 - 話者判別プログラム、話者判別装置、および話者判別方法

Info

Publication number: JP5239600B2
Application number: JP2008200608A
Authority: JP
Inventors: 祐相藤内; 直人松平; 雄二高橋
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-08-04
Filing date: 2008-08-04
Publication date: 2013-07-17
Anticipated expiration: 2028-08-04
Also published as: JP2010041286A

Description

この発明は、一方の話者の通話端末と他方の話者の通話端末との間の通話を録音する話者判別プログラム、話者判別装置、および話者判別方法に関する。

金融市場、とりわけ証券市場では営業とお客様間のトラブルが多くなっており、その内容は「必ず儲かります」などの言ってはいけない発言や、遵守事項未説明など様々である。とくに近年、携帯電話による対応が増加しており、監督者がその内容をチェックする機会を失っている。このような状況もあり携帯電話による営業においても通話記録を取りたい要求が高まっている。

また、コールセンタでは、お客様との会話を通話記録として録音装置により録音していた。これは事件、事故が発生した際の状況確認の意味合いが強く、録音ファイルを保管しているにすぎなかった。このような話者間通話の録音等に関しては、各種技術が開示されている（たとえば、下記特許文献１〜３を参照。）。また、コールセンタでの通話の記録で、通話のオペレータの音声をステレオの一方のチャネルに割り当て、オペレータの通話相手の音声をステレオの他方のチャネルに割り当てて録音する技術も開示されている（たとえば、下記特許文献４を参照。）。

さらに、通話相手側からの音声データと端末側からの音声データとを別々の通信路を使って伝送して受信し、信号チャネル上でやり取りされる手順を監視し、回線の接続や切断に応じて、該当するチャネルの音声データをハードディスクなどの記録媒体に記録する技術も開示されている（たとえば、下記特許文献５を参照。）。

ここ数年コンプライアンス強化、ＩＴ（ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ）内部統制により、録音ファイルの単なる溜め置きではなく、是正／予防処置を含めたＰＤＣＡ（Ｐｌａｎ−Ｄｏ−Ｃｈｅｃｋ−Ａｃｔ：業務の適正性を確保するための体制）に活用する動きが強くなってきた。またオペレータの評価、教育にも力を入れるようになってきた。

特開２００６−４２２７４号公報特開２００６−２７９１０２号公報特開２００５−１２３９１号公報特開２００６−２７６７５４号公報特開２００４−８８４２２号公報

しかしながら、上述した従来技術では、ＲＴＰ（Ｒｅａｌ−ｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）による話者間通話の音声を録音する場合、ＩＮＶＩＴＥ発行者の音声パケットがＬチャネルの音声、ＩＮＶＩＴＥ非発行者の音声パケットがＲチャネルの音声として録音される。

たとえば、営業マンと顧客との間の通話の場合、営業マンから発信した場合は、営業マンの通話端末がＩＮＶＩＴＥ発行者となる。したがって、営業マンの音声パケットはＬチャネルとして録音され、顧客の音声パケットはＲチャネルとして録音される。一方、顧客から発信した場合は、顧客の通話端末がＩＮＶＩＴＥ発行者となる。したがって、顧客の音声パケットはＬチャネルとして録音され、営業マンの音声パケットはＲチャネルとして録音される。

このように、発信者が異なると、録音ファイルのチャネルが入れ替わるため、たとえば、サービス提供者（営業担当者やオペレータ）の音声を検索したい場合、ＬチャネルとＲチャネルとが混在することとなり、チャネルだけでは話者を判別できない問題があった。同様に、顧客の音声を検索したい場合も、ＬチャネルとＲチャネルとが混在することとなり、チャネルだけでは話者を判別できない問題があった。

また、通話呼を転送すると、ＩＮＶＩＴＥ発行者が着信者の通話端末になり、ＩＮＶＩＴＥ非発行者が発信者の通話端末になるという逆転が生じ、着信者の音声がＬチャネルに録音され、発信者の音声がＲチャネルに録音される。したがって、ＩＮＶＩＴＥの発行の有無では、発信者と着信者を判別することができないという問題があった。

このように、チャネルによる話者判別ができない現状では、キーワード検索をかけると、サービス提供者と顧客の両方の音声を検索してしまうため、検索精度に問題があった。また、通話内容を録音した個々の録音ファイルの内容を聴く場合、サービス提供者の音声と顧客の音声とを聞き分けて確認していたため、非常に時間がかかるという問題があった。

本開示技術は、上述した従来技術による問題点を解消するため、録音データの話者判別の容易化を図ることにより、通話内容の確認作業の効率化を図ることができる話者判別プログラム、話者判別装置、および話者判別方法を提供することを目的とする。

上述した課題を解決し、目的を達成するため、この話者判別プログラム、話者判別装置、および話者判別方法は、一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得し、前記呼出メッセージの発行元と前記呼出メッセージの非発行元とを特定し、前記音声パケットのうち、前記発行元からの音声パケットを２つのチャネルの一方のチャネルに、前記非発行元からの音声パケットを前記２つのチャネルの他方のチャネルに分けて、ステレオ型の録音データを生成し、前記発行元の話者に関する識別情報を前記一方のチャネルに割り当てるとともに、前記非発行元の話者に関する識別情報を前記他方のチャネルに割り当て、前記チャネル別に割り当てられた識別情報と前記録音データとを関連付けて保存することを要件とする。

この話者判別プログラム、話者判別装置、および話者判別方法によれば、話者に関する識別情報により話者別にチャネルを判別することができる。これにより、判別された話者の音声を特定することができる。

この話者判別プログラム、話者判別装置、および話者判別方法によれば、録音データの話者判別の容易化を図ることにより、通話内容の確認作業の効率化を図ることができるという効果を奏する。

以下に添付図面を参照して、この話者判別プログラム、話者判別装置、および話者判別方法の好適な実施の形態を詳細に説明する。この話者判別プログラム、話者判別装置、および話者判別方法では、発信者に特定された話者を一方のチャネルに割り当て、着信者に特定された話者を他方のチャネルに割り当てる。

図１は、本実施の形態にかかる話者判別プログラム、話者判別装置、および話者判別方法の概要を示す説明図である。（Ａ）は、サービス提供者が発信者で顧客が着信者の例、（Ｂ）は、顧客が発信者でサービス提供者が着信者の例である。いずれのケースも、呼出メッセージの発行端末からの音声パケットはＬチャネル、呼出メッセージ非発行端末からの音声パケットはＲチャネルとして録音される。

（Ａ）において、録音ファイルＳａは、呼出メッセージを発行したサービス提供者の通話端末からの音声パケットをＬチャネル、呼出メッセージを発行しない顧客の通話端末からの音声パケットをＲチャネルとして録音された音声データである。また、呼情報ファイルＣａは、録音日時や録音時間などの情報のほか、Ｌ側ＧＷ（Ｇａｔｅｗａｙ）アドレスとＲ側ＧＷアドレスを有する。

ここで、ゲートウェイは、サービス提供者と顧客とにそれぞれ個別に用意されており、それぞれの通話端末からの音声パケットを相手側のゲートウェイを介して相手側の通話端末に送出する装置である。

Ｌ側ＧＷアドレスには、Ｌチャネル、すなわち、呼出メッセージの発行者であるサービス提供者側のゲートウェイのＧＷアドレス（たとえば、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）アドレス）が割り当てられる。一方、Ｒ側ＧＷアドレスには、Ｒチャネル、すなわち、呼出メッセージの非発行者である顧客側のゲートウェイのＧＷアドレスが割り当てられる。

（Ｂ）においても同様に、録音ファイルＳｂは、呼出メッセージを発行した顧客の通話端末からの音声パケットをＬチャネル、呼出メッセージを発行しないサービス提供者の通話端末からの音声パケットをＲチャネルとして録音された音声データである。また、呼情報ファイルＣｂには、録音日時や録音時間などの情報のほか、Ｌ側ＧＷ（Ｇａｔｅｗａｙ）アドレスとＲ側ＧＷアドレスを有する。

Ｌ側ＧＷアドレスには、Ｌチャネル、すなわち、呼出メッセージの発行者である顧客側のゲートウェイのＧＷアドレス（たとえば、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）アドレス）が割り当てられる。一方、Ｒ側ＧＷアドレスには、Ｒチャネル、すなわち、呼出メッセージの非発行者であるサービス提供者側のゲートウェイのＧＷアドレスが割り当てられる。

各録音ファイルＳａ，Ｓｂに対してこのように呼情報ファイルＣａ、Ｃｂを持たせておく。そして、検索キーワードと指定話者を与える。検索キーワードはフリーキーワードでもよく、あらかじめテーブル化されたＮＧ（ＮｏＧｏｏｄ）ワードリスト内のＮＧワードでもよい。また、指定話者は、通話する話者、この場合は、サービス提供者と顧客から選択する。この検索キーワードと指定話者を与えることで、中間ファイルＴａ，Ｔｂを検索する。

中間ファイルＴａ，Ｔｂとは、録音ファイルＳａ，Ｓｂの音声を符号化したバイナリファイルである。中間ファイルは、Ｌチャネル／Ｒチャネルで２種類作成される。

したがって、検索をおこなう場合、呼情報ファイルＣａ，Ｃｂにアクセスして、指定話者のＧＷアドレスが、Ｌ側ＧＷアドレスなのかＲ側ＧＷアドレスなのかを判別する。（Ａ）の呼情報ファイルＣａでは、指定話者であるサービス提供者のＧＷアドレスはＬ側ＧＷアドレスであるため、サービス提供者の音声はＬチャネルで録音されたことがわかる。したがって、中間ファイルＴａのうち、Ｌチャネル側のファイルから、検索キーワードに一致または関連する単語を抽出する。

（Ｂ）の呼情報ファイルＣｂでは、指定話者であるサービス提供者のＧＷアドレスはＲ側ＧＷアドレスであるため、サービス提供者の音声はＲチャネルで録音されたことがわかる。したがって、中間ファイルＴｂのうち、Ｒチャネル側のファイルから、検索キーワードに一致または関連する単語を抽出する。

このように、本開示技術では、呼出メッセージの発行者である話者を一方のチャネルに割り当て、呼出メッセージの非発行者である話者を他方のチャネルに割り当てる。これにより、話者別にキーワード検索をおこなうことができるため、サービス提供者と顧客のうちいずれが発信者でいずれが着信者であるかを意識することなく、通話内容の確認作業の効率化を図ることができる。また、話者が利用する通話端末には特別な仕掛けは不要であるため、現在利用している通話端末をそのまま利用することができる。

（通話システムにおける通話録音の動作概要）
図２および図３は、本実施の形態にかかるＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）通話システムにおける通話録音の動作概要を示す説明図である。図２および図３は、営業マンと顧客とのＶｏＩＰ通話録音を示しており、特に、図２は営業マンが発信者で顧客が着信者の例、図３は顧客が発信者で営業マンが着信者の例である。

図２および図３において、ＶｏＩＰ通話システム２００は、サービス提供者側ゲートウェイ群２０１と、顧客側ゲートウェイ群２０２と、第１のスイッチ２０３と、第２のスイッチ２０４と、ＳＩＰ（ＳｅｓｓｉｏｎＩｎｉｔｉａｔｉｏｎＰｒｏｔｏｃｏｌ）サーバ２０５と、電話帳サーバ２０６と、音声管理サーバ２０７と、音声検索サーバ２０８と、ストレージサーバ２０９と、通話録音サーバ２１１と、呼制御メディアサーバ２１２と、を含む構成である。本実施の形態では、太枠で囲った音声管理サーバ２０７と音声検索サーバ２０８と通話録音サーバ２１１をＶｏＩＰ通話録音システムと称す。

サービス提供者側ゲートウェイ群２０１は、サービス提供者（図２では営業マン）の通話端末２２１からの音声パケットを送出するゲートウェイｇｗ１１〜ｇｗ１５の集合である。顧客側ゲートウェイ群２０２は、顧客の通話端末２２２からの音声パケットを送出するゲートウェイｇｗ２１〜ｇｗ２５の集合である。

第１のスイッチ２０３は、サービス提供者側ゲートウェイ群２０１と顧客側ゲートウェイ群２０２と第２のスイッチ２０４と通話録音サーバ２１１と呼制御メディアサーバ２１２とにネットワーク接続されている。第１のスイッチ２０３は、ゲートウェイｇｗ１１〜ｇｗ１５，ｇｗ２１〜ｇｗ２５から送出される音声パケットをミラーリングして、通話録音サーバ２１１に転送する。

第２のスイッチ２０４は、第１のスイッチ２０３と通話録音サーバ２１１とＳＩＰサーバ２０５と電話帳サーバ２０６と音声管理サーバ２０７と音声検索サーバ２０８とストレージサーバ２０９と通話録音サーバ２１１とにネットワーク接続されている。第２のスイッチ２０４は、通話端末２２１，２２２へのＳＩＰメッセージ（呼出や応答）の転送制御をおこなう。

ＳＩＰサーバ２０５は、ゲートウェイｇｗ１１〜ｇｗ１５，ｇｗ２１〜ｇｗ２５のＧＷアドレスの登録、通話（セッション）の確立や終了をつかさどるサーバである。ＳＩＰサーバ２０５は、呼制御メディアサーバ２１２からの呼出メッセージを受けると、第２のスイッチ２０４および第１のスイッチ２０３を経由して、指定されたゲートウェイにＳＩＰメッセージ（呼出メッセージ（ＩＮＶＩＴＥ）や応答メッセージ）を送出する。

電話帳サーバ２０６は、顧客の通話端末２２２の電話番号を登録したサーバである。電話帳サーバ２０６は、営業マンの通話端末２２１から発呼要求を受け付けると、呼制御メディアサーバ２１２に発呼元の電話番号と発呼先の電話番号を送出する。電話帳サーバ２０６を利用しない場合は、営業マンの通話端末２２１から直接ＳＩＰサーバ２０５に対して呼出メッセージを送信すればよい。

音声管理サーバ２０７は、データベース（ＤＢ）２１０に保存された各種データの管理や再生、検索条件の受付、検索結果の出力をおこなうサーバである。音声検索サーバ２０８は、データベース２１０内の中間ファイルの検索をおこなうサーバである。ストレージサーバ２０９は、録音ファイルや呼情報ファイル、中間ファイルなど各種データをデータベース２１０に保存したり読み出すサーバである。

通話録音サーバ２１１は、第１のスイッチ２０３からミラーリングされてくる音声パケットをキャプチャして録音ファイルを生成するサーバである。通話録音サーバ２１１は、このほか図１に示した呼情報ファイルＣａの作成や中間ファイルＴａの生成をおこなう。呼制御メディアサーバ２１２は、ＳＩＰメッセージを転送するサーバである。

営業マンの通話端末２２１と顧客の通話端末２２２は、携帯電話網やＩＰ網を経由して、ＶｏＩＰ通話システム２００にアクセス可能である。両通話端末２２１，２２２は、サービス提供者側ゲートウェイ群２０１から選ばれたゲートウェイと、第１のスイッチ２０３と、顧客側ゲートウェイ群２０２から選ばれたゲートウェイとを介して音声パケットのやり取りをしてＶｏＩＰによるＲＴＰの通話をすることができる。

通話端末２２１，２２２は携帯型、据置型のいずれであってもよい。監督者用端末２２３は、監督者が操作する端末である。監督者用端末２２３は、音声管理サーバ２０７にアクセス可能であり、検索条件の入力、検索結果の表示、録音ファイルの再生要求や再生などをおこなう。

つぎに、通話内容の動作について説明する。図２では、営業マンが発信者で顧客が着信者である。（０）発信者である営業マンの通話端末２２１から、電話帳サーバ２０６にアクセスして通話したい顧客を指定する。電話帳サーバ２０６を利用しない場合は、直接、ＳＩＰサーバ２０５にアクセスして顧客への呼出メッセージを送信することとしてもよい。

（１）電話帳サーバ２０６は、営業マンの電話番号と指定された顧客の電話番号を含む２者接続要求を呼制御メディアサーバ２１２に送出する。（２）呼制御メディアサーバ２１２は、１者目（営業マン）の通話端末の呼出メッセージをＳＩＰサーバ２０５に送出する。

（３）ＳＩＰサーバ２０５は、サービス提供者側ゲートウェイ群２０１の中からゲートウェイを選び、第２のスイッチ２０４、第１のスイッチ２０３、選択ゲートウェイを介して営業マンの通話端末２２１に呼出メッセージを送出する。営業マンの通話端末２２１はこの呼出メッセージに対する応答メッセージをＳＩＰサーバ２０５に送出する。（４）ＳＩＰサーバ２０５は、呼制御メディアサーバ２１２からの２者目（顧客）の通話端末の呼出メッセージを受ける。

（５）そして、ＳＩＰサーバ２０５は、顧客側ゲートウェイ群２０２の中からゲートウェイを選び、第２のスイッチ２０４、第１のスイッチ２０３、選択ゲートウェイを介して顧客の通話端末２２２に呼出メッセージを送出する。顧客の通話端末２２２がこの呼出メッセージに対する応答メッセージをＳＩＰサーバ２０５に送出する。この（２）〜（５）が完了することでセッションが確立する。

（６）セッション確立により営業マンの通話端末２２１と顧客の通話端末２２２との間で、各々の選択ゲートウェイおよび第１のスイッチ２０３を経由したＲＴＰの通話ができる。この通話でやり取りされる音声パケットは第１のスイッチ２０３でミラーリングされて通話録音サーバ２１１にキャプチャされる。

（７）通話録音サーバ２１１は、キャプチャした音声パケットから図１の（Ａ）に示したように録音ファイル、呼情報ファイル、中間ファイルを生成する。この場合、ＩＮＶＩＴＥ発行元は営業マンの通話端末２２１、ＩＮＶＩＴＥ非発行元は顧客の通話端末２２２であるため、営業マンの音声はＬチャネルで、顧客の音声はＲチャネルで録音される。そして、ストレージサーバ２０９に転送する。ストレージサーバ２０９では、転送されてきたデータをデータベース２１０に保存する。

（８）監督者は、監督者用端末２２３から検索条件を音声管理サーバ２０７に与える。音声管理サーバ２０７は、検索条件を受け付けると音声検索サーバ２０８に検索処理を実行させる。音声検索サーバ２０８は、ストレージサーバ２０９にアクセスして、図１で説明したような検索処理を実行し、検索結果を音声管理サーバ２０７に返す。

音声管理サーバ２０７は、検索結果を監督者用端末２２３に出力する。監督者用端末２２３から音声ファイルの再生要求があったときは、ストレージサーバ２０９にアクセスしてデータベース２１０から該当する録音ファイルを再生する。録音ファイルの再生についてはストリーミング再生でもよく、録音ファイル自体の監督者用端末２２３への転送でもよい。

図３では、（１）顧客の通話端末２２２が営業マンの通話端末２２１と通話する場合、呼出メッセージをＳＩＰサーバ２０５に送出する。（２）ＳＩＰサーバ２０５は、一次応答のため呼制御メディアサーバ２１２に呼出メッセージを送出する。（３）これにより、顧客の通話端末２２２は、呼制御メディアサーバ２１２とＲＴＰによる通話をおこなう。この通話は、たとえば、営業マンの通話端末２２１への音声による転送ガイダンス（「呼び出し中です。しばらくお待ちください。」など）となる。

（４）（３）の通話の音声パケットは第１のスイッチ２０３によりミラーリングされ、通話録音サーバ２１１にキャプチャされる。通話録音サーバ２１１は、キャプチャした音声パケットから録音ファイル、呼情報ファイル、中間ファイルを生成する。この場合、ＩＮＶＩＴＥ発行元は呼制御メディアサーバ２１２、ＩＮＶＩＴＥ非発行元は顧客の通話端末２２２であるため、呼制御メディアサーバ２１２の転送ガイダンスはＬチャネルで、顧客の音声はＲチャネルで録音される。

そして、ストレージサーバ２０９に転送する。この録音ファイルのＬチャネルには顧客の音声が録音され、Ｒチャネルには転送ガイダンスが録音される。ストレージサーバ２０９では、転送されてきたデータをデータベース２１０に保存する。

（５）この間に、呼制御メディアサーバ２１２は、第１のスイッチ２０３およびサービス提供者側ゲートウェイ群２０１から選ばれたゲートウェイを経由して営業マンの通話端末２２１に転送する。（６）これにより、顧客の通話端末２２２と営業マンの通話端末２２１とのＲＴＰの通話が可能となる。この通話の音声パケットも第１のスイッチ２０３によりミラーリングされ、通話録音サーバ２１１にキャプチャされる。

（７）通話録音サーバ２１１は、キャプチャした音声パケットから図１の（Ｂ）に示したように録音ファイル、呼情報ファイル、中間ファイルを生成する。この場合、ＩＮＶＩＴＥ発行元は顧客の通話端末２２２、ＩＮＶＩＴＥ非発行元は営業マンの通話端末２２１であるため、顧客の音声はＬチャネルで、営業マンの音声はＲチャネルで録音される。

そして、ストレージサーバ２０９に転送する。この録音ファイルのＬチャネルには顧客の音声が録音され、Ｒチャネルには営業マンの音声が録音される。ストレージサーバ２０９では、転送されてきたデータをデータベース２１０に保存する。

（８）図２の（８）と同様、監督者は、検索条件を音声管理サーバ２０７に与える。音声管理サーバ２０７は、検索条件を受け付けると音声検索サーバ２０８に検索処理を実行させる。音声検索サーバ２０８は、ストレージサーバ２０９にアクセスして、図１で説明したような検索処理を実行し、検索結果を音声管理サーバ２０７に返す。

（ＧＷアドレスリストテーブルの内容）
図４は、ＧＷアドレスリストテーブルを示す説明図である。ＧＷアドレスリストテーブル４００は、ＳＩＰサーバ２０５、音声管理サーバ２０７、音声検索サーバ２０８、呼制御メディアサーバ２１２が保有する。ＧＷアドレスリストテーブル４００は、顧客側ゲートウェイ群２０２の顧客側ゲートウェイのＩＰアドレスを記憶する。なお、図４では、顧客側のゲートウェイについてのＧＷアドレスリストテーブル４００であるが、サービス提供者側のゲートウェイについても設けてもよい。

（管理リストテーブルの記憶内容）
図５は、管理リストテーブルの記憶内容を示す説明図である。管理リストテーブル５００は通話録音サーバ２１１で作成されデータベース２１０に保存される。管理リストテーブル５００は、録音ファイルごとに、ファイルＩＤ、録音ファイル情報、ＧＷアドレス情報、中間ファイル情報を有する。この各レコードが呼情報ファイルに相当する。換言すれば、呼情報ファイルは、録音ファイルごとにファイルＩＤ、録音ファイル情報、ＧＷアドレス情報、中間ファイル情報が書き込まれたファイルである。

ファイルＩＤは、録音ファイルに固有の番号であり、録音ファイルを作成する際に割り振られる。以後、録音ファイルの符号をＳｉ（ｉはファイルＩＤでｉ＝１〜ｎ）とする。録音ファイル情報は、録音日時、録音時間、ファイルパス、ファイルサイズを有する。録音日時および録音時間は検索時に利用される。ファイルパスは、その録音ファイルＳｉが保存されている位置を示す情報である。ファイルパスを指定することで録音ファイルＳｉを呼び出すことができる。ファイルサイズＺｓｉは、その録音ファイルＳｉのファイルの大きさを示す情報である。

ＧＷアドレス情報はＬ側ＧＷアドレスとＲ側ＧＷアドレスとを有する。Ｌ側ＧＷアドレスとは、一方の話者（本例では営業マン）の通話端末の音声パケットを他方の話者（本例では顧客）の通話端末に送出するゲートウェイのＧＷアドレス（たとえば、ＩＰアドレス）である。Ｒ側ＧＷアドレスとは、他方の話者の通話端末の音声パケットを一方の話者の通話端末に送出するゲートウェイのＧＷアドレス（たとえば、ＩＰアドレス）である。すなわち、ＧＷアドレスが話者種別を識別する識別情報となる。なお、図５では、便宜上、図２および図３でゲートウェイに付した符号をＧＷアドレスの代わりとしている。

中間ファイル情報は、ファイルパスとファイルサイズを有する。ファイルパスは、その中間ファイルＴｉが保存されている位置を示す情報である。ファイルパスを指定することで中間ファイルＴｉを呼び出すことができる。ファイルサイズＺｔｉは、その中間ファイルＴｉのファイルの大きさを示す情報である。

なお、ファイルＩＤ：ｉ＝１のレコード（呼情報ファイル）は、図２の（６）の通話に相当する。また、ファイルＩＤ：ｉ＝２のレコード（呼情報ファイル）は、図３の（６）の通話に相当する。

（各コンピュータのハードウェア構成）
図６は、各種サーバ２０５〜２０９，２１１，２１２および監督者用端末２２３（以下、総称して「コンピュータ」という）のハードウェア構成を示すブロック図である。図６において、コンピュータは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６０１と、ＲＯＭ（Ｒｅａｄ‐ＯｎｌｙＭｅｍｏｒｙ）６０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）６０３と、磁気ディスクドライブ６０４と、磁気ディスク６０５と、光ディスクドライブ６０６と、光ディスク６０７と、ディスプレイ６０８と、Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）６０９と、キーボード６１０と、マウス６１１と、スキャナ６１２と、プリンタ６１３と、を備えている。また、各構成部はバス６００によってそれぞれ接続されている。

ここで、ＣＰＵ６０１は、コンピュータの全体の制御を司る。ＲＯＭ６０２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ６０３は、ＣＰＵ６０１のワークエリアとして使用される。磁気ディスクドライブ６０４は、ＣＰＵ６０１の制御にしたがって磁気ディスク６０５に対するデータのリード／ライトを制御する。磁気ディスク６０５は、磁気ディスクドライブ６０４の制御で書き込まれたデータを記憶する。

光ディスクドライブ６０６は、ＣＰＵ６０１の制御にしたがって光ディスク６０７に対するデータのリード／ライトを制御する。光ディスク６０７は、光ディスクドライブ６０６の制御で書き込まれたデータを記憶したり、光ディスク６０７に記憶されたデータをコンピュータに読み取らせたりする。

ディスプレイ６０８は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ６０８は、たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。

インターフェース（以下、「Ｉ／Ｆ」と略する。）６０９は、通信回線を通じてＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどのネットワーク６１４に接続され、このネットワーク６１４を介して他の装置に接続される。そして、Ｉ／Ｆ６０９は、ネットワーク６１４と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。Ｉ／Ｆ６０９には、たとえばモデムやＬＡＮアダプタなどを採用することができる。

キーボード６１０は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス６１１は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。

スキャナ６１２は、画像を光学的に読み取り、コンピュータ内に画像データを取り込む。なお、スキャナ６１２は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）機能を持たせてもよい。また、プリンタ６１３は、画像データや文書データを印刷する。プリンタ６１３には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。

（ＶｏＩＰ通話録音システムの機能的構成）
つぎに、ＶｏＩＰ通話録音システムの機能的構成について説明する。図７は、ＶｏＩＰ通話録音システムの機能的構成を示すブロック図である。ＶｏＩＰ通話録音システム７００は、取得部７０１と、生成部７０２と、特定部７０３と、割当部７０４と、保存部７０５と、変換部７０６と、データベース２１０と、受付部７１１と、判別部７１２と、検索部７１３と、抽出部７１４と、出力部７１５と、算出部７１６と、選択部７１７と、再生部７１８と、を含む構成である。取得部７０１〜変換部７０６が、通話録音サーバ２１１の機能である。受付部７１１〜再生部７１８が音声管理サーバ２０７および音声検索サーバ２０８の機能である。

これら制御部となる機能は、具体的には、たとえば、図６に示したＲＯＭ６０２、ＲＡＭ６０３、磁気ディスク６０５、光ディスク６０７などの記憶領域に記憶されたプログラムをＣＰＵ６０１に実行させることにより、または、Ｉ／Ｆ６０９により、その機能を実現する。まず、通話録音サーバ２１１の機能から説明する。

取得部７０１は、一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得する機能を有する。ここで、一方の話者とは、他方の話者とは話者種別が異なる話者である。本例では、図２および図３に示した営業マンとしている。営業マンという話者種別であれば、その営業マンが「山田さん」であっても「田中さん」であっても、すなわち異なる人物であっても営業マンであれば「一方の話者」となる。

同様に、他方の話者とは、一方の話者とは話者種別が異なる話者である。本例では、図２および図３に示した顧客としている。顧客という話者種別であれば、その顧客が「山川さん」であっても「鈴木さん」であっても、すなわち異なる人物であっても顧客であれば「他方の話者」となる。これは、図２および図３に示したように、サービス提供者側ゲートウェイ群２０１と顧客側ゲートウェイ群２０２というように話者種別でゲートウェイ群を区別しているからである。

呼出メッセージとは、ＳＩＰの接続シーケンスにおけるＩＮＶＩＴＥ（メッセージ）である。ＩＮＶＩＴＥは、発信者のほか、呼出元が送出するメッセージである。音声パケットは、ＲＴＰにより各通話端末から送受されるデータである。図３の転送ガイダンスの場合は、呼制御メディアサーバ２１２からも送出される。送出された呼設定メッセージや音声パケットは、第１のスイッチ２０３のミラーリングによりキャプチャされる。

特定部７０３は、取得部７０１によって取得された呼出メッセージの発行元と呼出メッセージの非発行元とを特定する機能を有する。発行元や非発行元となりうるのは、営業マンの通話端末２２１、顧客の通話端末２２２、呼制御メディアサーバ２１２である。図２に示した例では、（６）の通話に関しては、営業マンの通話端末２２１が発行元であり、顧客の通話端末２２２が非発行元である。

図３に示した例では、（３）の通話に関しては、呼制御メディアサーバ２１２が発行元であり、顧客の通話端末２２２が非発行元である。一方、（６）の通話に関しては、顧客の通話端末２２２が発行元であり、営業マンの通話端末２２１が非発行元である。発行元および非発行元は、第１のスイッチ２０３からミラーリングされてくる呼設定メッセージを解析することで特定する。

生成部７０２は、ステレオ型の録音データを生成する機能を有する。具体的には、取得部７０１によって取得された音声パケットのうち、特定部７０３によって特定された発行元からの音声パケットを２つのチャネルの一方のチャネルに録音する。また、特定部７０３によって特定された非発行元からの音声パケットを２つのチャネルの他方のチャネルに録音する。これによりステレオ型の録音をすることができる。

また、生成された録音ファイルには、固有のファイルＩＤが割り振られ、図５に示したように、録音ファイルＳｉと関連付けて録音ファイル情報やＧＷアドレス情報、中間ファイル情報が作成されることとなる。

割当部７０４は、発行元の話者に関する識別情報を一方のチャネルに割り当てるとともに、非発行元の話者に関する識別情報を他方のチャネルに割り当てる機能を有する。話者に関する識別情報とは、音声パケットの送出元が特定できる情報である。たとえば、図２および図３の例では、サービス提供者側ゲートウェイ群２０１の中から選ばれたゲートウェイから送出される音声パケットは、営業マンの通話端末２２１から送出される音声パケットである。したがって、サービス提供者側ゲートウェイ群２０１の中から選ばれたゲートウェイのＩＰアドレスは、一方の話者に関する識別情報となる。

同様に、顧客側ゲートウェイ群２０２の中から選ばれたゲートウェイから送出される音声パケットは、顧客の通話端末２２２から送出される音声パケットである。したがって、顧客側ゲートウェイ群２０２の中から選ばれたゲートウェイのＩＰアドレスを他方の話者に関する識別情報となる。また、ゲートウェイのＩＰアドレスのほか、各通話端末２２１，２２２の固体識別情報でもよい。

本例では、ＩＮＶＩＴＥ発行元をＬチャネル、ＩＮＶＩＴＥ非発行元をＲチャネルとしている。したがって、図５のファイルＩＤ：ｉ＝１のレコードに示したように、図２の（６）の通話に関しては、営業マンの通話端末２２１がＩＮＶＩＴＥ発行元となるため、サービス提供者側ゲートウェイ群２０１から選ばれたゲートウェイｇｗ１１のＩＰアドレスがＬ側ＧＷアドレスとして登録される。また、顧客の通話端末２２２がＩＮＶＩＴＥ非発行元となるため、顧客側ゲートウェイ群２０２から選ばれたゲートウェイｇｗ２３のＩＰアドレスがＲ側ＧＷアドレスとして登録される。

また、図５のファイルＩＤ：ｉ＝２のレコードに示したように、図３の（３）の通話に関しては、呼制御メディアサーバ２１２がＩＮＶＩＴＥ発行元となるが、呼制御メディアサーバ２１２にはゲートウェイが割り当てられていない。したがって、Ｌ側ＧＷアドレスには何も登録されない。一方、顧客の通話端末２２２がＩＮＶＩＴＥ非発行元となるため、顧客側ゲートウェイ群２０２から選ばれたゲートウェイｇｗ２３のＩＰアドレスがＲ側ＧＷアドレスとして登録される。このように、ゲートウェイのＩＰアドレスがないためＬ側ＧＷアドレスに登録されないが、Ｒ側ＧＷアドレスに登録があるので、判別可能である。

また、図５のファイルＩＤ：ｉ＝３のレコードに示したように、図３の（６）の通話に関しては、顧客の通話端末２２２がＩＮＶＩＴＥ発行元となるため、サービス提供者側ゲートウェイ群２０１から選ばれたゲートウェイｇｗ２３のＩＰアドレスがＬ側ＧＷアドレスとして登録される。また、営業マンの通話端末２２１がＩＮＶＩＴＥ非発行元となるため、顧客側ゲートウェイ群２０２から選ばれたゲートウェイｇｗ１４のＩＰアドレスがＲ側ＧＷアドレスとして登録される。

保存部７０５は、割当部７０４によってチャネル別に割り当てられた識別情報と生成部７０２によって生成された録音データとを関連付けて保存する機能を有する。具体的には、たとえば、生成された録音ファイルＳｉのファイルパスと割当部７０４で割り当てられたＧＷアドレス情報とを同一レコードに記録する。また、保存部７０５は、録音ファイルＳｉとそのファイルＩＤ：ｉのレコードとなる呼情報ファイルとをストレージサーバ２０９に転送することで、データベース２１０に保存する。

変換部７０６は、録音データを、音声を符号化する機能を有する。具体的には、たとえば、録音ファイルＳｉを中間ファイルＴｉに変換する。音声／符号化音声変換自体は既存技術であるため説明を省略する。

これにより、どの単語がどのチャネルの音声から変換されたものかを識別することができる。変換された中間ファイルＴｉのファイルパスもそのファイルＩＤ：ｉのレコードとなる呼情報ファイルとして登録され、ストレージサーバ２０９に転送される。つぎに、音声管理サーバ２０７および音声検索サーバ２０８の機能について説明する。

受付部７１１は、検索キーワードと話者の指定とを受け付ける機能を有する。具体的には、たとえば、監督者用端末２２３から送信されてくる検索キーワードと話者の指定を受け付ける。検索キーワードは、監督者が直接キーボードから入力するフリーキーワードでもよく、あらかじめ用意されたＮＧワードリストから選ばれたＮＧワードでもよい。ＮＧワードリストには、あらかじめ業界用語や隠語、差別語、その他モラルに反するような用語（たとえば、「儲かります」）など様々な単語を登録することができる。

図８は、検索画面を示す説明図である。検索画面８００は検索条件入力領域８０１を有する。検索条件入力領域８０１は、フリーキーワードの入力欄８０２、ＮＧワードリストの使用の有無を決めるラジオボタン８０３、話者種別を決めるラジオボタン８０４、録音期間を決める入力欄８０５、検索を開始する検索ボタン８０６を有する。

図７において、判別部７１２は、チャネル別に割り当てられた識別情報に基づいて、受付部７１１によって指定が受け付けられた話者（以下「指定話者」という）に関する識別情報に関連付けられているチャネルを判別する機能を有する。指定話者に関する識別情報とは、指定話者が営業マンである場合は、営業マンに関する識別情報、たとえば、サービス提供者側ゲートウェイ群２０１内のゲートウェイのＩＰアドレスとなる。一方、指定話者が顧客である場合には、顧客に関する識別情報、たとえば、顧客側ゲートウェイ群２０２内のゲートウェイのＩＰアドレスとなる。

図５のＧＷアドレス情報のうち、図４に示したＧＷアドレスリストテーブル４００に登録されているＩＰアドレスと一致するアドレスは、顧客側ゲートウェイのＩＰアドレスであり、不一致なアドレスは、サービス提供側のゲートウェイのＩＰアドレスとなる。

たとえば、図５では、ファイルＩＤ：ｉ＝１〜３には顧客側のゲートウェイｇｗ２３のＩＰアドレスが登録されている。したがって、ファイルＩＤ：１のレコードの録音ファイルＳ１については、指定話者：顧客の音声はＲチャネル、ファイルＩＤ：２のレコードの録音ファイルＳ２については、指定話者：顧客の音声はＲチャネル、ファイルＩＤ：３のレコードの録音ファイルＳ３については、指定話者：顧客の音声はＬチャネルであると判別される。

また、図５では、ファイルＩＤ：ｉ＝１〜３にはサービス提供側のゲートウェイｇｗ１１，ｇｗ１４のＩＰアドレスが登録されている。したがって、ファイルＩＤ：１のレコードの録音ファイルＳ１については、指定話者：営業マンの音声はＬチャネル、ファイルＩＤ：２のレコードの録音ファイルＳ２については、指定話者：営業マンの音声は無し、ファイルＩＤ：３のレコードの録音ファイルＳ３については、指定話者：営業マンの音声はＲチャネルであると判別される。

検索部７１３は、保存部７０５によって保存されたデータの中から受付部７１１によって受け付けられた検索キーワードに一致または関連する単語を検索する機能を有する。具体的には、たとえば、データベース２１０に保存された中間ファイルの中から検索キーワードに一致または関連する単語を検索する。ここで、一致する単語とは、検索キーワードと完全一致、前方一致、後方一致または部分一致する単語である。また、関連する単語とは、同義語や類義語に相当する単語である。

抽出部７１４は、検索部７１３によって検索された単語の中から、判別部７１２によって判別されたチャネルに該当する単語を抽出する機能を有する。具体的には、たとえば、検索部７１３によって検索された単語にはチャネルを特定する識別子が付与されている。この識別子により特定されるチャネルと判別チャネルとが一致する単語を抽出する。

たとえば、ファイルＩＤ：ｉ＝１の録音ファイルＳ１では営業マンの音声はＬチャネル、顧客の音声はＲチャネルで録音されている。指定話者：営業マン、検索キーワード：「儲かります」の場合、検索された「儲かります」という単語にＬチャネルを特定する識別子が付与されていれば、候補として抽出することとなる。

出力部７１５は、抽出部７１４によって抽出された単語（抽出単語）を含むバイナリデータに関連付けされた変換元の録音データに関する情報を出力する機能を有する。具体的には、抽出単語を含む中間ファイルＴｉの変換元である録音ファイルＳｉに関する情報を出力する。録音ファイルＳｉに関する情報とは、録音ファイルＳｉそのものでもよく、録音ファイルＳｉを再生するためのアイコン、録音ファイルＳｉの録音ファイル情報（図５を参照）などがある。これらは、たとえば、監督者用端末２２３の表示画面に表示される。

図９は、検索結果を表示する検索画面８００を示す説明図である。検索画面８００中、検索結果表示領域８１０には、検索結果リスト８１１が表示される。この検索結果リスト８１１は一例である。検索結果リスト８１１は、チェックボックス８１２、ファイルＩＤ８１３、ファイル名８１４、録音日時８１５、ヒット数８１６を有する。チェックボックス８１２にチェックを入れて、実行ボタン８１７を押下すると、次画面に遷移する。ファイルＩＤ８１３、録音ファイル名８１４、録音日時８１５は、録音ファイル情報から抽出する。ヒット数８１６は、抽出単語の出現回数である。図９の例では、録音ファイルＳ１では、営業マンが「儲かります」を３回言っており、録音ファイルＳ３では、営業マンが「儲かります」を１回言っていることがわかる。

図１０は、検索画面８００からの遷移画面を示す説明図である。遷移画面１０００において、符号１００１は、図９でチェックボックスにより選択された録音ファイルの音声波形である。符号１００２は、再生位置を示す時間軸である。符号１００３は、再生位置を示すマーカーである。符号１００４は、録音ファイルの再生、巻き戻し、早送り、一時停止、停止など録音ファイルの再生に関するユーザインターフェースである。符号１００５は、抽出単語の出現位置を示す単語位置リストである。

単語位置リスト１００５は、チェックボックス１００６、出現番号１００７、キーワード１００８、頭出し位置１００９を有する。出現番号１００７は、波形図１００１または時間軸１００２上に表示される。キーワード１００８には、抽出単語が表示される。頭出し位置１００９は、抽出単語の出現位置（時刻）である。チェックボックス１００６にチェックを入れることで、マーカー１００３が頭出し位置まで移動して頭出しされる。そして、ユーザインターフェース１００４の再生ボタンを押下することで、頭出し位置から再生される。なお、頭出し位置は、余裕を持たせるため出現位置よりも以前（たとえば、５〜１０秒前程度）の位置でもよい。

図７において、算出部７１６は、抽出単語を含むデータのサイズと、当該データの変換元の録音データのサイズと、抽出単語を含むデータ上の抽出単語の出現位置と、に基づいて、変換元の録音データ上の抽出単語に相当する音声の頭出し位置を算出する機能を有する。

ここで、抽出単語を含むデータのサイズとは、図５に示した抽出単語を含む中間ファイルＴｉのファイルサイズＺｔｉである。また、データの変換元の録音データのサイズとは、その変換元の録音ファイルＳｉのファイルサイズＺｓｉである。

抽出単語を含むデータ上の抽出単語の出現位置とは、抽出単語の文字コードについての中間ファイルＴｉの先頭からのバイト数であらわすことができる。このバイト数をｂｔとすると、抽出単語の録音ファイルＳｉ上の出現位置ｂｓは、ｂｓ＝（ｂｔ／Ｚｔｉ）×Ｚｓｉとなる。

抽出単語に相当する音声の頭出し位置は、抽出単語の録音ファイルＳｉ上の出現位置ｂｓと同位置または所定時間前（たとえば、５〜１０秒前程度）の位置となる。頭出し位置は図１０に示したように表示される。これにより、録音ファイルＳｉを先頭位置から聞く必要がなく、必要な箇所のみ聞くことで、確認作業の効率化を図ることができる。

選択部７１７は、頭出し位置の選択を受け付ける機能を有する。具体的には、たとえば、図１０に示したチェックボックス１００６にチェックを入力する。これにより、頭出し位置までマーカー１００３が移動する。再生部７１８は、選択部７１７によって選択された頭出し位置から変換元となる録音データを再生する機能を有する。具体的には、たとえば、図１０に示したユーザインターフェース１００４の再生ボタンを押下することで、頭出し位置から録音ファイルＳｉを再生する。これにより、抽出単語の音声を即座に聞き取ることができる。

（通話録音処理手順）
図１１は、通話録音サーバ２１１による通話録音処理手順（前半）を示すフローチャートである。まず、ＩＮＶＩＴＥメッセージなどのＳＩＰメッセージを第１のスイッチ２０３のミラーリングによりキャプチャする（ステップＳ１１０１）。このキャプチャはセッションが確立するまでおこなう（ステップＳ１１０２：Ｎｏ）。セッションが確立された場合（ステップＳ１１０２：Ｙｅｓ）、ＲＴＰによる通話が開始されるため、音声パケットを第１のスイッチ２０３のミラーリングによりキャプチャする（ステップＳ１１０３）。このキャプチャは通話終了までおこなう（ステップＳ１１０４：Ｎｏ）。

通話が終了した場合（ステップＳ１１０４：Ｙｅｓ）、新規のファイルＩＤ：ｉを割り当てる（ステップＳ１１０５）。そして、キャプチャされた音声パケットを時系列につなぎ合わせてステレオ型の録音ファイルＳｉを生成する（ステップＳ１１０６）。また、録音ファイルＳｉや音声パケットから録音ファイル情報を生成する（ステップＳ１１０７）。また、録音ファイルＳｉを中間ファイルＴｉに変換し（ステップＳ１１０８）、中間ファイル情報を生成する（ステップＳ１１０９）。そして、割当ファイルＩＤ：ｉのレコードに録音ファイル情報および中間ファイル情報を記録する（ステップＳ１１１０）。

図１２は、通話録音サーバ２１１による通話録音処理手順（後半）を示すフローチャートである。ステップＳ１１１０のあと、キャプチャされたＳＩＰメッセージからＩＮＶＩＴＥ発行者とＩＮＶＩＴＥ非発行者とを特定する（ステップＳ１２０１）。つぎに、ＩＮＶＩＴＥを送出したゲートウェイのＩＰアドレスを特定する（ステップＳ１２０２）。そして、当該ＩＰアドレスをＬチャネルに割り当てる（ステップＳ１２０３）。

また、ＩＮＶＩＴＥ非発行者からの音声パケットを送出したゲートウェイのＩＰアドレスを特定する（ステップＳ１２０４）。つぎに、当該ＩＰアドレスをＲチャネルに割り当てる（ステップＳ１２０５）。そして、割当ファイルＩＤのレコードにＬ／Ｒチャネルに割り当てられたＩＰアドレスをＧＷアドレス情報として記録する（ステップＳ１２０６）。そして、録音ファイルＳｉおよび中間ファイルＴｉとその呼情報ファイル（ファイルＩＤ：ｉのレコード）をストレージサーバ２０９に転送してデータベース２１０に保存する（ステップＳ１２０７）。

（音声検索処理手順）
図１３は、音声管理サーバ２０７および音声検索サーバ２０８による音声検索処理手順を示すフローチャートである。まず、図８に示した検索画面８００において検索条件を待ち受ける（ステップＳ１３０１：Ｎｏ）。すなわち、検索ボタン８０６の押下を待ち受ける。検索条件が入力された場合（ステップＳ１３０１：Ｙｅｓ）、ファイルＩＤ：ｉ＝１とし（ステップＳ１３０２）、中間ファイルＴｉが他の検索条件に該当するか否かを判断する（ステップＳ１３０３）。他の検索条件とは、フリーキーワードやＮＧワード、話者種別の指定以外の検索条件である。図８の例では、録音期間のみが該当する。

該当しない場合（ステップＳ１３０３：Ｎｏ）、ステップＳ１３０８に移行する。一方、該当する場合（ステップＳ１３０３：Ｙｅｓ）、録音ファイルＳｉのファイルサイズＺｓｉを管理リストテーブル５００から特定する（ステップＳ１３０４）。そして、判別部７１２による指定話者のＬＲ判別をおこない（ステップＳ１３０５）、中間ファイルＴｉを抽出する（ステップＳ１３０６）。

このあと検索処理を実行し（ステップＳ１３０７）、ファイルＩＤ：ｉをインクリメントする（ステップＳ１３０８）。そして、ｉ＞ｎであるか否かを判断する（ステップＳ１３０９）。ｎは管理リストテーブル５００のレコード数であり、録音ファイルＳｉの総数に一致する。ｉ＞ｎでない場合（ステップＳ１３０９：Ｎｏ）、ステップＳ１３０３に戻る。一方、ｉ＞ｎである場合（ステップＳ１３０９：Ｙｅｓ）、図９に示したように結果を出力する（ステップＳ１３１０）。

図１４は、検索処理（ステップＳ１３０７）の詳細な処理手順を示すフローチャートである。まず、中間ファイルＴｉの先頭からサーチを開始する（ステップＳ１４０１）。そして、検索キーワードに一致または関連する単語が出現したか否かを判断する（ステップＳ１４０２）。出現しない場合（ステップＳ１４０２：Ｎｏ）、ステップＳ１４０７に移行する。一方、出現した場合（ステップＳ１４０２：Ｙｅｓ）、判別部７１２による指定話者のＬＲ判別結果と一致するか否かを判断する（ステップＳ１４０３）。

一致しない場合（ステップＳ１４０３：Ｎｏ）、ステップＳ１４０７に移行する。一方、一致する場合（ステップＳ１４０３：Ｙｅｓ）、出現単語を抽出する（ステップＳ１４０４）。つぎに、中間ファイルＴｉにおける出現位置を計算する（ステップＳ１４０５）。そして、録音ファイルＳｉにおける頭出し位置を計算する（ステップＳ１４０６）。

このあと、サーチ終了か否かを判断する（ステップＳ１４０７）。終了でない場合（ステップＳ１４０７：Ｎｏ）、ステップＳ１４０２に戻る。一方、終了した場合（ステップＳ１４０７：Ｙｅｓ）、ステップＳ１３０８に移行してファイルＩＤ：ｉをインクリメントする。

（頭出し再生処理手順）
図１５は、音声管理サーバ２０７による頭出し再生処理手順を示すフローチャートである。まず、録音ファイルＳｉが選択されるのを待ち受ける（ステップＳ１５０１）。具体的には、たとえば、図９に示したチェックボックス８１２の入力および実行ボタン８１７の押下を待ち受ける。録音ファイルＳｉが選択された場合（ステップＳ１５０１：Ｙｅｓ）、頭出し位置が選択されるのを待ち受ける（ステップＳ１５０２：Ｎｏ）。具体的には、たとえば、図１０のチェックボックス１００６の入力を待ち受ける。

頭出し位置が選択された場合（ステップＳ１５０２：Ｙｅｓ）、選択頭出し位置から再生する（ステップＳ１５０３）。具体的には、たとえば、頭出し位置が選択されると、マーカー１００３が頭出し位置まで移動する。そして、ユーザインターフェース１００４の再生ボタンを押下することで録音ファイルＳｉが再生される。

本実施の形態によれば、人手を介さずに短時間で確認対象話者の発話内容を音声検索技術により高精度にキーワード抽出することができる。

また、上述した実施の形態では、サービス提供者として営業マンを例に挙げて説明したが、サービス提供者は営業マンだけではなくオペレータであってもよい。図１６〜図１８は、ＩＰコールセンタに適用した場合のＶｏＩＰ通話システムにおける通話録音の動作概要を示す説明図である。図１６〜図１８は、オペレータと顧客とのＶｏＩＰ通話録音を示しており、特に、図１６は顧客が発信者でオペレータが着信者の例、図１７はオペレータが発信者で顧客が着信者の例、図１８は混雑時の待呼トーキー再生からオペレータに接続する例である。なお、図２および図３に示した構成と同一構成には同一符号を付し、その説明を省略する。

図１６〜図１８のＶｏＩＰ通話システム１６００は、顧客側ゲートウェイ群２０２と接続する第３のスイッチ１６０３と、第３のスイッチ１６０３と接続する第４のスイッチ１６０４と、第４のスイッチ１６０４と接続する第５のスイッチ１６０５と、第４のスイッチ１６０４と接続する第６のスイッチ１６０６とを有する。第３のスイッチ１６０３は、顧客側のゲートウェイからのＳＩＰメッセージや音声パケットを第４のスイッチ１６０４に送出したり、第４のスイッチ１６０４からのＳＩＰメッセージや音声パケットを顧客の通話端末２２２に送出する。

第４のスイッチ１６０４は、第５のスイッチ１６０５、第６のスイッチ１６０６、ＳＩＰサーバ２０５、ＩＶＲ（ＩｎｔｅｒａｃｔｉｖｅＶｏｉｃｅＲｅｓｐｏｎｓｅ）メディアサーバ、通話録音サーバ２１１と接続されている。

第４のスイッチ１６０４は、第４のスイッチ１６０４内を通過するＳＩＰメッセージや音声パケットをミラーリングして、通話録音サーバ２１１に供給する。ＩＶＲメディアサーバ１６０７とは、ＩＰコールセンタにおいて、音声による自動応答を行なうコンピュータである。発信者のダイヤル操作に合わせて、あらかじめ録音してある音声を顧客の通話端末２２２に自動的に再生する。また、音声認識により顧客の発話に応じて再生内容を決めることもできる。

第５のスイッチ１６０５は、オペレータの通話端末１６０１および操作端末１６０２と接続される。第５のスイッチ１６０５は、第４のスイッチ１６０４からのＳＩＰメッセージや音声パケットをオペレータの通話端末１６０１に送出したり、オペレータの通話端末１６０１からのＳＩＰメッセージや音声パケットを第４のスイッチ１６０４に送出する。第６のスイッチ１６０６は、音声管理サーバ２０７、音声検索サーバ２０８、ストレージサーバ２０９、通話録音サーバ２１１に接続される。

図１６において、まず、（１）顧客の通話端末２２２から呼設定メッセージ（ＩＮＶＩＴＥ）をＳＩＰサーバ２０５に送出する。（２）ＳＩＰサーバ２０５は、ＩＮＶＩＴＥをオペレータの通話端末１６０１に転送する。オペレータの通話端末１６０１からＩＮＶＩＴＥに対する応答メッセージがＳＩＰサーバ２０５に返ってくると、セッションが確立する。

そして、（３）顧客の通話端末２２２とオペレータの通話端末１６０１との間でＲＴＰの通話が可能となり、音声パケットが送受される。この場合、顧客の通話端末２２２がＩＮＶＩＴＥ発行元、オペレータの通話端末１６０１がＩＮＶＩＴＥ非発行元である。（１）〜（３）のＳＩＰメッセージや音声パケットは第４のスイッチ１６０４によりミラーリングされ、通話録音サーバ２１１にキャプチャされる。

（４）通話録音サーバ２１１は、上述したように、録音ファイルＳｉ、中間ファイルＴｉ、呼情報ファイルを作成する。この例では、顧客の通話端末２２２がＩＮＶＩＴＥ発行元であるため、顧客の音声はＬチャネルで録音される。一方、オペレータの通話端末１６０１はＩＮＶＩＴＥ非発行元であるため、オペレータの音声はＲチャネルで録音される。そして、ストレージサーバ２０９に転送することで、データベース２１０に保存される。（５）また、上述したように、オペレータが操作端末１６０２を介して音声管理サーバ２０７および音声検索サーバ２０８に音声検索をおこなうことができる。

図１７では、（１）オペレータが顧客宛のＩＮＶＩＴＥをＳＩＰサーバ２０５に送出する。（２）ＳＩＰサーバ２０５は、顧客の通話端末２２２にＩＮＶＩＴＥを転送して顧客の通話端末２２２を呼び出す。顧客の通話端末２２２からＩＮＶＩＴＥに対する応答メッセージがＳＩＰサーバ２０５に返ってくると、セッションが確立する。

そして、（３）顧客の通話端末２２２とオペレータの通話端末１６０１との間でＲＴＰの通話が可能となり、音声パケットが送受される。この場合、オペレータの通話端末１６０１がＩＮＶＩＴＥ発行元、顧客の通話端末２２２がＩＮＶＩＴＥ非発行元である。（１）〜（３）のＳＩＰメッセージや音声パケットは第４のスイッチ１６０４によりミラーリングされ、通話録音サーバ２１１にキャプチャされる。（４）および（５）は図１６と同一内容であるため省略する。

図１８では、（１）顧客の通話端末２２２から呼設定メッセージ（ＩＮＶＩＴＥ）をＳＩＰサーバ２０５に送出する。（２）ＳＩＰサーバ２０５は、ＩＶＲメディアサーバ１６０７に待呼トーキー接続する。これは、オペレータの通話端末１６０１に空きがなく、顧客に待機してもらうためである。（３）これにより、顧客の通話端末２２２とＩＶＲメディアサーバ１６０７との間でセッションが確立し、顧客の通話端末２２２とＩＶＲメディアサーバ１６０７とのＲＴＰの通話が可能となる。

このとき、ＩＶＲメディアサーバ１６０７は、顧客の通話端末２２２に対し、トーキー再生音（たとえば、「ただいま大変混雑しております。しばらくお待ちください。」）の音声パケットを送出する。顧客は、オペレータと通話ができないが、待機させられている不満などが音声パケットとしてＩＶＲメディアサーバ１６０７に送出される。（１）〜（４）のＳＩＰメッセージや音声パケットは、第４のスイッチ１６０４でミラーリングされ、通話録音サーバ２１１にキャプチャされる。

（４）通話録音サーバ２１１は、上述したように、録音ファイルＳｉ、中間ファイルＴｉ、呼情報ファイルを作成する。この場合、顧客の通話端末２２２がＩＮＶＩＴＥ発行元であり、ＩＶＲメディアサーバ１６０７がＩＮＶＩＴＥ非発行元である。したがって、顧客の音声はＬチャネルで録音され、ＩＶＲメディアサーバ１６０７からのトーキー再生音はＲチャネルで録音される。この録音ファイルＳｉは、その中間ファイルＴｉや呼情報ファイルとともにストレージサーバ２０９に転送され、データベース２１０に保存される。

（５）オペレータに空きができると、ＩＶＲメディアサーバ１６０７はそのオペレータの通話端末１６０１に接続する。これにより、顧客の通話端末２２２とオペレータの通話端末１６０１との間でＲＴＰの通話が可能となり、音声パケットが送受される。この場合、顧客の通話端末２２２がＩＮＶＩＴＥ発行元、オペレータの通話端末１６０１がＩＮＶＩＴＥ非発行元である。（５）および（６）のＳＩＰメッセージや音声パケットは第４のスイッチ１６０４によりミラーリングされ、通話録音サーバ２１１にキャプチャされる。

（７）通話録音サーバ２１１は、上述したように、録音ファイルＳｉ、中間ファイルＴｉ、呼情報ファイルを作成する。この例では、顧客の通話端末２２２がＩＮＶＩＴＥ発行元であるため、顧客の音声はＬチャネルで録音される。一方、オペレータの通話端末１６０１はＩＮＶＩＴＥ非発行元であるため、オペレータの音声はＲチャネルで録音される。そして、ストレージサーバ２０９に転送することで、データベース２１０に保存される。（８）また、上述したように、オペレータが操作端末１６０２を介して音声管理サーバ２０７および音声検索サーバ２０８に音声検索をおこなうことができる。

図１９は、ＩＰコールセンタに適用した場合の管理リストテーブル５００の記憶内容を示す説明図である。図１６のように顧客からＩＮＶＩＴＥを発行した場合、ファイルＩＤ：ｉ＝１のレコード（呼情報ファイル）のように、顧客側のゲートウェイｇｗ２３のＩＰアドレスがＬ側ＧＷアドレスとして登録される。すなわち、顧客の音声が録音ファイルＳ１のＬチャネルで録音され、オペレータの音声がＲチャネルで録音されたこととなる。

図１７のようにオペレータからＩＮＶＩＴＥを発行した場合、ファイルＩＤ：ｉ＝２のレコード（呼情報ファイル）のように、顧客側のゲートウェイｇｗ２３のＩＰアドレスがＲ側ＧＷアドレスとして登録される。すなわち、オペレータの音声が録音ファイルＳ２のＬチャネルで録音され、顧客の音声がＲチャネルで録音されたこととなる。

図１８のようにトーキー再生音が再生された場合、ファイルＩＤ：ｉ＝１のレコード（呼情報ファイル）のように、顧客側のゲートウェイｇｗ２３のＩＰアドレスがＬ側ＧＷアドレスとして登録される。すなわち、顧客の音声が録音ファイルＳ１のＬチャネルで録音され、トーキー再生音がＲチャネルで録音されたこととなる。

このように、図７〜図１５に示したＶｏＩＰ通話録音システム７００は、図１６〜図１８に示したＩＰコールセンタにおいてもそのまま適用することができる。また、トーキー再生音の再生時において待機させられている顧客の音声も録音できるため、顧客の不満（本音）も拾うことができ、クレーム処理などに有効である。

以上説明したように、本実施の形態によれば、録音データの話者判別の容易化を図ることにより、通話内容の確認作業の効率化を図ることができる。

なお、本実施の形態で説明した話者判別方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な媒体であってもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）コンピュータを、
一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得する取得手段、
前記取得手段によって取得された呼出メッセージの発行元と前記呼出メッセージの非発行元とを特定する特定手段、
前記取得手段によって取得された音声パケットのうち、前記特定手段によって特定された発行元からの音声パケットを２つのチャネルの一方のチャネルに、前記特定手段によって特定された非発行元からの音声パケットを前記２つのチャネルの他方のチャネルに分けて、ステレオ型の録音データを生成する生成手段、
前記発行元の話者に関する識別情報を前記一方のチャネルに割り当てるとともに、前記非発行元の話者に関する識別情報を前記他方のチャネルに割り当てる割当手段、
前記割当手段によって前記チャネル別に割り当てられた識別情報と前記生成手段によって生成された録音データとを関連付けて保存する保存手段、
として機能させることを特徴とする話者判別プログラム。

（付記２）前記呼出メッセージの発行元が前記一方の話者の通話端末であり、前記呼出メッセージの非発行元が前記他方の通話端末であり、
前記取得手段は、
前記一方の話者の通話端末および前記他方の話者の通話端末からの音声パケットを取得することを特徴とする付記１に記載の話者判別プログラム。

（付記３）前記呼出メッセージの発行元が前記他方の話者の通話端末であり、前記呼出メッセージの非発行元が前記一方の通話端末であり、
前記取得手段は、
前記一方の話者の通話端末および前記他方の話者の通話端末からの音声パケットを取得することを特徴とする付記１に記載の話者判別プログラム。

（付記４）前記呼出メッセージの発行元が前記他方の通話端末から前記一方の話者の通話端末への接続確立を制御する呼制御装置であり、前記呼出メッセージの非発行元が前記他方の通話端末であり、
前記取得手段は、
前記呼制御装置および前記他方の話者の通話端末からの音声パケットを取得し、
前記割当手段は、
前記非発行元の話者に関する識別情報のみを前記他方のチャネルに割り当てることを特徴とする付記１に記載の話者判別プログラム。

（付記５）前記コンピュータを、
前記録音データを、単語ごとに前記各チャネルを割り当てたバイナリデータに変換する変換手段として機能させ、
前記保存手段は、
前記チャネル別に割り当てられた識別情報と前記録音データと前記変換手段によって変換されたバイナリデータとを関連付けて保存することを特徴とする付記１〜４のいずれか一つに記載の話者判別プログラム。

（付記６）前記コンピュータを、
検索キーワードと話者の指定とを受け付ける受付手段、
前記チャネル別に割り当てられた識別情報に基づいて、前記受付手段によって指定が受け付けられた話者（以下「指定話者」という）に関する識別情報に関連付けられているチャネルを判別する判別手段、
前記保存手段によって保存されたバイナリデータの中から前記受付手段によって受け付けられた検索キーワードに一致または関連する単語を検索する検索手段、
前記検索手段によって検索された単語の中から、前記判別手段によって判別されたチャネルに該当する単語を抽出する抽出手段、
前記抽出手段によって抽出された単語を含むバイナリデータに関連付けされた変換元の録音データに関する情報を出力する出力手段、
として機能させることを特徴とする付記５に記載の話者判別プログラム。

（付記７）前記コンピュータを、
前記抽出手段によって抽出された単語（以下、「抽出単語」）を含むバイナリデータのサイズと、当該バイナリの変換元の録音データのサイズと、前記抽出単語を含むバイナリデータ上の前記抽出単語の出現位置と、に基づいて、前記変換元の録音データ上の前記抽出単語に相当する音声の頭出し位置を算出する算出手段として機能させ、
前記出力手段は、
前記算出手段によって算出された頭出し位置を出力することを特徴とする付記６に記載の話者判別プログラム。

（付記８）前記コンピュータを、
前記出力手段によって出力された頭出し位置の選択を受け付ける選択手段、
前記選択手段によって選択された頭出し位置から前記変換元となる録音データを再生する再生手段、
として機能させることを特徴とする付記７に記載の話者判別プログラム。

（付記９）一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得する取得手段と、
前記取得手段によって取得された呼出メッセージの発行元と前記呼出メッセージの非発行元とを特定する特定手段と、
前記取得手段によって取得された音声パケットのうち、前記特定手段によって特定された発行元からの音声パケットを２つのチャネルの一方のチャネルに、前記特定手段によって特定された非発行元からの音声パケットを前記２つのチャネルの他方のチャネルに分けて、ステレオ型の録音データを生成する生成手段と、
前記発行元の話者に関する識別情報を前記一方のチャネルに割り当てるとともに、前記非発行元の話者に関する識別情報を前記他方のチャネルに割り当てる割当手段と、
前記割当手段によって前記チャネル別に割り当てられた識別情報と前記生成手段によって生成された録音データとを関連付けて保存する保存手段と、
を備えることを特徴とする話者判別装置。

（付記１０）コンピュータが、
一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得する取得工程と、
前記取得工程によって取得された呼出メッセージの発行元と前記呼出メッセージの非発行元とを特定する特定工程と、
前記取得工程によって取得された音声パケットのうち、前記特定工程によって特定された発行元からの音声パケットを２つのチャネルの一方のチャネルに、前記特定工程によって特定された非発行元からの音声パケットを前記２つのチャネルの他方のチャネルに分けて、ステレオ型の録音データを生成する生成工程と、
前記発行元の話者に関する識別情報を前記一方のチャネルに割り当てるとともに、前記非発行元の話者に関する識別情報を前記他方のチャネルに割り当てる割当工程と、
前記割当工程によって前記チャネル別に割り当てられた識別情報と前記生成工程によって生成された録音データとを関連付けて保存する保存工程と、
を実行することを特徴とする話者判別方法。

本実施の形態にかかる話者判別プログラム、話者判別装置、および話者判別方法の概要を示す説明図である。本実施の形態にかかるＶｏＩＰ通話システムにおける通話録音の動作概要（営業マン→顧客）を示す説明図である。本実施の形態にかかるＶｏＩＰ通話システムにおける通話録音の動作概要（顧客→営業マン）を示す説明図である。ＧＷアドレスリストテーブルを示す説明図である。管理リストテーブルの記憶内容を示す説明図である。コンピュータのハードウェア構成を示すブロック図である。ＶｏＩＰ通話録音システムの機能的構成を示すブロック図である。検索画面を示す説明図である。検索結果を表示する検索画面を示す説明図である。検索画面からの遷移画面を示す説明図である。通話録音サーバによる通話録音処理手順（前半）を示すフローチャートである。通話録音サーバによる通話録音処理手順（後半）を示すフローチャートである。音声管理サーバおよび音声検索サーバによる音声検索処理手順を示すフローチャートである。検索処理（ステップＳ１３０７）の詳細な処理手順を示すフローチャートである。音声管理サーバによる頭出し再生処理手順を示すフローチャートである。ＩＰコールセンタに適用した場合のＶｏＩＰ通話システムにおける通話録音の動作概要（顧客→オペレータ）を示す説明図である。ＩＰコールセンタに適用した場合のＶｏＩＰ通話システムにおける通話録音の動作概要（オペレータ→顧客）を示す説明図である。ＩＰコールセンタに適用した場合のＶｏＩＰ通話システムにおける通話録音の動作概要（トーキー再生音）を示す説明図である。ＩＰコールセンタに適用した場合の管理リストテーブルの記憶内容を示す説明図である。

符号の説明

Ｓｉ録音ファイル
Ｔｉ中間ファイル
２００，１６００ＶｏＩＰ通話システム
２０１サービス提供者側ゲートウェイ群
２０２顧客側ゲートウェイ群
２０７音声管理サーバ
２０８音声検索サーバ
２１０データベース
２１１通話録音サーバ
２１２呼制御メディアサーバ（呼制御装置）
２２１，２２２，１６０１通話端末
４００ＧＷアドレスリストテーブル
５００管理リストテーブル
７００ＶｏＩＰ通話録音システム（話者判別装置）
７０１取得部
７０２生成部
７０３特定部
７０４割当部
７０５保存部
７０６変換部
７１１受付部
７１２判別部
７１３検索部
７１４抽出部
７１５出力部
７１６算出部
７１７選択部
７１８再生部
１６０７ＩＶＲメディアサーバ（呼制御装置）

Claims

コンピュータを、
一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得する取得手段、
前記取得手段によって取得された呼出メッセージの発行元と前記呼出メッセージの非発行元とを特定する特定手段、
前記取得手段によって取得された音声パケットのうち、前記特定手段によって特定された発行元からの音声パケットを２つのチャネルの一方のチャネルに、前記特定手段によって特定された非発行元からの音声パケットを前記２つのチャネルの他方のチャネルに分けて、ステレオ型の録音データを生成する生成手段、
前記非発行元のゲートウェイへ前記発行元からの音声パケットを送出したゲートウェイの識別情報を前記一方のチャネルに割り当てるとともに、前記発行元のゲートウェイへ前記非発行元からの音声パケットを送出したゲートウェイの識別情報を前記他方のチャネルに割り当てる割当手段、
前記割当手段によって前記チャネル別に割り当てられた識別情報と前記生成手段によって生成された録音データとを関連付けて保存する保存手段、
として機能させることを特徴とする話者判別プログラム。
前記呼出メッセージの発行元が前記一方の話者の通話端末であり、前記呼出メッセージの非発行元が前記他方の話者の通話端末であり、
前記取得手段は、
前記一方の話者の通話端末および前記他方の話者の通話端末からの音声パケットを取得することを特徴とする請求項１に記載の話者判別プログラム。
前記呼出メッセージの発行元が前記他方の話者の通話端末であり、前記呼出メッセージの非発行元が前記一方の話者の通話端末であり、
前記取得手段は、
前記一方の話者の通話端末および前記他方の話者の通話端末からの音声パケットを取得することを特徴とする請求項１に記載の話者判別プログラム。
前記呼出メッセージの発行元が前記他方の話者の通話端末から前記一方の話者の通話端末への接続確立を制御する呼制御装置であり、前記呼出メッセージの非発行元が前記他方の話者の通話端末であり、
前記取得手段は、
前記呼制御装置および前記他方の話者の通話端末からの音声パケットを取得し、
前記割当手段は、
前記非発行元の話者に関する識別情報のみを前記他方のチャネルに割り当てることを特徴とする請求項１に記載の話者判別プログラム。
前記コンピュータを、
前記録音データを、単語ごとに前記各チャネルを割り当てたバイナリデータに変換する変換手段として機能させ、
前記保存手段は、
前記チャネル別に割り当てられた識別情報と前記録音データと前記変換手段によって変換されたバイナリデータとを関連付けて保存することを特徴とする請求項１に記載の話者判別プログラム。
前記コンピュータを、
話者の指定を受け付ける受付手段、
前記チャネル別に割り当てられた識別情報に基づいて、前記受付手段によって指定が受け付けられた話者に関する識別情報に関連付けられているチャネルを判別する判別手段、
として機能させることを特徴とする請求項１に記載の話者判別プログラム。
一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得する取得手段と、
前記取得手段によって取得された呼出メッセージの発行元と前記呼出メッセージの非発行元とを特定する特定手段と、
前記取得手段によって取得された音声パケットのうち、前記特定手段によって特定された発行元からの音声パケットを２つのチャネルの一方のチャネルに、前記特定手段によって特定された非発行元からの音声パケットを前記２つのチャネルの他方のチャネルに分けて、ステレオ型の録音データを生成する生成手段と、
前記非発行元のゲートウェイへ前記発行元からの音声パケットを送出したゲートウェイの識別情報を前記一方のチャネルに割り当てるとともに、前記発行元のゲートウェイへ前記非発行元からの音声パケットを送出したゲートウェイの識別情報を前記他方のチャネルに割り当てる割当手段と、
前記割当手段によって前記チャネル別に割り当てられた識別情報と前記生成手段によって生成された録音データとを関連付けて保存する保存手段と、
を備えることを特徴とする話者判別装置。
コンピュータが、
一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得する取得工程と、
前記取得工程によって取得された呼出メッセージの発行元と前記呼出メッセージの非発行元とを特定する特定工程と、
前記取得工程によって取得された音声パケットのうち、前記特定工程によって特定された発行元からの音声パケットを２つのチャネルの一方のチャネルに、前記特定工程によって特定された非発行元からの音声パケットを前記２つのチャネルの他方のチャネルに分けて、ステレオ型の録音データを生成する生成工程と、
前記非発行元のゲートウェイへ前記発行元からの音声パケットを送出したゲートウェイの識別情報を前記一方のチャネルに割り当てるとともに、前記発行元のゲートウェイへ前記非発行元からの音声パケットを送出したゲートウェイの識別情報を前記他方のチャネルに割り当てる割当工程と、
前記割当工程によって前記チャネル別に割り当てられた識別情報と前記生成工程によって生成された録音データとを関連付けて保存する保存工程と、
を実行することを特徴とする話者判別方法。