以下に添付図面を参照して、この話者判別プログラム、話者判別装置、および話者判別方法の好適な実施の形態を詳細に説明する。この話者判別プログラム、話者判別装置、および話者判別方法では、発信者に特定された話者を一方のチャネルに割り当て、着信者に特定された話者を他方のチャネルに割り当てる。
図1は、本実施の形態にかかる話者判別プログラム、話者判別装置、および話者判別方法の概要を示す説明図である。(A)は、サービス提供者が発信者で顧客が着信者の例、(B)は、顧客が発信者でサービス提供者が着信者の例である。いずれのケースも、呼出メッセージの発行端末からの音声パケットはLチャネル、呼出メッセージ非発行端末からの音声パケットはRチャネルとして録音される。
(A)において、録音ファイルSaは、呼出メッセージを発行したサービス提供者の通話端末からの音声パケットをLチャネル、呼出メッセージを発行しない顧客の通話端末からの音声パケットをRチャネルとして録音された音声データである。また、呼情報ファイルCaは、録音日時や録音時間などの情報のほか、L側GW(Gateway)アドレスとR側GWアドレスを有する。
ここで、ゲートウェイは、サービス提供者と顧客とにそれぞれ個別に用意されており、それぞれの通話端末からの音声パケットを相手側のゲートウェイを介して相手側の通話端末に送出する装置である。
L側GWアドレスには、Lチャネル、すなわち、呼出メッセージの発行者であるサービス提供者側のゲートウェイのGWアドレス(たとえば、IP(Internet Protocol)アドレス)が割り当てられる。一方、R側GWアドレスには、Rチャネル、すなわち、呼出メッセージの非発行者である顧客側のゲートウェイのGWアドレスが割り当てられる。
(B)においても同様に、録音ファイルSbは、呼出メッセージを発行した顧客の通話端末からの音声パケットをLチャネル、呼出メッセージを発行しないサービス提供者の通話端末からの音声パケットをRチャネルとして録音された音声データである。また、呼情報ファイルCbには、録音日時や録音時間などの情報のほか、L側GW(Gateway)アドレスとR側GWアドレスを有する。
L側GWアドレスには、Lチャネル、すなわち、呼出メッセージの発行者である顧客側のゲートウェイのGWアドレス(たとえば、IP(Internet Protocol)アドレス)が割り当てられる。一方、R側GWアドレスには、Rチャネル、すなわち、呼出メッセージの非発行者であるサービス提供者側のゲートウェイのGWアドレスが割り当てられる。
各録音ファイルSa,Sbに対してこのように呼情報ファイルCa、Cbを持たせておく。そして、検索キーワードと指定話者を与える。検索キーワードはフリーキーワードでもよく、あらかじめテーブル化されたNG(No Good)ワードリスト内のNGワードでもよい。また、指定話者は、通話する話者、この場合は、サービス提供者と顧客から選択する。この検索キーワードと指定話者を与えることで、中間ファイルTa,Tbを検索する。
中間ファイルTa,Tbとは、録音ファイルSa,Sbの音声を符号化したバイナリファイルである。中間ファイルは、Lチャネル/Rチャネルで2種類作成される。
したがって、検索をおこなう場合、呼情報ファイルCa,Cbにアクセスして、指定話者のGWアドレスが、L側GWアドレスなのかR側GWアドレスなのかを判別する。(A)の呼情報ファイルCaでは、指定話者であるサービス提供者のGWアドレスはL側GWアドレスであるため、サービス提供者の音声はLチャネルで録音されたことがわかる。したがって、中間ファイルTaのうち、Lチャネル側のファイルから、検索キーワードに一致または関連する単語を抽出する。
(B)の呼情報ファイルCbでは、指定話者であるサービス提供者のGWアドレスはR側GWアドレスであるため、サービス提供者の音声はRチャネルで録音されたことがわかる。したがって、中間ファイルTbのうち、Rチャネル側のファイルから、検索キーワードに一致または関連する単語を抽出する。
このように、本開示技術では、呼出メッセージの発行者である話者を一方のチャネルに割り当て、呼出メッセージの非発行者である話者を他方のチャネルに割り当てる。これにより、話者別にキーワード検索をおこなうことができるため、サービス提供者と顧客のうちいずれが発信者でいずれが着信者であるかを意識することなく、通話内容の確認作業の効率化を図ることができる。また、話者が利用する通話端末には特別な仕掛けは不要であるため、現在利用している通話端末をそのまま利用することができる。
(通話システムにおける通話録音の動作概要)
図2および図3は、本実施の形態にかかるVoIP(Voice over Internet Protocol)通話システムにおける通話録音の動作概要を示す説明図である。図2および図3は、営業マンと顧客とのVoIP通話録音を示しており、特に、図2は営業マンが発信者で顧客が着信者の例、図3は顧客が発信者で営業マンが着信者の例である。
図2および図3において、VoIP通話システム200は、サービス提供者側ゲートウェイ群201と、顧客側ゲートウェイ群202と、第1のスイッチ203と、第2のスイッチ204と、SIP(Session Initiation Protocol)サーバ205と、電話帳サーバ206と、音声管理サーバ207と、音声検索サーバ208と、ストレージサーバ209と、通話録音サーバ211と、呼制御メディアサーバ212と、を含む構成である。本実施の形態では、太枠で囲った音声管理サーバ207と音声検索サーバ208と通話録音サーバ211をVoIP通話録音システムと称す。
サービス提供者側ゲートウェイ群201は、サービス提供者(図2では営業マン)の通話端末221からの音声パケットを送出するゲートウェイgw11〜gw15の集合である。顧客側ゲートウェイ群202は、顧客の通話端末222からの音声パケットを送出するゲートウェイgw21〜gw25の集合である。
第1のスイッチ203は、サービス提供者側ゲートウェイ群201と顧客側ゲートウェイ群202と第2のスイッチ204と通話録音サーバ211と呼制御メディアサーバ212とにネットワーク接続されている。第1のスイッチ203は、ゲートウェイgw11〜gw15,gw21〜gw25から送出される音声パケットをミラーリングして、通話録音サーバ211に転送する。
第2のスイッチ204は、第1のスイッチ203と通話録音サーバ211とSIPサーバ205と電話帳サーバ206と音声管理サーバ207と音声検索サーバ208とストレージサーバ209と通話録音サーバ211とにネットワーク接続されている。第2のスイッチ204は、通話端末221,222へのSIPメッセージ(呼出や応答)の転送制御をおこなう。
SIPサーバ205は、ゲートウェイgw11〜gw15,gw21〜gw25のGWアドレスの登録、通話(セッション)の確立や終了をつかさどるサーバである。SIPサーバ205は、呼制御メディアサーバ212からの呼出メッセージを受けると、第2のスイッチ204および第1のスイッチ203を経由して、指定されたゲートウェイにSIPメッセージ(呼出メッセージ(INVITE)や応答メッセージ)を送出する。
電話帳サーバ206は、顧客の通話端末222の電話番号を登録したサーバである。電話帳サーバ206は、営業マンの通話端末221から発呼要求を受け付けると、呼制御メディアサーバ212に発呼元の電話番号と発呼先の電話番号を送出する。電話帳サーバ206を利用しない場合は、営業マンの通話端末221から直接SIPサーバ205に対して呼出メッセージを送信すればよい。
音声管理サーバ207は、データベース(DB)210に保存された各種データの管理や再生、検索条件の受付、検索結果の出力をおこなうサーバである。音声検索サーバ208は、データベース210内の中間ファイルの検索をおこなうサーバである。ストレージサーバ209は、録音ファイルや呼情報ファイル、中間ファイルなど各種データをデータベース210に保存したり読み出すサーバである。
通話録音サーバ211は、第1のスイッチ203からミラーリングされてくる音声パケットをキャプチャして録音ファイルを生成するサーバである。通話録音サーバ211は、このほか図1に示した呼情報ファイルCaの作成や中間ファイルTaの生成をおこなう。呼制御メディアサーバ212は、SIPメッセージを転送するサーバである。
営業マンの通話端末221と顧客の通話端末222は、携帯電話網やIP網を経由して、VoIP通話システム200にアクセス可能である。両通話端末221,222は、サービス提供者側ゲートウェイ群201から選ばれたゲートウェイと、第1のスイッチ203と、顧客側ゲートウェイ群202から選ばれたゲートウェイとを介して音声パケットのやり取りをしてVoIPによるRTPの通話をすることができる。
通話端末221,222は携帯型、据置型のいずれであってもよい。監督者用端末223は、監督者が操作する端末である。監督者用端末223は、音声管理サーバ207にアクセス可能であり、検索条件の入力、検索結果の表示、録音ファイルの再生要求や再生などをおこなう。
つぎに、通話内容の動作について説明する。図2では、営業マンが発信者で顧客が着信者である。(0)発信者である営業マンの通話端末221から、電話帳サーバ206にアクセスして通話したい顧客を指定する。電話帳サーバ206を利用しない場合は、直接、SIPサーバ205にアクセスして顧客への呼出メッセージを送信することとしてもよい。
(1)電話帳サーバ206は、営業マンの電話番号と指定された顧客の電話番号を含む2者接続要求を呼制御メディアサーバ212に送出する。(2)呼制御メディアサーバ212は、1者目(営業マン)の通話端末の呼出メッセージをSIPサーバ205に送出する。
(3)SIPサーバ205は、サービス提供者側ゲートウェイ群201の中からゲートウェイを選び、第2のスイッチ204、第1のスイッチ203、選択ゲートウェイを介して営業マンの通話端末221に呼出メッセージを送出する。営業マンの通話端末221はこの呼出メッセージに対する応答メッセージをSIPサーバ205に送出する。(4)SIPサーバ205は、呼制御メディアサーバ212からの2者目(顧客)の通話端末の呼出メッセージを受ける。
(5)そして、SIPサーバ205は、顧客側ゲートウェイ群202の中からゲートウェイを選び、第2のスイッチ204、第1のスイッチ203、選択ゲートウェイを介して顧客の通話端末222に呼出メッセージを送出する。顧客の通話端末222がこの呼出メッセージに対する応答メッセージをSIPサーバ205に送出する。この(2)〜(5)が完了することでセッションが確立する。
(6)セッション確立により営業マンの通話端末221と顧客の通話端末222との間で、各々の選択ゲートウェイおよび第1のスイッチ203を経由したRTPの通話ができる。この通話でやり取りされる音声パケットは第1のスイッチ203でミラーリングされて通話録音サーバ211にキャプチャされる。
(7)通話録音サーバ211は、キャプチャした音声パケットから図1の(A)に示したように録音ファイル、呼情報ファイル、中間ファイルを生成する。この場合、INVITE発行元は営業マンの通話端末221、INVITE非発行元は顧客の通話端末222であるため、営業マンの音声はLチャネルで、顧客の音声はRチャネルで録音される。そして、ストレージサーバ209に転送する。ストレージサーバ209では、転送されてきたデータをデータベース210に保存する。
(8)監督者は、監督者用端末223から検索条件を音声管理サーバ207に与える。音声管理サーバ207は、検索条件を受け付けると音声検索サーバ208に検索処理を実行させる。音声検索サーバ208は、ストレージサーバ209にアクセスして、図1で説明したような検索処理を実行し、検索結果を音声管理サーバ207に返す。
音声管理サーバ207は、検索結果を監督者用端末223に出力する。監督者用端末223から音声ファイルの再生要求があったときは、ストレージサーバ209にアクセスしてデータベース210から該当する録音ファイルを再生する。録音ファイルの再生についてはストリーミング再生でもよく、録音ファイル自体の監督者用端末223への転送でもよい。
図3では、(1)顧客の通話端末222が営業マンの通話端末221と通話する場合、呼出メッセージをSIPサーバ205に送出する。(2)SIPサーバ205は、一次応答のため呼制御メディアサーバ212に呼出メッセージを送出する。(3)これにより、顧客の通話端末222は、呼制御メディアサーバ212とRTPによる通話をおこなう。この通話は、たとえば、営業マンの通話端末221への音声による転送ガイダンス(「呼び出し中です。しばらくお待ちください。」など)となる。
(4)(3)の通話の音声パケットは第1のスイッチ203によりミラーリングされ、通話録音サーバ211にキャプチャされる。通話録音サーバ211は、キャプチャした音声パケットから録音ファイル、呼情報ファイル、中間ファイルを生成する。この場合、INVITE発行元は呼制御メディアサーバ212、INVITE非発行元は顧客の通話端末222であるため、呼制御メディアサーバ212の転送ガイダンスはLチャネルで、顧客の音声はRチャネルで録音される。
そして、ストレージサーバ209に転送する。この録音ファイルのLチャネルには顧客の音声が録音され、Rチャネルには転送ガイダンスが録音される。ストレージサーバ209では、転送されてきたデータをデータベース210に保存する。
(5)この間に、呼制御メディアサーバ212は、第1のスイッチ203およびサービス提供者側ゲートウェイ群201から選ばれたゲートウェイを経由して営業マンの通話端末221に転送する。(6)これにより、顧客の通話端末222と営業マンの通話端末221とのRTPの通話が可能となる。この通話の音声パケットも第1のスイッチ203によりミラーリングされ、通話録音サーバ211にキャプチャされる。
(7)通話録音サーバ211は、キャプチャした音声パケットから図1の(B)に示したように録音ファイル、呼情報ファイル、中間ファイルを生成する。この場合、INVITE発行元は顧客の通話端末222、INVITE非発行元は営業マンの通話端末221であるため、顧客の音声はLチャネルで、営業マンの音声はRチャネルで録音される。
そして、ストレージサーバ209に転送する。この録音ファイルのLチャネルには顧客の音声が録音され、Rチャネルには営業マンの音声が録音される。ストレージサーバ209では、転送されてきたデータをデータベース210に保存する。
(8)図2の(8)と同様、監督者は、検索条件を音声管理サーバ207に与える。音声管理サーバ207は、検索条件を受け付けると音声検索サーバ208に検索処理を実行させる。音声検索サーバ208は、ストレージサーバ209にアクセスして、図1で説明したような検索処理を実行し、検索結果を音声管理サーバ207に返す。
(GWアドレスリストテーブルの内容)
図4は、GWアドレスリストテーブルを示す説明図である。GWアドレスリストテーブル400は、SIPサーバ205、音声管理サーバ207、音声検索サーバ208、呼制御メディアサーバ212が保有する。GWアドレスリストテーブル400は、顧客側ゲートウェイ群202の顧客側ゲートウェイのIPアドレスを記憶する。なお、図4では、顧客側のゲートウェイについてのGWアドレスリストテーブル400であるが、サービス提供者側のゲートウェイについても設けてもよい。
(管理リストテーブルの記憶内容)
図5は、管理リストテーブルの記憶内容を示す説明図である。管理リストテーブル500は通話録音サーバ211で作成されデータベース210に保存される。管理リストテーブル500は、録音ファイルごとに、ファイルID、録音ファイル情報、GWアドレス情報、中間ファイル情報を有する。この各レコードが呼情報ファイルに相当する。換言すれば、呼情報ファイルは、録音ファイルごとにファイルID、録音ファイル情報、GWアドレス情報、中間ファイル情報が書き込まれたファイルである。
ファイルIDは、録音ファイルに固有の番号であり、録音ファイルを作成する際に割り振られる。以後、録音ファイルの符号をSi(iはファイルIDでi=1〜n)とする。録音ファイル情報は、録音日時、録音時間、ファイルパス、ファイルサイズを有する。録音日時および録音時間は検索時に利用される。ファイルパスは、その録音ファイルSiが保存されている位置を示す情報である。ファイルパスを指定することで録音ファイルSiを呼び出すことができる。ファイルサイズZsiは、その録音ファイルSiのファイルの大きさを示す情報である。
GWアドレス情報はL側GWアドレスとR側GWアドレスとを有する。L側GWアドレスとは、一方の話者(本例では営業マン)の通話端末の音声パケットを他方の話者(本例では顧客)の通話端末に送出するゲートウェイのGWアドレス(たとえば、IPアドレス)である。R側GWアドレスとは、他方の話者の通話端末の音声パケットを一方の話者の通話端末に送出するゲートウェイのGWアドレス(たとえば、IPアドレス)である。すなわち、GWアドレスが話者種別を識別する識別情報となる。なお、図5では、便宜上、図2および図3でゲートウェイに付した符号をGWアドレスの代わりとしている。
中間ファイル情報は、ファイルパスとファイルサイズを有する。ファイルパスは、その中間ファイルTiが保存されている位置を示す情報である。ファイルパスを指定することで中間ファイルTiを呼び出すことができる。ファイルサイズZtiは、その中間ファイルTiのファイルの大きさを示す情報である。
なお、ファイルID:i=1のレコード(呼情報ファイル)は、図2の(6)の通話に相当する。また、ファイルID:i=2のレコード(呼情報ファイル)は、図3の(6)の通話に相当する。
(各コンピュータのハードウェア構成)
図6は、各種サーバ205〜209,211,212および監督者用端末223(以下、総称して「コンピュータ」という)のハードウェア構成を示すブロック図である。図6において、コンピュータは、CPU(Central Processing Unit)601と、ROM(Read‐Only Memory)602と、RAM(Random Access Memory)603と、磁気ディスクドライブ604と、磁気ディスク605と、光ディスクドライブ606と、光ディスク607と、ディスプレイ608と、I/F(Interface)609と、キーボード610と、マウス611と、スキャナ612と、プリンタ613と、を備えている。また、各構成部はバス600によってそれぞれ接続されている。
ここで、CPU601は、コンピュータの全体の制御を司る。ROM602は、ブートプログラムなどのプログラムを記憶している。RAM603は、CPU601のワークエリアとして使用される。磁気ディスクドライブ604は、CPU601の制御にしたがって磁気ディスク605に対するデータのリード/ライトを制御する。磁気ディスク605は、磁気ディスクドライブ604の制御で書き込まれたデータを記憶する。
光ディスクドライブ606は、CPU601の制御にしたがって光ディスク607に対するデータのリード/ライトを制御する。光ディスク607は、光ディスクドライブ606の制御で書き込まれたデータを記憶したり、光ディスク607に記憶されたデータをコンピュータに読み取らせたりする。
ディスプレイ608は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ608は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
インターフェース(以下、「I/F」と略する。)609は、通信回線を通じてLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワーク614に接続され、このネットワーク614を介して他の装置に接続される。そして、I/F609は、ネットワーク614と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F609には、たとえばモデムやLANアダプタなどを採用することができる。
キーボード610は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス611は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
スキャナ612は、画像を光学的に読み取り、コンピュータ内に画像データを取り込む。なお、スキャナ612は、OCR(Optical Character Reader)機能を持たせてもよい。また、プリンタ613は、画像データや文書データを印刷する。プリンタ613には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。
(VoIP通話録音システムの機能的構成)
つぎに、VoIP通話録音システムの機能的構成について説明する。図7は、VoIP通話録音システムの機能的構成を示すブロック図である。VoIP通話録音システム700は、取得部701と、生成部702と、特定部703と、割当部704と、保存部705と、変換部706と、データベース210と、受付部711と、判別部712と、検索部713と、抽出部714と、出力部715と、算出部716と、選択部717と、再生部718と、を含む構成である。取得部701〜変換部706が、通話録音サーバ211の機能である。受付部711〜再生部718が音声管理サーバ207および音声検索サーバ208の機能である。
これら制御部となる機能は、具体的には、たとえば、図6に示したROM602、RAM603、磁気ディスク605、光ディスク607などの記憶領域に記憶されたプログラムをCPU601に実行させることにより、または、I/F609により、その機能を実現する。まず、通話録音サーバ211の機能から説明する。
取得部701は、一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得する機能を有する。ここで、一方の話者とは、他方の話者とは話者種別が異なる話者である。本例では、図2および図3に示した営業マンとしている。営業マンという話者種別であれば、その営業マンが「山田さん」であっても「田中さん」であっても、すなわち異なる人物であっても営業マンであれば「一方の話者」となる。
同様に、他方の話者とは、一方の話者とは話者種別が異なる話者である。本例では、図2および図3に示した顧客としている。顧客という話者種別であれば、その顧客が「山川さん」であっても「鈴木さん」であっても、すなわち異なる人物であっても顧客であれば「他方の話者」となる。これは、図2および図3に示したように、サービス提供者側ゲートウェイ群201と顧客側ゲートウェイ群202というように話者種別でゲートウェイ群を区別しているからである。
呼出メッセージとは、SIPの接続シーケンスにおけるINVITE(メッセージ)である。INVITEは、発信者のほか、呼出元が送出するメッセージである。音声パケットは、RTPにより各通話端末から送受されるデータである。図3の転送ガイダンスの場合は、呼制御メディアサーバ212からも送出される。送出された呼設定メッセージや音声パケットは、第1のスイッチ203のミラーリングによりキャプチャされる。
特定部703は、取得部701によって取得された呼出メッセージの発行元と呼出メッセージの非発行元とを特定する機能を有する。発行元や非発行元となりうるのは、営業マンの通話端末221、顧客の通話端末222、呼制御メディアサーバ212である。図2に示した例では、(6)の通話に関しては、営業マンの通話端末221が発行元であり、顧客の通話端末222が非発行元である。
図3に示した例では、(3)の通話に関しては、呼制御メディアサーバ212が発行元であり、顧客の通話端末222が非発行元である。一方、(6)の通話に関しては、顧客の通話端末222が発行元であり、営業マンの通話端末221が非発行元である。発行元および非発行元は、第1のスイッチ203からミラーリングされてくる呼設定メッセージを解析することで特定する。
生成部702は、ステレオ型の録音データを生成する機能を有する。具体的には、取得部701によって取得された音声パケットのうち、特定部703によって特定された発行元からの音声パケットを2つのチャネルの一方のチャネルに録音する。また、特定部703によって特定された非発行元からの音声パケットを2つのチャネルの他方のチャネルに録音する。これによりステレオ型の録音をすることができる。
また、生成された録音ファイルには、固有のファイルIDが割り振られ、図5に示したように、録音ファイルSiと関連付けて録音ファイル情報やGWアドレス情報、中間ファイル情報が作成されることとなる。
割当部704は、発行元の話者に関する識別情報を一方のチャネルに割り当てるとともに、非発行元の話者に関する識別情報を他方のチャネルに割り当てる機能を有する。話者に関する識別情報とは、音声パケットの送出元が特定できる情報である。たとえば、図2および図3の例では、サービス提供者側ゲートウェイ群201の中から選ばれたゲートウェイから送出される音声パケットは、営業マンの通話端末221から送出される音声パケットである。したがって、サービス提供者側ゲートウェイ群201の中から選ばれたゲートウェイのIPアドレスは、一方の話者に関する識別情報となる。
同様に、顧客側ゲートウェイ群202の中から選ばれたゲートウェイから送出される音声パケットは、顧客の通話端末222から送出される音声パケットである。したがって、顧客側ゲートウェイ群202の中から選ばれたゲートウェイのIPアドレスを他方の話者に関する識別情報となる。また、ゲートウェイのIPアドレスのほか、各通話端末221,222の固体識別情報でもよい。
本例では、INVITE発行元をLチャネル、INVITE非発行元をRチャネルとしている。したがって、図5のファイルID:i=1のレコードに示したように、図2の(6)の通話に関しては、営業マンの通話端末221がINVITE発行元となるため、サービス提供者側ゲートウェイ群201から選ばれたゲートウェイgw11のIPアドレスがL側GWアドレスとして登録される。また、顧客の通話端末222がINVITE非発行元となるため、顧客側ゲートウェイ群202から選ばれたゲートウェイgw23のIPアドレスがR側GWアドレスとして登録される。
また、図5のファイルID:i=2のレコードに示したように、図3の(3)の通話に関しては、呼制御メディアサーバ212がINVITE発行元となるが、呼制御メディアサーバ212にはゲートウェイが割り当てられていない。したがって、L側GWアドレスには何も登録されない。一方、顧客の通話端末222がINVITE非発行元となるため、顧客側ゲートウェイ群202から選ばれたゲートウェイgw23のIPアドレスがR側GWアドレスとして登録される。このように、ゲートウェイのIPアドレスがないためL側GWアドレスに登録されないが、R側GWアドレスに登録があるので、判別可能である。
また、図5のファイルID:i=3のレコードに示したように、図3の(6)の通話に関しては、顧客の通話端末222がINVITE発行元となるため、サービス提供者側ゲートウェイ群201から選ばれたゲートウェイgw23のIPアドレスがL側GWアドレスとして登録される。また、営業マンの通話端末221がINVITE非発行元となるため、顧客側ゲートウェイ群202から選ばれたゲートウェイgw14のIPアドレスがR側GWアドレスとして登録される。
保存部705は、割当部704によってチャネル別に割り当てられた識別情報と生成部702によって生成された録音データとを関連付けて保存する機能を有する。具体的には、たとえば、生成された録音ファイルSiのファイルパスと割当部704で割り当てられたGWアドレス情報とを同一レコードに記録する。また、保存部705は、録音ファイルSiとそのファイルID:iのレコードとなる呼情報ファイルとをストレージサーバ209に転送することで、データベース210に保存する。
変換部706は、録音データを、音声を符号化する機能を有する。具体的には、たとえば、録音ファイルSiを中間ファイルTiに変換する。音声/符号化音声変換自体は既存技術であるため説明を省略する。
これにより、どの単語がどのチャネルの音声から変換されたものかを識別することができる。変換された中間ファイルTiのファイルパスもそのファイルID:iのレコードとなる呼情報ファイルとして登録され、ストレージサーバ209に転送される。つぎに、音声管理サーバ207および音声検索サーバ208の機能について説明する。
受付部711は、検索キーワードと話者の指定とを受け付ける機能を有する。具体的には、たとえば、監督者用端末223から送信されてくる検索キーワードと話者の指定を受け付ける。検索キーワードは、監督者が直接キーボードから入力するフリーキーワードでもよく、あらかじめ用意されたNGワードリストから選ばれたNGワードでもよい。NGワードリストには、あらかじめ業界用語や隠語、差別語、その他モラルに反するような用語(たとえば、「儲かります」)など様々な単語を登録することができる。
図8は、検索画面を示す説明図である。検索画面800は検索条件入力領域801を有する。検索条件入力領域801は、フリーキーワードの入力欄802、NGワードリストの使用の有無を決めるラジオボタン803、話者種別を決めるラジオボタン804、録音期間を決める入力欄805、検索を開始する検索ボタン806を有する。
図7において、判別部712は、チャネル別に割り当てられた識別情報に基づいて、受付部711によって指定が受け付けられた話者(以下「指定話者」という)に関する識別情報に関連付けられているチャネルを判別する機能を有する。指定話者に関する識別情報とは、指定話者が営業マンである場合は、営業マンに関する識別情報、たとえば、サービス提供者側ゲートウェイ群201内のゲートウェイのIPアドレスとなる。一方、指定話者が顧客である場合には、顧客に関する識別情報、たとえば、顧客側ゲートウェイ群202内のゲートウェイのIPアドレスとなる。
図5のGWアドレス情報のうち、図4に示したGWアドレスリストテーブル400に登録されているIPアドレスと一致するアドレスは、顧客側ゲートウェイのIPアドレスであり、不一致なアドレスは、サービス提供側のゲートウェイのIPアドレスとなる。
たとえば、図5では、ファイルID:i=1〜3には顧客側のゲートウェイgw23のIPアドレスが登録されている。したがって、ファイルID:1のレコードの録音ファイルS1については、指定話者:顧客の音声はRチャネル、ファイルID:2のレコードの録音ファイルS2については、指定話者:顧客の音声はRチャネル、ファイルID:3のレコードの録音ファイルS3については、指定話者:顧客の音声はLチャネルであると判別される。
また、図5では、ファイルID:i=1〜3にはサービス提供側のゲートウェイgw11,gw14のIPアドレスが登録されている。したがって、ファイルID:1のレコードの録音ファイルS1については、指定話者:営業マンの音声はLチャネル、ファイルID:2のレコードの録音ファイルS2については、指定話者:営業マンの音声は無し、ファイルID:3のレコードの録音ファイルS3については、指定話者:営業マンの音声はRチャネルであると判別される。
検索部713は、保存部705によって保存されたデータの中から受付部711によって受け付けられた検索キーワードに一致または関連する単語を検索する機能を有する。具体的には、たとえば、データベース210に保存された中間ファイルの中から検索キーワードに一致または関連する単語を検索する。ここで、一致する単語とは、検索キーワードと完全一致、前方一致、後方一致または部分一致する単語である。また、関連する単語とは、同義語や類義語に相当する単語である。
抽出部714は、検索部713によって検索された単語の中から、判別部712によって判別されたチャネルに該当する単語を抽出する機能を有する。具体的には、たとえば、検索部713によって検索された単語にはチャネルを特定する識別子が付与されている。この識別子により特定されるチャネルと判別チャネルとが一致する単語を抽出する。
たとえば、ファイルID:i=1の録音ファイルS1では営業マンの音声はLチャネル、顧客の音声はRチャネルで録音されている。指定話者:営業マン、検索キーワード:「儲かります」の場合、検索された「儲かります」という単語にLチャネルを特定する識別子が付与されていれば、候補として抽出することとなる。
出力部715は、抽出部714によって抽出された単語(抽出単語)を含むバイナリデータに関連付けされた変換元の録音データに関する情報を出力する機能を有する。具体的には、抽出単語を含む中間ファイルTiの変換元である録音ファイルSiに関する情報を出力する。録音ファイルSiに関する情報とは、録音ファイルSiそのものでもよく、録音ファイルSiを再生するためのアイコン、録音ファイルSiの録音ファイル情報(図5を参照)などがある。これらは、たとえば、監督者用端末223の表示画面に表示される。
図9は、検索結果を表示する検索画面800を示す説明図である。検索画面800中、検索結果表示領域810には、検索結果リスト811が表示される。この検索結果リスト811は一例である。検索結果リスト811は、チェックボックス812、ファイルID813、ファイル名814、録音日時815、ヒット数816を有する。チェックボックス812にチェックを入れて、実行ボタン817を押下すると、次画面に遷移する。ファイルID813、録音ファイル名814、録音日時815は、録音ファイル情報から抽出する。ヒット数816は、抽出単語の出現回数である。図9の例では、録音ファイルS1では、営業マンが「儲かります」を3回言っており、録音ファイルS3では、営業マンが「儲かります」を1回言っていることがわかる。
図10は、検索画面800からの遷移画面を示す説明図である。遷移画面1000において、符号1001は、図9でチェックボックスにより選択された録音ファイルの音声波形である。符号1002は、再生位置を示す時間軸である。符号1003は、再生位置を示すマーカーである。符号1004は、録音ファイルの再生、巻き戻し、早送り、一時停止、停止など録音ファイルの再生に関するユーザインターフェースである。符号1005は、抽出単語の出現位置を示す単語位置リストである。
単語位置リスト1005は、チェックボックス1006、出現番号1007、キーワード1008、頭出し位置1009を有する。出現番号1007は、波形図1001または時間軸1002上に表示される。キーワード1008には、抽出単語が表示される。頭出し位置1009は、抽出単語の出現位置(時刻)である。チェックボックス1006にチェックを入れることで、マーカー1003が頭出し位置まで移動して頭出しされる。そして、ユーザインターフェース1004の再生ボタンを押下することで、頭出し位置から再生される。なお、頭出し位置は、余裕を持たせるため出現位置よりも以前(たとえば、5〜10秒前程度)の位置でもよい。
図7において、算出部716は、抽出単語を含むデータのサイズと、当該データの変換元の録音データのサイズと、抽出単語を含むデータ上の抽出単語の出現位置と、に基づいて、変換元の録音データ上の抽出単語に相当する音声の頭出し位置を算出する機能を有する。
ここで、抽出単語を含むデータのサイズとは、図5に示した抽出単語を含む中間ファイルTiのファイルサイズZtiである。また、データの変換元の録音データのサイズとは、その変換元の録音ファイルSiのファイルサイズZsiである。
抽出単語を含むデータ上の抽出単語の出現位置とは、抽出単語の文字コードについての中間ファイルTiの先頭からのバイト数であらわすことができる。このバイト数をbtとすると、抽出単語の録音ファイルSi上の出現位置bsは、bs=(bt/Zti)×Zsiとなる。
抽出単語に相当する音声の頭出し位置は、抽出単語の録音ファイルSi上の出現位置bsと同位置または所定時間前(たとえば、5〜10秒前程度)の位置となる。頭出し位置は図10に示したように表示される。これにより、録音ファイルSiを先頭位置から聞く必要がなく、必要な箇所のみ聞くことで、確認作業の効率化を図ることができる。
選択部717は、頭出し位置の選択を受け付ける機能を有する。具体的には、たとえば、図10に示したチェックボックス1006にチェックを入力する。これにより、頭出し位置までマーカー1003が移動する。再生部718は、選択部717によって選択された頭出し位置から変換元となる録音データを再生する機能を有する。具体的には、たとえば、図10に示したユーザインターフェース1004の再生ボタンを押下することで、頭出し位置から録音ファイルSiを再生する。これにより、抽出単語の音声を即座に聞き取ることができる。
(通話録音処理手順)
図11は、通話録音サーバ211による通話録音処理手順(前半)を示すフローチャートである。まず、INVITEメッセージなどのSIPメッセージを第1のスイッチ203のミラーリングによりキャプチャする(ステップS1101)。このキャプチャはセッションが確立するまでおこなう(ステップS1102:No)。セッションが確立された場合(ステップS1102:Yes)、RTPによる通話が開始されるため、音声パケットを第1のスイッチ203のミラーリングによりキャプチャする(ステップS1103)。このキャプチャは通話終了までおこなう(ステップS1104:No)。
通話が終了した場合(ステップS1104:Yes)、新規のファイルID:iを割り当てる(ステップS1105)。そして、キャプチャされた音声パケットを時系列につなぎ合わせてステレオ型の録音ファイルSiを生成する(ステップS1106)。また、録音ファイルSiや音声パケットから録音ファイル情報を生成する(ステップS1107)。また、録音ファイルSiを中間ファイルTiに変換し(ステップS1108)、中間ファイル情報を生成する(ステップS1109)。そして、割当ファイルID:iのレコードに録音ファイル情報および中間ファイル情報を記録する(ステップS1110)。
図12は、通話録音サーバ211による通話録音処理手順(後半)を示すフローチャートである。ステップS1110のあと、キャプチャされたSIPメッセージからINVITE発行者とINVITE非発行者とを特定する(ステップS1201)。つぎに、INVITEを送出したゲートウェイのIPアドレスを特定する(ステップS1202)。そして、当該IPアドレスをLチャネルに割り当てる(ステップS1203)。
また、INVITE非発行者からの音声パケットを送出したゲートウェイのIPアドレスを特定する(ステップS1204)。つぎに、当該IPアドレスをRチャネルに割り当てる(ステップS1205)。そして、割当ファイルIDのレコードにL/Rチャネルに割り当てられたIPアドレスをGWアドレス情報として記録する(ステップS1206)。そして、録音ファイルSiおよび中間ファイルTiとその呼情報ファイル(ファイルID:iのレコード)をストレージサーバ209に転送してデータベース210に保存する(ステップS1207)。
(音声検索処理手順)
図13は、音声管理サーバ207および音声検索サーバ208による音声検索処理手順を示すフローチャートである。まず、図8に示した検索画面800において検索条件を待ち受ける(ステップS1301:No)。すなわち、検索ボタン806の押下を待ち受ける。検索条件が入力された場合(ステップS1301:Yes)、ファイルID:i=1とし(ステップS1302)、中間ファイルTiが他の検索条件に該当するか否かを判断する(ステップS1303)。他の検索条件とは、フリーキーワードやNGワード、話者種別の指定以外の検索条件である。図8の例では、録音期間のみが該当する。
該当しない場合(ステップS1303:No)、ステップS1308に移行する。一方、該当する場合(ステップS1303:Yes)、録音ファイルSiのファイルサイズZsiを管理リストテーブル500から特定する(ステップS1304)。そして、判別部712による指定話者のLR判別をおこない(ステップS1305)、中間ファイルTiを抽出する(ステップS1306)。
このあと検索処理を実行し(ステップS1307)、ファイルID:iをインクリメントする(ステップS1308)。そして、i>nであるか否かを判断する(ステップS1309)。nは管理リストテーブル500のレコード数であり、録音ファイルSiの総数に一致する。i>nでない場合(ステップS1309:No)、ステップS1303に戻る。一方、i>nである場合(ステップS1309:Yes)、図9に示したように結果を出力する(ステップS1310)。
図14は、検索処理(ステップS1307)の詳細な処理手順を示すフローチャートである。まず、中間ファイルTiの先頭からサーチを開始する(ステップS1401)。そして、検索キーワードに一致または関連する単語が出現したか否かを判断する(ステップS1402)。出現しない場合(ステップS1402:No)、ステップS1407に移行する。一方、出現した場合(ステップS1402:Yes)、判別部712による指定話者のLR判別結果と一致するか否かを判断する(ステップS1403)。
一致しない場合(ステップS1403:No)、ステップS1407に移行する。一方、一致する場合(ステップS1403:Yes)、出現単語を抽出する(ステップS1404)。つぎに、中間ファイルTiにおける出現位置を計算する(ステップS1405)。そして、録音ファイルSiにおける頭出し位置を計算する(ステップS1406)。
このあと、サーチ終了か否かを判断する(ステップS1407)。終了でない場合(ステップS1407:No)、ステップS1402に戻る。一方、終了した場合(ステップS1407:Yes)、ステップS1308に移行してファイルID:iをインクリメントする。
(頭出し再生処理手順)
図15は、音声管理サーバ207による頭出し再生処理手順を示すフローチャートである。まず、録音ファイルSiが選択されるのを待ち受ける(ステップS1501)。具体的には、たとえば、図9に示したチェックボックス812の入力および実行ボタン817の押下を待ち受ける。録音ファイルSiが選択された場合(ステップS1501:Yes)、頭出し位置が選択されるのを待ち受ける(ステップS1502:No)。具体的には、たとえば、図10のチェックボックス1006の入力を待ち受ける。
頭出し位置が選択された場合(ステップS1502:Yes)、選択頭出し位置から再生する(ステップS1503)。具体的には、たとえば、頭出し位置が選択されると、マーカー1003が頭出し位置まで移動する。そして、ユーザインターフェース1004の再生ボタンを押下することで録音ファイルSiが再生される。
本実施の形態によれば、人手を介さずに短時間で確認対象話者の発話内容を音声検索技術により高精度にキーワード抽出することができる。
また、上述した実施の形態では、サービス提供者として営業マンを例に挙げて説明したが、サービス提供者は営業マンだけではなくオペレータであってもよい。図16〜図18は、IPコールセンタに適用した場合のVoIP通話システムにおける通話録音の動作概要を示す説明図である。図16〜図18は、オペレータと顧客とのVoIP通話録音を示しており、特に、図16は顧客が発信者でオペレータが着信者の例、図17はオペレータが発信者で顧客が着信者の例、図18は混雑時の待呼トーキー再生からオペレータに接続する例である。なお、図2および図3に示した構成と同一構成には同一符号を付し、その説明を省略する。
図16〜図18のVoIP通話システム1600は、顧客側ゲートウェイ群202と接続する第3のスイッチ1603と、第3のスイッチ1603と接続する第4のスイッチ1604と、第4のスイッチ1604と接続する第5のスイッチ1605と、第4のスイッチ1604と接続する第6のスイッチ1606とを有する。第3のスイッチ1603は、顧客側のゲートウェイからのSIPメッセージや音声パケットを第4のスイッチ1604に送出したり、第4のスイッチ1604からのSIPメッセージや音声パケットを顧客の通話端末222に送出する。
第4のスイッチ1604は、第5のスイッチ1605、第6のスイッチ1606、SIPサーバ205、IVR(Interactive Voice Response)メディアサーバ、通話録音サーバ211と接続されている。
第4のスイッチ1604は、第4のスイッチ1604内を通過するSIPメッセージや音声パケットをミラーリングして、通話録音サーバ211に供給する。IVRメディアサーバ1607とは、IPコールセンタにおいて、音声による自動応答を行なうコンピュータである。発信者のダイヤル操作に合わせて、あらかじめ録音してある音声を顧客の通話端末222に自動的に再生する。また、音声認識により顧客の発話に応じて再生内容を決めることもできる。
第5のスイッチ1605は、オペレータの通話端末1601および操作端末1602と接続される。第5のスイッチ1605は、第4のスイッチ1604からのSIPメッセージや音声パケットをオペレータの通話端末1601に送出したり、オペレータの通話端末1601からのSIPメッセージや音声パケットを第4のスイッチ1604に送出する。第6のスイッチ1606は、音声管理サーバ207、音声検索サーバ208、ストレージサーバ209、通話録音サーバ211に接続される。
図16において、まず、(1)顧客の通話端末222から呼設定メッセージ(INVITE)をSIPサーバ205に送出する。(2)SIPサーバ205は、INVITEをオペレータの通話端末1601に転送する。オペレータの通話端末1601からINVITEに対する応答メッセージがSIPサーバ205に返ってくると、セッションが確立する。
そして、(3)顧客の通話端末222とオペレータの通話端末1601との間でRTPの通話が可能となり、音声パケットが送受される。この場合、顧客の通話端末222がINVITE発行元、オペレータの通話端末1601がINVITE非発行元である。(1)〜(3)のSIPメッセージや音声パケットは第4のスイッチ1604によりミラーリングされ、通話録音サーバ211にキャプチャされる。
(4)通話録音サーバ211は、上述したように、録音ファイルSi、中間ファイルTi、呼情報ファイルを作成する。この例では、顧客の通話端末222がINVITE発行元であるため、顧客の音声はLチャネルで録音される。一方、オペレータの通話端末1601はINVITE非発行元であるため、オペレータの音声はRチャネルで録音される。そして、ストレージサーバ209に転送することで、データベース210に保存される。(5)また、上述したように、オペレータが操作端末1602を介して音声管理サーバ207および音声検索サーバ208に音声検索をおこなうことができる。
図17では、(1)オペレータが顧客宛のINVITEをSIPサーバ205に送出する。(2)SIPサーバ205は、顧客の通話端末222にINVITEを転送して顧客の通話端末222を呼び出す。顧客の通話端末222からINVITEに対する応答メッセージがSIPサーバ205に返ってくると、セッションが確立する。
そして、(3)顧客の通話端末222とオペレータの通話端末1601との間でRTPの通話が可能となり、音声パケットが送受される。この場合、オペレータの通話端末1601がINVITE発行元、顧客の通話端末222がINVITE非発行元である。(1)〜(3)のSIPメッセージや音声パケットは第4のスイッチ1604によりミラーリングされ、通話録音サーバ211にキャプチャされる。(4)および(5)は図16と同一内容であるため省略する。
図18では、(1)顧客の通話端末222から呼設定メッセージ(INVITE)をSIPサーバ205に送出する。(2)SIPサーバ205は、IVRメディアサーバ1607に待呼トーキー接続する。これは、オペレータの通話端末1601に空きがなく、顧客に待機してもらうためである。(3)これにより、顧客の通話端末222とIVRメディアサーバ1607との間でセッションが確立し、顧客の通話端末222とIVRメディアサーバ1607とのRTPの通話が可能となる。
このとき、IVRメディアサーバ1607は、顧客の通話端末222に対し、トーキー再生音(たとえば、「ただいま大変混雑しております。しばらくお待ちください。」)の音声パケットを送出する。顧客は、オペレータと通話ができないが、待機させられている不満などが音声パケットとしてIVRメディアサーバ1607に送出される。(1)〜(4)のSIPメッセージや音声パケットは、第4のスイッチ1604でミラーリングされ、通話録音サーバ211にキャプチャされる。
(4)通話録音サーバ211は、上述したように、録音ファイルSi、中間ファイルTi、呼情報ファイルを作成する。この場合、顧客の通話端末222がINVITE発行元であり、IVRメディアサーバ1607がINVITE非発行元である。したがって、顧客の音声はLチャネルで録音され、IVRメディアサーバ1607からのトーキー再生音はRチャネルで録音される。この録音ファイルSiは、その中間ファイルTiや呼情報ファイルとともにストレージサーバ209に転送され、データベース210に保存される。
(5)オペレータに空きができると、IVRメディアサーバ1607はそのオペレータの通話端末1601に接続する。これにより、顧客の通話端末222とオペレータの通話端末1601との間でRTPの通話が可能となり、音声パケットが送受される。この場合、顧客の通話端末222がINVITE発行元、オペレータの通話端末1601がINVITE非発行元である。(5)および(6)のSIPメッセージや音声パケットは第4のスイッチ1604によりミラーリングされ、通話録音サーバ211にキャプチャされる。
(7)通話録音サーバ211は、上述したように、録音ファイルSi、中間ファイルTi、呼情報ファイルを作成する。この例では、顧客の通話端末222がINVITE発行元であるため、顧客の音声はLチャネルで録音される。一方、オペレータの通話端末1601はINVITE非発行元であるため、オペレータの音声はRチャネルで録音される。そして、ストレージサーバ209に転送することで、データベース210に保存される。(8)また、上述したように、オペレータが操作端末1602を介して音声管理サーバ207および音声検索サーバ208に音声検索をおこなうことができる。
図19は、IPコールセンタに適用した場合の管理リストテーブル500の記憶内容を示す説明図である。図16のように顧客からINVITEを発行した場合、ファイルID:i=1のレコード(呼情報ファイル)のように、顧客側のゲートウェイgw23のIPアドレスがL側GWアドレスとして登録される。すなわち、顧客の音声が録音ファイルS1のLチャネルで録音され、オペレータの音声がRチャネルで録音されたこととなる。
図17のようにオペレータからINVITEを発行した場合、ファイルID:i=2のレコード(呼情報ファイル)のように、顧客側のゲートウェイgw23のIPアドレスがR側GWアドレスとして登録される。すなわち、オペレータの音声が録音ファイルS2のLチャネルで録音され、顧客の音声がRチャネルで録音されたこととなる。
図18のようにトーキー再生音が再生された場合、ファイルID:i=1のレコード(呼情報ファイル)のように、顧客側のゲートウェイgw23のIPアドレスがL側GWアドレスとして登録される。すなわち、顧客の音声が録音ファイルS1のLチャネルで録音され、トーキー再生音がRチャネルで録音されたこととなる。
このように、図7〜図15に示したVoIP通話録音システム700は、図16〜図18に示したIPコールセンタにおいてもそのまま適用することができる。また、トーキー再生音の再生時において待機させられている顧客の音声も録音できるため、顧客の不満(本音)も拾うことができ、クレーム処理などに有効である。
以上説明したように、本実施の形態によれば、録音データの話者判別の容易化を図ることにより、通話内容の確認作業の効率化を図ることができる。
なお、本実施の形態で説明した話者判別方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な媒体であってもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータを、
一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得する取得手段、
前記取得手段によって取得された呼出メッセージの発行元と前記呼出メッセージの非発行元とを特定する特定手段、
前記取得手段によって取得された音声パケットのうち、前記特定手段によって特定された発行元からの音声パケットを2つのチャネルの一方のチャネルに、前記特定手段によって特定された非発行元からの音声パケットを前記2つのチャネルの他方のチャネルに分けて、ステレオ型の録音データを生成する生成手段、
前記発行元の話者に関する識別情報を前記一方のチャネルに割り当てるとともに、前記非発行元の話者に関する識別情報を前記他方のチャネルに割り当てる割当手段、
前記割当手段によって前記チャネル別に割り当てられた識別情報と前記生成手段によって生成された録音データとを関連付けて保存する保存手段、
として機能させることを特徴とする話者判別プログラム。
(付記2)前記呼出メッセージの発行元が前記一方の話者の通話端末であり、前記呼出メッセージの非発行元が前記他方の通話端末であり、
前記取得手段は、
前記一方の話者の通話端末および前記他方の話者の通話端末からの音声パケットを取得することを特徴とする付記1に記載の話者判別プログラム。
(付記3)前記呼出メッセージの発行元が前記他方の話者の通話端末であり、前記呼出メッセージの非発行元が前記一方の通話端末であり、
前記取得手段は、
前記一方の話者の通話端末および前記他方の話者の通話端末からの音声パケットを取得することを特徴とする付記1に記載の話者判別プログラム。
(付記4)前記呼出メッセージの発行元が前記他方の通話端末から前記一方の話者の通話端末への接続確立を制御する呼制御装置であり、前記呼出メッセージの非発行元が前記他方の通話端末であり、
前記取得手段は、
前記呼制御装置および前記他方の話者の通話端末からの音声パケットを取得し、
前記割当手段は、
前記非発行元の話者に関する識別情報のみを前記他方のチャネルに割り当てることを特徴とする付記1に記載の話者判別プログラム。
(付記5)前記コンピュータを、
前記録音データを、単語ごとに前記各チャネルを割り当てたバイナリデータに変換する変換手段として機能させ、
前記保存手段は、
前記チャネル別に割り当てられた識別情報と前記録音データと前記変換手段によって変換されたバイナリデータとを関連付けて保存することを特徴とする付記1〜4のいずれか一つに記載の話者判別プログラム。
(付記6)前記コンピュータを、
検索キーワードと話者の指定とを受け付ける受付手段、
前記チャネル別に割り当てられた識別情報に基づいて、前記受付手段によって指定が受け付けられた話者(以下「指定話者」という)に関する識別情報に関連付けられているチャネルを判別する判別手段、
前記保存手段によって保存されたバイナリデータの中から前記受付手段によって受け付けられた検索キーワードに一致または関連する単語を検索する検索手段、
前記検索手段によって検索された単語の中から、前記判別手段によって判別されたチャネルに該当する単語を抽出する抽出手段、
前記抽出手段によって抽出された単語を含むバイナリデータに関連付けされた変換元の録音データに関する情報を出力する出力手段、
として機能させることを特徴とする付記5に記載の話者判別プログラム。
(付記7)前記コンピュータを、
前記抽出手段によって抽出された単語(以下、「抽出単語」)を含むバイナリデータのサイズと、当該バイナリの変換元の録音データのサイズと、前記抽出単語を含むバイナリデータ上の前記抽出単語の出現位置と、に基づいて、前記変換元の録音データ上の前記抽出単語に相当する音声の頭出し位置を算出する算出手段として機能させ、
前記出力手段は、
前記算出手段によって算出された頭出し位置を出力することを特徴とする付記6に記載の話者判別プログラム。
(付記8)前記コンピュータを、
前記出力手段によって出力された頭出し位置の選択を受け付ける選択手段、
前記選択手段によって選択された頭出し位置から前記変換元となる録音データを再生する再生手段、
として機能させることを特徴とする付記7に記載の話者判別プログラム。
(付記9)一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得する取得手段と、
前記取得手段によって取得された呼出メッセージの発行元と前記呼出メッセージの非発行元とを特定する特定手段と、
前記取得手段によって取得された音声パケットのうち、前記特定手段によって特定された発行元からの音声パケットを2つのチャネルの一方のチャネルに、前記特定手段によって特定された非発行元からの音声パケットを前記2つのチャネルの他方のチャネルに分けて、ステレオ型の録音データを生成する生成手段と、
前記発行元の話者に関する識別情報を前記一方のチャネルに割り当てるとともに、前記非発行元の話者に関する識別情報を前記他方のチャネルに割り当てる割当手段と、
前記割当手段によって前記チャネル別に割り当てられた識別情報と前記生成手段によって生成された録音データとを関連付けて保存する保存手段と、
を備えることを特徴とする話者判別装置。
(付記10)コンピュータが、
一方の話者の通話端末と他方の話者の通話端末との間の接続を確立させる呼出メッセージと接続確立により送受される音声パケットとを取得する取得工程と、
前記取得工程によって取得された呼出メッセージの発行元と前記呼出メッセージの非発行元とを特定する特定工程と、
前記取得工程によって取得された音声パケットのうち、前記特定工程によって特定された発行元からの音声パケットを2つのチャネルの一方のチャネルに、前記特定工程によって特定された非発行元からの音声パケットを前記2つのチャネルの他方のチャネルに分けて、ステレオ型の録音データを生成する生成工程と、
前記発行元の話者に関する識別情報を前記一方のチャネルに割り当てるとともに、前記非発行元の話者に関する識別情報を前記他方のチャネルに割り当てる割当工程と、
前記割当工程によって前記チャネル別に割り当てられた識別情報と前記生成工程によって生成された録音データとを関連付けて保存する保存工程と、
を実行することを特徴とする話者判別方法。