JP2007108541A

JP2007108541A - メタデータ付き通話音声データ提供システム、方法、プログラム、サーバー及び携帯端末

Info

Publication number: JP2007108541A
Application number: JP2005301058A
Authority: JP
Inventors: Yusuke Tomita; 祐介冨田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-10-14
Filing date: 2005-10-14
Publication date: 2007-04-26
Anticipated expiration: 2025-10-14
Also published as: JP5007913B2

Abstract

【課題】携帯端末を有する各自に対して、欲する通話音声データだけを聞かせる。
【解決手段】通話を再現するためのメタデータ付き通話音声データ提供システムに、基地局201,202を介して通話を行う携帯端末101,102と、前記携帯端末からの通話音声データを格納する領域と、通話音声データのメタデータを格納する領域を有するデータベース302と、前記通話音声データを音声認識処理しシーンを区分けするキーワードを検出し、検出したキーワードに対してメタデータを作成し、検出されたキーワードに対して前記データベースの領域にインデックスを付け、メタデータを前記データベースの領域に格納させ、前記データベースに格納されたメタデータの情報を携帯端末に配布し、携帯端末を有する各自に対して、欲するに通話音声データだけを提供するためのメタデータ作成部303とを備える。
【選択図】図１

Description

本発明は基地局を介して電話による会話を行う携帯端末に関する。特に、本発明は、各携帯端末からそれぞれ通話音声データを受信し格納し各自が欲する通話音声データを再現し提供するメタデータ付き通話音声データ提供システム、方法、プログラム、サーバー及び携帯端末に関する。

近年、携帯端末の普及が著しく、携帯端末を用いた電話による会話が頻繁に行われているが、人間は電話で話した内容の全てを記憶しているとは限らず、後から関係者へ情報展開をする際に電話で話した内容を上手に伝えることができず、報告漏れがあったりするという問題を有する。
さらに、ボイスレコーダーを用いて会話を録音しただけの場合は、複数の発言者からの声を一度に録音してしまうため、誰の音声かを容易に判断し、発言者を区別することが困難であるという問題がある。

さらに、ボイスレコーダーを用いて会話を録音しただけの場合は、電話での通話音声データを全て聞くことなく、携帯端末を有する各自に対して欲する通話音声データだけを再現して聞かせることが困難であるという問題がある。
従来、後利用しにくい携帯電話の会話内容を有効に活用するため、携帯電話を用いて、音声通信伝送および通信伝送を行う無線通信手段と、音声通信伝送によるやりとりデータをＷｅｂ上に設けた通信者用のサーバーに転送する手段を備えたことを特徴とする携帯電話を用いたデータ処理装置としたものであり、さらに、通信者用のサーバー上に自動的に転送する際に、音声通信伝送によるやりとりデータを音声認識手段によりテキストデータ化する手段を備えたものであり、さらに、やりとりデーターをマークアップ言語形式で管理して保存する手段を備えたものもある（例えば、特許文献１参照）。

しかしながら、上記特許文献１では、テキストデータであるため、実際の会話内容を通話音声データとして聞くことができないという問題がある。
また、従来、電話端末装置において、通話者の会話を妨げることなく会話に関連する情報を容易に検索、表示するため、音声入力部からの会話音声に対し、音声認識部が認識処理を行い、言語処理部は音声認識部の認識結果を解析し単語抽出を行い、検索キーワード確定部は抽出された単語から情報検索に適切なキーワードを確定し、表示部に表示し、検索部はユーザーが検索対象指定部によって指定したキーワードに関する情報を情報格納部から検索し、表示部にその内容を表示するものもある（例えば、特許文献２参照）。

しかしながら、上記特許文献２では、キーワードに関する情報を表示部に表示するため、実際の会話内容を通話音声データとして聞くことができないという問題がある。
また、従来、音声データに、その音声データに関連した情報を付加したデータを順次生成／記録し、付加された情報に応じた音声データを抽出可能とする音声処理装置および音声処理方法を提供するため、Ａ／Ｄ変換器は、マイクロフォンが集音した信号をディジタル信号（音声データ）に変換し、音声認識処理部は、音声データを認識処理し認識可能な音声データのみを抽出し、声紋照合処理部は、抽出された音声データに基づいて声紋照合処理を行い、予め登録された声紋データに合致する発話者を特定し、データ入力部は、付加データＤＡＴＡを入力し、メタデータ作成部は、特定された発話者と付加データＤＡＴＡに基づいてメタデータを作成し、フレームデータ生成部は、音声データと当該音声データに対応するメタデータを合成してフレームデータを生成するものもある（例えば、特許文献３参照）。

しかしながら、上記特許文献３では、特定の発話者の音声を判断し聞くことが可能であるが、携帯端末を有する各自に対して、欲する通話音声データだけを聞かせることが困難であるという問題がある。
また、従来、カラーバー映像部によって区切られたビデオデータＡ，ビデオデータＢ，……，ビデオデータＥを、データ蓄積装置の個々に異なる記憶領域に、ファイルＡ，ファイルＢ，……，ファイルＥとして記憶し、ビデオデータの分別整理がきわめて容易となるものがある（例えば、特許文献４参照）。

しかしながら、上記特許文献４では、ビデオデータを通話音声データに置き換えても、携帯端末を有する各自に対して、欲する通話音声データだけを聞かせることができないという問題がある。

特開２００４−１２９１６８号公報特開平１１−２５２２８１号公報特開２００５−１８１３９１号公報特開２０００−０２３０６９号公報

したがって、本発明は上記問題点に鑑みて、携帯端末を有する各自に対して、欲する通話音声データだけを聞かせるためのメタデータ付き通話音声データ提供システムを提供することを目的とする。

本発明は前記問題点を解決するために、通話を再現するためのメタデータ付き通話音声データ提供システムにおいて、基地局を介して通話を行う携帯端末と、前記携帯端末からの通話音声データを格納する領域と、通話音声データのメタデータを格納する領域を有するデータベースと、前記通話音声データを音声認識処理しシーンを区分けするキーワードを検出し、検出したキーワードに対してメタデータを作成し、検出されたキーワードに対して前記データベースの領域にインデックスを付け、メタデータを前記データベースの領域に格納させ、前記データベースに格納されたメタデータの情報を前記携帯端末に配布し、携帯端末を有する各自に対して欲するに通話音声データだけを提供するためのメタデータ作成部とを備えることを特徴とするメタデータ付き通話音声データ提供システムを提供する。

さらに、前記メタデータ作成部は、前記データベースに格納された通話音声データを音声認識する音声認識部と、キーワードを格納し、前記音声認識部で音声認識された言語がキーワードと一致する場合、一致する言語をメタデータとする処理を行う言語処理部とを備える。
さらに、発言者判別部を備え、前記発言者判別部は携帯端末からの通話音声データの発言者を判別し、通話音声データを発言者毎に前記データベース毎に格納させ、前記メタデータ作成部は、発言者の通話音声データの先頭にインデックスを付け、発言者の通話音声データに対するメタデータを作成し、前記データベースの領域に格納させ、前記通話音声データのメタデータを前記キーワードのメタデータと共に配布する。

さらに、通話音声データを提供するためメタデータの情報を提供する際にパスワードを記載したメールを、通話を行った携帯端末に発行する。
さらに、通話を行った携帯端末以外で予め登録されている複数の関係者の携帯端末に対してパスワードを記載したメールを発行する。
さらに、前記メタデータ作成部は、少なくとも３台の携帯端末間で行う通話に対して、メタデータを作成する。

さらに、携帯端末間で行った通話の通話音声データを携帯端末に格納し通話終了後に携帯端末に格納した通話音声データを前記データベースに格納させ、前記メタデータ作成部にメタデータ作成を行わせる。
さらに、本発明は、携帯端末の通話を再現するためのメタデータ付き通話音声データ提供方法において、携帯端末からの通話音声データを格納する工程と、格納された通話音声データを音声認識処理しシーンを区分けするキーワードを検出する工程と、検出したキーワードに対してメタデータを作成する工程と、検出されたキーワードが格納されている領域にインデックスを付ける工程と、作成されたメタデータを格納する工程と、通話を行った携帯端末に対してパスワードを記載したメールを発行する工程と、メールを受け取った携帯端末から要求に対してメタデータの情報を携帯端末に配布する工程と、携帯端末からのメタデータの選択に対して携帯端末を有する各自に対して欲する通話音声データだけを提供する工程とを備えることを特徴とするメタデータ付き通話音声データ提供方法を提供する。

さらに、本発明は、携帯端末の通話を再現するためのメタデータ付き通話音声データ提供をコンピュータで実行するプログラムにおいて、携帯端末からの通話音声データを格納する手順と、格納された通話音声データを音声認識処理しシーンを区分けするキーワードを検出する手順と、検出したキーワードに対してメタデータを作成する手順と、検出されたキーワードが格納されている領域にインデックスを付ける手順と、作成されたメタデータを格納する手順と、通話を行った携帯端末に対してパスワードを記載したメールを発行する手順と、メールを受け取った携帯端末から要求に対してメタデータの情報を携帯端末に配布する手順と、携帯端末からのメタデータの選択に対して携帯端末を有する各自に対して欲する通話音声データだけを提供する手順とを備えることを特徴とする、メタデータ付き通話音声データ提供をコンピュータで実行するプログラム。

さらに、本発明は、携帯端末間の通話を再現するためのメタデータ付き通話音声データ提供サーバーにおいて、携帯端末からの通話音声データを格納する領域と、通話音声データのメタデータを格納する領域を有するデータベースと、前記通話音声データを音声認識処理しシーンを区分けするキーワードを検出し、検出したキーワードに対してメタデータを作成し、検出されたキーワードに対して前記データベースの領域にインデックスを付け、メタデータを前記データベースの領域に格納させ、前記データベースに格納されたメタデータの情報を前記携帯端末に配布し、携帯端末を有する各自に対して欲するに通話音声データだけを提供するためのメタデータ作成部とを備えることを特徴とするメタデータ付き通話音声データ提供システムサーバーを提供する。

さらに、本発明は、サーバーに通話音声データを格納し通話の再現を行う携帯端末において、携帯端末の発呼時に前記サーバーに対して通話音声データ蓄積の許可を行う通話音声データ蓄積許可部と、前記サーバーで、前記携帯端末からの通話音声データを格納し、前記通話音声データを音声認識処理しシーンを区分けするキーワードを検出し、検出したキーワードに対してメタデータを作成し、検出されたキーワードを格納した領域にインデックスを付け、メタデータを格納させ、メタデータを配布するためのパスワードが記載されたメールが携帯端末に対して発行された場合、前記サーバーに対してメタデータの配布を要求するメタデータ配布要求部と、配布されたメタデータを表示する表示部と、前記表示部に表示されたメタデータから通話音声データのメタデータを選択し、欲する通話音声データだけを前記サーバーから取得する通話音声データ取得部とを備えることを特徴とする携帯端末を提供する。

以上説明したように、本発明によれば、携帯端末からの通話音声データを格納し、格納された通話音声データを音声認識処理しシーンを区分けするキーワードを検出し、検出したキーワードに対してメタデータを作成し、検出されたキーワードが格納されている領域にインデックスを付け、作成されたメタデータを格納し、通話を行った携帯端末に対してパスワードを記載したメールを発行し、メールを受け取った携帯端末から要求に対してメタデータの情報を携帯端末に配布し、携帯端末からのメタデータの選択に対して携帯端末を有する各自に対して欲する通話音声データだけを提供するようにしたので、誰がどのようなシーンで発言をしたのかといった情報を知ることが可能になり、電話での通話音声データを全て聞くことなく、携帯端末を有する各自に対して、欲する通話音声データだけを再現して聞かせることが可能になる。

以下、本発明の実施の形態について図面を参照して説明する。
図１は本発明に係るメタデータ付き通話音声データ提供システムの概略構成を示すブロック図である。本図に示すように、メタデータ付き通話音声データ提供システムでは、代表的に、携帯端末ネットワーク２００には基地局２０１、２０２が接続され、基地局２０１、２０２には携帯端末１０１、１０２がそれぞれ接続され、さらに、携帯端末ネットワーク２００にはメタデータ付通話音声データ提供サーバー３００が接続され、携帯端末１０１、１０２を有する各自に対して、欲する通話音声データだけを聞かせる機能をコンピュータのプログラムで実行する。

メタデータ付通話音声データ提供サーバー３００は携帯端末１０１、１０２の間にて通話が行われた通話音声データを取得し、取得した通話音声データに対してメタデータを作成し、作成したメタデータを携帯端末１０１、１０２に配布し、メタデータを配布された携帯端末１０１、１０２を有する各自に対して、メタデータで選択された通話音声データを提供する。

詳細には、メタデータ付通話音声データ提供サーバー３００には発言者判別部３０１、データベース３０２、メタデータ作成部３０３が設けられ、さらに、データベース３０２には通話音声データ格納領域３０２Ａ、メタデータ格納領域３０２Ｂが設けられる。
ここに、発言者判別部３０１は携帯端末ネットワーク２００を介して入力する通話音声データを携帯端末１０１、１０２の発言者毎に判別する。

なお、通話音声データには送信元、送信先のアドレスが付いているので、送信元情報を用いて発言者毎に判別が行われる。
通話音声データ格納領域３０２Ａは、発言者判別部３０１で判別された通話音声データを分離し、携帯端末１０１、１０２毎に格納する。
メタデータ作成部３０３は、通話音声データ格納領域３０２Ａに格納された通話音声データに対してインデックスを付け、インデックスを付けた通話音声データに対してメタデータを作成し、作成されたメタデータをデータベース３０２の通話音声データ格納領域３０２Ｂに格納する。

図２は図１におけるメタデータ付通話音声データ提供サーバー３００の発言者判別部３０１による発言者判断を説明する図である。
発言者判別部３０１にはメタデータ付通話音声データ提供サーバー３００により携帯端末１０１、１０２から取得された通話音声データが交互に入力する。
すなわち、入力する通話音声データでは、本図(ａ)に示すように、携帯端末１０１の通話音声データ１０１−１に対して、携帯端末１０２の通話音声データ１０２−１が応答し、
通話音声データ１０２−１に対して携帯端末１０１の通話音声データ１０１−２が応答し、
通話音声データ１０１−２に対して携帯端末１０２の通話音声データ１０２−３が応答し、
通話音声データ１０２−３に対して携帯端末１０１の通話音声データ１０１−４が応答し、
通話音声データ１０１−４に対して携帯端末１０２の通話音声データ１０２−５が応答し、
通話音声データ１０２−５に対して携帯端末１０１の通話音声データ１０１−６が応答し、
通話音声データ１０１−６に対して携帯端末１０２の通話音声データ１０２−７が応答し、
通話音声データ１０２−７に対して携帯端末１０１の通話音声データ１０１−８が応答し、
通話音声データ１０１−８に対して…以下同様に通話が終了するまで続くとする。

発言者判別部３０１は、交互に入力する通話音声データに対して、本図(ｂ)に示すように、携帯端末１０１の通話音声データ１０１−１、１０１−２、…、１０１−８、…、携帯端末１０２の通話音声データ１０２−１、１０２−２、…、１０２−８、…、を判別する。
なお、通話音声データは送信元情報で判別されるので、発言者判別部３０１では携帯端末１０１、１０２から同時に通話音声データが入力されても判別は可能である。

図３は図１におけるデータベース３０２の通話音声データ格納領域３０２Ａに格納される通話音声データを示す図である。本図に示すように、通話音声データ格納領域３０２Ａには、発言者判別部３０１により判別された携帯端末１０１の通話音声データ１０１−１〜１０１−７、…、携帯端末の通話音声データ１０２−１〜１０２−７、…が別々に格納される。

図４は図１におけるメタデータ作成部３０３の概略構成を示すブロック図である。本図に示すように、メタデータ作成部３０３には発言者区分部３０３Ａが設けられ、発言者区分部３０３Ａは通話音声データ格納領域３０２Ａに格納されている携帯端末１０１、１０２毎の通話音声データに対してインデックスを付け、インデックスに対して、発言者の通話音声データを区分けするメタデータを作成しデータベース３０２のメタデータ格納領域３０２Ｂに格納する。

さらに、メタデータ作成部３０３にはシーン区分部３０３Ｂが設けられ、シーン区分部３０３Ｂは通話音声データから特定のキーワードを検出し、検出したキーワードを基に通話音声データに対してシーン分けしデータベース３０２の通話音声データ格納領域３０２Ａに格納されているキーワードに対してインデックスを付け、検出されたキーワードに対してメタデータを作成しデータベース３０２のメタデータ格納領域３０２Ｂに格納する。

詳細には、シーン区分部３０３Ｂには音声認識部３０４、言語処理部３０５が設けられる。
ここに、音声認識部３０４はデータベース３０２の通話音声データ格納領域３０２Ａに格納されている通話音声データを入力し、音声認識の解析を行う。
言語処理部３０５は予めキーワードを格納し、音声認識部３０４で音声認識された言語に対して格納されたキーワードと一致する場合、一致した言語をメタデータとする処理を行う。

キーワードの一例としては、「今週末はどうする？」、「場所は何処にする？」、「値段はどうする？」、「出発は何時にする？」、「誰にする？」、「色は何色にする？」、「厚さはどうする？」、「長さはどうする？」、「温度はどうする？」、「重さはどうする？」、「高さはどうする？」、「大きさはどうする？」、「幅はどうする？」、「材料はどうする？」がある。
さらに、携帯端末を有する各自により所望のキーワードを追加するようにしてもよい。

図５はメタデータ作成部３０３により通話音声データ格納領域３０２Ａに対して付けるインデックス例を説明する図である。
本図に示すように、メタデータ作成部３０３の発言者区分部３０３Ａにより、携帯端末１０１の通話音声データ１０１−１〜１０１−８、…の先頭の通話音声データ１０１−１にはインデックス１が付けられ、携帯端末１０２の通話音声データ１０２−１〜１０２−８、…の先頭の通話音声データ１０２−１にはインデックス２が付けられる。

このインデックス１、２で携帯端末１０１、１０２のいずれか一方の通話音声データの選択が可能になる。
さらに、シーン区分部３０３Ｂにより、検出されたキーワードにより通話音声データをシーン分けし、キーワードがある通話音声データの位置にインデックスが付けられる。
例えば、携帯端末１０１の通話音声データ１０１−３にキーワード１として「今週はどうする？」が検出された場合には、キーワード１に対してインデックス３が付けられる。

さらに、携帯端末１０１の通話音声データ１０１−５にキーワード２として「場所は何処にする？」が検出された場合には、キーワード２に対してインデックス４が付けられる。
さらに、携帯端末１０２の通話音声データ１０２−２にキーワード３として「値段はどうする？」が検出された場合には、キーワード３に対してインデックス５が付けられる。

さらに、携帯端末１０２の通話音声データ１０２−６にキーワード４として「出発は何時にする？」が検出された場合には、キーワード４に対してインデックス６が付けられる。
図６はメタデータ作成部３０３で作成されるメタデータの例である。本図に示すように、メタデータ作成部３０３は、発言者区分について携帯端末１０１の通話音声データに対するメタデータ、携帯端末１０１の通話音声データのシーン区分に対してキーワード１、２、…に対するメタデータを作成し、各メタデータに対してインデックス１、３、４、…を付ける。

さらに、メタデータ作成部３０３は、発言者区分について携帯端末１０２の通話音声データに対するメタデータ、携帯端末１０２の通話音声データのシーン区分に対してキーワード３、４、…に対するメタデータを作成し、各メタデータに対してインデックス２、５、６、…を付ける。
インデックス１、２でデータベース３０２の通話音声データ格納領域３０２Ａに格納されている携帯端末１０１、１０２の通話音声データの検索が行われ、インデックス３、４、５、６、…で、携帯端末１０１、１０２を有する各自に対して、欲する通話音声データだけを検索することを可能にする。

図７は図１における携帯端末１０１、１０２の各々について本発明に係る概略構成を示すブロック図である。本図に示すように、携帯端末１０１、１０２の各々には通話音声データ蓄積許可部１１１が設けられ、通話音声データ蓄積許可部１１１は、携帯端末１０１、１０２の一方から他方に発呼がある場合、メタデータ付通話音声データ提供サーバー３００から相手の電話番号と共に「通話音声データを蓄積します。よろしいですか？」との表示、音声案内が携帯端末１０１、１０２の各々に対して行われ、この表示、に対して、携帯端末１０１、１０２の各々からメタデータ付通話音声データ提供サーバー３００に対して通話音声データ蓄積の許可を行う。

さらに、携帯端末１０１、１０２の各々にはメタデータ配布要求部１１２が設けられ、メタデータ配布要求部１１２は、メタデータ付通話音声データ提供サーバー３００から通話音声データの格納、メタデータ作成が終了した場合、メタデータを配布するためのパスワードが記載されたメールが携帯端末１０１、１０２に発行され、メタデータ付通話音声データ提供サーバー３００に対してメタデータの配布を要求することが可能になる。

携帯端末１０１、１０２の各々の表示部１１３にはメタデータ付通話音声データ提供サーバー３００から配布されたメタデータが表示される。
携帯端末１０１、１０２の各々には通話音声データ取得部１１４が設けられ、通話音声データ取得部１１４は、表示部１１３の表示を参照して、携帯端末１０１、１０２のいずれかの通話音声データの取得を選択し、キーワードの選択を行い、通話音声データを取得する。

図８は図７の表示部１１３に表示されるメタデータ例を説明する図である。本図(ａ)に示すように、携帯端末１０１の通話音声データ取得選択、携帯端末１０２の通話音声データ取得選択が表示される。
本図(ｂ)に示すように、通話音声データ取得部１１４により携帯端末１０１の通話音声データ取得選択が行われた場合には、キーワード１の選択、キーワード２の選択、…が表示される。

本図(ｃ)に示すように、通話音声データ取得部１１４により携帯端末１０２の通話音声データ取得選択が行われた場合には、キーワード３の選択、キーワード４の選択、…が表示される。
本図(ｄ)に示すように、通話音声データ取得部１１４により本図(ｂ)、本図（ｃ）でいずれかのキーワードが選択された場合、再生、中止、巻戻、早送の表示が行われ、通話音声データ取得部１１４により再生が選択された場合にはキーワードで区分けされた通話音声データの再生が行われる。

さらに、通話音声データ取得部１１４により中止が選択された場合には再生が中止される。
さらに、通話音声データ取得部１１４により巻戻、早送が選択された場合には再生の調整が可能になる。
図９はメタデータ付通話音声データ提供サーバー３００の一連の動作例を説明するフローチャートである。

本図に示すように、ステップ４０１において、メタデータ付通話音声データ提供サーバー３００の発言者判別部３０１では、携帯端末１０１、１０２の一方から他方に発呼があると、通話音声データを蓄積するという許可があるか否かを判断する。許可がなければ、又は発呼に対して相手側が電話に出ない場合には、本動作を起動せず、処理を終了する。
ステップ４０２において、相手側が電話に出て、通話音声データの蓄積の許可があった場合には、基地局２０１、２０２を介して、メタデータ付通話音声データ提供サーバー３００では携帯端末１０１、１０２から通話音声データを取得し、発言者判別部３０１では、取得された通話音声データに対して、携帯端末１０１、１０２のいずれの発言者であるかの判別を行う。

ステップ４０３において、発言者の判別が行われた通話音声データに対して発言者毎に、通話音声データの先頭にインデックスを付けてデータベース３０２の通話音声データ格納領域３０２Ａに格納する。
ステップ４０４において、通話音声データ格納領域３０２Ａに格納された発言者毎の通話音声データに対して音声認識の解析を行い、特定されたキーワードを検出し、検出されたキーワードにより通話音声データのシーン区分を行う。

ステップ４０５において、格納された通話音声データで検出されたキーワードにインデックスを付ける。
ステップ４０６において、通話音声データ格納領域３０２Ａに格納された発言者毎の通話音声データ、検出されたキーワードに対してメタデータを作成し、メタデータ格納領域３０２Ｂに格納する。

ステップ４０７において、メタデータ付通話音声データ提供サーバー３００から携帯端末１０１、１０２の各々に対して、メタデータを配布するためのパスワードが記載されたメールを発行し、メタデータの配布が可能である旨を知らせる。
ステップ４０８において、携帯端末１０１、１０２の各々から選択されたメタデータに基づき発言者、通話音声データの区分けについてメタデータ格納領域３０２Ｂを検索し、検索結果として、シーン区分けされた発言者の通話音声データを携帯端末１０１、１０２に提供し、処理を終了する。

図１０は携帯端末１０１、１０２の一連の動作を説明するフローチャートである。本図に示すように、ステップ４１１において、携帯端末１０１、１０２の一方から他方に発呼を行う場合に、メタデータ付通話音声データ提供サーバー３００に対して、通話音声データ蓄積許可部１１１により通話音声データの蓄積の許可を行う。

ステップ４１２において、メタデータ付通話音声データ提供サーバー３００で発行され、パスワードが記載されたメールを受信したかを判断する。受信しない場合には処理を終了する。
ステップ４１３において、メールを受信した場合にはメタデータ付通話音声データ提供サーバー３００に対して、メタデータ配布要求部１１２によりメタデータ配布の要求を行う。

ステップ４１４において、メタデータ付通話音声データ提供サーバー３００から配布されたメタデータを表示部１１３に表示し、表示されたメタデータから通話音声データ取得部１１４により発言者の選択が行われる。
ステップ４１５において、表示されたメタデータから通話音声データ取得部１１４により通話音声データに対してシーン区分の選択が行われる。

ステップ４１６において、発言者の選択、シーン区分の選択に応じた通話音声データの取得がＯＫか否かの判断を行う。別の取得を行う場合にはステップ４１３に進む。取得がＯＫならば処理を終了する。
したがって、本発明によれば、メタデータの配布により、誰がどのようなシーンで発言をしたのかといった情報を知ることが可能になり、電話での通話音声データを全て聞くことなく、携帯端末１０１、１０２を有する各自に対して、欲する通話音声データだけを再現して聞かせることが可能になる。

好ましくは、通話中、携帯端末１０１、１０２内に会話内容の通話情報を格納し、通話終了後に携帯端末１０１、１０２からメタデータ付通話音声データ提供サーバー３００にアクセスし、メタデータを作成することも可能である。これにより汎用性が増す。

図１１は図１の第１の変形例であり、メタデータ付き通話音声データ提供システムの概略構成を示すブロック図である。本図に示すように、図１と比較して、好ましくは、少なくとも３台の携帯端末１０１、１０２、１０３間で通話を行う場合にも本発明の適用が可能である。これにより汎用性が増す。

図１２は図１の第２の変形例であり、メタデータ付き通話音声データ提供システムの概略構成を示すブロック図である。本図に示すように、図１と比較して、好ましくは、通話を行った携帯端末１０１、１０２以外の関係者が有する複数の携帯端末１０３、１０４に対して、メタデータ付通話音声データ提供サーバー３００はパスワードを記載したメタデータを配布し、アクセス可能にする。なお、関係者が有する携帯端末の情報がメタデータ付通話音声データ提供サーバー３００に登録されているとする。これにより汎用性が増す。

図１のメタデータ付通話音声データ提供サーバー３００では、携帯端末１０１、１０２の発言者を判別したが、以下のように、発言者を判別せずに、通話音声データに対してシーン区分を行うようにしてもよい。
図１３はメタデータ作成部３０３により通話音声データ格納領域３０２Ａに対して付けるインデックス例を説明する図である。

メタデータ付通話音声データ提供サーバー３００はデータベース３０２の通話音声データ格納領域３０２Ａに対して、携帯端末１０１、１０２から交互に取得した通話音声データをそのまま格納し、
携帯端末１０２の通話音声データ１０２−２にキーワード１として「値段はどうする？」が検出された場合には、キーワード１に対してインデックス１が付けられる。

さらに、携帯端末１０１の通話音声データ１０１−３にキーワード２として「今週はどうする？」が検出された場合には、キーワード２に対してインデックス２が付けられる。
さらに、携帯端末１０１の通話音声データ１０１−５にキーワード３として「場所は何処にする？」が検出された場合には、キーワード３に対してインデックス３が付けられる。

さらに、携帯端末１０２の通話音声データ１０２−６にキーワード４として「出発は何時にする？」が検出された場合には、キーワード４に対してインデックス４が付けられる。
メタデータ付通話音声データ提供サーバー３００によるメタデータの作成、配布、携帯端末１０１、１０２によるメタデータの表示、選択の説明は前述と同様であるので省略する。

このようにして、発言者を判別する必要がなく、欲する情報だけを知りたい場合には有利となり、汎用性が増す。

以上、携帯端末について説明を行ったが、これに限らず、携帯電話機、ＰＨＳ（簡易携帯電話機）、ＰＤＡ（携帯情報端末）、固定電話機、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）電話機にも利用可能である。

本発明に係るメタデータ付き通話音声データ提供システムの概略構成を示すブロック図である。図１におけるメタデータ付通話音声データ提供サーバー３００の発言者判別部３０１による発言者判断を説明する図である。図１におけるデータベース３０２の通話音声データ格納領域３０２Ａに格納される通話音声データを示す図である。図１におけるメタデータ作成部３０３の概略構成を示すブロック図である。メタデータ作成部３０３により通話音声データ格納領域３０２Ａに対して付けるインデックス例を説明する図である。メタデータ作成部３０３で作成されるメタデータの例である。図１における携帯端末１０１、１０２の各々について本発明に係る概略構成を示すブロック図である。図７の表示部１１３に表示されるメタデータ例を説明する図である。メタデータ付通話音声データ提供サーバー３００の一連の動作例を説明するフローチャートである。携帯端末１０１、１０２の一連の動作を説明するフローチャートである。図１の第１の変形例であり、メタデータ付き通話音声データ提供システムの概略構成を示すブロック図である。図１の第２の変形例であり、メタデータ付き通話音声データ提供システムの概略構成を示すブロック図である。メタデータ作成部３０３により通話音声データ格納領域３０２Ａに対して付けるインデックス例を説明する図である。

符号の説明

１０１、１０２、１０３、１０４…携帯端末
１１１…通話音声データ蓄積許可部
１１２…メタデータ配布要求部
１１３…表示部
１１４…通話音声データ取得部
２００…携帯端末ネットワーク
２０１、２０２、２０３、２０４…基地局
３００…メタデータ付通話音声データ提供サーバー
３０１…発言者判別部
３０２…データベース
３０２Ａ…通話音声データ格納領域
３０２Ｂ…メタデータ格納領域
３０３…メタデータ作成部
３０３Ａ…発言者区分部
３０３Ｂ…シーン区分部
３０４…音声認識部
３０５…言語処理部

Claims

通話を再現するためのメタデータ付き通話音声データ提供システムにおいて、
基地局を介して通話を行う携帯端末と、
前記携帯端末からの通話音声データを格納する領域と、通話音声データのメタデータを格納する領域を有するデータベースと、
前記通話音声データを音声認識処理しシーンを区分けするキーワードを検出し、検出したキーワードに対してメタデータを作成し、検出されたキーワードに対して前記データベースの領域にインデックスを付け、メタデータを前記データベースの領域に格納させ、前記データベースに格納されたメタデータの情報を前記携帯端末に配布し、携帯端末を有する各自に対して欲するに通話音声データだけを提供するためのメタデータ作成部とを備えることを特徴とするメタデータ付き通話音声データ提供システム。
前記メタデータ作成部は、
前記データベースに格納された通話音声データを音声認識する音声認識部と、
キーワードを格納し、前記音声認識部で音声認識された言語がキーワードと一致する場合、一致する言語をメタデータとする処理を行う言語処理部とを備えることを特徴とする、請求項１に記載のメタデータ付き通話音声データ提供システム。
さらに、発言者判別部を備え、前記発言者判別部は携帯端末からの通話音声データの発言者を判別し、通話音声データを発言者毎に前記データベース毎に格納させ、前記メタデータ作成部は、発言者の通話音声データの先頭にインデックスを付け、発言者の通話音声データに対するメタデータを作成し、前記データベースの領域に格納させ、前記通話音声データのメタデータを前記キーワードのメタデータと共に配布することを特徴とする、請求項１に記載のメタデータ付き通話音声データ提供システム。
通話音声データを提供するためメタデータの情報を提供する際にパスワードを記載したメールを、通話を行った携帯端末に発行することを特徴とする、請求項１に記載のメタデータ付き通話音声データ提供システム。
通話を行った携帯端末以外で予め登録されている複数の関係者の携帯端末に対してパスワードを記載したメールを発行することを特徴とする、請求項４に記載のメタデータ付き通話音声データ提供システム。
前記メタデータ作成部は、少なくとも３台の携帯端末間で行う通話に対して、メタデータを作成することを特徴とする、請求項１に記載のメタデータ付き通話音声データ提供システム。
携帯端末間で行った通話の通話音声データを携帯端末に格納し通話終了後に携帯端末に格納した通話音声データを前記データベースに格納させ、前記メタデータ作成部にメタデータ作成を行わせることを特徴とする、請求項１に記載のメタデータ付き通話音声データ提供システム。
携帯端末の通話を再現するためのメタデータ付き通話音声データ提供方法において、
携帯端末からの通話音声データを格納する工程と、
格納された通話音声データを音声認識処理しシーンを区分けするキーワードを検出する工程と、
検出したキーワードに対してメタデータを作成する工程と、
検出されたキーワードが格納されている領域にインデックスを付ける工程と、
作成されたメタデータを格納する工程と、
通話を行った携帯端末に対してパスワードを記載したメールを発行する工程と、
メールを受け取った携帯端末から要求に対してメタデータの情報を携帯端末に配布する工程と、
携帯端末からのメタデータの選択に対して携帯端末を有する各自に対して欲する通話音声データだけを提供する工程とを備えることを特徴とするメタデータ付き通話音声データ提供方法。
携帯端末の通話を再現するためのメタデータ付き通話音声データ提供をコンピュータで実行するプログラムにおいて、
携帯端末からの通話音声データを格納する手順と、
格納された通話音声データを音声認識処理しシーンを区分けするキーワードを検出する手順と、
検出したキーワードに対してメタデータを作成する手順と、
検出されたキーワードが格納されている領域にインデックスを付ける手順と、
作成されたメタデータを格納する手順と、
通話を行った携帯端末に対してパスワードを記載したメールを発行する手順と、
メールを受け取った携帯端末から要求に対してメタデータの情報を携帯端末に配布する手順と、
携帯端末からのメタデータの選択に対して携帯端末を有する各自に対して欲する通話音声データだけを提供する手順とを備えることを特徴とする、メタデータ付き通話音声データ提供をコンピュータで実行するプログラム。
携帯端末間の通話を再現するためのメタデータ付き通話音声データ提供サーバーにおいて、
携帯端末からの通話音声データを格納する領域と、通話音声データのメタデータを格納する領域を有するデータベースと、
前記通話音声データを音声認識処理しシーンを区分けするキーワードを検出し、検出したキーワードに対してメタデータを作成し、検出されたキーワードに対して前記データベースの領域にインデックスを付け、メタデータを前記データベースの領域に格納させ、前記データベースに格納されたメタデータの情報を前記携帯端末に配布し、携帯端末を有する各自に対して欲するに通話音声データだけを提供するためのメタデータ作成部とを備えることを特徴とするメタデータ付き通話音声データ提供システムサーバー。
サーバーに通話音声データを格納し通話の再現を行う携帯端末において、
携帯端末の発呼時に前記サーバーに対して通話音声データ蓄積の許可を行う通話音声データ蓄積許可部と、
前記サーバーで、前記携帯端末からの通話音声データを格納し、前記通話音声データを音声認識処理しシーンを区分けするキーワードを検出し、検出したキーワードに対してメタデータを作成し、検出されたキーワードを格納した領域にインデックスを付け、メタデータを格納させ、メタデータを配布するためのパスワードが記載されたメールが携帯端末に対して発行された場合、前記サーバーに対してメタデータの配布を要求するメタデータ配布要求部と、
配布されたメタデータを表示する表示部と、
前記表示部に表示されたメタデータから通話音声データのメタデータを選択し、欲する通話音声データだけを前記サーバーから取得する通話音声データ取得部とを備えることを特徴とする携帯端末。