JP3898673B2

JP3898673B2 - 音声通信システム、方法及びプログラム並びに音声再生装置

Info

Publication number: JP3898673B2
Application number: JP2003199145A
Authority: JP
Inventors: 隆司今堀; 信幸松本
Original assignee: Tamura Corp
Current assignee: Tamura Corp
Priority date: 2003-07-18
Filing date: 2003-07-18
Publication date: 2007-03-28
Anticipated expiration: 2023-07-18
Also published as: JP2005039461A

Description

【０００１】
【発明の属する技術分野】
本発明は、簡易な構成で、送信元に複数の話者がいても受信側で各話者の識別が容易な音声通信システム、方法及びプログラム並びに音声再生装置に関するものである。
【０００２】
【従来の技術】
近年のデジタル情報通信技術の急速な発達に伴い、遠隔地の参加者同士の音声や映像を一堂に会するように互いに伝達する遠隔会議の技術が提案されている。このなかには、映像を利用したテレビ会議、ビデオ会議などと呼ばれるものだけでなく、音声のみのものも含まれる。また、従来から研究が続けられてきた立体音響の技術を遠隔会議と組合せ、遠隔地やその参加者ごとに、異なる方向から聞こえるように音声を再生する提案もある。
【０００３】
ここで、立体音響は、４チャンネル以上のスピーカによるものもあるが、特に近年では、左右２チャンネルのみで前後の仮想音場（立体音場）の拡がりまで表現する技術が提案されている。これは、現実世界で、聞く人の右耳と左耳への音の届き方、例えば時間差や強弱等の差異が現実の音源位置に応じて異なるという現象を再現利用するもので、左右チャンネルの音声信号にそのような差異を人為的に付加することにより、聞く人の感じる音源方向（音像）を、３次元仮想空間内の所望の位置に方向付け（定位）させるものである。左右のチャンネルにこのような差異を生じさせる処理を行う関数は、左右の組で定義され、人間の頭部における音の伝達状態を模倣することから、頭部伝達関数などと呼ばれる。
【０００４】
上記のような立体音響は、映像を伴うテレビ会議でももちろん利用可能であるが、音声のみの遠隔会議で用いれば発言者の認識が容易になる。以上のような立体音響と遠隔会議の組合せの一例として、下記の特許文献１では、音声送信元である通話相手を識別してそれぞれ異なる方向の音像として立体音場に登場させる例が示されている。この例では、相手の発言者を識別する態様として、▲１▼先方からの発信元電話番号通知、又はそれと先方に設けた方位角センサーとの併用で発言者を判別、▲２▼インターネット上でＩＰアドレス範囲等から判断できる先方のＩＳＰ（インターネットサービスプロバイダ）で発言者を判別、▲３▼通話時間の経過を検出し、所定時間毎に発言者が変わるものとみなして予め決められた方向とする、といった例が示されている。
【０００５】
すなわち、上記のような従来技術では、それらの情報を元にモノラル音声をステレオ音声に変換し、前後左右に音像を定位させるべく、イヤホンまたはヘッドホン等を介して３次元音場を再生する。以上のような従来技術の概略を図３の概念図に示す。
【０００６】
【特許文献１】
特開２０００−１８４０１７
【０００７】
【発明が解決しようとする課題】
しかしながら、上記のような従来技術では、先方に設備として方位角センサーを要したり、通話相手側で電話番号や利用プロバイダ等の情報が変わるたびに受信側等の機器で登録変更を要するなど構成や運用が煩雑という問題があった。また、通話に参加するポイントを単位に、受信側で３次元音場の方向を前後左右に振り分けて再生するのでは、あるひとつのポイントに複数の通話相手が存在する場合、そのポイントにいる全ての通話相手の声が１点のみの方向から再生されて聞こえる難点もあった。すなわち、例えばネットワーク会議を行った場合、あるポイントには複数の出席者が居るのにもかかわらず、それら出席者のうち誰の発言も同じ一方向から再生されるため発言者の区別が難しくなる。
【０００８】
本発明は、上記のような従来技術の課題を解決するもので、その目的は、簡易な構成で、送信元に複数の話者がいても受信側で各話者の識別が容易な音声通信システム、方法及びプログラム並びに音声再生装置を提供することである。また、本発明の他の目的は、比較用登録データの事前登録により精度の優れた音声通信システム、方法及びプログラム並びに音声再生装置を提供することである。また、本発明の他の目的は、煩雑な事前登録作業が不要な使いやすい音声通信システム、方法及びプログラム並びに音声再生装置を提供することである。
【０００９】
【課題を解決するための手段】
上記の目的を達成するため請求項１の発明は、音声を伝送する音声通信システムにおいて、送信側で伝送する音声を入力する手段と、前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化する手段と、符号化した音声データを受信側へ伝送する伝送手段と、伝送された音声データから受信側において音声を復号化する手段と、復号化された音声の周波数スペクトル成分の特徴を分析する手段と、各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録手段と、復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別する手段と、峻別した異なる話者ごとに３次元仮想空間上の異なった位置に音像定位させながらその音声を再生する手段と、を備えたことを特徴とする。
【００１０】
請求項４の発明は、請求項１の発明を方法という見方から捉えたもので、音声を伝送する音声通信方法において、送信側において、伝送する音声の入力を受け付け、前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化し、符号化した音声データを受信側へ伝送し、受信側において、伝送された音声データから音声を復号化し、復号化された音声の周波数スペクトル成分の特徴を分析し、各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録処理を行い、復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別し、峻別した異なる話者ごとに３次元仮想空間上の異なった位置に音像定位させながらその音声を再生することを特徴とする。
【００１１】
請求項７の発明は、請求項１，４の発明をコンピュータのプログラムという見方から捉えたもので、コンピュータを制御することにより、音声を伝送する音声通信プログラムにおいて、そのプログラムは前記コンピュータに、送信側として、伝送する音声の入力を受け付けさせ、前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化させ、符号化した音声データを受信側へ伝送させ、受信側として、伝送された音声データから音声を復号化させ、復号化された音声の周波数スペクトル成分の特徴を分析させ、各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録処理を行わせ、復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別させ、峻別した異なる話者ごとに３次元仮想空間上の異なった位置に音像定位させながらその音声を再生させることを特徴とする。
【００１２】
請求項１０は、請求項１，４，７の発明を受信側の音声再生装置という見方から捉えたもので、受信した音声を再生する音声再生装置において、基準となる所定の広帯域周波数に基づいて符号化された音声データを受信する手段と、受信した前記音声データから音声を復号化する手段と、復号化された前記音声の周波数スペクトル成分の特徴を分析する手段と、各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録手段と、復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別する手段と、峻別した異なる話者ごとに３次元仮想空間上の異なった位置に音像定位させながらその音声を再生する手段と、を備えたことを特徴とする。
【００１３】
これらの態様では、受信側において、伝送された音声の周波数スペクトル成分の特徴から特定される話者ごとに、仮想空間の左側、正面、右側のように異なる位置から聞こえるような３次元音像定位により、聞く人に対して音声を再生する。このため、ネットワーク会議で遠隔地と通話する際、送信元一ヶ所に話者が複数いるような場合も、センサーや発信元電話番号登録等の煩雑な構成や操作無しで、聞こえて来る方向から話者を識別容易となる。特に、広帯域音声符号の利用により、識別精度の向上に加え、音質上もリアリティが増大し、同一空間で会議を行っているような優れた臨場感が実現され円滑な会議進行が図られる。
【００１４】
請求項２の発明は、請求項１記載の音声通信システムにおいて、前記登録手段は、所定の操作が入力されたときに前記比較用登録データを登録するように構成されたことを特徴とする。
【００１５】
請求項５の発明は、請求項２の発明を方法という見方から捉えたもので、請求項４記載の音声通信方法において、前記登録処理は、所定の操作が入力されたときに前記比較用登録データを登録することを特徴とする。
【００１６】
請求項８の発明は、請求項２，５の発明をコンピュータのプログラムという見方から捉えたもので、請求項７記載の音声通信プログラムにおいて、前記プログラムは前記コンピュータに、前記登録処理において、所定の操作が入力されたときに前記比較用登録データを登録させることを特徴とする。
【００１７】
これらの態様では、装置の登録用ボタンを押して一言話すなど、所定の操作を契機として各話者のサンプル音声から周波数スペクトル成分の特徴を登録するので、実際の通話中は比較処理を行って音場の割り振りを行えば足り、声の調子や雑音等に影響されることなく確実な動作が実現される。
【００１８】
請求項３の発明は、請求項１又は２記載の音声通信システムにおいて、前記登録手段は、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較し、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録するように構成されたことを特徴とする。
【００１９】
請求項６の発明は、請求項３の発明を方法という見方から捉えたもので、請求項４又は５記載の音声通信方法において、前記登録処理は、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較し、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録することを特徴とする。
【００２０】
請求項９の発明は、請求項３，６の発明をコンピュータのプログラムという見方から捉えたもので、請求項７又は８記載の音声通信プログラムにおいて、前記プログラムは前記コンピュータに、前記登録処理において、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較させ、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録させることを特徴とする。
【００２１】
これらの態様では、周波数スペクトル成分について、通話中の音声の特徴をそれ以前に登録済みの各比較用登録データと逐次比較し、一致したものがあれば同一話者と峻別し、いずれとも不一致のときに新たな人物としてその周波数スペクトル成分の特徴を比較用登録データとして登録するとともに順次３次元的に音場の割り振りを行う。このため、サンプルの登録等の事前手続が不要となり利用が容易になる。
【００２２】
【発明の実施の形態】
次に、本発明の複数の実施の形態（以下「実施形態」と呼ぶ）について、添付図面を参照して具体的に説明する。なお、本発明は、周辺装置を備えたコンピュータやプログラマブル・コントローラ等の情報処理組織をプログラムで制御したり、ＦＰＧＡやＡＳＩＣ等のカスタムチップなどにより実現可能であるが、その具体的実現態様は各種考えられる。例えば、本発明は、装置だけでなく、方法、プログラム、プログラムを記録したコンピュータ読取可能な記録媒体として把握することもできる。このため、以下の説明では、本発明及び実施形態の各機能を実現する仮想的回路ブロックを用いる。
【００２３】
〔１．第１実施形態の構成〕
〔１−１．全体構成〕
第１実施形態は、遠隔会議において音声を伝送する音声通信システム（「本システム」と呼ぶ）、方法及びプログラムに関するもので、本システムは、図１の機能ブロック図に示すように、各地に設置される通信装置１１同士を伝送手段５で接続したものである。各通信装置１１はそれぞれ、受信部９及び送信部１０を備え、また、通信装置１１間の伝送手段５は、送信側で符号化した音声データを受信側へ伝送するもので、有線、無線若しくはこれらの組合せから自由に選択でき、例えば、インターネットやイントラネット等の各種通信ネットワーク、ＩＳＤＮ、専用線、構内電話、ＩＰ電話、ＶＰＮ、ＡＴＭ、フレームリレーなどの技術を適宜組み合わせて実現する。各通信装置１０の送信部１０及び受信部９はそれぞれ、図１に示す下記の構成を備える。
【００２４】
〔１−２．送信部の構成〕
まず、送信部１０にはマイクロフォン（以下「マイク」とも呼ぶ）８が接続され、このマイク８は、伝送する音声を入力する手段である。また、広帯域音声符号化部６及びＡ／Ｄ変換部７は、マイク８から入力された音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化する手段である。
【００２５】
なお、第１実施形態では送信についてはＡ／Ｄ変換と広帯域音声符号化、受信については復号化とＤ／Ａ変換としてそれぞれ二段階の処理として示すが、二段階の処理とするか一段階の処理とするかはネットワークの種類や構成等に応じて自由に決定可能であり、要は、カバーする倍音等の音声周波数範囲、伝送帯域幅や送信側受信側での処理能力との関係で許されるビットレートの範囲で、量子化ビット数として例えば１６ビット又は８ビット、サンプリング周波数として例えば４４．１ｋＨｚ，２２．０５ｋＨｚ，１１．０２５ｋＨｚ等の諸元を選定すればよい。
【００２６】
〔１−３．受信部の構成〕
受信部１０の復号化部４及びＤ／Ａ変換部３は、伝送された前記音声データから受信側において音声を復号する手段であり、スペクトル分析部１２は、復号化された音声の周波数スペクトル成分の特徴を分析する手段である。また、登録部１３は、各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データ１５として登録する手段である。
【００２７】
そして、比較部１４は、復号化された音声についてスペクトル分析部１２による前記分析により得られた周波数スペクトル成分の前記特徴と、登録された比較用登録データ１５との比較により、複数の話者を峻別する手段である。また、対応関数提供部１７及び頭部伝達関数フィルタ部２は、前記峻別した異なる話者ごとに、３次元仮想空間上の異なった位置に割り振って音像定位させながらその音声を再生する手段である。
【００２８】
具体的には、対応関数提供部１７は、峻別した話者ごとに音像定位方向を例えば９０度ごと、６０度ごと等に割り振るが、それら各方向に対応する頭部伝達関数やその原型は頭部伝達関数データベース１６に予め保持しておく。そして、各時点で峻別される話者に対応する方向の頭部伝達関数は、対応関数提供部１７が頭部伝達関数データベース１６を参照して取り出し又は生成して頭部伝達関数フィルタ部２に渡す。頭部伝達関数フィルタ部２は、受け取った頭部伝達関数にしたがって処理した左右チャネルの音声信号を、受信側のスピーカ、イヤホンまたはヘッドホン、ヘッドセットなどの出力系１から出力するように構成される。
【００２９】
〔２．作用及び効果〕
上記のように構成された第１実施形態は、次のように作用する。まず、登録部１３は、所定の操作が入力されたときに比較用登録データ１５を登録する。具体的には、例えば、第１地点と第２地点との接続が完了後、第１地点で通信装置１１に備えられた登録用ボタンを押しながら一言、例えば「おはようございます」とマイク８に向かって話すと、第２地点の通信装置１１において、その周波数スペクトルがスペクトル分析部１２により分析され、その特徴を表すスペクトルデータがメモリの所定領域に比較用登録データ１５として登録される。この手順を通話に参加する人数分順次行っていく。
【００３０】
遠隔会議開始後は、各地点の通信装置１１においてマイク８に入力された音声がＡ／Ｄ変換部７でデータに変換された後、広帯域音声符号化部６に入力され圧縮音声データが生成される。この音声データは、有線や無線のネットワークといった伝送手段５を介して、他の全ての地点に設置された通信装置１１の受信部９にデータとして伝達される。
【００３１】
受信された音声データは復号化部４へ送られ、復号化部４が受信した圧縮データを伸張しＤ／Ａ変換部３へデータを送りモノラル音声に復号させる。このモノラル音声はスペクトル分析部１２と、頭部伝達関数フィルタ２へ分配される。
【００３２】
スペクトル分析部１２では、分配された音声から、例えば個人の特徴が顕著に表れる高調波成分の帯域ごとの信号強度を特徴として取り出し比較部１４へ送る。このとき、メモリ内に設定ボタンにより事前に比較用登録データ１５として登録されているのも、同様に、例えば話者ごとの高調波成分の帯域ごとの信号強度である。そして、比較部１４にて、スペクトル分析部１２からの高調波成分に関する上記の特徴と、各比較用登録データ１５が比較され、一致する比較用登録データ１５が探索される。そして、対応関数提供部１７が、それに対応する３次元音像定位を再生するための頭部伝達関数を用意し頭部伝達関数フィルタ２へ送る。
【００３３】
頭部伝達関数フィルタ２では、そのように提供された伝達関数を元にステレオ音声を生成し、片方の音より他方の音をわずかに遅延させたり強弱をつけるなどの処理により３次元に音場を割り振ってスピーカ、ヘッドホンまたはイヤホン等の出力系１へ出力して再生する。
【００３４】
ここで、各話者の声を音像定位させる位置の割り振り内容は自由であるが、一例として、比較用登録データの登録された人数に応じた角度ごとに３次元的に任意に割り振る。すなわち、聞く人を除いて３人までは正面、右、左のように９０度ごとの位置に割り振り、４人目からは前記９０度の間の４５度ずつの位置に挿入する形で割り振るなどである。位置の順序はランダムでも良いし、聞く人が所定の操作で予め設定したり、割り振り後に編集できるようにしてもよい。
【００３５】
以上のような第１実施形態では、図２の概念図に示すように、受信側において、伝送された音声の周波数スペクトル成分の特徴から特定される話者ごとに、仮想空間の左側、正面、右側のように異なる位置から聞こえるような３次元音像定位により、聞く人に対して音声を再生する。このため、ネットワーク会議で遠隔地と通話する際、送信元一ヶ所に話者が複数いるような場合も、センサーや発信元電話番号登録等の煩雑な構成や操作無しで、聞こえて来る方向から話者を識別容易となる。特に、広帯域音声符号の利用により、識別精度の向上に加え、音質上もリアリティが増大し、同一空間で会議を行っているような優れた臨場感が実現され円滑な会議進行が図られる。
【００３６】
特に、第１実施形態では、装置の登録用ボタンを押して一言話すなど、所定の操作を契機として各話者のサンプル音声から周波数スペクトル成分の特徴を登録するので、実際の通話中は比較処理を行って音場の割り振りを行えば足り、声の調子や雑音等に影響されることなく確実な動作が実現される。
【００３７】
〔３．第２実施形態〕
上記第１実施形態では、比較用登録データ１５の登録を事前にまとめて行ったが、登録部１３は、伝送される音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較し、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録するように構成してもよい。
【００３８】
より具体的には、例えば、音声と音声の間に発生する無音区間を検出し無音と無音の間の音声は一個人として認識する場合、スペクトル分析部１２は、無音から有音になる最初の一言目をスペクトル分析しその高調波成分の特徴を比較部１４へ送るように構成する。この場合、最初は、各話者ごとの高調波成分の特徴である比較用登録データ１５が全く登録されていないため、スペクトル分析部１２から比較部１４に送られた高調波データはそのまま比較用登録データ１５として登録される。
【００３９】
このように登録された比較用登録データ１５に基づいて、それ以降、比較部１４により一致すると判断された部分の音声については、その話者に割り振られた位置に対応する頭部伝達関数により頭部伝達関数フィルタ２の働きで、所定の方向について３次元音像定位を伴う再生が行われる。一方、比較部１４は、スペクトル分析部１２から送られてくる高調波データについて、一致する比較用登録データ１５がなければその都度、新規の個人として認識し比較用登録データ１５として登録するが、一致するデータがあればそれを元に３次元音像定位を再生するための頭部伝達関数が生成され頭部伝達関数フィルタ２へ送られる。
【００４０】
なお、比較用登録データ１５の登録以外の例えば音声データからの音声の復号、立体音場の生成など、他の部分は第１実施形態と同様である。
【００４１】
以上、第２実施形態では、周波数スペクトル成分について、通話中の音声の特徴をそれ以前に登録済みの各比較用登録データと逐次比較し、一致したものがあれば同一話者と峻別し、いずれとも不一致のときに新たな人物としてその周波数スペクトル成分の特徴を比較用登録データとして登録するとともに順次３次元的に音場の割り振りを行う。このため、サンプルの登録等の事前手続が不要となり利用が容易になる。
【００４２】
〔４．他の実施形態〕
なお、本発明は、上記実施形態には限定されず、次に例示するような他の実施形態も含むものである。例えば、図１の機能ブロック図では、一箇所対一箇所で、双方の通信装置１１が対等に受信部９及び送信部１０を備える例を示したが、各受信部が３箇所以上からの音声を再生する構成や、一ヶ所に送信部のみ、もう一ヶ所に受信部のみ、といった非対称な構成で一方通行の音声通信を行う例も、本発明の範囲に含まれる。
【００４３】
また、例えば、第１実施形態に示したような比較用登録データの登録と、第２実施形態に示したような比較用登録データの登録との併用も可能であり、この場合は、当初登録した各話者の比較用登録データと不一致の特徴が登場したときに、それが新規な話者の特徴として比較用登録データとして登録される。また、本発明は、受信側の音声再生装置単体としても実現可能である。
【００４４】
【発明の効果】
以上のように、本発明によれば、簡易な構成で、送信元に複数の話者がいても受信側で各話者の識別が容易な音声通信システム、方法及びプログラム並びに音声再生装置を提供することができる。
【図面の簡単な説明】
【図１】本発明の実施形態の構成を示す機能ブロック図。
【図２】本発明の実施形態の特徴を示す概念図。
【図３】立体音響の技術を遠隔会議の技術と組み合わせた従来技術の一例を示す概念図。
【符号の説明】
１…出力系
２…頭部伝達関数フィルタ部
３…Ｄ／Ａ変換部
４…復号化部
５…伝送手段
６…広帯域音声符号化部
７…Ａ／Ｄ変換部
８…マイクロフォン
９…受信部
１０…送信部
１１…通信装置
１２…スペクトル分析部
１３…登録部
１４…比較部
１５…比較用登録データ
１６…頭部伝達関数データベース
１７…対応関数提供部

Claims

音声を伝送する音声通信システムにおいて、
送信側で伝送する音声を入力する手段と、
前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化する手段と、
符号化した音声データを受信側へ伝送する伝送手段と、
伝送された音声データから受信側において音声を復号化する手段と、
復号化された音声の周波数スペクトル成分の特徴を分析する手段と、
各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録手段と、
復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別する手段と、
峻別した異なる話者ごとに３次元仮想空間上の異なった位置に音像定位させながらその音声を再生する手段と、
を備えたことを特徴とする音声通信システム。
前記登録手段は、所定の操作が入力されたときに前記比較用登録データを登録するように構成されたことを特徴とする請求項１記載の音声通信システム。
前記登録手段は、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較し、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録するように構成されたことを特徴とする請求項１又は２記載の音声通信システム。
音声を伝送する音声通信方法において、
送信側において、
伝送する音声の入力を受け付け、
前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化し、
符号化した音声データを受信側へ伝送し、
受信側において、
伝送された音声データから音声を復号化し、
復号化された音声の周波数スペクトル成分の特徴を分析し、
各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録処理を行い、
復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別し、
峻別した異なる話者ごとに３次元仮想空間上の異なった位置に音像定位させながらその音声を再生することを特徴とする音声通信方法。
前記登録処理は、所定の操作が入力されたときに前記比較用登録データを登録することを特徴とする請求項４記載の音声通信方法。
前記登録処理は、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較し、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録することを特徴とする請求項４又は５記載の音声通信方法。
コンピュータを制御することにより、音声を伝送する音声通信プログラムにおいて、
そのプログラムは前記コンピュータに、
送信側として、
伝送する音声の入力を受け付けさせ、
前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化させ、
符号化した音声データを受信側へ伝送させ、
受信側として、
伝送された音声データから音声を復号化させ、
復号化された音声の周波数スペクトル成分の特徴を分析させ、
各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録処理を行わせ、
復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別させ、
峻別した異なる話者ごとに３次元仮想空間上の異なった位置に音像定位させながらその音声を再生させることを特徴とする音声通信プログラム。
前記プログラムは前記コンピュータに、
前記登録処理において、所定の操作が入力されたときに前記比較用登録データを登録させることを特徴とする請求項７記載の音声通信プログラム。
前記プログラムは前記コンピュータに、
前記登録処理において、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較させ、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録させることを特徴とする請求項７又は８記載の音声通信プログラム。
受信した音声を再生する音声再生装置において、
基準となる所定の広帯域周波数に基づいて符号化された音声データを受信する手段と、
受信した前記音声データから音声を復号化する手段と、
復号化された前記音声の周波数スペクトル成分の特徴を分析する手段と、
各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録手段と、
復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別する手段と、
峻別した異なる話者ごとに３次元仮想空間上の異なった位置に音像定位させながらその音声を再生する手段と、
を備えたことを特徴とする音声再生装置。