JP3898673B2 - 音声通信システム、方法及びプログラム並びに音声再生装置 - Google Patents

音声通信システム、方法及びプログラム並びに音声再生装置 Download PDF

Info

Publication number
JP3898673B2
JP3898673B2 JP2003199145A JP2003199145A JP3898673B2 JP 3898673 B2 JP3898673 B2 JP 3898673B2 JP 2003199145 A JP2003199145 A JP 2003199145A JP 2003199145 A JP2003199145 A JP 2003199145A JP 3898673 B2 JP3898673 B2 JP 3898673B2
Authority
JP
Japan
Prior art keywords
comparison
registration
audio
data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003199145A
Other languages
English (en)
Other versions
JP2005039461A (ja
Inventor
隆司 今堀
信幸 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tamura Corp
Original Assignee
Tamura Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tamura Corp filed Critical Tamura Corp
Priority to JP2003199145A priority Critical patent/JP3898673B2/ja
Publication of JP2005039461A publication Critical patent/JP2005039461A/ja
Application granted granted Critical
Publication of JP3898673B2 publication Critical patent/JP3898673B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、簡易な構成で、送信元に複数の話者がいても受信側で各話者の識別が容易な音声通信システム、方法及びプログラム並びに音声再生装置に関するものである。
【0002】
【従来の技術】
近年のデジタル情報通信技術の急速な発達に伴い、遠隔地の参加者同士の音声や映像を一堂に会するように互いに伝達する遠隔会議の技術が提案されている。このなかには、映像を利用したテレビ会議、ビデオ会議などと呼ばれるものだけでなく、音声のみのものも含まれる。また、従来から研究が続けられてきた立体音響の技術を遠隔会議と組合せ、遠隔地やその参加者ごとに、異なる方向から聞こえるように音声を再生する提案もある。
【0003】
ここで、立体音響は、4チャンネル以上のスピーカによるものもあるが、特に近年では、左右2チャンネルのみで前後の仮想音場(立体音場)の拡がりまで表現する技術が提案されている。これは、現実世界で、聞く人の右耳と左耳への音の届き方、例えば時間差や強弱等の差異が現実の音源位置に応じて異なるという現象を再現利用するもので、左右チャンネルの音声信号にそのような差異を人為的に付加することにより、聞く人の感じる音源方向(音像)を、3次元仮想空間内の所望の位置に方向付け(定位)させるものである。左右のチャンネルにこのような差異を生じさせる処理を行う関数は、左右の組で定義され、人間の頭部における音の伝達状態を模倣することから、頭部伝達関数などと呼ばれる。
【0004】
上記のような立体音響は、映像を伴うテレビ会議でももちろん利用可能であるが、音声のみの遠隔会議で用いれば発言者の認識が容易になる。以上のような立体音響と遠隔会議の組合せの一例として、下記の特許文献1では、音声送信元である通話相手を識別してそれぞれ異なる方向の音像として立体音場に登場させる例が示されている。この例では、相手の発言者を識別する態様として、▲1▼先方からの発信元電話番号通知、又はそれと先方に設けた方位角センサーとの併用で発言者を判別、▲2▼インターネット上でIPアドレス範囲等から判断できる先方のISP(インターネットサービスプロバイダ)で発言者を判別、▲3▼通話時間の経過を検出し、所定時間毎に発言者が変わるものとみなして予め決められた方向とする、といった例が示されている。
【0005】
すなわち、上記のような従来技術では、それらの情報を元にモノラル音声をステレオ音声に変換し、前後左右に音像を定位させるべく、イヤホンまたはヘッドホン等を介して3次元音場を再生する。以上のような従来技術の概略を図3の概念図に示す。
【0006】
【特許文献1】
特開2000−184017
【0007】
【発明が解決しようとする課題】
しかしながら、上記のような従来技術では、先方に設備として方位角センサーを要したり、通話相手側で電話番号や利用プロバイダ等の情報が変わるたびに受信側等の機器で登録変更を要するなど構成や運用が煩雑という問題があった。また、通話に参加するポイントを単位に、受信側で3次元音場の方向を前後左右に振り分けて再生するのでは、あるひとつのポイントに複数の通話相手が存在する場合、そのポイントにいる全ての通話相手の声が1点のみの方向から再生されて聞こえる難点もあった。すなわち、例えばネットワーク会議を行った場合、あるポイントには複数の出席者が居るのにもかかわらず、それら出席者のうち誰の発言も同じ一方向から再生されるため発言者の区別が難しくなる。
【0008】
本発明は、上記のような従来技術の課題を解決するもので、その目的は、簡易な構成で、送信元に複数の話者がいても受信側で各話者の識別が容易な音声通信システム、方法及びプログラム並びに音声再生装置を提供することである。また、本発明の他の目的は、比較用登録データの事前登録により精度の優れた音声通信システム、方法及びプログラム並びに音声再生装置を提供することである。また、本発明の他の目的は、煩雑な事前登録作業が不要な使いやすい音声通信システム、方法及びプログラム並びに音声再生装置を提供することである。
【0009】
【課題を解決するための手段】
上記の目的を達成するため 請求項1の発明は、音声を伝送する音声通信システムにおいて、送信側で伝送する音声を入力する手段と、前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化する手段と、符号化した音声データを受信側へ伝送する伝送手段と、伝送された音声データから受信側において音声を復号化する手段と、復号化された音声の周波数スペクトル成分の特徴を分析する手段と、各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録手段と、復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別する手段と、峻別した異なる話者ごとに3次元仮想空間上の異なった位置に音像定位させながらその音声を再生する手段と、を備えたことを特徴とする。
【0010】
請求項4の発明は、請求項1の発明を方法という見方から捉えたもので、音声を伝送する音声通信方法において、送信側において、伝送する音声の入力を受け付け、前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化し、符号化した音声データを受信側へ伝送し、受信側において、伝送された音声データから音声を復号化し、復号化された音声の周波数スペクトル成分の特徴を分析し、各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録処理を行い、復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別し、峻別した異なる話者ごとに3次元仮想空間上の異なった位置に音像定位させながらその音声を再生することを特徴とする。
【0011】
請求項7の発明は、請求項1,4の発明をコンピュータのプログラムという見方から捉えたもので、コンピュータを制御することにより、音声を伝送する音声通信プログラムにおいて、そのプログラムは前記コンピュータに、送信側として、伝送する音声の入力を受け付けさせ、前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化させ、符号化した音声データを受信側へ伝送させ、受信側として、伝送された音声データから音声を復号化させ、復号化された音声の周波数スペクトル成分の特徴を分析させ、各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録処理を行わせ、復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別させ、峻別した異なる話者ごとに3次元仮想空間上の異なった位置に音像定位させながらその音声を再生させることを特徴とする。
【0012】
請求項10は、請求項1,4,7の発明を受信側の音声再生装置という見方から捉えたもので、受信した音声を再生する音声再生装置において、基準となる所定の広帯域周波数に基づいて符号化された音声データを受信する手段と、受信した前記音声データから音声を復号化する手段と、復号化された前記音声の周波数スペクトル成分の特徴を分析する手段と、各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録手段と、復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別する手段と、 峻別した異なる話者ごとに3次元仮想空間上の異なった位置に音像定位させながらその音声を再生する手段と、を備えたことを特徴とする。
【0013】
これらの態様では、受信側において、伝送された音声の周波数スペクトル成分の特徴から特定される話者ごとに、仮想空間の左側、正面、右側のように異なる位置から聞こえるような3次元音像定位により、聞く人に対して音声を再生する。このため、ネットワーク会議で遠隔地と通話する際、送信元一ヶ所に話者が複数いるような場合も、センサーや発信元電話番号登録等の煩雑な構成や操作無しで、聞こえて来る方向から話者を識別容易となる。特に、広帯域音声符号の利用により、識別精度の向上に加え、音質上もリアリティが増大し、同一空間で会議を行っているような優れた臨場感が実現され円滑な会議進行が図られる。
【0014】
請求項2の発明は、請求項1記載の音声通信システムにおいて、前記登録手段は、所定の操作が入力されたときに前記比較用登録データを登録するように構成されたことを特徴とする。
【0015】
請求項5の発明は、請求項2の発明を方法という見方から捉えたもので、請求項4記載の音声通信方法において、前記登録処理は、所定の操作が入力されたときに前記比較用登録データを登録することを特徴とする。
【0016】
請求項8の発明は、請求項2,5の発明をコンピュータのプログラムという見方から捉えたもので、請求項7記載の音声通信プログラムにおいて、前記プログラムは前記コンピュータに、前記登録処理において、所定の操作が入力されたときに前記比較用登録データを登録させることを特徴とする。
【0017】
これらの態様では、装置の登録用ボタンを押して一言話すなど、所定の操作を契機として各話者のサンプル音声から周波数スペクトル成分の特徴を登録するので、実際の通話中は比較処理を行って音場の割り振りを行えば足り、声の調子や雑音等に影響されることなく確実な動作が実現される。
【0018】
請求項3の発明は、請求項1又は2記載の音声通信システムにおいて、前記登録手段は、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較し、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録するように構成されたことを特徴とする。
【0019】
請求項6の発明は、請求項3の発明を方法という見方から捉えたもので、請求項4又は5記載の音声通信方法において、前記登録処理は、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較し、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録することを特徴とする。
【0020】
請求項9の発明は、請求項3,6の発明をコンピュータのプログラムという見方から捉えたもので、請求項7又は8記載の音声通信プログラムにおいて、前記プログラムは前記コンピュータに、前記登録処理において、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較させ、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録させることを特徴とする。
【0021】
これらの態様では、周波数スペクトル成分について、通話中の音声の特徴をそれ以前に登録済みの各比較用登録データと逐次比較し、一致したものがあれば同一話者と峻別し、いずれとも不一致のときに新たな人物としてその周波数スペクトル成分の特徴を比較用登録データとして登録するとともに順次3次元的に音場の割り振りを行う。このため、サンプルの登録等の事前手続が不要となり利用が容易になる。
【0022】
【発明の実施の形態】
次に、本発明の複数の実施の形態(以下「実施形態」と呼ぶ)について、添付図面を参照して具体的に説明する。なお、本発明は、周辺装置を備えたコンピュータやプログラマブル・コントローラ等の情報処理組織をプログラムで制御したり、FPGAやASIC等のカスタムチップなどにより実現可能であるが、その具体的実現態様は各種考えられる。例えば、本発明は、装置だけでなく、方法、プログラム、プログラムを記録したコンピュータ読取可能な記録媒体として把握することもできる。このため、以下の説明では、本発明及び実施形態の各機能を実現する仮想的回路ブロックを用いる。
【0023】
〔1.第1実施形態の構成〕
〔1−1.全体構成〕
第1実施形態は、遠隔会議において音声を伝送する音声通信システム(「本システム」と呼ぶ)、方法及びプログラムに関するもので、本システムは、図1の機能ブロック図に示すように、各地に設置される通信装置11同士を伝送手段5で接続したものである。各通信装置11はそれぞれ、受信部9及び送信部10を備え、また、通信装置11間の伝送手段5は、送信側で符号化した音声データを受信側へ伝送するもので、有線、無線若しくはこれらの組合せから自由に選択でき、例えば、インターネットやイントラネット等の各種通信ネットワーク、ISDN、専用線、構内電話、IP電話、VPN、ATM、フレームリレーなどの技術を適宜組み合わせて実現する。各通信装置10の送信部10及び受信部9はそれぞれ、図1に示す下記の構成を備える。
【0024】
〔1−2.送信部の構成〕
まず、送信部10にはマイクロフォン(以下「マイク」とも呼ぶ)8が接続され、このマイク8は、伝送する音声を入力する手段である。また、広帯域音声符号化部6及びA/D変換部7は、マイク8から入力された音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化する手段である。
【0025】
なお、第1実施形態では送信についてはA/D変換と広帯域音声符号化、受信については復号化とD/A変換としてそれぞれ二段階の処理として示すが、二段階の処理とするか一段階の処理とするかはネットワークの種類や構成等に応じて自由に決定可能であり、要は、カバーする倍音等の音声周波数範囲、伝送帯域幅や送信側受信側での処理能力との関係で許されるビットレートの範囲で、量子化ビット数として例えば16ビット又は8ビット、サンプリング周波数として例えば44.1kHz,22.05kHz,11.025kHz等の諸元を選定すればよい。
【0026】
〔1−3.受信部の構成〕
受信部10の復号化部4及びD/A変換部3は、伝送された前記音声データから受信側において音声を復号する手段であり、スペクトル分析部12は、復号化された音声の周波数スペクトル成分の特徴を分析する手段である。また、登録部13は、各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データ15として登録する手段である。
【0027】
そして、比較部14は、復号化された音声についてスペクトル分析部12による前記分析により得られた周波数スペクトル成分の前記特徴と、登録された比較用登録データ15との比較により、複数の話者を峻別する手段である。また、対応関数提供部17及び頭部伝達関数フィルタ部2は、前記峻別した異なる話者ごとに、3次元仮想空間上の異なった位置に割り振って音像定位させながらその音声を再生する手段である。
【0028】
具体的には、対応関数提供部17は、峻別した話者ごとに音像定位方向を例えば90度ごと、60度ごと等に割り振るが、それら各方向に対応する頭部伝達関数やその原型は頭部伝達関数データベース16に予め保持しておく。そして、各時点で峻別される話者に対応する方向の頭部伝達関数は、対応関数提供部17が頭部伝達関数データベース16を参照して取り出し又は生成して頭部伝達関数フィルタ部2に渡す。頭部伝達関数フィルタ部2は、受け取った頭部伝達関数にしたがって処理した左右チャネルの音声信号を、受信側のスピーカ、イヤホンまたはヘッドホン、ヘッドセットなどの出力系1から出力するように構成される。
【0029】
〔2.作用及び効果〕
上記のように構成された第1実施形態は、次のように作用する。まず、登録部13は、所定の操作が入力されたときに比較用登録データ15を登録する。具体的には、例えば、第1地点と第2地点との接続が完了後、第1地点で通信装置11に備えられた登録用ボタンを押しながら一言、例えば「おはようございます」とマイク8に向かって話すと、第2地点の通信装置11において、その周波数スペクトルがスペクトル分析部12により分析され、その特徴を表すスペクトルデータがメモリの所定領域に比較用登録データ15として登録される。この手順を通話に参加する人数分順次行っていく。
【0030】
遠隔会議開始後は、各地点の通信装置11においてマイク8に入力された音声がA/D変換部7でデータに変換された後、広帯域音声符号化部6に入力され圧縮音声データが生成される。この音声データは、有線や無線のネットワークといった伝送手段5を介して、他の全ての地点に設置された通信装置11の受信部9にデータとして伝達される。
【0031】
受信された音声データは復号化部4へ送られ、復号化部4が受信した圧縮データを伸張しD/A変換部3へデータを送りモノラル音声に復号させる。このモノラル音声はスペクトル分析部12と、頭部伝達関数フィルタ2へ分配される。
【0032】
スペクトル分析部12では、分配された音声から、例えば個人の特徴が顕著に表れる高調波成分の帯域ごとの信号強度を特徴として取り出し比較部14へ送る。このとき、メモリ内に設定ボタンにより事前に比較用登録データ15として登録されているのも、同様に、例えば話者ごとの高調波成分の帯域ごとの信号強度である。そして、比較部14にて、スペクトル分析部12からの高調波成分に関する上記の特徴と、各比較用登録データ15が比較され、一致する比較用登録データ15が探索される。そして、対応関数提供部17が、それに対応する3次元音像定位を再生するための頭部伝達関数を用意し頭部伝達関数フィルタ2へ送る。
【0033】
頭部伝達関数フィルタ2では、そのように提供された伝達関数を元にステレオ音声を生成し、片方の音より他方の音をわずかに遅延させたり強弱をつけるなどの処理により3次元に音場を割り振ってスピーカ、ヘッドホンまたはイヤホン等の出力系1へ出力して再生する。
【0034】
ここで、各話者の声を音像定位させる位置の割り振り内容は自由であるが、一例として、比較用登録データの登録された人数に応じた角度ごとに3次元的に任意に割り振る。すなわち、聞く人を除いて3人までは正面、右、左のように90度ごとの位置に割り振り、4人目からは前記90度の間の45度ずつの位置に挿入する形で割り振るなどである。位置の順序はランダムでも良いし、聞く人が所定の操作で予め設定したり、割り振り後に編集できるようにしてもよい。
【0035】
以上のような第1実施形態では、図2の概念図に示すように、受信側において、伝送された音声の周波数スペクトル成分の特徴から特定される話者ごとに、仮想空間の左側、正面、右側のように異なる位置から聞こえるような3次元音像定位により、聞く人に対して音声を再生する。このため、ネットワーク会議で遠隔地と通話する際、送信元一ヶ所に話者が複数いるような場合も、センサーや発信元電話番号登録等の煩雑な構成や操作無しで、聞こえて来る方向から話者を識別容易となる。特に、広帯域音声符号の利用により、識別精度の向上に加え、音質上もリアリティが増大し、同一空間で会議を行っているような優れた臨場感が実現され円滑な会議進行が図られる。
【0036】
特に、第1実施形態では、装置の登録用ボタンを押して一言話すなど、所定の操作を契機として各話者のサンプル音声から周波数スペクトル成分の特徴を登録するので、実際の通話中は比較処理を行って音場の割り振りを行えば足り、声の調子や雑音等に影響されることなく確実な動作が実現される。
【0037】
〔3.第2実施形態〕
上記第1実施形態では、比較用登録データ15の登録を事前にまとめて行ったが、登録部13は、伝送される音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較し、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録するように構成してもよい。
【0038】
より具体的には、例えば、音声と音声の間に発生する無音区間を検出し無音と無音の間の音声は一個人として認識する場合、スペクトル分析部12は、無音から有音になる最初の一言目をスペクトル分析しその高調波成分の特徴を比較部14へ送るように構成する。この場合、最初は、各話者ごとの高調波成分の特徴である比較用登録データ15が全く登録されていないため、スペクトル分析部12から比較部14に送られた高調波データはそのまま比較用登録データ15として登録される。
【0039】
このように登録された比較用登録データ15に基づいて、それ以降、比較部14により一致すると判断された部分の音声については、その話者に割り振られた位置に対応する頭部伝達関数により頭部伝達関数フィルタ2の働きで、所定の方向について3次元音像定位を伴う再生が行われる。一方、比較部14は、スペクトル分析部12から送られてくる高調波データについて、一致する比較用登録データ15がなければその都度、新規の個人として認識し比較用登録データ15として登録するが、一致するデータがあればそれを元に3次元音像定位を再生するための頭部伝達関数が生成され頭部伝達関数フィルタ2へ送られる。
【0040】
なお、比較用登録データ15の登録以外の例えば音声データからの音声の復号、立体音場の生成など、他の部分は第1実施形態と同様である。
【0041】
以上、第2実施形態では、周波数スペクトル成分について、通話中の音声の特徴をそれ以前に登録済みの各比較用登録データと逐次比較し、一致したものがあれば同一話者と峻別し、いずれとも不一致のときに新たな人物としてその周波数スペクトル成分の特徴を比較用登録データとして登録するとともに順次3次元的に音場の割り振りを行う。このため、サンプルの登録等の事前手続が不要となり利用が容易になる。
【0042】
〔4.他の実施形態〕
なお、本発明は、上記実施形態には限定されず、次に例示するような他の実施形態も含むものである。例えば、図1の機能ブロック図では、一箇所対一箇所で、双方の通信装置11が対等に受信部9及び送信部10を備える例を示したが、各受信部が3箇所以上からの音声を再生する構成や、一ヶ所に送信部のみ、もう一ヶ所に受信部のみ、といった非対称な構成で一方通行の音声通信を行う例も、本発明の範囲に含まれる。
【0043】
また、例えば、第1実施形態に示したような比較用登録データの登録と、第2実施形態に示したような比較用登録データの登録との併用も可能であり、この場合は、当初登録した各話者の比較用登録データと不一致の特徴が登場したときに、それが新規な話者の特徴として比較用登録データとして登録される。また、本発明は、受信側の音声再生装置単体としても実現可能である。
【0044】
【発明の効果】
以上のように、本発明によれば、簡易な構成で、送信元に複数の話者がいても受信側で各話者の識別が容易な音声通信システム、方法及びプログラム並びに音声再生装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の実施形態の構成を示す機能ブロック図。
【図2】本発明の実施形態の特徴を示す概念図。
【図3】立体音響の技術を遠隔会議の技術と組み合わせた従来技術の一例を示す概念図。
【符号の説明】
1…出力系
2…頭部伝達関数フィルタ部
3…D/A変換部
4…復号化部
5…伝送手段
6…広帯域音声符号化部
7…A/D変換部
8…マイクロフォン
9…受信部
10…送信部
11…通信装置
12…スペクトル分析部
13…登録部
14…比較部
15…比較用登録データ
16…頭部伝達関数データベース
17…対応関数提供部

Claims (10)

  1. 音声を伝送する音声通信システムにおいて、
    送信側で伝送する音声を入力する手段と、
    前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化する手段と、
    符号化した音声データを受信側へ伝送する伝送手段と、
    伝送された音声データから受信側において音声を復号化する手段と、
    復号化された音声の周波数スペクトル成分の特徴を分析する手段と、
    各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録手段と、
    復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別する手段と、
    峻別した異なる話者ごとに3次元仮想空間上の異なった位置に音像定位させながらその音声を再生する手段と、
    を備えたことを特徴とする音声通信システム。
  2. 前記登録手段は、所定の操作が入力されたときに前記比較用登録データを登録するように構成されたことを特徴とする請求項1記載の音声通信システム。
  3. 前記登録手段は、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較し、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録するように構成されたことを特徴とする請求項1又は2記載の音声通信システム。
  4. 音声を伝送する音声通信方法において、
    送信側において、
    伝送する音声の入力を受け付け、
    前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化し、
    符号化した音声データを受信側へ伝送し、
    受信側において、
    伝送された音声データから音声を復号化し、
    復号化された音声の周波数スペクトル成分の特徴を分析し、
    各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録処理を行い、
    復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別し、
    峻別した異なる話者ごとに3次元仮想空間上の異なった位置に音像定位させながらその音声を再生することを特徴とする音声通信方法。
  5. 前記登録処理は、所定の操作が入力されたときに前記比較用登録データを登録することを特徴とする請求項4記載の音声通信方法。
  6. 前記登録処理は、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較し、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録することを特徴とする請求項4又は5記載の音声通信方法。
  7. コンピュータを制御することにより、音声を伝送する音声通信プログラムにおいて、
    そのプログラムは前記コンピュータに、
    送信側として、
    伝送する音声の入力を受け付けさせ、
    前記音声を、基準となる所定の広帯域周波数に基づいて音声データに符号化させ、
    符号化した音声データを受信側へ伝送させ、
    受信側として、
    伝送された音声データから音声を復号化させ、
    復号化された音声の周波数スペクトル成分の特徴を分析させ、
    各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録処理を行わせ、
    復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別させ、
    峻別した異なる話者ごとに3次元仮想空間上の異なった位置に音像定位させながらその音声を再生させることを特徴とする音声通信プログラム。
  8. 前記プログラムは前記コンピュータに、
    前記登録処理において、所定の操作が入力されたときに前記比較用登録データを登録させることを特徴とする請求項7記載の音声通信プログラム。
  9. 前記プログラムは前記コンピュータに、
    前記登録処理において、伝送される前記音声の周波数スペクトル成分の特徴を、既に登録済みの各比較用登録データと逐次比較させ、いずれの比較用登録データとも一致しない特徴を新たな話者の比較用登録データとして登録させることを特徴とする請求項7又は8記載の音声通信プログラム。
  10. 受信した音声を再生する音声再生装置において、
    基準となる所定の広帯域周波数に基づいて符号化された音声データを受信する手段と、
    受信した前記音声データから音声を復号化する手段と、
    復号化された前記音声の周波数スペクトル成分の特徴を分析する手段と、
    各話者の周波数スペクトル成分の前記特徴を個人識別のための比較用登録データとして登録する登録手段と、
    復号化された音声について前記分析により得られた周波数スペクトル成分の前記特徴と、登録された前記比較用登録データとの比較により、複数の話者を峻別する手段と、
    峻別した異なる話者ごとに3次元仮想空間上の異なった位置に音像定位させながらその音声を再生する手段と、
    を備えたことを特徴とする音声再生装置。
JP2003199145A 2003-07-18 2003-07-18 音声通信システム、方法及びプログラム並びに音声再生装置 Expired - Fee Related JP3898673B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003199145A JP3898673B2 (ja) 2003-07-18 2003-07-18 音声通信システム、方法及びプログラム並びに音声再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003199145A JP3898673B2 (ja) 2003-07-18 2003-07-18 音声通信システム、方法及びプログラム並びに音声再生装置

Publications (2)

Publication Number Publication Date
JP2005039461A JP2005039461A (ja) 2005-02-10
JP3898673B2 true JP3898673B2 (ja) 2007-03-28

Family

ID=34208695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003199145A Expired - Fee Related JP3898673B2 (ja) 2003-07-18 2003-07-18 音声通信システム、方法及びプログラム並びに音声再生装置

Country Status (1)

Country Link
JP (1) JP3898673B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10155164B2 (en) * 2005-06-24 2018-12-18 Dolby Laboratories Licensing Corporation Immersive audio communication
JP4659154B2 (ja) * 2006-01-18 2011-03-30 株式会社日立国際電気 通信装置
KR101636716B1 (ko) * 2009-12-24 2016-07-06 삼성전자주식회사 발언자를 구별하는 영상 회의 장치 및 방법
JP5391175B2 (ja) * 2010-10-21 2014-01-15 日本電信電話株式会社 遠隔会議方法、遠隔会議システム及び遠隔会議プログラム
US9563278B2 (en) 2011-12-19 2017-02-07 Qualcomm Incorporated Gesture controlled audio user interface
JP2015109040A (ja) * 2013-12-05 2015-06-11 富士通テレコムネットワークス株式会社 緊急通報装置および緊急通報システム
CN113556499B (zh) * 2020-04-07 2023-05-09 上海汽车集团股份有限公司 一种车载视频通话方法及车载系统

Also Published As

Publication number Publication date
JP2005039461A (ja) 2005-02-10

Similar Documents

Publication Publication Date Title
US7012901B2 (en) Devices, software and methods for generating aggregate comfort noise in teleconferencing over VoIP networks
JP4255461B2 (ja) 電話会議用のステレオ・マイクロフォン処理
US9858936B2 (en) Methods and systems for selecting layers of encoded audio signals for teleconferencing
JP4166435B2 (ja) 通信会議システム
JP5325988B2 (ja) 補聴器システムにおいてバイノーラル・ステレオにレンダリングする方法および補聴器システム
US20050281421A1 (en) First person acoustic environment system and method
JP3483086B2 (ja) 音声電話会議装置
US8422406B2 (en) Identifying callers in telecommunications networks
US20070109977A1 (en) Method and apparatus for improving listener differentiation of talkers during a conference call
JP2009500976A (ja) 会議通話のための空間化機構
US8442198B2 (en) Distributed multi-party conferencing system
WO2011153907A1 (zh) 一种播放远端与会人员音频的方法、装置及远程视频会议系统
JP2010506519A (ja) 通信分野用のサウンドイベントを取得し、伝送し、および、再生するための処理および装置
JP3898673B2 (ja) 音声通信システム、方法及びプログラム並びに音声再生装置
US8588947B2 (en) Apparatus for processing an audio signal and method thereof
JP4804014B2 (ja) 音声会議装置
JP2009118316A (ja) 音声通信装置
JP2006279492A (ja) 電話会議システム
CN110891216A (zh) 一种耳机装置
JP2001274912A (ja) 遠隔地会話制御方法および遠隔地会話システムならびに遠隔地会話制御プログラムを記録した記録媒体
CN110856068B (zh) 一种耳机装置的通话方法
JP2004072354A (ja) 音声会議システム
JP6392161B2 (ja) 音声会議システム、音声会議装置、その方法及びプログラム
JP2662825B2 (ja) 会議通話端末装置
JP2015119248A (ja) バイノーラル録音を用いた立体音響ip電話

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061221

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees