JP2006180251A - Voice signal processor for enabling callers to perform simultaneous utterance, and program - Google Patents
Voice signal processor for enabling callers to perform simultaneous utterance, and program Download PDFInfo
- Publication number
- JP2006180251A JP2006180251A JP2004371876A JP2004371876A JP2006180251A JP 2006180251 A JP2006180251 A JP 2006180251A JP 2004371876 A JP2004371876 A JP 2004371876A JP 2004371876 A JP2004371876 A JP 2004371876A JP 2006180251 A JP2006180251 A JP 2006180251A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- sound image
- image position
- terminal device
- terminal devices
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、会議等の状況下において、音響機器を用いた複数話者による同時発声を可能とする音声信号処理技術に関する。 The present invention relates to an audio signal processing technique that enables simultaneous speech by a plurality of speakers using an acoustic device in a meeting or the like.
多地点に配置された話者が参加する音声会議において、各話者の音声が聞き手に区別可能となるように、各話者の音声の音像定位を異ならせる技術がある。そのような技術においては、各話者の近傍に配されたマイクから入力される音声信号を左右2チャンネルの音声信号に分離した後、各チャンネルの音声信号に音圧調整を行うことにより、当該音声信号により示される音声の音像位置を変更する。その際、話者毎に異なる音圧調整が行われる結果、話者毎の音声が異なる音像位置に配置される。その後、音圧調整の行われた話者毎の音声信号が加算され、聞き手の近傍に配置されたスピーカに出力される。その結果、スピーカから複数話者の音声が同時に発せられても各音声の音像位置が異なるため、聞き手は各話者の音声を区別することができる。そのような従来技術を開示した文献として、例えば特許文献1がある。
従来技術による場合、話者の数に応じた音像位置が設けられる。そのため、話者の数が増えるに従い隣り合う音像位置間の距離が短くなり、隣り合う音像位置に配置された異なる話者の音声間を聞き手が区別することが困難となる。 In the case of the prior art, a sound image position corresponding to the number of speakers is provided. Therefore, as the number of speakers increases, the distance between adjacent sound image positions becomes shorter, and it becomes difficult for the listener to distinguish between the sounds of different speakers arranged at adjacent sound image positions.
上記の状況に鑑み、本発明は、複数話者の音声を合成して発音するシステムにおいて、多数の話者による発声を可能としつつ、聞き手にとって異なる話者の音声を区別可能とする手段を提供することを目的とする。 In view of the above situation, the present invention provides a means for enabling a speaker to distinguish different speakers' voices while enabling speech by a large number of speakers in a system that synthesizes and generates voices of multiple speakers. The purpose is to do.
上記課題を達成するために、本発明は、複数の端末装置から音声信号を受け取る入力手段と、前記入力手段により前記複数の端末装置の各々から過去の所定期間内に受け取られた音声信号の持続時間の累積値を示す累積時間データを生成する累積時間データ生成手段と、前記累積時間データに基づき、前記複数の端末装置の中から所定数の複数の端末装置を選択する選択手段と、前記選択手段により選択された複数の端末装置の各々に対し、互いに異なる音像位置を割り当てる割当手段と、前記選択手段により選択された複数の端末装置から前記入力手段により音声信号が受け取られたとき、当該音声信号を、前記割当手段により当該端末装置に割り当てられた音像位置を有する音声信号に加工するとともに、前記選択手段により選択されなかった端末装置から前記入力手段により音声信号が受け取られたとき、当該音声信号を、所定の音像位置を有する音声信号に加工する加工手段と、前記加工手段により加工された音声信号を出力する出力手段とを備えることを特徴とする音声信号処理装置を提供する。 To achieve the above object, the present invention provides an input means for receiving audio signals from a plurality of terminal devices, and a continuation of an audio signal received from each of the plurality of terminal devices by the input means within a past predetermined period. Cumulative time data generating means for generating cumulative time data indicating a cumulative value of time; selection means for selecting a predetermined number of terminal devices from the plurality of terminal devices based on the cumulative time data; and the selection Allocating means for assigning different sound image positions to each of the plurality of terminal devices selected by the means, and when the sound signal is received by the input means from the plurality of terminal devices selected by the selecting means, The signal is processed into an audio signal having a sound image position assigned to the terminal device by the assigning unit, and is not selected by the selecting unit. When an audio signal is received from the terminal device by the input means, processing means for processing the audio signal into an audio signal having a predetermined sound image position, and an output for outputting the audio signal processed by the processing means And an audio signal processing apparatus.
かかる構成の音声信号処理装置によれば、異なる話者の音声信号が異なる所定数の音像位置に動的に配置されるため、話者が多数であり、音声信号を送信してくる端末装置の数が多い場合であっても、隣り合う音像位置間の間隔が一定以上に保たれる。その結果、生成される合成音声信号を再生して得られる音声に含まれる異なる話者の音声が聞き手によって混同されるという不都合が防止される。 According to the audio signal processing apparatus having such a configuration, since the audio signals of different speakers are dynamically arranged at different predetermined numbers of sound image positions, the number of speakers is large, and the terminal device that transmits the audio signal Even when the number is large, the interval between adjacent sound image positions is kept at a certain level or more. As a result, the inconvenience that the voices of different speakers included in the voice obtained by reproducing the generated synthesized voice signal are confused by the listener is prevented.
また、好ましい態様において、前記割当手段は、一の端末装置に割り当てられている一の音像位置を他の音像位置に変更するとき、当該一の端末装置に対し、前記一の音像位置から前記他の音像位置に時間の経過に伴い推移する音像位置を割り当てるように構成してもよい。 Also, in a preferred aspect, the assigning means changes the one sound image position from the one sound image position to the other sound image position when changing the one sound image position assigned to the one terminal device to another sound image position. A sound image position that changes over time may be assigned to the sound image position.
かかる構成の音声信号処理装置によれば、端末装置に割り当てられる音像位置に変更が加えられる場合においても、滑らかに音像位置が移動する音声を示す合成音声信号が生成されるため、合成音声信号を再生して得られる音声の聞き手が、同じ話者の音声を捕捉することが容易となる。 According to the audio signal processing device having such a configuration, even when a change is made to the sound image position assigned to the terminal device, a synthesized audio signal indicating a sound whose sound image position moves smoothly is generated. It becomes easy for the listener of the voice obtained by reproduction to capture the voice of the same speaker.
また、他の好ましい態様において、前記音声信号処理装置は、前記選択手段により選択された複数の端末装置の各々に関し、当該端末装置から受け取られた音声信号の周波数特性を示す周波数特性データを生成する周波数特性特定手段を備え、前記割当手段は、任意の2つの音像位置を割り当てる端末装置から受け取られた音声信号の前記周波数特性データの間の類似性が所定の条件を満たすように、前記選択手段により選択された複数の端末装置の各々に対し音像位置を割り当てるように構成してもよい。 In another preferable aspect, the audio signal processing device generates frequency characteristic data indicating a frequency characteristic of an audio signal received from the terminal device for each of the plurality of terminal devices selected by the selection unit. Frequency characteristic specifying means, and the assigning means selects the selecting means so that the similarity between the frequency characteristic data of the audio signals received from the terminal device to which any two sound image positions are assigned satisfies a predetermined condition. The sound image position may be assigned to each of the plurality of terminal devices selected by the above.
かかる構成の音声信号処理装置によれば、異なる話者の音声信号の周波数特性が互いに近似する場合にそれらの音像位置を一定以上離す等により、合成音声信号を再生して得られる音声の聞き手が、異なる話者の音声を混同する不都合をより確実に回避することができる。 According to the audio signal processing apparatus having such a configuration, when the frequency characteristics of the audio signals of different speakers are close to each other, the audio listener obtained by reproducing the synthesized audio signal can be obtained by separating the sound image positions by a certain distance or more. Therefore, it is possible to more reliably avoid the inconvenience of confusing the voices of different speakers.
さらに、本発明は、複数の端末装置から音声信号を受け取る入力手段と、前記入力手段により前記複数の端末装置の各々から過去の所定期間内に受け取られた音声信号の持続時間の累積値を示す累積時間データを生成する累積時間データ生成手段と、前記累積時間データに基づき、前記複数の端末装置の中から所定数の複数の端末装置を選択する選択手段と、前記選択手段により選択された複数の端末装置の各々に対し、互いに異なる周波数特性を割り当てる割当手段と、前記選択手段により選択された複数の端末装置から前記入力手段により音声信号が受け取られたとき、当該音声信号を、前記割当手段により当該端末装置に割り当てられた周波数特性を有する音声信号に加工するとともに、前記選択手段により選択されなかった端末装置から前記入力手段により音声信号が受け取られたとき、当該音声信号を、所定の周波数特性を有する音声信号に加工する加工手段と、前記加工手段により加工された音声信号を出力する出力手段とを備えることを特徴とする音声信号処理装置を提供する。 Furthermore, the present invention shows an input unit that receives audio signals from a plurality of terminal devices, and a cumulative value of durations of audio signals received from each of the plurality of terminal devices by the input unit within a predetermined period in the past. Cumulative time data generating means for generating cumulative time data, selection means for selecting a predetermined number of terminal devices from among the plurality of terminal devices based on the cumulative time data, and a plurality selected by the selection means Allocating means for assigning different frequency characteristics to each of the terminal devices, and when the voice signal is received by the input means from a plurality of terminal devices selected by the selecting means, the allocating means The terminal device that has been processed into an audio signal having the frequency characteristics assigned to the terminal device by the selection device and has not been selected by the selection means And a processing means for processing the audio signal into an audio signal having a predetermined frequency characteristic when an audio signal is received by the input means, and an output means for outputting the audio signal processed by the processing means. An audio signal processing apparatus is provided.
かかる構成の音声信号処理装置によれば、異なる話者の音声信号に対し異なる周波数特性を持つように加工処理が施され、異なる話者の音声が区別可能な合成音声信号が生成されると同時に、周波数特性の数が所定数に限られており、それらが動的に異なる話者の音声信号に割り当てられるため、話者が多数であり、音声信号を送信してくる端末装置の数が多い場合であっても、加工処理後の音声信号の周波数特性間に一定以上の差異が保たれる。その結果、生成される合成音声信号を再生して得られる音声に含まれる異なる話者の音声が聞き手によって混同されるという不都合が防止される。 According to the speech signal processing apparatus having such a configuration, processing is performed so that speech signals of different speakers have different frequency characteristics, and a synthesized speech signal that can distinguish speeches of different speakers is generated at the same time. Since the number of frequency characteristics is limited to a predetermined number and these are dynamically assigned to different speaker voice signals, the number of speakers is large and the number of terminal devices that transmit voice signals is large. Even in this case, a certain difference or more is maintained between the frequency characteristics of the processed audio signal. As a result, the inconvenience that the voices of different speakers included in the voice obtained by reproducing the generated synthesized voice signal are confused by the listener is prevented.
また、好ましい態様において、前記割当手段は、一の端末装置に割り当てられている一の周波数特性を他の周波数特性に変更するとき、当該一の端末装置に対し、前記一の周波数特性から前記他の周波数特性に時間の経過に伴い推移する周波数特性を割り当てるように構成してもよい。 Further, in a preferred aspect, when the allocating unit changes one frequency characteristic allocated to one terminal device to another frequency characteristic, the allocating unit changes the one frequency characteristic from the one frequency characteristic to the other frequency characteristic. A frequency characteristic that changes with the passage of time may be assigned to the frequency characteristic.
かかる構成の音声信号処理装置によれば、端末装置に割り当てられる周波数特性に変更が加えられる場合においても、滑らかに周波数特性が変化する音声を示す合成音声信号が生成されるため、合成音声信号を再生して得られる音声の聞き手が、同じ話者の音声を捕捉することが容易となる。 According to the audio signal processing device having such a configuration, even when a change is made to the frequency characteristic assigned to the terminal device, a synthesized audio signal indicating a voice whose frequency characteristic changes smoothly is generated. It becomes easy for the listener of the voice obtained by reproduction to capture the voice of the same speaker.
また、本発明は、上記の音声信号処理装置により行われる処理をコンピュータに実行させるプログラムを提供する。 The present invention also provides a program that causes a computer to execute processing performed by the above-described audio signal processing apparatus.
[1.第1実施形態]
[1.1.音声会議システムの構成]
図1は、本発明の第1実施形態にかかる音声会議システム1の構成を示したブロック図である。音声会議システム1は、互いに異なる場所にいる会議参加者が、音声により会議を行うことを可能とするシステムである。音声会議システム1は、複数の通信機器を相互に接続するネットワーク10と、ネットワーク10に各々接続された複数の端末装置11と、端末装置11の各々に接続されたヘッドセット12と、ネットワーク10に接続された音声信号処理サーバ13を備えている。
[1. First Embodiment]
[1.1. Configuration of audio conference system]
FIG. 1 is a block diagram showing a configuration of an
複数の端末装置11およびヘッドセット12の各々は、会議の参加者19の各々により使用される。音声会議システム1を利用した会議に参加可能な参加者の数、すなわち端末装置11およびヘッドセット12の数は任意に変更可能であり、さらに会議の進行中に参加者の構成が変動してもよい。
Each of the plurality of
図1に示すように、異なる参加者19および当該参加者19が使用する端末装置11およびヘッドセット12を互いに区別する必要がある場合には、それぞれ、参加者19−n、端末装置11−nおよびヘッドセット12−nのように、末尾に「−n」を付してそれらを区別する。ただし、「n」は任意の自然数である。また、異なる参加者19および当該参加者19が使用する端末装置11およびヘッドセット12を互いに区別する必要がない場合には、それぞれ、単に参加者19、端末装置11およびヘッドセット12と呼ぶ。
As shown in FIG. 1, when
ネットワーク10は、有線または無線により相互接続された1以上の中継装置を備え、異なる通信機器間のデータの中継を行う。ネットワーク10は、インターネット等の利用者を限定しないオープンネットワークであってもよいし、イントラネットやインターネットプロトコル以外の通信プロトコルを用いるLAN(Local Area Network)等のいずれであってもよい。
The
端末装置11は、参加者19の音声を示す音声信号を音声信号処理サーバ13に送信するとともに、音声信号処理サーバ13から他の参加者19の音声を示す音声信号が合成された合成音声信号を受信する装置であり、例えば、汎用のパーソナルコンピュータ、PDA(Personal Digital Assistant)、専用端末装置等のいずれであってもよい。端末装置11は、ヘッドセット12から入力されるアナログ音声信号をデジタル音声信号に変換するとともにデジタル音声信号をアナログ音声信号に変換してヘッドセット12に出力する音声信号処理部111と、音声信号処理部111から音声信号を受け取ってネットワーク10に送出する音声信号送信部112と、ネットワーク10から音声信号を受け取って記憶部114に書き込む音声信号受信部113と、端末装置11の制御プログラム等を記憶するとともに他の構成部のワークエリアとして利用される記憶部114を備えている。
The
ヘッドセット12は、参加者19の音声を示すアナログ音声信号を生成して端末装置11に出力するマイクと、端末装置11から入力されるアナログ音声信号を音声に変換して発音するヘッドフォンを備えている。ヘッドセット12のヘッドフォンは左入力および右入力を備え、左右異なる音を発音可能なステレオヘッドフォンである。
The
音声信号処理サーバ13は、複数の端末装置11の各々から音声信号を受信し、受信した音声信号に対し、音像位置調整およびミキシングの処理を行って合成音声信号を生成し、生成した合成音声信号を複数の端末装置11の各々に送信する装置である。音声信号処理サーバ13は、ネットワーク10から音声信号を受信する音声信号受信部131と、過去の所定時間内に受信した音声信号により示される音声の持続時間の累積値を送信元である端末装置11の各々に関し示す累積時間データを生成する累積時間データ生成部132と、累積時間データ等に基づき音空間に配置すべき音声信号の出所となる所定数の端末装置を選択する端末装置選択部133と、各端末装置11から受信される音声信号の周波数特性を特定し周波数特性データを生成する周波数特性特定部134と、音声信号の出所である端末装置11の各々に対し当該音声信号が音空間において配置されるべき音像位置を割り当てる音像位置割当部135と、音声信号の各々の音像位置が音像位置割当部135により割り当てられた音像位置となるように音声信号を加工し調整済の音声信号を生成する音声信号加工部136と、調整済の音声信号をミキシングして合成音声信号を生成するミキシング部137と、合成音声信号をネットワーク10に送信する音声信号送信部138と、音声信号処理サーバ13の制御プログラム等を記憶するとともに他の構成部のワークエリアとして利用される記憶部139を備えている。また、記憶部139は、端末装置選択部133が所定数の端末装置を選択するための条件および音像位置割当部135が音像位置を各端末装置11に割り当てるための条件を示す条件データを格納した条件データベース1391を記憶している。
The audio
多人数の参加者19が参加する会議においては、仮に音像位置割当部135が全ての参加者19の音声に対し固定的に異なる音像位置を割り当てると、隣り合う音像位置との距離が短くなる。その結果、類似する音声に対し近接する音像位置が割り当てられ、それらの音声により同時に発言がなされると、それらの音声に対し音像位置調整が行われたとしても、ミキシング後の音声は聞き手にとって判別困難なものとなる。そこで、端末装置選択部133はその時々に音像位置割当部135により音像位置の割当が行われるべき音声を所定数だけ選択することにより、音像位置の数を制限するのである。すなわち、音像位置割当部135は、端末装置選択部133により選択された端末装置11にのみ、音像位置の割当を行う。その結果、隣り合う音像位置間の距離が一定以上狭くなることはなく、上記のような問題が生じない。
In a conference in which a large number of
ところで、端末装置選択部133による端末装置11の選択および音像位置割当部135による音像位置の割当は条件データベース1391に含まれる条件データに従い行われる。端末装置選択部133および音像位置割当部135は各々、選択もしくは割当の処理において累積時間データ生成部132により生成される累積時間データを用いる。累積時間データは、過去の所定時間内における各参加者19の発言時間の累計値を示すデータであり、時間の経過とともに常時変化している。従って、端末装置選択部133により選択される端末装置11および音像位置割当部135によりそれらの端末装置11に割り当てられる音像位置は動的に変化する。
By the way, the selection of the
また、音像位置割当部135は、音像位置の割当を行うにあたり、周波数特性特定部134により生成される周波数特性データを用いることもできる。周波数特性データは、各参加者19の音声の特徴を示すデータである。
In addition, the sound image
音声信号受信部131により受信された音声信号は、その出所である端末装置11に対し音像位置割当部135により割り当てられる音像位置を有するように音声信号加工部136で調整された後、ミキシング部137でミキシングされ、音声信号送信部138により各端末装置11に送信される。以上が音声信号処理サーバ13の動作の概要である。
The audio signal received by the audio
続いて、条件データベース1391の説明を行う。図2は、条件データベース1391の内容を例示した図である。条件データベース1391は、複数のレコード(図2の各データ行)を含み、各レコードは条件データと、その条件データの内容が他の条件データの内容と競合する場合にいずれを優先するかを示す優先度を含んでいる。優先度は整数値であり、数が小さいほど優先度が高いことを示す。以下、図2に例示される条件データの説明を行う。ただし、条件データの種類は以下に説明するものに限られない。まず、条件データ「ポジション数:6」は、音像位置割当部135により音声に対し割り当てられる音像位置の数を6とすることを指示している。以下、音像位置割当部135により音声に割り当てられる音像位置を、聞き手の左から右にかけて「ポジション1」、「ポジション2」、・・・のように呼ぶ。これらの音像位置は、聞き手の正面を基準(0度)とし、左方向(負)もしくは右方向(正)への傾きの角度により特定される。例えば、ポジション1〜6は、それぞれ「−50度」、「−30度」、「−10度」、「+10度」、「+30度」および「+50度」のように特定される。
Subsequently, the
条件データ「監視期間:20分」は、累積時間データ生成部132および周波数特性特定部134に対し、音声信号受信部131により受信された音声信号のうち、過去20分間分のものを利用することを指示している。この場合、累積時間データ生成部132は過去20分間に受信された音声信号に基づき各端末装置11から受信した音声信号の持続時間を算出することにより参加者19の各々の発言時間の累計値を示す累計時間データを生成し、周波数特性特定部134は過去20分間に受信された音声信号に対し周波数分析を行うことにより参加者19の各々の音声信号の周波数特性を示す周波数特性データを生成することになる。
The condition data “monitoring period: 20 minutes” uses the audio signal received by the audio
条件データ「移動速度:20秒」は、音像位置割当部135が、ある端末装置11から受信する音声信号に割り当てている音像位置を変更する場合に、20秒間で音像位置の移動が完了するように、徐々に音像位置の変更を行うことを指示している。類似の指示を行う条件データとして、例えば条件データ「移動時間:1度/秒」のような条件データを用いるようにしてもよい。この条件データは、音像位置割当部135に、音像位置を変更する際、それまで割り当てていた音像位置から新たに割り当てたい音像位置に向け、1秒間に1度の角速度で徐々に移動させるように音像位置の変更を行うことを指示している。
The condition data “movement speed: 20 seconds” indicates that the movement of the sound image position is completed in 20 seconds when the sound image
条件データ「常設保留ポジション:ポジション4」は、音声信号受信部131が受信した音声信号が、その時点で端末装置選択部133により選択されている端末装置11以外の端末装置11から送信されたものである場合に、その音声信号により示される音声をポジション4に配置することを指示している。常設保留ポジションには、次に説明する一時的保留ポジションの場合と異なり、端末装置選択部133により選択されている端末装置11から送信された音声信号により示される音声が配置されることはない。
The condition data “permanent holding position: position 4” is the one in which the audio signal received by the audio
条件データ「一時的保留ポジション:ポジション3」は、音声信号受信部131が受信した音声信号が、その時点で端末装置選択部133により選択されている端末装置11以外の端末装置11から送信されたものであり、さらに条件データ「常設保留ポジション:ポジション4」により示されるポジション4に対し、個別に音声信号により示される音声をポジション3に配置することを指示している。すなわち、常設保留ポジションが本来、端末装置選択部133により選択されている端末装置11から送信された音声信号のために確保されているポジションであるのに対し、一時的保留ポジションは一時的に他の端末装置11から送信された音声信号のために利用されることが許可されたポジションである。
The condition data “temporary holding position:
条件データ「累積時間ランキング1:ポジション6」は、累積時間データ生成部132により生成される累積時間データにより、過去の所定時間において発言時間の最も長かったとされる参加者19の端末装置11に対し、ポジション6を割り当てることを指示している。この場合、過去の所定時間とは、条件データ「監視期間:20分」により示される20分間である。
The condition data “cumulative time ranking 1:
条件データ「周波数特性類似度>0.90→間隔2以上」は、周波数特性特定部134により生成される周波数特性データにより示される周波数特性が互いに類似している音声に対し、間隔が2以上離れている音像位置を割り当てることを指示している。ここで、間隔とは、2つのポジション間に含まれる他のポジションの数に1を加えた数である。例えば、ポジション1とポジション4の間隔は「3」となる。周波数特性類似度とは、2つの音声信号の周波数特性の類似度を示す指標であり、周波数特性データに基づき音像位置割当部135により算出される。周波数特性の類似度を示す指標としては様々なものが考えられるが、以下の説明においては例として、2つの音声信号の周波数特性を各々示すグラフの相違度を用いることとする。より具体的には、音像位置割当部135は以下のように周波数特性類似度を算出するものとする。
(a)周波数特性データより、各音声信号の周波数特性を示すグラフを描く。その際、縦軸に音圧レベル(dB)をとり、横軸に周波数(Hz)の対数をとる。
(b)(a)において描いたグラフと横軸とに囲まれる図形の面積が所定値Sとなるように、音圧レベルを全周波数帯域にわたり増加もしくは減少させる。すなわち、グラフを縦軸方向に上下させる。これは、音声信号により示される音声のボリュームを上下させ、異なる音声間の全体的なボリュームを合わせることを意味する。
(c)2つの音声信号に関し、(b)においてボリューム調整を行ったグラフを重ね合わせた場合に、各グラフと横軸とに囲まれる図形の間の重複部分の面積sを算出する。
(d)(b)において用いたSと、(c)において算出したsからR=s/Sを算出し、このRを2つの音声信号に関する周波数特性類似度とする。
The condition data “frequency characteristic similarity> 0.90 →
(A) A graph showing the frequency characteristic of each audio signal is drawn from the frequency characteristic data. At that time, the vertical axis represents the sound pressure level (dB), and the horizontal axis represents the logarithm of frequency (Hz).
(B) The sound pressure level is increased or decreased over the entire frequency band so that the area of the figure surrounded by the graph drawn in (a) and the horizontal axis becomes the predetermined value S. That is, the graph is moved up and down in the vertical axis direction. This means that the volume of the audio indicated by the audio signal is raised and lowered to match the overall volume between the different sounds.
(C) For the two audio signals, the area s of the overlapping portion between the graphs surrounded by the graphs and the horizontal axis is calculated when the graphs whose volume adjustment is performed in (b) are superimposed.
(D) R = s / S is calculated from S used in (b) and s calculated in (c), and this R is defined as the frequency characteristic similarity for the two audio signals.
上記のように算出されるRは0以上1以下の値をとり、その値が大きいほど2つの音声信号の周波数特性が類似していることを示す。条件データ「周波数特性類似度>0.90→間隔3以上」に従う場合、2つの音声信号の周波数特性類似度が0.90より大きい場合、それらの音声信号により示される音声が3以上の間隔をあけて配置されるように、端末装置11に対し音像位置の割当が行われることになる。
R calculated as described above takes a value from 0 to 1, and the larger the value, the more similar the frequency characteristics of the two audio signals. In accordance with the condition data “frequency characteristic similarity> 0.90 →
条件データ「端末ID「0123」:ポジション1」は、端末装置11のネットワーク10における識別子である端末IDが「0123」である端末装置11にポジション1を割り当てることを指示している。すなわち、ポジション1は特定の端末装置11の使用者である参加者19のために確保され、その参加者19の発言時間の長短によってポジション1が他の参加者19の音声に割り当てられることはない。このような条件データは、例えば、会議の司会者のように、必ずしも発言時間は長くないが、常に同じ音像位置にその音声が配置されることが全ての聞き手にとって好都合であるような場合に用いられる。
The condition data “terminal ID“ 0123 ”:
条件データ「デフォルトポジション:端末ID順」は、音声信号の送信元の端末装置11の端末IDの大小に従い、各音声信号により示される音声に音像位置の割り当てを行うことを音像位置割当部135に指示している。この条件データに対応付けられている優先度は「9」であり、他の条件データと比較して優先度が低い。すなわち、この条件データは、他の条件データにより音像位置が一意に定まらない場合に用いられる条件を示している。例えば、会議の開始直後にはまだ累積時間データが生成されていないため、条件データ「累積時間ランキング1:ポジション6」等の条件データによっては最初の発言者の音声のポジションが定まらない。そのような場合、条件データ「デフォルトポジション:端末ID順」により、発言した参加者19の使用する端末装置11の端末IDの小さい順にポジション1、ポジション2、・・・のように音声が配置されることになる。
Condition data “default position: in order of terminal ID” indicates to the sound image
[1.2.音声会議システムの動作]
続いて、複数の参加者19が音声会議システム1を用いて会議を行う場合の音声会議システム1の動作を説明する。まず、会議に参加する参加者19は各自の端末装置11を操作して、端末装置11と音声信号処理サーバ13との間に通信コネクションを確立させる。音声信号処理サーバ13は、複数の端末装置11の各々との間に通信コネクションを確立するが、それら複数の通信コネクションは音声信号処理サーバ13により割り当てられるコネクションIDにより識別される。通信コネクションの確立の方法は従来技術によるものと同様であるので、説明を省略する。端末装置11は、各々、任意のタイミングで音声信号処理サーバ13との間に通信コネクションを確立することができるので、参加者19は任意のタイミングで会議に参加したり、会議から離脱したりすることができる。
[1.2. Operation of the audio conference system]
Next, the operation of the
端末装置11と音声信号処理サーバ13との間に通信コネクションの確立が行われると、端末装置11の記憶部114には、音声信号処理サーバ13から受信される音声信号を所定時間分(例えば5秒間分)だけFIFO(First−in First−out)により一時的に記憶するデータバッファ1141が確保される。ただし、後述するように端末装置11が音声信号処理サーバ13から受信する音声信号は左右2チャンネルであるため、データバッファ1141は、左右2チャンネルの音声信号を所定時間分だけ記憶可能なように、その記憶容量が決定される。
When the communication connection is established between the
同様に、音声信号処理サーバ13の記憶部139には、確立された通信コネクションごとに、端末装置11から受信される音声信号を条件データベース1391(図2参照)に含まれる条件データ「監視期間:20分」で示される時間分(すなわち20分間分)だけFIFOにより一時的に記憶するデータバッファ1392が確保される。これらのデータバッファはコネクションIDにより識別され、音声信号処理サーバ13においては、異なる端末装置11から受信した音声信号は異なるデータバッファ1392に順次記憶される。音声信号処理サーバ13が端末装置11から受信する音声信号はモノラルであるため、データバッファ1392の記憶容量はデータバッファ1141と異なり、1チャンネルの音声信号を20分間分だけ記憶可能なように、その記憶容量が決定される。
Similarly, the
また、音声信号処理サーバ13は、端末装置11の各々にコネクションIDを割り当てると同時に、コネクションIDを割り当てた端末装置11から端末IDを取得し、割り当てたコネクションIDと端末IDとの対応表を作成する。図3は、音声信号処理サーバ13において作成されるコネクションIDと端末IDの対応表の例を示している。音声信号処理サーバ13はこの対応表に従い、コネクションIDにより、そのコネクションIDにより特定される通信コネクションを用いた通信の相手の端末装置11を特定することができる。例えば、コネクションID「0023」に端末ID「0123」が対応付けられている場合、コネクションID「0023」で識別されるデータバッファ1392には、端末ID「0123」で特定される端末装置11から送信された音声信号が記憶されることになる。
Also, the audio
上記のように、端末装置11と音声信号処理サーバ13との間に通信コネクションが確立されると、参加者19は端末装置11に接続されたヘッドセット12を用いて発言を行うことができる。参加者19が発音した音声は、ヘッドセット12のマイクによりアナログ音声信号に変換され、端末装置11の音声信号処理部111に入力される。音声信号処理部111はヘッドセット12から受け取ったアナログ音声信号をデジタル音声信号に変換した後、変換後の音声信号を含むデータパケットを生成する。
As described above, when a communication connection is established between the
図4は、音声信号が複数のデータパケットに含まれる様子を模式的に示した図である。音声信号処理部111は、音声信号を先頭から順に所定のデータ長の音声信号ブロックに分割する。音声信号処理部111は、音声信号ブロックの間の順序を示すブロック番号を音声信号ブロックの前に付加する。さらに、音声信号処理部111はブロック番号の前に、コネクションID、送信元IDおよび送信先IDを順次付加する。送信元IDは端末装置11の端末IDであり、送信先IDは音声信号処理サーバ13のネットワーク10におけるID(以下、「サーバID」と呼ぶ)である。さらに、音声信号処理部111は、ブロック番号等を付加した音声信号ブロックの前および後に、一連のデータの区切りを示すデータとして、HOD(Head of Data)およびEOD(End of Data)を付加する。このように生成されたHODで始まりEODで終わる一連のデータがデータパケットである。
FIG. 4 is a diagram schematically illustrating how an audio signal is included in a plurality of data packets. The audio
音声信号処理部111は、上記のように生成したデータパケットを順次、音声信号送信部112に引き渡し、音声信号送信部112は受け取ったデータパケットを順次、ネットワーク10に送出する。ネットワーク10に含まれる中継装置は、送信先IDによりネットワーク10において特定される通信機器へ到達可能な通信経路を示すルーティングテーブルを記憶しており、端末装置11から送出されたデータパケットに含まれる送信先IDに基づき、ルーティングテーブルに従い送信先IDにより特定される通信機器へ到達可能な通信経路上の隣接する中継装置にデータパケットを転送する。その結果、データパケットは音声信号処理サーバ13に送り届けられる。ルーティングテーブルの更新方法等は従来技術によるものと同様であるので、説明を省略する。
The audio
ネットワーク10を介して上記のように音声信号処理サーバ13に送り届けられたデータパケットは、音声信号処理サーバ13の音声信号受信部131により受信される。音声信号受信部131は、受信したデータパケットに含まれるコネクションIDに従い、当該コネクションIDにより識別されるデータバッファ1392のうち、当該データパケットに含まれるブロック番号に応じた領域に、当該データパケットに含まれる音声信号ブロックを記憶させる。端末装置11から送出された複数のデータパケットは、各々、ネットワーク10において通過する通信経路が異なる結果、送出順に音声信号処理サーバ13に受信されるとは限らない。しかしながら、音声信号受信部131により、ブロック番号に応じた順序でデータバッファ1392に音声信号ブロックが記憶される結果、データバッファ1392に記憶される一連の音声信号は、端末装置11においてデータパケットに分割される前の音声信号を再現したものとなる。データパケットの一部が何らかの理由で音声信号処理サーバ13に到達しなかった場合には、音声信号処理サーバ13が到達しなかったデータパケットに含まれる音声信号を前後の音声信号に基づき補間する等の処理を行うが、それらの処理は従来技術によるものと同様であるため、説明を省略する。
The data packet sent to the audio
上記のように、音声信号受信部131により、複数の端末装置11の各々から受信される音声信号が、過去所定の期間分だけ、対応するコネクションIDにより識別されるデータバッファ1392に記憶される。ただし、各データバッファ1392に記憶される音声信号には、参加者19が発言をしていない時の音、すなわちほぼ無音を示す信号も混在している。そこで、累積時間データ生成部132は、所定時間間隔で、各データバッファ1392に記憶されている音声信号から、振幅の絶対値が所定の閾値を超える部分を取り出し、取り出した音声信号の部分の時間を示す累積時間データを生成する。以下、例として、累積時間データ生成部132は5秒間隔で累積時間データを生成するものとする。累積時間データには、その生成に用いられた音声信号の記憶されていたデータバッファ1392を識別するコネクションIDが対応付けられている。すなわち、累積時間データは、対応付けられているコネクションIDにより識別される端末装置11の参加者19による過去の所定時間内の発言時間の累積を示している。
As described above, the audio
累積時間データ生成部132がデータバッファ1392に記憶されている音声信号から参加者19の発言を示す部分を取り出す際には、例えば音声信号の振幅が所定の閾値を超えた後、所定時間(例えば2秒間)はたとえ振幅が所定の閾値以下となっても、発言が継続しているものとみなすようにしてもよい。そうすれば、参加者19による発言において言葉と言葉の間に小休止があるような場合にも、それらの一連の発言時間が累積時間データに反映される。
When the cumulative time
また、端末装置11から音声信号処理サーバ13に対し、参加者19の発言がない期間の音声信号を送信しないようにし、累積時間データ生成部132は端末装置11により受信された音声信号により示される音声の発音時間を単純に累積するようにしてもよい。その場合、音声信号の送信元である端末装置11の音声信号送信部112において、音声信号のうち振幅が所定の閾値を超える部分のみをデータパケットとしてネットワーク10に送出するようにすればよいので、データの通信量が削減される。
Further, the
累積時間データ生成部132は、上記のように5秒間隔で累積時間データを生成すると、生成した累積時間データを端末装置選択部133および音像位置割当部135に引き渡す。
When the accumulated time
端末装置選択部133は、累積時間データ生成部132から累積時間データを受け取ると、受け取った累積時間データに基づき、記憶部139に記憶されている条件データベース1391に含まれる条件データに従って、複数の参加者19の使用する端末装置11から、参加者19の過去の所定期間における累積発言時間の長い順に所定数だけ選択する。図2に例示される条件データベース1391によれば、音像位置の総数は6であるが、常設保留ポジションとしてポジション4が保留され、端末ID「0123」の端末装置11にポジション1が確保されているため、端末装置選択部133は、累積時間データにより示される累積時間が長い参加者19の端末装置11から順に、4つの端末装置11を選択する。ただし、上記のように選択された4つの端末装置11に、端末IDが「0123」であるものが含まれている場合、その端末装置11には既にポジション1が確保されているため、端末装置選択部133はさらに1つの端末装置11を選択する。
Upon receiving the accumulated time data from the accumulated time
端末装置選択部133による端末装置11の選択処理は、より具体的には、累積時間データにより示される累積時間の長い順に累積時間データを並べた場合の上位のものを選択し、選択した累積時間データに対応付けられたコネクションIDを選択することにより行われる。端末装置選択部133は、上記のように選択したコネクションIDを、例えば対応する累積時間の長い順に並べ、選択データとして周波数特性特定部134および音像位置割当部135に引き渡す。端末装置選択部133は5秒間隔で累積時間データを受け取るので、端末装置選択部133もまた5秒間隔で選択データを周波数特性特定部134および音像位置割当部135に引き渡すことになる。
More specifically, the selection processing of the
周波数特性特定部134は、端末装置選択部133から選択データを受け取ると、選択データに含まれるコネクションIDの各々に関し、対応付けられたデータバッファ1392に記憶されている音声信号に関する周波数分析を行い、各周波数と音声信号に含まれる当該周波数の音圧レベルとの関係を示す周波数特性データを生成する。周波数特性特定部134は、生成した周波数特性データを音像位置割当部135に引き渡す。周波数特性特定部134による音像位置割当部135に対する周波数特性データの引き渡しも5秒間隔で行われる。
When the frequency
音像位置割当部135は、端末装置選択部133から選択データを受け取るとともに、周波数特性特定部134から選択データに含まれるコネクションIDに各々対応する周波数特性データを受け取ると、受け取ったデータに基づき、条件データベース1391に含まれる条件データに従い、端末装置11に対する音像位置の割当処理を以下のように行う。
When receiving the selection data from the terminal
例えば、選択データが「0034,0015,0004,0009」であり、選択データに含まれるコネクションIDに対応付けられた端末ID(図3参照)が「0278,0301,0041,0084」であった場合、音像位置割当部135は、条件データ「累積時間ランキング1:ポジション6」に従って、ポジション6を累積時間のランキング1位である端末ID「0278」に対応するコネクションID「0034」に割り当てる。同様に、コネクションID「0015」にはポジション2が、コネクションID「0004」にはポジション5が、コネクションID「0009」にはポジション3が割り当てられる。
For example, when the selection data is “0034, 0015, 0004, 0009” and the terminal ID (see FIG. 3) associated with the connection ID included in the selection data is “0278, 0301, 0041, 0084”. The sound image
図5は、上記のように音像位置割当部135により各ポジションがコネクションIDに割り当てられる結果、いずれの参加者19の音声がいずれのポジションに配置されるかを模式的に示した図である。図5において、ポジション1には、端末ID「0123」の端末装置11を使用する参加者19の音声が固定的に配置されている。また、ポジション2、3、5および6には、それぞれ、端末IDが「0301」、「0084」、「0041」および「0278」の端末装置11を使用する参加者19の音声が配置されているが、これらの配置は参加者19の発言時間の累積値に基づき一時的に定められた配置であり、これらの配置は動的に変化する。また、ポジション4には、ポジション1〜3、5または6のいずれにも割り当てられていない1または複数の端末装置11を使用する参加者19により発言がなされた場合に、その参加者19の音声が配置される。さらに、ポジション3には、ポジション1〜3、5または6のいずれにも割り当てられていない異なる端末装置11を使用する2名の参加者19により同時に発言がなされた場合に、例えばそれら2名のうち、後から発言を開始した参加者19の音声が一時的に配置される。
FIG. 5 is a diagram schematically showing which
続いて、音像位置割当部135は、条件データ「周波数特性類似度>0.90→間隔2以上」に従い、上記のように各コネクションIDに割り当てたポジションに必要な修正を加える。具体的には、音像位置割当部135は上記のように各ポジションに割り当てたコネクションIDに対応する周波数特性データから2つを順次選択して、それらの周波数特性データから既に説明した方法により周波数特性類似度を算出する。そして、音像位置割当部135は、条件データ「周波数特性類似度>0.90→間隔2以上」により示される条件に反するポジションの割当が行われている場合、条件を満たすようにポジションの割り当て変更を行う。
Subsequently, the sound image
例えば、ポジション2を割り当てられたコネクションID「0015」に対応する周波数特性データと、ポジション3を割り当てられたコネクションID「0009」に対応する周波数特性データから算出された周波数特性類似度が0.95であった場合、音像位置割当部135は、例えばコネクションID「0009」にポジション5を割り当て、ポジション5が割り当てられていたコネクションID「0004」にポジション3を割り当てることにより、隣り合うポジションの音声信号が一定以上類似することがないようにするのである。ただし、複数のコネクションIDに対しどのようにポジションを割り当てても条件データ「周波数特性類似度>0.90→間隔2以上」を満たすことができないような場合、音像位置割当部135は、例えば隣り合うコネクションIDに対応する音声信号間の周波数特性類似度が最小となるような配置を選択するなど、所定のルールに従いポジションの割り当てを行う。
For example, the frequency characteristic similarity calculated from the frequency characteristic data corresponding to the connection ID “0015” assigned
音像位置割当部135は、上記のように各コネクションIDに対しポジションの割り当てを行うと、各ポジションに割り当てられたコネクションIDを示す音像位置割当データを生成する。例えば、図5に例示したポジションの割り当てを行った場合、音像位置割当部135により生成される音像位置割当データは、[0023:−50度、0015:−30度、0009(一時的保留):−10度、(常設保留):+10度、0004:+30度、0034:+50度]となる。音像位置割当部135は、音像位置割当データを生成し、音声信号加工部136に引き渡す。
When the sound image
音像位置割当部135による音声信号加工部136に対する音像位置割当データの引き渡しは、通常、5秒間隔で行われる。ただし後述するように、音像位置割当部135は音像位置の割当を変更する必要が生じた場合には、変更にかかるコネクションIDに割り当てられる音像位置が徐々に移動するように、音像位置割当データの生成および引き渡しをより短い時間間隔で行う。
The delivery of the sound image position assignment data to the audio
音声信号加工部136は記憶部139に確保されている全てのデータバッファ1392に関し、新たに書き込まれる音声信号の振幅を常時監視し、振幅の絶対値が所定の閾値を超えた場合、そのデータバッファ1392に対応する参加者19の発言があったものと判断して、その音声信号に対し音像位置の調整処理を行う。音声信号加工部136は、音声信号に対する音像位置の調整処理を行う場合、音像位置割当部135から最後に受け取った音像位置割当データに従い、その音像位置を決定する。
The audio
例えば、端末ID「0301」の参加者19により発言があったとする。その結果、端末ID「0301」に対応するコネクションID「0015」(図3参照)で特定されるデータバッファ1392に書き込まれる音声信号が、所定の閾値を超えることになる。その場合、音声信号加工部136は最後に受け取った音像位置割当データからコネクションID「0015」を検索する。今、音像位置割当部135により割り当てられている音像位置が図5に例示のものであるとすると、音声信号加工部136は最後に受け取った音像位置割当データにコネクションID「0015」が含まれていることを発見し、さらにそのコネクションIDに「−30度」が対応付けられていることを発見する。そこで、音声信号加工部136は、コネクションID「0015」で特定されるデータバッファ1392に書き込まれた音声信号の音像位置が「−30度」で示される位置、すなわち左前方の位置となるように音声信号に対し加工処理を行う。すなわち、音声信号加工部136は音声信号の複製を2組生成し、その一方に対し増幅率a(a>1)を乗じてその振幅を増幅させると同時に、他方に対し増幅率b(b<1)を乗じてその振幅を減少させる。そのように振幅の調整を行った2組の音声データを、それぞれ左チャンネルおよび右チャンネルの音声信号とすることにより、データバッファ1392に書き込まれた音声信号の音像位置が左前方となるようにするのである。
For example, it is assumed that a
また、例えば端末ID「0075」の参加者19により発言があったとする。その結果、端末ID「0075」に対応するコネクションID「0021」(図3参照)で特定されるデータバッファ1392に書き込まれる音声信号が、所定の閾値を超えることになる。その場合、音声信号加工部136は最後に受け取った音像位置割当データからコネクションID「0021」を検索する。音像位置割当部135により割り当てられている音像位置が図5に例示のものである場合、音声信号加工部136は音像位置割当データの中にコネクションID「0021」を発見できない。その場合、音声信号加工部136は音像位置割当データにおいて(常設留保)に対応付けられている「+10度」に従い、コネクションID「0021」で特定されるデータバッファ1392に書き込まれた音声信号の音像位置が「+10度」で示される位置、すなわち前方やや右の位置となるように音声信号に対し加工処理を行う。
For example, it is assumed that the
音声信号加工部136は、上記のように振幅が所定の閾値を超えた音声信号に対し音像位置の調整処理を行い、左右2チャンネル、すなわちステレオとなった音声信号をミキシング部137に引き渡す。ミキシング部137は、音声信号加工部136から1人の参加者19の音声を示すステレオの音声信号を受け取ると、受け取ったステレオの音声信号をそのまま音声信号送信部138に引き渡す。また、ミキシング部137は、音声信号加工部136から2人以上の参加者19の音声を示すステレオの音声信号を受け取ると、受け取った音声信号を左右各々のチャンネル毎にミキシングし、ミキシングにより生成したステレオの合成音声信号を音声信号送信部138に引き渡す。また、ミキシング部137は、音声信号加工部136から音声信号を受け取らない間は、振幅0を示すステレオの音声信号を生成し、生成した音声信号を音声信号送信部138に引き渡す。
The audio
音声信号送信部138は、ミキシング部137からステレオの音声信号を受け取ると、受け取った音声信号を含むデータパケットを生成する。図6は、音声信号送信部138においてデータパケットが生成される様子を模式的に示した図である。音声信号送信部138により生成されるデータパケットには、音声信号送信部112により生成されるデータパケット(図4参照)と異なり、音声信号ブロックの代わりに、左チャンネルの音声信号および右チャンネルの音声信号を各々所定のデータ長に分割した左音声信号ブロックおよび右音声信号ブロックが含まれている。また、音声信号処理サーバ13はその時点で会議に参加している全ての参加者19の端末装置11に音声信号を送信する必要があるため、音声信号送信部138は、その時点で確立されている全ての通信コネクションに関し、その通信コネクションを特定するコネクションIDをヘッダに含むデータパケットを複数同時に生成する。各データパケットに含まれる送信先IDは、コネクションIDに対応する端末ID(図3参照)である。
When receiving the stereo audio signal from the mixing
音声信号送信部138は、上記のように生成したデータパケットを順次ネットワーク10に送出する。ネットワーク10に送出されたデータパケットは各々に含まれる送信先IDに基づき、各々の端末装置11に送り届けられる。各端末装置11の音声信号受信部113はデータパケットを受信すると、受信したデータパケットに含まれる左音声信号ブロックおよび右音声信号ブロックを、ブロック番号に応じたデータバッファ1141の領域に順次書き込んでゆく。その一方で、音声信号処理部111はデータバッファ1141に書き込まれた音声信号を左右の各々に関し順次、アナログ音声信号に変換し、ヘッドセット12のヘッドフォンの左入力および右入力にそれぞれ出力する。ヘッドセット12のヘッドフォンは、左入力および右入力に入力された音声信号を各々音に変換し発音する。ヘッドセット12から発音される音は、異なる場所にいる参加者19の各々の音声をミキシングしたものであるが、異なる参加者19の発言による音声が異なる音像位置に配置された音であるため、同時に複数の参加者19が発言を行った場合であっても、聞き手はそれらの発言を容易に判別することができる。
The audio
ところで、上述したように、累積時間データ生成部132は5秒間隔で累積時間データを生成し、端末装置選択部133は5秒間隔で選択データを生成する。周波数特性特定部134は5秒間隔で、選択データに含まれるコネクションIDの各々に対応する音声信号に関する周波数特性データを生成する。従って、音像位置割当部135は5秒間隔で、端末装置選択部133から選択データを、また周波数特性特定部134から周波数特性データを受け取り、それらに基づき音像位置の割当処理を行う。
By the way, as described above, the accumulated time
音像位置の割当に変更がない場合、音像位置割当部135は5秒間隔で同じ内容の音像位置割当データを生成し、音声信号加工部136に引き渡す。一方、音像位置の割当を変更する必要が生じた場合、音像位置割当部135は5秒間隔よりも短い時間間隔、例えば0.1秒間隔で、変更にかかるコネクションIDの音像位置が変更前の音像位置から変更後の音像位置に徐々に移動するように音像位置割当データを生成し、音声信号加工部136に引き渡す。
When there is no change in the allocation of the sound image position, the sound image
図7は、図5に例示した音像位置の割当が行われている状態で、コネクションID「0021」で特定される通信コネクションを用いた端末装置11の参加者19が頻繁に発言を行った結果、過去20分間の累積発言時間のランキングに変動が生じた場合に、音像位置割当部135がコネクションID「0021」に対し音像位置を割り当てる様子を模式的に示した図である。図7(a)は、累積時間データにより示される発言時間の累積値のランキングに変更が生じる前の状態を示している。
FIG. 7 shows the result of frequent remarks made by the
図7(a)の状態でコネクションID「0021」に対応する参加者19の発言時間の累積値のランキングが4位となると、コネクションID「0009」に割り当てられていたポジション3が、コネクションID「0021」に割り当てられることになる。その場合、音像位置割当部135は、条件データベース1391(図2参照)に含まれる条件データ「移動時間:20秒」に従い、1秒間に1度の角速度(20度÷20秒=1度/秒)で、徐々にポジション4の位置からポジション3の位置に移動する音像位置をコネクションID「0021」に割り当てる。より具体的には、音像位置割当部135は以下の音像位置割当データを0.1秒間隔で順次音声信号加工部136に引き渡す。
[0023:−50度、0015:−30度、0021(一時的保留):+9.9度、(常設保留):+10度、0004:+30度、0034:+50度]
[0023:−50度、0015:−30度、0021(一時的保留):+9.8度、(常設保留):+10度、0004:+30度、0034:+50度]
[0023:−50度、0015:−30度、0021(一時的保留):+9.7度、(常設保留):+10度、0004:+30度、0034:+50度]
[0023:−50度、0015:−30度、0021(一時的保留):+9.6度、(常設保留):+10度、0004:+30度、0034:+50度]
(以下、同様)
In the state of FIG. 7A, when the ranking of the accumulated value of the speech time of the
[0023: -50 degrees, 0015: -30 degrees, 0021 (temporary hold): +9.9 degrees, (permanent hold): +10 degrees, 0004: +30 degrees, 0034: +50 degrees]
[0023: -50 degrees, 0015: -30 degrees, 0021 (temporary hold): +9.8 degrees, (permanent hold): +10 degrees, 0004: +30 degrees, 0034: +50 degrees]
[0023: -50 degrees, 0015: -30 degrees, 0021 (temporary hold): +9.7 degrees, (permanent hold): +10 degrees, 0004: +30 degrees, 0034: +50 degrees]
[0023: -50 degrees, 0015: -30 degrees, 0021 (temporary hold): +9.6 degrees, (permanent hold): +10 degrees, 0004: +30 degrees, 0034: +50 degrees]
(Hereinafter the same)
上記のように、新たにランキング4位になったコネクションID「0021」の音像位置としては、即時にポジション3を示す「−10度」が指定されるのではなく、それまでのポジションを示す「+10度」から「−10度」に向かい、徐々に左に移動するように、0.1秒間隔で変化する角度が指定される。音声信号加工部136は、上記のような音像位置割当データを0.1秒間隔で順次受け取り、受け取った音像位置割当データに従った音像位置にコネクションID「0021」に対応する参加者19の音声が配置されるように加工処理を行う。その結果、ミキシング部137によりミキシングされた音声信号において、コネクションID「0021」に対応する参加者19の音声が時間の経過に伴い前方やや右から前方やや左に移動していくことになる。図7(b)は音像位置の移動開始後、10秒が経過した時点の状態を示し、図7(c)は移動が完了した後の状態を示している。
As described above, “−10 degrees” indicating the
上記のように、音像位置が滑らかに変更される結果、同じ発言者の音声が突然、ある音像位置から他の音像位置にジャンプすることがなく、会議の音声の聞き手にとって、ある発言が同じ発言者のものか異なる発言者のものかを把握しやすくなる。しかしながら、音像位置を滑らかに変更するか、すばやく変更するかは条件データベース1391に含める移動速度もしくは移動時間を指示する条件データのパラメータを変更することにより任意に変更可能である。すなわち、移動速度もしくは移動時間を指示する条件データを条件データベース1391に含めない等により、音像位置が即座に変更後の位置に移動されるようにしてもよい。
As described above, as a result of the sound image position being changed smoothly, the voice of the same speaker is not suddenly jumped from one sound image position to another sound image position. It ’s easier to see if it ’s a different speaker or a different speaker. However, whether the sound image position is changed smoothly or quickly can be arbitrarily changed by changing the parameter of the condition data indicating the moving speed or moving time included in the
上述したように、音声会議システム1によれば、会議に参加している参加者19の数が多数となった場合であっても、所定数の音像位置が適宜異なる参加者19の音声に割り当てられる結果、隣り合う音像位置の間隔が狭くなり過ぎることがなく、聞き手が隣接する音像位置に配置された異なる参加者19の音声を混同する不都合が防止される。
As described above, according to the
なお、一度ポジションを確定したらランキング外になるまで、そのままのポジションを維持するようにしてもよい。 Note that once the position is confirmed, the position may be maintained until it is out of the ranking.
ところで、音声信号処理サーバ13および端末装置11は、専用のハードウェアにより実現されてもよいし、音声信号の入出力が可能な汎用コンピュータにアプリケーションプログラムに従った処理を実行させることにより実現されてもよい。音声信号処理サーバ13が汎用コンピュータにより実現される場合、累積時間データ生成部132、端末装置選択部133、周波数特性特定部134、音像位置割当部135、音声信号加工部136およびミキシング部137は、汎用コンピュータが備えるCPU(Central Processing Unit)およびCPUの制御下で動作するDSP(Digital Signal Processor)が、アプリケーションプログラムに含まれる各モジュールに従った処理を同時並行して行うことにより、汎用コンピュータの機能として実現される。また、音声信号処理サーバ13の音声信号受信部131および音声信号送信部138は、汎用コンピュータがデータパケットをネットワーク10との間で送受信するために備える入出力インタフェースと、アプリケーションプログラムに含まれる各モジュールに従ったデータパケットの生成および組み立てに関するCPUの処理により、汎用コンピュータの機能として実現される。
By the way, the audio
また、音声会議システム1において、各音像位置に配置されている音声の話者を聞き手が特定可能なように、聞き手に対し表示もしくは音による通知を行う機能を付加するように構成してもよい。例えば、音声信号処理サーバ13は音声信号を端末装置11に送信するとともに、図5に示したようなその時点における参加者19の配置図を示す画像データを端末装置11に送信する。その場合、端末装置11は表示部を備え、音声信号処理サーバ13から送信される画像データに従い、参加者19の配置図を表示部に表示させる。その結果、聞き手である全ての参加者19は、ヘッドセット12のヘッドフォンから発音される音に含まれるいずれの音声がいずれの参加者19の発言であるかを容易に確認することができる。また、例えば音声信号加工部136において、各音像位置に配置されている参加者19の氏名やニックネーム等を読み上げた音声示す音声信号を所定時間間隔で合成し、合成した音声信号に対し音像位置の調整処理を行って、ミキシング部137に引き渡すようにしてもよい。その場合、ミキシング部137において参加者19の発言を示す音声信号と発言者の氏名等を読み上げる合成音声信号が各々同じ音像位置に配置されてミキシングされる結果、聞き手である参加者19はいずれの音像位置に配置された音声がいずれの参加者19の発言を示すものであるかを容易に知ることができる。
Further, the
また、音声会議システム1において、端末装置11と音声信号処理サーバ13との間で送受信されるデータパケットに含まれる音声信号を暗号化するように構成してもよい。その場合、音声信号送信部112および音声信号送信部138において、送信される音声信号が暗号化された後、データブロックに分割され、データパケットに含められる。また、音声信号受信部131および音声信号受信部113は、データパケットに含まれるデータブロックを組み立てた後、それを復号化して音声信号を復元する。このように音声信号を暗号化すると、会議の内容が第三者に漏洩することが防止される。
Further, the
[1.3.変形例]
上述した音声会議システム1においては、端末装置11の各々は互いに離れた位置に配置され、ネットワーク10を介して音声信号処理サーバ13との間でデータ通信を行うことにより、多地点間の会議を実現する。しかしながら、本発明の第1実施形態は、ネットワーク10を介することなく、各端末装置11が直接、音声信号処理サーバ13に接続するように変形することもできる。そのような変形を加えた音声会議システムは、例えば数十名が一同に介して会議を行うような場合に便利なシステムである。
[1.3. Modified example]
In the above-described
また、上述したサーバにおける音像位置割当処理や音声信号処理を各端末装置で行うようにしてもよい。その場合、例えば各端末装置11は、条件データベース1391、端末装置選択部133、周波数特性特定部134、音像位置割当部135、音声信号加工部136およびミキシング部137を備え、一方で音声信号処理サーバ13はそれらの構成部を備えず、各端末装置11から受信した音声信号をミキシングせずに複数トラックの音声信号として、累積時間データとともに各端末装置11に送信する。各端末装置11は音声信号処理サーバ13から受信した複数トラックの音声信号および累積時間データを用いて、所定数の音声信号の選択および選択した音声信号に対する音像位置の割当等を行う。
Further, the above-described sound image position assignment processing and audio signal processing in the server may be performed by each terminal device. In this case, for example, each
さらに、上述した音声信号処理サーバ13と同様の構成を備えた複数の端末装置がピアツーピアで相互接続され、音声会議システムを構成するようにしてもよい。その場合、例えば、各端末装置11は参加者19の音声信号を他の全ての端末装置11に送信するとともに、他の全ての端末装置11から各々の参加者19の音声信号を受信する。端末装置11は、そのように受信した複数の音声信号に対し、上述した音声信号処理サーバ13における場合と同様の音声信号の選択処理、音像位置の割当処理等を行う。
Furthermore, a plurality of terminal devices having the same configuration as the audio
[2.第2実施形態]
上記の第1実施形態の音声会議システム1においては、異なる参加者19の発言を示す音声信号に対し異なる音像位置を割り当てることにより、異なる参加者19の発言を聞き手が混同することを防止可能な音声信号が生成された。第2実施形態の音声会議システム2においては、異なる参加者19の発言を示す音声信号に対し異なる周波数特性を割り当てることにより、異なる参加者19の発言を聞き手が混同することを防止可能な音声信号が生成される。音声会議システム2は、音声会議システム1とその構成および動作において多くの点で共通している。従って、以下の説明においては音声会議システム2が音声会議システム1と異なる点のみ説明する。また、音声会議システム2の構成部のうち、音声会議システム1の構成部と同様もしくは対応するものには同じ符合を付す。
[2. Second Embodiment]
In the
[2.1.音声会議システムの構成および動作]
図8は、音声会議システム2の構成を示したブロック図である。音声会議システム2の音声信号処理サーバ13は、音声会議システム1の音声信号処理サーバ13が備える音像位置割当部135の代わりに、周波数特性割当部235を備えている。周波数特性割当部235は、選択データにより示されるコネクションIDの各々に対し、異なる周波数特性を割り当てる。複数の周波数特性を互いに異ならせる方法は様々に考えられるが、本実施形態においては例として、中心周波数が異なるパラメトリックイコライザによる処理を異なる話者の音声信号に対し行うことにより、各々の音声信号の周波数特性が互いに大きく異なるようにする。従って、周波数特性割当部235は、各コネクションIDに対し異なる中心周波数を割り当てる。図9は、周波数特性割当部235により異なる中心周波数がコネクションIDに割り当てられる様子を模式的に示した図である。
[2.1. Configuration and operation of audio conference system]
FIG. 8 is a block diagram showing the configuration of the
周波数特性割当部235は、端末装置選択部133から受け取る選択データおよび周波数特性特定部134から受け取る周波数特性データに基づき、条件データベース1391に含まれる条件データに従って各中心周波数に対するコネクションIDの割当を行うと、その結果を示す周波数特性割当データを音声信号加工部136に引き渡す。図9に示される中心周波数の割当が行われる場合、周波数特性割当データは[0023:5.0kHz、0015:5.9kHz、0009(一時的保留):7.0kHz、(常設保留):8.5kHz、0004:10.6kHz、0034:13.4kHz]となる。
When the frequency
音声信号加工部136は、データバッファ1392に順次記憶される音声信号のうち、振幅が所定の閾値を超えたものに対し、最後に受け取った周波数特性割当データに従い、パラメトリックイコライザの処理、すなわち図9において各中心周波数を有するグラフに示されるような周波数特性のフィルタ処理を施し、生成した音声信号をミキシング部137に引き渡す。ミキシング部137は各々の参加者19に関し異なる周波数特性のフィルタ処理の施された音声信号を受け取ると、それらをミキシングして1つの音声信号を生成する。そのように音声信号処理サーバ13により生成された音声信号は、ネットワーク10を介して全ての端末装置11に送信され、ヘッドセット12を介して音として発音される。ここで、音声会議システム2における音声信号処理サーバ13から端末装置11に送信される音声信号はモノラルの音声信号でよく、従ってヘッドセット12が備えるヘッドフォンもモノラルヘッドフォンでよい。
The audio
上記のように、ヘッドセット12のヘッドフォンから発音される音は、会議における発言を示す音声をミキシングしたものである。ただし、ミキシングされた音声において、異なる参加者19による発言を示す音声は大きく異なる周波数特性を備えるように調整されているため、聞き手は異なる参加者19による発言を容易に区別することができる。その際、会議に参加している参加者19の数が多数となった場合であっても、所定数の周波数特性が適宜異なる参加者19の音声に割り当てられる結果、隣り合う中心周波数により特定される周波数特性間の差異が一定程度、常に維持される。その結果、聞き手が異なる参加者19の音声を混同する不都合が常に防止される。
As described above, the sound that is generated from the headphones of the
音声会議システム2においても、音声会議システム1における音像位置割当部135と同様に、周波数特性割当部235は中心周波数の割当に変更が生じた場合、時間の経過に伴い徐々に中心周波数を変更前から変更後のものに変化させるように、周波数特性割当データの生成および音声信号加工部136への引き渡しを行う。その結果、聞き手は音声の周波数特性に変更が加えられた場合であっても、同じ発言者の音声を容易に捕捉することができる。
Also in the
第2実施形態に関しても、第1実施形態と同様に、音声信号処理サーバ13および端末装置11は、専用のハードウェアにより実現されてもよいし、音声信号の入出力が可能な汎用コンピュータにアプリケーションプログラムに従った処理を実行させることにより実現されてもよい。また、音声会議システム2において、各中心周波数の割り当てられた音声の話者を聞き手が特定可能なように、聞き手に対し表示もしくは音による通知を行う機能を付加するように構成してもよい。また、音声会議システム2において、音声信号に暗号化を施すようにしてもよい。さらに、第2実施形態において、第1実施形態における変形例と同様の変形を加えることもできる。
Also in the second embodiment, as in the first embodiment, the audio
また、第1実施形態における音像位置の割り当てを、第2実施形態における周波数特性の割り当てに組み合わせるようにしてもよい。その場合、音声信号処理サーバ13は、音像位置割当部135と周波数特性割当部235の両方を備え、端末装置選択部133により選択された音声信号の各々に、異なる音像位置と異なる周波数特性の両方を割り当てる。その結果、たとえ近い音像位置に類似音色の音声信号が配置されたような場合でも、それらの周波数特性が異なるように加工が施される結果、聞き手にとっては異なる発言者の音声をより容易に聞き分けることができるようになる。なお、互いに近い音像位置に配置される音声信号に対しては、互いに大きく異なる周波数特性を割り当てることにより、聞き手にとってより聞き分け易い音声を提供可能な音声会議システムを構成することも可能である。
The sound image position assignment in the first embodiment may be combined with the frequency characteristic assignment in the second embodiment. In that case, the audio
1・2…音声会議システム、10…ネットワーク、11…端末装置、12…ヘッドセット、13…音声信号処理サーバ、111…音声信号処理部、112・138…音声信号送信部、113・131…音声信号受信部、114・139…記憶部、132…累積時間データ生成部、133…端末装置選択部、134…周波数特性特定部、135…音像位置割当部、136…音声信号加工部、137…ミキシング部、235…周波数特性割当部、1141・1392…データバッファ、1391…条件データベース。
DESCRIPTION OF
Claims (7)
前記入力手段により前記複数の端末装置の各々から過去の所定期間内に受け取られた音声信号の持続時間の累積値を示す累積時間データを生成する累積時間データ生成手段と、
前記累積時間データに基づき、前記複数の端末装置の中から所定数の複数の端末装置を選択する選択手段と、
前記選択手段により選択された複数の端末装置の各々に対し、互いに異なる音像位置を割り当てる割当手段と、
前記選択手段により選択された複数の端末装置から前記入力手段により音声信号が受け取られたとき、当該音声信号を、前記割当手段により当該端末装置に割り当てられた音像位置を有する音声信号に加工するとともに、前記選択手段により選択されなかった端末装置から前記入力手段により音声信号が受け取られたとき、当該音声信号を、所定の音像位置を有する音声信号に加工する加工手段と、
前記加工手段により加工された音声信号を出力する出力手段と
を備えることを特徴とする音声信号処理装置。 Input means for receiving audio signals from a plurality of terminal devices;
Accumulated time data generating means for generating accumulated time data indicating accumulated values of durations of audio signals received within a predetermined past period from each of the plurality of terminal devices by the input means;
Selection means for selecting a predetermined number of terminal devices from the plurality of terminal devices based on the accumulated time data;
Assigning means for assigning different sound image positions to each of the plurality of terminal devices selected by the selecting means;
When an audio signal is received by the input unit from a plurality of terminal devices selected by the selection unit, the audio signal is processed into an audio signal having a sound image position allocated to the terminal device by the allocation unit. Processing means for processing the audio signal into an audio signal having a predetermined sound image position when an audio signal is received by the input means from a terminal device not selected by the selection means;
An audio signal processing apparatus comprising: output means for outputting an audio signal processed by the processing means.
ことを特徴とする請求項1に記載の音声信号処理装置。 The assigning means changes the time interval from the one sound image position to the other sound image position with respect to the one terminal device when changing the one sound image position assigned to the one terminal device to another sound image position. The sound signal processing apparatus according to claim 1, wherein a sound image position that changes with progress is assigned.
前記割当手段は、任意の2つの音像位置を割り当てる端末装置から受け取られた音声信号の前記周波数特性データの間の類似性が所定の条件を満たすように、前記選択手段により選択された複数の端末装置の各々に対し音像位置を割り当てる
ことを特徴とする請求項1に記載の音声信号処理装置。 With respect to each of the plurality of terminal devices selected by the selection means, comprising frequency characteristic specifying means for generating frequency characteristic data indicating the frequency characteristics of the audio signal received from the terminal device,
The assigning means includes a plurality of terminals selected by the selecting means so that the similarity between the frequency characteristic data of the audio signals received from the terminal device that assigns two arbitrary sound image positions satisfies a predetermined condition. The sound signal processing apparatus according to claim 1, wherein a sound image position is assigned to each of the apparatuses.
前記入力手段により前記複数の端末装置の各々から過去の所定期間内に受け取られた音声信号の持続時間の累積値を示す累積時間データを生成する累積時間データ生成手段と、
前記累積時間データに基づき、前記複数の端末装置の中から所定数の複数の端末装置を選択する選択手段と、
前記選択手段により選択された複数の端末装置の各々に対し、互いに異なる周波数特性を割り当てる割当手段と、
前記選択手段により選択された複数の端末装置から前記入力手段により音声信号が受け取られたとき、当該音声信号を、前記割当手段により当該端末装置に割り当てられた周波数特性を有する音声信号に加工するとともに、前記選択手段により選択されなかった端末装置から前記入力手段により音声信号が受け取られたとき、当該音声信号を、所定の周波数特性を有する音声信号に加工する加工手段と、
前記加工手段により加工された音声信号を出力する出力手段と
を備えることを特徴とする音声信号処理装置。 Input means for receiving audio signals from a plurality of terminal devices;
Accumulated time data generating means for generating accumulated time data indicating accumulated values of durations of audio signals received within a predetermined past period from each of the plurality of terminal devices by the input means;
Selection means for selecting a predetermined number of terminal devices from the plurality of terminal devices based on the accumulated time data;
Assigning means for assigning different frequency characteristics to each of the plurality of terminal devices selected by the selecting means;
When an audio signal is received by the input means from a plurality of terminal devices selected by the selection means, the audio signal is processed into an audio signal having a frequency characteristic assigned to the terminal device by the assigning means. Processing means for processing the audio signal into an audio signal having a predetermined frequency characteristic when an audio signal is received by the input means from a terminal device not selected by the selection means;
An audio signal processing apparatus comprising: output means for outputting an audio signal processed by the processing means.
ことを特徴とする請求項4に記載の音声信号処理装置。 The assigning means, when changing one frequency characteristic assigned to one terminal apparatus to another frequency characteristic, for the one terminal apparatus, time is changed from the one frequency characteristic to the other frequency characteristic. The audio signal processing apparatus according to claim 4, wherein a frequency characteristic that changes over time is assigned.
前記複数の端末装置の各々から過去の所定期間内に受け取られた音声信号の持続時間の累積値を示す累積時間データを生成する処理と、
前記累積時間データに基づき、前記複数の端末装置の中から所定数の複数の端末装置を選択する処理と、
前記選択された複数の端末装置の各々に対し、互いに異なる音像位置を割り当てる処理と、
前記選択された複数の端末装置から音声信号が受け取られたとき、当該音声信号を、当該端末装置に割り当てられた音像位置を有する音声信号に加工するとともに、前記選択された端末装置以外の端末装置から音声信号が受け取られたとき、当該音声信号を、所定の音像位置を有する音声信号に加工する処理と、
前記加工された音声信号を出力する処理と
をコンピュータに実行させることを特徴とするプログラム。 Receiving audio signals from a plurality of terminal devices;
Generating accumulated time data indicating accumulated values of durations of audio signals received from each of the plurality of terminal devices within a predetermined period in the past;
A process of selecting a predetermined number of terminal devices from the plurality of terminal devices based on the accumulated time data;
A process of assigning different sound image positions to each of the plurality of selected terminal devices;
When an audio signal is received from the selected terminal devices, the audio signal is processed into an audio signal having a sound image position assigned to the terminal device, and a terminal device other than the selected terminal device A process of processing the audio signal into an audio signal having a predetermined sound image position when the audio signal is received from
A program for causing a computer to execute the process of outputting the processed audio signal.
前記複数の端末装置の各々から過去の所定期間内に受け取られた音声信号の持続時間の累積値を示す累積時間データを生成する処理と、
前記累積時間データに基づき、前記複数の端末装置の中から所定数の複数の端末装置を選択する処理と、
前記選択された複数の端末装置の各々に対し、互いに異なる周波数特性を割り当てる処理と、
前記選択された複数の端末装置から音声信号が受け取られたとき、当該音声信号を、当該端末装置に割り当てられた周波数特性を有する音声信号に加工するとともに、前記選択手段により選択された端末装置以外の端末装置から音声信号が受け取られたとき、当該音声信号を、所定の周波数特性を有する音声信号に加工する処理と、
前記加工された音声信号を出力する処理と
をコンピュータに実行させることを特徴とするプログラム。 Input means for receiving audio signals from a plurality of terminal devices;
Generating accumulated time data indicating accumulated values of durations of audio signals received from each of the plurality of terminal devices within a predetermined period in the past;
A process of selecting a predetermined number of terminal devices from the plurality of terminal devices based on the accumulated time data;
A process of assigning different frequency characteristics to each of the selected plurality of terminal devices;
When an audio signal is received from the selected terminal devices, the audio signal is processed into an audio signal having a frequency characteristic assigned to the terminal device, and other than the terminal device selected by the selection unit When a voice signal is received from the terminal device, a process of processing the voice signal into a voice signal having a predetermined frequency characteristic;
A program for causing a computer to execute the process of outputting the processed audio signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004371876A JP2006180251A (en) | 2004-12-22 | 2004-12-22 | Voice signal processor for enabling callers to perform simultaneous utterance, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004371876A JP2006180251A (en) | 2004-12-22 | 2004-12-22 | Voice signal processor for enabling callers to perform simultaneous utterance, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006180251A true JP2006180251A (en) | 2006-07-06 |
Family
ID=36733921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004371876A Withdrawn JP2006180251A (en) | 2004-12-22 | 2004-12-22 | Voice signal processor for enabling callers to perform simultaneous utterance, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006180251A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009004983A1 (en) * | 2007-06-29 | 2009-01-08 | Yamaha Corporation | Loudspeaker apparatus |
WO2011153905A1 (en) * | 2010-06-07 | 2011-12-15 | 华为终端有限公司 | Method and device for audio signal mixing processing |
JP2013017027A (en) * | 2011-07-04 | 2013-01-24 | Nippon Telegr & Teleph Corp <Ntt> | Acoustic image localization control system, communication server, multipoint connection unit, and acoustic image localization control method |
JP2013211764A (en) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | Audio controller, audio control method, and audio control program |
JP2014011509A (en) * | 2012-06-27 | 2014-01-20 | Sharp Corp | Voice output control device, voice output control method, program, and recording medium |
JP2015515800A (en) * | 2012-03-23 | 2015-05-28 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Narrator placement in 2D or 3D conference scenes |
KR20190048359A (en) * | 2017-10-31 | 2019-05-09 | 에스케이텔레콤 주식회사 | Spatial voice virtual reality server and apparatus |
JP2020167471A (en) * | 2019-03-28 | 2020-10-08 | キヤノン株式会社 | Information processing apparatus, information processing method and program |
-
2004
- 2004-12-22 JP JP2004371876A patent/JP2006180251A/en not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009004983A1 (en) * | 2007-06-29 | 2009-01-08 | Yamaha Corporation | Loudspeaker apparatus |
WO2011153905A1 (en) * | 2010-06-07 | 2011-12-15 | 华为终端有限公司 | Method and device for audio signal mixing processing |
EP2568702A1 (en) * | 2010-06-07 | 2013-03-13 | Huawei Device Co., Ltd. | Method and device for audio signal mixing processing |
EP2568702A4 (en) * | 2010-06-07 | 2013-05-15 | Huawei Device Co Ltd | Method and device for audio signal mixing processing |
JP2013017027A (en) * | 2011-07-04 | 2013-01-24 | Nippon Telegr & Teleph Corp <Ntt> | Acoustic image localization control system, communication server, multipoint connection unit, and acoustic image localization control method |
US9749473B2 (en) | 2012-03-23 | 2017-08-29 | Dolby Laboratories Licensing Corporation | Placement of talkers in 2D or 3D conference scene |
JP2015515800A (en) * | 2012-03-23 | 2015-05-28 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Narrator placement in 2D or 3D conference scenes |
JP2013211764A (en) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | Audio controller, audio control method, and audio control program |
JP2014011509A (en) * | 2012-06-27 | 2014-01-20 | Sharp Corp | Voice output control device, voice output control method, program, and recording medium |
KR20190048359A (en) * | 2017-10-31 | 2019-05-09 | 에스케이텔레콤 주식회사 | Spatial voice virtual reality server and apparatus |
KR102331229B1 (en) * | 2017-10-31 | 2021-11-25 | 에스케이텔레콤 주식회사 | Spatial voice virtual reality server and apparatus |
JP2020167471A (en) * | 2019-03-28 | 2020-10-08 | キヤノン株式会社 | Information processing apparatus, information processing method and program |
JP7321736B2 (en) | 2019-03-28 | 2023-08-07 | キヤノン株式会社 | Information processing device, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11386912B1 (en) | Method and computer program product for allowing a plurality of musicians who are in physically separate locations to create a single musical performance using a teleconferencing platform provided by a host server | |
US20050271194A1 (en) | Conference phone and network client | |
JP4255461B2 (en) | Stereo microphone processing for conference calls | |
US7612793B2 (en) | Spatially correlated audio in multipoint videoconferencing | |
US20080273683A1 (en) | Device method and system for teleconferencing | |
WO2005125271A1 (en) | In-ear monitoring system and method with bidirectional channel | |
JP2003500935A (en) | Teleconferencing Bridge with Edge Point Mixing | |
US11521636B1 (en) | Method and apparatus for using a test audio pattern to generate an audio signal transform for use in performing acoustic echo cancellation | |
JP2006203548A (en) | Voice signal processor for processing voice signals of a plurality of speakers, and program | |
JP2006180251A (en) | Voice signal processor for enabling callers to perform simultaneous utterance, and program | |
JP2006254064A (en) | Remote conference system, sound image position allocating method, and sound quality setting method | |
JP2008159034A (en) | Server and voice signal collection/distribution method | |
US6937718B2 (en) | Method and apparatus for personalized conference and hands-free telephony using audio beaming | |
JP2006279492A (en) | Interactive teleconference system | |
JP2009118316A (en) | Voice communication device | |
CN110891216A (en) | Earphone device | |
JP3898673B2 (en) | Audio communication system, method and program, and audio reproduction apparatus | |
CN110856068B (en) | Communication method of earphone device | |
JP4548147B2 (en) | Audio conferencing system and processing unit for speaker identification | |
CN116057928A (en) | Information processing device, information processing terminal, information processing method, and program | |
JP6392161B2 (en) | Audio conference system, audio conference apparatus, method and program thereof | |
JP2004274147A (en) | Sound field fixed multi-point talking system | |
JP2004072354A (en) | Audio teleconference system | |
JP4768578B2 (en) | Video conference system and control method in video conference system | |
JP2023107364A (en) | Communication device and communication method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071023 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090128 |