JP4582238B2 - 音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム - Google Patents

音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム Download PDF

Info

Publication number
JP4582238B2
JP4582238B2 JP2008532145A JP2008532145A JP4582238B2 JP 4582238 B2 JP4582238 B2 JP 4582238B2 JP 2008532145 A JP2008532145 A JP 2008532145A JP 2008532145 A JP2008532145 A JP 2008532145A JP 4582238 B2 JP4582238 B2 JP 4582238B2
Authority
JP
Japan
Prior art keywords
audio
information
encoding
voice
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008532145A
Other languages
English (en)
Other versions
JPWO2008026754A1 (ja
Inventor
伊藤  博紀
一範 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2008026754A1 publication Critical patent/JPWO2008026754A1/ja
Application granted granted Critical
Publication of JP4582238B2 publication Critical patent/JP4582238B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラムに関し、特に全参加者の音声をミキシングし、ミキシングした音声から一参加者の音声を減算してその一参加者へ送信する音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラムに関する。
多地点会議サービスでは、音声符号化器により符号化された各参加者の音声データが多地点会議サーバに送信される。多地点会議サーバは、各参加者に、当該参加者以外の参加者の全ての音声をミキシングした音声データを送信する。
音声データをミキシングする際、まず、各参加者の音声データを復号して得た復号音声信号を全て加算することで全参加者の音声信号を算出する。次に、各参加者に対して、全参加者の音声信号から自分の音声を減算した音声信号を算出し、その音声信号を符号化して生成した音声データを送信する。
多地点会議サービスにおける端末とサーバ間の通信プロトコルとして、一例として、回線交換網ではITU−T H.323、H.324が用いられ、モバイル網では3G−324Mが用いられ、IP(Internet Protocol)に基づくパケット網では、IETF RFC3550 RTP(Real−time Transport Protocol)が用いられる。
また、音声符号化器としては、ITU−T勧告であるG.711やG.729,3GPP TS26.090で規定されているAMR(Adaptive Multi−Rate)方式、TS26.190で規定されているAMR−WB(Wide Band)方式や、3GPP2で規定されているEVRC(Enhanced Variable Rate Codec)方式などが用いられる。
G.711方式では、8kHzでサンプリングされた音声信号における16ビットの各サンプルを対数変換を用いて8ビットに圧縮する方式であり、演算量は少ないが圧縮率は低い。
一方、G.729方式、AMR方式、EVRC方式は、CELP(Code Excited Linear Prediction)原理による予測符号化方式に基づいており、音声信号をより高能率に符号化することが可能である。
CELPでは、符号化器において、フレーム毎(例えば20ms)に音声信号から線形予測(LPC:Linear Predictive Coding)分析を用いて、音声信号のスペクトル特性を表すスペクトルパラメータを抽出する。
さらにフレーム分割した音声信号をサブフレーム(例えば5ms)に分割し、サブフレーム毎に過去の音源信号を基に適応コードブックにおけるパラメータ(ピッチ周期に対応する遅延パラメータとゲインパラメータ)を抽出し、適応コードブックにより該当のサブフレームの音声信号をピッチ予測する。ピッチ予測によって求めた残差信号に対して、予め定められた種類の雑音信号からなる音源コードブック(ベクトル量子化コードブック)から最適な音源コードベクトルを選択し、最適なゲインを計算することにより、音源信号を量子化する。
音源コードベクトルの選択の仕方は、選択した雑音信号により合成した信号と、前述の残差信号との誤差電力を最小化するように行う。そして、選択されたコードベクトルの種類を表すインデックス、ゲイン、スペクトルパラメータ、および適応コードブックのパラメータとを組み合わせたものを音声データとして伝送する。
復号器側では、音声データから得られるパラメータから音源信号と線形予測分析における合成フィルタ係数を算出し、音源信号を合成フイルタで駆動することにより、復号音声信号を得ることができる。
一方、全てのサンプルについて比較選択処理を行わないで、複数サンプルに1回の大小関係の比較選択処理の結果に基づいて、その選択された音声データのサンプルに続く複数サンプルを選択処理する音声ミキシング方法が開示されている(特許文献1参照)。
また、ミキシング部において一旦総和信号を生成し、その総和信号からそれぞれ、自己の音声情報(自己が送り出した音声情報)を引算し、自己以外の音声情報が自己に返送されるように構成した音声ミキシング方法が開示されている(特許文献2参照)。
また、音声合成部が各異種符号化・復号化部にて線形のデータに変換された音声データをそれぞれ加算し、その後、加算された音声データから自分の音声を差し引いた音声データを生成し、それを対応する異種符号化・復号化部のそれぞれに渡す通信制御装置が開示されている(特許文献3参照)。
特開2005−151044号公報(段落0014,0016および0045) 特開2005−229259号公報(段落0003および図1) 特開平6−350724号公報(段落0020および図2)
関連技術における多地点会議システムでは、各参加者に、当該参加者以外の参加者の音声を全てミキシングした音声を符号化して送信する。この時、参加者の増加に伴って音声符号化による演算量が増大するため、発声している話者を検出して、ミキシングする音声の数を限定し、動作させる音声符号化器の数を削減する方法が用いられる。
ここで、CELP方式等のような予測符号化を行う音声符号化器を用いる場合、話者の切替わり時に合わせて符号化器を切替える際、符号化器の状態を示すメモリに不整合が生じるために、復号音声に異音が発生するという課題がある。
一方、上記特許文献1〜3にこの課題を解決する手段は開示されていない。
本発明の目的は、話者の切替わり時に合わせて符号化器を切替える際、復号音声に異音が発生するのを防止することが可能な音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラムを提供することにある。
本発明の第1の音声ミキシング方法は、複数の音声情報をミキシングする音声ミキシング方法であって、複数の音声情報から音声情報を選択する第1ステップ、選択した音声情報を全て加算する第2ステップ、選択した音声信号のうち1の音声信号以外の音声信号を加算した音声信号を得る第3ステップ、第2ステップで得られた音声情報を符号化する第4ステップ、第3ステップで得られた音声信号を符号化する第5ステップ、第4ステップによって得られた符号化情報を第5ステップにおける符号化情報にコピーする第6ステップとを含む。
本発明の第2の複数の音声情報をミキシングする多地点会議サーバは、複数の音声情報から音声情報を選択する選択手段と、選択手段にて選択した音声情報を全て加算する全信号加算手段と、選択した音声信号のうち1の音声信号以外の音声信号を加算した音声信号を得る加算手段と、全信号加算手段にて加算した音声情報を符号化する第1の符号化手段と、加算手段にて得た音声情報を符号化する第2の符号化手段と、第1の符号化手段にて得られた符号化情報を第2の符号化手段にコピーする切替手段を含む。
本発明の第3の複数の音声情報をミキシングする音声ミキシングを実行するプログラムは、コンピュータに、複数の音声情報から音声情報を選択する第1ステップ、選択した音声情報を全て加算する第2ステップ、選択した音声信号のうち1の音声信号以外の音声信号を加算した音声信号を得る第3ステップ、第2ステップで得られた加算した音声情報を符号化する第4ステップ、第3のステップで得られた音声信号を符号化する第5ステップ、第4ステップによって得られた符号化情報を第5ステップにおける符号化情報にコピーする第6ステップを実行させる。
発明の効果
本発明によれば、符号化におけるメモリ内容に不整合が生じないことから、話者の切替わり時に合わせて符号化器を切替える際、復号音声に異音が発生するのを防止することが可能となる。
図1は、本発明の第1の実施例による多地点会議サーバの構成を示すブロック図である。
図2は、本発明の第1の実施例による多地点会議サーバの動作手順を示すフローチャートである。
図3は、本発明の第1の実施例による多地点会議サーバの構成を示すブロック図である。
以下、本発明の実施例について添付図面を参照しながら説明する。
(第1の実施例)
図1は本発明の第1の実施例による多地点会議サーバの構成図である。本発明の第1の実施例による多地点会議サーバは、音声入力端子(または入力音声信号)100,110、・・・、190と、パワー計算部101,111、・・・、191と、話者選択部200と、音声信号入力切替器102,112、・・・192と、全信号加算器300と、加算器103,113、・・・、193と、音声符号化部104,114、・・・、194と、メモリ切替器105,115、・・・、195と、共通音声符号化部400と、音声データ切替器106,116、・・・、196と、話者宛音声出力端子(または話者宛音声出力)107,117、・・・、197とを含んで構成される。
音声入力端子100,110、・・・、190の各々は、話者1、話者2、・・・、話者Mに対応している。パワー計算部101,111、・・・、191と、音声信号入力切替器102,112、・・・192と、加算器103,113、・・・、193と、音声符号化部104,114、・・・、194と、メモリ切替器105,115、・・・、195と、音声データ切替器106,116、・・・、196と、話者宛音声出力端子107,117、・・・、197とについても同様である。
次に、図1および図2を参照して第1の実施例の動作について説明する。図2は本発明の第1の実施例による多地点会議サーバの動作手順を示すフローチャートである。以降、話者1、話者2、および話者Mに対する処理ブロックのみが記載されているが、記載されていない話者に対しても処理は同じである。
パワー計算部101、パワー計算部111、およびパワー計算部191は、それぞれ話者1、話者2、および話者Mの入力音声信号100、入力音声信号110、および入力音声信号190に対するパワーを算出して出力する(図2のステップS1)。
話者選択部200は、計算されたそれぞれの話者のパワーを用いて音声を発声している話者を選択し、選択結果を出力する(図2のステップS2)。
音声信号入力切替器102、音声信号入力切替器112、および音声信号入力切替器192は、話者選択部200の選択結果に基いて、それぞれの話者の入力音声信号を出力するか否かの切替えを行う(図2のステップS3)。
全信号加算器300は、話者選択部200で選択された話者に対する音声を全て加算した音声信号を出力する(図2のステップS4)。
加算器103、加算器113、および加算器193は、全信号加算器300から出力された音声信号から選択された話者自身の音声信号を減算した音声信号を出力する(図2のステップS5)。
すなわち、全信号加算器300から出力された音声信号から、選択された話者のうち、各音声符号化器104、114、194にそれぞれ対応する話者の音声情報を減算して音声情報を出力する。
共通音声符号化部400は、全信号加算器300から出力された音声信号を符号化する(図2のステップS6)。
音声符号化部104、音声符号化部114、音声符号化部194は、加算器103、加算器113、および加算器193から出力された音声信号を符号化する(図2のステップS7)。
メモリ切替器105、メモリ切替器115、メモリ切替器195は、話者選択部200の選択結果に基いて、共通音声符号化部400の予測符号化におけるメモリの内容をそれぞれ音声符号化部104、音声符号化部114、音声符号化部194にコピーする(図2のステップS8)。
すなわち、共通音声符号化部400のメモリに格納されている予測符号化の結果である符号化情報を音声符号化部104、音声符号化部114、音声符号化部194のメモリにそれぞれコピーする。これにより、音声符号化部104、音声符号化部114、音声符号化部194のメモリ状態を、共通音声符号化部400のメモリの状態と同じにする。
音声データ切替器106、音声データ切替器116、音声データ切替器196は、話者選択部200の選択結果に基いて、出力する音声データの切替えを行う(図2のステップS9)。
すなわち、一例として、話者1が選択され、話者2と話者Mとが選択されなかったとすると、話者1の音声入力信号切替器102はオン、話者2の音声入力信号切替器112および話者Mの音声入力信号切替器192はオフとなり、話者1のメモリ切替器105はオン、話者2および話者Mのメモリ切替器195はオフとなり、話者1の音声データ切替器106は話者1側、話者2の音声データ切替器116および話者Mの音声データ切替器196は共通音声符号化部400側となる。
そして、話者1の音声信号は音声信号入力切替器102を介して全信号加算器300にて加算され、共通音声符号化部400へ入力される。
また、全信号加算器300にて加算された話者1の音声信号から話者1の音声信号が加算器103にて減算され、その結果信号が音声符号化部104に入力される。そして、音声符号化部104の出力信号は音声データ切替器106を介して話者1へ送信される。
一方、選択されなかった話者2および話者Mに対しては、共通音声符号化部400に入力された音声信号が音声データ切替器116および196を介して送信される。
本発明の第1の実施例の特徴は、一例として、話者1が選択されない場合から選択された場合に移った瞬間に、共通音声符号化部400に保存された情報をメモリ切替器105を介して音声符号化部104へコピーし、あるいは話者2が選択されない場合から選択された場合に移った瞬間に、共通音声符号化部400に保存された情報をメモリ切替器115を介して音声符号化部114へコピーすることにある。
これにより、話者の切替わり時に合わせて音声符号化部を切替える際、音声符号化部の状態を示すメモリに不整合が生じることに起因して復号音声に異音が発生するのを防止することが可能となる。
なお、第1の実施例では、加算器103、加算器113、および加算器193が、全信号加算器300から出力された音声信号から選択された話者自身の音声信号を減算した音声信号を出力する構成としたが、選択された音声信号のうち、選択された一人の話者以外の音声信号を加算して出力する構成としても同じ結果が得られる。
(具体例)
以下、上述した実施例の具体的な例について、図1を参照しながら説明する。まず、パワー計算部101、パワー計算部112、およびパワー計算部192は、入力された入力音声信号100、入力音声信号110、および入力音声信号190それぞれの音声信号のパワーを計算し、計算したパワーを話者選択部200に出力する。
例えば、8kHzサンプリングの入力音声信号s(n)に対して、20ミリ秒(160サンプル)毎に、以下の式(1)を用いてパワーPを計算する。
Figure 0004582238
ここで、一例として、L=160である。
話者選択部200は、入力されたそれぞれの話者のパワーを用いて、発声している話者を選択し、選択したか否かをそれぞれ音声信号入力切替器102、音声信号入力切替器112、音声信号入力切替器192、メモリ切替器105、メモリ切替器115、メモリ切替器195、音声データ切替器106、音声データ切替器116、および音声データ切替器196に出力する。
ここで、発声している話者の選択方法として、パワーが大きい順に予め定めた上位N人(N<MかつN,Mは正の整数)の話者を選択する方法や、予め定めた閾値を超えるパワーの話者を選択する方法がある。また、入力されたパワーをそのまま利用するのではなく、リーク積分などにより平滑化した値を用いる方法も考えられる。
リーク積分は、入力をx(n)、出力をy(n)とすると、
y(n)=k×y(n−1)+x(n)で表される。ここに、0<k<1であり、kは定数である。
音声信号入力切替器102、音声信号入力切替器112、および音声信号入力切替器192は、話者選択部200で選択された話者に対する入力音声信号100、入力音声信号110、および入力音声信号190をそれぞれ対応する加算器103、加算器113、および加算器193に出力するとともに、全信号加算器300へ出力する。
全信号加算器300は、入力された音声信号を全て加算した音声信号を加算器103、加算器113、加算器193、および共通音声符号化部400へ出力する。
加算器103、加算器113、および加算器193は、話者選択部200で選択された話者に対して、全信号加算器300から入力された音声信号からそれぞれ音声信号入力切替器102、音声信号入力切替器112、および音声信号入力切替器192から出力された音声信号を減算した音声信号をそれぞれ音声符号化部104、音声符号化部114、音声符号化部194に出力する。
ミキシング後の音声において、各話者の音量差が小さくなるように以下の式(2)で示す調整ゲインGiを各話者iの入力音声信号に乗算してもよい。
Figure 0004582238
ここで、Piは式(1)により計算した話者iに対するパワー、Nはミキシングした信号数である。このGiは各話者のパワーに反比例するように計算されるが、パワーPiの計算周期である、一例として、20ミリ秒毎に更新すると変化が大きい過ぎるため、更に以下の式(3)で示す平滑化を行ってもよい。
G_i=(1−α)×G_i+α×G’_i 式(3)
ここで、G’iは前に算出された調整ゲインを示す。αの値としては例えば0.9を用いる。また、極端に音量を調整することを避けるため、例えばGiの取り得る範囲を0.5〜2程度に制限してもよい。
更に、ミキシング後の音声信号の音量を調整するために、以下の式(4)で示す調整ゲインGaをミキシング後の音声信号に乗算してもよい。
G_a=P_out/P_a 式(4)
ここで、Paは式(1)により計算したミキシング後の音声信号のパワーであり、Poutは調整時の目標値とするパワーであり、ミキシングした話者の音声信号の中で最も大きい話者の値を用いたり、予め定めた所定レベルの値を用いることもできる。また、前述のGiと同様の平滑化及び取り得る値の制限を行ってもよい。
共通音声符号化部400は、全信号加算器300から入力された音声信号を符号化し、符号化した音声データを音声データ切替器106、音声データ切替器116、音声データ切替器196に出力する。
音声符号化部104、音声符号化部114、音声符号化部194は、加算器103、加算器113、および加算器193から音声信号が入力された場合、その音声信号を符号化し、符号化した音声データを音声データ切替器106、音声データ切替器116、音声データ切替196に出力する。
メモリ切替器105、メモリ切替器115、メモリ切替器195は、話者選択部200において発声した話者として選択されてない状態から選択された状態に遷移した場合に、共通音声符号化部400の予測符号化におけるメモリをそれぞれ音声符号化部104、音声符号化部114、音声符号化部194に出力する。
このメモリ切替器の処理により、例えば話者1において、出力音声データが共通音声符号化部400からの出力から音声符号化部104からの出力に切替わる際に予測符号化におけるメモリに不整合が生じることはない。
逆に、出力音声データが音声符号化部104からの出力から共通音声符号化部400からの出力に切替わる際、共通音声符号化部400のメモリを書き換えることはできないので、メモリの不整合が生じる。
ただし、この場合は、話者1の音量が小さくなる時であり、音声符号化部104の入力音声と共通音声符号化部400への入力音声がほぼ同じとなるため、両者のメモリの不整合による音質劣化は少ない。この場合に、メモリの不整合をより小さくするには、共通音声符号化部400への入力音声信号と同じ音声信号を音声符号化部104に入力してしばらく動作させた後、音声データ切替器1を共通音声符号化部400から出力される音声データに切替えればよい。同じ入力音声信号で動作させる時間が長い程、メモリの不整合は小さくなるが、切替えに要する遅延が生じる。
音声データ切替器106、音声データ切替器116、音声データ切替器196は、話者選択部200において発声した話者として選択された場合、音声符号化部104、音声符号化部114、音声符号化部194から入力された音声データを出力し、話者選択部200において発声した話者として選択されなかった場合、共通音声符号化部400から入力された音声データを出力する。
本実施例では、音声符号化器が全て同じ場合を想定しているが、複数の種類の音声符号化器、又はビットレートを混在させることも可能である。この場合、共通符号化部は、符号化器の種類、又はビットレートの種類の数だけ必要である。また、メモリの切り替えは同じ種類の符号化器、又はビットレートに対して行う必要がある。
以上説明したように、本発明の具体例によれば、例えば話者1において、出力音声データが共通音声符号化部400からの出力から音声符号化部104からの出力に切替わる際に予測符号化におけるメモリに不整合が生じないという効果を奏する。
(第2の実施例)
次に、図3を参照して本発明の第2の実施例について説明する。図3は本発明の第2の実施例による多地点会議サーバの構成図である。なお、図1と同様の構成部分には同一番号を付し、その説明を省略する。
音声復号部501、音声復号部511、音声復号部591は、それぞれ符号化された入力音声データ500、入力音声データ510、および入力音声データ590を復号し、復号音声をそれぞれパワー計算部101、パワー計算部102、パワー計算部192、および音声信号入力切替器102、音声信号入力切替器112、および音声信号入力切替器192に出力する。
音声データ解析部502、音声データ解析部512、音声データ解析部592は、入力音声データ500、入力音声データ510、および入力音声データ590が有音か無音であるかを解析した結果を出力する。
この解析方法として、AMR音声符号化方式の例で説明する。AMR音声符号化方式では、入力音声に対してVAD(Voice Activity Detection)を行って有音か無音を判別し、無音と判別した場合には、フレームタイプがNO_DATAである情報を伝送するか、或いはSID(Silence Indication)として背景雑音の情報を送信することが可能である。
そこで、音声データの先頭にあるフレームタイプがNO_DATAまたはSIDであれば、無音であると判別できる。また、VADを行わず全て有音の音声データとして符号化された場合は、音声データに含まれるゲインパラメータやスペクトルパラメータに基づいて推定した音量を話者選択部201に出力する方法も考えられる。
パワー計算部101、パワー計算部111、およびパワー計算部191は、それぞれ音声復号部501、音声復号部511、音声復号部591から入力された復号信号のパワーを計算し、その値を話者選択部201に入力する。
話者選択部201は、音声データ解析部502、音声データ解析部512、音声データ解析部592の解析結果、およびパワー計算部101、パワー計算部111、およびパワー計算部192から入力されたパワーに基いて、音声を発声している話者を選択し、選択結果を出力する。
具体的には、音声データ解析部502、音声データ解析部512、音声データ解析部592から入力された解析結果が、有音又は推定された音量がある閾値以上の値である場合に、パワー計算部101、パワー計算部111、およびパワー計算部191から入力されたパワーが大きい順に予め定めた上位N人(N<M)の話者を選択する方法や、予め定めた閾値を超えるパワーの話者を選択する方法がある。
以上説明したように、本発明の第2実施例によれば、話者選択の基準に有音および無音の判別を付加することにより、第1実施例の場合よりも良好な選択結果を得ることが可能となる。
(第3の実施例)
第3実施例は音声ミキシング方法をコンピュータに実行させるためのプログラムに関するものである。図1を参照すると、多地点会議サーバに含まれるパワー計算部101,111、・・・、191と、話者選択部200と、音声信号入力切替器102,112、・・・192と、全信号加算器300と、加算器103,113、・・・、193と、音声符号化部104,114、・・・、194と、メモリ切替器105,115、・・・、195と、共通音声符号化部400と、音声データ切替器106,116、・・・、196は、図示しない制御部により制御される。
また、多地点会議サーバは図示しない記憶部をさらに含んでおり、その記憶部には図2にフローチャートで示す音声ミキシング方法の処理手順のプログラムが格納されている。
制御部(あるいは、コンピュータ)は、記憶部から上記プログラムを読み出し、そのプログラムにしたがって上記各構成部分を制御する。その制御内容については既に述べたのでここでの説明は省略する。
以上説明したように、本発明の第3実施例によれば、例えば話者1において、出力音声データが共通音声符号化部400からの出力から音声符号化部104からの出力に切替わる際に予測符号化におけるメモリに不整合を生じさせないためのプログラムが得られる。
また、その他の実施例として以下に示すものがある。
携帯電話等では帯域が狭いため、予測符号化技術を用いて高効率に音声を圧縮する必要がある。一方、携帯電話を用いて多地点会議システムを構成する場合、各携帯電話のプロセッサの能力は限られているため、各携帯電話でミキシングを行うことは現実的ではなく、各携帯電話とは別に多地点会議サーバが必要である。本発明の実施例はこのような場合にも有用である。
また、多地点会議システムとして以下のようなパターンが考えられる。第1に、複数の会議室に一人ずつ存在するパターンである。第2に、複数の会議室に複数人ずつ(さらに、各会議室にマイク、スピーカのペアが複数ペアずつ存在するパターンと、各会議室にマイク、スピーカのペアが1ペアずつ存在するパターンとの2つがある)存在するパターンである。本発明の実施例はこのような場合にも有用である。
本発明の実施例によれば、符号化におけるメモリ内容に不整合が生じないことから、話者の切替わり時に合わせて符号化器を切替える際、復号音声に異音が発生するのを防止することが可能となる。
以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態の構成や動作に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で問う業者が理解し得る様々な変更をすることができる。
この出願は、2006年8月30日に出願された日本出願特願2006−232919号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (20)

  1. 複数の音声情報をミキシングする多地点会議サーバによる音声ミキシング方法であって、
    複数の音声情報から音声情報を選択する第1ステップ、
    選択した音声情報を全て加算する第2ステップ、
    前記選択した音声情報のうち1の音声情報以外の音声情報を加算した音声情報を得る第3ステップ、
    第2ステップで得られた音声情報を符号化する第4ステップ、
    第3ステップで得られた音声情報を符号化する第5ステップ、
    前記第4ステップによって得られた符号化情報を前記第5ステップにおける符号化情報にコピーする第6ステップ
    とを含むことを特徴とする音声ミキシング方法。
  2. 前記第6ステップにおいて、前記第4ステップによる符号化を実行する符号化部のメモリに格納された符号化情報を、前記第5ステップによる符号化を実行する符号化部にコピーすることを特徴とする請求項1に記載の音声ミキシング方法。
  3. 前記第1ステップにおける選択結果に基づいて、前記第4ステップによって得られた符号化情報又は前記第5ステップによって得られた符号化情報を切り替えて出力する第7ステップを含むことを特徴とする請求項1又は請求項2に記載の音声ミキシング方法。
  4. 入力した符号化された音声情報を復号し、当該復号した音声情報を前記第1ステップにおける音声情報として用いることを特徴とする請求項1から請求項3の何れかに記載の音声ミキシング方法。
  5. 前記第1ステップにおいて、前記音声情報の音声信号のパワーに基づいて音声情報を選択することを特徴とする請求項1から請求項4の何れかに記載の音声ミキシング方法。
  6. 前記第1ステップにおいて、前記音声情報の音声データが有音か無音かに基づいて音声情報を選択することを特徴とする請求項1から請求項5の何れかに記載の音声ミキシング方法。
  7. 前記第3ステップにおいて、前記選択した音声信号のうち1の音声信号以外の音声信号を加算した音声信号を、前記加算した音声情報から選択した前記音声情報を1つずつ減算することにより得ることを特徴とする請求項1から請求項6の何れかに記載の音声ミキシング方法。
  8. 前記音声情報が、音声を符号化した符号化データであり、
    前記第1のステップが、入力した複数の符号化データを分析し、ミキシング対象とする符号化データを選択し、選択した符号化データを復号して復号音声信号を生成するステップを含むことを特徴とする請求項1から請求項7の何れかに記載の音声ミキシング方法。
  9. 前記音声情報が、音声を符号化した符号化データであり、
    前記第1ステップで、前記符号化データと前記符号化データを復号して得た復号音声信号とを分析して、ミキシング対象とする復号音声信号を選択することを特徴とする請求項1から請求項7の何れかに記載の音声ミキシング方法。
  10. 前記第2ステップで、前記復号音声信号を全て加算した音声信号を生成し、
    前記第3ステップで、前記復号音声信号のうち1の復号音声信号以外の音声信号を加算した音声信号を生成し、
    前記第4ステップで、第2ステップで得た音声信号を第1の符号化部によって予測符号化し、
    前記第5ステップで、第3ステップで生成した音声信号を第2の符号化部によって予測符号化し、
    前記第6ステップで、前記ミキシング対象とする復号音声信号の選択結果が変更された場合、前記第5ステップの第2の符号化部の状態を示すメモリ内容を、前記第4ステップの第1の符号化部の状態を示すメモリ内容と同じにすることを特徴とする請求項8又は請求項9に記載の音声ミキシング方法。
  11. 各ミキシング対象の音声信号の音量差が小さくなるように調整するステップを含むことを特徴とする請求項1から請求項10の何れかに記載の音声ミキシング方法。
  12. ミキシングした後の音声の音量が、各ミキシング対象の音声信号における最大音量の音声と同等、または予め定めたレベルになるように調整するステップを含むことを特徴とする請求項1から請求項10の何れかに記載の音声ミキシング方法。
  13. 複数の音声情報をミキシングする多地点会議サーバであって、
    前記複数の音声情報から音声情報を選択する選択手段と、
    前記選択手段にて選択した音声情報を全て加算する全信号加算手段と、
    前記選択した音声信号のうち1の音声信号以外の音声信号を加算した音声信号を得る加算手段と、
    前記全信号加算手段にて加算した音声情報を符号化する第1の符号化手段と、
    前記加算手段にて加算した音声情報を符号化する第2の符号化手段と、
    前記第1の符号化手段にて得られた符号化情報を前記第2の符号化手段にコピーする切替手段
    とを含むことを特徴とする多地点会議サーバ。
  14. 前記切替手段は、前記選択手段の選択結果に基づいて、前記第1の符号化手段のメモリに格納された符号化情報を、前記第2の符号化手段にコピーすることを特徴とする請求項13に記載の多地点会議サーバ。
  15. 前記選択手段における選択結果に基づいて、前記第1の符号化手段にて得られた符号化情報又は前記第2の符号化手段にて得られた符号化情報を切り替えて出力する出力切替手段を含むことを特徴とする請求項13又は請求項14に記載の多地点会議サーバ。
  16. 入力した複数の符号化された音声情報を復号する複合手段を含み、
    前記選択手段は、前記復号手段によって復号された複数の音声情報から音声情報を選択することを特徴とする請求項13から請求項15の何れかに記載の多地点会議サーバ。
  17. 前記選択手段は、前記音声情報の音声信号のパワーに基づいて音声情報を選択することを特徴とする請求項13から請求項16の何れかに記載の多地点会議サーバ。
  18. 前記選択手段は、前記音声情報の音声データが有音か無音かに基づいて音声情報が選択されることを特徴とする請求項13から請求項17の何れかに記載の多地点会議サーバ。
  19. 前記加算手段は、前記全信号加算手段にて加算した音声情報から選択した前記音声情報を1つずつ減算することにより、前記選択した音声信号のうち1の音声信号以外の音声信号を加算した音声信号を得ることを特徴とする請求項13から請求項18の何れかに記載の多地点会議サーバ。
  20. 複数の音声情報をミキシングする音声ミキシングを実行するプログラムであって、
    コンピュータに、
    複数の音声情報から音声情報を選択する第1ステップ、
    選択した音声情報を全て加算する第2ステップ、
    前記加算した音声情報から選択した前記音声情報を1つずつ減算する第3ステップ、
    第2ステップで得られた音声情報を符号化する第4ステップ、
    第3ステップで得られた音声情報を符号化する第5ステップ、
    前記第4ステップによって得られた符号化情報を前記第5ステップにおける符号化情報にコピーする第6ステップを実行させることを特徴とするプログラム。
JP2008532145A 2006-08-30 2007-08-28 音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム Expired - Fee Related JP4582238B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006232919 2006-08-30
JP2006232919 2006-08-30
PCT/JP2007/067101 WO2008026754A1 (fr) 2006-08-30 2007-08-28 Procédé de mixage vocal, serveur de conférence multipoint utilisant le procédé et programme

Publications (2)

Publication Number Publication Date
JPWO2008026754A1 JPWO2008026754A1 (ja) 2010-01-21
JP4582238B2 true JP4582238B2 (ja) 2010-11-17

Family

ID=39136033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008532145A Expired - Fee Related JP4582238B2 (ja) 2006-08-30 2007-08-28 音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム

Country Status (10)

Country Link
US (1) US8255206B2 (ja)
EP (1) EP2068544A4 (ja)
JP (1) JP4582238B2 (ja)
KR (1) KR101036965B1 (ja)
CN (1) CN101513030A (ja)
BR (1) BRPI0714736A2 (ja)
CA (1) CA2660007A1 (ja)
MX (1) MX2009002093A (ja)
RU (1) RU2009111270A (ja)
WO (1) WO2008026754A1 (ja)

Families Citing this family (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
JP2010166424A (ja) * 2009-01-16 2010-07-29 Nec Corp 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法
JP2010166425A (ja) * 2009-01-16 2010-07-29 Nec Corp 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法
WO2010090019A1 (ja) * 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9025497B2 (en) * 2009-07-10 2015-05-05 Qualcomm Incorporated Media forwarding for a group communication session in a wireless communications system
US9088630B2 (en) * 2009-07-13 2015-07-21 Qualcomm Incorporated Selectively mixing media during a group communication session within a wireless communications system
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8873774B2 (en) * 2010-07-30 2014-10-28 Hewlett-Packard Development Company, L.P. Audio mixer
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8924206B2 (en) * 2011-11-04 2014-12-30 Htc Corporation Electrical apparatus and voice signals receiving method thereof
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
CN103327014B (zh) * 2013-06-06 2015-08-19 腾讯科技(深圳)有限公司 一种语音处理方法、装置及系统
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US20150092615A1 (en) * 2013-10-02 2015-04-02 David Paul Frankel Teleconference system with overlay aufio method associate thereto
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6224850B2 (ja) 2014-02-28 2017-11-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 会議における変化盲を使った知覚的連続性
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
JP5802956B1 (ja) * 2015-03-16 2015-11-04 株式会社アクセル 音声合成装置、音声合成方法
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
BR112021019785A2 (pt) 2019-04-03 2021-12-07 Dolby Laboratories Licensing Corp Servidor de mídia para cenas de voz escalonáveis
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0685932A (ja) * 1992-09-07 1994-03-25 Tech Res & Dev Inst Of Japan Def Agency 音声ブリッジ装置
JPH06169349A (ja) * 1992-11-30 1994-06-14 Hitachi Ltd N−1加算方式
JP2005229259A (ja) * 2004-02-12 2005-08-25 Nippon Telegr & Teleph Corp <Ntt> 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4456789A (en) * 1978-03-07 1984-06-26 The Post Office Audio teleconferencing
US5150410A (en) * 1991-04-11 1992-09-22 Itt Corporation Secure digital conferencing system
JP3300471B2 (ja) 1993-06-08 2002-07-08 三菱電機株式会社 通信制御装置
JPH1075310A (ja) * 1996-08-29 1998-03-17 Nec Corp 多地点テレビ会議システム
US6125343A (en) * 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6697476B1 (en) * 1999-03-22 2004-02-24 Octave Communications, Inc. Audio conference platform system and method for broadcasting a real-time audio conference over the internet
GB9915312D0 (en) * 1999-06-30 1999-09-01 Nortel Networks Corp Conference circuit for encoded digital audio
US6940826B1 (en) * 1999-12-30 2005-09-06 Nortel Networks Limited Apparatus and method for packet-based media communications
US6683858B1 (en) * 2000-06-28 2004-01-27 Paltalk Holdings, Inc. Hybrid server architecture for mixing and non-mixing client conferencing
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US6804340B2 (en) * 2001-05-03 2004-10-12 Raytheon Company Teleconferencing system
US20030223562A1 (en) * 2002-05-29 2003-12-04 Chenglin Cui Facilitating conference calls by dynamically determining information streams to be received by a mixing unit
US20040190701A1 (en) * 2003-03-28 2004-09-30 Versatel Networks Inc. Apparatus and method for a distributed conference bridge
JP2005151044A (ja) 2003-11-13 2005-06-09 Japan Science & Technology Agency 音声ミキシング方法、音声ミキシングシステム及び音声ミキシングのためのプログラム
JP2006232919A (ja) 2005-02-23 2006-09-07 Fuji Photo Film Co Ltd コアシェル粒子の製造方法
US7599834B2 (en) * 2005-11-29 2009-10-06 Dilithium Netowkrs, Inc. Method and apparatus of voice mixing for conferencing amongst diverse networks
ES2380059T3 (es) * 2006-07-07 2012-05-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente
CN101502089B (zh) * 2006-07-28 2013-07-03 西门子企业通讯有限责任两合公司 进行音频会议的方法、音频会议装置和编码器之间的切换方法
WO2008011901A1 (de) * 2006-07-28 2008-01-31 Siemens Aktiengesellschaft Verfahren zum durchführen einer sprachkonferenz und sprachkonferenzsystem

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0685932A (ja) * 1992-09-07 1994-03-25 Tech Res & Dev Inst Of Japan Def Agency 音声ブリッジ装置
JPH06169349A (ja) * 1992-11-30 1994-06-14 Hitachi Ltd N−1加算方式
JP2005229259A (ja) * 2004-02-12 2005-08-25 Nippon Telegr & Teleph Corp <Ntt> 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Also Published As

Publication number Publication date
KR20090035728A (ko) 2009-04-10
US8255206B2 (en) 2012-08-28
MX2009002093A (es) 2009-03-10
US20090248402A1 (en) 2009-10-01
RU2009111270A (ru) 2010-10-10
JPWO2008026754A1 (ja) 2010-01-21
CN101513030A (zh) 2009-08-19
BRPI0714736A2 (pt) 2013-05-07
KR101036965B1 (ko) 2011-05-25
CA2660007A1 (en) 2008-03-06
EP2068544A4 (en) 2010-09-22
EP2068544A1 (en) 2009-06-10
WO2008026754A1 (fr) 2008-03-06

Similar Documents

Publication Publication Date Title
JP4582238B2 (ja) 音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム
JP7124170B2 (ja) セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
RU2469419C2 (ru) Способ и устройство для управления сглаживанием стационарного фонового шума
AU2008221657B2 (en) Method and arrangement for smoothing of stationary background noise
JPH05165500A (ja) 音声符号化方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100816

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees