JP4582238B2 - 音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム - Google Patents
音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム Download PDFInfo
- Publication number
- JP4582238B2 JP4582238B2 JP2008532145A JP2008532145A JP4582238B2 JP 4582238 B2 JP4582238 B2 JP 4582238B2 JP 2008532145 A JP2008532145 A JP 2008532145A JP 2008532145 A JP2008532145 A JP 2008532145A JP 4582238 B2 JP4582238 B2 JP 4582238B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- information
- encoding
- voice
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 54
- 230000005236 sound signal Effects 0.000 claims description 67
- 230000015654 memory Effects 0.000 claims description 39
- 239000002131 composite material Substances 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 19
- 238000007405 data analysis Methods 0.000 description 9
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241001125929 Trisopterus luscus Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
音声データをミキシングする際、まず、各参加者の音声データを復号して得た復号音声信号を全て加算することで全参加者の音声信号を算出する。次に、各参加者に対して、全参加者の音声信号から自分の音声を減算した音声信号を算出し、その音声信号を符号化して生成した音声データを送信する。
多地点会議サービスにおける端末とサーバ間の通信プロトコルとして、一例として、回線交換網ではITU−T H.323、H.324が用いられ、モバイル網では3G−324Mが用いられ、IP(Internet Protocol)に基づくパケット網では、IETF RFC3550 RTP(Real−time Transport Protocol)が用いられる。
また、音声符号化器としては、ITU−T勧告であるG.711やG.729,3GPP TS26.090で規定されているAMR(Adaptive Multi−Rate)方式、TS26.190で規定されているAMR−WB(Wide Band)方式や、3GPP2で規定されているEVRC(Enhanced Variable Rate Codec)方式などが用いられる。
G.711方式では、8kHzでサンプリングされた音声信号における16ビットの各サンプルを対数変換を用いて8ビットに圧縮する方式であり、演算量は少ないが圧縮率は低い。
一方、G.729方式、AMR方式、EVRC方式は、CELP(Code Excited Linear Prediction)原理による予測符号化方式に基づいており、音声信号をより高能率に符号化することが可能である。
CELPでは、符号化器において、フレーム毎(例えば20ms)に音声信号から線形予測(LPC:Linear Predictive Coding)分析を用いて、音声信号のスペクトル特性を表すスペクトルパラメータを抽出する。
さらにフレーム分割した音声信号をサブフレーム(例えば5ms)に分割し、サブフレーム毎に過去の音源信号を基に適応コードブックにおけるパラメータ(ピッチ周期に対応する遅延パラメータとゲインパラメータ)を抽出し、適応コードブックにより該当のサブフレームの音声信号をピッチ予測する。ピッチ予測によって求めた残差信号に対して、予め定められた種類の雑音信号からなる音源コードブック(ベクトル量子化コードブック)から最適な音源コードベクトルを選択し、最適なゲインを計算することにより、音源信号を量子化する。
音源コードベクトルの選択の仕方は、選択した雑音信号により合成した信号と、前述の残差信号との誤差電力を最小化するように行う。そして、選択されたコードベクトルの種類を表すインデックス、ゲイン、スペクトルパラメータ、および適応コードブックのパラメータとを組み合わせたものを音声データとして伝送する。
復号器側では、音声データから得られるパラメータから音源信号と線形予測分析における合成フィルタ係数を算出し、音源信号を合成フイルタで駆動することにより、復号音声信号を得ることができる。
一方、全てのサンプルについて比較選択処理を行わないで、複数サンプルに1回の大小関係の比較選択処理の結果に基づいて、その選択された音声データのサンプルに続く複数サンプルを選択処理する音声ミキシング方法が開示されている(特許文献1参照)。
また、ミキシング部において一旦総和信号を生成し、その総和信号からそれぞれ、自己の音声情報(自己が送り出した音声情報)を引算し、自己以外の音声情報が自己に返送されるように構成した音声ミキシング方法が開示されている(特許文献2参照)。
また、音声合成部が各異種符号化・復号化部にて線形のデータに変換された音声データをそれぞれ加算し、その後、加算された音声データから自分の音声を差し引いた音声データを生成し、それを対応する異種符号化・復号化部のそれぞれに渡す通信制御装置が開示されている(特許文献3参照)。
ここで、CELP方式等のような予測符号化を行う音声符号化器を用いる場合、話者の切替わり時に合わせて符号化器を切替える際、符号化器の状態を示すメモリに不整合が生じるために、復号音声に異音が発生するという課題がある。
一方、上記特許文献1〜3にこの課題を解決する手段は開示されていない。
本発明の目的は、話者の切替わり時に合わせて符号化器を切替える際、復号音声に異音が発生するのを防止することが可能な音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラムを提供することにある。
本発明の第2の複数の音声情報をミキシングする多地点会議サーバは、複数の音声情報から音声情報を選択する選択手段と、選択手段にて選択した音声情報を全て加算する全信号加算手段と、選択した音声信号のうち1の音声信号以外の音声信号を加算した音声信号を得る加算手段と、全信号加算手段にて加算した音声情報を符号化する第1の符号化手段と、加算手段にて得た音声情報を符号化する第2の符号化手段と、第1の符号化手段にて得られた符号化情報を第2の符号化手段にコピーする切替手段を含む。
本発明の第3の複数の音声情報をミキシングする音声ミキシングを実行するプログラムは、コンピュータに、複数の音声情報から音声情報を選択する第1ステップ、選択した音声情報を全て加算する第2ステップ、選択した音声信号のうち1の音声信号以外の音声信号を加算した音声信号を得る第3ステップ、第2ステップで得られた加算した音声情報を符号化する第4ステップ、第3のステップで得られた音声信号を符号化する第5ステップ、第4ステップによって得られた符号化情報を第5ステップにおける符号化情報にコピーする第6ステップを実行させる。
発明の効果
本発明によれば、符号化におけるメモリ内容に不整合が生じないことから、話者の切替わり時に合わせて符号化器を切替える際、復号音声に異音が発生するのを防止することが可能となる。
図2は、本発明の第1の実施例による多地点会議サーバの動作手順を示すフローチャートである。
図3は、本発明の第1の実施例による多地点会議サーバの構成を示すブロック図である。
(第1の実施例)
図1は本発明の第1の実施例による多地点会議サーバの構成図である。本発明の第1の実施例による多地点会議サーバは、音声入力端子(または入力音声信号)100,110、・・・、190と、パワー計算部101,111、・・・、191と、話者選択部200と、音声信号入力切替器102,112、・・・192と、全信号加算器300と、加算器103,113、・・・、193と、音声符号化部104,114、・・・、194と、メモリ切替器105,115、・・・、195と、共通音声符号化部400と、音声データ切替器106,116、・・・、196と、話者宛音声出力端子(または話者宛音声出力)107,117、・・・、197とを含んで構成される。
音声入力端子100,110、・・・、190の各々は、話者1、話者2、・・・、話者Mに対応している。パワー計算部101,111、・・・、191と、音声信号入力切替器102,112、・・・192と、加算器103,113、・・・、193と、音声符号化部104,114、・・・、194と、メモリ切替器105,115、・・・、195と、音声データ切替器106,116、・・・、196と、話者宛音声出力端子107,117、・・・、197とについても同様である。
次に、図1および図2を参照して第1の実施例の動作について説明する。図2は本発明の第1の実施例による多地点会議サーバの動作手順を示すフローチャートである。以降、話者1、話者2、および話者Mに対する処理ブロックのみが記載されているが、記載されていない話者に対しても処理は同じである。
パワー計算部101、パワー計算部111、およびパワー計算部191は、それぞれ話者1、話者2、および話者Mの入力音声信号100、入力音声信号110、および入力音声信号190に対するパワーを算出して出力する(図2のステップS1)。
話者選択部200は、計算されたそれぞれの話者のパワーを用いて音声を発声している話者を選択し、選択結果を出力する(図2のステップS2)。
音声信号入力切替器102、音声信号入力切替器112、および音声信号入力切替器192は、話者選択部200の選択結果に基いて、それぞれの話者の入力音声信号を出力するか否かの切替えを行う(図2のステップS3)。
全信号加算器300は、話者選択部200で選択された話者に対する音声を全て加算した音声信号を出力する(図2のステップS4)。
加算器103、加算器113、および加算器193は、全信号加算器300から出力された音声信号から選択された話者自身の音声信号を減算した音声信号を出力する(図2のステップS5)。
すなわち、全信号加算器300から出力された音声信号から、選択された話者のうち、各音声符号化器104、114、194にそれぞれ対応する話者の音声情報を減算して音声情報を出力する。
共通音声符号化部400は、全信号加算器300から出力された音声信号を符号化する(図2のステップS6)。
音声符号化部104、音声符号化部114、音声符号化部194は、加算器103、加算器113、および加算器193から出力された音声信号を符号化する(図2のステップS7)。
メモリ切替器105、メモリ切替器115、メモリ切替器195は、話者選択部200の選択結果に基いて、共通音声符号化部400の予測符号化におけるメモリの内容をそれぞれ音声符号化部104、音声符号化部114、音声符号化部194にコピーする(図2のステップS8)。
すなわち、共通音声符号化部400のメモリに格納されている予測符号化の結果である符号化情報を音声符号化部104、音声符号化部114、音声符号化部194のメモリにそれぞれコピーする。これにより、音声符号化部104、音声符号化部114、音声符号化部194のメモリ状態を、共通音声符号化部400のメモリの状態と同じにする。
音声データ切替器106、音声データ切替器116、音声データ切替器196は、話者選択部200の選択結果に基いて、出力する音声データの切替えを行う(図2のステップS9)。
すなわち、一例として、話者1が選択され、話者2と話者Mとが選択されなかったとすると、話者1の音声入力信号切替器102はオン、話者2の音声入力信号切替器112および話者Mの音声入力信号切替器192はオフとなり、話者1のメモリ切替器105はオン、話者2および話者Mのメモリ切替器195はオフとなり、話者1の音声データ切替器106は話者1側、話者2の音声データ切替器116および話者Mの音声データ切替器196は共通音声符号化部400側となる。
そして、話者1の音声信号は音声信号入力切替器102を介して全信号加算器300にて加算され、共通音声符号化部400へ入力される。
また、全信号加算器300にて加算された話者1の音声信号から話者1の音声信号が加算器103にて減算され、その結果信号が音声符号化部104に入力される。そして、音声符号化部104の出力信号は音声データ切替器106を介して話者1へ送信される。
一方、選択されなかった話者2および話者Mに対しては、共通音声符号化部400に入力された音声信号が音声データ切替器116および196を介して送信される。
本発明の第1の実施例の特徴は、一例として、話者1が選択されない場合から選択された場合に移った瞬間に、共通音声符号化部400に保存された情報をメモリ切替器105を介して音声符号化部104へコピーし、あるいは話者2が選択されない場合から選択された場合に移った瞬間に、共通音声符号化部400に保存された情報をメモリ切替器115を介して音声符号化部114へコピーすることにある。
これにより、話者の切替わり時に合わせて音声符号化部を切替える際、音声符号化部の状態を示すメモリに不整合が生じることに起因して復号音声に異音が発生するのを防止することが可能となる。
なお、第1の実施例では、加算器103、加算器113、および加算器193が、全信号加算器300から出力された音声信号から選択された話者自身の音声信号を減算した音声信号を出力する構成としたが、選択された音声信号のうち、選択された一人の話者以外の音声信号を加算して出力する構成としても同じ結果が得られる。
(具体例)
以下、上述した実施例の具体的な例について、図1を参照しながら説明する。まず、パワー計算部101、パワー計算部112、およびパワー計算部192は、入力された入力音声信号100、入力音声信号110、および入力音声信号190それぞれの音声信号のパワーを計算し、計算したパワーを話者選択部200に出力する。
例えば、8kHzサンプリングの入力音声信号s(n)に対して、20ミリ秒(160サンプル)毎に、以下の式(1)を用いてパワーPを計算する。
ここで、一例として、L=160である。
話者選択部200は、入力されたそれぞれの話者のパワーを用いて、発声している話者を選択し、選択したか否かをそれぞれ音声信号入力切替器102、音声信号入力切替器112、音声信号入力切替器192、メモリ切替器105、メモリ切替器115、メモリ切替器195、音声データ切替器106、音声データ切替器116、および音声データ切替器196に出力する。
ここで、発声している話者の選択方法として、パワーが大きい順に予め定めた上位N人(N<MかつN,Mは正の整数)の話者を選択する方法や、予め定めた閾値を超えるパワーの話者を選択する方法がある。また、入力されたパワーをそのまま利用するのではなく、リーク積分などにより平滑化した値を用いる方法も考えられる。
リーク積分は、入力をx(n)、出力をy(n)とすると、
y(n)=k×y(n−1)+x(n)で表される。ここに、0<k<1であり、kは定数である。
音声信号入力切替器102、音声信号入力切替器112、および音声信号入力切替器192は、話者選択部200で選択された話者に対する入力音声信号100、入力音声信号110、および入力音声信号190をそれぞれ対応する加算器103、加算器113、および加算器193に出力するとともに、全信号加算器300へ出力する。
全信号加算器300は、入力された音声信号を全て加算した音声信号を加算器103、加算器113、加算器193、および共通音声符号化部400へ出力する。
加算器103、加算器113、および加算器193は、話者選択部200で選択された話者に対して、全信号加算器300から入力された音声信号からそれぞれ音声信号入力切替器102、音声信号入力切替器112、および音声信号入力切替器192から出力された音声信号を減算した音声信号をそれぞれ音声符号化部104、音声符号化部114、音声符号化部194に出力する。
ミキシング後の音声において、各話者の音量差が小さくなるように以下の式(2)で示す調整ゲインGiを各話者iの入力音声信号に乗算してもよい。
ここで、Piは式(1)により計算した話者iに対するパワー、Nはミキシングした信号数である。このGiは各話者のパワーに反比例するように計算されるが、パワーPiの計算周期である、一例として、20ミリ秒毎に更新すると変化が大きい過ぎるため、更に以下の式(3)で示す平滑化を行ってもよい。
G_i=(1−α)×G_i+α×G’_i 式(3)
ここで、G’iは前に算出された調整ゲインを示す。αの値としては例えば0.9を用いる。また、極端に音量を調整することを避けるため、例えばGiの取り得る範囲を0.5〜2程度に制限してもよい。
更に、ミキシング後の音声信号の音量を調整するために、以下の式(4)で示す調整ゲインGaをミキシング後の音声信号に乗算してもよい。
G_a=P_out/P_a 式(4)
ここで、Paは式(1)により計算したミキシング後の音声信号のパワーであり、Poutは調整時の目標値とするパワーであり、ミキシングした話者の音声信号の中で最も大きい話者の値を用いたり、予め定めた所定レベルの値を用いることもできる。また、前述のGiと同様の平滑化及び取り得る値の制限を行ってもよい。
共通音声符号化部400は、全信号加算器300から入力された音声信号を符号化し、符号化した音声データを音声データ切替器106、音声データ切替器116、音声データ切替器196に出力する。
音声符号化部104、音声符号化部114、音声符号化部194は、加算器103、加算器113、および加算器193から音声信号が入力された場合、その音声信号を符号化し、符号化した音声データを音声データ切替器106、音声データ切替器116、音声データ切替196に出力する。
メモリ切替器105、メモリ切替器115、メモリ切替器195は、話者選択部200において発声した話者として選択されてない状態から選択された状態に遷移した場合に、共通音声符号化部400の予測符号化におけるメモリをそれぞれ音声符号化部104、音声符号化部114、音声符号化部194に出力する。
このメモリ切替器の処理により、例えば話者1において、出力音声データが共通音声符号化部400からの出力から音声符号化部104からの出力に切替わる際に予測符号化におけるメモリに不整合が生じることはない。
逆に、出力音声データが音声符号化部104からの出力から共通音声符号化部400からの出力に切替わる際、共通音声符号化部400のメモリを書き換えることはできないので、メモリの不整合が生じる。
ただし、この場合は、話者1の音量が小さくなる時であり、音声符号化部104の入力音声と共通音声符号化部400への入力音声がほぼ同じとなるため、両者のメモリの不整合による音質劣化は少ない。この場合に、メモリの不整合をより小さくするには、共通音声符号化部400への入力音声信号と同じ音声信号を音声符号化部104に入力してしばらく動作させた後、音声データ切替器1を共通音声符号化部400から出力される音声データに切替えればよい。同じ入力音声信号で動作させる時間が長い程、メモリの不整合は小さくなるが、切替えに要する遅延が生じる。
音声データ切替器106、音声データ切替器116、音声データ切替器196は、話者選択部200において発声した話者として選択された場合、音声符号化部104、音声符号化部114、音声符号化部194から入力された音声データを出力し、話者選択部200において発声した話者として選択されなかった場合、共通音声符号化部400から入力された音声データを出力する。
本実施例では、音声符号化器が全て同じ場合を想定しているが、複数の種類の音声符号化器、又はビットレートを混在させることも可能である。この場合、共通符号化部は、符号化器の種類、又はビットレートの種類の数だけ必要である。また、メモリの切り替えは同じ種類の符号化器、又はビットレートに対して行う必要がある。
以上説明したように、本発明の具体例によれば、例えば話者1において、出力音声データが共通音声符号化部400からの出力から音声符号化部104からの出力に切替わる際に予測符号化におけるメモリに不整合が生じないという効果を奏する。
(第2の実施例)
次に、図3を参照して本発明の第2の実施例について説明する。図3は本発明の第2の実施例による多地点会議サーバの構成図である。なお、図1と同様の構成部分には同一番号を付し、その説明を省略する。
音声復号部501、音声復号部511、音声復号部591は、それぞれ符号化された入力音声データ500、入力音声データ510、および入力音声データ590を復号し、復号音声をそれぞれパワー計算部101、パワー計算部102、パワー計算部192、および音声信号入力切替器102、音声信号入力切替器112、および音声信号入力切替器192に出力する。
音声データ解析部502、音声データ解析部512、音声データ解析部592は、入力音声データ500、入力音声データ510、および入力音声データ590が有音か無音であるかを解析した結果を出力する。
この解析方法として、AMR音声符号化方式の例で説明する。AMR音声符号化方式では、入力音声に対してVAD(Voice Activity Detection)を行って有音か無音を判別し、無音と判別した場合には、フレームタイプがNO_DATAである情報を伝送するか、或いはSID(Silence Indication)として背景雑音の情報を送信することが可能である。
そこで、音声データの先頭にあるフレームタイプがNO_DATAまたはSIDであれば、無音であると判別できる。また、VADを行わず全て有音の音声データとして符号化された場合は、音声データに含まれるゲインパラメータやスペクトルパラメータに基づいて推定した音量を話者選択部201に出力する方法も考えられる。
パワー計算部101、パワー計算部111、およびパワー計算部191は、それぞれ音声復号部501、音声復号部511、音声復号部591から入力された復号信号のパワーを計算し、その値を話者選択部201に入力する。
話者選択部201は、音声データ解析部502、音声データ解析部512、音声データ解析部592の解析結果、およびパワー計算部101、パワー計算部111、およびパワー計算部192から入力されたパワーに基いて、音声を発声している話者を選択し、選択結果を出力する。
具体的には、音声データ解析部502、音声データ解析部512、音声データ解析部592から入力された解析結果が、有音又は推定された音量がある閾値以上の値である場合に、パワー計算部101、パワー計算部111、およびパワー計算部191から入力されたパワーが大きい順に予め定めた上位N人(N<M)の話者を選択する方法や、予め定めた閾値を超えるパワーの話者を選択する方法がある。
以上説明したように、本発明の第2実施例によれば、話者選択の基準に有音および無音の判別を付加することにより、第1実施例の場合よりも良好な選択結果を得ることが可能となる。
(第3の実施例)
第3実施例は音声ミキシング方法をコンピュータに実行させるためのプログラムに関するものである。図1を参照すると、多地点会議サーバに含まれるパワー計算部101,111、・・・、191と、話者選択部200と、音声信号入力切替器102,112、・・・192と、全信号加算器300と、加算器103,113、・・・、193と、音声符号化部104,114、・・・、194と、メモリ切替器105,115、・・・、195と、共通音声符号化部400と、音声データ切替器106,116、・・・、196は、図示しない制御部により制御される。
また、多地点会議サーバは図示しない記憶部をさらに含んでおり、その記憶部には図2にフローチャートで示す音声ミキシング方法の処理手順のプログラムが格納されている。
制御部(あるいは、コンピュータ)は、記憶部から上記プログラムを読み出し、そのプログラムにしたがって上記各構成部分を制御する。その制御内容については既に述べたのでここでの説明は省略する。
以上説明したように、本発明の第3実施例によれば、例えば話者1において、出力音声データが共通音声符号化部400からの出力から音声符号化部104からの出力に切替わる際に予測符号化におけるメモリに不整合を生じさせないためのプログラムが得られる。
また、その他の実施例として以下に示すものがある。
携帯電話等では帯域が狭いため、予測符号化技術を用いて高効率に音声を圧縮する必要がある。一方、携帯電話を用いて多地点会議システムを構成する場合、各携帯電話のプロセッサの能力は限られているため、各携帯電話でミキシングを行うことは現実的ではなく、各携帯電話とは別に多地点会議サーバが必要である。本発明の実施例はこのような場合にも有用である。
また、多地点会議システムとして以下のようなパターンが考えられる。第1に、複数の会議室に一人ずつ存在するパターンである。第2に、複数の会議室に複数人ずつ(さらに、各会議室にマイク、スピーカのペアが複数ペアずつ存在するパターンと、各会議室にマイク、スピーカのペアが1ペアずつ存在するパターンとの2つがある)存在するパターンである。本発明の実施例はこのような場合にも有用である。
本発明の実施例によれば、符号化におけるメモリ内容に不整合が生じないことから、話者の切替わり時に合わせて符号化器を切替える際、復号音声に異音が発生するのを防止することが可能となる。
以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態の構成や動作に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で問う業者が理解し得る様々な変更をすることができる。
この出願は、2006年8月30日に出願された日本出願特願2006−232919号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
Claims (20)
- 複数の音声情報をミキシングする多地点会議サーバによる音声ミキシング方法であって、
複数の音声情報から音声情報を選択する第1ステップ、
選択した音声情報を全て加算する第2ステップ、
前記選択した音声情報のうち1の音声情報以外の音声情報を加算した音声情報を得る第3ステップ、
第2ステップで得られた音声情報を符号化する第4ステップ、
第3ステップで得られた音声情報を符号化する第5ステップ、
前記第4ステップによって得られた符号化情報を前記第5ステップにおける符号化情報にコピーする第6ステップ
とを含むことを特徴とする音声ミキシング方法。 - 前記第6ステップにおいて、前記第4ステップによる符号化を実行する符号化部のメモリに格納された符号化情報を、前記第5ステップによる符号化を実行する符号化部にコピーすることを特徴とする請求項1に記載の音声ミキシング方法。
- 前記第1ステップにおける選択結果に基づいて、前記第4ステップによって得られた符号化情報又は前記第5ステップによって得られた符号化情報を切り替えて出力する第7ステップを含むことを特徴とする請求項1又は請求項2に記載の音声ミキシング方法。
- 入力した符号化された音声情報を復号し、当該復号した音声情報を前記第1ステップにおける音声情報として用いることを特徴とする請求項1から請求項3の何れかに記載の音声ミキシング方法。
- 前記第1ステップにおいて、前記音声情報の音声信号のパワーに基づいて音声情報を選択することを特徴とする請求項1から請求項4の何れかに記載の音声ミキシング方法。
- 前記第1ステップにおいて、前記音声情報の音声データが有音か無音かに基づいて音声情報を選択することを特徴とする請求項1から請求項5の何れかに記載の音声ミキシング方法。
- 前記第3ステップにおいて、前記選択した音声信号のうち1の音声信号以外の音声信号を加算した音声信号を、前記加算した音声情報から選択した前記音声情報を1つずつ減算することにより得ることを特徴とする請求項1から請求項6の何れかに記載の音声ミキシング方法。
- 前記音声情報が、音声を符号化した符号化データであり、
前記第1のステップが、入力した複数の符号化データを分析し、ミキシング対象とする符号化データを選択し、選択した符号化データを復号して復号音声信号を生成するステップを含むことを特徴とする請求項1から請求項7の何れかに記載の音声ミキシング方法。 - 前記音声情報が、音声を符号化した符号化データであり、
前記第1ステップで、前記符号化データと前記符号化データを復号して得た復号音声信号とを分析して、ミキシング対象とする復号音声信号を選択することを特徴とする請求項1から請求項7の何れかに記載の音声ミキシング方法。 - 前記第2ステップで、前記復号音声信号を全て加算した音声信号を生成し、
前記第3ステップで、前記復号音声信号のうち1の復号音声信号以外の音声信号を加算した音声信号を生成し、
前記第4ステップで、第2ステップで得た音声信号を第1の符号化部によって予測符号化し、
前記第5ステップで、第3ステップで生成した音声信号を第2の符号化部によって予測符号化し、
前記第6ステップで、前記ミキシング対象とする復号音声信号の選択結果が変更された場合、前記第5ステップの第2の符号化部の状態を示すメモリ内容を、前記第4ステップの第1の符号化部の状態を示すメモリ内容と同じにすることを特徴とする請求項8又は請求項9に記載の音声ミキシング方法。 - 各ミキシング対象の音声信号の音量差が小さくなるように調整するステップを含むことを特徴とする請求項1から請求項10の何れかに記載の音声ミキシング方法。
- ミキシングした後の音声の音量が、各ミキシング対象の音声信号における最大音量の音声と同等、または予め定めたレベルになるように調整するステップを含むことを特徴とする請求項1から請求項10の何れかに記載の音声ミキシング方法。
- 複数の音声情報をミキシングする多地点会議サーバであって、
前記複数の音声情報から音声情報を選択する選択手段と、
前記選択手段にて選択した音声情報を全て加算する全信号加算手段と、
前記選択した音声信号のうち1の音声信号以外の音声信号を加算した音声信号を得る加算手段と、
前記全信号加算手段にて加算した音声情報を符号化する第1の符号化手段と、
前記加算手段にて加算した音声情報を符号化する第2の符号化手段と、
前記第1の符号化手段にて得られた符号化情報を前記第2の符号化手段にコピーする切替手段
とを含むことを特徴とする多地点会議サーバ。 - 前記切替手段は、前記選択手段の選択結果に基づいて、前記第1の符号化手段のメモリに格納された符号化情報を、前記第2の符号化手段にコピーすることを特徴とする請求項13に記載の多地点会議サーバ。
- 前記選択手段における選択結果に基づいて、前記第1の符号化手段にて得られた符号化情報又は前記第2の符号化手段にて得られた符号化情報を切り替えて出力する出力切替手段を含むことを特徴とする請求項13又は請求項14に記載の多地点会議サーバ。
- 入力した複数の符号化された音声情報を復号する複合手段を含み、
前記選択手段は、前記復号手段によって復号された複数の音声情報から音声情報を選択することを特徴とする請求項13から請求項15の何れかに記載の多地点会議サーバ。 - 前記選択手段は、前記音声情報の音声信号のパワーに基づいて音声情報を選択することを特徴とする請求項13から請求項16の何れかに記載の多地点会議サーバ。
- 前記選択手段は、前記音声情報の音声データが有音か無音かに基づいて音声情報が選択されることを特徴とする請求項13から請求項17の何れかに記載の多地点会議サーバ。
- 前記加算手段は、前記全信号加算手段にて加算した音声情報から選択した前記音声情報を1つずつ減算することにより、前記選択した音声信号のうち1の音声信号以外の音声信号を加算した音声信号を得ることを特徴とする請求項13から請求項18の何れかに記載の多地点会議サーバ。
- 複数の音声情報をミキシングする音声ミキシングを実行するプログラムであって、
コンピュータに、
複数の音声情報から音声情報を選択する第1ステップ、
選択した音声情報を全て加算する第2ステップ、
前記加算した音声情報から選択した前記音声情報を1つずつ減算する第3ステップ、
第2ステップで得られた音声情報を符号化する第4ステップ、
第3ステップで得られた音声情報を符号化する第5ステップ、
前記第4ステップによって得られた符号化情報を前記第5ステップにおける符号化情報にコピーする第6ステップを実行させることを特徴とするプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006232919 | 2006-08-30 | ||
JP2006232919 | 2006-08-30 | ||
PCT/JP2007/067101 WO2008026754A1 (fr) | 2006-08-30 | 2007-08-28 | Procédé de mixage vocal, serveur de conférence multipoint utilisant le procédé et programme |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008026754A1 JPWO2008026754A1 (ja) | 2010-01-21 |
JP4582238B2 true JP4582238B2 (ja) | 2010-11-17 |
Family
ID=39136033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008532145A Expired - Fee Related JP4582238B2 (ja) | 2006-08-30 | 2007-08-28 | 音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム |
Country Status (10)
Country | Link |
---|---|
US (1) | US8255206B2 (ja) |
EP (1) | EP2068544A4 (ja) |
JP (1) | JP4582238B2 (ja) |
KR (1) | KR101036965B1 (ja) |
CN (1) | CN101513030A (ja) |
BR (1) | BRPI0714736A2 (ja) |
CA (1) | CA2660007A1 (ja) |
MX (1) | MX2009002093A (ja) |
RU (1) | RU2009111270A (ja) |
WO (1) | WO2008026754A1 (ja) |
Families Citing this family (123)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
JP2010166424A (ja) * | 2009-01-16 | 2010-07-29 | Nec Corp | 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法 |
JP2010166425A (ja) * | 2009-01-16 | 2010-07-29 | Nec Corp | 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法 |
WO2010090019A1 (ja) * | 2009-02-04 | 2010-08-12 | パナソニック株式会社 | 結合装置、遠隔通信システム及び結合方法 |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9025497B2 (en) * | 2009-07-10 | 2015-05-05 | Qualcomm Incorporated | Media forwarding for a group communication session in a wireless communications system |
US9088630B2 (en) * | 2009-07-13 | 2015-07-21 | Qualcomm Incorporated | Selectively mixing media during a group communication session within a wireless communications system |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8873774B2 (en) * | 2010-07-30 | 2014-10-28 | Hewlett-Packard Development Company, L.P. | Audio mixer |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8924206B2 (en) * | 2011-11-04 | 2014-12-30 | Htc Corporation | Electrical apparatus and voice signals receiving method thereof |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
CN103327014B (zh) * | 2013-06-06 | 2015-08-19 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置及系统 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US20150092615A1 (en) * | 2013-10-02 | 2015-04-02 | David Paul Frankel | Teleconference system with overlay aufio method associate thereto |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
JP6224850B2 (ja) | 2014-02-28 | 2017-11-01 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 会議における変化盲を使った知覚的連続性 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
JP5802956B1 (ja) * | 2015-03-16 | 2015-11-04 | 株式会社アクセル | 音声合成装置、音声合成方法 |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
BR112021019785A2 (pt) | 2019-04-03 | 2021-12-07 | Dolby Laboratories Licensing Corp | Servidor de mídia para cenas de voz escalonáveis |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0685932A (ja) * | 1992-09-07 | 1994-03-25 | Tech Res & Dev Inst Of Japan Def Agency | 音声ブリッジ装置 |
JPH06169349A (ja) * | 1992-11-30 | 1994-06-14 | Hitachi Ltd | N−1加算方式 |
JP2005229259A (ja) * | 2004-02-12 | 2005-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4456789A (en) * | 1978-03-07 | 1984-06-26 | The Post Office | Audio teleconferencing |
US5150410A (en) * | 1991-04-11 | 1992-09-22 | Itt Corporation | Secure digital conferencing system |
JP3300471B2 (ja) | 1993-06-08 | 2002-07-08 | 三菱電機株式会社 | 通信制御装置 |
JPH1075310A (ja) * | 1996-08-29 | 1998-03-17 | Nec Corp | 多地点テレビ会議システム |
US6125343A (en) * | 1997-05-29 | 2000-09-26 | 3Com Corporation | System and method for selecting a loudest speaker by comparing average frame gains |
US6697476B1 (en) * | 1999-03-22 | 2004-02-24 | Octave Communications, Inc. | Audio conference platform system and method for broadcasting a real-time audio conference over the internet |
GB9915312D0 (en) * | 1999-06-30 | 1999-09-01 | Nortel Networks Corp | Conference circuit for encoded digital audio |
US6940826B1 (en) * | 1999-12-30 | 2005-09-06 | Nortel Networks Limited | Apparatus and method for packet-based media communications |
US6683858B1 (en) * | 2000-06-28 | 2004-01-27 | Paltalk Holdings, Inc. | Hybrid server architecture for mixing and non-mixing client conferencing |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
US6804340B2 (en) * | 2001-05-03 | 2004-10-12 | Raytheon Company | Teleconferencing system |
US20030223562A1 (en) * | 2002-05-29 | 2003-12-04 | Chenglin Cui | Facilitating conference calls by dynamically determining information streams to be received by a mixing unit |
US20040190701A1 (en) * | 2003-03-28 | 2004-09-30 | Versatel Networks Inc. | Apparatus and method for a distributed conference bridge |
JP2005151044A (ja) | 2003-11-13 | 2005-06-09 | Japan Science & Technology Agency | 音声ミキシング方法、音声ミキシングシステム及び音声ミキシングのためのプログラム |
JP2006232919A (ja) | 2005-02-23 | 2006-09-07 | Fuji Photo Film Co Ltd | コアシェル粒子の製造方法 |
US7599834B2 (en) * | 2005-11-29 | 2009-10-06 | Dilithium Netowkrs, Inc. | Method and apparatus of voice mixing for conferencing amongst diverse networks |
ES2380059T3 (es) * | 2006-07-07 | 2012-05-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente |
CN101502089B (zh) * | 2006-07-28 | 2013-07-03 | 西门子企业通讯有限责任两合公司 | 进行音频会议的方法、音频会议装置和编码器之间的切换方法 |
WO2008011901A1 (de) * | 2006-07-28 | 2008-01-31 | Siemens Aktiengesellschaft | Verfahren zum durchführen einer sprachkonferenz und sprachkonferenzsystem |
-
2007
- 2007-08-28 RU RU2009111270/09A patent/RU2009111270A/ru not_active Application Discontinuation
- 2007-08-28 WO PCT/JP2007/067101 patent/WO2008026754A1/ja active Application Filing
- 2007-08-28 CA CA002660007A patent/CA2660007A1/en not_active Abandoned
- 2007-08-28 CN CNA2007800325552A patent/CN101513030A/zh active Pending
- 2007-08-28 KR KR1020097004325A patent/KR101036965B1/ko not_active IP Right Cessation
- 2007-08-28 EP EP07806574A patent/EP2068544A4/en not_active Withdrawn
- 2007-08-28 BR BRPI0714736-8A patent/BRPI0714736A2/pt not_active Application Discontinuation
- 2007-08-28 US US12/438,659 patent/US8255206B2/en not_active Expired - Fee Related
- 2007-08-28 MX MX2009002093A patent/MX2009002093A/es not_active Application Discontinuation
- 2007-08-28 JP JP2008532145A patent/JP4582238B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0685932A (ja) * | 1992-09-07 | 1994-03-25 | Tech Res & Dev Inst Of Japan Def Agency | 音声ブリッジ装置 |
JPH06169349A (ja) * | 1992-11-30 | 1994-06-14 | Hitachi Ltd | N−1加算方式 |
JP2005229259A (ja) * | 2004-02-12 | 2005-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
KR20090035728A (ko) | 2009-04-10 |
US8255206B2 (en) | 2012-08-28 |
MX2009002093A (es) | 2009-03-10 |
US20090248402A1 (en) | 2009-10-01 |
RU2009111270A (ru) | 2010-10-10 |
JPWO2008026754A1 (ja) | 2010-01-21 |
CN101513030A (zh) | 2009-08-19 |
BRPI0714736A2 (pt) | 2013-05-07 |
KR101036965B1 (ko) | 2011-05-25 |
CA2660007A1 (en) | 2008-03-06 |
EP2068544A4 (en) | 2010-09-22 |
EP2068544A1 (en) | 2009-06-10 |
WO2008026754A1 (fr) | 2008-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4582238B2 (ja) | 音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム | |
JP7124170B2 (ja) | セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム | |
RU2469419C2 (ru) | Способ и устройство для управления сглаживанием стационарного фонового шума | |
AU2008221657B2 (en) | Method and arrangement for smoothing of stationary background noise | |
JPH05165500A (ja) | 音声符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100315 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100816 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |