JP5511372B2 - 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 - Google Patents

適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 Download PDF

Info

Publication number
JP5511372B2
JP5511372B2 JP2009502459A JP2009502459A JP5511372B2 JP 5511372 B2 JP5511372 B2 JP 5511372B2 JP 2009502459 A JP2009502459 A JP 2009502459A JP 2009502459 A JP2009502459 A JP 2009502459A JP 5511372 B2 JP5511372 B2 JP 5511372B2
Authority
JP
Japan
Prior art keywords
pitch period
subframe
adaptive excitation
search
search range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009502459A
Other languages
English (en)
Other versions
JPWO2008108081A1 (ja
Inventor
薫 佐藤
利幸 森井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2009502459A priority Critical patent/JP5511372B2/ja
Publication of JPWO2008108081A1 publication Critical patent/JPWO2008108081A1/ja
Application granted granted Critical
Publication of JP5511372B2 publication Critical patent/JP5511372B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、CELP(Code Excited Linear Prediction)方式の音声符号化において適応音源のベクトル量子化を行う適応音源ベクトル量子化装置および適応音源ベクトル量子化方法に関し、特にインターネット通信に代表されるパケット通信システムや、移動通信システム等の分野で、音声信号の伝送を行う音声符号化/復号装置に用いられる適応音源のベクトル量子化を行う適応音源ベクトル量子化装置および適応音源ベクトル量子化方法に関する。
ディジタル無線通信や、インターネット通信に代表されるパケット通信、あるいは音声蓄積などの分野においては、電波などの伝送路容量や記憶媒体の有効利用を図るため、音声信号の符号化/復号技術が不可欠である。特に、CELP方式の音声符号化/復号技術が主流の技術となっている(例えば、非特許文献1参照)。
CELP方式の音声符号化装置は、予め記憶された音声モデルに基づいて入力音声を符号化する。具体的には、CELP方式の音声符号化装置は、ディジタル化された音声信号を10〜20ms程度の一定時間間隔のフレームに区切り、各フレーム内の音声信号に対して線形予測分析を行い線形予測係数(LPC:Linear Prediction Coefficient)と線形予測残差ベクトルとを求め、線形予測係数および線形予測残差ベクトルをそれぞれ個別に符号化する。CELP方式の音声符号化/復号装置において、線形予測残差ベクトルは、過去に生成された駆動音源信号を格納している適応音源符号帳と、固定の形状のベクトル(固定コードベクトル)を特定数個格納している固定符号帳を用いて、符号化/復号される。そのうち、適応音源符号帳は、線形予測残差ベクトルが有する周期的成分を表現するために用いられる一方、固定符号帳は、線形予測残差ベクトルのうち適応音源符号帳では表現できない非周期的成分を表現するために用いられる。
なお、線形予測残差ベクトルの符号化/復号処理においては、フレームをさらに短い時間単位(5ms〜10ms程度)に分割したサブフレーム単位で行われるのが一般的である。非特許文献2に記載されているITU−T(International Telecommunication Union - Telecommunication Standardization Sector)勧告G.729では、フレームを2つのサブフレームに分割し、2つのサブフレーム各々に対し適応音源符号帳を用いてピッチ周期を探索することにより適応音源のベクトル量子化を行う。具体的には、第1サブフレームでは固定の範囲内からピッチ周期を求め、第2サブフレームでは第1サブフレームで求められたピッチ周期の近傍の範囲内からピッチ周期を求めるという「デルタラグ」と呼ばれる方法を用いて適応音源のベクトル量子化を行う。このような、サブフレーム単位の適応音源ベクトル量子化方法は、フレーム単位の適応音源ベクトル量子化方法よりも高い時間分解能で適応音源ベクトルを量子化することができる。
また、特許文献1記載の適応音源ベクトル量子化においては、第1サブフレームのピッチ周期が短いほど、第1サブフレームと第2サブフレームとのピッチ周期の変化量が統計的により小さく、逆に第1サブフレームのピッチ周期が長いほど、第1サブフレームと現サブフレームとのピッチ周期の変化量が統計的により大きいという性質を利用して、第1サブフレームのピッチ周期の長さに応じて第2サブフレームのピッチ周期の探索範囲を適応的に切り替えている。すなわち、特許文献1記載の適応音源ベクトル量子化においては、第1サブフレームのピッチ周期を所定の閾値と比較して、第1サブフレームのピッチ周期が所定の閾値未満である場合には、第2サブフレームのピッチ周期の探索範囲をより狭くして探索の解像度をより高くする。一方、第1サブフレームのピッチ周期が所定の閾値
以上である場合には、第2サブフレームのピッチ周期の探索範囲をより広くして探索の解像度をより低くする。これにより、ピッチ周期の探索性能を向上させ、適応音源ベクトル量子化の量子化精度を向上させることができる。
特開2000−112498号公報 M.R.Schroeder、B.S.Atal著、「IEEE proc. ICASSP」、1985、「Code Excited Linear Prediction: High Quality Speech at Low Bit Rate」、p.937−940 "ITU-T Recommendation G.729", ITU-T, 1996/3, pp.17-19
しかしながら、上記の特許文献1記載の適応音源ベクトル量子化においては、第1サブフレームのピッチ周期を所定の閾値と比較し、比較結果に応じて第2サブフレームのピッチ周期探索の解像度が一種類に決定されるとともに、この探索解像度に対応する探索範囲が一種類に決定される。そのため、例えば前記所定の閾値の近傍においては適した解像度で探索することができず、ピッチ周期の量子化性能が劣化してしまうという問題がある。具体的には、例えば、前記所定の閾値を39として、第1サブフレームのピッチ周期が39以下である場合は第2サブフレームにおいてピッチ周期を三分の一精度の解像度で探索し、第1サブフレームのピッチ周期が40以上である場合は第2サブフレームにおいてピッチ周期を二分の一精度の解像度で探索する。このような指定でのピッチ周期探索方法では、第1サブフレームのピッチ周期が39である場合、第2サブフレームのピッチ周期探索の解像度が三分の一精度と一種類に決まるため、第2サブフレームにおけるピッチ周期探索範囲の40以上の区間では二分の一精度の探索が適しているというような場合であっても三分の一精度で探索を行わなければならない。また、第1サブフレームのピッチ周期が40である場合、第2サブフレームのピッチ周期探索の解像度が二分の一精度と一種類に決まるため、第2サブフレームにおけるピッチ周期探索範囲の39以下の区間では三分の一精度の探索が適しているというような場合であっても二分の一精度で探索を行わなければならない。
本発明の目的は、第1サブフレームのピッチ周期に応じて第2サブフレームのピッチ周期探索の範囲と解像度とが適応的に変化するようなピッチ周期探索範囲設定方法を用いた場合に、第2サブフレームのピッチ周期探索範囲のいかなる区間においても常に適した解像度でピッチ周期探索を行うことができ、ピッチ周期の量子化性能を向上させることができる適応音源ベクトル量子化装置および適応音源ベクトル量子化方法を提供することである。
本発明の適応音源ベクトル量子化装置は、フレームを分割した2つのサブフレームのうち、第1サブフレームについては固定の範囲内でピッチ周期を探索し、第2サブフレームについては前記第1サブフレームで求められたピッチ周期の近傍の範囲内からピッチ周期を探索し、この探索したピッチ周期の情報を量子化データとする適応音源ベクトル量子化装置であって、所定の閾値を境として解像度を変化させて前記第1サブフレームのピッチ周期を探索する第1ピッチ周期探索手段と、前記第1サブフレームで求められたピッチ周期および前記閾値に基づいて前記第2サブフレームのピッチ周期探索範囲を算出する算出手段と、前記ピッチ周期探索範囲において前記閾値を境として解像度を変化させて前記第2サブフレームのピッチ周期を探索する第2ピッチ周期探索手段と、を具備する構成を採る。
本発明の適応音源ベクトル量子化方法は、フレームを分割した2つのサブフレームのうち、第1サブフレームについては固定の範囲内でピッチ周期を探索し、第2サブフレーム
については前記第1サブフレームで求められたピッチ周期の近傍の範囲内からピッチ周期を探索し、この探索したピッチ周期の情報を量子化データとする適応音源ベクトル量子化方法であって、所定の閾値を境として解像度を変化させて前記第1サブフレームのピッチ周期を探索する第1ピッチ周期探索ステップと、前記第1サブフレームで求められたピッチ周期および前記閾値に基づいて前記第2サブフレームのピッチ周期探索範囲を算出する算出ステップと、前記ピッチ周期探索範囲において前記閾値を境として解像度を変化させて前記第2サブフレームのピッチ周期を探索する第2ピッチ周期探索ステップと、を具備するようにする。
本発明によれば、第1サブフレームのピッチ周期に応じて第2サブフレームのピッチ周期探索の範囲と解像度とが適応的に変化するようなピッチ周期探索範囲設定方法を用いた場合に、第2サブフレームのピッチ周期探索範囲のいかなる区間においても常に適した解像度でピッチ周期探索を行うことができ、ピッチ周期の量子化性能を向上させることができる。そしてその結果として、分数精度の適応音源ベクトルを生成する際に必要な間挿フィルタの数を削減することが可能となるため、メモリを節約することも可能となる。
本発明の一実施の形態では、適応音源ベクトル量子化装置を含むCELP音声符号化装置において、16kHzの音声信号を構成する各フレームをそれぞれ2つのサブフレームに分割し、各サブフレームに対し線形予測分析を行ってサブフレーム毎の線形予測係数および線形予測残差ベクトルを求める場合を例にとる。ここで、フレームの長さをn、サブフレームの長さをmとし、フレームを二分割して2つのサブフレームを構成するため、n=m×2が成り立つ。また、本実施の形態では、上記の線形予測分析により得られる第1サブフレームの線形予測残差ベクトルに対しては8ビットを用いてピッチ周期探索を行い、第2サブフレームの線形予測残差ベクトルに対しては4ビットを用いてピッチ周期探索を行う場合を例にとる。
以下、本発明の一実施の形態について、添付図面を参照して詳細に説明する。
図1は、本発明の一実施の形態に係る適応音源ベクトル量子化装置100の主要な構成を示すブロック図である。
図1において、適応音源ベクトル量子化装置100は、ピッチ周期指示部101、適応
音源符号帳102、適応音源ベクトル生成部103、合成フィルタ104、評価尺度算出部105、評価尺度比較部106、およびピッチ周期記憶部107を備え、サブフレームインデックス、線形予測係数、およびターゲットベクトルがサブフレーム毎に入力される。そのうち、サブフレームインデックスは、本実施の形態に係る適応音源ベクトル量子化装置100を含むCELP音声符号化装置において得られた各サブフレームがフレーム内において何番目のサブフレームであるかを表し、線形予測係数およびターゲットベクトルは、CELP音声符号化装置において各サブフレームに対し線形予測分析を行って求められたサブフレーム毎の線形予測係数および線形予測残差(励振信号)ベクトルを表す。線形予測係数としては、LPCパラメータ、もしくは、LPCパラメータと一対一で相互変換可能な周波数領域のパラメータであるLSF(線スペクトル周波数:Line Spectrum Frequency または Line Spectral Frequency)パラメータ、LSP(線スペクトル対:Line
Spectrum Pair または Line Spectral Pair)パラメータなどを用いる。
ピッチ周期指示部101は、サブフレーム毎に入力されるサブフレームインデックスおよびピッチ周期記憶部107から入力される第1サブフレームのピッチ周期に基づき、ピッチ周期探索範囲およびピッチ周期解像度を算出し、算出されたピッチ周期探索範囲内のピッチ周期候補を適応音源ベクトル生成部103へ順次指示する。
適応音源符号帳102は、駆動音源を格納するバッファを内蔵しており、サブフレーム単位でのピッチ周期探索が終了する度に、評価尺度比較部106からフィードバックされるピッチ周期インデックスIDXを用いて駆動音源を更新する。
適応音源ベクトル生成部103は、ピッチ周期指示部101から指示されるピッチ周期候補を有する適応音源ベクトルを適応音源符号帳102からサブフレーム長mだけ切り出し、評価尺度算出部105に出力する。
合成フィルタ104は、サブフレーム毎に入力される線形予測係数を用いて合成フィルタを構成し、サブフレーム毎に入力されるサブフレームインデックスに基づき合成フィルタのインパルス応答行列を生成して評価尺度算出部105に出力する。
評価尺度算出部105は、適応音源ベクトル生成部103から入力される適応音源ベクトル、合成フィルタ104から入力されるインパルス応答行列、およびフレーム毎に入力されるターゲットベクトルを用いて、ピッチ周期探索用の評価尺度を算出して評価尺度比較部106に出力する。
評価尺度比較部106は、フレーム毎に入力されるサブフレームインデックスに基づき、各サブフレームにおいて、評価尺度算出部105から入力される評価尺度が最大となる時のピッチ周期候補を対応するサブフレームのピッチ周期として求め、求められたピッチ周期を示すピッチ周期インデックスIDXを外部へ出力するとともに、適応音源符号帳102にフィードバックする。また、評価尺度比較部106は、第1サブフレームのピッチ周期を外部および適応音源符号帳102に出力するとともにピッチ周期記憶部107にも出力する。
ピッチ周期記憶部107は、評価尺度比較部106から入力される第1サブフレームのピッチ周期を記憶し、サブフレーム毎に入力されるサブフレームインデックスが第2サブフレームを示す場合に、記憶している第1サブフレームのピッチ周期をピッチ周期指示部101に出力する。
適応音源ベクトル量子化装置100の各部は、以下の動作を行う。
ピッチ周期指示部101は、サブフレーム毎に入力されるサブフレームインデックスが第1サブフレームを示す場合には、予め設定されているピッチ周期解像度を持つ予め設定されているピッチ周期探索範囲の第1サブフレーム用のピッチ周期候補Tを適応音源ベクトル生成部103へ順次指示する。また、ピッチ周期指示部101は、サブフレーム毎に入力されるサブフレームインデックスが第2サブフレームを示す場合には、ピッチ周期記憶部107から入力される第1サブフレームのピッチ周期に基づき、第2サブフレーム用のピッチ周期探索範囲およびピッチ周期解像度を算出し、算出されたピッチ周期探索範囲内の第2サブフレーム用のピッチ周期候補Tを適応音源ベクトル生成部103へ順次指示する。なお、ピッチ周期指示部101の内部の構成および具体的な動作については後述する。
適応音源符号帳102は、駆動音源を格納するバッファを内蔵しており、サブフレーム単位でピッチ周期探索が終了する度に、評価尺度比較部106からフィードバックされるピッチ周期インデックスIDXが示すピッチ周期T’を有する適応音源ベクトルを用いて駆動音源を更新する。
適応音源ベクトル生成部103は、ピッチ周期指示部101から指示されるピッチ周期候補Tを有する適応音源ベクトルを適応音源符号帳102からサブフレーム長mだけ切り出し、適応音源ベクトルP(T)として評価尺度算出部105に出力する。例えば、適応音源符号帳102が、ベクトル要素としてexc(0),exc(1),…,exc(e−1)で表される、eの長さを持つベクトルからなる場合、適応音源ベクトル生成部103において生成される適応音源ベクトルP(T)は、下記の式(1)で表される。
Figure 0005511372
図2は、適応音源符号帳102が備える駆動音源を示す図である。
図2において、eは駆動音源121の長さを表し、mは適応音源ベクトルP(T)の長さを示し、Tはピッチ周期指示部101から指示されるピッチ周期候補を示す。図2に示すように、適応音源ベクトル生成部103は、駆動音源121(適応音源符号帳102)の末尾(eの位置)からTだけ離れた位置を起点とし、ここから末尾eの方向へサブフレーム長mの部分122を切り出し、適応音源ベクトルP(T)を生成する。ここで、Tの値がmより小さい場合、適応音源ベクトル生成部103は、切り出した区間をサブフレーム長mになるまで反復して充足させると良い。なお、適応音源ベクトル生成部103は、上記の式(1)で表される切り出し処理を、ピッチ周期指示部101から指示される探索範囲内のすべてのTに対し繰り返す。
合成フィルタ104は、サブフレーム毎に入力される線形予測係数を用いて合成フィルタを構成する。そして、合成フィルタ104は、サブフレーム毎に入力されるサブフレームインデックスが第1サブフレームを示す場合は、下記の式(2)で表されるインパルス応答行列を生成する一方、サブフレームインデックスが第2サブフレームを示す場合は、下記の式(3)で表されるインパルス応答行列を生成して評価尺度算出部105に出力する。
Figure 0005511372
Figure 0005511372
式(2)および式(3)に示すように、サブフレームインデックスが第1サブフレームを示す場合のインパルス応答行列H、およびサブフレームインデックスが第2サブフレームを示す場合のインパルス応答行列H_aheadは、何れもサブフレーム長mだけ求められる。
評価尺度算出部105は、サブフレーム毎に入力されるサブフレームインデックスが第1サブフレームを示す場合には、下記の式(4)に示すターゲットベクトルXが入力されるとともに、合成フィルタ104からインパルス応答行列Hが入力され、下記の式(5)に従ってピッチ周期探索用の評価尺度Dist(T)を算出し評価尺度比較部106に出力する。また、評価尺度算出部105は、適応音源ベクトル量子化装置100にフレーム毎に入力されるサブフレームインデックスが第2サブフレームを示す場合には、下記の式(6)に示すターゲットベクトルX_aheadが入力されるとともに、合成フィルタ104からインパルス応答行列H_aheadが入力され、下記の式(7)に従ってピッチ周期探索用の評価尺度Dist(T)を算出し評価尺度比較部106に出力する。
Figure 0005511372
Figure 0005511372
Figure 0005511372
Figure 0005511372
式(5)および式(7)に示すように、評価尺度算出部105は、合成フィルタ104で生成されたインパルス応答行列HまたはH_aheadと、適応音源ベクトル生成部103で生成された適応音源ベクトルP(T)とを畳み込んで得られる再生ベクトルと、ターゲットベクトルXまたはX_aheadとの二乗誤差を評価尺度として求める。なお、
評価尺度算出部105において評価尺度Dist(T)を算出する際は、上記の式(5)または式(7)中のインパルス応答行列HまたはH_aheadの代わりに、インパルス応答行列HまたはH_aheadと、CELP音声符号化装置に含まれる聴覚重み付けフィルタのインパルス応答行列Wとを乗算して得られる行列H’(=H×W)またはH’_ahead(=H_ahead×W)を用いることが一般的である。ただし、以下の説明では、HまたはH_aheadと、H’またはH’_aheadとを区別せずHまたはH_aheadと記載することとする。
評価尺度比較部106は、サブフレーム毎に入力されるサブフレームインデックスに基づき、各サブフレームにおいて、評価尺度算出部105から入力される評価尺度Dist(T)が最大となる時のピッチ周期候補Tを各サブフレームのピッチ周期として求める。そして、評価尺度比較部106は、求められたピッチ周期T’を示すピッチ周期インデックスIDXを外部へ出力するとともに適応音源符号帳102に出力する。また、評価尺度比較部106は、評価尺度算出部105から入力される評価尺度Dist(T)のうち、第2サブフレームに対応するすべての評価尺度Dist(T)に対し比較を行う。そして、評価尺度比較部106は、そのうち最大の評価尺度Dist(T)に対応するピッチ周期T’を最適ピッチ周期として求め、求められたピッチ周期T’を示すピッチ周期インデックスIDXを外部へ出力するとともに適応音源符号帳102に出力する。また、評価尺度比較部106は、第1サブフレームのピッチ周期T’を外部および適応音源符号帳102に出力するとともにピッチ周期記憶部107にも出力する。
図3は、本実施の形態に係るピッチ周期指示部101の内部の構成を示すブロック図である。
ピッチ周期指示部101は、第1ピッチ周期指示部111、探索範囲算出部112、および第2ピッチ周期指示部113を備える。
第1ピッチ周期指示部111は、サブフレーム毎に入力されるサブフレームインデックスが第1サブフレームを示す場合に、第1サブフレーム用のピッチ周期探索範囲内のピッチ周期候補Tを適応音源ベクトル生成部103に順次指示する。ここで、第1サブフレーム用のピッチ周期探索範囲は、予め設定されており、探索解像度も予め設定されている。例えば、適応音源ベクトル量子化装置100が、第1サブフレームに対して、39から237までのピッチ周期の範囲を整数精度で探索し、20から38+2/3までのピッチ周期の範囲を三分の一精度で探索する場合、第1ピッチ周期指示部111は、ピッチ周期T=20、20+1/3,20+2/3,21,21+1/3,…,38+2/3,39,40,41,…,237を適応音源ベクトル生成部103に順次指示する。
探索範囲算出部112は、サブフレーム毎に入力されるサブフレームインデックスが第2サブフレームを示す場合に、ピッチ周期記憶部107から入力される第1サブフレームのピッチ周期T’に基づく「デルタラグ」のピッチ周期探索方法を用いたうえに、さらに所定のピッチ周期を境として探索解像度が遷移するように第2サブフレーム用のピッチ周期探索範囲を算出し、第2ピッチ周期指示部113に出力する。
第2ピッチ周期指示部113は、探索範囲算出部112で算出された探索範囲内のピッチ周期候補Tを適応音源ベクトル生成部103に順次指示する。
ここで、第1サブフレームのピッチ周期の前後の部分を、第2サブフレームにおけるピッチ周期探索の候補とする「デルタラグ」のピッチ周期探索方法について、例をあげて、より詳しく説明する。例えば、第2サブフレームに対し、第1サブフレームのピッチ周期T’の整数成分(T’_int)の前後のT’_int−2+1/3からT’_int+
1+2/3までのピッチ周期範囲を三分の一精度で、T’_int−3からT’_int−2までとT’_int+2からT’_int+4までとのピッチ周期の範囲を整数精度で探索する場合には、T=T’_int−3、T’_int−2、T’_int−2+1/3、T’_int−2+2/3、T’_int−1、T’_int−1+1/3、…、T’_int+1+1/3、T’_int+1+2/3、T’_int+2、T’_int+3、T’_int+4を第2サブフレームのピッチ周期候補Tとして適応音源ベクトル生成部103に順次指示する。
図4は、上記の「デルタラグ」というピッチ周期探索方法を説明するためのより詳しい例を示す図である。図4(a)は、第1サブフレームのピッチ周期探索範囲を示し、図4(b)は、第2サブフレームのピッチ周期探索範囲を示す。図4に示す例においては、20から237までの256種類(8ビット)の候補、すなわち、39から237までの整数精度の199個の候補と20から38+2/3までの三分の一精度の57個の候補との合計を用いてピッチ周期を探索する。探索の結果、例えば、第1サブフレームのピッチ周期T’として「37」が決定された場合、「デルタラグ」のピッチ周期探索方法を適用し、第2サブフレームにおいては、T’_int−3=37−3=34からT’_int+4=37+4=41までの16種類(4ビット)の候補を用いてピッチ周期を探索する。
図5は、本実施の形態に係る探索範囲算出部112において所定のピッチ周期「39」を境として探索解像度が遷移するように、第2サブフレーム用のピッチ周期探索範囲を算出した結果の一例を示す図である。図5に示すように、本実施の形態においては、T’_intが小さいほど、第2サブフレームのピッチ周期探索解像度をより高くしピッチ周期探索範囲を狭くする。例えば、T’_intが第1の閾値である「38」より小さい場合には、T’_int−2からT’_int+2までの範囲を三分の一精度で探索し、整数精度でピッチ周期探索を行う範囲をT’_int−3からT’_int+4までとする。これに対し、T’_intが第2の閾値である「40」より大きい場合には、T’_int−2からT’_int+2までの範囲を二分の一精度で探索し、整数精度でピッチ周期探索を行う範囲をT’_int−5からT’_int+6までとする。ここで、第2サブフレームのピッチ周期探索に用いられるビット数が決まっているため、探索解像度が高くなるほど探索範囲が狭くなる一方、探索解像度が低くなるほど探索範囲が広くなる。また、図5に示すように、本実施の形態においては、分数精度の探索範囲をT0_int−2からT0_int+2までの間に固定し、第3の閾値である「39」を境として探索解像度が二分の一精度から三分の一精度に遷移させる。なお、図5および図4(a)から分かるように、本実施の形態においては、第1サブフレームのピッチ周期探索解像度に合わせて第2サブフレームのピッチ周期探索範囲を算出し、第1サブフレームまたは第2サブフレームに係わらず所定のピッチ周期に対し常に一定の探索解像度を用いて探索を行う。
図6は、探索範囲算出部112において、図5に示すような第2サブフレーム用のピッチ周期探索範囲を算出する手順を示すフロー図である。
図6において、S_ilagおよびE_ilagは、整数精度の探索範囲の起点および終点を示し、S_dlagおよびE_dlagは、二分の一精度の探索範囲の起点および終点を示し、S_tlagおよびE_tlagは、三分の一精度の探索範囲の起点および終点を示す。ここで、二分の一精度の探索範囲および三分の一精度の探索範囲は整数精度の探索範囲に含まれる。すなわち、整数精度の探索範囲は第2サブフレームのピッチ周期探索範囲の全般であり、この探索範囲全般から分数精度の探索範囲を除く部分において、整数精度のピッチ周期探索が行われる。
図6において、ステップ(ST)1010〜ST1090は、整数精度の探索範囲を算出する手順を示し、ST1100〜ST1130は、三分の一精度の探索範囲を算出する
手順を示し、ST1140〜ST1170は、二分の一精度の探索範囲を算出する手順を示す。
より具体的には、探索範囲算出部112は、第1サブフレームのピッチ周期T’の整数成分T’_intの値を、3つの閾値「38」,「39」,「40」と比較し、T’_int<38である場合には(ST1010:YES)、T’_int−3を整数精度探索範囲の起点S_ilagと設定し、S_ilag+7を整数精度探索範囲の終点E_ilagと設定する(ST1020)。また、探索範囲算出部112は、T’_int=38である場合には(ST1030:YES)、T’_int−4を整数精度探索範囲の起点S_ilagと設定し、S_ilag+8を整数精度探索範囲の終点E_ilagと設定する(ST1040)。また、探索範囲算出部112は、T’_int=39である場合には(ST1050:YES)、T’_int−4を整数精度探索範囲の起点S_ilagと設定し、S_ilag+9を整数精度探索範囲の終点E_ilagと設定する(ST1060)。次いで、探索範囲算出部112は、T’_int=40である場合には(ST1070:YES)、T’_int−5を整数精度探索範囲の起点S_ilagと設定し、S_ilag+10を整数精度探索範囲の終点E_ilagと設定する(ST1080)。次いで、探索範囲算出部112は、T’_int=40でない場合(ST1070:NO)、すなわち、T’_int>40である場合には、T’_int−5を整数精度探索範囲の起点S_ilagと設定し、S_ilag+11を整数精度探索範囲の終点E_ilagと設定する(ST1090)。上記のように、本実施の形態においては、第1サブフレームのピッチ周期T’が長いほど第2サブフレームの整数精度のピッチ周期探索範囲、すなわち、第2サブフレームのピッチ周期探索の全般の範囲を広くする。
次いで、探索範囲算出部112は、T’_intを第4の閾値「41」と比較し、T’_int<41である場合には(ST1100:YES)、T’_int−2を三分の一精度の探索範囲の起点S_tlagと設定し、S_tlag+3を三分の一精度の探索範囲の終点E_tlagと設定する(ST1110)。次いで、探索範囲算出部112は、三分の一精度の探索範囲の終点E_tlagが「38」より大きい場合には(ST1120:YES)、「38」を三分の一精度の探索範囲の終点E_tlagと設定する(ST1130)。次いで、探索範囲算出部112は、T’_intが第5の閾値「37」より大きい場合には(ST1140:YES)、T’_int+2を二分の一精度の探索範囲の終点E_dlagと設定し、E_dlag−3を二分の一精度の探索範囲の起点S_dlagと設定する(ST1150)。次いで、探索範囲算出部112は、二分の一精度の探索範囲の起点S_dlagが「39」より小さい場合には(ST1160:YES)、「39」を二分の一精度の探索範囲の起点S_dlagと設定する(ST1170)。
探索範囲算出部112は、上記の図6に示す手順に従い探索範囲を算出すれば、図5に示すような、第2サブフレームのピッチ周期探索範囲が得られる。以下、探索範囲算出部112において算出されたピッチ周期探索範囲を用いて第2サブフレームのピッチ周期探索を行う方法と、上述した特許文献1記載のピッチ周期探索方法とを比較する。
図7は、特許文献1記載のピッチ周期探索方法の効果を説明するための図である。
図7においては、第2サブフレームのピッチ周期探索範囲を示し、図7に示すように、特許文献1記載のピッチ周期探索方法においては、第1サブフレームのピッチ周期T’の整数成分T’_intを閾値「39」と比較し、「39」以下である場合には、T’_int−3からT’_int+4の範囲を整数精度探索範囲とし、この整数精度探索範囲に含まれるT’_int−2からT’_int+2の範囲を三分の一精度の探索範囲とする。また、T’_intが閾値「39」より大きい場合には、T’_int−4からT’_int+5の範囲を整数精度探索範囲とし、この整数精度探索範囲に含まれるT’_in
t−3からT’_int+3の範囲を二分の一精度の探索範囲とする。
図7と図5とを比較すると分かるように、特許文献1記載のピッチ周期探索方法も本実施の形態に係るピッチ周期探索方法と同様に、第1サブフレームのピッチ周期T’の整数成分T’_intの値に応じて、第2サブフレームのピッチ周期探索範囲およびピッチ周期探索解像度を変化させることができるものの、所定の閾値、例えば「39」を境として、ピッチ周期探索の解像度を遷移させることができない。従って、所定のピッチ周期に対し常に一定の分数精度解像度を用いてピッチ周期探索を行うことができない。これに対し、本実施の形態においては、例えば、「39」以下のピッチ周期に対し常に二分の一精度で探索を行うことができ、分数精度の適応音源ベクトルを生成する際に必要な間挿フィルタの数を削減することができる。
以上、本実施の形態に係る適応音源ベクトル量子化装置100の構成および動作について説明した。
適応音源ベクトル量子化装置100を含むCELP音声符号化装置は、評価尺度比較部106において生成されたピッチ周期インデックスIDXを含む音声符号化情報を、本実施の形態に係る適応音源ベクトル逆量子化装置を含むCELP復号装置に送信する。CELP復号装置は、受信した音声符号化情報を復号しピッチ周期インデックスIDXを得て、本実施の形態に係る適応音源ベクトル逆量子化装置へ出力する。なお、CELP復号装置における音声復号処理も、CELP音声符号化装置における音声符号化処理と同様にサブフレーム単位で行われ、CELP復号装置はサブフレームインデックスを本実施の形態に係る適応音源ベクトル逆量子化装置へ出力する。
図8は、本実施の形態に係る適応音源ベクトル逆量子化装置200の主要な構成を示すブロック図である。
図8において、適応音源ベクトル逆量子化装置200は、ピッチ周期判定部201、ピッチ周期記憶部202、適応音源符号帳203、および適応音源ベクトル生成部204を備え、CELP音声復号装置において生成されたサブフレームインデックスおよびピッチ周期インデックスIDXが入力される。
ピッチ周期判定部201は、サブサブフレームインデックスが第1サブフレームを示す場合には、入力されるピッチ周期インデックスIDXに対応するピッチ周期T’をピッチ周期記憶部202、適応音源符号帳203、および適応音源ベクトル生成部204に出力する。また、ピッチ周期判定部201は、サブサブフレームインデックスが第2サブフレームを示す場合には、ピッチ周期記憶部202に記憶されているピッチ周期T’を読み出して適応音源符号帳203および適応音源ベクトル生成部204に出力する。
ピッチ周期記憶部202は、ピッチ周期判定部201から入力される第1サブフレームのピッチ周期T’を記憶し、第2サブフレームの処理においてピッチ周期判定部201により読み出される。
適応音源符号帳203は、適応音源ベクトル量子化装置100の適応音源符号帳102が備える駆動音源と同様な駆動音源を格納するバッファを内蔵しており、サブフレーム毎の適応音源復号処理が終わる度に、ピッチ周期判定部201から入力されるピッチ周期T’を有する適応音源ベクトルを用いて駆動音源を更新する。
適応音源ベクトル生成部204は、ピッチ周期判定部201から入力されるピッチ周期T’を有する適応音源ベクトルP’(T’)を適応音源符号帳203からサブフレーム長
mだけ切り出し、サブフレーム毎の適応音源ベクトルとして出力する。適応音源ベクトル生成部204において生成される適応音源ベクトルP’(T’)は、下記の式(8)で表される。
Figure 0005511372
このように、本実施の形態によれば、第1サブフレームのピッチ周期に応じて第2サブフレームのピッチ周期探索範囲を算出するピッチ周期探索範囲設定方法を用いた場合であっても、所定の閾値を境としてピッチ周期探索の解像度を切り換えることで、所定のピッチ周期に対し常に一定の分数精度解像度を用いて探索を行うことができ、ピッチ周期の量子化性能を向上させることができる。そしてその結果として、分数精度の適応音源ベクトルを生成する際に必要な間挿フィルタの数を削減することが可能となるため、メモリを節約することも可能となる。
なお、本実施の形態では、線形予測残差ベクトルを入力とし、適応音源符号帳を用いて線形予測残差ベクトルのピッチ周期を探索する場合を例にとって説明した。しかし、本発明はこれに限定されず、音声信号そのものを入力とし、音声信号そのもののピッチ周期を直接探索しても良い。
また、本実施の形態では、ピッチ周期の候補として「20」から「237」までの範囲を例にとって説明した。しかし、本発明はこれに限定されず、他の範囲をピッチ周期の候補としても良い。
また、本実施の形態では、適応音源ベクトル量子化装置100を含むCELP音声符号化装置において1つのフレームを2つのサブフレームに分割して各々のサブフレームに対し線形予測分析を行うことを前提として説明した。しかし、本発明はこれに限定されず、CELP方式の音声符号化装置において、1つのフレームを3つ以上のサブフレームに分割して各々のサブフレームに対し線形予測分析を行うことを前提としても良い。
本発明に係る適応音源ベクトル量子化装置および適応音源ベクトル逆量子化装置は、音声伝送を行う移動体通信システムにおける通信端末装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置を提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る適応音源ベクトル量子化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る適応音源ベクトル量子化装置および適応音源ベクトル逆量子化装置と同様の機能を実現することができる。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スー
パーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2007年3月2日出願の特願2007−053529の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係る適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法は、音声符号化および音声復号等の用途に適用することができる。
本発明の一実施の形態に係る適応音源ベクトル量子化装置の主要な構成を示すブロック図 本発明の一実施の形態に係る適応音源符号帳が備える駆動音源を示す図 本発明の一実施の形態に係るピッチ周期指示部の内部の構成を示すブロック図 従来技術に係る「デルタラグ」というピッチ周期探索方法を説明するための図 本発明の一実施の形態に係る探索範囲算出部において第2サブフレーム用のピッチ周期探索範囲およびピッチ周期探索解像度を算出した結果の一例を示す図 本発明の一実施の形態に係る探索範囲算出部において第2サブフレーム用のピッチ周期探索範囲およびピッチ周期探索解像度を算出する手順を示すフロー図 従来技術に係るピッチ周期探索方法の効果を説明するための図 本発明の一実施の形態に係る適応音源ベクトル逆量子化装置の主要な構成を示すブロック図

Claims (2)

  1. フレームを分割した2つのサブフレームのうち、第1サブフレームについては固定の範囲内でピッチ周期を探索し、第2サブフレームについては前記第1サブフレームで求められたピッチ周期の近傍の範囲内からピッチ周期を探索し、この探索したピッチ周期の情報を量子化データとする適応音源ベクトル量子化装置であって、
    所定のピッチ周期を境として、前記固定の範囲内で解像度を変化させて前記第1サブフレームのピッチ周期を探索する第1ピッチ周期探索手段と、
    前記第1サブフレームで求められたピッチ周期および前記所定のピッチ周期に基づいて前記第2サブフレームのピッチ周期探索範囲を算出する算出手段と、
    前記所定のピッチ周期を境として、前記ピッチ周期探索範囲内で解像度を変化させて前記第2サブフレームのピッチ周期を探索する第2ピッチ周期探索手段と、
    を具備する適応音源ベクトル量子化装置。
  2. フレームを分割した2つのサブフレームのうち、第1サブフレームについては固定の範囲内でピッチ周期を探索し、第2サブフレームについては前記第1サブフレームで求められたピッチ周期の近傍の範囲内からピッチ周期を探索し、この探索したピッチ周期の情報を量子化データとする適応音源ベクトル量子化方法であって、
    所定のピッチ周期を境として、前記固定の範囲内で解像度を変化させて前記第1サブフレームのピッチ周期を探索する第1ピッチ周期探索ステップと、
    前記第1サブフレームで求められたピッチ周期および前記所定のピッチ周期に基づいて前記第2サブフレームのピッチ周期探索範囲を算出する算出ステップと、
    前記所定のピッチ周期を境として、前記ピッチ周期探索範囲内で解像度を変化させて前記第2サブフレームのピッチ周期を探索する第2ピッチ周期探索ステップと、
    を具備する適応音源ベクトル量子化方法。
JP2009502459A 2007-03-02 2008-02-29 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 Expired - Fee Related JP5511372B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009502459A JP5511372B2 (ja) 2007-03-02 2008-02-29 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007053529 2007-03-02
JP2007053529 2007-03-02
JP2009502459A JP5511372B2 (ja) 2007-03-02 2008-02-29 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法
PCT/JP2008/000405 WO2008108081A1 (ja) 2007-03-02 2008-02-29 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法

Publications (2)

Publication Number Publication Date
JPWO2008108081A1 JPWO2008108081A1 (ja) 2010-06-10
JP5511372B2 true JP5511372B2 (ja) 2014-06-04

Family

ID=39737979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009502459A Expired - Fee Related JP5511372B2 (ja) 2007-03-02 2008-02-29 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法

Country Status (5)

Country Link
US (1) US8521519B2 (ja)
EP (1) EP2116995A4 (ja)
JP (1) JP5511372B2 (ja)
CN (1) CN101622664B (ja)
WO (1) WO2008108081A1 (ja)

Families Citing this family (180)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20110026581A1 (en) * 2007-10-16 2011-02-03 Nokia Corporation Scalable Coding with Partial Eror Protection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
WO2009090876A1 (ja) * 2008-01-16 2009-07-23 Panasonic Corporation ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) * 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
ES2757700T3 (es) 2011-12-21 2020-04-29 Huawei Tech Co Ltd Detección y codificación de altura tonal muy débil
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN113782050A (zh) * 2021-09-08 2021-12-10 浙江大华技术股份有限公司 声音变调方法、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04305135A (ja) * 1991-04-01 1992-10-28 Nippon Telegr & Teleph Corp <Ntt> 音声のピッチ予測符号化法
JP2000112498A (ja) * 1998-10-08 2000-04-21 Toshiba Corp 音声符号化方法
JP2003044099A (ja) * 2001-08-02 2003-02-14 Matsushita Electric Ind Co Ltd ピッチ周期探索範囲設定装置及びピッチ周期探索装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5513297A (en) * 1992-07-10 1996-04-30 At&T Corp. Selective application of speech coding techniques to input signal segments
DE69615227T2 (de) * 1995-01-17 2002-04-25 Nec Corp Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US7222070B1 (en) * 1999-09-22 2007-05-22 Texas Instruments Incorporated Hybrid speech coding and system
US6584437B2 (en) * 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP4305135B2 (ja) 2003-11-05 2009-07-29 株式会社安川電機 リニアモータシステム
JP2007053529A (ja) 2005-08-17 2007-03-01 Sony Ericsson Mobilecommunications Japan Inc 携帯情報端末及びそのデータバックアップ方法
US20090198491A1 (en) * 2006-05-12 2009-08-06 Panasonic Corporation Lsp vector quantization apparatus, lsp vector inverse-quantization apparatus, and their methods
JP5241509B2 (ja) * 2006-12-15 2013-07-17 パナソニック株式会社 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04305135A (ja) * 1991-04-01 1992-10-28 Nippon Telegr & Teleph Corp <Ntt> 音声のピッチ予測符号化法
JP2000112498A (ja) * 1998-10-08 2000-04-21 Toshiba Corp 音声符号化方法
JP2003044099A (ja) * 2001-08-02 2003-02-14 Matsushita Electric Ind Co Ltd ピッチ周期探索範囲設定装置及びピッチ周期探索装置

Also Published As

Publication number Publication date
US8521519B2 (en) 2013-08-27
EP2116995A4 (en) 2012-04-04
CN101622664B (zh) 2012-02-01
US20100063804A1 (en) 2010-03-11
JPWO2008108081A1 (ja) 2010-06-10
EP2116995A1 (en) 2009-11-11
WO2008108081A1 (ja) 2008-09-12
CN101622664A (zh) 2010-01-06

Similar Documents

Publication Publication Date Title
JP5511372B2 (ja) 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法
JP5230444B2 (ja) 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法
KR100464369B1 (ko) 음성 부호화 시스템의 여기 코드북 탐색 방법
JP5596341B2 (ja) 音声符号化装置および音声符号化方法
JPWO2008155919A1 (ja) 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法
JP3981399B1 (ja) 固定符号帳探索装置および固定符号帳探索方法
JP5241509B2 (ja) 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法
JP3180786B2 (ja) 音声符号化方法及び音声符号化装置
JP6122961B2 (ja) 自己相関ドメインにおけるacelpを用いたスピーチ信号の符号化装置
JP6644848B2 (ja) ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
JPH04344699A (ja) 音声符号化・復号化方法
US20100049508A1 (en) Audio encoding device and audio encoding method
JPH0519795A (ja) 音声の励振信号符号化・復号化方法
JPH113098A (ja) 音声符号化方法および装置
JPH0519796A (ja) 音声の励振信号符号化・復号化方法
KR20110086919A (ko) 에스엠브이 및 에이엠알 음성 부호화 기법을 위한 상호부호화 방법 및 장치
JP3024467B2 (ja) 音声符号化装置
KR20220084294A (ko) 생성 모델을 사용한 오디오 신호의 파형 코딩 방법 및 시스템
JPH10207495A (ja) 音声情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140325

R151 Written notification of patent or utility model registration

Ref document number: 5511372

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees