JP2008122533A - 音声処理装置とその制御方法、及び、コンピュータプログラム - Google Patents

音声処理装置とその制御方法、及び、コンピュータプログラム Download PDF

Info

Publication number
JP2008122533A
JP2008122533A JP2006304408A JP2006304408A JP2008122533A JP 2008122533 A JP2008122533 A JP 2008122533A JP 2006304408 A JP2006304408 A JP 2006304408A JP 2006304408 A JP2006304408 A JP 2006304408A JP 2008122533 A JP2008122533 A JP 2008122533A
Authority
JP
Japan
Prior art keywords
voice
input data
audio
packet
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006304408A
Other languages
English (en)
Other versions
JP5013822B2 (ja
JP2008122533A5 (ja
Inventor
Daisuke Kuroki
大輔 黒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006304408A priority Critical patent/JP5013822B2/ja
Publication of JP2008122533A publication Critical patent/JP2008122533A/ja
Publication of JP2008122533A5 publication Critical patent/JP2008122533A5/ja
Application granted granted Critical
Publication of JP5013822B2 publication Critical patent/JP5013822B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】単一の音声パケットに含まれる音声入力データのみ用いて音声処理を行う場合でも、精度の高い音声処理を可能とする。
【解決手段】音声データを分割し、該分割した音声データを第1の音声入力データとしてヘッダ情報と共にパケット化した第1の音声パケットに基づき、該第1の音声入力データの音声処理を行う音声処理装置であって、分割した音声データにおいて、第1の音声入力データの直前及び直後の少なくともいずれかに位置する音声データを、該第1の音声入力データを音声処理する際の参照用の音声入力データとし、第1の音声入力データと参照用の音声入力データとを含む第2の音声パケットを生成し、該第2の音声パケットに含まれる第1の音声入力データと参照用の音声入力データとを用いて、該第1の音声入力データの周波数特性の解析を含む音声処理を行う。
【選択図】図1

Description

本発明は、音声処理装置とその制御方法、及び、コンピュータプログラムに関する。
放送を受信し映像と音声を出力するテレビ、MP3やACCなどの音声圧縮方式で圧縮された音声データを再生する携帯プレーヤー、人が発する声の命令を聞き動作するロボットなど、音声を扱うシステムは、様々な分野に数多く存在する。
それら音声を扱うシステムでは、音声データをハードウエアによる音声処理や、DSPやプロセッサ上で動作するプログラムであるソフトウエアによる音声処理を行っている。音声処理の例としては、音声出力レベルを一定の範囲に抑えるレベル制御や人の声だけを抽出するためのノイズ除去などがあり、ニュース番組などにおいて、アナウンサーの声を聞き取りやすいよう音声処理を行っているテレビ等がある。その他にも、音声合成、話者認識など様々な音声処理が存在する。
それら音声処理を行っているシステム、即ち、音声処理システムでは、一連の音声入力データを、時間区間もしくはデータサイズごとに分割しパケット化した音声パケットで、音声データを扱うことがある。例えば、MPEG1による圧縮ビデオ・オーディオストリームにおける1音声パケットは、13Byteのパケットヘッダと2279Byteの音声データから構成されている。即ち、圧縮した音声データを2279Byteごとに分割し、パケット化している。
図4および図5を用いて、従来例を説明する。図4は、従来の音声パケットの構成を示す図である。
図4において、音声パケット400は、以下のように構成される。まず、パケットスタート401はパケットの開始を示す。パケットタイプ402は、パケットの種類・属性を示す。データ長403は、音声データのデータ長を示す。そして、音声入力データ404は、音声処理を行い出力する区間に対応する音声データである。
このうち、パケットタイプ402は、8ビット(0ビット目から7ビット目まで)で構成され、2ビット目に音声データか否かを示すフラグ領域402aを有する。ここでは、フラグ値が1の場合に音声データであることを示す。よって、図4の場合、2ビット目が1であるので、音声データとなる。なお、0ビット目及び1ビット目の領域402b及び402cは、今後の拡張のために予約されたリザーブ領域である。
次に、図5は、従来の音声パケット化の例を示す図である。501は、音声波形データであり、横軸が時間、縦軸が出力になる。502、503、504は、音声波形データ501を、所定の単位時間で分割しパケット化した音声パケットに含まれる音声入力データである。
音声波形データ501は、時間の早い順に右から時間TからT+1、T+2・・・・とT+10まで10区間に分割され、パケット化の単位時間を2区間ごとする。よって、音声入力データ502は、T+2からT+4までの区間をパケット化した音声パケットN+1に含まれる音声入力データとなる。また、音声入力データ503は、T+4からT+6までの区間をパケット化した音声パケットN+2に含まれる音声入力データとなる。更に、音声入力データ504は、T+6からT+8までの区間をパケット化した音声パケットN+3に含まれる音声入力データとなる。
これらの音声入力データを処理するための音声処理方法としては、上記のように様々な方法が考案されているが、それらの多くは周波数特性の解析に基づいている。音声入力データに時間区間ごとにFFT(Fast Fourier Transform:高速フーリエ変換)を行い、周波数成分を抽出し、その解析結果をもとに様々な音声処理を適用する。FFTでは、2のべき乗個の有限データが連続的に繰り返されているとみなして計算が行われる。このため、音声入力データの時間区間の両端でデータが不連続となる場合、解析結果が不正確となる。従って、1音声パケットが持つ音声入力データが定常とみなせる時間区間でない場合は、前後の音声入力データをもつ音声パケットをメモリ等に蓄積・バッファリングし、それら音声入力データを参照してFFTを適用する。
図5を用いてその一例を説明する。ここでは、音声パケットN+2に含まれる音声入力データ503に対して音声処理を行う場合を考える。
音声入力データ503の両端は不連続で、定常とみなせる時間区間でない。対象となる音声入力データ503と時間的に前後となる、音声パケットN+1及びN+3のそれぞれに含まれる音声入力データ502及び504が参照用の音声入力データとして必要となる。そこで、音声処理システムでは、これらの参照用の音楽入力データをバッファなどに蓄積しておき、3音声パケット分の音声入力データを参照して音声解析を行い、音声入力データ503に対して音声処理を適用し出力する。
なお、特許文献1は、通信時における音声パケットのロスに対して、パケットに冗長データを持たせ、データを復元する発明を記載する。具体的に、冗長データとして排他的論理和のデータを付加している。
特開2002−261819号公報
音声処理では、負荷の大きな音声処理をリアルタイムで行うため、複数の音声処理モジュールを用いて音声処理を分散して処理を行う場合がある。また、複数チャンネルの音声データを1つの音声処理モジュールを用いて音声処理を並列して処理する場合もある。このように当該音声パケット単位でのみ音声処理を行う場合、音声処理対象となる音声入力データの前後の参照用音声入力データを蓄積できず、精度の高い音声解析が行えないという問題がある。
当該音声パケットの音声入力データのみを参照し音声解析しても、不正確な解析結果を招くこととなり、これに基づく音声処理では音声パケット間の音声出力データの境界で、音声を聞く者に違和感を与えることになる。
そこで、本発明は、単一の音声パケットに含まれる音声入力データのみ用いて音声処理を行う場合でも、精度の高い音声処理を可能とすることを目的とする。
上記課題を解決するための本発明は、音声データを分割し、該分割した音声データを第1の音声入力データとしてヘッダ情報と共にパケット化した第1の音声パケットに基づき、該第1の音声入力データの音声処理を行う音声処理装置であって、
前記分割した音声データにおいて、前記第1の音声入力データの直前及び直後の少なくともいずれかに位置する音声データを、該第1の音声入力データを前記音声処理する際の参照用の音声入力データとして選択する選択手段と、
前記第1の音声入力データと、前記参照用の音声入力データとを含む、第2の音声パケットを生成する第1のパケット生成手段と、
前記第2の音声パケットに含まれる、前記第1の音声入力データと前記参照用の音声入力データとを用いて、該第1の音声入力データの周波数特性の解析を含む前記音声処理を行う音声処理手段とを備える。
本発明によれば、単一の音声パケットに含まれる音声入力データのみ用いて音声処理を行う場合でも、精度の高い音声処理を行うことができる。
以下、添付図面を用いて、本発明における実施形態を説明する。
図1は、本発明における音声パケットの構成例を示す図である。図1において、音声パケット100は、以下のように構成される。まず、パケットスタート101はパケットの開始を示す。パケットタイプ102は、パケットの種類・属性を示す。データ長103は、音声データのデータ長を示す。そして、音声入力データ104は、音声処理を行い出力する区間に対応する音声データである。ここまでは、図4で説明した従来の音声パケットの構成と同様である。
そして、本実施形態に対応する音声パケットは、この構成に追加して、参照用のデータ領域105及び106を含む点に特徴を有する。まず、データ領域105は、音声処理を行い出力する区間に対応する音声入力データ104に対して、時間的に直前の参照用の音声入力データ105bとそのデータ長105aとを含む。次に、データ領域106は、音声処理を行い出力する区間に対応する音声入力データ104に対して、時間的に直後の参照用の音声入力データ106bとそのデータ長106aとが含まれる。
また、本実施形態に対応する音声パケットでは、パケットタイプ102に含まれる情報に更なる特徴を有する。まずパケットタイプ102は、8ビット(0ビット目から7ビット目)までで構成され、2ビット目のフラグ領域102aに音声データか否かを示すフラグを有する。ここまでは、従来と同様である。その上で本実施形態では、0ビット目及び1ビット目という従来はリザーブ領域とされていた領域に、参照用の音楽入力データがパケット内に付加されているか否か(存在の有無)を示すフラグ領域102b及び102cを設定している。
具体的に、1ビット目のフラグ領域102bには、データ領域105に参照用の音声入力データ105bが含まれるか否かを表す情報としてのフラグ値が設定される。また、0ビット目のフラグ領域102cには、データ領域106に参照用の音楽入力データ106bが含まれるか否かを表す情報としてのフラグ値が設定される。これらのフラグ値が「1」の場合に、対応する領域にデータを含むこととなる。本実施形態では、2ビット目から0ビット目までの各フラグ領域のフラグ値が1であるので、領域104から106までに、音楽入力データをそれぞれ含むこととなる。
なお、本実施形態において、参照用の音声入力データは、音声入力データ104に対して時間的に直前の音声入力データ、直後の音声入力データ、もしくは両方の音声入力データのいずれでもよい。
次に、図2を参照して、音声データのパケット化について説明する。音声データ201は、図5の音声データ501と同一の音声データである。図2において、横軸が時間、縦軸が出力になる。音声データ202及び206は、本実施形態に対応する音声パケット100に含まれる音声データを示す。まず、音声データ202において、204は、音声パケットN+1における音声処理を行い出力する区間に対応する音声入力データを示す。また、203は、音声入力データ204に対して時間的に直前の参照用の音声入力データを示す。205は、音声入力データ204に対して時間的に直後の参照用の音声入力データを示している。
次に、音声データ206において、208は、音声パケットN+2における音声処理を行い出力する区間に対応する音声入力データを示す。次に、207は、音声入力データ208に対して時間的に直前の参照用の音声入力データを示す。209は、音声入力データ208に対して時間的に直後の参照用の音声入力データを示す。
図2において、音声データ201は、時間の早い順に右から時間TからT+1、T+2・・・・とT+10まで、時間方向において10区間に分割される。本実施形態では、分割された音声データ201を2区間ごとの単位で音声入力データとしてパケット化する。また、パケット化された音声入力データの前後の音声データ1区間ずつを、参照用の音声入力データとしてデータ領域105及び106に付加する。
例えば、T+2からT+4までの区間の音声データを音声入力データ104としてパケット化して音声パケットN+1(202)を構成する場合、該音声パケット202には以下の音声入力データが含まれる。即ち、T+2からT+4までの音声入力データ204、T+1からT+2までの直前の参照用の音声入力データ203、T+4からT+5までの直後の参照用の音声入力データ205である。
次に、T+4からT+6までの区間の音声データを音声入力データ104としてパケット化して音声パケットN+2(206)を構成する場合、該音声パケット206には以下の音声入力データが含まれる。即ち、T+4からT+6までの音声入力データ208、T+3からT+4までの直前の参照用の音声入力データ207、T+6からT+7までの直後の参照用の音声入力データ209である。
音声パケットN+1(202)に対して音声処理を行う場合、まずは、音声入力データ204と、参照用の音声入力データ203及び205とを用いてFFTによる音声解析を行う。そして、この解析結果を用いて、対象となる音声入力データ204に対する音声処理を行う。なお、音声処理の例としては、周波数特性の解析を利用した上述のレベル制御、ノイズ除去、音声合成、或いは、話者認識などが含まれるが、FFTによる音声解析も音声処理の一部に含むことができる。
このようにして、音声入力データ204単独ではなく、参照用の音声入力データ203及び205を併せて用いて音声解析を行うことにより、より精度の高い解析が可能となる。また、音声入力データ204に対して、適切なパラメータを用いた音声処理が可能となる。
なお、音声データ201の先頭では、時間的に直前の音声入力データが存在しないため、直後の参照用の音声入力データのみを付加する。また、音声データ201の最後尾では、時間的に直後の音声入力データが存在しないため、直前の参照用の音声入力データのみを付加する。
また、図2では、参照用の音声入力データとして、直前、直後の1単位時間分の音声データを利用したが、発明の実施形態はこれに限定されるものではない。即ち、分割された音声データの任意の分割単位に基づいて選択することができ、たとえば、分割単位の2つ分の音声データを参照用の音声入力データとして利用してもよいし、更に多くの分割単位分の音声データを利用してもよい。
次に、図3を用いて、本実施形態に対応する音声処理装置の構成例を説明する。なお、該音声処理装置は、対応する処理プログラムをCPUのような演算装置により実行することによって実現されてもよいし、専用のハードウエアロジック回路やDSPを用いて実現してもよい。
図3において、音声パケット群301が音声処理装置に入力される。音声パケット群301に含まれる各音声パケットは、図4及び図5に示すようなパケット構造を有し、音声データをある一定時間区間で分割し、分割した音声データとヘッダ情報とをパケット化した音声パケットである。本実施形態では、時間の早い順N、N+1、N+2・・・に入力される。なお、この時点では、音声処理の為の参照用の音声入力データは含まれていない。
この音声パケット群301は、参照音声入力データ付加モジュール302に入力される。しかし、上述のように、音声パケット群301に含まれる各音声パケットの有する音声入力データのみでは、精度の高い音声処理が行えない。そこで、参照音声入力データ付加モジュール302は、時間的に前後の音声パケットに含まれる音声入力データを参照用の音声入力データとして当該音声パケットに付加し、また、参照用の音声入力データが付加されたことを示すフラグを立てる。これにより、新たな音声パケット303a乃至303cを生成する。
参照音声入力データ付加モジュール302からは、3つの音声処理モジュール304a乃至304cに対して並列に音声パケット303a乃至303cの出力が行われる。
例えば、音声パケット群301におけるパケット番号Nの音声パケットについては、該音声パケットの音声入力データNに対し時間的に直前の参照用の音声入力データとして、パケット番号N−1の音声パケットの音声入力データN−1が付加される。また、該音声パケットの音声入力データに対し時間的に直後の参照用の音声入力データとして、パケット番号N+1の音声パケットの音声入力データN+1が付加される。
なお、図3では、音声パケット303a乃至303cについて、3つのパケット番号のセットとして記載しているが、これは各番号に対応する音声入力データを含む1つのパケットを意味するものとして記載している。たとえば、音声パケット303aであれば、パケット番号N−1、N、N+1の3つの音声パケットに含まれる音声入力データN−1、N、N+1を含む1つのパケットを意味する。即ち、各パケットにおいて、3つの番号の中心に位置する番号が、該パケットにおける音声入力データを示し、残りの2つが参照用の音声入力データを示している。
音声処理モジュール304a乃至304cは、入力された各音声パケットの音声処理を行う。音声モジュール304a乃至304cのそれぞれは、音声パケット303a乃至303cを受け取ると、図2のパケット構造に示すフラグ領域102bと、フラグ領域102cとにおけるフラグ値を確認する。このフラグ値により、音声パケット303a等に参照用の音声入力データが含まれているか否かを判定することができる。もし、参照用の音声入力データが付加されている場合は、パケット内に含まれる音声入力データと、参照用の各音声入力データとを用いて音声解析を行い、その結果に基づき音声入力データに対して音声処理を行う。音声処理を行った後、参照用の音声入力データを音声パケット内から削除して、音声処理後の音声入力データを領域104に含む音声パケット305a乃至305cを出力する。
より具体的に、たとえば、音声処理モジュール304aは、音声パケット303aの音声入力データNと参照用の音声入力データN−1及びN+1とを用いて音声解析を行い、音声入力データNに対して処理を行い、音声入力データN'とする。その後、参照用の音声入力データN−1及びN+1を削除して、音声パケット305aを出力する。
音声処理モジュール304b及び304cでも同様にして、音声入力データN+1’及び音声入力データN+2’をそれぞれ含む音声パケット305b及び305cをそそれぞれ出力する。
音声出力モジュール306は、音声処理モジュールから出力された音声パケット305a乃至305cに基づき、音声出力を行う。音声出力の順は、パケット番号(N’、N+1’、N+2’)に従う。音声307は、音声出力モジュールから出力された音声である。
なお、図3では、参照用の音声入力データとして、パケット化されている直前、直後の2単位時間分の音声データを利用したが、発明の実施形態はこれに限定されるものではない。即ち、分割された音声データの任意の分割単位に基づいて選択することができ、たとえば、分割単位の1つ分の音声データを参照用の音声入力データとして利用してもよいし、更に多くの分割単位分の音声データを利用してもよい。
以上のようにして、参照用の音声入力データを音声パケットに付加することで、分散処理時に他の音声パケットを参照することなく音声処理を行う場合に、精度の高い音声処理を行うことができる。これは、分散処理のみではなく、並列処理など他の音声パケットを参照することなく音声パケット単位で音声処理を行う装置においても、同様に精度の高い音声処理を行うことが可能となる。
また、音声パケットが参照用の音声入力データを有するか否かを表す情報(フラグ値)が与えられるので、音声パケットに参照用の音声入力データが付加されているか否かを、当該音声パケットを解析するだけで知ることができる。
更に、参照用の音声入力データのデータ長の情報に基づいて、該参照用の音声入力データを音声パケットから効率的に抽出することができる。
[その他の実施形態]
本発明の目的は、前述した機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムに供給し、そのシステムがプログラムコードを読み出し実行することによっても達成される。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現し、そのプログラムコードを記憶した記憶媒体は本発明を構成する。また、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した機能が実現される場合も含まれる。
さらに、以下の形態で実現しても構わない。すなわち、記憶媒体から読み出されたプログラムコードを、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込む。そして、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行って、前述した機能が実現される場合も含まれる。
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
発明の実施形態に対応する音声パケットの構成例を示す図である。 発明の実施形態に対応する音声パケットの生成例を説明するための図である。 発明の実施形態に対応する分散処理による音声処理装置の構成例を示す図である。 従来例における音声パケットの構成を示す図である。 従来例における音声パケット化の例を示す図である。

Claims (11)

  1. 音声データを時間方向に分割し、該分割した音声データを第1の音声入力データとしてヘッダ情報と共にパケット化した第1の音声パケットに基づき、該第1の音声入力データの音声処理を行う音声処理装置であって、
    前記分割した音声データにおいて、前記第1の音声入力データの直前及び直後の少なくともいずれかに位置する音声データを、該第1の音声入力データを前記音声処理する際の参照用の音声入力データとして選択する選択手段と、
    前記第1の音声入力データと、前記参照用の音声入力データとを含む、第2の音声パケットを生成する第1のパケット生成手段と、
    前記第2の音声パケットに含まれる、前記第1の音声入力データと前記参照用の音声入力データとを用いて、該第1の音声入力データの周波数特性の解析を含む前記音声処理を行う音声処理手段と
    を備えることを特徴とする音声処理装置。
  2. 前記音声処理手段による前記音声処理が行われた場合に、前記第2の音声パケットから前記参照用の音声入力データを削除して、該音声処理後の第1の音声入力データを含む第3の音声パケットを生成する第2のパケット生成手段と、
    前記第3の音声パケットに含まれる前記音声処理後の第1の音声入力データを用いて音声出力を行う音声出力手段と
    をさらに備えることを特徴とする請求項1に記載の音声処理装置。
  3. 前記選択手段は、前記第1の音声入力データの直前及び直後の少なくともいずれかに位置する音声データを、前記分割した音声データの分割単位に基づいて選択することを特徴とする請求項1または2に記載の音声処理装置。
  4. 前記第2のパケット生成手段は、前記参照用の音声入力データの有無を表す情報を含むように、前記第2の音声パケットを生成することを特徴とする請求項1乃至3のいずれか1項に記載の音声処理装置。
  5. 前記第2のパケット生成手段は、前記参照用の音声入力データのデータ長を表す情報を含むように、前記第2の音声パケットを生成することを特徴とする請求項1乃至4のいずれか1項に記載の音声処理装置。
  6. 音声データを時間方向に分割し、該分割した音声データを第1の音声入力データとしてヘッダ情報と共にパケット化した第1の音声パケットに基づき、該第1の音声入力データの音声処理を行う音声処理装置の制御方法であって、
    前記分割した音声データにおいて、前記第1の音声入力データの直前及び直後の少なくともいずれかに位置する音声データを、該第1の音声入力データを前記音声処理する際の参照用の音声入力データとして選択する選択工程と、
    前記第1の音声入力データと、前記参照用の音声入力データとを含む、第2の音声パケットを生成する第1のパケット生成工程と、
    前記第2の音声パケットに含まれる、前記第1の音声入力データと前記参照用の音声入力データとを用いて、該第1の音声入力データの周波数特性の解析を含む前記音声処理を行う音声処理工程と
    を備えることを特徴とする音声処理装置の制御方法。
  7. 前記音声処理工程における前記音声処理が行われた場合に、前記第2の音声パケットから前記参照用の音声入力データを削除して、該音声処理後の第1の音声入力データを含む第3の音声パケットを生成する第2のパケット生成工程と、
    前記第3の音声パケットに含まれる前記音声処理後の第1の音声入力データを用いて音声出力を行う音声出力工程と
    をさらに備えることを特徴とする請求項6に記載の音声処理装置の制御方法。
  8. 前記選択工程では、前記第1の音声入力データの直前及び直後の少なくともいずれかに位置する音声データを、前記分割した音声データの分割単位に基づいて選択することを特徴とする請求項6または7に記載の音声処理装置の制御方法。
  9. 前記第2のパケット生成工程では、前記参照用の音声入力データの有無を表す情報を含むように、前記第2の音声パケットを生成することを特徴とする請求項6乃至8のいずれか1項に記載の音声処理装置の制御方法。
  10. 前記第2のパケット生成工程では、前記参照用の音声入力データのデータ長を表す情報を含むように、前記第2の音声パケットを生成することを特徴とする請求項6乃至9のいずれか1項に記載の音声処理装置の制御方法。
  11. コンピュータを、請求項1乃至5のいずれか1項に記載の音声処理装置として機能させるためのコンピュータプログラム。
JP2006304408A 2006-11-09 2006-11-09 音声処理装置とその制御方法、及び、コンピュータプログラム Expired - Fee Related JP5013822B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006304408A JP5013822B2 (ja) 2006-11-09 2006-11-09 音声処理装置とその制御方法、及び、コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006304408A JP5013822B2 (ja) 2006-11-09 2006-11-09 音声処理装置とその制御方法、及び、コンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2008122533A true JP2008122533A (ja) 2008-05-29
JP2008122533A5 JP2008122533A5 (ja) 2009-12-24
JP5013822B2 JP5013822B2 (ja) 2012-08-29

Family

ID=39507370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006304408A Expired - Fee Related JP5013822B2 (ja) 2006-11-09 2006-11-09 音声処理装置とその制御方法、及び、コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5013822B2 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184080A (ja) * 1999-12-22 2001-07-06 Internatl Business Mach Corp <Ibm> 圧縮オーディオデータへの電子透かし方法およびそのシステム
JP2002261819A (ja) * 2001-02-28 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> パケット冗長化によるロス改善方法及びシステム
JP2003533916A (ja) * 2000-05-11 2003-11-11 テレフォンアクチーボラゲット エル エム エリクソン(パブル) スピーチ符号化における前方向誤り訂正
JP2004356898A (ja) * 2003-05-28 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音声パケット送信装置とその方法並びに音声パケット受信装置及び音声パケット通信システム
JP2006146247A (ja) * 1995-09-29 2006-06-08 United Module Corp オーディオ復号装置
JP2006153908A (ja) * 2004-11-25 2006-06-15 Sony Computer Entertainment Inc 音声データエンコード装置および音声データデコード装置
WO2006090589A1 (ja) * 2005-02-25 2006-08-31 Pioneer Corporation 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体
JP2008111991A (ja) * 2006-10-30 2008-05-15 Ntt Docomo Inc 復号装置、符号化装置、復号方法及び符号化方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146247A (ja) * 1995-09-29 2006-06-08 United Module Corp オーディオ復号装置
JP2001184080A (ja) * 1999-12-22 2001-07-06 Internatl Business Mach Corp <Ibm> 圧縮オーディオデータへの電子透かし方法およびそのシステム
JP2003533916A (ja) * 2000-05-11 2003-11-11 テレフォンアクチーボラゲット エル エム エリクソン(パブル) スピーチ符号化における前方向誤り訂正
JP2002261819A (ja) * 2001-02-28 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> パケット冗長化によるロス改善方法及びシステム
JP2004356898A (ja) * 2003-05-28 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音声パケット送信装置とその方法並びに音声パケット受信装置及び音声パケット通信システム
JP2006153908A (ja) * 2004-11-25 2006-06-15 Sony Computer Entertainment Inc 音声データエンコード装置および音声データデコード装置
WO2006090589A1 (ja) * 2005-02-25 2006-08-31 Pioneer Corporation 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体
JP2008111991A (ja) * 2006-10-30 2008-05-15 Ntt Docomo Inc 復号装置、符号化装置、復号方法及び符号化方法

Also Published As

Publication number Publication date
JP5013822B2 (ja) 2012-08-29

Similar Documents

Publication Publication Date Title
EP3522151B1 (en) Method and device for processing dual-source audio data
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
US11568244B2 (en) Information processing method and apparatus
CN111192594B (zh) 人声和伴奏分离方法及相关产品
US20120053937A1 (en) Generalizing text content summary from speech content
JP2005241997A (ja) 音声解析装置、音声解析方法及び音声解析プログラム
JP5013822B2 (ja) 音声処理装置とその制御方法、及び、コンピュータプログラム
CN110620986B (zh) 音频处理算法的调度方法、装置、音频处理器和存储介质
CN111243618B (zh) 用于确定音频中的特定人声片段的方法、装置和电子设备
CN109410972B (zh) 生成音效参数的方法、装置及存储介质
CN104202321B (zh) 一种声音录制的方法及装置
CN106875967B (zh) 多个音频叠加播放方法与系统
JP4130927B2 (ja) 音響再生装置
CN113223499A (zh) 一种音频负样本的生成方法及装置
JP2002236499A (ja) 音楽信号圧縮装置、音楽信号圧縮伸張装置及び前処理制御装置
EP3499497A1 (en) Playback device and playback method
US20120048097A1 (en) Music sound generation apparatus, music sound generation system, and music sound generation method
KR20190093268A (ko) 디바이스 제어 방법 및 그 장치
TWI276961B (en) System, method and machine-readable storage medium for synchronization of still image and audio
WO2020004027A1 (ja) 情報処理装置、情報処理システム、プログラム及び情報処理方法
JP2010197607A (ja) 音声認識装置、音声認識方法およびプログラム
Alventosa et al. Implementation of the Beamformer Algorithm for the NVIDIA Jetson
KR101864925B1 (ko) 글로벌 모델 기반 오디오 객체 분리 방법 및 시스템
CN117765977A (zh) 重叠人声检测模型的训练方法、重叠人声检测方法及装置
CN115206345A (zh) 基于时频结合的音乐人声分离方法、装置、设备及介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120604

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120605

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150615

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5013822

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150615

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees