JP4520922B2 - Data format determination method, apparatus, program, and recording medium - Google Patents

Data format determination method, apparatus, program, and recording medium Download PDF

Info

Publication number
JP4520922B2
JP4520922B2 JP2005266870A JP2005266870A JP4520922B2 JP 4520922 B2 JP4520922 B2 JP 4520922B2 JP 2005266870 A JP2005266870 A JP 2005266870A JP 2005266870 A JP2005266870 A JP 2005266870A JP 4520922 B2 JP4520922 B2 JP 4520922B2
Authority
JP
Japan
Prior art keywords
data
input digital
digital data
value
data format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005266870A
Other languages
Japanese (ja)
Other versions
JP2007079127A (en
Inventor
健弘 守谷
登 原田
優 鎌本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005266870A priority Critical patent/JP4520922B2/en
Publication of JP2007079127A publication Critical patent/JP2007079127A/en
Application granted granted Critical
Publication of JP4520922B2 publication Critical patent/JP4520922B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

デジタルデータ中に音響データが含まれているかを判定する方法、装置、プログラム、および記録媒体に関する。 The method if there is any sound data determine Teisu Ru in the digital data, equipment, a program and a recording medium.

歪のない圧縮符号化としては、多くの提案がある。たとえば、文章やプログラムなどのテキストデータでは、ZIPという汎用的な圧縮符号化方法が良く使われる。一方、音楽信号などの歪のない圧縮符号化方法としては、たとえば特許文献1などがある。この方法の場合、ZIPより、はるかに効果的に圧縮できる。
圧縮しようとするデジタルデータを格納しているファイルに、統一的な拡張子が付されている場合は、テキストデータであるか音響データを含むものであるかは、その拡張子を見て判断できる。しかし、圧縮しようとするデジタルデータに拡張子が付されていない場合や、正しい拡張子が付されていない場合もあり、テキストデータであるか音響データを含むものであるかが分からないことも多い。このような場合に、効率良い圧縮符号化方法を選択して圧縮することができないため、特に音響データを含むデータを効率よく圧縮できていない。
There are many proposals for compression coding without distortion. For example, a general-purpose compression encoding method called ZIP is often used for text data such as sentences and programs. On the other hand, as a compression encoding method without distortion such as a music signal, there is, for example, Patent Document 1. This method can compress much more effectively than ZIP.
If the file storing the digital data to be compressed has a uniform extension, it can be determined by looking at the extension whether it is text data or audio data. However, the digital data to be compressed may not have an extension or may not have a correct extension, and it is often unclear whether the data is text data or audio data. In such a case, an efficient compression encoding method cannot be selected and compressed, and therefore data including acoustic data cannot be particularly efficiently compressed.

つまり、デジタルデータが音響データを含むものであるか否かを判別できれば、効率的に圧縮できる。しかし、従来技術では、そのような判定技術はなかった。
特開2005−115267号公報
In other words, if it can be determined whether or not the digital data includes acoustic data, it can be efficiently compressed. However, there is no such determination technique in the prior art.
JP 2005-115267 A

従来技術では、圧縮しようとするデジタルデータが格納されたファイルの拡張子を見て音響データを含むか否かを判定することは可能である。しかし、拡張子が付されていない場合は、デジタルデータが音響データを含むか否かを判定することはできない。その結果、音響データが保有する特徴を利用した符号化ができないため、符号化の効率が大幅に悪くなる。これはアナログ波形データをサンプリングして得られたデジタル波形データの場合でも同じである。本発明の目的は、入力されたデジタルデータが音響データ等の波形データを含むか否かを判別することにある。 In the prior art, it is possible to determine whether or not sound data is included by looking at the extension of a file in which digital data to be compressed is stored. However, if no extension is added, it cannot be determined whether the digital data includes acoustic data. As a result, since the encoding using the characteristics possessed by the acoustic data cannot be performed, the encoding efficiency is greatly deteriorated. This also applies to digital waveform data obtained by sampling analog waveform data. An object of the present invention, the digital data input is in the child determines whether or not containing waveform data such as sound data.

本発明では、入力されたデジタルデータが既知の1つまたは複数のデータ形式の波形データのサンプル値列であるとして、その波形データらしさを、サンプル値列内のサンプル値間の関係を用いて求める。求めた1つまたは複数の波形データらしさの中に、あらかじめ設定された条件を満足するものがある場合には、入力されたデジタルデータが波形データを含むと判別し、前記条件を満足するものがない場合には、入力されたデジタルデータは波形データを含まないと判別する In the present invention, assuming that the input digital data is a sample value sequence of waveform data in one or more known data formats, the likelihood of the waveform data is obtained using the relationship between the sample values in the sample value sequence. . If one or more of the obtained waveform data characteristics satisfy a preset condition, it is determined that the input digital data includes waveform data, and the waveform data satisfies the condition. If not, it is determined that the input digital data does not include waveform data .

本発明によれば、入力されたデジタルデータに波形データが含まれているか分からない場合にも、入力されたデジタルデータの波形データらしさを判断することで、入力されたデジタルデータが波形データを含むか否かを判別することができる。さらに、波形データを含むと判別された場合には、波形データとしてのデータ形式も予測できるので、どのような波形データ形式で符号化すればよいかも判定できる。したがって、効率的な符号化が期待できる。   According to the present invention, even if it is not known whether waveform data is included in the input digital data, the input digital data includes the waveform data by determining the likelihood of the waveform data of the input digital data. It can be determined whether or not. Furthermore, when it is determined that the waveform data is included, the data format as the waveform data can also be predicted, so it is also possible to determine what waveform data format should be used for encoding. Therefore, efficient encoding can be expected.

以下では、最も代表的なアナログ波形データである音響データに本発明を適用した実施形態を説明する。説明の重複を避けるため同じ機能を有する構成部や同じ処理を行う処理ステップには同一の番号を付与し、説明を省略する。
[第1実施形態]
本発明の音響データ形式判別装置の機能構成例を図1に示す。また、音響データ形式判別装置100の処理フローを図2に示す。データ形式判別装置100は、データ記録部110、指標判定部120、データ形式判別部130から構成される。また、指標判定部120は、格納形式記録部121、指標計算部124から構成される。データ形式判別部130は、指標比較部131を備えている。
In the following, an embodiment in which the present invention is applied to acoustic data, which is the most representative analog waveform data, will be described. In order to avoid duplication of description, the same number is assigned to a component having the same function or a process step performing the same process, and the description is omitted.
[First Embodiment]
An example of the functional configuration of the acoustic data format discrimination device of the present invention is shown in FIG. Moreover, the processing flow of the acoustic data format discrimination device 100 is shown in FIG. The data format determination device 100 includes a data recording unit 110, an index determination unit 120, and a data format determination unit 130. The index determination unit 120 includes a storage format recording unit 121 and an index calculation unit 124. The data format determination unit 130 includes an index comparison unit 131.

入力されたデジタルデータは、まずデータ記録部110に記録される(S110)。指標判定部120は、以下のように、入力されたデジタルデータをあらかじめ設定された形式の音響データであると仮定して、音響データらしさの判定を行い、各データ形式での音響データらしさの指標の値を出力する(S124)。まず、指標判定部120の指標計算部124は、格納形式記録部121にあらかじめ設定された1つまたは複数の音響データ用のデータ形式の中から、データ形式を順次選択する。次に、それぞれのデータ形式であるとした場合のサンプル値列内のサンプル値間の関係を用いて、入力されたデジタルデータに対して、それぞれのデータ形式であると想定した場合の音響データらしさを評価する。そして、各データ形式での音響データらしさの指標の値を出力する(S124)。ここで、あらかじめ設定されたデータ形式とは、複数種類の1サンプルあたりのビット数、整数表現であるか浮動小数点表現であるか、複数種類のサンプルごとのバイト格納順、複数種類のチャネル数などである。評価に用いるデジタルデータは入力されたもの全てであっても良いし、一部であっても良い。一部を用いる場合は、例えばデジタルデータの先頭の数千サンプル〜数万サンプルを用いればよい。音響データらしさの評価であれば、数千サンプル分で構成されるフレームごとに行う。   The input digital data is first recorded in the data recording unit 110 (S110). As described below, the index determination unit 120 assumes that the input digital data is acoustic data in a preset format, performs acoustic data likelihood determination, and indicates an acoustic data likelihood index in each data format. Is output (S124). First, the index calculation unit 124 of the index determination unit 120 sequentially selects a data format from one or a plurality of data formats for acoustic data set in the storage format recording unit 121 in advance. Next, using the relationship between the sample values in the sample value sequence when each data format is assumed, the input digital data is likely to be the acoustic data when it is assumed that each data format is used. To evaluate. Then, the index value of the sound data likelihood in each data format is output (S124). Here, the preset data format is the number of bits per sample of a plurality of types, whether it is an integer representation or a floating point representation, the byte storage order for a plurality of types of samples, the number of channels of a plurality of types, etc. It is. The digital data used for evaluation may be all input data or a part thereof. In the case of using a part, for example, the first thousands of samples to tens of thousands of samples of digital data may be used. For the evaluation of the likelihood of acoustic data, it is performed for each frame composed of several thousand samples.

具体的には、音響データらしさの指標として、次式を用いて評価する。

Figure 0004520922
Specifically, the following expression is used as an index of the likelihood of sound data.
Figure 0004520922

ただし、pはあらかじめ定めた正の整数、k(i=1〜p)はPARCOR係数。
Fは、p次の予測の場合の予測残差のエネルギーに対する入力信号のエネルギーの比を近似するものである。Fの値が大きい方が、音響データらしいと言え、入力されたデジタルデータを圧縮する場合は、音響データ用の符号化手段を用いることで高い圧縮効果が期待できる。なお、例えば、フレーム単位に音響データらしさの指標を計算する場合に、想定したデータ形式でのサンプル値列が複数フレーム分ある場合には、データ形式ごと、フレームごとの複数の指標の値が求まることになる。このように同じデータ形式で複数の指標の値がある場合には、それらの中の最大の値、すなわち最も音響データらしい指標の値を、当該データ形式でのサンプル値列に対する指標の値とする。
Here, p is a predetermined positive integer, and k i (i = 1 to p) is a PARCOR coefficient.
F approximates the ratio of the energy of the input signal to the energy of the prediction residual in the case of p-th order prediction. It can be said that a larger F value is more likely to be acoustic data, and when compressing input digital data, a high compression effect can be expected by using an encoding means for acoustic data. Note that, for example, when calculating an index of the likelihood of sound data in units of frames, if there are a plurality of sample value sequences in an assumed data format, the values of a plurality of indexes for each data format and each frame are obtained. It will be. Thus, when there are a plurality of index values in the same data format, the maximum value among them, that is, the index value that seems to be the most acoustic data, is set as the index value for the sample value string in the data format. .

データ形式判別部130は、各データ形式に対応する音響データらしさの指標(F)の値を比較し、最大の指標を与えるデータ形式、すなわち最も音響データらしいと判断されたデータ形式と、その形式での音響データらしさの指標(F)の値を得る。(S130)。また、データ形式判別部130の指標比較部131は、当該音響データらしさの指標(F)と閾値とを比較し、音響データらしいか否かを判断する(S131)。後述の実験例で説明するが、例えばFの値が1000以上の場合を音響データらしいと判断する。ステップS131がYesの場合には、データ形式判別部130は、音響データを含むと判別し、その旨と音響データのデータ形式を出力する(S141)。またステップS131がNoの場合には、データ形式判別部130は、音響データを含まないと判別し、その旨を出力する(S142)。なお、あらかじめ設定するデータ形式を1つとした場合は、ステップS124では順次データ形式を選択するのではなく、当該1つのデータ形式だけでの音響データらしさを求めればよい。また、ステップS130を行う必要がない。
このようにデータ形式を判別することで、入力されたデジタルデータに音響データが含まれるのか、および音響データが含まれる場合にはそのデータ形式を推定することができる。
The data format discriminating unit 130 compares the value of the index (F) of the acoustic data likelihood corresponding to each data format, and provides the data format that gives the maximum index, that is, the data format determined to be the most acoustic data, and the format The value of the index (F) of the likelihood of sound data at is obtained. (S130). Further, the index comparison unit 131 of the data format determination unit 130 compares the acoustic data-like index (F) with a threshold value, and determines whether or not the data is likely to be acoustic data (S131). As will be described in an experimental example described later, for example, a case where the value of F is 1000 or more is determined to be acoustic data. When step S131 is Yes, the data format discrimination | determination part 130 discriminate | determines that it contains acoustic data, and outputs that and the data format of acoustic data (S141). If step S131 is No, the data format determination unit 130 determines that no acoustic data is included, and outputs that effect (S142). Note that when one data format is set in advance, the data format is not selected sequentially in step S124, but it is only necessary to obtain the likelihood of acoustic data using only one data format. Further, there is no need to perform step S130.
By discriminating the data format in this way, it is possible to estimate whether the input digital data includes acoustic data and, if acoustic data is included, the data format.

[変形例1]
第1実施形態では、音響データらしさを示す指標としてFを用いたが、周波数領域に変換する符号化の場合には、次式を用いて評価することもできる。

Figure 0004520922
[Modification 1]
In the first embodiment, F is used as an index indicating the likelihood of sound data. However, in the case of encoding to be converted into the frequency domain, evaluation can be performed using the following expression.
Figure 0004520922

ただし、Mはあらかじめ定めた正の整数、Y(j=0〜M−1)はj番目の周波数領域係数の2乗値。
Eは、パワースペクトルに相当する係数の2乗値の相加平均の比である。係数値がjによらず一定であればE=1という最低値となる。この場合、入力されたデジタル音響データをそのデータ形式とした場合のサンプル値列は乱数であり、そのデータ形式では音響データらしいとは言えない。従って、入力されたデジタルデータを圧縮する場合に、音響データに特化した圧縮方法を利用しても、圧縮は期待できない。一方、係数の2乗値の変動が大きければEは大きな値となる。周波数領域の係数(スペクトル)の値に大きな変動があるということで、音響データらしいと言える。従って、入力されたデジタルデータを圧縮する場合に、音響データに特化した圧縮方法を利用すれば、圧縮後のデータ量を少なくできる。つまり、高い圧縮効果が期待できる。また、これはサンプル値間の相関が強いことも意味している。
したがって、この方法によっても、入力されたデジタルデータが音響データであるか否かを推定することができる。
Here, M is a predetermined positive integer, and Y j (j = 0 to M−1) is a square value of the j-th frequency domain coefficient.
E is an arithmetic mean ratio of square values of coefficients corresponding to the power spectrum. If the coefficient value is constant regardless of j, the minimum value is E = 1. In this case, the sample value sequence when the input digital acoustic data is in the data format is a random number, and it cannot be said that the data format seems to be acoustic data. Therefore, when the input digital data is compressed, compression cannot be expected even if a compression method specialized for acoustic data is used. On the other hand, if the variation of the square value of the coefficient is large, E becomes a large value. It can be said that it seems to be acoustic data because there is a large variation in the value of the coefficient (spectrum) in the frequency domain. Therefore, when compressing input digital data, the amount of data after compression can be reduced by using a compression method specialized for acoustic data. That is, a high compression effect can be expected. This also means that the correlation between sample values is strong.
Therefore, also by this method, it can be estimated whether the input digital data is acoustic data.

[変形例2]
音響データらしさを示す指標として、エネルギー/Fまたはエネルギー/Eを用いることもできる。エネルギー/Fまたはエネルギー/Eは、予測誤差のエネルギーの近似に相当し、これらの値が小さいほど音響データらしいと判断できる。したがって、この指標を用いる場合には、データ形式判別部130は、各データ形式に対応する指標(エネルギー/Fまたはエネルギー/E)の値を比較し、値が最も小さいデータ形式とその指標の値を得る(S130)。データ形式判別部130の指標比較部131は、当該音響データらしさの指標(エネルギー/Fまたはエネルギー/E)と閾値とを比較し、閾値より小さい場合に音響データらしいと判断し、そうでない場合は音響データらしくないと判断する(S131)。
[Modification 2]
Energy / F or energy / E can also be used as an index indicating the likelihood of acoustic data. Energy / F or energy / E corresponds to approximation of the energy of the prediction error, and it can be determined that the smaller the value, the more likely it is acoustic data. Therefore, when this index is used, the data format determination unit 130 compares the index (energy / F or energy / E) value corresponding to each data format, and the data format having the smallest value and the value of the index. Is obtained (S130). The index comparison unit 131 of the data format determination unit 130 compares the acoustic data-like index (energy / F or energy / E) with a threshold value, and determines that the data is likely to be acoustic data if it is smaller than the threshold value. It is determined that the sound data does not appear (S131).

[変形例3]
第1実施形態および変形例1、2では、ステップS131で単純に閾値との比較による判断をしていた。しかし、入力信号のデータ形式が1バイトか2バイト以上かによって、もしくはサンプル値列を波形の振幅とした場合のエネルギーの大きさによって、音響データが含まれるか否かの判断が変わる場合もある。そこで、本変形例では、データ形式判別部130の処理を変更した例を示す。
[Modification 3]
In the first embodiment and the first and second modifications, the determination is simply made by comparison with the threshold value in step S131. However, depending on whether the data format of the input signal is 1 byte, 2 bytes or more, or depending on the magnitude of energy when the sample value sequence is the amplitude of the waveform, the determination of whether or not acoustic data is included may change. . Therefore, in this modification, an example in which the processing of the data format determination unit 130 is changed is shown.

図3に本変形例でのデータ形式判別装置100の処理フローを示す。この処理フローでは、図6のステップS131の代わりに、ステップS132〜S136が実行される。以下にステップS132〜S136について説明する。データ形式判別部103は、入力信号のデータ形式が1バイト単位であると判別されたかを確認する(S132)。ステップS132がNoの場合には、データ形式判別部103は、サンプル値列を波形の振幅とした場合のエネルギーを計算し(S133)、エネルギーが閾値よりも小さいかを確認する(S134)。閾値としては、例えば最大振幅でのエネルギーの1/100とする方法などがある。ステップS134がYesの場合には、ステップS241に進む。また、ステップS134がNoの場合には、指標比較部131が、音響データらしさを示す指標が閾値より音響データらしいかを比較する(S135)。このステップでの、音響データらしさを示す指標であるFやEに対する閾値は、100程度とすれば良い。ステップS135がYesの場合にはステップS241へ進み、Noの場合にはステップS242へ進む。ステップS132がYesの場合には、指標比較部131が、音響データらしさを示す指標が閾値より音響データらしいかを比較する(S136)。このステップは第1実施形態(図2)のステップS131と同じである。
このように、バイト数やエネルギーの違いによって、音響データが含まれているか否かを細かく判断するため、より精度の高い判別が期待できる。
FIG. 3 shows a processing flow of the data format discrimination device 100 in this modification. In this processing flow, steps S132 to S136 are executed instead of step S131 of FIG. Steps S132 to S136 will be described below. The data format determination unit 103 confirms whether the data format of the input signal is determined to be in 1-byte units (S132). If step S132 is No, the data format determination unit 103 calculates the energy when the sample value sequence is the waveform amplitude (S133), and checks whether the energy is smaller than the threshold (S134). As the threshold value, for example, there is a method of setting the energy to 1/100 of the maximum amplitude. When step S134 is Yes, it progresses to step S241. If step S134 is No, the index comparison unit 131 compares whether the index indicating the likelihood of acoustic data is more likely to be acoustic data than the threshold (S135). In this step, the threshold value for F and E, which are indices indicating the likelihood of acoustic data, may be about 100. When step S135 is Yes, it progresses to step S241, and when it is No, it progresses to step S242. When step S132 is Yes, the index comparison unit 131 compares whether the index indicating the likelihood of acoustic data is more likely to be acoustic data than the threshold (S136). This step is the same as step S131 of the first embodiment (FIG. 2).
Thus, since it is determined in detail whether or not acoustic data is included, depending on the number of bytes and energy, it is possible to expect more accurate determination.

[第2実施形態]
図4に本実施形態の符号化装置の機能構成例を示す。また、図5に符号化装置200の処理フローを示す。符号化装置200は、データ記録部110、指標判定部120、データ形式判別部130、符号化部240から構成される。また、符号化部240は、音響信号用の符号化手段である音響信号符号化部241とZIPなどの汎用的な符号化手段である非音響信号符号化部を備えている。図4と図1との比較からも分かるように、図4の符号化装置200は、図1の音響データ形式判別装置100に符号化部240を付加した構成となっている。
[Second Embodiment]
FIG. 4 shows an example of the functional configuration of the encoding apparatus according to this embodiment. FIG. 5 shows a processing flow of the encoding device 200. The encoding device 200 includes a data recording unit 110, an index determination unit 120, a data format determination unit 130, and an encoding unit 240. The encoding unit 240 includes an acoustic signal encoding unit 241 that is an encoding unit for acoustic signals and a non-acoustic signal encoding unit that is a general-purpose encoding unit such as ZIP. As can be seen from a comparison between FIG. 4 and FIG. 1, the encoding device 200 of FIG. 4 has a configuration in which an encoding unit 240 is added to the acoustic data format determination device 100 of FIG. 1.

図5の処理フローも、図2の処理フローにステップS241とS242が付加された処理フローである。ステップS241では、音響信号符号化部241が、データ形式判別部130が判別した音響データのデータ形式にしたがって、データ記録部110に記録されたデジタルデータを符号化する。したがって、音響信号符号化部241には、複数の音響データのデータ形式に対応できる符号化手段が備えられている必要がある。つまり指標計算部124で音響データらしさの指標を計算するとき(ステップS124)に用いるデータ形式は、音響信号符号化部241で対応できる符号化方法の範囲内に限られる。ステップS242では、非音響信号符号化部242が、ZIPなどの汎用的な符号化手段によりデータ記録部110に記録されたデジタルデータを符号化する。
このように、本実施形態では、入力されたデジタルデータを、音響データが含まれる場合には最も音響データらしいと判定されたデータ形式であるとして符号化し、音響データが含まれない場合には汎用的な符号化手段で符号化できるので、高い圧縮効率が期待できる。
The processing flow of FIG. 5 is also a processing flow in which steps S241 and S242 are added to the processing flow of FIG. In step S241, the acoustic signal encoding unit 241 encodes the digital data recorded in the data recording unit 110 according to the data format of the acoustic data determined by the data format determination unit 130. Therefore, the acoustic signal encoding unit 241 needs to be provided with an encoding unit that can support the data format of a plurality of acoustic data. That is, the data format used when the index calculation unit 124 calculates the index of the acoustic data likelihood (step S124) is limited to the range of the encoding method that can be handled by the acoustic signal encoding unit 241. In step S242, the non-acoustic signal encoding unit 242 encodes the digital data recorded in the data recording unit 110 by a general-purpose encoding unit such as ZIP.
As described above, in the present embodiment, the input digital data is encoded as the data format determined to be the most likely sound data when the sound data is included, and general-purpose when the sound data is not included. Therefore, high compression efficiency can be expected.

[変形例]
第2実施形態では、ステップS131で単純に閾値との比較による判断をしていた。しかし、入力信号のデータ形式が1バイトか2バイト以上かによって、もしくはサンプル値列を波形の振幅とした場合のエネルギーの大きさによって、音響用の符号化手段を用いた方が良いか、非音響用の符号化手段を用いた方が良いかが変わる場合もある。そこで、本変形例では、データ形式判別部130の処理を変更した例を示す。
[Modification]
In the second embodiment, the determination is simply made in comparison with the threshold value in step S131. However, depending on whether the data format of the input signal is 1 byte or 2 bytes or more, or depending on the magnitude of energy when the sample value sequence is the amplitude of the waveform, it is better to use the encoding means for sound. In some cases, it may be better to use acoustic encoding means. Therefore, in this modification, an example in which the processing of the data format determination unit 130 is changed is shown.

図6に本変形例での符号化装置200の処理フローを示す。図6の処理フローも、図3の処理フローにステップS241とS242が付加された処理フローである。したがって、図6と図3の違いは、図5(第2実施形態)と図2(第1実施形態)の違いと同じである。
このように、バイト数やエネルギーの違いによって、音響データが含まれているか否かを細かく判断するため、より精度の高い判別が期待できる。したがって、より効率の良い符号化が期待できる。
FIG. 6 shows a processing flow of the encoding apparatus 200 according to this modification. The processing flow in FIG. 6 is also a processing flow in which steps S241 and S242 are added to the processing flow in FIG. Therefore, the difference between FIG. 6 and FIG. 3 is the same as the difference between FIG. 5 (second embodiment) and FIG. 2 (first embodiment).
Thus, since it is determined in detail whether or not acoustic data is included, depending on the number of bytes and energy, it is possible to expect more accurate determination. Therefore, more efficient encoding can be expected.

第1、第2実施形態では、入力データが音響信号をサンプリングして得られたデジタル音響データかもしれない場合について説明した。しかし、入力データがアナログ波形データをサンプリングして得たものかもしれない場合であれば、その他の時系列データ等であっても本発明を利用することができる。この場合、各実施形態の「音響データらしさの判定」を、「波形データらしさの判定」に変更するだけで、一般的な波形データに対して本発明が適用できる。
なお、上記の実施形態はコンピュータに、上記方法の各ステップを実行させるプログラムを読み込ませ、実施することもできる。また、コンピュータに読み込ませる方法としては、プログラムをコンピュータ読み取り可能な記録媒体に記録しておき、記録媒体からコンピュータに読み込ませる方法、サーバ等に記録されたプログラムを電気通信回線等を通じてコンピュータに読み込ませる方法などがある。
In the first and second embodiments, the case where the input data may be digital acoustic data obtained by sampling an acoustic signal has been described. However, if the input data may be obtained by sampling analog waveform data, the present invention can be used with other time-series data. In this case, the present invention can be applied to general waveform data only by changing “determination of the likelihood of acoustic data” in each embodiment to “determination of the likelihood of waveform data”.
In addition, said embodiment can also read and implement the program which makes a computer perform each step of the said method. Also, as a method for reading into the computer, the program is recorded on a computer-readable recording medium, and the program is read from the recording medium into the computer, or the program recorded in the server or the like is read into the computer through an electric communication line or the like. There are methods.

[実験例]
本発明の効果を評価するため、第1実施形態でのシミュレーション結果を以下に示す。シミュレーションの条件は次のとおりである。1つ目の入力信号は、2バイト/サンプル、2048サンプル/フレームのデータ量(175フレーム)、2チャネルの音響データである。あらかじめ設定したデータ形式は、チャネル数(1、2、3)である。2つ目の入力信号は、1バイト単位のテキストデータである。計算した指標は、エネルギー、F(p=1、2、3、20)である。また、Fを計算する際に仮定した音響データのデータ形式は、1つ目の入力のデータ形式と同じ(2バイト、2チャネル)としている。シミュレーションでは、入力信号の先頭の9フレームに対してエネルギーとFを計算した。たとえば、1つ目の入力信号では、チャネル数が2なので、第1チャネルの5フレーム分と第2チャネルの4フレーム分である。
[Experimental example]
In order to evaluate the effects of the present invention, simulation results in the first embodiment are shown below. The simulation conditions are as follows. The first input signal is 2 bytes / sample, 2048 samples / frame data amount (175 frames), and 2-channel acoustic data. The data format set in advance is the number of channels (1, 2, 3). The second input signal is text data in units of 1 byte. The calculated index is energy, F (p = 1, 2, 3, 20). The data format of the acoustic data assumed when calculating F is the same as the data format of the first input (2 bytes, 2 channels). In the simulation, energy and F were calculated for the first nine frames of the input signal. For example, in the first input signal, since the number of channels is 2, it corresponds to 5 frames of the first channel and 4 frames of the second channel.

1つ目の入力に対するシミュレーション結果を図7、2つ目の入力に対するシミュレーション結果を図8に示す。1つ目の入力の場合、最初の2つのフレームは音響データらしさの指標の値が小さいが、その他の値は大きい。特に、p=20の6フレーム目では、27608という大きな値となっている。それに対し、2つ目の入力の場合は、Fの値はどれも10以下であり、小さな値となっている。
また、1つ目の入力を音響データとして符号化した場合には30.90%に、ZIPにより符号化した場合は88.14%に圧縮できた。2つ目の入力を音響データとして符号化した場合は96.40%、ZIPにより符号化した場合は20.36%に圧縮できた。
The simulation result for the first input is shown in FIG. 7, and the simulation result for the second input is shown in FIG. In the case of the first input, the first two frames have a small acoustic data-like index value, but the other values are large. In particular, in the sixth frame at p = 20, the value is as large as 27608. On the other hand, in the case of the second input, all the values of F are 10 or less, which is a small value.
When the first input was encoded as acoustic data, it was compressed to 30.90%, and when encoded by ZIP, it was compressed to 88.14%. When the second input was encoded as acoustic data, it was compressed to 96.40%, and when encoded using ZIP, it was compressed to 20.36%.

したがって、音響データらしさの指標(F)を用いてデジタルデータを評価することにより、音響データが含まれているか否かの判断ができ、効率の良い符号化が期待できることが分かる。
なお、Fの値は、pを増加させると単調に増加する。また、Yを平滑化したパワースペクトルまたは微小な正の値を加えたパワースペクトルとしてEの値を計算すると、その値はpを大きくしたときのFの値と近似することが知られている。したがって、pが小さい値の場合でもチャネル数を3とするべきであることは分かるが、pを20程度の値にしたFやEもしくはエネルギー/Fやエネルギー/Eを指標とすることが望ましい。また、少なくともpを3以上とすべきである。
Therefore, it can be seen that by evaluating digital data using the index (F) of the likelihood of sound data, it can be determined whether sound data is included, and efficient coding can be expected.
Note that the value of F increases monotonically as p is increased. Further, when the value of E is calculated as a power spectrum obtained by smoothing Y j or a power spectrum obtained by adding a small positive value, it is known that the value approximates the value of F when p is increased. . Therefore, although it is understood that the number of channels should be 3 even when p is small, it is desirable to use F or E or energy / F or energy / E with p as a value of about 20 as an index. Moreover, at least p should be 3 or more.

第1実施形態の音響データ形式判別部の機能構成例を示す図。The figure which shows the function structural example of the acoustic data format discrimination | determination part of 1st Embodiment. 第1実施形態の音響データ形式判別部の処理フローを示す図。The figure which shows the processing flow of the acoustic data format discrimination | determination part of 1st Embodiment. 第1実施形態の変形例3の音響データ形式判別部の処理フローを示す図。The figure which shows the processing flow of the acoustic data format discrimination | determination part of the modification 3 of 1st Embodiment. 第2実施形態の符号化装置の機能構成例を示す図。The figure which shows the function structural example of the encoding apparatus of 2nd Embodiment. 第2実施形態の符号化装置の処理フローを示す図。The figure which shows the processing flow of the encoding apparatus of 2nd Embodiment. 第2実施形態の変形例の符号化装置の処理フローを示す図。The figure which shows the processing flow of the encoding apparatus of the modification of 2nd Embodiment. 音響データを入力とする場合のシミュレーション結果を示す図。The figure which shows the simulation result in the case of making acoustic data into input. テキストデータを入力とする場合のシミュレーション結果を示す図。The figure which shows the simulation result in the case of inputting text data.

Claims (10)

入力されたデジタルデータが音響データを含むか否かを判別するデータ形式判別方法であって、
入力されたデジタルデータ中のサンプル値列について
Figure 0004520922

ただし、pはあらかじめ定めた正の整数、k (i=1〜p)はPARCOR係数、を求める指標計算ステップと、
前記指標計算ステップで求めた前記Fの値があらかじめ設定された閾値以上である場合には入力されたデジタルデータが音響データを含むと判断し、前記Fの値が当該閾値より小さい場合には入力されたデジタルデータが音響データを含まないと判断するデータ形式判別ステップと
を有することを特徴とするデータ形式判別方法。
A data format determination method for determining whether or not input digital data includes acoustic data,
For a sample value string in the input digital data,
Figure 0004520922

Where p is a predetermined positive integer, k i (i = 1 to p) is a PARCOR coefficient, and an index calculation step for obtaining
When the value of F obtained in the index calculation step is greater than or equal to a preset threshold, it is determined that the input digital data includes acoustic data, and when the value of F is smaller than the threshold, input And a data format determining step for determining that the digital data does not include acoustic data .
入力されたデジタルデータが音響データを含むか否かを判別するデータ形式判別方法であって、
入力されたデジタルデータ中のサンプル値列について
Figure 0004520922

ただし、Mはあらかじめ定めた正の整数、Y (j=0〜M−1)はj番目の周波数領域係数の2乗、を求める指標計算ステップと、
前記指標計算ステップで求めた前記Eの値があらかじめ設定された閾値以上である場合には入力されたデジタルデータが音響データを含むと判断し、前記Eの値が当該閾値より小さい場合には入力されたデジタルデータが音響データを含まないと判断するデータ形式判別ステップと
を有することを特徴とするデータ形式判別方法。
A data format determination method for determining whether or not input digital data includes acoustic data,
For a sample value string in the input digital data,
Figure 0004520922

Where M is a predetermined positive integer, Y j (j = 0 to M−1) is an index calculation step for obtaining the square of the j-th frequency domain coefficient ,
When the value of E obtained in the index calculation step is greater than or equal to a preset threshold, it is determined that the input digital data includes acoustic data, and when the value of E is smaller than the threshold, input And a data format determining step for determining that the digital data does not include acoustic data .
入力されたデジタルデータが音響データを含むか否かを判別するデータ形式判別方法であって、
入力されたデジタルデータ中のサンプル値列について、エネルギー/F、ただし、
Figure 0004520922

、pはあらかじめ定めた正の整数、k (i=1〜p)はPARCOR係数、を求める指標計算ステップと、
前記指標計算ステップで求めた前記エネルギー/Fの値があらかじめ設定された閾値より小さい場合には入力されたデジタルデータが音響データを含むと判断し、前記エネルギー/Fの値が当該閾値以上である場合には入力されたデジタルデータが音響データを含まないと判断するデータ形式判別ステップと
を有することを特徴とするデータ形式判別方法。
A data format determination method for determining whether or not input digital data includes acoustic data,
For sample value sequences in the input digital data , energy / F, but
Figure 0004520922

, P is a predetermined positive integer, k i (i = 1 to p) is a PARCOR coefficient, an index calculation step,
When the energy / F value obtained in the index calculation step is smaller than a preset threshold value , it is determined that the input digital data includes acoustic data, and the energy / F value is equal to or greater than the threshold value. A data format discrimination method comprising: a data format discrimination step for determining that the input digital data does not include acoustic data in some cases .
入力されたデジタルデータが音響データを含むか否かを判別するデータ形式判別方法であって、
入力されたデジタルデータ中のサンプル値列について、エネルギー/E、ただし、
Figure 0004520922

、Mはあらかじめ定めた正の整数、Y (j=0〜M−1)はj番目の周波数領域係数の2乗、を求める指標計算ステップと、
前記指標計算ステップで求めた前記エネルギー/Eの値があらかじめ設定された閾値より小さい場合には入力されたデジタルデータが音響データを含むと判断し、前記エネルギー/Eの値が当該閾値以上である場合には入力されたデジタルデータが音響データを含まないと判断するデータ形式判別ステップと
を有することを特徴とするデータ形式判別方法。
A data format determination method for determining whether or not input digital data includes acoustic data,
For the sample value string in the input digital data , energy / E, but
Figure 0004520922

, M is a predetermined positive integer, Y j (j = 0 to M−1) is an index calculation step for obtaining the square of the j-th frequency domain coefficient ,
The index calculation digital data input when the value of the energy / E obtained there et beforehand set threshold value smaller than in step is determined to contain sound data, the value of the energy / E is the threshold value A data format determination method, comprising: a data format determination step for determining that the input digital data does not include acoustic data in the case of the above .
入力されたデジタルデータが音響データを含むか否かを判別するデータ形式判別装置であって、
入力されたデジタルデータを記録するデータ記録部と、
入力されたデジタルデータ中のサンプル値列について
Figure 0004520922

ただし、pはあらかじめ定めた正の整数、k (i=1〜p)はPARCOR係数、を求める指標計算部と、
前記指標計算部で求めた前記Fの値があらかじめ設定された閾値以上である場合には入力されたデジタルデータが音響データを含むと判断し、前記Fの値が当該閾値より小さい場合には入力されたデジタルデータが音響データを含まないと判断するデータ形式判別部と
を備えるデータ形式判別装置。
A data format discrimination device for discriminating whether or not input digital data includes acoustic data,
A data recording unit for recording the input digital data;
For a sample value string in the input digital data,
Figure 0004520922

Where p is a predetermined positive integer, k i (i = 1 to p) is a PARCOR coefficient ,
When the value of F obtained by the index calculation unit is greater than or equal to a preset threshold, it is determined that the input digital data includes acoustic data, and when the value of F is smaller than the threshold, input A data format discriminating device comprising: a data format discriminating unit that judges that the digital data that has been recorded does not contain acoustic data .
入力されたデジタルデータが音響データを含むか否かを判別するデータ形式判別装置であって、
入力されたデジタルデータを記録するデータ記録部と、
入力されたデジタルデータ中のサンプル値列について
Figure 0004520922

ただし、Mはあらかじめ定めた正の整数、Y (j=0〜M−1)はj番目の周波数領域係数の2乗、を求める指標計算部と、
前記指標計算部で求めた前記Eの値があらかじめ設定された閾値以上である場合には入力されたデジタルデータが音響データを含むと判断し、前記Eの値が当該閾値より小さい場合には入力されたデジタルデータが音響データを含まないと判断するデータ形式判別部と
を備えるデータ形式判別装置。
A data format discrimination device for discriminating whether or not input digital data includes acoustic data,
A data recording unit for recording the input digital data;
For a sample value string in the input digital data,
Figure 0004520922

Where M is a predetermined positive integer, and Y j (j = 0 to M−1) is the square of the j-th frequency domain coefficient ;
When the value of E obtained by the index calculation unit is greater than or equal to a preset threshold, it is determined that the input digital data includes acoustic data, and when the value of E is smaller than the threshold, input A data format discriminating device comprising: a data format discriminating unit that judges that the digital data that has been recorded does not contain acoustic data .
入力されたデジタルデータが音響データを含むか否かを判別するデータ形式判別装置であって、
入力されたデジタルデータを記録するデータ記録部と、
入力されたデジタルデータ中のサンプル値列について、エネルギー/F、ただし、
Figure 0004520922

、pはあらかじめ定めた正の整数、k (i=1〜p)はPARCOR係数、を求める指標計算部と、
前記指標計算部で求めた前記エネルギー/Fの値があらかじめ設定された閾値より小さい場合には入力されたデジタルデータが音響データを含むと判断し、前記エネルギー/Fの値が当該閾値以上である場合には入力されたデジタルデータが音響データを含まないと判断するデータ形式判別部と
を備えるデータ形式判別装置。
A data format discrimination device for discriminating whether or not input digital data includes acoustic data,
A data recording unit for recording the input digital data;
For the sample value sequence in the input digital data , energy / F, but
Figure 0004520922

, P is a predetermined positive integer, k i (i = 1 to p) is a PARCOR coefficient ,
If the energy / F value obtained by the index calculation unit is smaller than a preset threshold value , it is determined that the input digital data includes acoustic data, and the energy / F value is equal to or greater than the threshold value. A data format discriminating device comprising a data format discriminating unit that judges that input digital data does not include acoustic data .
入力されたデジタルデータが音響データを含むか否かを判別するデータ形式判別装置であって、
入力されたデジタルデータを記録するデータ記録部と、
入力されたデジタルデータ中のサンプル値列について、エネルギー/E、ただし、
Figure 0004520922

、Mはあらかじめ定めた正の整数、Y (j=0〜M−1)はj番目の周波数領域係数の2乗、を求める指標計算部と、
前記指標計算部で求めた前記エネルギー/Eの値があらかじめ設定された閾値より小さい場合には入力されたデジタルデータが音響データを含むと判断し、前記エネルギー/Eの値が当該閾値以上である場合には入力されたデジタルデータが音響データを含まないと判断するデータ形式判別部と
を備えるデータ形式判別装置。
A data format discrimination device for discriminating whether or not input digital data includes acoustic data,
A data recording unit for recording the input digital data;
For the sample value sequence in the input digital data , energy / E, where
Figure 0004520922

, M is a predetermined positive integer, Y j (j = 0 to M−1) is the square of the jth frequency domain coefficient ,
When the energy / E value obtained by the index calculation unit is smaller than a preset threshold value , it is determined that the input digital data includes acoustic data, and the energy / E value is equal to or greater than the threshold value. A data format discriminating apparatus comprising: a data format discriminating unit that judges that input digital data does not include acoustic data .
請求項1から請求項4のいずれかに記載の方法をコンピュータにより実行させるプログラム。 The program which makes a computer perform the method in any one of Claims 1-4 . 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。 A computer-readable recording medium on which the program according to claim 9 is recorded.
JP2005266870A 2005-09-14 2005-09-14 Data format determination method, apparatus, program, and recording medium Active JP4520922B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005266870A JP4520922B2 (en) 2005-09-14 2005-09-14 Data format determination method, apparatus, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005266870A JP4520922B2 (en) 2005-09-14 2005-09-14 Data format determination method, apparatus, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2007079127A JP2007079127A (en) 2007-03-29
JP4520922B2 true JP4520922B2 (en) 2010-08-11

Family

ID=37939504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005266870A Active JP4520922B2 (en) 2005-09-14 2005-09-14 Data format determination method, apparatus, program, and recording medium

Country Status (1)

Country Link
JP (1) JP4520922B2 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06152548A (en) * 1992-11-02 1994-05-31 Sharp Corp Signal identifying circuit
JPH06164406A (en) * 1992-11-27 1994-06-10 Matsushita Electric Ind Co Ltd Method and device for data compression
JPH11259099A (en) * 1998-03-16 1999-09-24 Mitsubishi Electric Corp Speech encoding/decoding device
JP2000066691A (en) * 1998-08-21 2000-03-03 Kdd Corp Audio information sorter
JP2000267699A (en) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> Acoustic signal coding method and device therefor, program recording medium therefor, and acoustic signal decoding device
JP2001236085A (en) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd Sound domain detecting device, stationary noise domain detecting device, nonstationary noise domain detecting device and noise domain detecting device
JP2002023795A (en) * 2000-07-11 2002-01-25 Roland Corp Device and method for compression processing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06152548A (en) * 1992-11-02 1994-05-31 Sharp Corp Signal identifying circuit
JPH06164406A (en) * 1992-11-27 1994-06-10 Matsushita Electric Ind Co Ltd Method and device for data compression
JPH11259099A (en) * 1998-03-16 1999-09-24 Mitsubishi Electric Corp Speech encoding/decoding device
JP2000066691A (en) * 1998-08-21 2000-03-03 Kdd Corp Audio information sorter
JP2000267699A (en) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> Acoustic signal coding method and device therefor, program recording medium therefor, and acoustic signal decoding device
JP2001236085A (en) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd Sound domain detecting device, stationary noise domain detecting device, nonstationary noise domain detecting device and noise domain detecting device
JP2002023795A (en) * 2000-07-11 2002-01-25 Roland Corp Device and method for compression processing

Also Published As

Publication number Publication date
JP2007079127A (en) 2007-03-29

Similar Documents

Publication Publication Date Title
EP1667112B1 (en) Apparatus, method and medium for coding an audio signal using correlation between frequency bands
CN1205601C (en) Method and apparatus for constructing voice templates for speaker-independent voice recognition system
WO2006019556A2 (en) Low-complexity music detection algorithm and system
JP2004530153A (en) Method and apparatus for characterizing a signal and method and apparatus for generating an index signal
US9954550B1 (en) Content-aware compression of data using window-based selection from multiple prediction functions
US10133551B1 (en) Content-aware compression of data using multiple parallel prediction functions
WO2006019555A2 (en) Music detection with low-complexity pitch correlation algorithm
JP4865872B2 (en) Apparatus and method for entropy encoding and decoding
JP2010160507A (en) Method and device of mitigating error in distributed speech recognition process
JP2014502366A (en) Low bit rate signal coder and decoder
JP5587599B2 (en) Quantization method, encoding method, quantization device, encoding device, inverse quantization method, decoding method, inverse quantization device, decoding device, processing device
CN101208741B (en) Method for adapting for an interoperability between short-term correlation models of digital signals
US20140039902A1 (en) Data compression apparatus, computer-readable storage medium having stored therein data compression program, data compression system, data compression method, data decompression apparatus, data compression/decompression apparatus, and data structure of compressed data
TW201133470A (en) Compressing feature space transforms
KR101370018B1 (en) Restrained vector quantization
Nilsson et al. On the mutual information between frequency bands in speech
JP6216809B2 (en) Parameter adjustment system, parameter adjustment method, program
JP4520922B2 (en) Data format determination method, apparatus, program, and recording medium
EP3252758B1 (en) Encoding apparatus, decoding apparatus, and methods, programs and recording media for encoding apparatus and decoding apparatus
EP3751565B1 (en) Parameter determination device, method, program and recording medium
WO2007095247A2 (en) Perceptual quality based automatic parameter selection for data compression
JP4332144B2 (en) Waveform data format discrimination method, signal encoding method, apparatus using the methods, program, and recording medium
JP4603429B2 (en) Client / server speech recognition method, speech recognition method in server computer, speech feature extraction / transmission method, system, apparatus, program, and recording medium using these methods
JP2002049397A (en) Digital signal processing method, learning method, and their apparatus, and program storage media therefor
JP2009210644A (en) Linear prediction coefficient calculator, linear prediction coefficient calculation method, linear prediction coefficient calculation program, and storage medium

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100511

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100521

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4520922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140528

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350