JP3607450B2 - Audio information classification device - Google Patents

Audio information classification device Download PDF

Info

Publication number
JP3607450B2
JP3607450B2 JP06559597A JP6559597A JP3607450B2 JP 3607450 B2 JP3607450 B2 JP 3607450B2 JP 06559597 A JP06559597 A JP 06559597A JP 6559597 A JP6559597 A JP 6559597A JP 3607450 B2 JP3607450 B2 JP 3607450B2
Authority
JP
Japan
Prior art keywords
audio information
section
information classification
unit time
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06559597A
Other languages
Japanese (ja)
Other versions
JPH10247093A (en
Inventor
清乃 氏原
康之 中島
暁夫 米山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP06559597A priority Critical patent/JP3607450B2/en
Publication of JPH10247093A publication Critical patent/JPH10247093A/en
Application granted granted Critical
Publication of JP3607450B2 publication Critical patent/JP3607450B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide an audio information classifying device capable of detecting not only a musical section but also a sound section. SOLUTION: First of all, the frequency data at every a second are extracted from inputted audio information. Then, a mean energy operation part 5 obtains mean energy for a second, and decides a silence section and a sound section in a second. For the section decided as the sound section, an energy change rate operation part 8 obtains an energy change rate at every a second, and extracts the sound section, and inputs its time code to a sound section hold part 10. For the section not decided as the sound section, a mean band energy ratio operation part 11 obtains a mean band energy ratio at every a second, and extracts the musical section, and inputs its time code to a musical section hold part 13.

Description

【0001】
【発明の属する技術分野】
本発明はオーディオ情報の分類装置に関し、特に、符号化されていない元のままのオーディオ情報あるいは符号化されたオーディオ情報から音声区間と音楽区間を分類できるオーディオ情報の分類装置に関する。
【0002】
【従来の技術】
オーディオに関する研究は、今までは、周波数解析等を用いて計算機上に取り込まれた音声が何であるかを認識する音声認識や、調音パラメータ等によって機械的に音声を合成する音声合成の分野に関する研究が主流であり、オーディオをタイトルや内容によって分類するインデクシングに関する研究はまだ少ない。インデクシングに関する研究報告としては、例えば、南、阿久津らの“大量映像に対する効率的アクセスインターフェース”、ITE Technical Report Vol.19,No.7,pp.1 ー6のように音楽区間を検出し、その情報を用いて音楽が流れている動画像をインデクシングするものがある。
【0003】
【発明が解決しようとする課題】
しかしながら、この研究報告は、音声区間の検出に関しては何ら触れておらず、音声区間を検出することができないという問題がある。また、該研究報告は、音楽区間の検出に関しても、周波数スペクトルのピークをLPCケプストラムによって検出し、その平均持続時間を用いて音楽区間を検出しているため、圧縮符号化されたオーディオ情報からの検出は不可能であるという問題がある。
【0004】
本発明の目的は、前記した従来技術の問題点に鑑み、音楽区間のみならず音声区間の検出もできるオーディオ情報分類装置を提供することにある。他の目的は、符号化されていないオーディオ情報および圧縮符号化されたオーディオ符号化データの両方でオーディオ情報を音楽区間と音声区間に分類することを可能にするオーディオ情報分類装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
前記目的を達成するために、本発明は、オーディオ情報から音声区間と音楽区間を分類するオーディオ情報分類装置において、入力されたオーディオ情報から単位時間ごとの周波数データを抽出するオーディオ周波数データ抽出手段と、前記抽出した単位時間ごとの周波数データを用いて、その区間が無音区間か有音区間かを判定し有音区間のみを抽出する無音/有音判定手段と、前記抽出した有音区間に対して単位時間ごとに隣り合うフレームのエネルギの総和の比からエネルギ変化率を求め、該エネルギ変化率の大きさが所定値より大きいとき、前記抽出された有音区間が音声区間である判定する音声区間抽出手段と、前記抽出された有音区間が音楽であるか否かを判定する音楽区間抽出手段とを具備した点に特徴がある。
【0006】
本発明によれば、符号化されていない元のままのオーディオ情報、あるいは符号化されたオーディオ情報のいずれからも、簡単かつ高速で、音声区間と音楽区間を分類することができるようになる。
【0007】
【発明の実施の形態】
以下に、図面を参照して、本発明を詳細に説明する。図1は本発明の一実施形態の構成を示すブロック図、図2、図3は、図1のシステムの動作、特に制御部20の動作の概要を表わすフローチャートである。この実施形態は、動画像および音声符号化の国際標準方式であるMPEG1(ISO/IEC 11172)により圧縮された音声符号化データを用いて音声、音楽を分類するものであるが、本発明はこれに限定されるものではない。
【0008】
以下に、図1および図2、図3を参照して、本実施形態の構成と動作を説明する。図1に示されているように、圧縮符号化されたオーディオの符号化データaは、可変長復号部1に入力される。ここで、該圧縮符号化されたオーディオの符号化データの構造について、MPEG1を例にして図4を参照して説明する。MPEG1では、図示されているように、元のオーディオ信号pからサンプリングした512個のPCMサンプルPをサブバンド符号化して32個のサブバンドデータPi(n)(n=0,1,…,31)を作り、それを時間的にサンプルをずらしながら36回繰り返して、合計1152個のサブバンドデータを1フレームの符号化データQとしている。
【0009】
前記した構造の符号化データQが前記可変長復号部1に連続して入力してくると、該可変長復号部1はこれを各フレームのサブバンドデータに復号し、サブバンドデータサブサンプリング部2に出力する。いま、ある単位時間を1秒とすると、該1秒は図5のaのように38フレームから構成されているので、可変長復号部1は1秒分の符号化データに対し、同図のbのように、38個の32×36サンプルを出力する。
【0010】
サブバンドデータサブサンプリング部2では、図5のcに示されているように、単位時間(例えば、1秒)分のサブバンドデータのうち各フレームiの先頭にあるサブバンドデータS(n) ( i=0,1,…,j−1)を抽出し、図1の各フレームのエネルギ演算部3および第1のメモリ4に入力する。
【0011】
以上の動作は、図2では、ステップS1〜S9で行われる。ステップS1では、フレーム番号を表すiが0と置かれ、ステップS2ではサブバンド番号を表すnが0と置かれる。ステップS3では、可変長復号部1にて符号化データが可変長復号され、ステップS4ではiフレーム目の先頭のサブバンドデータS(n) が抽出される。次に、ステップS5にて、n=32が成立するか否かの判断がなされ、この判断が否定の時にはステップS6に進んでnに1が加算される。そして、ステップS3に戻って前記と同様の処理が行われる。以上のステップS3〜S6の処理が繰り返し行われて、ステップS5の判断が肯定になると、iフレーム目の先頭のサブバンドデータS(n) が抽出されたことになる。
【0012】
ステップS5の判断が肯定になると、ステップS7に進み、iに1が加算される。次にステップS8に進み、i=jが成立するか否かの判断がなされる。この判断が否定の時にはステップS2に戻り、再びn=0とされて、再度前記した処理が続行される。以上の処理が繰り返し行われ、ステップS8の判断が肯定になると、i=0〜(j−1)フレームの先頭のサブバンドデータS(n) が抽出されたことになり、ステップS9にて、これらのサブバンドデータS(n) は図1の各フレームのエネルギ演算部3および第1のメモリ4に転送されることになる。
【0013】
各フレームのエネルギ演算部3では、下記の(1) 式に従って各フレームのエネルギEi を計算し、平均エネルギ演算部5および第2のメモリ6に入力する。
【0014】
【数1】

Figure 0003607450
各フレームのエネルギEi が計算されると、該エネルギEi はステップS10にて平均エネルギ演算部5および第2のメモリ6に転送される。平均エネルギ演算部5では、下記の(2) 式に従って入力された各フレームのエネルギから単位時間間の平均エネルギAEを計算し第1の判定部7に入力する(ステップS11)。
【0015】
【数2】
Figure 0003607450
第1の判定部7では、入力された単位時間間の音声情報が無音であるのか有音であるのかを、下記の(3) 式に従って判定し条件に合う場合には有音であると判定する(ステップS12)。有音である場合には無音である場合に比べて単位時間間の平均エネルギAEは大きいから、下記の(3) 式が成立することになる。
【0016】
AE>α …(3)
ここに、αは予め定められた第1の閾値である。
【0017】
該第1の判定部7において、入力された単位時間間の音声情報が有音であると判断された場合には、第2のメモリ6より各フレームのエネルギ単位時間分を読み出してエネルギ変化率演算部8に入力し(図3のステップS13)、下記の(4) 式に従ってエネルギ変化率Cを計算し、第2の判定部9に入力する。一方、無音であると判定された時には、以降の音声、音楽判定処理を終了し、ステップS1に戻る。下式のCは、MPEG符号化データのサブバンドデータから求めた隣り合うフレームの2つのエネルギの比の単位時間における総和を表している。
【0018】
【数3】
Figure 0003607450
音声の時間波形を見ると、単語や音節ごとに波形も変化し、その間は数10m秒にわたって無音またはほぼ無音となることも多いため、そのスペクトル変化率は、連続波形となる音楽に比べて非常に大きくなる。そこで、第2の判定部9では入力された単位時間の音声情報が音声区間であるか否かを下記の(5) 式に従って判定し、条件に合う場合には音声区間と判定し、その区間のタイムコードdを音声区間保持部10に出力する(ステップS14の判断が肯定、ステップS15)。
【0019】
C>β …(5)
ここに、βは第2の閾値である。
【0020】
一方、音声区間でないと判断された場合には(ステップS14の判断が否定)、第1のメモリ4より各フレームの先頭のサブバンドデータを読み出して平均エネルギ比演算部11に入力する(ステップS16)。
【0021】
平均バンドエネルギ比演算部11では、下記の(6) 式に従って平均バンドエネルギ比Bmiを計算して第3の判定部12に入力する。
【0022】
【数4】
Figure 0003607450
音声の周波数は、図7(a) に示されているように、一般的に低周波帯域に集中し、一方音楽の周波数は、同図(b) に示されているように、全帯域に分散する傾向がある。換言すれば、音声のサブバンドデータが低周波帯域に集中するのに対して、音楽のサブバンドデータは全帯域にわたって分散する傾向がある。そこで、第3の判定部12では、入力された単位時間間の音声情報が音楽区間であるか否かを下記の(7) 式に従って判定し(ステップS17)、条件に合う場合には音楽区間と判定し、その区間のタイムコードeを音楽区間保持部13に出力する(ステップS18)。
Bmi<γ …(7)
ここに、γは第3の閾値である。
【0023】
以上のように、本実施形態によれば、圧縮符号化されたオーディオの符号化データから、音声区間と音楽区間を区別し、それぞれの区間のタイムコードを音声区間保持部10および音楽区間保持部13のそれぞれに記憶させることができるようになる。
【0024】
本発明は、さらに圧縮符号化されていないオーディオ情報の分類に関しても適応できる。その場合の実施形態を以下に示す。
【0025】
圧縮符号化されていないオーディオ情報を扱う場合は、図1の可変長復号部1およびサブバンドデータサブサンプリング部2は高速フーリェ変換部(以下、FFT変換部と呼ぶ)に置き換えられる。元のオーディオ情報からこのFFT変換部において、図6にあるようにFFT変換を行い、単位時間分の周波数データを抽出する。今、該単位時間を1秒とすると、元のオーディオ信号pからサンプリングした2048個のサンプルをFFT変換し、それを時間的にサンプルをずらしながら38回繰り返して、合計2048×38個のFFTデータを単位時間分の周波数データとしている。
【0026】
その後、各フレームのエネルギ演算部、平均エネルギ演算部、エネルギ変化率演算部、および平均バンドエネルギ比演算部で、それぞれ下記の(8) 式、前記(2) 式、(4) 式、および下記の(9) 式に従ってそれぞれ各フレームのエネルギEi 、平均エネルギAE、エネルギ変化率C、平均バンドエネルギ比Bmiを計算し、第1の判定部7、第2の判定部9、第3の判定部12にてそれぞれ無音/有音の判定、音声の判定、音楽の判定を行う。
【0027】
【数5】
Figure 0003607450
【0028】
【発明の効果】
以上説明したように、本発明によれば、圧縮符号化された音声データから符号化データ上でオーディオ情報を音声区間と音楽区間に分類することが可能になるという効果がある。
【0029】
なお、本発明を実際に動作させたところ、次のような結果が得られた。すなわち、MPEG1レイヤ2で符号化された合計90分のニュース番組と音楽番組のオーディオビットストリームを用いて、1秒毎の音声区間と音楽区間の分類を行った。音声区間は背景に音楽などがなく音声のみが含まれる区間を対象とし、音楽区間は音声の有無にかかわらず楽器演奏がある区間を対象とした。音声区間の検出に関しては、89.4%、音楽区間に関しては79.3%の検出率を得ることができ、音声区間の検出に関しては実用レベルの検出率を得ることができた。また、本発明によれば、圧縮符号化されていないオーディオ情報の分類に関しても、簡単に、音声区間と音楽区間に分類することが可能になるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態のオーディオ情報分類装置の構成を示すブロック図である。
【図2】図1の制御装置の動作を説明するためのフローチャートである。
【図3】図2の続きの動作を説明するためのフローチャートである。
【図4】MPEGオーディオ符号化データの構造を説明するための図である。
【図5】図1のサブバンドデータサブサンプリング部の動作を説明するための図である。
【図6】符号化されていないオーディオ情報の周波数データの抽出方法を説明するための図である。
【図7】音声と音楽の周波数分布の傾向を示す図である。
【符号の説明】
1…可変長復号部、2…サブバンドデータサブサンプリング部、3…各フレームのエネルギ演算部、4…第1のメモリ、5…平均エネルギ演算部、6…第2のメモリ、7…第1の判定部、8…エネルギ変化率演算部、9…第2の判定部、10…音声区間保持部、11…平均バンドエネルギ比演算部、12…第3の判定部、13…音楽区間保持部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio information classification apparatus, and more particularly, to an audio information classification apparatus that can classify a voice section and a music section from unencoded original audio information or encoded audio information.
[0002]
[Prior art]
Up to now, research related to audio is related to the field of speech synthesis that recognizes what speech is captured on a computer using frequency analysis, etc., and speech synthesis that mechanically synthesizes speech using articulation parameters. However, there is still little research on indexing that classifies audio by title and content. Research reports on indexing include, for example, “Efficient Access Interface for Mass Video” by Akutsu, Minami, ITE Technical Report Vol. 19, no. 7, pp. There is one that detects a music section, such as 1-6, and uses that information to index a moving image in which music flows.
[0003]
[Problems to be solved by the invention]
However, this research report does not mention at all about the detection of the speech section, and there is a problem that the speech section cannot be detected. In addition, regarding the detection of the music section, the research report detects the peak of the frequency spectrum by the LPC cepstrum, and detects the music section by using the average duration, and therefore, from the compression-coded audio information. There is a problem that detection is impossible.
[0004]
An object of the present invention is to provide an audio information classification device that can detect not only a music section but also a voice section in view of the above-described problems of the prior art. Another object of the present invention is to provide an audio information classification device that can classify audio information into a music section and a voice section using both uncoded audio information and compression-coded audio encoded data. Objective.
[0005]
[Means for Solving the Problems]
In order to achieve the above object, the present invention provides an audio frequency data extracting means for extracting frequency data for each unit time from input audio information in an audio information classification device for classifying a voice segment and a music segment from audio information. , using the frequency data for each of the extracted unit time, and silence / voice judging means for the interval to extract only the determined voiced section or silent section or voiced section, with respect to the extracted sound period seeking energy change rate from the ratio of the sum of the energy of the frame adjacent to each unit of time Te, when the magnitude of the energy change rate is larger than a predetermined value, the extracted sound period is determined to be a speech segment The present invention is characterized in that it includes voice section extraction means and music section extraction means for determining whether or not the extracted voiced section is music.
[0006]
According to the present invention, it is possible to classify a voice section and a music section easily and at high speed from either unencoded original audio information or encoded audio information.
[0007]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention, and FIGS. 2 and 3 are flowcharts showing the outline of the operation of the system of FIG. In this embodiment, audio and music are classified using audio encoded data compressed by MPEG1 (ISO / IEC 11172), which is an international standard system for moving image and audio encoding. It is not limited to.
[0008]
Hereinafter, the configuration and operation of the present embodiment will be described with reference to FIGS. 1, 2, and 3. As shown in FIG. 1, compression-encoded audio encoded data a is input to the variable length decoding unit 1. Here, the structure of the compressed encoded audio data will be described with reference to FIG. 4 using MPEG1 as an example. In MPEG1, as shown in the figure, 512 PCM samples P sampled from the original audio signal p are subband-encoded to obtain 32 subband data Pi (n) (n = 0, 1,..., 31). ), And is repeated 36 times while shifting the samples in time, and a total of 1152 subband data is used as encoded data Q for one frame.
[0009]
When the encoded data Q having the structure described above is continuously input to the variable length decoding unit 1, the variable length decoding unit 1 decodes it into subband data of each frame, and a subband data subsampling unit Output to 2. Now, assuming that a certain unit time is 1 second, since the 1 second is composed of 38 frames as shown in FIG. 5a, the variable length decoding unit 1 applies the encoded data for 1 second to the encoded data shown in FIG. As in b, 38 32 × 36 samples are output.
[0010]
In the subband data subsampling unit 2, as shown in FIG. 5c, subband data S i (n) at the head of each frame i out of subband data for unit time (for example, 1 second). ) (I = 0, 1,..., J−1) are extracted and input to the energy calculation unit 3 and the first memory 4 of each frame in FIG.
[0011]
The above operation is performed in steps S1 to S9 in FIG. In step S1, i representing the frame number is set to 0, and n representing the subband number is set to 0 in step S2. In step S3, the variable length decoding unit 1 performs variable length decoding of the encoded data, and in step S4, the first subband data S i (n) of the i- th frame is extracted. Next, in step S5, it is determined whether or not n = 32 is established. If this determination is negative, the process proceeds to step S6, and 1 is added to n. And it returns to step S3 and the process similar to the above is performed. When the processes in steps S3 to S6 are repeated and the determination in step S5 is affirmative, the first subband data S i (n) of the i- th frame is extracted.
[0012]
If the determination in step S5 becomes affirmative, the process proceeds to step S7, and 1 is added to i. Next, in step S8, it is determined whether i = j is satisfied. When this determination is negative, the process returns to step S2, and n = 0 is set again, and the above-described processing is continued again. When the above process is repeated and the determination in step S8 is affirmative, the first subband data S i (n) of i = 0 to (j−1) frames is extracted, and in step S9. These subband data S i (n) are transferred to the energy calculation unit 3 and the first memory 4 of each frame in FIG.
[0013]
The energy calculation unit 3 of each frame calculates the energy Ei of each frame according to the following equation (1) and inputs it to the average energy calculation unit 5 and the second memory 6.
[0014]
[Expression 1]
Figure 0003607450
When the energy Ei of each frame is calculated, the energy Ei is transferred to the average energy calculation unit 5 and the second memory 6 in step S10. The average energy calculation unit 5 calculates the average energy AE during unit time from the energy of each frame input according to the following equation (2) and inputs it to the first determination unit 7 (step S11).
[0015]
[Expression 2]
Figure 0003607450
The first determination unit 7 determines whether the input voice information for the unit time is silent or sound according to the following equation (3), and determines that the sound is sound when the condition is met. (Step S12). When the sound is present, the average energy AE per unit time is larger than when there is no sound, and therefore the following equation (3) is established.
[0016]
AE> α (3)
Here, α is a predetermined first threshold value.
[0017]
When the first determination unit 7 determines that the input voice information for the unit time is sound, the energy unit time of each frame is read from the second memory 6 and the energy change rate is read. It inputs into the calculating part 8 (step S13 of FIG. 3), calculates the energy change rate C according to following (4) Formula, and inputs into the 2nd determination part 9. FIG. On the other hand, when it is determined that there is no sound, the subsequent voice / music determination process is terminated, and the process returns to step S1. C in the following expression represents the sum in unit time of the ratio of two energies of adjacent frames obtained from the subband data of the MPEG encoded data.
[0018]
[Equation 3]
Figure 0003607450
Looking at the time waveform of speech, the waveform also changes for each word and syllable, and during that time, there are many cases of silence or almost silence for several tens of milliseconds, so the rate of change in spectrum is much higher than that of music with continuous waveforms Become bigger. Therefore, the second determination unit 9 determines whether or not the input voice information of the unit time is a voice section according to the following equation (5). Is output to the speech section holding unit 10 (Yes in step S14, step S15).
[0019]
C> β (5)
Here, β is a second threshold value.
[0020]
On the other hand, if it is determined that it is not a voice section (No in step S14), the first subband data of each frame is read from the first memory 4 and input to the average energy ratio calculation unit 11 (step S16). ).
[0021]
The average band energy ratio calculation unit 11 calculates the average band energy ratio Bmi according to the following equation (6) and inputs it to the third determination unit 12.
[0022]
[Expression 4]
Figure 0003607450
The frequency of voice is generally concentrated in the low frequency band as shown in FIG. 7 (a), while the frequency of music is in the whole band as shown in FIG. 7 (b). There is a tendency to disperse. In other words, while the audio subband data is concentrated in the low frequency band, the music subband data tends to be distributed over the entire band. Therefore, the third determination unit 12 determines whether the input voice information for the unit time is a music section or not according to the following equation (7) (step S17). And the time code e of the section is output to the music section holding unit 13 (step S18).
Bmi <γ (7)
Here, γ is a third threshold value.
[0023]
As described above, according to the present embodiment, the speech section and the music section are distinguished from the compression-encoded audio encoded data, and the time code of each section is stored in the speech section holding unit 10 and the music section holding unit. Each of 13 can be stored.
[0024]
The present invention can also be applied to classification of audio information that is not compression-coded. An embodiment in that case is shown below.
[0025]
In the case of handling audio information that has not been compression-encoded, the variable length decoding unit 1 and the subband data subsampling unit 2 in FIG. In the FFT conversion unit, the original audio information is subjected to FFT conversion as shown in FIG. 6 to extract frequency data for a unit time. Now, assuming that the unit time is 1 second, 2048 samples sampled from the original audio signal p are subjected to FFT conversion and repeated 38 times while shifting the samples in time, so that a total of 2048 × 38 FFT data is obtained. Is frequency data for a unit time.
[0026]
Thereafter, in the energy calculation unit, average energy calculation unit, energy change rate calculation unit, and average band energy ratio calculation unit of each frame, the following equation (8), equation (2), equation (4), and The energy Ei, the average energy AE, the energy change rate C, and the average band energy ratio Bmi of each frame are calculated according to the equation (9), and the first determination unit 7, the second determination unit 9, and the third determination unit are calculated. At 12, silence / sound determination, sound determination, and music determination are performed.
[0027]
[Equation 5]
Figure 0003607450
[0028]
【The invention's effect】
As described above, according to the present invention, there is an effect that audio information can be classified into a voice section and a music section on the encoded data from the compressed and encoded voice data.
[0029]
When the present invention was actually operated, the following results were obtained. That is, using the audio bitstreams of a total of 90 minutes of news programs and music programs encoded in MPEG1 layer 2, the audio sections and music sections are classified every second. The voice section is a section where only the voice is included without music in the background, and the music section is a section where there is a musical instrument performance regardless of the presence or absence of voice. Regarding the detection of the voice section, a detection rate of 89.4% was obtained, and for the music section, a detection rate of 79.3% was obtained. In addition, according to the present invention, it is possible to easily classify audio information that has not been compression-encoded into speech segments and music segments.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an audio information classification apparatus according to an embodiment of the present invention.
FIG. 2 is a flowchart for explaining the operation of the control device of FIG. 1;
FIG. 3 is a flowchart for explaining the operation subsequent to FIG. 2;
FIG. 4 is a diagram for explaining the structure of MPEG audio encoded data;
FIG. 5 is a diagram for explaining the operation of a subband data subsampling unit in FIG. 1;
FIG. 6 is a diagram for explaining a method for extracting frequency data of unencoded audio information.
FIG. 7 is a diagram showing a tendency of frequency distribution of voice and music.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Variable length decoding part, 2 ... Subband data subsampling part, 3 ... Energy calculation part of each flame | frame, 4 ... 1st memory, 5 ... Average energy calculation part, 6 ... 2nd memory, 7 ... 1st 8 ... energy change rate calculation unit, 9 ... second determination unit, 10 ... voice interval holding unit, 11 ... average band energy ratio calculation unit, 12 ... third determination unit, 13 ... music interval holding unit .

Claims (11)

オーディオ情報から音声区間と音楽区間を分類するオーディオ情報分類装置において、
入力されたオーディオ情報から単位時間ごとの周波数データを抽出するオーディオ周波数データ抽出手段と、
前記抽出した単位時間ごとの周波数データを用いて、その区間が無音区間か有音区間かを判定し有音区間のみを抽出する無音/有音判定手段と、
前記抽出した有音区間に対して単位時間ごとに隣り合うフレームのエネルギの総和の比からエネルギ変化率を求め、該エネルギ変化率の大きさが所定値より大きいとき、前記抽出された有音区間が音声区間である判定する音声区間抽出手段と、
前記抽出された有音区間が音楽であるか否かを判定する音楽区間抽出手段とを具備したことを特徴とするオーディオ情報分類装置。
In an audio information classification device for classifying a voice segment and a music segment from audio information,
Audio frequency data extraction means for extracting frequency data per unit time from the input audio information;
Using the extracted frequency data for each unit time, it is determined whether the section is a silent section or a voiced section, and a silent / sound determination means for extracting only a voiced section;
When the energy change rate is obtained from the ratio of the sum of the energy of adjacent frames per unit time with respect to the extracted sound interval , and the magnitude of the energy change rate is greater than a predetermined value , the extracted sound interval There a voice segment extracting means for determining that the speech segment,
An audio information classification apparatus comprising: a music section extracting means for determining whether or not the extracted sound section is music.
請求項1のオーディオ情報分類装置において、
前記オーディオ周波数データ抽出手段によって抽出される単位時間ごとの周波数データは、入力されたオーディオ情報がMPEG符号化データである場合、単位時間分のMPEG符号化データの各フレームの先頭にあるサブバンドデータであることを特徴とするオーディオ情報分類装置。
The audio information classification device according to claim 1,
The frequency data per unit time extracted by the audio frequency data extraction means is subband data at the head of each frame of MPEG encoded data for unit time when the input audio information is MPEG encoded data. An audio information classification device characterized by the above.
請求項1のオーディオ情報分類装置において、
前記無音/有音判定手段は、前記オーディオ周波数データ抽出手段により抽出された単位時間分の周波数データを用いて単位時間の平均エネルギを求め、該平均エネルギの大きさにより無音/有音区間を判定することを特徴とするオーディオ情報分類装置。
The audio information classification device according to claim 1,
The silence / sound determination means obtains an average energy per unit time using the frequency data for the unit time extracted by the audio frequency data extraction means, and determines a silence / sound section based on the magnitude of the average energy. An audio information classification apparatus characterized by:
請求項3のオーディオ情報分類装置において、
前記無音/有音判定手段は、入力されたオーディオ情報がMPEG符号化データである場合、単位時間の平均エネルギは、MPEG符号化データの各フレームのサブバンドデータから求めたエネルギの単位時間における総和であることを特徴とするオーディオ情報分類装置。
The audio information classification device according to claim 3,
When the input audio information is MPEG encoded data, the silence / speech determining means determines that the average energy per unit time is the sum of energy obtained from the subband data of each frame of the MPEG encoded data in the unit time. An audio information classification device characterized by the above.
請求項1のオーディオ情報分類装置において、
前記音声区間抽出手段は、入力されたオーディオ情報がMPEG符号化データである場合、エネルギ変化率は、MPEG符号化データのサブバンドデータから求めた隣り合うフレームの2つのエネルギの比の単位時間における総和であることを特徴とするオーディオ情報分類装置。
The audio information classification device according to claim 1,
When the input audio information is MPEG encoded data, the speech interval extracting means calculates the energy change rate in the unit time of the ratio of two energies of adjacent frames obtained from the subband data of the MPEG encoded data. An audio information classification device characterized by being a sum.
請求項1のオーディオ情報分類装置において、
前記音楽区間抽出手段は、前記オーディオ周波数データ抽出手段により抽出した単位時間ごとの周波数データから平均バンドエネルギ比を求め、該平均バンドエネルギ比から音楽区間を抽出することを特徴とするオーディオ情報分類装置。
The audio information classification device according to claim 1,
An audio information classification device, wherein the music section extraction means obtains an average band energy ratio from frequency data per unit time extracted by the audio frequency data extraction means, and extracts a music section from the average band energy ratio .
請求項6のオーディオ情報分類装置において、
前記音楽区間抽出手段は、入力されたオーディオ情報がMPEG符号化データである場合、平均バンドエネルギ比は、MPEG符号化データのサブバンドデータの全データに対する低周波帯域のサブバンドデータの割合であることを特徴とするオーディオ情報分類装置。
The audio information classification device according to claim 6,
In the music section extraction means, when the input audio information is MPEG encoded data, the average band energy ratio is the ratio of the subband data in the low frequency band to the total data of the subband data of the MPEG encoded data. An audio information classification apparatus characterized by the above.
オーディオ情報から音声区間と音楽区間を分類するオーディオ情報分類装置において、
入力されたオーディオ情報が無圧縮オーディオデータの場合、単位時間のオーディオ情報を一部が重なる複数の区間に分割する手段と、
各区間のオーディオ情報に対する周波数データを生成する手段と、
生成した周波数データを用いて、その区間が無音区間か有音区間かを判定し有音区間のみを抽出する無音/有音判定手段と、
前記抽出した有音区間に対して単位時間ごとに隣り合うフレームのエネルギの総和の比からエネルギ変化率を求め、該エネルギ変化率の大きさが所定値より大きいとき、前記抽出された有音区間が音声区間であると判定する音声区間抽出手段と、
前記抽出された有音区間が音楽であるか否かを判定する音楽区間抽出手段とを具備したことを特徴とするオーディオ情報分類装置。
In an audio information classification device for classifying a voice segment and a music segment from audio information,
When the input audio information is uncompressed audio data, means for dividing the audio information of unit time into a plurality of sections partially overlapping;
Means for generating frequency data for audio information of each section;
Silence / sound determination means for determining whether the section is a silent section or a voiced section using the generated frequency data, and extracting only the voiced section;
When the energy change rate is obtained from the ratio of the total energy of adjacent frames per unit time with respect to the extracted sound interval, and the magnitude of the energy change rate is greater than a predetermined value, the extracted sound interval Voice segment extraction means for determining that is a voice segment;
An audio information classification apparatus comprising: a music section extracting means for determining whether or not the extracted sound section is music.
請求項8のオーディオ情報分類装置において、
前記無音/有音判定手段は、前記周波数データを用いて単位時間の平均エネルギを求め、該平均エネルギの大きさにより無音/有音区間を判定することを特徴とするオーディオ情報分類装置。
The audio information classification apparatus according to claim 8,
The silence / sound determination unit obtains an average energy per unit time using the frequency data, and determines a silence / sound section based on the magnitude of the average energy.
請求項8のオーディオ情報分類装置において、
前記音声区間抽出手段は、前記オーディオ周波数データ抽出手段により抽出した単位時間ごとの複数の周波数データからエネルギ変化率を求め、該エネルギ変化率の大きさにより、音声区間を抽出することを特徴とするオーディオ情報分類装置。
The audio information classification apparatus according to claim 8,
The voice section extraction unit obtains an energy change rate from a plurality of frequency data per unit time extracted by the audio frequency data extraction unit, and extracts a voice section according to the magnitude of the energy change rate. Audio information classification device.
請求項8のオーディオ情報分類装置において、
前記音楽区間抽出手段は、前記オーディオ周波数データ抽出手段により抽出した単位時間ごとの周波数データから平均バンドエネルギ比を求め、該平均バンドエネルギ比から音楽区間を抽出することを特徴とするオーディオ情報分類装置。
The audio information classification apparatus according to claim 8,
An audio information classification device, wherein the music section extraction means obtains an average band energy ratio from frequency data per unit time extracted by the audio frequency data extraction means, and extracts a music section from the average band energy ratio .
JP06559597A 1997-03-05 1997-03-05 Audio information classification device Expired - Fee Related JP3607450B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06559597A JP3607450B2 (en) 1997-03-05 1997-03-05 Audio information classification device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06559597A JP3607450B2 (en) 1997-03-05 1997-03-05 Audio information classification device

Publications (2)

Publication Number Publication Date
JPH10247093A JPH10247093A (en) 1998-09-14
JP3607450B2 true JP3607450B2 (en) 2005-01-05

Family

ID=13291541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06559597A Expired - Fee Related JP3607450B2 (en) 1997-03-05 1997-03-05 Audio information classification device

Country Status (1)

Country Link
JP (1) JP3607450B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008245040A (en) * 2007-03-28 2008-10-09 Kddi Corp Motion image sorter
WO2008126347A1 (en) 2007-03-16 2008-10-23 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
CN102446506A (en) * 2010-10-11 2012-05-09 华为技术有限公司 Classification identifying method and equipment of audio signals

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6205422B1 (en) * 1998-11-30 2001-03-20 Microsoft Corporation Morphological pure speech detection using valley percentage
JP2007094234A (en) 2005-09-30 2007-04-12 Sony Corp Data recording and reproducing apparatus and method, and program thereof
JP4735398B2 (en) * 2006-04-28 2011-07-27 日本ビクター株式会社 Acoustic signal analysis apparatus, acoustic signal analysis method, and acoustic signal analysis program
JP5277780B2 (en) 2008-07-31 2013-08-28 富士通株式会社 Video playback apparatus, video playback program, and video playback method
JP5277779B2 (en) 2008-07-31 2013-08-28 富士通株式会社 Video playback apparatus, video playback program, and video playback method
WO2013080449A1 (en) * 2011-12-02 2013-06-06 パナソニック株式会社 Audio processing device, method, program, and integrated circuit
CN113192531B (en) * 2021-05-28 2024-04-16 腾讯音乐娱乐科技(深圳)有限公司 Method, terminal and storage medium for detecting whether audio is pure audio

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008126347A1 (en) 2007-03-16 2008-10-23 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
US8478587B2 (en) 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
JP2008245040A (en) * 2007-03-28 2008-10-09 Kddi Corp Motion image sorter
CN102446506A (en) * 2010-10-11 2012-05-09 华为技术有限公司 Classification identifying method and equipment of audio signals
CN102446506B (en) * 2010-10-11 2013-06-05 华为技术有限公司 Classification identifying method and equipment of audio signals

Also Published As

Publication number Publication date
JPH10247093A (en) 1998-09-14

Similar Documents

Publication Publication Date Title
EP1531458B1 (en) Apparatus and method for automatic extraction of important events in audio signals
JP4438144B2 (en) Signal classification method and apparatus, descriptor generation method and apparatus, signal search method and apparatus
KR101269296B1 (en) Neural network classifier for separating audio sources from a monophonic audio signal
JP6185457B2 (en) Efficient content classification and loudness estimation
JP2000066691A (en) Audio information sorter
CN108307250B (en) Method and device for generating video abstract
JP3607450B2 (en) Audio information classification device
JP2004271736A (en) Device, method and program to detect information
US7747435B2 (en) Information retrieving method and apparatus
JP4201204B2 (en) Audio information classification device
Jarina et al. Rhythm detection for speech-music discrimination in mpeg compressed domain
JP2004125944A (en) Method, apparatus, and program for information discrimination and recording medium
JP4696418B2 (en) Information detection apparatus and method
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
EP2328143B1 (en) Human voice distinguishing method and device
JP4392805B2 (en) Audio information classification device
Jarina et al. Speech-music discrimination from MPEG-1 bitstream
JPH08146985A (en) Speaking speed control system
CN112786071A (en) Data annotation method for voice segments of voice interaction scene
US20020095297A1 (en) Device and method for processing audio information
JPH01255000A (en) Apparatus and method for selectively adding noise to template to be used in voice recognition system
JP2003259311A (en) Video reproducing method, video reproducing apparatus, and video reproducing program
JPH10133678A (en) Voice reproducing device
Venugopal et al. Audio scene analysis and scene change detection in the MPEG compressed domain
JPH0854895A (en) Reproducing device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040713

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041007

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees