JP2008026836A - Method, device, and program for evaluating similarity of voice - Google Patents
Method, device, and program for evaluating similarity of voice Download PDFInfo
- Publication number
- JP2008026836A JP2008026836A JP2006202641A JP2006202641A JP2008026836A JP 2008026836 A JP2008026836 A JP 2008026836A JP 2006202641 A JP2006202641 A JP 2006202641A JP 2006202641 A JP2006202641 A JP 2006202641A JP 2008026836 A JP2008026836 A JP 2008026836A
- Authority
- JP
- Japan
- Prior art keywords
- amplitude spectrum
- similarity
- calculating
- function value
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、音声の類似度を評価する方法、装置およびプログラムに関する。 The present invention relates to a method, apparatus, and program for evaluating speech similarity.
音声の特徴を捉えるための手段として、周波数解析が一般的に用いられている。例えば人間の声のフォルマント解析などがその典型例として挙げられる。ある音声と別の音声とがある場合、これらの2つの音声を各々周波数解析し、2つの音声から得られた2つの振幅スペクトル分布同士を目視により比較すると、両音声が似ているか否かを直観的に判断することができる。
しかしながら、対比すべき音声の振幅スペクトル分布を見比べたとしても、両音声がどの程度類似しているかを客観的かつ定量的に評価することは一般的に困難である。 However, even if the amplitude spectrum distributions of the sounds to be compared are compared, it is generally difficult to objectively and quantitatively evaluate how similar the two sounds are.
この発明は、以上説明した事情に鑑みてなされたものであり、その目的は、対比すべき音声の類似度を客観的かつ定量的に評価する技術的手段を提供することにある。 The present invention has been made in view of the circumstances described above, and an object thereof is to provide a technical means for objectively and quantitatively evaluating the similarity of speech to be compared.
上記目的を達成するため、この発明は、入力音声データの周波数解析を行い、第1の振幅スペクトル列を算出する第1の周波数解析過程と、基準音声データの周波数解析を行い、第2の振幅スペクトル列を算出する第2の周波数解析過程と、前記第2の振幅スペクトル列の自己相関関数値を算出する自己相関算出過程と、前記第1の振幅スペクトル列と前記第2の振幅スペクトル列との相互相関関数値を算出する相互相関算出過程と、前記相互相関関数値の最大値を前記自己相関関数値の最大値により除算することにより、前記入力音声データと前記基準音声データとの類似度を算出する類似度算出過程とを具備することを特徴とする音声の類似度評価方法、同方法に従って音声の類似度を算出する類似度評価装置および同方法をコンピュータに実行させるプログラムを提供する。 In order to achieve the above object, the present invention performs frequency analysis of input speech data, calculates a first amplitude spectrum sequence, performs frequency analysis of reference speech data, and performs second amplitude analysis. A second frequency analysis step of calculating a spectrum sequence; an autocorrelation calculation step of calculating an autocorrelation function value of the second amplitude spectrum sequence; the first amplitude spectrum sequence and the second amplitude spectrum sequence; A cross-correlation calculation process for calculating the cross-correlation function value, and dividing the maximum value of the cross-correlation function value by the maximum value of the auto-correlation function value to thereby determine the similarity between the input voice data and the reference voice data A similarity calculation method for speech, a similarity evaluation apparatus for calculating speech similarity according to the method, and a computer It provides a program to be executed by the.
かかる発明によれば、対比すべき音声の類似度を客観的かつ定量的に評価し、数値として表わすことができる。 According to this invention, the similarity of voices to be compared can be objectively and quantitatively evaluated and expressed as a numerical value.
相互相関と自己相関を利用して波形を比較する技術として特許文献1に開示のものがある。この特許文献1に開示の技術では、フィルタから得られるインパルス応答と理想的なインパルス応答との相互相関関数値を求め、この相互相関関数値が理想的なインパルス応答の自己相関関数値を中心とした許容範囲内に収まっているか否かにより、フィルタの特性が妥当か否かの判断を行う。しかし、本発明は、この特許文献1に開示されているように対比すべき2つの波形自体について相互相関関数値と自己相関関数値とを求めるものではなく、2つの波形の周波数解析結果についての相互相関関数値と自己相関関数値とを求め、その結果に基づいて波形間の類似度を求めるものである。この点に本発明の特徴がある。
As a technique for comparing waveforms using cross-correlation and autocorrelation, there is one disclosed in
以下、図面を参照し、この発明の実施の形態を説明する。
図1はこの発明の一実施形態による音声の類似度評価装置の構成を示すブロック図である。また、図2は同類似度評価装置の処理内容を示す図である。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of a speech similarity evaluation apparatus according to an embodiment of the present invention. Moreover, FIG. 2 is a figure which shows the processing content of the similarity evaluation apparatus.
図1に示すように、本実施形態による類似度評価装置は、周波数解析部10および20と、自己相関算出部30と、相互相関算出部40と、類似度算出部50とにより構成されている。
As shown in FIG. 1, the similarity evaluation apparatus according to the present embodiment includes
周波数解析部10は、評価対象である入力音声サンプル列を外部から受け取り、この入力音声サンプル列から、図2に示すように時間軸上において所定長ずつオーバラップ(この例ではブロック長の25%ずつオーバラップ)して並んだ所定個数のサンプル列からなるブロックを順次取り出し、ブロック単位で、図1に示すFFT処理11とABS(絶対値化)処理12とを実行する。ここで、FFT処理11では、ブロック内のサンプル列に対するハニング窓の乗算処理と、この乗算処理後のサンプル列に対するFFT(高速フーリエ変換)とを実行する。そして、ABS処理では、ブロック毎に、FFTの結果得られるN個(Nは所定の整数)の複素数形式のスペクトルの絶対値を各々算出し、振幅スペクトル列y(n)(n=0〜N−1)として出力する。
The
一方、周波数解析部20は、入力音声サンプルの類似度評価の基準となる音声を示すリファレンスサンプル列を外部から受け取り、周波数解析部10のものと同様なFFT処理21およびABS処理22により、リファレンスサンプル列のブロック化、ブロック単位でのFFT、FFT結果に基づくN個の振幅スペクトル列x(n)(n=0〜N−1)の出力を行う。
On the other hand, the
自己相関算出部30は、ブロック単位で、リファレンスサンプル列から得られる振幅スペクトル列x(n)(n=0〜N−1)の自己相関関数値Rxx(m)(m=−N+1〜N−1)を算出する。さらに詳述すると、自己相関算出部30は、ブロック単位で、図1に示すように、振幅スペクトル列x(n)(n=0〜N−1)に対するFFT処理31と、FFT処理31の結果得られるスペクトル列の絶対値を算出し、その結果得られるスペクトル列を出力するABS処理32と、このABS処理32により得られたスペクトル列に対するIFFT(逆高速フーリエ変換)処理33と、このIFFT処理33により得られる複素数列の実数部を選択して出力するREAL処理34とを実行する。これにより、次式に示す自己相関関数値Rxx(m)(m=−N+1〜N−1)が得られる。
一方、相互相関算出部40は、ブロック単位で、リファレンスサンプル列から得られた振幅スペクトル列x(n)(n=0〜N−1)と入力音声サンプル列から得られた振幅スペクトル列y(n)(n=0〜N−1)との相互相関関数値Rxy(m)(m=−N+1〜N−1)を算出する。さらに詳述すると、相互相関算出部40は、ブロック単位で、図1に示すように、振幅スペクトル列y(n)(n=0〜N−1)に対するFFT処理41と、FFT処理31の結果得られるスペクトル列とFFT41の結果得られるスペクトル列との乗算処理42と、この乗算処理42により得られるスペクトル列に対するIFFT処理43と、このIFFT処理43により得られる複素数列の実数部を選択して出力するREAL処理44とを実行する。これにより、次式に示す相互相関関数値Rxy(m)(m=−N+1〜N−1)が得られる。
そして、類似度算出部50は、ブロック毎に、図2に示すように、相互相関算出部40により算出された相互相関関数値Rxy(m)(m=−N+1〜N−1)の中の最大値Rxy−maxと、自己相関算出部30により算出された自己相関関数値Rxx(m)(m=−N+1〜N−1)の中の最大値Rxx−maxとから、式(3)に示す類似度Dを算出して出力する。この類似度Dは、横軸を周波数、縦軸を振幅値とする座標系における入力音声サンプル列のブロックの振幅スペクトル列y(n)(n=0〜N−1)の波形とリファレンスサンプル列のブロックの振幅スペクトル列x(n)(n=0〜N−1)の波形との類似度を示すものである。聴覚上の音声の特徴は、その振幅スペクトルの分布に現れるため、この類似度Dは、入力音声サンプル列とリファレンスサンプル列の音声としての特徴の類似度を適確に表すものとなる。
本実施形態において、相互相関関数値の最大値Rxy−maxを自己相関関数値の最大値Rxx−maxによって除算したものを類似度Dとする理由は次の通りである。まず、相互相関関数値の最大値Rxy−maxは、横軸を周波数、縦軸を振幅値とする座標系において、入力音声サンプル列から得られた振幅スペクトル列y(n)(n=0〜N−1)の波形とリファレンスサンプル列から得られた振幅スペクトル列x(n)(n=0〜N−1)の波形とが類似している程大きな値となる。この意味において、相互相関関数値の最大値Rxy−maxは、振幅スペクトル列y(n)(n=0〜N−1)と振幅スペクトル列x(n)(n=0〜N−1)との類似度に依存する数値であるといえる。 In the present embodiment, the reason why the similarity D is obtained by dividing the maximum value Rxy-max of the cross-correlation function value by the maximum value Rxx-max of the autocorrelation function value is as follows. First, the maximum value Rxy-max of the cross-correlation function value is an amplitude spectrum sequence y (n) (n = 0 to 0) obtained from an input speech sample sequence in a coordinate system in which the horizontal axis is frequency and the vertical axis is amplitude value. N-1) and the waveform of the amplitude spectrum sequence x (n) (n = 0 to N-1) obtained from the reference sample sequence become larger as they become similar. In this sense, the maximum value Rxy-max of the cross-correlation function values is the amplitude spectrum sequence y (n) (n = 0 to N-1), the amplitude spectrum sequence x (n) (n = 0 to N-1), and It can be said that it is a numerical value depending on the similarity of.
しかし、リファレンスサンプル列の振幅スペクトル列x(n)(n=0〜N−1)と入力音声サンプル列の振幅スペクトル列y(n)(n=0〜N−1)とが同じ波形を維持したまま縦軸方向に同一倍率で伸縮するような場合であっても、相互相関関数値の最大値Rxy−maxは、この伸縮に応じて増減する。例えばリファレンスサンプル列および入力音声サンプル列の振幅値をいずれも2倍にした場合、リファレンスサンプル列および入力音声サンプル列は波形自体の類似度が変わっていないにも拘わらず、両者の相互相関関数値は4倍になる。従って、あるブロックkaにおいて得られた相互相関関数値の最大値Rxy−max−aと、別のブロックkbにおいて得られた相互相関関数値の最大値Rxy−max−bとがある場合に、Rxy−max−a>Rxy−max−bであったとしても、それだけでは、ブロックkaにおける振幅スペクトル列y(n)(n=0〜N−1)およびx(n)(n=0〜N−1)間の波形の類似度がブロックkbにおける振幅スペクトル列y(n)(n=0〜N−1)およびx(n)(n=0〜N−1)間の波形の類似度よりも高い、ということはできない。ブロックkaとブロックkbとでは、相互相関関数値の算出に用いるリファレンスサンプル列の振幅スペクトル列x(n)(n=0〜N−1)が同じではないからである。その意味において、相互相関関数値の最大値Rxy−maxは、その基準となるリファレンスサンプル列に依存して変化し、ブロック間での比較に馴染まない相対的な類似度であるということができる。 However, the amplitude spectrum sequence x (n) (n = 0 to N−1) of the reference sample sequence and the amplitude spectrum sequence y (n) (n = 0 to N−1) of the input speech sample sequence maintain the same waveform. Even in the case where the vertical axis direction expands and contracts at the same magnification, the maximum value Rxy-max of the cross-correlation function value increases or decreases according to the expansion and contraction. For example, if the amplitude values of the reference sample sequence and the input audio sample sequence are both doubled, the cross-correlation function values of the reference sample sequence and the input audio sample sequence are the same even though the similarity of the waveform itself has not changed. Is quadrupled. Therefore, when there is a maximum value Rxy-max-a of cross-correlation function values obtained in a certain block ka and a maximum value Rxy-max-b of cross-correlation function values obtained in another block kb, Rxy Even if −max−a> Rxy−max−b, only that, the amplitude spectrum sequence y (n) (n = 0 to N−1) and x (n) (n = 0 to N−) in the block ka. 1) The waveform similarity between the amplitude spectrum sequences y (n) (n = 0 to N−1) and x (n) (n = 0 to N−1) in the block kb is greater than the waveform similarity It can't be expensive. This is because the amplitude spectrum sequence x (n) (n = 0 to N−1) of the reference sample sequence used for calculating the cross-correlation function value is not the same between the block ka and the block kb. In that sense, it can be said that the maximum value Rxy-max of the cross-correlation function value changes depending on the reference sample sequence serving as a reference, and is a relative similarity that is not familiar with comparison between blocks.
本実施形態において算出するのは、このような相対的な類似度ではなく、振幅スペクトル列y(n)(n=0〜N−1)およびx(n)(n=0〜N−1)間において波形がどの程度類似しているかを客観的かつ定量的に示し、ブロック間での比較にも用いることができる絶対的な尺度としての類似度である。 What is calculated in this embodiment is not such a relative similarity, but an amplitude spectrum sequence y (n) (n = 0 to N−1) and x (n) (n = 0 to N−1). It is the degree of similarity as an absolute measure that can be used for comparison between blocks objectively and quantitatively showing how similar the waveforms are between the blocks.
さらに詳述すると、本実施形態では、前掲式(3)に示すように、相互相関関数値の最大値Rxy−maxを自己相関関数値の最大値Rxx−maxによって除算した結果を類似度Dとしている。ここで、各ブロックにおいて、入力音声サンプル列の振幅スペクトル列y(n)(n=0〜N−1)がリファレンスサンプル列の振幅スペクトル列x(n)(n=0〜N−1)と全く同じものである場合、前掲式(3)により得られる類似度Dは100%となる。そして、入力音声サンプル列の振幅スペクトル列y(n)(n=0〜N−1)の波形がリファレンスサンプル列の振幅スペクトル列x(n)(n=0〜N−1)の波形に対して歪むと、それに応じて前掲式(3)の類似度Dは100%から離れてゆく。 More specifically, in the present embodiment, the similarity D is obtained by dividing the maximum value Rxy-max of the cross-correlation function value by the maximum value Rxx-max of the autocorrelation function value as shown in the above equation (3). Yes. Here, in each block, the amplitude spectrum sequence y (n) (n = 0 to N−1) of the input audio sample sequence is the amplitude spectrum sequence x (n) (n = 0 to N−1) of the reference sample sequence. If they are exactly the same, the similarity D obtained by the above equation (3) is 100%. The waveform of the amplitude spectrum sequence y (n) (n = 0 to N−1) of the input audio sample sequence is compared with the waveform of the amplitude spectrum sequence x (n) (n = 0 to N−1) of the reference sample sequence. Accordingly, the degree of similarity D in the above equation (3) deviates from 100% accordingly.
このように本実施形態において得られる類似度Dは、各ブロックにおいて、対比すべき2つの振幅スペクトル列y(n)(n=0〜N−1)およびx(n)(n=0〜N−1)がどの程度類似しているかを同じ尺度で示すものであり、ブロック間での比較にも用いることができ、その意味において絶対的なものであるということができる。 As described above, the similarity D obtained in this embodiment is obtained by comparing two amplitude spectrum sequences y (n) (n = 0 to N−1) and x (n) (n = 0 to N−1) to be compared in each block. The degree of similarity of -1) is shown on the same scale, and can be used for comparison between blocks, and can be said to be absolute in that sense.
図3および図4は本実施形態の効果を示すものである。図3は、ある楽曲のLチャネルおよびRチャネルの音声サンプル列をリファレンスサンプル列とし、この音声サンプル列に対し、あるアルゴリズムに従って、圧縮符号化処理を施し、この結果得られる符号化データに復号化処理を施すことにより得られるLチャネルおよびRチャネルの音声サンプル列を入力音声サンプル列として本実施形態による類似度評価装置に与えた場合の動作例を示している。また、図4は、全く無関係なリファレンスサンプル列と入力音声サンプル列を本実施形態による類似度評価装置に与えた場合の動作例を示している。これらの図において、相互相関関数値の最大値Rxy−max、自己相関関数値の最大値Rxx−maxの単位はdB、類似度Dの単位は%である。 3 and 4 show the effects of this embodiment. In FIG. 3, the L channel and R channel audio sample sequences of a music piece are used as reference sample sequences, the audio sample sequences are subjected to compression encoding processing according to a certain algorithm, and the resulting encoded data is decoded. An operation example is shown when the L channel and R channel audio sample sequences obtained by performing the processing are given as input audio sample sequences to the similarity evaluation apparatus according to the present embodiment. FIG. 4 shows an operation example when a completely irrelevant reference sample sequence and input speech sample sequence are given to the similarity evaluation apparatus according to the present embodiment. In these drawings, the unit of the maximum value Rxy-max of the cross-correlation function value, the maximum value Rxx-max of the autocorrelation function value is dB, and the unit of the similarity D is%.
これらの図3および図4を見比べると、本実施形態において算出される類似度Dが客観的かつ定量的にリファレンスサンプル列と入力音声サンプル列との波形の類似度を示していることが分かる。まず、図3に示す例の場合、入力音声サンプル列は、リファレンスサンプル列に対して圧縮符号化および復号化を施したものであるため、リファレンスサンプル列に対して、圧縮符号化および復号化の過程において発生した雑音が重畳したものとなる。この雑音の影響により、リファレンスサンプル列と入力音声サンプル列の類似度が若干低下するブロックがランダムに現れる。図3に示す例は、まさにこの現象を示しており、類似度Dは、ブロック間でばらつくが、総じて100%に近い値となっている。これに対し、入力音声サンプル列とリファレンスサンプル列とが全く無関係なものである場合、類似度Dは、ブロック間で大きくばらつく。図4に示す例も、この現象を示している。 Comparing these FIG. 3 and FIG. 4, it can be seen that the similarity D calculated in the present embodiment objectively and quantitatively indicates the waveform similarity between the reference sample sequence and the input speech sample sequence. First, in the case of the example shown in FIG. 3, since the input audio sample sequence is obtained by performing compression encoding and decoding on the reference sample sequence, compression encoding and decoding are performed on the reference sample sequence. Noise generated in the process is superimposed. Due to the influence of this noise, blocks in which the similarity between the reference sample sequence and the input speech sample sequence slightly decreases appear at random. The example shown in FIG. 3 shows exactly this phenomenon, and the degree of similarity D varies between blocks, but is generally a value close to 100%. On the other hand, when the input audio sample sequence and the reference sample sequence are completely irrelevant, the similarity D varies greatly between blocks. The example shown in FIG. 4 also shows this phenomenon.
以上のように、本実施形態によれば、対比すべき2つの音声がある場合に、それらの音声の類似度を客観的かつ定量的に評価することができる。 As described above, according to the present embodiment, when there are two sounds to be compared, the similarity between these sounds can be objectively and quantitatively evaluated.
以上、本発明を装置として具現する場合を例に実施形態を説明したが、本発明は、図1に示す類似度評価装置としてコンピュータを機能させるプログラムを作成し、このプログラムをユーザに配布する、という態様でも実施され得る。 As described above, the embodiment has been described by taking the case where the present invention is embodied as an apparatus. However, the present invention creates a program that causes a computer to function as the similarity evaluation apparatus illustrated in FIG. 1 and distributes the program to users. This embodiment can also be implemented.
10,20……周波数解析部、30……自己相関算出部、40……相互相関算出部、50……類似度算出部。 10, 20 ... Frequency analysis unit, 30 ... Autocorrelation calculation unit, 40 ... Cross correlation calculation unit, 50 ... Similarity calculation unit.
Claims (4)
基準音声データの周波数解析を行い、第2の振幅スペクトル列を算出する第2の周波数解析過程と、
前記第2の振幅スペクトル列の自己相関関数値を算出する自己相関算出過程と、
前記第1の振幅スペクトル列と前記第2の振幅スペクトル列との相互相関関数値を算出する相互相関算出過程と、
前記相互相関関数値の最大値を前記自己相関関数値の最大値により除算することにより、前記入力音声データと前記基準音声データとの類似度を算出する類似度算出過程と
を具備することを特徴とする音声の類似度評価方法。 A first frequency analysis process of performing frequency analysis of input speech data and calculating a first amplitude spectrum sequence;
A second frequency analysis process of performing frequency analysis of the reference audio data and calculating a second amplitude spectrum sequence;
An autocorrelation calculation step of calculating an autocorrelation function value of the second amplitude spectrum sequence;
A cross-correlation calculation step of calculating a cross-correlation function value between the first amplitude spectrum sequence and the second amplitude spectrum sequence;
A similarity calculation step of calculating a similarity between the input voice data and the reference voice data by dividing the maximum value of the cross-correlation function value by the maximum value of the autocorrelation function value. Voice similarity evaluation method.
基準音声データの周波数解析を行い、第2の振幅スペクトル列を算出する第2の周波数解析手段と、
前記第2の振幅スペクトル列の自己相関関数値を算出する自己相関算出手段と、
前記第1の振幅スペクトル列と前記第2の振幅スペクトル列との相互相関関数値を算出する相互相関算出手段と、
前記相互相関関数値の最大値を前記自己相関関数値の最大値により除算することにより、前記入力音声データと前記基準音声データとの類似度を算出する類似度算出手段と
を具備することを特徴とする音声の類似度評価装置。 First frequency analysis means for performing frequency analysis of input voice data and calculating a first amplitude spectrum sequence;
Second frequency analysis means for performing frequency analysis of the reference audio data and calculating a second amplitude spectrum sequence;
Autocorrelation calculating means for calculating an autocorrelation function value of the second amplitude spectrum sequence;
Cross-correlation calculating means for calculating a cross-correlation function value between the first amplitude spectrum sequence and the second amplitude spectrum sequence;
And a similarity calculation means for calculating a similarity between the input voice data and the reference voice data by dividing the maximum value of the cross-correlation function value by the maximum value of the autocorrelation function value. Voice similarity evaluation device.
前記自己相関算出手段は、ブロック単位で、前記自己相関関数値を算出し、
前記相互相関算出手段は、ブロック単位で、前記相互相関関数値を算出し、
前記類似度算出手段は、ブロック単位で、前記類似度を算出することを特徴とする請求項2に記載の類似度評価装置。 The first frequency analysis means and the second frequency analysis means divide input voice data and reference voice data into blocks each having a predetermined time length, and the first amplitude spectrum string and the second amplitude spectrum in units of blocks. Output each column,
The autocorrelation calculating means calculates the autocorrelation function value in block units,
The cross-correlation calculating means calculates the cross-correlation function value in block units,
The similarity evaluation apparatus according to claim 2, wherein the similarity calculation unit calculates the similarity in units of blocks.
基準音声データの周波数解析を行い、第2の振幅スペクトル列を算出する第2の周波数解析過程と、
前記第2の振幅スペクトル列の自己相関関数値を算出する自己相関算出過程と、
前記第1の振幅スペクトル列と前記第2の振幅スペクトル列との相互相関関数値を算出する相互相関算出過程と、
前記相互相関関数値の最大値を前記自己相関関数値の最大値により除算することにより、前記入力音声データと前記基準音声データとの類似度を算出する類似度算出過程と
をコンピュータに実行させることを特徴とするコンピュータプログラム。 A first frequency analysis process of performing frequency analysis of input speech data and calculating a first amplitude spectrum sequence;
A second frequency analysis process of performing frequency analysis of the reference audio data and calculating a second amplitude spectrum sequence;
An autocorrelation calculation step of calculating an autocorrelation function value of the second amplitude spectrum sequence;
A cross-correlation calculation step of calculating a cross-correlation function value between the first amplitude spectrum sequence and the second amplitude spectrum sequence;
Causing the computer to execute a similarity calculation step of calculating a similarity between the input voice data and the reference voice data by dividing the maximum value of the cross-correlation function value by the maximum value of the autocorrelation function value. A computer program characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006202641A JP2008026836A (en) | 2006-07-25 | 2006-07-25 | Method, device, and program for evaluating similarity of voice |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006202641A JP2008026836A (en) | 2006-07-25 | 2006-07-25 | Method, device, and program for evaluating similarity of voice |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008026836A true JP2008026836A (en) | 2008-02-07 |
Family
ID=39117485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006202641A Pending JP2008026836A (en) | 2006-07-25 | 2006-07-25 | Method, device, and program for evaluating similarity of voice |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008026836A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445922A (en) * | 2020-03-20 | 2020-07-24 | 腾讯科技(深圳)有限公司 | Audio matching method and device, computer equipment and storage medium |
WO2021022573A1 (en) * | 2019-08-07 | 2021-02-11 | 瑞声声学科技(深圳)有限公司 | Vibration sense similarity evaluation method and apparatus, and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5846397A (en) * | 1981-09-15 | 1983-03-17 | アンリツ株式会社 | Apparatus for measuring similarity of waveforms of two signals |
JPH0756587A (en) * | 1993-06-30 | 1995-03-03 | Daewoo Electron Co Ltd | Mark marking device of song in recorded instrumental accompaniement system |
JPH10307580A (en) * | 1997-05-06 | 1998-11-17 | Nippon Telegr & Teleph Corp <Ntt> | Music searching method and device |
JP2003131685A (en) * | 2001-10-22 | 2003-05-09 | Sony Corp | Method and device for signal processing, signal processing program, and recording medium |
-
2006
- 2006-07-25 JP JP2006202641A patent/JP2008026836A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5846397A (en) * | 1981-09-15 | 1983-03-17 | アンリツ株式会社 | Apparatus for measuring similarity of waveforms of two signals |
JPH0756587A (en) * | 1993-06-30 | 1995-03-03 | Daewoo Electron Co Ltd | Mark marking device of song in recorded instrumental accompaniement system |
JPH10307580A (en) * | 1997-05-06 | 1998-11-17 | Nippon Telegr & Teleph Corp <Ntt> | Music searching method and device |
JP2003131685A (en) * | 2001-10-22 | 2003-05-09 | Sony Corp | Method and device for signal processing, signal processing program, and recording medium |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021022573A1 (en) * | 2019-08-07 | 2021-02-11 | 瑞声声学科技(深圳)有限公司 | Vibration sense similarity evaluation method and apparatus, and storage medium |
CN111445922A (en) * | 2020-03-20 | 2020-07-24 | 腾讯科技(深圳)有限公司 | Audio matching method and device, computer equipment and storage medium |
CN111445922B (en) * | 2020-03-20 | 2023-10-03 | 腾讯科技(深圳)有限公司 | Audio matching method, device, computer equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alim et al. | Some commonly used speech feature extraction algorithms | |
Virtanen | Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria | |
JP5295433B2 (en) | Perceptual tempo estimation with scalable complexity | |
CN106816158B (en) | Voice quality assessment method, device and equipment | |
Bayya et al. | Spectro-temporal analysis of speech signals using zero-time windowing and group delay function | |
EP2843660A1 (en) | Method and apparatus for detecting synthesized speech | |
KR101670313B1 (en) | Signal separation system and method for selecting threshold to separate sound source | |
JP7077378B2 (en) | Information coding concept | |
US20050177363A1 (en) | Apparatus, method, and medium for detecting voiced sound and unvoiced sound | |
CN107851444A (en) | For acoustic signal to be decomposed into the method and system, target voice and its use of target voice | |
KR20060044629A (en) | Isolating speech signals utilizing neural networks | |
US20140278447A1 (en) | Digital watermark detection device and digital watermark detection method, as well as tampering detection device using digital watermark and tampering detection method using digital watermark | |
Průša et al. | Toward high-quality real-time signal reconstruction from STFT magnitude | |
JP2008076636A (en) | Audio signal interpolation method and audio signal interpolation device | |
JP5605574B2 (en) | Multi-channel acoustic signal processing method, system and program thereof | |
JP4490090B2 (en) | Sound / silence determination device and sound / silence determination method | |
JP2008026836A (en) | Method, device, and program for evaluating similarity of voice | |
JP4217616B2 (en) | Two-stage pitch judgment method and apparatus | |
Pilia et al. | Time scaling detection and estimation in audio recordings | |
Ouzounov | A robust feature for speech detection | |
Lin et al. | Focus on the sound around you: Monaural target speaker extraction via distance and speaker information | |
JP2011150232A (en) | Lpc analysis device, lpc analysis method, speech analysis synthesis device, speech analysis synthesis method and program | |
JP5649084B2 (en) | Apparatus and method for processing transient audio events in an audio signal when changing playback speed or pitch | |
KR20060029663A (en) | Music summarization apparatus and method using multi-level vector quantization | |
Pendharkar | Auralization of road vehicles using spectral modeling synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100603 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100608 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101214 |