JP4461985B2 - Speech waveform expansion device, waveform expansion method, speech waveform reduction device, waveform reduction method, program, and speech processing device - Google Patents

Speech waveform expansion device, waveform expansion method, speech waveform reduction device, waveform reduction method, program, and speech processing device Download PDF

Info

Publication number
JP4461985B2
JP4461985B2 JP2004281430A JP2004281430A JP4461985B2 JP 4461985 B2 JP4461985 B2 JP 4461985B2 JP 2004281430 A JP2004281430 A JP 2004281430A JP 2004281430 A JP2004281430 A JP 2004281430A JP 4461985 B2 JP4461985 B2 JP 4461985B2
Authority
JP
Japan
Prior art keywords
waveform
pitch
input
reduced
pitch waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004281430A
Other languages
Japanese (ja)
Other versions
JP2006098477A (en
Inventor
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2004281430A priority Critical patent/JP4461985B2/en
Publication of JP2006098477A publication Critical patent/JP2006098477A/en
Application granted granted Critical
Publication of JP4461985B2 publication Critical patent/JP4461985B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To realize speech reduction and expansion with arbitrary magnification while reducing deterioration of a speech waveform. <P>SOLUTION: A speech processor 100 divides an inputted speech signal into pitch waveforms. Similarities of each pitch waveform with pitch waveforms right before and after it are calculated and pitch waveforms are generated together with pitch waveforms with higher similarities. The generated pitch waveforms are inserted between the source pitch waveforms for the generation when expanded or replaced with the source pitch waveforms for the generation when reduced. The pitch waveforms are processed in the decreasing order of similarities within processing units. <P>COPYRIGHT: (C)2006,JPO&amp;NCIPI

Description

本発明は、音声波形伸張装置、波形伸張方法、音声波形縮小装置、波形縮小方法、プログラム並びに音声処理装置に関し、特に、入力された音声波形を時間的に伸張して出力する音声波形伸張装置、波形伸張方法及びプログラム、入力された音声波形を時間的に縮小して出力する音声波形縮小装置、波形縮小方法及びプログラム、並びに入力された音声波形を時間的に伸張または縮小して出力する音声処理装置に関する。   The present invention relates to an audio waveform expansion device, a waveform expansion method, an audio waveform reduction device, a waveform reduction method, a program, and an audio processing device, and in particular, an audio waveform expansion device that extends and outputs an input audio waveform in time, Waveform decompression method and program, speech waveform reduction device for reducing and outputting input speech waveform in time, waveform reduction method and program, and speech processing for extending and outputting input speech waveform in time Relates to the device.

音声データを変形する処理の1つとして、音声波形の長さを時間的にm/n倍(m、nは自然数)に縮小・伸張するTDHS(Time Domain Harmonic Scaling)方式がある(例えば、特許文献1)。図7は、TDHS方式の原理を説明するための図である。   As one of the processes for transforming audio data, there is a TDHS (Time Domain Harmonic Scaling) system that reduces and expands the length of the audio waveform to m / n times (m and n are natural numbers) in time (for example, patents). Reference 1). FIG. 7 is a diagram for explaining the principle of the TDHS method.

図示するように、TDHS方式では、今回処理を開始する場所0から始まる長さmTの部分音声波形(Tは繰り返される波形の1周期分の長さとする)と、現在の場所から(n−m)Tの場所から始まる長さmTの部分音声波形とを重み付け加算し、生成した部分音声波形(長さmT)で、0からnTまでの部分を置き換える。つまり、1回の部分音声波形の置き換えにより、長さが(m−n)Tだけ増減する。これを繰り返して、全体として音声波形の長さを時間的にm/n倍(m、nは自然数)に縮小・伸張する。   As shown in the figure, in the TDHS system, a partial speech waveform having a length mT starting from a location 0 where processing is started this time (T is a length of one cycle of a repeated waveform) and a current location (nm). ) Weighted addition of the partial speech waveform of length mT starting from the location of T, and replaces the portion from 0 to nT with the generated partial speech waveform (length mT). That is, the length is increased or decreased by (mn) T by one replacement of the partial speech waveform. By repeating this, the length of the speech waveform as a whole is reduced / expanded to m / n times (m and n are natural numbers) in terms of time.

この場合、重み付け加算の対象となっている2つの部分音声波形のうち、時間的に過去側の部分音声波形には重みW(k)が、時間的に未来側の部分音声波形には重み1−W(k)が乗算される。ここで、W(k)の値は部分音声波形の先頭のサンプル位置から末尾のサンプル位置に向かって、値0から値1まで直線的に変化する。このような重み係数W(k)および1−W(k)を用いることで、連続性を保持しながら波形を縮小・伸張することができる。
特開平8−146993号公報(第3−5頁、図12−15)
In this case, of the two partial speech waveforms to be weighted and added, the weight W (k) is used for the partial speech waveform on the past side in time, and the weight 1 is used for the partial speech waveform on the future side in terms of time. -W (k) is multiplied. Here, the value of W (k) changes linearly from the value 0 to the value 1 from the head sample position to the tail sample position of the partial speech waveform. By using such weighting factors W (k) and 1-W (k), the waveform can be reduced / expanded while maintaining continuity.
JP-A-8-146993 (page 3-5, FIG. 12-15)

上記TDHS方式では、任意の有理数倍(m/n)でしか信号波形を縮小・伸張することができなかった。   In the TDHS system, the signal waveform can be reduced / expanded only by an arbitrary rational multiple (m / n).

本発明は、上記問題点に鑑みてなされたもので、任意の倍率で信号波形を伸張することを可能とする音声波形伸張装置、波形伸張処理方法及びプログラム、任意の倍率で信号波形を縮小することを可能とする音声波形縮小装置、波形縮小処理方法及びプログラム、並びに、任意の倍率で信号波形を伸張または縮小することを可能とする音声処理装置を提供することを目的とする。   The present invention has been made in view of the above problems, and is a speech waveform expansion device, a waveform expansion processing method and a program that can expand a signal waveform at an arbitrary magnification, and reduce a signal waveform at an arbitrary magnification. It is an object of the present invention to provide a voice waveform reduction device, a waveform reduction processing method and program, and a voice processing device that can expand or reduce a signal waveform at an arbitrary magnification.

本発明の第1の観点にかかる音声波形伸張装置は、
入力波形を時間軸上で伸張して出力する音声波形伸張装置であって、
入力波形を表すデータを受け付ける入力波形受付手段と、
入力波形を伸張する倍率の入力を受け付ける伸張倍率受付手段と、
前記入力波形受付手段で受け付けた入力波形からピッチ波形を切り出す切り出し手段と、
前記切り出し手段で切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出手段と、
前記類似度算出手段で算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付け手段と、
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、挿入用の波形を生成する伸張波形生成手段と、
前記伸張波形生成手段で生成した波形を、入力波形上で重み付け加算の対象となった2つのピッチ波形の間に挿入する伸張波形接続手段と、
具備し、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記伸張波形生成手段と、前記伸張波形接続手段とによる処理を繰り返すこと、
特徴とする。
A speech waveform expansion device according to a first aspect of the present invention is:
A speech waveform expansion device for expanding and outputting an input waveform on a time axis,
Input waveform receiving means for receiving data representing the input waveform;
An expansion ratio acceptance means for accepting an input of a magnification for expanding the input waveform;
Cutting means for cutting out a pitch waveform from the input waveform received by the input waveform receiving means;
For each pitch waveform cut out by the cut-out means, similarity calculation means for calculating the similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
Ordering means for assigning a processing order to each pitch waveform using the similarity calculated by the similarity calculation means as a scale;
Expanded waveform generation that generates a waveform for insertion by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means,
An expanded waveform connecting means for inserting the waveform generated by the expanded waveform generating means between two pitch waveforms that are subjected to weighted addition on the input waveform;
Equipped with,
Repeating the processing by the expanded waveform generating means and the expanded waveform connecting means while updating the pitch waveform to be selected according to the processing order until the waveform length of the specified magnification is reached.
It is characterized by.

この発明によれば、波形の類似度の高い順、すなわち、同じような波形が繰り返されている部分から順にピッチ波形を選択して伸張波形を生成する。このため、音質の劣化を抑えながら、任意の指定された倍率に入力音声を伸張して出力できる。   According to the present invention, a stretched waveform is generated by selecting a pitch waveform in order from a waveform having a high degree of similarity, that is, a portion where similar waveforms are repeated. For this reason, it is possible to expand and output the input sound to an arbitrarily specified magnification while suppressing deterioration of sound quality.

上記音声波形伸張装置において、
前記切り出し手段は、入力波形から一定長の部分波形を切り出し、切り出した部分波形単位でピッチ波形を切り出すことが望ましい。
この場合、前記順序付け手段は、前記一定長の部分波形単位でピッチ波形の処理順序付けを行う。
In the speech waveform expansion device,
The cutout means cuts out a partial waveform having a certain length from the input waveform, and cuts out a pitch waveform in units of cutout partial waveforms.
In this case, the ordering means performs processing of ordering the pitch waveforms in units of the fixed-length partial waveform.

この発明によれば、途中でピッチが変化した場合に、その変化に追随して入力波形を縮小・伸張することができる。   According to the present invention, when the pitch changes midway, the input waveform can be reduced / expanded following the change.

本発明の第2の観点にかかる波形伸張方法は、
入力波形を表すデータを受け付ける入力波形受付ステップと、
入力波形を伸張する倍率の入力を受け付ける伸張倍率受付ステップと、
前記入力波形受付ステップで受け付けた入力波形からピッチ波形を切り出す切り出しステップと、
前記切り出しステップにおいて切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出ステップと、
前記類似度算出ステップで算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付けステップと、
記順序付けステップで付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、挿入用の波形を生成する伸張波形生成ステップと、
前記伸張波形生成ステップで生成した波形を、入力波形上で重み付け加算の対象となった2つのピッチ波形の間に挿入する伸張波形接続ステップと、
を備え、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記伸張波形生成ステップと、前記伸張波形接続ステップとによる処理を繰り返すことを特徴とする
The waveform expansion method according to the second aspect of the present invention is:
An input waveform receiving step for receiving data representing the input waveform;
An expansion magnification reception step for receiving an input of a magnification for expanding the input waveform;
A step of cutting out a pitch waveform from the input waveform received in the input waveform receiving step;
For each pitch waveform cut out in the cut-out step, a similarity calculation step for calculating a similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
An ordering step of assigning a processing order to each pitch waveform using the similarity calculated in the similarity calculation step as a scale;
Choose Back Symbol ordered pitch waveforms applied treatment sequence in step, by weighted addition of the one pitch waveform adjacent to the selected pitch waveform and the pitch waveform, decompression waveform to generate a waveform for insertion Generation step;
An expanded waveform connecting step for inserting the waveform generated in the expanded waveform generating step between two pitch waveforms that are subjected to weighted addition on the input waveform;
With
Until waveform length of the specified magnification, while updating the pitch waveforms to be selected according to the processing order, and repeating said expansion waveform generation step, a process by said expansion waveform connecting step.

本発明の第3の観点にかかるプログラムは、
入力波形を時間軸上で伸張して出力する音声波形伸張装置に用いられるコンピュータを
入力波形を表すデータを受け付ける入力波形受付手段と、
入力波形を伸張する倍率の入力を受け付ける伸張倍率受付手段と
前記入力波形受付手段で受け付けた入力波形からピッチ波形を切り出す切り出し手段と
前記切り出し手段で切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出手段と
前記類似度算出手段で算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付け手段と
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、挿入用の波形を生成する伸張波形生成手段と
前記伸張波形生成手段で生成した波形を、入力波形上で重み付け加算の対象となった2つのピッチ波形の間に挿入する伸張波形接続手段と、
して機能させ、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記伸張波形生成手段と、前記伸張波形接続手段とによる処理を繰り返すようにしたことを特徴とする
The program according to the third aspect of the present invention is:
The computer used in the speech waveform decompression apparatus for decompressing and outputting input waveform on the time axis,
Input waveform receiving means for receiving data representing the input waveform ;
And stretching magnification accepting means for accepting an input of a magnification stretching the input waveform,
And the cut-out means that you cut out the pitch waveform from the input waveform received by the input waveform receiving means,
For each pitch waveform cut out by the cut- out means, similarity calculation means for calculating the similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
Ordering means for assigning a processing order to each pitch waveform using the similarity calculated by the similarity calculation means as a scale;
Expanded waveform generation that generates a waveform for insertion by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means ,
An expanded waveform connecting means for inserting the waveform generated by the expanded waveform generating means between two pitch waveforms that are subjected to weighted addition on the input waveform;
To function,
Until waveform length of the specified magnification, while updating the pitch waveforms to be selected according to the processing order, and said decompressed waveform generating means, that it has the decompressed waveform connecting means and repeatedly to by the processing returns Suyo Features .

本発明の第4の観点にかかる音声波形縮小装置は、
入力波形を時間軸上で縮小して出力する音声波形縮小装置であって、
入力波形を表すデータを受け付ける入力波形受付手段と、
入力波形を縮小する倍率の入力を受け付ける縮小倍率受付手段と、
前記入力波形受付手段で受け付けた入力波形からピッチ波形を切り出す切り出し手段と、
前記切り出し手段で切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出手段と、
前記類似度算出手段で算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付け手段と、
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、置き換え用の波形を生成する縮小波形生成手段と、
前記縮小波形生成手段で生成した波形を、入力波形上で前記縮小波形生成手段において重み付け加算の対象となった2つのピッチ波形と置き換える縮小波形接続手段と、
具備し、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記縮小波形生成手段と、前記縮小波形接続手段とによる処理を繰り返すこと、
特徴とする。
The speech waveform reduction device according to the fourth aspect of the present invention is:
A speech waveform reduction device that reduces and outputs an input waveform on a time axis,
Input waveform receiving means for receiving data representing the input waveform;
A reduction magnification receiving means for receiving an input of a magnification for reducing the input waveform;
Cutting means for cutting out a pitch waveform from the input waveform received by the input waveform receiving means;
For each pitch waveform cut out by the cut-out means, similarity calculation means for calculating the similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
Ordering means for assigning a processing order to each pitch waveform using the similarity calculated by the similarity calculation means as a scale;
Reduced waveform generation that generates a replacement waveform by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means,
The waveform generated by the reduced waveform generating means, and two reduced waveform connecting means Ru replaced with pitch waveform subject to weighting addition in the reduced waveform generating means on the input waveform,
Equipped with,
Repeating the processing by the reduced waveform generating means and the reduced waveform connecting means while updating the pitch waveform to be selected according to the processing order until the waveform length of the specified magnification is reached.
It is characterized by.

この発明によれば、波形の類似度の高い順、すなわち、同じような波形が繰り返されている部分から順にピッチ波形を選択して縮小波形を生成する。このため、音質の劣化を抑えながら、任意の指定された倍率に入力音声を縮小して出力できる。   According to the present invention, a reduced waveform is generated by selecting a pitch waveform in order from the highest waveform similarity, that is, from a portion where similar waveforms are repeated. For this reason, it is possible to reduce the input voice to an arbitrarily specified magnification and output the output while suppressing deterioration in sound quality.

上記音声波形縮小装置において、
前記切り出し手段は、入力波形から一定長の部分波形を切り出し、切り出した部分波形単位でピッチ波形を切り出すことが望ましい。
この場合、前記順序付け手段は、前記一定長の部分波形単位でピッチ波形の処理順序付けを行う。
In the speech waveform reduction device,
The cutout means cuts out a partial waveform having a certain length from the input waveform, and cuts out a pitch waveform in units of cutout partial waveforms.
In this case, the ordering means performs processing of ordering the pitch waveforms in units of the fixed-length partial waveform.

本発明の第5の観点にかかる波形縮小方法は、
入力波形を表すデータを受け付けた入力波形受付ステップと、
入力波形を縮小する倍率の入力を受け付ける縮小倍率受付ステップと、
前記入力波形受付ステップで受け付けた入力波形からピッチ波形を切り出す切り出しステップと、
前記切り出しステップにおいて切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出ステップと、
前記類似度算出ステップで算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付けステップと、
記順序付けステップで付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、置き換え用の波形を生成する縮小波形生成ステップと、
前記縮小波形生成ステップで生成した波形を、入力波形上で前記縮小波形生成ステップにおいて重み付け加算の対象となった2つのピッチ波形と置き換える縮小波形接続ステップと、
を備え、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記縮小波形生成ステップと、前記縮小波形接続ステップとによる処理を繰り返すことを特徴とする
The waveform reduction method according to the fifth aspect of the present invention is:
An input waveform reception step for receiving data representing the input waveform;
A reduction magnification acceptance step for accepting an input of a magnification for reducing the input waveform;
A step of cutting out a pitch waveform from the input waveform received in the input waveform receiving step;
For each pitch waveform cut out in the cut-out step, a similarity calculation step for calculating a similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
An ordering step of assigning a processing order to each pitch waveform using the similarity calculated in the similarity calculation step as a scale;
Choose Back Symbol ordered pitch waveform processing order granted in step, by weighted addition of the one pitch waveform adjacent to the selected pitch waveform and the pitch waveform, reduced to generate a waveform for replacement waveform Generation step;
The waveform generated by the reduced waveform generation step, and two reduced waveform connecting step of Ru replaced with pitch waveform subject to weighting addition in the reduced waveform generation step on the input waveform,
With
Until waveform length of the specified magnification, while updating the pitch waveforms to be selected according to the processing order, and repeating said reduced waveform generation step, a process by said reduction waveform connecting step.

本発明の第6の観点にかかるプログラムは、
入力波形を時間軸上で縮小して出力する音声波形縮小装置に用いられるコンピュータを
入力波形を表すデータを受け付ける入力波形受付手段と、
入力波形を縮小する倍率の入力を受け付ける縮小倍率受付手段と
前記入力波形受付手段で受け付けた入力波形からピッチ波形を切り出す切り出し手段と
前記切り出し手段で切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出手段と
前記類似度算出手段で算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付け手段と
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、置き換え用の波形を生成する縮小波形生成手段と
前記縮小波形生成手段で生成した波形を、入力波形上で前記縮小波形生成手段において重み付け加算の対象となった2つのピッチ波形と置き換える縮小波形接続手段と、
して機能させ、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記縮小波形生成手段と、前記縮小波形接続手段とによる処理を繰り返すようにしたことを特徴とする
The program according to the sixth aspect of the present invention is:
The computer used to input waveform to the sound wave reduction device for outputting reduced on the time axis,
Input waveform receiving means for receiving data representing the input waveform ;
A reduction ratio accepting means for accepting an input of a magnification reducing the input waveform,
And the cut-out means that you cut out the pitch waveform from the input waveform received by the input waveform receiving means,
For each pitch waveform cut out by the cut- out means, similarity calculation means for calculating the similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
Ordering means for assigning a processing order to each pitch waveform using the similarity calculated by the similarity calculation means as a scale;
Reduced waveform generation that generates a replacement waveform by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means ,
The waveform generated by the reduced waveform generating means, a reduced waveform connecting means for replacing two pitch waveforms subject to weighting addition in the reduced waveform generating means on the input waveform,
To function,
Until waveform length of the specified magnification, while updating the pitch waveforms to be selected according to the processing order, and the reduced waveform generating means, that it has to the reduced waveform connecting means and repeatedly to by the processing returns Suyo Features .

本発明の第7の観点にかかる音声処理装置は、
入力波形を時間軸上で伸張または縮小して出力する音声処理装置であって、
入力波形を表すデータを受け付ける入力波形受付手段と、
入力波形を伸張または縮小する倍率の入力を受け付ける倍率受付手段と、
前記入力波形受付手段で受け付けた入力波形からピッチ波形を切り出す切り出し手段と、
前記切り出し手段で切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出手段と、
前記類似度算出手段で算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付け手段と、
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、挿入用の波形を生成する伸張波形生成手段と、
前記伸張波形生成手段で生成した波形を、入力波形上で重み付け加算の対象となった2つのピッチ波形の間に挿入する伸張波形接続手段と、
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、置き換え用の波形を生成する縮小波形生成手段と、
前記縮小波形生成手段で生成した波形を、入力波形上で前記縮小波形生成手段において重み付け加算の対象となった2つのピッチ波形と置き換える縮小波形接続手段と、
入力波形を伸張するか縮小するかを判別する倍率判別手段と、
前記倍率判別手段により、入力波形を伸張すると判別すると判別された場合に、指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記伸張波形生成手段と、前記伸張波形接続手段とによる処理を繰り返す第1の繰り返し手段と、
前記倍率判別手段により、入力波形を縮小すると判別すると判別された場合に、指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記縮小波形生成手段と、前記縮小波形接続手段とによる処理を繰り返す第2の繰り返し手段と、
具備する。
The speech processing apparatus according to the seventh aspect of the present invention is:
A speech processing apparatus that outputs an input waveform by extending or reducing on a time axis,
Input waveform receiving means for receiving data representing the input waveform;
Magnification accepting means for accepting an input of a magnification for expanding or reducing the input waveform;
Cutting means for cutting out a pitch waveform from the input waveform received by the input waveform receiving means;
For each pitch waveform cut out by the cut-out means, similarity calculation means for calculating the similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
Ordering means for assigning a processing order to each pitch waveform using the similarity calculated by the similarity calculation means as a scale;
Expanded waveform generation that generates a waveform for insertion by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means,
An expanded waveform connecting means for inserting the waveform generated by the expanded waveform generating means between two pitch waveforms that are subjected to weighted addition on the input waveform;
Reduced waveform generation that generates a replacement waveform by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means,
The waveform generated by the reduced waveform generating means, and two reduced waveform connecting means Ru replaced with pitch waveform subject to weighting addition in the reduced waveform generating means on the input waveform,
Magnification discrimination means for discriminating whether to expand or reduce the input waveform;
When it is determined that the input waveform is to be expanded by the magnification determining means, the expanded waveform generating means is updated while updating the pitch waveform selected according to the processing order until the waveform length of the specified magnification is reached. And first repeating means for repeating the processing by the expanded waveform connecting means,
When it is determined that the input waveform is to be reduced by the magnification determining means, the reduced waveform generating means is updated while updating the pitch waveform selected according to the processing order until the waveform length of the specified magnification is reached. And second repeating means for repeating the processing by the reduced waveform connecting means,
It comprises.

本発明によれば、音質の劣化を抑えながら、任意の倍率で音声波形の縮小または伸張を行うことができる。   According to the present invention, it is possible to reduce or expand a speech waveform at an arbitrary magnification while suppressing deterioration in sound quality.

本発明にかかる実施形態を、以下図面を参照して説明する。   Embodiments according to the present invention will be described below with reference to the drawings.

(実施形態1)
実施形態1では、指定された倍率が1/2から2の間の場合を先に説明し、後に、指定された倍率が0から1/2の間または2以上の場合を説明する。なお、指定された倍率が1より大きい場合、入力された音声信号波形を伸張して出力し、1未満の場合、入力された音声信号波形を縮小して出力する。
(Embodiment 1)
In the first embodiment, the case where the specified magnification is between 1/2 and 2 will be described first, and the case where the specified magnification is between 0 and 1/2 or 2 or more will be described later. If the specified magnification is greater than 1, the input audio signal waveform is expanded and output. If it is less than 1, the input audio signal waveform is reduced and output.

図1は、本発明の実施形態にかかる音声処理装置の構成を示すブロック図である。図1に示すように、音声処理装置100は、例えば、コンピュータなどの情報処理装置から構成される。入力装置12と出力装置13と記録媒体17とが音声処理装置100に接続される。音声処理装置100は、入力装置12から指示を受けて、記録媒体17から入力された音声波形データを指定された倍率の長さに伸張または縮小し、記録媒体17に出力する。 FIG. 1 is a block diagram showing a configuration of a sound processing apparatus according to an embodiment of the present invention. As shown in FIG. 1, the audio processing device 100 is configured by an information processing device such as a computer, for example. The input device 12, the output device 13, and the recording medium 17 are connected to the sound processing device 100. In response to the instruction from the input device 12, the audio processing device 100 expands or reduces the audio waveform data input from the recording medium 17 to the length of the designated magnification, and outputs it to the recording medium 17.

ここで、音声波形データとは、アナログ音声が所定のサンプリング周波数(例えば、8kHz)で量子化されているサンプル値データである。   Here, the audio waveform data is sample value data in which analog audio is quantized at a predetermined sampling frequency (for example, 8 kHz).

記録媒体17は、例えば、CD−RW(Compact Disk ReWritable)ディスクなどであり、音声波形データを格納する。   The recording medium 17 is, for example, a CD-RW (Compact Disk ReWritable) disk and stores audio waveform data.

音声処理装置100は、制御部110と、入力制御部120と、出力制御部130と、プログラム格納部140と、記憶部150と、データ記録部170とを備える。   The speech processing apparatus 100 includes a control unit 110, an input control unit 120, an output control unit 130, a program storage unit 140, a storage unit 150, and a data recording unit 170.

制御部110は、例えば、CPU(Central Processing Unit:中央演算処理装置)、RAM(Random Access Memory)等を備え、プログラム格納部140に予め格納されている動作プログラムに基づいて、音声処理装置100の各部を制御したり、データ記録部170を介して、記録媒体17に格納されている音声波形データを読み出したり、伸張・縮小した音声波形データを記録媒体17に書き込んだり、後述する波形伸張処理、波形縮小処理などを実行したりする。   The control unit 110 includes, for example, a central processing unit (CPU), a random access memory (RAM), and the like, and is based on an operation program stored in advance in the program storage unit 140. Control each unit, read out the audio waveform data stored in the recording medium 17 via the data recording unit 170, write the expanded / reduced audio waveform data into the recording medium 17, Perform waveform reduction processing.

制御部110は、記憶部150に一時記憶された音声波形データに対して、波形伸張処理または波形縮小処理を行い、伸張、縮小後の音声波形データを記憶部150に格納する。波形伸張処理の場合、制御部110は、音声波形データを繰り返し単位でいくつかの部分(以下、ピッチ波形と称する)に分割し、各ピッチ波形とその前後のピッチ波形のうちの一方とに基づいて、指定の倍率となるよう音声波形を生成し、生成した音声波形を生成する元となったピッチ波形の間に挿入する。波形縮小処理の場合、制御部110は、音声波形データをピッチ波形単位に分割し、各ピッチ波形とその前後のピッチ波形のうちの一方とに基づいて、指定の倍率となるように、音声波形を生成して、この音声波形を生成する元となったピッチ波形を先頭および最後尾とする区間の音声波形と置き換える。   The control unit 110 performs waveform expansion processing or waveform reduction processing on the audio waveform data temporarily stored in the storage unit 150, and stores the expanded and reduced audio waveform data in the storage unit 150. In the case of the waveform expansion processing, the control unit 110 divides the audio waveform data into several parts (hereinafter referred to as pitch waveforms) in units of repetition, and based on each pitch waveform and one of the pitch waveforms before and after that. Then, a speech waveform is generated so as to have a specified magnification, and inserted between the pitch waveforms from which the generated speech waveform is generated. In the case of the waveform reduction processing, the control unit 110 divides the voice waveform data into pitch waveform units, and the voice waveform is set to a specified magnification based on each pitch waveform and one of the pitch waveforms before and after the pitch waveform. Is replaced with the speech waveform of the section having the pitch waveform from which the speech waveform is generated as the head and tail.

制御部110は、ピッチ波形を生成する時に、その前後のピッチ波形のうち、注目しているピッチ波形との相関が高い方を判別する。相関が高いということは、2つのピッチ波形が類似しているということである。より類似するピッチ波形からピッチ波形を生成すればするほど、得られる伸張(縮小)ピッチ波形の劣化を抑えることができる。   When generating the pitch waveform, the control unit 110 discriminates the one having a higher correlation with the pitch waveform of interest among the pitch waveforms before and after the pitch waveform. High correlation means that the two pitch waveforms are similar. The more the pitch waveform is generated from the more similar pitch waveform, the more the deterioration of the obtained expansion (reduction) pitch waveform can be suppressed.

制御部110は、プログラム格納部140に予め記憶された動作プログラム等を読み出して実行することにより、例えば図2に示すような、分割部111、ピッチ抽出部112、ピッチ選択部113、波形縮小/伸張部114等を実現する。   The control unit 110 reads out and executes an operation program or the like stored in advance in the program storage unit 140, thereby, for example, as shown in FIG. 2, a division unit 111, a pitch extraction unit 112, a pitch selection unit 113, a waveform reduction / reduction unit, and the like. The decompression unit 114 and the like are realized.

分割部111は、入力された音声信号を一定時間長(サンプル数M)の音声フレームに分割し、ピッチ抽出部112とピッチ縮小/伸張部に送信する。なお、音声フレームの長さは、1つの音声フレーム内でピッチ波形を判別・切り出しできるように、判別するピッチ波形と比べて、十分に長い必要がある。経験上、音声フレームの長さは、最低でも音声フレーム内に含まれるピッチ波形の長さの3.4〜4倍程度の長さが必要である。   The dividing unit 111 divides the input audio signal into audio frames having a predetermined time length (number of samples M), and transmits the audio frames to the pitch extracting unit 112 and the pitch reducing / expanding unit. Note that the length of the voice frame needs to be sufficiently longer than the pitch waveform to be discriminated so that the pitch waveform can be discriminated / cut out within one voice frame. From experience, the length of the voice frame needs to be at least about 3.4 to 4 times the length of the pitch waveform included in the voice frame.

ピッチ抽出部112は、音声フレーム内に存在するピッチ波形を判別する。例えば、音声フレーム内の各サンプル値を{s,s,・・・,sM−1}とおいたとき、次の数1で示される計算式をtstartからtendまでの間で計算し、そのうち、eが最小となるtをピッチ波形の長さ(以下、Nと表記する)とする。ここで、tstart、tendは縮小・伸張の対象となっている音声信号に応じて、ピッチ長がその範囲内にあることが妥当な範囲で変更可能である。例えば、人間の音声を縮小・伸張の対象とした場合は、tstartを400Hz程度に相当するサンプル数(サンプリングレート/400)、tendを50Hz程度に相当するサンプル数(サンプリングレート/50)とする。 The pitch extraction unit 112 determines a pitch waveform present in the audio frame. For example, when each sample value in the voice frame is set as {s 0 , s 1 ,..., S M−1 }, the calculation formula shown by the following equation 1 is calculated from t start to t end. Of these, t that minimizes et is the length of the pitch waveform (hereinafter referred to as N). Here, t start and t end can be changed within a reasonable range that the pitch length is within the range according to the audio signal to be reduced / expanded. For example, when human speech is to be reduced / expanded, t start is the number of samples corresponding to about 400 Hz (sampling rate / 400), and t end is the number of samples corresponding to about 50 Hz (sampling rate / 50). To do.

Figure 0004461985
Figure 0004461985

なお、他のピッチ抽出法の例としては、サンプル値が極小値あるいは極大値をとるサンプル点、もしくはサンプル値の正負が変わるサンプル点からピッチ長を推定して、ピッチ波形を切り出す方法が考えられる。例えば、極小値をとるサンプル点の音声フレームが、先頭から、6、12、35、42、66、72、95、102、126、・・・、の場合には、ピッチ抽出部112は、公差の並び方を判別してピッチ波形の長さを60と推定する。   As another example of the pitch extraction method, a method of cutting the pitch waveform by estimating the pitch length from the sample point where the sample value takes the minimum value or the maximum value, or from the sample point where the sign value of the sample value changes can be considered. . For example, if the audio frame of the sample point taking the minimum value is 6, 12, 35, 42, 66, 72, 95, 102, 126,. And the length of the pitch waveform is estimated to be 60.

ピッチ抽出部112が算出したピッチ波形の長さに従って、音声フレームからピッチ波形を切り出すと、音声フレームの最後に、ピッチ波形の長さに満たない部分が残る。したがって、ピッチ抽出部112は残った部分を次回処理時に利用する。したがって、ピッチ抽出部112は次回処理時に、今回の未処理部分と音声フレームとを結合したものからピッチ波形を抽出する。もちろん、最後の音声フレームを処理している場合には、残った部分をそのまま出力する。   When the pitch waveform is cut out from the voice frame according to the length of the pitch waveform calculated by the pitch extraction unit 112, a portion less than the length of the pitch waveform remains at the end of the voice frame. Therefore, the pitch extraction unit 112 uses the remaining part in the next processing. Therefore, the pitch extraction unit 112 extracts a pitch waveform from the combination of the current unprocessed portion and the audio frame at the next processing. Of course, when the last audio frame is being processed, the remaining portion is output as it is.

このように、ピッチ抽出部112が音声フレーム単位でピッチ波形を抽出するのは、入力波形のピッチ長が途中で変化する可能性に対処するためである。 Thus, the reason why the pitch extraction unit 112 extracts the pitch waveform in units of audio frames is to cope with the possibility that the pitch length of the input waveform changes in the middle.

ピッチ選択部113は、ピッチ抽出部112でピッチ波形単位に分割された音声データの各ピッチ波形を所定の基準に従って、順序付けを行う。この所定の基準とは、仮に当該ピッチ波形に対して縮小/伸張処理を行ったとしても、音質が劣化しくいという基準である。具体例としては、数2に示すように、平均二乗誤差の小さな順である。ここで、Sは音声フレームの先頭からx番目の位置にあるサンプル値であり、Plは先頭からn番目のピッチ波形のサンプル数、pは先頭からn番目のピッチ波形の先頭のサンプル値の、音声フレーム内の先頭から数えた個数である。 The pitch selection unit 113 orders the pitch waveforms of the audio data divided into pitch waveform units by the pitch extraction unit 112 according to a predetermined standard. The predetermined standard is a standard that the sound quality is not easily deteriorated even if the pitch waveform is reduced / expanded. As a specific example, as shown in Formula 2, the order of the mean square error is ascending. Here, S x is the sample value in the x-th position from the head of the audio frame, Pl n is the number of samples n-th pitch waveform from the beginning, the beginning of a sample of p n is the n-th pitch waveform from the head This is the number of values counted from the beginning in the audio frame.

Figure 0004461985
Figure 0004461985

波形縮小/伸張部114は連続するピッチ波形から新しいピッチ波形を生成し、縮小、伸張の場合に応じて、ピッチ波形の置き換え、挿入を行う。ここで、新しいピッチ波形を生成するためのピッチ波形は注目しているピッチ波形と、そのピッチ波形の前後一方のピッチ波形である。注目しているピッチ波形の前後のピッチ波形のうち、いずれのピッチ波形を選択するかについては、以下の通りである。   The waveform reduction / expansion unit 114 generates a new pitch waveform from the continuous pitch waveform, and replaces and inserts the pitch waveform in accordance with the reduction and extension. Here, the pitch waveform for generating a new pitch waveform is a focused pitch waveform and one pitch waveform before and after the pitch waveform. Which pitch waveform is selected from the pitch waveforms before and after the pitch waveform of interest is as follows.

すなわち、今、注目しているピッチ波形のサンプル値列を{x,xk+1,・・・,xk+N−1}、このピッチ波形の前のピッチ波形のサンプル値列を{xk−N,xk−N+1,・・・,xk−1}、そして、このピッチ波形の後のピッチ波形のサンプル値列を{xk+N,xk+N+1,・・・,xk+2N−1}とすると、注目しているピッチ波形とその前の区間のピッチ波形との相関係数cは数3に示す式を用いて求められ、注目しているピッチ波形とその後の区間のピッチ波形との相関係数cは数4に示す式を用いて求められる。制御部110は、c,cの値のうち大きな方に対応するピッチ波形が他方のピッチ波形よりも相関が高いと判別し、相関が高い方のピッチ波形を選択する。 That is, the sample value sequence of the pitch waveform of interest is {x k , x k + 1 ,..., X k + N−1 }, and the sample value sequence of the pitch waveform before this pitch waveform is {x k−N , X k−N + 1 ,..., X k−1 }, and the sample value sequence of the pitch waveform after this pitch waveform is {x k + N , x k + N + 1 ,..., X k + 2N−1 } correlation coefficient c a of interest to have a pitch waveform with the pitch waveforms of the previous section are determined using the equations shown in equation 3, attention to that the correlation between the pitch waveforms and the pitch waveforms subsequent sections the number c b is determined using the equation shown in formula 4. Control unit 110, c a, pitch waveform corresponding to the larger of the values of c b is determined that there is high correlation than the other pitch waveform is selected pitch waveforms having a higher correlation.

Figure 0004461985
Figure 0004461985
Figure 0004461985
Figure 0004461985

数3及び数4に示した式は2つのピッチ波形の相互相関をとっているが、これらのピッチ波形は元々同じ音声波形データから取り出されたものである。このため、結局、数3及び数4に示した式は、音声波形データの自己相関をとっている。   The equations shown in Equations 3 and 4 take the cross-correlation of the two pitch waveforms, but these pitch waveforms are originally extracted from the same speech waveform data. Therefore, in the end, the equations shown in Equations 3 and 4 take the autocorrelation of the speech waveform data.

波形縮小/伸張部114は、波形縮小の場合、注目するピッチ波形と、このピッチ波形との相関係数が高い方のピッチ波形と、からピッチ波形を生成する。ピッチ波形の生成手順については後述する。そして、生成したピッチ波形で、注目するピッチ波形と、このピッチ波形との相関係数が高い方のピッチ波形とを置き換える操作を行う。 In the case of waveform reduction, the waveform reduction / expansion unit 114 generates a pitch waveform from a pitch waveform of interest and a pitch waveform having a higher correlation coefficient with the pitch waveform. The procedure for generating the pitch waveform will be described later. Then, an operation of replacing the pitch waveform of interest with the generated pitch waveform and the pitch waveform having a higher correlation coefficient with the pitch waveform is performed.

また、波形伸張の場合、波形縮小/伸張部114は、注目するピッチ波形と、このピッチ波形との相関係数が高い方のピッチ波形と、からピッチ波形を生成する。ピッチ波形の生成手順については後述する。そして、生成したピッチ波形を、注目するピッチ波形と、このピッチ波形との相関係数が高い方のピッチ波形との間に挿入する操作を行う。 In the case of waveform expansion, the waveform reduction / expansion unit 114 generates a pitch waveform from a pitch waveform of interest and a pitch waveform having a higher correlation coefficient with the pitch waveform. The procedure for generating the pitch waveform will be described later. Then, an operation of inserting the generated pitch waveform between the pitch waveform of interest and a pitch waveform having a higher correlation coefficient with the pitch waveform is performed.

図1に戻って、入力制御部120は、例えば、キーボードやポインティングデバイス等の入力装置12を接続し、入力装置12から入力された制御部110への指示などを受け付けて制御部110に伝達する。   Returning to FIG. 1, for example, the input control unit 120 connects the input device 12 such as a keyboard or a pointing device, receives an instruction to the control unit 110 input from the input device 12, and transmits the instruction to the control unit 110. .

出力制御部130は、例えば、ディスプレイやスピーカ等の出力装置13を接続し、制御部110の処理結果などを必要に応じて出力装置13に出力する。   For example, the output control unit 130 connects the output device 13 such as a display or a speaker, and outputs the processing result of the control unit 110 to the output device 13 as necessary.

プログラム格納部140は、ROM(Read Only Memory)などによって構成され、制御部110が実行する動作プログラムを格納する。   The program storage unit 140 is configured by a ROM (Read Only Memory) or the like, and stores an operation program executed by the control unit 110.

記憶部150は、例えば、ハードディスク装置やRAM(Random Access Memory)などの記憶装置から構成され、データ記録部170から送られてきた音声波形データ、及び波形伸張処理、あるいは波形縮小処理後の音声波形データを一時記憶する。記憶部150は、一時記憶した音声波形データをデータ記録部170または制御部110に送り出す。   The storage unit 150 is composed of a storage device such as a hard disk device or RAM (Random Access Memory), for example, and the audio waveform data sent from the data recording unit 170 and the audio waveform after the waveform expansion process or the waveform reduction process. Temporarily store data. The storage unit 150 sends the temporarily stored audio waveform data to the data recording unit 170 or the control unit 110.

データ記録部170は、例えば、CD−RWドライブなどであって、制御部110からの指示に従って、記録媒体17に格納されている音声波形データを読み出す。また、伸張あるいは縮小された音声波形データを記録媒体17に書き込む。   The data recording unit 170 is, for example, a CD-RW drive or the like, and reads audio waveform data stored in the recording medium 17 in accordance with an instruction from the control unit 110. Further, the expanded or reduced audio waveform data is written to the recording medium 17.

以下、図面を参照して波形縮小/伸張処理を説明する。図3はこの波形縮小/伸張処理のフローチャートである。なお、以下の説明では、縮小/伸張倍率aは1/2から2の間とする。   The waveform reduction / expansion processing will be described below with reference to the drawings. FIG. 3 is a flowchart of the waveform reduction / expansion processing. In the following description, the reduction / expansion magnification a is between 1/2 and 2.

まず、制御部110は、指定された縮小/伸張倍率aに基づき、目標縮小/伸張長Faを算出する(ステップS101)。Faの算出式は数5に示す。
(数5)
Fa=F×a−F
ここで、Fは音声フレームの長さ(サンプル数)である。入力波形を縮小する場合、Faは負になり、伸張する場合、Faは正になる。
First, the control unit 110 calculates a target reduction / expansion length Fa based on the designated reduction / expansion magnification a (step S101). The formula for calculating Fa is shown in Equation 5.
(Equation 5)
Fa = F × a−F
Here, F is the length (number of samples) of the audio frame. When the input waveform is reduced, Fa becomes negative, and when it expands, Fa becomes positive.

次に、制御部110内の分割部111は、入力波形を長さFの音声フレームに分割する(ステップS102)。そして、最初の音声フレームを注目する音声フレームとする。   Next, the dividing unit 111 in the control unit 110 divides the input waveform into audio frames having a length F (step S102). Then, the first audio frame is set as a focused audio frame.

制御部110は、処理すべき入力波形が残っているか否かを判別し(ステップS103)、処理すべき入力波形が残っておらず入力波形全体を縮小あるいは伸張したと判別すると(ステップS103:NO)、波形縮小/伸張処理を終了する。処理すべき入力波形が残っていると判別した場合(ステップS103:YES)、制御部110は以下のステップS104からステップS112までを処理すべき入力波形が無くなるまで繰り返す。   The controller 110 determines whether or not the input waveform to be processed remains (step S103), and determines that the input waveform to be processed does not remain and the entire input waveform has been reduced or expanded (step S103: NO). ), The waveform reduction / expansion processing is terminated. When it is determined that the input waveform to be processed remains (step S103: YES), the control unit 110 repeats the following steps S104 to S112 until there is no input waveform to be processed.

ステップS104では、ピッチ抽出部112で、上述した手法により、音声フレームからピッチ波形を切り出す。そして、これをピッチ選択部113に転送する。ピッチ選択部113は、各ピッチ波形の類似度(隣接するピッチ波形との相関係数)を計算する(ステップS105、算出式は数2)。ピッチ選択部113は、ステップS105で算出した類似度の高いピッチ波形が先に縮小あるいは伸張を受けるようにピッチ波形の処理順序を決定する(ステップS106)。 In step S104, the pitch extraction unit 112 cuts out a pitch waveform from the audio frame by the method described above. Then, this is transferred to the pitch selection unit 113. The pitch selection unit 113 calculates the similarity of each pitch waveform ( correlation coefficient with an adjacent pitch waveform ) (step S105, the calculation formula is Equation 2). The pitch selection unit 113 determines the processing order of the pitch waveforms so that the high-similarity pitch waveform calculated in step S105 is first reduced or expanded (step S106).

波形縮小/伸張部114は、ピッチ選択部113が決定した処理順序にピッチ波形の縮小あるいは伸張を実行する。まず、波形縮小/伸張部114は、決定された処理順序でピッチ波形を選択する(ステップS107)。次に、処理中の音声フレーム内における処理累計がFaの絶対値を超えているか否かを判別する(ステップS108)。   The waveform reduction / expansion unit 114 performs reduction or expansion of the pitch waveform in the processing order determined by the pitch selection unit 113. First, the waveform reduction / expansion unit 114 selects a pitch waveform in the determined processing order (step S107). Next, it is determined whether or not the accumulated processing within the audio frame being processed exceeds the absolute value of Fa (step S108).

音声フレーム内におけるピッチ波形の処理累計(伸張/縮小で生成した音声波形の長さを総計する)がFaの絶対値を超えていると判別した場合(ステップS108:YES)、波形縮小/伸張部114は、処理累計とFaの絶対値との差を次回の処理に繰り越す(ステップS109)。つまり、2回目の音声フレームの処理において、ステップS108では、音声フレーム内におけるピッチ波形の処理累計が2|Fa|−(前回のピッチ波形の処理累計)を超えたか否かを判別する。以降、それまでのピッチ波形の処理累計が次回の処理範囲に影響を与え、ステップS108では、今回のピッチ波形の処理累計と比較される値が変動する。ステップS109の処理が終了すると、処理はステップS103へ移り、次の音声フレームを処理する。   When it is determined that the accumulated processing of pitch waveforms in the speech frame (total length of speech waveforms generated by expansion / reduction) exceeds the absolute value of Fa (step S108: YES), the waveform reduction / expansion unit In step S109, the difference 114 between the accumulated process and the absolute value of Fa is carried over to the next process. That is, in the processing of the second audio frame, in step S108, it is determined whether or not the accumulated processing of the pitch waveform in the audio frame has exceeded 2 | Fa |-(the accumulated processing of the previous pitch waveform). Thereafter, the accumulated processing of the pitch waveform so far affects the next processing range, and the value compared with the accumulated processing of the current pitch waveform varies in step S108. When the process of step S109 ends, the process moves to step S103, and the next audio frame is processed.

音声フレーム内におけるピッチ波形の処理累計がFaの絶対値を超えていないと判別した場合(ステップS108:NO)、波形縮小/伸張部114は、指定された倍率aが1以上であるか否かを判別し(ステップS110)、1以上であれば(ステップS110:YES)、ピッチ波形に対し伸張処理(ステップS111)を実行し、1未満であれば(ステップS110:NO)、ピッチ波形に対し縮小処理(ステップS111)を実行する。そして、制御部110はステップS107に処理を戻す。   When it is determined that the accumulated processing of the pitch waveform within the audio frame does not exceed the absolute value of Fa (step S108: NO), the waveform reduction / expansion unit 114 determines whether or not the designated magnification a is 1 or more. (Step S110), if it is 1 or more (step S110: YES), the expansion process (step S111) is executed for the pitch waveform. If it is less than 1 (step S110: NO), the pitch waveform is processed. A reduction process (step S111) is executed. And the control part 110 returns a process to step S107.

ステップS111の伸張処理は、図4のフローチャートを参照して説明する。   The decompression process in step S111 will be described with reference to the flowchart in FIG.

以下、注目している(波形を伸張することが指定されている)ピッチ波形の各サンプル値列を{x,xk+1,・・・,xk+N−1}、このピッチ波形の前のピッチ波形の各サンプル値列を{xk−N,xk−N+1,・・・,xk−1}、そして、注目しているピッチ波形の後のピッチ波形の各サンプル値列を{xk+N,xk+N+1,・・・,xk+2N−1}とする。 Hereinafter, each sample value sequence of the pitch waveform of interest (designated to expand the waveform) is represented as {x k , x k + 1 ,..., X k + N−1 }, and the pitch before this pitch waveform Each sample value sequence of the waveform is represented by {x k−N , x k−N + 1 ,..., X k−1 }, and each sample value sequence of the pitch waveform after the pitch waveform of interest is represented by {x k + N , X k + N + 1 ,..., X k + 2N−1 }.

次に、波形縮小/伸張部114は注目しているピッチ波形とその前の区間のピッチ波形との相関係数cを数3に示す式を用いて計算し、注目しているピッチ波形とその後の区間のピッチ波形との相関係数cを数4に示す式を用いて計算する(図4:ステップS301)。 Next, the waveform reduction / expansion unit 114 calculates a correlation coefficient ca between the pitch waveform of interest and the pitch waveform of the previous section using the equation shown in Formula 3, and calculates the pitch waveform of interest. calculated using the equation shown in equation (4) the correlation coefficient c b between the pitch waveforms of the subsequent interval (Figure 4: step S301).

そして、波形縮小/伸張部114はステップS301で計算したcとcとの大小を判別し、注目しているピッチ波形との相関が高い方のピッチ波形を判別する(ステップS302)。 Then, the waveform reduction / expansion unit 114 determines the magnitude of c a and c b calculated in step S301, the correlation between the pitch waveforms of interest to determine the higher pitch waveform (step S302).

過去側のピッチ波形の相関が未来側のピッチ波形の相関よりも高い場合(ステップS302:過去側(前))、波形縮小/伸張部114は次の数6に示す式に従って、ピッチ波形を生成する(ステップS303)。
(数6)
=(i/N−1)×xk−N+i+((N−1−i)/N−1)×xk+i
(iは0からN−1)
When the correlation of the past-side pitch waveform is higher than the correlation of the future-side pitch waveform (step S302: past-side (previous)), the waveform reduction / expansion unit 114 generates a pitch waveform according to the following equation (6). (Step S303).
(Equation 6)
s i = (i / N−1) × x k−N + i + ((N−1−i) / N−1) × x k + i
(I is 0 to N-1)

数6で示した式は、過去側のピッチ波形と注目区間のピッチ波形の各サンプル値を重み付け加算していることを示している。過去側のピッチ波形の重み係数(i/N−1)は0から始まり1で終わる。そして、注目区間のピッチ波形の重み係数((N−1−i)/N−1)は1で始まり0で終わる。   The expression shown in Expression 6 indicates that the sample values of the past-side pitch waveform and the pitch waveform of the section of interest are weighted and added. The weight coefficient (i / N-1) of the pitch waveform on the past side starts from 0 and ends with 1. The weighting coefficient ((N-1-i) / N-1) of the pitch waveform in the attention section starts with 1 and ends with 0.

次に、波形縮小/伸張部114は生成したピッチ波形を前のピッチ波形と注目しているピッチ波形との間に接続(挿入)し(ステップS304)、伸張処理を終了しステップS107に進む。   Next, the waveform reduction / expansion unit 114 connects (inserts) the generated pitch waveform between the previous pitch waveform and the pitch waveform of interest (step S304), ends the expansion process, and proceeds to step S107.

以上の各ステップの処理で得られる音声波形の各サンプル値は、{・・・,xk−1,s,s,・・・,sN−1,x,xk+1,・・・,xk+N−1,・・・}となる。 The respective sample values of the speech waveform obtained by the processing of the above steps are {..., X k−1 , s 0 , s 1 ,..., S N−1 , x k , x k + 1 , , X k + N−1 ,.

一方、未来側のピッチ波形の相関が過去側のピッチ波形の相関よりも高い場合(図4:ステップS302:未来側(後))、波形縮小/伸張部114は次の数7に示す式に従って、ピッチ波形を生成する(ステップS305)。
(数7)
=(i/N−1)×xk+i+((N−1−i)/N−1)×xk+N+i
(iは0からN−1)
On the other hand, when the correlation of the pitch waveform on the future side is higher than the correlation of the pitch waveform on the past side (FIG. 4: step S302: future side (after)), the waveform reduction / expansion unit 114 follows the equation shown in the following equation (7). A pitch waveform is generated (step S305).
(Equation 7)
s i = (i / N−1) × x k + i + ((N−1−i) / N−1) × x k + N + i
(I is 0 to N-1)

次に、波形縮小/伸張部114は生成したピッチ波形を注目しているピッチ波形と後のピッチ波形との間に接続(挿入)し(ステップS306)、伸張処理を終了する。   Next, the waveform reduction / expansion unit 114 connects (inserts) the generated pitch waveform between the focused pitch waveform and the subsequent pitch waveform (step S306), and ends the expansion process.

以上の各ステップの処理で得られる音声波形の各サンプル値は、{・・・,x,xk+1,・・・,xk+N−1,s,s,・・・,sN−1,xk+N,・・・}となる。 Each sample value of the speech waveform obtained by the processing of the above steps is {..., X k , x k + 1 ,..., X k + N−1 , s 0 , s 1 ,. 1 , x k + N ,.

ステップS112の縮小処理は、図5のフローチャートを参照して説明する。   The reduction process in step S112 will be described with reference to the flowchart of FIG.

ステップS401、S402は、それぞれ図4のステップS301、S302と同様であり、説明を省略する。   Steps S401 and S402 are the same as steps S301 and S302 in FIG.

ステップS403では、図4のステップS303と同様に、波形縮小/伸張部114は、注目するピッチ波形と前のピッチ波形に基づいて、数8に示す式を用いて重み付け加算を実行し、新しいピッチ波形を生成する。数6と数8とを比較すると明らかなように、重み係数は伸張する場合と逆である。したがって、過去側のピッチ波形の重み係数(i/N−1)は1から始まり0で終わる。そして、注目区間のピッチ波形の重み係数((N−1−i)/N−1)は0で始まり1で終わる。
(数8)
=((N−1−i)/N−1)×xk−N+i+(i/N−1)×xk+i
(iは0からN−1)
In step S403, as in step S303 of FIG. 4, the waveform reduction / expansion unit 114 performs weighted addition using the equation shown in Equation 8 based on the pitch waveform of interest and the previous pitch waveform, and creates a new pitch. Generate a waveform. As is clear from the comparison between Equation 6 and Equation 8, the weighting factor is the reverse of the expansion. Therefore, the weight coefficient (i / N-1) of the pitch waveform on the past side starts from 1 and ends at 0. The weighting coefficient ((N-1-i) / N-1) of the pitch waveform in the attention section starts with 0 and ends with 1.
(Equation 8)
s i = ((N−1−i) / N−1) × x k−N + i + (i / N−1) × x k + i
(I is 0 to N-1)

そして、波形縮小/伸張部114は、注目するピッチ波形とその前のピッチ波形とを生成したピッチ波形で置き換える(ステップS404)。つまり、連続した2つのピッチ波形を生成したピッチ波形で置き換える。   Then, the waveform reduction / expansion unit 114 replaces the pitch waveform of interest and the previous pitch waveform with the generated pitch waveform (step S404). That is, two consecutive pitch waveforms are replaced with generated pitch waveforms.

ステップS405では、図4のステップS305と同様に、波形縮小/伸張部114は、注目するピッチ波形と後のピッチ波形に基づいて、数9に示す式を用いて重み付け加算を実行し、新しいピッチ波形を生成する。そして、この注目するピッチ波形と後のピッチ波形とを生成したピッチ波形で置き換える(ステップS406)。
(数9)
=((N−1−i)/N−1)×xk+i+(i/N−1)×xk+N+i
(iは0からN−1)
In step S405, as in step S305 of FIG. 4, the waveform reduction / expansion unit 114 performs weighted addition using the equation shown in Equation 9 based on the pitch waveform of interest and the subsequent pitch waveform, and creates a new pitch. Generate a waveform. Then, the pitch waveform of interest and the subsequent pitch waveform are replaced with the generated pitch waveform (step S406).
(Equation 9)
s i = ((N−1−i) / N−1) × x k + i + (i / N−1) × x k + N + i
(I is 0 to N-1)

このような構成によれば、過去側と未来側とのうち、相関が高い側のピッチ波形と、注目しているピッチ波形とに基づいてピッチ波形を生成する。そして、伸張の場合には、注目しているピッチ波形の直前または直後に挿入する。また、縮小の場合には、生成したピッチ波形のもととなった音声波形の代わりに挿入する。このため、過渡期の音声波形を再生する際に、雑音の発生を低減することができる。また、2つのピッチ波形のうち、過去側のピッチ波形に対し、0から始まり1で終わるような重み係数を乗算し、未来側のピッチ波形に対し、1から始まり0で終わるような重み係数を乗算する。このため、生成したピッチ波形は、波形の連続性を保った状態で前後のピッチ波形と接続される。   According to such a configuration, the pitch waveform is generated based on the pitch waveform having the higher correlation between the past side and the future side and the pitch waveform of interest. In the case of expansion, it is inserted immediately before or after the pitch waveform of interest. In the case of reduction, the generated pitch waveform is inserted instead of the voice waveform. For this reason, it is possible to reduce the generation of noise when reproducing a transitional speech waveform. Of the two pitch waveforms, the past-side pitch waveform is multiplied by a weighting factor starting from 0 and ending with 1, and the future-side pitch waveform is weighted starting with 1 and ending with 0. Multiply. For this reason, the generated pitch waveform is connected to the preceding and succeeding pitch waveforms while maintaining the continuity of the waveform.

なお、入力された音声波形を縮小して出力する場合、他のピッチ波形と重み付け加算されて置き換えられるため、処理順が回ってくる前に消去されるピッチ波形がある。この場合、そのようなピッチ波形はステップS112の処理対象にならない。   Note that when the input speech waveform is reduced and output, since it is replaced by weighted addition with another pitch waveform, there is a pitch waveform that is erased before the processing order comes around. In this case, such a pitch waveform is not a processing target in step S112.

また、上述した数6乃至数9の重み係数は、一例であり、0から始まり1で終わるようなN個の数列a(上記実施形態1ではi/(N−1))、及び1から始まり0で終わるN個の数列b(上記実施形態1では(N−1−i)/(N−1))であればどのようなものでもよい。ただし、各i(0からN−1まで)に対し、次の数10で示す関係を満たしている必要がある。
(数10)
+b=1
Further, the weighting coefficients of the above-described equations 6 to 9 are examples, and N number sequences a i (i / (N−1) in the first embodiment) and 1 starting from 0 and ending with 1 and 1 Any number may be used as long as it is an N number sequence b i that starts and ends with 0 ((N-1-i) / (N-1) in the first embodiment). However, for each i (from 0 to N−1), it is necessary to satisfy the relationship expressed by the following equation (10).
(Equation 10)
a i + b i = 1

また、上記ピッチ抽出部112は、残り区間が指定の倍数以下になったとき、残りの区間を次回処理の先頭としていたが、最後の縮小・伸張処理を行った直後の地点から、次回処理(ピッチ波形検出)を行うようにしてもよい。このように処理を行うと、上記処理方式よりも短い単位で処理が実行される。このため、指定された倍率により近い出力を得ることができる。   The pitch extraction unit 112 sets the remaining section as the head of the next process when the remaining section is equal to or less than the specified multiple, but starts the next process ( Pitch waveform detection) may be performed. When processing is performed in this way, processing is executed in units shorter than the above processing method. For this reason, an output closer to the designated magnification can be obtained.

また、ピッチ波形の切り出しを止める条件として、切り出したピッチ波形のうちで、サンプル数の最も多いもの(最大値)を基準としていたが、これをサンプル数の算術平均(以下、単に平均と称する)とすることができる。この場合、誤ってピッチ波形の長さを判別してしまい、余計に次回処理に回す場合を回避することができる。   Further, as a condition for stopping the cutout of the pitch waveform, the cutout pitch waveform having the largest number of samples (maximum value) was used as a reference. This is the arithmetic average of the number of samples (hereinafter simply referred to as the average). It can be. In this case, it is possible to avoid the case where the length of the pitch waveform is erroneously determined and the process is unnecessarily transferred to the next process.

なお、ここまで、倍率が1/2から2の間の場合を説明したが、倍率はこの範囲外にあってもよい。   Although the case where the magnification is between 1/2 and 2 has been described so far, the magnification may be outside this range.

例えば、倍率がn倍から(n+1)倍の間にある場合(ただし、nは2以上の整数で、n倍は含まないが、(n+1)倍を含む)、処理順により選択されたピッチ波形は(n+1)倍の伸張処理を受ける。(n+1)倍の伸張処理を受ける場合、上記ステップS302において、波形縮小/伸張部114は伸張波形を生成するためのピッチ波形を次のように選択する。ここで、注目しているピッチ波形の先頭位置を0と置き、ピッチ波形の長さをNとする。
1)過去側の相関が未来側の相関より大きい場合
−nNから0までの音声波形と0からnNまでの音声波形
2)未来側の相関が過去側の相関より大きい場合
(1−n)NからNまでの音声波形とNから(1+n)Nまでの音声波形
For example, when the magnification is between n times and (n + 1) times (where n is an integer greater than or equal to 2 and does not include n times, but includes (n + 1) times), the pitch waveform selected according to the processing order Undergoes (n + 1) times expansion processing. When receiving the (n + 1) times expansion process, in step S302, the waveform reduction / expansion unit 114 selects a pitch waveform for generating an expansion waveform as follows. Here, the head position of the pitch waveform of interest is set to 0, and the length of the pitch waveform is set to N.
1) When past side correlation is greater than future side correlation-Speech waveform from nN to 0 and speech waveform from 0 to nN 2) When future side correlation is greater than past side correlation (1-n) N Speech waveform from N to N and speech waveform from N to (1 + n) N

そして、数6及び数7の重み係数は、i/(N−1)の代わりにi/(nN−1)とし、(N−1−i)/(N−1)の代わりに(nN−1−i)/(nN−1)とする。なお、上記相関係数cを−nNから0までの音声波形と0からnNまでの音声波形とから、上記相関係数cを(1−n)NからNまでの音声波形とNから(1+n)Nまでの音声波形とから求めることが望ましい。 The weighting coefficients of Equations 6 and 7 are i / (nN-1) instead of i / (N-1), and (nN-) instead of (N-1-i) / (N-1). 1-i) / (nN-1). The correlation coefficient c a is determined from the speech waveform from −nN to 0 and the speech waveform from 0 to nN, and the correlation coefficient c b is determined from the speech waveform from (1-n) N to N and from N. It is desirable to obtain from speech waveforms up to (1 + n) N.

また、例えば、倍率が1/(m+1)倍から1/m倍の間にある場合(ただし、mは2以上の整数で、1/m倍を含まないが、1/(m+1)倍を含む)、選択されたピッチ波形は1/(m+1)倍の縮小処理を受ける。1/(m+1)倍の縮小処理を受ける場合、上記ステップS402において、波形縮小/伸張部114は縮小波形を生成するためのピッチ波形を次のように選択する。ここで、注目しているピッチ波形の先頭位置を0と置き、ピッチ波形の長さをNとする。
1)過去側の相関が未来側の相関より大きい場合
−mNから(−m+1)Nまでの音声波形と0からNまでの音声波形
2)未来側の相関が過去側の相関より大きい場合
0からNまでの音声波形とmNから(m+1)Nまでの音声波形
Also, for example, when the magnification is between 1 / (m + 1) times and 1 / m times (where m is an integer of 2 or more and does not include 1 / m times, but includes 1 / (m + 1) times) ), The selected pitch waveform is subjected to a reduction process of 1 / (m + 1) times. When the 1 / (m + 1) times reduction process is performed, in step S402, the waveform reduction / expansion unit 114 selects a pitch waveform for generating a reduced waveform as follows. Here, the head position of the pitch waveform of interest is set to 0, and the length of the pitch waveform is set to N.
1) When the correlation on the past side is larger than the correlation on the future side The speech waveform from -mN to (-m + 1) N and the speech waveform from 0 to N 2) When the correlation on the future side is greater than the correlation on the past side From 0 Speech waveform up to N and speech waveform from mN to (m + 1) N

そして、ステップS404では、生成したピッチ波形で前のピッチ波形から注目ピッチ波形までの音声波形を置き換え、ステップS406では、生成したピッチ波形で注目ピッチ波形から後のピッチ波形までを置き換える。 In step S404, the generated pitch waveform replaces the speech waveform from the previous pitch waveform to the target pitch waveform. In step S406, the generated pitch waveform replaces the target pitch waveform to the subsequent pitch waveform.

また、この際、上記相関係数cを−mNから0までの音声波形と(−m+1)NからNまでの音声波形とから、上記相関係数cを0からmNまでの音声波形とNから(m+1)Nまでの音声波形とから求めることが望ましい。 At this time, the correlation coefficient c a is a speech waveform from −mN to 0 and a speech waveform from (−m + 1) N to N, and the correlation coefficient c b is a speech waveform from 0 to mN. It is desirable to obtain from speech waveforms from N to (m + 1) N.

(実施形態2)
上記実施形態1では、ピッチ波形の類似度を求め、類似度の高い順にピッチ波形の伸張・縮小を行う。しかし、類似度という尺度のみに基づいてピッチ波形を縮小・伸張するため、音素の言語上の重要度とは無関係にピッチ波形が縮小・伸張される。このため、例えば、人間の会話を高速再生する場合、強勢(ストレス、アクセント)がおかれているピッチ波形も縮小されてしまい、その会話を人間が聞き取りにくくなるという問題が生じる。そこで、実施形態2では、音声フレーム内に強勢がおかれている部分(以下、強勢部分と称する。)があるか否かを判別し、その部分に対しては、できるだけ再生時間が短くならないようにする第2の実施形態の音声処理装置について説明する。
(Embodiment 2)
In the first embodiment, the pitch waveform similarity is obtained, and the pitch waveform is expanded / reduced in descending order of similarity. However, since the pitch waveform is reduced / expanded based only on the measure of similarity, the pitch waveform is reduced / expanded regardless of the phoneme language importance. For this reason, for example, when a human conversation is played back at high speed, the pitch waveform on which stress (stress, accent) is placed is also reduced, which causes a problem that it becomes difficult for humans to hear the conversation. Therefore, in the second embodiment, it is determined whether or not there is a portion (hereinafter, referred to as a stress portion) in which a stress is placed in the audio frame, and the playback time is not shortened as much as possible. A speech processing apparatus according to the second embodiment will be described.

本実施形態にかかる音声処理装置100の構成は実施形態1と同一であるので、実施形態1との相違点のみを説明することにする。   Since the configuration of the speech processing apparatus 100 according to the present embodiment is the same as that of the first embodiment, only differences from the first embodiment will be described.

音声信号の縮小が指示されている場合、本実施形態のピッチ選択部113は、ピッチ毎に分割された音声フレームを順序付けする際にさらに、強勢部分があるか否かを判別し、強勢部分を含むピッチの処理順序を後回しにする。   When the reduction of the audio signal is instructed, the pitch selection unit 113 of the present embodiment further determines whether or not there is a stress portion when ordering the sound frames divided for each pitch, and determines the stress portion. The processing order of the pitch including it is postponed.

ピッチ選択部113は、音声フレーム内に強勢部分があるか否かを判別するために、以下の手順により、判別を行う。   The pitch selection unit 113 performs the determination according to the following procedure in order to determine whether or not there is a stressed portion in the audio frame.

まず、実施形態1で説明した方法(類似度の高い順に並べる)により、一旦ピッチ波形間の順序付けを行う。強勢がおかれている部分では前後とよく似たピッチ波形が出現するため、強勢部分を含むピッチ波形は、この順序付けにより上位にくる。また、振幅が他より大きくなるため、強勢部分は他の部分(ピッチ波形)と比較して大きな波のエネルギーを有する。   First, the pitch waveforms are once ordered by the method described in the first embodiment (arranged in descending order of similarity). Since a pitch waveform that resembles the front and rear appears in the portion where the stress is placed, the pitch waveform including the stress portion is placed higher in this ordering. Further, since the amplitude is larger than the others, the stress portion has a larger wave energy than the other portion (pitch waveform).

そこで、ピッチ選択部113は、仮に順序付けされた各ピッチ波形が有するエネルギー値の変化の様子から強勢部分を含むピッチ波形が存在するか否かの判別を行う(以下、「強勢判別処理」と称する)。強勢部分があると判別した場合には、それらの部分の順位を所定の順序まで下げる。   Therefore, the pitch selection unit 113 determines whether or not there is a pitch waveform including a stress portion from the state of change of the energy value of each ordered pitch waveform (hereinafter referred to as “stress determination processing”). ). If it is determined that there are strong portions, the rank of those portions is lowered to a predetermined order.

強勢判別処理について、図6に示したフローチャートを参照して説明する。強勢判別処理は、図3のステップS106の後、ステップS107の前に実行される。   The stress determination process will be described with reference to the flowchart shown in FIG. The stress determination process is executed after step S106 in FIG. 3 and before step S107.

まず、ピッチ選択部113は、初期化処理として、変数カウンタiに1を代入する(ステップS601)。   First, the pitch selection unit 113 substitutes 1 for a variable counter i as an initialization process (step S601).

次に、iの値とN/tの値とを比較し、iの値がN/tの値より小さいか否かを判別する(ステップS602)。iの値がN/tの値より小さければ(ステップS602:YES)、ピッチ選択部113は、強勢判別処理の実行を継続し、ステップS603に処理を移す。なお、Nは強勢判別処理で処理するピッチ波形の数である。また、tは実験的に求めた値で、本実施形態では4とする。 Next, the value of i is compared with the value of N / t, and it is determined whether or not the value of i is smaller than the value of N / t (step S602). If the value of i is smaller than the value of N / t (step S602: YES), the pitch selection unit 113 continues to execute the stress determination process, and moves the process to step S603. N is the number of pitch waveforms to be processed in the stress determination process. Further, t is a value obtained experimentally, and is 4 in this embodiment.

iの値がN/tの値より大きければ(ステップS602:NO)、ピッチ選択部113は、当該音声フレーム内に強勢が無かったと判別し(ステップS607)、強勢判別処理を終了する。この場合、ステップS106で行った以上の順序の変更は無い。   If the value of i is larger than the value of N / t (step S602: NO), the pitch selection unit 113 determines that there is no stress in the audio frame (step S607), and ends the stress determination process. In this case, there is no change in the order more than that performed in step S106.

ステップS603では、数11、12に示す式により、k、kを計算する。なお、swは上述のステップS106で付与された処理順jに対応するピッチ波形が有する波のエネルギー値である。swは数13に示す式により算出する。なお、S、Pl、pは数2で使用した定義と同一とする。また、数13でのnは処理順jに対応するピッチ波形が音声フレームの先頭からn番目のピッチ波形であったことを意味する。 In step S603, k 0 and k 1 are calculated by the equations shown in equations 11 and 12. Note that sw j is an energy value of a wave included in the pitch waveform corresponding to the processing order j given in step S106 described above. sw j is calculated by the equation shown in Equation 13. S x , Pl n , and pn are the same as the definitions used in Equation 2. Further, n in Equation 13 means that the pitch waveform corresponding to the processing order j is the nth pitch waveform from the beginning of the audio frame.

Figure 0004461985
Figure 0004461985
Figure 0004461985
Figure 0004461985
Figure 0004461985
Figure 0004461985

もし、音声フレーム内に強勢部分が含まれているとすれば、強勢部分の振幅は他の部分の振幅より大きい。従って、音声フレーム内で周波数がほとんど変化しなければ、強勢部分を含むピッチ波形が有するエネルギーは、強勢部分を含まない他のピッチ波形が有するエネルギーよりもとりわけ大きくなっている。それ故、kの値とkの定数倍bとを比較し(ステップS604)、kの値がkの定数倍b以下であれば(ステップS604:NO)、iに1を加算し(ステップS605)、ステップS602に戻る。なお、bの値は実験的に求めた最適値であって、例えば、1.5である。 If the stress portion is included in the voice frame, the amplitude of the stress portion is larger than the amplitude of the other portions. Therefore, if the frequency hardly changes in the voice frame, the energy of the pitch waveform including the stress portion is particularly higher than the energy of the other pitch waveforms not including the stress portion. Therefore, the value of k 0 is compared with the constant multiple b of k 1 (step S604). If the value of k 0 is equal to or less than the constant multiple b of k 1 (step S604: NO), 1 is added to i. Then (step S605), the process returns to step S602. Note that the value of b is an experimentally obtained optimum value, for example, 1.5.

の値がkの定数倍bより大きいと判別した場合(ステップS604:YES)、ピッチ選択部113は、当該音声フレーム内に強勢があると判別する(ステップS606)。そして、kに含まれる類似度の大きな順でi個とったピッチ波形の処理順位を、他のピッチ波形よりも後で縮小を受けるように変更する。ここでのiの値は、ステップS604においてkの値がkの定数倍bより大きくなったときのiの値とする。そして、強勢判別処理を終了する。 When it is determined that the value of k 0 is larger than the constant multiple b of k 1 (step S604: YES), the pitch selection unit 113 determines that there is a stress in the audio frame (step S606). Then, the processing order of descending order in i pieces took pitch waveform similarity contained in k 0, changing to receive reduced later than the other pitch waveforms. The value of i here is the value of i when the value of k 0 becomes larger than the constant multiple b of k 1 in step S604. Then, the stress determination process ends.

ただし、強勢部分を有するピッチ波形の処理順位を最後に下げると、本来、縮小処理に適さないピッチ波形をも縮小してしまい、音質を余計に劣化させるおそれがある。そこで、ピッチ選択部113は、例えば、このピッチ波形の処理順位を、最大の類似値と最大の類似値を算術平均し、得られた値の類似度を持つピッチ波形に与えられる処理順位よりは低くしないことで音質の劣化を抑えることができる。なお、この算術平均値と等しい値の類似度を持つピッチ波形がない場合は、類似度が算術平均値より小さいピッチ波形のうち、最も値の大きなピッチ波形に付与された処理順位よりは処理順位を下げないものとする。   However, if the processing order of the pitch waveform having the stress portion is lowered last, the pitch waveform that is originally not suitable for the reduction processing is also reduced, and the sound quality may be further deteriorated. Therefore, the pitch selection unit 113 arithmetically averages the processing order of the pitch waveform, for example, the maximum similarity value and the maximum similarity value, and the processing order given to the pitch waveform having the degree of similarity of the obtained values. Deterioration of sound quality can be suppressed by not lowering. If there is no pitch waveform having a similarity with a value equal to the arithmetic average value, the processing order is higher than the processing order assigned to the pitch waveform having the largest value among the pitch waveforms having a similarity lower than the arithmetic mean value. Shall not be lowered.

このような構成により、強勢のある部分の音声波形が縮小されにくくなり、例えば、高速再生時における聞き取りやすさを向上させることができる。また、強勢のある部分の処理順序をある順位より下に下げないことにしたため、再生時の音質劣化を抑えることができる。   With such a configuration, it is difficult to reduce the voice waveform of a strong portion, and for example, it is possible to improve the ease of hearing during high-speed playback. In addition, since the processing order of the strong portion is not lowered below a certain order, it is possible to suppress deterioration in sound quality during reproduction.

以上説明したように、実施形態1および実施形態2の音声処理装置100では、入力された音声波形データを任意の倍率で縮小あるいは伸張して出力できる。   As described above, in the speech processing apparatus 100 according to the first and second embodiments, the input speech waveform data can be reduced or expanded at an arbitrary magnification and output.

なお、本発明は上記実施形態に限定されず、種々の変形及び応用が可能である。   In addition, this invention is not limited to the said embodiment, A various deformation | transformation and application are possible.

例えば、上記実施形態では、類似するピッチ波形が連続する場所を選択する方法として数2に示した最小二乗誤差を利用したが、数14に示す平均誤差vや、数15に示すベクトルの角度係数hを使用するようにしてもよい。ピッチ選択部113は、平均誤差vを利用する場合は、平均誤差の小さい順、角度係数hを利用する場合は、角度係数の大きい順に縮小/伸張する波形を選択する。なお、実施形態2の場合には、数13あるいは数14に示した式でピッチ波形の順序を並び換えた後に、上述した強勢判別処理を実行し、さらにピッチ波形の順序を並び換える。 For example, in the above embodiment, the angle of the average error v n and a vector shown in Equation 15, but using the least square error expressed by Equation 2 as a method for selecting the location where pitch waveforms similar to continuous, as shown in Equation 14 The coefficient h n may be used. Pitch selection unit 113, when using the average error v n is ascending order of average error, when using the angular coefficient h n selects a waveform to shrink / stretch in descending order of angular coefficient. In the case of the second embodiment, after the order of pitch waveforms is rearranged by the equation shown in Equation 13 or 14, the above-described stress determination process is executed, and the order of pitch waveforms is further rearranged.

Figure 0004461985
Figure 0004461985
、Pl、pの定義は、数14、数15ともに数2と同じである。
Figure 0004461985
Figure 0004461985
Definition of S x, Pl n, p n is the number 14, is the same as the number 15 together several 2.

また、上記数2では、注目するピッチ波形と、入力波形上そのピッチ波形の前に位置するピッチ波形との平均二乗誤差を算出していたが、入力波形上そのピッチ波形の後に位置するピッチ波形との平均二乗誤差を算出してもよい。また、入力波形上そのピッチ波形の前後に位置するピッチ波形との平均二乗誤差を算出し、そのうちの一方(大きい方あるいは小さな方)を類似度の代表値として採用するようにしてもよい。   In the above equation 2, the mean square error between the pitch waveform of interest and the pitch waveform positioned before the pitch waveform on the input waveform is calculated, but the pitch waveform positioned after the pitch waveform on the input waveform is calculated. The mean square error may be calculated. Further, an average square error with the pitch waveform positioned before and after the pitch waveform on the input waveform may be calculated, and one of them (larger or smaller) may be adopted as a representative value of similarity.

また、上記各実施形態にかかる音声処理装置を伸張と縮小とのうち一方だけを処理するように構成してもよい。   Further, the audio processing apparatus according to each of the above embodiments may be configured to process only one of expansion and reduction.

また、上記各実施形態にかかる音声処理装置は、インターネット等のネットワークを介して他の装置との通信を行う通信制御部をさらに備えてもよく、この通信制御部を介して、音声波形データを他の装置と送受信するようにしてもよい。   In addition, the audio processing device according to each of the above embodiments may further include a communication control unit that communicates with another device via a network such as the Internet, and the audio waveform data is transmitted via the communication control unit. You may make it transmit / receive with another apparatus.

また、音声処理装置100はアナログ音声の入力を受け付けるようにしてもよい。この場合、音声処理装置100は、アナログ音声データをPCM(Pulse Code Modulation)などの所定の方式により、サンプリングする音声サンプリング部をさらに備えるものとする。また、音声処理装置100はアナログ音声を出力するようにしてもよい。   In addition, the voice processing apparatus 100 may accept an analog voice input. In this case, the audio processing apparatus 100 further includes an audio sampling unit that samples analog audio data by a predetermined method such as PCM (Pulse Code Modulation). Further, the sound processing apparatus 100 may output analog sound.

なお、上記各実施形態における音声処理装置100は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、上述の動作を実行するためのプログラムをコンピュータ読み取り可能な記録媒体(FD、CD−ROM、DVD等)に格納して配布し、該プログラムをコンピュータにインストールすることにより、上述の処理を実行する、音声処理再生装置100を構成してもよい。また、インターネット等のネットワーク上のサーバ装置が有するディスク装置に格納しておき、例えばコンピュータにダウンロード等するようにしてもよい。   Note that the audio processing apparatus 100 in each of the above embodiments can be realized using a normal computer system, not a dedicated system. For example, a program for executing the above operation is stored in a computer-readable recording medium (FD, CD-ROM, DVD, etc.) and distributed, and the program is installed in the computer to execute the above processing. The audio processing / playback apparatus 100 may be configured. Alternatively, it may be stored in a disk device of a server device on a network such as the Internet, and downloaded to a computer, for example.

また、上述の機能を、OSが分担又はOSとアプリケーションの共同より実現する場合等には、OS以外の部分のみを媒体に格納して配布してもよく、また、コンピュータにダウンロード等してもよい。   In addition, when the OS realizes the above functions by sharing the OS or jointly of the OS and the application, only the part other than the OS may be stored and distributed in the medium, or may be downloaded to the computer. Good.

本発明の実施形態にかかる音声処理装置のブロック図である。It is a block diagram of the audio processing apparatus concerning embodiment of this invention. 図1の制御部の論理構成図である。It is a logic block diagram of the control part of FIG. 本発明の実施形態にかかる波形縮小/伸張処理を説明するためのフローチャートである。It is a flowchart for demonstrating the waveform reduction / expansion process concerning embodiment of this invention. 本発明の実施形態にかかる伸張処理を説明するためのフローチャートである。It is a flowchart for demonstrating the expansion | extension process concerning embodiment of this invention. 本発明の実施形態にかかる縮小処理を説明するためのフローチャートである。It is a flowchart for demonstrating the reduction process concerning embodiment of this invention. 本発明の実施形態2にかかる強勢判別処理を説明するためのフローチャートである。It is a flowchart for demonstrating the stress discrimination | determination process concerning Embodiment 2 of this invention. 従来の音声圧縮/縮小方式であるTDHS方式の原理説明図である。It is a principle explanatory drawing of the TDHS system which is a conventional audio compression / reduction system.

符号の説明Explanation of symbols

100…音声処理装置、110…制御部、111…分割部、112…ピッチ抽出部、113…ピッチ選択部、114…波形縮小/伸張部、120…入力制御部、12…入力装置、130…出力音声処理部、13…出力装置、140…プログラム格納部、150…記憶部、170…外部記憶IO装置、17…記憶媒体 DESCRIPTION OF SYMBOLS 100 ... Voice processing apparatus, 110 ... Control part, 111 ... Dividing part, 112 ... Pitch extraction part, 113 ... Pitch selection part, 114 ... Waveform reduction / expansion part, 120 ... Input control part, 12 ... Input device, 130 ... Output Audio processing unit, 13 ... output device, 140 ... program storage unit, 150 ... storage unit, 170 ... external storage IO device, 17 ... storage medium

Claims (9)

入力波形を時間軸上で伸張して出力する音声波形伸張装置であって、
入力波形を表すデータを受け付ける入力波形受付手段と、
入力波形を伸張する倍率の入力を受け付ける伸張倍率受付手段と、
前記入力波形受付手段で受け付けた入力波形からピッチ波形を切り出す切り出し手段と、
前記切り出し手段で切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出手段と、
前記類似度算出手段で算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付け手段と、
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、挿入用の波形を生成する伸張波形生成手段と、
前記伸張波形生成手段で生成した波形を、入力波形上で重み付け加算の対象となった2つのピッチ波形の間に挿入する伸張波形接続手段と、
具備し、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記伸張波形生成手段と、前記伸張波形接続手段とによる処理を繰り返すこと、
特徴とする音声波形伸張装置。
A speech waveform expansion device for expanding and outputting an input waveform on a time axis,
Input waveform receiving means for receiving data representing the input waveform;
An expansion ratio acceptance means for accepting an input of a magnification for expanding the input waveform;
Cutting means for cutting out a pitch waveform from the input waveform received by the input waveform receiving means;
For each pitch waveform cut out by the cut-out means, similarity calculation means for calculating the similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
Ordering means for assigning a processing order to each pitch waveform using the similarity calculated by the similarity calculation means as a scale;
Expanded waveform generation that generates a waveform for insertion by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means,
An expanded waveform connecting means for inserting the waveform generated by the expanded waveform generating means between two pitch waveforms that are subjected to weighted addition on the input waveform;
Equipped with,
Repeating the processing by the expanded waveform generating means and the expanded waveform connecting means while updating the pitch waveform to be selected according to the processing order until the waveform length of the specified magnification is reached.
Speech waveform decompression apparatus according to claim.
前記切り出し手段は、入力波形から一定長の部分波形を切り出し、切り出した部分波形単位でピッチ波形を切り出す手段であって、
前記順序付け手段は、前記一定長の部分波形単位でピッチ波形の処理順序付けを行う、
ことを特徴とする請求項1に記載の音声波形伸張装置。
The cutout means is means for cutting out a partial waveform of a certain length from the input waveform, and cutting out a pitch waveform in units of the cutout partial waveform,
The ordering means performs processing of ordering pitch waveforms in units of the fixed-length partial waveform.
The speech waveform expansion device according to claim 1.
入力波形を表すデータを受け付ける入力波形受付ステップと、
入力波形を伸張する倍率の入力を受け付ける伸張倍率受付ステップと、
前記入力波形受付ステップで受け付けた入力波形からピッチ波形を切り出す切り出しステップと、
前記切り出しステップにおいて切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出ステップと、
前記類似度算出ステップで算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付けステップと、
記順序付けステップで付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、挿入用の波形を生成する伸張波形生成ステップと、
前記伸張波形生成ステップで生成した波形を、入力波形上で重み付け加算の対象となった2つのピッチ波形の間に挿入する伸張波形接続ステップと、
を備え、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記伸張波形生成ステップと、前記伸張波形接続ステップとによる処理を繰り返すことを特徴とする波形伸張方法。
An input waveform receiving step for receiving data representing the input waveform;
An expansion magnification reception step for receiving an input of a magnification for expanding the input waveform;
A step of cutting out a pitch waveform from the input waveform received in the input waveform receiving step;
For each pitch waveform cut out in the cut-out step, a similarity calculation step for calculating a similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
An ordering step of assigning a processing order to each pitch waveform using the similarity calculated in the similarity calculation step as a scale;
Choose Back Symbol ordered pitch waveforms applied treatment sequence in step, by weighted addition of the one pitch waveform adjacent to the selected pitch waveform and the pitch waveform, decompression waveform to generate a waveform for insertion Generation step;
An expanded waveform connecting step for inserting the waveform generated in the expanded waveform generating step between two pitch waveforms that are subjected to weighted addition on the input waveform;
With
Until waveform length of the specified magnification, while updating the pitch waveforms to be selected according to the processing order, characterized said expansion waveform generation step, and a score repeat processing by said expansion waveform connecting step Waveform stretching method.
入力波形を時間軸上で伸張して出力する音声波形伸張装置に用いられるコンピュータを
入力波形を表すデータを受け付ける入力波形受付手段と、
入力波形を伸張する倍率の入力を受け付ける伸張倍率受付手段と
前記入力波形受付手段で受け付けた入力波形からピッチ波形を切り出す切り出し手段と
前記切り出し手段で切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出手段と
前記類似度算出手段で算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付け手段と
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、挿入用の波形を生成する伸張波形生成手段と
前記伸張波形生成手段で生成した波形を、入力波形上で重み付け加算の対象となった2つのピッチ波形の間に挿入する伸張波形接続手段と、
して機能させ、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記伸張波形生成手段と、前記伸張波形接続手段とによる処理を繰り返すようにしたことを特徴とするプログラム。
The computer used in the speech waveform decompression apparatus for decompressing and outputting input waveform on the time axis,
Input waveform receiving means for receiving data representing the input waveform ;
And stretching magnification accepting means for accepting an input of a magnification stretching the input waveform,
And the cut-out means that you cut out the pitch waveform from the input waveform received by the input waveform receiving means,
For each pitch waveform cut out by the cut- out means, similarity calculation means for calculating the similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
Ordering means for assigning a processing order to each pitch waveform using the similarity calculated by the similarity calculation means as a scale;
Expanded waveform generation that generates a waveform for insertion by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means ,
An expanded waveform connecting means for inserting the waveform generated by the expanded waveform generating means between two pitch waveforms that are subjected to weighted addition on the input waveform;
To function,
Until waveform length of the specified magnification, while updating the pitch waveforms to be selected according to the processing order, and said decompressed waveform generating means, that it has the decompressed waveform connecting means and repeatedly to by the processing returns Suyo A featured program.
入力波形を時間軸上で縮小して出力する音声波形縮小装置であって、
入力波形を表すデータを受け付ける入力波形受付手段と、
入力波形を縮小する倍率の入力を受け付ける縮小倍率受付手段と、
前記入力波形受付手段で受け付けた入力波形からピッチ波形を切り出す切り出し手段と、
前記切り出し手段で切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出手段と、
前記類似度算出手段で算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付け手段と、
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、置き換え用の波形を生成する縮小波形生成手段と、
前記縮小波形生成手段で生成した波形を、入力波形上で前記縮小波形生成手段において重み付け加算の対象となった2つのピッチ波形と置き換える縮小波形接続手段と、
具備し、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記縮小波形生成手段と、前記縮小波形接続手段とによる処理を繰り返すこと、
特徴とする音声波形縮小装置。
A speech waveform reduction device that reduces and outputs an input waveform on a time axis,
Input waveform receiving means for receiving data representing the input waveform;
A reduction magnification receiving means for receiving an input of a magnification for reducing the input waveform;
Cutting means for cutting out a pitch waveform from the input waveform received by the input waveform receiving means;
For each pitch waveform cut out by the cut-out means, similarity calculation means for calculating the similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
Ordering means for assigning a processing order to each pitch waveform using the similarity calculated by the similarity calculation means as a scale;
Reduced waveform generation that generates a replacement waveform by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means,
The waveform generated by the reduced waveform generating means, and two reduced waveform connecting means Ru replaced with pitch waveform subject to weighting addition in the reduced waveform generating means on the input waveform,
Equipped with,
Repeating the processing by the reduced waveform generating means and the reduced waveform connecting means while updating the pitch waveform to be selected according to the processing order until the waveform length of the specified magnification is reached.
Speech waveform reduction apparatus according to claim.
前記切り出し手段は、入力波形から一定長の部分波形を切り出し、切り出した部分波形単位でピッチ波形を切り出す手段であって、
前記順序付け手段は、前記一定長の部分波形単位でピッチ波形の処理順序付けを行う、
ことを特徴とする請求項に記載の音声波形縮小装置。
The cutout means is means for cutting out a partial waveform of a certain length from the input waveform, and cutting out a pitch waveform in units of the cutout partial waveform,
The ordering means performs processing of ordering pitch waveforms in units of the fixed-length partial waveform.
The speech waveform reduction device according to claim 5 .
入力波形を表すデータを受け付けた入力波形受付ステップと、
入力波形を縮小する倍率の入力を受け付ける縮小倍率受付ステップと、
前記入力波形受付ステップで受け付けた入力波形からピッチ波形を切り出す切り出しステップと、
前記切り出しステップにおいて切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出ステップと、
前記類似度算出ステップで算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付けステップと、
記順序付けステップで付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、置き換え用の波形を生成する縮小波形生成ステップと、
前記縮小波形生成ステップで生成した波形を、入力波形上で前記縮小波形生成ステップにおいて重み付け加算の対象となった2つのピッチ波形と置き換える縮小波形接続ステップと、
を備え、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記縮小波形生成ステップと、前記縮小波形接続ステップとによる処理を繰り返すことを特徴とする波形縮小方法。
An input waveform reception step for receiving data representing the input waveform;
A reduction magnification acceptance step for accepting an input of a magnification for reducing the input waveform;
A step of cutting out a pitch waveform from the input waveform received in the input waveform receiving step;
For each pitch waveform cut out in the cut-out step, a similarity calculation step for calculating a similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
An ordering step of assigning a processing order to each pitch waveform using the similarity calculated in the similarity calculation step as a scale;
Choose Back Symbol ordered pitch waveform processing order granted in step, by weighted addition of the one pitch waveform adjacent to the selected pitch waveform and the pitch waveform, reduced to generate a waveform for replacement waveform Generation step;
The waveform generated by the reduced waveform generation step, and two reduced waveform connecting step of Ru replaced with pitch waveform subject to weighting addition in the reduced waveform generation step on the input waveform,
With
Until waveform length of the specified magnification, while updating the pitch waveforms to be selected according to the processing order, characterized with the reduced waveform generation step, and a score repeat the processing of and the reduced waveform connecting step Waveform reduction method.
入力波形を時間軸上で縮小して出力する音声波形縮小装置に用いられるコンピュータを
入力波形を表すデータを受け付ける入力波形受付手段と、
入力波形を縮小する倍率の入力を受け付ける縮小倍率受付手段と
前記入力波形受付手段で受け付けた入力波形からピッチ波形を切り出す切り出し手段と
前記切り出し手段で切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出手段と
前記類似度算出手段で算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付け手段と
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、置き換え用の波形を生成する縮小波形生成手段と
前記縮小波形生成手段で生成した波形を、入力波形上で前記縮小波形生成手段において重み付け加算の対象となった2つのピッチ波形と置き換える縮小波形接続手段と、
して機能させ、
指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記縮小波形生成手段と、前記縮小波形接続手段とによる処理を繰り返すようにしたことを特徴とするプログラム。
The computer used to input waveform to the sound wave reduction device for outputting reduced on the time axis,
Input waveform receiving means for receiving data representing the input waveform ;
A reduction ratio accepting means for accepting an input of a magnification reducing the input waveform,
And the cut-out means that you cut out the pitch waveform from the input waveform received by the input waveform receiving means,
For each pitch waveform cut out by the cut- out means, similarity calculation means for calculating the similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
Ordering means for assigning a processing order to each pitch waveform using the similarity calculated by the similarity calculation means as a scale;
Reduced waveform generation that generates a replacement waveform by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means ,
The waveform generated by the reduced waveform generating means, a reduced waveform connecting means for replacing two pitch waveforms subject to weighting addition in the reduced waveform generating means on the input waveform,
To function,
Until waveform length of the specified magnification, while updating the pitch waveforms to be selected according to the processing order, and the reduced waveform generating means, that it has to the reduced waveform connecting means and repeatedly to by the processing returns Suyo A featured program.
入力波形を時間軸上で伸張または縮小して出力する音声処理装置であって、
入力波形を表すデータを受け付ける入力波形受付手段と、
入力波形を伸張または縮小する倍率の入力を受け付ける倍率受付手段と、
前記入力波形受付手段で受け付けた入力波形からピッチ波形を切り出す切り出し手段と、
前記切り出し手段で切り出した各ピッチ波形について、それぞれ該ピッチ波形と、時間軸上の前後で該ピッチ波形と隣接するピッチ波形のうちの一方のピッチ波形との類似度を算出する類似度算出手段と、
前記類似度算出手段で算出された類似度を尺度として各ピッチ波形に処理順序を付与する順序付け手段と、
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、挿入用の波形を生成する伸張波形生成手段と、
前記伸張波形生成手段で生成した波形を、入力波形上で重み付け加算の対象となった2つのピッチ波形の間に挿入する伸張波形接続手段と、
前記順序付け手段で付与された処理順序でピッチ波形を選択し、この選択したピッチ波形と該ピッチ波形に隣接する一方のピッチ波形とを重み付け加算することによって、置き換え用の波形を生成する縮小波形生成手段と、
前記縮小波形生成手段で生成した波形を、入力波形上で前記縮小波形生成手段において重み付け加算の対象となった2つのピッチ波形と置き換える縮小波形接続手段と、
入力波形を伸張するか縮小するかを判別する倍率判別手段と、
前記倍率判別手段により、入力波形を伸張すると判別すると判別された場合に、指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記伸張波形生成手段と、前記伸張波形接続手段とによる処理を繰り返す第1の繰り返し手段と、
前記倍率判別手段により、入力波形を縮小すると判別すると判別された場合に、指定された倍率の波形長になるまで、前記処理順序に応じて選択するピッチ波形を更新しながら、前記縮小波形生成手段と、前記縮小波形接続手段とによる処理を繰り返す第2の繰り返し手段と、
具備することを特徴とする音声処理装置。
A speech processing apparatus that outputs an input waveform by extending or reducing on a time axis,
Input waveform receiving means for receiving data representing the input waveform;
Magnification accepting means for accepting an input of a magnification for expanding or reducing the input waveform;
Cutting means for cutting out a pitch waveform from the input waveform received by the input waveform receiving means;
For each pitch waveform cut out by the cut-out means, similarity calculation means for calculating the similarity between the pitch waveform and one pitch waveform adjacent to the pitch waveform before and after on the time axis; ,
Ordering means for assigning a processing order to each pitch waveform using the similarity calculated by the similarity calculation means as a scale;
Expanded waveform generation that generates a waveform for insertion by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means,
An expanded waveform connecting means for inserting the waveform generated by the expanded waveform generating means between two pitch waveforms that are subjected to weighted addition on the input waveform;
Reduced waveform generation that generates a replacement waveform by selecting a pitch waveform in the processing order given by the ordering means and weighting and adding the selected pitch waveform and one pitch waveform adjacent to the pitch waveform Means,
The waveform generated by the reduced waveform generating means, and two reduced waveform connecting means Ru replaced with pitch waveform subject to weighting addition in the reduced waveform generating means on the input waveform,
Magnification discrimination means for discriminating whether to expand or reduce the input waveform;
When it is determined that the input waveform is to be expanded by the magnification determining means, the expanded waveform generating means is updated while updating the pitch waveform selected according to the processing order until the waveform length of the specified magnification is reached. And first repeating means for repeating the processing by the expanded waveform connecting means,
When it is determined that the input waveform is to be reduced by the magnification determining means, the reduced waveform generating means is updated while updating the pitch waveform selected according to the processing order until the waveform length of the specified magnification is reached. And second repeating means for repeating the processing by the reduced waveform connecting means,
Speech processing apparatus characterized by comprising a.
JP2004281430A 2004-09-28 2004-09-28 Speech waveform expansion device, waveform expansion method, speech waveform reduction device, waveform reduction method, program, and speech processing device Active JP4461985B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004281430A JP4461985B2 (en) 2004-09-28 2004-09-28 Speech waveform expansion device, waveform expansion method, speech waveform reduction device, waveform reduction method, program, and speech processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004281430A JP4461985B2 (en) 2004-09-28 2004-09-28 Speech waveform expansion device, waveform expansion method, speech waveform reduction device, waveform reduction method, program, and speech processing device

Publications (2)

Publication Number Publication Date
JP2006098477A JP2006098477A (en) 2006-04-13
JP4461985B2 true JP4461985B2 (en) 2010-05-12

Family

ID=36238395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004281430A Active JP4461985B2 (en) 2004-09-28 2004-09-28 Speech waveform expansion device, waveform expansion method, speech waveform reduction device, waveform reduction method, program, and speech processing device

Country Status (1)

Country Link
JP (1) JP4461985B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5228300B2 (en) * 2006-08-10 2013-07-03 カシオ計算機株式会社 Audio expansion device, audio expansion method, and program
JP7343320B2 (en) * 2019-07-23 2023-09-12 株式会社コーエーテクモゲームス Information processing device, information processing method, and program

Also Published As

Publication number Publication date
JP2006098477A (en) 2006-04-13

Similar Documents

Publication Publication Date Title
JPH06266390A (en) Waveform editing type speech synthesizing device
JP2007003682A (en) Speaking speed converting device
JP5398295B2 (en) Audio processing apparatus, audio processing method, and audio processing program
JP4461985B2 (en) Speech waveform expansion device, waveform expansion method, speech waveform reduction device, waveform reduction method, program, and speech processing device
JP2003108178A (en) Voice synthesizing device and element piece generating device for voice synthesis
JP4533255B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, and recording medium therefor
JP2008191551A (en) Pronunciation evaluating apparatus and program
JP4586386B2 (en) Segment-connected speech synthesizer and method
JP3379348B2 (en) Pitch converter
JP4525162B2 (en) Speech synthesizer and program thereof
JP3960928B2 (en) Text selection method, apparatus and program
JP4454780B2 (en) Audio information processing apparatus, method and storage medium
JP5862667B2 (en) Waveform processing apparatus, waveform processing method, and waveform processing program
JP5275470B2 (en) Speech synthesis apparatus and program
JP2005275010A (en) Voice extension device, voice extension method and program
JP2007094004A (en) Time base companding method of voice signal, and time base companding apparatus of voice signal
JP2008139573A (en) Vocal quality conversion method, vocal quality conversion program and vocal quality conversion device
JP6234134B2 (en) Speech synthesizer
JP4872690B2 (en) Speech synthesis method, speech synthesis program, speech synthesizer
JP2005241789A (en) Piece splicing type voice synthesizer, method, and method of creating voice piece data base
JP2005091747A (en) Speech synthesizer
JP4379050B2 (en) Speech recognition apparatus, speech recognition speed-up method, and program
JP2009025328A (en) Speech synthesizer
JP3423276B2 (en) Voice synthesis method
JP2004062002A (en) Speech synthesizing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4461985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4