JP2008107381A - Speaking speed converting device and speaking speed converting control method - Google Patents
Speaking speed converting device and speaking speed converting control method Download PDFInfo
- Publication number
- JP2008107381A JP2008107381A JP2006287305A JP2006287305A JP2008107381A JP 2008107381 A JP2008107381 A JP 2008107381A JP 2006287305 A JP2006287305 A JP 2006287305A JP 2006287305 A JP2006287305 A JP 2006287305A JP 2008107381 A JP2008107381 A JP 2008107381A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- voice
- audio
- output
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
Description
この発明は、テレビジョン装置や電話機及び携帯電話機等の音声をその音声ピッチを変えずにゆっくり再生することで、受聴者に対して聴き取り易くする話速変換技術に関するものである。 The present invention relates to a speech speed conversion technique that makes it easy for a listener to hear a sound of a television device, a telephone, a mobile phone, or the like by slowly reproducing the sound without changing the sound pitch.
音声信号を再生する時に、話者の音声ピッチを変えないでゆっくり音声を再生し、受聴者に対して聴き取り易くする技術として音声信号の話速変換技術がある。この技術を適用した従来の話速変換装置の動作原理は、音声信号が有音であるか、無音であるかを判別し、有音と判別された音声信号に対してのみ音声ピッチを変えずに時間伸長処理を施すことであり、この時間伸長処理に起因して発生する再生音声の時間的な遅れは、無音と判別された音声信号を廃棄することで、吸収する仕組みとなっている(例えば、特許文献1、2参照)。
As a technique for reproducing a voice signal slowly without changing the voice pitch of the speaker and facilitating listening to the listener, there is a voice signal conversion technique. The principle of operation of a conventional speech speed conversion device to which this technology is applied is to determine whether a voice signal is voiced or silent and to change the voice pitch only for a voice signal determined to be voiced. The time delay of the playback sound generated due to the time extension process is absorbed by discarding the audio signal determined to be silent ( For example, see
しかしながら、話速変換装置に入力される音声信号が、例えば、テレビ放送のニュース番組における現場中継音声や街頭インタビュー収録音声など、話者音声に加え、背景音が含まれる場合や、CM(Commercial Message)など背景音が常に鳴っている場合においては、音声信号を無音と判別することは難しく、無音信号の廃棄処理の実行は実質的に困難となる。このようなケースでは、音声信号に対する時間伸長処理の影響で、映像に対して音声の遅れが一方的に増えていくこととなり、テレビ視聴者が違和感を覚えてしまう。
また、上記時間遅れに相当する音声信号は、別途メモリに保持しつつ、再生を行う必要があり、装置の規模、コストが大きくなるデメリットが生じてしまう。
However, if the audio signal input to the speech rate conversion device includes background sound in addition to speaker audio, such as on-site relay audio or street interview recorded audio in a TV broadcast news program, CM (Commercial Message When the background sound is always sounding, such as), it is difficult to determine that the audio signal is silent, and it is substantially difficult to execute the discarding process of the silent signal. In such a case, due to the effect of the time expansion processing on the audio signal, the audio delay increases unilaterally with respect to the video, and the TV viewer feels uncomfortable.
Further, the audio signal corresponding to the time delay needs to be reproduced while being held in a separate memory, resulting in a disadvantage that the scale and cost of the apparatus are increased.
この問題点を解決する方法の一つとして、特許文献2には、圧縮伸長処理の施された音声信号を蓄積するメモリの蓄積量が、0%以上20%未満の時は音声信号の話速変換倍率(入力音声信号の時間長を出力音声信号の時間長で除算した値)を0.6倍、20%以上40%未満の時は0.7倍、40%以上60%未満の時は0.8倍、60%以上80%未満の時は0.9倍、80%以上100%以下の時は1.0倍(圧縮伸長処理無し)、といったように、メモリの蓄積量に応じて音声信号の話速変換倍率を変える方法が記載されている。
As one method for solving this problem,
しかしながら、上記手法は、あくまでメモリの破綻防止対策を主眼としたものであり、メモリの蓄積量が多くなるに従って、話者音声をゆっくり再生することが困難となる問題がある。 However, the above method is mainly intended to prevent the failure of the memory, and there is a problem that it becomes difficult to slowly reproduce the speaker voice as the storage amount of the memory increases.
また、スポーツニュース番組等では、アナウンサーの話者音声に加え、背景にBGM(Back Ground Music)を流しているものもあり、この場合は、無音部分の全く無い音声信号が連続して話速変換装置に入力されることとなる。このような番組に対して、上記手法を適用した場合、メモリの蓄積量が多くなるに従って、音声の遅れ時間の増加スピードは緩和されるものの、無音部分が全く無いため、いずれはメモリの蓄積量が80%以上に達することとなる。これは、例えば音声信号を蓄積するメモリが2秒分の音声信号を蓄積できるとした場合、音声が映像に対して1.6秒(=2秒×80%)遅れたままとなることを意味し、音声をゆっくりに変換することで、受聴者に対して聴き取り易い音声を提供するという、話速変換装置本来の目的から逸脱してしまう問題がある。 Some sports news programs, for example, have background music (BGM) in addition to the announcer's speaker voice. In this case, the voice signal without any silence is continuously converted to the speech speed. It will be input to the device. When the above method is applied to such a program, the increase in the delay time of the sound is reduced as the amount of accumulated memory increases, but there is no silence at all. Will reach 80% or more. This means that, for example, if the memory for storing the audio signal can store the audio signal for 2 seconds, the audio will be delayed by 1.6 seconds (= 2 seconds × 80%) with respect to the video. However, there is a problem that deviates from the original purpose of the speech speed converting apparatus, which is to provide a voice that is easy to listen to the listener by slowly converting the voice.
この発明は、かかる問題点を解決するためになされたもので、単位時間毎に音声遅れ時間の増加量を計算し、この計算結果に応じて、予め用意しておいた複数の話速変換倍率を、単位時間毎に随時切り換えて圧縮伸長処理を実行することによって、映像に対する音声の遅れを抑圧し、テレビ視聴者が映像と音声のずれによって感じる違和感を軽減する話速変換装置を提供することを目的としている。 The present invention has been made to solve such a problem, and calculates an increase in speech delay time per unit time, and a plurality of speech rate conversion magnifications prepared in advance according to the calculation result. To provide a speech speed conversion device that suppresses a delay in audio with respect to a video and reduces a sense of discomfort that a TV viewer feels due to a difference between the video and the audio by performing compression / decompression processing at any time in units of time. It is an object.
また、後者の課題については、聴感上聴こえ難い音声部分のみを対象に、音声信号の話速変換倍率を1.0倍よりも大きくする、即ち、音声を早く再生する処理を施すことで、映像に対する音声の遅れ時間が生じ難い話速変換装置を提供することを目的としている。 Also, with respect to the latter problem, only the audio part that is difficult to hear due to the audibility, the speech speed conversion magnification of the audio signal is made larger than 1.0, that is, the process of reproducing the sound quickly is performed. It is an object of the present invention to provide a speech speed conversion device that hardly causes a delay time of voice.
この発明に係る話速変換装置は、音声入力端子、有音/無音判別部、信号廃棄判断部、無音信号廃棄部、速度変換部、出力音声制御部、音声出力端子及び変換速度制御部を備え、
有音/無音判別部は、音声入力端子からの入力音声信号を有音か無音かを判別し、
信号廃棄判断部は、有音/無音判別部からの判別信号で有音信号は破棄せず、無音信号は音声入力端子からの入力音声信号の総時間を算出し、出力音声制御部からの出力音声信号の総時間を算出し、音声出力総時間数から、音声入力総時間数を減算し、その結果により無音信号を廃棄するか否かを判断し、
無音信号廃棄部は同じく音声信号を入力し、信号破棄判断部からの破棄信号で無音信号を廃棄し、それ以外の信号は速度変換部に渡し、
速度変換部は無音信号廃棄部から渡された音声信号に対し、音声ピッチを変えずに音声信号の伸長処理を変換速度制御部からの話速変換倍率で施し、
出力音声制御部は、速度変換部から時間圧縮伸長処理された音声信号を音声蓄積メモリに蓄積するとともに、音声信号が入力される毎に、その時間長を出力音声信号の時間長として、信号廃棄判別部に渡し、さらに音声蓄積メモリに蓄積された出力待機中の音声信号を、時間的に古いものから順に音声出力端子に出力しかつ出力された音声サンプル数をカウントし、一定周期毎に現在の音声蓄積量として、変換速度制御部に渡し、
変換速度制御部は、出力音声制御部から受け取った現在の音声蓄積量と、前回処理時の音声蓄積量との差分値を算出し、この差分値を単位時間で除算して、音声遅延増加度を算出し、音声遅延増加度に応じた話速変換倍率を速度変換部に出力する構成にされたものである。
The speech speed conversion device according to the present invention includes a voice input terminal, a voice / silence discrimination section, a signal discard judgment section, a silence signal discard section, a speed conversion section, an output voice control section, a voice output terminal, and a conversion speed control section. ,
The voice / silence discrimination unit discriminates whether the voice signal input from the voice input terminal is voiced or silent,
The signal discard judgment unit does not discard the voice signal by the discrimination signal from the voice / silence discrimination unit, and the silence signal calculates the total time of the input voice signal from the voice input terminal and outputs it from the output voice control unit Calculate the total time of the audio signal, subtract the total audio input time from the total audio output time, and determine whether to discard the silence signal based on the result,
The silent signal discarding unit also inputs the audio signal, discards the silent signal with the discard signal from the signal discard determination unit, and passes the other signals to the speed conversion unit,
The speed conversion unit performs a voice signal expansion process on the voice signal passed from the silence signal discarding unit without changing the voice pitch at the conversion rate of the voice speed from the conversion speed control unit,
The output audio control unit accumulates the audio signal subjected to the time compression / decompression processing from the speed conversion unit in the audio accumulation memory, and discards the signal as the time length of the output audio signal every time the audio signal is input. Output to the audio output terminal the audio signals waiting to be output that have been passed to the discriminator and stored in the audio storage memory, in order from the oldest to the audio output terminal, and count the number of output audio samples. To the conversion speed control unit
The conversion speed control unit calculates a difference value between the current voice accumulation amount received from the output voice control unit and the voice accumulation amount at the previous processing, and divides this difference value by unit time to obtain a voice delay increase degree. , And the speech speed conversion magnification corresponding to the degree of increase in voice delay is output to the speed conversion unit.
また、この発明に係る話速変換制御方法は、
音声入力端子からの入力音声信号を有音か無音かを判別し、判別信号を出力する有音/無音判別ステップと、
有音/無音判別ステップからの判別信号で有音信号は破棄せず、無音信号は現時点における音声出力総時間数から、音声入力総時間数を減算し、その結果により無音信号を廃棄するか否かを判断する信号廃棄判断ステップと、
音声信号を入力し、信号破棄判断ステップからの破棄信号で無音信号を廃棄し、それ以外の信号は次処理の速度変換ステップに渡す無音信号廃棄ステップと
無音信号廃棄ステップから渡された音声信号に対し、音声ピッチを変えずに音声信号の伸長処理を前回処理で定まる話速変換倍率で施す速度変換ステップと、
速度変換ステップから時間圧縮伸長処理された音声信号を音声蓄積メモリに蓄積するとともに、音声信号が入力される毎に、その時間長を出力音声信号の時間長として、信号廃棄判別ステップで使用する音声出力総時間数の元データとして出力し、さらに音声蓄積メモリに蓄積された出力待機中の音声信号を、時間的に古いものから順に音声出力端子に出力し、かつ出力された音声サンプル数をカウントし、一定周期毎に現在の音声蓄積量として出力する出力音声制御ステップと、
出力音声制御ステップから出力された現在の音声蓄積量と、前回処理時の音声蓄積量との差分値を算出し、この差分値を単位時間で除算して、音声遅延増加度を算出し、音声遅延増加度に応じた話速変換倍率を速度変換ステップで用いる話速変換倍率として出力する変換速度制御ステップを有する物である。
Further, the speech speed conversion control method according to the present invention includes:
A voice / silence discrimination step for discriminating whether the input voice signal from the voice input terminal is voiced or silent, and outputting a judgment signal;
Whether or not the sound signal is discarded by the determination signal from the sound / silence determination step, and the sound signal subtracts the total time of sound input from the total sound output time at the present time, and whether to discard the sound signal according to the result A signal discarding determination step for determining whether or not
The audio signal is input, the silence signal is discarded by the discard signal from the signal discard determination step, and other signals are sent to the silence signal discard step and the silence signal discard step that are passed to the speed conversion step of the next processing. On the other hand, a speed conversion step for performing speech signal expansion processing at a speech speed conversion magnification determined in the previous processing without changing the voice pitch,
The audio signal subjected to the time compression / decompression processing from the speed conversion step is accumulated in the audio accumulation memory, and every time the audio signal is input, the time length is set as the time length of the output audio signal, and the audio used in the signal discard determination step Output as the original data for the total number of output times, and output the standby audio signals stored in the audio storage memory to the audio output terminal in order from the oldest one, and count the number of output audio samples And an output audio control step for outputting the current audio accumulation amount at regular intervals,
Calculate the difference between the current audio accumulation amount output from the output audio control step and the audio accumulation amount at the previous processing, and divide this difference value by unit time to calculate the audio delay increase degree. It has a conversion speed control step for outputting a speech speed conversion magnification corresponding to the degree of increase in delay as a speech speed conversion magnification used in the speed conversion step.
この発明による話速変換装置によれば、時間圧縮伸長処理における話速変換倍率を、単位時間毎に随時切り換えて動作させることが可能となり、例えば、テレビ受像機に適用された場合は、映像に対する音声の遅れを抑圧できる効果がある。 According to the speech speed conversion device of the present invention, the speech speed conversion magnification in the time compression / decompression process can be switched and operated at any time per unit time. For example, when applied to a television receiver, This has the effect of suppressing voice delays.
以下、この発明を実施するための最良の一形態を説明する。
実施の形態1.
この発明の実施の形態1に係る話速変換装置について図面を参照しながら説明する。図1は、この発明の実施の形態1に係る話速変換装置の構成を示す機能ブロック図である。図において、1は音声入力端子、2は有音/無音判別部、3は信号廃棄判断部、4は無音信号廃棄部、5は速度変換部、6は出力音声制御部、7は音声出力端子、8は変換速度制御部である。
The best mode for carrying out the present invention will be described below.
A speech speed converting apparatus according to
次に、その動作について、図1を用いて説明する。
音声信号は音声入力端子1から話速変換装置に入力され、有音/無音判別部2、信号廃棄判断部3、無音信号廃棄部4に渡される。有音/無音判別部2は、入力音声信号に対して有音か無音かの判別を行い、判別結果を信号廃棄判断部3に渡す。
Next, the operation will be described with reference to FIG.
The voice signal is input from the
信号廃棄判断部3は、有音/無音判別部2から渡された判別結果が有音であった場合は、信号廃棄を行わない指示信号を無音信号廃棄部4に渡す。
一方、有音/無音判別部2から受け取った判別結果が無音であった場合は、無音信号の廃棄が可能か不可能かを判断した上で、可能と判断された場合は信号廃棄を行う指示信号を、不可能と判断された場合は信号廃棄を行わない指示信号を、無音信号廃棄部4に渡す。
ここで、信号廃棄判断部3の動作について図2のフローチャートを用いて説明を加える。
When the determination result passed from the sound /
On the other hand, if the determination result received from the voice /
Here, the operation of the signal
図2は、信号廃棄判断部3の処理フローチャートを示したものであり、3a、3b、3c、3e、3fは処理ブロック、3dは判断ブロックである。
また、後述する処理ブロック3bにおいて使用する音声入力時間数と、処理ブロック3cにおいて使用する音声出力時間数については、話速変換装置の動作が開始された時点での値、即ち初期値はともに0である。次に、その動作について説明する。
FIG. 2 shows a processing flowchart of the signal
As for the number of voice input hours used in the
処理ブロック3aでは、音声入力端子1から受け取った入力音声信号の時間長を、音声入力時間数に加算して、入力音声信号の総時間を算出する。
処理ブロック3bでは、後述する出力音声制御部6から受け取った出力音声信号の時間長を、音声出力時間数に加算して、出力音声信号の総時間を算出する。
In the processing block 3a, the time length of the input voice signal received from the
In the
処理ブロック3cでは、音声出力時間数から、音声入力時間数を減算する。
判断ブロック3dでは、減算結果が正の値であった場合は、処理ブロック3eにおいて、信号廃棄可能の指示信号を無音信号廃棄部4に送出し、処理を終了する。
一方、減算結果が負の値または0であった場合は、処理ブロック3fにおいて、信号廃棄不可能の指示信号を無音信号廃棄部4に送出し、処理を終了する。
In the
In the determination block 3d, when the subtraction result is a positive value, in the processing block 3e, an instruction signal capable of discarding the signal is sent to the silent signal discarding unit 4 and the processing is ended.
On the other hand, when the subtraction result is a negative value or 0, in the processing block 3f, an instruction signal indicating that the signal cannot be discarded is sent to the silent signal discarding unit 4, and the processing is terminated.
この信号廃棄判断部3における一連の動作は、例えば、話速変換装置に入力される音声信号が無音信号、或いは無音部分を多く含む音声信号であった場合において、無音部分の廃棄を繰り返すことで、話速変換装置から出力する音声信号が無くなってしまうことを避けるために実行される。
以上が信号廃棄判断部3の動作説明である。引き続き、図1の話速変換装置の一連の動作説明に戻る。
A series of operations in the signal discard
The operation of the signal discard
無音信号廃棄部4は、信号廃棄判断部3から受け取った指示信号の内容が、信号廃棄を行わない指示内容であった場合は、音声入力端子1から入力された音声信号をそのまま速度変換部5に渡し、一方、信号廃棄を行う指示内容であった場合は、音声入力端子1から入力された音声信号を廃棄し、速度変換部5に渡さない。
When the content of the instruction signal received from the signal discard
速度変換部5は、無音信号廃棄部4から受け取った音声信号に対し、音声ピッチを変えずに時間圧縮伸長処理を施し、処理の結果生成された音声信号を、出力音声制御部6へ渡す。また、速度変換部5における時間圧縮伸長処理の話速変換倍率は、1.0倍、0.9倍、0.8倍等、1.0倍以下の複数のパターンを予め用意しておき、話速変換装置の動作開始時の時間圧縮伸長処理の話速変換倍率は、最も低い変換倍率、この例では0.8倍とし、以降の処理において、いずれの話速変換倍率を選択するかは変換速度制御部8が決める。この話速変換倍率の決め方については、後述する変換速度制御部8の動作説明にて、詳しく説明する。
The
出力音声制御部6は、速度変換部5から受け取った音声信号を、音声出力信号端子7に渡し、話速変換装置から音声信号が出力される。
ここで、出力音声制御部6の動作について図3を用いて説明を加える。図3は、出力音声制御部6の構成を示す機能ブロック図であり、6aは出力音声数計算部、6bは変換音声蓄積部、6cは遅延時間計算部である。
次に、その動作について説明する。
The output
Here, the operation of the output
Next, the operation will be described.
出力音声数計算部6aは、速度変換部5から時間圧縮伸長処理の施された音声信号が入力される毎に、その時間長を出力音声信号の時間長として、信号廃棄判別部3に渡す。変換音声蓄積部6bは、速度変換部5から受け取った時間圧縮伸長処理の施された音声信号を、予め用意しておいた音声蓄積メモリに蓄積する。そして、音声蓄積メモリに蓄積され、出力待機中の音声信号を、時間的に古いものから順に音声出力信号端子7に出力し、最終的に話速変換装置から音声信号が出力される。
Each time an audio signal subjected to time compression / decompression processing is input from the
遅延時間計算部6cは、変換音声蓄積部6bから音声出力信号端子7に出力された音声サンプル数をカウントし、一定周期毎に現在の音声蓄積量として、変換速度制御部8に渡す。ここでの一定周期とは、例えば1秒とし、サンプリング周波数が48kHzの音声信号の場合は、48000サンプル分の音声サンプルが、変換音声蓄積部6bから音声出力信号端子7に出力される毎、となる。
以上が出力音声制御部6の動作説明である。
The delay time calculation unit 6c counts the number of audio samples output from the converted audio accumulating unit 6b to the audio output signal terminal 7, and passes it to the conversion
The above is the description of the operation of the output
次に、速度変換部5における音声信号の話速変換倍率を決定する変換速度制御部8の動作について、図4のフローチャートを用いて説明を加える。
Next, the operation of the conversion
図4は、変換速度制御部8の処理フローチャートを示したものであり、8a、8b、8e、8f、8g、8hは処理ブロック、8c、8dは判断ブロックである。次に、その動作について説明する。
FIG. 4 shows a processing flow chart of the conversion
処理ブロック8aでは、出力音声制御部6から受け取った現在の音声蓄積量と、前回の処理の際に記録しておいた音声蓄積量との差分値を計算する。
In the processing block 8a, a difference value between the current sound accumulation amount received from the output
処理ブロック8bでは、差分値を単位時間で除算する(以降の説明においては、この除算結果を音声遅延増加度と呼ぶことにする)。ここでの単位時間とは、出力音声制御部6から現在の音声蓄積量を受け取る周期と同じであり、出力音声制御部6の動作説明で示した例では、1.0秒毎となる。
音声遅延増加度の算出例としては、
例えば、前回の音声蓄積量が0.1秒、現在の音声蓄積量が0.3秒、単位時間を1.0秒とした場合、
音声遅延増加度=(0.3秒−0.1秒)/1.0秒=0.2
前回の音声蓄積量が0.3秒、現在の音声蓄積量が0.1秒、単位時間を1.0秒とした場合、
音声遅延増加度=(0.1秒−0.3秒)/1.0秒=−0.2
となる。
In the processing block 8b, the difference value is divided by the unit time (in the following description, this division result is referred to as a voice delay increase degree). Here, the unit time is the same as the period of receiving the current voice accumulation amount from the output
As an example of calculating the audio delay increase,
For example, when the previous voice accumulation amount is 0.1 seconds, the current voice accumulation amount is 0.3 seconds, and the unit time is 1.0 second,
Increase in voice delay = (0.3 sec-0.1 sec) /1.0 sec = 0.2
When the previous voice accumulation amount is 0.3 seconds, the current voice accumulation amount is 0.1 seconds, and the unit time is 1.0 second,
Increase in voice delay = (0.1 sec-0.3 sec) /1.0 sec = -0.2
It becomes.
判断ブロック8cでは、音声遅延増加度が0.1以上であった場合は、処理ブロック8fにおいて、時間圧縮伸長処理の話速変換倍率を1.0倍とする指示信号を速度変換部5に送出し、処理ブロック8hに進む。
一方、判断ブロック8cにおいて、音声遅延増加度が0.1未満であった場合は、判断ブロック8dへ進む。
In the
On the other hand, if the voice delay increase degree is less than 0.1 in the
判断ブロック8dでは、音声遅延増加度が0.05以上であった場合は、処理ブロック8gにおいて、時間圧縮伸長処理の話速変換倍率を0.9倍とする指示信号を速度変換部5に送出し、処理ブロック8hに進む。
一方、判断ブロック8dにおいて、音声遅延増加度が0.05未満であった場合は、処理ブロック8eにおいて、時間圧縮伸長処理の話速変換倍率を0.8倍とする指示信号を速度変換部5に送出し、処理ブロック8hに進む。
In the decision block 8d, if the degree of increase in voice delay is 0.05 or more, the processing block 8g sends an instruction signal for setting the speech speed conversion magnification of the time compression / decompression process to 0.9 times to the
On the other hand, if the voice delay increase degree is less than 0.05 in the decision block 8d, the
最後に処理ブロック8hでは、出力音声制御部6から受け取った現在の音声蓄積量を記録し、処理を終了する。
Finally, in the processing block 8h, the current voice accumulation amount received from the output
以上が、この発明の実施の形態1の話速変換装置の一連の動作説明である。
なお、動作説明中、有音/無音判別部2における有音か無音かの判別方法については、背景技術の説明に挙げた通り、特開2002−297200号公報等に一例が詳しく開示されている。また、速度変換部5における音声ピッチを変えずに音声信号の伸長を行う方法については、特開2001−109499号公報等に一例が詳しく開示されている。
The above is the description of a series of operations of the speech speed converting apparatus according to the first embodiment of the present invention.
Incidentally, during the operation description, an example of the sound /
以上詳しく説明したように、この発明の実施の形態1によれば、話速変換装置の時間圧縮伸長処理における話速変換倍率を、単位時間毎に随時切り換えて動作させることが可能となり、映像に対する音声の遅れを抑圧できる効果がある。 As described above in detail, according to the first embodiment of the present invention, it is possible to switch the speech speed conversion magnification in the time compression / decompression processing of the speech speed conversion apparatus at every unit time and to operate the video. This has the effect of suppressing voice delays.
他の実施例1.
以上、この発明を実施の形態1の詳細な説明では、音声信号の話速変換倍率の決定方法として、音声遅延増加度に応じて話速変換倍率を切り換える変換速度制御部8を用いたが、音声遅延増加度がある一定条件を満たした場合に、話速変換倍率を前回の倍率から変更しない変換速度制御部A81を用いても良い。
次に、速度変換部5における音声信号の話速変換倍率を決定する変換速度制御部A81の動作について、図5のフローチャートを用いて説明を加える。
Other Embodiments
As described above, in the detailed description of the first embodiment of the present invention, the conversion
Next, the operation of the conversion speed control unit A81 that determines the speech speed conversion magnification of the voice signal in the
図5は、変換速度制御部A81の処理フローチャートを示したものであり、81a、81b、81f、81g、81h、81i、81jは処理ブロック、81c、81d、81eは判断ブロックである。次に、その動作について説明する。 FIG. 5 shows a processing flowchart of the conversion speed control unit A81, in which 81a, 81b, 81f, 81g, 81h, 81i, and 81j are processing blocks, and 81c, 81d, and 81e are determination blocks. Next, the operation will be described.
処理ブロック81aでは、出力音声制御部6から受け取った現在の音声蓄積量と、前回の処理の際に記録しておいた音声蓄積量との差分値を計算する。
処理ブロック81bでは、差分値を単位時間で除算して、音声遅延増加度を算出する。
In the processing block 81a, a difference value between the current voice accumulation amount received from the output
In the processing block 81b, the difference value is divided by the unit time to calculate the audio delay increase degree.
判断ブロック81cでは、音声遅延増加度が0.1以上であった場合は、処理ブロック81iにおいて、時間圧縮伸長処理の話速変換倍率を1.0倍とする指示信号を速度変換部5に送出し、処理ブロック81jに進む。
一方、判断ブロック81cにおいて、音声遅延増加度が0.1未満であった場合は、判断ブロック81dへ進む。
In the
On the other hand, when the audio delay increase degree is less than 0.1 in the
判断ブロック81dでは、音声遅延増加度が0.05以上であった場合は、処理ブロック81hにおいて、時間圧縮伸長処理の話速変換倍率を0.9倍とする指示信号を速度変換部5に送出し、処理ブロック81jに進む。
一方、判断ブロック81dにおいて、音声遅延増加度が0.05未満であった場合は、判断ブロック81eへ進む。
In the decision block 81d, when the degree of increase in voice delay is 0.05 or more, in the
On the other hand, in the determination block 81d, when the audio delay increase degree is less than 0.05, the process proceeds to the
判断ブロック81eでは、音声遅延増加度が−0.1以上であった場合は、処理ブロック81gにおいて、時間圧縮伸長処理の話速変換倍率を、前回の倍率から変更しない指示信号を速度変換部5に送出し、処理ブロック81jに進む。
一方、判断ブロック81eにおいて、音声遅延増加度が−0.1未満であった場合は、処理ブロック81fにおいて、時間圧縮伸長処理の話速変換倍率を0.8倍とする指示信号を速度変換部5に送出し、処理ブロック81jに進む。
In the
On the other hand, when the voice delay increase degree is less than −0.1 in the
最後に処理ブロック81jでは、出力音声制御部6から受け取った現在の音声蓄積量を記録し、処理を終了する。
Finally, in the processing block 81j, the current voice accumulation amount received from the output
変換速度制御部A81の特徴としては、図4に示した実施の形態1の変換速度制御部8では音声遅延増加度が0.05未満の場合において話速変換倍率を0.8倍にしていたものを、その閾値を下げ、−0.10未満の場合とし、音声遅延増加度が−0.10以上0.05未満の値を取る場合は不感帯ゾーンとし、話速変換倍率を変更しないようにした点である。その理由は、例えば、複数の話者が討論を交わしている場合においては、会話の中で一瞬だけ音声蓄積量が減少し、再び増加に転じることがあるが、このようなケースにおいて、話速変換倍率をもっとも速度の遅い0.8倍に戻してしまうと、映像に対する音声の遅れが再び増加に転じてしまうことを避けるためである。
以上が、変換速度制御部A81の動作説明である。
As a feature of the conversion speed control unit A81, in the conversion
The above is the description of the operation of the conversion speed control unit A81.
以上詳しく説明したように、変換速度制御部8の代わりに変換速度制御部A81を用いた他の実施例1によれば、時間圧縮伸長処理の話速変換倍率を単位時間毎に随時切り換えて動作させることが可能となり、映像に対する音声の遅れを抑圧できる効果に加え、音声蓄積量の微小な増減変化に対しては、現在の速度を維持することが可能となり、映像に対する音声の遅れを更に抑圧できる効果がある。
As described above in detail, according to another
実施の形態2.
この発明を実施するための最良の形態2に係る話速変換装置について図面を参照しながら説明する。図6は、この発明の実施の形態2に係る話速変換装置の構成を示す機能ブロック図であり、1は音声入力端子、21は有音/無音判別部A、3は信号廃棄判断部、4は無音信号廃棄部、51は速度変換部A、6は出力音声制御部、7は音声出力端子、82は変換速度制御部Bである。
A speech speed converting apparatus according to the
次に、その動作について、図6を用いて説明する。
音声信号は音声入力端子1から話速変換装置に入力され、有音/無音判別部A21、信号廃棄判断部3、無音信号廃棄部4に渡される。有音/無音判別部A21は、入力音声信号に対して有音か無音かの判別を行い、判別結果を信号廃棄判断部3に渡す。また、有音と判断された入力音声信号のレベル計算を行い、その結果を変換速度制御部B82に渡す。
Next, the operation will be described with reference to FIG.
The voice signal is input from the
信号廃棄判断部3は、有音/無音判別部A21から渡された判別結果が有音であった場合は、信号廃棄を行わない指示信号を無音信号廃棄部4に渡す。一方、有音/無音判別部A21から受け取った判別結果が無音であった場合は、無音信号の廃棄が可能か不可能かを判断した上で、可能と判断された場合は信号廃棄を行う指示信号を、不可能と判断された場合は信号廃棄を行わない指示信号を、無音信号廃棄部4に渡す。
この信号廃棄判断部3は、この発明の実施の形態1の説明の中で、図2を用いて詳しく説明を行ったものと同じであり、よって、説明は省略する。
The signal discard
The signal discard
無音信号廃棄部4は、信号廃棄判断部3から受け取った指示信号の内容が、信号廃棄を行わない指示内容であった場合は、入力音声信号をそのまま速度変換部A51に渡し、一方、信号の廃棄を行う指示内容であった場合は、音声入力端子1から入力された音声信号を廃棄し、速度変換部A51に渡さない。
If the content of the instruction signal received from the signal discard
速度変換部A51は、無音信号廃棄部4から受け取った音声信号に対し、音声ピッチを変えずに時間圧縮伸長処理を施し、処理の結果生成された音声信号を、出力音声制御部6へ渡す。また、速度変換部A51における時間圧縮伸長処理の話速変換倍率は、1.1倍、1.0倍、0.9倍、0.8倍等、複数のパターンを予め用意しておき、話速変換装置の動作開始時の時間圧縮伸長処理の話速変換倍率は、最も低い変換倍率、この例では0.8倍とし、以降の処理において、いずれの話速変換倍率を選択するかは変換速度制御部B82が決める。この話速変換倍率の決め方については、後述する変換速度制御部B82の動作説明にて、詳しく説明する。
The speed conversion unit A51 performs time compression / decompression processing on the audio signal received from the silence signal discarding unit 4 without changing the audio pitch, and passes the audio signal generated as a result of the processing to the output
出力音声制御部6は、速度変換部A51から受け取った音声信号を、音声出力信号端子7に渡し、話速変換装置から音声信号が出力される。
出力音声制御部6は、この発明の実施の形態1の説明の中で図3を用いて詳しく説明を行ったものと同等であり、その構成、動作説明は省略する。
The
The output
次に、速度変換部A51における音声信号の話速変換倍率を決定する変換速度制御部B82の動作について、図7のフローチャートを用いて説明を加える。 Next, the operation of the conversion speed control unit B82 for determining the speech speed conversion magnification of the voice signal in the speed conversion unit A51 will be described with reference to the flowchart of FIG.
図7は、変換速度制御部B82の処理フローチャートを示したものであり、82a、82b、82e、82g、82h、82i、82j、82kは処理ブロック、82c、82d、82fは判断ブロックである。次に、その動作について説明する。 FIG. 7 shows a processing flowchart of the conversion speed control unit B82, in which 82a, 82b, 82e, 82g, 82h, 82i, 82j, and 82k are processing blocks, and 82c, 82d, and 82f are determination blocks. Next, the operation will be described.
処理ブロック82aでは、出力音声制御部6から受け取った現在の音声蓄積量と、前回の処理の際に記録しておいた音声蓄積量との差分値を計算する。
処理ブロック82bでは、差分値を単位時間で除算して、音声遅延増加度を算出する。
In the
In the processing block 82b, the difference value is divided by the unit time to calculate the audio delay increase degree.
判断ブロック82cでは、音声遅延増加度が0.1以上であった場合は、処理ブロック82eに進む。一方、判断ブロック82cにおいて、音声遅延増加度が0.1未満であった場合は、判断ブロック82dへ進む。
In the
判断ブロック82dでは、音声遅延増加度が0.05以上であった場合は、処理ブロック82hにおいて、時間圧縮伸長処理の話速変換倍率を0.9倍とする指示信号を速度変換部A51に送出し、処理ブロック82kに進む。
一方、判断ブロック82dにおいて、音声遅延増加度が0.05未満であった場合は、処理ブロック82gにおいて、時間圧縮伸長処理の話速変換倍率を0.8倍とする指示信号を速度変換部A51に送出し、処理ブロック82kに進む。
In the
On the other hand, if the voice delay increase degree is less than 0.05 in the
処理ブロック82eでは、有音/無音判別部A21から受け取った、有音と判断された入力音声信号のレベルと、予め定めておいた無音閾値レベルの差分値の計算を行う。
ここでの無音閾値レベルとは、音声信号を無音と判定するレベルの値であり、例えば、信号レベルの最大値をデシベル表記で0dBとした場合、無音と判定するレベル値は、−45dBとする。なお、有音/無音判別部A21にて、有音/無音の判別手段に信号レベルを用いた場合は、無音と判定するレベルの値を有音/無音判別部A21から受け取るように変更し、受け取った値を無音閾値レベルに代用しても良い。
In the processing block 82e, a difference value between the level of the input voice signal determined to be voice received from the voice / silence discrimination unit A21 and a predetermined silence threshold level is calculated.
The silence threshold level here is a value of a level at which the audio signal is determined to be silent. For example, when the maximum value of the signal level is 0 dB in decibel notation, the level value to be determined as silence is −45 dB. . When the signal level is used for the sound / silence determination unit in the sound / silence determination unit A21, the value for determining the level of silence is changed to be received from the sound / silence determination unit A21, The received value may be substituted for the silence threshold level.
判断ブロック82fでは、処理ブロック82eにおいて算出したレベル差分値が5dB以下であった場合は、処理ブロック82jにおいて、時間圧縮伸長処理の話速変換倍率を1.1倍とする指示信号を速度変換部A51に送出し、処理ブロック82kに進む。
一方、判断ブロック82fにおいて、レベル差分値が5dBより大きかった場合は、処理ブロック82iにおいて、時間圧縮伸長処理の話速変換倍率を1.0倍とする指示信号を速度変換部A51に送出し、処理ブロック82kに進む。
In the decision block 82f, when the level difference value calculated in the processing block 82e is 5 dB or less, in the processing block 82j, an instruction signal for setting the speech speed conversion magnification of the time compression / decompression process to 1.1 times is sent to the speed conversion unit. Send to A51 and proceed to process
On the other hand, if the level difference value is larger than 5 dB in the decision block 82f, the
最後に処理ブロック82kでは、出力音声制御部6から受け取った現在の音声蓄積量を記録し、処理を終了する。
Finally, in the
変換速度制御部B82の特徴としては、図1に示した実施の形態1の変換速度制御部8では、音声遅延増加度0.1以上の場合において話速変換倍率を1.0倍にしていたものを、音声遅延増加度0.1以上で入力音声信号のレベルと無音閾値レベルの差分値が5dB以下の場合のみ話速変換倍率を1.1倍に変更した点である。その理由は、映像に対する音声の遅れを小さくするために、聴感上聴こえ難い、無音閾値レベルより少し大きい音声信号のみを早く再生することである。
以上が、変換速度制御部B82の動作説明である。
As a feature of the conversion speed control unit B82, in the conversion
The above is the description of the operation of the conversion speed control unit B82.
以上が、この発明の実施の形態2の話速変換装置の一連の動作説明である。なお、動作説明中、有音/無音判別部2における有音か無音かの判別方法については、背景技術の説明に挙げた通り、特開2002−297200号公報等に一例が詳しく開示されている。また、速度変換部A51における音声ピッチを変えずに音声信号の伸長を行う方法については、特開2001−109499号公報等に一例が詳しく開示されている。
The above is the description of a series of operations of the speech speed converting apparatus according to the second embodiment of the present invention. Incidentally, during the operation description, an example of the sound /
以上詳しく説明したように、この発明の実施の形態2によれば、時間圧縮伸長処理の話速変換倍率を単位時間毎に随時切り換えて動作させることが可能となり、映像に対する音声の遅れを抑圧できる効果がある。 As described above in detail, according to the second embodiment of the present invention, it is possible to switch the speech speed conversion magnification of the time compression / decompression process at every unit time, and to suppress the audio delay with respect to the video. effective.
また、この発明の実施の形態2によれば、聴感上聴こえ難い音声信号の時間圧縮伸長処理の話速変換倍率を、従来の1.0倍から1.1倍にすることが可能となり、映像に対する音声の遅れを更に抑圧できる効果がある。 Further, according to the second embodiment of the present invention, it is possible to increase the speech speed conversion magnification of the time compression / expansion processing of the audio signal which is difficult to hear from the viewpoint of hearing from 1.0 times to 1.1 times of the conventional method. It is possible to further suppress the voice delay with respect to.
他の実施例2.
以上、この発明の実施の形態2の詳細な説明では、音声信号の話速変換倍率の決定方法として、音声遅延増加度に応じて話速変換倍率を切り換える変換速度制御部B82を用いたが、音声遅延増加度がある一定条件を満たした場合のみ話速変換倍率を前回の倍率から変更しない変換速度制御部C83を用いても良い。
次に、速度変換部A51における音声信号の話速変換倍率を決定する変換速度制御部C83の動作について、図8のフローチャートを用いて説明を加える。
As described above, in the detailed description of the second embodiment of the present invention, the conversion speed control unit B82 that switches the speech speed conversion ratio according to the degree of increase in the voice delay is used as the method for determining the speech speed conversion ratio of the audio signal. Only when the voice delay increase degree satisfies a certain condition, the conversion speed control unit C83 that does not change the speech speed conversion magnification from the previous magnification may be used.
Next, the operation of the conversion speed control unit C83 that determines the speech speed conversion magnification of the voice signal in the speed conversion unit A51 will be described with reference to the flowchart of FIG.
図8は、変換速度制御部C83の処理フローチャートを示したものであり、83a、83b、83f、83h、83i、83j、83k、83l、83mは処理ブロック、83c、83d、83e、83gは判断ブロックである。
次に、その動作について説明する。
FIG. 8 shows a processing flowchart of the conversion speed control unit C83, in which 83a, 83b, 83f, 83h, 83i, 83j, 83k, 83l, and 83m are processing blocks, and 83c, 83d, 83e, and 83g are determination blocks. It is.
Next, the operation will be described.
処理ブロック83aでは、出力音声制御部6から受け取った現在の音声蓄積量と、前回の処理の際に記録しておいた音声蓄積量との差分値を計算する。
処理ブロック83bでは、差分値を単位時間で除算して、音声遅延増加度を算出する。
In the processing block 83a, a difference value between the current voice accumulation amount received from the output
In the processing block 83b, the difference value is divided by the unit time to calculate the audio delay increase degree.
判断ブロック83cでは、音声遅延増加度が0.1以上であった場合は、処理ブロック83fに進む。一方、判断ブロック83cにおいて、音声遅延増加度が0.1未満であった場合は、判断ブロック83dへ進む。 In the decision block 83c, when the audio delay increase degree is 0.1 or more, the process proceeds to the processing block 83f. On the other hand, if the voice delay increase degree is less than 0.1 in the decision block 83c, the process proceeds to the decision block 83d.
判断ブロック83dでは、音声遅延増加度が0.05以上であった場合は、処理ブロック83jにおいて、時間圧縮伸長処理の話速変換倍率を0.9倍とする指示信号を速度変換部A51に送出し、処理ブロック83mに進む。一方、判断ブロック83dにおいて、音声遅延増加度が0.05未満であった場合は、判断ブロック83eへ進む。
In the decision block 83d, when the degree of increase in voice delay is 0.05 or more, in the processing block 83j, an instruction signal for setting the speech speed conversion magnification of the time compression / decompression process to 0.9 times is sent to the speed converter A51. Then, the process proceeds to the
判断ブロック83eでは、音声遅延増加度が−0.1以上であった場合は、処理ブロック83iにおいて、時間圧縮伸長処理の話速変換倍率を、前回の倍率から変更しない指示信号を速度変換部A51に送出し、処理ブロック83mに進む。一方、判断ブロック83eにおいて、音声遅延増加度が−0.1未満であった場合は、処理ブロック83hにおいて、時間圧縮伸長処理の話速変換倍率を0.8倍とする指示信号を速度変換部A51に送出し、処理ブロック83mに進む。
In the
処理ブロック83fでは、有音/無音判別部A21から受け取った、有音と判断された入力音声信号のレベルと、予め定めておいた無音閾値レベルの差分値の計算を行う。
ここでの無音閾値レベルとは、音声信号を無音と判定するレベルの値であり、例えば、信号レベルの最大値をデシベル表記で0dBとした場合、無音と判定するレベル値は−45dBとする。なお、有音/無音判別部A21にて、有音/無音の判別手段に信号レベルを用いた場合は、無音と判定するレベルの値を有音/無音判別部A21から受け取るように変更し、受け取った値を無音閾値レベルに代用しても良い。
In the processing block 83f, a difference value between the level of the input voice signal determined to be voice received from the voice / silence discrimination unit A21 and a predetermined silence threshold level is calculated.
The silence threshold level here is a value of a level at which the audio signal is determined to be silent. For example, when the maximum value of the signal level is set to 0 dB in decibel notation, the level value to be determined as silence is −45 dB. When the signal level is used for the sound / silence determination unit in the sound / silence determination unit A21, the value for determining the level of silence is changed to be received from the sound / silence determination unit A21, The received value may be substituted for the silence threshold level.
判断ブロック83gでは、処理ブロック83fにおいて算出したレベル差分値が5dB以下であった場合は、処理ブロック83lにおいて、時間圧縮伸長処理の話速変換倍率を1.1倍とする指示信号を速度変換部A51に送出し、処理ブロック83mに進む。一方、判断ブロック83gにおいて、レベル差分値が5dBより大きかった場合は、処理ブロック83kにおいて、時間圧縮伸長処理の話速変換倍率を1.0倍とする指示信号を速度変換部A51に送出し、処理ブロック83mに進む。
In the
最後に処理ブロック83mでは、出力音声制御部6から受け取った現在の音声蓄積量を記録し、処理を終了する。
Finally, in the
変換速度制御部C83の特徴としては、図6に示した実施の形態2の変換速度制御部B82では音声遅延増加度が0.05未満の場合において話速変換倍率を0.8倍にしていたものを、その閾値を下げ、−0.10未満の場合とし、音声遅延増加度が−0.10以上0.05未満の値を取る場合は不感帯ゾーンとし、話速変換倍率を変更しないようにした点である。その理由は、例えば、複数の話者が討論を交わしている場合においては、会話の中で一瞬だけ音声蓄積量が減少し、再び増加に転じることがあるが、このようなケースにおいて、話速変換倍率をもっとも速度の遅い0.8倍に戻してしまうと、映像に対する音声の遅れが再び増加に転じてしまうことを避けるためである。
以上が、変換速度制御部C83の動作説明である。
As a feature of the conversion speed control unit C83, in the conversion speed control unit B82 of the second embodiment shown in FIG. 6, the speech speed conversion magnification is set to 0.8 when the voice delay increase is less than 0.05. If the threshold is lowered to less than -0.10, and the voice delay increase takes a value between -0.10 and less than 0.05, it is set as a dead zone, and the speech rate conversion magnification is not changed. This is the point. The reason for this is that, for example, in the case where a plurality of speakers are in discussion, the voice accumulation amount may decrease for a moment in the conversation and start to increase again. If the conversion magnification is returned to 0.8 times, which is the slowest speed, the audio delay with respect to the video is prevented from increasing again.
The above is the description of the operation of the conversion speed control unit C83.
以上詳しく説明したように、変換速度制御部B82の代わりに変換速度制御部C83を用いた他の実施例2によれば、時間圧縮伸長処理の話速変換倍率を単位時間毎に随時切り換えて動作させることが可能となり、映像に対する音声の遅れを抑圧できる効果に加え、音声蓄積量の微小な増減変化に対しては、現在の速度を維持することが可能となり、映像に対する音声の遅れを更に抑圧できる効果がある。 As described above in detail, according to the second embodiment in which the conversion speed control unit C83 is used instead of the conversion speed control unit B82, the speech speed conversion magnification of the time compression / decompression process is switched as needed every unit time. In addition to the effect of suppressing the audio delay with respect to the video, it is possible to maintain the current speed against a minute increase / decrease in the amount of accumulated audio, further suppressing the audio delay with respect to the video. There is an effect that can be done.
なお、以上の各実施の形態はテレビ放送の映像と音声の関係についてを例に説明したが、この発明は電話機等にも適用されることで相手との会話において返答が時間的に遅れる等の間のあいたことが防げる。 In the above embodiments, the relationship between video and audio of television broadcasting has been described as an example. However, the present invention is also applied to a telephone or the like so that a response is delayed in a conversation with the other party. You can prevent things in between.
この発明は、テレビジョン装置や電話機及び携帯電話機等に適用されることで、これら装置の音声をその音声ピッチを変えずにゆっくり再生することができ、受聴者に対して聴き取り易い話音声が提供できるものである。 The present invention is applied to a television device, a telephone set, a mobile phone, and the like, so that the voice of these devices can be reproduced slowly without changing the voice pitch, and a spoken voice that is easy to hear for the listener can be obtained. It can be provided.
1;音声入力端子、2;有音/無音判別部、3;信号廃棄判断部、4;無音信号廃棄部、5;速度変換部、6;出力音声制御部、6a;出力音声数計算部、6b;変換音声蓄積部、6c;遅延時間計算部、7;音声出力端子、8;変換速度制御部、21;有音/無音判別部A、51;速度変換部A、81;変換速度制御部A、82;変換速度制御部B、83;変換速度制御部C。
DESCRIPTION OF
Claims (4)
有音/無音判別部は、音声入力端子からの入力音声信号を有音か無音かを判別し、
信号廃棄判断部は、有音/無音判別部からの判別信号で有音信号は破棄せず、無音信号は音声入力端子からの入力音声信号の総時間を算出し、出力音声制御部からの出力音声信号の総時間を算出し、音声出力総時間数から、音声入力総時間数を減算し、その結果により無音信号を廃棄するか否かを判断し、
無音信号廃棄部は同じく音声信号を入力し、信号破棄判断部からの破棄信号で無音信号を廃棄し、それ以外の信号は速度変換部に渡し、
速度変換部は無音信号廃棄部から渡された音声信号に対し、音声ピッチを変えずに音声信号の伸長処理を変換速度制御部からの話速変換倍率で施し、
出力音声制御部は、速度変換部から時間圧縮伸長処理された音声信号を音声蓄積メモリに蓄積するとともに、音声信号が入力される毎に、その時間長を出力音声信号の時間長として、信号廃棄判別部に渡し、さらに音声蓄積メモリに蓄積された出力待機中の音声信号を、時間的に古いものから順に音声出力端子に出力しかつ出力された音声サンプル数をカウントし、一定周期毎に現在の音声蓄積量として、変換速度制御部に渡し、
変換速度制御部は、出力音声制御部から受け取った現在の音声蓄積量と、前回処理時の音声蓄積量との差分値を算出し、この差分値を単位時間で除算して、音声遅延増加度を算出し、音声遅延増加度に応じた話速変換倍率を速度変換部に出力する構成にされたことを特徴とする話速変換装置。 A voice input terminal, a voice / silence determination unit, a signal discard determination unit, a silence signal discard unit, a speed conversion unit, an output voice control unit, a voice output terminal, and a conversion speed control unit;
The voice / silence discrimination unit discriminates whether the voice signal input from the voice input terminal is voiced or silent,
The signal discard judgment unit does not discard the voice signal by the discrimination signal from the voice / silence discrimination unit, and the silence signal calculates the total time of the input voice signal from the voice input terminal and outputs it from the output voice control unit Calculate the total time of the audio signal, subtract the total audio input time from the total audio output time, and determine whether to discard the silence signal based on the result,
The silent signal discarding unit also inputs the audio signal, discards the silent signal with the discard signal from the signal discard determination unit, and passes the other signals to the speed conversion unit,
The speed conversion unit performs a voice signal expansion process on the voice signal passed from the silence signal discarding unit without changing the voice pitch at the conversion rate of the voice speed from the conversion speed control unit,
The output audio control unit accumulates the audio signal subjected to the time compression / decompression processing from the speed conversion unit in the audio accumulation memory, and discards the signal as the time length of the output audio signal every time the audio signal is input. Output to the audio output terminal the audio signals waiting to be output that have been passed to the discriminator and stored in the audio storage memory, in order from the oldest to the audio output terminal, and count the number of output audio samples. To the conversion speed control unit
The conversion speed control unit calculates a difference value between the current voice accumulation amount received from the output voice control unit and the voice accumulation amount at the previous processing, and divides this difference value by unit time to obtain a voice delay increase degree. And a speech speed conversion device configured to output a speech speed conversion magnification corresponding to the degree of increase in voice delay to the speed converter.
有音/無音判別ステップからの判別信号で有音信号は破棄せず、無音信号は現時点における音声出力総時間数から、音声入力総時間数を減算し、その結果により無音信号を廃棄するか否かを判断する信号廃棄判断ステップと、
音声信号を入力し、信号破棄判断ステップからの破棄信号で無音信号を廃棄し、それ以外の信号は次処理の速度変換ステップに渡す無音信号廃棄ステップと
無音信号廃棄ステップから渡された音声信号に対し、音声ピッチを変えずに音声信号の伸長処理を前回処理で定まる話速変換倍率で施す速度変換ステップと、
速度変換ステップから時間圧縮伸長処理された音声信号を音声蓄積メモリに蓄積するとともに、音声信号が入力される毎に、その時間長を出力音声信号の時間長として、信号廃棄判別ステップで使用する音声出力総時間数の元データとして出力し、さらに音声蓄積メモリに蓄積された出力待機中の音声信号を、時間的に古いものから順に音声出力端子に出力し、かつ出力された音声サンプル数をカウントし、一定周期毎に現在の音声蓄積量として出力する出力音声制御ステップと、
出力音声制御ステップから出力された現在の音声蓄積量と、前回処理時の音声蓄積量との差分値を算出し、この差分値を単位時間で除算して、音声遅延増加度を算出し、音声遅延増加度に応じた話速変換倍率を速度変換ステップで用いる話速変換倍率として出力する変換速度制御ステップを有することを特徴とする話速変換制御方法。 A voice / silence discrimination step for discriminating whether the input voice signal from the voice input terminal is voiced or silent, and outputting a judgment signal;
Whether or not the sound signal is discarded by the determination signal from the sound / silence determination step, and the sound signal subtracts the total time of sound input from the total sound output time at the present time, and whether to discard the sound signal according to the result A signal discarding determination step for determining whether or not
The audio signal is input, the silence signal is discarded by the discard signal from the signal discard determination step, and other signals are sent to the silence signal discard step and the silence signal discard step that are passed to the speed conversion step of the next processing. On the other hand, a speed conversion step for performing speech signal expansion processing at a speech speed conversion magnification determined in the previous processing without changing the voice pitch,
The audio signal subjected to the time compression / decompression processing from the speed conversion step is accumulated in the audio accumulation memory, and every time the audio signal is input, the time length is set as the time length of the output audio signal, and the audio used in the signal discard determination step Output as the original data for the total number of output times, and output the standby audio signals stored in the audio storage memory to the audio output terminal in order from the oldest one, and count the number of output audio samples And an output audio control step for outputting the current audio accumulation amount at regular intervals,
Calculate the difference between the current audio accumulation amount output from the output audio control step and the audio accumulation amount at the previous processing, and divide this difference value by unit time to calculate the audio delay increase degree. A speech speed conversion control method, comprising: a conversion speed control step for outputting a speech speed conversion magnification according to a delay increase degree as a speech speed conversion magnification used in the speed conversion step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006287305A JP2008107381A (en) | 2006-10-23 | 2006-10-23 | Speaking speed converting device and speaking speed converting control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006287305A JP2008107381A (en) | 2006-10-23 | 2006-10-23 | Speaking speed converting device and speaking speed converting control method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008107381A true JP2008107381A (en) | 2008-05-08 |
Family
ID=39440804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006287305A Pending JP2008107381A (en) | 2006-10-23 | 2006-10-23 | Speaking speed converting device and speaking speed converting control method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008107381A (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04367898A (en) * | 1991-06-17 | 1992-12-21 | Matsushita Electric Ind Co Ltd | Method and device for voice reproduction |
JPH0845177A (en) * | 1993-10-19 | 1996-02-16 | Sanyo Electric Co Ltd | Speech speed converter |
JPH10301598A (en) * | 1997-04-30 | 1998-11-13 | Nippon Hoso Kyokai <Nhk> | Method and device for converting speech speed |
JP2000132179A (en) * | 1998-10-27 | 2000-05-12 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for equalizing speech speed in recorded voice database and storage medium having stored speech speed equalizing program thereon |
JP2001184100A (en) * | 1999-12-24 | 2001-07-06 | Anritsu Corp | Speaking speed converting device |
JP2001318700A (en) * | 2000-02-28 | 2001-11-16 | Sanyo Electric Co Ltd | Speech speed converter |
JP2004007140A (en) * | 2002-05-31 | 2004-01-08 | Toshiba Corp | Voice reproducing device and voice reproduction control method to be used for the same device |
-
2006
- 2006-10-23 JP JP2006287305A patent/JP2008107381A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04367898A (en) * | 1991-06-17 | 1992-12-21 | Matsushita Electric Ind Co Ltd | Method and device for voice reproduction |
JPH0845177A (en) * | 1993-10-19 | 1996-02-16 | Sanyo Electric Co Ltd | Speech speed converter |
JPH10301598A (en) * | 1997-04-30 | 1998-11-13 | Nippon Hoso Kyokai <Nhk> | Method and device for converting speech speed |
JP2000132179A (en) * | 1998-10-27 | 2000-05-12 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for equalizing speech speed in recorded voice database and storage medium having stored speech speed equalizing program thereon |
JP2001184100A (en) * | 1999-12-24 | 2001-07-06 | Anritsu Corp | Speaking speed converting device |
JP2001318700A (en) * | 2000-02-28 | 2001-11-16 | Sanyo Electric Co Ltd | Speech speed converter |
JP2004007140A (en) * | 2002-05-31 | 2004-01-08 | Toshiba Corp | Voice reproducing device and voice reproduction control method to be used for the same device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4630876B2 (en) | Speech speed conversion method and speech speed converter | |
EP2151920B1 (en) | A method and an apparatus for processing an audio signal | |
JP4146489B2 (en) | Audio packet reproduction method, audio packet reproduction apparatus, audio packet reproduction program, and recording medium | |
EP0910065B1 (en) | Speaking speed changing method and device | |
US8903721B1 (en) | Smart auto mute | |
JP4744332B2 (en) | Fluctuation absorption buffer controller | |
US10510361B2 (en) | Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user | |
US10127924B2 (en) | Communication apparatus mounted with speech speed conversion device | |
JP2010164859A (en) | Audio playback device, information reproduction system, audio reproduction method and program | |
JP4965371B2 (en) | Audio playback device | |
JP2013005423A (en) | Video reproducer, video reproduction method and program | |
JP2008107381A (en) | Speaking speed converting device and speaking speed converting control method | |
WO2011027437A1 (en) | Voice reproduction device and voice reproduction method | |
JP4561301B2 (en) | Audio reproduction device and program for controlling reproduction and stop of audio | |
JP2009027239A (en) | Telecommunication conference apparatus | |
KR100644437B1 (en) | Mobile terminal with music automatic stop function and method for music stop | |
JP4680122B2 (en) | Spoken speed conversion device, television receiver, and speaking speed conversion method | |
JP3187953B2 (en) | Wireless communication device | |
US20240029755A1 (en) | Intelligent speech or dialogue enhancement | |
EP4156181A1 (en) | Controlling playback of audio data | |
WO2011039884A1 (en) | Voice communication apparatus | |
WO2010100895A1 (en) | Sound reproduction device and image/sound reproduction device | |
JPH06175693A (en) | Voice detection method | |
JP2007072045A (en) | Speech processing apparatus | |
JP2012205066A (en) | Voice data processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090820 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110901 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120515 |