JP2007025039A - Voice reproducing device, voice recording/rereproducing device, methods therefor, recording medium, and integrated circuit - Google Patents
Voice reproducing device, voice recording/rereproducing device, methods therefor, recording medium, and integrated circuit Download PDFInfo
- Publication number
- JP2007025039A JP2007025039A JP2005204211A JP2005204211A JP2007025039A JP 2007025039 A JP2007025039 A JP 2007025039A JP 2005204211 A JP2005204211 A JP 2005204211A JP 2005204211 A JP2005204211 A JP 2005204211A JP 2007025039 A JP2007025039 A JP 2007025039A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speed ratio
- section
- audio
- speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路に関し、より特定的には、再生速度を変換して再生する音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路に関する。 The present invention relates to an audio reproducing device, an audio recording / reproducing device, and a method thereof, a recording medium, and an integrated circuit. More specifically, the present invention relates to an audio reproducing device, an audio recording / reproducing device, and the like that convert and reproduce the reproducing speed. And a recording medium and an integrated circuit.
従来、予め記録された音声を再生する音声再生装置において、声の高さを変えることなく、より高速に再生する方法が知られている(例えば、特許文献1参照)。特許文献1に開示された音声再生装置では、音声信号全体を指定速度で再生するとき、音声区間については部分的に再生速度比を低速化している。これにより、特許文献1に開示された従来の音声再生装置は、情報の欠落が少なく、聴き取りやすい再生音声を提供することができる。
以下、図11を参照して、上記特許文献1に開示された従来の音声再生装置9について、具体的に説明する。図11は、従来の音声再生装置9の構成を示すブロック図である。図11において、従来の音声再生装置9は、音響分析部91、話速変換部92、非音声区間長制御部93、および合成部94を備える。
Hereinafter, with reference to FIG. 11, the conventional
音響分析部91は、入力される音声データに対して、予め設定されているパワー閾値に基づき音声区間および非音声区間を判別する。そして、音響分析部91は、音声区間および非音声区間の時間情報をそれぞれ求める。図11に示す従来の音声再生装置9では、音響分析部91において判別された音声区間および非音声区間に対して、異なる再生処理を適用する。音響分析部91で判別された音声区間の音声データおよび上記各時間情報は、話速変換部92に出力される。音響分析部91で判別された非音声区間の音声データは、非音声区間長制御部93に出力される。
The
話速変換部92は、まず音声区間の音声データと上記各時間情報とに基づいて、一定時間長以上の非音声区間に挟まれた音声区間を特定する。そして、話速変換部92は、当該音声区間の冒頭部分の速度比を所定速度比より遅く、末尾に向けて次第に所定速度比に戻すような速度比制御を行う。速度比が制御された音声区間の音声データは、合成部94に出力される。また、話速変換部92は、波形の伸長処理によって生じる音声区間の遅延時間情報を非音声区間長制御部93に出力する。
The speech
一方、非音声区間長制御部93では、話速変換部92から出力された上記遅延時間情報に基づいて、非音声区間の音声データに対して削除および圧縮する処理を適宜行う。つまり、非音声区間長制御部93では、目標の指定速度比に合うように、かつ、話速変換部92で生じた音声区間の遅延を解消するような処理が行われる。非音声区間長制御部93において処理された非音声区間の音声データは、合成部94に出力される。
On the other hand, the non-speech section
合成部94は、話速変換部92から出力された音声区間の音声データと、非音声区間長制御部93から出力された非音声区間の音声データとを合成する。そして、合成部94は、速度比が変換された音声区間と非音声区間とが合成された音声データを変換音声データとして、最終的な再生音声を出力する。
The
上記従来の音声再生装置9では、例えば指定速度としてm倍速(mは1以上の正数)が与えられたとき、音声区間の冒頭部分ではm倍速より遅い速度比で再生する。そして、従来の音声再生装置9は、音声区間の末尾に向かって次第に再生速度比を速くする。ここで、一般的に音声区間の冒頭部分には、重要な情報が含まれている場合が多い。したがって、従来の音声再生装置9によれば、音声区間の冒頭部分にある重要な情報を欠落させることなく、聴きとりやすい再生を実現することができる。このように従来の音声再生装置9では、音声区間については聴き取りやすい処理が、非音声区間については指定速度比に適応するような処理がそれぞれ行われている。
In the conventional
ここで、高速再生時には、音声の発話速度が速くなり、ユーザにとって内容を理解するための負荷が大きくなる。さらに、番組全体の中で音声区間が偏って集中すると(音声が連続的に発声されると)、ユーザにとってさらに理解が困難になる。しかしながら、上記従来の音声再生装置9では、一つの音声区間の中で再生速度比を変更することのみを想定している。つまり、上記従来の音声再生装置9では、例えばテレビ番組などの全体を通して、同一の速度比制御処理が適用される。したがって、従来の音声再生装置9においては、音声区間が偏って集中する部分で相対的に音声の内容の聴き取りが困難になるという本質的課題があった。
Here, at the time of high-speed playback, the speech utterance speed increases, and the load for the user to understand the content increases. Furthermore, if the voice sections are concentrated and concentrated in the entire program (if the voice is continuously uttered), it becomes more difficult for the user to understand. However, the conventional
それ故、本発明の目的は、テレビなどの番組全体を考慮した最適な速度比制御を行って、より聴き取りやすい再生を実現する音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、および集積回路を提供することを目的とする。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide an audio reproducing device, an audio recording / reproducing device, and a method and a recording medium for realizing an easy-to-listen reproduction by performing optimum speed ratio control in consideration of the entire program such as a television. And to provide an integrated circuit.
第1の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声再生装置であって、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える。 A first aspect of the present invention is an audio reproducing apparatus for reproducing an audio signal by converting the reproduction speed set to the input audio signal to the same speed and shortening the reproduction time, A determination unit for determining a speech section including speech and a non-speech section that does not include speech; and at least a speech content ratio indicating a ratio of the speech section to a predetermined time length as speech information related to the speech section and the non-speech section The speed of the audio section in the predetermined time length when the audio content rate of the predetermined time length is relatively high, with the audio information calculation unit and the ratio of the speed conversion from the same speed reproduction speed being 1 or more as a reference value A speed ratio calculating unit that sets the ratio smaller than the reference value and sets the speed ratio of the voice section in the predetermined time length to be larger than the reference value when the voice content rate for the predetermined time length is relatively low. .
第2の発明は、上記第1の発明において、速度比算出部は、ユーザの操作に応じて短縮された再生時間を設定し、算出した音声区間の速度比に基づいて、音声信号の再生時間が設定された再生時間となるように非音声区間の速度比を算出することを特徴とする。 In a second aspect based on the first aspect, the speed ratio calculation unit sets a shortened playback time in accordance with a user operation, and based on the calculated speed ratio of the voice section, the playback time of the voice signal Is characterized in that the speed ratio of the non-voice section is calculated so as to be the set playback time.
第3の発明は、上記第2の発明において、速度比算出部は、設定された再生時間内において非音声区間の速度比を一定に算出することを特徴とする。 According to a third aspect, in the second aspect, the speed ratio calculation unit calculates the speed ratio of the non-speech section to be constant within the set reproduction time.
第4の発明は、上記第1の発明において、所定時間長は、1以上の単位時間長を含み、速度比算出部は、所定時間長に対して算出された速度比を当該所定時間長に含まれる何れか1つの単位時間長における音声区間の速度比に設定することを特徴とする。 In a fourth aspect based on the first aspect, the predetermined time length includes one or more unit time lengths, and the speed ratio calculation unit sets the speed ratio calculated for the predetermined time length to the predetermined time length. It is set to the speed ratio of the voice section in any one unit time length included.
第5の発明は、上記第1の発明において、音声再生装置は、入力される音声信号のうち、少なくとも所定時間長分の音声信号を含むように当該音声信号を順次更新しながら記録するバッファと、バッファに記録された音声信号に対して速度変換処理を行って出力する速度変換部とを、さらに備え、判別部は、バッファに記録された所定時間長の音声信号に対して音声区間と非音声区間とを判別し、音声情報算出部は、さらに、音声情報として音声含有率に関する統計値を算出して、予め記憶されている統計値を単位時間毎に順次更新し、速度比算出部は、単位時間ごとに更新される統計値および当該更新時の所定時間長に設定された音声含有率に応じて音声区間の速度比を算出し、速度変換部は、バッファで順次更新される音声信号に対して、単位時間ごとに算出された音声区間の速度比を用いて順次速度変換処理を行うことを特徴とする。 In a fifth aspect based on the first aspect, the audio reproduction device includes a buffer for recording the audio signal while sequentially updating the audio signal to include at least a predetermined time length of the audio signal. A speed conversion unit that performs speed conversion processing on the audio signal recorded in the buffer and outputs the audio signal. The speech information calculation unit further calculates a statistical value related to the speech content rate as speech information, sequentially updates the statistical values stored in advance for each unit time, and the speed ratio calculation unit The voice ratio is calculated according to the statistical value updated every unit time and the voice content rate set to the predetermined time length at the time of the update, and the speed conversion unit sequentially updates the audio signal in the buffer. Against And performing sequential speed conversion processing by using the speed ratio of the speech interval calculated for each unit time.
第6の発明は、上記第1の発明において、音声情報算出部は、音声情報として音声含有率に関する統計値をさらに算出し、速度比算出部は、統計値および音声含有率に応じて音声区間の速度比を算出することを特徴とする。 In a sixth aspect based on the first aspect, the voice information calculation unit further calculates a statistical value related to the voice content rate as voice information, and the speed ratio calculation unit determines the voice interval according to the statistical value and the voice content rate. The speed ratio is calculated.
第7の発明は、上記第5または6の発明において、統計値は、所定時間長毎の音声含有率の平均値および標準偏差であることを特徴とする。 A seventh invention is characterized in that, in the fifth or sixth invention, the statistical value is an average value and a standard deviation of a voice content rate for each predetermined time length.
第8の発明は、上記第7の発明において、速度比算出部は、所定時間長における音声含有率の平均値に対する変動差および標準偏差に応じた係数を速度比の基準値に乗じて、音声区間の速度比を算出することを特徴とする。 In an eighth aspect based on the seventh aspect, the speed ratio calculation unit multiplies the reference value of the speed ratio by a coefficient corresponding to a variation difference and a standard deviation with respect to the average value of the voice content rate over a predetermined time length, and The speed ratio of the section is calculated.
第9の発明は、上記第8の発明において、音声情報算出部は、それぞれ時間長が異なる所定時間長を複数設定してそれぞれ音声含有率を算出し、速度比算出部は、所定時間長それぞれより少なくとも短い単位時間長において、当該単位時間長に含まれる音声区間の速度比を、当該単位時間長を共通して含むそれぞれの所定時間長の音声含有率に対応する係数の総和を速度比の基準値に乗じて算出することを特徴とする。 In a ninth aspect based on the eighth aspect, the voice information calculation unit sets a plurality of predetermined time lengths each having a different time length and calculates a voice content rate, and the speed ratio calculation unit determines each predetermined time length. In at least a shorter unit time length, the speed ratio of the voice section included in the unit time length is the sum of coefficients corresponding to the voice content rates of the predetermined time lengths including the unit time length in common. It is calculated by multiplying the reference value.
第10の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声再生方法であって、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを含む。 A tenth aspect of the present invention is an audio reproduction method for reproducing an audio signal by converting the reproduction speed set to the input audio signal to the same speed and shortening the reproduction time. A discrimination step for discriminating between a speech segment including a speech segment and a non-speech segment including no speech, and at least a speech content ratio indicating a ratio of the speech segment to a predetermined time length as speech information related to the speech segment and the non-speech segment The speed of the audio section in the predetermined time length when the audio content ratio of the predetermined time length is relatively high with the audio information calculating step and the ratio of speed conversion from the same speed reproduction speed being 1 or more as a reference value A speed ratio that sets the ratio smaller than the reference value and sets the speed ratio of the voice section in the predetermined time length to be larger than the reference value when the voice content rate for the predetermined time length is relatively low Out and a step.
第11の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生するコンピュータで実行される音声再生プログラムを記録した当該コンピュータで読み取り可能な記録媒体であって、コンピュータに、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを実行させるためのプログラムを記録した、コンピュータに読み取り可能な記録媒体である。 An eleventh aspect of the present invention is a computer that records a sound reproduction program that is executed by a computer that reproduces the sound signal by converting the reproduction speed set to the input sound signal at the same magnification and reducing the reproduction time. A readable recording medium, in which a computer has a determination step for determining a voice section including voice and a non-voice section that does not contain voice with respect to a voice signal, and voice information about the voice section and the non-voice section as predetermined information. A voice information calculation step for calculating at least a voice content ratio indicating a ratio of the voice section to the time length, and a speed ratio with a speed conversion ratio of 1 or more from the same playback speed as a reference value, a predetermined time length When the voice content rate is relatively high, the speed ratio of the voice section in the predetermined time length is set smaller than the reference value, and the voice content of the predetermined time length is included. There the speed ratio of the speech interval in the predetermined time length has been recorded a program for executing the speed ratio calculation step of setting greater than the reference value when a relatively low, which is a computer-readable recording medium.
第12の発明は、入力される音声信号に設定された等倍の再生速度を速度変換して加速させる集積回路であって、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える。 A twelfth aspect of the present invention is an integrated circuit for speed-converting and accelerating a playback speed set to the input audio signal at the same magnification, and a non-voice that does not contain voice and a voice section that contains voice with respect to the voice signal. A discrimination unit that discriminates a section; a voice information calculation unit that calculates at least a voice content rate indicating a ratio of the voice section to a predetermined time length as voice information related to the voice section and the non-voice section; The speed ratio of speed to speed conversion is set to a reference value of a speed ratio of 1 or more, and when the voice content rate of the predetermined time length is relatively high, the speed ratio of the voice section in the predetermined time length is set smaller than the reference value, A speed ratio calculation unit configured to set a speed ratio of the voice section in the predetermined time length to be larger than the reference value when the voice content rate of the predetermined time length is relatively low.
第13の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声録音再生装置であって、入力される音声信号を記録する情報記録部と、情報記録部に記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える。 A thirteenth aspect of the present invention is an audio recording / reproducing apparatus for reproducing an audio signal by converting the reproduction speed set to the input audio signal at the same magnification and shortening the reproduction time. An information recording unit to be recorded, a discrimination unit for discriminating a voice segment including voice and a non-speech segment not including voice with respect to a voice signal before being recorded in the information recording unit, and voices related to the voice zone and the non-voice zone As information, a voice information calculation unit that calculates at least a voice content rate indicating a ratio of the voice section to a predetermined time length, and a speed ratio with a speed conversion rate of 1 or more from the same playback speed as a reference value, When the voice content rate of the predetermined time length is relatively high, the speed ratio of the voice section in the predetermined time length is set smaller than the reference value, and the predetermined time is set when the voice content rate of the predetermined time length is relatively low Long The speed ratio of the definitive voice section and a speed ratio calculating section for greater than the reference value.
第14の発明は、上記第13の発明において、情報記録部には、音声信号が記録される際に判別部が判別した結果が記録され、音声情報算出部は、情報記録部に記録された結果に基づいて、音声情報を算出することを特徴とする。 In a fourteenth aspect based on the thirteenth aspect, the information recording unit records a result determined by the determining unit when the audio signal is recorded, and the audio information calculating unit is recorded in the information recording unit. Voice information is calculated based on the result.
第15の発明は、上記第13の発明において、情報記録部には、音声信号が記録される際に、判別部が判別した結果および音声情報が記録され、速度比算出部は、情報記録部に記録された音声情報を用いて、音声区間の速度比を算出することを特徴とする。 In a fifteenth aspect based on the thirteenth aspect, the information recording section records the result and the sound information determined by the determining section when the sound signal is recorded, and the speed ratio calculating section includes the information recording section. The speed ratio of the voice section is calculated using the voice information recorded in the above.
第16の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声録音再生方法であって、入力される音声信号を記録する情報記録ステップと、情報記録ステップに記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間と判別する判別ステップと、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを含む。 A sixteenth aspect of the present invention is a voice recording / playback method for playing back an audio signal by converting the playback speed set to the input audio signal at the same magnification and reducing the playback time. An information recording step for recording, a discrimination step for discriminating a voice section including voice and a non-voice section not containing voice with respect to the voice signal before being recorded in the information recording step, and voice information relating to the voice section and the non-voice section As a reference value, a voice information calculation step for calculating at least a voice content ratio indicating a ratio of the voice section included in a predetermined time length, and a speed ratio at which a speed conversion rate from the same playback speed is 1 or more is set as a reference value. When the voice content rate of time length is relatively high, the speed ratio of the voice section in the predetermined time length is set smaller than the reference value, and the voice content rate of the predetermined time length is relatively low The speed ratio of the speech interval in the predetermined time length when including a speed ratio calculation step of setting greater than the reference value.
第17の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生するコンピュータで実行される音声録音再生プログラムを記録した記録媒体であって、コンピュータに、入力される音声信号を記録部に記録する情報記録ステップと、記録部に記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間と判別する判別ステップと、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを実行させるためのプログラムを記録した、コンピュータに読み取り可能な記録媒体である。 According to a seventeenth aspect of the present invention, there is provided a recording medium on which an audio recording / reproducing program executed by a computer that reproduces the audio signal by converting the reproduction speed set to the input audio signal to speed and reducing the reproduction time. An information recording step for recording an audio signal input to the computer in the recording unit, an audio segment including audio and a non-audio segment not including audio with respect to the audio signal before being recorded in the recording unit, A discrimination step for discriminating, a voice information calculation step for calculating at least a voice content ratio indicating a ratio of the voice section to a predetermined time length as voice information regarding the voice section and the non-speech section, and a speed from the same playback speed The speed ratio of the voice section in the predetermined time length when the voice content rate of the predetermined time length is relatively high with the speed ratio of the conversion ratio of 1 or more as a reference value A speed ratio calculating step for setting the speed ratio of the voice section for the predetermined time length to be larger than the reference value when the voice content rate for the predetermined time length is relatively low. A computer-readable recording medium that records a program.
第1の発明によれば、音声含有率の変動に応じた音声区間の速度比を算出することで、入力された音声信号の速度変換後の再生音質を音声含有率の変動に応じた了解性の優れたものにすることができる。 According to the first invention, by calculating the speed ratio of the voice section according to the fluctuation of the voice content rate, the reproduction sound quality after the speed conversion of the input voice signal is understood according to the fluctuation of the voice content rate. Can be excellent.
第2の発明によれば、設定されて再生時間となるように、重要な音声情報が含まれていない非音声区間の速度比を音声区間の速度比とは別に算出することで、音声区間の速度比をユーザが聴取可能な範囲内の速度比に調整することができる According to the second aspect of the present invention, the speed ratio of the non-speech section that does not include important speech information is calculated separately from the speed ratio of the speech section so that the playback time is set. The speed ratio can be adjusted to a speed ratio within the range that the user can hear.
第3の発明によれば、重要な音声情報が含まれていない非音声区間の速度比を一定の速度比とすることで、能率のよい速度変換をした再生が可能となる。 According to the third aspect of the invention, it is possible to perform playback with efficient speed conversion by setting the speed ratio of the non-voice section in which no important voice information is included to a constant speed ratio.
第4の発明によれば、例えば単位時間長を数多く含み、所定時間長が長い場合には、設定される音声区間の速度比が音声含有率の変動に対して大局的でより正確性の高い値となる。また例えば、所定時間長が短く、含まれる単位時間長が少ない場合には、設定される音声区間の速度比が音声含有率の変動に対して敏感でより追従性のよい値となる。つまり、設定される音声区間の速度比に対して、音声含有率の変動に対する正確性または追従性を自由に選択することができる。 According to the fourth aspect of the invention, for example, when a unit time length is included and the predetermined time length is long, the speed ratio of the set voice section is global with respect to the fluctuation of the voice content rate and is more accurate. Value. Further, for example, when the predetermined time length is short and the unit time length included is small, the speed ratio of the set speech section is sensitive to fluctuations in the speech content rate and becomes a value with better followability. That is, it is possible to freely select the accuracy or followability with respect to the fluctuation of the voice content with respect to the speed ratio of the set voice section.
第5の発明によれば、統計値を単位時間毎に更新することで、音声信号の入力に応じて即時に速度変換処理をして再生することができる。 According to the fifth aspect, by updating the statistical value every unit time, it is possible to immediately perform the speed conversion process according to the input of the audio signal and reproduce it.
第6の発明によれば、音声区間の速度比の算出に対して、統計値を用いることで、より実際の音声含有率の変動に即した音声区間の速度比を算出することができ、結果的に速度変換後の再生音質をより了解性のある自然なものにすることができる。 According to the sixth invention, by using the statistical value for calculating the speed ratio of the voice section, the speed ratio of the voice section can be calculated more in line with the actual fluctuation of the voice content rate. Thus, the reproduced sound quality after speed conversion can be made more natural and understandable.
第7の発明によれば、音声区間の存在の偏り度合いを考慮した音声区間の速度比を算出することができる。 According to the seventh aspect, it is possible to calculate the speed ratio of the voice section in consideration of the degree of bias of the existence of the voice section.
第8の発明によれば、音声区間の存在の偏り度合いに即した音声区間の速度比を算出することができる。 According to the eighth aspect of the invention, it is possible to calculate the speed ratio of the voice section in accordance with the degree of bias of the existence of the voice section.
第9の発明によれば、単位時間長に含まれる音声区間の速度比を、当該単位時間長を共通して含むそれぞれの所定時間長の音声含有率に対応する係数の総和を速度比の基準値に乗じて算出することで、音声含有率の敏感な変動および大局的な変動の双方に対応した最適な音声区間の速度比を算出することができる。 According to the ninth aspect, the speed ratio of the voice section included in the unit time length is the sum of the coefficients corresponding to the voice content rates of the predetermined time lengths including the unit time length in common. By multiplying by the value, it is possible to calculate the optimum speed ratio of the voice section corresponding to both the sensitive fluctuation and the global fluctuation of the voice content rate.
第13の発明によれば、音声含有率の変動に応じた音声区間の速度比を算出することで、記録した音声信号の速度変換後の再生音質を音声含有率の変動に応じた了解性の優れたものにすることができる。 According to the thirteenth aspect, by calculating the speed ratio of the voice section according to the fluctuation of the voice content rate, the reproduced sound quality after the speed conversion of the recorded voice signal is changed according to the fluctuation of the voice content rate. It can be excellent.
第14の発明によれば、音声信号を記録後、速度変換した再生が行われる前までの処理時間を判別部における処理時間分だけ短縮することができる。 According to the fourteenth aspect, it is possible to shorten the processing time from the recording of the audio signal to the time before the speed-converted reproduction is performed by the processing time in the determination unit.
第15の発明によれば、音声信号を記録後、速度変換した再生が行われる前までの処理時間を判別部および音声情報算出部における処理時間分だけ短縮することができ、音声信号を記録後、即時に速度変換をした再生を行うことができる。 According to the fifteenth aspect, it is possible to shorten the processing time after recording an audio signal and before performing speed-converted reproduction by the processing time in the determination unit and the audio information calculation unit. , Playback with speed conversion can be performed immediately.
(第1の実施形態)
図1を参照して、本発明における第1の実施形態に係る音声再生装置について説明する。図1は、本発明における第1の実施形態に係る音声再生装置1の構成を示すブロック図である。図1において、音声再生装置1は、音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15を有する。なお、本実施形態に係る音声再生装置1は、記録メディアなどに録音された音声信号を速度変換して再生する前に一旦、録音された音声信号全体について読み出し可能であることを想定した装置である。ここで、録音対象としては、例えばテレビやラジオ番組が挙げられる。また記録メディアは、例えば映画などが予め収録されたDVD等の記録メディアであってもよい。以下の説明では、一例として、第1の実施形態に係る音声再生装置1が、録音されたテレビ番組の音声信号に対して速度変換処理を行うとする。
(First embodiment)
With reference to FIG. 1, the audio | voice reproduction apparatus which concerns on the 1st Embodiment in this invention is demonstrated. FIG. 1 is a block diagram showing a configuration of an
記録メディアなどに録音された音声信号が読み出され、音声/非音声判別部11に入力される。音声/非音声判別部11は、入力された音声信号のパワーの包絡値や周期性などの分析を行う。そして、音声/非音声判別部11は入力された音声信号に対して音声区間および非音声区間を時間軸上で判別する。音声信号の時間軸上で判別された音声区間および非音声区間の情報(以下、判別情報という)は、速度変換した再生を行う前に音声情報算出部12に出力される。
An audio signal recorded on a recording medium or the like is read and input to the audio /
音声情報算出部12は、音声/非音声区間の判別情報に基づいて、音声区間および非音声区間の速度比を算出するために必要な音声情報を算出する。音声情報としては、音声含有率、音声含有率の平均値、および標準偏差などがある。具体的には、音声情報算出部12は、録音された番組全体を通して音声含有率を算出した後に、音声含有率の平均値と標準偏差とを算出する。音声情報算出部12で算出された音声含有率、音声含有率の平均値、および標準偏差は、音声情報記録部13にそれぞれ記録される。以下、音声含有率、音声含有率の平均値、および標準偏差について説明する。
The voice
音声含有率は、所定数(少なくとも1つ以上)のフレームに対して音声区間が含まれる時間比率を示すものである。音声含有率はフレーム毎に算出される。ここでフレームとは、入力される音声信号を単位時間で区切った区間であり、当該フレームの時間長をフレーム長とする。当該フレームには、音声区間および/または非音声区間が含まれる。また、音声含有率の算出に用いられる少なくとも1つ以上のフレームを算出用フレームとし、その時間長を算出用フレーム長とする。以下の説明では、一例として、1フレームの時間長(1フレーム長)を1分とする。また、音声含有率を算出するための算出用フレーム長をn(nは正数)分とする。つまり、1フレーム長を1分としたので、算出用フレームはn個のフレームから構成されることとなる。また、録音された番組全体のフレーム数がN(Nは正数)個あるとする。そして、フレームナンバーをk(k=1〜N)として、フレームナンバーがkのときのフレームを「第kフレーム」とする。このとき、第kフレームの音声含有率Ris_n(k)は、数式(1)で表現される。
ここで、図2〜図4を参照して、上記音声含有率Ris_n(k)の算出例を挙げる。図2〜図4では、一例として、テレビ放送のドキュメンタリ番組(30分間)の音声含有率を算出するとし、1分、5分、および10分の3種類の算出用フレーム長で算出している。図2は、算出用フレーム長が1分のときの音声含有率Ris_1(k)の算出例を示す図である。図3は、算出用フレーム長が5分のときの音声含有率Ris_5(k)の算出例を示す図である。図4は、算出用フレーム長が10分のときの音声含有率Ris_10(k)の算出例を示す図である。なお、図2〜図4において、横軸はフレームナンバー(k)を示し、縦軸は音声含有率(%)を示す。また、図2〜図4において、1フレーム長は1分とし、番組全体のフレーム数Nは30とする。 Here, with reference to FIG. 2 to FIG. 4, a calculation example of the voice content rate Ris_n (k) will be given. In FIG. 2 to FIG. 4, as an example, when calculating the audio content rate of a TV broadcast documentary program (30 minutes), calculation is performed with three types of calculation frame lengths of 1 minute, 5 minutes, and 10 minutes. . FIG. 2 is a diagram illustrating a calculation example of the voice content rate Ris_1 (k) when the calculation frame length is 1 minute. FIG. 3 is a diagram illustrating a calculation example of the voice content rate Ris_5 (k) when the calculation frame length is 5 minutes. FIG. 4 is a diagram illustrating a calculation example of the voice content rate Ris_10 (k) when the calculation frame length is 10 minutes. 2 to 4, the horizontal axis represents the frame number (k), and the vertical axis represents the voice content rate (%). 2 to 4, the length of one frame is 1 minute, and the number N of frames of the entire program is 30.
図2において、第1フレーム(k=1)の音声含有率Ris_1(1)は、算出用フレーム長を1分としたので、数式(1)より第1フレームの音声含有率そのものとなる。図3においては、数式(1)より算出される第1フレームの音声含有率Ris_5(1)は、図2の第1〜第5フレームの音声含有率を平均したものである。図4においては、数式(1)より算出される第1フレームの音声含有率Ris_10(1)は、図2の第1〜第10フレームの音声含有率を平均したものである。 In FIG. 2, the audio content rate Ris_1 (1) of the first frame (k = 1) is the audio content rate of the first frame from Equation (1) because the calculation frame length is 1 minute. In FIG. 3, the voice content rate Ris_5 (1) of the first frame calculated from the formula (1) is an average of the voice content rates of the first to fifth frames in FIG. In FIG. 4, the voice content rate Ris_10 (1) of the first frame calculated from the formula (1) is an average of the voice content rates of the first to tenth frames in FIG.
図2〜図4に示すように、各算出用フレーム長で音声含有率の変動の様子が異なることが分かる。具体的には、算出用フレーム長が短い場合(図2)には、音声含有率のフレーム間の変動差が比較的大きくなる。つまり、算出用フレーム長が短い場合には、音声含有率の実際の変動が敏感に反映されたものとなる。これに対し、図3および図4に示すように、算出用フレーム長が長くなるにつれて、音声含有率のフレーム間の変動差が比較的小さくなる。これは、上述したように、算出用フレーム長が長くなるにつれて各フレームの音声含有率が平均化されるためである。つまり、算出用フレーム長が長い場合には、平均化によって小さい変動差が吸収され、音声含有率の変動が大局的に反映される。また、各算出用フレーム長の分散および標準偏差も、音声含有率の変動差の違いにより、異なる値となる。 As shown in FIG. 2 to FIG. 4, it can be seen that the variation of the voice content rate is different for each calculation frame length. Specifically, when the calculation frame length is short (FIG. 2), the difference in fluctuation of the voice content rate between frames becomes relatively large. That is, when the calculation frame length is short, the actual fluctuation of the voice content rate is sensitively reflected. On the other hand, as shown in FIGS. 3 and 4, as the calculation frame length increases, the difference in fluctuation of the voice content rate between frames becomes relatively small. This is because, as described above, the audio content rate of each frame is averaged as the calculation frame length increases. That is, when the calculation frame length is long, the small fluctuation difference is absorbed by the averaging, and the fluctuation of the voice content rate is reflected globally. In addition, the variance and standard deviation of the frame lengths for calculation also have different values due to the difference in the fluctuation of the voice content rate.
次に音声含有率の平均値および標準偏差について説明する。音声含有率の平均値は、音声含有率Ris_n(k)を番組全体において平均した値である。上述した図2でいえば、Ris_1(1)からRis_1(30)の音声含有率を平均した値である。つまり、算出用フレーム長n(nは正数)で表現すれば、音声含有率の平均値は、Ris_n(1)からRis_n(N)までの音声含有率の平均である。また、標準偏差は、音声含有率Ris_n(k)と音声含有率の平均値とを用いて算出される値である。ここで、上記図2〜図4に示した音声含有率Ris_n(k)の値をもとに、各算出用フレーム長について、それぞれ音声含有率の平均値と標準偏差とを求めると図5に示すような値となる。図5は、各算出用フレーム長の音声含有率の平均値および標準偏差の算出結果を示す図である。図5において、算出用フレーム長が1分である音声含有率の平均値A1は0.506と、算出用フレーム長が5分である音声含有率の平均値A5は0.498と、算出用フレーム長が10分である音声含有率の平均値A10は0.488となる。また、図5において、平均値A1に対する標準偏差S1は0.161と、平均値A5に対する標準偏差S5は0.073と、平均値A10に対する標準偏差S10は0.028となる。 Next, the average value and standard deviation of the voice content will be described. The average value of the audio content rate is a value obtained by averaging the audio content rate Ris_n (k) in the entire program. In FIG. 2 described above, it is a value obtained by averaging the voice content ratios of Ris_1 (1) to Ris_1 (30). In other words, when expressed by the calculation frame length n (n is a positive number), the average value of the voice content rate is the average of the voice content rates from Ris_n (1) to Ris_n (N). The standard deviation is a value calculated using the voice content rate Ris_n (k) and the average value of the voice content rate. Here, based on the value of the voice content ratio Ris_n (k) shown in FIG. 2 to FIG. 4, the average value and the standard deviation of the voice content ratio are obtained for each calculation frame length. It becomes a value as shown. FIG. 5 is a diagram showing the calculation results of the average value and standard deviation of the audio content rate of each calculation frame length. In FIG. 5, the average value A1 of the voice content rate when the calculation frame length is 1 minute is 0.506, and the average value A5 of the voice content rate when the calculation frame length is 5 minutes is 0.498. The average value A10 of the voice content rate when the frame length is 10 minutes is 0.488. In FIG. 5, the standard deviation S1 with respect to the average value A1 is 0.161, the standard deviation S5 with respect to the average value A5 is 0.073, and the standard deviation S10 with respect to the average value A10 is 0.028.
このように、図5に示すように、標準偏差においては、算出用フレーム長が短い場合には、変動差が大きく(ばらつきが大きく)なるために標準偏差の値が大きくなる。算出用フレーム長が長い場合には、変動差が小さく(ばらつきが小さく)なるために標準偏差の値が小さくなる。つまり、標準偏差は、算出用フレーム長の長さによって大きな影響を受ける値であり、一般的には番組全体における音声区間の存在の偏りを示す値と考えることができる。 Thus, as shown in FIG. 5, in the standard deviation, when the calculation frame length is short, the fluctuation difference is large (the variation is large), and thus the standard deviation value is large. When the calculation frame length is long, the fluctuation difference is small (variation is small), and thus the standard deviation value is small. That is, the standard deviation is a value that is greatly affected by the length of the calculation frame length, and can generally be considered as a value that indicates a bias in the presence of an audio section in the entire program.
次に、入力される音声信号を速度変換して再生する段階において、速度比算出部14は、音声情報記録部13に記録された音声情報(音声含有率、音声含有率の平均値、および標準偏差)を用いて、音声区間の存在の偏りに応じた音声区間の速度比をフレーム毎に算出する。そして、速度比算出部14は、上記音声区間の速度比とユーザなどが入力する所望再生時間とに基づいて、非音声区間の速度比を算出する。そして、速度比算出部14は、音声/非音声判別部11において判別された判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。なお、ここでは算出された各フレームの音声区間の速度比は、当該フレーム内に存在する音声区間に一律に適用されるとする。また、非音声区間の速度比は、後述するように例えば一定の速度比でフレーム内の非音声区間に適用されるとする。
Next, in the stage of converting the speed of the input audio signal and reproducing it, the speed
ここで、速度比の算出方法を説明する前に、音声区間の速度比の最適性について説明する。記録時間より短い時間で音声信号を聴取するために、記録時間に対する再生時間長の設定値である目標再生時間比Rt(0<Rt<1)が与えられたとする。例えばユーザが記録時間に対して半分の再生時間で聴取しようとすると、目標再生時間比RtはRt=0.5となる。このような目標再生時間比Rtは、数式(2)で表現される。数式(2)において、音声含有率の平均値をA0と、音声含有率が一定であるときの音声区間の速度比をSRs0と、および音声含有率が一定であるときの非音声区間の速度比をSRns0とする。
数式(2)に示す音声区間の速度比SRs0は、一般的に通常速(等倍速)である1.0に近い値ほど聴き取りやすい。音声区間の速度比SRs0の値が大きくなるほど、単位時間当たりの情報量が増大するので、ユーザにとって聴取が難しくなる。また、音声区間の速度比SRs0の値が2.0程度になると、ユーザが聴き取りに集中しなければ内容を理解することが困難となる。このように、音声区間の速度比SRs0が大きい場合、長時間の聴取にかなりの困難さが生じてくる。したがって、音声区間の速度比SRs0は、目標再生時間比Rtにある程度左右されることなく、ユーザの聴取可能な範囲内で設定されるのが最適である。これに基づき、通常は音声区間の速度比SRs0が1〜1.8程度となる範囲を利用する。また、一定速度比であれば、実用上は音声区間の速度比SRs0を1.3〜1.5とすることが多い。 The voice section speed ratio SRs0 shown in Equation (2) is generally easier to hear as the value is closer to 1.0, which is generally normal speed (same speed). As the value of the speed ratio SRs0 of the voice interval increases, the amount of information per unit time increases, so that it becomes difficult for the user to listen. Further, when the value of the speed ratio SRs0 of the voice section is about 2.0, it is difficult to understand the contents unless the user concentrates on listening. Thus, when the speed ratio SRs0 of the voice section is large, considerable difficulty occurs in listening for a long time. Therefore, the speed ratio SRs0 of the voice section is optimally set within a range in which the user can listen without depending on the target reproduction time ratio Rt to some extent. Based on this, a range in which the speed ratio SRs0 of the speech section is normally about 1 to 1.8 is used. If the speed ratio is constant, the speed ratio SRs0 of the voice section is often set to 1.3 to 1.5 for practical use.
本実施形態においては、上記音声区間の速度比SRs0の最適な設定範囲を考慮しつつ、上述したように標準偏差が番組全体における音声区間の存在の偏りの度合いを示すと考え、音声含有率と音声含有率の平均値との差と、標準偏差とを用いて音声区間の速度比SRs0を可変する。すなわち、速度比SRs0を基準値として、音声区間が集中して音声含有率が上記音声含有率の平均値より高い部分に関しては当該基準値より音声区間の速度比を小さく設定し、逆に音声含有率が上記音声含有率の平均値より低い部分に関しては当該基準値より音声区間の速度比を大きく設定する。 In the present embodiment, considering the optimum setting range of the speed ratio SRs0 of the voice section, the standard deviation is considered to indicate the degree of bias of the existence of the voice section in the entire program as described above, and the voice content rate The speed ratio SRs0 of the voice section is varied using the difference from the average value of the voice content rate and the standard deviation. In other words, with the speed ratio SRs0 as a reference value, the speed ratio of the voice interval is set smaller than the reference value for a portion where the voice interval is concentrated and the voice content rate is higher than the average value of the voice content rate. For the portion where the rate is lower than the average value of the voice content rate, the speed ratio of the voice section is set larger than the reference value.
ここで、番組全体のフレーム数をNと、算出用フレーム長がn分のときの標準偏差をSnと、算出用フレーム長がn分のときの第kフレームにおける音声含有率をRis_n(k)と、第kフレームにおける音声区間の速度比をSRs(k)と、算出用フレーム長がn分のときの音声含有率の平均値をAnと、算出用フレーム長ごとに異なる重み係数をCnと、非音声区間の速度比をSRnsと、および音声含有率が一定と仮定したときの基準値の速度比をSRs0とする。なお、非音声区間の速度比SRnsは、ここではフレームの音声含有率に依存せず一定値とする。このとき、音声含有率の存在の偏りに応じた音声区間の速度比SRs(k)は、例えば数式(3)と表現される。
さらに、音声区間の速度比SRs(k)を音声含有率の大局的な変動および短期的な変動の双方が反映した値として算出する場合には、それぞれ時間長が異なる複数種類の算出用フレーム長の音声情報を用いて算出する。つまり、複数種類の算出用フレーム長の音声情報を多重に用いて音声区間の速度比を算出する。ここで、M種類の算出用フレーム長の音声情報を用いるとすると、第kフレームの音声区間の速度比SRs(k)は、数式(4)となる。
ここで、多重の音声情報として、算出用フレーム長が1分、5分、10分のときの各音声情報を用いたとき、音声区間の速度比SRs(k)は、数式(5)となる。
図6において、菱形のプロットで描かれたグラフは、音声情報を多重に用いて算出された音声区間の速度比を示す。また、丸のプロットで描かれたグラフは、算出用フレーム長が1分のときの音声情報のみを用いて算出された音声区間の速度比を示す。四角のプロットで描かれたグラフは、算出用フレーム長が5分のときの音声情報のみを用いて算出された音声区間の速度比を示す。三角のプロットで描かれたグラフは、算出用フレーム長が10分のときの音声情報のみを用いて算出された音声区間の速度比を示す。 In FIG. 6, a graph drawn with rhombus plots indicates a speed ratio of a voice section calculated by using voice information in a multiplexed manner. Further, the graph drawn with a circle plot shows the speed ratio of the voice section calculated using only the voice information when the calculation frame length is 1 minute. The graph drawn by the square plot shows the speed ratio of the voice section calculated using only the voice information when the calculation frame length is 5 minutes. The graph drawn by the triangular plot shows the speed ratio of the voice section calculated using only the voice information when the calculation frame length is 10 minutes.
図6に示すように、音声情報を多重に用いて算出された音声区間の速度比は、それぞれ単独の算出用フレーム長の音声情報のみを用いて算出された速度比と比べて、音声含有率の短期的な変動および長期的な変動の双方が反映された値であることが分かる。つまり、多重の音声情報を用いて算出された音声区間の速度比は、番組全体を通して音声区間の存在の偏りに応じた速度比であり、最適な速度比である。 As shown in FIG. 6, the speed ratio of the voice section calculated using the voice information in a multiplexed manner is higher than the speed ratio calculated using only the voice information of the single calculation frame length. It can be seen that this value reflects both short-term fluctuations and long-term fluctuations. That is, the speed ratio of the voice section calculated using the multiplexed voice information is a speed ratio according to the bias of the existence of the voice section throughout the program, and is the optimum speed ratio.
速度比算出部14は、上述した方法で音声区間の速度比SRsを算出後、入力される再生時間から設定される目標再生時間比Rtを達成するように非音声区間の速度比SRnsを算出する。なお、非音声区間の速度比SRnsは、上述したように例えば可変とせず一定の速度比とする。これは、有益な情報の大部分が音声区間に含まれていることに基づくものである。これにより、本実施形態に係る音声再生装置は、能率良い再生を実現できる。以下、非音声区間の速度比SRnsの算出方法について説明する。
The speed
目標再生時間比Rtは、数式(4)に基づいて算出されたフレーム毎の音声区間の速度比SRs(k)を用いて、数式(6)と表現される。なお、Ris(k)は、音声含有率を求める算出用フレーム長の最も短いものとする。上述の例で考えると、3種類の算出用フレーム長のうち最も短いのは、1分の算出用フレーム長である。
したがって、非音声区間の速度比SRnsは、数式(6)を整理して数式(7)となる。
音声速度変換部15は、速度比算出部14において算出された音声区間および非音声区間の速度比の情報に基づいて、入力される記録メディアなどに録音された音声信号に対して、速度変換処理を行う。速度変換処理の方法としては、例えば入力される音声信号を時間軸上にて圧縮伸長して速度変換を行う方法などがある。しかし、この方法に限定されず、その他の公知方法を用いて速度変換処理が行われてもよい。このように、本実施形態の音声速度変換部15において速度変換された音声信号は、音声/非音声判別部11の判別結果と音声含有率に応じて動的に可変する速度比で変換された音声信号である。
The voice
次に、図7を参照して、本実施形態に係る音声再生装置1の処理の流れについて説明する。図7は、本実施形態に係る音声再生装置1の処理の流れを示すフローチャートである。図7において、まず、ユーザが例えば記録メディアに記録された番組全体の記録時間に対して目標とする再生時間を設定する(ステップS1)。これにより、目標再生時間比Rt(0<Rt<1)が設定される。次に、記録メディアなどに録音された番組全体が読み出され、音声/非音声判別部11において、再生前に番組全体を通して音声区間および非音声区間を判別する(ステップS2)。そして、音声情報算出部12において、ステップS2で判別された音声/非音声区間の情報に基づいて、複数種類の算出用フレーム長について音声含有率がそれぞれ算出される(ステップS3)。次に、音声情報算出部12において、ステップS3で算出された各算出用フレーム長の音声含有率を用いて、音声含有率の平均値および標準偏差がそれぞれ算出される(ステップS4)。そして、ステップS3およびS4で算出された音声情報(音声含有率、音声含有率の平均値および標準偏差)が音声情報記録部13に記録される(ステップS5)。ここまでが再生前に行われる処理である。番組全体を通して音声情報が算出された後、速度変換をする再生が開始される。再生される段階で、速度比算出部14は、音声情報記録部13に記録された音声情報に基づいて、音声区間の存在の偏りに応じた音声区間の速度比をフレーム毎に算出する(ステップS6)。次に、速度比算出部14において、ステップS6で算出された音声区間の速度比と、ステップS1で設定された目標再生時間比Rtとに基づいて、非音声区間の速度比が算出される(ステップS7)。そして、音声/非音声判別部11において判別された音声/非音声区間の判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。ステップS7の次に、ステップS6およびS7で算出された音声区間および非音声区間の速度比の情報に基づいて、入力される記録メディアなどに録音された音声信号に対して、速度変換処理を行う(ステップS8)。以上で本実施形態に係る音声再生装置1の処理の流れについての説明を終了する。
Next, with reference to FIG. 7, the process flow of the
以上のように、本実施形態に係る音声再生装置によれば、音声含有率を音声信号全体に対して算出後、統計値として音声含有率の平均値と標準偏差とを算出して番組中の音声区間の存在の偏り度合いを予め求め、これらの音声情報を用いて音声区間の速度比を算出することで、音声含有率の変動に応じて動的に可変する音声区間の速度比を算出することができる。つまり、本実施形態に係る音声再生装置は、音声が集中する部分には速度比を低減し、音声が集中していない部分には速度比を増加させる処理を行う。これにより、本実施形態に係る音声再生装置によれば、テレビ番組や映画など全体を通して音声の了解性を保つことができる。また、非音声区間の速度比は、所定の再生時間となるように音声区間の速度比に基づいて一定速度比として算出される。これにより、能率のよい再生速度での再生が可能となる。また、各算出用フレーム長の音声情報を多重して平均値などの統計値を求めることで、音声含有率の長期的な変動や短期的な変動に対して、追従性の高い、より滑らかな速度比の制御を実現することが可能となる。 As described above, according to the audio reproduction device according to the present embodiment, after calculating the audio content rate for the entire audio signal, the average value and the standard deviation of the audio content rate are calculated as statistical values and By calculating in advance the degree of bias of the presence of the voice section and calculating the speed ratio of the voice section using these voice information, the speed ratio of the voice section that varies dynamically according to the fluctuation of the voice content rate is calculated. be able to. That is, the audio reproduction device according to the present embodiment performs a process of reducing the speed ratio in a portion where the sound is concentrated and increasing the speed ratio in a portion where the sound is not concentrated. Thereby, according to the audio reproducing device according to the present embodiment, it is possible to maintain the intelligibility of the audio throughout the television program and the movie. Further, the speed ratio of the non-voice section is calculated as a constant speed ratio based on the speed ratio of the voice section so that a predetermined reproduction time is obtained. As a result, reproduction at an efficient reproduction speed becomes possible. Also, by calculating the statistical value such as the average value by multiplexing the audio information of each calculation frame length, it is more smooth and smoother for long-term fluctuations and short-term fluctuations in the voice content rate. Control of the speed ratio can be realized.
なお、上述した速度比算出部14では、各算出用フレーム長の音声情報を多重して音声区間の速度比SRs(k)を算出したが、これに限定されない。例えば、音声区間の速度比SRs(k)が単独の算出用フレーム長のみ用いて算出されたものでもよい。時間長が長い算出用フレーム長を用いて算出した場合には、算出された音声区間の速度比は、変化する音声含有率に対して大局的な値であり、より正確性のある値となる。時間長が短い算出用フレーム長を用いて算出した場合には、算出された音声区間の速度比は、変動する音声含有率に対してより追従性のよい値となる。
Note that the speed
また、上述した速度比算出部14では、音声区間の速度比を算出するための音声情報として、音声含有率Ris_n(k)、音声含有率の平均値An、標準偏差Snを用いるとしたが、これに限定されない。例えば、上記標準偏差の代わりに、分散や偏差平均など、標準偏差と同等の統計値が用いられてもよい。つまり、音声区間の速度比を算出するための音声情報としては、音声含有率Ris_n(k)以外に、音声含有率の平均値Anおよび標準偏差と同等の統計値が含まれる。
In the speed
また、上述した速度比算出部14では、音声区間の速度比をフレーム毎に算出するとしたが、フレーム内の音声区間1つ1つに対して、さらに文頭、文中、文末などの区分に分け、各区分で速度比を可変してもよい。例えば、ある音声区間の文頭では、速度比算出部14で算出された音声区間の速度比に対してやや速度比を小さくする。そして、文末になるにつれて速度比が大きくなるように設定する。これにより、重要な情報を多く含む文頭部分がユーザにとってより聴き取りやすいものとなる。このように、速度比算出部14は、1つの音声区間中の各区分について速度比を可変するものであってもよい。
Further, in the speed
なお、上述した第1の実施形態で説明した音声/非音声判別部11、音声情報算出部12、速度比算出部14、および音声速度変換部15は、例えば音声信号を入力とし、音声速度変換部15で速度変換された音声信号を出力とする一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した動作をコンピュータに実行させるプログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納されたプログラムをコンピュータが読み出して実行することによって、本発明の実現が可能となる。この場合、上記情報処理装置に接続されたキーボードなどの入力部を用いて、ユーザが所望する再生時間を入力する。また、音声情報算出部12で算出される音声情報は、例えば情報処理装置内のハードディスクなどに記録される。また、上記プログラムを格納する情報記録媒体は、例えば、ROMまたはフラッシュメモリのような不揮発性半導体メモリやCD−ROM、DVD、あるいはそれらに類する光学式ディスク状記録媒体である。また、プログラムを他の媒体や通信回線を通じて上記情報処理装置に供給してもかまわない。また、音声情報算出部12で算出される音声情報は情報処理装置内のハードディスクに記録されるとしたが、情報処理装置内のメモリや情報処理装置外の他の記録媒体に記録されてもよい。
Note that the voice /
(第2の実施形態)
図8を参照して、本発明における第2の実施形態に係る音声再生装置について説明する。図8は、本発明における第2の実施形態に係る音声再生装置2の構成を示すブロック図である。図8において、音声再生装置2は、入力バッファ21、音声/非音声判別部11、音声情報逐次更新部22、速度比算出部14、および音声速度変換部15を有する。
(Second Embodiment)
With reference to FIG. 8, an audio reproducing apparatus according to the second embodiment of the present invention will be described. FIG. 8 is a block diagram showing the configuration of the
なお、本実施形態に係る音声再生装置2は、例えばテレビ番組や映画などの音声信号全体が既に記録メディアなどに録音済みであり、録音された音声信号全体のうち一部(所定時間分)の音声信号を一時的に保存しながら逐次的に音声情報を算出して、音声信号の入力に応じて即座に速度変換した再生を行うことを想定した装置である。そのため、本実施形態に係る音声再生装置2は、上述した第1の実施形態に係る音声再生装置1に対して、入力バッファ21を新たに有し、音声情報逐次更新部2において音声情報を逐次更新する点で大きく異なる。以下、異なる点を中心に説明する。また、音声/非音声判別部11、速度比算出部14、および音声速度変換部15は、上述した第1の実施形態と同様であるので、同一の符号を付して、詳細な説明を省略する。
Note that the
記録メディアなどに録音された音声信号が入力バッファ21に入力される。入力バッファ21は、入力された音声信号を適宜バッファする。つまり、入力バッファ21では、音声情報逐次更新部22で音声情報を逐次更新するために必要な所定時間分の音声信号のデータが一時的に記録される。一時的に保存された所定時間分の音声信号は、音声/非音声判別部11および音声速度変換部15にそれぞれ出力される。音声/非音声判別部11は、入力された所定時間分の音声信号に対して音声区間および非音声区間を判別する。音声/非音声判別部11において判別された音声/非音声区間の情報は、音声情報逐次更新部22および速度比算出部14にそれぞれ出力される。
An audio signal recorded on a recording medium or the like is input to the
音声情報逐次更新部22は、音声/非音声区間の判別情報に基づいて音声情報を逐次更新する。なお、第1の実施形態では数式(3)および数式(4)において、音声含有率Ris_n(k)を音声信号全体について一旦算出した後に、統計値である音声含有率の平均値Anおよび標準偏差Snを算出していた。これに対し、本実施形態では、音声信号の入力に応じて即座に速度変換した再生を行うために、統計値である上記音声含有率の平均値Anおよび標準偏差Snの初期値を予め記録部(図示しない)などにそれぞれ記録設定して、当該統計値を記録部などに逐次記録しながら更新していく。以下、音声情報である音声含有率の平均値および標準偏差の更新方法について説明する。
The voice information
音声含有率の平均値Anは、更新に際して初期値が設定される。そして、音声含有率の平均値Anは、音声信号が入力される毎に初期値を元に逐次更新される。上記初期値は、例えば再生する番組のジャンルなどによって異なり、当該ジャンルに合わせて適宜設定される。例えば、頻繁にアナウンサが話す機会の多いテレビのニュース番組などの場合は、音声含有率の平均値が85%程度となる。また、話者の話す機会が少ない様々な映像シーンを多用するドキュメンタリ番組などの場合は、音声含有率の平均値が50%程度になる。 The average value An of the voice content rate is set to an initial value when updated. The average value An of the voice content rate is sequentially updated based on the initial value every time a voice signal is input. The initial value varies depending on, for example, the genre of the program to be played back, and is appropriately set according to the genre. For example, in the case of a television news program where the announcer frequently speaks, the average value of the audio content is about 85%. In addition, in the case of a documentary program that frequently uses various video scenes where there are few opportunities for speakers to speak, the average value of the audio content rate is about 50%.
ここで、入力バッファに記録される音声信号の所定時間分を例えば上述した算出用フレーム長(n分)とする。そして、入力バッファは、算出用フレーム長(n分)分の音声信号を確保しながら、例えば1フレーム分の音声信号を順次記録更新していくとする。また、音声情報逐次更新部22は、例えば音声/非音声判別部11で1フレーム分の音声/非音声区間が判別される毎に、音声情報の平均値Anの逐次更新を行うとする。この場合、音声含有率の平均値Anはフレーム毎に更新され、kフレーム目の逐次更新される音声含有率の平均値の更新値(以下、音声含有率の更新平均値とする)をAn(k)とする。このとき、音声含有率の更新平均値An(k)は、数式(8)で表現される。
また、標準偏差Snも上記音声含有率の平均値と同様に、更新に際して初期値が設定される。そして、標準偏差Snは、フレーム毎に初期値を元に逐次更新される。上記初期値は、音声含有率の平均値Anと同様に、例えば再生する番組のジャンルなどによって異なり、当該ジャンルに合わせて適宜設定される。具体的には標準偏差Snは、上記初期値と、更新平均値An(k)と、kフレームの音声含有率Ris_n(k)とを用いて更新される。ここで、kフレーム目の標準偏差の更新値をSn(k)とすると、標準偏差の更新値Sn(k)は、数式(9)で表現される。
次に、速度比算出部14は、音声含有率Ris_n(k)と、フレーム毎に更新された音声含有率の更新平均値An(k)および標準偏差の更新値Sn(k)とに基づいて、上述した第1の実施形態と同様に、数式(3)〜数式(5)に基づいて音声区間の速度比SRs(k)を算出する。また、速度比算出部14は、算出した音声区間の速度比SRs(k)と目標再生時間比Rtとに基づいて非音声区間の速度比SRnsを算出する。そして、速度比算出部14は、音声/非音声判別部11から入力される音声/非音声区間の判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。音声速度変換部15は、速度比算出部14において算出された音声区間および非音声区間の速度比の情報に基づいて、入力バッファ21から入力される音声信号に対してフレーム毎に逐次速度変換処理を行う。
Next, the speed
以上のように、本実施形態に係る音声再生装置2は、統計値である音声含有率の平均値および標準偏差を逐次更新する。これにより、本実施形態に係る音声再生装置2は、音声情報を番組全体に対して事前に算出することなく、音声信号の入力に応じて即時に速度変換処理を行うことができる。
As described above, the
なお、上述した第2の実施形態で説明した音声再生装置2は、音声/非音声判別部11、音声情報逐次更新部22、速度比算出部14、および音声速度変換部15は、例えば音声信号を入力とし、音声速度変換部15で速度変換された音声信号を出力とする一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した動作をコンピュータに実行させるプログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納されたプログラムをコンピュータが読み出して実行することによって、本発明の実現が可能となる。また、上記情報処理装置に接続されるキーボードなどの入力部において、ユーザが所望する再生時間や上述した初期値を入力する。また、入力バッファ21は、例えば情報処理装置内のハードディスク内で構成される。また、上記プログラムを格納する情報記録媒体は、例えば、ROMまたはフラッシュメモリのような不揮発性半導体メモリやCD−ROM、DVD、あるいはそれらに類する光学式ディスク状記録媒体である。また、プログラムを他の媒体や通信回線を通じて上記情報処理装置に供給してもかまわない。また、入力バッファ21を例えば情報処理装置内のハードディスク内で構成されるとしたが、情報処理装置内のメモリや情報処理装置外の他の記録媒体で構成されてもよい。
Note that the
(第3の実施形態)
図9を参照して、本発明における第3の実施形態に係る音声録音再生装置について説明する。図9は、本発明における第3の実施形態に係る音声録音再生装置3の構成を示すブロック図である。図9において、音声録音再生装置3は、音声/非音声判別部11、情報記録部31、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15を有する。
(Third embodiment)
With reference to FIG. 9, a voice recording / reproducing apparatus according to a third embodiment of the present invention will be described. FIG. 9 is a block diagram showing a configuration of a voice recording / reproducing
なお、本実施形態に係る音声録音再生装置3は、情報記録部31に音声を記録して再生する音声録音再生装置であって、入力される音声信号を情報記録部31に記録すると同時に、音声/非音声判別部11で判別された音声区間や非音声区間の情報も情報記録部31に記録することを特徴とする装置である。以下、この特徴を中心に説明する。また、音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15は、上述した第1の実施形態と同様であるので、同一の符号を付して、詳細な説明を省略する。
The audio recording / reproducing
録音対象となる音声信号が音声/非音声判別部11および情報記録部31にそれぞれ入力される。音声/非音声判別部11は、入力された音声信号に対して音声区間および非音声区間を判別する。音声/非音声判別部11において判別された音声/非音声区間の判別情報は、情報記録部31に出力される。情報記録部31において、入力された録音対象である音声信号と音声/非音声区間の判別情報とがそれぞれ記録される。
An audio signal to be recorded is input to the audio /
音声情報算出部12は、情報記録部31に記録された音声信号全体についての音声/非音声区間の情報を読み出して、音声情報を算出する。具体的には、音声情報算出部12は、記録された音声信号全体を通して音声含有率を算出した後に、音声含有率の平均値および標準偏差を算出する。そして、音声情報算出部12で算出された音声含有率、音声含有率の平均値、および標準偏差は、音声情報記録部13にそれぞれ記録される。
The voice
そして、再生される段階において、速度比算出部14は、音声情報記録部13に記録された音声情報を用いて、音声含有率の変動に応じた音声区間の速度比をフレーム毎に算出する。また、速度比算出部14は、音声区間の速度比と目標再生時間比Rtとに基づいて非音声区間の速度比を算出する。そして、記録された音声/非音声区間の判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。音声速度変換部15は、速度比算出部14において算出された音声区間および非音声区間の速度比の情報に基づいて、情報記録部31に記録された音声信号に対して速度変換処理を行う。
Then, at the stage of reproduction, the speed
以上のように、本実施形態に係る音声録音再生装置3は、入力される音声信号を情報記録部31に記録するとともに、音声/非音声判別部11で判別された音声区間や非音声区間の情報も情報記録部31に記録している。これにより、本実施形態に係る音声録音再生装置3によれば、音声信号全体を記録した段階で音声信号全体についての音声区間や非音声区間の判別が終了しているため、再生前に行われる音声情報の算出時間を短縮することができる。
As described above, the audio recording / reproducing
なお、上述した情報記録部31において、音声/非音声判別部11で判別された音声区間や非音声区間の判定情報に加え、さらに音声情報算出部12で算出された音声情報が記録されてもよい。この場合、図10に示すように、音声情報記録部13は省略される。図10は、情報記録部31に音声区間や非音声区間の情報と音声情報とを記録する音声録音再生装置4の構成を示すブロック図である。図10において、音声録音再生装置4は、音声/非音声判別部11、情報記録部31、音声情報算出部12、速度比算出部14、および音声速度変換部15を有する。
In the
図10において、情報記録部31では、入力された録音対象である音声信号と、音声/非音声判別部11において判別された音声/非音声区間の情報と、音声情報算出部12で算出された音声情報とがそれぞれ記録される。つまり、音声録音再生装置4は、記録とともに音声/非音声区間の判別情報および音声情報が情報記録部31に記録される。これにより、音声録音再生装置4によれば、記録後において再生時間が入力されれば、即時に速度比を算出することができる。その結果、音声録音再生装置4は、速度変換した再生音声を短時間で出力することができる。
In FIG. 10, in the
なお、上述した第3の実施形態で説明した音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15は、例えば音声信号を入力とし、音声速度変換部15で速度変換された音声信号を出力とする一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した動作をコンピュータに実行させるプログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納されたプログラムをコンピュータが読み出して実行することによって、本発明の実現が可能となる。また、上記情報処理装置に接続されるキーボードなどの入力部において、ユーザが所望する再生時間が入力される。また、情報記録部31および音声情報記録部13は、例えば情報処理装置内のハードディスク内で構成される。また、上記プログラムを格納する情報記録媒体は、例えば、ROMまたはフラッシュメモリのような不揮発性半導体メモリやCD−ROM、DVD、あるいはそれらに類する光学式ディスク状記録媒体である。また、プログラムを他の媒体や通信回線を通じて上記情報処理装置に供給してもかまわない。また、情報記録部31および音声情報記録部13を例えば情報処理装置内のハードディスク内で構成されるとしたが、情報処理装置内のメモリや情報処理装置外の他の記録媒体で構成されてもよい。
The voice /
また、上述した第1〜第3の実施形態で説明した音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、音声情報逐次更新部22および音声速度変換部15は、例えば音声信号、再生時間情報、および上述した初期値などを入力とし、音声速度変換部15で速度変換された音声信号を出力とする集積回路でも実現可能である。この場合、第1の実施形態における音声情報記録部13、第2の実施形態における入力バッファ21、第3の実施形態における音声情報記録部13および情報記録部31は、例えば集積回路内のメモリで構成される。そして、上述した機能を果たす電気回路を1つの小型パッケージに集積して、音声信号の処理等を行う音声信号処理回路DSP(Digital Signal Processor)等を構成することによって、本発明の実現が可能となる。なお、第1の実施形態における音声情報記録部13、第2の実施形態における入力バッファ21、第3の実施形態における音声情報記録部13および情報記録部31は、上記集積回路とは別の他の記録媒体で構成されてもよい。
Further, the voice /
本発明に係る音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、および集積回路は、音声含有率の変動に応じた最適な速度比制御を行って、より聴き取りやすい再生を実現するDVDプレーヤ、HDDプレーヤ、CDプレーヤ等にも有用である。 The audio reproducing device, audio recording / reproducing device, and method, recording medium, and integrated circuit according to the present invention perform optimum speed ratio control in accordance with fluctuations in the audio content, thereby realizing reproduction that is easier to listen to. It is also useful for DVD players, HDD players, CD players and the like.
1、2 音声再生装置
3、4 音声録音再生装置
11 音声/非音声判別部
12 音声情報算出部
13 音声情報記録部
14 速度比算出部
15 音声速度変換部
21 入力バッファ
22 音声情報逐次更新部
31 情報記録部
1, 2
Claims (17)
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える、音声再生装置。 An audio reproduction device that reproduces the audio signal by converting the reproduction speed set to the input audio signal to the same speed and reducing the reproduction time,
A discriminator for discriminating a voice section including voice and a non-voice section not containing voice with respect to the voice signal;
A voice information calculation unit that calculates at least a voice content rate indicating a ratio of the voice section to a predetermined time length as voice information related to the voice section and the non-voice section;
When the ratio of the speed conversion from the same playback speed is a speed ratio of 1 or more as a reference value, the speed ratio of the audio section in the predetermined time length is determined when the audio content rate of the predetermined time length is relatively high. A voice ratio comprising a speed ratio calculation unit that is set to be smaller than a reference value and sets a speed ratio of the voice section in the predetermined time length to be larger than the reference value when the voice content rate of the predetermined time length is relatively low. Playback device.
前記速度比算出部は、前記所定時間長に対して算出された速度比を当該所定時間長に含まれる何れか1つの単位時間長における前記音声区間の速度比に設定することを特徴とする、請求項1に記載の音声再生装置。 The predetermined time length includes one or more unit time lengths,
The speed ratio calculation unit sets the speed ratio calculated for the predetermined time length to the speed ratio of the voice section in any one unit time length included in the predetermined time length, The sound reproducing device according to claim 1.
前記入力される音声信号のうち、少なくとも前記所定時間長分の音声信号を含むように当該音声信号を順次更新しながら記録するバッファと、
前記バッファに記録された音声信号に対して速度変換処理を行って出力する速度変換部とを、さらに備え、
前記判別部は、前記バッファに記録された前記所定時間長の音声信号に対して前記音声区間と前記非音声区間とを判別し、
前記音声情報算出部は、さらに、前記音声情報として音声含有率に関する統計値を算出して、予め記憶されている統計値を単位時間毎に順次更新し、
前記速度比算出部は、前記単位時間ごとに更新される前記統計値および当該更新時の前記所定時間長に設定された音声含有率に応じて前記音声区間の速度比を算出し、
前記速度変換部は、前記バッファで順次更新される音声信号に対して、前記単位時間ごとに算出された前記音声区間の速度比を用いて順次速度変換処理を行うことを特徴とする、請求項1に記載の音声再生装置。 The audio playback device
A buffer for recording the audio signal while sequentially updating the audio signal so as to include at least the audio signal for the predetermined time length of the input audio signal;
A speed conversion unit that performs a speed conversion process on the audio signal recorded in the buffer and outputs the audio signal;
The determination unit determines the voice interval and the non-voice interval for the audio signal having the predetermined time length recorded in the buffer,
The voice information calculation unit further calculates a statistical value related to a voice content rate as the voice information, and sequentially updates a statistical value stored in advance for each unit time,
The speed ratio calculation unit calculates the speed ratio of the voice section according to the statistical value updated every unit time and the voice content set in the predetermined time length at the time of the update,
The speed conversion unit sequentially performs a speed conversion process on a voice signal sequentially updated in the buffer using a speed ratio of the voice section calculated for each unit time. 2. The audio reproduction device according to 1.
前記速度比算出部は、前記統計値および前記音声含有率に応じて前記音声区間の速度比を算出することを特徴とする、請求項1に記載の音声再生装置。 The voice information calculation unit further calculates a statistical value related to a voice content rate as the voice information,
The audio reproduction device according to claim 1, wherein the speed ratio calculation unit calculates a speed ratio of the audio section according to the statistical value and the audio content rate.
前記速度比算出部は、前記所定時間長それぞれより少なくとも短い単位時間長において、当該単位時間長に含まれる前記音声区間の速度比を、当該単位時間長を共通して含むそれぞれの前記所定時間長の音声含有率に対応する前記係数の総和を前記速度比の基準値に乗じて算出することを特徴とする、請求項8に記載の音声再生装置。 The voice information calculation unit sets a plurality of the predetermined time lengths each having a different time length, and calculates the voice content rate respectively.
The speed ratio calculation unit is configured so that each unit time length includes the unit time length in common with the speed ratio of the voice section included in the unit time length in at least a unit time length shorter than each of the predetermined time lengths. 9. The sound reproducing apparatus according to claim 8, wherein the sum of the coefficients corresponding to the sound content ratio is multiplied by a reference value of the speed ratio.
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを含む、音声再生方法。 An audio reproduction method for reproducing the audio signal by converting the reproduction speed set to the input audio signal to the same speed and reducing the reproduction time,
A determination step of determining a speech section including speech and a non-speech section not including speech for the speech signal;
A voice information calculation step for calculating at least a voice content ratio indicating a ratio of the voice section to a predetermined time length as voice information related to the voice section and the non-voice section;
When the ratio of the speed conversion from the same playback speed is a speed ratio of 1 or more as a reference value, the speed ratio of the audio section in the predetermined time length is determined when the audio content rate of the predetermined time length is relatively high. A speed ratio calculating step that is set smaller than a reference value and sets a speed ratio of the voice section in the predetermined time length to be larger than the reference value when the voice content rate of the predetermined time length is relatively low. Playback method.
前記コンピュータに、
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを実行させるためのプログラムを記録した、コンピュータに読み取り可能な記録媒体。 A computer-readable recording medium recording a sound reproduction program executed by a computer that converts the reproduction speed set to the input audio signal to the same speed and shortens the reproduction time to reproduce the audio signal. There,
In the computer,
A determination step of determining a speech section including speech and a non-speech section not including speech for the speech signal;
A voice information calculation step for calculating at least a voice content ratio indicating a ratio of the voice section to a predetermined time length as voice information related to the voice section and the non-voice section;
When the ratio of the speed conversion from the same playback speed is a speed ratio of 1 or more as a reference value, the speed ratio of the audio section in the predetermined time length is determined when the audio content rate of the predetermined time length is relatively high. A speed ratio calculating step for setting the speed ratio of the voice section in the predetermined time length to be larger than the reference value when the voice content rate is set to be lower than the reference value and the voice content rate of the predetermined time length is relatively low A computer-readable recording medium on which the program is recorded.
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える、集積回路。 An integrated circuit that accelerates by converting the playback speed set to the input audio signal at the same magnification,
A discriminator for discriminating a voice section including voice and a non-voice section not containing voice with respect to the voice signal;
A voice information calculation unit that calculates at least a voice content rate indicating a ratio of the voice section to a predetermined time length as voice information related to the voice section and the non-voice section;
When the ratio of the speed conversion from the same playback speed is a speed ratio of 1 or more as a reference value, the speed ratio of the audio section in the predetermined time length is determined when the audio content rate of the predetermined time length is relatively high. A speed ratio calculation unit that is set smaller than a reference value and sets a speed ratio of the voice section in the predetermined time length to be larger than the reference value when the voice content rate of the predetermined time length is relatively low. circuit.
前記入力される音声信号を記録する情報記録部と、
前記情報記録部に記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える、音声録音再生装置。 An audio recording / playback apparatus that converts the playback speed set to the input audio signal to the same speed, shortens the playback time, and plays back the audio signal,
An information recording unit for recording the input audio signal;
A discriminating unit for discriminating a voice section including voice and a non-voice section not containing voice with respect to the voice signal before being recorded in the information recording unit;
A voice information calculation unit that calculates at least a voice content rate indicating a ratio of the voice section to a predetermined time length as voice information related to the voice section and the non-voice section;
When the ratio of the speed conversion from the same playback speed is a speed ratio of 1 or more as a reference value, the speed ratio of the audio section in the predetermined time length is determined when the audio content rate of the predetermined time length is relatively high. A voice ratio comprising a speed ratio calculation unit that is set to be smaller than a reference value and sets a speed ratio of the voice section in the predetermined time length to be larger than the reference value when the voice content rate of the predetermined time length is relatively low. Recording / playback device.
前記音声情報算出部は、前記情報記録部に記録された結果に基づいて、音声情報を算出することを特徴とする、請求項13に記載の音声録音再生装置。 The information recording unit records the result of the determination by the determination unit when the audio signal is recorded,
14. The audio recording / reproducing apparatus according to claim 13, wherein the audio information calculation unit calculates audio information based on a result recorded in the information recording unit.
前記速度比算出部は、前記情報記録部に記録された音声情報を用いて、前記音声区間の速度比を算出することを特徴とする、請求項13に記載の音声録音再生装置。 When the audio signal is recorded in the information recording unit, a result determined by the determination unit and the audio information are recorded,
The voice recording / reproducing apparatus according to claim 13, wherein the speed ratio calculation unit calculates a speed ratio of the voice section using voice information recorded in the information recording unit.
前記入力される音声信号を記録する情報記録ステップと、
前記情報記録ステップに記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間と判別する判別ステップと、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを含む、音声録音再生方法。 An audio recording / reproducing method for reproducing the audio signal by converting the reproduction speed set to the input audio signal to the same speed and reducing the reproduction time,
An information recording step for recording the input audio signal;
A determination step for determining a voice section including voice and a non-voice section not including voice with respect to the voice signal before being recorded in the information recording step;
A voice information calculation step for calculating at least a voice content ratio indicating a ratio of the voice section to a predetermined time length as voice information related to the voice section and the non-voice section;
When the ratio of the speed conversion from the same playback speed is a speed ratio of 1 or more as a reference value, the speed ratio of the audio section in the predetermined time length is determined when the audio content rate of the predetermined time length is relatively high. A speed ratio calculating step that is set smaller than a reference value and sets a speed ratio of the voice section in the predetermined time length to be larger than the reference value when the voice content rate of the predetermined time length is relatively low. Recording and playback method.
前記コンピュータに、
前記入力される音声信号を記録部に記録する情報記録ステップと、
前記記録部に記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間と判別する判別ステップと、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを実行させるためのプログラムを記録した、コンピュータに読み取り可能な記録媒体。 A recording medium that records a voice recording / playback program executed by a computer that converts the playback speed set to the input voice signal to the same speed and shortens the playback time to play back the voice signal,
In the computer,
An information recording step of recording the input audio signal in a recording unit;
A determination step of determining a speech section including speech and a non-speech section not including speech with respect to the speech signal before being recorded in the recording unit,
A voice information calculation step for calculating at least a voice content ratio indicating a ratio of the voice section to a predetermined time length as voice information related to the voice section and the non-voice section;
When the ratio of the speed conversion from the same playback speed is a speed ratio of 1 or more as a reference value, the speed ratio of the audio section in the predetermined time length is determined when the audio content rate of the predetermined time length is relatively high. A speed ratio calculating step for setting the speed ratio of the voice section in the predetermined time length to be larger than the reference value when the voice content rate is set to be lower than the reference value and the voice content rate of the predetermined time length is relatively low A computer-readable recording medium on which the program is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005204211A JP4580297B2 (en) | 2005-07-13 | 2005-07-13 | Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005204211A JP4580297B2 (en) | 2005-07-13 | 2005-07-13 | Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2007025039A true JP2007025039A (en) | 2007-02-01 |
JP2007025039A5 JP2007025039A5 (en) | 2008-08-07 |
JP4580297B2 JP4580297B2 (en) | 2010-11-10 |
Family
ID=37785924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005204211A Expired - Fee Related JP4580297B2 (en) | 2005-07-13 | 2005-07-13 | Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4580297B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003394A (en) * | 2007-06-25 | 2009-01-08 | Fujitsu Ltd | Device for reading out in voice, and program and method therefor |
JP2009008910A (en) * | 2007-06-28 | 2009-01-15 | Fujitsu Ltd | Device, program and method for voice reading |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04367898A (en) * | 1991-06-17 | 1992-12-21 | Matsushita Electric Ind Co Ltd | Method and device for voice reproduction |
JP2001222300A (en) * | 2000-02-08 | 2001-08-17 | Nippon Hoso Kyokai <Nhk> | Voice reproducing device and recording medium |
-
2005
- 2005-07-13 JP JP2005204211A patent/JP4580297B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04367898A (en) * | 1991-06-17 | 1992-12-21 | Matsushita Electric Ind Co Ltd | Method and device for voice reproduction |
JP2001222300A (en) * | 2000-02-08 | 2001-08-17 | Nippon Hoso Kyokai <Nhk> | Voice reproducing device and recording medium |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003394A (en) * | 2007-06-25 | 2009-01-08 | Fujitsu Ltd | Device for reading out in voice, and program and method therefor |
JP2009008910A (en) * | 2007-06-28 | 2009-01-15 | Fujitsu Ltd | Device, program and method for voice reading |
Also Published As
Publication number | Publication date |
---|---|
JP4580297B2 (en) | 2010-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2253749C (en) | Method and device for instantly changing the speed of speech | |
KR100739355B1 (en) | Speech processing method and apparatus | |
KR101334366B1 (en) | Method and apparatus for varying audio playback speed | |
US9336823B2 (en) | Playing audio in trick-modes | |
US6915261B2 (en) | Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs | |
JP5367932B2 (en) | System and method enabling audio speed conversion | |
CN101909191B (en) | Video processing apparatus and video processing method | |
JP4965371B2 (en) | Audio playback device | |
US6085157A (en) | Reproducing velocity converting apparatus with different speech velocity between voiced sound and unvoiced sound | |
JP4580297B2 (en) | Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit | |
JPS5982608A (en) | System for controlling reproducing speed of sound | |
JP3378672B2 (en) | Speech speed converter | |
US20070192089A1 (en) | Apparatus and method for reproducing audio data | |
JP2001255894A (en) | Device and method for converting reproducing speed | |
JP3373933B2 (en) | Speech speed converter | |
JP2009075280A (en) | Content playback device | |
JP3162945B2 (en) | Video tape recorder | |
JP3081469B2 (en) | Speech speed converter | |
JP2006317768A (en) | Speaking speed conversion apparatus and speaking speed conversion program for controlling the speaking speed conversion apparatus | |
JP3357742B2 (en) | Speech speed converter | |
JP2001222300A (en) | Voice reproducing device and recording medium | |
JP4313724B2 (en) | Audio reproduction speed adjustment method, audio reproduction speed adjustment program, and recording medium storing the same | |
JP2002297200A (en) | Speaking speed converting device | |
WO1997009713A1 (en) | A method of processing audio signal for fidelity varying-speed replaying | |
US7474931B2 (en) | Sound fast-forward method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100806 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100827 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |