JP2000250566A - Sound and soundless deciding device and speech rate converting device - Google Patents

Sound and soundless deciding device and speech rate converting device

Info

Publication number
JP2000250566A
JP2000250566A JP11047533A JP4753399A JP2000250566A JP 2000250566 A JP2000250566 A JP 2000250566A JP 11047533 A JP11047533 A JP 11047533A JP 4753399 A JP4753399 A JP 4753399A JP 2000250566 A JP2000250566 A JP 2000250566A
Authority
JP
Japan
Prior art keywords
sound
voice
speech
audio signal
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11047533A
Other languages
Japanese (ja)
Inventor
Tatsuo Inoue
健生 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP11047533A priority Critical patent/JP2000250566A/en
Publication of JP2000250566A publication Critical patent/JP2000250566A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a sound/soundless deciding device capable of improving sound/soundless decisive precision by using movement of an image. SOLUTION: This device is the sound/soundless deciding device provided with a means making a video signal and a voice signal synthesized with the video signal an input and calculating the sound/soundless deciding data from the input voice signal and a decision means deciding whether an input voice is a sound section or a soundless section by comparing the obtained sound/ soundless deciding data with a sound/soundless deciding threshold value. In such a case, this device is provided with a movement detection means 1 detecting the movement of the image based on an input video signal and a threshold value control means 2 changing the sound/soundless deciding threshold value based on the detection result of the movement detection means 1.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、有音・無音判定
装置および話速変換装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a sound / non-speech determining device and a speech speed converting device.

【0002】[0002]

【従来の技術】VTRの高速再生時において、ビデオテ
ープから読み取られた音声信号のうち、無音区間の音声
信号を削除または時間軸上において圧縮し、有音区間の
音声信号を時間軸上において伸長することにより、有音
区間の音声を再生速度より遅い速度で出力する話速変換
装置が知られている。
2. Description of the Related Art During high-speed reproduction of a VTR, of audio signals read from a video tape, an audio signal in a silent section is deleted or compressed on the time axis, and an audio signal in a sound section is expanded on the time axis. By doing so, a speech speed conversion device that outputs voice in a sound section at a speed lower than the playback speed is known.

【0003】ビデオテープから読み取られた音声信号が
無音区間であるか有音区間であるかの判別は、たとえ
ば、音声信号パワーを予め設定された閾値とを比較する
ことにより行われている。つまり、音声信号パワーが閾
値以上である区間を有音区間と判別し、音声信号パワー
が閾値より小さい区間を無音区間と判別している。
[0003] Whether an audio signal read from a video tape is a silent section or a sound section is determined, for example, by comparing the audio signal power with a preset threshold value. That is, a section in which the audio signal power is equal to or greater than the threshold is determined as a sound section, and an interval in which the audio signal power is smaller than the threshold is determined as a silent section.

【0004】しかしながら、この方法では、背景ノイズ
が大きい場合やBGMが存在する場合には、無音区間と
すべき区間が有音区間と判別されることがある。また、
声の小さなセリフがある部分において、無音区間と判別
されることがある。
However, in this method, when there is a large background noise or when BGM is present, a section which should be a silent section may be determined as a sound section. Also,
A portion having a small voice line may be determined to be a silent section.

【0005】[0005]

【発明が解決しようとする課題】ところで、ドラマ、ニ
ュース等の番組においては、出演者の声を出力すること
が重要となる。出演者が喋っている場面では、出演者の
口が動く。また、ゴルフ番組、テニス番組等において
は、スウイング音を出力することが重要となる。スウイ
ング音が発生している場面では、ゴルフクラブ、ラケッ
ト等が動いている。
In the case of programs such as dramas and news, it is important to output the voices of the performers. When the performer is talking, the performer's mouth moves. In a golf program, a tennis program, and the like, it is important to output a swing sound. In a scene where a swing sound is generated, a golf club, a racket, or the like is moving.

【0006】この発明は、画像の動きを利用することに
より、有音・無音判定精度を向上させることができる有
音・無音判定装置を提供することを目的とする。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a sound / silence determination device which can improve the sound / silence determination accuracy by utilizing the movement of an image.

【0007】また、この発明は、判定精度の高い有音・
無音区間判定手段を備えた話速変換装置を提供すること
を目的とする。
Further, the present invention provides a sound / voice having high determination accuracy.
An object of the present invention is to provide a speech speed conversion device provided with a silent section determination unit.

【0008】[0008]

【課題を解決するための手段】この発明による有音・無
音判定装置は、映像信号および映像信号に同期した音声
信号を入力とし、入力音声信号から有音・無音判定用デ
ータを算出する手段および得られた有音・無音判定用デ
ータを有音・無音判定用閾値と比較することにより、入
力音声が有音区間であるか無音区間であるかを判定する
判定手段を備えている有音・無音判定装置において、入
力映像信号に基づいて画像の動きを検出する動き検出手
段、および動き検出手段の検出結果に基づいて、有音・
無音判定用閾値を変化させる閾値制御手段を備えている
ことを特徴とする。
A sound / non-speech determining apparatus according to the present invention receives a video signal and an audio signal synchronized with the video signal, and calculates voice / non-speech determining data from the input audio signal. By comparing the obtained voice / non-speech determination data with a voice / non-speech determination threshold, the voice / non-speech determination unit determines whether the input voice is in a voice section or a non-voice section. In the silence determination device, a motion detection unit that detects a motion of an image based on an input video signal, and a sound / noise detection unit based on a detection result of the motion detection unit.
It is characterized by comprising a threshold control means for changing a silence determination threshold.

【0009】動き検出手段としては、たとえば、1画面
内に設定された複数の領域毎に動きベクトルを検出する
ものが用いられ、閾値制御手段としては、たとえば、動
きベクトルの最大値が所定値以上である場合に有音・無
音判定用閾値を小さくし、動きベクトルの最大値が所定
値より小さい場合には有音・無音判定用閾値を大きくさ
せるように、有音・無音判定用閾値を制御するものが用
いられる。
As the motion detecting means, for example, a means for detecting a motion vector for each of a plurality of regions set in one screen is used. As the threshold control means, for example, the maximum value of the motion vector is equal to or more than a predetermined value. The threshold value for voice / non-speech determination is controlled so that the threshold value for voice / non-speech determination is reduced when the value is, and the threshold value for voice / non-voice determination is increased when the maximum value of the motion vector is smaller than a predetermined value. Is used.

【0010】有音・無音判定用データとしては、たとえ
ば、所定期間単位毎の入力音声信号のパワー平均値、所
定期間単位毎の入力音声信号のパワー累積値、所定期間
単位毎の入力音声信号の振幅平均値、所定期間単位毎の
入力音声信号の振幅累積値等が用いられる。
The sound / non-speech determination data includes, for example, an average power value of the input audio signal for each predetermined period unit, a cumulative power value of the input audio signal for each predetermined period unit, and an input audio signal value for each predetermined period unit. The average amplitude value, the cumulative amplitude value of the input audio signal for each predetermined period unit, and the like are used.

【0011】この発明による話速変換装置は、映像信号
および映像信号に同期した音声信号を入力とし、入力音
声信号を話速変換する話速変換装置において、入力音声
信号が有音区間であるか無音区間であるかを判別する区
間判別手段、有音区間においては、入力音声信号を時間
軸上で伸長させる伸長手段、および無音区間において
は、入力音声信号を時間軸上で圧縮させるかまたは削除
する手段を備えており、区間判別手段は、入力音声信号
から有音・無音判定用データを算出する算出手段、得ら
れた有音・無音判定用データを有音・無音判定用閾値と
比較することにより、入力音声が有音区間であるか無音
区間であるかを判定する判定手段、入力映像信号に基づ
いて画像の動きを検出する動き検出手段、および動き検
出手段の検出結果に基づいて、有音・無音判定用閾値を
変化させる閾値制御手段を備えていることを特徴とす
る。
According to the speech speed conversion device of the present invention, in a speech speed conversion device which receives a video signal and an audio signal synchronized with the video signal as input, and converts the input audio signal into a speech speed, whether the input audio signal is a voiced section or not. Section discriminating means for discriminating whether a section is a silent section, expanding means for expanding an input audio signal on a time axis in a sound section, and compressing or deleting the input audio signal on a time axis in a silent section A section discriminating means for calculating speech / silence determination data from the input voice signal, and comparing the obtained speech / silence determination data with a speech / silence determination threshold. By this means, a determination means for determining whether the input sound is a sound section or a silent section, a motion detection means for detecting a motion of an image based on an input video signal, and a detection result of the motion detection means Zui it, characterized in that it comprises a threshold control means for changing a voice or silence determination threshold.

【0012】動き検出手段としては、たとえば、1画面
内に設定された複数の領域毎に動きベクトルを検出する
ものが用いられ、閾値制御手段としては、たとえば、動
きベクトルの最大値が所定値以上である場合に有音・無
音判定用閾値を小さくし、動きベクトルの最大値が所定
値より小さい場合には有音・無音判定用閾値を大きくさ
せるように、有音・無音判定用閾値を制御するものが用
いられる。
As the motion detecting means, for example, a means for detecting a motion vector for each of a plurality of areas set in one screen is used. As the threshold control means, for example, the maximum value of the motion vector is equal to or more than a predetermined value. The threshold value for voice / non-speech determination is controlled so that the threshold value for voice / non-speech determination is reduced when the value is, and the threshold value for voice / non-voice determination is increased when the maximum value of the motion vector is smaller than a predetermined value. Is used.

【0013】有音・無音判定用データとしては、たとえ
ば、所定期間単位毎の入力音声信号のパワー平均値、所
定期間単位毎の入力音声信号のパワー累積値、所定期間
単位毎の入力音声信号の振幅平均値、所定期間単位毎の
入力音声信号の振幅累積値等が用いられる。
The sound / non-speech determination data includes, for example, the average power of the input audio signal for each predetermined period unit, the cumulative power value of the input audio signal for each predetermined period unit, and the input audio signal for each predetermined period unit. The average amplitude value, the cumulative amplitude value of the input audio signal for each predetermined period unit, and the like are used.

【0014】[0014]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

【0015】以下、図面を参照して、この発明の実施の
形態について説明する。
An embodiment of the present invention will be described below with reference to the drawings.

【0016】図1は、話速変換装置の構成を示してい
る。
FIG. 1 shows a configuration of a speech speed conversion device.

【0017】ここでは、VTRの2倍速再生時におい
て、音声区間の音声信号を2倍速再生時の再生出力より
も遅い速度で出力させ、無音区間の音声信号を削除する
場合について説明する。
Here, a case will be described in which the audio signal in the audio section is output at a speed lower than the reproduction output in the double-speed reproduction during the double-speed reproduction of the VTR, and the audio signal in the silent section is deleted.

【0018】VTRから2倍速再生速度で読み出された
映像信号は、動きベクトル検出部1に送られる。動きベ
クトル検出部1は、よく知られているように、代表点マ
ッチング法に基づいて、動きベクトルを検出するための
データを生成するものである。
A video signal read from the VTR at a double speed reproduction speed is sent to a motion vector detecting section 1. As is well known, the motion vector detecting section 1 generates data for detecting a motion vector based on a representative point matching method.

【0019】代表点マッチング法について、簡単に説明
する。図2に示すように、各フレームの映像エリア10
0内に複数の動きベクトル検出領域A0〜E7が設定さ
れている。各動きベクトル検出領域A0〜E7の大きさ
は同じである。また、各動きベクトル検出領域A0〜E
7は、図3に示すように、さらに複数の小領域eに分割
されている。そして、図4に示すように、各小領域eそ
れぞれに、複数のサンプリング点Sと1つの代表点Rと
が設定されている。
The representative point matching method will be briefly described. As shown in FIG. 2, the video area 10 of each frame
A plurality of motion vector detection areas A0 to E7 are set in 0. The sizes of the motion vector detection areas A0 to E7 are the same. Also, each motion vector detection area A0-E
7 is further divided into a plurality of small areas e as shown in FIG. Then, as shown in FIG. 4, a plurality of sampling points S and one representative point R are set in each small area e.

【0020】現フレームにおける各小領域e内のサンプ
リング点Sの映像信号レベルと、前フレームにおける対
応する小領域eの代表点Rの映像信号レベルとの差(各
サンプリング点における相関値)が、各動きベクトル検
出領域A0〜E7ごとに求められる。そして、各動きベ
クトル検出領域A0〜E7ごとに、動きベクトル検出領
域内の全ての小領域間において、代表点Rに対する偏位
が同じサンプリング点どうしの相関値が累積加算され
る。したがって、各動きベクトル検出領域A0〜E7ご
とに、1つの小領域e内のサンプリング点の数に応じた
数の相関累積値が求められる。
The difference (correlation value at each sampling point) between the video signal level of the sampling point S in each small area e in the current frame and the video signal level of the representative point R of the corresponding small area e in the previous frame is It is obtained for each of the motion vector detection areas A0 to E7. Then, for each of the motion vector detection areas A0 to E7, correlation values of sampling points having the same deviation with respect to the representative point R are cumulatively added among all the small areas in the motion vector detection area. Therefore, for each of the motion vector detection areas A0 to E7, the number of correlation accumulated values corresponding to the number of sampling points in one small area e is obtained.

【0021】各動きベクトル検出領域A0〜E7内にお
いて、相関累積値が最小となる点の偏位、すなわち相関
性が最も高い点の偏位が、当該動きベクトル検出領域A
0〜E7の動きベクトル(被写体の動き)として抽出さ
れる。
In each of the motion vector detection areas A0 to E7, the deviation of the point having the smallest accumulated correlation value, that is, the deviation of the point having the highest correlation is determined by the motion vector detection area A0 to E7.
The motion vectors are extracted as motion vectors 0 to E7 (movements of the subject).

【0022】動きベクトル検出部1によって生成された
データは、有音・無音判定用閾値を決定するための有音
・無音判定用閾値制御部2に送られる。有音・無音判定
用閾値制御部2には、動き判定用閾値設定部7によって
設定された動き判定用閾値も入力されている。動き判定
用閾値設定部7には、番組モードに対応した動き判定用
閾値が記憶されており、ユーザによって入力された番組
モードに対応する動き判定用閾値が有音・無音判定用閾
値制御部2に送られる。
The data generated by the motion vector detecting section 1 is sent to a voice / silence determination threshold control section 2 for determining a voice / silence determination threshold. The threshold for motion determination set by the threshold setting unit for motion determination 7 is also input to the threshold control unit 2 for sound / non-speech determination. The motion determination threshold setting unit 7 stores a motion determination threshold corresponding to the program mode, and sets the motion determination threshold corresponding to the program mode input by the user to the sound / non-sound determination threshold control unit 2. Sent to

【0023】表1は、番組モード毎の動き判定用閾値の
相対値の例を示している。
Table 1 shows an example of the relative value of the motion determination threshold for each program mode.

【0024】[0024]

【表1】 [Table 1]

【0025】たとえば、ニュース番組に対する動き判定
用閾値の相対値と、スポーツ番組(ゴルフ番組)に対す
る動き判定用閾値の相対値を比較すると、スポーツに対
する動き判定用閾値の相対値が大きく設定されている。
ニュース番組の場合にはキャスターの口の動きの有無が
有音・無音判定に重要な要素となり、ゴルフ番組の場合
にはゴルフクラブの動きの有無が有音・無音判定に重要
な要素となる。口の動きに対する動きベクトルは小さ
く、ゴルフクラブの動きに対する動きベクトルは大き
い。そこで、ニュース番組の場合にはキャスターの口の
動きの有無を判定できるようにするための動き判定用閾
値が小さい値に設定され、ゴルフ番組の場合には口の動
き等の小さい動きを無視して、ゴルフクラブの動き等の
大きい動きの有無を判定できるように動き判定用閾値が
大きい値に設定されているのである。
For example, comparing the relative value of the threshold for motion determination with respect to a news program and the relative value of the threshold for motion determination with respect to a sports program (golf program), the relative value of the threshold for motion determination with respect to sports is set to be large. .
In the case of a news program, the presence / absence of the movement of the mouth of the caster is an important factor for the sound / non-sound determination. In the case of a golf program, the presence / absence of the movement of the golf club is an important factor for the sound / silence determination. The motion vector for the movement of the mouth is small, and the motion vector for the movement of the golf club is large. Therefore, in the case of a news program, the threshold value for motion determination for enabling the presence or absence of the movement of the mouth of the caster to be determined is set to a small value, and in the case of a golf program, small movements such as the movement of the mouth are ignored. Thus, the movement determination threshold is set to a large value so that the presence or absence of a large movement such as the movement of the golf club can be determined.

【0026】有音・無音判定用閾値制御部2は、各動き
ベクトル検出領域A0〜E7で検出された動きベクトル
のうちの最大値と、動き判定用閾値とを比較する。そし
て、各動きベクトル検出領域A0〜E7で検出された動
きベクトルのうちの最大値が動き判定用閾値以上である
場合には有音・無音判定用閾値を小さくし、動きベクト
ルの最大値が動き判定用閾値より小さい場合には有音・
無音判定用閾値を大きくさせる。
The sound / non-speech determination threshold control unit 2 compares the maximum value of the motion vectors detected in the respective motion vector detection areas A0 to E7 with the motion determination threshold. If the maximum value of the motion vectors detected in the respective motion vector detection areas A0 to E7 is equal to or larger than the threshold for motion determination, the threshold for voice / non-speech determination is reduced, and the maximum value of the motion vector If it is smaller than the judgment threshold,
Increase the silence determination threshold.

【0027】VTRから2倍速再生速度で読み出された
入力音声信号は、パワー算出部3に送られる。パワー算
出部3では、所定期間単位分、たとえば、1フレーム分
の音声信号の平均パワー値が算出される。パワー算出部
3で算出された平均パワー値は、有音・無音区間判定部
4に送られる。
An input audio signal read from the VTR at a double speed reproduction speed is sent to a power calculator 3. The power calculator 3 calculates an average power value of the audio signal for a predetermined period unit, for example, one frame. The average power value calculated by the power calculation unit 3 is sent to the sound / non-sound section determination unit 4.

【0028】有音・無音区間判定部4では、パワー算出
部3から送られてきた平均パワー値と、有音・無音判定
用閾値制御部2によって決定された有音・無音判定用閾
値とが比較される。平均パワー値が有音・無音判定用閾
値以上である場合には、現フレームが音声区間であると
判別される。平均パワー値が有音・無音判定用閾値より
小さい場合には、現フレームが無音区間であると判別さ
れる。
The voice / non-speech interval determination unit 4 calculates the average power value sent from the power calculation unit 3 and the voice / non-voice determination threshold value determined by the voice / non-voice determination threshold control unit 2. Be compared. If the average power value is equal to or greater than the voiced / silence determination threshold, the current frame is determined to be a voice section. If the average power value is smaller than the voice / silence determination threshold, the current frame is determined to be a silent section.

【0029】話速制御部5には、入力音声信号と有音・
無音区間判定部4の判定結果とが送られる。話速制御部
5は、無音削除部51と時間軸伸長部52とを備えてい
る。有音区間であると判定された音声信号は、2倍速再
生時の再生出力よりも遅い速度で出力されるようにする
ために、時間軸伸長部52によって時間軸伸長処理が行
われる。無音区間であると判別された音声信号は、無音
削除部51によって時間軸圧縮処理が行われる。
The speech speed control unit 5 includes an input voice signal and
The determination result of the silent section determination unit 4 is sent. The speech speed control unit 5 includes a silence removing unit 51 and a time axis extending unit 52. The time axis decompression unit 52 performs time axis decompression processing so that the audio signal determined to be a sound section is output at a speed lower than the reproduction output at the time of double speed reproduction. The audio signal determined to be a silent section is subjected to time axis compression processing by the silent section 51.

【0030】時間軸伸長部52によって時間軸伸長処理
が行われた有音区間の音声信号は、音声メモリ6に一旦
格納される。音声メモリ6に格納された音声信号は、逐
次読み出されて出力される。
The audio signal of the sound section subjected to the time axis expansion processing by the time axis expansion section 52 is temporarily stored in the audio memory 6. The audio signals stored in the audio memory 6 are sequentially read and output.

【0031】上記実施の形態では、パワー算出部3によ
って、所定期間単位分の音声信号の平均パワー値が算出
されているが、所定期間単位毎の入力音声信号のパワー
累積値、所定期間単位毎の入力音声信号の振幅平均値ま
たは所定期間単位毎の入力音声信号の振幅累積値を算出
するようにしてもよい。
In the above-described embodiment, the average power value of the audio signal for the predetermined period unit is calculated by the power calculation unit 3. However, the power accumulated value of the input audio signal for each predetermined period unit, Alternatively, the average amplitude value of the input audio signal or the cumulative amplitude value of the input audio signal for each predetermined period unit may be calculated.

【0032】また、上記実施の形態では、無音区間であ
ると判別された音声信号は無音削除部51によって削除
されているが、無音区間であると判別された音声信号に
対して時間軸圧縮処理を行うようにしてもよい。この場
合には、時間軸圧縮処理が行われた無音区間の音声信号
も音声メモリ6に一時的に格納される。
In the above embodiment, the audio signal determined to be a silent section is deleted by the silent deletion section 51. However, the audio signal determined to be the silent section is subjected to the time axis compression processing. May be performed. In this case, the audio signal of the silent section subjected to the time axis compression processing is also temporarily stored in the audio memory 6.

【0033】上記実施の形態では、各動きベクトル検出
領域A0〜E7で検出された動きベクトルのうちの最大
値が動き判定用閾値以上である場合には有音・無音判定
用閾値が小さくされ、動きベクトルの最大値が動き判定
用閾値より小さい場合には有音・無音判定用閾値が大き
くされている。
In the above embodiment, when the maximum value of the motion vectors detected in the respective motion vector detection areas A0 to E7 is equal to or larger than the threshold for motion determination, the threshold for voice / non-voice determination is reduced. When the maximum value of the motion vector is smaller than the threshold for motion determination, the threshold for voice / non-voice determination is increased.

【0034】したがって、たとえば、ドラマ、ニュース
等の番組において、出演者が喋っている場面では、出演
者の口が動くため、有音・無音判定用閾値が小さくされ
る。この結果、出演者が小さい声で喋っている区間が有
音区間と判別されやすくなり、出演者の声が聴き取りや
すくなる。
Therefore, for example, in a program such as a drama or a news, when a performer is speaking, the performer's mouth moves, so that the threshold for sound / non-speech determination is reduced. As a result, a section in which the performer is speaking in a low voice is more likely to be determined as a sound section, and the performer's voice is more easily heard.

【0035】また、ゴルフ番組、テニス番組等におい
て、スウィング音が発生している場面では、ゴルフクラ
ブ、ラケット等が動くため、有音・無音判定用閾値が小
さくされる。この結果、スウィング音が発生している区
間が有音区間と判別されやすくなり、スウィング音が聴
き取りやすくなる。
In a golf program, a tennis program, and the like, when a swing sound is generated, a golf club, a racket, and the like move, so that the threshold for sound / non-sound determination is reduced. As a result, the section where the swing sound is generated is more likely to be determined as a sound section, and the swing sound is more easily heard.

【0036】[0036]

【発明の効果】この発明によれば、画像の動きを利用す
ることにより、有音・無音判定精度を向上させることが
できる有音・無音判定装置が実現する。また、この発明
によれば、判定精度の高い有音・無音区間判定手段を備
えた話速変換装置が実現する。
According to the present invention, a voiced / silent discriminating apparatus which can improve the voiced / silent discrimination accuracy by utilizing the motion of an image is realized. Further, according to the present invention, a speech speed conversion device provided with a voiced / silent section determination unit having high determination accuracy is realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】話速変換装置の構成を示すブロック図である。FIG. 1 is a block diagram illustrating a configuration of a speech speed conversion device.

【図2】各フレームの映像エリアに設定される複数の動
きベクトル検出領域を示す模式図である。
FIG. 2 is a schematic diagram showing a plurality of motion vector detection areas set in a video area of each frame.

【図3】各動きベクトル検出領域に設定されている小領
域eを示す模式図である。
FIG. 3 is a schematic diagram showing a small area e set in each motion vector detection area.

【図4】各小領域e内に設定されている複数のサンプリ
ング点Sと1つの代表点Rとを示す模式図である。
FIG. 4 is a schematic diagram showing a plurality of sampling points S and one representative point R set in each small area e.

【符号の説明】[Explanation of symbols]

1 動きベクトル検出部 2 有音・無音判定用閾値制御部 3 パワー算出部 4 有音・無音区間判定部 5 話速制御部 6 音声メモリ 7 動き判定用閾値設定部 51 無音削除部 52 時間軸伸長部 DESCRIPTION OF SYMBOLS 1 Motion vector detection part 2 Threshold control part for sound / non-speech determination 3 Power calculation part 4 Speech / non-speech section judgment part 5 Speech speed control part 6 Voice memory 7 Threshold setting part for motion judgment 51 Silence deletion part 52 Time axis extension Department

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 映像信号および映像信号に同期した音声
信号を入力とし、入力音声信号から有音・無音判定用デ
ータを算出する手段および得られた有音・無音判定用デ
ータを有音・無音判定用閾値と比較することにより、入
力音声が有音区間であるか無音区間であるかを判定する
判定手段を備えている有音・無音判定装置において、 入力映像信号に基づいて画像の動きを検出する動き検出
手段、および動き検出手段の検出結果に基づいて、有音
・無音判定用閾値を変化させる閾値制御手段、 を備えていることを特徴とする有音・無音判定装置。
1. A means for receiving a video signal and an audio signal synchronized with the video signal as input, and calculating voice / non-speech determination data from the input voice signal, and converting the obtained voice / non-speech data into voice / non-speech. A sound / silence determination device having a determination unit that determines whether an input voice is a voiced section or a voiceless section by comparing with a determination threshold value. A sound / non-speech determining device, comprising: a motion detecting means for detecting; and a threshold control means for changing a sound / no-sound determining threshold based on a detection result of the motion detecting means.
【請求項2】 動き検出手段は、1画面内に設定された
複数の領域毎に動きベクトルを検出するものであり、 閾値制御手段は、動きベクトルの最大値が所定値以上で
ある場合に有音・無音判定用閾値を小さくし、動きベク
トルの最大値が所定値より小さい場合には有音・無音判
定用閾値を大きくさせるように、有音・無音判定用閾値
を制御するものである請求項1に記載の有音・無音判定
装置。
2. The motion detecting means detects a motion vector for each of a plurality of areas set in one screen, and the threshold control means is provided when the maximum value of the motion vector is equal to or more than a predetermined value. And controlling the voice / silence determination threshold so that the voice / silence determination threshold is reduced and the voice / non-voice determination threshold is increased when the maximum value of the motion vector is smaller than a predetermined value. Item 1. The sound / non-sound determination device according to item 1.
【請求項3】 有音・無音判定用データは、所定期間単
位毎の入力音声信号のパワー平均値、所定期間単位毎の
入力音声信号のパワー累積値、所定期間単位毎の入力音
声信号の振幅平均値および所定期間単位毎の入力音声信
号の振幅累積値のうちから任意に選択された1つである
請求項1および2のいずれかに記載の有音・無音判定装
置。
3. The sound / non-speech determination data includes an average power value of the input audio signal for each predetermined period unit, an accumulated power value of the input audio signal for each predetermined period unit, and an amplitude of the input audio signal for each predetermined period unit. 3. The sound / non-speech determining device according to claim 1, wherein the sound / non-speech determining device is one arbitrarily selected from an average value and an amplitude cumulative value of the input audio signal for each predetermined period unit.
【請求項4】 映像信号および映像信号に同期した音声
信号を入力とし、入力音声信号を話速変換する話速変換
装置において、 入力音声信号が有音区間であるか無音区間であるかを判
別する区間判別手段、 有音区間においては、入力音声信号を時間軸上で伸長さ
せる伸長手段、および無音区間においては、入力音声信
号を時間軸上で圧縮させるかまたは削除する手段を備え
ており、 区間判別手段は、 入力音声信号から有音・無音判定用データを算出する算
出手段、 得られた有音・無音判定用データを有音・無音判定用閾
値と比較することにより、入力音声が有音区間であるか
無音区間であるかを判定する判定手段、 入力映像信号に基づいて画像の動きを検出する動き検出
手段、および動き検出手段の検出結果に基づいて、有音
・無音判定用閾値を変化させる閾値制御手段を備えてい
ることを特徴とする話速変換装置。
4. A speech speed conversion device which receives a video signal and an audio signal synchronized with the video signal and converts the input audio signal into a speech speed, determines whether the input audio signal is a voiced section or a silent section. Section determining means to perform, in a sound section, expansion means for expanding the input audio signal on the time axis, and in a silent section, means for compressing or deleting the input audio signal on the time axis, The section discriminating means includes calculating means for calculating voice / non-speech determination data from the input voice signal, and comparing the obtained voice / non-speech determination data with a voice / non-speech determination threshold to determine whether the input voice is valid. Determining means for determining whether the section is a sound section or a silent section; a motion detecting means for detecting a motion of an image based on an input video signal; and a sound / silence determining section based on a detection result of the motion detecting means. A speech speed conversion device comprising threshold value control means for changing a threshold value.
【請求項5】 動き検出手段は、1画面内に設定された
複数の領域毎に動きベクトルを検出するものであり、 閾値制御手段は、動きベクトルの最大値が所定値以上で
ある場合に有音・無音判定用閾値を小さくし、動きベク
トルの最大値が所定値より小さい場合には有音・無音判
定用閾値を大きくさせるように、有音・無音判定用閾値
を制御するものである請求項4に記載の話速変換装置。
5. The motion detecting means detects a motion vector for each of a plurality of areas set in one screen, and the threshold control means is provided when the maximum value of the motion vector is equal to or more than a predetermined value. And controlling the voice / silence determination threshold so that the voice / silence determination threshold is reduced and the voice / non-voice determination threshold is increased when the maximum value of the motion vector is smaller than a predetermined value. Item 5. A speech speed conversion device according to item 4.
【請求項6】 有音・無音判定用データは、所定期間単
位毎の入力音声信号のパワー平均値、所定期間単位毎の
入力音声信号のパワー累積値、所定期間単位毎の入力音
声信号の振幅平均値および所定期間単位毎の入力音声信
号の振幅累積値のうちから任意に選択された1つである
請求項4および5のいずれかに記載の話速変換装置。
6. The sound / non-speech determination data includes an average power value of the input audio signal for each predetermined period unit, an accumulated power value of the input audio signal for each predetermined period unit, and an amplitude of the input audio signal for each predetermined period unit. 6. The speech speed conversion device according to claim 4, wherein the speech speed conversion device is one arbitrarily selected from an average value and an amplitude accumulation value of the input audio signal for each predetermined period unit.
JP11047533A 1999-02-25 1999-02-25 Sound and soundless deciding device and speech rate converting device Pending JP2000250566A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11047533A JP2000250566A (en) 1999-02-25 1999-02-25 Sound and soundless deciding device and speech rate converting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11047533A JP2000250566A (en) 1999-02-25 1999-02-25 Sound and soundless deciding device and speech rate converting device

Publications (1)

Publication Number Publication Date
JP2000250566A true JP2000250566A (en) 2000-09-14

Family

ID=12777775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11047533A Pending JP2000250566A (en) 1999-02-25 1999-02-25 Sound and soundless deciding device and speech rate converting device

Country Status (1)

Country Link
JP (1) JP2000250566A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007333787A (en) * 2006-06-12 2007-12-27 Mitsubishi Electric Corp Speech speed conversion apparatus
JP2010210947A (en) * 2009-03-10 2010-09-24 Panasonic Electric Works Co Ltd Voice speed conversion device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007333787A (en) * 2006-06-12 2007-12-27 Mitsubishi Electric Corp Speech speed conversion apparatus
JP2010210947A (en) * 2009-03-10 2010-09-24 Panasonic Electric Works Co Ltd Voice speed conversion device

Similar Documents

Publication Publication Date Title
JP4587160B2 (en) Signal processing apparatus and method
JP2955247B2 (en) Speech speed conversion method and apparatus
JP4795919B2 (en) Voice interval detection method
JPH06332492A (en) Method and device for voice detection
KR20000022351A (en) Method and device for detecting voice section, and speech velocity conversion method device utilizing the method and the device
JP2012108451A (en) Audio processor, method and program
JP2001344905A (en) Data reproducing device, its method and recording medium
JP2010283605A (en) Video processing device and method
JP3838159B2 (en) Speech recognition dialogue apparatus and program
JP4393648B2 (en) Voice recognition device
JP2011055386A (en) Audio signal processor, and electronic apparatus
JP2000250566A (en) Sound and soundless deciding device and speech rate converting device
CN113409809B (en) Voice noise reduction method, device and equipment
JP3378672B2 (en) Speech speed converter
JP3377463B2 (en) Video / audio gap correction system, method and recording medium
JP3803302B2 (en) Video summarization device
JP3373933B2 (en) Speech speed converter
JP2002258900A (en) Device and method for reproducing voice
JPH09152889A (en) Speech speed transformer
JP3081469B2 (en) Speech speed converter
JP2905112B2 (en) Environmental sound analyzer
JPWO2009025142A1 (en) Speaker speed conversion system and method, and speed conversion apparatus
JPH03129400A (en) Speech recognition device
JP2002297200A (en) Speaking speed converting device
JP4143487B2 (en) Time-series information control system and method, and time-series information control program