KR100303913B1

KR100303913B1 - 음성처리방법, 음성처리장치 및 기록재생장치

Info

Publication number: KR100303913B1
Application number: KR1019997004144A
Authority: KR
Inventors: 이마이아츠시; 세이야마노부마사; 다카기도루
Original assignee: 닛폰 호소 교카이
Priority date: 1997-09-12
Filing date: 1999-05-10
Publication date: 2001-09-29
Also published as: NO324336B1; JP3073942B2; CN1125459C; JPH1186448A; NO992283L; CN1239571A; EP0939401A1; NO992283D0; EP0939401A4; DK0939401T3; DE69836472T2; US6360198B1; DE69836472D1; CA2271463C; EP0939401B1; CA2271463A1; KR20000068955A; WO1999014751A1

Abstract

녹음시와 다른 속도로 음성신호를 재생하였을 때, 샘플링주파수 변환부(4)에 의해 A/D변환시의 샘플링주파수 f_i(Hz)와, D/A변환시의 샘플링주파수 f_o(Hz)를 매칭시키면서, VTR가변속도 재생부(2)의 가변속도비 r과 음성의 속성에 근거하여 음성데이터를 소정의 시간폭을 갖는 블럭단위로 분할하여 축차로 보간 또는 간인조작에 의해 VTR가변속도 재생부(2)에서 가변속도 재생된 영상신호로 음성의 제시타이밍을 동기시키면서 음정이 변화되지 않는 고품질 음성을 출력시킨다.

Description

음성처리방법, 음성처리장치 및 기록재생장치{Sound processing method, sound processor, and recording/reproduction device}

본 발명은 업무용 VTR장치, 6mm 테이프레코더 장치 등 재생속도에 비례하여 음정이 변화된 음성을 출력하는 장치에 있어서, 기록된 음성을 임의의 속도로 재생할 때 재생속도에 상관없이 정규 음정을 가진 음성을 출력하는 음성처리방법, 음성처리장치 및 기록재생장치에 관한 것이며, 특히 VTR장치에 적용할 때 원하는 재생속도에 즉응(卽應)하며, 또한 영상에 동기된 고품질 음성을 출력하는 음성처리방법, 음성처리장치 및 기록재생장치에 관한 것이다.

일반적으로 자기테이프 등 아날로그 기록미디어에 기록된 음성을 임의의 속도로 재생하는 경우에는 그 재생속도에 비례하여 음정도 변화된다.

또한 업무용 VTR장치에 있어서는 최근 영상·음성 모두 디지털 방식에 의한 기록이 주류를 이루지만, 음성출력에 있어서는 편집작업의 효율화를 위해 아날로그 방식의 VTR장치와 마찬가지로 재생속도에 비례하여 음정이 변화된 음성을 출력한다.

그런데 VTR장치에 있어서 종래부터 영상의 가변속도 재생을 실행하고 있지만 가변속도 재생의 영상에 동기되면서 음정을 정규높이로 보정하는 기능을 갖고 있는 것은 지금까지 없었다.

또한 음정을 보정하는 수단에 한정시키면, 노래방 기계 등으로 사용되고 있는 피치 시프터(피치 체인저)가 알려져 있는데, 예를 들어 이것을 상술한 VTR장치의 음정 보정에 이용하면 대상이 사람의 소리일 때 또는 그 보정범위가 클 때, 예컨대 1/2배속 재생과 같이 1옥타브 내려간 음성을 원래로 되돌릴 때에는 보정된 음성에 많은 변형감이나 에코를 동반하는 등 음질에 문제가 있었다.

이 문제들로써 알 수 있듯이 음정의 변화를 보정할 때 방송 품질을 고려한 경우에는 지금까지 적당한 장치가 없었고, 방송에서 사용하는 VTR장치를 슬로우 재생시킬 때 의도적으로 음정이 변화된 비현실적인 음성을 사용하는 경우를 제외하고는 영상의 재생과 동시에 재생된 음성을 사용할 수 없는 문제가 있었다.

본 발명은 상기의 사정을 감안하여 1/2배속 재생 또는 2배속 재생했을 때와 같이 가변속도의 실용적인 사용범위 내에서 가변속도 재생된, 음정이 변화된 음성을 취입하여 음성의 명료함을 유지하면서 영상과 고정밀도로 동기시킨 상태에서 ±1옥타브 정도의 범위에서 음정을 원래로 되돌릴 수 있는 음성처리방법, 음성처리장치 및 기록재생장치를 제공하는 것을 목적으로 하고 있다.

도 1은, 본 발명에 의한 음성처리방법, 음성처리장치 및 기록재생장치를 사용한 음성첨부VTR의 가변속도 재생장치를 도시한 블럭도이고,

도 2는, 도 1에 도시한 접속데이터생성부의 접속데이터생성 동작예를 도시한 모식도이고,

도 3은, 도 1에 도시한 접속순서생성부 내에 있는 시각정보 감시동작부분의 상세한 회로구성예를 도시한 블럭도이고,

도 4a와 도 4b는, 도 1에 도시한 음성첨부VTR의 가변속도재생장치를 '느리게' 했을 때 접속순서생성부의 블럭접속지시 동작예를 도시한 모식도이고,

도 5a와 도 5b는, 도 1에 도시한 음성첨부VTR의 가변속도재생장치를 '빠르게' 했을 때 접속순서생성부의 블럭접속지시 동작예를 도시한 모식도이다.

상기의 목적을 달성하기 위해 청구항 1에 기재된 음성처리 방법에 따르면, 기록매체에 음성신호를 기록하였을 때의 속도와 다른 재생속도로 상기 기록매체상의 음성신호를 재생할 때, 재생된 음성신호의 음정을 조정하는 음성처리 방법에 있어서, 정규 재생속도에 대한 가변속도비 r로 상기 기록매체로부터 재생된 음성신호를 A/D변환하여 음성데이터로 할 때의 샘플링주파수 f_i와, 상기 음성데이터를 디지털신호 처리한 후 D/A변환하여 음성신호로 할 때의 샘플링주파수 f_o와, 상기 가변속도비 r이 소정의 조건을 만족하도록 각 샘플링주파수 f_i,f_o를 설정하는 것을 요지로 한다.

청구항 2에 기재된 음성처리 방법에 따르면 청구항 1에 기재된 음성처리 방법에 있어서, 상기 가변속도비 r로 상기 기록매체로부터 재생된 음성신호를 샘플링주파수 f_i로 A/D변환하여 얻어진 음성데이터를 디지털신호 처리할 때, 상기 음성데이터의 속성을 분석처리한 다음 이 분석처리로 얻어진 정보에 근거하여 상기 음성데이터를 소정의 시간폭을 갖는 블럭단위로 분할하고, 블럭단위로 상기 음성데이터를 축차로 보간처리 또는 간인처리하여 그 데이터길이를 축차로 1/r배로 하는 일련의 처리를 실시하여 출력음성데이터를 작성하고 그 후 상기 샘플링주파수 f_o에서 상기 출력음성데이터를 D/A변환하여 음성신호를 생성하는 것을 요지로 한다.

청구항 3에 기재된 음성처리 방법에 따르면 청구항 1에 기재된 음성처리 방법에 있어서, 상기 소정의 조건으로서 상기 각 샘플링주파수 f_i,f_o와 상기 가변속도비 r이 f_i/f_o＝r을 만족할 때에는 f_i＝r·f_o이 되는 샘플링주파수f_i를 사용하고, 상기 각 샘플링주파수 f_i,f_o와, 상기 가변속도비 r이 f_i/f_o≠r일 때에는 샘플링주파수 변환계수 c를 포함하는 f_i＝r·f_o/c가 되는 샘플링주파수 f_i를 사용하는 것을 요지로 한다.

청구항 4에 기재된 음성처리 방법에 따르면 청구항 2에 기재된 음성처리 방법에 있어서, 상기 소정의 조건으로서 상기 각 샘플링주파수 f_i,f_o와 상기 가변속도비 r이 f_i/f_o＝r을 만족할 때에는 f_i＝r·f_o가 되는 샘플링주파수 f_i를 사용하고, 상기 각 샘플링주파수 f_i,f_o와 상기 가변속도비 r이 f_i/f_o≠r일 때에는 샘플링주파수 변환계수 c를 포함하는 f_i＝r·f_o/c가 되는 샘플링주파수 f_i를 사용하는 것을 요지로 한다.

청구항 5에 기재된 음성처리 방법에 따르면 청구항 4에 기재된 음성처리 방법에 있어서, 상기 가변속도비 r로 상기 기록매체에서 재생된 음성신호를 샘플링주파수 f_i로 A/D변환하여 얻어진 음성데이터를 디지털신호 처리할 때 상기 기록매체에서 독출된 음성신호의 시각정보와 상기 일련의 처리를 거쳐 얻어진 출력음성데이터의 시각정보를 감시하여 상기 음성신호와 상기 출력음성데이터와의 사이에서 발생하는 시간의 엇갈림을 보정하는 것을 요지로 한다.

청구항 6에 기재된 음성처리 장치에 따르면 기록매체에 음성신호를 기록하였을 때의 속도와 다른 재생속도로 상기 기록매체상의 음성신호를 재생할 때 재생된 음성신호의 음정을 조정하는 음성처리장치에 있어서, 상기 기록매체로부터 재생된 음성신호를 샘플링주파수 f_i로 A/D변환하는 A/D변환수단과, A/D변환하여 얻어진 음성데이터에 대하여 속성에 근거하여 분석처리하는 분석처리수단과, 이 분석처리로 얻어진 정보에 근거하여 상기 음성데이터를 소정의 시간폭을 갖는 블럭단위로 분할하는 블럭데이터 분할수단과, 분할된 블럭단위로 상기 음성데이터를 축차로 보간처리 또는 간인처리하여 그 데이터길이를 1/r배로 하는 일련의 처리를 실시하여 출력음성데이터를 작성하는 출력음성데이터 작성수단과, 작성된 출력음성데이터를 샘플링주파수 f_o로 D/A변환하여 영상과 동기된 음성을 출력하는 음성출력수단과, 상기 A/D변환할 때의 샘플링주파수 f_i와 상기 음성데이터를 D/A변환하여 음성신호로 할 때의 샘플링주파수 f_o와 상기 가변속도비 r이 소정의 조건을 만족하도록 각 샘플링주파수 f_i,f_o를 설정하는 샘플링주파수 설정수단을 구비하는 것을 요지로 한다.

청구항 7에 기재된 음성처리 장치에 따르면 청구항 6에 기재된 음성처리 장치에 있어서, 상기 샘플링주파수 설정수단으로 설정되는 소정의 조건으로서 상기 각 샘플링주파수 f_i,f_o와 상기 가변속도비 r이 f_i/f_o＝r을 만족할 때에는 f_i＝r·f_o가 되는 샘플링주파수 f_i를 사용하고, 상기 각 샘플링주파수 f_i,f_o와, 상기 가변속도비 r이 f_i/f_o≠r일 때에는 샘플링주파수 변환계수 c를 포함하는 f_i＝r·f_o/c가 되는 샘플링주파수 f_i를 사용하는 것을 요지로 한다.

청구항 8에 기재된 음성처리장치에 따르면 청구항 7에 기재된 음성처리장치에 있어서, 상기 출력음성데이터 작성수단은 상기 기록매체에서 독출된 음성신호의 시각정보와 상기 일련의 처리를 거쳐 얻어진 출력음성데이터의 시각정보를 감시하여 상기 음성신호와 상기 출력음성데이터와의 사이에서 발생하는 시간의 엇갈림을 보정하는 수단을 포함하는 것을 요지로 한다.

청구항 9에 기재된 기록재생장치에 따르면 청구항 6에 기재된 음성처치장치를 포함하는 것을 요지로 한다.

청구항 10에 기재된 기록재생장치에 따르면 청구항 7에 기재된 음성처치장치를 포함하는 것을 요지로 한다.

청구항 11에 기재된 기록재생장치에 따르면 청구항 8에 기재된 음성처치장치를 포함하는 것을 요지로 한다.

이상과 같이 본 발명에 따르면, 기록매체에 음성신호를 기록하였을 때의 기록속도와 다른 재생속도로 상기 기록매체에 기록되어 있는 음성신호를 재생할 때, 재생된 음성신호의 음정을 조정하는 음성처리방법에 있어서, 정규 재생속도에 대한 가변속도비 r로 상기 기록매체로부터 재생된 음성신호를 A/D변환하여 음성데이터로 할 때의 샘플링주파수 f_i와 상기 음성데이터를 디지털신호처리한 뒤 D/A변환하여 음성신호로 할 때의 샘플링주파수 f_o와 상기 가변속도비 r이 소정의 조건을 만족하도록 각 샘플링주파수 f_i,f_o를 설정한다. 이로써 1/2배속 재생 또는 2배 재생했을 때와 같이 가변속도의 실용적인 사용범위 내에서 가변속도 재생된, 음정이 변화된 음성을 취입하여 음성의 명료함을 유지하면서 영상과 고정밀도로 동기시킨 상태에서 ±1옥타브 정도의 범위에서 음정을 원래로 되돌린다.

또한 종래부터 사용되고 있는 회로에 대해 약간의 회로를 부가시키는 것만으로도 회로를 구성할 수 있다.

도 1은 본 발명에 의한 음성처리방법, 음성처리장치 및 기록재생장치를 사용한 음성첨부VTR의 가변속도재생장치의 개요를 도시한 블럭도이다.

이 도면에 도시한 음성첨부VTR의 가변속도재생장치(1)는 VTR가변속도재생부(2)와, A/D변환부(3)와, 샘플링주파수 변환부(4)와, 분석처리부(5)와, 블럭데이터 분할부(6)와, 블럭데이터 축적부(7)와, 접속데이터 생성부(8)와, 접속데이터 축적부(9)와, 접속순서 생성부(10)와, 음성데이터 접속부(11)와, D/A변환부(12)를 갖추고 있으며 VTR가변속도 재생부(2)를 제어하여 녹음시와 다른 속도로 음성신호를 재생하였을 때 샘플링주파수 변환부(4)에 의해 A/D변환시의 샘플링주파수 f_i(Hz)와 D/A변환시의 샘플링주파수 f_o(Hz)를 매칭시키면서 VTR가변속도 재생부(2)의 가변속도비 r과 음성의 속성에 근거하여, 음성데이터를 소정의 시간폭을 갖는 블럭단위로 분할하여 축차로 보간 또는 간인함으로써 VTR가변속도 재생부(2)에서 가변속도재생된 영상신호로 음성의 제시타이밍을 동기시키면서 음정이 변화되지 않은 고품질의 음성을 출력한다.

이 때, 녹음시와 다른 속도로 재생된 음성신호를 A/D 변환하여 디지털신호처리함으로써 음정의 보정과 데이터의 시간길이를 신축시킨 후 D/A변환하여 영상과 동기된 음성을 출력하는 일련의 과정에서, A/D변환시의 샘플링주파수를 f_i(Hz), D/A변환시의 샘플링주파수를 f_o(Hz), VTR가변속도 재생부(2)의 가변속도비를 r로 하면, f_i/f_o＝r의 관계를 만족하도록 샘플링주파수 f_i,f_o를 설정할 수 있는 경우에는 f_i＝r·f_o(Hz)가 되는 샘플링주파수 f_i로 음성신호의 A/D변환을 실행한다. 또한 샘플링주파수 f_i,f_o를 임의의 값으로 설정할 수 없고 f_i/f_o≠r의 관계가 되는 경우에는 A/D변환부(3)의 후단에 설치된 샘플링주파수 변환부(4)에 의해 샘플링주파수 변환계수 c＝r·f_i/f_o(Hz)로 샘플링한 상태의 음성데이터로 변환한다. 그리고 음성의 속성에 근거하여 분석처리하고 이 분석처리로 얻어진 정보에 근거하여 음성데이터를 소정의 시간폭을 갖는 블럭단위로 분할하고 이 블럭단위로 축차로 보간 또는 간인함으로써 데이터의 시간길이를 축차로 1/r배로 하는 일련의 처리를 실행한 후 샘플링주파수 f_o(Hz)로 D/A변환함으로써 VTR가변속도 재생부(2)의 가변속도재생으로 얻어진 영상신호에 음성의 제시타이밍을 동기시키면서 음정이 변화되지 않은 고품질 음성을 출력한다.

VTR가변속도 재생부(2)는 VTR장치에 기록된 음성신호를 임의의 영상재생속도에 맞춰 취출할 수 있으며 또한 가변재생속도일 때에는 정규 재생속도에 대한 가변속도비 r을 전기적으로 출력할 수 있는 VTR장치, 또는 가변속도비 r을 시각적으로 표시하는 기능을 가진 기존의 VTR장치 등에 의해 구성되어 있으며 통상의 기록속도로 기록한 영상신호, 음성신호를 지정된 재생속도로 재생함으로써 얻어진 영상신호(변속재생영상신호)를 모니터장치 등으로 출력하면서 이 영상신호와 함께 재생된 음성신호(변속재생음성신호)와 가변속도비 정보(가변속도비 r을 포함한 정보)를 A/D변환부(3)에 공급함과 동시에 변속재생영상신호의 시각정보와 가변속도비 정보를 접속순서 생성부(10)에 공급한다. 또 이 음성첨부VTR 가변속도 재생장치(1)에 요구되는 기능으로서 음성처리기능만이 요구되고 있을 때에는 VTR 가변속도 재생부(2)로서 VTR장치 이외의 장치, 예컨대 6mm의 테이프음성재생장치 등, 음성만의 미디어 기록재생장치 등을 사용해도 좋다.

A/D변환부(3)는 VTR가변속도 재생부(2)로부터 출력되는 음성신호(변속재생음성신호)를 VTR가변속도 재생부(2)에서 출력되는 가변속도비 정보(정규 재생속도에 대한 가변속도비 r)에 응한 샘플링주파수 f_i로 A/D변환하고, 이렇게 얻어진 음성데이터를 샘플링주파수 변환부(4)에 공급한다.

이 때 A/D 변환시의 샘플링주파수 f_i와 D/A변환시 샘플링주파수 f_o와 가변속도비 r이 f_i/f_o＝r인 관계를 만족하도록 각 샘플링주파수 f_i,f_o를 설정할 수 있을 때에는 샘플링주파수 f_i＝r·f_o(Hz)로 VTR가변속도 재생부(2)에서 출력되는 음성신호(변속재생음성신호)를 A/D변환하여 음성데이터를 생성한다. 또한 각 샘플링주파수 f_i,f_o가 고정치인 경우와 같이 A/D변환시의 샘플링주파수 f_i와 D/A변환시의 샘플링주파수 f_o와 가변속도비 r이 f_i/f_o≠r일 때에는 소정의 샘플링주파수 f_i(Hz)로 VTR가변속도 재생부(2)에서 출력되는 음성신호(변속재생음성신호)를 A/D변환하여 음성데이터를 생성하고, 이렇게 얻어진 음성데이터를 샘플링주파수 변환부(4)에 공급한다.

샘플링주파수 변환부(4)는 A/D변환부(3)에서 출력되는 음성데이터가 f_i/f_o＝r인 관계를 만족하도록 A/D변환된 음성데이터일 때에는 샘플링주파수 변환계수 c로서 c＝1을 생성한다. 또 A/D변환부(3)에서 출력되는 음성데이터가 f_i/f_o≠r인 관계로 A/D변환된 음성데이터일 때에는 샘플링주파수 변환계수 c로서 c＝r·f_o/f_i를 생성한다. 이들 샘플링주파수 변환계수 c에 근거하여 A/D변환부(3)로부터 출력되는 음성데이터의 샘플링주파수를 변환하여 샘플링주파수 f_i로 A/D변환된 음성데이터를 정규 재생속도로 재생하였을 때와 같은 샘플링주파수 f_o(Hz)로 A/D변환한 것에 상당하는 음성데이터로 변환하고 이것을 분석처리부(5)와 블럭데이터 분할부(6)에 공급한다.

분석처리부(5)는 샘플링주파수 변환부(4)에서 출력되는 음성데이터(샘플링주파수 f_o(Hz)로 A/D변환한 것에 상당하는 음성데이터)를 취입하는 입력처리, 이 입력처리로 얻어진 음성데이터의 샘플링율을 낮추어(본 실시형태에서는 4kHz) 이후의처리량을 줄이는 데시메이션처리, A/D변환부(3)에서 출력되는 음성데이터 및 데시메이션처리로 얻어진 음성데이터를 분석하여 유성음, 무성음, 무음으로 구분하는 속성분석처리, 이 속성분석처리로 얻어진 유성음, 무성음, 무음마다 자기상관분석을 하여 주기성을 검출하고 이 검출결과에 근거하여 음성데이터를 분할하는 데 필요한 블럭길이를 결정하는 블럭길이 결정처리를 순서대로 실행하고, 이렇게 얻어진 분할정보(유성음, 무성음, 무음마다의 블럭길이를 도시한 정보)를 블럭데이터 분할부(6)에 공급한다.

이 경우, 속성분석·처리에서는 샘플링주파수 변환부(4)에서 출력되는 음성데이터에 대해 30ms 전후의 윈도우폭을 사용하여 데이터의 제곱합을 계산하고 5ms 전후의 간격으로 음성데이터의 파워값 P를 산출함과 동시에 이 파워값 P와 미리 설정되어 있는 문턱값 P min을 비교하여「P＜P min」를 만족하는 부분을 무음구간으로 판정하고「P min≤P」를 만족하는 부분을 유성음구간으로 판별한다. 이 다음 샘플링주파수 변환부(4)에서 출력되는 음성데이터에 대하여 제로교차분석, 상기 데시메이션처리로 얻어진 음성데이터에 대한 자기상관분석 등을 실행하고 이들 각 분석결과와 파워값 P에 근거하여 음성데이터 중「P min≤P」를 만족하는 부분이 성대의 진동을 동반하는 음성구간(유성음구간)인지 성대의 진동을 동반하지 않는 음성구간(무성구간)인지를 판정한다. 또 샘플링주파수 변환부(4)에서 출력되는 음성데이터의 각 속성으로서 잡음이나 음악 등의 배경음이라는 속성도 생각할 수 있지만 일반적으로는 잡음이나 배경음의 신호와 음성신호를 정확하게 자동판별하기 어렵기 때문에 잡음, 배경음도 유성음, 무성음 중 어느 하나로 분류된다.

또한 블럭길이 결정처리에서는 속성분석처리로 유성음구간으로 판정된 데이터에 대해, 유성음의 피치주기가 분포되어 있는 1.25ms∼28.0ms정도의 넓은 범위에 걸쳐 길이가 다른 복수의 윈도우폭을 사용하여 자기상관분석을 실시하여 가능한 한 정확한 피치주기(성대의 진동주기인 기본주기)를 검출하고 이 검출결과에 근거하여 각 피치주기가 각각의 블럭길이가 되도록 블럭길이를 결정한다. 또한 속성분석처리로 무성음구간, 무음구간이 된 것 에 대해서는, 1Oms 이내의 주기성을 검출하고 이 검출결과에 근거하여 블럭길이를 결정하고 이들 유성음구간, 무음성구간, 무음구간의 각 블럭길이를 분할정보로서 블럭데이터 분할부(6)에 공급한다.

블럭데이터 분할부(6)는 분석처리부(5)에서 출력되는 분할정보로 도시되는 유성음구간의 블럭길이, 무성음구간의 블럭길이에 근거하여 샘플링주파수 변환부(4)에서 출력되는 음성데이터를 분할하고 이 분할처리에 의해 얻어진 블럭 단위의 음성데이터와 이 음성데이터의 블럭길이를 블럭데이터 축적부(7)와 접속데이터 생성부(8)에 공급한다.

블럭데이터 축적부(7)는 링버퍼를 구비하고 있으며 블럭데이터 분할부(6)에서 출력되는 음성데이터(블럭 단위의 음성데이터)와 이 음성데이터의 블럭길이를 취입하여 이것을 링버퍼에 일시기억시키면서 일시기억하고 있는 각 블럭길이를 적절하게 독출하여 이것을 접속순서 생성부(10)에 공급함과 동시에 일시기억하고 있던 블럭단위의 음성데이터를 적절하게 독출하여 이것을 음성데이터접속부(11)에 공급한다.

또한 접속데이터 생성부(8)는 블럭데이터 분할부(6)에서 출력되는 블럭단위의 음성데이터를 취입하면서 도 2에 도시한 바와 같이 직선적으로 변화하는 윈도우 A,B를 사용하여 해당 블럭에 포함되는 음성데이터의 개시부분, 해당 블럭의 직후 또는 2개 후에 있는 블럭에 해당하는 음성데이터의 개시부분을 취출한 뒤 이들을 중복가산하여 접속데이터를 생성하고 이것을 접속 데이터 축적부(9)에 공급한다.

이 경우, 예컨대 음성첨부VTR 가변속도재생장치(1)의 재생속도가 「느리게」로 설정되어 있으면 블럭데이터 분할부(6)에서 출력되는 블럭단위의 음성데이터를 취입하고, 각 블럭마다 해당 블럭의 개시부분에 있는 음성데이터에 대하여 시간길이 d(ms)사이에 직선적으로 변화하는 윈도우 A를 사용한 커튼을 실행함과 동시에 해당 블럭 직후에 있는 블럭의 개시부분에 있는 음성데이터에 대하여 시간길이 d(ms)사이에 직선적으로 변화하는 윈도우 B를 사용한 커튼을 실행한 뒤, 직후 블럭의 개시부분과 해당 블럭의 개시부분을 중복가산하여 시간길이 d(ms)의 접속 데이터를 생성하고 이것을 접속데이터 축적부(9)에 공급한다. 또한 음성첨부VTR 가변속도 재생장치(1)의 재생속도가「빠르게」로 설정되어 있으면 블럭데이터 분할부(6)에서 출력되는 블럭단위의 음성데이터를 취입하여 각 블럭마다 해당 블럭의 개시부분에 있는 음성데이터에 대하여 시간길이 d(ms)사이에 직선적으로 변화하는 윈도우 A를 사용한 커튼을 실행함과 동시에, 해당 블럭의 2개 후에 있는 블럭의 개시부분에 있는 음성데이터에 대하여 시간길이 d(ms)사이에 직선적으로 변화하는 윈도우 B를 사용한 커튼을 실행한 후, 직후 블럭의 개시부분과 해당 블럭의 개시 부분을 중복가산하여 시간길이 d(ms)의 접속데이터를 생성하고 이것을 접속데이터 축적부(9)에 공급한다. 이 때 시간길이 d로는「5 (ms)」∼「해당 블럭, 직후의 블럭, 2개 후에 있는 블럭의 각 블럭길이 중 가장 짧은 것」의 범위 내에 있는 값을 임의로 선택할 수 있지만 시간길이 d를 짧게 한 쪽이 접속데이터 축적부(9)의 버퍼용량을 적게 할 수 있다.

접속데이터 축적부(9)는 링버퍼를 구비하고 있으며 접속데이터 생성부(8)에서 출력되는 접속데이터를 취입하여 이것을 링버퍼에 일시기억시키면서, 일시기억하고 있는 각 접속데이터를 적절히 독출하여 이것을 음성데이터 접속부(11)에 공급한다.

또한 접속순서 생성부(10)는 VTR가변속도 재생부(2)에서 출력되는 가변속도비 정보와 변속재생영상의 시각정보에 근거하여 변속재생영상의 출력타이밍과 음성의 출력타이밍을 일치시키는 데 필요한 시간적인 신축배율을 산출하여 그 산출된 신축배율을 자신에게 구비된 고쳐쓰기 가능한 메모리에 일시기억시킨다. 또한 접속순서생성부(10)는 이미 설정되어 있는 소정 시간간격, 예를 들면 50∼100ms 전후의 시간간격으로 고쳐쓰기 가능한 메모리에 기억되어 있는 시간적인 신축배율을 독출함과 동시에 이 신축배율, 블럭데이터 축적부(7)에서 출력되는 각 블럭길이, 음성데이터 접속부(11)에서 출력되는 기존 접속정보에 근거하여 블럭 단위의 각 음성데이터와 블럭단위의 각 접속데이터의 접속순서, 즉 VTR가변속도 재생부(2)에서 출력된 가변속도정보로 지정된 변속재생영상의 출력타이밍과 음성의 출력타이밍을 일치시키는 데 필요한 접속순서를 시시각각 생성하는 접속순서결정부를 구비하고 있다.

이 경우, 접속순서생성부(10)의 접속순서결정부에서 변속재생영상의 출력타이밍과 음성의 출력타이밍을 일치시키는 방법으로는, VTR가변속도 재생부(2)에서출력된 가변속도비 정보로 도시되는 가변속도비 r의 역배수 1/r을 계산하여 이것을 분석처리부(5)에서 얻어진 분할정보(분할된 블럭의 신축배율)로 하고 이 신축배율에 근거하여 시간적인 신축조작을 실행하고, VTR가변속도 재생부(2)에서 출력되는 변속재생영상에 대하여 고정밀도로 동기시키기 위해 음성데이터 접속부(11)에서 출력되는 기존 접속정보와 VTR가변속도 재생부(2)에서 출력되는 변속재생영상의 시각정보(데이터길이나 CTL 등의 정보)를 감시하여 이들의 어긋남이 적산(積算)되지 않도록 신축배율을 적절히 수정하는 방법을 사용한다.

또한 접속순서생성부(10)의 접속순서결정부에 있어서 시각정보를 감시하는 방법으로는 도 3에 도시한 바와 같은 구성으로 실시하는 것을 생각할 수 있다. 즉 입력데이터길이 감시부(21)에 의해 블럭데이터 축적부(7)에서 출력되는 블럭단위의 길이를 항상 계산하여 입력데이터길이 leng_in을 구하면서, 출력데이터 목표길이 연산부(22)에 의해 입력데이터길이 leng_in과 VTR가변속도 재생부(2)에서 출력되는 가변속도비 r에 근거하여 신축배율(역배율)1/r을 계산하여 출력데이터 목표길이 target(target＝leng_in/r)을 구한다. 또한 그것과 병행하여 출력데이터길이 감시부(23)에 의해 음성데이터 접속부(11)에서 출력되는 기존 접속정보에 근거하여 출력데이터길이 leng_out을 구한다. 그 후 비교부(24)에 의해 이들 출력데이터 목표길이 target과 출력데이터길이 leng_out의 차 t(t＝target-leng_out)를 구하여 이것을 음성데이터 접속부(11)에 공급하는 방법을 사용한다.

또한 접속순서생성부(10)의 접속순서결정부에 있어서, 접속순서의 생성방법으로는 도 4a 내지 도 5b의 모식도에 도시하는 방법을 사용한다.

우선 음성첨부VTR 가변속도 재생장치(1)가 조작되어 재생속도가「느리게」로 설정되어 있는 경우에는, 유성음구간, 무성음구간, 무음구간이 차례로 교체되어 출현하는 음성신호가 입력되어 있는 상태에서 음성데이터 접속부(11)에서 출력되는 기존 접속정보에 근거하여 음성데이터의 속성이 교체된 것이 검지되거나 VTR가변속도 재생부(2)의 재생속도가 변경되어 같은 속성이더라도 음성데이터의 신축배율이 변경되어 있는 것이 검지되었을 때, 접속순서의 생성공정 개시조건이 성립되었다고 판정하고 도 4a에 도시한 바와 같이 이 때의 시간을 시작시간 T_o로 결정한다.

이 다음 이 개시시간 T_o를 기준으로 하여 블럭데이터 축적부(7)로부터 음성데이터 접속부(11)에 대하여 이미 출력된 음성데이터의 블럭길이를 모두 가산한 입력총합 S_i를 구함과 동시에, 도 4b에 도시한 바와 같이 이미 접속된 음성데이터의 블럭길이를 모두 가산한 출력총합 S_o를 구한 뒤 이들 입력총합 S_i와 출력총합 S_o를, 희망하는 신축배율 R(R＝1/r: 단, R≥1.0)과, 마지막에 접속된 음성데이터의 블럭길이 L이 다음의 수학식 1에 도시한 조건을 만족하는 타이밍으로 다음의 처리를 실행한다.

L/2＜R·S_i－S_o

즉 마지막에 접속된 블럭 뒤에 접속데이터 축적부(9)에서 출력되는 접속데이터 중, 마지막에 접속된 블럭에 대응하는 접속데이터를 치환, 삽입한 후 마지막에 접속된 블럭 중 접속데이터의 생성에 이용한 부분보다 뒤쪽의 부분을 다시 반복 접속하여 이 블럭데이터 뒤에 남은 블럭을 순서대로 접속하는 것을 도시한 접속순서를 생성하고 이것을 음성데이터접속부(11)에 공급한다.

이로써 도 4a와 도 4b에 도시한 예에서는, 첫번째 블럭에서 8번째 블럭까지를 차례로 접속한 시점에서 수학식 1에 도시한 조건이 만족됨으로써 8번째 블럭 뒤에 이 블럭(8번째 블럭)에 대응하는 접속데이터를 치환, 삽입하여 8번째 블럭 중 접속데이터의 생성에 이용한 부분보다 뒤쪽의 부분을 반복 접속한다. 또 이 도 4a 및 도 4b에 도시한 예에서는 4번째 블럭이 이미 한번 반복 접속되어 있다.

또한 음성첨부VTR 가변속도 재생장치(1)가 조작되어 재생속도가「빠르게」로 설정되어 있는 경우에는 다음 수학식 2에 도시한 조건이 성립되는 타이밍으로 다음과 같은 처리를 한다.

L/2＜S_o－R·S_i

즉, 마지막에 접속되어야 할 블럭을 간인하여 접속데이터 축적부(9)에서 출력되는 접속데이터 중, 해당 간인된 블럭의 직전과 직후의 블럭을 접속하기 위한 접속 데이터를 접속하고, 다시 그 직후의 블럭 중 그 접속데이터의 생성에 이용한 부분보다 뒤쪽의 부분을 접속하고 그 뒤에 나머지 블럭을 순서대로 접속하는 것을 도시한 접속순서를 생성하여 이것을 음성데이터접속부(11)에 공급한다.

이로써 도 5a와 도 5b에 도시한 접속예에서는, 첫번째 블럭부터 8번째 블럭까지를 순서대로 접속한 시점에서 수학식 2에 도시한 조건이 만족됨으로써, 8번째 블럭 다음에 접속되어야 하는 9번째 블럭이 간인되어져 10번째 블럭 중 접속데이터의 생성에 이용한 부분보다 뒤쪽의 부분이 접속된다. 또한 이 도 5a와 도 5b에 도시한 예에서는 4번째 블럭이 이미 한번 간인되어 있다.

또한 음성데이터 접속부(11)는 이미 접속한 음성데이터 등의 접속내용(기존 접속정보)을 접속순서 생성부(1O)에 공급하면서 이 접속순서생성부(10)에서 출력되는 차 t가 제로가 되도록 신축배율을 적응적으로 수정하면서, 접속순서 생성부(10)에서 출력되는 접속순서에 근거하여 블럭데이터 축적부(7)에서 출력되는 블럭 단위의 음성데이터와 접속데이터 축적부(9)에서 출력되는 접속데이터를 접속하고, 이로써 얻어진 일련의 음성데이터를 일시적으로 버퍼링하면서 D/A변환부(12)에 공급한다.

D/A변환부(12)는 음성데이터를 기억하여 FIFO형식으로 출력하는 메모리와, 소정의 샘플링율로 그 메모리에서 음성데이터를 독출하고 이것을 D/A변환하여 음성신호를 생성하는 D/A변환회로를 구비하고 있으며, 음성데이터 접속부(11)에서 출력되는 일련의 음성데이터를 취입하여 이것을 버퍼링하면서 D/A변환하여 음성신호를 생성하고 이것을 출력한다.

이와 같이 본 실시형태에서는, VTR가변속도 재생부(2)를 제어하여 녹음때와 다른 속도로 음성신호를 재생했을 때 샘플링주파수 변환부(4)에 의해 A/D변환시의 샘플링주파수 f_i(Hz)와 D/A변환시의 샘플링주파수 f_o(Hz)를 매칭시키면서 VTR가변속도 재생부(2)의 가변속도비 r과 음성의 속성에 근거하여 음성데이터를 소정의 시간폭을 갖는 블럭단위로 분할하여 축차로 보간 또는 간인함으로써 VTR가변속도 재생부(2)에서 가변속도 재생된 영상신호에 음성의 제시 타이밍을 동기시키면서 음정이변화되지 않은 고품질 음성을 출력시키고 있다. 이 때문에 1/2배속 재생 또는 2배 재생했을 때와 같이 가변속도의 실용적인 사용범위 내에서 가변속도 재생된, 음정이 변화된 음성을 취입하여 음성의 명료함을 유지하면서 영상과 고정밀도로 동기시킨 상태에서 ±1옥타브 정도의 범위에서 음정을 원래로 되돌릴 수 있다.

또한 본 실시형태에서는, 정규 재생속도에 대한 가변속도비 r로 기록매체에서 재생된 음성신호를 샘플링주파수 f_i로 A/D변환하여 얻어진 음성데이터를 디지털신호처리할 때, 음성데이터의 속성을 분석처리한 다음 이 분석처리로 얻어진 정보에 근거하여 음성데이터를 소정의 시간폭을 갖는 블럭단위로 분할하여 블럭단위로 축차로 보간처리 또는 간인처리를 하여 데이터길이를 축차로 1/r배로 하는 일련의 처리를 실시하여 음성데이터를 작성한 뒤 샘플링주파수 f_o로 출력음성데이터를 D/A변환하여 음성신호를 생성하도록 한다. 이 때문에 1/2배속 재생 또는 2배 재생했을 때와 같이 가변속도의 실용적인 사용범위 내에서 가변속도재생된, 음정이 변화된 음성을 취입하여 음성의 명료함을 유지하면서 영상과 고정밀도로 동기시킨 상태에서 음성의 접속부분을 계속 최적화시키면서 ±1옥타브 정도의 범위에서 음정을 원래로 되돌릴 수 있다.

또한 본 실시형태에서는, VTR가변속도 재생부(2)에서 출력되는 음성신호의 가변속도비 r과, 이 음성신호를 A/D변환할 때 사용하는 샘플링주파수 f_i와, 음성데이터를 D/A변환할 때 사용하는 샘플링주파수 f_o가 f_i/f_o＝r을 만족할 때에는 f_i＝r·f_o이 되는 샘플링주파수 f_i를 사용하고, 또한 각 샘플링주파수 f_i,f_o와 가변속도비 r이 f_i/f_o≠r일 때에는 샘플링주파수 변환계수 c를 포함하는, f_i＝r·f_o/c가 되는 샘플링주파수 f_i를 사용하도록 한다. A/D변환부(3)와 블럭데이터 분할부(6)(분석처리부(5))사이에 샘플링주파수 변환부(4)를 삽입하는,종래부터 사용되고 있는 회로에 대하여 약간의 회로를 부가하는 것만으로 1/2배속 재생 또는 2배 재생했을 때와 같이 가변속도의 실용적인 사용범위 내에서 가변속도재생된, 음정이 변화된 음성을 취입하여 음성의 명료함을 유지하면서, 영상과 고정밀도로 동기시킨 상태에서 음성의 접속부분을 계속 최적화시키면서 ±1옥타브 정도의 범위에서 음정을 원래로 되돌릴 수 있다.

또한 본 실시형태에서는, VTR가변속도 재생부(2)에서 출력되는 음성신호를 샘플링주파수 f_i로 A/D변환하여 얻어진 음성데이터를 디지털신호처리할 때, 접속순서생성부(10)를 구성하는 입력데이터길이 감시부(21)에 의해 블럭데이터 축적부(7)에서 출력되는 블럭단위의 길이를 항상 계산하여 입력데이터길이 leng_in을 구하면서, 출력데이터 목표길이 연산부(22)에 의해 입력데이터길이 leng_in과 VTR가변속도 재생부(2)에서 출력되는 가변속도비 r에 근거하여 신축배율(역배율)1/r를 계산하여 출력데이터 목표길이 target(target＝leng_in/r)을 구한다. 또한 그것과 병행하여 출력데이터길이 감시부(23)에 의해 음성데이터 접속부(11)에서 출력되는 기존 접속정보에 근거하여 출력데이터길이 leng_out을 구한다. 그 후, 비교부(24)에 의해 이들 출력데이터 목표길이 target과 출력데이터길이 leng_out의 차 t(t＝target-leng_out)를 구하고 이것을 음성데이터 접속부(11)에 공급하여 이 차t를 제로로 하도록 신축배율을 조정한다. 이 때문에 1/2배속 재생 또는 2배 재생했을 때와 같이 가변속도의 실용적인 사용범위 내에서 가변속도재생된, 음정이 변화된 음성을 취입하여 음성의 명료함을 유지하면서, 음성과 영상의 어긋남을 완전히 보정하여 영상과 고정밀도로 동기시킨 상태에서 음성의 접속부분을 계속 최적화시키면서 ±1옥타브 정도의 범위에서 음정을 원래로 되돌릴 수 있다.

또한 상술한 실시형태에 있어서는 접속순서생성부(1O)에 의해 출력데이터 목표길이 target과 출력데이터길이 leng_out의 차 t(t＝target-leng_

out)를 구하여 음성데이터 접속부(11)에 있어서 차 t가 제로가 되도록 신축배율을 적응적으로 수정제어하도록 하지만, VTR가변속도 재생부(2)에서 출력되는 시각정보를 음성데이터 접속부(11)에 직접 피드백하여 영상타이밍과 음성타이밍이 일치할 수 있도록 신축배율을 제어하도록 해도 좋다.

또한 상술한 실시형태에서는, A/D변환부(3)에서 사용하는 샘플링주파수 f_i와, D/A변환부(12)의 샘플링주파수 f_o와, 가변속도비 r이 소정의 관계가 되도록 각 샘플링주파수 f_i의 주파수를 결정하도록 하지만, 이 때 지상 TV방송 또는 위성방송 A모드의 주파수대역폭(15kHz)을 확보하기 위해 D/A변환의 샘플링주파수 f_o를 32kHz에 고정하도록 해도 좋다. 마찬가지로 VTR가변속도 재생장치의 재생속도에 상관없이 출력음성의 주파수대역폭을 일정하게 하기 위해서도 D/A변환의 샘플링주파수 f_o를 고정하는 것이 바람직하다.

또한 상술한 실시형태에서는 음성부분에 대해서만 신축처리, 음정조정처리등의 처리를 하고 있기 때문에, 본발명의 주요부를 사용하여 업무용VTR장치의 통일포맷에 의한 제어용 인터페이스를 구성하고 이 제어용 인터페이스를 기존의 업무용VTR장치에 외부부착하여 상술한 음정의 복원처리를 실행하도록 해도 좋다.

이에 따라, 현재 사용되고 있는 VTR장치의 기록재생방식, 예컨대 하이비젼방식, NTSC방식 등을 사용하고 있는 VTR장치, 그리고 어떠한 기종, 예컨대 HDD-1000, D5-VTR등의 기종이라도 상술한 실시형태의 효과를 얻을 수 있다.

이상 설명한 바와 같이 본 발명에 따르면, 1/2배속 재생 또는 2배 재생했을 때와 같이 가변속도의 실용적인 사용범위 내에서 가변속도 재생된, 음정이 변화된 음성을 취입하여 음성의 명료함을 유지하면서 영상과 고정밀도로 동기시킨 상태에서 음성의 접속부분을 계속 최적화시키고, 또한 ±1옥타브 정도의 범위에서 음정을 원래로 되돌릴 수 있다.

또한 종래부터 사용되고 있는 회로에 대하여, 약간의 회로를 부가하는 간단한 구성만으로 장치를 실현할 수 있게 된다.

Claims

기록매체에 음성신호를 기록하였을 때의 속도와 다른 재생속도로 상기 기록매체상의 음성신호를 재생할 때 재생된 음성신호의 음정을 조정하는 음성처리 방법에 있어서,

정규 재생속도에 대한 가변속도비 r로 상기 기록매체로부터 재생된 음성신호를 A/D변환하여 음성데이터로 할 때의 샘플링주파수 f_i와, 상기 음성데이터를 디지털신호처리한 후 D/A변환하여 음성신호로 할 때의 샘플링주파수 f_o와, 상기 가변속도비 r이 소정의 조건을 만족하도록 각 샘플링주파수 f_i,f_o를 설정하는 것을 특징으로 하는 음성처리방법.
제1항에 있어서, 상기 가변속도비 r로 상기 기록매체로부터 재생된 음성신호를 샘플링주파수 f_i로 A/D변환하여 얻어진 음성데이터를 디지털신호처리할 때,

상기 음성데이터의 속성을 분석처리한 다음 이 분석처리로 얻어진 정보에 근거하여 상기 음성데이터를 소정의 시간폭을 갖는 블럭단위로 분할하고, 블럭단위로 상기 음성데이터를 축차로 보간처리 또는 간인처리하여 그 데이터길이를 축차로 1/r배로 하는 일련의 처리를 실시하여 출력음성데이터를 작성하고

그 후 상기 샘플링주파수 f_o에서 상기 출력음성데이터를 D/A변환하여 음성신호를 생성하는 것을 특징으로 하는 음성처리방법.
제1항에 있어서, 상기 소정의 조건으로서 상기 각 샘플링주파수 f_i,f_o와 상기 가변속도비 r이 f_i/f_o＝r을 만족할 때에는 f_i＝r·f_o이 되는 샘플링주파수 f_i를 사용하고, 상기 각 샘플링주파수 f_i,f_o와, 상기 가변속도비 r이 f_i/f_o≠r일 때에는 샘플링주파수 변환계수 c를 포함하는 f_i＝r·f_o/c가 되는 샘플링주파수 f_i를 사용하는 것을 특징으로 하는 음성처리방법.
제2항에 있어서, 상기 소정의 조건으로서 상기 각 샘플링주파수 f_i,f_o와 상기 가변속도비 r이 f_i/f_o＝r을 만족할 때에는 f_i＝r·f_o가 되는 샘플링주파수 f_i를 사용하고, 상기 각 샘플링주파수 f_i,f_o와 상기 가변속도비 r이 f_i/f_o≠r일 때에는 샘플링주파수 변환계수 c를 포함하는 f_i＝r·f_o/c가 되는 샘플링주파수 f_i를 사용하는 것을 특징으로 하는 음성처리방법.
제4항에 있어서, 상기 가변속도비 r로 상기 기록매체에서 재생된 음성신호를 샘플링주파수 f_i로 A/D변환하여 얻어진 음성데이터를 디지털신호 처리할 때,

상기 기록매체에서 독출된 음성신호의 시각정보와 상기 일련의 처리를 거쳐 얻어진 출력음성데이터의 시각정보를 감시하여 상기 음성신호와 상기 출력음성데이터와의 사이에서 발생하는 시간의 엇갈림을 보정하는 것을 특징으로 하는 음성처리방법.
기록매체에 음성신호를 기록하였을 때의 속도와 다른 재생속도로 상기 기록매체상의 음성신호를 재생할 때 재생된 음성신호의 음정을 조정하는 음성처리장치에 있어서,

상기 기록매체로부터 재생된 음성신호를 샘플링주파수 f_i로 A/D변환하는 A/D변환수단(3)과,

A/D변환하여 얻어진 음성데이터에 대하여 속성에 근거하여 분석처리하는 분석처리수단(5)과,

이 분석처리로 얻어진 정보에 근거하여 상기 음성데이터를 소정의 시간폭을 갖는 블럭단위로 분할하는 블럭데이터 분할수단(6)과,

분할된 블럭단위로 상기 음성데이터를 축차로 보간처리 또는 간인처리하여 그 데이터길이를 1/r배로 하는 일련의 처리를 실시하여 출력음성데이터를 작성하는 출력음성데이터 작성수단(11)과,

작성된 출력음성데이터를 샘플링주파수 f_o로 D/A변환하여 영상과 동기된 음성을 출력하는 음성출력수단(12)과,

상기 A/D변환할 때의 샘플링주파수 f_i와 상기 음성데이터를 D/A변환하여 음성신호로 할 때의 샘플링주파수 f_o와 상기 가변속도비 r이 소정의 조건을 만족하도록 각 샘플링주파수 f_i,f_o를 설정하는 샘플링주파수 설정수단을 구비하는 것을 특징으로 하는 음성처리장치.
제6항에 있어서, 상기 샘플링주파수 설정수단으로 설정되는 소정의 조건으로서 상기 각 샘플링주파수 f_i,f_o와 상기 가변속도비 r이 f_i/f_o＝r을 만족할 때에는 f_i＝r·f_o가 되는 샘플링주파수 f_i를 사용하고, 상기 각 샘플링주파수 f_i,f_o와, 상기 가변속도비 r이 f_i/f_o≠r일 때에는 샘플링주파수 변환계수 c를 포함하는 f_i＝r·f_o/c가 되는 샘플링주파수 f_i를 사용하는 것을 특징으로 하는 음성처리장치.
제7항에 있어서, 상기 출력음성데이터 작성수단(11)은 상기 기록매체에서 독출된 음성신호의 시각정보와 상기 일련의 처리를 거쳐 얻어진 출력음성데이터의 시각정보를 감시하여 상기 음성신호와 상기 출력음성데이터와의 사이에서 발생하는 시간의 엇갈림을 보정하는 수단을 포함하는 것을 특징으로 하는 음성처리장치.
제6항에 기재된 음성처치장치를 포함하는 것을 특징으로 하는 기록재생장치.
제7항에 기재된 음성처치장치를 포함하는 것을 특징으로 하는 기록재생장치.
제8항에 기재된 음성처치장치를 포함하는 것을 특징으로 하는 기록재생장치.