KR20150050854A - Method and apparatus for recognizing speech based on image - Google Patents

Method and apparatus for recognizing speech based on image Download PDF

Info

Publication number
KR20150050854A
KR20150050854A KR1020130132027A KR20130132027A KR20150050854A KR 20150050854 A KR20150050854 A KR 20150050854A KR 1020130132027 A KR1020130132027 A KR 1020130132027A KR 20130132027 A KR20130132027 A KR 20130132027A KR 20150050854 A KR20150050854 A KR 20150050854A
Authority
KR
South Korea
Prior art keywords
speech
image
section
pattern
voice
Prior art date
Application number
KR1020130132027A
Other languages
Korean (ko)
Other versions
KR101523439B1 (en
Inventor
고한석
송태엽
이경선
김승일
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020130132027A priority Critical patent/KR101523439B1/en
Publication of KR20150050854A publication Critical patent/KR20150050854A/en
Application granted granted Critical
Publication of KR101523439B1 publication Critical patent/KR101523439B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

The present invention relates to a voice recognition method which can detect a voice section by using an image. According to an embodiment of the present invention, the voice recognition method based on image may include the steps of: receiving an input video including lips; extracting at least two consecutive static images from the input video; detecting lips section from the extracted static images; extracting a characteristic value of the detected lips section by using a chaos pattern, wherein the chaos pattern means an attractor pattern shown according to the changes in pixels between two images; and detecting a voice section by using the characteristic value of the extracted lips section.

Description

영상 기반의 음성 인식 방법{METHOD AND APPARATUS FOR RECOGNIZING SPEECH BASED ON IMAGE}METHOD AND APPARATUS FOR RECOGNIZING SPEECH BASED ON IMAGE [0002]

본 발명은 음성 인식 방법에 관한 것으로, 보다 상세하게는 영상을 이용하여 음성 구간을 검출하는 음성 인식 방법에 관한 것이다.The present invention relates to a speech recognition method, and more particularly, to a speech recognition method for detecting a speech segment using an image.

일반적으로 음성 인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 처리하는 기술을 의미한다. 이러한 음성 인식 기술은 주변의 잡음이 적은 실험실, 가정, 또는 사무실 등에서 사용되면 성능이 우수하게 느껴지나, 주변의 잡음이 심한 도로, 복도, 전시장, 회의장 등에서 사용되는 경우에는 인식률이 현저히 떨어지게 된다. 이는 주변 잡음과 사람의 음성을 효과적으로 분리하지 못하기 때문이다. Speech recognition generally refers to a technique in which a computer interprets and processes a speech language that a person speaks. Such a speech recognition technology feels excellent when it is used in a laboratory, a home, or an office with a low ambient noise. However, when the speech recognition technology is used in a road, hallway, exhibition hall, This is because it does not effectively separate ambient noise and human voice.

한편, 음성 인식에서의 음성구간 검출은 음성인식 성능에 큰 영향을 미치는 요소이다. 음성구간 검출을 통해 음성 구간만의 신호를 취함으로써, 음성인식에 소요되는 시간을 단축시킬 수 있으며 비음성 구간에 존재하는 잡음이 음성인식 성능을 하락시킬 수 있는 가능성을 줄일 수 있다. 그러나 잡음이 심한 환경에서는 음향 정보만을 이용한 검출에는 한계가 있다. 특히, 차량 주행 중인 상황에서는 다양한 잡음이 존재하기 때문에 이를 보완할 방안이 필요하다. On the other hand, speech segment detection in speech recognition has a great influence on speech recognition performance. It is possible to shorten the time required for speech recognition by taking a signal of only the speech section through the speech section detection and reduce the possibility that the noise existing in the non-speech section can lower the speech recognition performance. However, in a noisy environment, detection using only acoustic information is limited. In particular, there is a variety of noise in the vehicle driving situation, so there is a need to compensate for this noise.

대한민국 등록특허 제10-0883652호에는 동적 프로그래밍(Dynamic Programming)을 이용하여 돌발 잡음 등이 포함된 입력 음성에서 정확한 음성 구간을 검출함으로써 짧은 길이의 돌발 잡음을 음성으로 인식하지 않도록 하는 음성 구간 검출 장치 및 방법이 개시되어 있다.Korean Patent Registration No. 10-0883652 discloses a speech segment detection apparatus that detects an accurate speech segment in an input speech including a sudden noise or the like by using dynamic programming so that a short-length disturbance noise is not recognized as speech, Method is disclosed.

하지만, 상기 등록특허 제10-0883652호에는 조명 등이 존재하는 다양한 외부 환경에서 정확한 음성 구간 검출을 위한 기술이 개시되어 있지 않다.However, the above-mentioned Japanese Patent No. 10-0883652 does not disclose a technique for detecting a correct speech interval in various external environments in which illumination is present.

따라서 조명 등이 존재하는 다양한 외부 환경에서 정확한 음성 구간 검출을 위한 기술에 대한 연구가 필요한 실정이다.Therefore, it is necessary to study the technology for detecting the accurate speech interval in various external environments in which the illumination is present.

본 발명의 목적은 조명 등이 존재하는 다양한 외부 환경에서 정확한 음성 구간을 검출할 수 있는 영상 기반의 음성 인식 방법을 제공하는 데 있다.An object of the present invention is to provide an image-based speech recognition method capable of detecting an accurate speech interval in various external environments in which illumination and the like exist.

상기 목적을 달성하기 위해 본 발명의 일실시예에 의하면, 입술이 포함된 입력 동영상을 수신하는 단계; 상기 입력 동영상에서 연속된 적어도 2개 정지 영상을 추출하는 단계; 상기 추출된 적어도 2개의 정지 영상에서 입술 영역을 검출하는 단계; 카오스 패턴을 이용하여 상기 검출된 입술 영역에 대한 특징값을 추출하는 단계-상기 카오스 패턴은 두 영상 간의 화소 변화에 의해 나타나는 어트랙터(attractor)의 패턴을 의미함-; 및 상기 추출된 입술 영역의 특징값을 이용하여 음성 구간을 검출하는 단계를 포함하는 영상 기반의 음성 인식 방법이 제공된다.According to an aspect of the present invention, there is provided a method of processing an input moving image, the method comprising: receiving an input moving image including a lip; Extracting at least two consecutive still images from the input moving image; Detecting a lip region in the extracted at least two still images; Extracting a feature value for the detected lip region using a chaos pattern, the chaos pattern representing a pattern of an attractor represented by a pixel change between two images; And detecting the speech interval using the feature value of the extracted lip region.

본 발명의 일실시예에 의한 영상 기반의 음성 인식 방법은 조명 변화 등이 존재하는 다양한 환경에서도 음성 구간을 정확하게 검출할 수 있다.The image-based speech recognition method according to an embodiment of the present invention can accurately detect a speech section even in various environments where illumination changes or the like exist.

도 1은 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 장치의 블록도이다.
도 2는 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 방법의 흐름도이다.
도 3은 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 방법에서 phase space plot 상에 카오스 패턴이 형성된 예를 나타낸다.
도 4는 본 발명의 일실시예와 관련된 유클리디안 차원과 프렉탈 차원을 비교하기 위한 도면이다.
도 5는 본 발명의 일실시예와 관련된 박스카운팅 차원의 예를 나타내는 도면이다.
도 6은 본 발명의 일실시예와 관련된 음성 구간 검출을 위한 상태 천이 모델을 설명하기 위한 도면이다.
도 7은 본 발명의 일실시예와 관련된 음성 인식 방법을 통해 얻어진 음성 구간 검출 결과와 기존의 방법으로 얻어진 음성 구간 검출 결과를 비교하기 위한 나타내는 그래프이다.
1 is a block diagram of an image-based speech recognition apparatus in accordance with an embodiment of the present invention.
2 is a flowchart of a video-based speech recognition method in accordance with an embodiment of the present invention.
FIG. 3 shows an example in which a chaos pattern is formed on a phase space plot in an image-based speech recognition method according to an embodiment of the present invention.
FIG. 4 is a diagram for comparing the euclidean dimension and the fractal dimension according to an embodiment of the present invention.
5 is a diagram illustrating an example of a box counting dimension associated with an embodiment of the present invention.
6 is a view for explaining a state transition model for voice interval detection according to an embodiment of the present invention.
FIG. 7 is a graph for comparing the speech segment detection result obtained through the speech recognition method according to an embodiment of the present invention with the speech segment detection result obtained by the conventional method.

이하, 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 방법 및 장치에 대해 도면을 참조하여 설명하기로 하겠다.Hereinafter, an image-based speech recognition method and apparatus according to an embodiment of the present invention will be described with reference to the drawings.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.When an element is referred to as "including" an element throughout the specification, it is to be understood that the element may include other elements as well, without departing from the spirit or scope of the present invention. Also, the terms "part," " module, "and the like described in the specification mean units for processing at least one function or operation, which may be implemented in hardware or software or a combination of hardware and software .

도 1은 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 장치의 블록도이다.1 is a block diagram of an image-based speech recognition apparatus in accordance with an embodiment of the present invention.

도시된 바와 같이, 영상 기반의 음성 인식 장치(100)는 수신부(100), 전처리부(120), 특징값 추출부(130), 음성 구간 검출부(140), 및 제어부(150)를 포함할 수 있다. 그러나, 도시된 구성요소 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소로 상기 음성 인식 장치(100)가 구성될 수도 있고, 그보다 적은 구성요소에 의해서도 음성 인식 장치(100)가 구성될 수 있다. 상기 음성 인식 장치(100)는 개인용 휴대 단말기, 음성 인식 TV, 대화형 로봇, 음성 기반의 자동차 인터페이스(예: 자동차 내비게이션), 컴퓨터 등 다양한 전자 제품에 적용될 수 있다.As shown, the image-based speech recognition apparatus 100 may include a receiver 100, a preprocessor 120, a feature value extractor 130, a speech interval detector 140, and a controller 150 have. However, not all illustrated components are required. The speech recognition apparatus 100 may be constituted by a larger number of components than the illustrated components, and the speech recognition apparatus 100 may be constituted by fewer components. The speech recognition apparatus 100 may be applied to various electronic products such as a personal portable terminal, a voice recognition TV, an interactive robot, a voice-based automobile interface (e.g., car navigation), and a computer.

수신부(110)는 입술이 포함된 입력 동영상을 수신할 수 있다. 상기 입력 동영상은 음성 구간이 포함된 오디오 신호를 포함할 수 있다.The receiving unit 110 may receive the input moving image including the lip. The input moving image may include an audio signal including a voice interval.

전처리부(120)는 상기 입력 동영상에서 적어도 2개의 연속된 정지 영상을 추출할 수 있다. 상기 연속된 정지 영상은 시간의 흐름에 따라 연속된 정지 영상을 의미한다. 전처리부(120)는 상기 추출된 정지 영상에서 얼굴을 검출하고, 검출된 얼굴 영역에서 입술 영역을 검출할 수 있다. The preprocessing unit 120 may extract at least two consecutive still images from the input moving image. The continuous still image means a continuous still image according to the passage of time. The preprocessing unit 120 may detect a face from the extracted still image and detect the lip region in the detected face region.

특징값 추출부(130)는 입술 영역에 대한 움직임 정보에 근거하여 상기 입술 영역에 대한 특징값을 추출할 수 있다. 특징값 추출부(130)는 입술 영역에 대한 움직임 정보 검출을 위해 카오스 패턴을 이용활 수 있다. 상기 카오스 패턴은 두 영상 간의 화소 변화에 의해 나타나는 어트랙터(attractor)의 패턴을 의미한다. 카오스 패턴을 이용하여 특징값을 검출하는 방법은 후술하기로 한다.The feature value extracting unit 130 may extract a feature value for the lip region based on motion information on the lip region. The feature value extracting unit 130 may use a chaotic pattern for detecting motion information on the lip region. The chaos pattern means a pattern of an attractor represented by a pixel change between two images. A method of detecting the feature value using the chaotic pattern will be described later.

음성 구간 검출부(140)는 추출된 상기 얼굴 영역의 특징값을 이용하여 음성 구간을 검출할 수 있다. 즉, 음성 구간 검출부(140)는 입력 동영상에서 추출한 특징값을 이용하여 음성 구간과 비음성 구간을 판단할 수 있다. 음성과 비음성을 구분하기 위해 특정 문턱값(T)이 이용될 수 있다.The voice section detector 140 can detect the voice section using the extracted feature values of the face area. That is, the voice section detector 140 can determine the voice section and the non-voice section using the feature values extracted from the input moving image. A specific threshold value (T) may be used to distinguish between speech and non-speech.

또한, 음성 구간 검출(140)는 입력 동영상에서 오디오 신호를 추출하고, 상기 추출된 오디오 신호에서 설정된 상한값 및 하한값을 이용하여 음성 구간의 시작 지점과 음성 구간의 종료 지점을 검출할 수 있다.In addition, the audio interval detection unit 140 may extract the audio signal from the input moving image and detect the start point of the audio interval and the end point of the audio interval using the set upper and lower limit values of the extracted audio signal.

제어부(150)는 상기 수신부(110), 상기 전처리부(120), 상기 특징값 추출부(130), 및 음성 구간 검출부(140)를 전반적으로 제어할 수 있다.The control unit 150 may control the receiving unit 110, the preprocessing unit 120, the feature value extracting unit 130, and the voice interval detecting unit 140 as a whole.

도 2는 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 방법의 흐름도이다.2 is a flowchart of a video-based speech recognition method in accordance with an embodiment of the present invention.

수신부(110)는 입술이 포함된 입력 동영상을 수신할 수 있다(S210). 상기 입력 동영상은 음성 구간이 포함된 오디오 신호를 포함할 수 있다.The receiving unit 110 may receive the input moving image including the lip (S210). The input moving image may include an audio signal including a voice interval.

전처리부(120)는 상기 입력 동영상에서 시간의 흐름에 따라 연속된 적어도 2개의 정지 영상을 추출할 수 있다(S220). The preprocessing unit 120 may extract at least two still images that are consecutive from the input moving image according to the passage of time (S220).

그리고 전처리부(120)는 상기 추출된 정지 영상에서 얼굴 영역을 검출하고, 검출된 얼굴 영역에서 입술 영역을 검출할 수 있다(S230). 입술은 얼굴의 하단부에 위치한다는 기하학적 특징을 통해 검출된 얼굴 영역의 하단부에 대해서 입술 영역이 검출될 수 있다. YCbCr 색상 공간에서 입술은 Cr과 Cb 성분이 얼굴의 피부색보다 뚜렷하게 대비된다. 이러한 특징을 통해 Cr과 Cb 성분을 이용한 Mouth Map 영상기반의 입술 검출 방법이 이용될 수 있다.The preprocessing unit 120 may detect the face region in the extracted still image and detect the lip region in the detected face region (S230). The lip region can be detected with respect to the lower end portion of the face region detected through the geometric feature that the lip is located at the lower end portion of the face. In the YCbCr color space, the lips are contrasted with the Cr and Cb components more clearly than the facial skin color. This feature can be used to detect the mouth based on the mouth map using Cr and Cb components.

특징값 추출부(130)는 카오스 패턴을 이용하여 상기 검출된 입술 영역에 대한 특징값을 추출할 수 있다(S240). 상기 특징값은 상기 입술 영역의 움직임 검출을 위해 사용될 수 있다.The feature value extracting unit 130 may extract the feature value of the detected lip region using the chaos pattern (S240). The feature value may be used for motion detection of the lip region.

본 명세서에서 영상에 대해 각각 가우시안 마스크 연산을 통해 흐림 효과를 준 후 화소값에 대해 결합 분포를 구한 결과를 phase space plot라고 정의할 수 있다.In the present specification, a phase space plot can be defined as a result of obtaining a combined distribution for a pixel value after applying a blur effect through a Gaussian mask operation to an image, respectively.

만약 입력 동영상에서 추출한 시간에 연속한 두 영상이 고정된 배경을 가질 때, 두 영상에서 내에 움직이는 객체가 존재하면 phase space plot에 카오스적인 패턴이 형성된다. 이에 반해 두 영상간의 차이가 거의 없거나, 전체적인 밝기의 변화만 발생하는 경우 직선에 가까운 패턴이 형성된다.If two consecutive images at a time extracted from the input video have a fixed background, a chaotic pattern is formed in the phase space plot when there are moving objects in the two images. On the other hand, if there is little difference between the two images or if only the overall brightness changes, a pattern close to the straight line is formed.

도 3은 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 방법에서 phase space plot 상에 카오스 패턴이 형성된 예를 나타낸다.FIG. 3 shows an example in which a chaos pattern is formed on a phase space plot in an image-based speech recognition method according to an embodiment of the present invention.

도 3(a)는 비음성 구간에서의 카오스 패턴이 형성된 예를 나타내고, 도 3(b)는 음성 구간에서의 카오스 패턴이 형성된 예를 나타낸다. 즉, 영상 내 입술의 움직임이 적은 두 영상에 대해서는 phase space plot에 비카오스적인 직선에 가까운 패턴이 나타나며, 음성 구간에서는 입술의 움직임으로 인해 phase space plot에 카오스적인 패턴이 나타나는 것을 알 수 있다. 3 (a) shows an example in which a chaos pattern is formed in a non-voice section, and Fig. 3 (b) shows an example in which a chaos pattern in a voice section is formed. In other words, a chaotic pattern appears on the phase space plot for two images with little motion of the lips in the image, and a chaotic pattern appears on the phase space plot due to the movement of the lips in the voice region.

한편, 본 발명의 일실시예에 의하면, 카오스 패턴의 프렉탈(fractal dimension)을 이용하여 상기 입술 영역에 대한 특징값을 추출할 수 있다. 음성 구간의 두 영상에서 계산한 phase space plot상의 카오스 패턴을 프렉탈 차원(fractal dimension)을 계산하여 정량화하고 입술의 움직임을 검출할 수 있다.According to an embodiment of the present invention, a feature value for the lip region can be extracted using a fractal dimension of a chaotic pattern. The fractal dimension of the chaotic pattern on the phase space plot calculated from the two images of the speech region can be quantified and the motion of the lips can be detected.

도 4는 본 발명의 일실시예와 관련된 유클리디안 차원과 프렉탈 차원을 비교하기 위한 도면이다. 도 4(a)는 유클리디안 차원을 나타내고, 도 4(b)는 프렉탈 차원을 나타낸다.FIG. 4 is a diagram for comparing the euclidean dimension and the fractal dimension according to an embodiment of the present invention. Fig. 4 (a) shows the euclidean dimension, and Fig. 4 (b) shows the fractal dimension.

프렉탈은 작은 구조가 전체 구조와 비슷한 형태로 끝없이 되풀이 되는 구조를 나타내며, 프렉탈 차원은 프렉탈이 얼마나 완벽하게 공간을 채우고 있는지를 나타낸다. 유클리디안 차원의 정의가 좌표축의 개수(2차원은 x,y, 3차원은 x,y,z라는 접근방식)이라면, 프렉탈에서 말하는 차원은 자기 복제를 하는데 필요한 도형의 숫자로 정의된다. 예를 들어 정사각형의 경우 각 변의 길이를 3배로 만들 경우 면적이 9배가 되므로, 길이의 변화에 따른 면적의 변화는 길이 변화 배수의 제곱으로 나타난다. 따라서 프렉탈 차원은 2차원이 된다. Fractal represents a structure in which a small structure repeats endlessly in a shape similar to the whole structure, and the fractal dimension represents how perfect the fillet fills the space. If the definition of an euclidean dimension is the number of coordinate axes (two dimensions are x, y, and three dimensions are x, y, and z approaches), then the dimension referred to in the fractal is defined as the number of figures needed to self-replicate. For example, in the case of a square, if the length of each side is tripled, the area becomes 9 times. Therefore, the change of the area with the change of the length is expressed as the square of the length change. Thus, the fractal dimension becomes two-dimensional.

상기 프렉탈 차원을 이용하는 방법의 예로 박스카우팅 차원(ox-counting dimension)을 사용하여 phase space plot상의 카오스 패턴을 정량화하는 방법이 이용될 수 있다.As an example of a method of using the fractal dimension, a method of quantizing a chaotic pattern on a phase space plot using an ox-counting dimension may be used.

도 5는 본 발명의 일실시예와 관련된 박스카운팅 차원의 예를 나타내는 도면이다. 도 5(a)는 박스카운팅 차원이 1인 경우를 나타내고, 도 5(b)는 박스카운팅 차원이 2인 경우를 나타낸다.5 is a diagram illustrating an example of a box counting dimension associated with an embodiment of the present invention. Fig. 5 (a) shows the case where the box counting dimension is 1, and Fig. 5 (b) shows the case where the box counting dimension is 2.

영상에서 크기가 δ인 박스를 계속 분할하면 박스의 크기는 분할 횟수와 반비례하여 작아지게 되는데, 분할을 거듭하게 되면 분할 수와 데이터를 포함한 격자의 개수의 로그좌표 그래프(Richardson plot)가 직선에 근사하게 나타난다. 이 그래프의 기울기를 박스카운팅 차원으로 정의한다. If the box with size δ is continuously divided in the image, the size of the box becomes smaller in inverse proportion to the number of divisions. If the divisions are repeated, a Richardson plot of the number of divisions and the number of grids including data is approximated to a straight line . The slope of this graph is defined as the box counting dimension.

상기 박스카운팅 차원은 수학식 1로 표현될 수 있다.The box counting dimension may be expressed by Equation (1).

Figure pat00001
Figure pat00001

음성 구간의 phase space plot과 같은 카오스 패턴의 경우 높은 프렉탈 차원을 가지며, 비음성 구간과 같은 비카오스 패턴은 낮은 프렉탈 차원을 가진다. 본 발명의 일실시예에 의하면, 이러한 특성이 프렉탈 차원을 입술의 움직임에 따른 변화량 측정에 사용될 수 있다.Chaos patterns such as the phase space plot of the speech section have a high fractal dimension, and non-speech sections have a low fractal dimension. According to one embodiment of the present invention, this characteristic can be used to measure the amount of change in the fractal dimension according to the movement of the lips.

상기 음성 구간 검출부(140)는 입력 동영상에서 추출한 특징값을 이용하여 음성 구간과 비음성 구간을 판단할 수 있다(S250). 음성과 비음성을 구분하는 문턱값(T)은 입력 영상에서 처음 일정구간을 비음성 구간으로 가정하고 특징값의 분포를 이용하여 결정한다. 이 문턱값을 프레임간의 특징값과 비교하여 음성/비음성 구간을 판단하게 된다. 상기 판단 결과는 수학식 2로 표현될 수 있다.The voice section detector 140 may determine the voice section and the non-voice section using the feature values extracted from the input moving image (S250). The threshold value (T) that distinguishes between speech and non-speech is determined by using the distribution of feature values, assuming that the first interval is the non-speech interval in the input image. The threshold value is compared with a feature value between frames to determine a speech / non-speech interval. The determination result may be expressed by Equation (2).

Figure pat00002
Figure pat00002

여기서 P는 phase space plot을 나타내며,

Figure pat00003
는 시간 t에서의 영상 정보를 나타낸다. 판단 결과 1인 경우 음성 구간임을, 0인 경우는 비음성 구간임을 나타낸다. Where P represents a phase space plot,
Figure pat00003
Represents image information at time t. As a result of the judgment, it indicates that the voice section is 1, and when it is 0, it is the non-voice section.

상기 수학식 2의 판단 결과에서 어휘에 묵음 구간으로 인해 음성 구간에서 비음성 구간으로 잘못 검출되는 경우가 발생할 수 있다. 이러한 문제를 해결하기 위해 상태 천이 모델이 이용될 수 있다. 즉, 입력 동영상에 포함된 오디오 신호를 추출하고, 상기 추출된 오디오 신호에서 설정된 상한값 및 하한값을 이용하여 음성 구간의 시작 지점과 음성 구간의 종료 지점을 검출할 수 있다.In the result of the determination of Equation (2), it may occur that the vocabulary is erroneously detected as a non-speech section in the speech section due to the silence section. To solve this problem, a state transition model can be used. That is, the audio signal included in the input moving picture can be extracted, and the start point of the audio section and the end point of the audio section can be detected using the upper and lower limit values set in the extracted audio signal.

도 6은 본 발명의 일실시예와 관련된 음성 구간 검출을 위한 상태 천이 모델을 설명하기 위한 도면이다.6 is a view for explaining a state transition model for voice interval detection according to an embodiment of the present invention.

도 6에서 Silence는 비음성 구간(음성 부재 구간)을 나타내고, In speech는 음성 구간을 나타낸다. Leaving speech는 음성 구간이지만 비음성 구간으로 변할 수 있는 구간을 의미한다. 하한값 TL(lower threshold), 상한값 TU (upper threshold), Gap은 끝나는 점을 결정하기 위한 허용치로써 실험적으로 정하는 상수이다. 단, 상한값은 하한값 보다 크다고 가정한다. In Fig. 6, Silence represents a non-speech section (speech absence section), and In speech represents a speech section. Leaving speech means a section that can be changed into a speech section but a non-speech section. Lower limit value TL (upper threshold), upper limit value TU (upper threshold), and Gap are empirically determined constants to determine the ending point. However, it is assumed that the upper limit value is larger than the lower limit value.

도 6에 도시된 상태 천이 모델을 이용하면, 음성 구간 검출부(140)는

Figure pat00004
이 TU 보다 작으면 음성이 없는 비음성 구간(Silence)으로 판단하고,
Figure pat00005
이 TU 보다 커지면 음성 구간이 시작된 것으로 판단할 수 있다. 그리고 음성 구간 검출부(140)는 그 부분을 음성 구간(In speech)의 시작점으로 검출할 수 있다.Using the state transition model shown in Fig. 6, the voice section detection section 140
Figure pat00004
If it is smaller than the TU, it is determined as a non-speech section (silence)
Figure pat00005
It can be determined that the voice interval has started. Then, the voice section detector 140 can detect the part as the start point of the voice section (In speech).

한편, 음성 구간 검출부(140)는

Figure pat00006
이 TL 보다 작아지면 아직 음성 구간이긴 하지만 비음성 구간으로 바뀔 가능성이 있는 구간(Leaving speech)으로 판단하고, Count를 0으로 간주한다. Count는
Figure pat00007
이 TL과 TU 사이에 연속적으로 존재하는 회수를 의미한다. 음성 구간 검출부(140)는 Count가 Gap 보다 작으면 Leaving speech로 판단하고, Count가 Gap 보다 크면 Silence로 판단한다. Silence로 판단되는 해당 프레임이 음성 구간의 종료 지점이 된다. 또한, 음성 구간 검출부(140)는
Figure pat00008
이 TL 보다 작아지면 Count를 0으로 잡고 해당 프레임을 Leaving speech 단계로 유지할 수 있다. 그리고
Figure pat00009
이 TU 보다 커지면 다시 In speech 구간으로 간주할 수 있다.On the other hand, the voice interval detection unit 140
Figure pat00006
Is smaller than TL, it is determined that the speech is still a speech segment, but it is a segment (Leaving speech) likely to be changed to a non-speech segment, and Count is regarded as 0. Count is
Figure pat00007
Means the number of consecutive times between TL and TU. If the Count is less than the Gap, the speech interval detector 140 determines Leaving speech. If the Count is greater than the Gap, the speech interval detector 140 determines that the speech is silence. The frame determined as silence is the end point of the voice section. Further, the voice section detection section 140
Figure pat00008
Is smaller than TL, it is possible to hold the count at 0 and hold the frame at the Leaving speech stage. And
Figure pat00009
If it is larger than TU, it can be regarded as In speech section again.

도 6에 도시된 상태 천이 모델을 이용하면, 잡음의 크기에 따라 상한과 하한을 조절함으로써, 정밀한 음성 구간 검출이 가능하다.Using the state transition model shown in FIG. 6, accurate voice interval detection is possible by adjusting the upper and lower limits according to the size of the noise.

이하는 영상 기반 음성구간 검출 알고리즘의 성능을 평가하기 위해 차량에서 촬영한 동영상을 이용하여 음성 구간 검출을 실험한 예이다. 실험에 사용된 동영상은 913프레임의 동영상으로 구성되어 있고, 197 프레임의 음성 구간을 가지고 있다.In order to evaluate the performance of the image-based speech segment detection algorithm, an example of speech segment detection using an image taken from a vehicle is described below. The video used in the experiment consists of 913 frames of video and has a speech interval of 197 frames.

성능 측정을 위해 검출률(PD)과 오검출률(FA)을 평가 지표로 사용하였다. 검출률은 전체 음성구간 프레임의 수와 올바르게 음성구간으로 검출된 프레임 수의 비율로 나타나며, 오검출률은 전체 비음성구간 프레임의 수와 비음성구간인데 음성 구간으로 잘못 검출된 프레임의 비율이다. 광류를 사용하는 기존 음성구간 검출 알고리즘과 성능 비교를 수행한 결과는 표 1과 같다.
Detection rate (PD) and false positive rate (FA) were used as evaluation index for performance measurement. The detection rate is represented by the ratio of the number of frames of the entire speech interval and the number of frames detected correctly as the speech interval. The false detection rate is the ratio of the number of non-speech interval frames to the number of false detection frames. Table 1 shows the results of the performance comparison with the existing voice interval detection algorithm using the optical flow.

방법Way 검출률Detection rate 오검출률False detection rate 실험 데이터Experimental data ConventionalConventional 95.9895.98 12.8412.84 ProposedProposed 96.4596.45 0.130.13

Conventional은 광류를 사용하는 기존 음성구간 검출 방법이고, Proposed는 카오스 패턴을 이용한 본 발명의 일실시예에 의한 방법이다.Conventional is a conventional voice segment detection method using an optical path, and Proposed is a method according to an embodiment of the present invention using a chaotic pattern.

도 7은 본 발명의 일실시예와 관련된 음성 인식 방법을 통해 얻어진 음성 구간 검출 결과와 기존의 방법으로 얻어진 음성 구간 검출 결과를 비교하기 위한 나타내는 그래프이다. 즉, 표 1에 대한 결과 그래프이다.FIG. 7 is a graph for comparing the speech segment detection result obtained through the speech recognition method according to an embodiment of the present invention with the speech segment detection result obtained by the conventional method. That is, it is the result graph for Table 1.

여기서 Motion Energy는 입술의 움직임을 광류를 통해 나타낸 것이고, Chaos Measure는 입술의 움직임을 카오스 패턴을 통해 나타낸 것이다. 또한, VVAD Result는 영상 기반의 음성 검출을 의미하고, Ground Truth는 실제 측정한 음성 구간을 의미한다.Here, Motion Energy represents the motion of the lips through the optical flow, and Chaos Measure represents the movement of the lip through the chaos pattern. In addition, VVAD Result means image-based voice detection, and Ground Truth means actually measured voice interval.

상기 도 7을 통해 본 발명의 일실시예에 의한 음성 구간 검출이 기존 음성구간 검출 방법에 비해 오검출률이 훨씬 적다는 것을 확인할 수 있다.7, it can be seen that the detection of a speech interval according to an embodiment of the present invention is much less false as compared with a conventional speech interval detection method.

전술한 바와 같이, 본 발명의 일실시예에 의한 영상 기반의 음성 인식 방법은 카오스 패턴을 이용함으로써, 조명 변화 등의 다양한 외부 환경에서 정확한 음성 구간을 검출할 수 있다.As described above, an image-based speech recognition method according to an embodiment of the present invention can detect an accurate speech interval in various external environments such as illumination change by using a chaotic pattern.

상술한 영상 기반의 음성 인식 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.The image-based speech recognition method described above may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable recording medium. At this time, the computer-readable recording medium may include program commands, data files, data structures, and the like, alone or in combination. On the other hand, the program instructions recorded on the recording medium may be those specially designed and configured for the present invention or may be available to those skilled in the art of computer software.

컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. The computer-readable recording medium includes a magnetic recording medium such as a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, an optical medium such as a CD-ROM and a DVD, a magnetic disk such as a floppy disk, A magneto-optical media, and a hardware device specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like.

한편, 이러한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.The recording medium may be a transmission medium, such as a light or metal line, a wave guide, or the like, including a carrier wave for transmitting a signal designating a program command, a data structure, and the like.

또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The program instructions also include machine language code, such as those generated by the compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

상기와 같이 설명된 영상 기반의 음성 인식 방법 및 장치는 상기 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.The above-described image-based speech recognition method and apparatus are not limited to the configuration and method of the above-described embodiments, but the embodiments may be modified so that all or part of the embodiments may be modified Or may be selectively combined.

100: 음성 인식 장치
110: 수신부
120: 전처리부
130: 특징값 추출부
140: 음성 구간 검출부
150: 제어부
100: Speech recognition device
110:
120:
130: Feature value extraction unit
140: Voice section detector
150:

Claims (5)

입술이 포함된 입력 동영상을 수신하는 단계;
상기 입력 동영상에서 연속된 적어도 2개 정지 영상을 추출하는 단계;
상기 추출된 적어도 2개의 정지 영상에서 입술 영역을 검출하는 단계;
카오스 패턴을 이용하여 상기 검출된 입술 영역에 대한 특징값을 추출하는 단계-상기 카오스 패턴은 두 영상 간의 화소 변화에 의해 나타나는 어트랙터(attractor)의 패턴을 의미함-; 및
상기 추출된 입술 영역의 특징값을 이용하여 음성 구간을 검출하는 단계를 포함하는 것을 특징으로 하는 영상 기반의 음성 인식 방법.
The method comprising: receiving an input moving image including a lip;
Extracting at least two consecutive still images from the input moving image;
Detecting a lip region in the extracted at least two still images;
Extracting a feature value for the detected lip region using a chaos pattern, the chaos pattern representing a pattern of an attractor represented by a pixel change between two images; And
And detecting a speech interval using a feature value of the extracted lip region.
제 1 항에 있어서, 상기 이용되는 카오스 패턴은
phase space plot 상에 형성되는 것인 특징으로 하는 영상 기반의 음성 인식 방법.
The method according to claim 1, wherein the used chaotic pattern
phase space plot of the input image.
제 2 항에 있어서, 상기 입술 영역에 대한 특징값 추출 단계는
상기 카오스 패턴의 프렉탈 차원을 이용하여 수행하는 단계를 포함하는 것을 특징으로 하는 영상 기반의 음성 인식 방법.
3. The method of claim 2, wherein the step of extracting feature values for the lip region comprises:
And using the fractal dimension of the chaotic pattern.
제 3 항에 있어서, 상기 프렉탈 차원의 이용은
박스카운팅 차원을 이용을 포함하는 것을 특징으로 하는 영상 기반의 음성 인식 방법.
4. The method of claim 3, wherein the use of the fractal dimension
And using a box counting dimension.
제 3 항에 있어서, 상기 음성 구간 검출 단계는
상기 입력 동영상에 포함된 오디오 신호를 추출하는 단계;
상기 추출된 오디오 신호에서 설정된 상한값 및 하한값을 이용하여 음성 구간의 시작 지점과 음성 구간의 종료 지점을 검출하는 단계를 포함하는 것을 특징으로 하는 영상 기반의 음성 인식 방법.
4. The method of claim 3, wherein the voice interval detection step
Extracting an audio signal included in the input moving picture;
And detecting an end point of the speech section and an end point of the speech section using the set upper and lower limit values of the extracted audio signal.
KR1020130132027A 2013-11-01 2013-11-01 Method and apparatus for recognizing speech based on image KR101523439B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130132027A KR101523439B1 (en) 2013-11-01 2013-11-01 Method and apparatus for recognizing speech based on image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130132027A KR101523439B1 (en) 2013-11-01 2013-11-01 Method and apparatus for recognizing speech based on image

Publications (2)

Publication Number Publication Date
KR20150050854A true KR20150050854A (en) 2015-05-11
KR101523439B1 KR101523439B1 (en) 2015-05-27

Family

ID=53388501

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130132027A KR101523439B1 (en) 2013-11-01 2013-11-01 Method and apparatus for recognizing speech based on image

Country Status (1)

Country Link
KR (1) KR101523439B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452381A (en) * 2016-05-30 2017-12-08 中国移动通信有限公司研究院 A kind of multi-media voice identification device and method
KR20200142131A (en) * 2019-06-11 2020-12-22 서강대학교산학협력단 Speech recognition device and operating method thereof

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100820141B1 (en) * 2005-12-08 2008-04-08 한국전자통신연구원 Apparatus and Method for detecting of speech block and system for speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452381A (en) * 2016-05-30 2017-12-08 中国移动通信有限公司研究院 A kind of multi-media voice identification device and method
KR20200142131A (en) * 2019-06-11 2020-12-22 서강대학교산학협력단 Speech recognition device and operating method thereof

Also Published As

Publication number Publication date
KR101523439B1 (en) 2015-05-27

Similar Documents

Publication Publication Date Title
US11450146B2 (en) Gesture recognition method, apparatus, and device
US11643076B2 (en) Forward collision control method and apparatus, electronic device, program, and medium
Vennelakanti et al. Traffic sign detection and recognition using a CNN ensemble
Liong et al. Automatic apex frame spotting in micro-expression database
US9947077B2 (en) Video object tracking in traffic monitoring
US9317772B2 (en) Method for improving tracking using dynamic background compensation with centroid compensation
EP2309454B1 (en) Apparatus and method for detecting motion
KR101508310B1 (en) Apparatus and method for tracking multiple moving objects in video surveillance system
KR102474837B1 (en) Foreground area extracting method and apparatus
Heo et al. Appearance and motion based deep learning architecture for moving object detection in moving camera
KR101868103B1 (en) A video surveillance apparatus for identification and tracking multiple moving objects and method thereof
US20190164259A1 (en) Method and apparatus for removing turbid objects in an image
KR102351497B1 (en) Method and apparatus for detecting a voice section based on image information
JP2012073971A (en) Moving image object detection device, method and program
CN114519880A (en) Active speaker identification method based on cross-modal self-supervision learning
US11587202B2 (en) Method, apparatus or computer program for controlling image processing of a captured image of a scene to adapt the captured image
KR101523439B1 (en) Method and apparatus for recognizing speech based on image
KR100680278B1 (en) Method for lip shape extraction and apparatus thereof
KR20200036079A (en) System and Method for Detecting Deep Learning based Human Object using Adaptive Thresholding Method of Non Maximum Suppression
Li et al. Automatic lip localization under face illumination with shadow consideration
Joosten et al. Voice activity detection based on facial movement
Huang et al. Deep learning based moving object detection for video surveillance
US20200005471A1 (en) Image detection device, image detection method and storage medium storing program
CN113544735A (en) Personal authentication apparatus, control method, and program
CN106951831B (en) Pedestrian detection tracking method based on depth camera

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180406

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190411

Year of fee payment: 5