KR101164379B1

KR101164379B1 - 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법

Info

Publication number: KR101164379B1
Application number: KR1020110076476A
Authority: KR
Inventors: 민병철
Original assignee: 민병철
Priority date: 2011-08-01
Filing date: 2011-08-01
Publication date: 2012-08-07
Also published as: US20130034835A1

Abstract

본 발명은 사용자 자신이 학습할 내용을 직접 녹음하여 학습용 음원으로 사용할 수 있고 녹음된 음원을 듣고 따라하면서 학습할 수 있는 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법에 관한 것이다. 사용자가 학습하고자 하는 내용을 녹음한 후 재생하면서 따라 말하면 녹음된 내용의 포먼트와 사용자 음성의 포먼트를 제공하고 상기 포먼트의 매칭율을 제공해줌으로써 사용자가 원하는 내용에 대한 학습을 진행하면서 발음 교정도 할 수 있는 효과가 있다.

Description

사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법{LEARNING DEVICE AVAILABLE FOR USER CUSTOMIZED CONTENTS PRODUCTION AND LEARNING METHOD THEREOF}

본 발명은 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법에 관한 것으로서, 더욱 상세하게는 사용자 자신이 직접 학습할 내용을 녹음하고 녹음 내용을 재생하면서 학습할 수 있는 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법에 관한 것이다.

산업의 전문화와 국제화의 추세에 따라 영어에 대한 중요성이 날로 커지고 있다. 영어의 중요성이 커지면서 많은 사람들이 영어 학습에 많은 시간과 돈을 할애하고 있다.

이전에는 책과 테이프를 이용하여 영어 학습을 하였다면 이제는 멀티미디어의 발달에 따라 컴퓨터, 노트북, 태블릿 PC, MP3, 스마트 폰 등의 전자기기에 다양한 영어 관련 컨텐츠를 저장해 놓고 수시로 재생하면서 영어 학습을 하는 추세이다.

그러나 전자기기에 저장되는 영어 관련 컨텐츠는 일부 샘플을 제외하고 대부분 유로로 구입해야 하므로 영어 학습을 하려는 사람들에게 다소 부담이 될 수 있다.

경제적 부담이 될 수 있는 영어 관련 컨텐츠의 구입 대신에 영어 학습을 하려는 사람은 외국인과의 대화 내용, 국제 세미나의 연설이나 발표, TV 등의 매체에서 방영되는 영어 관련 내용 등을 나만의 영어 학습을 위해 사용하고자 하는 욕구가 있다.

이를 위해 학습자는 녹음기를 가지고 다니면서 필요한 때에 녹음을 할 수 있으나 다양한 전자기기를 휴대하고 있는 상황에서 별도의 녹음기를 가지고 다니는 것 자체가 불편하며 단순히 녹음된 내용을 듣는 행위는 체계적인 학습을 하려는 사람의 욕구를 전혀 충족시켜 줄 수 없다.

또한 학습자의 발음 향상을 위해서는 누군가로부터 발음 지도를 받아야 하는데 전자기기를 통한 영어 학습은 단순한 재생과 따라하기에 그쳐서 정확한 발음의 외국어 습득이 어렵다는 문제점이 있다.

본 발명은 상기의 문제점을 해결하기 위해 창안된 것으로서, 학습자가 실생활에서 필요한 때에 즉각적으로 영어 방송, 영화, 원어민 대화 등을 직접 녹음하여 녹음된 내용을 학습에 사용할 수 있도록 하는 학습 장치 및 이를 이용한 학습 방법을 제공하는 것을 목적으로 한다.

본 발명의 다른 목적은 음성 분석 프로세스를 이용하여 음원과 학습자의 발음을 시각적으로 제공하여 외국어의 정확한 발음에 대한 학습이 가능하도록 하는 데 있다.

이를 위하여, 본 발명의 제1 측면에 따르면, 본 발명에 따른 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치는, 사용자의 선택에 따른 동작 제어를 위한 입력 데이터를 입력하기 위한 사용자 인터페이스부: 마이크에 입력되는 음원을 녹음하고 녹음된 음원을 재생하는 녹음 재생부; 상기 재생되는 음원을 인식하고 상기 음원 재생 후 마이크에 입력되는 사용자의 음성을 인식하는 음성 인식부; 상기 음성 인식부에서 인식한 음원과 상기 사용자의 음성을 매칭시켜 매칭 데이터를 생성하는 매칭부; 상기 매칭 데이터를 시각적으로 표시하는 디스플레이부를 포함하는 것을 특징으로 한다.

상기 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치는, 사용자가 설정하는 재생 옵션에 따라 음원을 재생하도록 제어하는 제어부; 상기 녹음된 음원을 사용자가 원하는 형태로 편집하는 편집부를 더 포함하는 것을 특징으로 한다.

상기 음성 인식부는 메모리에 저장된 음성 분석 프로세스를 이용하는 것을 특징으로 한다.

상기 재생 옵션은 음원의 재생 속도, 재생 단위, 재생 반복 구간을 포함하고, 상기 재생 단위는 단어, 의미상의 분절, 문장, 문단을 포함하는 것을 특징으로 한다.

상기 편집부는 상기 녹음된 음원의 일부를 삭제하는 기능, 상기 녹음된 음원을 STT를 통해 텍스트로 변경하는 기능, 변경된 텍스트의 일부를 다른 문자로 바꿔 TSS를 통해 새로운 음원을 획득하는 기능을 포함하는 것을 특징으로 한다.

본 발명의 제2 측면에 따르면, 사용자가 녹음한 음성 컨텐츠들 중 하나를 선택하여 재생하는 재생 단계; 상기 재생 이후 사용자의 음성을 입력받아 인식하는 인식 단계; 상기 인식 단계에서 인식한 음성과 상기 음성 컨텐츠를 매칭시켜 매칭 데이터를 생성하는 매칭 데이터 생성 단계; 및 상기 매칭 데이터를 사용자에게 제공하는 제공 단계를 포함하는 것을 특징으로 한다.

상기 인식 단계에서 사용자 음성을 주파수로 분석하여 어떤 주파수에 얼마큼의 에너지가 있는지를 확인하는 것을 특징으로 한다.

상기 제공 단계에서 상기 매칭 데이터를 그래프 또는 매칭 백분율 중 적어도 하나로 제공하는 것을 특징으로 한다.

상기 매칭 데이터가 일정기준 이하인 경우 상기 재생 단계로 되돌아가는 것을 특징으로 한다.

상기 재생 단계는, 사용자 입력에 의해 재생 속도를 설정하는 과정; 사용자 입력에 의해 재생 단위를 설정하는 과정; 및 사용자 입력에 의해 반복 재생 구간을 설정하는 과정을 더 포함하는 것을 특징으로 한다.

상기 재생 단위는 단어, 의미상의 분절, 문장, 문단을 포함하는 것을 특징으로 한다.

본 발명에 따르면, 사용자가 필요한 때에 언제라도 다양한 음원을 바로 녹음 또는 녹화하여 학습에 사용할 수 있으므로 능동적인 학습이 이루어질 수 있는 효과가 있다.

본 발명에 따르면, 사용자가 필요한 경우, 원터치 기능에 의해 바로 학습 어플리케이션을 구동시켜서 녹음 또는 녹화를 할 수 있게 함으로써, 원하는 시간에 즉각적으로 음원을 확보할 수 있다는 효과가 있다.

또한, 사용자가 원하는 다양한 컨텐츠를 비용 없이 학습 장치에 저장해 놓고 저장된 컨텐츠를 자신의 필요에 따라 편집할 수 있으므로 경제적 부담 없이 자신만의 학습을 진행할 수 있는 효과가 있다.

또한, 학습 시에 음원과 사용자 목소리의 포먼트 대조를 통해 발음 유사도를 시각적으로 확인할 수 있기 때문에 사용자의 발음과 음원(원어민의 발음)이 어느 정도 유사한지 파악할 수 있어서 발음을 용이하게 교정할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치를 이용한 학습 과정을 나타내는 흐름도이다.
도 3은 본 발명의 일 실시예에 따라 스마트폰을 통해 학습을 진행할 때 스마트폰에 표시되는 화면이다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다. 본 발명의 상세한 설명에 앞서, 동일한 구성요소에 대해서는 다른 도면 상에 표시되더라도 가능한 동일한 부호로 표시하며, 공지된 구성에 대해서는 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 구체적인 설명은 생략하기로 함에 유의한다.

도 1을 참조하여 본 발명의 바람직한 일 실시예에 따른 사용자 맞춤형 컨텐츠 제작 가능한 학습 장치(10)의 기술적 구성을 설명하도록 한다.

도시한 바와 같이, 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치(10)는 사용자 인터페이스부(100), 음성 인식부(200), 녹음 재생부(300), 매칭부(400), 메모리부(500), 제어부(600), 편집부(700), 디스플레이부(800), 마이크(900), 스피커(1000), 통신 인터페이스부(도시 생략) 등을 포함한다.

사용자 인터페이스부(100)는 사용자가 학습용 컨텐츠 녹음 및 편집, 모드 선택 등에 따른 동작 제어를 위한 입력 데이터를 발생시킨다. 사용자 인터페이스부(100)는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다. 특히, 터치 패드가 후술하는 디스플레이부(800)와 상호 레이어 구조를 이루는 경우 터치 스크린이 될 수 있다.

음성 인식부(200)는 마이크를 통해 입력되는 음원에서 음성을 인식한다.

녹음 재생부(300)는 사용자의 선택에 따라 음원 즉, 사용자 음성 또는 학습용 컨텐츠를 녹음하고 녹음된 컨텐츠를 출력한다.

녹음 재생부(300)는 카메라와 연동하여 동영상을 녹화하고 녹화된 컨텐츠를 출력할 수도 있다.

매칭부(400)는 사용자의 음성과 학습용 컨텐츠를 매칭시킨다. 매칭부(400)는 사용자의 음성과 음원과의 매칭 정도를 파악하여 그 차이점을 보여주기 때문에 사용자는 음원(원어민의 발음)과 유사한 발음을 내기 위한 발음 연습을 효과적으로 할 수 있다.

메모리부(500)는 컨텐츠 데이터베이스, 사용자 정보 데이터베이스, 음성 분석 프로세스, TSS(text to speech), STT(speech to text) 등을 저장한다.

음성 분석 프로세스에 의해 마이크(900)에 입력된 아날로그 음성은 디지털 신호로 바뀐다. 이 디지털 신호는 1/10,000 초 단위의 근접한 시차로 신호의 진폭을 나타내는 숫자들로 구성되어 있다. 음성 분석 프로세스는 음성 신호의 주파수를 분석하여 포먼트(formant)를 찾아냄으로써 음성을 분석한다.

포먼트는 사람의 소리를 주파수로 분석하여 어떤 주파수에 어느 정도의 에너지가 있는지를 그래프 등으로 나타낸 스펙트럼이다. 예를 들면 누구든지 '아' 하고 발음하면 소리의 성질에 관계없이 '아'하고 들린다. 이것은 ‘아’의 스펙트럼이 어떤 사람의 소리인지 관계없이 같은 스펙트럼 분포를 이루기 때문이다.

TSS는 음성 합성이라고도 하며, 말소리의 음파를 기계가 자동으로 만들어 내는 기술로, 모델로 선정된 사람의 말소리를 녹음하여 일정한 음성 단위로 분할하고, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술이다. 반대로, STT는 입력되는 사람의 음성을 인식하여 문자화하는 기술이다.

제어부(600)는 사용자의 설정에 따라 재생되는 음원의 재생 속도, 재생 단위, 재생 반복 구간을 제어한다. 여기에서 재생 단위는 단어, 의미상의 분절, 문장, 문단이 될 수 있다. 예컨대, 상기 설정되는 재생 단위가 문장인 경우, 문장별로 끊어 한 문장씩 출력하여, 사용자가 출력된 문장을 따라 읽을 수 있도록 한다.

편집부(700)는 녹음된 음원을 사용자가 원하는 형태로 편집할 수 있도록 한다. 편집부(700)는 메모리부(500)에 저장된 음성 분석 프로세스, TTS, STT를 이용하여 녹음된 음원의 일부를 삭제하고, 녹음된 음원을 텍스트로 변환하고, 변환된 텍스트의 일부를 다른 문자로 바꿔 새로운 음원을 획득하는 기능을 수행한다.

디스플레이부(800)는 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치(10)에서 처리되는 정보를 표시한다. 특히 재생부(600)의 요청에 따라 재생되는 컨텐츠의 스크립트, 관련 자료, 음성 파형(포먼트) 등을 시각적으로 표시하는 역할을 한다.

디스플레이부(800)와 터치패드가 상호 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(800)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(800)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다.

사용자는 학습에 앞서 학습용 컨텐츠를 획득하여야 한다. 학습용 컨텐츠는 사용자가 직접 녹음하여 획득할 수도 있고 학습 장치의 통신 인터페이스를 이용하여 외부로부터 다운로드 받을 수도 있다.

사용자가 직접 학습용 컨텐츠를 녹음하는 방법에 대해 상세하게 설명한다.

사용자가 학습하고자 하는 컨텐츠를 학습 장치에 녹음하기 위해서는 먼저 학습 어플리케이션을 구동시킨 후 컨텐츠 녹음 기능을 선택한다.그러나, 사용자가 원하는 순간에 재빨리 녹음 기능을 수행할 수도 있도록 하기 위해 원터치 기능을 설정해두는 것이 좋다. 원터치 기능이란 사용자가 한번의 터치 조작을 통해 바로 학습 어플리케이션이 구동되어 녹음이 실행되도록 하는 기능이다.

상기 원터치 버튼은 기존의 입력부의 특정 키를 누름으로써 구동되도록 설정할 수도 있으며, 학습 어플리케이션이 설치된 경우, 사용자 단말의 대기화면의 일부 영역에 원터치 버튼이 생성되도록 구현할 수도 있다. 학습용 컨텐츠는 영어 뉴스나 영어 라디오 방송이어도 좋고, 영화 시청 중 일부 내용을 녹음하여도 좋고, 외국인과 대면시 대화 내용을 녹음하여도 좋고, 영어 회화 수업 중 내용을 녹음하여도 좋다. 외국어 학습을 위한 컨텐츠 뿐만 아니라, 반복하여 청취하면서 소리를 흉내내기를 원하는 다양한 소리를 녹음할 수도 있다.

예컨대, 노래나 특정 유명인의 목소리, 동물 울음 소리 등을 녹음하고 그 녹음된 내용을 재생하여 따라 흉내내면서 연습하는 데도 활용할 수 있다. 이때에도 미리 녹음된 음원과 사용자가 연습한 목소리와의 매칭율을 제공함으로써 흥미를 더욱 유발시킬 수 있다.

또한 학습용 컨텐츠는 카메라와 연동되어 있는 경우, 동영상으로 녹화할 수도 있다.

녹음된 또는 녹화된 학습용 컨텐츠는 사용자의 필요에 따라 그대로 사용될 수도 있으며 사용자의 조작에 따라 다양한 편집도 가능하다. 예컨대, 음원의 특정 단어, 어휘, 문장 등을 지우는 등의 편집을 행할 수 있다. 또한, 메모리에 STT(speech to text)를 이용하여, 입력된 음원(학습용 컨텐츠)를 텍스트로 변경한 후 메모리에 저장하고 음원의 재생시에 디스플레이부(800)에 표시하여 사용자에게 제공할 수도 있다. 또한, 컨텐츠의 스크립트에서 일부를 변경하는 편집을 행한 후 TTS를 이용하여 새로운 학습용 컨텐츠를 획득할 수도 있다.

도 2는 본 발명의 일 실시예에 따라 획득한 학습용 컨텐츠를 이용하여 학습하는 과정을 나타내는 흐름도이다.

먼저, 사용자는 학습 장치에 설치된 학습 어플리케이션을 구동시킨다(S10). 학습 장치는 컴퓨터, 노트북, 태블릿 PC, 스마트 폰 등 학습 어플리케이션이 구동될 수 있는 전자기기라면 어느 것이라도 가능하다.

사용자는 학습 장치의 사용자 인터페이스를 조작하여 재생하고 싶은 학습용 컨텐츠를 선택하고(S20), 선택한 학습용 컨텐츠의 재생 옵션을 설정한다 (S30).

재생 옵션은 재생 속도, 재생 단위, 재생 반복 구간 등을 포함한다. 재생 속도는 학습용 컨텐츠가 재생되는 속도를 말하며, 재생 옵션을 통해 원래 빠르기보다 느리게 또는 빠르게 재생하기를 선택할 수 있도록 한다.

재생 단위는 학습용 컨텐츠가 재생되는 단위를 말하며, 단어, 의미상의 분절, 문장, 문단을 선택할 수 있도록 한다. 학습 장치는 설정된 재생 단위마다 끊어 학습용 컨텐츠를 재생한다. 재생 반복 구간은 재생시 반복되는 구간을 말하며, 학습용 컨텐츠에서 재생 반복을 원하는 구간을 선택할 수 있도록 한다. 학습 장치는 재생 반복이 설정된 구간만을 반복하여 재생한다.

상기 재생 옵션의 설정은 학습시마다 할 수 있으나 기본 설정을 통해 별도의 설정을 하지 않고 그 기본 설정대로 학습용 컨테츠가 재생될 수 있다.

사용자가 사용자 인터페이스를 조작하여 재생을 명령하면 학습용 컨텐츠가 상기 재생 옵션의 설정에 따라 재생된다(S40).

학습용 컨텐츠가 재생되면, 재생되는 학습용 컨텐츠의 포먼트가 디스플레이부(800)에 제공된다. 또한, 사용자의 설정에 따라 STT를 이용하여 디스플레이부(800)의 일부 영역에 학습용 컨텐츠의 텍스트가 표시될 수 있다.

상기 재생 단위에 따라 재생되는 학습용 컨텐츠를 사용자가 듣고 따라 말하면, 마이크(900)에 의해 입력되는 사용자 음성의 포먼트가 디스플레이부(800)에 제공된다(S50).

마이크를 통해 입력된 사용자 음성은 음성 분석 프로세서에 의해 분석되며 그 분석에 따라 생성된 음성 포먼트는 FFT(Faster Fourier Transform)을 통해 필터링되어 제공되는 것이 바람직하다. 필터링을 통해 잡음을 제거하면 신호처리의 품질을 향상시킬 수 있기 때문이다. 필터링된 포먼트는 그래프 등으로 시각화되어 저장될 수 있다.

따라서, 사용자는 발음에 따라 변화되는 주파수 대역을 실시간 눈으로 보면면서 자신의 발음을 확인할 수 있다.

예컨대, 한국어 마찰음 /ㅅ/ 과, 영어 마찰음은 /s/는 혀가 구강 내에서 접촉을 일으키는 조음점이 다르기 때문에 발음시 발생되는 소리의 주파수가 다르다. 이를 FFT 변환하면, 한국어 마찰음 /ㅅ/은 저역대(0~3000Hz)의 소리가 없으며, 중역대인 6000Hz 주변에서 가장 큰 음량이 분포되어 있는 반면, 영어 마찰음은 /s/는 /ㅅ/ 에 비해 저역대 주파수 음량이 적고 8000Hz 이상의 고역대 주파수의 음량이 더 크다는 것을 포먼트를 통해 시각적으로 확인할 수 있다.

매칭부(400)에서 상기 인식한 음성을 상기 재생되는 학습용 컨텐츠에 매칭하여 매칭 데이터를 생성한다(S60).

매칭 데이터를 생성하기 위해, 학습용 컨텐츠의 재생시 메모리부(500)에 저장된 해당 학습용 컨텐츠의 포먼트가 매칭부(400)에 제공된다. 이 포먼트를 제1 포먼트라 한다. 또한 마이크에 입력되는 사용자 음성의 포먼트가 매칭부(400)에 제공된다. 이 포먼트를 제2 포먼트라 한다.

매칭부(400)는 제1 포먼트와 제2 포먼트를 매칭시킨 후 생성한 매칭 데이터를 디스플레이부(800)에 제공한다.

상기 매칭 데이터는 매칭율을 포함한 학습에 대한 평가로서, 사용자가 확인하기 쉽도록 백분율, 점수 등으로 계량화 또는 수치화하여 점수로 제공된다. 학습자는 점수를 통해 매번 자신의 발음이 어느 정도 향상되었는지를 파악할 수 있다. 이러한 점수화는 학습자의 학습 동기를 유발하는 장점이 있다.

상기 매칭 데이터가 일정 기준 이상인지를 판단하여(S70), 예컨대 매칭율이 90% 이하인 경우 상기 단계 S30으로 되돌아가 해당 부분을 다시 재생하도록 설정할 수 있다. 만약 상기 매칭 데이터가 일정 기준 이상인 경우에는 다음 재생 구간을 재생한다(S80).

도 3을 참조하여, 본 발명의 실시예에 따라 스마트폰을 통해 학습 어플리케이션을 구동하여 학습하는 과정을 설명하도록 한다.

먼저, 사용자는 스마트폰 화면에 아이콘 형태로 디스플레이되어 있는 학습 어플리케이션을 터치하여 구동시킨다. 학습 어플리케이션은 앱 스토어 등의 애플리케이션 제공 서버를 통해 다운받을 수 있다.

학습 어플리케이션이 구동되면 스마트폰 화면에 도 3의 (a)와 같이, 학습 시작, 컨텐츠 녹음, 컨텐츠 편집 등의 메뉴가 디스플레이된다.

사용자가 컨텐츠 녹음 또는 녹화를 선택하면 녹음 또는 녹화가 시작되고 녹음 또는 녹화가 끝나면 스마트폰 화면에 도 3의 (b)와 같이, 해당 녹음 또는 녹화된 내용이 아이콘 형태로 생성되어 디스플레이된다. 아이콘에는 생성 날짜와 시간이 표시되며, 추후에 편집 기능을 사용하여 아이콘에 제목 등을 넣을 수 있다. 녹화의 경우 녹화된 동영상의 대표 정지화상이 아이콘에 표시될 수도 있다.

사용자가 컨텐츠 편집을 선택하면 학습용 컨텐츠가 도 3의 (b)와 같이, 각각 아이콘 형태로 화면에 디스플레이된다. 사용자는 상기 아이콘을 확인하여 편집하기를 원하는 학습용 컨텐츠를 선택하여 터치한다.

학습용 컨텐츠의 재생 중 지우기 버튼을 눌러 일부 컨텐츠를 삭제하거나 학습용 컨텐츠의 스크립트가 있는 경우 스크립트를 확인하여 삭제하고 싶은 부분을 지워 블랭크를 만들 수 있다. 편집이 끝나면 완료 버튼을 터치한다.

사용자가 컨텐츠 학습을 선택하면 스마트폰에 저장되어 있는 학습용 컨텐츠가 각각 아이콘 형태로 화면에 디스플레이된다. 사용자는 상기 아이콘 확인하여 학습하기를 원하는 학습용 컨텐츠를 선택하여 터치한다.

화면이 터치되면 도 3의 (c)와 같이 선택된 학습용 컨텐츠의 '재생 옵션 설정', '학습 시작'이 디스플레이된다.

재생 옵션 설정을 선택하여 터치하면 도 3의 (d)와 같이, '재생 속도', '재생 단위', '재생 반복 구간'이 각각 디스플레이되고 사용자는 버튼을 터치하여 원하는 재생 속도, 재생 단위, 재생 반복 구간을 설정한 후 완료 버튼을 터치하면 설정된 재생 옵션으로 변경된다.

도 3의 (c)에서 '학습 시작'이 터치되면 상기 선택된 학습용 컨텐츠가 상기 설정된 재생 옵션에 따라 재생된다.

재생시에는 학습용 컨텐츠의 원어민의 포먼트와 함께 해당 스크립트(텍스트)가 화면에 디스플레이될 수 있다.

사용자가 상기 재생되는 컨텐츠의 원어민 발음을 따라 말하면 사용자 발음이 녹음되어 사용자의 포먼트가 화면에 디스플레이되고(도 3의 (e) 참조), 상기 사용자 발음에 대한 점수가 화면의 해당 영역에 디스플레이된다. 만약 상기 점수가 일정 점수 미만이 되면 해당 구간을 다시 재생할 수 있고, 상기 점수가 일정 점수 이상이 되면 다음 구간을 재생한다.

사용자는 학습 중 언제라도 재생을 종료할 수 있으며, 종료시에 재생 구간 등이 저장되어 다음 시작시에 이어서 학습을 진행할 수 있게 된다.

한편, 본 발명은 이상에서 설명한 음성 분석 프로세스를 갖는 녹음 가능한 학습 장치를 이용한 학습 방법을 소프트웨어적인 프로그램으로 구현하여 컴퓨터로 읽을 수 있는 소정 기록 매체에 기록해 둠으로써 다양한 장치에 적용할 수 있다.

예컨대, 기록 매체는 각 재생 장치의 내장형으로 하드 디스크, 플래시 메모리, RAM, ROM 등이거나, 외장형으로 CD-R, CD-RW와 같은 광디스크, 콤팩트 플래시 카드, 스마트 미디어, 메모리 스틱, 멀티미디어 카드 등일 수 있다.

이 경우, 컴퓨터로 읽을 수 있는 기록 매체에 기록한 프로그램은, 사용자가 녹음한 하나 이상의 음성 컨텐츠들 중 하나를 선택하여 재생하는 재생 단계, 음성 인식 프로세서가 사용자의 음성을 입력받아 인식하는 인식 단계, 상기 인식 단계에서 인식한 음성을 상기 음성 컨텐츠에 매칭시켜 매칭 데이터를 생성하는 매칭 데이터 생성 단계, 상기 매칭 데이터를 사용자에게 제공하는 제공 단계를 포함하여 실행할 수 있다.

이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. 따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.

Claims

사용자의 선택에 따른 동작 제어를 위한 입력 데이터를 입력하기 위한 사용자 인터페이스부:
마이크에 입력되는 음원을 녹음하고 녹음된 음원을 재생하는 녹음 재생부;
상기 재생되는 음원을 인식하고 상기 음원 재생 후 마이크에 입력되는 사용자의 음성을 인식하는 음성 인식부;
상기 음성 인식부에서 인식한 음원과 상기 사용자의 음성을 매칭시켜 매칭 데이터를 생성하는 매칭부;
상기 매칭 데이터를 시각적으로 표시하는 디스플레이부; 및
사용자가 설정하는 재생 옵션에 따라 음원을 재생하도록 제어하는 제어부
를 포함하고,
상기 재생 옵션은 음원의 재생 속도, 재생 단위, 재생 반복 구간을 포함하고,
상기 재생 단위는 단어, 의미상의 분절, 문장, 문단을 포함하는 것을 특징으로 하는 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치.
제1항에 있어서,
상기 녹음된 음원의 일부를 삭제하거나 변경하는 편집부를 더 포함하는 것을 특징으로 하는 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치.
제1항에 있어서, 상기 녹음 재생부는 카메라와 연동하여 동영상을 녹화하고 녹화된 동영상을 재생할 수 있는 것을 특징으로 하는 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치.
제1항에 있어서, 상기 사용자 인터페이스부는 원터치 기능 버튼을 더 포함하며, 상기 원터치 기능 버튼은, 사용자가 원하는 순간에 녹음 기능을 수행하기 위해 한번의 버튼 조작을 통해 바로 학습 어플리케이션을 구동시켜 녹음이 실행되도록 하는 기능을 위한 버튼인 것을 특징으로 하는 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치.
제1항에 있어서, 상기 음성 인식부는 메모리에 저장된 음성 분석 프로세스를 이용하여 음석 분석 기능을 수행가능한 것을 특징으로 하는 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치.
삭제
제2항에 있어서, 상기 편집부는 상기 녹음된 음원의 일부를 삭제하는 기능, 상기 녹음된 음원을 STT를 통해 텍스트로 변경하는 기능, 변경된 텍스트의 일부를 다른 문자로 바꿔 TTS를 통해 새로운 음원을 획득하는 기능을 포함하는 것을 특징으로 하는 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치.
원터치 기능에 의해 작동되어 녹음 또는 녹화된 학습용 컨텐츠들 중 하나가 사용자의 선택에 의해 재생되는 재생 단계;
상기 재생 이후 사용자의 음성을 입력받아 인식하는 인식 단계;
상기 인식 단계에서 인식한 음성과 상기 음성 컨텐츠를 매칭시켜 매칭 데이터를 생성하는 매칭 데이터 생성 단계; 및
상기 매칭 데이터를 사용자에게 제공하는 제공 단계
를 포함하고,
상기 재생 단계는,
사용자 입력에 의해 재생 속도를 설정하는 과정;
사용자 입력에 의해 재생 단위를 설정하는 과정; 및
사용자 입력에 의해 반복 재생 구간을 설정하는 과정
을 더 포함하는 것을 특징으로 하는 음성 분석 프로세스를 이용한 학습 방법.
제8항에 있어서, 상기 인식 단계에서 사용자 음성을 주파수로 분석하여 어떤 주파수에 얼마큼의 에너지가 있는지를 확인하는 것을 특징으로 하는 음성 분석 프로세스를 이용한 학습 방법.
제8항에 있어서, 상기 제공 단계에서 상기 매칭 데이터를 그래프 또는 매칭 백분율 중 적어도 하나로 제공하는 것을 특징으로 하는 음성 분석 프로세스를 이용한 학습 방법.
제8항에 있어서, 상기 매칭 데이터가 일정기준 이하인 경우 상기 재생 단계로 되돌아가는 것을 특징으로 하는 음성 분석 프로세스를 이용한 학습 방법.
삭제
제8항에 있어서, 상기 재생 단위는 단어, 의미상의 분절, 문장, 문단을 포함하는 것을 특징으로 하는 음성 분석 프로세스를 이용한 학습 방법.
제8항 내지 제11항, 제13항 중 어느 한 항에 의한 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.