KR102217292B1

KR102217292B1 - 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR102217292B1
Application number: KR1020150026982A
Authority: KR
Inventors: 김민철; 조현근
Original assignee: 네이버 주식회사
Priority date: 2015-02-26
Filing date: 2015-02-26
Publication date: 2021-02-18
Also published as: US10347242B2; WO2016137071A1; KR20160104243A; US20160253993A1; CN107251137A; JP2016161935A; CN107251137B

Abstract

본 발명은 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
본 발명의 일 태양에 따르면, 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 포착된 의미 유닛 집함임 - 을 개선하기 위한 방법으로서, 사용자의 발화에 따라 개선용 음성을 수신하는 단계, 상기 개선용 음성에 기초하여 개선용 의미 유닛 집합을 특정하는 단계, 상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및 상기 포착된 의미 유닛 집합 내에서 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 단계를 포함하는 방법이 제공된다.

Description

적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체{METHOD, APPARATUS AND COMPUTER-READABLE RECORDING MEDIUM FOR IMPROVING A SET OF AT LEAST ONE SEMANTIC UNITS BY USING PHONETIC SOUND}

본 발명은 적어도 하나의 의미론적 유닛(이하에서는, 간략히 "의미 유닛"이라고도 칭하기로 함)의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.

[연관 출원의 상호 참조]

본 출원은 본 발명자의 연관 발명에 관한 특허출원인 한국특허출원 제10-2014-0048315호 및 제10-2014-0077056호와 상호 참조의 관계에 있다. 여기서, 상기 출원들의 명세서는 그 전체로서 편입된 것으로 간주되어야 한다.

사람의 음성을 인식하여 이를 보다 표준적인 의미 유닛의 집합(즉, 의미론적인 유닛을 적어도 하나 포함하는 집합)으로 변환하기 위한 시도가 다수 행하여진 바 있다. 이러한 의미 유닛 집합은 특정 언어에 해당하는 디지털 음성으로 출력되거나 특정 언어의 텍스트로 표기될 수 있는 것이기도 하다.

그러나, 위와 같은 시도에 따라 획득되는 의미 유닛 집합은 품질의 측면에 있어서 어느 정도 한계가 있었다. 예컨대, 사람마다 무수히 다양한 발화 습관이나 일부 인물의 불명료한 발음, 사전에 없는 어휘나 방언의 사용, 주변의 잡음 섞인 환경 등은 음성 인식 기술에 의존하여 의미 유닛의 집합을 도출하는 작업에 실질적인 어려움을 부과하는 것이었다.

따라서, 본 발명자는 적어도 하나의 의미 유닛의 집합을 개선용 음성(즉, 개선을 위하여 따로 발화되는 음성)을 이용하여 개선하여, 결과적으로 더 우수한 품질의 의미 유닛 집합이 획득되도록 하기 위한 새로운 기술을 여기서 제시하는 바이다. 개선의 대상이 되는 의미 유닛 집합이 반드시 음성 인식 기술에 의하여 획득된 것에 한정되어야 하는 것도 아니다.

본 발명은 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.

본 발명은 적어도 하나의 의미 유닛의 집합을 음성을 이용하여 개선하는 것을 다른 목적으로 한다.

본 발명은 음성 인식의 결과를 용이하게 그리고 정확하게 개선하는 것을 또 다른 목적으로 한다.

본 발명은 텍스트 입력의 결과를 용이하게 그리고 정확하게 개선하는 것을 또 다른 목적으로 한다.

적어도 하나의 의미 유닛을 포함하는 집합은, 그것이 소정의 전자 장치(미도시됨)를 통하여 사람의 아날로그적인 음성을 인식한 결과물로서의 디지털 음성이나 텍스트인지, 아니면 소정의 전자 장치(미도시됨)를 통하여 입력된 후에(예를 들면, 키보드나 키패드에 의하여 입력된 후에) TTS(Text To Speech) 기술 등에 의하여 출력되는 디지털 음성이나 마찬가지로 입력된 후에 화면 상에서 디스플레이되는 텍스트인지를 가리지 아니 하고, 아래에서 설명되는 본 발명에 따라 개선용 음성에 의하여 개선될 수 있다. 이러한 개선의 양태로서, 음성 인식 결과의 수정, 입력되어 디스플레이된 텍스트에 있어서의 오타의 수정 등을 들 수 있다. 이러한 관점에서 상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.

본 발명의 일 태양에 따르면, 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 포착된 의미 유닛 집함임 - 을 개선하기 위한 방법으로서, 사용자의 발화에 따라 개선용 음성을 수신하는 단계, 상기 개선용 음성에 기초하여 개선용 의미 유닛 집합을 특정하는 단계, 상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및 상기 포착된 의미 유닛 집합 내에서 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 단계를 포함하는 방법이 제공된다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 장치 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명에 의하면, 적어도 하나의 의미 유닛의 집합을 음성을 이용하여 개선할 수 있게 된다.

본 발명에 의하면, 음성 인식의 결과를 용이하게 그리고 정확하게 개선할 수 있게 된다.

본 발명에 의하면, 텍스트 입력의 결과를 용이하게 그리고 정확하게 개선할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 외양을 개략적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 내부 구성을 개념적으로 나타내는 블록도이다.
도 3은 본 발명의 실시예에 따른 매칭 방법에 관한 예시적인 흐름도이다.
도 4는 본 발명의 실시예에 따른 개선 방법에 관한 예시적인 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

[본 발명의 바람직한 실시예]

장치의 구성

도 1은 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 외양을 개략적으로 나타내는 도면이다.

도 1에 도시된 바와 같이, 의미 유닛 개선 장치(100)는, 사용자에게 각종 의미 유닛 집합 등에 관한 시각적인 정보를 디스플레이하여 주는 디스플레이부(110)(예를 들면, 디스플레이 패널), 의미 유닛 개선 장치(100)의 종류에 따라 사용자가 누르거나 만지면 소정의 기능이 수행되도록 할 수 있는 버튼부(120)(예를 들면, 스마트 폰의 홈 버튼), 의미 유닛 개선 장치(100)에서 발생되는 음성이나 음향을 출력할 수 있는 음 출력부(130)(예를 들면, 스피커), 음향 센서(많은 경우, 버튼부(120)의 아래 부근에 배치되는 마이크)(미도시됨), 기타 공지의 전기전자 부품(미도시됨) 등을 포함할 수 있다. 도 1에서, 의미 유닛 개선 장치(100)가 스마트 폰인 것처럼 도시되었으나, 의미 유닛 개선 장치(100)가 이에 제한되는 것은 전혀 아니고, 데스크탑 컴퓨터, 노트북 컴퓨터, 워크스테이션, PDA, 웹 패드, 이동 전화기(스마트 폰이 아닌 것), 각종 스마트 웨어러블 디바이스(예를 들면, 스마트 워치, 스마트 밴드, 스마트 글래스, 스마트 링 등) 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 의미 유닛 개선 장치(100)로서 채택될 수 있다.

아래에서는, 의미 유닛 개선 장치(100)의 내부 구성에 관하여 도 2를 참조하여 더 자세하게 살펴보기로 한다. 도 2는 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 내부 구성을 개념적으로 나타내는 블록도이다.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 의미 유닛 개선 장치(100)는 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230), 데이터베이스(250) 및 제어부(260)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230), 데이터베이스(250) 및 제어부(260)는 그 중 적어도 일부가 다른 하드웨어 구성요소나 소프트웨어 구성요소를 제어하기 위한 또는 이러한 구성요소와 통신하기 위한 프로그램 모듈일 수 있다.　 이러한 프로그램 모듈은 운영 시스템, 응용 프로그램 모듈 또는 기타 프로그램 모듈의 형태로 의미 유닛 개선 장치(100)에 포함될 수 있고, 물리적으로는 여러 가지 공지의 기억 장치에 저장될 수 있다.　 또한, 이러한 프로그램 모듈은 의미 유닛 개선 장치(100)와 통신 가능한 원격 기억 장치(미도시됨)나 심지어 외부의 전자 장치(미도시됨)에 저장될 수도 있다.　 따라서, 의미 유닛 개선 장치(100)의 기능의 적어도 일부는 당업자의 자유로운 선택에 따라 외부 전자 장치 등에 의하여 실행될 수도 있다. 한편, 이러한 프로그램 모듈은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

먼저, 본 발명의 일 실시예에 따른 음성 감지부(210)는, 사용자 등에 의하여 발화되는 음성, 즉, 개선의 대상이 되는 적어도 하나의 의미 유닛의 집합을 포함하는 더 큰 의미 유닛 집합에 해당하는 아날로그 음성이나, 위와 같은 개선을 위하여 사용자에 의하여 따로 더 발화될 수 있는 개선용 음성을 감지하는 기능을 수행할 수 있다.

이를 위하여, 음성 감지부(210)는 전술한 바와 같은 음향 센서를 그 일부로서 포함하거나 적어도 이러한 음향 센서와 통신할 수 있다. 이와 같은 음향 센서의 예에는, 마이크와 같은 일반적인 음향 센서는 물론, 진폭이 작은 음성 신호도 감지할 수 있는 소음 센서와 진동 센서, 초음파 센서 등이 포함될 수 있다. 일반적인 마이크 대신에, 수중 청음기(hydrophone), 콘덴서 마이크(condenser microphone), 일렉트레트 콘덴서 마이크(electret condenser microphone), 다이내믹 마이크(dynamic microphone), 리본 마이크(ribbon microphone), 카본 마이크(carbon microphone), 압전 마이크(piezoelectric microphone), 광섬유 마이크(optical fiber microphone), 레이저 마이크(laser microphone), 액정 마이크(liquid microphone), 멤스 마이크(MEMS microphone) 등이 채용될 수도 있다.

음향 센서는 의미 유닛 개선 장치(100)의 음성 감지부(210), 섀시(chassis), 메인 보드(미도시됨), PCB(Printed Circuit Board)(미도시됨), 인클로저(enclosure)(미도시됨) 등 중에서 적어도 어느 한 부분에 배치될 수 있다.

그리고, 음성 감지부(210)는 감지된 음성의 아날로그 신호를 후술하는 바와 같은 음성 처리부(220)로 전달할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 음성 처리부(220)는 음성 감지부(210)로부터 전달 받은 아날로그 음성 신호를 디지털 신호로 변환하는 기능을 수행할 수 있다.

음성 처리부(220)는 공지의 아날로그-디지털 컨버터를 포함할 수 있다. 따라서, 음성 처리부(220)는 표본화(sampling), 양자화(quantization) 및 부호화(encoding)의 프로세스 중 적어도 하나를 수행함으로써, 개선의 대상이 되는 의미 유닛 집합을 포함하는 더 큰 의미 유닛 집합에 해당하는 음성이나 개선용 음성의 신호를 아날로그 신호로부터 디지털 신호로 변환할 수 있다.

또한, 음성 처리부(220)는, 필요에 따라, 음성 신호를 증폭시키거나, 음성 신호로부터 소음을 제거하거나, 특정 주파수 대역의 음성 신호만을 선별적으로 수신하거나, 음성 신호의 파형을 변경하거나 할 수 있다. 이를 위하여, 음성 처리부(220)는 공지의 증폭기, 소음 필터, 밴드패스/밴드리젝트 필터, 칼만(Kalman) 필터, EMA 필터, 사비츠키-골레이(Savitzky-Golay) 필터 등을 포함할 수 있다. 또한, 음성 처리부(220)는 시간 도메인의 음성 신호를 주파수 도메인의 것으로 변환하는 처리나 그 역의 처리를 수행할 수도 있다.

그리고, 음성 처리부(220)는 처리의 결과물인 디지털 음성 신호를 후술하는 바와 같은 의미 유닛 개선부(230)로 전달할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는 음성 처리부(220)로부터 전달 받은 디지털 음성 신호에 따른, 개선의 대상이 되는 특정 의미 유닛 집합을 포함하는 더 큰 의미 유닛 집합을 포착할 수 있다. 이것은 물리적으로는 해당 디지털 음성 자체이거나 그 텍스트로의 변환 결과일 수 있다. 후자의 경우를 위하여, 의미 유닛 개선부(230)는 공지의 음성 인식 모듈을 포함하거나 이와 연동할 수 있다. 이하에서는, 위와 같은 의미 유닛 집합을 "포착된 의미 유닛 집합"이라고 칭하기로 한다.

한편, 의미 유닛 개선부(230)는 역시 음성 처리부(220)로부터 전달 받은 디지털 음성 신호에 따른 개선용 음성도 특정할 수 있다. 이하에서는, 위와 같이 특정된 개선용 음성에 해당하는 의미 유닛 집합을 "개선용 의미 유닛 집합"이라고 칭하기로 한다. 이것 역시 물리적으로는 해당 디지털 음성 자체이거나 그 텍스트로의 변환 결과일 수 있다.

또 한편, 의미 유닛 개선부(230)에서 다루어지는 포착된 의미 유닛 집합은 반드시 디지털 음성 신호로부터 유래할 필요도 없다. 즉, 예를 들어, 아날로그적이거나 디지털적인 음성의 발생과는 무관하게, 사용자의 키 입력, 광학 문자 판독 등에 의하여 획득된 텍스트에 해당하는 의미 유닛 집합 역시 상기와 같은 포착된 의미 유닛 집합이 될 수 있다.

그리고, 의미 유닛 개선부(230)는 포착된 의미 유닛 집합과 개선용 의미 유닛 집합을 비교하여, 포착된 의미 유닛 집합으로부터 개선용 의미 유닛 집합과 높은 연관성을 나타내는, 실제적인 개선의 대상이 되는 의미 유닛 집합을 추출할 수 있다. 이러한 추출을 개선의 대상이 되는 의미 유닛 집합과 개선용 의미 유닛 집합 사이의 매칭이라고도 칭할 수 있다. 이러한 매칭을 위하여 수행되는 상기 비교는 디지털 음성 신호 간의 비교일 수도 있고, 텍스트 간의 비교일 수도 있으며, 디지털 음성 신호와 텍스트 간의 비교일 수도 있다. 매칭된 개선 대상 의미 유닛 집합은 편의상 "매칭된 의미 유닛 집합"이라고 칭하기로 한다. 이것은 하나의 포착된 의미 유닛 집합 내에 하나만 존재할 수도 있지만, 복수 개 존재할 수도 있다.

한편, 의미 유닛 개선부(230)는 매칭을 위하여 사용자의 입력(즉, 개선용 음성의 발화 외의 입력)에 의한 정보를 더 활용할 수도 있다. 예를 들어, 상기 연관성 검사 결과 복수 개의 비교적 높은 연관성의 의미 유닛 집합이 추출되면, 사용자가 이 중 적어도 일부를 수동적으로 선택하도록 함으로써 매칭된 의미 유닛 집합을 결정할 수도 있다.

본 발명에 따른 매칭에 관하여는 아래에서 더 상술하기로 한다.

다음으로, 의미 유닛 개선부(230)는 매칭된 의미 유닛 집합을 개선용 의미 유닛 집합에 근거하여 개선할 수 있다. 즉, 매칭된 의미 유닛 집합은 개선용 의미 유닛 집합으로 교체될 수 있다. 이러한 교체는 포착된 의미 유닛 집합 내에 존재하던 매칭된 의미 유닛 집합을 삭제하고 대신 개선용 의미 유닛 집합을 삽입하는 것일 수 있다. 그 결과물은 포착된 의미 유닛 집합이 물리적 형식은 유지하되 그 품질은 개선된 것일 수 있다. 이러한 결과물은 물리적으로는 디지털 음성이거나 텍스트일 수 있다.

본 발명에 따른 의미 유닛 집합의 개선에 관하여는 아래에서 더 상술하기로 한다.

다음으로, 본 발명의 일 실시예에 따른 데이터베이스(250)에는, 포착된 의미 유닛 집합, 개선용 의미 유닛 집합 그리고 매칭에 관한 정보가 저장될 수 있다. 비록 도 2에서 데이터베이스(250)가 의미 유닛 개선 장치(100)에 포함되어 구성되는 것으로 도시되어 있지만, 본 발명을 구현하는 당업자의 필요에 따라, 데이터베이스(250)는 의미 유닛 개선 장치(100)와 별개로 구성될 수도 있다. 한편, 본 발명에서의 데이터베이스(250)는, 컴퓨터 판독 가능한 기록 매체를 포함하는 개념으로서, 협의의 데이터베이스뿐만 아니라 파일 시스템에 기반을 둔 데이터 기록 등을 포함하는 광의의 데이터베이스일 수도 있으며, 단순한 로그의 집합이라도 이를 검색하여 데이터를 추출할 수 있다면 본 발명에서의 데이터베이스(250)가 될 수 있다.

마지막으로, 본 발명의 일 실시예에 따른 제어부(260)는 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230) 및 데이터베이스(250) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명에 따른 제어부(260)는 의미 유닛 개선 장치(100)의 각 구성요소 간의 데이터 흐름을 제어함으로써, 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230) 및 데이터베이스(250)에서 각각 고유 기능을 수행하도록 제어할 수 있다.

매칭

아래에서는 도 3을 참조하여 위에서 약술한 바와 같은 매칭에 관하여 자세하게 살펴보기로 한다. 도 3은 본 발명의 실시예에 따른 매칭 방법에 관한 예시적인 흐름도이다.

먼저, 의미 유닛 개선부(230)는 개선용 의미 유닛 집합을 특정하는 단계(S1)를 수행할 수 있다. 즉, 의미 유닛 개선부(230)는 음성 처리부(220)로부터 전달 받은 디지털 음성 신호 중에서 사용자의 소정의 지시의 전이나 후에(또는, 직전이나 직후에) 전달 받은 디지털 신호의 음성을 개선용 음성으로서, 즉, 개선용 의미 유닛 집합으로서 특정할 수 있다(위와 같은 지시는 사용자의 미리 약속된 단어의 발화나 미리 약속된 키의 입력일 수 있다).

예를 들어, 사용자가 "I can correct typing at all without backspace error"와 같은 의미 유닛 집합에 해당하는 음성을 발화하고 나서 소정의 지시를 내린 경우, "error"에 해당하는 디지털 음성이나 텍스트가 개선용 의미 유닛 집합으로서 특정될 수 있다. 이러한 특정은 "error"에 해당하는 음성 부분과 그 앞의 음성 부분(즉, "backspace"에 해당하는 음성 부분이나 "without backspace"에 해당하는 음성 부분) 사이의 시간 간격이 소정의 임계치 이상이라는 점에 근거할 수 있다.

또한, 의미 유닛 개선부(230)는, 예를 들어, 사용자가 "I can correct typing at all without backspace"와 같은 텍스트가 화면에 디스플레이된 것에 대하여 개선을 하는 것을 의도하여 소정의 지시를 내리면서 그 전이나 후에 "error"를 발화한 경우에도, 해당하는 디지털 음성에 기초하여 개선용 의미 유닛 집합을 특정할 수 있다.

다음으로, 의미 유닛 개선부(230)는, 특정된 개선용 의미 유닛 집합에 근거하여, 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 특정하는 단계(S2)를 수행할 수 있다.

상기 단계의 수행 전에, 전술한 바와 같이, 실제적인 개선의 대상이 되는 특정 의미 유닛 집합을 포함하는 더 큰 의미 유닛 집합이 포착되어 있을 수 있다. 이러한 포착된 의미 유닛 집합은, 위에서 예시된 바와 같은, "I can correct typing at all without backspace"와 같은 의미 집합일 수 있다.

의미 유닛 개선부(230)는 포착된 의미 유닛 집합 내의 유닛 간의 시간 간격이나 스페이스 그리고/또는 개선용 의미 유닛 집합의 길이(예를 들면, 해당 디지털 음성 신호의 지속 시간, 해당 음절(또는, 어절)의 수, 해당 단어의 수 등)에 기초하여, 포착된 의미 유닛 집합을, 예를 들면, "I can", "can correct", "correct typing", "typing at", "at all", "all without", "without backspace" 등의 부분들과 같이, 나누고 확장한 후에 각 부분을 개선용 의미 유닛 집합과 비교하여 볼 수 있다.

이러한 비교는 디지털 음성 간의 비교인 경우에는, 시간 도메인이나 주파수 도메인에서의 디지털 음성의 특징의 비교일 수 있다. 이러한 음성 특징 중에서 전형적으로 사용되는 것은 디지털 음성 신호의 파(wave)에 있어서의 특징점일 수 있다. 다만, 디지털 음성 간의 비교를 위하여는 다양한 알고리즘이 사용될 수 있으므로, 고려 대상이 되는 디지털 음성의 특징(특성)은 아래의 것들 중 하나 이상을 자유롭게 포함할 수 있다.

(1) 시간 도메인에서의 음성 신호의 특성

최대 진폭, 평균 진폭, 평균 주파수, 평균치, 표준 편차, 전체적인(overall) 진폭에 의하여 노멀라이징된 표준 편차, 분산(variance), 스큐니스(skewness), 커토시스(Kurtosis), 합, 절대 합, 실효치(Root Mean Square; RMS), 크레스트 팩터, 분산(dispersion), 엔트로피(entropy), 파워 섬(power sum), 질량 중심(center of mass), 변동 계수(coefficients of variation), 상호 상관성(cross correlation), 제로 크로싱(zero-crossings), 반복성(seasonality), DC 바이어스, 또는 상기 음성 신호의 1차, 2차, 3차 또는 그 이상의 차수의 데리버티브(derivative)에 대해 계산된 위와 같은 특성

(2) 주파수 도메인에서의 음성 신호의 특성

스펙트럴 센트로이드(spectral centroid), 스펙트럴 덴시티(spectral density), 구면 조화 함수(spherical harmonics), 총 평균 스펙트럴 에너지(total average spectral energy), 매 옥타브에서의 대역 에너지 비율(band energy ratio for every octave), 로그 스펙트럴 대역 비율(log spectral band ratio), 선형 예측 기반의 셉스트럴 계수(Linear Prediction-based Cepstral Coefficients; LPCC), 지각 선형 예측(Perceptual Linear Prediction; PLP) 셉스트럴 계수, 멜-주파수 셉스트럴 계수, 주파수 위상, 또는 상기 음성 신호의 주파수 도메인 표현의 1차, 2차, 3차 또는 그 이상의 차수의 데리버티브에 대해 계산된 위와 같은 특성

한편, 위와 같은 비교는 텍스트 간의 비교일 수도 있다. 이 경우, 텍스트는 그 어절이나 어소마다 비교될 수 있다. 이러한 비교를 위하여 공지의 텍스트 비교 알고리즘이 하나 이상 채용될 수 있다. 예를 들어, 어절마다의 순차적인 유사도(예를 들면, 음가나 스펠링의 유사도)가 높은 두 개의 텍스트는 상호 간에 높은 연관성을 갖는 텍스트로 규정될 수 있다.

비교의 결과, 의미 유닛 개선부(230)는 포착된 의미 유닛 집합 내에서 개선용 의미 유닛 집합과 높은 연관성을 나타내는 부분을 매칭된 의미 유닛 집합으로 결정할 수 있다. 위의 예에서, 이는 "at all" 부분에 해당하는 의미 유닛 집합일 수 있다.

의미 유닛 집합의 개선

아래에서는 도 4를 참조하여 위에서 약술한 바와 같은 의미 유닛 집합의 개선에 관하여 자세하게 살펴보기로 한다. 도 4는 본 발명의 실시예에 따른 개선 방법에 관한 예시적인 흐름도이다.

먼저, 의미 유닛 개선부(230)는 매칭된 의미 유닛 집합을 개선용 의미 유닛 집합으로 교체하는 단계(단계 T1)를 수행할 수 있다. 이 경우, 교체의 결과물은 포착된 의미 유닛 집합이 매칭된 의미 유닛 집합 대신에 개선용 의미 유닛 집합을 포함하게 된 것일 수 있다. 이러한 교체의 결과물은 개선된 음성 인식 결과일 수도 있고 개선된 텍스트일 수도 있다. 위의 예에 따르면, 개선된 음성 인식 결과 내지 텍스트는 "I can correct typing error without backspace"가 될 수 있다. 이는 사용자의 원래의 의도에 정확히 부합하는 결과일 수 있다.

다음으로, 의미 유닛 개선부(230)는 개선 후에 대용될 포착된 의미 유닛 집합에 해당하는 디지털 음성을 사용자에게 들려 주거나 그에 해당하는 텍스트를 디스플레이하여 주는 단계(단계 T2)를 수행할 수 있다. 따라서, 위의 예에 따르면, 사용자에게 들리거나 디스플레이되는 것은 "I can correct typing error without backspace"의 의미 유닛 집합에 해당하는 디지털 음성이나 텍스트가 될 수 있다.

그런데, 경우에 따라, 개선용 음성은 충분한 개선을 담보하지 못할 수 있다. 이는 사용자에게 내재된 문제(예를 들면, 발음의 부정확, 방언의 사용 등)로 인하여 개선용 음성의 품질이 애초에 충분히 높지 않아서 그것이 다른 의미 유닛 집합에 해당하는 것으로 오인식되거나, 환경적인 문제(예를 들면, 잡음이 개입되는 환경, 의미 유닛 개선 장치(100)의 낮은 사양 등)로 인하여 개선용 음성의 품질이 그다지 낮지 않음에도 불구하고 그 특정 과정에서 그것이 다른 의미 유닛 집합에 해당하는 것으로 오인식되기 때문일 수 있다. 이와 같은 경우, 사용자에게 들리거나 디스플레이되는 것은, 개선 시도 후에도, 예를 들면, "I can correct typing error without backspace"의 의미 집합에 해당하는 디지털 음성이나 텍스트가 아니라, 여전히 "I can correct typing at all without backspace"의 의미 집합에 해당하는 디지털 음성이나 텍스트가 되거나 "I can correct typing era without backspace"의 의미 집합에 해당하는 디지털 음성이나 텍스트가 될 수 있다. 이는 사용자에게 상당히 실망스러운 결과일 수 있다.

따라서, 본 발명의 일 실시예에 따르면, 아래와 같은 부가적인 단계가 더 수행될 수 있다.

전형적으로는 단계 T2의 수행 후에, 대안적으로는 단계 T1의 수행 후 단계 T2의 수행 전이나 단계 T1의 수행 전에, 개선용 음성과 함께 소정의 부가 정보가 더 사용되면, 의미 유닛 개선부(230)가 이에도 기초하여 개선용 음성에 해당하는 의미 유닛 집합을 더 정교하게 특정할 수 있다. 아래에서는 이것이 가능하게 하는 부가 정보의 여러 가지 예에 관하여 살펴보기로 한다.

1-1. 부분 스펠링

예를 들어, 사용자는 위의 예에서 개선용 음성에 해당하는 "error" 외에 "e", "r" 및 "r"을 순차적으로 더 발화할 수 있다. 이 경우, 의미 유닛 개선부(230)는 사전 설정(즉, 소정의 개수의 알파벳 글자가 연속으로 발화되고 나서 해당 알파벳 글자와 순차적으로 일치하는 앞 부분을 갖는 개선용 의미 유닛 집합에 해당하는 개선용 음성이 발화되면 상기 알파벳 글자는 모두 개선용 의미 유닛 집합의 부분 스펠링으로 간주하는 설정)이나 기타 머신 러닝 기법에 기초하여, "e", "r" 및 "r"이 사실은 개선용 의미 유닛 집합을 더 정교하게 특정하기 위한 부분 스펠링에 해당함을 파악할 수 있다. 이는 자명하게도 개선용 의미 유닛 집합의 정교한 특정을 담보하는 것이 될 수 있다.

1-2. 군용 음성 알파벳

예를 들어, 사용자는 위의 예에서 개선용 음성에 해당하는 "error" 외에 "echo", "romeo" 및 "romeo"를 순차적으로 더 발화할 수 있다. 이 경우, 의미 유닛 개선부(230)는 사전 설정(즉, 소정의 개수의 군용 음성 알파벳이 연속으로 발화되고 나서 해당 알파벳의 글자와 순차적으로 일치하는 앞 부분을 갖는 개선용 의미 유닛 집합에 해당하는 개선용 음성이 발화되면 상기 알파벳 글자는 모두 개선용 의미 유닛 집합의 부분 스펠링으로 간주하는 설정)이나 기타 머신 러닝 기법에 기초하여, "echo", "romeo" 및 "romeo"가 사실은 개선용 의미 유닛 집합을 더 정교하게 특정하기 위한 부분 스펠링에 해당함을 파악할 수 있다.

한편, 위와 같은 부분 스펠링 기법은 한국어에 있어서는 특정이 어려운 편인 복모음 글자의 풀이식 발화(예를 들면, "계발"이라는 개선용 의미 유닛 집합을 위한 "여" 및 "이"의 순차적인 발화)에 의하여 실행될 수 있고, 일본어에 있어서는 한자의 변에 관한 발화(예를 들면, "嶋田"(しまだ)라는 개선용 의미 유닛 집합이 자칫 "島田"(しまだ)로 오인되지 않도록 하기 위한 "山編"(やまへん)의 추가 발화)에 의하여 실행될 수 있다.

2. 힌트 단어

예를 들어, 사용자는 위의 예에서 개선용 음성에 해당하는 "error" 외에 "of" 및 "erroneous"를 순차적으로 더 발화할 수 있다. 이 경우, 의미 유닛 개선부(230)는 사전 설정(즉, 개선용 음성이 발화되는 부분에서 "of"가 발화되면 그 뒤의 음성에 해당하는 단어를 힌트 단어로 간주하는 설정)이나 기타 머신 러닝 기법에 기초하여, "erroneous"가 사실은 개선용 의미 유닛 집합을 더 정교하게 특정하기 위한 힌트 단어(즉, 적어도 그 일부에 있어서 옳은 개선용 의미 유닛 집합의 단어와 동일하거나 유사한 스펠링을 갖는 단어)에 해당함을 파악할 수 있다. 이는 자명하게도 개선용 의미 유닛 집합의 정교한 특정을 담보하는 것이 될 수 있다. 여기서, 예약어에 해당한다고 볼 수 있는 "of"는 "like" 등과 같이 사용자가 이해하기 쉽고 오인식률이 낮은 다른 단어로 대체될 수도 있다.

한편, 위의 예 외에도, 사용자가 개선용 음성으로서 "Zoe"를 발화하였으나 그것이 "Joe"로 인식되어 잘못된 개선이 이루어진 경우, 사용자는 "Zoe"를 다시 한 번 발화하면서, "Z", "of" 및 "Zebra"와 같이 옳은 개선용 의미 유닛 집합에 포함되어야 하는 알파벳을 강조하기 위한 힌트 단어를 예약어 및 해당 알파벳과 함께 더 발화할 수 있다. 이에 따라, 의미 유닛 개선부(230)는 개선용 의미 유닛 집합을 상기 힌트 단어의 상기 알파벳을 포함하도록, 즉, "Zoe"가 되도록 정정할 수 있다.

한국어의 경우에도, "안쪽의"가 "안쪽에"로 오인식된 경우, 사용자가 다시 한 번 "안쪽의"를 발화하면서 "의자의 의"를 더 발화하면, 의미 유닛 개선부(230)가 이에 따라 개선용 의미 유닛 집합을 힌트 단어 "의자"의 글자 "의"를 포함하도록, 즉, "안쪽의"가 되도록 정정할 수 있다.

일본어의 경우에도, "感じ"(かんじ)가 "漢字"(かんじ)로 오인식된 것을 정정하기 위하여, "感動の感"(かんどうのかん)이 추가 발화될 수 있도록 하거나, "買いに"(かいに)가 "海に"(かいに)로 오인식된 것을 정정하기 위하여 "買い物の買い"(かいもののかい)가 추가 발화될 수 있도록 할 수 있다.

한편, 언어와 무관하게, 옳은 개선용 의미 유닛 집합과 의미가 유사한 단어가 추가 발화될 수 있도록 하거나(예를 들면, "error"가 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "like"와 함께 유의어인 "mistake"가 추가 발화될 수 있도록 하거나), 상하위 관계에 있는 단어가 추가 발화될 수 있도록 하거나(예를 들면, "Kia"가 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "like"와 함께 관계어인 "car company"가 추가 발화될 수 있도록 하거나), 연상어가 추가 발화될 수 있도록 할 수도 있다(예를 들면, "개집"이 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "like"와 함께 연상어인 "멍멍"이 추가 발화될 수 있도록 하거나, "queries"가 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "for"와 함께 연상어인 "database"가 추가 발화될 수 있도록 할 수 있다).

즉, 의미 유닛 개선부(230)는, 사용자가 개선용 음성의 부근에서 예약어와 함께 힌트 단어(또는, 힌트 글자)를 더 발화하면, 이를 해석하여 개선용 음성에 해당하는 개선용 의미 유닛 집합이 보다 더 정교하게 특정되도록 할 수 있다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

210: 음성 감지부
220: 음성 처리부
230: 매칭부
240: 의미 유닛 개선부
250: 데이터베이스
260: 제어부

Claims

적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 포착된 의미 유닛 집함임 - 을 개선하기 위한 방법으로서,
사용자의 발화에 따라 개선용 음성을 수신하는 단계,
상기 개선용 음성에 기초하여 개선용 의미 유닛 집합을 특정하는 단계,
상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및
상기 포착된 의미 유닛 집합 내에서 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 단계
를 포함하고,
상기 개선용 의미 유닛 집합은 상기 사용자의 발화에 따른 부가 정보에 더 기초하여 특정된 것이고,
상기 부가 정보는 옳은 개선용 의미 유닛 집합을 위한 부분 스펠링 정보를 포함하는 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 부분 스펠링 정보는 옳은 개선용 의미 유닛 집합의 일부분과 순차적으로 일치하는 소정의 개수의 글자에 관한 정보인 방법.
제1항에 있어서,
상기 부분 스펠링 정보는 옳은 개선용 의미 유닛 집합의 일부분과 순차적으로 일치하는 소정의 개수의 군용 음성 알파벳에 관한 정보인 방법.
제1항에 있어서,
상기 부가 정보는 옳은 개선용 의미 유닛 집합에 관한 힌트 단어나 힌트 글자에 관한 정보를 더 포함하는 방법.
제7항에 있어서,
상기 힌트 단어는, 적어도 그 일부에 있어서 옳은 개선용 의미 유닛 집합의 단어와 동일하거나 유사한 스펠링을 갖는 단어, 옳은 개선용 의미 유닛 집합에 포함되어야 하는 글자를 강조하기 위한 단어, 옳은 개선용 의미 유닛 집합의 단어와 유의어 관계에 있는 단어, 옳은 개선용 의미 유닛 집합의 단어와 상하위 관계를 갖는 단어 및 옳은 개선용 의미 유닛 집합의 단어와 연상어 관계에 있는 단어 중 적어도 하나에 해당하는 방법.
제7항에 있어서,
상기 부가 정보는 예약어를 더 포함하는 방법.
적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 포착된 의미 유닛 집함임 - 을 개선하기 위한 장치로서,
사용자의 발화에 따라 개선용 음성을 수신하는 음성 감지부, 및
상기 개선용 음성에 기초하여 개선용 의미 유닛 집합을 특정하고, 상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하며, 상기 포착된 의미 유닛 집합 내에서 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 의미 유닛 개선부
를 포함하고,
상기 개선용 의미 유닛 집합은 상기 사용자의 발화에 따른 부가 정보에 더 기초하여 특정된 것이고,
상기 부가 정보는 옳은 개선용 의미 유닛 집합을 위한 부분 스펠링 정보를 포함하는 장치.
제1항 및 제5항 내지 제9항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.