KR20000033518A - 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법 - Google Patents

네트워크를 이용한 음성 언어 번역 시스템 및 그 방법 Download PDF

Info

Publication number
KR20000033518A
KR20000033518A KR1019980050414A KR19980050414A KR20000033518A KR 20000033518 A KR20000033518 A KR 20000033518A KR 1019980050414 A KR1019980050414 A KR 1019980050414A KR 19980050414 A KR19980050414 A KR 19980050414A KR 20000033518 A KR20000033518 A KR 20000033518A
Authority
KR
South Korea
Prior art keywords
language
user interface
call
data
control means
Prior art date
Application number
KR1019980050414A
Other languages
English (en)
Inventor
이승훈
박준
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019980050414A priority Critical patent/KR20000033518A/ko
Publication of KR20000033518A publication Critical patent/KR20000033518A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 사용자로부터 입력되는 상대방의 인터넷프로토콜(IP) 주소와 호 접속 방식에 따라 호접속 요구 패킷을 생성하여 호 접속을 요구한 후에 상대방으로부터 호 거절 패킷이 수신되는지를 판단하는 제 1 단계; 상기 제 1 단계의 판단 결과, 호 거절 패킷이 수신되면 재접속을 시도하거나 통신을 끝내는 제 2 단계; 및 상기 제 1 단계의 판단 결과, 호 승인 패킷이 수신되면 호 해제 요구시까지 중간언어 또는 번역된 언어 형태의 데이터 패킷으로 서로 음성 언어 번역 통신을 수행하는 제 3 단계를 포함한다.
4. 발명의 중요한 용도
본 발명은 통신망에 이용됨.

Description

네트워크를 이용한 음성 언어 번역 시스템 및 그 방법
본 발명은 다중매체환경하에서의 음성 언어 번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
먼저, 종래의 유사 기술들을 살펴보면 다음과 같다.
"W.L.Rivers"가 미국에서 특허등록을 받은 US5,615,301호(Automated Language Translation System)는 텔레비젼으로부터 나오는 오디오 출력을 받아서 바꾸고자 하는 언어로 변환하여 음성으로 출력하는 언어 번역 시스템에 관한 것이다. 이 시스템의 음성 인식기는 텔레비젼으로부터 들어오는 음성신호를 받아들여 인식할 수 있는 작은 음소단위로 나누며 배경잡음을 제거하기 위하여 스펙트럼 분석기도 포함하고 있다.
한편, 연속적으로 생성된 음소들을 다시 묶어서 미리 결정해 놓은 단어들로부터 해당되는 것을 골라낸다. 이렇게 해서 이루어진 문장은 만국어(예를 들면 에스페란토어)로 변환된다. 변환된 내용은 디스플레이 장치에 의해서 화면에 표시된다. 번역 시스템은 에스페란토어로 된 문장을 언어 선택 스위치에 의해서 선정된 언어로 변환하여 음성 합성기에게 데이터를 넘겨준다. 음성 합성기는 자연스러운 음성을 합성하기 위하여 선택된 언어에 맞는 문법 규칙 등을 사용하여 음성을 합성하여 사용자에게 들려준다.
또한, "Hiyan Alshawi"가 미국에서 특허등록을 받은 US5,815,196호(Videophone with Continuous Speed-to-Subtitles Translation)는 비디오폰을 이용한 연속어 음성 언어 번역 시스템에 관한 것으로, 상대방의 비디오폰에 번역된 결과와 화상이 동시에 출력되는 형태를 취하고 있다. 이 시스템은 상대방의 비디오폰에서 마이크로부터 입력되는 오디오신호와 카메라로부터 입력받은 영상신호를 오디오/비디오 인코더를 거쳐 압축한 다음에 상기 음성 언어 번역 시스템이 적용된 비디오폰으로 전송한다.
이 신호를 받은 비디오폰은 오디오/비디오 디코더를 이용하여 영상신호를 분리하면서, 음성신호는 스피커를 통하여 나오게 한다. 한편, 음성 인식기 모듈은 이 오디오 신호를 받아서 음성 인식 결과를 출력한다. 이 결과는 다시 언어 번역기를 통과하면서 바꾸고자 하는 언어로 변환되어 텍스트 형태로 출력된다. 서브타이틀 생성기는 변환된 텍스트와 오디오/비디오 디코더에서 분리된 영상신호를 더하여 디스플레이 신호를 생성하여 비디오폰의 화면에 영상신호와 화면 한쪽에 번역결과인 텍스트를 통시에 나타나도록 한다.
한편, "Stephen A.Rondel" 등이 미국에서 특허등록을 받은 US4,984,177호(Voice Language Translation)는 손안에 들어갈 정도의 소형의 음성 언어 번역기에 관한 것으로, 키패드, 언어카드리지, 음성 인식 모듈, 음성 합성기, 스피커, 마이크로폰 및 프로그래밍된 중앙처리장치(CPU)로 구성된다. 시스템의 훈련기간 동안에 음성 언어 번역기는 일련의 여러 종류 단어를 제시하면서, 사용자가 이를 발성하면 사용자에게 맞게 훈련된다. 이와 함께 음성 인식 회로에서 생성된 음성 패턴은 카드리지에 저장된다. 따라서, 실제 번역시에는 사용자가 문장을 발성하면, 음성 인식 회로에서 생성된 음성 패턴의 음성 성질을 결정하기 위하여 저장된 패턴과 비교한다. 이 결과는 카드리지에 저장되어 있는 번역 결과를 찾아내는데 이용된다. 만약, 언어 번역기가 입력 음성을 인식하지 못하면 받아들일 수 있는 단어 및 문장들의 목록이 화면에 표시된다. 이때, 마우스나 키패드의 키를 이용하여 원하는 단어나 문장을 선택할 수 있다. 원하는 언어 번역 결과는 음성 합성기를 통하여 스피커로 출력된다.
한편, 비주얼 디스플레이를 이용하여 번역된 결과에 대한 검증 기능이 있어서 사용자가 이를 받아들일 것인지 말것인지를 결정할 수 있다. 이 시스템은 훈련된 음성 패턴을 한 카드리지로부터 다른 카드리지(예를 들면 영불 카드리지)로 전송할 수도 있다.
그러나, 상기와 같은 종래 기술들들은 다음과 같은 구조 및 단점을 가지고 있다.
첫째, 대부분이 개인용 컴퓨터(PC) 또는 유닉스 시스템(UNIX Machine)과 같은 하나의 시스템에서 음성 인식 및 언어 번역 기능을 수행하는 하나의 솔류선(One-Solution) 구조로 되어 있다.
둘째, 번역하고자 하는 대상 언어가 특정 언어로 규정되어 있다.
셋째, 음성 언어 번역 기능이 하나의 시스템에서 모두 이루어지므로 상대방과의 통신 기능이 없는 제품들이 대부분이다.
넷째, 일부 통신 기능이 있는 종래 기술도 송수신하는 데이터가 음성 언어 번역 정보가 아니라 비디오 신호와 같이 연동되는 오디오 신호를 전송하는 비디오폰 형태를 취하고 있다.
다섯째, 대부분이 일대일 언어 번역 기능을 가지고 있어서, 다국어 음성 언어 번역에 적합하지 않은 구조로 되어 있다.
여섯째, 현재 널리 사용되고 있는 인터넷 등을 이용한 음성 언어 번역 통신 기능이 없다.
상기 문제점을 해결하기 위하여 안출된 본 발명은, 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 네트워크를 이용한 음성 언어 번역 시스템의 일실시예 구성도.
도 2 는 본 발명에 따른 네트워크 호 처리부의 송수신 데이터 포맷의 일실시예 구조도.
도 3 은 본 발명에 따른 네트워크를 이용한 음성 언어 번역 방법에 대한 일실시예 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
11 : 입출력부 12 : 음성 인식부
13 : 중간언어 생성부 14 : 언어 생성부
15 : 네트워크 호 처리부 16 : 음성 합성부
17 : 얼굴 애니메이션부 18 : 사용자 인터페이스부
상기 목적을 달성하기 위한 본 발명의 장치는, 음성 언어 번역 시스템에 있어서, 사용자 인터페이스 제어 수단의 제어에 따라 사용자로부터 음성 신호를 입력받아 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 입력 수단; 상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 음성 신호를 인식하여 문자 형태의 문장으로 변환하여 상기 사용자 인터페이스 제어 수단으로 전송하기 위한 음성 인식 수단; 상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 문자 형태의 문장을 상대방의 언어 생성에 필요한 의미론적인 구조로 변형시켜 상기 사용자 인터페이스 제어 수단으로 전송하기 위한 중간언어 생성 수단; 상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 의미론적인 구조의 데이터를 변환하고자 하는 언어로 번역하여 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 언어 생성 수단; 상기 사용자 인터페이스 제어 수단의 제어에 따라, 상대방과의 호 접속, 호 해제 및 데이터 통신을 수행하기 위한 네트워크 호 처리 수단; 및 상기 각 구성요소를 제어하여 네트워크를 이용한 음성 언어 번역을 수행하기 위한 상기 사용자 인터페이스 제어 수단을 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명의 상기 장치는, 상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 번역 문장을 음성으로 합성하여 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 음성 합성 수단을 더 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명의 다른 장치는, 음성 언어 번역 시스템에 있어서, 사용자 인터페이스 제어 수단의 제어에 따라 사용자로부터 음성 신호와 영상신호를 입력받아 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 입력 수단; 상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 음성 신호를 인식하여 문자 형태의 문장으로 변환하여 상기 사용자 인터페이스 제어 수단으로 전송하기 위한 음성 인식 수단; 상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 문자 형태의 문장을 상대방의 언어 생성에 필요한 의미론적인 구조로 변형시켜 상기 사용자 인터페이스 제어 수단으로 전송하기 위한 중간언어 생성 수단; 상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 의미론적인 구조의 데이터를 변환하고자 하는 언어로 번역하여 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 언어 생성 수단; 상기 사용자 인터페이스 제어 수단의 제어에 따라, 상대방과의 호 접속, 호 해제 및 데이터 통신을 수행하기 위한 네트워크 호 처리 수단; 상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 번역 문장을 음성으로 합성하여 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 음성 합성 수단; 상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단을 통하여 상기 음성 합성 수단으로부터 전달받은 음소를 이용하여, 상기 호 처리 수단을 통하여 전달받은 상대방의 얼굴내의 모양을 움직여주기 위한 애니메이션 수단; 및 상기 각 구성요소를 제어하여 네트워크를 이용한 음성 언어 번역을 수행하기 위한 상기 사용자 인터페이스 제어 수단을 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명의 방법은, 음성 언어 번역 시스템에 적용되는 음성 언어 번역 방법에 있어서, 사용자로부터 입력되는 상대방의 인터넷프로토콜(IP) 주소와 호 접속 방식에 따라 호접속 요구 패킷을 생성하여 호 접속을 요구한 후에 상대방으로부터 호 거절 패킷이 수신되는지를 판단하는 제 1 단계; 상기 제 1 단계의 판단 결과, 호 거절 패킷이 수신되면 재접속을 시도하거나 통신을 끝내는 제 2 단계; 및 상기 제 1 단계의 판단 결과, 호 승인 패킷이 수신되면 호 해제 요구시까지 중간언어 또는 번역된 언어 형태의 데이터 패킷으로 서로 음성 언어 번역 통신을 수행하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명의 상기 방법은, 상기 제 1 단계의 판단 결과, 호 승인 패킷이 수신되면 송신측과 수신측의 영상을 호 영상 패킷에 실어 송수신하는 제 4 단계를 더 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은, 프로세서를 구비한 음성 언어 번역 시스템에, 사용자로부터 입력되는 상대방의 인터넷프로토콜(IP) 주소와 호 접속 방식에 따라 호접속 요구 패킷을 생성하여 호 접속을 요구한 후에 상대방으로부터 호 거절 패킷이 수신되는지를 판단하는 제 1 기능; 상기 제 1 기능에서의 판단 결과, 호 거절 패킷이 수신되면 재접속을 시도하거나 통신을 끝내는 제 2 기능; 및 상기 제 1 기능에서의 판단 결과, 호 승인 패킷이 수신되면 호 해제 요구시까지 중간언어 또는 번역된 언어 형태의 데이터 패킷으로 서로 음성 언어 번역 통신을 수행하는 제 3 기능을 실현시키기 위한 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한, 본 발명의 상기 기록매체는, 상기 제 1 기능에서의 판단 결과, 호 승인 패킷이 수신되면 송신측과 수신측의 영상을 호 영상 패킷에 실어 송수신하는 제 4 기능을 더 실현시키기 위한 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
먼저, 본 발명의 개념을 개략적으로 살펴보면 다음과 같다.
본 발명은, 먼저 마이크를 통하여 입력되는 음성 신호를 받아서 음성 인식을 수행한다. 음성 인식된 결과는 사용자의 선택에 의해서 중간언어 생성기 또는 언어 생성기를 통과하여 상대방에게 전송할 수 있는 형태의 데이터로 가공된다. 가공된 데이터는 네트워크 인터페이스를 통하여 인터넷으로 연결된 상대방에게 전달된다. 상대방의 언어 생성기는 이 데이터를 입력받아 해당 언어로 번역을 수행하고, 이 결과는 음성 합성기를 통하여 스피커로 출력된다. 동시에 사용자의 선택에 의해서 상대방의 얼굴 화면이 디스플레이되면서 합성 음성과 동기화되어 입술 모양 및 얼굴 표정이 움직인다.
이를 위하여 본 발명에서는 다음과 같은 기능들을 구현하였다.
첫째, 종래 기술들은 대부분이 개인용 컴퓨터(PC) 또는 유닉스 시스템(UNIX machine)에서 혼자서 필요한 문장을 번역하거나, 웹 브라우징에 의한 번역 서비스를 받거나 하였으나, 본 발명에서는 적용 대상을 사용자가 혼자서 음성 언어 번역 시스템을 이용하여 단순한 언어 번역을 서비스받는 것이 아니라, 상대방과 통신에 의해서 음성 언어 번역 기능을 수행하도록 하였다.
둘째, 종래 기술들은 하나의 시스템에서 동작하므로 번역 대상 언어가 1-2개로 정해져 있으나, 본 발명은 상대방과의 통신에 의해서 음성 언어 번역이 이루어지므로 번역 대상 언어가 다수 개가 될 수 있도록 하였다.
셋째, 오디오 신호를 코딩하여 상대방에게 전송하는 일부 종래 기술과 달리, 본 발명에서는 상대방과 통신하는 경우에 중간언어 또는 번역 문장을 전송하므로써 네트워크의 대역폭을 적게 점유하도록 하였다.
넷째, 종래 기술들은 대부분 네트워크를 이용한 음성 언어 번역 통신 기술이 아니나, 본 발명에서는 인터넷 등을 통하여 상대방과 원활하게 다국어 음성 언어 번역 통신을 하기 위하여 효율적으로 호를 처리하도록 하였다.
도 1 은 본 발명에 따른 네트워크를 이용한 음성 언어 번역 시스템의 일실시예 구성도이다.
입출력부(11)는 사용자 인터페이스부(18)의 제어에 따라 사용자로부터 마이크를 통하여 입력되는 음성 신호와 비디오 카메라를 통하여 입력되는 영상 신호를 입력받아 사용자 인터페이스부(18)로 전달하거나, 반대로 출력한다.
음성 인식부(12)는 사용자 인터페이스부(18)의 제어에 따라, 사용자 인터페이스부(18)로부터 전달받은 음성 신호를 인식하여 문자 형태의 문장으로 변환하는 기능을 가지고 있으며, 인식 결과를 사용자 인터페이스부(18)로 전송한다.
중간언어 생성부(13)는 사용자 인터페이스부(18)의 제어에 따라, 사용자 인터페이스부(18)로부터 전달받은 문자 형태의 문장을 상대방의 언어 생성에 필요한 의미론적인 구조로 변형시키는 기능을 가지고 있다. 이 기능은 다국어 번역 기능에 있어서 중요한 요소로서, 상대방의 언어에 상관없이 다국어를 생성할 수 있는 형태로 문장을 변형하는 것을 의미한다. 중간 언어 생성부(13)에서 나온 결과 역시 사용자 인터페이스부(18)로 전송된다.
언어 생성부(14)는 사용자 인터페이스부(18)의 제어에 따라, 사용자 인터페이스부(18)로부터 전달받은 의미론적인 구조의 데이터를 최종적으로 변환하고자 하는 언어로 번역하는 기능을 가지고 있다. 언어 생성부(14)의 동작은 사용자 인터페이스부(18)에서 선택된 언어에 맞도록 번역 결과를 출력하며, 이 결과는 다시 사용자 인터페이스부(18)로 넘겨진다.
음성 합성부(16)는 사용자 인터페이스부(18)의 제어에 따라, 사용자 인터페이스부(18)로부터 전달받은 번역 문장을 음성으로 합성하는 기능을 가지고 있으며, 동시에 얼굴 애니메이션부(17)로 사용자 인터페이스부(18)를 통하여 번역 문장의 음소를 순서대로 보내준다.
얼굴 애니메이션부(17)는 사용자 인터페이스부(18)의 제어에 따라, 사용자 인터페이스부(18)를 통하여 음성 합성부(16)로부터 전달받은 음소를 이용하여 상대방의 입술 및 눈썹 등과 같은 얼굴내의 모양을 움직여 준다. 이때, 움직이는 상대방의 얼굴은 시스템에 부착된 비디오 카메라에 의해서 포착된 영상 데이터를 네트워크로부터 전송받아서 사용한다. 음성 합성부(16) 및 얼굴 애니메이션부(17)의 동작 유무는 사용자 인터페이스부(18)내에 있는 사용 유무 선택 기능에 의해서 제어된다.
네트워크 호 처리부(15)는 사용자 인터페이스부(18)의 제어에 따라, 상대방과의 호 접속, 호 해제 및 데이터 통신을 수행하는 기능을 가지고 있으며, 소켓을 이용한 전송제어프로토콜/인터넷프로토콜(TCP/IP)로 인터넷 통신을 제공한다. 네트워크 호 처리부(15)의 송수신 소켓 데이터에는 다수의 필드에 의해서 상대방과의 접속 형식 및 데이터 등이 기록된다.
사용자 인터페이스부(18)는 상기 각 구성요소를 전체적으로 제어하며, 마우스와 키보드를 통하여 사용자와 정보를 주고받도록 되어 있으며, 시스템의 부팅 방법, 사용자 자신이 사용하는 언어에 대한 선택 기능, 상대방과 송수신하는 데이터 형식 선택 기능, 음성 합성기 사용 유무 기능, 얼굴 애니메이션 사용 유무 기능 및 네트워크를 이용한 호 처리 및 데이터 송수신 기능 등을 포함하고 있다.
도 2 는 본 발명에 따른 네트워크 호 처리부의 송수신 데이터 포맷의 일실시예 구조도이다.
호 제어(CALL-CTRL) 필드(21)는 상대방과의 통신 패킷 형식을 규정하는 필드로서, 호 요구, 호 승인, 호 해제, 호 거절, 호 데이터 및 호 영상으로 분류되는 형식을 가지고 있다. 여기서, 호 요구는 상대방과 연결하기 위하여 호를 요구하는 신호이고, 호 승인은 요구가 들어온 호를 받아들이겠다는 응답 신호이고, 호 해제는 연결되어 통화를 하던 호를 해제하겠다는 신호이고, 호 거절은 호를 요구하는 측의 요구 조건을 만족시킬 수 없다는 신호이고, 호 데이터는 중간언어 또는 번역된 문장이 실려간다는 것을 나타내는 신호이고, 호 영상은 현재 실려가는 데이터가 영상 데이터라는 것을 나타내는 신호이다.
주소(ADDRES) 필드(22)는 네트워크를 통하여 데이터를 전송하는 측의 인터넷프로토콜(IP) 주소로서, 데이터를 받는 측은 항상 주소(ADDRESS) 필드를 검사하면서 발신지 주소의 이상 유무를 확인한다. 만약, 현재 통화중인 상대방의 주소가 아닌 곳으로부터 데이터를 전송받으면 사용자 인터페이스부(18)를 통하여 화면에 오류 메시지를 내보낸다.
언어(LANGUAGE) 필드(23)는 데이터를 전송하는 측의 언어를 표시하는 필드로서, 호 요구를 받는 측은 만약 송신(TRANSMIT) 필드(25)가 언어 모드로 되어 있다면 자신이 그 언어를 이용하여 번역 문장을 생성할 수 있는지를 검사하여 만약 언어 번역이 불가능하다면 호 거절 패킷을 호 요구측에 보낸다.
수신(RECEIVE) 필드(24)는 상대방으로부터 받는 호 데이터 패킷의 형태를 규정하는 필드로서, 중간언어 모드와 언어 모드가 있다. 중간언어 모드는 사용자가 발성하여 인식한 문장을 통신을 하고자 하는 상대방의 언어로 번역하기 위한 의미론적인 형태(번역 문장이 아님)의 데이터를 전송하고자 할 때 사용한다. 이 모드는 우리가 사용하는 일반적인 언어 형태가 아니라 어디에서나 사용할 수 있는 만국적인 언어 형태이므로 이 패킷을 전송받는 측의 언어 생성 모듈의 성능에 따라 번역 문장의 성공률이 좌우된다. 언어 모드는 중간언어 모드와 달리 데이터 패킷을 보내는 측이 상대방의 언어로 번역하여 전송하는 것으로서, 이 모드에서는 번역 성능이 송신측에 달려 있다.
송신(TRANSMIT) 필드(25)는 상대방에게 전송하는 데이터 패킷의 형태를 규정하는 필드로서, 중간언어 모드와 언어 모드가 있다. 중간언어 모드인 경우에는 중간언어 생성부(13)를 통하여 얻어진 결과를 상대방에게 전송하는 것이고, 언어 모드인 경우에는 중간언어 생성부(13)를 통하여 얻어진 결과를 언어 생성부(14)에 보내어 상대방의 언어로 번역하여 최종적인 번역 문장을 상대방에게 전송한다.
길이(LENGTH) 필드(26)는 호 제어(CALL-CTRL) 필드(21)가 데이터 패킷 또는 영상 패킷으로 되어 있는 경우에 데이터(DATA) 필드(27)의 크기를 나타낸다. 호 제어(CALL-CTRL) 필드(21)가 데이터 패킷을 가리키지 않는 경우에는 모두 영의 값을 갖는다.
데이터(DATA) 필드(27)는 상대방에게 전송되는 중간언어, 번역된 언어 또는 영상 데이터가 실리는 필드로서, 영 이상의 크기를 가진다. 이 패킷을 전송받은 측은 송신(TRANSMIT) 필드(25)가 중간언어 모드인 경우에는 자신의 언어 생성부(14)에 이 데이터를 넘겨주어 자신의 언어로 번역한 다음에 음성 합성부(16)에 번역 문장을 보내어 스피커를 통하여 상대방이 발성한 음성을 자신의 언어로 듣는다. 이때, 얼굴 애니메이션부(17)에서는 상대방의 얼굴이 합성되는 음성과 동기화되어 화면에서 움직이도록 한다. 만약, 전송받는 데이터 패킷이 번역된 언어인 경우에는 바로 음성 합성부(16)로 보내어진다. 얼굴 애니메이션부(17)에서 사용되는 영상은 호 제어(CALL-CTRL) 필드(21)가 호 영상 패킷인 경우에 데이터(DATA) 필드(27)에 실려있는 영상을 받아서 이용한다.
도 3 은 본 발명에 따른 네트워크를 이용한 음성 언어 번역 방법에 대한 일실시예 흐름도이다.
사용자가 상대방과 통신을 하기 위해서는 먼저 상대방의 인터넷프로토콜(IP) 주소를 알아야 한다. 또한, 어떤 방법으로 통신을 할 것인지에 대한 호 접속 방식을 선택해야 한다(31). 호 접속 방식은 사용자 인터페이스부(18)에서 제공되는 옵션 메뉴에 의해서 사용자 자신이 사용하는 언어에 대한 선택 기능, 상대방과 송수신하는 데이터 형식 선택 기능, 음성 합성기 사용 유무 기능, 얼굴 애니메이션 사용 유무 기능 등을 정해야 한다. 호 접속 방식에 대한 선택이 끝나면 상대방의 인터넷프로토콜(IP) 주소를 가지고 호접속 요구 패킷을 생성하여 호 접속 요구를 시도한다(32). 호 접속 요구 패킷내에는 송신측의 인터넷프로토콜(IP) 주소(22), 언어(23), 데이터 송신 형태(24), 데이터 수신 형태(25) 및 길이(26)를 채워넣는다.
이후, 상대방으로부터 호 거절 패킷이 수신되는지를 판단하여(33) 만약 상대방으로부터 호 거절 패킷이 오면 재접속을 시도하거나 통신을 끝낸다(34). 그렇지 않고 상대방이 호 승인 패킷을 보내오면 송신측과 수신측의 영상을 호 영상 패킷에 실어 주고 받는다(35).
호 영상 송수신이 끝나면 이 시점부터는 중간언어 또는 번역된 언어 형태의 데이터 패킷으로 서로 음성 언어 번역 통신을 할 수 있다(36). 만약, 통신중에 호 해제 요구 패킷이 들어오면(37) 통신을 끝내고 그렇지 않으면 계속적으로 서로 호 데이터 패킷을 송수신한다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기와 같은 본 발명은, 네트워크를 이용하므로써 상대방과 자유롭게 자국어로 통신할 수 있다.
또한, 본 발명은 통신 데이터가 번역된 문장 또는 번역 문장을 생성할 수 있는 중간언어 형태이므로, 네트워크를 통하여 음성을 코딩하여 직접 전달하는 방법보다 훨씬 적은 데이터로 자국어 통신을 할 수 있다.
또한, 본 발명은 번역 문장을 음성 합성기를 이용하여 스피커로 출력하며, 상대방의 얼굴 모습을 합성 음성과 동기화하여 애니메이션 화면에 나타내는 효과를 가지고 있다.
따라서, 본 발명을 음성 언어 번역 통신 서비스에 이용한다면 인터넷으로 연결된 전세계의 누구와도 언어의 장벽없이 손쉽게 자유로이 의사를 주고받을 수 있다.
또한, 본 발명이 적용되는 시스템만 가지고 있다면 기존의 국제전화보다 훨씬 저렴한 비용으로 외국에 있는 상대방과 통신할 수 있으며, 인터넷 폰보다 훨씬 적은 데이터 전송율로 더 많은 사람들이 인터넷을 사용할 수 있다.

Claims (15)

  1. 음성 언어 번역 시스템에 있어서,
    사용자 인터페이스 제어 수단의 제어에 따라 사용자로부터 음성 신호를 입력받아 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 입력 수단;
    상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 음성 신호를 인식하여 문자 형태의 문장으로 변환하여 상기 사용자 인터페이스 제어 수단으로 전송하기 위한 음성 인식 수단;
    상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 문자 형태의 문장을 상대방의 언어 생성에 필요한 의미론적인 구조로 변형시켜 상기 사용자 인터페이스 제어 수단으로 전송하기 위한 중간언어 생성 수단;
    상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 의미론적인 구조의 데이터를 변환하고자 하는 언어로 번역하여 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 언어 생성 수단;
    상기 사용자 인터페이스 제어 수단의 제어에 따라, 상대방과의 호 접속, 호 해제 및 데이터 통신을 수행하기 위한 네트워크 호 처리 수단; 및
    상기 각 구성요소를 제어하여 네트워크를 이용한 음성 언어 번역을 수행하기 위한 상기 사용자 인터페이스 제어 수단
    을 포함하는 음성 언어 번역 시스템.
  2. 제 1 항에 있어서,
    상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 번역 문장을 음성으로 합성하여 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 음성 합성 수단
    을 더 포함하는 음성 언어 번역 시스템.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 중간언어 생성 수단에서 문자 형태의 문장을 의미론적인 구조로 변형시키는 과정은,
    문자 형태의 문장을 상대방의 언어에 상관없이 다국어를 생성할 수 있는 형태로 변형시키는 것을 특징으로 하는 음성 언어 번역 시스템.
  4. 제 1 항 또는 제 2 항에 있어서,
    상기 사용자 인터페이스 제어 수단은,
    상기 각 구성요소를 제어하고, 입출력장치를 통하여 사용자와 정보를 주고받으며, 시스템의 부팅 방법, 사용자 자신이 사용하는 언어에 대한 선택 기능, 상대방과 송수신하는 데이터 형식 선택 기능 및 네트워크를 이용한 호 처리 및 데이터 송수신 기능을 수행하는 것을 특징으로 하는 음성 언어 번역 시스템.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 네트워크 호 처리 수단의 송수신 데이터 포맷은,
    상대방과의 통신 패킷 형식을 규정하는 호 제어(CALL-CTRL) 필드;
    상기 네트워크를 통하여 데이터를 전송하는 측의 인터넷프로토콜(IP) 주소를 나타내는 주소(ADDRES) 필드;
    데이터를 전송하는 측의 언어를 표시하는 언어(LANGUAGE) 필드;
    상대방으로부터 받는 호 데이터 패킷의 형태를 규정하는 수신(RECEIVE) 필드;
    상대방에게 전송하는 데이터 패킷의 형태를 규정하는 송신(TRANSMIT) 필드;
    상기 데이터(DATA) 필드의 크기를 나타내는 길이(LENGTH) 필드; 및
    상대방에게 전송되는 중간언어, 번역된 언어 또는 영상 데이터가 실리는 데이터(DATA) 필드
    를 포함하는 음성 언어 번역 시스템.
  6. 음성 언어 번역 시스템에 있어서,
    사용자 인터페이스 제어 수단의 제어에 따라 사용자로부터 음성 신호와 영상신호를 입력받아 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 입력 수단;
    상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 음성 신호를 인식하여 문자 형태의 문장으로 변환하여 상기 사용자 인터페이스 제어 수단으로 전송하기 위한 음성 인식 수단;
    상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 문자 형태의 문장을 상대방의 언어 생성에 필요한 의미론적인 구조로 변형시켜 상기 사용자 인터페이스 제어 수단으로 전송하기 위한 중간언어 생성 수단;
    상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단으로부터 전달받은 의미론적인 구조의 데이터를 변환하고자 하는 언어로 번역하여 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 언어 생성 수단;
    상기 사용자 인터페이스 제어 수단의 제어에 따라, 상대방과의 호 접속, 호 해제 및 데이터 통신을 수행하기 위한 네트워크 호 처리 수단;
    상기 사용자 인터페이스 제어 수단의 제어에 따라,상기 사용자 인터페이스 제어 수단으로부터 전달받은 번역 문장을 음성으로 합성하여 상기 사용자 인터페이스 제어 수단으로 전달하기 위한 음성 합성 수단;
    상기 사용자 인터페이스 제어 수단의 제어에 따라, 상기 사용자 인터페이스 제어 수단을 통하여 상기 음성 합성 수단으로부터 전달받은 음소를 이용하여, 상기 호 처리 수단을 통하여 전달받은 상대방의 얼굴내의 모양을 움직여주기 위한 애니메이션 수단; 및
    상기 각 구성요소를 제어하여 네트워크를 이용한 음성 언어 번역을 수행하기 위한 상기 사용자 인터페이스 제어 수단
    을 포함하는 음성 언어 번역 시스템.
  7. 제 6 항에 있어서,
    상기 중간언어 생성 수단에서 문자 형태의 문장을 의미론적인 구조로 변형시키는 과정은,
    문자 형태의 문장을 상대방의 언어에 상관없이 다국어를 생성할 수 있는 형태로 변형시키는 것을 특징으로 하는 음성 언어 번역 시스템.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 사용자 인터페이스 제어 수단은,
    상기 각 구성요소를 제어하고, 입출력장치를 통하여 사용자와 정보를 주고받으며, 시스템의 부팅 방법, 사용자 자신이 사용하는 언어에 대한 선택 기능, 상대방과 송수신하는 데이터 형식 선택 기능, 음성 합성 사용 유무 기능, 얼굴 애니메이션 사용 유무 기능 및 네트워크를 이용한 호 처리 및 데이터 송수신 기능을 수행하는 것을 특징으로 하는 음성 언어 번역 시스템.
  9. 제 6 항 또는 제 7 항에 있어서,
    상기 네트워크 호 처리 수단의 송수신 데이터 포맷은,
    상대방과의 통신 패킷 형식을 규정하는 호 제어(CALL-CTRL) 필드;
    상기 네트워크를 통하여 데이터를 전송하는 측의 인터넷프로토콜(IP) 주소를 나타내는 주소(ADDRES) 필드;
    데이터를 전송하는 측의 언어를 표시하는 언어(LANGUAGE) 필드;
    상대방으로부터 받는 호 데이터 패킷의 형태를 규정하는 수신(RECEIVE) 필드;
    상대방에게 전송하는 데이터 패킷의 형태를 규정하는 송신(TRANSMIT) 필드;
    상기 데이터(DATA) 필드의 크기를 나타내는 길이(LENGTH) 필드; 및
    상대방에게 전송되는 중간언어, 번역된 언어 또는 영상 데이터가 실리는 데이터(DATA) 필드
    를 포함하는 음성 언어 번역 시스템.
  10. 음성 언어 번역 시스템에 적용되는 음성 언어 번역 방법에 있어서,
    사용자로부터 입력되는 상대방의 인터넷프로토콜(IP) 주소와 호 접속 방식에 따라 호접속 요구 패킷을 생성하여 호 접속을 요구한 후에 상대방으로부터 호 거절 패킷이 수신되는지를 판단하는 제 1 단계;
    상기 제 1 단계의 판단 결과, 호 거절 패킷이 수신되면 재접속을 시도하거나 통신을 끝내는 제 2 단계; 및
    상기 제 1 단계의 판단 결과, 호 승인 패킷이 수신되면 호 해제 요구시까지 중간언어 또는 번역된 언어 형태의 데이터 패킷으로 서로 음성 언어 번역 통신을 수행하는 제 3 단계
    를 포함하는 음성 언어 번역 방법.
  11. 제 10 항에 있어서,
    상기 제 1 단계의 판단 결과, 호 승인 패킷이 수신되면 송신측과 수신측의 영상을 호 영상 패킷에 실어 송수신하는 제 4 단계
    를 더 포함하는 음성 언어 번역 방법.
  12. 제 10 항 또는 제 11 항에 있어서,
    상기 송수신 데이터의 포맷은,
    상대방과의 통신 패킷 형식을 규정하는 호 제어(CALL-CTRL) 필드;
    상기 네트워크를 통하여 데이터를 전송하는 측의 인터넷프로토콜(IP) 주소를 나타내는 주소(ADDRES) 필드;
    데이터를 전송하는 측의 언어를 표시하는 언어(LANGUAGE) 필드;
    상대방으로부터 받는 호 데이터 패킷의 형태를 규정하는 수신(RECEIVE) 필드;
    상대방에게 전송하는 데이터 패킷의 형태를 규정하는 송신(TRANSMIT) 필드;
    상기 데이터(DATA) 필드의 크기를 나타내는 길이(LENGTH) 필드; 및
    상대방에게 전송되는 중간언어, 번역된 언어 또는 영상 데이터가 실리는 데이터(DATA) 필드
    를 포함하는 음성 언어 번역 방법.
  13. 프로세서를 구비한 음성 언어 번역 시스템에,
    사용자로부터 입력되는 상대방의 인터넷프로토콜(IP) 주소와 호 접속 방식에 따라 호접속 요구 패킷을 생성하여 호 접속을 요구한 후에 상대방으로부터 호 거절 패킷이 수신되는지를 판단하는 제 1 기능;
    상기 제 1 기능에서의 판단 결과, 호 거절 패킷이 수신되면 재접속을 시도하거나 통신을 끝내는 제 2 기능; 및
    상기 제 1 기능에서의 판단 결과, 호 승인 패킷이 수신되면 호 해제 요구시까지 중간언어 또는 번역된 언어 형태의 데이터 패킷으로 서로 음성 언어 번역 통신을 수행하는 제 3 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  14. 제 13 항에 있어서,
    상기 제 1 기능에서의 판단 결과, 호 승인 패킷이 수신되면 송신측과 수신측의 영상을 호 영상 패킷에 실어 송수신하는 제 4 기능
    을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  15. 제 13 항 또는 제 14 항에 있어서,
    상기 송수신 데이터의 포맷은,
    상대방과의 통신 패킷 형식을 규정하는 호 제어(CALL-CTRL) 필드;
    상기 네트워크를 통하여 데이터를 전송하는 측의 인터넷프로토콜(IP) 주소를 나타내는 주소(ADDRES) 필드;
    데이터를 전송하는 측의 언어를 표시하는 언어(LANGUAGE) 필드;
    상대방으로부터 받는 호 데이터 패킷의 형태를 규정하는 수신(RECEIVE) 필드;
    상대방에게 전송하는 데이터 패킷의 형태를 규정하는 송신(TRANSMIT) 필드;
    상기 데이터(DATA) 필드의 크기를 나타내는 길이(LENGTH) 필드; 및
    상대방에게 전송되는 중간언어, 번역된 언어 또는 영상 데이터가 실리는 데이터(DATA) 필드
    를 포함하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019980050414A 1998-11-24 1998-11-24 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법 KR20000033518A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980050414A KR20000033518A (ko) 1998-11-24 1998-11-24 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980050414A KR20000033518A (ko) 1998-11-24 1998-11-24 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20000033518A true KR20000033518A (ko) 2000-06-15

Family

ID=19559463

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980050414A KR20000033518A (ko) 1998-11-24 1998-11-24 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20000033518A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000071946A (ko) * 2000-04-21 2000-12-05 김영종 다국어 상호 동시번역 및 동시통역 인터넷 서버 서비스 방법
KR20000072073A (ko) * 2000-07-21 2000-12-05 백종관 음성 인식 및 음성 합성 기술을 이용한 자동동시통역서비스 방법 및 그 시스템
KR100381013B1 (ko) * 2000-12-18 2003-04-26 한국전자통신연구원 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000071946A (ko) * 2000-04-21 2000-12-05 김영종 다국어 상호 동시번역 및 동시통역 인터넷 서버 서비스 방법
KR20000072073A (ko) * 2000-07-21 2000-12-05 백종관 음성 인식 및 음성 합성 기술을 이용한 자동동시통역서비스 방법 및 그 시스템
KR100381013B1 (ko) * 2000-12-18 2003-04-26 한국전자통신연구원 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체

Similar Documents

Publication Publication Date Title
US8411824B2 (en) Methods and systems for a sign language graphical interpreter
US6377925B1 (en) Electronic translator for assisting communications
JP2003345379A6 (ja) 音声映像変換装置及び方法、音声映像変換プログラム
US20030023424A1 (en) Multimedia dictionary
US20030115059A1 (en) Real time translator and method of performing real time translation of a plurality of spoken languages
JP2003345379A (ja) 音声映像変換装置及び方法、音声映像変換プログラム
CA2510663A1 (en) A real time translator and method of performing real time translation of a plurality of spoken word languages
JPH11249867A (ja) 音声ブラウザシステム
US20020198716A1 (en) System and method of improved communication
EP1139335B1 (en) Voice browser system
KR20190041147A (ko) 사용자 맞춤형 통번역 장치 및 방법
JPH10136327A (ja) ディスクトップ会議システム
EP2590393A1 (en) Service server device, service provision method, and service provision program
KR100941598B1 (ko) 감정적 콘텐츠 효과를 포함하는 전화 통신 서비스를제공하는 VoIP 전화 통신 시스템 및 방법
WO2015023138A1 (ko) 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법
JP3714159B2 (ja) ブラウザ搭載装置
US6501751B1 (en) Voice communication with simulated speech data
JP2009122989A (ja) 翻訳装置
KR20000033518A (ko) 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법
CN116415597A (zh) 语音翻译、同声传译方法
JP2004015478A (ja) 音声通信端末装置
JP2001325202A (ja) 仮想空間の会話方法及びそのシステム
KR100395491B1 (ko) 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법
KR102479026B1 (ko) MPEG IoMT 환경에서의 질의응답 시스템 및 방법
JP2655086B2 (ja) 電話回線音声入力システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application