KR102479026B1

KR102479026B1 - MPEG IoMT 환경에서의 질의응답 시스템 및 방법

Info

Publication number: KR102479026B1
Application number: KR1020180097020A
Authority: KR
Inventors: 최미란; 왕지현; 김민호; 김현기; 류지희; 배경만; 배용진; 이형직; 임수종; 임준호; 장명길; 허정
Original assignee: 한국전자통신연구원
Priority date: 2017-09-27
Filing date: 2018-08-20
Publication date: 2022-12-20
Also published as: KR20190036463A

Abstract

본 발명은 MPEG IoMT 환경에서의 질의응답 시스템에 관한 것으로, 발화 정보를 입력받아 전송하고, 질의응답 결과 정보를 수신받아 제공하는 IoT 단말; 및 IoT 단말로부터 제공된 발화 정보를 MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 데이터 포맷에 따라 발화 분석을 수행하고, 발화 분석된 정보를 이용하여 질의응답 서버와의 질의 응답을 수행한 후 그 질의응답 결과 정보를 IoT 단말에 제공하는 발화 분석 서버;를 포함한다.

Description

MPEG IoMT 환경에서의 질의응답 시스템 및 방법{QUERY AND RESPONSE SYSTEM AND METHOD IN MPEG IoMT ENVIRONMENT}

본 발명은 MPEG IoMT 환경에서의 질의응답 시스템 및 방법을 구현하기 위한 것으로, 사용자의 다양한 요구에 부응하는 기기 조작과 정보 전달 및 질의응답에 대한 질문자가 원하는 정답을 정확히 검출하기 위한 장치 및 방법에 관한 것이다.

종래의 질의응답 기술은 질문자가 직접 입력한 질문 문장에만 의존하여 정답을 찾기 때문에 다양한 사용자의 요구를 해결하기 어려웠다.

최근에는 웨어러블 장치(Wearable Device)를 비롯한 IoT 기기들이 많이 등장하면서, 단순한 질문만 해결하는 질의응답 시스템은 한계가 있다.

이러한 불편함을 해소하기 위해, 질문자의 발화에 대해 기기에서 미리 발화를 분석하여 질문자의 의도를 파악하는 것이 필요하다.

이에, MPEG에서는 IoT 환경에서의 멀티미디어 기술을 구현하기 위하여 MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 그룹에서 표준을 만들고 있으며, 여기에 질의응답 사용자 인터페이스를 포함하려고 하고 있다.

이를 위하여, 사용자의 발화 내용을 분석하고, 적절한 IoT 기기에서 발화 내용에 따른 처리를 수행할 수 있게 하는 기술에 대한 연구가 이루어지고 있다.

본 발명은 종래 문제점을 해결하기 위해 안출된 것으로, IoT 환경에서 다양한 장치를 통하여 입력되는 다양한 형태의 질문과 명령에 대한 발화에 대해 질의 처리가 가능한 MPEG IoMT 환경에서의 질의응답 시스템 및 방법을 제공하는 한다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 MPEG IoMT 환경에서의 질의응답 시스템은 발화 정보를 입력받아 전송하고, 질의응답 결과 정보를 수신받아 제공하는 IoT 단말; 및 상기 IoT 단말로부터 전송된 발화 정보를 MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 데이터 포맷에 따라 발화 분석을 수행하고, 발화 분석된 정보를 이용하여 질의응답 서버와의 질의 응답을 수행한 후 그 질의응답 결과 정보를 IoT 단말에 제공하는 발화 분석 서버;를 포함한다.

상기 MPEG IoMT의 데이터 포맷은 사용자 질문 타입에 대한 정보와 사용자의 질문이 어떤 언어로 표현되어 있는지에 대한 정보를 포함하는 것이 바람직하다.

그리고 상기 사용자 질문 타입에 대한 정보는, 질문의 주제를 나타내는 정보, 질문의 초점을 나타내는 정보 및 질문의 의미 또는 목적을 나타내는 정보를 포함하는 것이 바람직하다.

또한, 상기 질문의 초점 정보는, "언제, 어디에, 무엇을, 누가, 왜, 어떻게"와 같은 분류체계로 분류되고, 상기 질문의 의미 및 목적 정보는, 명령 요청, 어휘 요청, 의미 요청, 정보 요청 및 방법 요청 등과 같은 분류체계로 분류된다.

한편, 상기 MPEG IoMT의 데이터 포맷은 문자열(string)로 표현된 질문 도메인 정보를 포함할 수 있다.

그리고 본 발명의 일 실시예에 따른 IoT 단말은, 사용자로부터 제공된 발화 정보를 입력받는 입력부; 입력된 상기 발화 정보를 상기 발화 분석 서버에 전송하고, 상기 발화 분석 서버로부터 질의응답 결과 정보를 수신하는 통신부; 및 상기 발화 분석 서버로부터 수신한 질의응답 결과 정보를 출력하는 출력부;를 포함한다.

그리고 상기 입력부는 사용자의 발화 정보를 입력받는 마이크;를 포함한다.

여기서, 상기 입력부는 텍스트 형태의 모달 정보를 입력받는 사용자 인터페이스를 화면에 출력하는 질의창(Query Interface) 제공부를 포함할 수 있다.

또한, 상기 입력부는 이미지 형태의 모달 정보를 획득하는 카메라를 포함할 수 있다.

한편, 상기 출력부는, 질의응답 결과 정보를 화면으로 출력하는 화면 출력부;를 더 포함한다.

이러한 상기 출력부는, 질의응답 결과 정보를 음성으로 출력하는 음성 출력부;를 더 포함할 수 있다.

한편, 상기 발화 분석 서버는, 상기 IoT 단말 및 상기 질의응답 서버와 데이터 통신을 수행하는 통신부; 상기 IoT 단말로부터 제공된 발화 정보의 음성을 인식하는 음성 인식부; 상기 음성 인식된 발화 정보를 MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 데이터 포맷에 따라 발화 분석을 수행하는 발화 분석부; 상기 MPEG IoMT의 데이터 포멧으로 발화 분석된 정보를 이용하여 상기 질의응답 서버에 질의하는 질의응답 호출부;를 포함한다.

그리고 상기 발화 분석 서버는, 텍스트 형태의 질의응답 결과 정보를 음성으로 변환하는 음성 합성부;를 더 포함할 수 있다.

또한, 본 발명의 일 실시예는 상기 분석된 발화 정보가 질의요청을 위한 정보인지 기기제어 명령을 위한 정보인지를 판단하여 기기제어 명령이면 해당 기기제어 명령을 수행하도록, 발화 정보를 전송한 상기 IoT 단말로 발화 정보를 전달하는 발화 정보 판단부를 더 포함한다.

한편, 상기 음성 인식부는, 발화 정보에 대하여 형태소 분석, 개체명 분석, 구문 분석 등과 같은 언어 처리 과정을 수행한다.

또한, 상기 질의응답 서버는, 상기 발화분석 서버로부터 수신된 정보의 상기 MPEG IoMT의 데이터 포맷을 이용하여 질의 분석을 수행하고, 그 질의 분석된 결과인 질의응답 결과 정보를 상기 발화 분석 서버로 제공한다.

이러한, 상기 질의응답 서버는, 복수의 질의응답 결과가 존재할 경우, 질의응답 결과에 대한 정답 가능성 정보에 따라 설정된 목록 정보를 상기 발화 분석 서버에 전송한다.

본 발명의 일 실시예에 따른 MPEG IoMT 환경에서의 질의응답 방법은 발화 분석 서버가 IoT 단말로부터 전송된 발화 정보를 MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 데이터 포맷에 따라 발화 분석을 수행하는 단계; 상기 발화 분석 서버가 발화 분석된 정보를 이용하여 질의응답 서버와의 질의 응답을 수행하는 단계; 및 상기 발화 분석 서버가 그 질의응답 결과 정보를 IoT 단말에 제공하는 단계;를 포함한다.

여기서, 상기 MPEG IoMT의 데이터 포맷은, 사용자 질문 타입에 대한 정보와 사용자의 질문이 어떤 언어로 표현되어 있는지에 대한 정보를 포함한다.

그리고, 상기 사용자 질문 타입에 대한 정보는, 질문의 주제를 나타내는 정보, 질문의 초점을 나타내는 정보 및 질문의 의미 또는 목적을 나타내는 정보를 포함한다.

따라서, 본 발명의 일 실시예에 따르면, IoT 단말로부터 제공되는 사용자 발화를 분석하고, 이를 MPEG IoMT 데이터 포맷에 따라 발화 분석을 수행하여 질의 응답을 제공함으로써, MPEG IoMT 환경에서도 사용자의 발화를 이용한 질의 응답 서비스를 제공할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 MPEG IoMT 환경에서의 질의응답 시스템의 구성 블록을 설명하기 위한 도면이다.
도 2는 본 발명의 도 1에 도시된 IoT 단말을 설명하기 위한 구성 블록을 나타낸 도면이다.
도 3은 도 1에 도시된 발화 분석 서버(200)의 블록 구성을 나타낸 도면이다.
도 4는 도 1에 도시된 음성 처리부에 적용된 음성 인식에 대한 음성인식 데이터 포맷을 설명하기 위한 참고도이다.
도 5는 도 1에 도시된 발화 분석 서버에 이용되는 음성인식 데이터 포맷을 설명하기 위한 참고도.
도 6은 도 1에 도시된 발화 분석 서버에 이용되는 IoMT 질의 분석 패킷 포맷을 설명하기 위한 참고도.
도 7은 도 1에 도시된 발화 분석 서버에서의 발화분석 제 1 예를 설명하기 위한 참고도.
도 8은 도 1에 도시된 발화 분석 서버에서의 발화분석 제 2 예를 설명하기 위한 참고도.
도 9는 도 1에 도시된 발화 분석 서버에서의 발화분석 시, "Qfocus 분류체계를 설명하기 위한 참고도.
도 10은 도 1에 도시된 발화 분석 서버에서의 발화분석 시, "QCsemanticCS분류체계를 설명하기 위한 참고도.
도 11은 도 1에 도시된 발화 분석 서버에 이용되는 음성합성 데이터 포멧을 설명하기 위한 참고도.
도 12는 도 1에 도시된 발화분석 서버에서 토큰 활용을 위한 구성 블록을 나타낸 도면.
도 13은 본 발명의 일 실시예에 따른 MPEG IoMT 환경에서의 질의응답 방법을 설명하기 위한 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른 MPEG(Moving Picture Experts Group, 이하 'MPEG'라 함) IoMT(Internet of Media Things, 이하 "IoMT"라 함) 환경에서의 질의응답 시스템의 구성 블록을 설명하기 위한 도면이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 MPEG IoMT 환경에서의 질의응답 시스템은 IoMT(Internet of Things, 이하 "IoT"라 함) 단말(100), 발화 분석 서버(200) 및 질의응답 서버(300)를 포함한다.

IoT 단말(100)은 사용자로부터 제공된 발화 정보를 입력받아 발화 분석 서버에 전달하고, 발화 분석 서버로부터 수신되는 질의응답 결과 정보를 사용자에게 제공한다.

여기서, IoT 단말(100)은 웨어러블 기기를 포함하여 IoT 환경에서 사용되는 모든 기기로써, 다양한 센서, 제어장치들을 포함할 수 있다.

한편, IoT 단말(100)은 사용자의 질의 정보가 포함된 발화 정보와 함께, 기기의 정보 및 센싱 정보를 발화 정보와 함께 발화 분석 서버(200)에 제공할 수 있다.

도 2는 본 발명의 도 1에 도시된 IoT 단말을 설명하기 위한 구성 블록을 나타낸 도면이다.

도 2에 도시된 바와 같이 IoT 단말(100)은 입력부(110), 통신부(120) 및 출력부(130)를 포함한다.

입력부(110)는 사용자의 발화 정보를 입력받는 역할을 한다. 본 실시예에서의 입력부(110)는 발화 정보를 입력받는 마이크인 것이 바람직하다. 그러나 입력부(1000는 텍스트 형태의 발화 정보를 입력받는 사용자 인터페이스를 화면에 출력하는 질의창(Query Interface)과 이미지 형태의 발화 정보를 획득하는 카메라 중 적어도 하나 이상을 더 포함할 수도 있다.

그리고 통신부(120)는 입력된 발화 정보를 발화 분석 서버(200)에 전송하고, 발화 분석 서버(200)로부터 질의응답 결과 정보를 수신하는 역할을 한다. 여기서, 통신부(120)가 주고받는 정보에는 음성, 텍스트, 이미지 등의 데이터, 발화 분석의 결과 중 기기 제어명령, 사용자가 질문한 질문 문장 및 질의응답 결과 정보인 정답후보 목록가 포함될 수 있다.

또한 출력부(130)는 발화 분석 서버(200)로부터 제공된 질의응답 결과 정보를 출력하는 역할을 한다. 본 실시예에서의 출력부(130)는 질의응답 결과 정보를 사용자 인터페이스를 통해 화면에 출력하는 화면 출력부(130), 질의응답 결과 정보를 음성으로 출력하는 음성 출력부(130)를 적어도 하나 이상 포함할 수 있다.

그리고 발화 분석 서버(200)는 IoT 단말(100)로부터 제공된 발화 정보를 MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 데이터 포맷에 따라 발화 분석을 수행하고, 발화 분석된 정보를 이용하여 질의응답 서버(300)와의 질의 응답을 수행한 후 그 질의응답 결과 정보를 IoT 단말(100)에 제공한다.

도 3은 도 1에 도시된 발화 분석 서버(200)의 블록 구성을 나타낸 도면이다. 도 3에 도시된 바와 같이, 발화 분석 서버(200)는 제 1 통신부(210), 음성 처리부(220), 발화 분석부(230), 발화 정보 판단부(240) 및 질의응답 호출부(250) 및 제 2 통신부(270)를 포함한다.

제 1 통신부(210)는 IoT 단말(100)과 통신을 수행하는 역할을 한다.

그리고 음성 처리부(220)는 IoT 단말(100)로부터 제공된 발화 정보의 음성을 인식하는 역할을 한다.

도 4는 도 1에 도시된 음성 처리부에 적용된 음성 인식에 대한 음성인식 데이터 포맷을 설명하기 위한 참고도이다.

이를 위해, 음성 처리부(220)는 도 4 및 하기의 [표 1]에서와 같이, 음성 인식에 대한 설명 요약을 제공하는 "SpeechRecognitionType"(음성인식유형) 필드와, 음성 인식의 결과 텍스트를 설명하는 "speechText"(음성 텍스트) 필드로 이루어진 음성인식 데이터 포맷을 이용한다. 이때, 발화 정보는 형태소 분석, 개체명 분석, 구문 분석 등과 같은 일반적인 언어 처리 과정을 거칠 수 있다.

Name	Definition
SpeechRecognitionType (음성인식유형)	Provides an abstract of description of speech recognition, which is done in the media analyzer.
speechText (음성 텍스트)	Describes the resulting text of speech recognition.

도 5는 도 1에 도시된 발화 분석 결과를 설명하기 위한 참고도이다.

예를 들어, 분석된 데이터가 음성 인식 결과인 것을 나타내고, 이는 사용자의 음성에서 출력된 텍스트인 "Please turn to Channel 7."인 경우, 음성 처리부(220)는 도 5에 도시된 바와 같이, "SpeechRecognitionType" 필드에 "xai:type"이 포함되고, "speechText" 필드에 "Please turn to Channel 7"이 포함됨을 알 수 있다.

또한, 발화 분석부(230)는 도 6 및 [표 2]에서와 같이, 음성 인식된 발화 정보를 MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 데이터 포맷에 따라 발화 분석을 수행하는 역할을 한다.

발화 분석 및 질의 분석은 "QuestionAnalysisType"(질의분석타입)으로 되어 있으며, 그것은 MPEG IoMT에서 사용하는 데이터 분석 기본타입을 확장한 형태로 두 개의 요소(element)로 구성된다.

하나는 분석된 "anlyzedQuestion"(질문 요소)로 "UserQuestionType"(사용자 질문 타입)으로 되어 있고, 다른 하나는 언어 요소로 사용자의 질문이 어떤 "language"(언어)로 표현되었는지를 분석하여 알려준다. 즉, 이 두 개의 요소는 분석된 질문에 대한 정보를 표현한다.

"UserQuestionType"(사용자 질문 타입)은 세 개의 요소와 하나의 특성(attribute)로 구성된다.

첫 번째 요소는 "Qtopic"(질문 주제)를 나타내며 문자열(string) 형태로 표현되고, 두 번째 요소는 "Qfocus"(질문의 초점)을 나타난다.

여기서, "Qfocus"(질문의 초점)은 도 9 및 [표 3]에서와 같이, CQfocus 분류체계로 미리 분류되어 표현된다.

세 번째 요소는 질문의 의미 또는 목적으로 "명령 요청, 어휘 요청, 의미 요청, 정보 요청, 방법 요청"이라는 질문을 나타내는 "QCsemanticCS" 분류체계가 있다. 마지막으로 질문의 특성으로 "qdomain"(질문 도메인)이 있는데 이것은 질문의 분야를 열(string)로 표현할 수 있게 하였다. 즉 사용자의 질문이 분석되었을 때 분석 결과는 질문의 주제, 초점, 의미, 분야로 나뉘어서 표현되고, 이러한 표현 포맷이 서버나 단말의 적당한 모듈에 전달되어 필요한 동작이 수행되게 된다.

Name	Definition
QuestionAnalysisType	Provides an abstract of description of question analysis, which can be done in a processing unit.
anlyzedQuestion	Describes analyzed question resulting from the question analysis.
language	Indicates the language of the input question. NOTE If present, the Language element shall take precedence over other language indications present within the input question.
UserQuestionType	Provides abstracts of User Question description. Describes user's utterance that is the output of speech recognition process. User Question is sent to QA server for providing answers to the user. If it is a control command, it is sent to the actuator.
Qtopic	Describes topic of the question. Question topic is the object or event that the question is about. Ex. Qtopic is King Lear in "Who is the author of King Lear?".
Qfocus	Describes the focus of the question, which is one of 5W1H. The type of the focus shall be described using the mpeg7:termReferenceType defined in 7.6 of ISO/IEC　15938-5:2003. A classification scheme that may be used for this purpose is the QfocusCS defined in this document (A.4.3).Ex. What, where, who, what policy.
qCsemantic	Describes the question classification based on the meaning/purpose of the question. The type of the question classification shall be described using the mpeg7:termReferenceType defined in 7.6 of ISO/IEC　15938-5:2003. A classification scheme that may be used for this purpose is the QCsemanticCS defined in this document (A.4.4). Ex. What does MPEG stand for? (Request for terminology). Could you please turn on the TV? (Request for command)
qdomain	Describes the domain of the question such as "science", "weather", "history". Ex. Who is the third king of Yi dynasty in Korea? (qdomain: history)

여기서, CQfocus 분류체계에는 아래 [표 3]에서와 같이, 사용자의 질문이 5W1H 중에 하나에 해당된다는 것을 보여준다. 그리고 질문인 "언제, 어디에, 무엇을, 누가, 왜, 어떻게"라는 질문에 대하여 2진으로 표현할 수 있다.

Binary representation	Term ID of QfocusCS
0000	What_question
0001	Where_question
0010	When_question
0011	Who_question
0100	Why_question
0101	How_question
0110 ~ 1111	Reserved

그리고, "QCsemanticCS" 분류체계에는 아래 [표 4]에서와 같이, "명령 요청, 어휘 요청, 의미 요청, 정보 요청, 방법 요청"이라는 질문에 대하여 2진으로 표현할 수 있다.

Binary representation	Term ID of QCsemanticCS
0000	Request_for_command
0001	Request_for_terminology
0010	Request for meaning
0011	Request for information
0100	Request for method
0101 - 1111	Reserved

예를 들어, 도 7에 도시된 바와 같이, "Who is the author of King Lear?"라는 사용자의 질의에 대한 질의 분석 결과는 "analyzedQuestion"과 언어 "en-us"이라고 하면, 질의 분석 결과는 질문의 도메인이 "Literature"이고, 질의 주제는 "King Lear"이며, 질의 초점은 "Who"이고, 질문의 목적은 "Request_for_inforamtion"임을 알 수 있다.

즉, 첫번째 질문인 "Who is the author of King Lear" 는 우선 언어가 영어로 되어 있다는 내용이 분석되었고, 질문의 주제는 리어왕이고, 초점은 "누구"이며, 질문의 의미/목적은 "정보 요청"이라는 내용으로 분석되어 분석 결과가 포맷에 적절히 담겨진 것이 보여진다.

두 번째 예를 살펴보면, 도 8에 도시된 바와 같이, "How do you make Kimchi?"라는 사용자의 질의에 대한 질의 분석 결과는 "analyzedQuestion"과 언어 "en-us"이라고 하면, 질의 분석 결과는 질문의 도메인이 "Cooking"이고, 질의 주제는 "Kimchi"이며, 질의 초점은 "How"이고, 질문의 목적은 "Request_for_method"임을 알 수 있다.

즉, 두 번째 질문의 예는 "How do you make Kimchi?" 인데 이 질문도 역시 영어로 분석되었고, 질문의 분야는 "요리"이고, 질문의 주제는 "김치"이며, 질문의 초점은 "어떻게"이고, 질문의 목적은 "정보 요청"으로 분석되어 포맷에 담겨져서 모듈간에 공유된다.

그리고 발화 정보 판단부(240)는 분석된 발화 정보가 질의요청을 위한 정보인지 기기제어 명령을 위한 정보인지를 판단하는 역할을 한다. 만약, 분석된 발화 정보가 기기제어 명령이면, 발화 정보 판단부(240)는 해당 기기제어 명령을 수행하도록 해당 IoT 단말(100)로 발화 정보를 전달하는 역할을 한다.

그리고, 질의응답 호출부(250)은 분석된 발화 정보가 질의 정보인 경우, 상기 MPEG IoMT의 데이터 포멧으로 발화 분석된 정보를 제 2 통신부(260)를 이용하여 질의응답 서버(300)에 전달하는 방식으로 질의한다. 여기서, 제 2 통신부(260)는 질의응답 서버(300)와 통신을 수행하는 역할을 한다.

한편, 음성 합성부(270)는 상기 질의응답 서버(300)로 질의응답 결과 정보를 IoT 단말(100)에 전송한다. 이때, 상기 질의응답 서버(300)로 수신되는 질의응답 결과 정보는 텍스트임에 따라, 도 11에서와 같이 음성합성 데이터 포맷을 이용하여 텍스트 형태의 질의응답 수행 결과를 음성으로 변환하여 제 1 통신부(210)를 통해 IoT 단말(100)에 전송할 수 있다.

여기서, 음성합성 데이터 포맷은 [표 5]에서와 같이, 음성 합성부에서 수행할 수 있는 음성 합성에 대한 추상적인 설명을 제공하는 SpeechSynthesisType 필드, 음성 합성의 과정에서 합성될 텍스트 입력을 설명하는 TextInput 필드, 음성 출력시, 음성 출력에 반영되는 성별, 톤, 음성 속도와 같은 음성 출력 특징을 나타낸 OutputSpeechFeature 필드 및 입력된 음성의 언어를 나타낸 Language 필드로 이루어진다.

Name	Definition
SpeechSynthesisType	Provides an abstract description of speech synthesis, which can be done in a processing unit.
TextInput	Describes text input to be synthesized by the process of speech synthesis.
OutputSpeechFeature	Output speech features such as gender, tones and voice speed to be reflected in speech output.
Language	Indicates the language of the input speech.NOTE If present, the Language element shall take precedence over other language indications present within the speech input.

그리고 질의응답 서버(300)는 상기 발화 분석 서버(200)기 MPEG IoMT의 데이터를 이용하여 질의를 요청하면, MPEG IoMT의 데이터에 포함된 질의 분석 정보를 이용하여 질의 분석하고, 그 분석된 결과인 질의응답 결과 정보를 상기 발화 분석 서버(200)로 전송한다.

본 발명의 일 실시예에 따른 발화분석 서버(200)는 IoT 단말(100)로부터 전송된 단말의 위치정보를 데이터베이스에 저장된 단말의 위치정보(Point of Interest, 이하 "POI"라함)와 비교하여 단말 사용자의 위치를 인식하는 위치정보 검색부(미도시)를 더 포함할 수 있다.

도 12는 도 1에 도시된 발화분석 서버에서 토큰 활용을 위한 구성 블록을 나타낸 도면이다.

본 발명의 일 실시예에 따른 발화분석 서버(200)는 도 12에 도시된 바와 같이, MPEG IoMT에서 이용되는 음성 인식용 API 처리부(281), 음성 합성용 API 처리부(282) 및 질의 분석용 API 처리부(283)를 더 포함할 수 있다.

음성 인식용 API 처리부(281)는 [표 6]에서와 같이, MAnalyzer 클래스를 확장한 IoMT 음성 인식기의 클래스가 이용된 API 패킷 포맷을 이용한다.

Nested Classes
Modifier and Type	Method and Description

Constructor
Constructor and Description
MSpeechRecognizer()
Default constructor

MSpeechRecognizer(String id)

MSpeechRecognizer(String id, String ipAddress, Integer port)

Fields
Modifier and Type	Field and Description

Methods
Modifier and Type	Method and Description
AnalyzedDataType	GetSpeechText()
	This function returns a class (i.e. Java or C++) or a structure (i.e., C), which include a returning type and extracted speech texts following the specification in this document.
AnalyzedDataType	GetSpeechText(tid)
	This method returns a class (i.e., Java or C++) or a structure (i.e., C), which include a returning type and extracted speech texts following the specification in this document.
Float	GetSpeechText _Cost(int tokenType, String tokenName))
	This function returns the amount of tokens to use GetSpeechText(). If tokenType is 0, it means "Crypto Currency", if tokenType is 1, it means "Legal Tender". The token name is described in string (e.g., term ID or binary representation) from TokenCS specified in A.5. If the requested token is not supported, returns -1.Ex) GetSpeechText _Cost(0, "BTC") or GetSpeechText_Cost(0, "00000001") Ex) GetSpeechText _Cost(1, "USD") or GetSpeechText _Cost(1, "10010100")

그리고, 음성 합성용 API 처리부(282)는 [표 7]에서와 같이, MAnalyzer 클래스를 확장한 IoMT 음성 합성기의 클래스가 이용된 API 패킷 포맷을 이용한다.

Nested Classes
Modifier and Type	Method and Description

Constructor
Constructor and Description
MSpeechSynthesizer()
Default constructor

MSpeechSynthesizer(String id)

MSpeechSynthesizer(String id, String ipAddress, Integer port)

Fields
Modifier and Type	Field and Description

Methods
Modifier and Type	Method and Description
String	GetSpeechSynthesisURI()
	This function returns a URI of a synthesized speech.
AnalyzedDataType	GetSpeechSynthesisURI(tid)
	This method returns a class (i.e., Java or C++) or a structure (i.e., C), which include a returning type.
Float	GetSpeechSynthesisURI_Cost(int tokenType, String tokenName))
	This function returns the amount of tokens to use GetSpeechSynthesisURI (). If tokenType is 0, it means "Crypto Currency", if tokenType is 1, it means "Legal Tender". The token name is described in string (e.g., term ID or binary representation) from TokenCS specified in A.5. If the requested token is not supported, returns -1.Ex) GetSpeechSynthesisURI _Cost(0, "BTC") or GetSpeechSynthesisURI_Cost(0, "00000001") Ex) GetSpeechSynthesisURI _Cost(1, "USD") or GetSpeechSynthesisURI _Cost(1, "10010100")

또한, 질의 분석용 API 처리부(283)는 [표 6]에서와 같이, MAnalyzer 클래스를 확장한 IoMT 질의 분석기의 클래스가 이용된 API 패킷 포맷을 이용한다.

Nested Classes
Modifier and Type	Method and Description

Constructor
Constructor and Description
MQuestionAnalyzer()
Default constructor

MQuestionAnalyzer(String id)

MQuestionAnalyzer(String id, String ipAddress, Integer port)

Fields
Modifier and Type	Field and Description

Methods
Modifier and Type	Method and Description
AnalyzedDataType	GetUserQuestion()
	This function returns a class (i.e. Java or C++) or a structure (i.e., C), which include a returning type and user question following the specification in this document.
AnalyzedDataType	GetUserQuestion (tid)
	This method returns a class (i.e., Java or C++) or a structure (i.e., C), which include a returning type and user question following the specification in this document.
Float	GetUserQuestion_Cost(int tokenType, String tokenName))
	This function returns the amount of tokens to use GetUserQuestion(). If tokenType is 0, it means "Crypto Currency", if tokenType is 1, it means "Legal Tender". The token name is described in string (e.g., term ID or binary representation) from TokenCS specified in A.5. If the requested token is not supported, returns -1.Ex) GetUserQuestion_Cost(0, "BTC") or GetUserQuestion_Cost(0, "00000001") Ex) GetUserQuestion_Cost(1, "USD") or UserQuestion_Cost(1, "10010100")

따라서, 발화분석 서버는 MPEG IoMT 환경에서 질의분석, 음성인식, 음성합성 등의 서비스를 제공할 때마다, 거래 서비스를 제공할 수 있는 효과가 있다.

이하, 하기에서는 본 발명의 일 실시예에 따른 MPEG IoMT 환경에서의 질의응답 방법에 대하여 도 12를 참조하여 설명하기로 한다.

도 13은 MPEG IoMT 환경에서의 질의응답 처리 방법에 관한 것으로, 발화 분석 서버에 의해 수행되는 것이 바람직하다.

먼저, 발화 분석 서버(200)는 IoT 단말(100)로부터 전송된 발화 정보를 입력받는다(S100).

그러면, 발화 분석 서버(200)는 입력된 발화 정보를 MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 데이터 포맷에 따라 발화 분석을 수행한다(S200). 여기서, 상기 MPEG IoMT의 데이터 포맷은, 사용자 질문 타입에 대한 정보와 사용자의 질문이 어떤 언어로 표현되어 있는지에 대한 정보를 포함한다.

그리고 상기 사용자 질문 타입에 대한 정보는, 질문의 주제를 나타내는 정보, 질문의 초점을 나타내는 정보 및 질문의 의미 또는 목적을 나타내는 정보를 포함한다.

이때, 발화 분석 서버(200)는 분석된 발화 분석 결과, 질의에 대한 발화 분석 결과인지를 판단한다(S300).

상기 판단 단계(S300)에서 질의를 위한 발화이면(YES), 상기 발화 분석 서버(200)는 발화 분석된 정보를 이용하여 질의응답 서버와의 질의 응답을 수행한다(S400).

이후, 상기 발화 분석 서버(200)가 그 질의응답 결과 정보를 IoT 단말에 제공한다(S500).

한편, 상기 판단 단계(S300)에서 기기제어에 대한 발화이면(YES), IoT 단말(100)에 발화 분석 내용을 제공한다(S600).

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니 되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

100 : IoT 단말 200 : 발화 분석 서버
210 : 제 1 통신부 220 : 음성 처리부
230 : 발화 분석부 240 : 발화 정보 판단부
250 : 질의응답 호출부 260 : 제 2 통신부
300 : 질의응답 서버

Claims

발화 정보를 입력받아 전송하고, 질의응답 결과 정보를 수신받아 제공하는 IoT 단말; 및
상기 IoT 단말로부터 전송된 발화 정보를 MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 데이터 포맷에 따라 발화 분석을 수행하고, 발화 분석된 정보를 이용하여 질의응답 서버와의 질의 응답을 수행한 후 그 질의응답 결과 정보를 IoT 단말에 제공하는 발화 분석 서버;를 포함하되,
상기 발화 분석 서버는,
상기 IoT 단말 및 상기 질의응답 서버와 데이터 통신을 수행하는 통신부;
상기 IoT 단말로부터 제공된 발화 정보의 음성을 인식하는 음성 인식부;
상기 음성 인식된 발화 정보를 MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 데이터 포맷에 따라 발화 분석을 수행하는 발화 분석부;
상기 MPEG IoMT의 데이터 포멧으로 발화 분석된 정보를 이용하여 상기 질의응답 서버에 질의하는 질의응답 호출부; 및
상기 분석된 발화 정보가 질의요청을 위한 정보인지 기기제어 명령을 위한 정보인지를 판단하여 기기제어 명령이면 해당 기기제어 명령을 수행하도록, 발화 정보를 전송한 상기 IoT 단말로 발화 정보를 전달하는 발화 정보 판단부를 포함하고,
상기 질의응답 호출부는,
상기 분석된 발화 정보가 질의 정보인 경우, 상기 MPEG IoMT의 데이터 포멧으로 발화 분석된 정보를 이용하여 상기 질의응답 서버에 전달하는 방식으로 질의하는 것을 특징으로 하는 MPEG IoMT 환경에서의 질의응답 시스템.
제 1항에 있어서,
상기 MPEG IoMT의 데이터 포맷은,
사용자 질문 타입에 대한 정보와 사용자의 질문이 어떤 언어로 표현되어 있는지에 대한 정보를 포함하는 것인 MPEG IoMT 환경에서의 질의응답 시스템.
제 2항에 있어서,
상기 사용자 질문 타입에 대한 정보는,
질문의 주제를 나타내는 정보, 질문의 초점을 나타내는 정보, 질문의 의미 및 목적을 나타내는 정보를 포함하는 것인 MPEG IoMT 환경에서의 질의응답 시스템.
제 3항에 있어서,
상기 질문의 초점을 나타내는 정보는,
"언제, 어디에, 무엇을, 누가, 왜, 어떻게"와 같은 분류체계로 분류되는 것인 MPEG IoMT 환경에서의 질의응답 시스템.
제 3항에 있어서,
상기 질문의 의미 및 목적을 나타내는 정보는,
명령 요청, 어휘 요청, 의미 요청, 정보 요청 및 방법 요청 등과 같은 분류체계로 분류되는 것인 MPEG IoMT 환경에서의 질의응답 시스템.
제 2항에 있어서,
상기 MPEG IoMT의 데이터 포맷은,
문자열(string)로 표현된 질문 도메인 정보를 포함하는 것인 MPEG IoMT 환경에서의 질의응답 시스템.
제 1항에 있어서,
상기 IoT 단말은,
사용자로부터 제공된 발화 정보를 입력받는 입력부;
입력된 상기 발화 정보를 상기 발화 분석 서버에 전송하고, 상기 발화 분석 서버로부터 질의응답 결과 정보를 수신하는 통신부; 및
상기 발화 분석 서버로부터 수신한 질의응답 결과 정보를 출력하는 출력부;를 포함하는 MPEG IoMT 환경에서의 질의응답 시스템.
제 7항에 있어서,
상기 입력부는
텍스트 형태의 모달 정보를 입력받는 사용자 인터페이스를 화면에 출력하는 질의창(Query Interface) 제공부;를 포함하는 MPEG IoMT 환경에서의 질의응답 시스템.
제 7항에 있어서,
상기 입력부는
이미지 형태의 모달 정보를 획득하는 카메라;를 포함하는 MPEG IoMT 환경에서의 질의응답 시스템.
제 7항에 있어서,
상기 입력부는
사용자의 발화 정보를 입력받는 마이크;를 포함하는 MPEG IoMT 환경에서의 질의응답 시스템.
제 7항에 있어서,
상기 출력부는,
질의응답 결과 정보를 화면으로 출력하는 화면 출력부;를 더 포함하는 MPEG IoMT 환경에서의 질의응답 시스템.
제 7항에 있어서,
상기 출력부는,
질의응답 결과 정보를 음성으로 출력하는 음성 출력부;를 더 포함하는 MPEG IoMT 환경에서의 질의응답 시스템.
삭제
제 1항에 있어서,
상기 발화 분석 서버는,
텍스트 형태의 질의응답 결과 정보를 음성으로 변환하는 음성 합성부;를 더 포함하는 MPEG IoMT 환경에서의 질의응답 시스템.
삭제
제 1항에 있어서,
상기 질의응답 서버는,
상기 발화분석 서버로부터 수신된 정보의 상기 MPEG IoMT의 데이터 포맷을 이용하여 질의 분석을 수행하고, 그 질의 분석된 결과인 질의응답 결과 정보를 상기 발화 분석 서버로 제공하되,
복수의 질의응답 결과가 존재할 경우, 질의응답 결과에 대한 정답 가능성 정보에 따라 설정된 목록 정보를 상기 발화 분석 서버에 전송하는 것인 MPEG IoMT 환경에서의 질의응답 시스템.
MPEG IoMT 환경에서의 질의응답 처리 방법에 있어서,
발화 분석 서버가 IoT 단말로부터 전송된 발화 정보를 MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 데이터 포맷에 따라 발화 분석을 수행하는 단계;
상기 발화 분석 서버가 발화 분석된 정보를 이용하여 질의응답 서버와의 질의 응답을 수행하는 단계; 및
상기 발화 분석 서버가 그 질의응답 결과 정보를 IoT 단말에 제공하는 단계;를 포함하되,
음성 인식부가, 상기 IoT 단말로부터 제공된 발화 정보의 음성을 인식하는 단계;
발화 분석부가, 상기 음성 인식부에 의해 음성 인식된 발화 정보에 대해, MPEG(Moving Picture Experts Group) IoMT(Internet of Media Things) 데이터 포맷에 따라 발화 분석을 수행하는 단계;
질의응답 호출부에 의해, 상기 MPEG IoMT의 데이터 포맷으로 발화 분석된 정보를 이용하여 상기 질의응답 서버에 질의하는 단계;
발화 정보 판단부에 의해, 상기 분석된 발화 정보가 질의요청을 위한 정보인지 기기제어 명령을 위한 정보인지를 판단하여 기기제어 명령이면, 해당 기기제어 명령을 수행하도록, 발화 정보를 전송한 상기 IoT 단말로 발화 정보를 전달하는 단계;
상기 질의응답 호출부에 의해, 상기 분석된 발화 정보가 질의 정보인 경우, 상기 질의응답 호출부에 의해, 상기 MPEG IoMT의 데이터 포멧으로 발화 분석된 정보를 이용하여 상기 질의응답 서버에 전달하는 방식으로 질의하는 단계를 포함하는 MPEG IoMT 환경에서의 질의응답 방법.
제 17항에 있어서,
상기 MPEG IoMT의 데이터 포맷은,
사용자 질문 타입에 대한 정보와
사용자의 질문이 어떤 언어로 표현되어 있는지에 대한 정보를 포함하는 것인 MPEG IoMT 환경에서의 질의응답 방법.
제 18항에 있어서,
상기 사용자 질문 타입에 대한 정보는,
질문의 주제를 나타내는 정보, 질문의 초점을 나타내는 정보, 질문의 의미 및 목적을 나타내는 정보를 포함하는 것인 MPEG IoMT 환경에서의 질의응답 방법.
제19항에 있어서,
상기 질문의 초점을 나타내는 정보는 "언제, 어디에, 무엇을, 누가, 왜, 어떻게"와 같은 분류체계로 분류되고,
상기 질문의 의미 및 목적을 나타내는 정보는 명령 요청, 어휘 요청, 의미 요청, 정보 요청 및 방법 요청 등과 같은 분류체계로 분류되는 것인 MPEG IoMT 환경에서의 질의응답 방법.