KR20160050723A - Method and apparatus for outputting sentence and command - Google Patents

Method and apparatus for outputting sentence and command Download PDF

Info

Publication number
KR20160050723A
KR20160050723A KR1020140149537A KR20140149537A KR20160050723A KR 20160050723 A KR20160050723 A KR 20160050723A KR 1020140149537 A KR1020140149537 A KR 1020140149537A KR 20140149537 A KR20140149537 A KR 20140149537A KR 20160050723 A KR20160050723 A KR 20160050723A
Authority
KR
South Korea
Prior art keywords
voice
output
sentence
screen
document
Prior art date
Application number
KR1020140149537A
Other languages
Korean (ko)
Inventor
이봉호
양규태
임형수
허남호
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140149537A priority Critical patent/KR20160050723A/en
Publication of KR20160050723A publication Critical patent/KR20160050723A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

A method for outputting a document and a command in a terminal is provided. The method for outputting a document or a command comprises the following steps: obtaining one document file from a document stored in a local storage device or documents existed on a remote server; obtaining a sentence to be outputted as a voice by processing the document file, and obtaining a sentence to be outputted to a screen based on a preset element from the sentence to be outputted as a voice; and outputting the sentence to be outputted as a voice by converting the sentence into a voice, and outputting the sentence to be outputted to a screen to a screen of the terminal.

Description

문장 및 명령어의 출력 방법 및 그 장치{Method and apparatus for outputting sentence and command}TECHNICAL FIELD The present invention relates to a method and apparatus for outputting sentences and commands,

본 발명은 음성으로 출력될 문장 및 명령어를 화면으로도 출력하는 방법 및 그 장치에 관한 것이다. The present invention relates to a method and apparatus for outputting a sentence and a command to be outputted as a voice to a screen.

모바일 통신 서비스가 발전하면서, 사용자는 고정 환경뿐만 아니라 이동 환경에서도 단말을 통한 다양한 서비스를 제공받을 수 있다. 예를 들어, DAB(Digital Audio Broadcasting) 서비스 등을 제공받을 수 있다. DAB는 라디오 프로그램, 비디오 프로그램 또는 데이터 서비스를 고정 환경을 포함한 이동 환경에 제공하기 위한 디지털 라디오 방송 시스템으로, 문자 기반의 데이터 서비스를 제공한다. As the mobile communication service evolves, the user can receive various services through the terminal in a fixed environment as well as a mobile environment. For example, a DAB (Digital Audio Broadcasting) service can be provided. DAB is a digital radio broadcasting system for providing radio programs, video programs, or data services to mobile environments, including fixed environments, and provides character-based data services.

이러한 DAB를 통한 서비스를 제공받는 사용자의 상당수가 차량 이용자인 경우가 많은데, 운전자는 문자로 표시되는 프로그램 정보 및 부가 정보를 확인하면서 원하는 방송을 선택하여 제공받는다. 이때, 단말을 통하여 표시되는 문자를 확인하는 과정은 안전에 문제가 될 수 있다. A large number of users who are provided with the service through the DAB are often vehicle users. The driver selects and provides a desired broadcast while checking program information and additional information displayed in letters. At this time, the process of confirming the displayed characters through the terminal may be a safety problem.

이외에도, 사용자가 단말을 통한 서비스를 제공받는 상태에서, 화면을 확인할 수 없는 상황들이 발생할 수 있다. In addition, situations may arise where the user can not view the screen while the service is provided through the terminal.

본 발명이 해결하고자 하는 과제는 사용자와 단말 사이에 대화 형식으로 정보를 주고 받을 수 있는 XML(extensible markup language) 기술을 이용하여 정보를 음성으로 출력함과 동시에 화면으로 출력하는 방법 및 그 장치를 제공하는 것이다. SUMMARY OF THE INVENTION The present invention provides a method and apparatus for outputting information by voice using an extensible markup language (XML) technology capable of exchanging information in an interactive manner between a user and a terminal .

위의 과제를 위한 본 발명의 특징에 따른 출력 방법은, 단말이 문서 및 명령어를 출력하는 방법에서, 로컬 저장 장치에 저장된 문서나 또는 원격의 서버상에 존재하는 문서들 중 하나의 문서 파일을 획득하는 단계; 상기 문서 파일을 처리하여 음성으로 출력될 문장을 획득하고, 상기 음성으로 출력될 문장으로부터 미리 설정된 엘리먼트를 토대로 화면으로 출력될 문장을 획득하는 단계; 및 상기 음성으로 출력될 문장을 소리로 변환하여 출력하고, 상기 화면으로 출력될 문장을 상기 단말의 화면에 출력하는 단계를 포함한다. The output method according to an aspect of the present invention for achieving the above object is a method for obtaining a document stored in a local storage device or one of documents existing on a remote server in a method in which a terminal outputs a document and a command word ; Processing the document file to obtain a sentence to be output as a voice, and obtaining a sentence to be output to a screen based on a predetermined element from a sentence to be output as the voice; And a step of outputting a sentence to be output to the screen to the screen of the terminal.

본 발명의 실시 예에 따르면, XML 엘리먼트인 다이얼로그 내에 포함된 문장의 전부 또는 일부를 화면으로 출력하고, 또한 다이얼로그에서 지정된 음성 명령 또는 버튼 키와 같은 사용자 입력 정보를 화면에 출력하여 사용자와 단말간의 상호작용을 향상시킬 수 있다. According to the embodiment of the present invention, all or a part of the sentences included in the XML element dialog are outputted to the screen, and user input information such as a voice command or a button key specified in the dialog is displayed on the screen, It is possible to improve the action.

또한, 디지털 라디오와 같은 모바일 방송 환경에서 사용자는 편리하게 프로그램 정보 및 부가 정보를 음성으로 청취함과 동시에 출력된 화면을 통해서 관련 정보를 더 인지할 수 있다. 특히, 음성 명령의 경우 출력된 화면을 통해 미리 확인하고 명령함으로써 상호작용 효과를 배가시킬 수 있다. Also, in a mobile broadcasting environment such as a digital radio, a user can conveniently listen to program information and additional information by voice, and at the same time, perceive related information through the output screen. In particular, in the case of a voice command, the interaction effect can be doubled by checking and commanding in advance through the output screen.

도 1은 본 발명의 실시 예에 따른 문자 및 명령어 출력 방법의 개념도이다.
도 2는 본 발명의 실시 예에 따른 문자 및 명령어의 음성 출력과 동시에 화면 출력을 위한 XML 문서 구조를 나타낸 도이다.
도 3은 본 발명의 실시 예에 따른 문서 및 명령어 출력 장치의 구조를 나타낸 도이다.
도 4는 본 발명의 실시 예에 따른 문서 및 명령어 출력 방법의 흐름도이다.
1 is a conceptual diagram of a method of outputting a character and a command according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an XML document structure for outputting a text and an audio of a command and simultaneously outputting a screen according to an embodiment of the present invention.
3 is a diagram illustrating a structure of a document and command output apparatus according to an embodiment of the present invention.
4 is a flowchart of a document and command output method according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when an element is referred to as "comprising ", it means that it can include other elements as well, without excluding other elements unless specifically stated otherwise.

이하, 도면을 참조하여 본 발명의 실시 예에 따른 문자 및 명령어 출력 방법 및 그 장치에 대하여 설명한다. Hereinafter, a method and apparatus for outputting characters and commands according to an embodiment of the present invention will be described with reference to the drawings.

도 1은 본 발명의 실시 예에 따른 문자 및 명령어 출력 방법의 개념도이다.1 is a conceptual diagram of a method of outputting a character and a command according to an embodiment of the present invention.

사용자와 단말간의 상호 작용에 해당하는 대화 메커니즘을 XML(extensible markup language)을 이용하여 기술할 수 있다. 음성 확장성 생성 언어인 VoiceXML을 이용할 수 있는데, VoiceXML은 음성으로 컨텐츠나 서비스 이용을 가능하게 하는 것으로, 데이터베이스나 웹사이트의 정보, 인터넷 등에 전화 접속 또는 음성 접속을 실현하면서, 동시에 웹에 의한 양방향 음성 응답 서비스가 용이하도록 한다. VoiceXML은 ASR(automatic speech recognition) 및 DTMF(dual tome multi frequency) 를 이용한 입력과, 음성 및 TTS(text to speech) 등을 이용한 출력으로, 음성 기반의 사용자 인터페이스 기술을 제공한다. The dialogue mechanism corresponding to the interaction between the user and the terminal can be described using XML (extensible markup language). VoiceXML, which is a voice expanding language, can be used. VoiceXML enables contents or services by voice. It realizes telephone connection or voice connection to database, website information, the Internet, etc., and at the same time, Provide an easy response service. VoiceXML provides voice-based user interface technology with input using automatic speech recognition (ASR) and dual tone multi frequency (DTMF), and output using voice and TTS (text to speech).

VoiceXML은 도 1에서와 같이, 다이얼로그에 해당하는 엘리먼트(element) <form>을 사용자 음성 입력과 음성 출력을 통합된 형태로 정의하고 있다. 이러한 엘리먼트를 사용하면 사용자와 단말간의 연속적인 대화가 가능하며, 이 대화를 통해 단말은 사용자가 원하는 정보를 제공하고 사용자로부터 명령을 입력받는 형식으로 다양한 작업을 할 수 있다. As shown in FIG. 1, VoiceXML defines an element < form > corresponding to a dialogue in an integrated form of user voice input and voice output. By using these elements, continuous conversation between the user and the terminal is possible. Through this conversation, the terminal can perform a variety of operations in the form of providing the information desired by the user and receiving a command from the user.

구체적으로, <form> 엘리먼트는 하나의 다이얼로그에 해당한다. 실제 음성으로 출력할 문장은 <prompt> 엘리먼트에 위치하는데, 이 문장은 일반적으로 TTS를 통해서 소리로 출력된다. 다른 출력 방법으로, 녹음된 음성 파일을 재생하여 소리로 정보를 출력할 수도 있다. Specifically, the <form> element corresponds to one dialog. The actual speech output is placed in the <prompt> element, which is normally output to the sound through TTS. In another output method, it is also possible to reproduce the recorded voice file and output information by sound.

도 1의 <prompt> 엘리먼트에 위치된 문장이 음성으로 출력된 다음에 사용자가 음성으로 출력된 문장에 대응하여 음성으로 명령을 하면, <filled> 엘리먼트에 기술된 사항에 따른 처리가 이루어진다. 예를 들어, 음성으로 출력된 문장에 대응하여 사용자가 만약 "yes"라고 음성으로 명령을 하면, 단말은 해당 명령을 인식하고 <goto> 엘리먼트(또는 <link> 엘리먼트)에 기술된 동작을 수행한다. 예를 들어, 도 1에서와 같이, <goto> 엘리먼트에 기술된 URL(uniform resource locator) 주소가 지정하는 문서로 이동한다. 반면, 사용자가 만약 "yes"아닌 명령어를 입력하면, <goto> 엘리먼트에 기술된 동작에 따라 예를 들어, "main_dialog"로 이동한다. 예시된 바와 같이 다른 다이얼로그나 문서로의 이동은 <goto>나 <link> 엘리먼트를 사용한다. 이러한 방식에 따라, 도 1의 하부에 도시된 바와 같이 음성으로 "Special CDs are on sales. Please, visit our web site, www.worlddab.com or if you say "yes", you access it"와 같은 메시지가 출력될 수 있다. When a sentence located in the <prompt> element of FIG. 1 is outputted as a voice and then a voice is issued in response to a sentence output by the user as a voice, processing according to the matters described in the <filled> element is performed. For example, if a user responds to a sentence output by voice and gives a voice command of "yes", the terminal recognizes the command and performs the operation described in the <goto> element (or the <link> element) . For example, as shown in FIG. 1, a URL (uniform resource locator) address described in the < goto > element is moved to a document designated by the address. On the other hand, if the user enters a command that is not "yes", it moves to "main_dialog", for example, according to the action described in the <goto> element. As you can see, moving to another dialog or document uses a <goto> or <link> element. According to this method, a message such as " Special CDs are on sale. Please visit our web site, www.worlddab.com or if you say "yes ", you access it" Can be output.

본 발명의 실시 예에서는 이러한 음성으로 출력되는 메시지를 문자로 처리하여 화면으로도 출력한다. 도 1의 우측에 도시한 바와 같이, 단말의 화면상에 음성으로 출력된 문장의 전체 또는 일부가 문자로 출력될 수 있으며, 또한 입력해야 할 음성 명령(speech keyword) 또는 버튼 키가 화면에 출력될 수 있다. In the embodiment of the present invention, a message output by such a voice is processed as a character and also outputted as a screen. As shown in the right side of FIG. 1, all or part of the sentences output by voice on the screen of the terminal can be output as characters, and a speech keyword or button key to be input is output to the screen .

음성으로 출력되는 정보를 화면으로 출력할 경우, 사용자는 음성으로 잘 숙지 못하거나 때론 확인하고 싶은 정보에 대해 화면을 통하여 부가적으로 확인할 수 있다. 또한 음성 명령의 경우, 입력할 음성 명령어의 종류가 여러 가지일 경우 이를 기억하기가 어려울 수 있으나, 화면을 통하여 표시되는 음성 명령을 통하여 입력해야 할 키워드를 확인할 수 있다. When outputting the information output by voice to the screen, the user can additionally confirm the information that he or she does not know well by voice or sometimes wants to check through the screen. In addition, in the case of voice commands, it is difficult to memorize various types of voice commands to be input. However, it is possible to identify keywords to be input through a voice command displayed on the screen.

사용자는 이와 같이, 단말을 통하여 출력되는 정보를 소리로 들으면서 필요에 따라 화면을 보면서 원하는 서비스나 프로그램 또는 특정 정보에 대한 검색 및 접근을 편리하게 처리할 수 있다. 이러한 본 발명의 실시 예에 따른 방법을 모바일 방송에 적용할 경우, 운전자와 같은 이동 환경의 청취자에 대한 디지털 라디오의 시청 환경을 개선할 수 있다. 단말은 라디오 프로그램의 부가 정보나 데이터 서비스를 음성으로 출력하고 음성으로 사용자의 명령을 입력받아 해당 정보에 접근 가능하도록 할 수 있다. 이러한 기능을 통해 운전자는 운전에 방해를 받지 않고 디지털 라디오의 서비스, 프로그램 또는 부가 데이터에 쉽게 접근하고 관련 정보를 얻을 수 있다. As described above, the user can conveniently search for and access desired services, programs, or specific information while viewing the screen as needed while listening to the information output through the terminal. When the method according to the embodiment of the present invention is applied to a mobile broadcast, it is possible to improve the viewing environment of a digital radio for a listener in a mobile environment such as a driver. The terminal outputs the additional information or the data service of the radio program by voice and allows the user to access the information by inputting the user's command by voice. This capability allows the operator to easily access and obtain relevant information about the service, program or supplementary data of the digital radio without being disturbed by the operation.

본 발명의 실시 예에서는 위와 같은 문자 및 명령어의 음성 출력과 동시에 화면 출력으로 가능하기 위하여, 다음과 같은 구조로 이루어지는 XML 엘리먼트를 이용한다. In the embodiment of the present invention, an XML element having the following structure is used in order to enable output of text and command words as well as display output simultaneously.

도 2는 본 발명의 실시 예에 따른 문자 및 명령어의 음성 출력과 동시에 화면 출력을 위한 XML 문서 구조를 나타낸 도이다. 여기서는 도 1에 예시된 문장 및 명령어의 화면 출력을 가능하게 하는 방법을 예로 들어 설명한다. FIG. 2 is a diagram illustrating an XML document structure for outputting a text and an audio of a command and simultaneously outputting a screen according to an embodiment of the present invention. Here, a method of enabling screen output of the sentence and the command illustrated in Fig. 1 will be described as an example.

본 발명의 실시 예에서는 XML 문서에서, <form> 엘리먼트에 기재된 다이얼로그에서, <prompt> 엘리먼트에 위치한 문장을 음성으로 출력하면서, <prompt> 엘리먼트에 위치한 문장의 일부분 또는 전체를 화면으로도 출력한다. 화면으로 출력할 문장 내부의 특정 문자나 서브 문장을 구분하기 위하여, <disp> 엘리먼트를 추가로 정의하여 사용한다. <prompt> 엘리먼트에 기재된 문장을 해석하면서, <disp> … </disp> 엘리먼트를 인식하면, <disp> … </disp> 엘리먼트로 지정된 범위내에 포함된 문자나 문장만을 선별하여 화면으로 출력한다. 구체적으로, 도 2에 예시된 바와 같이, <prompt> 엘리먼트에 기재된 "Special CDs are on sales. Please, visit our web site, www.worlddab.com or if you say "yes", you access it" 문장 전체에서, <disp> 엘리먼트로 구분된 문장에 해당하는 "CDs are on sales"와 "www.worlddab.com" 의 두 개의 문장만이 화면에 출력된다. 물론, 경우에 따라, 음성으로 출력되는 문장 전체가 화면으로 출력될 수도 있다. In the embodiment of the present invention, in a dialog box described in the <form> element in the XML document, a sentence located in the <prompt> element is outputted as a voice and a part or all of the sentence located in the <prompt> element is also output to the screen. The <disp> element is additionally defined and used to distinguish a particular character or sub-sentence within a sentence to be displayed on the screen. While interpreting the sentence in the <prompt> element, <disp> ... When the </ disp> element is recognized, <disp> ... </ disp> Only the characters or sentences within the range specified by the element are selected and displayed on the screen. Specifically, as exemplified in FIG. 2, the &quot; Special CDs are on sales. &Quot;, " please visit our web site, www.worlddab.com or if you say " , Only the two sentences "CDs are on sales" and "www.worlddab.com" corresponding to the sentence separated by the <disp> element are displayed on the screen. As a matter of course, the entire sentence output by voice may be output to the screen.

이와 같이, 본 발명의 실시 예에 따라, 출력하고자 하는 다이얼로그 내의 문장의 전체나 일부를 화면에 출력하고, 마찬가지로 사용자 입력으로 정의된 음성 명령 및 버튼 키도 화면에 출력하여, 음성으로 정보를 출력하고 음성으로 사용자의 명령을 입력받아 해당 정보에 접근 가능하도록 할 수 있다. As described above, according to the embodiment of the present invention, the whole or a part of the sentences in the dialog to be outputted are outputted to the screen, the voice command and the button key defined by the user input are also outputted on the screen, It is possible to input the user's command by voice and access the corresponding information.

도 3은 본 발명의 실시 예에 따른 문서 및 명령어 출력 장치의 구조를 나타낸 도이다. 3 is a diagram illustrating a structure of a document and command output apparatus according to an embodiment of the present invention.

첨부한 도 3에서와 같이, 본 발명의 실시 예에 따른 문서 및 명령어 출력 장치(100)는 문서 처리부(document handler)(110), 어플리케이션 실행부(application engine)(120), 그리고 입출력 컴포넌트 처리부(130)를 포함한다. 3, the document and command output apparatus 100 according to the embodiment of the present invention includes a document handler 110, an application engine 120, and an input / output component processing unit 130).

문서 처리부(110)는 음성 및/또는 화면으로 출력한 문서들을 구성한다. 구체적으로 문서 처리부(110)는 로컬 저장 장치에 저장된 문서나 또는 원격의 서버상에 존재하는 문서들을 가져와서, 정해진 흐름에 따라 문서의 이동 및 다이얼로그의 이동이 자유자재로 가능하도록 문서를 처리하여 어플리케이션 실행부(120)에 전달한다. The document processing unit 110 constitutes documents outputted as a voice and / or a screen. Specifically, the document processing unit 110 fetches a document stored in a local storage device or a document existing on a remote server, processes the document so that movement of a document and movement of a dialogue can be freely performed according to a predetermined flow, To the execution unit (120).

이를 위하여, 문서 처리부(110)는 로컬 저장 문서 처리부(111)와 원격 저장 문서 처리부(112)를 포함할 수 있다. 로컬 저장 문서 처리부(111)는 예를 들어, 방송으로부터 전달받은 데이터나 자체적으로 구비된 문서를 어플리케이션 실행부(120)에 전달한다. 원격 저장 문서 처리부(112)는 네트워크를 통해 원격에 존재하는 서버와 같은 장치로부터 해당 문서를 가져와서 어플리케이션 실행부(120)에 전달한다. For this, the document processing unit 110 may include a local storage document processing unit 111 and a remote storage document processing unit 112. For example, the local storage document processing unit 111 delivers the data received from the broadcast or the document included therein to the application execution unit 120. [ The remote storage document processing unit 112 fetches a corresponding document from a device such as a server existing remotely via a network, and transfers the document to the application execution unit 120.

문서 처리부(110)를 통하여 어플리케이션 실행부(120)에 전달되는 문서는 위의 도 2에서와 같이, XML 문서로 이루어질 수 있으며, 제1 엘리먼트(예를 들어, <form> 엘리먼트)에 의하여 하나의 다이얼로그 대응하는 문장들이 기술되고, 제2 엘리먼트(예를 들어, <prompt> 엘리먼트)에 대응하여 음성으로 출력될 문장이 특정화된다. 그리고 제3 엘리먼트(예를 들어, <disp> 엘리먼트)에 대응하여 음성으로 출력될 문장의 일부분 또는 전체가 화면으로도 출력되는 것으로 특정화된다. 이러한 엘리먼트들을 통하여 다이얼로그에서 명시된 흐름이 처리된다. The document transmitted to the application execution unit 120 through the document processing unit 110 may be an XML document as shown in FIG. 2, and may be composed of a first element (for example, a <form> element) Dialog corresponding sentences are described, and a sentence to be outputted as a voice is specified corresponding to a second element (for example, a < prompt > element). And a part or all of the sentences to be output by voice corresponding to the third element (for example, the < disp > element) are also output to the screen. Through these elements, the flow specified in the dialog is processed.

어플리케이션 실행부(120)는 문서 처리부(110)로부터 전달되는 문서를 해석하여 실행한다. 이를 위하여, 어플리케이션 실행부(120)는 XML 해석기(121)를 포함한다. XML 해석기(121)는 XML 문서를 해석하여 명시된 흐름을 제어하는 기능을 수행하는데, 다이얼로그를 해석하여 음성 입출력을 실행하고, 또한 각 다이얼로그에서 명시된 흐름에 따라 어플리케이션을 제어한다. 구체적으로, XML 문서에서 제1 엘리먼트에 의하여 하나의 다이얼로그가 정의됨을 인식하고, 제2 엘리먼트에 대응하여 기술된 문장을 음성으로 출력될 문장으로 처리한다. 그리고 제2 엘리먼트에 대응하여 기술된 문장에서 제3 엘리먼트에 의하여 구분되는 부분들을 화면으로 출력될 문장으로 처리한다. 그리고 음성으로 출력될 문장과, 화면으로 출력될 문장을 각각 입출력 컴포넌트 처리부(130)로 제공한다. The application execution unit 120 interprets and executes the document delivered from the document processing unit 110. [ To this end, the application execution unit 120 includes an XML parser 121. The XML interpreter 121 interprets the XML document and controls the specified flow. The XML interpreter 121 interprets the dialog to execute the voice input / output, and controls the application according to the specified flow in each dialog. Specifically, it recognizes that one dialog is defined by the first element in the XML document, and treats the sentence described in correspondence with the second element with a sentence to be outputted as a voice. In the sentence corresponding to the second element, the portions delimited by the third element are processed into a sentence to be outputted to the screen. And a sentence to be outputted as a voice and a sentence to be outputted as a screen to the input / output component processing unit 130, respectively.

이러한 어플리케이션 실행부(120)는 문서 처리부(110) 및 입출력 콤포넌트 처리부(130)와 연동되며, XML 해석기(121)에 관련된 모든 인터페이스 및 통합 처리를 수행한다. The application execution unit 120 is interlocked with the document processing unit 110 and the input / output component processing unit 130, and performs all the interfaces and integration processes related to the XML parser 121.

한편, 입출력 컴포넌트 처리부(130)는 음성 입출력 처리부(131)와, 그래픽 입출력 처리부(132)를 포함한다. 이외에도, 음성 명령어를 저장하는 명령어 저장부(133)를 더 포함한다. The input / output component processing unit 130 includes a voice input / output processing unit 131 and a graphic input / output processing unit 132. In addition, it further includes a command storage unit 133 for storing voice commands.

음성 입출력 처리부(131)는 음성을 인식하고 이를 음성 입력으로 처리하는 음성 인식기(ASR)(1311), 문장을 음성으로 출력하는 음성 출력기(TTS)(1312)를 포함하며, 이외에도 오디오 파일을 재생하는 파일 재생기(1313)를 더 포함한다. The audio input / output processing unit 131 includes a voice recognizer (ASR) 1311 for recognizing a voice and processing it as a voice input, and a voice output unit (TTS) 1312 for outputting a voice as a voice. And a file player 1313.

음성 인식기(1311)는 음성으로 입력되는 사용자의 명령어를 인식하고, 인식된 명령어를 토대로 명령어 저장부(133)에 저장된 대응하는 음성 명령어(registered speech keywords)를 찾고, 찾아진 음성 명령어에 미리 매핑되어 있는 동작을 수행한다. 예를 들어, 음성 명령어에 미리 매핑되어 있는 다이얼로그 및 문서로 즉시 이동한다. The speech recognizer 1311 recognizes the user's command input by voice and searches for the registered speech keywords stored in the command storage unit 133 based on the recognized command and is mapped in advance to the found voice command Perform an operation. For example, a dialog and a document previously mapped to a voice command.

음성 출력기(1312)는 문장을 음성 즉, 소리로 변환하여 출력한다. 특히, 어플리케이션 실행부(120)로부터 제공되는 음성으로 출력될 문장을 소리로 변환하여 출력한다. The voice output unit 1312 converts the sentence into voice, that is, sound and outputs the voice. In particular, a sentence to be output as a voice provided from the application execution unit 120 is converted into sound and output.

파일 재생기(1312)는 저장 또는 다운로드 된 음원 파일을 재생하여 소리로 재생한다.The file player 1312 reproduces the sound source files stored or downloaded and reproduces them as sounds.

그래픽 입출력 처리부(132)는 문자 및 그래픽을 화면에 출력하는 디스플레이부(1321)를 포함하며, 버튼 및 터치 패드(touch pad)와 같은 입력부(1322)를 더 포함한다. The graphic input / output processing unit 132 includes a display unit 1321 for outputting characters and graphics to a screen, and further includes an input unit 1322 such as a button and a touch pad.

디스플레이부(1321)은 어플리케이션 실행부(120)로부터 제공되는 화면으로 출력될 문장을 처리하여 화면에 출력한다. 디스플레이부(1321)의 출력 대상은 음성으로 출력될 다이얼로그내의 전체 문장이나 제3 엘리먼트(<disp> 엘리먼트)에 의해 구분되는 서브 문장(sub sentence)이나 특정 문자를 포함한다. 화면 출력의 경우는 특정 방법에 한정하지 않고 다양한 형태로 화면 출력이 가능하다. The display unit 1321 processes a sentence to be output to a screen provided from the application execution unit 120 and outputs the processed text to a screen. The output object of the display unit 1321 includes a sub sentence or a specific character distinguished by a whole sentence in a dialog or a third element (<disp> element) to be output by voice. In the case of the screen output, it is possible to output the screen in various forms without limitation to the specific method.

또한 디스플레이부(1321)은 XML 문서에서 <grammar>나 관련 음성 입력 관련 엘리먼트(제4 엘리먼트라고도 명명함)에 지정된 음성 명령어를 화면에 출력하거나, 또는 명령어 저장부(133) 등에 저장되거나 예약된 음성 명령어(global speech keywords)를 화면에 출력 할 수 있다. 이외에도 버튼의 키나 번호 및 화면 터치를 그래픽적으로 처리하여 화면에 출력할 수 있다. Also, the display unit 1321 may output the voice command specified in the <grammar> element or the related voice input related element (also called the fourth element) in the XML document to the screen or may be stored in the command storage unit 133, Commands (global speech keywords) can be displayed on the screen. In addition, keys, numbers, and screen touches of the buttons can be graphically processed and output to the screen.

입력부(1322)는 버튼 및 터치 패드를 통하여 입력되는 정보를 어플리케이션 실행부(132)로 전달한다. The input unit 1322 transmits information input through the buttons and the touch pad to the application executing unit 132. [

도 4는 본 발명의 실시 예에 따른 문서 및 명령어 출력 방법의 흐름도이다. 4 is a flowchart of a document and command output method according to an embodiment of the present invention.

첨부한 도 4에서와 같이, 문서 및 명령어 출력 장치(100)는 로컬 저장 장치에 저장된 문서 또는 원격의 서버상에 존재하는 문서들을 가져와서, 정해진 흐름에 따라 문서의 이동 및 다이얼로그의 이동이 자유자재로 가능하도록 문서를 처리한다(S100). 여기서 문서는 위의 도 2에서와 같이, XML 문서로 이루어지며, 제1 엘리먼트(예를 들어, <form> 엘리먼트)에 의하여 하나의 다이얼로그 대응하는 문장들이 기술되고, 제2 엘리먼트(예를 들어, <prompt> 엘리먼트)에 대응하여 음성으로 출력될 문장이 특정화되어 있으며, 제3 엘리먼트(예를 들어, <disp> 엘리먼트)에 대응하여 음성으로 출력될 문장의 일부분 또는 전체가 화면으로도 출력되는 것으로 특정화된다. As shown in FIG. 4, the document and command output apparatus 100 fetches documents stored in a local storage device or documents existing on a remote server, and moves documents and moves dialogs freely according to a predetermined flow. (S100). Here, as shown in FIG. 2, the document is composed of an XML document, and one dialog corresponding sentences are described by a first element (for example, a < form > element), and a second element the <prompt> element), and a part or all of a sentence to be output by voice corresponding to the third element (for example, the <disp> element) is also output to the screen Is specified.

이후, 문서 및 명령어 출력 장치(100)는 문서를 해석하여 실행한다(S110). XML 문서에서 제1 엘리먼트에 의하여 하나의 다이얼로그가 정의됨을 인식하고, 제2 엘리먼트에 대응하여 기술된 문장을 음성으로 출력될 문장으로 처리한다. 그리고 제2 엘리먼트에 대응하여 기술된 문장에서 제3 엘리먼트에 의하여 구분되는 부분들을 화면으로 출력될 문장으로 처리한다(S120). Thereafter, the document and command output apparatus 100 interprets and executes the document (S110). Recognizes that one dialog is defined by the first element in the XML document, and processes the sentence described in correspondence with the second element into a sentence to be outputted as a voice. Then, in the sentence corresponding to the second element, the portions delimited by the third element are processed into a sentence to be outputted to the screen (S120).

문서 및 명령어 출력 장치(100)는 음성으로 출력될 문장들을 소리로 변환하여 출력하고, 경우에 따라 저장 또는 다운로드 된 음원 파일을 재생하여 소리로 재생한다. 또한 문서 및 명령어 출력 장치(100)는 화면으로 출력될 문장을 처리하여 화면에 출력한다(S130). 도 2에서와 같이, 다이얼로그내의 전체 문장이 음성으로 출력되면서, 문장 내에서 제3 엘리먼트(<disp> 엘리먼트)에 의해 구분되는 서브 문장이 화면으로 출력된다. 그리고 제4 엘리먼트(<grammar> 엘리먼트 등)에 지정된 음성 명령어를 화면에 출력하거나, 또는 저장되어 있거나 예약된 음성 명령어를 화면에 출력한다. The document and command output apparatus 100 converts sentences to be output as sounds into sounds and outputs the sounds, and in some cases, reproduces sound files stored or downloaded and reproduces sounds. In addition, the document and command output apparatus 100 processes a sentence to be output as a screen and outputs it to the screen (S130). As shown in Fig. 2, the entire sentence in the dialog is outputted as a voice, and a sub-sentence divided by the third element (< disp element) in the sentence is output to the screen. And outputs the voice command specified on the fourth element (such as a <grammar> element) to the screen, or outputs the stored or reserved voice command to the screen.

이후, 문서 및 명령어 출력 장치(100)는 사용자 입력에 대응하는 동작을 수행한다(S140). 구체적으로, 문장 출력에 따라 입력되는 사용자의 음성을 인식하고 이를 음성 입력으로 처리하고, 음성으로 입력되는 사용자의 명령어에 대응하는 음성 명령어에 미리 매핑되어 있는 동작을 수행한다. 또한, 문서 및 명령어 출력 장치(100)는 버튼 및 터치 패드를 통하여 입력되는 정보를 처리하여, 대응하는 동작을 수행한다. Thereafter, the document and command output apparatus 100 performs an operation corresponding to the user input (S140). Specifically, the user recognizes the input voice according to the output of the sentence, processes it as a voice input, and performs an operation previously mapped to a voice command corresponding to a user's voice command. Also, the document and command output apparatus 100 processes information input through the buttons and the touch pad, and performs corresponding operations.

본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하기 위한 프로그램, 그 프로그램이 기록된 기록 매체 등을 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.The embodiments of the present invention are not limited to the above-described apparatuses and / or methods, but may be implemented through a program for realizing functions corresponding to the configuration of the embodiment of the present invention, a recording medium on which the program is recorded And such an embodiment can be easily implemented by those skilled in the art from the description of the embodiments described above.

이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It belongs to the scope of right.

Claims (1)

단말이 문서 및 명령어를 출력하는 방법에서,
로컬 저장 장치에 저장된 문서 또는 원격의 서버상에 존재하는 문서들 중 하나의 문서 파일을 획득하는 단계;
상기 문서 파일을 처리하여 음성으로 출력될 문장을 획득하고, 상기 음성으로 출력될 문장으로부터 미리 설정된 엘리먼트를 토대로 화면으로 출력될 문장을 획득하는 단계; 및
상기 음성으로 출력될 문장을 소리로 변환하여 출력하고, 상기 화면으로 출력될 문장을 상기 단말의 화면에 출력하는 단계
를 포함하는, 출력 방법.








In the manner in which the terminal outputs documents and commands,
Obtaining a document file stored in a local storage device or one of documents existing on a remote server;
Processing the document file to obtain a sentence to be output as a voice, and obtaining a sentence to be output to a screen based on a predetermined element from a sentence to be output as the voice; And
Converting a sentence to be output by the voice into sound and outputting a sentence to be output to the screen to the screen of the terminal
/ RTI &gt;








KR1020140149537A 2014-10-30 2014-10-30 Method and apparatus for outputting sentence and command KR20160050723A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140149537A KR20160050723A (en) 2014-10-30 2014-10-30 Method and apparatus for outputting sentence and command

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140149537A KR20160050723A (en) 2014-10-30 2014-10-30 Method and apparatus for outputting sentence and command

Publications (1)

Publication Number Publication Date
KR20160050723A true KR20160050723A (en) 2016-05-11

Family

ID=56025624

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140149537A KR20160050723A (en) 2014-10-30 2014-10-30 Method and apparatus for outputting sentence and command

Country Status (1)

Country Link
KR (1) KR20160050723A (en)

Similar Documents

Publication Publication Date Title
JP6375521B2 (en) Voice search device, voice search method, and display device
CN106796496B (en) Display apparatus and method of operating the same
KR101027548B1 (en) Voice browser dialog enabler for a communication system
KR101143034B1 (en) Centralized method and system for clarifying voice commands
US8073700B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
KR102108500B1 (en) Supporting Method And System For communication Service, and Electronic Device supporting the same
US7593854B2 (en) Method and system for collecting user-interest information regarding a picture
US20060235694A1 (en) Integrating conversational speech into Web browsers
KR100549482B1 (en) Information processing apparatus, information processing method, and computer readable storage medium for storing a program
US9916128B2 (en) Visual and voice co-browsing framework
US20140358516A1 (en) Real-time, bi-directional translation
JP2014016475A (en) Voice processing system and terminal device
TW200809769A (en) Sharing voice application processing via markup
CN111919249A (en) Continuous detection of words and related user experience
KR20130057338A (en) Method and apparatus for providing voice value added service
CN111142667A (en) System and method for generating voice based on text mark
US20050010422A1 (en) Speech processing apparatus and method
JP6179971B2 (en) Information providing apparatus and information providing method
JP2008145769A (en) Interaction scenario creation system, its method, and program
US20050086057A1 (en) Speech recognition apparatus and its method and program
KR20160050723A (en) Method and apparatus for outputting sentence and command
KR102479026B1 (en) QUERY AND RESPONSE SYSTEM AND METHOD IN MPEG IoMT ENVIRONMENT
KR102468214B1 (en) The system and an appratus for providig contents based on a user utterance
JP2020119043A (en) Voice translation system and voice translation method
KR102544612B1 (en) Method and apparatus for providing services linked to video contents

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination