KR20160050723A - Method and apparatus for outputting sentence and command - Google Patents
Method and apparatus for outputting sentence and command Download PDFInfo
- Publication number
- KR20160050723A KR20160050723A KR1020140149537A KR20140149537A KR20160050723A KR 20160050723 A KR20160050723 A KR 20160050723A KR 1020140149537 A KR1020140149537 A KR 1020140149537A KR 20140149537 A KR20140149537 A KR 20140149537A KR 20160050723 A KR20160050723 A KR 20160050723A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- output
- sentence
- screen
- document
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
본 발명은 음성으로 출력될 문장 및 명령어를 화면으로도 출력하는 방법 및 그 장치에 관한 것이다. The present invention relates to a method and apparatus for outputting a sentence and a command to be outputted as a voice to a screen.
모바일 통신 서비스가 발전하면서, 사용자는 고정 환경뿐만 아니라 이동 환경에서도 단말을 통한 다양한 서비스를 제공받을 수 있다. 예를 들어, DAB(Digital Audio Broadcasting) 서비스 등을 제공받을 수 있다. DAB는 라디오 프로그램, 비디오 프로그램 또는 데이터 서비스를 고정 환경을 포함한 이동 환경에 제공하기 위한 디지털 라디오 방송 시스템으로, 문자 기반의 데이터 서비스를 제공한다. As the mobile communication service evolves, the user can receive various services through the terminal in a fixed environment as well as a mobile environment. For example, a DAB (Digital Audio Broadcasting) service can be provided. DAB is a digital radio broadcasting system for providing radio programs, video programs, or data services to mobile environments, including fixed environments, and provides character-based data services.
이러한 DAB를 통한 서비스를 제공받는 사용자의 상당수가 차량 이용자인 경우가 많은데, 운전자는 문자로 표시되는 프로그램 정보 및 부가 정보를 확인하면서 원하는 방송을 선택하여 제공받는다. 이때, 단말을 통하여 표시되는 문자를 확인하는 과정은 안전에 문제가 될 수 있다. A large number of users who are provided with the service through the DAB are often vehicle users. The driver selects and provides a desired broadcast while checking program information and additional information displayed in letters. At this time, the process of confirming the displayed characters through the terminal may be a safety problem.
이외에도, 사용자가 단말을 통한 서비스를 제공받는 상태에서, 화면을 확인할 수 없는 상황들이 발생할 수 있다. In addition, situations may arise where the user can not view the screen while the service is provided through the terminal.
본 발명이 해결하고자 하는 과제는 사용자와 단말 사이에 대화 형식으로 정보를 주고 받을 수 있는 XML(extensible markup language) 기술을 이용하여 정보를 음성으로 출력함과 동시에 화면으로 출력하는 방법 및 그 장치를 제공하는 것이다. SUMMARY OF THE INVENTION The present invention provides a method and apparatus for outputting information by voice using an extensible markup language (XML) technology capable of exchanging information in an interactive manner between a user and a terminal .
위의 과제를 위한 본 발명의 특징에 따른 출력 방법은, 단말이 문서 및 명령어를 출력하는 방법에서, 로컬 저장 장치에 저장된 문서나 또는 원격의 서버상에 존재하는 문서들 중 하나의 문서 파일을 획득하는 단계; 상기 문서 파일을 처리하여 음성으로 출력될 문장을 획득하고, 상기 음성으로 출력될 문장으로부터 미리 설정된 엘리먼트를 토대로 화면으로 출력될 문장을 획득하는 단계; 및 상기 음성으로 출력될 문장을 소리로 변환하여 출력하고, 상기 화면으로 출력될 문장을 상기 단말의 화면에 출력하는 단계를 포함한다. The output method according to an aspect of the present invention for achieving the above object is a method for obtaining a document stored in a local storage device or one of documents existing on a remote server in a method in which a terminal outputs a document and a command word ; Processing the document file to obtain a sentence to be output as a voice, and obtaining a sentence to be output to a screen based on a predetermined element from a sentence to be output as the voice; And a step of outputting a sentence to be output to the screen to the screen of the terminal.
본 발명의 실시 예에 따르면, XML 엘리먼트인 다이얼로그 내에 포함된 문장의 전부 또는 일부를 화면으로 출력하고, 또한 다이얼로그에서 지정된 음성 명령 또는 버튼 키와 같은 사용자 입력 정보를 화면에 출력하여 사용자와 단말간의 상호작용을 향상시킬 수 있다. According to the embodiment of the present invention, all or a part of the sentences included in the XML element dialog are outputted to the screen, and user input information such as a voice command or a button key specified in the dialog is displayed on the screen, It is possible to improve the action.
또한, 디지털 라디오와 같은 모바일 방송 환경에서 사용자는 편리하게 프로그램 정보 및 부가 정보를 음성으로 청취함과 동시에 출력된 화면을 통해서 관련 정보를 더 인지할 수 있다. 특히, 음성 명령의 경우 출력된 화면을 통해 미리 확인하고 명령함으로써 상호작용 효과를 배가시킬 수 있다. Also, in a mobile broadcasting environment such as a digital radio, a user can conveniently listen to program information and additional information by voice, and at the same time, perceive related information through the output screen. In particular, in the case of a voice command, the interaction effect can be doubled by checking and commanding in advance through the output screen.
도 1은 본 발명의 실시 예에 따른 문자 및 명령어 출력 방법의 개념도이다.
도 2는 본 발명의 실시 예에 따른 문자 및 명령어의 음성 출력과 동시에 화면 출력을 위한 XML 문서 구조를 나타낸 도이다.
도 3은 본 발명의 실시 예에 따른 문서 및 명령어 출력 장치의 구조를 나타낸 도이다.
도 4는 본 발명의 실시 예에 따른 문서 및 명령어 출력 방법의 흐름도이다. 1 is a conceptual diagram of a method of outputting a character and a command according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an XML document structure for outputting a text and an audio of a command and simultaneously outputting a screen according to an embodiment of the present invention.
3 is a diagram illustrating a structure of a document and command output apparatus according to an embodiment of the present invention.
4 is a flowchart of a document and command output method according to an embodiment of the present invention.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when an element is referred to as "comprising ", it means that it can include other elements as well, without excluding other elements unless specifically stated otherwise.
이하, 도면을 참조하여 본 발명의 실시 예에 따른 문자 및 명령어 출력 방법 및 그 장치에 대하여 설명한다. Hereinafter, a method and apparatus for outputting characters and commands according to an embodiment of the present invention will be described with reference to the drawings.
도 1은 본 발명의 실시 예에 따른 문자 및 명령어 출력 방법의 개념도이다.1 is a conceptual diagram of a method of outputting a character and a command according to an embodiment of the present invention.
사용자와 단말간의 상호 작용에 해당하는 대화 메커니즘을 XML(extensible markup language)을 이용하여 기술할 수 있다. 음성 확장성 생성 언어인 VoiceXML을 이용할 수 있는데, VoiceXML은 음성으로 컨텐츠나 서비스 이용을 가능하게 하는 것으로, 데이터베이스나 웹사이트의 정보, 인터넷 등에 전화 접속 또는 음성 접속을 실현하면서, 동시에 웹에 의한 양방향 음성 응답 서비스가 용이하도록 한다. VoiceXML은 ASR(automatic speech recognition) 및 DTMF(dual tome multi frequency) 를 이용한 입력과, 음성 및 TTS(text to speech) 등을 이용한 출력으로, 음성 기반의 사용자 인터페이스 기술을 제공한다. The dialogue mechanism corresponding to the interaction between the user and the terminal can be described using XML (extensible markup language). VoiceXML, which is a voice expanding language, can be used. VoiceXML enables contents or services by voice. It realizes telephone connection or voice connection to database, website information, the Internet, etc., and at the same time, Provide an easy response service. VoiceXML provides voice-based user interface technology with input using automatic speech recognition (ASR) and dual tone multi frequency (DTMF), and output using voice and TTS (text to speech).
VoiceXML은 도 1에서와 같이, 다이얼로그에 해당하는 엘리먼트(element) <form>을 사용자 음성 입력과 음성 출력을 통합된 형태로 정의하고 있다. 이러한 엘리먼트를 사용하면 사용자와 단말간의 연속적인 대화가 가능하며, 이 대화를 통해 단말은 사용자가 원하는 정보를 제공하고 사용자로부터 명령을 입력받는 형식으로 다양한 작업을 할 수 있다. As shown in FIG. 1, VoiceXML defines an element < form > corresponding to a dialogue in an integrated form of user voice input and voice output. By using these elements, continuous conversation between the user and the terminal is possible. Through this conversation, the terminal can perform a variety of operations in the form of providing the information desired by the user and receiving a command from the user.
구체적으로, <form> 엘리먼트는 하나의 다이얼로그에 해당한다. 실제 음성으로 출력할 문장은 <prompt> 엘리먼트에 위치하는데, 이 문장은 일반적으로 TTS를 통해서 소리로 출력된다. 다른 출력 방법으로, 녹음된 음성 파일을 재생하여 소리로 정보를 출력할 수도 있다. Specifically, the <form> element corresponds to one dialog. The actual speech output is placed in the <prompt> element, which is normally output to the sound through TTS. In another output method, it is also possible to reproduce the recorded voice file and output information by sound.
도 1의 <prompt> 엘리먼트에 위치된 문장이 음성으로 출력된 다음에 사용자가 음성으로 출력된 문장에 대응하여 음성으로 명령을 하면, <filled> 엘리먼트에 기술된 사항에 따른 처리가 이루어진다. 예를 들어, 음성으로 출력된 문장에 대응하여 사용자가 만약 "yes"라고 음성으로 명령을 하면, 단말은 해당 명령을 인식하고 <goto> 엘리먼트(또는 <link> 엘리먼트)에 기술된 동작을 수행한다. 예를 들어, 도 1에서와 같이, <goto> 엘리먼트에 기술된 URL(uniform resource locator) 주소가 지정하는 문서로 이동한다. 반면, 사용자가 만약 "yes"아닌 명령어를 입력하면, <goto> 엘리먼트에 기술된 동작에 따라 예를 들어, "main_dialog"로 이동한다. 예시된 바와 같이 다른 다이얼로그나 문서로의 이동은 <goto>나 <link> 엘리먼트를 사용한다. 이러한 방식에 따라, 도 1의 하부에 도시된 바와 같이 음성으로 "Special CDs are on sales. Please, visit our web site, www.worlddab.com or if you say "yes", you access it"와 같은 메시지가 출력될 수 있다. When a sentence located in the <prompt> element of FIG. 1 is outputted as a voice and then a voice is issued in response to a sentence output by the user as a voice, processing according to the matters described in the <filled> element is performed. For example, if a user responds to a sentence output by voice and gives a voice command of "yes", the terminal recognizes the command and performs the operation described in the <goto> element (or the <link> element) . For example, as shown in FIG. 1, a URL (uniform resource locator) address described in the < goto > element is moved to a document designated by the address. On the other hand, if the user enters a command that is not "yes", it moves to "main_dialog", for example, according to the action described in the <goto> element. As you can see, moving to another dialog or document uses a <goto> or <link> element. According to this method, a message such as " Special CDs are on sale. Please visit our web site, www.worlddab.com or if you say "yes ", you access it" Can be output.
본 발명의 실시 예에서는 이러한 음성으로 출력되는 메시지를 문자로 처리하여 화면으로도 출력한다. 도 1의 우측에 도시한 바와 같이, 단말의 화면상에 음성으로 출력된 문장의 전체 또는 일부가 문자로 출력될 수 있으며, 또한 입력해야 할 음성 명령(speech keyword) 또는 버튼 키가 화면에 출력될 수 있다. In the embodiment of the present invention, a message output by such a voice is processed as a character and also outputted as a screen. As shown in the right side of FIG. 1, all or part of the sentences output by voice on the screen of the terminal can be output as characters, and a speech keyword or button key to be input is output to the screen .
음성으로 출력되는 정보를 화면으로 출력할 경우, 사용자는 음성으로 잘 숙지 못하거나 때론 확인하고 싶은 정보에 대해 화면을 통하여 부가적으로 확인할 수 있다. 또한 음성 명령의 경우, 입력할 음성 명령어의 종류가 여러 가지일 경우 이를 기억하기가 어려울 수 있으나, 화면을 통하여 표시되는 음성 명령을 통하여 입력해야 할 키워드를 확인할 수 있다. When outputting the information output by voice to the screen, the user can additionally confirm the information that he or she does not know well by voice or sometimes wants to check through the screen. In addition, in the case of voice commands, it is difficult to memorize various types of voice commands to be input. However, it is possible to identify keywords to be input through a voice command displayed on the screen.
사용자는 이와 같이, 단말을 통하여 출력되는 정보를 소리로 들으면서 필요에 따라 화면을 보면서 원하는 서비스나 프로그램 또는 특정 정보에 대한 검색 및 접근을 편리하게 처리할 수 있다. 이러한 본 발명의 실시 예에 따른 방법을 모바일 방송에 적용할 경우, 운전자와 같은 이동 환경의 청취자에 대한 디지털 라디오의 시청 환경을 개선할 수 있다. 단말은 라디오 프로그램의 부가 정보나 데이터 서비스를 음성으로 출력하고 음성으로 사용자의 명령을 입력받아 해당 정보에 접근 가능하도록 할 수 있다. 이러한 기능을 통해 운전자는 운전에 방해를 받지 않고 디지털 라디오의 서비스, 프로그램 또는 부가 데이터에 쉽게 접근하고 관련 정보를 얻을 수 있다. As described above, the user can conveniently search for and access desired services, programs, or specific information while viewing the screen as needed while listening to the information output through the terminal. When the method according to the embodiment of the present invention is applied to a mobile broadcast, it is possible to improve the viewing environment of a digital radio for a listener in a mobile environment such as a driver. The terminal outputs the additional information or the data service of the radio program by voice and allows the user to access the information by inputting the user's command by voice. This capability allows the operator to easily access and obtain relevant information about the service, program or supplementary data of the digital radio without being disturbed by the operation.
본 발명의 실시 예에서는 위와 같은 문자 및 명령어의 음성 출력과 동시에 화면 출력으로 가능하기 위하여, 다음과 같은 구조로 이루어지는 XML 엘리먼트를 이용한다. In the embodiment of the present invention, an XML element having the following structure is used in order to enable output of text and command words as well as display output simultaneously.
도 2는 본 발명의 실시 예에 따른 문자 및 명령어의 음성 출력과 동시에 화면 출력을 위한 XML 문서 구조를 나타낸 도이다. 여기서는 도 1에 예시된 문장 및 명령어의 화면 출력을 가능하게 하는 방법을 예로 들어 설명한다. FIG. 2 is a diagram illustrating an XML document structure for outputting a text and an audio of a command and simultaneously outputting a screen according to an embodiment of the present invention. Here, a method of enabling screen output of the sentence and the command illustrated in Fig. 1 will be described as an example.
본 발명의 실시 예에서는 XML 문서에서, <form> 엘리먼트에 기재된 다이얼로그에서, <prompt> 엘리먼트에 위치한 문장을 음성으로 출력하면서, <prompt> 엘리먼트에 위치한 문장의 일부분 또는 전체를 화면으로도 출력한다. 화면으로 출력할 문장 내부의 특정 문자나 서브 문장을 구분하기 위하여, <disp> 엘리먼트를 추가로 정의하여 사용한다. <prompt> 엘리먼트에 기재된 문장을 해석하면서, <disp> … </disp> 엘리먼트를 인식하면, <disp> … </disp> 엘리먼트로 지정된 범위내에 포함된 문자나 문장만을 선별하여 화면으로 출력한다. 구체적으로, 도 2에 예시된 바와 같이, <prompt> 엘리먼트에 기재된 "Special CDs are on sales. Please, visit our web site, www.worlddab.com or if you say "yes", you access it" 문장 전체에서, <disp> 엘리먼트로 구분된 문장에 해당하는 "CDs are on sales"와 "www.worlddab.com" 의 두 개의 문장만이 화면에 출력된다. 물론, 경우에 따라, 음성으로 출력되는 문장 전체가 화면으로 출력될 수도 있다. In the embodiment of the present invention, in a dialog box described in the <form> element in the XML document, a sentence located in the <prompt> element is outputted as a voice and a part or all of the sentence located in the <prompt> element is also output to the screen. The <disp> element is additionally defined and used to distinguish a particular character or sub-sentence within a sentence to be displayed on the screen. While interpreting the sentence in the <prompt> element, <disp> ... When the </ disp> element is recognized, <disp> ... </ disp> Only the characters or sentences within the range specified by the element are selected and displayed on the screen. Specifically, as exemplified in FIG. 2, the " Special CDs are on sales. &Quot;, " please visit our web site, www.worlddab.com or if you say " , Only the two sentences "CDs are on sales" and "www.worlddab.com" corresponding to the sentence separated by the <disp> element are displayed on the screen. As a matter of course, the entire sentence output by voice may be output to the screen.
이와 같이, 본 발명의 실시 예에 따라, 출력하고자 하는 다이얼로그 내의 문장의 전체나 일부를 화면에 출력하고, 마찬가지로 사용자 입력으로 정의된 음성 명령 및 버튼 키도 화면에 출력하여, 음성으로 정보를 출력하고 음성으로 사용자의 명령을 입력받아 해당 정보에 접근 가능하도록 할 수 있다. As described above, according to the embodiment of the present invention, the whole or a part of the sentences in the dialog to be outputted are outputted to the screen, the voice command and the button key defined by the user input are also outputted on the screen, It is possible to input the user's command by voice and access the corresponding information.
도 3은 본 발명의 실시 예에 따른 문서 및 명령어 출력 장치의 구조를 나타낸 도이다. 3 is a diagram illustrating a structure of a document and command output apparatus according to an embodiment of the present invention.
첨부한 도 3에서와 같이, 본 발명의 실시 예에 따른 문서 및 명령어 출력 장치(100)는 문서 처리부(document handler)(110), 어플리케이션 실행부(application engine)(120), 그리고 입출력 컴포넌트 처리부(130)를 포함한다. 3, the document and command output apparatus 100 according to the embodiment of the present invention includes a
문서 처리부(110)는 음성 및/또는 화면으로 출력한 문서들을 구성한다. 구체적으로 문서 처리부(110)는 로컬 저장 장치에 저장된 문서나 또는 원격의 서버상에 존재하는 문서들을 가져와서, 정해진 흐름에 따라 문서의 이동 및 다이얼로그의 이동이 자유자재로 가능하도록 문서를 처리하여 어플리케이션 실행부(120)에 전달한다. The
이를 위하여, 문서 처리부(110)는 로컬 저장 문서 처리부(111)와 원격 저장 문서 처리부(112)를 포함할 수 있다. 로컬 저장 문서 처리부(111)는 예를 들어, 방송으로부터 전달받은 데이터나 자체적으로 구비된 문서를 어플리케이션 실행부(120)에 전달한다. 원격 저장 문서 처리부(112)는 네트워크를 통해 원격에 존재하는 서버와 같은 장치로부터 해당 문서를 가져와서 어플리케이션 실행부(120)에 전달한다. For this, the
문서 처리부(110)를 통하여 어플리케이션 실행부(120)에 전달되는 문서는 위의 도 2에서와 같이, XML 문서로 이루어질 수 있으며, 제1 엘리먼트(예를 들어, <form> 엘리먼트)에 의하여 하나의 다이얼로그 대응하는 문장들이 기술되고, 제2 엘리먼트(예를 들어, <prompt> 엘리먼트)에 대응하여 음성으로 출력될 문장이 특정화된다. 그리고 제3 엘리먼트(예를 들어, <disp> 엘리먼트)에 대응하여 음성으로 출력될 문장의 일부분 또는 전체가 화면으로도 출력되는 것으로 특정화된다. 이러한 엘리먼트들을 통하여 다이얼로그에서 명시된 흐름이 처리된다. The document transmitted to the
어플리케이션 실행부(120)는 문서 처리부(110)로부터 전달되는 문서를 해석하여 실행한다. 이를 위하여, 어플리케이션 실행부(120)는 XML 해석기(121)를 포함한다. XML 해석기(121)는 XML 문서를 해석하여 명시된 흐름을 제어하는 기능을 수행하는데, 다이얼로그를 해석하여 음성 입출력을 실행하고, 또한 각 다이얼로그에서 명시된 흐름에 따라 어플리케이션을 제어한다. 구체적으로, XML 문서에서 제1 엘리먼트에 의하여 하나의 다이얼로그가 정의됨을 인식하고, 제2 엘리먼트에 대응하여 기술된 문장을 음성으로 출력될 문장으로 처리한다. 그리고 제2 엘리먼트에 대응하여 기술된 문장에서 제3 엘리먼트에 의하여 구분되는 부분들을 화면으로 출력될 문장으로 처리한다. 그리고 음성으로 출력될 문장과, 화면으로 출력될 문장을 각각 입출력 컴포넌트 처리부(130)로 제공한다. The
이러한 어플리케이션 실행부(120)는 문서 처리부(110) 및 입출력 콤포넌트 처리부(130)와 연동되며, XML 해석기(121)에 관련된 모든 인터페이스 및 통합 처리를 수행한다. The
한편, 입출력 컴포넌트 처리부(130)는 음성 입출력 처리부(131)와, 그래픽 입출력 처리부(132)를 포함한다. 이외에도, 음성 명령어를 저장하는 명령어 저장부(133)를 더 포함한다. The input / output
음성 입출력 처리부(131)는 음성을 인식하고 이를 음성 입력으로 처리하는 음성 인식기(ASR)(1311), 문장을 음성으로 출력하는 음성 출력기(TTS)(1312)를 포함하며, 이외에도 오디오 파일을 재생하는 파일 재생기(1313)를 더 포함한다. The audio input /
음성 인식기(1311)는 음성으로 입력되는 사용자의 명령어를 인식하고, 인식된 명령어를 토대로 명령어 저장부(133)에 저장된 대응하는 음성 명령어(registered speech keywords)를 찾고, 찾아진 음성 명령어에 미리 매핑되어 있는 동작을 수행한다. 예를 들어, 음성 명령어에 미리 매핑되어 있는 다이얼로그 및 문서로 즉시 이동한다. The
음성 출력기(1312)는 문장을 음성 즉, 소리로 변환하여 출력한다. 특히, 어플리케이션 실행부(120)로부터 제공되는 음성으로 출력될 문장을 소리로 변환하여 출력한다. The
파일 재생기(1312)는 저장 또는 다운로드 된 음원 파일을 재생하여 소리로 재생한다.The
그래픽 입출력 처리부(132)는 문자 및 그래픽을 화면에 출력하는 디스플레이부(1321)를 포함하며, 버튼 및 터치 패드(touch pad)와 같은 입력부(1322)를 더 포함한다. The graphic input /
디스플레이부(1321)은 어플리케이션 실행부(120)로부터 제공되는 화면으로 출력될 문장을 처리하여 화면에 출력한다. 디스플레이부(1321)의 출력 대상은 음성으로 출력될 다이얼로그내의 전체 문장이나 제3 엘리먼트(<disp> 엘리먼트)에 의해 구분되는 서브 문장(sub sentence)이나 특정 문자를 포함한다. 화면 출력의 경우는 특정 방법에 한정하지 않고 다양한 형태로 화면 출력이 가능하다. The
또한 디스플레이부(1321)은 XML 문서에서 <grammar>나 관련 음성 입력 관련 엘리먼트(제4 엘리먼트라고도 명명함)에 지정된 음성 명령어를 화면에 출력하거나, 또는 명령어 저장부(133) 등에 저장되거나 예약된 음성 명령어(global speech keywords)를 화면에 출력 할 수 있다. 이외에도 버튼의 키나 번호 및 화면 터치를 그래픽적으로 처리하여 화면에 출력할 수 있다. Also, the
입력부(1322)는 버튼 및 터치 패드를 통하여 입력되는 정보를 어플리케이션 실행부(132)로 전달한다. The
도 4는 본 발명의 실시 예에 따른 문서 및 명령어 출력 방법의 흐름도이다. 4 is a flowchart of a document and command output method according to an embodiment of the present invention.
첨부한 도 4에서와 같이, 문서 및 명령어 출력 장치(100)는 로컬 저장 장치에 저장된 문서 또는 원격의 서버상에 존재하는 문서들을 가져와서, 정해진 흐름에 따라 문서의 이동 및 다이얼로그의 이동이 자유자재로 가능하도록 문서를 처리한다(S100). 여기서 문서는 위의 도 2에서와 같이, XML 문서로 이루어지며, 제1 엘리먼트(예를 들어, <form> 엘리먼트)에 의하여 하나의 다이얼로그 대응하는 문장들이 기술되고, 제2 엘리먼트(예를 들어, <prompt> 엘리먼트)에 대응하여 음성으로 출력될 문장이 특정화되어 있으며, 제3 엘리먼트(예를 들어, <disp> 엘리먼트)에 대응하여 음성으로 출력될 문장의 일부분 또는 전체가 화면으로도 출력되는 것으로 특정화된다. As shown in FIG. 4, the document and command output apparatus 100 fetches documents stored in a local storage device or documents existing on a remote server, and moves documents and moves dialogs freely according to a predetermined flow. (S100). Here, as shown in FIG. 2, the document is composed of an XML document, and one dialog corresponding sentences are described by a first element (for example, a < form > element), and a second element the <prompt> element), and a part or all of a sentence to be output by voice corresponding to the third element (for example, the <disp> element) is also output to the screen Is specified.
이후, 문서 및 명령어 출력 장치(100)는 문서를 해석하여 실행한다(S110). XML 문서에서 제1 엘리먼트에 의하여 하나의 다이얼로그가 정의됨을 인식하고, 제2 엘리먼트에 대응하여 기술된 문장을 음성으로 출력될 문장으로 처리한다. 그리고 제2 엘리먼트에 대응하여 기술된 문장에서 제3 엘리먼트에 의하여 구분되는 부분들을 화면으로 출력될 문장으로 처리한다(S120). Thereafter, the document and command output apparatus 100 interprets and executes the document (S110). Recognizes that one dialog is defined by the first element in the XML document, and processes the sentence described in correspondence with the second element into a sentence to be outputted as a voice. Then, in the sentence corresponding to the second element, the portions delimited by the third element are processed into a sentence to be outputted to the screen (S120).
문서 및 명령어 출력 장치(100)는 음성으로 출력될 문장들을 소리로 변환하여 출력하고, 경우에 따라 저장 또는 다운로드 된 음원 파일을 재생하여 소리로 재생한다. 또한 문서 및 명령어 출력 장치(100)는 화면으로 출력될 문장을 처리하여 화면에 출력한다(S130). 도 2에서와 같이, 다이얼로그내의 전체 문장이 음성으로 출력되면서, 문장 내에서 제3 엘리먼트(<disp> 엘리먼트)에 의해 구분되는 서브 문장이 화면으로 출력된다. 그리고 제4 엘리먼트(<grammar> 엘리먼트 등)에 지정된 음성 명령어를 화면에 출력하거나, 또는 저장되어 있거나 예약된 음성 명령어를 화면에 출력한다. The document and command output apparatus 100 converts sentences to be output as sounds into sounds and outputs the sounds, and in some cases, reproduces sound files stored or downloaded and reproduces sounds. In addition, the document and command output apparatus 100 processes a sentence to be output as a screen and outputs it to the screen (S130). As shown in Fig. 2, the entire sentence in the dialog is outputted as a voice, and a sub-sentence divided by the third element (< disp element) in the sentence is output to the screen. And outputs the voice command specified on the fourth element (such as a <grammar> element) to the screen, or outputs the stored or reserved voice command to the screen.
이후, 문서 및 명령어 출력 장치(100)는 사용자 입력에 대응하는 동작을 수행한다(S140). 구체적으로, 문장 출력에 따라 입력되는 사용자의 음성을 인식하고 이를 음성 입력으로 처리하고, 음성으로 입력되는 사용자의 명령어에 대응하는 음성 명령어에 미리 매핑되어 있는 동작을 수행한다. 또한, 문서 및 명령어 출력 장치(100)는 버튼 및 터치 패드를 통하여 입력되는 정보를 처리하여, 대응하는 동작을 수행한다. Thereafter, the document and command output apparatus 100 performs an operation corresponding to the user input (S140). Specifically, the user recognizes the input voice according to the output of the sentence, processes it as a voice input, and performs an operation previously mapped to a voice command corresponding to a user's voice command. Also, the document and command output apparatus 100 processes information input through the buttons and the touch pad, and performs corresponding operations.
본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하기 위한 프로그램, 그 프로그램이 기록된 기록 매체 등을 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.The embodiments of the present invention are not limited to the above-described apparatuses and / or methods, but may be implemented through a program for realizing functions corresponding to the configuration of the embodiment of the present invention, a recording medium on which the program is recorded And such an embodiment can be easily implemented by those skilled in the art from the description of the embodiments described above.
이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It belongs to the scope of right.
Claims (1)
로컬 저장 장치에 저장된 문서 또는 원격의 서버상에 존재하는 문서들 중 하나의 문서 파일을 획득하는 단계;
상기 문서 파일을 처리하여 음성으로 출력될 문장을 획득하고, 상기 음성으로 출력될 문장으로부터 미리 설정된 엘리먼트를 토대로 화면으로 출력될 문장을 획득하는 단계; 및
상기 음성으로 출력될 문장을 소리로 변환하여 출력하고, 상기 화면으로 출력될 문장을 상기 단말의 화면에 출력하는 단계
를 포함하는, 출력 방법.
In the manner in which the terminal outputs documents and commands,
Obtaining a document file stored in a local storage device or one of documents existing on a remote server;
Processing the document file to obtain a sentence to be output as a voice, and obtaining a sentence to be output to a screen based on a predetermined element from a sentence to be output as the voice; And
Converting a sentence to be output by the voice into sound and outputting a sentence to be output to the screen to the screen of the terminal
/ RTI >
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140149537A KR20160050723A (en) | 2014-10-30 | 2014-10-30 | Method and apparatus for outputting sentence and command |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140149537A KR20160050723A (en) | 2014-10-30 | 2014-10-30 | Method and apparatus for outputting sentence and command |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20160050723A true KR20160050723A (en) | 2016-05-11 |
Family
ID=56025624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140149537A KR20160050723A (en) | 2014-10-30 | 2014-10-30 | Method and apparatus for outputting sentence and command |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20160050723A (en) |
-
2014
- 2014-10-30 KR KR1020140149537A patent/KR20160050723A/en not_active Application Discontinuation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6375521B2 (en) | Voice search device, voice search method, and display device | |
CN106796496B (en) | Display apparatus and method of operating the same | |
KR101027548B1 (en) | Voice browser dialog enabler for a communication system | |
KR101143034B1 (en) | Centralized method and system for clarifying voice commands | |
US8073700B2 (en) | Retrieval and presentation of network service results for mobile device using a multimodal browser | |
KR102108500B1 (en) | Supporting Method And System For communication Service, and Electronic Device supporting the same | |
US7593854B2 (en) | Method and system for collecting user-interest information regarding a picture | |
US20060235694A1 (en) | Integrating conversational speech into Web browsers | |
KR100549482B1 (en) | Information processing apparatus, information processing method, and computer readable storage medium for storing a program | |
US9916128B2 (en) | Visual and voice co-browsing framework | |
US20140358516A1 (en) | Real-time, bi-directional translation | |
JP2014016475A (en) | Voice processing system and terminal device | |
TW200809769A (en) | Sharing voice application processing via markup | |
CN111919249A (en) | Continuous detection of words and related user experience | |
KR20130057338A (en) | Method and apparatus for providing voice value added service | |
CN111142667A (en) | System and method for generating voice based on text mark | |
US20050010422A1 (en) | Speech processing apparatus and method | |
JP6179971B2 (en) | Information providing apparatus and information providing method | |
JP2008145769A (en) | Interaction scenario creation system, its method, and program | |
US20050086057A1 (en) | Speech recognition apparatus and its method and program | |
KR20160050723A (en) | Method and apparatus for outputting sentence and command | |
KR102479026B1 (en) | QUERY AND RESPONSE SYSTEM AND METHOD IN MPEG IoMT ENVIRONMENT | |
KR102468214B1 (en) | The system and an appratus for providig contents based on a user utterance | |
JP2020119043A (en) | Voice translation system and voice translation method | |
KR102544612B1 (en) | Method and apparatus for providing services linked to video contents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |