KR20200033140A - System and method for providing voice assistant service - Google Patents

System and method for providing voice assistant service Download PDF

Info

Publication number
KR20200033140A
KR20200033140A KR1020190062589A KR20190062589A KR20200033140A KR 20200033140 A KR20200033140 A KR 20200033140A KR 1020190062589 A KR1020190062589 A KR 1020190062589A KR 20190062589 A KR20190062589 A KR 20190062589A KR 20200033140 A KR20200033140 A KR 20200033140A
Authority
KR
South Korea
Prior art keywords
model
character
voice assistant
specific
response message
Prior art date
Application number
KR1020190062589A
Other languages
Korean (ko)
Inventor
황인철
강도희
김승연
마동철
박민규
이대근
차도헌
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to PCT/KR2019/011991 priority Critical patent/WO2020060151A1/en
Priority to KR1020190114053A priority patent/KR20200033189A/en
Priority to EP19197962.4A priority patent/EP3627502A1/en
Priority to US16/576,020 priority patent/US11848012B2/en
Priority to CN201910886996.3A priority patent/CN110930994B/en
Publication of KR20200033140A publication Critical patent/KR20200033140A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)

Abstract

The present disclosure relates to an artificial intelligence (AI) system utilizing machine learning algorithm such as deep learning and the like, and an application thereof. The method for providing a voice assistant service by a device comprises the operations of: receiving a character specialized model; receiving a user voice input including a word for indicating a character and a sentence for requesting a response of a voice assistant program; determining the character specialized model according to the word indicating the character; generating a response message for the sentence, which requests the response of the voice assistant program, using the character specialized model; and outputting the generated response message.

Description

보이스 어시스턴트 서비스를 제공하는 시스템 및 방법 {SYSTEM AND METHOD FOR PROVIDING VOICE ASSISTANT SERVICE}System and method for providing voice assistant service {SYSTEM AND METHOD FOR PROVIDING VOICE ASSISTANT SERVICE}

본 개시는 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법에 관한 것으로서, 보다 상세하게는 소정의 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법에 관한 것이다.The present disclosure relates to a system and method for providing a voice assistant service, and more particularly, to a system and method for providing a voice assistant service specialized for a given character.

보이스 어시스턴트 서비스는, 오디오 신호에 음성 인식(ASR: Automated Speech Recognition) 처리, 자연어 이해(NLU: Natural Language Understanding) 처리, 대화 관리(DM: Dialogue Manager) 처리, 자연어 생성(NLG: Natural Language generation) 처리 및 텍스트 투 스피치(TTS: Text To Speech) 처리를 통해, 사용자 발화에 대한 응답을 제공하는 서비스이다.The Voice Assistant service processes speech recognition (ASR: Automated Speech Recognition) on audio signals, Natural Language Understanding (NLU) processing, Dialogue Manager (DM) processing, and Natural Language generation (NLG) processing. And a text to speech (TTS) process, providing a response to a user's speech.

종래에는 보이스 어시스턴트 서비스는 미리 정해진 스타일로만 답변을 제공하며 스타일을 변경하기 위해서는 설정 메뉴를 통해 변경을 해야 했다. 또한, 보이스 어시스턴트의 ASR, NLU, DM, NLG, TTS는 인공지능 이외의 규칙 기반 알고리즘을 통해 동작될 수 있으며, 보이스 어시스턴트의 성능 향상을 위해 인공지능이 접목될 수 있다.In the past, the Voice Assistant service only provides answers in a predetermined style, and to change the style, it has to be changed through the setting menu. In addition, the voice assistant's ASR, NLU, DM, NLG, and TTS can be operated through rule-based algorithms other than artificial intelligence, and artificial intelligence can be grafted to improve the performance of the voice assistant.

일부 실시예는, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법을 제공할 수 있다. Some embodiments may provide a system and method for providing a voice assistant service specialized for a character.

또한, 일부 실시예는, 캐릭터에 특화된 인공지능 모델을 이용하여 보이스 어시스턴트 서비스를 제공할 수 있는 시스템 및 방법을 제공할 수 있다. In addition, some embodiments may provide a system and method capable of providing a voice assistant service using an AI model specialized for a character.

또한, 일부 실시예는, 보이스 어시스턴트의 모델 및 3rd party의 다른 디바이스에 의해 생성된 캐릭터 특화 모델을 함께 이용하여, 다양한 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 수 있는 시스템 및 방법을 제공할 수 있다.In addition, some embodiments may provide a system and method for providing a voice assistant service specialized for various characters by using a voice assistant model and a character specialization model generated by another device of a 3rd party together.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 외부 디바이스로부터 캐릭터 특화 모델을 수신하는 동작; 캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력을 수신하는 동작; 상기 캐릭터를 지시하는 상기 단어에 따라 상기 캐릭터 특화 모델을 결정하는 동작; 상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 상기 문장에 대한 응답 메시지를 생성하는 동작; 및 상기 생성된 응답 메시지를 출력하는 동작; 을 포함하는, 디바이스가 보이스 어시스턴트 프로그램을 통해 보이스 어시스턴트 서비스를 제공하는 방법을 제공할 수 있다. As a technical means for achieving the above technical problem, a first aspect of the present disclosure includes an operation of receiving a character specialization model from an external device; Receiving a user voice input including a word indicating a character and a sentence requesting a response from the voice assistant program; Determining the character specialization model according to the word indicating the character; Generating a response message for the sentence requesting a response from the voice assistant program using the character-specific model; And outputting the generated response message. It is possible to provide a method for a device to provide a voice assistant service through a voice assistant program.

또한, 본 개시의 제2 측면은, 사용자 음성 입력을 수신하는 마이크; 통신 인터페이스; 하나 이상의 명령어들을 저장하는 메모리; 및 상기 하나 이상의 명령어들을 실행함으로써 보이스 어시스턴트 프로그램을 실행하는 하나 이상의 프로세서; 를 포함하며, 상기 프로세서는, 상기 통신 인터페이스를 통해 서버로부터 상기 보이스 어시스턴트 프로그램과 연동할 캐릭터 특화 모델을 수신하고, 상기 캐릭터 특화 모델에 대응하는 캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력이 상기 마이크를 통해 수신하고, 상기 보이스 어시스턴트 프로그램과 연동하는 상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 상기 문장에 대한 응답 메시지를 생성하고, 상기 생성된 응답 메시지를 출력하는, 보이스 어시스턴트 서비스를 제공하는 디바이스를 제공할 수 있다. In addition, a second aspect of the present disclosure, a microphone for receiving a user voice input; Communication interface; A memory storing one or more instructions; And one or more processors executing a voice assistant program by executing the one or more instructions. Including, the processor receives a character-specific model to interwork with the voice assistant program from the server through the communication interface, and requests a response of the voice assistant program and a word indicating a character corresponding to the character-specific model. The user voice input including the sentence to be received is received through the microphone, and using the character-specific model interworking with the voice assistant program, a response message is generated for the sentence requesting a response from the voice assistant program, It is possible to provide a device that provides a voice assistant service that outputs the generated response message.

또한, 본 개시의 제3 측면은, 통신 인터페이스; 하나 이상의 명령어들을 저장하는 메모리; 및 상기 하나 이상의 명령어들을 실행하는 하나 이상의 프로세서;를 포함하며, 상기 프로세서는, 상기 통신 인터페이스를 통해 디바이스의 보이스 어시스턴트 프로그램과 연동할 캐릭터 특화 모델을 획득하고, 상기 캐릭터 특화 모델에 대응하는 캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력이 디바이스로부터 상기 통신 인터페이스를 통해 수신되면, 상기 보이스 어시스턴트 프로그램과 연동하는 상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장에 대한 응답 메시지를 생성하는, 보이스 어시스턴트 서비스를 제공하는 서버를 제공할 수 있다.In addition, a third aspect of the present disclosure includes a communication interface; A memory storing one or more instructions; And one or more processors that execute the one or more instructions; wherein the processor acquires a character specialization model to interoperate with the voice assistant program of the device through the communication interface, and instructs a character corresponding to the character specialization model. When a user voice input including a word and a sentence requesting a response from the voice assistant program is received from the device through the communication interface, the character assistant model interworking with the voice assistant program is used to generate the voice assistant program. It is possible to provide a server that provides a voice assistant service, which generates a response message for a sentence requesting a response.

도 1은 일부 실시예에 따른 보이스 어시스턴트 서비스를 제공하기 위한 시스템의 개요도이다.
도 2는 일부 실시예에 따른 디바이스가 캐릭터 특화 모델을 이용하여 보이스 어시스턴트 서비스를 제공하는 방법의 흐름도이다.
도 3은 일부 실시예에 따른 디바이스가 서버로부터 캐릭터 특화 모델을 다운로드하는 방법의 흐름도이다.
도 4는 일부 실시예에 따른 디바이스가 소정의 제품에 근접함으로써 캐릭터 특화 모델을 다운로드하는 방법의 흐름도이다.
도 5는 일부 실시예에 따른 디바이스가 보이스 어시스턴트의 응답 모드를 변경하는 방법의 흐름도이다.
도 6은 일부 실시예에 따른 서버가 다른 디바이스에게 학습 모델 생성 툴을 다른 디바이스에게 제공하고, 다른 디바이스에 의해 생성된 캐릭터 특화 모델을 디바이스에게 제공하는 방법의 흐름도이다.
도 7은 일부 실시예에 따른 다른 디바이스가 학습 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성하고 업데이트하는 방법의 흐름도이다.
도 8은 일부 실시예에 따른 디바이스, 서버 및 다른 디바이스가 보이스 어시스턴트 서비스를 제공하는 방법의 흐름도이다.
도 9는 일부 실시예에 따른 학습 모델 생성 툴의 블록도이다.
도 10은 일부 실시예에 따른 학습 모델 생성 툴을 이용하여 캐릭터 특화 모델이 생성되는 예시를 나타내는 도면이다.
도 11은 일부 실시예에 따른 다른 디바이스가 캐릭터 특화 모델을 생성하는 예시를 나타내는 도면이다.
도 12는 일부 실시예에 따른 디바이스가 캐릭터 특화 모델 및 보이스 어시스턴트의 학습 모델을 함께 이용하는 예시를 나타내는 도면이다.
도 13은 일부 실시예에 따른 디바이스가 캐릭터 특화 모델을 이용하여 보이스 어시스턴트 서비스를 제공하는 예시를 나타내는 도면이다.
도 14는 일부 실시예에 따른 디바이스가 보이스 어시스턴트 서비스를 제공하는 세부 동작을 나타내는 도면이다.
도 15는 일부 실시예에 따른 디바이스가 서버로부터 캐릭터 특화 모델을 다운로드하는 예시를 나타내는 도면이다.
도 16은 일부 실시예에 따른 디바이스가 캐릭터 제품에 근접함으로써 캐릭터 특화 모델을 획득하는 예시를 나타내는 도면이다.
도 17은 일부 실시예에 따른 디바이스가 보이스 어시스턴트 서비스의 대화창을 나타내는 도면이다.
도 18은 일부 실시예에 따른 응답 모드에 따른 응답 메시지의 예시를 나타내는 도면이다.
도 19 및 도 20은 일부 실시예에 따른 디바이스의 블록도이다.
도 21은 일부 실시예에 따른 서버의 블록도이다.
도 22는 일부 실시예에 따른 프로세서의 블록도이다.
도 23은 일부 실시예에 따른 데이터 학습부의 블록도이다.
도 24는 일부 실시예에 따른 데이터 인식부의 블록도이다.
도 25는 일부 실시예에 따른 디바이스 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
1 is a schematic diagram of a system for providing a voice assistant service according to some embodiments.
2 is a flowchart of a method in which a device provides a voice assistant service using a character-specific model according to some embodiments.
3 is a flow diagram of a method for a device to download a character-specific model from a server, according to some embodiments.
4 is a flow diagram of a method for downloading a character-specific model by a device approaching a predetermined product according to some embodiments.
5 is a flow diagram of a method for a device to change the response mode of a voice assistant according to some embodiments.
6 is a flowchart of a method in which a server provides a learning model generation tool to another device according to some embodiments, and provides a character-specific model generated by the other device to the device.
7 is a flowchart of a method for another device to generate and update a character-specific model using a learning model generation tool according to some embodiments.
8 is a flow diagram of a method for a device, a server, and other devices to provide a voice assistant service according to some embodiments.
9 is a block diagram of a learning model generation tool in accordance with some embodiments.
10 is a diagram illustrating an example in which a character-specific model is generated using a learning model generation tool according to some embodiments.
11 is a diagram illustrating an example in which another device generates a character specialization model according to some embodiments.
12 is a diagram illustrating an example in which a device according to some embodiments uses a character-specific model and a voice assistant learning model together.
13 is a diagram illustrating an example in which a device provides a voice assistant service using a character-specific model according to some embodiments.
14 is a diagram illustrating detailed operations in which a device provides a voice assistant service according to some embodiments.
15 is a diagram illustrating an example in which a device according to some embodiments downloads a character-specific model from a server.
16 is a diagram illustrating an example in which a device according to some embodiments acquires a character specialization model by approaching a character product.
17 is a diagram for a device in accordance with some embodiments, showing a voice assistant service dialog.
18 is a diagram illustrating an example of a response message according to a response mode according to some embodiments.
19 and 20 are block diagrams of devices in accordance with some embodiments.
21 is a block diagram of a server according to some embodiments.
22 is a block diagram of a processor in accordance with some embodiments.
23 is a block diagram of a data learning unit according to some embodiments.
24 is a block diagram of a data recognition unit according to some embodiments.
25 is a diagram illustrating an example of learning and recognizing data by interworking a device and a server according to some embodiments.

아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, exemplary embodiments of the present disclosure will be described in detail with reference to the accompanying drawings so that those skilled in the art to which the present disclosure pertains can easily implement them. However, the present disclosure can be implemented in many different forms and is not limited to the embodiments described herein. In addition, in order to clearly describe the present disclosure in the drawings, parts irrelevant to the description are omitted, and like reference numerals are assigned to similar parts throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when a part is "connected" to another part, this includes not only "directly connected" but also "electrically connected" with another element in between. . Also, when a part “includes” a certain component, this means that other components may be further included rather than excluding other components, unless otherwise specified.

또한, 본 명세서에서 보이스 어시스턴트 서비스는, 사용자와의 대화를 제공하는 서비스일 수 있다. 보이스 어시스턴트 서비스에서는 사용자의 상황, 디바이스의 상황 등을 고려하여 사람이 사용자와 직접 대화하는 것처럼 사용자에게 응답 메시지를 제공할 수 있다. 또한, 보이스 어시스턴트 서비스에서는, 사용자의 개인 비서처럼 사용자가 필요한 정보를 적절하게 생성하여 사용자에게 제공할 수 있다. Also, in the present specification, the voice assistant service may be a service that provides a conversation with a user. In the voice assistant service, a response message may be provided to the user as if a person directly communicates with the user in consideration of the user's situation and the device's situation. In addition, in the voice assistant service, information required by the user, such as the user's personal assistant, may be appropriately generated and provided to the user.

인공지능 모델은 인공 지능 알고리즘으로서, 기계학습, 신경망, 유전자, 딥러닝, 분류 알고리즘 중 적어도 하나를 이용하여 학습된 모델일 수 있다. The artificial intelligence model is an artificial intelligence algorithm, and may be a model trained using at least one of machine learning, neural networks, genes, deep learning, and classification algorithms.

보이스 어시스턴트 서비스의 모델 모델은, 보이스 어시스턴트 서비스에서 사용자에게 응답 메시지를 제공하기 위한 기준 및 방법 등이 학습된 인공지능 모델일 수 있다. 보이스 어시스턴트 서비스의 모델은, 예를 들어, 사용자의 입력 음성을 인식하기 위한 모델, 사용자의 입력 음성을 해석하기 위한 모델, 사용자에게 제공할 응답 메시지를 생성하기 위한 모델, 및 응답 메시지의 출력 특성을 결정하기 위한 모델을 포함할 수 있으나, 이에 제한되지 않는다. 보이스 어시스턴트 서비스의 모델을 구성하는 모델들은 인공지능 알고리즘이 적용된 인공지능 모델일 수 있다. The model model of the voice assistant service may be an artificial intelligence model in which criteria and methods for providing a response message to a user in the voice assistant service are learned. The model of the voice assistant service includes, for example, a model for recognizing the user's input voice, a model for interpreting the user's input voice, a model for generating a response message to be provided to the user, and output characteristics of the response message. A model for determining may be included, but is not limited thereto. Models constituting the model of the voice assistant service may be an artificial intelligence model to which an artificial intelligence algorithm is applied.

캐릭터 특화 모델은, 보이스 어시스턴트 서비스를 위한 모델로서, 소정의 캐릭터에 특징이 반영된 인공지능 모델이다. 캐릭터 특화 모델은, 예를 들어, 캐릭터의 특성, 캐릭터를 선호하는 사용자의 특성, 캐릭터에 관련된 콘텐트 정보 등을 이용하여, 사용자에게 캐릭터에 특화된 응답 메시지를 제공하기 위한 기준 및 방법이 학습된 모델일 수 있다. 캐릭터 특화 모델은, 보이스 어시스턴트 서비스의 모델에 대하여 독립적으로, 병렬적으로 또는 보조적으로 이용될 수 있다. 캐릭터 특화 모델을 구성하는 모델들은 인공지능 알고리즘이 적용된 인공지능 모델일 수 있다.The character specialization model is a model for the voice assistant service, and is an artificial intelligence model in which features are reflected in predetermined characters. The character-specific model may be a model in which standards and methods for providing a response message specific to a character to a user are learned, using, for example, character characteristics, characteristics of a user who prefers the character, and content information related to the character. You can. The character-specific model can be used independently, in parallel or auxiliary to the model of the voice assistant service. Models constituting the character-specific model may be an artificial intelligence model to which an artificial intelligence algorithm is applied.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다. Hereinafter, the present disclosure will be described in detail with reference to the accompanying drawings.

도 1은 일부 실시예에 따른 보이스 어시스턴트 서비스를 제공하기 위한 시스템의 개요도이다. 1 is a schematic diagram of a system for providing a voice assistant service according to some embodiments.

도 1을 참조하면, 보이스 어시스턴트 서비스를 제공하기 위한 시스템은 디바이스(1000), 서버(2000) 및 다른 디바이스(3000)를 포함할 수 있다. Referring to FIG. 1, a system for providing a voice assistant service may include a device 1000, a server 2000, and other devices 3000.

디바이스(1000)는 보이스 어시스턴트 서비스를 제공하기 위하여 보이스 어시스턴트 서비스의 모델을 이용하여 사용자의 음성 입력에 대한 응답 메시지를 출력할 수 있다. 보이스 어시스턴트 서비스의 모델은 디바이스(1000)에 디폴트로 설치된 보이스 어시스턴트 프로그램에 의해 이용되는 기본 모델일 수 있다. 또한, 디바이스(1000)는 소정의 캐릭터에 대한 캐릭터 특화 모델을 수신하여 디바이스(1000) 내에 설치할 수 있으며, 캐릭터 특화 모델을 이용하여 소정의 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 수 있다. The device 1000 may output a response message for a user's voice input using a model of the voice assistant service in order to provide the voice assistant service. The model of the voice assistant service may be a basic model used by the voice assistant program installed by default on the device 1000. In addition, the device 1000 may receive and install a character-specific model for a given character in the device 1000, and use the character-specific model to provide a voice assistant service specialized for a given character.

서버(2000)는 보이스 어시스턴트 서비스에서 이용될 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 3rd party의 다른 디바이스(3000)에게 제공하고, 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 다른 디바이스(3000)로부터 수신할 수 있다. 또한, 서버(2000)는 수신된 캐릭터 특화 모델을 디바이스(1000)에게 제공할 수 있다. 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴은, 예를 들어, SDK (Software Develop Kit)일 수 있으며, 캐릭터 특화 모델을 생성하기 위한 복수의 기능을 제공할 수 있다. 서버(2000)는 보이스 어시스턴트 서비스를 제공하기 위한 서버일 수 있으나, 이에 제한되지 않는다. 서버(2000)는, 예를 들어, 디바이스에게 애플리케이션을 제공하기 위한 서버, 및 디바이스에게 디바이스에 설치된 OS의 테마 데이터를 제공하기 위한 서버를 포함할 수 있다. The server 2000 provides a model creation tool for generating a character-specific model to be used in the voice assistant service to another device 3000 of the 3rd party, and the character-specific model generated by the other device 3000 is generated by another device ( 3000). In addition, the server 2000 may provide the received character specialization model to the device 1000. The model generation tool for generating a character-specific model may be, for example, an SDK (Software Develop Kit), and may provide a plurality of functions for generating a character-specific model. The server 2000 may be a server for providing a voice assistant service, but is not limited thereto. The server 2000 may include, for example, a server for providing an application to a device, and a server for providing theme data of an OS installed on the device to the device.

다른 디바이스(3000)는 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성할 수 있다. 다른 디바이스(3000)는 캐릭터 특화 모델을 서버(2000)로부터 수신하거나 다른 소스로부터 획득할 수 있다. 다른 디바이스(3000)는 3rd party의 디바이스이거나 일반 사용자의 디바이스일 수 있다. 모델 생성 툴은, 보이스 어시스턴트 서비스를 제공하는데 필요한 기능들에 대하여, 하나 이상의 모델을 생성할 수 있도록 하는 소프트웨어 개발 킷(SDK)을 포함할 수 있다. 다른 디바이스(3000)는 서버(2000)를 통하여 디바이스(1000)에게 캐릭터 특화 모델을 제공하거나 다른 서버(미도시)를 통하여 디바이스(1000)에게 캐릭터 특화 모델을 제공할 수 있다. The other device 3000 may generate a character-specific model using a model generation tool for generating a character-specific model. The other device 3000 may receive the character specialization model from the server 2000 or obtain it from another source. The other device 3000 may be a 3rd party device or a general user device. The model generation tool may include a software development kit (SDK) that enables one or more models to be generated for functions required to provide a voice assistant service. The other device 3000 may provide a character-specific model to the device 1000 through the server 2000 or a character-specific model to the device 1000 through another server (not shown).

디바이스(1000) 및 다른 디바이스(3000)는, 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 서버, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 그러나, 이에 제한되지 않으며, 디바이스(1000) 및 다른 디바이스(3000)는 서버(2000)와 네트워크를 통하여 통신 연결되고 데이터를 서로 송수신할 수 있는 모든 종류의 기기를 포함할 수 있다. The device 1000 and other devices 3000 include a smart phone, a tablet PC, a PC, a smart TV, a mobile phone, a personal digital assistant (PDA), a laptop, a media player, a server, a micro server, a global positioning system (GPS) device, E-book terminals, digital broadcasting terminals, navigation, kiosks, MP3 players, digital cameras, home appliances, and other mobile or non-mobile computing devices, but are not limited thereto. However, the present invention is not limited thereto, and the device 1000 and other devices 3000 may include all types of devices that are connected to the server 2000 through a network and capable of transmitting and receiving data to and from each other.

네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 이동 통신망(mobile radio communication network), 위성 통신망 및 이들의 상호 조합을 포함하며, 도 1에 도시된 각 네트워크 구성 주체가 서로 원활하게 통신을 할 수 있도록 하는 포괄적인 의미의 데이터 통신망이며, 유선 인터넷, 무선 인터넷 및 모바일 무선 통신망을 포함할 수 있다. The network includes a local area network (LAN), a wide area network (WAN), a value added network (VAN), a mobile radio communication network, a satellite communication network, and combinations thereof. In addition, each network component shown in Figure 1 is a comprehensive data communication network that enables smooth communication with each other, and may include wired Internet, wireless Internet, and mobile wireless communication networks.

도 2는 일부 실시예에 따른 디바이스가 캐릭터 특화 모델을 이용하여 보이스 어시스턴트 서비스를 제공하는 방법의 흐름도이다. 2 is a flowchart of a method in which a device provides a voice assistant service using a character-specific model according to some embodiments.

동작 S200에서, 디바이스(1000)는 캐릭터 특화 모델을 수신할 수 있다. 디바이스(1000)는 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 서버(2000)로부터 수신할 수 있다. 이 경우, 디바이스(1000)는 서버(2000)에 의해 제공되는 캐릭터 모델 리스트를 디스플레이하고, 사용자의 선택 입력에 기초하여 캐릭터 특화 모델을 서버(2000)로부터 다운로드할 수 있다. In operation S200, the device 1000 may receive a character specialization model. The device 1000 may receive a character specialization model generated by another device 3000 from the server 2000. In this case, the device 1000 may display a list of character models provided by the server 2000 and download a character-specific model from the server 2000 based on a user's selection input.

또한, 디바이스(1000)는 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을, 소정의 제품(미도시)으로부터 수신할 수 있다. 근거리 통신 기능 및 데이터 저장 기능을 포함하는 제품(미도시)에 디바이스(1000)가 근접하면, 디바이스(1000)는 제품(미도시)과 근거리 통신을 형성할 수 있다. 이 경우, 제품(미도시)는, 예를 들어, 캐릭터 인형, 캐릭터 장난감, 열쇠 고리, 태그 제품, 및 스피커를 포함하는 전자 제품 등으로 구현될 수 있으나, 이에 제한되지 않는다. 또한, 디바이스(1000)는 제품(미도시)으로부터 제품(미도시) 내에 저장된 캐릭터 특화 모델을 근거리 통신을 통하여 수신할 수 있다. 또한, 제품(미도시) 내에는 캐릭터 특화 모델을 다운로드하기 위한 링크 정보가 저장될 수 있으며, 디바이스(1000)는 제품(미도시) 내에 저장된 링크 정보를 제품(미도시)으로부터 수신하고, 수신된 링크 정보를 이용하여 캐릭터 특화 모델을 다운로드할 수 있다. Also, the device 1000 may receive a character-specific model generated by another device 3000 from a predetermined product (not shown). When the device 1000 is close to a product (not shown) including a short-range communication function and a data storage function, the device 1000 may form short-range communication with the product (not shown). In this case, the product (not shown) may be embodied as, for example, a character doll, a character toy, a key ring, a tag product, and an electronic product including a speaker, but is not limited thereto. Also, the device 1000 may receive a character-specific model stored in the product (not shown) from the product (not shown) through short-range communication. Also, link information for downloading a character-specific model may be stored in the product (not shown), and the device 1000 may receive link information stored in the product (not shown) from the product (not shown), and receive the received link information. You can download character-specific models using link information.

동작 S210에서 디바이스(1000)는 보이스 어시스턴트 프로그램을 통하여 캐릭터 특화 모델에 액세스할 수 있다. 디바이스(1000)는 디바이스(1000) 내에 설치된 보이스 어시스턴트 프로그램을 실행하고 실행된 보이스 어시스턴트 프로그램을 통하여 캐릭터 특화 모델에 액세스할 수 있다. 디바이스(1000)는 사용자 입력에 기초하여 디바이스(1000) 내에 설치된 복수의 캐릭터 특화 모델 중 하나를 선택할 수 있으며, 선택된 캐릭터 특화 모델에 액세스할 수 있다. 복수의 캐릭터 특화 모델 중 하나를 선택하는 사용자 입력은 사용자의 음성 입력일 수 있다. 예를 들어, 디바이스(1000)는 소정의 캐릭터에 대응되는 콜 네임을 발성하는 사용자의 음성 입력을 수신할 수 있다. 보이스 어시스턴트 프로그램은, 운영체제(OS) 상에서 실행되는 애플리케이션으로 구현될 수 있고, 미들웨어를 구성하는 하나의 소프트웨어 모듈로 구현될 수 있다. In operation S210, the device 1000 may access the character-specific model through the voice assistant program. The device 1000 may execute the voice assistant program installed in the device 1000 and access the character-specific model through the executed voice assistant program. The device 1000 may select one of a plurality of character-specific models installed in the device 1000 based on a user input, and may access the selected character-specific model. The user input for selecting one of the plurality of character-specific models may be a user's voice input. For example, the device 1000 may receive a voice input of a user who generates a call name corresponding to a predetermined character. The voice assistant program may be implemented as an application running on an operating system (OS), or may be implemented as one software module constituting middleware.

동작 S220에서 디바이스(1000)는 사용자의 음성 입력을 수신할 수 있다. 디바이스(1000)는 보이스 어시스턴트 서비스를 제공하기 위하여 사용자의 음성 입력을 수신할 수 있다. 동작 S210 및 S220은, 개별 동작으로 수행될 수도 있지만, 끊김없이 연속된(seamless) 동작으로 수행될 수도 있다. 예를 들어, 동작 S210에서 “너는 이제 뽀로로야” 등과 같이 캐릭터 특화 모델 중 하나를 선택하는 사용자 입력이 수신되고, 캐릭터 특화 모델 중 하나가 선택된 후, 동작 S220에서 “오늘 날씨는 어때?” 등과 같이 보이스 어시스턴트 서비스를 요청하기 위한 사용자의 음성 입력이 수신될 수 있다. 또한, 동작 S210과 동작 S220이 끊김없이 연속적으로 동작되어, “뽀로로야, 오늘 날씨는 어때?” 등과 같이 캐릭터 특화 모델 중 하나를 선택하는 입력과 보이스 어시스턴트 서비스를 요청하기 위한 입력이 함께 수신되면, 디바이스(1000)는 이를 분석하여 캐릭터 특화 모델 중 하나를 선택하고, 보이스 어시스턴트 프로그램을 통해 제공할 서비스의 내용을 특정할 수 있다.In operation S220, the device 1000 may receive a user's voice input. The device 1000 may receive a user's voice input in order to provide a voice assistant service. The operations S210 and S220 may be performed as separate operations, but may also be performed as a seamless operation. For example, in operation S210, a user input for selecting one of the character-specific models, such as “You are now Pororo”, is received, and after selecting one of the character-specific models, in operation S220, “How is the weather today?” As described above, a voice input of a user for requesting a voice assistant service may be received. Also, the operation S210 and the operation S220 are continuously operated continuously, “Pororo, how is the weather today?” When an input for selecting one of the character-specific models and an input for requesting a voice assistant service are received together, the device 1000 analyzes this, selects one of the character-specific models, and provides a service to be provided through the voice assistant program You can specify the contents of.

보이스 어시스턴트 프로그램을 통해 제공할 서비스의 내용은, 사용자의 발화를 NLU(Natural Language Understanding)를 통해 분석함으로써 획득될 수 있다. 디바이스(1000)는 사용자 발화에서 Intent와, 및 Intent와 관련된 Slot 정보를 취득하여 서비스의 내용을 특정할 수 있다. 예를 들어, 디바이스(1000)는 “오늘 날씨는 어때?”라는 발화가 ASR(automatic response system)을 통해 획득되면, NLU를 통해 Intent는 ‘날씨 검색’이며, Slot이 ‘오늘 날씨’임을 식별할 수 있다. NLU는 샘플 문장과 각 샘플 문장이 의미하는 Intent/Slot으로 학습된 모델이며, 인공지능 기술이 접목될 수 있다. NLU를 통해 Intent와 Slot이 획득되면, 보이스 어시스턴트 프로그램은 획득된 Intent에 대응하는 서비스를 제공할 수 있는 애플리케이션과 연동될 수 있다. 예를 들면, 획득된 Intent가 ‘날씨 검색’인 경우에, 보이스 어시스턴트 프로그램은 날씨 애플리케이션과 연동하여 동작할 수 있다. ‘날씨 검색’이라는 Intent와 ‘오늘 날씨’라는 Slot은, 날씨 애플리케이션의 API에 따라 ‘오늘 날씨를 검색하여 결과를 획득’있도록 하기 위한 API 데이터로 변환되고, API 데이터는 날씨 애플리케이션에 전달될 수 있다. API 데이터는 애플리케이션마다 그 형태가 상이할 수 있으며, Intent/Slot을 특정 애플리케이션의 API 데이터로 변환하는 별도의 프로그램을 통해, API 데이터로의 데이터 변환이 수행될 수 있다.The contents of the service to be provided through the voice assistant program can be obtained by analyzing the user's speech through NLU (Natural Language Understanding). The device 1000 may acquire the intent and slot information related to the intent in the user's speech, and specify the content of the service. For example, when the utterance “What is the weather today?” Is obtained through the automatic response system (ASR), the device 1000 may identify that the Intent is “weather search” and the Slot is “today weather” through the NLU. You can. NLU is a model trained with a sample sentence and an Intent / Slot that each sample sentence means, and artificial intelligence technology can be applied. When the Intent and Slot are acquired through the NLU, the voice assistant program can be linked with an application that can provide a service corresponding to the acquired Intent. For example, when the acquired intent is "weather search", the voice assistant program may operate in conjunction with a weather application. Intent called 'weather search' and slot called 'today's weather' are converted into API data to enable 'search for weather today and obtain results' according to the API of the weather application, and the API data can be delivered to the weather application . API data may have a different shape for each application, and data conversion to API data may be performed through a separate program that converts Intent / Slot into API data of a specific application.

날씨 애플리케이션은 API 데이터를 받아, 오늘 날씨에 대한 정보를 검색하여 검색 결과를 보이스 어시스턴트 프로그램에 전달할 수 있다. 보이스 어시스턴트 프로그램에게 전달된 검색 결과는 날씨 애플리케이션의 API 데이터일 수 있으며, 보이스 어시스턴트 프로그램은 전달된 검색 결과를 자연어의 형태의 데이터로 변환할 수 있다. 데이터 변환 작업은 보이스 어시스턴트 프로그램에 의해 수행될 수도 있지만, 별도로 마련된 데이터 변환을 위한 프로그램을 통해 수행될 수 있다. 날씨 애플리케이션과 관련하여 보이스 어시스턴트 서비스가 제공되는 예시를 설명하였지만 다른 애플리케이션에 대해서도 동일 또는 유사한 방식으로 보이스 어시스턴트 서비스가 제공될 수 있다.The weather application can receive API data, retrieve information about today's weather, and pass the search results to the voice assistant program. The search result delivered to the voice assistant program may be API data of the weather application, and the voice assistant program may convert the delivered search result into natural language data. The data conversion operation may be performed by the voice assistant program, but may be performed through a separately prepared program for data conversion. Although an example in which the voice assistant service is provided in connection with the weather application has been described, the voice assistant service may be provided in the same or similar manner to other applications.

동작 S230에서 디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 이용하여 응답 메시지를 생성할 수 있다. 디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 이용하여, 사용자의 음성 입력을 해석하고, 사용자의 음성 입력에 대한 응답 메시지를 생성할 수 있다.In operation S230, the device 1000 may generate a response message using the character-specific model and the voice assistant model. The device 1000 may analyze a user's voice input and generate a response message for the user's voice input using a character-specific model and a voice assistant model.

디바이스(1000)는 응답 메시지를 생성하기 위하여, 서비스의 내용에 대응하는 애플리케이션으로부터 획득된 데이터를 이용할 수 있다. 디바이스(1000)는 애플리케이션으로부터 획득된 데이터를 보이스 어시스턴트 프로그램이 처리할 수 있는 형태의 데이터로 변경한 후, 변경된 데이터를 이용하여 응답 메시지를 생성할 수 있다. 응답 메시지의 생성은 DM(Dialog Management)과 NLG(Natural Language Generation)에 의해 수행될 수 있으며, DM이 응답 메시지의 유형을 결정하면 NLG이 응답 메시지의 유형에 맞는 형태로 응답 메시지를 생성할 수 있다. DM은 질문과 응답으로 구성되는 샘플 대화를 이용하여 학습된 모델일 수 있으며, 인공지능 기술이 접목될 수 있다. NLG는 응답에 포함될 데이터와 이에 대응하는 자연어 문장으로 구성되는 샘플 데이터를 이용하여 학습된 모델일 수 있으며, 인공지능 기술이 접목될 수 있다. 예를 들면, 디바이스(1000)는 날씨 애플리케이션로부터 전달된 검색 결과를 이용하여 응답 메시지를 생성할 수 있다. 날씨 애플리케이션이 오늘 날씨에 대한 검색 결과(예. 맑음)를 보이스 어시스턴트 프로그램에게 전달하면, 보이스 어시스턴트 프로그램의 DM은 날씨 검색 요청에 대한 응답의 유형이 날씨 검색 결과 전달이라는 결과를 출력할 수 있다. 또한, 보이스 어시스턴트 프로그램의 NLG는 출력된 결과를 수신하여, 날씨 검색 결과 전달을 위한 문장을 생성할 수 있다. 문장 생성 결과, 날씨 검색 결과 전달의 유형에 가장 적합한 형태의 문장이 결정되고, 결정된 문장에 날씨 애플리케이션에서 획득한 오늘 날씨에 대한 검색 결과가 반영되어 응답 문장(예, 오늘 날씨는 맑음 입니다.)이 생성될 수 있다. The device 1000 may use data obtained from an application corresponding to the content of the service to generate a response message. The device 1000 may change the data obtained from the application to data in a form that the voice assistant program can process, and then generate a response message using the changed data. Generation of the response message can be performed by Dialog Management (DM) and Natural Language Generation (NLG), and when the DM determines the type of the response message, the NLG can generate a response message in a form suitable for the type of the response message. . DM may be a model trained using a sample conversation composed of questions and answers, and artificial intelligence technology may be incorporated. The NLG may be a model trained by using data to be included in a response and sample data composed of natural language sentences corresponding thereto, and artificial intelligence technology may be incorporated. For example, the device 1000 may generate a response message using the search result transmitted from the weather application. When the weather application delivers search results (eg, sunny) for today's weather to the voice assistant program, the DM of the voice assistant program may output the result that the type of response to the weather search request is the delivery of the weather search result. In addition, the NLG of the voice assistant program may receive the output result and generate a sentence for delivering the weather search result. As a result of sentence generation, the sentence with the most suitable form for the delivery of the weather search result is determined, and the response sentence (eg, today's weather is sunny) is reflected in the determined sentence by reflecting the search results for today's weather obtained from the weather application. Can be created.

디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트 프로그램의 모델에 사용자의 음성 입력 또는 사용자의 음성 입력으로부터 변환된 텍스트를 적용함으로써, 캐릭터 특화 모델 및 보이스 어시스턴트 프로그램의 모델로부터 출력되는 응답 메시지를 획득할 수 있다. 보이스 어시스턴트의 NLG가 보이스 어시스턴트의 일반적인 응답 메시지인 “오늘 날씨는 맑음 입니다”라는 문장을 생성하면, 캐릭터 특화 모델의 NLG는 생성된 문장을 입력받을 수 있다. 또한, 캐릭터 특화 모델은, 입력된 문장을, 캐릭터에 특화된 응답 메시지인 “친구들이랑 밖에 나가서 놀기 좋은 맑은 날씨예요”로 변경할 수 있다.The device 1000 may obtain a response message output from the character-specific model and the model of the voice assistant program by applying the user's voice input or the text converted from the user's voice input to the character-specific model and the voice assistant program model. have. When the voice assistant's NLG generates the sentence “Today's weather is sunny”, the voice assistant's general response message, the character-specific model's NLG can receive the generated sentence. In addition, the character-specific model can change the input sentence to "the sunny weather that is good to go out with friends", which is a response message specialized for the character.

물론, 디바이스(1000)는 보이스 어시스턴트의 NLG를 사용하지 않고, 캐릭터 특화 모델의 NLG만을 사용하여, 캐릭터에 특화된 응답 메시지인 “친구들이랑 밖에 나가서 놀기 좋은 맑은 날씨예요”를 바로 생성할 수 있다. 또한, 보이스 어시스턴트의 NLG 모델이 캐릭터의 특성이 반영되도록 학습되어 캐릭터 특화 NLG 모델로 변경되고, 캐릭터의 특성이 반영되도록 변경된 보이스 어시스턴트의 NLG 모델을 통해 캐릭터 특화된 응답 메시지가 생성될 수 있다.Of course, the device 1000 does not use the voice assistant's NLG, but only the character-specific model's NLG, and can immediately generate a response message specialized for the character, “It is a sunny weather that is good to go outside and play with friends”. In addition, the character NLG model of the voice assistant is trained to reflect the character's characteristics and is changed to a character-specific NLG model, and a character-specific response message can be generated through the voice assistant's NLG model that is changed to reflect the character's characteristics.

또한, 보이스 어시스턴트의 TTS(Text To Speech)에서 보이스 어시스턴트의 일반적인 음성 특성으로 응답 메시지의 출력 특성을 결정할 수 있고, 캐릭터 특화 모델의 TTS가 이 특성을 입력받아 캐릭터의 특성이 반영된 출력 특성을 결정할 수 있다. 물론, 캐릭터 특화 모델의 NLG가 생성한 캐릭터에 특화된 응답 메시지를 캐릭터 특화 모델의 TTS가 수신하여, 캐릭터 특성이 반영된 출력 특성을 결정하고 캐릭터 특성이 반영되도록 응답 메시지를 출력할 수 있다.In addition, the voice assistant's TTS (Text To Speech) can determine the output characteristics of the response message from the voice assistant's general voice characteristics, and the TTS of the character-specific model can receive this characteristic and determine the output characteristics that reflect the character's characteristics. have. Of course, the TTS of the character-specific model may receive a response message specialized to the character generated by the NLG of the character-specific model, determine the output characteristic reflecting the character characteristic, and output a response message so that the character characteristic is reflected.

이 경우, 사용자의 음성 입력에 대한 응답 메시지에는, 예를 들어, 캐릭터의 특성, 캐릭터를 선호하는 사용자의 특성, 캐릭터에 관련된 콘텐트 정보 등이 반영될 수 있다. 또한, 사용자의 음성 입력에 대한 응답 메시지는, 캐릭터의 어투에 따른 표현을 포함할 수 있다. 또한, 응답 메시지가 음향으로 출력되는 경우에, 응답 메시지가 캐릭터의 억양에 따라 출력될 수 있도록, 응답 메시지는 억양에 관한 정보를 포함할 수 있다. In this case, the response message for the user's voice input may reflect, for example, character characteristics, characteristics of the user who prefers the character, and content information related to the character. In addition, the response message for the user's voice input may include an expression according to the tone of the character. In addition, when the response message is output as sound, the response message may include information on intonation so that the response message can be output according to the accent of the character.

보이스 어시스턴트 서비스의 모델은, 예를 들어, 사용자의 입력 음성을 인식하기 위한 ASR 모델, 사용자의 입력 음성을 해석하기 위한 NLU 모델, 응답 메시지의 유형을 결정하기 위한 DM 모델, 응답 메시지를 생성하기 위한 NLG 모델, 및 응답 메시지의 출력 특성을 결정하기 위한 TTS 모델을 포함할 수 있으나, 이에 제한되지 않는다. The voice assistant service model includes, for example, an ASR model for recognizing a user's input voice, an NLU model for interpreting a user's input voice, a DM model for determining the type of response message, and a response message for generating a response message. An NLG model and a TTS model for determining output characteristics of a response message may be included, but are not limited thereto.

또한, 캐릭터 특화 모델은, 예를 들어, 사용자의 입력 음성을 인식하기 위한 ASR 모델, 사용자의 입력 음성을 해석하기 위한 NLU 모델, 응답 메시지의 유형을 결정하기 위한 DM 모델, 응답 메시지를 생성하기 위한 NLG 모델, 및 응답 메시지의 출력 특성을 결정하기 위한 TTS 모델을 포함할 수 있으나, 이에 제한되지 않는다. 캐릭터 특화 모델은, 보이스 어시스턴트 서비스의 모델에 대하여 독립적으로, 병렬적으로 또는 보조적으로 이용될 수 있다. In addition, the character specialization model includes, for example, an ASR model for recognizing a user's input voice, an NLU model for interpreting a user's input voice, a DM model for determining the type of response message, and a response message for generating An NLG model and a TTS model for determining output characteristics of a response message may be included, but are not limited thereto. The character-specific model can be used independently, in parallel or auxiliary to the model of the voice assistant service.

동작 S240에서 디바이스(1000)는 생성된 응답 메시지를 출력할 수 있다. 디바이스(1000)는 응답 메시지의 텍스트를 디바이스(1000)의 화면 상에 디스플레이할 수 있다. 디바이스(1000)는 응답 메시지의 사운드를 디바이스(1000)의 스피커를 통해 출력할 수 있다. In operation S240, the device 1000 may output the generated response message. The device 1000 may display the text of the response message on the screen of the device 1000. The device 1000 may output the sound of the response message through the speaker of the device 1000.

도 3은 일부 실시예에 따른 디바이스가 서버로부터 캐릭터 특화 모델을 다운로드하는 방법의 흐름도이다. 3 is a flow diagram of a method for a device to download a character-specific model from a server, according to some embodiments.

동작 S300에서 디바이스(1000)는 캐릭터 특화 모델을 제공하는 서버(2000)에 접속할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 실행 화면 내의 소정 객체를 선택함으로써, 캐릭터 특화 모델을 제공하는 서버(2000)에 접속할 수 있다. 또한, 디바이스(1000)는 디바이스(1000)에 설치된 OS(Operating System)의 테마를 변경하기 위한 화면 내의 소정 객체를 선택함으로써, 캐릭터 특화 모델을 제공하는 서버(2000)에 접속할 수 있다. In operation S300, the device 1000 may access the server 2000 that provides a character-specific model. The device 1000 may connect to the server 2000 that provides a character-specific model by selecting a predetermined object in the execution screen of the voice assistant. In addition, the device 1000 may connect to the server 2000 that provides a character-specific model by selecting a predetermined object in a screen for changing the theme of an operating system (OS) installed in the device 1000.

캐릭터 특화 모델을 제공하는 서버(2000)는 보이스 어시스턴트 서비스를 제공하는 서버일 수 있다. 또한, 디바이스(1000)는 캐릭터 특화 모델을 획득하기 위하여, 예를 들어, 앱 마켓과 같이 애플리케이션을 제공하는 애플리케이션 제공 서버에 접속할 수도 있다. The server 2000 that provides a character-specific model may be a server that provides a voice assistant service. Further, the device 1000 may access an application providing server that provides an application, such as an app market, to obtain a character-specific model.

동작 S310에서 디바이스(1000)는 캐릭터 특화 모델의 목록을 디스플레이할 수 있다. 보이스 어시스턴트의 실행 화면 내의 소정 객체를 선택하는 사용자 입력이 수신되면, 디바이스(1000)는 서버(2000)에서 제공되는 캐릭터 특화 모델의 목록을 디스플레이할 수 있다. 또는, 디바이스(1000)에 설치된 OS(Operating System)의 테마를 변경하기 위한 화면 내의 소정 객체가 선택되면, OS(Operating System)의 테마 목록과 함께 캐릭터 특화 모델의 목록이 디스플레이될 수 있다. 또한, OS(Operating System)의 테마 내에 캐릭터 특화 모델이 포함될 수 있다. 캐릭터 특화 모델의 목록은, 예를 들어, 캐릭터의 이름을 포함하는 목록일 수 있으나, 이에 제한되지 않는다. In operation S310, the device 1000 may display a list of character-specific models. When a user input for selecting a predetermined object in the execution screen of the voice assistant is received, the device 1000 may display a list of character-specific models provided by the server 2000. Alternatively, when a predetermined object in the screen for changing the theme of the OS (Operating System) installed on the device 1000 is selected, a list of character-specific models may be displayed together with a list of themes of the OS (Operating System). In addition, a character-specific model may be included in the theme of the operating system (OS). The list of character-specific models may be, for example, a list including a character name, but is not limited thereto.

동작 S320에서 디바이스(1000)는 캐릭터 특화 모델을 선택할 수 있다. 디바이스(1000)는 캐릭터 특화 모델의 목록에서 소정의 캐릭터 특화 모델을 선택하는 사용자 입력을 수신할 수 있으며, 수신된 사용자 입력에 따라 캐릭터 특화 모델을 선택할 수 있다. In operation S320, the device 1000 may select a character-specific model. The device 1000 may receive a user input for selecting a predetermined character-specific model from a list of character-specific models, and may select a character-specific model according to the received user input.

동작 S330에서 디바이스(1000)는 선택된 캐릭터 특화 모델을 다운로드하고 설치할 수 있다. 디바이스(1000)는 선택된 캐릭터 특화 모델을 서버(2000)에게 요청하고, 선택된 캐릭터 특화 모델을 서버(2000)로부터 수신할 수 있다. 또한, 디바이스(1000)는 수신된 캐릭터 특화 모델을 디바이스(1000) 내에 설치할 수 있다. 디바이스(1000)는 캐릭터 특화 모델이 디바이스(1000) 내의 보이스 어시스턴트의 모델과 연동할 수 있도록, 캐릭터 특화 모델을 디바이스(1000) 내에 설치할 수 있다. 연동하여 동작하는 상세한 내용은 뒤에 기술한다.In operation S330, the device 1000 may download and install the selected character-specific model. The device 1000 may request the selected character specialization model from the server 2000 and receive the selected character specialization model from the server 2000. In addition, the device 1000 may install the received character-specific model in the device 1000. The device 1000 may install the character-specific model in the device 1000 so that the character-specific model can interoperate with the model of the voice assistant in the device 1000. Details that work in conjunction will be described later.

도 4는 일부 실시예에 따른 디바이스가 소정의 제품에 근접함으로써 캐릭터 특화 모델을 다운로드하는 방법의 흐름도이다. 4 is a flow diagram of a method for downloading a character-specific model by a device approaching a predetermined product according to some embodiments.

동작 S400에서 디바이스(1000)는 캐릭터 특화 모델을 제공하는 제품에 접근할 수 있다. 캐릭터 특화 모델을 제공하는 제품(미도시)은, 근거리 통신 기능 및 데이터 저장 기능을 포함하는 장치를 포함할 수 있다. 캐릭터 특화 모델을 제공하는 제품(미도시)는, 예를 들어, 캐릭터 인형, 캐릭터 장난감, 열쇠 고리, 태그 제품, 및 스피커를 포함하는 전자 제품 등으로 구현될 수 있으나, 이에 제한되지 않는다. 디바이스(1000)는 캐릭터 특화 모델을 제공하는 제품(미도시)의 통신 범위 내에 접근함에 따라, 캐릭터 특화 모델을 제공하는 제품(미도시)과 근거리 통신을 형성할 수 있다. In operation S400, the device 1000 may access a product that provides a character-specific model. A product (not shown) that provides a character-specific model may include a device including a short-range communication function and a data storage function. Products (not shown) that provide character-specific models may be implemented as, for example, character dolls, character toys, key chains, tag products, and electronic products including speakers, but are not limited thereto. As the device 1000 approaches within a communication range of a product (not shown) that provides a character-specific model, the device 1000 may form short-range communication with a product (not shown) that provides a character-specific model.

동작 S410에서 디바이스(1000)는 제품(미도시)으로부터 캐릭터 특화 모델을 다운로드하기 위한 링크 정보를 수신할 수 있다. 캐릭터 특화 모델을 제공하는 제품(미도시)은 캐릭터 특화 모델을 제공하는 소스의 링크 정보를 저장할 수 있으며, 디바이스(1000)는 제품(미도시)와 형성된 근거리 통신을 통하여 링크 정보를 수신할 수 있다. In operation S410, the device 1000 may receive link information for downloading a character-specific model from a product (not shown). A product (not shown) that provides a character-specific model may store link information of a source that provides a character-specific model, and the device 1000 may receive link information through short-range communication formed with the product (not shown). .

동작 S420에서 디바이스(1000)는 수신된 링크 정보를 이용하여 캐릭터 특화 모델을 다운로드하고 설치할 수 있다. 디바이스(1000)는 수신된 링크 정보를 이용하여, 캐릭터 특화 모델을 제공하는 서버(2000)에 액세스할 수 있으며, 서버(2000)로부터 제공되는 캐릭터 특화 모델을 수신할 수 있다. 또한, 디바이스(1000)는 수신된 캐릭터 특화 모델을 디바이스(1000) 내에 설치할 수 있다. 디바이스(1000)는 캐릭터 특화 모델이 디바이스(1000) 내의 보이스 어시스턴트의 모델과 연동할 수 있도록, 캐릭터 특화 모델을 디바이스(1000) 내에 설치할 수 있다. In operation S420, the device 1000 may download and install the character-specific model using the received link information. The device 1000 may access the server 2000 that provides the character-specific model using the received link information, and receive the character-specific model provided from the server 2000. In addition, the device 1000 may install the received character-specific model in the device 1000. The device 1000 may install the character-specific model in the device 1000 so that the character-specific model can interoperate with the model of the voice assistant in the device 1000.

한편, 상기에서는, 디바이스(1000)가 캐릭터 특화 모델을 제공하는 제품(미도시)로부터 캐릭터 특화 모델의 링크 정보를 수신하는 것으로 설명하였지만, 이에 제한되지 않는다. 디바이스(1000)가 캐릭터 특화 모델을 제공하는 제품(미도시)로부터 캐릭터 특화 모델을 직접 수신할 수도 있다. 이 경우, 디바이스(1000)는, 캐릭터 특화 모델을 생성한 3rd party의 다른 디바이스(3000)를 통하여, 디바이스에 설치된 캐릭터 특화 모델을 업데이트할 수 있다. On the other hand, in the above, the device 1000 has been described as receiving link information of a character-specific model from a product (not shown) that provides a character-specific model, but is not limited thereto. The device 1000 may directly receive a character-specific model from a product (not shown) that provides a character-specific model. In this case, the device 1000 may update the character-specific model installed on the device through another device 3000 of the 3rd party that generated the character-specific model.

도 5는 일부 실시예에 따른 디바이스가 보이스 어시스턴트의 응답 모드를 변경하는 방법의 흐름도이다. 5 is a flow diagram of a method for a device to change the response mode of a voice assistant according to some embodiments.

동작 S500에서 디바이스(1000)는 보이스 어시스턴트의 응답 모드를 변경하기 위한 사용자 음성 입력을 수신할 수 있다. 디바이스(1000)는 캐릭터 특화 모델을 설치하고, 설치된 캐릭터 특화 모델을 호출 또는 실행하기 위한 콜 네임을 설정할 수 있다. 또한, 디바이스(1000)는 설정된 콜 네임을 부르는 사용자의 음성 입력을 수신할 수 있다. 예를 들어, 디바이스(1000)는 ‘뽀로로’라는 캐릭터에 대한 캐릭터 특화 모델을 호출 또는 실행하기 위한 콜 네임으로, ‘뽀로로’를 설정할 수 있다. ‘뽀로로’를 부르는 사용자의 음성 입력을 수신한 것으로 판단된 경우 뽀로로 캐릭터에 대한 캐릭터 특화 모델이 호출 또는 실행될 수 있다. In operation S500, the device 1000 may receive a user voice input for changing the response mode of the voice assistant. The device 1000 may install a character-specific model and set a call name for calling or executing the installed character-specific model. Also, the device 1000 may receive a voice input of a user who calls a set call name. For example, the device 1000 may set “Pororo” as a call name for calling or executing a character-specific model for the character “Pororo”. When it is determined that a voice input of a user who calls 'pororo' is received, a character-specific model for the pororo character may be called or executed.

동작 S510에서 디바이스(1000)는 사용자의 음성 입력에 기초하여, 보이스 어시스턴트에 이용될 캐릭터 특화 모델을 선택할 수 있다. 디바이스(1000)는 사용자의 음성 입력과 디바이스(1000) 내에 설정된 캐릭터 특화 모델의 콜 네임을 비교할 수 있다. 예를 들어, 디바이스(1000)는 사용자의 음성 입력을 텍스트로 변환하고, 변환된 텍스트를 디바이스(1000) 내에 설정된 캐릭터 특화 모델의 콜 네임과 비교할 수 있다. 디바이스(1000)는 비교 결과에 기초하여, 사용자의 음성 입력에 대응되는 캐릭터 특화 모델을 선택할 수 있다. 특히, 복수 개의 캐릭터 특화 모델이 설치되어 있는 경우, 복수 개의 캐릭터 특화 모델 중 하나를 선택하는 데 콜 네임이 이용될 수 있다. 예를 들어, ‘뽀로로’를 부르는 사용자의 음성 입력이 수신되면, 디바이스(1000)는 복수 개의 캐릭터 특화 모델 중에서 뽀로로에 대한 캐릭터 특화 모델을 선택할 수 있다. In operation S510, the device 1000 may select a character-specific model to be used for the voice assistant based on the user's voice input. The device 1000 may compare a user's voice input with a call name of a character-specific model set in the device 1000. For example, the device 1000 may convert a user's voice input into text, and compare the converted text with a call name of a character-specific model set in the device 1000. The device 1000 may select a character specialization model corresponding to the user's voice input based on the comparison result. In particular, when a plurality of character-specific models are installed, a call name may be used to select one of the plurality of character-specific models. For example, when a voice input of a user who calls “Pororo” is received, the device 1000 may select a character-specific model for Pororo from among a plurality of character-specific models.

동작 S520에서 디바이스(1000)는 선택된 캐릭터 특화 모델에 따라, 어시스턴트의 응답 모드를 캐릭터 응답 모드로 변경할 수 있다. ‘뽀로로’를 부르는 사용자의 음성 입력에 따라, 뽀로로에 대한 캐릭터 특화 모델이 선택되면, 디바이스(1000)는 어시스턴트의 응답 모드를 뽀로로 응답 모드로 변경할 수 있다. In operation S520, the device 1000 may change the response mode of the assistant to the character response mode according to the selected character specialization model. When the character-specific model for Pororo is selected according to the voice input of the user who calls 'Pororo', the device 1000 may change the assistant's response mode to Pororo's response mode.

도 6은 일부 실시예에 따른 서버(2000)가 다른 디바이스(3000)에게 모델 생성 툴을 제공하고, 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 디바이스(1000)에게 제공하는 방법의 흐름도이다. 6 is a flowchart of a method in which the server 2000 provides a model generation tool to another device 3000 according to some embodiments and provides a character-specific model generated by the other device 3000 to the device 1000. .

동작 S600에서 서버(2000)는 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 저장할 수 있다. 모델 생성 툴은, 캐릭터 특화 모델을 생성하기 위한 학습 모델 생성 툴일 수 있다., 모델 생성 툴은, 예를 들어, SDK (Software Develop Kit)일 수 있으며, 캐릭터 특화 모델을 생성하기 위한 복수의 기능을 제공할 수 있다. 모델 생성 툴은, 예를 들어, 사용자의 음성 입력을 인식하기 위한 ASR 모델을 생성하는 기능, 사용자의 음성 입력을 해석하기 위한 NLU 모델을 생성하는 기능, 응답 메시지의 유형을 결정하기 위한 DM 모델을 생성하는 기능, 응답 메시지를 생성하기 위한 NLG 모델을 생성하는 기능, 및 응답 메시지의 음성 특성을 결정하기 위한 TTS 모델을 생성하는 기능을 포함할 수 있으나, 이에 제한되지 않는다. In operation S600, the server 2000 may store a model generation tool for generating a character-specific model. The model generation tool may be a learning model generation tool for generating a character-specific model. The model generation tool may be, for example, an SDK (Software Develop Kit), and a plurality of functions for generating a character-specific model. Can provide. The model generation tool includes, for example, a function of generating an ASR model for recognizing a user's voice input, a function of generating an NLU model for interpreting a user's voice input, and a DM model for determining the type of response message. It may include, but is not limited to, a function to generate, a function to generate an NLG model to generate a response message, and a function to generate a TTS model to determine a voice characteristic of the response message.

동작 S610에서 서버(2000)는 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 3rd party의 다른 디바이스(3000)에게 제공할 수 있다. 다른 디바이스(3000)의 사용자는 캐릭터에 특화된 모델을 생성하고 캐릭터에 관한 서비스를 제공할 수 있으며, 다른 디바이스(3000)는 서버(2000)에 접속하여 서버(2000)에게 모델 생성 툴을 요청할 수 있다. In operation S610, the server 2000 may provide a model generation tool for generating a character-specific model to another device 3000 of the 3rd party. The user of the other device 3000 can generate a model specialized for the character and provide a service related to the character, and the other device 3000 may access the server 2000 and request the server 2000 a model generation tool. .

동작 S620에서 서버(2000)는 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 수신할 수 있다. 다른 디바이스(3000)는 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성할 수 있으며, 생성된 캐릭터 특화 모델을 서버(2000)에 업로드할 수 있다. 캐릭터 특화 모델은, 예를 들어, 사용자의 음성 입력을 인식하기 위한 ASR 모델, 사용자의 음성 입력을 해석하기 위한 NLU 모델, 응답 메시지의 유형을 결정하기 위한 DM 모델, 응답 메시지를 생성하기 위한 NLG 모델, 및 응답 메시지의 음성 특성을 결정하기 위한 TTS 모델을 포함할 수 있으나, 이에 제한되지 않는다. 서버(2000)는 수신된 캐릭터 특화 모델을 3rd party 별로 DB에 저장할 수 있다. In operation S620, the server 2000 may receive a character specialization model generated by another device 3000. The other device 3000 may generate a character-specific model using a model generation tool, and upload the generated character-specific model to the server 2000. Character-specific models include, for example, an ASR model for recognizing a user's voice input, an NLU model for interpreting a user's voice input, a DM model for determining the type of response message, and an NLG model for generating a response message , And a TTS model for determining a voice characteristic of the response message, but is not limited thereto. The server 2000 may store the received character specialization model in the DB for each 3rd party.

동작 S630에서 서버(2000)는 캐릭터 특화 모델의 목록을 디바이스(1000)에게 제공할 수 있으며, 동작 S640에서 서버(2000)는 캐릭터 특화 모델의 목록 중에서 디바이스(1000)에 의해 선택된 캐릭터 특화 모델을 디바이스(1000)에게 제공할 수 있다. In operation S630, the server 2000 may provide a list of character-specific models to the device 1000, and in operation S640, the server 2000 may device the character-specific model selected by the device 1000 from the list of character-specific models. (1000).

도 7은 일부 실시예에 따른 다른 디바이스가 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성하고 업데이트하는 방법의 흐름도이다. 7 is a flowchart of a method in which another device generates and updates a character-specific model using a model generation tool according to some embodiments.

동작 S700에서 다른 디바이스(3000)는 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 획득할 수 있다. 다른 디바이스(3000)는 서버(2000)에게 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 요청하고, 서버(2000)로부터 모델 생성 툴을 수신할 수 있다. 또는 다른 디바이스(3000)는 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 제공하는 다른 소스(미도시)로부터 모델 생성 툴을 수신할 수 있다. In operation S700, the other device 3000 may obtain a model generation tool for generating a character-specific model. The other device 3000 may request the model generating tool for generating the character-specific model from the server 2000 and receive the model generating tool from the server 2000. Alternatively, the other device 3000 may receive the model generation tool from another source (not shown) that provides a model generation tool for generating a character-specific model.

동작 S710에서 다른 디바이스(3000)는 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성할 수 있다. 모델 생성 툴은, 예를 들어, 사용자의 음성 입력을 인식하기 위한 ASR 모델을 생성하는 기능, 사용자의 음성 입력을 해석하기 위한 NLU 모델을 생성하는 기능, 응답 메시지의 유형을 결정하기 위한 DM 모델을 생성하는 기능, 응답 메시지를 생성하기 위한 NLG 모델을 생성하는 기능, 및 응답 메시지의 음성 특성을 결정하기 위한 TTS 모델을 생성하는 기능을 포함할 수 있으나, 이에 제한되지 않는다. In operation S710, the other device 3000 may generate a character-specific model using a model generation tool. The model generation tool includes, for example, a function of generating an ASR model for recognizing a user's voice input, a function of generating an NLU model for interpreting a user's voice input, and a DM model for determining the type of response message. It may include, but is not limited to, a function to generate, a function to generate an NLG model to generate a response message, and a function to generate a TTS model to determine voice characteristics of the response message.

다른 디바이스(3000)는 모델 생성 툴을 이용하여, 캐릭터에 관련된 학습 데이터를 이용하여 캐릭터 특화 모델을 학습시킴으로써 캐릭터 특화 모델을 생성할 수 있다. 예를 들어, 다른 디바이스(3000)는 캐릭터에 관한 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관한 대화 스크립트, 캐릭터에 관련된 콘텐트 정보, 캐릭터에 관련된 QNA 데이터, 캐릭터에 관련된 연관 정보를 이용하여, 사용자의 음성 입력을 인식하기 위한 ASR 모델, 사용자의 음성 입력을 해석하기 위한 NLU 모델, 응답 메시지의 유형을 결정하기 위한 DM 모델, 응답 메시지를 생성하기 위한 NLG 모델, 및 응답 메시지의 음성 특성을 결정하기 위한 TTS 모델을 학습시킴으로써, 캐릭터 특화 모델을 생성할 수 있다. The other device 3000 may generate a character-specific model by training the character-specific model using learning data related to the character using the model generation tool. For example, the other device 3000 uses the tone data of the character, the accent data of the character, the conversation script about the character, the content information related to the character, the QNA data related to the character, and the related information related to the character. ASR model for recognizing voice input, NLU model for interpreting user's voice input, DM model for determining the type of response message, NLG model for generating response message, and for determining voice characteristics of response message By training the TTS model, a character-specific model can be generated.

캐릭터 특화 모델은, 대응하는 캐릭터 특화 모델을 호출하기 위한 콜 네임 정보 및 콜 네임 인식 모델을 포함할 수 있다. 대응하는 캐릭터 특화 모델을 호출하기 위한 콜 네임 정보 및 콜 네임 인식 모델은 보이스 어시스턴트 서비스의 모델에 포함될 수도 있다.The character specialization model may include call name information and a call name recognition model for calling a corresponding character specialization model. The call name information and call name recognition model for calling the corresponding character specialization model may be included in the model of the voice assistant service.

동작 S720에서 다른 디바이스(3000)는 생성된 캐릭터 특화 모델을 서버(2000)에게 제공할 수 있다. 다른 디바이스(3000)는 생성된 캐릭터 특화 모델을 서버(2000)에 등록할 수 있다. In operation S720, the other device 3000 may provide the generated character-specific model to the server 2000. Another device 3000 may register the generated character-specific model with the server 2000.

동작 S730에서 다른 디바이스(3000)는 캐릭터 특화 모델을 이용한 응답 결과 데이터를 디바이스(1000)로부터 수신할 수 있다. 캐릭터 특화 모델은 서버(2000)로부터 디바이스(1000)에게 제공될 수 있으며, 디바이스(1000)는 디바이스(1000) 내의 보이스 어시스턴트 애플리케이션을 통하여 캐릭터 특화 모델을 이용할 수 있다. 또한, 디바이스(1000)는 캐릭터 특화 모델에 기초한 보이스 어시스턴트 서비스를 사용자에게 제공할 수 있다. 이 경우, 디바이스(1000)는 사용자와 보이스 어시스턴트 서비스를 통하여 주고 받은 대화 내용 및 디바이스(1000)의 동작 이력을 저장할 수 있다. 또한, 디바이스(1000)는 사용자와 디바이스(1000) 간의 대화 내용 및 디바이스(1000)의 동작 이력을 포함하는 응답 결과 데이터를 다른 디바이스(3000) 및 서버(2000)에게 제공할 수 있다. 디바이스(1000)는 응답 결과 데이터를 빅 데이터 형식으로 다른 디바이스(3000) 및 서버(2000)에게 제공할 수 있다. 예를 들어, 디바이스(1000)는 사용자 ID, 전화 번호 등과 같은 개인의 프라이버시와 관련된 데이터를 제외한 응답 결과 데이터를 다른 디바이스(3000) 및 서버(2000)에게 제공할 수 있다. In operation S730, the other device 3000 may receive response result data using the character-specific model from the device 1000. The character-specific model may be provided to the device 1000 from the server 2000, and the device 1000 may use the character-specific model through a voice assistant application in the device 1000. Also, the device 1000 may provide a voice assistant service based on the character-specific model to the user. In this case, the device 1000 may store the content of conversations exchanged with the user through the voice assistant service and the operation history of the device 1000. In addition, the device 1000 may provide response result data including the conversation content between the user and the device 1000 and the operation history of the device 1000 to other devices 3000 and the server 2000. The device 1000 may provide response result data to other devices 3000 and the server 2000 in the form of big data. For example, the device 1000 may provide response result data to other devices 3000 and the server 2000 except for data related to personal privacy such as a user ID and a phone number.

동작 S740에서 다른 디바이스(3000)는 수신된 응답 결과 데이터를 이용하여 캐릭터 특화 모델을 업데이트할 수 있다. 다른 디바이스(3000)는 수신된 응답 결과 데이터를 이용하여 캐릭터 특화 모델을 추가로 학습시킴으로써, 캐릭터 특화 모델을 업데이트할 수 있다. 예를 들어, 다른 디바이스(3000)는 사용자의 음성 입력을 인식하기 위한 ASR 모델, 사용자의 음성 입력을 해석하기 위한 NLU 모델, 응답 메시지의 유형을 결정하기 위한 DM 모델, 응답 메시지를 생성하기 위한 NLG 모델, 및 응답 메시지의 음성 특성을 결정하기 위한 TTS 모델 중 적어도 하나를, 응답 결과 데이터를 이용하여 재학습시킬 수 있다. In operation S740, the other device 3000 may update the character specialization model using the received response result data. The other device 3000 may update the character specialization model by further learning the character specialization model using the received response result data. For example, another device 3000 may include an ASR model for recognizing a user's voice input, an NLU model for interpreting a user's voice input, a DM model for determining the type of response message, and an NLG for generating a response message At least one of a model and a TTS model for determining a voice characteristic of a response message may be retrained using response result data.

도 8은 일부 실시예에 따른 디바이스, 서버 및 다른 디바이스가 보이스 어시스턴트 서비스를 제공하는 방법의 흐름도이다. 8 is a flow diagram of a method for a device, a server, and other devices to provide a voice assistant service according to some embodiments.

동작 S800에서 서버(2000)는 모델 생성 툴을 저장할 수 있다. 서버(2000)는 캐릭터 특화 모델을 생성하기 위하여 이용되는 모델 생성 툴을 저장할 수 있다. 캐릭터 특화 모델은 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하는데 필요한 데이터 분석 및 생성을 위하여, 복수의 하위 모델을 포함할 수 있다. 또한, 모델 생성 툴은 복수의 하위 모델을 포함하는 캐릭터 특화 모델을 생성하기 위하여 필요한 기능들을 제공할 수 있다. In operation S800, the server 2000 may store the model generation tool. The server 2000 may store a model generation tool used to generate a character-specific model. The character-specific model may include a plurality of sub-models for data analysis and generation required to provide a character-specific voice assistant service. In addition, the model generation tool may provide functions necessary to generate a character-specific model including a plurality of sub-models.

동작 S805에서 서버(2000)는 다른 디바이스(3000)에게 모델 생성 툴을 제공할 수 있다. 서버(2000)는, 다른 디바이스(3000)를 대상으로 하여, 모델 생성 툴을 배포하기 위한 서비스를 제공할 수 있다. 다른 디바이스(3000)는 서버(2000)에 접속하여 모델 생성 툴을 다운로드할 수 있다. In operation S805, the server 2000 may provide a model generation tool to other devices 3000. The server 2000 may provide a service for distributing a model generation tool to other devices 3000. The other device 3000 may access the server 2000 and download a model generation tool.

동작 S810에서 다른 디바이스(3000)는 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성할 수 있으며, 동작 S815에서 다른 디바이스(3000)는 캐릭터 특화 모델을 서버(2000)로 전송할 수 있다. In operation S810, the other device 3000 may generate the character-specific model using the model generation tool, and in operation S815, the other device 3000 may transmit the character-specific model to the server 2000.

동작 S820에서 서버(2000)는 캐릭터 특화 모델을 등록할 수 있다. 서버(2000)는 캐릭터 특화 모델을 관리하기 위한 별도의 DB(미도시)를 운영할 수 있다. 또한, 서버(2000)는, 다른 디바이스(3000) 별로 또는 캐릭터 별로, 캐릭터 특화 모델을 DB(미도시)에 등록하고 관리할 수 있다. In operation S820, the server 2000 may register the character-specific model. The server 2000 can operate a separate DB (not shown) for managing the character-specific model. Also, the server 2000 may register and manage a character-specific model in a DB (not shown) for each device 3000 or for each character.

동작 S825에서 디바이스(1000)는 보이스 어시스턴트 애플리케이션을 실행할 수 있다. 보이스 어시스턴트 애플리케이션은 디바이스(1000)의 제조사에 의해 디바이스에 설치되는 어시스턴트 프로그램일 수 있으나, 이에 제한되지 않는다. In operation S825, the device 1000 may execute the voice assistant application. The voice assistant application may be an assistant program installed on the device by the manufacturer of the device 1000, but is not limited thereto.

동작 S830에서 서버(2000)는 캐릭터 특화 모델의 목록을 디바이스(1000)에게 전송할 수 있으며, 동작 S835에서 디바이스(1000)는 목록에서 캐릭터를 선택할 수 있고, 동작 S840에서 서버(2000)는 디바이스(1000)에게 선택된 캐릭터 특화 모델을 전송할 수 있다. In operation S830, the server 2000 may transmit a list of character-specific models to the device 1000. In operation S835, the device 1000 may select a character from the list, and in operation S840, the server 2000 may transmit the device 1000 to the device 1000. ) To the selected character-specific model.

서버(2000)는 캐릭터 특화 모델의 목록을 디바이스(1000)에게 제공하고, 캐릭터 특화 모델의 목록에서 디바이스(1000)에 의해 선택된 캐릭터 특화 모델을 디바이스(1000)에게 전송할 수 있다. 또한, 디바이스(1000)의 OS의 테마 내에 캐릭터 특화 모델이 포함될 수 있으며, 서버(2000)는 OS의 테마 목록을 디바이스(1000)에게 제공할 수 있다. 이 경우, 디바이스(1000)는 테마 목록에서 소정의 테마를 선택할 수 있으며, 서버(2000)는 선택된 테마를 디바이스(1000)에게 전송함으로써, 테마 내의 캐릭터 특화 모델을 디바이스(1000)에게 제공할 수 있다. The server 2000 may provide a list of the character-specific models to the device 1000 and transmit the character-specific models selected by the device 1000 from the list of character-specific models to the device 1000. Also, a character-specific model may be included in the theme of the OS of the device 1000, and the server 2000 may provide a list of themes of the OS to the device 1000. In this case, the device 1000 may select a predetermined theme from the theme list, and the server 2000 may provide the device 1000 with a character-specific model in the theme by transmitting the selected theme to the device 1000. .

동작 S845에서 디바이스(1000)는 보이스 어시스턴트의 응답 모드를 변경할 수 있다. 디바이스(1000)는 사용자 입력에 기초하여, 보이스 어시스턴트의 응답 모드를 변경할 수 있다. 예를 들어, 소정의 콜 네임을 부르는 사용자의 음성 입력이 입력되면, 디바이스(1000)는 음성 입력의 콜 네임을 인식함으로써, 콜 네임에 대응되는 캐릭터의 응답 모드로 보이스 어시스턴트의 응답 모드를 변경할 수 있다. In operation S845, the device 1000 may change the response mode of the voice assistant. The device 1000 may change the response mode of the voice assistant based on the user input. For example, when a voice input of a user calling a predetermined call name is input, the device 1000 may change the voice assistant's response mode to a response mode of a character corresponding to the call name by recognizing the call name of the voice input. have.

예를 들어, ‘뽀로로’라는 콜 네임이 디바이스(1000)에 음성 입력되면, 디바이스(1000)는 보이스 어시스턴트의 응답 모드를 뽀로로 응답 모드로 변경할 수 있다. 만약, 디바이스(1000)의 OS의 테마와 함께 캐릭터 특화 모델이 제공된다면, 디바이스(1000)는 보이스 어시스턴트의 응답 모드를 뽀로로 응답 모드로 변경하면서, OS의 테마를 뽀로로 테마로 함께 변경할 수 있다. For example, when a call name “pororo” is voice input to the device 1000, the device 1000 may change the response mode of the voice assistant to the pororo response mode. If a character-specific model is provided along with the theme of the OS of the device 1000, the device 1000 may change the theme of the OS to the Pororo theme while changing the response mode of the Voice Assistant to the Pororo response mode.

동작 S850에서 디바이스(1000)는 보이스 어시스턴트 애플리케이션을 통하여 캐릭터 특화 모델에 액세스할 수 있다. 보이스 어시스턴트 애플리케이션은 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 함께 이용하여, 보이스 어시스턴트 서비스를 제공할 수 있다. In operation S850, the device 1000 may access the character-specific model through the voice assistant application. The voice assistant application may provide a voice assistant service by using a character-specific model and a model of the voice assistant together.

동작 S855에서 디바이스(1000)는 사용자의 음성 입력을 수신할 수 있다. 사용자는 보이스 어시스턴트 서비스를 제공받기 위하여 디바이스(1000)에 음성을 입력할 수 있다. In operation S855, the device 1000 may receive a user's voice input. The user may input a voice to the device 1000 to receive a voice assistant service.

동작 S860에서 디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 이용하여, 응답 메시지를 생성할 수 있다. 디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 함께 이용하여, 사용자의 음성 입력의 의미를 해석하고, 사용자에게 응답해야 할 응답 메시지를 생성하고 응답 메시지의 음성 특성을 결정할 수 있다. 또한, 디바이스(1000)는 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 함께 이용하여, 디바이스(1000)의 응답 동작을 결정할 수 있다. In operation S860, the device 1000 may generate a response message using the character-specific model and the voice assistant model. The device 1000 may use a character-specific model and a voice assistant model together to interpret the meaning of the user's voice input, generate a response message to be answered by the user, and determine a voice characteristic of the response message. Also, the device 1000 may determine a response operation of the device 1000 by using a character-specific model and a voice assistant model together.

동작 S865에서 디바이스(1000)는 생성된 응답 메시지를 출력할 수 있다. 디바이스(1000)는 텍스트 형식의 응답 메시지를 디바이스(1000)의 화면 상에 디스플레이할 수 있다. 또한, 디바이스(1000)는 사운드 형식의 응답 메시지를 디바이스(1000)의 스피커를 통하여 출력할 수 있다. 또한, 디바이스(1000)의 결정된 응답 동작에 따라 디바이스(1000)의 동작을 제어할 수 있다. In operation S865, the device 1000 may output the generated response message. The device 1000 may display a text format response message on the screen of the device 1000. In addition, the device 1000 may output a response message in a sound format through the speaker of the device 1000. Also, the operation of the device 1000 may be controlled according to the determined response operation of the device 1000.

동작 S870에서 디바이스(1000)는 캐릭터 특화 모델의 응답 결과 데이터를 서버(2000)에게 제공하며, 동작 S875에서 서버(2000)는 캐릭터 특화 모델의 응답 결과 데이터를 다른 디바이스(3000)에게 제공할 수 있다. 응답 결과 데이터는, 예를 들어, 사용자와 디바이스(1000) 간의 대화 내용 및 디바이스(1000)의 응답 동작에 관한 데이터를 포함할 수 있다. 또는, 디바이스(1000)는 디바이스(1000)는 캐릭터 특화 모델의 응답 결과 데이터를 다른 디바이스(3000)에게 전송할 수 있다. In operation S870, the device 1000 provides the response result data of the character-specific model to the server 2000, and in operation S875, the server 2000 provides the response result data of the character-specific model to the other device 3000. . The response result data may include, for example, data related to a conversation between a user and the device 1000 and a response operation of the device 1000. Alternatively, the device 1000 may transmit the response result data of the character-specific model to the other device 3000.

동작 S880에서 다른 디바이스(3000)는 캐릭터 특화 모델을 업데이트할 수 있다. 다른 디바이스(3000)는 수신된 응답 결과 데이터를 이용하여 캐릭터 특화 모델을 추가로 학습시킴으로써, 캐릭터 특화 모델을 업데이트할 수 있다. 다른 디바이스(3000)는 캐릭터 특화 모델을 사용자 또는 디바이스(1000) 별로 업데이트하고 업데이트된 캐릭터 특화 모델을 관리할 수 있다. In operation S880, the other device 3000 may update the character-specific model. The other device 3000 may update the character specialization model by further learning the character specialization model using the received response result data. The other device 3000 may update the character-specific model for each user or device 1000 and manage the updated character-specific model.

한편, 디바이스(1000)가 캐릭터 특화 모델의 응답 결과 데이터를 이용하여, 디바이스(1000) 내의 캐릭터 특화 모델을 업데이트할 수도 있다. Meanwhile, the device 1000 may update the character-specific model in the device 1000 using the response result data of the character-specific model.

도 9는 일부 실시예에 따른 모델 생성 툴의 블록도이다. 9 is a block diagram of a model generation tool in accordance with some embodiments.

도 9를 참조하면, 모델 생성 툴(90)은 모델 생성 모듈(92), 어시스턴트 설정 변경 모듈(97) 및 업데이트 모듈(98)을 포함할 수 있다. Referring to FIG. 9, the model generation tool 90 may include a model generation module 92, an assistant configuration change module 97, and an update module 98.

모델 생성 모듈(92)는 캐릭터 특화 모델을 생성하기 위한 기능들을 제공할 수 있다. 캐릭터 특화 모델에 포함되는 복수의 하위 모델을 생성하기 위한 모듈들을 포함할 수 있다. 모델 생성 모듈(92)는 NLU 모델 생성 모듈(93), NLG 모델 생성 모듈(94), TTS 모델 생성 모듈(95)를 포함할 수 있다. The model generation module 92 may provide functions for generating a character-specific model. Modules for generating a plurality of sub-models included in the character-specific model may be included. The model generation module 92 may include an NLU model generation module 93, an NLG model generation module 94, and a TTS model generation module 95.

NLU 모델 생성 모듈(93)은 캐릭터의 특성을 고려하여 사용자의 음성 입력을 해석하기 위한 모델을 생성할 수 있다. 사용자의 음성 입력을 해석하기 위한 모델은 사용자의 입력 음성의 의미를 분석하는 학습 모델일 수 있으며, 인공지능 알고리즘이 접목된 모델일 수 있다. 다른 디바이스(3000)는, 예를 들어, 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 NLU 모델 생성 모듈(93)에 입력함으로써, 사용자의 음성 입력을 해석하기 위한 학습 모델을 생성하고 학습시킬 수 있다. The NLU model generation module 93 may generate a model for interpreting a user's voice input in consideration of character characteristics. The model for interpreting the user's voice input may be a learning model that analyzes the meaning of the user's input voice, or may be a model incorporating an artificial intelligence algorithm. The other device 3000 may input, for example, a dialogue script related to a character, a tone data of a character, intonation data of a character, content information related to the character, and QNA data related to the character into the NLU model generation module 93 , A learning model for interpreting a user's voice input can be generated and trained.

NLG 모델 생성 모듈(94)은 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 모델을 생성할 수 있다. 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 모델은, 사용자의 음성 입력에 대한 응답 메시지를 생성하고 디바이스(1000)의 응답 동작을 결정하는 학습 모델일 수 있다. 다른 디바이스(3000)는 예를 들어, 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 NLG 모델 생성 모듈(94)에 입력함으로써, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 모델을 생성하고 학습시킬 수 있다. 또한, 다른 디바이스(3000)는 디바이스(1000)의 사용자 정보, 디바이스(1000)에 관련된 컨텍스트 정보를 NLG 모델 생성 모듈(94)에 입력함으로써, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 모델을 학습시켜 생성할 수 있다. 이에 따라, 응답 메시지를 생성하기 위한 모델은 사용자의 상황, 디바이스(1000)의 상황 및 캐릭터의 특성을 반영하여 사용자에게 제공할 응답 메시지를 생성할 수 있다. 이 경우, 응답 메시지는 캐릭터의 어투를 반영하여 생성될 수 있다. The NLG model generation module 94 may generate a model for generating a response message for a user's voice input. The model for generating a response message for a user's voice input may be a learning model for generating a response message for a user's voice input and determining a response operation of the device 1000. The other device 3000 may input, for example, a dialogue script related to a character, a tone data of a character, intonation data of a character, content information related to the character, and QNA data related to the character into the NLG model generation module 94, A model for generating a response message for a user's voice input can be generated and trained. Further, the other device 3000 inputs user information of the device 1000 and context information related to the device 1000 to the NLG model generation module 94, thereby generating a model for generating a response message for a user's voice input. Can be generated by learning. Accordingly, the model for generating the response message may generate a response message to be provided to the user by reflecting the user's situation, the device 1000's situation, and the characteristics of the character. In this case, the response message may be generated by reflecting the tone of the character.

TTS 모델 생성 모듈(95)은 응답 메시지의 음성 특성을 결정하기 위한 모델을 생성할 수 있다. 응답 메시지의 음성 특성을 결정하기 위한 모델은, 캐릭터의 음성 특성을 반영하여 응답 메시지의 음성 특성을 결정하는데 이용될 수 있다. 다른 디바이스(3000)는 예를 들어, 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 TTS 모델 생성 모듈(95)에 입력함으로써, 캐릭터의 음성 특성을 반영하여 응답 메시지의 음성 특성을 결정하기 위한 모델을 학습시켜 생성할 수 있다. 이에 따라, 응답 메시지의 음성 특성을 결정하기 위한 모델은 캐릭터의 억양 및 음색에 따라 응답 메시지의 사운드가 디바이스(1000)의 스피커를 통해 출력되도록 할 수 있다.The TTS model generation module 95 may generate a model for determining voice characteristics of the response message. The model for determining the voice characteristics of the response message may be used to determine the voice characteristics of the response message by reflecting the voice characteristics of the character. The other device 3000 may input, for example, a dialogue script related to a character, a tone data of a character, intonation data of a character, content information related to the character, and QNA data related to the character into the TTS model generation module 95, The model for determining the voice characteristics of the response message by reflecting the voice characteristics of the character can be generated by training. Accordingly, the model for determining the voice characteristics of the response message may cause the sound of the response message to be output through the speaker of the device 1000 according to the intonation and tone of the character.

한편, 모델 생성 툴(92)는 ASR 모델 생성 모듈(미도시) 및 DM 모델 생성 모듈(미도시)를 더 포함할 수 있다. ASR 모델 생성 모듈(미도시)은 캐릭터의 특성을 고려하여 사용자의 음성 입력을 인식하기 위한 인공지능 모델을 생성할 수 있다. 다른 디바이스(3000)는, 예를 들어, 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 ASR 모델 생성 모듈(미도시)에 입력함으로써, 사용자의 음성 입력을 인식하기 위한 학습 모델을 생성하고 학습시킬 수 있다. DM 모델 생성 모듈(미도시)는, 캐릭터의 특성을 고려하여 응답 메시지의 유형을 결정하기 위한 인공지능 모델을 생성할 수 있다. 다른 디바이스(3000)는, 예를 들어, 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 DM 모델 생성 모듈(미도시)에 입력함으로써, 응답 메시지의 유형을 결정하기 위한 학습 모델을 생성하고 학습시킬 수 있다.Meanwhile, the model generation tool 92 may further include an ASR model generation module (not shown) and a DM model generation module (not shown). The ASR model generation module (not shown) may generate an artificial intelligence model for recognizing a user's voice input in consideration of character characteristics. The other device 3000 inputs, for example, a dialogue script related to a character, a tone data of a character, intonation data of a character, content information related to a character, and QNA data related to a character into an ASR model generation module (not shown) By doing so, it is possible to generate and train a learning model for recognizing a user's voice input. The DM model generation module (not shown) may generate an artificial intelligence model for determining the type of response message in consideration of character characteristics. The other device 3000 inputs, for example, a dialogue script related to a character, a tone data of a character, intonation data of a character, content information related to a character, and QNA data related to a character into a DM model generation module (not shown) By doing so, a learning model for determining the type of response message can be generated and trained.

상기에서는 모델 생성 모듈(92) 내에, NLU 모델 생성 모듈(93), NLG 모델 생성 모듈(94), TTS 모델 생성 모듈(95), ASR 모델 생성 모듈(미도시) 및 DM 모델 생성 모듈(미도시)이 개별적으로 동작하는 것으로 설명되었지만 이에 제한되지 않는다. 예를 들어, 모델 생성 모듈(92) 내에는, NLU 모델 생성 모듈(93), NLG 모델 생성 모듈(94), TTS 모델 생성 모듈(95), ASR 모델 생성 모듈(미도시) 및 DM 모델 생성 모듈(미도시) 중 적어도 둘 이상이 통합된 모듈이 포함될 수도 있다.In the above, in the model generation module 92, NLU model generation module 93, NLG model generation module 94, TTS model generation module 95, ASR model generation module (not shown) and DM model generation module (not shown) ) Has been described as operating individually, but is not limited thereto. For example, in the model generation module 92, NLU model generation module 93, NLG model generation module 94, TTS model generation module 95, ASR model generation module (not shown) and DM model generation module A module in which at least two or more (not shown) are integrated may be included.

어시스턴트 설정 변경 모듈(97)은 보이스 어시스턴트에 설정된 설정 값을 변경하도록 하는 기능을 제공할 수 있다. 다른 디바이스(3000)는 어시스턴트 설정 변경 모듈(97)을 이용하여, 캐릭터 특화 모델을 호출하기 위한 콜 네임, 캐릭터 특화 모델의 응답 모드에 관련된 설정 값 등을 변경할 수 있다. 캐릭터 특화 모델의 응답 모드는, 예를 들어, 대화 모드, 비서 모드, 학습 모드 및 플레이 모드를 포함할 수 있으나, 이에 제한되지 않는다. 대화 모드는 사용자와 일반적인 대화를 제공하는 모드일 수 있으며, 비서 모드는 사용자의 일정을 관리하는 모드일 수 있으며, 학습 모드는 사용자의 공부를 위한 모드일 수 있으며, 플레이 모드는 사용자와의 게임을 제공하기 위한 모드일 수 있다. The assistant setting change module 97 may provide a function for changing a setting value set in the voice assistant. The other device 3000 may use the assistant setting change module 97 to change the call name for calling the character-specific model, setting values related to the response mode of the character-specific model, and the like. The response mode of the character specialization model may include, for example, a conversation mode, a secretary mode, a learning mode, and a play mode, but is not limited thereto. The conversation mode may be a mode that provides a general conversation with the user, the secretary mode may be a mode for managing the user's schedule, the learning mode may be a mode for the user's study, and the play mode may play a game with the user. It may be a mode for providing.

업데이트 모듈(98)은 캐릭터 특화 모델을 업데이트하기 위한 기능을 제공할 수 있다. 다른 디바이스(98)는 업데이트 모듈(98)을 이용하여 캐릭터 특화 모델을 업데이트할 수 있다. The update module 98 may provide a function for updating the character-specific model. Other devices 98 may update the character-specific model using the update module 98.

도 10은 일부 실시예에 따른 모델 생성 툴을 이용하여 캐릭터 특화 모델이 생성되는 예시를 나타내는 도면이다. 10 is a diagram illustrating an example in which a character-specific model is generated using a model generation tool according to some embodiments.

도 10을 참조하면, 다른 디바이스(3000)는 모델 생성 툴(90)에 다양한 학습 데이터를 입력함으로써, 캐릭터 특화 모델(100)을 생성할 수 있다. 예를 들어, 다른 디바이스(3000)는 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터의 억양 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 모델 생성 툴(90)에 입력함으로써, 캐릭터 특화 모델(100)을 학습을 통해 생성할 수 있다. Referring to FIG. 10, another device 3000 may generate a character-specific model 100 by inputting various learning data into the model creation tool 90. For example, the other device 3000 inputs the character's conversation script, character's tone data, character's accent data, character's content information, and character's QNA data into the model creation tool 90, thereby The specialized model 100 can be generated through learning.

캐릭터와 관련된 대화 스크립트는, 캐릭터의 대화 내용을 포함하는 데이터일 수 있다. 캐릭터와 관련된 대화 스크립트는, 예를 들어, ‘뽀로로’가 애니메이션에서 대화한 대화 내용, 가수 ‘싸이’가 방송에서 얘기한 대화 내용 등을 포함할 수 있다. 캐릭터와 관련된 대화 스크립트는, 예를 들어, 캐릭터 특화 모델을 이용하여 디바이스(1000)가 사용자와 대화한 대화 내용을 포함할 수 있다. The dialogue script associated with the character may be data including the dialogue contents of the character. The dialogue script related to the character may include, for example, the dialogue contents of 'Pororo' in the animation, the dialogue contents of the singer 'Psy' in the broadcast, and the like. The dialog script associated with the character may include, for example, the contents of the conversation in which the device 1000 chats with the user using a character specialization model.

캐릭터의 어투 데이터는 캐릭터의 어투에 관련된 정보를 포함하는 데이터일 수 있으며, 캐릭터의 억양 데이터는 캐릭터의 억양에 관련된 정보를 포함하는 데이터일 수 있다. The tone data of the character may be data including information related to the tone of the character, and the accent data of the character may be data including information related to the accent of the character.

캐릭터에 관련된 컨텐츠 정보는 캐릭터에 관한 영상 데이터 및 음성 데이터 등을 포함할 수 있다. 예를 들어, 캐릭터에 관련된 컨텐츠 정보는, ‘뽀로로’의 애니메이션 영상, ‘뽀로로’의 음성 데이터, ‘뽀로로’에 관한 뉴스 데이터, 가수 ‘싸이’의 인터뷰 음성 데이터, 가수 ‘싸이’의 음원 데이터, 가수 ‘싸이’에 관한 뉴스 데이터 등을 포함할 수 있으나, 이에 제한되지 않는다. Content information related to a character may include image data and audio data related to the character. For example, the content information related to a character includes animation video of 'Pororo', voice data of 'Pororo', news data about 'Pororo', interview voice data of singer Psy, sound source data of singer Psy, News data about the singer 'Psy' may be included, but is not limited thereto.

캐릭터에 관련된 QNA 데이터는 캐릭터와 관련된 서비스에서 고객과 주고 받은 QNA에 관한 데이터를 포함할 수 있다. The QNA data related to the character may include data regarding the QNA exchanged with the customer in the service related to the character.

또한, 다른 디바이스(3000)는 디바이스(1000)의 사용자 정보, 디바이스(1000)에 관련된 컨텍스트 정보를 모델 생성 툴(90)에 입력함으로써, 캐릭터 특화 모델(100)을 학습을 통해 생성할 수 있다. 컨텍스트 정보는, 예를 들어, 디바이스(1000)의 주변 환경 정보, 디바이스(1000)의 상태 정보, 사용자의 상태 정보, 사용자의 디바이스(1000) 사용 이력 정보 및 사용자의 일정 정보 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 디바이스(1000)의 주변 환경 정보는, 디바이스(1000)로부터 소정 반경 내의 환경 정보를 의미하는 것으로서, 예를 들어, 날씨 정보, 온도 정보, 습도 정보, 조도 정보, 소음 정보, 소리 정보 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 디바이스(1000)의 상태 정보는, 디바이스(1000)의 모드 정보(예컨대, 소리 모드, 진동 모드, 무음 모드, 절전 모드, 차단 모드, 멀티 윈도우 모드, 자동 회전 모드 등), 디바이스(1000)의 위치 정보, 시간 정보, 통신 모듈의 활성화 정보(예컨대, Wi-Fi ON / Bluetooth OFF / GPS ON/ NFC ON 등), 디바이스(1000)의 네트워크 접속 상태 정보, 디바이스(1000)에서 실행되는 애플리케이션 정보(예컨대, 애플리케이션의 식별 정보, 애플리케이션 종류, 애플리케이션 이용 시간, 애플리케이션 이용 주기) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 사용자의 상태 정보는 사용자의 움직임, 생활 패턴 등에 관한 정보로서, 사용자의 걷는 상태, 운동하는 상태, 운전 중인 상태, 수면 상태, 사용자의 기분 상태 등에 관한 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다. 사용자의 디바이스(1000) 사용 이력 정보는, 사용자가 디바이스(1000)를 이용한 이력에 관한 정보로서, 애플리케이션의 실행 이력, 애플리케이션에서 실행된 기능의 이력, 사용자의 통화 내역, 및 사용자의 문자 내역 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. Also, the other device 3000 may generate the character specialized model 100 through learning by inputting user information of the device 1000 and context information related to the device 1000 into the model creation tool 90. The context information may include, for example, at least one of surrounding environment information of the device 1000, status information of the device 1000, user status information, user's device 1000 usage history information, and user schedule information. However, it is not limited thereto. Ambient environment information of the device 1000 means environmental information within a predetermined radius from the device 1000, and includes, for example, weather information, temperature information, humidity information, illuminance information, noise information, sound information, and the like. However, it is not limited thereto. The status information of the device 1000 includes the mode information of the device 1000 (eg, sound mode, vibration mode, silent mode, power saving mode, blocking mode, multi-window mode, automatic rotation mode, etc.), and the location of the device 1000 Information, time information, activation information of the communication module (eg, Wi-Fi ON / Bluetooth OFF / GPS ON / NFC ON, etc.), network connection status information of the device 1000, application information executed on the device 1000 (eg , Application identification information, application type, application usage time, application usage period, and the like), but is not limited thereto. The user's status information is information about the user's movement, life pattern, and the like, and may include information about the user's walking state, exercising state, driving state, sleeping state, and user mood state, but is not limited thereto. . The user's device 1000 usage history information is information about the user's history using the device 1000, and includes an application execution history, a history of functions executed in the application, a user's call history, and a user's text history. It may include, but is not limited to.

또한, 다른 디바이스(3000)는 어시스턴트 설정 변경 모듈(97)에 의해 제공되는 GUI를 통하여 어시스턴트 설정 값을 입력할 수 있다. 이에 따라, 캐릭터 특화 모델(100)은 어시스턴트 설정 값을 포함할 수 있다. 어시스턴트 설정 값은 캐릭터 특화 모델에 부수적인 데이터로 캐릭터 특화 모델과 함께 디바이스(1000)로 제공될 수 있다. In addition, the other device 3000 may input the assistant setting value through the GUI provided by the assistant setting changing module 97. Accordingly, the character specialization model 100 may include an assistant setting value. The assistant setting value may be provided to the device 1000 together with the character-specific model as data incidental to the character-specific model.

도 11은 일부 실시예에 따른 다른 디바이스가 캐릭터 특화 모델을 생성하는 예시를 나타내는 도면이다. 11 is a diagram illustrating an example in which another device generates a character specialization model according to some embodiments.

도 11을 참조하면, 캐릭터 특화 모델의 개발자의 다른 디바이스(3000)는 다양한 학습 데이터를 이용하여 가수 ‘싸이’의 캐릭터 특화 모델을 생성할 수 있다. Referring to FIG. 11, another device 3000 of the developer of the character specialization model may generate a character specialization model of the singer “Psy” using various learning data.

다른 디바이스(3000)는 가수 ‘싸이’의 캐릭터 특화 모델을 호출하기 위한 콜 네임을 ‘싸이’로 설정할 수 있다. 또한, 다른 디바이스(3000)는 음성 예제로서 싸이의 방송 음성 데이터를 모델 생성 툴에 입력할 수 있다. 또한, 다른 디바이스(3000)는 대화 스크립트로서 싸이의 방송 스크립트를 모델 생성 툴에 입력할 수 있다. 또한, 다른 디바이스(3000)는 영상 정보로서 싸이의 동영상을 모델 생성 툴에 입력할 수 있다. 또한, 다른 디바이스(3000)는 연관 정보로서 싸이의 SNS (Social Network System) 데이터를 모델 생성 툴에 입력할 수 있다. The other device 3000 may set the call name to call the character special model of the singer 'Psy' as 'Psy'. In addition, the other device 3000 may input Psy's broadcast voice data to the model generation tool as a voice example. In addition, the other device 3000 may input Psy's broadcast script as a dialog script to the model generation tool. Further, the other device 3000 may input a Psy video as a model information to the model generation tool. In addition, the other device 3000 may input Psy's Social Network System (SNS) data as model information into the model generation tool.

또한, 다른 디바이스(3000)는 생성된 ‘싸이’의 캐릭터 특화 모델을 배포하고, 디바이스(1000)의 OS 테마에 ‘싸이’의 캐릭터 특화 모델을 등록할 수 있다. In addition, the other device 3000 may distribute the generated character-specific model of Psy and register the character-specific model of Psy in the OS theme of the device 1000.

도 12는 일부 실시예에 따른 디바이스가 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 함께 이용하는 예시를 나타내는 도면이다. 12 is a diagram illustrating an example in which a device according to some embodiments uses a character-specific model and a voice assistant model together.

도 12를 참조하면, 디바이스(1000)는 보이스 어시스턴트의 모델 및 캐릭터 특화 모델을 서로 연동시킴으로써, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 수 있다. Referring to FIG. 12, the device 1000 may provide a voice assistant service specialized for a character by interworking with a voice assistant model and a character-specific model.

예를 들어, 디바이스(1000)는 보이스 어시스턴트의 모델 내의 제1 NLU 모델(121)을 캐릭터 특화 모델 내의 제2 NLU 모델(126)과 연동시킬 수 있다. 제1 NLU 모델(121) 및 제2 NLU 모델(126)은 사용자의 음성 입력을 해석하기 위한 학습 모델일 수 있다.For example, the device 1000 may link the first NLU model 121 in the model of the voice assistant with the second NLU model 126 in the character specialization model. The first NLU model 121 and the second NLU model 126 may be learning models for interpreting a user's voice input.

예를 들어, 사용자의 음성 입력이 인식되고 인식된 데이터가 제1 NLU 모델(121)에 입력됨으로써, 사용자의 음성 입력을 1차적으로 해석한 데이터가 제1 NLU 모델(121)로부터 출력될 수 있다. 또한, 제1 NLU 모델(121)로부터 출력된 데이터가 제2 NLU 모델(126)에 입력됨으로써, 사용자의 음성 입력을 2차적으로 해석한 데이터가 제2 NLU 모델(126)로부터 출력될 수 있다. For example, when the user's voice input is recognized and the recognized data is input to the first NLU model 121, data that primarily analyzes the user's voice input may be output from the first NLU model 121. . In addition, by outputting data output from the first NLU model 121 to the second NLU model 126, data that is secondarily interpreted by a user's voice input may be output from the second NLU model 126.

캐릭터가 선택되지 않은 경우에는 사용자의 음성 입력을 해석한 데이터가 제1 NLU 모델(121)로부터 출력되고, 이후에 캐릭터가 선택되면, 사용자의 음성 입력을 캐릭터를 고려하여 해석한 데이터가 제2 NLU 모델(126)을 통해 출력될 수 있다.When the character is not selected, data interpreting the user's voice input is output from the first NLU model 121, and when the character is subsequently selected, data interpreted by considering the user's voice input in consideration of the character is the second NLU. It can be output through the model 126.

또한, 예를 들어, 디바이스(1000)는 보이스 어시스턴트의 학습 모델 내의 제1 NLG 모델(122)을 캐릭터 특화 모델 내의 제2 NLG 모델(127)과 연동시킬 수 있다. 제1 NLG 모델(122) 및 제2 NLG 모델(127)은 사용자에게 제공할 응답 메시지를 생성하기 위한 학습 모델일 수 있다. 제1 NLG 모델(122) 및 제2 NLG 모델(127)은 디바이스(1000)의 응답 동작을 결정할 수 있다. 특히, 제1 NLG모델(122)에서 출력한 데이터가 제2 NLG모델(127)에 입력되어 최종 응답 메시지가 생성되어 출력될 수 있다. 또한, 캐릭터가 선택되지 않았을 때는 제1 NLG모델(122)을 통해 응답 메시지가 생성되어 출력되다가, 캐릭터가 선택되었을 때는 제2 NLG모델(127)을 통해 응답 메시지가 생성되어 출력될 수 있다. Further, for example, the device 1000 may link the first NLG model 122 in the voice assistant's learning model with the second NLG model 127 in the character specialization model. The first NLG model 122 and the second NLG model 127 may be learning models for generating a response message to be provided to the user. The first NLG model 122 and the second NLG model 127 may determine a response operation of the device 1000. In particular, data output from the first NLG model 122 may be input to the second NLG model 127 to generate and output a final response message. In addition, when a character is not selected, a response message is generated and output through the first NLG model 122, and when a character is selected, a response message is generated and output through the second NLG model 127.

또한, 예를 들어, 디바이스(1000)는 보이스 어시스턴트의 모델 내의 제1 TTS 모델(123)을 캐릭터 특화 모델 내의 제2 TTS 모델(128)과 연동시킬 수 있다. 제1 TTS 모델(123) 및 제2 TTS 모델(128)은 응답 메시지의 사운드를 출력하는 경우에, 응답 메시지의 사운드의 음성 특성을 결정하기 위한 학습 모델일 수 있다. 특히, 캐릭터가 선택되지 않았을 때는 제1 TTS 모델(123)을 이용하여 응답 메시지의 사운드를 출력하다가, 캐릭터가 선택되었을 때는 제2 TTS 모델(128)을 통해 응답 메시지의 사운드가 출력될 수 있다. 이 경우, 제1 TTS 모델(123)은 제1 NLG 모델에서 출력되는 응답 메시지를 입력받아, 제1 TTS 모델(123)에 대응하는 사운드로 응답 메시지를 출력한다. 또한, 제2 TTS 모델(128)은 제2 NLG 모델에서 출력되는 응답 메시지를 입력 받아, 제2 TTS 모델(128)에 대응하는 사운드로 응답 메시지를 출력한다.Also, for example, the device 1000 may link the first TTS model 123 in the model of the voice assistant with the second TTS model 128 in the character specialization model. The first TTS model 123 and the second TTS model 128 may be learning models for determining voice characteristics of the sound of the response message when outputting the sound of the response message. In particular, when the character is not selected, the sound of the response message is output using the first TTS model 123, and when the character is selected, the sound of the response message may be output through the second TTS model 128. In this case, the first TTS model 123 receives a response message output from the first NLG model, and outputs a response message in sound corresponding to the first TTS model 123. In addition, the second TTS model 128 receives a response message output from the second NLG model, and outputs a response message in a sound corresponding to the second TTS model 128.

도 12에서 보이스 어시스턴트의 모델과 캐릭터 특화 모델이 연동하여 동작하는 실시예를 설명하였으나, 보이스 어시스턴트의 모델 중 제1 NLU 모델(121), 제1 NLG 모델(122) 및 제1 TTS 모델(123)이 캐릭터 특화 모델의 제2 NLU 모델(126), 제2 NLG 모델(127) 및 제2 TTS 모델(128)로 변경되어, 보이스 어시스턴트의 모델 중 나머지 모델과 연동하여 동작할 수 있다. 이 경우, 캐릭터 특화 모델의 제2 NLU 모델(126), 제2 NLG 모델(127) 및 제2 TTS 모델(128)은 제1 NLU 모델(121), 제1 NLG 모델(122) 및 제2 TTS 모델(123)을 캐릭터에 대한 학습 데이터를 이용하여 재학습한 결과 생성된 모델일 수 있다. 또한, 캐릭터 특화 모델의 제2 NLU 모델(126), 제2 NLG 모델(127) 및 제2 TTS 모델(128)은 제1 NLU 모델(121), 제1 NLG 모델(122) 및 제2 TTS 모델(123)과는 독립적으로, 별도로 생성된 모델일 수 있다.In FIG. 12, although an example in which the voice assistant model and the character-specific model operate in cooperation has been described, among the voice assistant models, the first NLU model 121, the first NLG model 122, and the first TTS model 123 Changed to the second NLU model 126, the second NLG model 127, and the second TTS model 128 of this character-specific model, it can operate in conjunction with the rest of the voice assistant models. In this case, the second NLU model 126, the second NLG model 127, and the second TTS model 128 of the character-specific model are the first NLU model 121, the first NLG model 122, and the second TTS. The model 123 may be a model generated as a result of re-learning using the learning data for the character. In addition, the second NLU model 126, the second NLG model 127, and the second TTS model 128 of the character-specific model are the first NLU model 121, the first NLG model 122, and the second TTS model. Independently from (123), it may be a separately generated model.

한편, 도 12의 보이스 어시스턴트의 모델은 제1 ASR 모델(미도시) 및 제1 DM 모델(미도시)를 더 포함하고, 캐릭터 특화 모델은, 제2 ASR 모델(미도시) 및 제2 DM 모델(미도시)를 더 포함할 수 있다. 이 경우, 사용자의 음성 입력은 제1 ASR 모델(미도시) 또는 제2 ASR 모델(미도시) 중 적어도 하나에 의해 인식될 수 있다. 또한, 사용자의 음성 입력에 대한 응답 메시지의 유형은, 제1 DM 모델(미도시) 또는 제2 DM 모델(미도시) 중 적어도 하나에 의해 결정될 수 있다.Meanwhile, the voice assistant model of FIG. 12 further includes a first ASR model (not shown) and a first DM model (not shown), and the character-specific model includes a second ASR model (not shown) and a second DM model. (Not shown) may further include. In this case, the user's voice input may be recognized by at least one of the first ASR model (not shown) or the second ASR model (not shown). Further, the type of the response message to the user's voice input may be determined by at least one of the first DM model (not shown) or the second DM model (not shown).

도 13은 일부 실시예에 따른 디바이스가 캐릭터 특화 모델을 이용하여 보이스 어시스턴트 서비스를 제공하는 예시를 나타내는 도면이다. 13 is a diagram illustrating an example in which a device provides a voice assistant service using a character-specific model according to some embodiments.

도 13을 참조하면, 디바이스(1000)의 사용자가 ‘뽀로로야 안녕’이라는 음성을 입력하면, 동작 130에서 디바이스(1000)는 사용자의 음성 입력에 따라 사용자의 음성을 텍스트로 변환하고 보이스 어시스턴트의 응답 모드를 뽀로로 모드로 변경할 수 있다. 예를 들어, 디바이스(1000)는 보이스 어시스턴트의 ASR 모델을 이용하여 사용자의 음성 입력을 인식할 수 있으며, 인식된 사용자의 음성 입력이 뽀로로 모드로 변경하기 위한 콜 네임을 포함하는지를 식별할 수 있다. 또한, 인식된 사용자의 음성 입력이 뽀로로 모드로 변경하기 위한 콜 네임을 포함하면, 디바이스(1000)는 보이스 어시스턴트의 응답 모드를 뽀로로 모드로 변경할 수 있다.Referring to FIG. 13, when a user of the device 1000 inputs a voice saying “Hello Poroya”, in operation 130, the device 1000 converts the user's voice into text according to the user's voice input and responds to the voice assistant You can change the mode to Pororo mode. For example, the device 1000 may recognize the user's voice input using the ASR model of the voice assistant, and may identify whether the recognized user's voice input includes a call name for changing to the Pororo mode. In addition, when the recognized user's voice input includes a call name for changing to the Pororo mode, the device 1000 may change the response mode of the Voice Assistant to the Pororo mode.

또한, 디바이스(1000)는 보이스 어시스턴트의 제1 NLU 모델 및 캐릭터 특화 모델의 제2 NLU 모델을 함께 이용하여 음성 입력을 해석할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 제1 NLU 모델 및 캐릭터 특화 모델의 제2 NLU 모델에 사용자의 음성 입력을 입력할 수 있으며, 사용자의 음성 입력을 해석한 해석 데이터를 출력 값으로 획득할 수 있다. 이 경우, 디바이스(1000)는 보이스 어시스턴트의 제1 NLU 모델 및 캐릭터 특화 모델의 제2 NLU 모델에, 도 10에서의 데이터를 함께 입력할 수도 있다. In addition, the device 1000 may analyze the voice input by using the first NLU model of the voice assistant and the second NLU model of the character specialization model together. The device 1000 may input the user's voice input to the first NLU model of the voice assistant and the second NLU model of the character specialization model, and obtain analysis data interpreting the user's voice input as an output value. In this case, the device 1000 may input data in FIG. 10 together in the first NLU model of the voice assistant and the second NLU model of the character specialization model.

또한, 동작 132에서 디바이스(1000)는 음성 입력에 대한 응답 메시지를 생성할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델을 함께 이용하여 음성 입력에 대한 응답 메시지를 생성할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델에 동작 130에서의 출력 값을 입력할 수 있으며, 사용자에게 제공할 응답 메시지를 출력 값으로 획득할 수 있다. 이 경우, 디바이스(1000)는 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델에, 도 10에서의 데이터를 함께 입력할 수도 있다. 응답 메시지는 뽀로로에 관련된 다양한 정보 및 뽀로로의 어투를 반영하여 생성될 수 있다.In addition, in operation 132, the device 1000 may generate a response message for voice input. The device 1000 may generate a response message for voice input by using the first NLG model of the voice assistant and the second NLG model of the character specialization model together. The device 1000 may input the output value in operation 130 to the first NLG model of the voice assistant and the second NLG model of the character specialization model, and obtain a response message to be provided to the user as an output value. In this case, the device 1000 may input data in FIG. 10 together in the first NLG model of the voice assistant and the second NLG model of the character specialization model. The response message may be generated by reflecting various information related to Pororo and the tone of Pororo.

한편, 디바이스(1000)는 음성 입력에 대한 응답 메시지를 생성하기 위하여 제1 DM 모델 및 캐릭터 특화 모델의 제2 DM 모델을 이용할 수 있다. 디바이스(1000)는, 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델을 이용하여 응답 메시지를 생성하기 이전에, 보이스 어시스턴트의 제1 DM 모델 및 캐릭터 특화 모델의 제2 DM 모델을 이용하여 응답 메시지의 유형을 결정할 수 있다. 이 경우, 디바이스(1000)는 보이스 어시스턴트의 제1 DM 모델 및 캐릭터 특화 모델의 제2 DM 모델에 동작 130에서의 출력 값을 입력할 수 있으며, 사용자에게 제공할 응답 메시지의 유형을 나타내는 데이터를 출력 값으로 획득할 수 있다. 또한, 디바이스(1000)는 응답 메시지의 유형을 나타내는 데이터를 동작 130에서의 출력 값과 함께 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델에 입력할 수 있다. Meanwhile, the device 1000 may use the first DM model and the second DM model of the character specialization model to generate a response message for voice input. Before generating a response message using the first NLG model of the voice assistant and the second NLG model of the character specialization model, the device 1000 may use the first DM model of the voice assistant and the second DM model of the character specialization model. Use to determine the type of response message. In this case, the device 1000 may input output values of operation 130 to the first DM model of the voice assistant and the second DM model of the character specialization model, and output data indicating the type of response message to be provided to the user Can be obtained by value. In addition, the device 1000 may input data indicating the type of the response message to the first NLG model of the voice assistant and the second NLG model of the character specialization model together with the output value of operation 130.

또한, 동작 134에서 디바이스(1000)는 응답 메시지의 사운드를 생성할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 제1 TTS 모델 및 캐릭터 특화 모델의 제2 TTS 모델을 함께 이용하여 음성 입력에 대한 응답 메시지를 생성할 수 있다. 디바이스(1000)는 보이스 어시스턴트의 제1 TTS 모델 및 캐릭터 특화 모델의 제2 TTS 모델에 동작 132에서의 출력 값을 입력할 수 있으며, 사용자에게 제공할 응답 메시지의 음성 특성을 결정할 수 있다. 이 경우, 디바이스(1000)는 보이스 어시스턴트의 제1 NLG 모델 및 캐릭터 특화 모델의 제2 NLG 모델에, 도 10에서의 데이터를 함께 입력할 수도 있다. 또한, 디바이스(1000)는 결정된 음성 특성을 반영하여 음성 메시지의 사운드를 생성할 수 있다. Also, in operation 134, the device 1000 may generate a sound of a response message. The device 1000 may generate a response message for voice input by using the first TTS model of the voice assistant and the second TTS model of the character specialization model together. The device 1000 may input output values of operation 132 to the first TTS model of the voice assistant and the second TTS model of the character specialization model, and may determine a voice characteristic of the response message to be provided to the user. In this case, the device 1000 may input data in FIG. 10 together in the first NLG model of the voice assistant and the second NLG model of the character specialization model. Also, the device 1000 may generate a sound of a voice message by reflecting the determined voice characteristics.

또한, 동작 136에서 디바이스(1000)는 응답 메시지의 텍스트를 보이스 어시스턴트의 메시지 창 내에 디스플레이하고, 보이스 어시스턴트를 나타내는 아이콘을 뽀로로 아이콘으로 변경할 수 있다. 또한, 디바이스(1000)는 뽀로로의 음성 특성을 반영한 음성 메시지의 사운드를 출력할 수 있다. Further, in operation 136, the device 1000 may display the text of the response message in the message window of the voice assistant, and change the icon representing the voice assistant to the Pororo icon. In addition, the device 1000 may output a sound of a voice message reflecting the voice characteristics of Pororo.

도 14는 일부 실시예에 따른 디바이스가 보이스 어시스턴트 서비스를 제공하는 세부 동작을 나타내는 도면이다. 14 is a diagram illustrating detailed operations in which a device provides a voice assistant service according to some embodiments.

도 14를 참조하면, 동작 140에서 디바이스(1000)의 보이스 어시스턴트는 사용자의 음성을 텍스트로 변환함으로써 사용자의 음성을 인식할 수 있으며, 캐릭터 특화 모델 내에 설정된 콜 네임을 참조하여 보이스 어시스턴트의 콜 네임을 변경할 수 있다. 보이스 어시스턴트는 ASR 모델을 이용하여, 사용자의 음성 입력을 인식하고 사용자의 인식된 음성을 나타내는 텍스트를 생성할 수 있다.Referring to FIG. 14, in operation 140, the voice assistant of the device 1000 may recognize the user's voice by converting the user's voice to text, and refer to the call name of the voice assistant by referring to the call name set in the character specialization model. Can be changed. The voice assistant may use the ASR model to recognize the user's voice input and generate text representing the user's recognized voice.

동작 141에서 디바이스(1000)의 보이스 어시스턴트는 사용자의 인식된 음성을 캐릭터 특화 모델을 이용하여 해석할 수 있다. 디바이스(1000)의 NLU 모델을 이용함으로써, 사용자의 인식된 음성을 해석할 수 있다. 보이스 어시스턴트는 NLU 모델에 사용자의 인식된 음성을 나타내는 텍스트를 입력할 수 있으며, 사용자의 인식된 음성을 해석한 해석 데이터를 출력 값으로 획득할 수 있다. 출력되는 해석 데이터는, 예를 들어, Intent 정보, 및 Intent 정보와 관련된 Slot 정보를 포함할 수 있다. 이 경우, 보이스 어시스턴트는 NLU 모델에, 도 10에서의 데이터를 함께 입력할 수도 있다. In operation 141, the voice assistant of the device 1000 may analyze the recognized voice of the user using a character-specific model. By using the NLU model of the device 1000, it is possible to analyze the user's recognized speech. The voice assistant may input text representing the user's recognized voice into the NLU model, and obtain analysis data that interprets the user's recognized voice as an output value. The output analysis data may include, for example, Intent information and Slot information related to Intent information. In this case, the voice assistant may input data in FIG. 10 together in the NLU model.

동작 142에서 디바이스(1000)의 보이스 어시스턴트는 사용자에 대한 응대를 결정하고, 캐릭터 특화 모델 내의 설정 값을 참조하여 보이스 어시스턴트의 응답 모드를 변경할 수 있다. 보이스 어시스턴트는 DM 모델을 이용함으로써, 사용자에 대한 응대 여부를 결정할 수 있다. 사용자에 대한 응대가 결정되면, 보이스 어시스턴트는 응답 모드를 캐릭터 응답 모드와 변경할 수 있다. 응답 모드의 변경에 의해 보이스 어시스턴트는 변경된 응대 스타일에 따라 사용자와의 대화를 제공할 수 있게 된다. In operation 142, the voice assistant of the device 1000 may determine the response to the user, and change the response mode of the voice assistant by referring to the setting value in the character-specific model. The voice assistant can determine whether to respond to the user by using the DM model. When the response to the user is determined, the voice assistant can change the response mode to the character response mode. By changing the response mode, the voice assistant can provide a conversation with the user according to the changed response style.

동작 143에서 디바이스(1000)의 보이스 어시스턴트는, 캐릭터 특화 모델을 이용하여, 디바이스(1000)의 응답 동작을 결정할 수 있으며, 동작 144에서 디바이스(1000)의 보이스 어시스턴트는, 캐릭터 특화 모델을 이용하여, 응답 메시지를 생성하고 응답 메시지의 어투를 변경할 수 있다. 디바이스(1000)의 보이스 어시스턴트는 캐릭터와 관련된 서비스와 연동하여 응답 동작을 결정하고 응답 메시지를 생성할 수 있다. In operation 143, the voice assistant of the device 1000 may determine a response operation of the device 1000 using the character-specific model, and in operation 144, the voice assistant of the device 1000 using the character-specific model, You can create a response message and change the tone of the response message. The voice assistant of the device 1000 may determine a response operation and generate a response message in conjunction with a service related to the character.

보이스 어시스턴트는 AP(Action Planner) 모델을 이용하여 응답 동작을 결정할 수 있다. AP(Action Planner) 모델은 사용자에게 응답하기 위한 동작을 결정하기 위한 인공지능 모델일 수 있다. 보이스 어시스턴트는 NLU 모델로부터 출력된 데이터를 AP 모델에 입력함으로써, 응답 동작을 결정할 수 있다. 이 경우, 보이스 어시스턴트는 소정의 서비스와 연동함으로써, 응답 동작을 결정할 수 있다. 보이스 어시스턴트는, 서비스에 관한 정보를 NLU 모델로부터 출력된 데이터와 함께 AP 모델에 입력함으로써, 서비스에 관련된 응답 동작을 결정할 수 있다. AP 모델은 NLU 모델로부터 출력된 INTENT 정보에 기초하여 응답 동작의 시퀀스를 출력할 수 있다. 서비스에 관한 정보는, 예를 들어, 서비스의 종류, 서비스에서 제공되는 기능, 서비스에서 제공되는 정보 등에 관한 정보를 포함할 수 있으나, 이에 제한되지 않는다.The voice assistant may determine a response action using an action planner (AP) model. The AP (Action Planner) model may be an artificial intelligence model for determining an action to respond to a user. The voice assistant may determine a response operation by inputting data output from the NLU model to the AP model. In this case, the voice assistant may determine a response operation by interworking with a predetermined service. The voice assistant may determine a response operation related to the service by inputting information about the service to the AP model together with data output from the NLU model. The AP model may output a sequence of response actions based on INTENT information output from the NLU model. Information about the service may include, for example, information about the type of service, functions provided by the service, information provided by the service, and the like, but is not limited thereto.

또한, 보이스 어시스턴트는, NLG 모델을 이용하여, 응답 메시지를 생성하고 응답 메시지의 어투를 변경할 수 있다. 응답 메시지는 텍스트 형식의 데이터일 수 있다. NLG 모델은 캐릭터와 관련된 대화 스크립트, 캐릭터의 어투 데이터, 캐릭터에 관련된 컨텐츠 정보, 및 캐릭터에 관련된 QNA 데이터를 기초로 학습된 인공지능 모델일 수 있다.In addition, the voice assistant can generate a response message and change the tone of the response message using the NLG model. The response message may be data in text format. The NLG model may be an AI model trained based on a conversation script related to a character, a tone data of a character, content information related to a character, and QNA data related to a character.

또한, 동작 145에서 디바이스(1000)의 보이스 어시스턴트는 응답 메시지의 사운드를 생성할 수 있다. 보이스 어시스턴트는 캐릭터 특화 모델을 이용하여, 캐릭터의 억양을 반영하여 응답 메시지의 사운드를 생성할 수 있다. 보이스 어시스턴트는, TTS 모델을 이용하여 응답 메시지로부터 생성될 사운드의 억양을 캐릭터의 억양으로 변경할 수 있다. Also, in operation 145, the voice assistant of the device 1000 may generate a sound of a response message. The voice assistant can generate a sound of a response message by reflecting the character's accent using a character-specific model. The voice assistant can use the TTS model to change the intonation of the sound to be generated from the response message to the intonation of the character.

도 15는 일부 실시예에 따른 디바이스가 서버로부터 캐릭터 특화 모델을 다운로드하는 예시를 나타내는 도면이다. 15 is a diagram illustrating an example in which a device according to some embodiments downloads a character-specific model from a server.

도 15를 참조하면, 디바이스(1000)는 캐릭터 특화 모델의 목록을 디스플레이할 수 있다. 예를 들어, 디바이스(1000)는 디바이스(1000)의 OS의 테마를 다운로드하기 위한 GUI 내에 캐릭터 특화 모델의 목록을 디스플레이할 수 있다. 또한, 디바이스(1000)는 캐릭터 특화 모델의 목록에서 캐릭터 특화 모델을 선택할 수 있으며, 선택된 캐릭터 특화 모델을 다운로드할 수 있다. 예를 들어, 디바이스(1000)가 ‘뽀로로 Bixby’(152)를 선택하면, 디바이스(1000)는 뽀로로에 대한 캐릭터 특화 모델을 다운로드할 수 있다. 이 경우, 디바이스(1000)는 뽀로로에 대한 캐릭터 특화 모델을 뽀로로에 대한 OS 테마와 함께 다운로드할 수 있다. Referring to FIG. 15, the device 1000 may display a list of character-specific models. For example, the device 1000 may display a list of character-specific models in a GUI for downloading the theme of the OS of the device 1000. Also, the device 1000 may select a character-specific model from a list of character-specific models, and may download the selected character-specific model. For example, when the device 1000 selects 'Pororo Bixby' 152, the device 1000 may download a character-specific model for Pororo. In this case, the device 1000 may download a character-specific model for Pororo along with the OS theme for Pororo.

도 16은 일부 실시예에 따른 디바이스가 캐릭터 제품에 근접함으로써 캐릭터 특화 모델을 획득하는 예시를 나타내는 도면이다. 16 is a diagram illustrating an example in which a device according to some embodiments acquires a character specialization model by approaching a character product.

도 16을 참조하면, 디바이스(1000)가 뽀로로 인형(160)에 근접하면 디바이스(1000)는 뽀로로 인형(160)과 근거리 통신을 형성할 수 있다. 또한, 디바이스(1000)는 근거리 통신을 통하여 뽀로로 인형(160)으로부터 캐릭터 특화 모델을 수신할 수 있다. 캐릭터 특화 모델은 뽀로로에 대한 캐릭터 특화 모델일 수 있다. Referring to FIG. 16, when the device 1000 approaches the Pororo doll 160, the device 1000 may form short-range communication with the Pororo doll 160. Also, the device 1000 may receive a character-specific model from the Pororo doll 160 through short-range communication. The character-specific model may be a character-specific model for Pororo.

또한, 사용자가 디바이스(1000)에 ‘넌 누구니’라는 음성을 입력하면, 디바이스(1000)는 캐릭터 특화 모델을 이용하여 응답 데이터를 생성할 수 있으며, 생성된 응답 데이터를 뽀로로 인형(160)에게 전송할 수 있다. 뽀로로 인형(160)은 응답 데이터를 수신하여 뽀로로 인형(160)의 스피커를 통하여 응답 데이터를 출력할 수 있다. In addition, when the user inputs a voice of 'who are you' to the device 1000, the device 1000 may generate response data using a character-specific model, and the generated response data to the Pororo doll 160 Can transmit. The Pororo doll 160 may receive response data and output response data through a speaker of the Pororo doll 160.

도 17은 일부 실시예에 따른 디바이스가 보이스 어시스턴트 서비스의 대화창을 나타내는 도면이다. 17 is a diagram for a device in accordance with some embodiments, showing a voice assistant service dialog.

도 17을 참조하면, 보이스 어시스턴트가 사용자와 대화를 하고 있는 도중에, 사용자가 ‘넌 이제 뽀로로야’라는 음성을 디바이스(1000)에 입력하면, 보이스 어시스턴트는 사용자의 음성 입력 내의 ‘뽀로로’를 인식하고, 보이스 어시스턴트의 응답 모드를 뽀로로 모드로 변경할 수 있다. 이후, 보이스 어시스턴트는 뽀로로의 캐릭터 특화 모델을 이용하여 사용자와 대화를 진행할 수 있다. Referring to FIG. 17, while the voice assistant is in a conversation with the user, when the user inputs the voice 'You are now Pororo' to the device 1000, the voice assistant recognizes 'Pororo' in the user's voice input , You can change the voice assistant's response mode to Pororo mode. Thereafter, the voice assistant can conduct a conversation with the user using Pororo's character-specific model.

도 18은 일부 실시예에 따른 응답 모드에 따른 응답 메시지의 예시를 나타내는 도면이다. 18 is a diagram illustrating an example of a response message according to a response mode according to some embodiments.

도 18을 참조하면, 디바이스(1000)는 보이스 어시스턴트의 응답 모드에 따라, 응답 모드에 대응되는 캐릭터 특화 모델을 이용할 수 있다. 또한, 디바이스(1000)는 보이스 어시스턴트의 응답 모드에 따라, 상이한 내용 및 상이한 어투의 응답 메시지를 생성할 수 있다. Referring to FIG. 18, the device 1000 may use a character specialization model corresponding to the response mode according to the response mode of the voice assistant. Further, the device 1000 may generate response messages of different content and different tone according to the response mode of the voice assistant.

도 19 및 도 20은 일부 실시예에 따른 디바이스의 블록도이다. 19 and 20 are block diagrams of devices in accordance with some embodiments.

도 19에 도시된 바와 같이, 일부 실시예에 따른 디바이스(1000)는, 통신부(1500), 출력부(1200), 메모리(1700), 및 프로세서(1300)를 포함할 수 있다. 그러나, 도 19에 도시된 구성 요소 모두가 디바이스(1000)의 필수 구성 요소인 것은 아니다. 도 19에 도시된 구성 요소보다 많은 구성 요소에 의해 디바이스(1000)가 구현될 수도 있고, 도 19에 도시된 구성 요소보다 적은 구성 요소에 의해 디바이스(1000)가 구현될 수도 있다. As illustrated in FIG. 19, the device 1000 according to some embodiments may include a communication unit 1500, an output unit 1200, a memory 1700, and a processor 1300. However, not all components shown in FIG. 19 are essential components of the device 1000. The device 1000 may be implemented by more components than those illustrated in FIG. 19, or the device 1000 may be implemented by fewer components than those illustrated in FIG. 19.

예를 들어, 도 20에 도시된 바와 같이, 일부 실시예에 따른 디바이스(1000)는, 통신부(1500), 출력부(1200), 메모리(1700), 및 프로세서(1300) 이외에 사용자 입력부(1100), 센싱부(1400), 및 A/V 입력부(1600)를 더 포함할 수도 있다. For example, as illustrated in FIG. 20, the device 1000 according to some embodiments includes a user input unit 1100 in addition to the communication unit 1500, the output unit 1200, the memory 1700, and the processor 1300. , A sensing unit 1400, and an A / V input unit 1600 may be further included.

사용자 입력부(1100)는, 사용자가 디바이스(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다. The user input unit 1100 refers to a means for a user to input data for controlling the device 1000. For example, the user input unit 1100 includes a key pad, a dome switch, and a touch pad (contact capacitive type, pressure resistive film type, infrared sensing type, surface ultrasonic conduction type, integral type) Tension measurement method, piezo effect method, etc.), a jog wheel, a jog switch, and the like, but are not limited thereto.

사용자 입력부(1100)는, 보이스 어시스턴트 서비스를 위한 사용자 입력을 수신할 수 있다. 사용자 입력부(1100)는 보이스 어시스턴트 서비스를 실행하고 보이스 어시스턴트 서비스의 응답 모드를 변경하기 위한 사용자 입력을 수신할 수 있다. The user input unit 1100 may receive a user input for a voice assistant service. The user input unit 1100 may receive a user input for executing the voice assistant service and changing the response mode of the voice assistant service.

출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다. The output unit 1200 may output an audio signal, a video signal, or a vibration signal, and the output unit 1200 may include a display unit 1210, an audio output unit 1220, and a vibration motor 1230. have.

디스플레이부(1210)는 디바이스(1000)에서 처리되는 정보를 표시 출력한다. 예를 들어, 디스플레이부(1210)는, 보이스 어시스턴트 서비스를 위한 GUI를 디스플레이할 수 있다. The display unit 1210 displays and outputs information processed by the device 1000. For example, the display unit 1210 may display a GUI for the voice assistant service.

한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디바이스(1000)의 구현 형태에 따라 디바이스(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다. Meanwhile, when the display unit 1210 and the touch pad are configured as a touch screen by forming a layer structure, the display unit 1210 may be used as an input device in addition to an output device. Depending on the implementation form of the device 1000, the device 1000 may include two or more display units 1210.

음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력부(1220)는 디바이스(1000)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음, 알림음)과 관련된 음향 신호를 출력한다. 이러한 음향 출력부(1220)에는 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다. 음향 출력부(1220)는 보이스 어시스턴트 서비스의 응답 메시지의 사운드를 출력할 수 있다. The audio output unit 1220 outputs audio data received from the communication unit 1500 or stored in the memory 1700. Further, the sound output unit 1220 outputs sound signals related to functions (for example, call signal reception sound, message reception sound, and notification sound) performed by the device 1000. The sound output unit 1220 may include a speaker, a buzzer, and the like. The audio output unit 1220 may output the sound of the response message of the voice assistant service.

진동 모터(1230)는 진동 신호를 출력할 수 있다. 예를 들어, 진동 모터(1230)는 오디오 데이터 또는 비디오 데이터(예컨대, 호신호 수신음, 메시지 수신음 등)의 출력에 대응하는 진동 신호를 출력할 수 있다. The vibration motor 1230 may output a vibration signal. For example, the vibration motor 1230 may output a vibration signal corresponding to the output of audio data or video data (eg, call signal reception sound, message reception sound, etc.).

프로세서(1300)는, 통상적으로 디바이스(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다. 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 본 명세서에서의 디바이스(1000)의 동작을 제어할 수 있다. The processor 1300 typically controls the overall operation of the device 1000. For example, the processor 1300 executes programs stored in the memory 1700, thereby allowing the user input unit 1100, the output unit 1200, the sensing unit 1400, the communication unit 1500, and the A / V input unit 1600. ) Etc. can be controlled overall. The processor 1300 may control operations of the device 1000 in the present specification by executing programs stored in the memory 1700.

구체적으로, 프로세서(1300)는, 통신부(1500)를 통하여 캐릭터 특화 모델을 수신할 수 있다. 프로세서(1300)는, 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 서버(2000)로부터 수신할 수 있다. 이 경우, 프로세서(1300)는, 서버(2000)에 의해 제공되는 캐릭터 특화 모델 리스트를 디스플레이하고, 사용자의 선택 입력에 기초하여 캐릭터 특화 모델을 서버(2000)로부터 다운로드할 수 있다. Specifically, the processor 1300 may receive a character specialization model through the communication unit 1500. The processor 1300 may receive a character specialization model generated by another device 3000 from the server 2000. In this case, the processor 1300 may display a list of character-specific models provided by the server 2000 and download the character-specific models from the server 2000 based on a user's selection input.

또한, 프로세서(1300)는, 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을, 소정의 제품(미도시)으로부터 수신할 수 있다. 근거리 통신 기능 및 데이터 저장 기능을 포함하는 제품(미도시)에 디바이스(1000)가 근접하면, 디바이스(1000)는 제품(미도시)과 근거리 통신을 형성할 수 있다. 또한, 프로세서(1300)는, 제품(미도시)으로부터 제품(미도시) 내에 저장된 캐릭터 특화 모델을 근거리 통신을 통하여 수신할 수 있다. 또한, 제품(미도시) 내에는 캐릭터 특화 모델을 다운로드하기 위한 링크 정보가 저장될 수 있으며, 디바이스(1000)는 제품(미도시) 내에 저장된 링크 정보를 제품(미도시)으로부터 수신하고, 수신된 링크 정보를 이용하여 캐릭터 특화 모델을 다운로드할 수 있다. Also, the processor 1300 may receive a character-specific model generated by another device 3000 from a predetermined product (not shown). When the device 1000 is close to a product (not shown) including a short-range communication function and a data storage function, the device 1000 may form short-range communication with the product (not shown). Also, the processor 1300 may receive a character-specific model stored in the product (not shown) from the product (not shown) through short-range communication. Also, link information for downloading a character-specific model may be stored in the product (not shown), and the device 1000 may receive link information stored in the product (not shown) from the product (not shown), and receive the received link information. You can download character-specific models using link information.

프로세서(1300)는, 보이스 어시스턴트 프로그램을 통하여 캐릭터 특화 모델에 액세스할 수 있다. 프로세서(1300)는, 디바이스(1000) 내에 설치된 보이스 어시스턴트 프로그램을 실행하고 실행된 보이스 어시스턴트 프로그램을 통하여 캐릭터 특화 모델에 액세스할 수 있다. 이 때, 보이스 어시스턴트 프로그램은, 운영체제(OS) 상에서 실행되는 애플리케이션으로 구현될 수 있고, 미들웨어를 구성하는 하나의 소프트웨어 모듈로 구현될 수 있다. The processor 1300 can access the character-specific model through the voice assistant program. The processor 1300 may execute the voice assistant program installed in the device 1000 and access the character-specific model through the executed voice assistant program. At this time, the voice assistant program may be implemented as an application running on an operating system (OS), or may be implemented as one software module constituting middleware.

프로세서(1300)는, 사용자 입력에 기초하여 디바이스(1000) 내에 설치된 복수의 캐릭터 특화 모델 중 하나를 선택할 수 있으며, 선택된 캐릭터 특화 모델에 액세스할 수 있다. 복수의 캐릭터 특화 모델 중 하나를 선택하는 사용자 입력은 캐릭터를 지칭하는 정보가 포함된 사용자의 음성 입력일 수 있다.The processor 1300 may select one of a plurality of character-specific models installed in the device 1000 based on a user input, and may access the selected character-specific model. The user input for selecting one of a plurality of character-specific models may be a user's voice input including information indicating a character.

프로세서에서 동작하는 보이스 어시스턴트 프로그램이나 보이스 어시스턴트 프로그램과 연동하여 동작하는 애플리케이션은, 사용자 입력부를 통해 캐릭터 특화 모델 중 하나를 선택하기 위한 사용자의 음성 입력을 입력 받을 수 있으며, 출력부를 통해 GUI를 제공하여 이 GUI를 통해 캐릭터 특화 모델 중 하나를 선택하기 위한 사용자 입력을 받을 수 있다.A voice assistant program running on a processor or an application operating in conjunction with a voice assistant program can receive a user's voice input for selecting one of character-specific models through the user input unit, and provide a GUI through the output unit to provide this. A user input for selecting one of the character-specific models may be received through the GUI.

프로세서(1300)는, 사용자의 음성 입력을 수신할 수 있다. 프로세서(1300)는, 보이스 어시스턴트 서비스를 제공하기 위하여 사용자의 음성 입력을 수신할 수 있으며, 캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 이용하여 사용자의 음성 입력에 대한 응답 메시지를 생성할 수 있다. 프로세서(1300)에서 동작하는 보이스 어시스턴트 프로그램은,캐릭터 특화 모델 및 보이스 어시스턴트의 모델을 이용하여, 사용자의 음성 입력을 해석하고, 사용자의 음성 입력에 대한 응답 메시지를 생성할 수 있다. The processor 1300 may receive a user's voice input. The processor 1300 may receive a user's voice input to provide a voice assistant service, and may generate a response message for the user's voice input using a character-specific model and a voice assistant model. The voice assistant program operating in the processor 1300 may analyze a user's voice input and generate a response message for the user's voice input using a character-specific model and a voice assistant model.

프로세서(1300)는, 프로세서에서 동작하는 보이스 어시스턴트 프로그램을 통해, 캐릭터 특화 모델 및 보이스 어시스턴트의 모델에, 사용자의 음성 입력 또는 사용자의 음성 입력으로부터 변환된 텍스트를 적용함으로써, 캐릭터 특화 모델 및 보이스 어시스턴트의 모델로부터 출력되는 응답 메시지를 획득할 수 있다. 이 경우, 사용자의 음성 입력에 대한 응답 메시지는, 예를 들어, 캐릭터의 특성, 캐릭터를 선호하는 사용자의 특성, 캐릭터에 관련된 콘텐트 정보 등을 고려하여 생성될 수 있다. 또한, 사용자의 음성 입력에 대한 응답 메시지는, 캐릭터의 어투에 따른 표현을 포함할 수 있다. 또한, 응답 메시지가 음향으로 출력되는 경우에, 응답 메시지가 캐릭터의 억양에 따라 출력될 수 있도록, 응답 메시지는 억양에 관한 정보를 포함할 수 있다.The processor 1300 applies the text converted from the user's voice input or the user's voice input to the character-specific model and the voice assistant's model through a voice assistant program operating in the processor, thereby allowing the character-specific model and the voice assistant to A response message output from the model can be obtained. In this case, the response message for the user's voice input may be generated in consideration of, for example, the characteristics of the character, the characteristics of the user who prefers the character, and content information related to the character. In addition, the response message for the user's voice input may include an expression according to the tone of the character. In addition, when the response message is output as sound, the response message may include information on intonation so that the response message can be output according to the accent of the character.

프로세서(1300)는 사용자의 음성 입력을 분석하여 캐릭터 특화 모델들 중 하나를 선택하고, 보이스 어시스턴트 프로그램을 통해 제공할 서비스의 내용을 결정할 수 있다. 보이스 어시스턴트 프로그램을 통해 제공할 서비스의 내용은, 사용자의 발화를 NLU(Natural Language Understanding)를 통해 분석함으로써 획득될 수 있다. 프로세서(1300)는 사용자 발화에서 Intent와, 및 Intent와 관련된 Slot 정보를 취득하여 서비스의 내용을 특정할 수 있다.The processor 1300 may analyze a user's voice input, select one of character-specific models, and determine the content of a service to be provided through a voice assistant program. The contents of the service to be provided through the voice assistant program can be obtained by analyzing the user's speech through NLU (Natural Language Understanding). The processor 1300 may acquire the intent and the slot information related to the intent in the user's speech to specify the content of the service.

프로세서(1300)는 응답 메시지를 생성하기 위하여, 서비스의 내용에 대응하는 애플리케이션으로부터 획득된 데이터를 이용할 수 있다. 프로세서(1300)는 애플리케이션으로부터 획득된 데이터를 보이스 어시스턴트 프로그램이 처리할 수 있는 형태의 데이터로 변경한 후, 변경된 데이터를 이용하여 응답 메시지를 생성할 수 있다. 응답 메시지의 생성은 DM(Dialog Management)과 NLG(Natural Language Generation)에 의해 수행될 수 있으며, DM이 응답 메시지의 유형을 결정하면 NLG이 응답 메시지의 유형에 맞는 형태로 응답 메시지를 생성할 수 있다. 또한, 프로세서(1300)는 응답 메시지를 생성하기 이전에, AP 모델을 이용하여 응답 동작을 결정할 수도 있다. The processor 1300 may use data obtained from an application corresponding to the content of the service to generate a response message. The processor 1300 may change the data obtained from the application to data in a form that the voice assistant program can process, and then generate a response message using the changed data. Generation of the response message can be performed by Dialog Management (DM) and Natural Language Generation (NLG), and when the DM determines the type of the response message, the NLG can generate a response message in a form suitable for the type of the response message. . Also, the processor 1300 may determine a response operation using the AP model before generating a response message.

프로세서(1300)는, 출력부를 통해 생성된 응답 메시지를 출력할 수 있다. 보이스 어시스턴트 프로그램이나 보이스 어시스턴트 프로그램과 연동하여 동작하는 애플리케이션은, 응답 메시지의 텍스트를 디바이스(1000)의 화면 상에 디스플레이할 수 있다. 또한, 프로세서(1300)는 응답 메시지의 사운드를 디바이스(1000)의 스피커를 통해 출력할 수 있다. The processor 1300 may output a response message generated through the output unit. A voice assistant program or an application operating in conjunction with the voice assistant program may display the text of the response message on the screen of the device 1000. Also, the processor 1300 may output the sound of the response message through the speaker of the device 1000.

한편, 프로세서(1300)는, 보이스 어시스턴트 프로그램이나 보이스 어시스턴트 프로그램과 연동하여 동작하는 애플리케이션을 통해, 보이스 어시스턴트의 응답 모드를 변경하기 위한 사용자 음성 입력을 수신할 수 있다. 프로세서(1300)는, 보이스 어시스턴트 프로그램을 통해, 캐릭터 특화 모델을 설치하고, 설치된 캐릭터 특화 모델을 호출하기 위한 콜 네임을 설정할 수 있다. 또한, 프로세서(1300)는, 보이스 어시스턴트 프로그램이나 보이스 어시스턴트 프로그램과 연동하여 동작하는 애플리케이션을 통해, 설정된 콜 네임을 부르는 사용자의 음성 입력을 수신할 수 있다. 프로세서(1300)는, 사용자의 음성 입력에 기초하여, 보이스 어시스턴트에 이용될 캐릭터 특화 모델을 선택할 수 있다. 프로세서(1300)는, 선택된 캐릭터 특화 모델에 따라, 어시스턴트의 응답 모드를 캐릭터 응답 모드로 변경할 수 있다. 예를 들어, ‘뽀로로’를 부르는 사용자의 음성 입력에 따라, 뽀로로에 대한 캐릭터 특화 모델을 선택되면, 디바이스(1000)는 어시스턴트의 응답 모드를 뽀로로 응답 모드로 변경할 수 있다. Meanwhile, the processor 1300 may receive a user voice input for changing a response mode of the voice assistant through a voice assistant program or an application that works in conjunction with the voice assistant program. The processor 1300 may install a character-specific model through a voice assistant program and set a call name for calling the installed character-specific model. In addition, the processor 1300 may receive a voice input of a user who calls a set call name through a voice assistant program or an application that works in conjunction with the voice assistant program. The processor 1300 may select a character-specific model to be used for the voice assistant based on the user's voice input. The processor 1300 may change the response mode of the assistant to the character response mode according to the selected character specialization model. For example, if a character-specific model for Pororo is selected according to a voice input of a user who calls “Poro,” the device 1000 may change the assistant's response mode to Pororo's response mode.

센싱부(1400)는, 디바이스(1000)의 상태 또는 디바이스(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다. The sensing unit 1400 may detect a state of the device 1000 or a state around the device 1000 and transmit the sensed information to the processor 1300.

센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다. The sensing unit 1400 includes a magnetic sensor 1410, an acceleration sensor 1420, a temperature / humidity sensor 1430, an infrared sensor 1440, a gyroscope sensor 1450, and a position sensor. (Eg, GPS) 1460, a barometric pressure sensor 1470, a proximity sensor 1480, and an RGB sensor (illuminance sensor) 1490, but may include at least one, but is not limited thereto. The function of each sensor can be intuitively inferred by those skilled in the art from the name, and thus detailed description will be omitted.

통신부(1500)는, 서버(2000) 및 다른 디바이스(3000)와의 통신을 위한 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다. The communication unit 1500 may include one or more components for communication with the server 2000 and other devices 3000. For example, the communication unit 1500 may include a short-range communication unit 1510, a mobile communication unit 1520, and a broadcast reception unit 1530.

근거리 통신부(short-range wireless communication unit)(151)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. The short-range wireless communication unit 151 includes a Bluetooth communication unit, a Bluetooth Low Energy (BLE) communication unit, a Near Field Communication unit, a WLAN (Wi-Fi) communication unit, a Zigbee communication unit, and an infrared ray ( IrDA, an infrared data association (WDA) communication unit, a WFD (Wi-Fi Direct) communication unit, a UWB (ultra wideband) communication unit, an Ant + communication unit, and the like, but are not limited thereto.

이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. The mobile communication unit 1520 transmits and receives wireless signals to and from at least one of a base station, an external terminal, and a server on a mobile communication network. Here, the wireless signal may include various types of data according to transmission and reception of a voice call signal, a video call signal, or a text / multimedia message.

방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 디바이스(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다. The broadcast receiving unit 1530 receives a broadcast signal and / or broadcast-related information from the outside through a broadcast channel. The broadcast channel may include a satellite channel and a terrestrial channel. Depending on the implementation example, the device 1000 may not include the broadcast receiving unit 1530.

또한, 통신부(1500)는, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위하여 필요한 정보를, 서버(2000) 및 다른 디바이스(3000)와 송수신할 수 있다. In addition, the communication unit 1500 may transmit and receive information necessary to provide a voice assistant service specialized for the character with the server 2000 and other devices 3000.

A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)은 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다. The A / V (Audio / Video) input unit 1600 is for inputting an audio signal or a video signal, which may include a camera 1610 and a microphone 1620. The camera 1610 may obtain a video frame such as a still image or a video through an image sensor in a video call mode or a shooting mode. The image captured through the image sensor may be processed through the processor 1300 or a separate image processing unit (not shown).

마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(1620)은 외부 디바이스 또는 화자로부터 음향 신호를 수신할 수 있다. 마이크로폰(1620)는 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)를 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다. The microphone 1620 receives external sound signals and processes them as electrical voice data. For example, the microphone 1620 may receive an acoustic signal from an external device or speaker. The microphone 1620 may use various noise removal algorithms to remove noise generated in the process of receiving an external sound signal.

메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 디바이스(1000)로 입력되거나 디바이스(1000)로부터 출력되는 데이터를 저장할 수도 있다. The memory 1700 may store a program for processing and controlling the processor 1300, and may store data input to or output from the device 1000.

메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. The memory 1700 is a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (for example, SD or XD memory, etc.), RAM (RAM, Random Access Memory) SRAM (Static Random Access Memory), ROM (ROM, Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk , It may include at least one type of storage medium of the optical disk.

메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다. Programs stored in the memory 1700 may be classified into a plurality of modules according to their functions. For example, the programs stored in the memory 1700 may be classified into a UI module 1710, a touch screen module 1720, and a notification module 1730. .

UI 모듈(1710)은, 애플리케이션 별로 디바이스(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다. The UI module 1710 may provide specialized UIs, GUIs, and the like that interwork with the device 1000 for each application. The touch screen module 1720 may detect a touch gesture on the user's touch screen and transmit information regarding the touch gesture to the processor 1300. The touch screen module 1720 according to some embodiments may recognize and analyze a touch code. The touch screen module 1720 may be configured with separate hardware including a controller.

터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 또한, 터치스크린의 터치를 감지하기 위한 센서의 일례로 근접 센서가 있다. 사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다. Various sensors may be provided inside or near the touch screen to sense a touch or proximity touch of the touch screen. In addition, a proximity sensor is an example of a sensor for sensing a touch of a touch screen. The user's touch gesture may include tap, touch & hold, double tap, drag, panning, flick, drag and drop, swipe, and the like.

알림 모듈(1730)은 디바이스(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다. The notification module 1730 may generate a signal for notifying the occurrence of an event of the device 1000.

도 21은 일부 실시예에 따른 서버의 블록도이다. 21 is a block diagram of a server according to some embodiments.

도 21을 참조하면, 일부 실시예에 따른 서버(2000)는 통신부(2100), DB(2200) 및 프로세서(2300)를 포함할 수 있다. Referring to FIG. 21, the server 2000 according to some embodiments may include a communication unit 2100, a DB 2200, and a processor 2300.

통신부(2100)는, 디바이스(1000) 및 다른 디바이스(3000)와의 통신을 위한 하나 이상의 구성요소를 포함할 수 있다. The communication unit 2100 may include one or more components for communication with the device 1000 and other devices 3000.

DB(2200)는, 프로세서(2300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 서버(2000)로 입력되거나 서버(2000)로부터 출력되는 데이터를 저장할 수도 있다. The DB 2200 may store a program for processing and control of the processor 2300, and may store data input to or output from the server 2000.

DB(2200)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있으나, 이에 제한되지 않는다. DB 2200 includes flash memory type, hard disk type, multimedia card micro type, card type memory (for example, SD or XD memory, etc.), RAM (RAM, Random Access Memory) SRAM (Static Random Access Memory), ROM (ROM, Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk , It may include at least one type of storage medium of the optical disk, but is not limited thereto.

DB(2200)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류될 수 있다. Programs stored in the DB 2200 may be classified into a plurality of modules according to their functions.

프로세서(2300)는, 통상적으로 서버(2000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2300)는, DB(2200)에 저장된 프로그램들을 실행함으로써, 통신부(2100) 및 DB(2200) 등을 전반적으로 제어할 수 있다. 프로세서(1300)는, DB(2200)에 저장된 프로그램들을 실행함으로써, 본 명세서에서의 서버(2000)의 동작을 제어할 수 있다. 프로세서(2300)는, 보이스 어시스턴트 서비스에서 캐릭터 특화 모델이 이용될 수 있도록, 캐릭터 특화 모델의 생성 및 이용을 관리할 수 있다. The processor 2300 typically controls the overall operation of the server 2000. For example, the processor 2300 may control the communication unit 2100, the DB 2200, and the like by executing programs stored in the DB 2200. The processor 1300 may control operations of the server 2000 in the present specification by executing programs stored in the DB 2200. The processor 2300 may manage the creation and use of the character-specific model so that the character-specific model can be used in the voice assistant service.

구체적으로, 프로세서(2300)는, 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 저장할 수 있다. 모델 생성 툴은, 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴은, 예를 들어, SDK (Software Develop Kit)일 수 있으며, 캐릭터 특화 모델을 생성하기 위한 복수의 기능을 제공할 수 있다. 모델 생성 툴은, 예를 들어, 사용자의 음성 입력을 해석하기 위한 학습 모델을 생성하는 기능, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 학습 모델을 생성하는 기능, 및 응답 메시지의 음성 특성을 결정하기 위한 학습 모델을 생성하는 기능을 포함할 수 있으나, 이에 제한되지 않는다. Specifically, the processor 2300 may store a model generation tool for generating a character-specific model. The model generation tool may be, for example, a model development tool (SDK) for generating a character-specific model, and may provide a plurality of functions for generating a character-specific model. The model generation tool includes, for example, a function for generating a learning model for interpreting a user's voice input, a function for generating a learning model for generating a response message for the user's voice input, and voice characteristics of the response message. It may include a function for generating a learning model for determining, but is not limited thereto.

프로세서(2300)는, 캐릭터 특화 모델을 생성하기 위한 모델 생성 툴을 3rd party의 다른 디바이스(3000)게 제공할 수 있다. 다른 디바이스(3000)의 사용자는 캐릭터에 특화된 학습 모델을 생성하고 캐릭터에 관한 서비스를 제공할 수 있으며, 다른 디바이스(3000)는 서버(2000)에 접속하여 서버(2000)에게 모델 생성 툴을 요청할 수 있다. The processor 2300 may provide a model generation tool for generating a character-specific model to another device 3000 of the 3rd party. The user of the other device 3000 may generate a learning model specialized for the character and provide a service related to the character, and the other device 3000 may access the server 2000 and request the server 2000 a model generation tool. have.

프로세서(2300)는, 다른 디바이스(3000)에 의해 생성된 캐릭터 특화 모델을 수신할 수 있다. 다른 디바이스(3000)는 모델 생성 툴을 이용하여 캐릭터 특화 모델을 생성할 수 있으며, 생성된 캐릭터 특화 모델을 서버(2000)에 업로드할 수 있다. 캐릭터 특화 모델은, 예를 들어, 사용자의 음성 입력을 해석하기 위한 학습 모델, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 학습 모델, 및 응답 메시지의 음성 특성을 결정하기 위한 학습 모델을 포함할 수 있으나, 이에 제한되지 않는다. 예를 들어, 사용자의 음성 입력을 해석하기 위한 학습 모델은 ASR 모델 및 NLU 모델을 포함할 수 있고, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 학습 모델은 AP 모델, DM 모델 및 NLG 모델을 포함할 수 있으며, 응답 메시지의 음성 특성을 결정하기 위한 학습 모델은 TTS 모델을 포함할 수 있으나, 이에 제한되지 않는다. 프로세서(2300)는, 수신된 캐릭터 특화 모델을 3rd party 별로 DB에 저장할 수 있다. The processor 2300 may receive a character specialization model generated by another device 3000. The other device 3000 may generate a character-specific model using a model generation tool, and upload the generated character-specific model to the server 2000. The character specialization model may include, for example, a learning model for interpreting a user's voice input, a learning model for generating a response message for the user's voice input, and a learning model for determining a voice characteristic of the response message. However, it is not limited thereto. For example, the learning model for interpreting a user's voice input may include an ASR model and an NLU model, and the learning model for generating a response message for the user's voice input includes an AP model, a DM model, and an NLG model. A learning model for determining voice characteristics of a response message may include a TTS model, but is not limited thereto. The processor 2300 may store the received character specialization model in the DB for each 3rd party.

프로세서(2300)는, 캐릭터 특화 모델의 목록을 디바이스(1000)에게 제공할 수 있으며, 프로세서(2300)는, 캐릭터 특화 모델의 목록에서 디바이스(1000)에 의해 선택된 캐릭터 특화 모델을 디바이스(1000)에게 제공할 수 있다. The processor 2300 may provide the device 1000 with a list of character-specific models, and the processor 2300 may provide the device 1000 with a character-specific model selected by the device 1000 in the list of character-specific models. Can provide.

한편, 다른 디바이스(3000)는 디바이스(1000)의 구성 요소 또는 서버(2000)의 구성 요소로 구현될 수 있으며, 다른 디바이스(3000) 내의 프로세서(미도시)는 본 명세서에서의 다른 디바이스(3000)의 동작을 제어할 수 있다. Meanwhile, the other device 3000 may be implemented as a component of the device 1000 or a component of the server 2000, and a processor (not shown) in the other device 3000 is another device 3000 in the present specification. You can control the operation.

도 22는 일부 실시예에 따른 프로세서의 블록도이다. 22 is a block diagram of a processor in accordance with some embodiments.

설명의 편의 상, 도 22의 프로세서(1300)가 디바이스(1000) 내의 프로세서(1300)인 것으로 설명하였지만, 이에 제한되지 않는다. 도 22에서의 프로세서(1300)의 동작은, 서버(2000) 내의 프로세서(2300) 또는 다른 디바이스(3000) 내의 프로세서(미도시)에 의해 구현될 수도 있다. For convenience of description, the processor 1300 of FIG. 22 is described as being the processor 1300 in the device 1000, but is not limited thereto. The operation of the processor 1300 in FIG. 22 may be implemented by a processor 2300 in the server 2000 or a processor (not shown) in another device 3000.

도 22를 참조하면, 일부 실시예에 따른 프로세서(1300)는 데이터 학습부(1310) 및 데이터 인식부(1320)를 포함할 수 있다. Referring to FIG. 22, the processor 1300 according to some embodiments may include a data learning unit 1310 and a data recognition unit 1320.

데이터 학습부(1310)는 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 기준을 학습할 수 있다. 데이터 학습부(1310)는 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 캐릭터에 특화된 보이스 어시스턴트 서비스를 어떻게 제공할 지에 관한 기준을 학습할 수 있다. 데이터 학습부(1310)는 사용자의 음성 입력을 어떻게 해석하고, 응답 메시지를 어떻게 생성하고, 응답 메시지를 어떻게 출력할 지에 관한 기준을 학습할 수 있다. 데이터 학습부(1310)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 캐릭터 특화 모델에 적용함으로써, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 기준을 학습할 수 있다. The data learning unit 1310 may learn criteria for providing a voice assistant service specialized for the character. The data learning unit 1310 may learn criteria on which data to use to provide a voice assistant service specialized for the character, and how to provide a voice assistant service specialized for the character using the data. The data learning unit 1310 may learn criteria for interpreting a user's voice input, generating a response message, and outputting a response message. The data learning unit 1310 acquires data to be used for learning, and applies the obtained data to a character-specific model, which will be described later, to learn criteria for providing a voice assistant service specialized for the character.

데이터 인식부(1320)는 입력 데이터에 기초하여, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 출력 데이터를 제공할 수 있다. 데이터 인식부(1320)는 학습된 캐릭터 특화 모델을 이용하여, 소정의 데이터로부터 사용자의 음성 입력을 해석하고, 응답 메시지를 생성하고, 응답 메시지의 억양을 결정할 수 있다. 데이터 인식부(1320)는 학습에 의한 기 설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 캐릭터 특화 모델을 이용함으로써, 소정의 데이터에 기초한 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 출력 데이터를 제공할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 캐릭터 특화 모델에 의해 출력된 결과 값은, 캐릭터 특화 모델을 갱신하는데 이용될 수 있다. 캐릭터 특화 모델은, 예를 들어, 사용자의 음성 입력을 해석하기 위한 학습 모델, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 학습 모델, 및 응답 메시지의 음성 특성을 결정하기 위한 학습 모델을 포함할 수 있으나, 이에 제한되지 않는다. 예를 들어, 사용자의 음성 입력을 해석하기 위한 학습 모델은 ASR 모델 및 NLU 모델을 포함할 수 있고, 사용자의 음성 입력에 대한 응답 메시지를 생성하기 위한 학습 모델은 AP 모델, DM 모델 및 NLG 모델을 포함할 수 있으며, 응답 메시지의 음성 특성을 결정하기 위한 학습 모델은 TTS 모델을 포함할 수 있으나, 이에 제한되지 않는다.The data recognition unit 1320 may provide output data for providing a voice assistant service specialized for the character based on the input data. The data recognition unit 1320 may analyze a user's voice input from predetermined data, generate a response message, and determine an accent of the response message using the learned character specialization model. The data recognition unit 1320 provides a voice assistant service specialized for a character based on the predetermined data by acquiring predetermined data according to a preset criterion by learning and using the character-specific model using the obtained data as an input value It can provide the output data to do. In addition, the result value output by the character-specific model using the obtained data as an input value may be used to update the character-specific model. The character specialization model may include, for example, a learning model for interpreting a user's voice input, a learning model for generating a response message for the user's voice input, and a learning model for determining a voice characteristic of the response message. However, it is not limited thereto. For example, the learning model for interpreting a user's voice input may include an ASR model and an NLU model, and the learning model for generating a response message for the user's voice input includes an AP model, a DM model, and an NLG model. A learning model for determining voice characteristics of a response message may include a TTS model, but is not limited thereto.

데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다. At least one of the data learning unit 1310 and the data recognition unit 1320 may be manufactured in the form of at least one hardware chip and mounted on an electronic device. For example, at least one of the data learning unit 1310 and the data recognition unit 1320 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or an existing general-purpose processor (for example, a CPU) Alternatively, it may be manufactured as a part of an application processor or a graphics-only processor (for example, a GPU) and mounted on various electronic devices described above.

이 경우, 데이터 학습부(1310) 및 데이터 인식부(1320)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1310) 및 데이터 인식부(1320)는 유선 또는 무선으로 통하여, 데이터 학습부(1310)가 구축한 모델 정보를 데이터 인식부(1320)로 제공할 수도 있고, 데이터 인식부(1320)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1310)로 제공될 수도 있다. In this case, the data learning unit 1310 and the data recognition unit 1320 may be mounted on one electronic device or may be mounted on separate electronic devices. For example, one of the data learning unit 1310 and the data recognition unit 1320 may be included in the electronic device, and the other may be included in the server. In addition, the data learning unit 1310 and the data recognition unit 1320 may provide the model information constructed by the data learning unit 1310 to the data recognition unit 1320 through wired or wireless communication. 1320) may be provided to the data learning unit 1310 as additional learning data.

한편, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다. Meanwhile, at least one of the data learning unit 1310 and the data recognition unit 1320 may be implemented as a software module. When at least one of the data learning unit 1310 and the data recognition unit 1320 is implemented as a software module (or a program module including an instruction), the software module is a computer-readable, non-transitory readable It may be stored in a readable media (non-transitory computer readable media). Also, in this case, at least one software module may be provided by an operating system (OS) or may be provided by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS), and the other may be provided by a predetermined application.

도 23은 일부 실시예에 따른 데이터 학습부의 블록도이다. 23 is a block diagram of a data learning unit according to some embodiments.

도 23을 참조하면, 일부 실시예에 따른 데이터 학습부(1310)는 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5)를 포함할 수 있다. Referring to FIG. 23, the data learning unit 1310 according to some embodiments includes a data acquisition unit 1310-1, a pre-processing unit 1310-2, a learning data selection unit 1310-3, and a model learning unit 1310. -4) and a model evaluation unit 1310-5.

데이터 획득부(1310-1)는 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하는데 필요한 데이터를 획득할 수 있다. 데이터 획득부(1310-1)는 캐릭터에 특화된 보이스 어시스턴트 서비스의 제공을 위한 학습을 위하여 필요한 데이터를 획득할 수 있다. 예를 들어, 데이터 획득부(1310-1)는 도 10의 데이터를 획득할 수 있으나, 이에 제한되지 않는다. The data acquisition unit 1310-1 may acquire data necessary to provide a voice assistant service specialized for the character. The data acquisition unit 1310-1 may acquire data necessary for learning to provide a voice assistant service specialized for the character. For example, the data acquisition unit 1310-1 may acquire the data of FIG. 10, but is not limited thereto.

전처리부(1310-2)는 캐릭터에 특화된 보이스 어시스턴트 서비스의 제공을 위한 학습에, 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1310-2)는, 후술할 모델 학습부(1310-4)가 캐릭터에 특화된 보이스 어시스턴트 서비스의 제공을 위한 학습을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다. The pre-processing unit 1310-2 may pre-process the acquired data so that the acquired data can be used for learning to provide a voice assistant service specialized for the character. The pre-processing unit 1310-2 processes the acquired data in a preset format so that the model learning unit 1310-4, which will be described later, can use the acquired data for learning to provide a character-specific voice assistant service. can do.

학습 데이터 선택부(1310-3)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1310-4)에 제공될 수 있다. 학습 데이터 선택부(1310-3)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1310-3)는 후술할 모델 학습부(1310-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다. The learning data selector 1310-3 may select data necessary for learning from pre-processed data. The selected data may be provided to the model learning unit 1310-4. The learning data selector 1310-3 may select data necessary for learning from pre-processed data according to preset criteria. Further, the learning data selector 1310-3 may select data according to a preset criterion by learning by the model learning unit 1310-4 described later.

모델 학습부(1310-4)는 학습 데이터에 기초하여 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 기준을 학습할 수 있다. 또한, 모델 학습부(1310-4)는 어떤 학습 데이터를 이용해야 하는 지에 대한 기준을 학습할 수도 있다. The model learning unit 1310-4 may learn criteria for providing a voice assistant service specialized for the character based on the learning data. In addition, the model learning unit 1310-4 may also learn the criteria for what training data to use.

또한, 모델 학습부(1310-4)는 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위하여 이용되는 캐릭터 특화 모델을 학습시킬 수 있다. 이 경우, 캐릭터 특화 모델은 미리 구축된 모델일 수 있다. 예를 들어, 캐릭터 특화 모델은 기본 학습 데이터를 입력 받아 미리 구축된 모델일 수 있다. In addition, the model learning unit 1310-4 may train a character-specific model used to provide a voice assistant service specialized for the character. In this case, the character-specific model may be a pre-built model. For example, the character-specific model may be a pre-built model that receives basic learning data.

또는, 모델 학습부(1310-4)는 캐릭터 특화 모델을 생성하고, 생성된 캐릭터 특화 모델을 학습시킬 수도 있다. 또한, 캐릭터 특화 모델은, 복수의 학습 모델을 포함할 수 있다. 예를 들어, 캐릭터 특화 모델은, 사용자의 입력 음성을 해석하기 위한 학습 모델, 사용자에게 제공할 응답 메시지를 생성하기 위한 학습 모델, 및 응답 메시지의 출력 특성을 결정하기 위한 학습 모델을 포함할 수 있으나, 이에 제한되지 않는다. Alternatively, the model learning unit 1310-4 may generate a character-specific model and train the generated character-specific model. Further, the character-specific model may include a plurality of learning models. For example, the character specialization model may include a learning model for interpreting a user's input voice, a learning model for generating a response message to be provided to the user, and a learning model for determining an output characteristic of the response message. , But is not limited to this.

캐릭터 특화 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 캐릭터 특화 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 캐릭터 특화 모델로서 사용될 수 있으나, 이에 한정되지 않는다. The character-specific model may be constructed in consideration of the application field of the recognition model, the purpose of learning, or the computer performance of the device. The character-specific model may be, for example, a model based on a neural network. For example, a model such as a deep neural network (DNN), a recurrent neural network (RNN), or a bidirectional recurrent deep neural network (BRDNN) may be used as a character-specific model, but is not limited thereto.

다양한 실시예에 따르면, 모델 학습부(1310-4)는 미리 구축된 캐릭터 특화 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 캐릭터 특화 모델을 학습할 캐릭터 특화 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 캐릭터 특화 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다. According to various embodiments, the model learning unit 1310-4 is a character-specific model for learning a character-specific model having a high relationship between input learning data and basic learning data when a plurality of pre-built character-specific models exist. Can decide. In this case, the basic learning data may be pre-classified for each data type, and the character specialization model may be pre-built for each data type. For example, the basic training data is classified into various criteria such as the region where the training data is generated, the time when the training data is generated, the size of the training data, the genre of the training data, the creator of the training data, and the type of object in the training data. It may be.

또한, 모델 학습부(1310-4)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 캐릭터 특화 모델을 학습시킬 수 있다. In addition, the model learning unit 1310-4 may train a character-specific model using, for example, a learning algorithm including an error back-propagation or a gradient descent method. .

또한, 모델 학습부(1310-4)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 캐릭터 특화 모델을 학습시킬 수 있다. 또한, 모델 학습부(1310-4)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 캐릭터 특화 모델을 학습시킬 수 있다. 또한, 모델 학습부(1310-4)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 캐릭터 특화 모델을 학습시킬 수 있다. In addition, the model learning unit 1310-4 may train a character-specific model, for example, through supervised learning using learning data as an input value. In addition, the model learning unit 1310-4, for example, through unsupervised learning to discover the criteria for determining the situation by learning the type of data necessary for situation determination without much guidance, for example, You can train character-specific models. In addition, the model learning unit 1310-4 may, for example, train a character-specific model through reinforcement learning using feedback on whether a result of situation determination according to learning is correct.

또한, 캐릭터 특화 모델이 학습되면, 모델 학습부(1310-4)는 학습된 캐릭터 특화 모델을 저장할 수 있다. 이 경우, 모델 학습부(1310-4)는 학습된 캐릭터 특화 모델을 데이터 인식부(1320)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1310-4)는 학습된 캐릭터 특화 모델을 후술할 데이터 인식부(1320)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1310-4)는 학습된 캐릭터 특화 모델을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다. In addition, when the character-specific model is learned, the model learning unit 1310-4 may store the learned character-specific model. In this case, the model learning unit 1310-4 may store the trained character-specific model in the memory of the electronic device including the data recognition unit 1320. Alternatively, the model learning unit 1310-4 may store the learned character-specific model in the memory of the electronic device including the data recognition unit 1320 to be described later. Alternatively, the model learning unit 1310-4 may store the trained character-specific model in the memory of a server connected to the electronic device through a wired or wireless network.

이 경우, 학습된 캐릭터 특화 모델이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다. In this case, the memory in which the learned character specialization model is stored may store, for example, instructions or data related to at least one other component of the electronic device. Also, the memory may store software and / or programs. The program may include, for example, a kernel, middleware, application programming interface (API) and / or application program (or "application"), and the like.

모델 평가부(1310-5)는 캐릭터 특화 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1310-4)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 캐릭터 특화 모델을 평가하기 위한 기 설정된 데이터일 수 있다. The model evaluation unit 1310-5 may input evaluation data into the character-specific model and, if the recognition result output from the evaluation data does not satisfy a predetermined criterion, may cause the model learning unit 1310-4 to learn again. have. In this case, the evaluation data may be preset data for evaluating the character-specific model.

예를 들어, 모델 평가부(1310-5)는 평가 데이터에 대한 학습된 캐릭터 특화 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 캐릭터 특화 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1310-5)는 학습된 캐릭터 특화 모델이 적합하지 않은 것으로 평가할 수 있다. For example, the model evaluator 1310-5, among the recognition results of the learned character-specific model for the evaluation data, sets a predetermined criterion when the number or ratio of the evaluation data whose recognition result is not accurate exceeds a preset threshold. It can be evaluated as unsatisfactory. For example, when a predetermined criterion is defined as a ratio of 2%, when the trained character-specific model outputs an incorrect recognition result with respect to evaluation data exceeding 20 out of a total of 1000 evaluation data, the model evaluation unit 1310-5 Can evaluate that the trained character-specific model is not suitable.

한편, 학습된 캐릭터 특화 모델이 복수 개가 존재하는 경우, 모델 평가부(1310-5)는 각각의 학습된 캐릭터 특화 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 캐릭터 특화 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1310-5)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 캐릭터 특화 모델로서 결정할 수 있다. On the other hand, when there are a plurality of learned character specialization models, the model evaluator 1310-5 evaluates whether or not the predetermined criteria are satisfied for each trained character specialization model, and the final character specialization of the model that satisfies the predetermined criteria. You can decide as a model. In this case, when there are a plurality of models satisfying a predetermined criterion, the model evaluator 1310-5 may determine any one or a predetermined number of models preset in order of highest evaluation score as the final character-specific model.

한편, 데이터 학습부(1310) 내의 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다. Meanwhile, the data acquisition unit 1310-1, the pre-processing unit 1310-2, the learning data selection unit 1310-3, the model learning unit 1310-4, and the model evaluation unit 1310 in the data learning unit 1310 At least one of -5) may be manufactured in the form of at least one hardware chip and mounted on an electronic device. For example, at least one of the data acquisition unit 1310-1, the pre-processing unit 1310-2, the training data selection unit 1310-3, the model learning unit 1310-4, and the model evaluation unit 1310-5. One may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or as part of an existing general-purpose processor (eg, CPU or application processor) or graphics-only processor (eg, GPU). It may be mounted on various electronic devices.

또한, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다. In addition, the data acquisition unit 1310-1, the pre-processing unit 1310-2, the learning data selection unit 1310-3, the model learning unit 1310-4 and the model evaluation unit 1310-5 are one electronic It may be mounted on the device, or may be mounted on separate electronic devices, respectively. For example, some of the data acquisition unit 1310-1, the pre-processing unit 1310-2, the training data selection unit 1310-3, the model learning unit 1310-4, and the model evaluation unit 1310-5 Is included in the electronic device, and the other part may be included in the server.

또한, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다. In addition, at least one of the data acquisition unit 1310-1, the pre-processing unit 1310-2, the learning data selection unit 1310-3, the model learning unit 1310-4, and the model evaluation unit 1310-5 It can be implemented as a software module. At least one of the data acquisition unit 1310-1, the pre-processing unit 1310-2, the learning data selection unit 1310-3, the model learning unit 1310-4, and the model evaluation unit 1310-5 is a software module. When implemented as (or a program module including an instruction), the software module may be stored in a computer-readable non-transitory computer readable media. Also, in this case, at least one software module may be provided by an operating system (OS) or may be provided by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS), and the other may be provided by a predetermined application.

도 24는 일부 실시예에 따른 데이터 인식부의 블록도이다. 24 is a block diagram of a data recognition unit according to some embodiments.

도 24를 참조하면, 일부 실시예에 따른 데이터 인식부(1320)는 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5)를 포함할 수 있다. Referring to FIG. 24, the data recognition unit 1320 according to some embodiments includes a data acquisition unit 1320-1, a pre-processing unit 1320-2, a recognition data selection unit 1320-3, and a recognition result providing unit ( 1320-4) and a model update unit 1320-5.

데이터 획득부(1320-1)는 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하는데 필요한 데이터를 획득할 수 있으며, 전처리부(1320-2)는 획득된 데이터를 전처리할 수 있다. 전처리부(1320-2)는 후술할 인식 결과 제공부(1320-4)가 캐릭터에 특화된 보이스 어시스턴트 서비스의 제공을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다. 데이터 획득부(1320-1)는, 예를 들어, 도 10에서의 데이터를 획득할 수 있으나, 이에 제한되지 않는다. The data acquisition unit 1320-1 may acquire data necessary to provide a voice assistant service specialized for the character, and the pre-processing unit 1320-2 may preprocess the acquired data. The pre-processing unit 1320-2 may process the acquired data in a preset format so that the recognition result providing unit 1320-4, which will be described later, can use the acquired data to provide a voice assistant service specialized for the character. . The data acquisition unit 1320-1 may acquire data in FIG. 10, for example, but is not limited thereto.

인식 데이터 선택부(1320-3)는 전처리된 데이터 중에서 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1320-4)에게 제공될 수 있다. 인식 데이터 선택부(1320-3)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1320-3)는 후술할 모델 학습부(1310-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다. The recognition data selection unit 1320-3 may select necessary data from pre-processed data. The selected data may be provided to the recognition result providing unit 1320-4. The recognition data selection unit 1320-3 may select some or all of the pre-processed data according to a preset criterion. Further, the recognition data selection unit 1320-3 may select data according to a preset criterion by learning by the model learning unit 1310-4, which will be described later.

인식 결과 제공부(1320-4)는 선택된 데이터를 캐릭터 특화 모델에 적용하여 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 데이터를 출력할 수 있다. 인식 결과 제공부(1320-4)는 데이터의 인식 목적에 따른 출력 데이터를 제공할 수 있다. 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 캐릭터 특화 모델에 적용할 수 있다. 또한, 인식 결과는 캐릭터 특화 모델에 의해 결정될 수 있다. The recognition result providing unit 1320-4 may apply the selected data to the character-specific model and output data for providing a voice assistant service specialized for the character. The recognition result providing unit 1320-4 may provide output data according to the recognition purpose of the data. The recognition result providing unit 1320-4 may apply the selected data to the character-specific model by using the data selected by the recognition data selection unit 1320-3 as an input value. Also, the recognition result may be determined by a character-specific model.

예를 들어, 캐릭터 특화 모델은, 사용자의 입력 음성을 해석하기 위한 학습 모델, 사용자에게 제공할 응답 메시지를 생성하기 위한 학습 모델, 및 응답 메시지의 출력 특성을 결정하기 위한 학습 모델을 포함할 수 있다. 또한, 예를 들어, 캐릭터 특화 모델은, 사용자의 음성 입력의 해석 결과, 사용자에게 제공할 응답 메시지, 및 응답 메시지의 음성 특성 값을 출력할 수 있다. For example, the character specialization model may include a learning model for interpreting a user's input voice, a learning model for generating a response message to be provided to the user, and a learning model for determining output characteristics of the response message. . In addition, for example, the character specialization model may output a result of the analysis of the user's voice input, a response message to be provided to the user, and a voice characteristic value of the response message.

모델 갱신부(1320-5)는 인식 결과 제공부(1320-4)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 캐릭터 특화 모델이 갱신되도록 할 수 있다. 예를 들어, 모델 갱신부(1320-5)는 인식 결과 제공부(1320-4)에 의해 제공되는 인식 결과를 모델 학습부(1310-4)에게 제공함으로써, 모델 학습부(1310-4)가 캐릭터 특화 모델을 갱신하도록 할 수 있다. The model updating unit 1320-5 may allow the character-specific model to be updated based on the evaluation of the recognition result provided by the recognition result providing unit 1320-4. For example, the model updating unit 1320-5 provides the model learning unit 1310-4 with the recognition result provided by the recognition result providing unit 1320-4, so that the model learning unit 1310-4 Character-specific models can be updated.

한편, 데이터 인식부(1320) 내의 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다. Meanwhile, the data acquisition unit 1320-1, the pre-processing unit 1320-2, the recognition data selection unit 1320-3, the recognition result providing unit 1320-4, and the model update unit in the data recognition unit 1320 ( At least one of 1320-5) may be manufactured in the form of at least one hardware chip and mounted on an electronic device. For example, among the data acquisition unit 1320-1, preprocessing unit 1320-2, recognition data selection unit 1320-3, recognition result providing unit 1320-4, and model update unit 1320-5 At least one may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or it may be manufactured as part of an existing general purpose processor (for example, CPU or application processor) or graphics only processor (for example, GPU), It may be mounted on various electronic devices.

또한, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다. In addition, the data acquisition unit 1320-1, the pre-processing unit 1320-2, the recognition data selection unit 1320-3, the recognition result providing unit 1320-4 and the model update unit 1320-5 are one It may be mounted on an electronic device, or may be mounted on separate electronic devices, respectively. For example, among the data acquisition unit 1320-1, preprocessing unit 1320-2, recognition data selection unit 1320-3, recognition result providing unit 1320-4, and model update unit 1320-5 Some may be included in the electronic device, and others may be included in the server.

또한, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다. In addition, at least one of the data acquisition unit 1320-1, the pre-processing unit 1320-2, the recognition data selection unit 1320-3, the recognition result providing unit 1320-4 and the model update unit 1320-5 Can be implemented as a software module. At least one of the data acquisition unit 1320-1, the pre-processing unit 1320-2, the recognition data selection unit 1320-3, the recognition result providing unit 1320-4, and the model update unit 1320-5 is software. When implemented as a module (or a program module including an instruction), the software module may be stored in a computer-readable non-transitory computer readable media. Also, in this case, at least one software module may be provided by an operating system (OS) or may be provided by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS), and the other may be provided by a predetermined application.

도 25는 일부 실시예에 따른 디바이스 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다. 25 is a diagram illustrating an example of learning and recognizing data by interworking a device and a server according to some embodiments.

도 25를 참조하면, 서버(2000)는 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 기준을 학습할 수 있으며, 디바이스(1000)는 서버(2000)에 의한 학습 결과에 기초하여 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 수 있다. Referring to FIG. 25, the server 2000 may learn a criterion for providing a character-specific voice assistant service, and the device 1000 may use a character-specific voice assistant service based on the learning result by the server 2000 Can provide.

이 경우, 서버(2000)의 모델 학습부(2340)는 도 23에 도시된 데이터 학습부(1310)의 기능을 수행할 수 있다. 서버(2000)의 모델 학습부(2340)는 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하기 위한 기준을 학습할 수 있다. 모델 학습부(2340)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 캐릭터 특화 모델에 적용함으로써, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 수 있다. In this case, the model learning unit 2340 of the server 2000 may perform the function of the data learning unit 1310 illustrated in FIG. 23. The model learning unit 2340 of the server 2000 may learn criteria for providing a voice assistant service specialized for the character. The model learning unit 2340 may provide a voice assistant service specialized for a character by acquiring data to be used for training and applying the acquired data to a character-specific model to be described later.

또한, 디바이스(1000)의 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 서버(2000)에 의해 생성된 캐릭터 특화 모델에 적용하여 상황을 판단할 수 있다. 예를 들어, 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 서버(2000)에게 전송하고, 서버(2000)가 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 인식 모델에 적용하여, 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 것을 요청할 수 있다. 또한, 인식 결과 제공부(1320-4)는 캐릭터에 특화된 보이스 어시스턴트 서비스를 서버(2000)로부터 수신할 수 있다. In addition, the recognition result providing unit 1320-4 of the device 1000 may determine the situation by applying the data selected by the recognition data selection unit 1320-3 to the character-specific model generated by the server 2000. have. For example, the recognition result providing unit 1320-4 transmits data selected by the recognition data selection unit 1320-3 to the server 2000, and the server 2000 recognizes the data selection unit 1320-3. By applying the data selected by to the recognition model, it is possible to request to provide a voice assistant service specialized for the character. In addition, the recognition result providing unit 1320-4 may receive a voice assistant service specialized for the character from the server 2000.

또는, 디바이스(1000)의 인식 결과 제공부(1320-4)는 서버(2000)에 의해 생성된 인식 모델을 서버(2000)로부터 수신하고, 수신된 인식 모델을 이용하여 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공할 수 있다. 이 경우, 디바이스(1000)의 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 서버(2000)로부터 수신된 캐릭터 특화 모델에 적용할 수 있다. Alternatively, the recognition result providing unit 1320-4 of the device 1000 receives the recognition model generated by the server 2000 from the server 2000, and uses the received recognition model to provide a voice assistant service specialized for the character. Can provide. In this case, the recognition result providing unit 1320-4 of the device 1000 may apply the data selected by the recognition data selection unit 1320-3 to the character-specific model received from the server 2000.

한편, 도 25에서는 디바이스(1000) 및 서버(2000)가 연동함으로써 캐릭터에 특화된 보이스 어시스턴트 서비스를 제공하는 것으로 설명하였지만, 이에 제한되지 않는다. 디바이스(1000), 서버(2000), 및 다른 디바이스(3000)가 함께 연동함으로써, 캐릭터에 특화된 보이스 어시스턴트 서비스가 제공될 수도 있다. 이 경우, 서버(2000)는 보이스 어시스턴트 서비스를 위한 일반적인 학습 모델을 관리하고, 다른 디바이스(3000)는 캐릭터 특화 모델을 관리할 수 있다. On the other hand, in FIG. 25, it has been described that the device 1000 and the server 2000 provide a voice assistant service specialized for a character by interworking, but is not limited thereto. When the device 1000, the server 2000, and other devices 3000 work together, a voice assistant service specialized for a character may be provided. In this case, the server 2000 manages a general learning model for the voice assistant service, and the other device 3000 manages a character-specific model.

일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. Some embodiments may also be embodied in the form of a recording medium comprising instructions executable by a computer, such as program modules, being executed by a computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. In addition, computer readable media may include computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다. In addition, in this specification, “part” may be a hardware component such as a processor or circuit, and / or a software component executed by a hardware component such as a processor.

전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다. The foregoing description of the present disclosure is for illustration only, and those skilled in the art to which the present disclosure pertains can understand that the present invention can be easily modified into other specific forms without changing the technical spirit or essential features of the present disclosure. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.

본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present disclosure is indicated by the following claims rather than the above detailed description, and it should be interpreted that all changes or modifications derived from the meaning and scope of the claims and equivalent concepts thereof are included in the scope of the present disclosure. do.

Claims (20)

디바이스가 보이스 어시스턴트 프로그램을 통해 보이스 어시스턴트 서비스를 제공하는 방법에 있어서,
외부 디바이스로부터 캐릭터 특화 모델을 수신하는 동작;
캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력을 수신하는 동작;
상기 캐릭터를 지시하는 상기 단어에 따라 상기 캐릭터 특화 모델을 결정하는 동작;
상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 상기 문장에 대한 응답 메시지를 생성하는 동작; 및
상기 생성된 응답 메시지를 출력하는 동작; 을 포함하는, 방법.
A method for a device to provide a voice assistant service through a voice assistant program,
Receiving a character specialization model from an external device;
Receiving a user voice input including a word indicating a character and a sentence requesting a response from the voice assistant program;
Determining the character specialization model according to the word indicating the character;
Generating a response message for the sentence requesting a response from the voice assistant program using the character-specific model; And
Outputting the generated response message; How to include.
제1 항에 있어서,
상기 캐릭터 특화 모델은, 음성 해석을 위한 제1 NLU (Natural Language Understanding) 모델, 상기 응답 메시지의 유형을 결정하기 위한 제1 DM (Dialog Management) 모델, 상기 응답 메시지를 생성하기 위한 제1 NLG (Natural Language Generation) 모델 또는 상기 응답 메시지의 출력 특성을 결정하기 위한 제1 TTS (Text To Speech) 모델 중 적어도 하나를 포함하는 것인, 방법.
According to claim 1,
The character specialization model includes a first natural language understanding (NLU) model for speech analysis, a first DM (Dialog Management) model for determining the type of response message, and a first NLG (Natural) for generating the response message Language Generation) method or a first text to speech (TTS) model for determining an output characteristic of the response message.
제1 항에 있어서,
상기 응답 메시지를 생성하는 동작은, 상기 보이스 어시스턴트 프로그램의 모델을 상기 캐릭터 특화 모델과 함께 이용하여, 상기 응답 메시지를 생성하는 것인, 방법.
According to claim 1,
The operation of generating the response message is to generate the response message by using the model of the voice assistant program together with the character-specific model.
제3 항에 있어서,
상기 보이스 어시스턴트 프로그램의 모델은, 음성 해석을 위한 제2 NLU (Natural Language Understanding) 모델, 상기 응답 메시지의 유형을 결정하기 위한 제2 DM (Dialog Management) 모델, 상기 응답 메시지를 생성하기 위한 제2 NLG (Natural Language Generation) 모델 및 상기 응답 메시지의 출력 특성을 결정하기 위한 제2 TTS (Text To Speech) 모델 중 적어도 하나를 포함하는 것인, 방법.
According to claim 3,
The model of the voice assistant program includes a second natural language understanding (NLU) model for speech analysis, a second DM (Dialog Management) model for determining the type of the response message, and a second NLG for generating the response message (Natural Language Generation) model and at least one of a second text to speech (TTS) model for determining output characteristics of the response message.
제2 항에 있어서,
상기 캐릭터 특화 모델은, 다른 디바이스에게 제공된 모델 생성 툴을 이용하여 상기 다른 디바이스에 의해 학습된 것이며, 상기 캐릭터 특화 모델은, 인공 지능 알고리즘으로서, 기계학습, 신경망, 유전자, 딥러닝, 분류 알고리즘 중 적어도 하나를 이용하여 학습된 학습 모델인 것인, 방법.
According to claim 2,
The character-specific model is learned by the other device using a model generation tool provided to another device, and the character-specific model is an artificial intelligence algorithm, and is at least one of machine learning, neural networks, genes, deep learning, and classification algorithms. It is a learning model learned using one, the method.
제5 항에 있어서,
상기 다른 디바이스에게 제공된 모델 생성 툴은, 상기 다른 디바이스에 의해, 상기 제1 NLU 모델, 상기 제1 NLG 모델 및 상기 제1 TTS 모델 중 적어도 하나를 생성하는데 이용되는 것인, 방법.
The method of claim 5,
The model generation tool provided to the other device is used by the other device to generate at least one of the first NLU model, the first NLG model, and the first TTS model.
제4 항에 있어서,
상기 음성 입력에 대한 응답 메시지를 생성하는 동작은, 상기 제1 NLU 모델 및 상기 제2 NLU 모델을 함께 이용하는 동작; 상기 제1 NLG 모델 및 상기 제2 NLG 모델을 함께 이용하는 동작; 또는 상기 제1 TTS 모델 및 상기 제2 TTS 모델을 함께 이용하는 동작; 중 적어도 하나를 포함하는 것인, 방법.
According to claim 4,
The operation of generating a response message for the voice input includes: using the first NLU model and the second NLU model together; Using the first NLG model and the second NLG model together; Or using the first TTS model and the second TTS model together; The method comprising at least one of.
제1 항에 있어서,
캐릭터 특화 모델의 목록을 제공하는 서버에 접속하는 동작;
상기 캐릭터 특화 모델의 목록을 디스플레이하는 동작; 및
상기 캐릭터 특화 모델의 목록에서 상기 캐릭터 특화 모델을 선택하는 동작;
을 더 포함하며,
상기 캐릭터 특화 모델을 수신하는 동작은, 상기 선택된 캐릭터 특화 모델을 상기 서버로부터 수신하는 것인, 방법.
According to claim 1,
Accessing a server that provides a list of character-specific models;
Displaying a list of the character-specific models; And
Selecting the character-specific model from the list of the character-specific models;
Further comprising,
The operation of receiving the character-specific model is to receive the selected character-specific model from the server.
제1 항에 있어서,
상기 캐릭터 특화 모델을 다운로드하기 위한 링크 정보를 제공하는 제품과 근거리 통신을 형성하는 동작; 및
상기 제품으로부터 상기 캐릭터 특화 모델을 다운로드하기 위한 링크 정보를 다운로드하는 동작;
을 더 포함하며,
상기 캐릭터 특화 모델을 수신하는 동작은, 상기 링크 정보를 이용하여 상기 캐릭터 특화 모델을 다운로드하는 것인, 방법.
According to claim 1,
Forming a short-range communication with a product providing link information for downloading the character-specific model; And
Downloading link information for downloading the character-specific model from the product;
Further comprising,
The operation of receiving the character specialization model is to download the character specialization model using the link information.
제1 항에 있어서,
상기 보이스 어시스턴트 프로그램을 통해 상기 수신된 캐릭터 특화 모델에 액세스하는 동작;
을 더 포함하는 것인, 방법.
According to claim 1,
Accessing the received character specialization model through the voice assistant program;
The method, which further comprises.
보이스 어시스턴트 서비스를 제공하는 디바이스에 있어서,
사용자 음성 입력을 수신하는 마이크;
통신 인터페이스;
하나 이상의 명령어들을 저장하는 메모리; 및
상기 하나 이상의 명령어들을 실행함으로써 보이스 어시스턴트 프로그램을 실행하는 하나 이상의 프로세서; 를 포함하며,
상기 프로세서는, 상기 통신 인터페이스를 통해 서버로부터 상기 보이스 어시스턴트 프로그램과 연동할 캐릭터 특화 모델을 수신하고, 상기 캐릭터 특화 모델에 대응하는 캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력이 상기 마이크를 통해 수신하고, 상기 보이스 어시스턴트 프로그램과 연동하는 상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 상기 문장에 대한 응답 메시지를 생성하고, 상기 생성된 응답 메시지를 출력하는, 디바이스.
In the device providing a voice assistant service,
A microphone receiving a user voice input;
Communication interface;
A memory storing one or more instructions; And
One or more processors to execute a voice assistant program by executing the one or more instructions; It includes,
The processor, through the communication interface, receives a character-specific model to interwork with the voice assistant program from a server, and includes a word indicating a character corresponding to the character-specific model and a sentence requesting a response from the voice assistant program The user's voice input is received through the microphone, and a response message for the sentence requesting a response from the voice assistant program is generated using the character-specific model interworking with the voice assistant program, and the generated response A device that outputs a message.
제11 항에 있어서,
상기 캐릭터 특화 모델은, 음성 해석을 위한 제1 NLU 모델, 상기 응답 메시지의 유형을 결정하기 위한 제1 DM 모델, 상기 응답 메시지를 생성하기 위한 제1 NLG 모델 또는 상기 응답 메시지의 출력 특성을 결정하기 위한 제1 TTS 모델 중 적어도 하나를 포함하는 것인, 디바이스.
The method of claim 11,
The character specialization model may include a first NLU model for speech analysis, a first DM model for determining the type of the response message, a first NLG model for generating the response message, or an output characteristic of the response message The device comprising at least one of the first TTS model for.
제11 항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행함으로써, 상기 보이스 어시스턴트 프로그램의 모델을 상기 캐릭터 특화 모델과 함께 이용하여, 상기 응답 메시지를 생성하는 것인, 디바이스.
The method of claim 11,
And the processor generates the response message by executing the one or more instructions, using the model of the voice assistant program together with the character-specific model.
제13 항에 있어서,
상기 보이스 어시스턴트 프로그램의 모델은, 음성 해석을 위한 제2 NLU 모델, 상기 응답 메시지의 유형을 결정하기 위한 제2 DM 모델, 상기 응답 메시지를 생성하기 위한 제2 NLG 모델 및 상기 응답 메시지의 출력 특성을 결정하기 위한 제2 TTS 모델 중 적어도 하나를 포함하는 것인, 디바이스.
The method of claim 13,
The model of the voice assistant program includes a second NLU model for speech analysis, a second DM model for determining the type of the response message, a second NLG model for generating the response message, and output characteristics of the response message. And at least one of the second TTS models for determining.
제12 항에 있어서,
상기 캐릭터 특화 모델은, 다른 디바이스에게 제공된 모델 생성 툴을 이용하여 상기 다른 디바이스에 의해 학습된 것이며, 상기 캐릭터 특화 모델은, 인공 지능 알고리즘으로서, 기계학습, 신경망, 유전자, 딥러닝, 분류 알고리즘 중 적어도 하나를 이용하여 학습된 학습 모델인 것인, 디바이스.
The method of claim 12,
The character-specific model is learned by the other device using a model generation tool provided to another device, and the character-specific model is an artificial intelligence algorithm, and is at least one of machine learning, neural networks, genes, deep learning, and classification algorithms. A device that is a learning model learned using one.
제15 항에 있어서,
상기 다른 디바이스에게 제공된 모델 생성 툴은, 상기 다른 디바이스에 의해, 상기 제1 NLU 모델, 상기 제1 NLG 모델 및 상기 제1 TTS 모델 중 적어도 하나를 생성하는데 이용되는 것인, 디바이스.
The method of claim 15,
The model generating tool provided to the other device is used by the other device to generate at least one of the first NLU model, the first NLG model, and the first TTS model.
제14 항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행함으로써, 상기 제1 NLU 모델 및 상기 제2 NLU 모델을 함께 이용하는 동작; 상기 제1 NLG 모델 및 상기 제2 NLG 모델을 함께 이용하는 동작; 또는 상기 제1 TTS 모델 및 상기 제2 TTS 모델을 함께 이용하는 동작; 중 적어도 하나를 실행하는 것인, 디바이스.
The method of claim 14,
The processor using the first NLU model and the second NLU model together by executing the one or more instructions; Using the first NLG model and the second NLG model together; Or using the first TTS model and the second TTS model together; Device.
제11 항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행함으로써, 캐릭터 특화 모델의 목록을 제공하는 서버에 접속하고, 상기 캐릭터 특화 모델의 목록을 디스플레이하고, 상기 캐릭터 특화 모델의 목록에서 상기 캐릭터 특화 모델을 선택하고, 상기 선택된 캐릭터 특화 모델을 상기 서버로부터 수신하는 것인, 디바이스.
The method of claim 11,
The processor, by executing the one or more instructions, accesses a server providing a list of character-specific models, displays a list of the character-specific models, selects the character-specific model from the list of character-specific models, and And receiving the selected character-specific model from the server.
제11 항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행함으로써, 상기 캐릭터 특화 모델을 다운로드하기 위한 링크 정보를 제공하는 제품과 근거리 통신을 형성하고, 상기 제품으로부터 상기 캐릭터 특화 모델을 다운로드하기 위한 링크 정보를 다운로드하고, 상기 링크 정보를 이용하여 상기 캐릭터 특화 모델을 다운로드하는 것인, 디바이스.
The method of claim 11,
The processor forms a short-range communication with a product that provides link information for downloading the character-specific model by executing the one or more instructions, downloads link information for downloading the character-specific model from the product, and the A device that downloads the character-specific model using link information.
보이스 어시스턴트 서비스를 제공하는 서버에 있어서,
통신 인터페이스;
하나 이상의 명령어들을 저장하는 메모리; 및
상기 하나 이상의 명령어들을 실행하는 하나 이상의 프로세서;를 포함하며,
상기 프로세서는, 상기 통신 인터페이스를 통해 디바이스의 보이스 어시스턴트 프로그램과 연동할 캐릭터 특화 모델을 획득하고, 상기 캐릭터 특화 모델에 대응하는 캐릭터를 지시하는 단어와 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장을 포함하는 사용자 음성 입력이 디바이스로부터 상기 통신 인터페이스를 통해 수신되면, 상기 보이스 어시스턴트 프로그램과 연동하는 상기 캐릭터 특화 모델을 이용하여, 상기 보이스 어시스턴트 프로그램의 응답을 요청하는 문장에 대한 응답 메시지를 생성하는, 서버.
In the server providing the voice assistant service,
Communication interface;
A memory storing one or more instructions; And
And one or more processors executing the one or more instructions.
The processor, through the communication interface, obtains a character-specific model to interwork with the voice assistant program of the device, and includes a word indicating a character corresponding to the character-specific model and a sentence requesting a response from the voice assistant program When a user voice input is received from the device through the communication interface, the server generates a response message for a sentence requesting a response from the voice assistant program by using the character-specific model interworking with the voice assistant program.
KR1020190062589A 2018-09-19 2019-05-28 System and method for providing voice assistant service KR20200033140A (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/KR2019/011991 WO2020060151A1 (en) 2018-09-19 2019-09-17 System and method for providing voice assistant service
KR1020190114053A KR20200033189A (en) 2018-09-19 2019-09-17 System and method for providing voice assistant service
EP19197962.4A EP3627502A1 (en) 2018-09-19 2019-09-18 System and method for providing voice assistant service
US16/576,020 US11848012B2 (en) 2018-09-19 2019-09-19 System and method for providing voice assistant service
CN201910886996.3A CN110930994B (en) 2018-09-19 2019-09-19 System and method for providing voice assistant service

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180112378 2018-09-19
KR20180112378 2018-09-19

Publications (1)

Publication Number Publication Date
KR20200033140A true KR20200033140A (en) 2020-03-27

Family

ID=69959099

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020190062589A KR20200033140A (en) 2018-09-19 2019-05-28 System and method for providing voice assistant service
KR1020190114053A KR20200033189A (en) 2018-09-19 2019-09-17 System and method for providing voice assistant service

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020190114053A KR20200033189A (en) 2018-09-19 2019-09-17 System and method for providing voice assistant service

Country Status (1)

Country Link
KR (2) KR20200033140A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230123236A (en) * 2022-02-16 2023-08-23 이화여자대학교 산학협력단 Stretchable display artificial intelligence speaker device equipped with celebrity npc and method for providing notification using the same
WO2023229117A1 (en) * 2022-05-26 2023-11-30 한국전자기술연구원 Method for implementing interactive virtual avatar

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230123236A (en) * 2022-02-16 2023-08-23 이화여자대학교 산학협력단 Stretchable display artificial intelligence speaker device equipped with celebrity npc and method for providing notification using the same
WO2023229117A1 (en) * 2022-05-26 2023-11-30 한국전자기술연구원 Method for implementing interactive virtual avatar

Also Published As

Publication number Publication date
KR20200033189A (en) 2020-03-27

Similar Documents

Publication Publication Date Title
US10832674B2 (en) Voice data processing method and electronic device supporting the same
US11031000B2 (en) Method and device for transmitting and receiving audio data
US11501755B2 (en) Apparatus and method for providing voice assistant service
KR102606287B1 (en) Device and method for providing translation information of application
US20200051560A1 (en) System for processing user voice utterance and method for operating same
US11120792B2 (en) System for processing user utterance and controlling method thereof
CN112840396A (en) Electronic device for processing user words and control method thereof
US11848012B2 (en) System and method for providing voice assistant service
KR20190133100A (en) Electronic device and operating method for outputting a response for a voice input, by using application
KR20190122457A (en) Electronic device for performing speech recognition and the method for the same
KR20200099380A (en) Method for providing speech recognition serivce and electronic device thereof
US11862178B2 (en) Electronic device for supporting artificial intelligence agent services to talk to users
KR20200033140A (en) System and method for providing voice assistant service
US11151995B2 (en) Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command
US20210217406A1 (en) Voice recognition service operating method and electronic device supporting same
KR102458343B1 (en) Device and method for transreceiving audio data
KR20200016774A (en) System for processing user utterance and operating method thereof
US20200143807A1 (en) Electronic device and operation method thereof
KR20210066651A (en) Electronic device and Method for controlling the electronic device thereof
US11817097B2 (en) Electronic apparatus and assistant service providing method thereof
KR20200042137A (en) Electronic device providing variation utterance text and operating method thereof
KR20190117856A (en) System and mehtod for generating information for conversation with user
US20220083882A1 (en) Electronic device and operating method for providing information about why response has changed
KR20220036781A (en) Electronic device and operating method for providing information on why response has changed
KR20240020137A (en) Electronic devcie and method for recognizing voice