KR20230101167A - Method and apparatus for generating audio based on text in korean culture education - Google Patents

Method and apparatus for generating audio based on text in korean culture education Download PDF

Info

Publication number
KR20230101167A
KR20230101167A KR1020210191047A KR20210191047A KR20230101167A KR 20230101167 A KR20230101167 A KR 20230101167A KR 1020210191047 A KR1020210191047 A KR 1020210191047A KR 20210191047 A KR20210191047 A KR 20210191047A KR 20230101167 A KR20230101167 A KR 20230101167A
Authority
KR
South Korea
Prior art keywords
text
client device
data
model
present
Prior art date
Application number
KR1020210191047A
Other languages
Korean (ko)
Inventor
서수보
유은택
전소윤
이정민
박재우
Original Assignee
주식회사 셀바스에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀바스에이아이 filed Critical 주식회사 셀바스에이아이
Priority to KR1020210191047A priority Critical patent/KR20230101167A/en
Publication of KR20230101167A publication Critical patent/KR20230101167A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은, 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 방법 및 장치로서, 상기 방법은, 클라이언트 장치로부터 텍스트에 대한 합성음 데이터의 요청을 수신하는 단계; 기 학습된 음성 합성 모델을 이용하여 텍스트에 대한 합성음 데이터를 생성하는 단계; 및 합성음 데이터를 클라이언트 장치로 제공하는 단계를 포함한다. The present invention provides a method and apparatus for generating text-based speech in a Korean cultural education platform, comprising the steps of receiving a request for synthetic sound data for text from a client device; generating synthetic sound data for text using a pre-learned speech synthesis model; and providing synthesized sound data to the client device.

Description

한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 방법 및 장치 {METHOD AND APPARATUS FOR GENERATING AUDIO BASED ON TEXT IN KOREAN CULTURE EDUCATION}Text-based voice generation method and apparatus in Korean culture education platform {METHOD AND APPARATUS FOR GENERATING AUDIO BASED ON TEXT IN KOREAN CULTURE EDUCATION}

본 발명은 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 방법 및 장치에 관한 것이다. The present invention relates to a text-based voice generation method and apparatus in a Korean cultural education platform.

일반적으로 TTS(Text to Speech)는 텍스트를 사람의 음성으로 변환하는 기술로서, 무인 자동 응답 시스템(ARS), 안내 방송 및 음성 자막 서비스 등과 같이 여러가지 분야에서 이용된다.In general, TTS (Text to Speech) is a technology for converting text into human voice, and is used in various fields such as unmanned automatic response systems (ARS), announcement broadcasting, and audio caption services.

인공지능 기반 자연어 처리 기술이 발전함에 따라 기존의 기계음을 이용한 오디오 콘텐츠보다 사람에 가까운 음성을 가지는 사람 친화적인 오디오 콘텐츠를 이용하려는 이용자가 늘어나고 있다. 이에 따라, 최근에는 텍스트를 입력하면 입력된 텍스트를 다양한 화자가 읽어주는 듯한 합성음 데이터를 제공하는 다양한 TTS 서비스가 제공되고 있다. As artificial intelligence-based natural language processing technology develops, the number of users who want to use human-friendly audio content having a voice closer to that of a human than audio content using existing machine sounds is increasing. Accordingly, in recent years, various TTS services have been provided that provide synthetic sound data as if various speakers read the input text when text is input.

그러나, TTS 서비스를 위해 이용되는 인공지능 기반 TTS 모델은 훈련 데이터의 다양성이 클수록 합성음 데이터의 음질이 저하되고, 발음이 어눌해지는 등의 훈련 성능이 떨어지는 문제점이 있다. 특히, 단음절, 2음절 및/또는 단어에 대한 TTS 결과 품질이 떨어지는 문제점이 있다.However, the artificial intelligence-based TTS model used for the TTS service has a problem in that the training performance deteriorates, such as the sound quality of synthesized speech data degrading and pronunciation blurring as the diversity of training data increases. In particular, there is a problem in that the quality of TTS results for single syllables, two syllables, and/or words is poor.

발명의 배경이 되는 기술은 본 발명에 대한 이해를 보다 용이하게 하기 위해 작성되었다. 발명의 배경이 되는 기술에 기재된 사항들이 선행기술로 존재한다고 인정하는 것으로 이해되어서는 안 된다.The background description of the invention has been prepared to facilitate understanding of the present invention. It should not be construed as an admission that matters described in the background art of the invention exist as prior art.

따라서, 개선된 음질 및 개선된 발음의 합성음 데이터를 제공하기 위한 방법이 요구된다.Accordingly, a method for providing synthesized sound data of improved sound quality and improved pronunciation is desired.

그 결과, 본 발명의 발명자들은, 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 방법 및 장치를 개발하고자 하였다. As a result, the inventors of the present invention tried to develop a text-based voice generation method and apparatus in a Korean cultural education platform.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The tasks of the present invention are not limited to the tasks mentioned above, and other tasks not mentioned will be clearly understood by those skilled in the art from the following description.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 방법 및 장치가 제공된다. 상기 방법은, 클라이언트 장치로부터 텍스트에 대한 합성음 데이터의 요청을 수신하는 단계; 기 학습된 음성 합성 모델을 이용하여 텍스트에 대한 합성음 데이터를 생성하는 단계; 및 합성음 데이터를 클라이언트 장치로 제공하는 단계를 포함한다.In order to solve the above problems, a text-based voice generation method and apparatus are provided in a Korean culture education platform according to an embodiment of the present invention. The method includes receiving a request for synthesized speech data for text from a client device; generating synthetic sound data for text using a pre-learned speech synthesis model; and providing synthesized sound data to the client device.

본 발명의 실시예에 따른 음성 합성 모델은, 제1 훈련 데이터를 기반으로 사전 학습된(pre-trained) 제1 모델의 학습 파라미터가 전이 학습(transfer-learning)을 통해 반영되고, 제1 훈련 데이터와 다른 제2 훈련 데이터를 기반으로 학습된 제2 모델일 수 있다.In the speech synthesis model according to an embodiment of the present invention, learning parameters of a first model pre-trained based on the first training data are reflected through transfer-learning, and the first training data It may be a second model learned based on second training data different from .

본 발명의 실시예에 따른 제1 훈련 데이터는, 낭독체의 문장을 포함하고, 제2 훈련 데이터는, 단음절, 2음절 및 단어 중 적어도 하나를 포함할 수 있다.The first training data according to an embodiment of the present invention may include a sentence of a reading language, and the second training data may include at least one of single syllables, two syllables, and words.

기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Other embodiment specifics are included in the detailed description and drawings.

본 발명은 다양성이 큰 훈련 데이터를 이용하여 학습된 음성 합성 모델을 통해 개선된 음질 및 발음의 합성음 데이터를 제공할 수 있다.The present invention can provide synthesized sound data with improved sound quality and pronunciation through a speech synthesis model learned using training data having a large variety.

본 발명은 단음절, 2음절 및/또는 단어에 대한 향상된 발음의 합성음 데이터를 제공할 수 있다.The present invention can provide synthesized sound data with improved pronunciation for single syllables, double syllables and/or words.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 발명 내에 포함되어 있다.Effects according to the present invention are not limited by the contents exemplified above, and more various effects are included in the present invention.

도 1은 본 발명의 실시예에 따른 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 시스템의 개략도이다.
도 2는 본 발명의 일 실시예에 따른 클라이언트 장치의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 서비스 제공 서버의 구성을 나타낸 블록도이다.
도 4는 본 발명의 실시예에 따른 인공지능 기반 음성 합성 모델을 설명하기 위한 예시도이다.
도 5는 본 발명의 실시예에 따른 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 방법을 설명하기 위한 흐름도이다.
1 is a schematic diagram of a text-based speech generation system in a Korean cultural education platform according to an embodiment of the present invention.
2 is a block diagram showing the configuration of a client device according to an embodiment of the present invention.
3 is a block diagram showing the configuration of a service providing server according to an embodiment of the present invention.
4 is an exemplary diagram for explaining an artificial intelligence-based speech synthesis model according to an embodiment of the present invention.
5 is a flowchart illustrating a text-based voice generation method in the Korean culture education platform according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조부호가 사용될 수 있다.Advantages and features of the present invention, and methods of achieving them, will become clear with reference to the detailed description of the following embodiments taken in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and will be implemented in various forms different from each other, only these embodiments make the disclosure of the present invention complete, and common knowledge in the art to which the present invention pertains. It is provided to completely inform the person who has the scope of the invention, and the present invention is only defined by the scope of the claims. In connection with the description of the drawings, like reference numerals may be used for like elements.

본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.In this document, expressions such as "has," "may have," "includes," or "may include" indicate the existence of a corresponding feature (eg, numerical value, function, operation, or component such as a part). , which does not preclude the presence of additional features.

본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는(3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.In this document, expressions such as “A or B,” “at least one of A and/and B,” or “one or more of A or/and B” may include all possible combinations of the items listed together. . For example, “A or B,” “at least one of A and B,” or “at least one of A or B” (1) includes at least one A, (2) includes at least one B, Or (3) may refer to all cases including at least one A and at least one B.

본 문서에서 사용된 "제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.Expressions such as “first,” “second,” “first,” or “second,” used in this document may modify various elements, regardless of order and/or importance, and refer to one element as It is used only to distinguish it from other components and does not limit the corresponding components. For example, a first user device and a second user device may represent different user devices regardless of order or importance. For example, without departing from the scope of rights described in this document, a first element may be named a second element, and similarly, the second element may also be renamed to the first element.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.A component (e.g., a first component) is "(operatively or communicatively) coupled with/to" another component (e.g., a second component); When referred to as "connected to", it should be understood that the certain component may be directly connected to the other component or connected through another component (eg, a third component). On the other hand, when an element (eg, a first element) is referred to as being “directly connected” or “directly connected” to another element (eg, a second element), the element and the above It may be understood that other components (eg, third components) do not exist between the other components.

본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~ 를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것 만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된)프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.As used in this document, the expression "configured to" means "suitable for," "having the capacity to," depending on the circumstances. ," "designed to," "adapted to," "made to," or "capable of." The term "configured (or set) to" may not necessarily mean only "specifically designed to" hardware. Instead, in some contexts, the phrase "device configured to" may mean that the device is "capable of" in conjunction with other devices or components. For example, the phrase "a processor configured (or configured) to perform A, B, and C" may include a dedicated processor (e.g., embedded processor) to perform those operations, or by executing one or more software programs stored in a memory device. , may mean a general-purpose processor (eg, CPU or application processor) capable of performing corresponding operations.

본 문서에서 사용된 용어들은 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시예들을 배제하도록 해석될 수 없다.Terms used in this document are only used to describe a specific embodiment, and may not be intended to limit the scope of other embodiments. Singular expressions may include plural expressions unless the context clearly dictates otherwise. Terms used herein, including technical or scientific terms, may have the same meaning as commonly understood by a person of ordinary skill in the art described in this document. Among the terms used in this document, terms defined in a general dictionary may be interpreted as having the same or similar meaning as the meaning in the context of the related art, and unless explicitly defined in this document, an ideal or excessively formal meaning. not be interpreted as In some cases, even terms defined in this document cannot be interpreted to exclude the embodiments of this document.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.Each feature of the various embodiments of the present invention can be partially or entirely combined or combined with each other, and as those skilled in the art can fully understand, various interlocking and driving operations are possible, and each embodiment can be implemented independently of each other. It may be possible to implement together in an association relationship.

도 1은 본 발명의 실시예에 따른 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 시스템의 개략도이다.1 is a schematic diagram of a text-based speech generation system in a Korean cultural education platform according to an embodiment of the present invention.

도 1을 참조하면, 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 (10)은 클라이언트 장치(100) 및 서비스 제공 서버(300)를 포함한다.Referring to FIG. 1 , a text-based voice generation 10 in a Korean cultural education platform includes a client device 100 and a service providing server 300 .

한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 시스템(10)은 다양성이 적은 데이터를 이용하여 구축된 인공지능 기반 기본 모델에 다양성이 큰 데이터를 훈련하여 다양한 입력 데이터에 대한 예측 안정성이 향상된 텍스트 기반 음성 데이터를 생성하기 위한 시스템이다. In the Korean culture education platform, the text-based voice generation system 10 trains the AI-based basic model built using low-variability data with high-variability data to generate text-based voice data with improved predictive stability for various input data. It is a system for creating

클라이언트 장치(100)는 텍스트를 획득하여 획득된 텍스트에 대한 합성음 데이터를 서비스 제공 서버(300)로 요청하고, 요청에 대한 응답으로 서비스 제공 서버로부터 합성음 데이터를 수신하여 제공할 수 있는 전자 장치로서, 스마트폰, 태블릿 PC, PC, 노트북 등을 포함할 수 있다. The client device 100 is an electronic device capable of acquiring text, requesting synthetic sound data for the obtained text from the service providing server 300, receiving and providing synthesized sound data from the service providing server in response to the request, It may include a smartphone, a tablet PC, a PC, a laptop, and the like.

서비스 제공 서버(300)는 클라이언트 장치(100)로부터 텍스트에 대한 합성음 데이터의 요청을 수신하고, 기 학습된 인공지능 기반 음성 합성 모델을 이용하여 수신된 텍스트에 대한 합성음 데이터를 생성하고, 생성된 합성음 데이터를 클라이언트 장치(100)로 제공하기 위해 다양한 연산을 수행하는 범용 컴퓨터, 랩탑, 웹 서버(web server), 및/또는 클라우드 서버(cloud server) 등일 수 있다. The service providing server 300 receives a request for synthesized voice data for text from the client device 100, generates synthesized voice data for the received text using a pre-learned artificial intelligence-based voice synthesis model, and generates synthesized voice It may be a general-purpose computer, laptop, web server, and/or cloud server that performs various operations to provide data to the client device 100 .

특히, 음성 합성 모델은 다양성이 적은 데이터(예: 일반 말뭉치(common corpus))를 입력으로 훈련된 사전 학습된(pre-trained) 모델을 전이 학습(transfer-learning)을 통해 단음절, 2음절, 또는 단어 등과 같은 짧은 데이터(Reinforced corpus)를 학습시킨 어드밴스드 모델(Advanced model)을 의미할 수 있다.In particular, a speech synthesis model is a pre-trained model trained with low diversity data (eg, a common corpus) as an input through transfer-learning for monosyllables, two syllables, or This may mean an advanced model trained on short data (reinforced corpus) such as words.

도 2는 본 발명의 일 실시예에 따른 클라이언트 장치의 구성을 나타낸 블록도이다.2 is a block diagram showing the configuration of a client device according to an embodiment of the present invention.

도 2를 참조하면, 클라이언트 장치(100)는 메모리 인터페이스(110), 하나 이상의 프로세서(120) 및 주변 인터페이스(130)를 포함할 수 있다. 클라이언트 장치(100) 내의 다양한 컴포넌트들은 하나 이상의 통신 버스 또는 신호 라인에 의해 연결될 수 있다.Referring to FIG. 2 , the client device 100 may include a memory interface 110 , one or more processors 120 and a peripheral interface 130 . The various components within client device 100 may be connected by one or more communication buses or signal lines.

메모리 인터페이스(110)는 메모리(150)에 연결되어 프로세서(120)로 다양한 데이터를 전할 수 있다. 여기서, 메모리(150)는 플래시 메모리 타입, 하드디스크 타입, 멀티미디어 카드 마이크로 타입, 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램, SRAM, 롬, EEPROM, PROM, 네트워크 저장 스토리지, 클라우드, 블록체인 데이터베이스 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.The memory interface 110 may be connected to the memory 150 and transfer various data to the processor 120 . Here, the memory 150 is a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg SD or XD memory, etc.), RAM, SRAM, ROM, EEPROM, PROM, network storage storage, cloud , It may include at least one type of storage medium among blockchain databases.

다양한 실시예에서, 메모리(150)는 운영 체제(151), 통신 모듈(152), 그래픽 사용자 인터페이스 모듈(GUI)(153), 센서 처리 모듈(154), 전화 모듈(155) 및 애플리케이션 모듈(156) 중 적어도 하나 이상을 저장할 수 있다. 구체적으로, 운영 체제(151)는 기본 시스템 서비스를 처리하기 위한 명령어 및 하드웨어 작업들을 수행하기 위한 명령어를 포함할 수 있다. 통신 모듈(152)은 다른 하나 이상의 디바이스, 컴퓨터 및 서버 중 적어도 하나와 통신할 수 있다. 그래픽 사용자 인터페이스 모듈(GUI)(153)은 그래픽 사용자 인터페이스를 처리할 수 있다. 센서 처리 모듈(154)은 센서 관련 기능(예를 들어, 하나 이상의 마이크(192)를 이용하여 수신된 음성 입력을 처리함)을 처리할 수 있다. 전화 모듈(155)은 전화 관련 기능을 처리할 수 있다. 애플리케이션 모듈(156)은 사용자 애플리케이션의 다양한 기능들, 예컨대 전자 메시징, 웹 브라우징, 미디어 처리, 탐색, 이미징, 기타 프로세스 기능을 수행할 수 있다. 아울러, 클라이언트 장치(100)는 메모리(150)에 어느 한 종류의 서비스와 연관된 하나 이상의 소프트웨어 애플리케이션(156-1, 156-2)을 저장할 수 있다.In various embodiments, memory 150 includes operating system 151 , communication module 152 , graphical user interface module (GUI) 153 , sensor processing module 154 , telephony module 155 , and application module 156 . ) At least one or more of them may be stored. Specifically, the operating system 151 may include instructions for processing basic system services and instructions for performing hardware tasks. The communication module 152 may communicate with at least one of one or more other devices, computers, and servers. A graphical user interface module (GUI) 153 may process a graphical user interface. The sensor processing module 154 may process sensor-related functions (eg, process voice input received using one or more microphones 192). The phone module 155 may process phone-related functions. The application module 156 may perform various functions of a user application, such as electronic messaging, web browsing, media processing, navigation, imaging, and other processing functions. In addition, the client device 100 may store one or more software applications 156 - 1 and 156 - 2 associated with one type of service in the memory 150 .

다양한 실시예에서, 메모리(150)는 디지털 어시스턴트 클라이언트 모듈(157)(이하, DA 클라이언트 모듈)을 저장할 수 있으며, 그에 따라 디지털 어시스턴트의 클라이언트 측의 기능을 수행하기 위한 명령어 및 다양한 사용자 데이터(158)(예. 사용자 맞춤형 어휘 데이터, 선호도 데이터, 사용자의 전자 주소록, 할 일 목록, 쇼핑 리스트 등과 같은 기타 데이터)를 저장할 수 있다. In various embodiments, the memory 150 may store a digital assistant client module 157 (hereinafter referred to as a DA client module), thereby storing instructions and various user data 158 for performing client-side functions of the digital assistant. (eg, user-customized vocabulary data, preference data, and other data such as the user's electronic address book, to-do list, shopping list, etc.).

한편, DA 클라이언트 모듈(157)은 클라이언트 장치(100)에 구비된 다양한 사용자 인터페이스(예. I/O 서브시스템(140))를 통해 사용자의 음성 입력, 텍스트 입력, 터치 입력 및/또는 제스처 입력을 획득할 수 있다. Meanwhile, the DA client module 157 receives a user's voice input, text input, touch input, and/or gesture input through various user interfaces (eg, the I/O subsystem 140) provided in the client device 100. can be obtained

또한, DA 클라이언트 모듈(157)은 시청각적, 촉각적 형태의 데이터를 출력할 수 있다. 예를 들어, DA 클라이언트 모듈(157)은 음성, 소리, 알림, 텍스트 메시지, 메뉴, 그래픽, 비디오, 애니메이션 및 진동 중 적어도 둘 하나 이상의 조합으로 이루어진 데이터를 출력할 수 있다. 아울러, DA 클라이언트 모듈(157)은 통신 서브시스템(180)을 이용하여 디지털 어시스턴트 서버(미도시)와 통신할 수 있다.In addition, the DA client module 157 may output audio-visual and tactile data. For example, the DA client module 157 may output data consisting of a combination of at least two of voice, sound, notification, text message, menu, graphic, video, animation, and vibration. In addition, the DA client module 157 may communicate with a digital assistant server (not shown) using the communication subsystem 180 .

다양한 실시예에서, DA 클라이언트 모듈(157)은 사용자 입력과 연관된 상황(context)을 구성하기 위하여 다양한 센서, 서브시스템 및 주변 디바이스로부터 클라이언트 장치(100)의 주변 환경에 대한 추가 정보를 수집할 수 있다. 예를 들어, DA 클라이언트 모듈(157)은 사용자 입력과 함께 상황 정보를 디지털 어시스턴트 서버에 제공하여 사용자의 의도를 추론할 수 있다. 여기서, 사용자 입력에 동반될 수 있는 상황 정보는 센서 정보, 예를 들어, 광(lighting), 주변 소음, 주변 온도, 주변 환경의 이미지, 비디오 등을 포함할 수 있다. 다른 예를 들어, 상황 정보는 클라이언트 장치(100)의 물리적 상태(예. 디바이스 배향, 디바이스 위치, 디바이스 온도, 전력 레벨, 속도, 가속도, 모션 패턴, 셀룰러 신호 강도 등)을 포함할 수 있다. 또 다른 예를 들어, 상황 정보는 클라이언트 장치(100)의 소프트웨어 상태에 관련된 정보(예. 클라이언트 장치(100)에서 실행 중인 프로세스, 설치된 프로그램, 과거 및 현재 네트워크 활동성, 백그라운드 서비스, 오류 로그, 리소스 사용 등)를 포함할 수 있다. In various embodiments, the DA client module 157 may collect additional information about the surrounding environment of the client device 100 from various sensors, subsystems, and peripheral devices in order to construct a context associated with the user input. . For example, the DA client module 157 may infer the user's intention by providing context information together with the user's input to the digital assistant server. Here, the situational information that may accompany the user input may include sensor information, eg, lighting, ambient noise, ambient temperature, image of the surrounding environment, video, and the like. For another example, the contextual information may include the physical state of the client device 100 (eg, device orientation, device location, device temperature, power level, speed, acceleration, motion pattern, cellular signal strength, etc.). For another example, the contextual information is information related to the state of the software of the client device 100 (eg, processes running on the client device 100, installed programs, past and present network activity, background services, error logs, resource usage). etc.) may be included.

다양한 실시예에서, 메모리(150)는 추가 또는 삭제된 명령어를 포함할 수 있으며, 나아가 클라이언트 장치(100)도 도 2에 도시된 구성 외에 추가 구성을 포함하거나, 일부 구성을 제외할 수도 있다. In various embodiments, the memory 150 may include added or deleted commands, and the client device 100 may also include additional components other than the configuration shown in FIG. 2 or may exclude some components.

프로세서(120)는 클라이언트 장치(100)의 전반적인 동작을 제어할 수 있으며, 메모리(150)에 저장된 어플리케이션 또는 프로그램을 구동하여 텍스트를 획득하고, 획득된 텍스트에 대한 합성음 데이터를 서비스 제공 서버(300)로 요청하기 위한 다양한 명령들을 수행할 수 있다. The processor 120 may control the overall operation of the client device 100, acquires text by driving an application or program stored in the memory 150, and transfers synthetic sound data for the obtained text to the service providing server 300. You can perform various commands to request with .

프로세서(120)는 CPU(Central Processing Unit)나 AP(Application Processor)와 같은 연산 장치에 해당할 수 있다. 또한, 프로세서(120)는 NPU(Neural Processing Unit)과 같은 다양한 연산 장치가 통합된 SoC(System on Chip)와 같은 통합 칩(Integrated Chip (IC))의 형태로 구현될 수 있다. The processor 120 may correspond to an arithmetic device such as a central processing unit (CPU) or an application processor (AP). In addition, the processor 120 may be implemented in the form of an integrated chip (IC) such as a System on Chip (SoC) in which various computing devices such as a Neural Processing Unit (NPU) are integrated.

주변 인터페이스(130)는 다양한 센서, 서브 시스템 및 주변 디바이스와 연결되어, 클라이언트 장치(100)가 다양한 기능을 수행할 수 있도록 데이터를 제공해 줄 수 있다. 여기서, 클라이언트 장치(100)가 어떠한 기능을 수행한다는 것은 프로세서(120)에 의해 수행되는 것으로 이해될 수 있다. The peripheral interface 130 may be connected to various sensors, subsystems, and peripheral devices to provide data so that the client device 100 can perform various functions. Here, the fact that the client device 100 performs a certain function may be understood as being performed by the processor 120 .

주변 인터페이스(130)는 모션 센서(160), 조명 센서(광 센서)(161) 및 근접 센서(162)로부터 데이터를 제공받을 수 있으며, 이를 통해, 클라이언트 장치(100)는 배향, 광, 및 근접 감지 기능 등을 수행할 수 있다. 다른 예를 들어, 주변 인터페이스(130)는 기타 센서들(163)(포지셔닝 시스템-GPS 수신기, 온도 센서, 생체인식 센서)로부터 데이터를 제공받을 수 있으며, 이를 통해 클라이언트 장치(100)가 기타 센서들(163)과 관련된 기능들을 수행할 수 있다.Peripheral interface 130 may receive data from motion sensor 160, light sensor (light sensor) 161, and proximity sensor 162, through which client device 100 may receive orientation, light, and proximity. sensing function, etc. As another example, peripheral interface 130 may receive data from other sensors 163 (positioning system-GPS receiver, temperature sensor, biometric sensor), through which the client device 100 may receive data from other sensors. It can perform functions related to (163).

다양한 실시예에서, 클라이언트 장치(100)는 주변 인터페이스(130)와 연결된 카메라 서브시스템(170) 및 이와 연결된 광학 센서(171)를 포함할 수 있으며, 이를 통해 클라이언트 장치(100)는 사진 촬영 및 비디오 클립 녹화 등의 다양한 촬영 기능을 수행할 수 있다. In various embodiments, the client device 100 may include a camera subsystem 170 coupled to the peripheral interface 130 and an optical sensor 171 coupled thereto, through which the client device 100 may take pictures and video Various shooting functions such as clip recording can be performed.

다양한 실시예에서, 클라이언트 장치(100)는 주변 인터페이스(130)와 연결된 통신 서브 시스템(180)을 포함할 수 있다. 통신 서브 시스템(180)은 하나 이상의 유/무선 네트워크로 구성되며, 다양한 통신 포트, 무선 주파수 송수신기, 광학 송수신기를 포함할 수 있다.In various embodiments, client device 100 may include communication subsystem 180 coupled with peripheral interface 130 . The communication subsystem 180 is composed of one or more wired/wireless networks, and may include various communication ports, radio frequency transceivers, and optical transceivers.

다양한 실시예에서, 클라이언트 장치(100)는 주변 인터페이스(130)와 연결된 오디오 서브 시스템(190)을 포함하며, 이러한 오디오 서브 시스템(190)은 하나 이상의 스피커(191) 및 하나 이상의 마이크(192)를 포함함으로써, 클라이언트 장치(100)는 음성 작동형 기능, 예컨대 음성 인식, 음성 복제, 디지털 녹음, 및 전화 기능 등을 수행할 수 있다.In various embodiments, client device 100 includes an audio subsystem 190 coupled to peripheral interface 130, which audio subsystem 190 includes one or more speakers 191 and one or more microphones 192. By including, the client device 100 can perform voice-activated functions, such as voice recognition, voice duplication, digital recording, and telephony functions.

다양한 실시예에서, 클라이언트 장치(100)는 주변 인터페이스(130)와 연결된 I/O 서브시스템(140)을 포함할 수 있다. 예를 들어, I/O 서브시스템(140)은 터치 스크린 제어기(141)를 통해 클라이언트 장치(100)에 포함된 터치 스크린(143)을 제어할 수 있다. 일 예로서, 터치 스크린 제어기(141)는 정전용량형, 저항형, 적외형, 표면 탄성파 기술, 근접 센서 어레이 등과 같은 복수의 터치 감지 기술 중 어느 하나의 기술을 사용하여 사용자의 접촉 및 움직임 또는 접촉 및 움직임의 중단을 검출할 수 있다. 다른 예를 들어, I/O 서브시스템(140)은 기타 입력 제어기(들)(142)를 통해 클라이언트 장치(100)에 포함된 기타 입력/제어 디바이스(144)를 제어할 수 있다. 일 예로서, 기타 입력 제어기(들)(142)은 하나 이상의 버튼, 로커 스위치(rocker switches), 썸 휠(thumb-wheel), 적외선 포트, USB 포트 및 스타일러스 등과 같은 포인터 디바이스를 제어할 수 있다.In various embodiments, client device 100 may include I/O subsystem 140 coupled with peripheral interface 130 . For example, the I/O subsystem 140 may control the touch screen 143 included in the client device 100 through the touch screen controller 141 . As an example, the touch screen controller 141 uses any one of a plurality of touch sensing technologies, such as capacitive, resistive, infrared, surface acoustic wave technology, proximity sensor array, etc. and cessation of movement. For another example, I/O subsystem 140 may control other input/control devices 144 included in client device 100 via other input controller(s) 142 . As an example, other input controller(s) 142 may control one or more buttons, rocker switches, thumb-wheels, infrared ports, USB ports, and pointer devices such as styluses and the like.

도 3은 본 발명의 일 실시예에 따른 서비스 제공 서버의 구성을 나타낸 블록도이다.3 is a block diagram showing the configuration of a service providing server according to an embodiment of the present invention.

도 3을 참조하면, 서비스 제공 서버(300)는 통신 인터페이스(310), 메모리(320), I/O 인터페이스(330) 및 프로세서(340)를 포함할 수 있으며, 각 구성은 하나 이상의 통신 버스 또는 신호 라인을 통해 서로 통신할 수 있다.Referring to FIG. 3, the service providing server 300 may include a communication interface 310, a memory 320, an I/O interface 330, and a processor 340, each of which includes one or more communication buses or They can communicate with each other through signal lines.

통신 인터페이스(310)는 유/무선 통신 네트워크를 통해 클라이언트 장치(100)와 연결되어 데이터를 주고받을 수 있다. The communication interface 310 may be connected to the client device 100 through a wired/wireless communication network to exchange data.

한편, 이러한 데이터의 송수신을 가능하게 하는 통신 인터페이스(310)는 통신 포드(311) 및 무선 회로(312)를 포함하며, 여기 유선 통신 포트(311)는 하나 이상의 유선 인터페이스, 예를 들어, 이더넷, 범용 직렬 버스(USB), 파이어와이어 등을 포함할 수 있다. 또한, 무선 회로(312)는 RF 신호 또는 광학 신호를 통해 외부 디바이스와 데이터를 송수신할 수 있다. 아울러, 무선 통신은 복수의 통신 표준, 프로토콜 및 기술, 예컨대 GSM, EDGE, CDMA, TDMA, 블루투스, Wi-Fi, VoIP, Wi-MAX, 또는 임의의 기타 적합한 통신 프로토콜 중 적어도 하나를 사용할 수 있다. On the other hand, the communication interface 310 enabling transmission and reception of such data includes a communication pod 311 and a wireless circuit 312, where the wired communication port 311 is one or more wired interfaces, for example, Ethernet, This may include Universal Serial Bus (USB), FireWire, and the like. Also, the wireless circuit 312 may transmit/receive data with an external device through an RF signal or an optical signal. In addition, wireless communication may use at least one of a plurality of communication standards, protocols and technologies, such as GSM, EDGE, CDMA, TDMA, Bluetooth, Wi-Fi, VoIP, Wi-MAX, or any other suitable communication protocol.

메모리(320)는 서비스 제공 서버(300)에서 사용되는 다양한 데이터를 저장할 수 있다. The memory 320 may store various data used in the service providing server 300 .

다양한 실시예에서, 메모리(320)는 각종 데이터, 명령 및 정보를 저장할 수 있는 휘발성 또는 비휘발성 기록 매체를 포함할 수 있다. 예를 들어, 메모리(320)는 플래시 메모리 타입, 하드디스크 타입, 멀티미디어 카드 마이크로 타입, 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램, SRAM, 롬, EEPROM, PROM, 네트워크 저장 스토리지, 클라우드, 블록체인 데이터베이스 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.In various embodiments, the memory 320 may include a volatile or non-volatile recording medium capable of storing various data, commands, and information. For example, the memory 320 may be a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg SD or XD memory, etc.), RAM, SRAM, ROM, EEPROM, PROM, network storage storage , Cloud, and a blockchain database may include at least one type of storage medium.

다양한 실시예에서, 메모리(320)는 운영 체제(321), 통신 모듈(322), 사용자 인터페이스 모듈(323) 및 하나 이상의 애플리케이션(324) 중 적어도 하나의 구성을 저장할 수 있다. In various embodiments, the memory 320 may store a configuration of at least one of the operating system 321 , the communication module 322 , the user interface module 323 , and one or more applications 324 .

운영 체제(321)(예. LINUX, UNIX, MAC OS, WINDOWS, VxWorks 등의 내장형 운영 체제)는 일반적인 시스템 작업(예. 메모리 관리, 저장 디바이스 제어, 전력 관리 등)를 제어하고 관리하기 위한 다양한 소프트웨어 컴포넌트 및 드라이버를 포함할 수 있으며, 다양한 하드웨어, 펌웨어, 및 소프트웨어 컴포넌트 간의 통신을 지원할 수 있다.Operating system 321 (e.g. embedded operating systems such as LINUX, UNIX, MAC OS, WINDOWS, VxWorks, etc.) is a variety of software for controlling and managing general system tasks (e.g. memory management, storage device control, power management, etc.) components and drivers, and may support communication between various hardware, firmware, and software components.

통신 모듈(323)은 통신 인터페이스(310)를 통해 다른 디바이스와 통신을 지원할 수 있다. 통신 모듈(320)은 통신 인터페이스(310)의 유선 통신 포트(311) 또는 무선 회로(312)에 의해 수신되는 데이터를 처리하기 위한 다양한 소프트웨어 구성 요소들을 포함할 수 있다.The communication module 323 may support communication with other devices through the communication interface 310 . The communication module 320 may include various software components for processing data received by the wired communication port 311 or the wireless circuit 312 of the communication interface 310 .

사용자 인터페이스 모듈(323)은 I/O 인터페이스(330)를 통해 키보드, 터치 스크린, 마이크 등으로부터 사용자의 요청 또는 입력을 수신하고, 디스플레이 상에 사용자 인터페이스를 제공할 수 있다.The user interface module 323 may receive a user's request or input from a keyboard, touch screen, microphone, etc. through the I/O interface 330 and provide a user interface on a display.

애플리케이션(324)은 하나 이상의 프로세서(330)에 의해 실행되도록 구성되는 프로그램 또는 모듈을 포함할 수 있다. Applications 324 may include programs or modules configured to be executed by one or more processors 330 .

I/O 인터페이스(330)는 서비스 제공 서버(300)의 입출력 디바이스(미도시), 예컨대 디스플레이, 키보드, 터치 스크린 및 마이크 중 적어도 하나를 사용자 인터페이스 모듈(323)과 연결할 수 있다. I/O 인터페이스(330)는 사용자 인터페이스 모듈(323)과 함께 사용자 입력(예. 음성 입력, 키보드 입력, 터치 입력 등)을 수신하고, 수신된 입력에 따른 명령을 처리할 수 있다. The I/O interface 330 may connect at least one of an input/output device (not shown) of the service providing server 300, for example, a display, a keyboard, a touch screen, and a microphone, to the user interface module 323. The I/O interface 330 may receive user input (eg, voice input, keyboard input, touch input, etc.) together with the user interface module 323 and process a command according to the received input.

프로세서(340)는 통신 인터페이스(310), 메모리(320) 및 I/O 인터페이스(330)와 연결되어 서비스 제공 서버(300)의 전반적인 동작을 제어할 수 있으며, 메모리(320)에 저장된 애플리케이션 또는 프로그램을 통해 클라이언트 장치(100)로부터 텍스트에 대한 합성음 데이터의 요청을 수신하고, 해당 텍스트를 입력으로 어드밴스드 모델을 이용하여 합성음 데이터를 생성하고, 생성된 합성음 데이터를 클라이언트 장치(100)로 제공하기 위한 다양한 명령들을 수행할 수 있다. The processor 340 is connected to the communication interface 310, the memory 320, and the I/O interface 330 to control the overall operation of the service providing server 300, and an application or program stored in the memory 320. Receives a request for synthesized voice data for text from the client device 100 through, generates synthesized voice data using the advanced model using the text as an input, and provides various synthesized voice data to the client device 100 through commands can be executed.

구체적으로, 프로세서(340)는 상대적으로 다양성이 적은 낭독체 위주의 문장을 기반으로 학습된 사전 학습된 제1 모델의 학습 파라미터를 전이 학습을 통해 제2 모델에 반영하고, 제1 모델의 학습 파라미터가 반영된 제2 모델에 다양성이 큰 데이터(예: 짧은 문장, 단어의 나열, 및/또는 낭독체를 제외한 다양한 문장 등)를 학습하여 어드밴스드 모델을 생성할 수 있다. 프로세서(340)는 클라이언트 장치(100)로부터 수신된 텍스트를 입력으로 어드밴스드 모델을 이용하여 합성음 데이터를 생성하고, 생성된 합성음 데이터를 클라이언트 장치(100)로 전달할 수 있다.Specifically, the processor 340 reflects the learning parameters of the first model, which have been learned in advance based on sentences with a relatively low diversity, to the second model through transfer learning, and the learning parameters of the first model An advanced model may be generated by learning data with a large variety (eg, short sentences, word lists, and/or various sentences excluding reading texts) in the second model in which . The processor 340 may use the text received from the client device 100 as an input to generate synthesized sound data using the advanced model, and transmit the generated synthesized voice data to the client device 100 .

다양한 실시예에서 짧은 문장, 단어 및/또는 낭독체를 제외한 다양한 문장은 서로 다른 비율에 따라 훈련 데이터로서 사용될 수 있다.In various embodiments, various sentences other than short sentences, words, and/or texts may be used as training data according to different ratios.

프로세서(340)는 CPU(Central Processing Unit)나 AP(Application Processor)와 같은 연산 장치에 해당할 수 있다. 또한, 프로세서(340)는 다양한 연산 장치가 통합된 SoC(System on Chip)와 같은 통합 칩(Integrated Chip (IC))의 형태로 구현될 수 있다. 또는 프로세서(340)는 NPU(Neural Processing Unit)과 같이 인공 신경망 모델을 계산하기 위한 모듈을 포함할 수 있다.The processor 340 may correspond to an arithmetic device such as a central processing unit (CPU) or an application processor (AP). In addition, the processor 340 may be implemented in the form of an integrated chip (IC) such as a System on Chip (SoC) in which various computing devices are integrated. Alternatively, the processor 340 may include a module for calculating an artificial neural network model, such as a Neural Processing Unit (NPU).

도 4는 본 발명의 실시예에 따른 인공지능 기반 음성 합성 모델을 설명하기 위한 예시도이다. 제시된 실시예에서는 서비스 제공 서버(300)의 프로세서(340)에 의해서 수행되는 방법을 설명한다.4 is an exemplary diagram for explaining an artificial intelligence-based speech synthesis model according to an embodiment of the present invention. In the presented embodiment, a method performed by the processor 340 of the service providing server 300 will be described.

도 4를 참조하면, 프로세서(340)는 다양성이 적은 낭독체 위주의 문장에 해당하는 common corpus(400)를 이용하여 제1 모델을 학습시켜 pre-trained model(410)을 생성하고, pre-trained model(410)의 학습 파라미터(예: 필터(가중치), 레이어 종류, 채널 수, stride 등)를 제2 모델에 반영한 후 다양성이 큰 짧은 데이터(reinforced corpus)(420)를 이용하여 제2 모델을 학습시켜 advanced model(430)을 생성할 수 있다.Referring to FIG. 4, the processor 340 uses a common corpus 400 corresponding to a text-oriented sentence with less variety to learn a first model to generate a pre-trained model 410, and pre-trained After reflecting the learning parameters (eg, filter (weight), layer type, number of channels, stride, etc.) of the model 410 in the second model, the second model is built using short data (reinforced corpus) 420 with high diversity. An advanced model 430 may be generated by training.

도 5는 본 발명의 실시예에 따른 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 방법을 설명하기 위한 흐름도이다. 제시된 실시예에서는 서비스 제공 서버(300)의 프로세서(340)에 의해서 수행되는 방법을 설명한다.5 is a flowchart illustrating a text-based voice generation method in the Korean culture education platform according to an embodiment of the present invention. In the presented embodiment, a method performed by the processor 340 of the service providing server 300 will be described.

도 5를 참조하면, 프로세서(340)는 클라이언트 장치(100)로부터 텍스트에 대한 합성음 데이터의 요청을 수신하고(S500), 요청에 따라 기 학습된 음성 합성 모델을 이용하여 해당 텍스트에 대한 합성음 데이터를 생성하며(S510), 생성된 합성음 데이터를 클라이언트 장치(100)로 제공한다(S520).Referring to FIG. 5 , the processor 340 receives a request for synthesized voice data for text from the client device 100 (S500), and according to the request, synthesized voice data for the text using a pre-learned voice synthesis model. It generates (S510), and provides the generated synthesized sound data to the client device 100 (S520).

여기서, 기 학습된 음성 합성 모델은 상술한 바와 같이 다양성이 적은 낭독체 위주의 텍스트를 입력으로 사전 학습한 제1 모델의 학습 파라미터가 반영된 제2 모델에 다양성이 큰 짧은 데이터를 학습시켜 생성된 모델을 의미한다.Here, the pre-learned speech synthesis model is a model generated by learning short data with high diversity in a second model reflecting the learning parameters of the first model pre-learned as an input of text with a low diversity as an input as described above. means

이를 통해 본 발명은 다양성이 큰 훈련 데이터를 이용하여 학습된 인공지능 기반 음성 합성 모델의 합성음 데이터의 음질을 향상시킬 수 있다.Through this, the present invention can improve the sound quality of synthetic sound data of an artificial intelligence-based speech synthesis model learned using training data having a large variety.

이상 첨부된 도면을 참조하여 본 발명의 일 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Although one embodiment of the present invention has been described in more detail with reference to the accompanying drawings, the present invention is not necessarily limited to these embodiments, and may be variously modified and implemented without departing from the technical spirit of the present invention. there is. Therefore, the embodiments disclosed in the present invention are not intended to limit the technical idea of the present invention, but to explain, and the scope of the technical idea of the present invention is not limited by these embodiments. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. The protection scope of the present invention should be construed according to the claims below, and all technical ideas within the equivalent range should be construed as being included in the scope of the present invention.

10: 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 시스템
100: 클라이언트 장치
110: 메모리 인터페이스 120: 프로세서
130: 주변 인터페이스 140: I/O 서브 시스템
141: 터치 스크린 제어기 142: 기타 입력 제어기
143: 터치 스크린
144: 기타 입력 제어 디바이스
150: 메모리 151: 운영 체제
152: 통신 모듈 153: GUI 모듈
154: 센서 처리 모듈 155: 전화 모듈
156: 애플리케이션들
156-1, 156-2: 애플리케이션
157: 디지털 어시스턴트 클라이언트 모듈
158: 사용자 데이터
160: 모션 센서 161: 조명 센서
162: 근접 센서 163: 기타 센서
170: 카메라 서브 시스템 171: 광학 센서
180: 통신 서브 시스템
190: 오디오 서브 시스템
191: 스피커 192: 마이크
300: 서비스 제공 서버
310: 통신 인터페이스
311: 유선 통신 포트 312: 무선 회로
320: 메모리
321: 운영 체제 322: 통신 모듈
323: 사용자 인터페이스 모듈 324: 애플리케이션
330: I/O 인터페이스 340: 프로세서
10: Text-based voice generation system in Korean cultural education platform
100: client device
110: memory interface 120: processor
130 Peripheral Interface 140 I/O Subsystem
141: touch screen controller 142: other input controller
143: touch screen
144: other input control devices
150: memory 151: operating system
152: communication module 153: GUI module
154: sensor processing module 155: phone module
156: applications
156-1, 156-2: application
157: digital assistant client module
158: user data
160: motion sensor 161: light sensor
162 Proximity sensor 163 Other sensors
170: camera subsystem 171: optical sensor
180: communication subsystem
190: audio subsystem
191: speaker 192: microphone
300: service providing server
310: communication interface
311 wired communication port 312 wireless circuit
320: memory
321: operating system 322: communication module
323: user interface module 324: application
330: I/O interface 340: processor

Claims (2)

프로세서에 의해서 수행되는 따른 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 방법에 있어서,
클라이언트 장치로부터 텍스트에 대한 합성음 데이터의 요청을 수신하는 단계;
기 학습된 음성 합성 모델을 이용하여 상기 텍스트에 대한 합성음 데이터를 생성하는 단계; 및
상기 합성음 데이터를 상기 클라이언트 장치로 제공하는 단계를 포함하고,
상기 음성 합성 모델은,
제1 훈련 데이터를 기반으로 사전 학습된(pre-trained) 제1 모델의 학습 파라미터가 전이 학습(transfer-learning)을 통해 반영되고, 상기 제1 훈련 데이터와 다른 제2 훈련 데이터를 기반으로 학습된 제2 모델인, 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 방법.
In the text-based voice generation method in the Korean culture education platform according to the processor,
receiving a request for synthetic sound data for text from a client device;
generating synthetic sound data for the text using a pre-learned speech synthesis model; and
Providing the synthesized sound data to the client device;
The speech synthesis model,
Learning parameters of a first model pre-trained based on the first training data are reflected through transfer-learning, and learned based on second training data different from the first training data. The second model, a text-based speech generation method in a Korean cultural education platform.
제1항에 있어서,
상기 제1 훈련 데이터는, 낭독체의 문장을 포함하고,
상기 제2 훈련 데이터는, 단음절, 2음절 및 단어 중 적어도 하나를 포함하는, 한국 문화 교육 플랫폼에서 텍스트 기반 음성 생성 방법.
According to claim 1,
The first training data includes a sentence in a reading language,
The second training data includes at least one of monosyllables, two syllables and words, text-based speech generation method in the Korean culture education platform.
KR1020210191047A 2021-12-29 2021-12-29 Method and apparatus for generating audio based on text in korean culture education KR20230101167A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210191047A KR20230101167A (en) 2021-12-29 2021-12-29 Method and apparatus for generating audio based on text in korean culture education

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210191047A KR20230101167A (en) 2021-12-29 2021-12-29 Method and apparatus for generating audio based on text in korean culture education

Publications (1)

Publication Number Publication Date
KR20230101167A true KR20230101167A (en) 2023-07-06

Family

ID=87185429

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210191047A KR20230101167A (en) 2021-12-29 2021-12-29 Method and apparatus for generating audio based on text in korean culture education

Country Status (1)

Country Link
KR (1) KR20230101167A (en)

Similar Documents

Publication Publication Date Title
US10388284B2 (en) Speech recognition apparatus and method
KR102295935B1 (en) Digital personal assistant interaction with impersonations and rich multimedia in responses
US10747954B2 (en) System and method for performing tasks based on user inputs using natural language processing
JP6744314B2 (en) Updating Language Understanding Classifier Model for Digital Personal Assistant Based on Crowdsourcing
RU2710984C2 (en) Performing task without monitor in digital personal assistant
TWI585744B (en) Method, system, and computer-readable storage medium for operating a virtual assistant
WO2019214365A1 (en) Translation model training method, sentence translation method and apparatus, and storage medium
US9202461B2 (en) Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US11024300B2 (en) Electronic device and control method therefor
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
JP2018026127A (en) Translation method, translation device, and computer program
US10586528B2 (en) Domain-specific speech recognizers in a digital medium environment
JP2008547061A (en) Context-sensitive communication and translation methods to enhance interaction and understanding between different language speakers
JP7413568B2 (en) Method and device for correcting spoken dialogue
CN112840396A (en) Electronic device for processing user words and control method thereof
US8595016B2 (en) Accessing content using a source-specific content-adaptable dialogue
EP3550449A1 (en) Search method and electronic device using the method
US20190295532A1 (en) Remote Generation of Executable Code for a Client Application Based on Natural Language Commands Captured at a Client Device
US11151995B2 (en) Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command
US11545144B2 (en) System and method supporting context-specific language model
CN106980640B (en) Interaction method, device and computer-readable storage medium for photos
KR20230101167A (en) Method and apparatus for generating audio based on text in korean culture education
JP2022021349A (en) Information processing device, information processing method, and program
TWI835098B (en) Method, system and computer readable recording medium for providing a voice record generated based on information after voice recording
US20230040219A1 (en) System and method for hands-free multi-lingual online communication