WO2022039636A1 - Method for synthesizing speech and transmitting the authentic intonation of a clonable sample - Google Patents

Method for synthesizing speech and transmitting the authentic intonation of a clonable sample Download PDF

Info

Publication number
WO2022039636A1
WO2022039636A1 PCT/RU2021/050284 RU2021050284W WO2022039636A1 WO 2022039636 A1 WO2022039636 A1 WO 2022039636A1 RU 2021050284 W RU2021050284 W RU 2021050284W WO 2022039636 A1 WO2022039636 A1 WO 2022039636A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
neural network
text
selected speaker
voice
Prior art date
Application number
PCT/RU2021/050284
Other languages
French (fr)
Russian (ru)
Inventor
Петр Владимирович ТАГУНОВ
Владислав Александрович ГОНТА
Original Assignee
Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы" filed Critical Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы"
Publication of WO2022039636A1 publication Critical patent/WO2022039636A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the invention relates to the field of methods and devices for recognizing, processing, analyzing and synthesizing speech, and in particular to methods for synthesizing speech using artificial neural networks, and can be used for cloning and synthesizing the speech of a selected speaker with the transfer of reliable intonation of the cloned sample.
  • Tacotron 2 and Waveglow neural networks can be distinguished as the most well-known and perfect neural networks currently used for speech synthesis with the transfer of reliable intonation of the cloned sample.
  • Tacotron 2 (accessed 07/29/2020) consists of two neural networks, the first of which converts text into a chalk spectrogram, which is then transmitted to the second network (WaveNet) to read visual images and create corresponding sound elements.
  • Waveglow (WAVEGLOW: A FLOWBASED GENERATIVE NETWORK FOR SPEECH S YNTHESIS"// Ryan Prenger, Rafael Valle, Bryan Catanzaro NVIDIA Corporation// electronic resource URL: https://arxiv.org/pdf/ 1811.00002.pdf (accessed 07/27/2020 ) is a stream-based network capable of generating high quality speech from chalk spectrograms.WaveGlow combines ideas from Glow and WaveNet to provide fast, efficient and high quality audio synthesis without the need for autoregression.
  • TR2018036413 A “EDUCATIONAL VOICE SYNTHESIS DEVICE, METHOD AND PROGRAM”, Russian patent for invention No. 268658 “MIXED SPEECH RECOGNITION”, Russian patent for invention No. 2720359 “METHOD AND EQUIPMENT FOR RECOGNITION OF EMOTIONS IN SPEECH”, Russian patent for invention No. 2698153 “ADAPTIVE AUDIO ENHANCEMENT FOR MULTICHANNEL SPEECH RECOGNITION”.
  • trainable artificial neural networks including two simultaneously neural networks, preliminary preparation of a training database for a neural network, application of the transformation of the initial data into a chalk spectrogram and further processing of the chalk spectrogram and its conversion to speech, the use of software, the use of a convolutional neural network for deep learning.
  • the closest technical solution is the technical solution according to the Russian patent for invention No. 2632424 "METHOD AND SERVER FOR SPEECH SYNTHESIS BY TEXT" (priority date 09/29/2015).
  • This solution is characterized in that it is a speech-to-text method, which includes the steps of obtaining training text data and corresponding training acoustic data, extracting one or more phonetic and linguistic characteristics of training text data, extracting vocoder characteristics of the corresponding training acoustic data, and correlating vocoder features with the phonetic and linguistic features of the training text data and with one or more specific speech attributes, using a deep neural network to determine interdependence factors between speech attributes in the training data, getting text, getting a choice of speech attribute, converting text to synthesized speech using acoustic spatial model, the output of the synthesized speech in the form of audio with the selected speech attribute.
  • the technical result is to increase the naturalness human voice in synthesized speech.
  • the shortcomings of the prototype do not allow for a qualitative, exact match of the intonation of the synthesized speech to the cloned speech sample of any speaker in any natural language, including a complex one, for example, in Russian.
  • none of the presented technical solutions from the indicated field of technology offers a full-fledged hardware-software method for the synthesis of any speech in any natural language, including Russian or other complex languages, performed by any speaker with the transfer of reliable intonation of the cloned sample in all its aspects with the maximum correspondence of the synthesized voice to the voice of a real human speaker.
  • the method of speech synthesis with the transfer of reliable intonation of the cloned sample which is claimed for registration, solves this technical problem, since it is a full-fledged hardware-software method for synthesizing any speech in any natural language, including Russian or other complex language, performed by any speaker with the transfer of reliable intonation of the cloned sample in all its aspects with the maximum correspondence of the synthesized voice to the voice of a real human speaker, which is achieved by careful manual (mechanical) preparation of the training dataset for neural networks, using Tacotron2 and Waveglow neural networks simultaneously, with deep learning and modification of the Tacotron2 network in order to maximize the adaptation of the neural network to the features of a particular language, the use of software to control the operation of neural networks, and the use of a web service and a website for the interaction of any user with software and computer.
  • the technical result of the proposed technical solution "Method of speech synthesis with the transfer of reliable intonation of the cloned sample” is that as a result of speech synthesis according to the proposed method due to careful manual (mechanical) preparation of the training dataset, a qualitative change in the architecture
  • the artificial neural network used for its maximum adaptation to the characteristics of a particular language achieves the transfer of reliable intonation of the cloned speech sample of any selected speaker in any natural language, including a complex language, for example, Russian, that is, the maximum correspondence of all aspects of intonation synthesized based on the input by a third-party user of an arbitrary text of speech to the voice of any speaker in any natural language, as a result of which the synthesized speech becomes indistinguishable from natural, as well as, in general, expanding the arsenal of speech synthesis methods using artificial neural networks.
  • the method of speech synthesis with the transfer of reliable intonation of the cloned sample includes the steps of preliminary preparation of a training dataset consisting of a text and a corresponding audio recording of the speech of the selected speaker, deep learning of the neural network based on the training dataset and obtaining a chalk spectrogram at the output the voice of the selected speaker, converting the chalk spectrogram using a vocoder with the output of an audio file in WAV format, re-using the already trained neural network and vocoder to convert user-loaded arbitrary text into speech of the selected speaker, processed at the stages of dataset preparation and deep learning of the neural network with obtaining at the output an audio file of voicing an arbitrary text by the voice of the selected speaker in WAV format, characterized in that the audio recording of the speech of the selected speaker is divided into fragments of no more than 16 seconds each, the preparation of the dataset is carried out is carried out manually by a person carefully checking each fragment of the audio recording and the corresponding fragment of the text for a complete match
  • the method of speech synthesis with the transfer of reliable intonation of the cloned sample includes the following steps.
  • a training dataset is manually prepared, consisting of a text and the corresponding audio recording of the speech of the selected speaker, divided into fragments no longer than 16 seconds each.
  • Manual preparation of the dataset means that each fragment of the audio recording and the corresponding fragment of text are carefully checked by a person by listening to a fragment of the audio recording and reading at the same time the corresponding fragment of text for their complete coincidence. If the text does not match the audio recording, a person uses a computer to make changes to the text to maximize the correspondence of the transcription of the audio recording to the text.
  • the minimum amount of dataset for future full-fledged training a neural network based on this dataset is 20 hours of audio recording for satisfactory (test) quality and 30 hours of speech for the commercial operation of the voice of the selected speaker.
  • the process of modification and deep learning of the artificial neural network (model) Tacotron2 is carried out in relation to the specifics of a particular natural language, for example, Russian.
  • the manually prepared training dataset and neural networks (models) of Tacotron2 and Waveglow are loaded into the graphics and central processors of the computer and tensor calculations of the weights of the Tacotron2 and Waveglow models are performed, which determine the speech features of the selected speaker.
  • the encoding stage the transformation of text characters from the dataset into their numerical representation. Further, the convolutional layers of the Tacotron2 neural network determine the relationship of letters in the word and in the text as a whole. Then the result goes to the bidirectional layer of the Tacotron2 neural network, which uses its internal memory to process sequences of arbitrary length, which saves the state of the “past” and “future”, that is, remembers the context of a particular piece of text and audio recording.
  • the decoding stage - the result obtained at the encoding stage passes through the Tacotron2 "attention" network layer, which calculates the average moment over all possible results of the encoding stage network, which in turn consists of two unidirectional memory layers of the Tacotron2 neural network, the pre-net layer, necessary for learning attention, and a layer of linear transformation into a chalk spectrogram.
  • the result of the decoding stage passes through the five-convolution layer (post-net) of the Tacotron2 neural network to improve the quality of the chalk spectrogram.
  • the resulting processed chalk spectrogram is transferred to the vocoder, which is the Waveglow neural network, which outputs an audio file in WAV format at the output.
  • the Tacotron2 model modified at the previous stages of deep learning and the Waveglow network with calculated weights are reloaded on the graphics and CPU of the computer, and the arbitrary text loaded by the user is converted into the speech of the speaker, processed at the stages of dataset preparation and deep learning of the Tacotron2 model.
  • the processes of modification and deep learning of the Tacotron2 model with the output of a chalk spectrogram, conversion of the chalk spectrogram into a WAV audio file by the Waveglow network, and further conversion of user-loaded arbitrary text into speech of the speaker, processed at the dataset preparation and deep learning stages of the Tacotron2 model, are controlled by software security.
  • the interaction of the user with software and computer equipment when he downloads arbitrary text for its voicing by the voice of the selected speaker and receives an audio file in WAV format as an output is carried out using a web service in the Java language and a website.
  • the novelty and inventive level of the presented invention lies in the fact that in the described method of speech synthesis with the transfer of reliable intonation of the cloned sample, a thorough manual (mechanical) preparation of the training dataset for the Tacotron2 and Waveglow neural networks is carried out, the Tacotron2 neural network undergoes a modification process by increasing the number of weights of its model , expanding the amount of its memory and its subsequent deep learning based on a prepared training dataset using a larger number of "features" (specific software capabilities) in order to maximize the adaptation of the neural network to the features of a particular language.
  • features specific software capabilities

Abstract

The invention relates to the field of speech recognition, processing, analysis and synthesis, and more particularly to methods for synthesizing speech using artificial neural networks. The technical result of the invention consists in transmitting the authentic intonation of a clonable sample of the speech of a selected speaker in any natural language, including complex languages such as Russian, in other words maximally matching all aspects of the intonation of speech synthesized on the basis of an arbitrary text input by a third-party user to the voice of any selected speaker in a natural language, as a result of which the synthesized speech becomes indistinguishable from natural speech. A training data set consisting of a text and a corresponding audio recording of the speech of a selected speaker is subjected to pre-processing. Deep learning is performed on a neural network using the training data set, and a mel spectrogram of the voice of the selected speaker is obtained at the output. Said mel spectrogram is converted with the aid of a vocoder so that an audio file is obtained at the output. The trained neural network and the vocoder are reused to convert an arbitrary text input by a user into the speech of the selected speaker so that an audio file of the arbitrary text spoken in the voice of the selected speaker is obtained at the output.

Description

СПОСОБ СИНТЕЗА РЕЧИ С ПЕРЕДАЧЕЙ ДОСТОВЕРНОГО ИНТОНИРОВАНИЯ КЛОНИРУЕМОГО ОБРАЗЦА METHOD FOR SPEECH SYNTHESIS WITH TRANSMISSION OF RELIABLE INTONATION OF CLONED SAMPLE
Изобретение относится к области способов и устройств распознавания, обработки, анализирования и синтезирования речи, а именно к способам синтезирования речи с использованием искусственных нейронных сетей, и может быть применено для клонирования и синтеза речи выбранного спикера с передачей достоверного интонирования клонируемого образца. The invention relates to the field of methods and devices for recognizing, processing, analyzing and synthesizing speech, and in particular to methods for synthesizing speech using artificial neural networks, and can be used for cloning and synthesizing the speech of a selected speaker with the transfer of reliable intonation of the cloned sample.
Из общего уровня техники известны различные технические решения в области способов и устройств распознавания, обработки, анализирования и синтезирования речи. Некоторая часть из данных решений предполагает применение в процессе обработки, анализирования и синтезирования речи искусственных нейронных сетей. Основной задачей при синтезировании речи является преобразование того или иного текста в слышимую речь. Искусственные нейронные сети обладают свойством глубокого обучения (по аналогии с мозгом человека), в связи с чем позволяют преобразовать текст не в некий механический безжизненный голос, а добиться того, чтобы текст озвучивался «живым», естественным человеческим голосом, в том числе голосом выбранных людей (например, известных личностей) за счёт предварительного обучения нейронной сети голосу выбранного спикера. Various technical solutions are known from the general level of technology in the field of methods and devices for speech recognition, processing, analysis and synthesis. Some of these solutions involve the use of artificial neural networks in the process of processing, analyzing and synthesizing speech. The main task in speech synthesis is the transformation of a text into audible speech. Artificial neural networks have the property of deep learning (by analogy with the human brain), in connection with which they make it possible to convert the text not into some kind of mechanical lifeless voice, but to ensure that the text is voiced by a “live”, natural human voice, including the voice of selected people (for example, famous personalities) due to the preliminary training of the neural network in the voice of the selected speaker.
В качестве наиболее известных и совершенных нейронных сетей, применяемых в настоящее время для синтеза речи с передачей достоверного интонирования клонируемого образца, можно выделить нейронные сети Tacotron 2 и Waveglow. Tacotron 2 ( асо гоп2//сайт NVIDIA Corporation// электронный ресурс URL: https '.И ithub.com/NVIDIA/tacotron2 (дата доступа 29.07.2020) состоит из двух нейронных сетей, первая из которых преобразует текст в мел-спектрограмму, которая затем передаётся во вторую сеть (WaveNet) для считывания визуальных изображений и создания соответствующих звуковых элементов. Waveglow (WAVEGLOW: A FLOWBASED GENERATIVE NETWORK FOR SPEECH S YNTHESIS»//Ryan Prenger, Rafael Valle, Bryan Catanzaro NVIDIA Corporation// электронный ресурс URL: https ://arxiv.org/pdf/ 1811.00002.pdf (дата доступа 27.07.2020) представляет собой сеть на основе потоков, способную генерировать высококачественную речь из мел-спектрограмм. WaveGlow сочетает в себе идеи от Glow и WaveNet, чтобы обеспечить быстрый, эффективный и высококачественный синтез звука без необходимости авторегрессии. Tacotron 2 and Waveglow neural networks can be distinguished as the most well-known and perfect neural networks currently used for speech synthesis with the transfer of reliable intonation of the cloned sample. Tacotron 2 (accessed 07/29/2020) consists of two neural networks, the first of which converts text into a chalk spectrogram, which is then transmitted to the second network (WaveNet) to read visual images and create corresponding sound elements. Waveglow (WAVEGLOW: A FLOWBASED GENERATIVE NETWORK FOR SPEECH S YNTHESIS"// Ryan Prenger, Rafael Valle, Bryan Catanzaro NVIDIA Corporation// electronic resource URL: https://arxiv.org/pdf/ 1811.00002.pdf (accessed 07/27/2020 ) is a stream-based network capable of generating high quality speech from chalk spectrograms.WaveGlow combines ideas from Glow and WaveNet to provide fast, efficient and high quality audio synthesis without the need for autoregression.
В качестве примеров запатентованных технических решений, применяющих искусственные нейронные сети для синтезирования речи, можно привести иностранный патент на изобретение № CN110335587A «МЕТОД СИНТЕЗА РЕЧИ, СИСТЕМА СИНТЕЗА РЕЧИ, ТЕРМИНАЛЬНОЕ ОБОРУДОВАНИЕ И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ ХРАНЕНИЯ», иностранный патент на изобретение № CN110853616A «СПОСОБ И СИСТЕМА СИНТЕЗА РЕЧИ НА ОСНОВЕ НЕЙРОННОЙ СЕТИ И НОСИТЕЛЬ ИНФОРМАЦИИ», иностранный патент на изобретение № CN108597492A «СПОСОБ И УСТРОЙСТВО СИНТЕЗА ГОЛОСА», иностранный патент на изобретение № ТР2018036413 А «УЧЕБНОЕ УСТРОЙСТВО ГОЛОСОВОГО СИНТЕЗА, СПОСОБ И ПРОГРАММА», российский патент на изобретение № 2686589 «РАСПОЗНАВАНИЕ СМЕШАННОЙ РЕЧИ», российский патент на изобретение № 2720359 «СПОСОБ И ОБОРУДОВАНИЕ РАСПОЗНАВАНИЯ ЭМОЦИЙ В РЕЧИ», российский патент на изобретение № 2698153 «АДАПТИВНОЕ УЛУЧШЕНИЕ АУДИО ДЛЯ РАСПОЗНАВАНИЯ МНОГОКАНАЛЬНОЙ РЕЧИ». В качестве общих признаков данных технических решений с предлагаемым способом синтеза речи с передачей достоверного интонирования клонируемого образца можно выделить применение обучаемых искусственных нейронных сетей, в том числе одновременно двух нейронных сетей, предварительную подготовку обучающей базы данных для нейронной сети, применение преобразования исходных данных в мел- спектрограмму и дальнейшей обработки мел-спектрограммы и её преобразование в речь, применение программного обеспечения, использование свёрточной нейронной сети для глубокого обучения. As examples of patented technical solutions using artificial neural networks for speech synthesis, we can cite foreign invention patent No. CN110335587A "SPEECH SYNTHESIS METHOD, SPEECH SYNTHESIS SYSTEM, TERMINAL EQUIPMENT AND MACHINE READABLE STORAGE MEDIA", foreign invention patent No. CN110853616A "METHOD AND SPEECH SYNTHESIS SYSTEM BASED ON A NEURAL NETWORK AND INFORMATION CARRIER”, foreign patent for invention No. CN108597492A “METHOD AND DEVICE FOR VOICE SYNTHESIS”, foreign patent for invention No. TR2018036413 A “EDUCATIONAL VOICE SYNTHESIS DEVICE, METHOD AND PROGRAM”, Russian patent for invention No. 268658 “MIXED SPEECH RECOGNITION”, Russian patent for invention No. 2720359 “METHOD AND EQUIPMENT FOR RECOGNITION OF EMOTIONS IN SPEECH”, Russian patent for invention No. 2698153 “ADAPTIVE AUDIO ENHANCEMENT FOR MULTICHANNEL SPEECH RECOGNITION”. As common features of these technical solutions with the proposed method of speech synthesis with the transfer of reliable intonation of the cloned sample, one can single out the use of trainable artificial neural networks, including two simultaneously neural networks, preliminary preparation of a training database for a neural network, application of the transformation of the initial data into a chalk spectrogram and further processing of the chalk spectrogram and its conversion to speech, the use of software, the use of a convolutional neural network for deep learning.
Также в открытом доступе содержатся упоминания платформы RESEMBLE (сайт RESEMBLE PLATFORM// электронный ресурс URL:htt s://www.resemble.ai/ (дата доступа 28.07.2020)) для клонирования голоса и проект VeraVoice (сайт VeraVoice// электронный ресурс URL: https://veravoice.ai/(flaTa доступа 28.07.2020)). Однако отсутствует техническое описание данных решений. Also in the public domain are references to the RESEMBLE platform (site RESEMBLE PLATFORM// electronic resource URL: htt s://www.resemble.ai/ (access date 28.07.2020)) for voice cloning and the VeraVoice project (site VeraVoice// electronic resource URL: https://veravoice.ai/(flaTa accessed 07/28/2020)). However, there is no technical description of these solutions.
Наиболее близким техническим решением (прототипом) является техническое решение по российскому патенту на изобретение № 2632424 «СПОСОБ И СЕРВЕР ДЛЯ СИНТЕЗА РЕЧИ ПО ТЕКСТУ» (дата приоритета 29.09.2015). Данное решение характеризуется тем, что представляет собой способ синтеза речи по тексту, включающий в себя этапы получения обучающих текстовых данных и соответствующих обучающих акустических данных, извлечения одной или нескольких фонетических и лингвистических характеристик обучающих текстовых данных, извлечения вокодерных характеристик соответствующих обучающих акустических данных, и корреляции вокодерных характеристик с фонетическими и лингвистическими характеристиками обучающих текстовых данных и с одним или несколькими определенными речевыми атрибутами, использования глубокой нейронной сети для определения факторов взаимозависимости между речевыми атрибутами в обучающих данных, получения текста, получения выбора речевого атрибута, преобразования текста в синтезированную речь с использованием акустической пространственной модели, вывода синтезированной речи в виде аудио, обладающего выбранным речевым атрибутом. Технический результат заключается в повышении естественности человеческого голоса в синтезированной речи. Общими признаками прототипа с заявляемым техническим решением являются использование глубоко обучаемой нейронной сети, предварительная подготовка обучающей базы данных, состоящей из текстовых и акустических данных. The closest technical solution (prototype) is the technical solution according to the Russian patent for invention No. 2632424 "METHOD AND SERVER FOR SPEECH SYNTHESIS BY TEXT" (priority date 09/29/2015). This solution is characterized in that it is a speech-to-text method, which includes the steps of obtaining training text data and corresponding training acoustic data, extracting one or more phonetic and linguistic characteristics of training text data, extracting vocoder characteristics of the corresponding training acoustic data, and correlating vocoder features with the phonetic and linguistic features of the training text data and with one or more specific speech attributes, using a deep neural network to determine interdependence factors between speech attributes in the training data, getting text, getting a choice of speech attribute, converting text to synthesized speech using acoustic spatial model, the output of the synthesized speech in the form of audio with the selected speech attribute. The technical result is to increase the naturalness human voice in synthesized speech. Common features of the prototype with the claimed technical solution are the use of a deep learning neural network, preliminary preparation of a training database consisting of text and acoustic data.
Однако прототип имеет ряд недостатков: However, the prototype has several disadvantages:
- отсутствует техническое описание глубоко-обучаемой нейронной сети и принципа её работы. В решении весьма подробно описана аппаратная часть способа синтеза речи по тексту, но опущено описание самой нейронной сети, её свойств, между тем как нейронные сети значительно отличаются друг от друга, обладают различной структурой, свойствами, а для использования для клонирования речи нейронная сеть должна обладать строго определёнными свойствами (например, быть рекуррентной), иметь определённые слои; - there is no technical description of the deep learning neural network and the principle of its operation. The solution describes in great detail the hardware part of the speech synthesis method from the text, but the description of the neural network itself, its properties is omitted, while neural networks differ significantly from each other, have different structures, properties, and to be used for speech cloning, the neural network must have strictly defined properties (for example, to be recurrent), to have certain layers;
- отсутствует техническое описание способа подготовки базы обучающих данных, состоящей из обучающих текстовых данных и соответствующих обучающих акустических данных. Текстовые и акустические данные должны строго соответствовать друг другу, транскрипция голоса должна совпадать с текстом. При увеличении количества данных возрастает риск появления ошибок, неточностей, в результате чего снижается качество обучения нейронной сети, а значит и соответствия синтезированной речи образцу; - there is no technical description of how to prepare a training data base consisting of training text data and corresponding training acoustic data. Text and acoustic data must strictly correspond to each other, voice transcription must match the text. With an increase in the amount of data, the risk of errors and inaccuracies increases, as a result of which the quality of neural network training decreases, and hence the correspondence of the synthesized speech to the sample;
- преобразование текста в синтезированную речь с использованием акустической пространственной модели с применением преимущественно аппаратных средств без использования мел-спектрограмм может повлечь также ошибки и неточности при преобразовании текста в речь, делать голос частично искусственным, «неживым» в связи с неполноценной передачей всех интонаций голоса реального человека. - converting text into synthesized speech using an acoustic spatial model using mainly hardware without using chalk spectrograms can also lead to errors and inaccuracies when converting text to speech, make the voice partially artificial, "lifeless" due to the incomplete transmission of all the intonations of the real voice person.
В результате недостатки прототипа не позволяют обеспечить качественное, точное соответствие интонирования синтезированной речи клонируемому образца речи любого спикера на любом естественном языке, в том числе на сложном, например на русском языке. Таким образом, ни одно из представленных технических решений из указанной области техники не предлагает полноценного программноаппаратного способа синтеза любой речи на любом естественном языке, в том числе на русском или другом сложном языке, выполненной любым спикером с передачей достоверного интонирования клонируемого образца во всех его аспектах с максимальным соответствием синтезированного голоса голосу реального человека-спикера. As a result, the shortcomings of the prototype do not allow for a qualitative, exact match of the intonation of the synthesized speech to the cloned speech sample of any speaker in any natural language, including a complex one, for example, in Russian. Thus, none of the presented technical solutions from the indicated field of technology offers a full-fledged hardware-software method for the synthesis of any speech in any natural language, including Russian or other complex languages, performed by any speaker with the transfer of reliable intonation of the cloned sample in all its aspects with the maximum correspondence of the synthesized voice to the voice of a real human speaker.
В отличие от прототипа и иных технических решений, заявляемый на регистрацию способ синтеза речи с передачей достоверного интонирования клонируемого образца решает данную техническую проблему, так как представляет собой полноценный программно-аппаратный способ синтеза любой речи на любом естественном языке, в том числе на русском или другом сложном языке, выполненной любым спикером с передачей достоверного интонирования клонируемого образца во всех его аспектах с максимальным соответствием синтезированного голоса голосу реального человека-спикера, что достигается тщательной ручной (механической) подготовкой обучающего датасета для нейронный сетей, использованием одновременно нейронных сетей Tacotron2 и Waveglow, с глубоким обучением и модификацией сети Tacotron2 с целью максимальной адаптации нейронной сети под особенности того или иного языка, использованием программного обеспечения для управления работой нейронных сетей, и применением веб-сервиса и веб-сайта для взаимодействия любого пользователя с программным обеспечением и компьютером. Unlike the prototype and other technical solutions, the method of speech synthesis with the transfer of reliable intonation of the cloned sample, which is claimed for registration, solves this technical problem, since it is a full-fledged hardware-software method for synthesizing any speech in any natural language, including Russian or other complex language, performed by any speaker with the transfer of reliable intonation of the cloned sample in all its aspects with the maximum correspondence of the synthesized voice to the voice of a real human speaker, which is achieved by careful manual (mechanical) preparation of the training dataset for neural networks, using Tacotron2 and Waveglow neural networks simultaneously, with deep learning and modification of the Tacotron2 network in order to maximize the adaptation of the neural network to the features of a particular language, the use of software to control the operation of neural networks, and the use of a web service and a website for the interaction of any user with software and computer.
Соответственно, технический результат заявляемого технического решения «Способ синтеза речи с передачей достоверного интонирования клонируемого образца» состоит в том, что в результате синтеза речи согласно предлагаемому способу за счёт тщательной ручной (механической) подготовки обучающего датасета, качественного изменения архитектуры применяемой искусственной нейронной сети для её максимальной адаптации под особенности того или иного языка достигается передача достоверного интонирования клонируемого образца речи выбранного любого спикера на любом естественном языке, в том числе на сложном языке, например русском, то есть максимальное соответствие всех аспектов интонации синтезированной на основе введённого сторонним пользователем произвольного текста речи голосу выбранного любого спикера на любом естественном языке, в результате чего синтезированная речь становится неотличимой от естественной, а также в целом расширение арсенала способов синтеза речи с использованием искусственных нейронных сетей. Accordingly, the technical result of the proposed technical solution "Method of speech synthesis with the transfer of reliable intonation of the cloned sample" is that as a result of speech synthesis according to the proposed method due to careful manual (mechanical) preparation of the training dataset, a qualitative change in the architecture The artificial neural network used for its maximum adaptation to the characteristics of a particular language achieves the transfer of reliable intonation of the cloned speech sample of any selected speaker in any natural language, including a complex language, for example, Russian, that is, the maximum correspondence of all aspects of intonation synthesized based on the input by a third-party user of an arbitrary text of speech to the voice of any speaker in any natural language, as a result of which the synthesized speech becomes indistinguishable from natural, as well as, in general, expanding the arsenal of speech synthesis methods using artificial neural networks.
Технический результат достигается тем, что способ синтеза речи с передачей достоверного интонирования клонируемого образца включает в себя этапы предварительной подготовки обучающего датасета, состоящего из текста и соответствующей ему аудиозаписи речи выбранного спикера, глубокого обучения нейронной сети на основе обучающего датасета и получения на выходе мел-спектрограммы голоса выбранного спикера, преобразования мел-спектрограммы с помощью вокодера с получением на выходе аудиофайла в формате WAV, повторного применения уже обученной нейронной сети и вокодера для преобразования загружаемого пользователем произвольного текста в речь выбранного спикера, обработанного на этапах подготовки датасета и глубокого обучения нейронной сети с получением на выходе аудиофайла озвучивания произвольного текста голосом выбранного спикера в формате WAV, отличающийся тем, что аудиозапись речи выбранного спикера разбита на фрагменты длительностью не более 16 секунд каждая, подготовка датасета осуществляется в ручном режиме путём тщательной проверки человеком каждого фрагмента аудиозаписи и соответствующего ему фрагмента текста на предмет полного совпадения транскрипции аудиозаписи тексту, в качестве глубоко обучаемой нейронной сети применяется сеть Tacotron2, в качестве вокодера применяется нейронная сеть Waveglow, в процессе глубокого обучения нейросети Tacotron2 на основе подготовленного датасета осуществляется её модификация путём увеличения количества весов её модели, расширения объёма её памяти с целью максимальной адаптации нейронной сети под особенности того или иного языка, процессы модификации и глубокого обучения модели Tacotron2 с получением на выходе мел-спектрограммы, преобразования сетью Waveglow мел-спектрограммы в аудиофайл в формате WAV и дальнейшего преобразования загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2, контролируются программным обеспечением, взаимодействие пользователя с программным обеспечением и компьютерным оборудованием при загрузке им произвольного текста для его озвучивания голосом выбранного спикера и получении на выходе аудиофайла в формате WAV осуществляется с помощью веб-сервиса на языке Java и веб-сайта. The technical result is achieved by the fact that the method of speech synthesis with the transfer of reliable intonation of the cloned sample includes the steps of preliminary preparation of a training dataset consisting of a text and a corresponding audio recording of the speech of the selected speaker, deep learning of the neural network based on the training dataset and obtaining a chalk spectrogram at the output the voice of the selected speaker, converting the chalk spectrogram using a vocoder with the output of an audio file in WAV format, re-using the already trained neural network and vocoder to convert user-loaded arbitrary text into speech of the selected speaker, processed at the stages of dataset preparation and deep learning of the neural network with obtaining at the output an audio file of voicing an arbitrary text by the voice of the selected speaker in WAV format, characterized in that the audio recording of the speech of the selected speaker is divided into fragments of no more than 16 seconds each, the preparation of the dataset is carried out is carried out manually by a person carefully checking each fragment of the audio recording and the corresponding fragment of the text for a complete match between the transcription of the audio recording and the text, the Tacotron2 network is used as a deep learning neural network, and the neural network is used as a vocoder Waveglow network, in the process of deep learning of the Tacotron2 neural network, based on the prepared dataset, it is modified by increasing the number of weights of its model, expanding the amount of its memory in order to maximize the adaptation of the neural network to the features of a particular language, the processes of modification and deep learning of the Tacotron2 model with obtaining on the output of the chalk spectrogram, the conversion of the chalk spectrogram into a WAV audio file by the Waveglow network, and the further conversion of user-uploaded arbitrary text into speech of the speaker, processed at the dataset preparation and deep learning stages of the Tacotron2 model, are controlled by software, user interaction with software and computer hardware when he uploads arbitrary text for its voicing by the voice of the selected speaker and receives an audio file in WAV format as an output, it is carried out using a web service in the Java language and a website.
Для получения технического результата изобретение может быть осуществлено следующим предпочтительным образом, не исключающим иных способов осуществления в рамках заявленной формулы изобретения. To obtain a technical result, the invention can be carried out in the following preferred manner, not excluding other ways of implementation within the framework of the claimed claims.
Способ синтеза речи с передачей достоверного интонирования клонируемого образца включает в себя следующие этапы. На первом этапе вручную подготавливается обучающий датасет, состоящий из текста и соответствующей ему аудиозаписи речи выбранного спикера, разбитой на фрагменты длительностью не более 16 секунд каждая. Ручная подготовка датасета означает, что каждый фрагмент аудиозаписи и соответствующий ему фрагмент текста тщательно проверяется человеком путём прослушивания фрагмента аудиозаписи и прочтения одновременно соответствующего ему фрагмента текста на предмет их полного совпадения. В случае несовпадения текста с аудиозаписью, человек с помощью компьютера вносит изменения в текст для максимизации соответствия транскрипции аудиозаписи тексту. При этом минимальный объем датасета для будущего полноценного обучения нейросети на основе данного датасета, например, для русской речи, составляет 20 часов аудиозаписи для удовлетворительного (тестового) качества и 30 часов речи для промышленной эксплуатации голоса выбранного спикера. Далее на основе подготовленного датасета осуществляется процесс модификации и глубокого обучения искусственной нейронной сети (модели) Tacotron2 применительно к специфике того или иного естественного языка, например русского. Полученный вручную подготовленный обучающий датасет и нейронные сети (модели) Tacotron2 и Waveglow загружаются в графический и центральный процессоры компьютера и производятся тензорные вычисления весов моделей Tacotron2 и Waveglow, определяющих особенности речи выбранного спикера. Далее следует этап кодирования - преобразование символов текста из датасета в их численное представление. Далее свёрточные слои нейронной сети Tacotron2 определяют взаимосвязь букв в слове и в тексте в целом. Затем результат поступает в двунаправленный слой нейронной сети Tacotron2, использующий свою внутреннюю память для обработки последовательностей произвольной длины, который сохраняет состояние о «прошлом» и «будущем», то есть запоминает контекст того или иного фрагмента текста и аудиозаписи. Далее следует этап декодирования - полученный на этапе кодирования результат проходит через слой сети Tacotron2 «внимания», который вычисляет средний момент по всем возможным результатам сети этапа кодирования, который в свою очередь состоит из двух однонаправленных слоев памяти нейронной сети Tacotron2, слоя pre-net, необходимого для обучения внимания, и слоя линейного преобразования в мел-спектрограмму. Полученный результат этапа декодирования проходит через пятисвёрточный слой (post-net) нейронной сети Tacotron2 для повышения качества мел-спектрограммы. Далее полученная обработанная мел-спектрограмма передаётся в вокодер, в качестве которого выступает нейронная сеть Waveglow, которая на выходе выдаёт аудиофайл в формате WAV. Далее модифицированная на предыдущих этапах глубокого обучения модель Tacotron2 и сеть Waveglow с вычисленными весами загружаются повторно на графический и центральный процессор компьютера и производится преобразование загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2. Процессы модификации и глубокого обучения модели Tacotron2 с получением на выходе мел-спектрограммы, преобразования сетью Waveglow мел-спектрограммы в аудиофайл в формате WAV и дальнейшего преобразования загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2, контролируются программным обеспечением. Взаимодействие пользователя с программным обеспечением и компьютерным оборудованием при загрузке им произвольного текста для его озвучивания голосом выбранного спикера и получении на выходе аудиофайла в формате WAV осуществляется с помощью веб-сервиса на языке Java и веб-сайта. The method of speech synthesis with the transfer of reliable intonation of the cloned sample includes the following steps. At the first stage, a training dataset is manually prepared, consisting of a text and the corresponding audio recording of the speech of the selected speaker, divided into fragments no longer than 16 seconds each. Manual preparation of the dataset means that each fragment of the audio recording and the corresponding fragment of text are carefully checked by a person by listening to a fragment of the audio recording and reading at the same time the corresponding fragment of text for their complete coincidence. If the text does not match the audio recording, a person uses a computer to make changes to the text to maximize the correspondence of the transcription of the audio recording to the text. At the same time, the minimum amount of dataset for future full-fledged training a neural network based on this dataset, for example, for Russian speech, is 20 hours of audio recording for satisfactory (test) quality and 30 hours of speech for the commercial operation of the voice of the selected speaker. Further, on the basis of the prepared dataset, the process of modification and deep learning of the artificial neural network (model) Tacotron2 is carried out in relation to the specifics of a particular natural language, for example, Russian. The manually prepared training dataset and neural networks (models) of Tacotron2 and Waveglow are loaded into the graphics and central processors of the computer and tensor calculations of the weights of the Tacotron2 and Waveglow models are performed, which determine the speech features of the selected speaker. This is followed by the encoding stage - the transformation of text characters from the dataset into their numerical representation. Further, the convolutional layers of the Tacotron2 neural network determine the relationship of letters in the word and in the text as a whole. Then the result goes to the bidirectional layer of the Tacotron2 neural network, which uses its internal memory to process sequences of arbitrary length, which saves the state of the “past” and “future”, that is, remembers the context of a particular piece of text and audio recording. Next comes the decoding stage - the result obtained at the encoding stage passes through the Tacotron2 "attention" network layer, which calculates the average moment over all possible results of the encoding stage network, which in turn consists of two unidirectional memory layers of the Tacotron2 neural network, the pre-net layer, necessary for learning attention, and a layer of linear transformation into a chalk spectrogram. The result of the decoding stage passes through the five-convolution layer (post-net) of the Tacotron2 neural network to improve the quality of the chalk spectrogram. Next, the resulting processed chalk spectrogram is transferred to the vocoder, which is the Waveglow neural network, which outputs an audio file in WAV format at the output. Further, the Tacotron2 model modified at the previous stages of deep learning and the Waveglow network with calculated weights are reloaded on the graphics and CPU of the computer, and the arbitrary text loaded by the user is converted into the speech of the speaker, processed at the stages of dataset preparation and deep learning of the Tacotron2 model. The processes of modification and deep learning of the Tacotron2 model with the output of a chalk spectrogram, conversion of the chalk spectrogram into a WAV audio file by the Waveglow network, and further conversion of user-loaded arbitrary text into speech of the speaker, processed at the dataset preparation and deep learning stages of the Tacotron2 model, are controlled by software security. The interaction of the user with software and computer equipment when he downloads arbitrary text for its voicing by the voice of the selected speaker and receives an audio file in WAV format as an output is carried out using a web service in the Java language and a website.
Новизна и изобретательский уровень представленного изобретения состоит в том, что в изложенном способе синтеза речи с передачей достоверного интонирования клонируемого образца осуществляется тщательная ручная (механическая) подготовка обучающего датасета для нейронный сетей Tacotron2 и Waveglow, нейронная сеть Tacotron2 проходит процесс модификации путём увеличения количества весов её модели, расширения объёма её памяти и последующего её глубокого обучения на основе подготовленного обучающего датасета с использованием большего количества «фичей» (специфических программных возможностей) с целью максимальной адаптации нейронной сети под особенности того или иного языка. В результате применения предложенного способа достигается качественное соответствие звучания синтезированной речи голосу реального выбранного пользователем любого человека (спикера), выполненного на любом естественном языке. The novelty and inventive level of the presented invention lies in the fact that in the described method of speech synthesis with the transfer of reliable intonation of the cloned sample, a thorough manual (mechanical) preparation of the training dataset for the Tacotron2 and Waveglow neural networks is carried out, the Tacotron2 neural network undergoes a modification process by increasing the number of weights of its model , expanding the amount of its memory and its subsequent deep learning based on a prepared training dataset using a larger number of "features" (specific software capabilities) in order to maximize the adaptation of the neural network to the features of a particular language. As a result of applying the proposed method, a qualitative correspondence of the sounding of the synthesized speech to the voice of a real person (speaker) selected by the user, performed in any natural language, is achieved.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ CLAIM
1. Способ синтеза речи с передачей достоверного интонирования клонируемого образца характеризуется тем, что включает в себя этапы предварительной подготовки обучающего датасета, состоящего из текста и соответствующей ему аудиозаписи речи выбранного спикера, глубокого обучения нейронной сети на основе обучающего датасета и получения на выходе мел-спектрограммы голоса выбранного спикера, преобразования мел- спектрограммы с помощью вокодера с получением на выходе аудиофайла в формате WAV, повторного применения уже обученной нейронной сети и вокодера для преобразования загружаемого пользователем произвольного текста в речь выбранного спикера, обработанного на этапах подготовки датасета и глубокого обучения нейронной сети с получением на выходе аудиофайла озвучивания произвольного текста голосом выбранного спикера в формате WAV, отличающийся тем, что аудиозапись речи выбранного спикера разбита на фрагменты длительностью не более 16 секунд каждая, подготовка датасета осуществляется в ручном режиме путём тщательной проверки человеком каждого фрагмента аудиозаписи и соответствующего ему фрагмента текста на предмет полного совпадения транскрипции аудиозаписи тексту, в качестве глубоко обучаемой нейронной сети применяется сеть Tacotron2, в качестве вокодера применяется нейронная сеть Waveglow, в процессе глубокого обучения нейросети Tacotron2 на основе подготовленного датасета осуществляется её модификация путём увеличения количества весов её модели, расширения объёма её памяти с целью максимальной адаптации нейронной сети под особенности того или иного языка, процессы модификации и глубокого обучения модели Tacotron2 с получением на выходе мел-спектрограммы, преобразования сетью Waveglow мел-спектрограммы в аудиофайл в формате WAV и дальнейшего преобразования загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2, контролируются специальным программным обеспечением, взаимодействие пользователя с программным обеспечением и компьютерным оборудованием при загрузке им произвольного текста для его озвучивания голосом выбранного спикера и получении на выходе аудиофайла в формате WAV осуществляется с помощью веб-сервиса на языке Java и веб-сайта. 1. The method of speech synthesis with the transfer of reliable intonation of the cloned sample is characterized by the fact that it includes the steps of preliminary preparation of the training dataset, consisting of the text and the corresponding audio recording of the speech of the selected speaker, deep learning of the neural network based on the training dataset and obtaining a chalk spectrogram at the output the voice of the selected speaker, converting the chalk spectrogram using a vocoder with the output of an audio file in WAV format, re-using the already trained neural network and vocoder to convert user-loaded arbitrary text into speech of the selected speaker, processed at the stages of dataset preparation and deep learning of the neural network with receiving at the output an audio file of voicing an arbitrary text by the voice of the selected speaker in WAV format, characterized in that the audio recording of the speech of the selected speaker is divided into fragments of no more than 16 seconds each, the dataset is prepared manually mode by carefully checking by a person each fragment of the audio recording and the corresponding fragment of text for complete coincidence of the transcription of the audio recording with the text, the Tacotron2 network is used as a deep learning neural network, the Waveglow neural network is used as a vocoder, in the process of deep learning of the Tacotron2 neural network, based on the prepared dataset, its modification by increasing the number of weights of its model, expanding the amount of its memory in order to maximize the adaptation of the neural network to the features of a particular language, the processes of modification and deep learning of the Tacotron2 model with the output of a chalk spectrogram, converting the chalk spectrogram into an audio file into an audio file in the Waveglow network WAV format and further conversion of user-loaded free text into speech of the speaker, processed at the dataset preparation and deep learning stages of the Tacotron2 model, are controlled special software, the interaction of the user with the software and computer equipment when he downloads arbitrary text to be voiced by the voice of the selected speaker and receives an audio file in WAV format as an output is carried out using a web service in Java and a website.
PCT/RU2021/050284 2020-08-17 2021-09-02 Method for synthesizing speech and transmitting the authentic intonation of a clonable sample WO2022039636A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2020127476 2020-08-17
RU2020127476A RU2754920C1 (en) 2020-08-17 2020-08-17 Method for speech synthesis with transmission of accurate intonation of the cloned sample

Publications (1)

Publication Number Publication Date
WO2022039636A1 true WO2022039636A1 (en) 2022-02-24

Family

ID=77670309

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2021/050284 WO2022039636A1 (en) 2020-08-17 2021-09-02 Method for synthesizing speech and transmitting the authentic intonation of a clonable sample

Country Status (2)

Country Link
RU (1) RU2754920C1 (en)
WO (1) WO2022039636A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151832A (en) * 2023-04-18 2023-05-23 支付宝(杭州)信息技术有限公司 Interactive wind control system and method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2632424C2 (en) * 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Method and server for speech synthesis in text
CN110335587A (en) * 2019-06-14 2019-10-15 平安科技(深圳)有限公司 Phoneme synthesizing method, system, terminal device and readable storage medium storing program for executing
CN108597492B (en) * 2018-05-02 2019-11-26 百度在线网络技术(北京)有限公司 Phoneme synthesizing method and device
JP6649210B2 (en) * 2016-08-30 2020-02-19 日本電信電話株式会社 Speech synthesis learning device, method, and program
CN110853616A (en) * 2019-10-22 2020-02-28 武汉水象电子科技有限公司 Speech synthesis method, system and storage medium based on neural network

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390712B2 (en) * 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
KR102151682B1 (en) * 2016-03-23 2020-09-04 구글 엘엘씨 Adaptive audio enhancement for multi-channel speech recognition
RU2720359C1 (en) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Method and equipment for recognizing emotions in speech

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2632424C2 (en) * 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Method and server for speech synthesis in text
JP6649210B2 (en) * 2016-08-30 2020-02-19 日本電信電話株式会社 Speech synthesis learning device, method, and program
CN108597492B (en) * 2018-05-02 2019-11-26 百度在线网络技术(北京)有限公司 Phoneme synthesizing method and device
CN110335587A (en) * 2019-06-14 2019-10-15 平安科技(深圳)有限公司 Phoneme synthesizing method, system, terminal device and readable storage medium storing program for executing
CN110853616A (en) * 2019-10-22 2020-02-28 武汉水象电子科技有限公司 Speech synthesis method, system and storage medium based on neural network

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151832A (en) * 2023-04-18 2023-05-23 支付宝(杭州)信息技术有限公司 Interactive wind control system and method
CN116151832B (en) * 2023-04-18 2023-07-21 支付宝(杭州)信息技术有限公司 Interactive wind control system and method

Also Published As

Publication number Publication date
RU2754920C1 (en) 2021-09-08

Similar Documents

Publication Publication Date Title
JP7355306B2 (en) Text-to-speech synthesis method, device, and computer-readable storage medium using machine learning
JP7436709B2 (en) Speech recognition using unspoken text and speech synthesis
WO2020215666A1 (en) Speech synthesis method and apparatus, computer device, and storage medium
CN113439301A (en) Reconciling between analog data and speech recognition output using sequence-to-sequence mapping
CN112687259B (en) Speech synthesis method, device and readable storage medium
JP2023535230A (en) Two-level phonetic prosodic transcription
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
JP2023539888A (en) Synthetic data augmentation using voice conversion and speech recognition models
US20220246132A1 (en) Generating Diverse and Natural Text-To-Speech Samples
WO2022043712A1 (en) A text-to-speech synthesis method and system, and a method of training a text-to-speech synthesis system
WO2023245389A1 (en) Song generation method, apparatus, electronic device, and storage medium
Jain et al. A text-to-speech pipeline, evaluation methodology, and initial fine-tuning results for child speech synthesis
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
CN113470622B (en) Conversion method and device capable of converting any voice into multiple voices
Shechtman et al. Synthesis of Expressive Speaking Styles with Limited Training Data in a Multi-Speaker, Prosody-Controllable Sequence-to-Sequence Architecture.
WO2022039636A1 (en) Method for synthesizing speech and transmitting the authentic intonation of a clonable sample
Li et al. End-to-end mongolian text-to-speech system
US20230146945A1 (en) Method of forming augmented corpus related to articulation disorder, corpus augmenting system, speech recognition platform, and assisting device
CN115359775A (en) End-to-end tone and emotion migration Chinese voice cloning method
JP7357518B2 (en) Speech synthesis device and program
Eshghi et al. An Investigation of Features for Fundamental Frequency Pattern Prediction in Electrolaryngeal Speech Enhancement
Nazir et al. Multi speaker text-to-speech synthesis using generalized end-to-end loss function
KR102639322B1 (en) Voice synthesis system and method capable of duplicating tone and prosody styles in real time
Zhang et al. A Non-Autoregressivee Network for Chinese Text to Speech and Voice Cloning
Wu et al. VStyclone: Real-time Chinese voice style clone

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21858698

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21858698

Country of ref document: EP

Kind code of ref document: A1