JP6806662B2 - Speech synthesis system, statistical model generator, speech synthesizer, speech synthesis method - Google Patents

Speech synthesis system, statistical model generator, speech synthesizer, speech synthesis method Download PDF

Info

Publication number
JP6806662B2
JP6806662B2 JP2017240349A JP2017240349A JP6806662B2 JP 6806662 B2 JP6806662 B2 JP 6806662B2 JP 2017240349 A JP2017240349 A JP 2017240349A JP 2017240349 A JP2017240349 A JP 2017240349A JP 6806662 B2 JP6806662 B2 JP 6806662B2
Authority
JP
Japan
Prior art keywords
voice
text
speech
data
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017240349A
Other languages
Japanese (ja)
Other versions
JP2019109278A (en
Inventor
慶華 孫
慶華 孫
直之 神田
直之 神田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Technology Ltd
Original Assignee
Hitachi Solutions Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Technology Ltd filed Critical Hitachi Solutions Technology Ltd
Priority to JP2017240349A priority Critical patent/JP6806662B2/en
Publication of JP2019109278A publication Critical patent/JP2019109278A/en
Application granted granted Critical
Publication of JP6806662B2 publication Critical patent/JP6806662B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法に関する。 The present invention relates to a speech synthesis system, a statistical model generator, a speech synthesizer, and a speech synthesis method.

近年、電話の自動応答、公共交通機関や自治体のアナウンス、スマートフォンやパーソナルコンピュータのアプリケーションによる情報の読み上げ等、様々な分野において音声合成技術が導入されている。また昨今、音声認識、機械翻訳、対話生成等の技術が飛躍的に向上し、音声翻訳やサービスロボット等への実用化が急速に進められている。 In recent years, speech synthesis technology has been introduced in various fields such as automatic answering of telephone calls, announcements of public transportation and local governments, and reading of information by applications of smartphones and personal computers. In recent years, technologies such as voice recognition, machine translation, and dialogue generation have been dramatically improved, and practical application to voice translation, service robots, and the like is rapidly being promoted.

Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016-09-12). "WaveNet: A Generative Model for Raw Audio".Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (2016-09-12). "WaveNet: A Generative Model for Raw Audio ". Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, et al. 2017. Tacotron: A fully end-toend text-to-speech synthesis model.Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, et al. 2017. Tacotron: A fully end-toend text-to-speech synthesis model. "Unit selection with Hierarchical Cascaded Long Short Term Memory Bidirectional Recurrent Neural Nets", Vincent Pollet, Enrico Zovato, Sufian Irhimeh, Pier Batzu, Interspeech 2017."Unit selection with Hierarchical Cascaded Long Short Term Memory Bidirectional Recurrent Neural Nets", Vincent Pollet, Enrico Zovato, Sufian Irhimeh, Pier Batzu, Interspeech 2017.

音声合成の方式としては様々なものが存在するが、中でもテキスト音声合成方式は重要技術の一つとして注目されている。一般的なテキスト音声合成方式は、テキストを発音記号列に変換するフロントエンド(Front-End)処理と、中間言語から音声波形を生成するバックエンド(Back-End)処理とを含む。昨今ではフロントエンド処理及びバックエンド処理の夫々にDNN (Deep Neural Network)等の統計的手法を適用したものも実用化されている。 There are various speech synthesis methods, but the text speech synthesis method is attracting attention as one of the important technologies. A general text-to-speech synthesis method includes a front-end process for converting text into a phonetic symbol string and a back-end process for generating a speech waveform from an intermediate language. In recent years, those to which statistical methods such as DNN (Deep Neural Network) are applied to front-end processing and back-end processing have been put into practical use.

また最近では、中間言語を経由することなく、入力されたテキストから直接音声を生成する、いわゆるETE(End-To-End)型の音声合成方式も登場している。ETE型の音声合成方式では、音声コーパスの発話テキストの言語特徴量と音声波形の音響特徴量との関係をDNN等の統計的手法により事前に統計モデルとして用意しておき、音声合成時は統計モデルに基づき音声合成の対象となるテキストに対応する音響特徴量を有する系列を生成して音声を合成する。 Recently, a so-called ETE (End-To-End) type speech synthesis method has also appeared, in which speech is directly generated from input text without going through an intermediate language. In the ET-type speech synthesis method, the relationship between the language features of the spoken text of the speech corpus and the acoustic features of the speech waveform is prepared in advance as a statistical model by a statistical method such as DNN, and statistics are obtained during speech synthesis. Based on the model, a series having acoustic features corresponding to the text to be voice-synthesized is generated and the voice is synthesized.

ところで、音声合成技術の利用現場においては、例えば、人名や固有名詞等についてユーザが指定した読み(発音)で音声合成を行いたいというニーズが少なからず存在し、ETE型の音声合成方式においてもユーザ辞書の機能に対するニーズは少なくない。しかしETE型の音声合成方式における統計モデルは、その全体(DNNモデル等)が一つの大きなモデルとして構成されており、膨大なデータを用いたETE型の音声合成方式の再学習には大量の計算機リソースが必要となり、ユーザ辞書の内容を学習データに追加したり新語を追加する度に統計モデルを再学習することは必ずしも現実的でない。 By the way, in the field of using speech synthesis technology, for example, there is a considerable need to perform speech synthesis with the reading (pronunciation) specified by the user for a person's name, a proper noun, etc., and the user also has an ET-type speech synthesis method. There are many needs for dictionary functions. However, the statistical model in the ETE-type speech synthesis method is configured as one large model as a whole (DNN model, etc.), and a large amount of computers are used for re-learning the ETE-type speech synthesis method using a huge amount of data. It requires resources, and it is not always practical to retrain the statistical model every time the contents of the user dictionary are added to the training data or new words are added.

本発明はこうした背景に鑑みてなされたものであり、ユーザが指定した読み(発音)での音声合成を行うことが可能なETE型の音声合成方式による音声合成システム等を提供することを目的とする。 The present invention has been made in view of such a background, and an object of the present invention is to provide a speech synthesis system based on an ET-type speech synthesis method capable of performing speech synthesis with a reading (pronunciation) specified by a user. To do.

上記課題を解決するための本発明のうちの一つは、情報処理装置を用いて構成される音声合成システムであって、発話テキストと音声データとを対応づけた学習データに基づき、音声合成に用いる統計モデルを生成するモデル学習部と、前記発話テキストの全部又は一部の単語を発音記号列で置き換えた発話テキストと音声データとを対応づけたデータを前記学習データとして生成するテキスト置換部と、単語と当該単語についての発音記号列とを対応づけた情報を含むデータであるユーザ辞書を記憶する記憶部と、音声合成の対象となるテキストである対象テキストについて、当該対象テキストに含まれている単語のうち前記ユーザ辞書に含まれている単語を前記ユーザ辞書において当該単語についての前記発音記号列で置き換えるユーザ辞書適用部と、前記置き換え後の前記対象テキストについて前記統計モデルに基づく音声合成処理を行うことにより合成音声を生成する音声合成処理部と、を備える。 One of the present inventions for solving the above problems is a speech synthesis system configured by using an information processing device, which is used for speech synthesis based on learning data in which spoken text and speech data are associated with each other. A model learning unit that generates a statistical model to be used, and a text replacement unit that generates data in which all or part of the spoken text is replaced with a phonetic symbol string and the speech data is associated with the speech data. , A storage unit that stores a user dictionary, which is data containing information corresponding to a word and a pronunciation symbol string for the word, and a target text, which is a text to be voice-synthesized, are included in the target text. A user dictionary application unit that replaces a word included in the user dictionary with the pronunciation symbol string for the word in the user dictionary, and a speech synthesis process based on the statistical model for the target text after the replacement. A speech synthesis processing unit that generates a synthetic speech by performing the above is provided.

本発明によれば、ユーザが指定した読み(発音)での音声合成を行うことが可能なETE型の音声合成方式による音声合成システム等を提供することができる。 According to the present invention, it is possible to provide a speech synthesis system based on an ET-type speech synthesis method capable of performing speech synthesis with a reading (pronunciation) specified by a user.

音声合成システムの概略的な構成を示す図である。It is a figure which shows the schematic structure of the speech synthesis system. 音声合成システムの実現に用いるハードウェアの一例として示す情報処理装置のブロック図である。It is a block diagram of an information processing apparatus shown as an example of the hardware used for the realization of a speech synthesis system. 音声合成システムの構成を説明する図である。It is a figure explaining the structure of the speech synthesis system. テキスト置換部の詳細を説明する図である。It is a figure explaining the detail of the text replacement part. 置換単語抽出部の詳細を説明する図である。It is a figure explaining the detail of the replacement word extraction part. 音声特徴量抽出部の詳細を説明する図である。It is a figure explaining the detail of the voice feature amount extraction part. ユーザ辞書適用部の詳細を説明する図である。It is a figure explaining the detail of the user dictionary application part.

以下、本発明に係る実施形態を図面に参照しつつ説明する。 Hereinafter, embodiments according to the present invention will be described with reference to the drawings.

図1に本実施形態で説明する、ETE(End-To-End)型の音声合成方式により音声合成を行うシステム(以下、音声合成システム1と称する。)の概略的な構成を示している。 FIG. 1 shows a schematic configuration of a system (hereinafter, referred to as a speech synthesis system 1) that synthesizes speech by an ETE (End-To-End) type speech synthesis method described in the present embodiment.

音声合成システム1は、音声コーパス50の発話テキスト51の言語特徴量と音声データ52の音響特徴量との関係をDNN (Deep Neural Network)等の統計的手法(機械学習等)で学習することにより事前に統計モデル60を生成しておき、音声合成の対象となるテキスト(文章や句)(以下、入力テキスト700(対象テキスト)と称する。)に対応する音響特徴量を有する系列を統計モデル60に基づき生成して音声を合成する。 The speech synthesis system 1 learns the relationship between the language features of the speech text 51 of the speech corpus 50 and the acoustic features of the speech data 52 by a statistical method (machine learning or the like) such as DNN (Deep Neural Network). A statistical model 60 is generated in advance, and a series having acoustic features corresponding to a text (sentence or phrase) (hereinafter referred to as an input text 700 (target text)) to be voice-synthesized is a statistical model 60. Generate based on and synthesize voice.

尚、本実施形態では、上記の統計的手法としてDNNを例として説明するが、統計的手法は必ずしも限定されず、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)等の他の統計的手法を用いてもよい。また以下ではテキストとして記述される言語が日本語である場合を例として説明するが、テキストとして記述される言語は他の言語であってもよいし、テキストには複数の言語が混在していてもよい。 In the present embodiment, DNN will be described as an example of the above statistical method, but the statistical method is not necessarily limited, and for example, another statistical method such as a Hidden Markov Model (HMM) may be used. You may use it. In the following, the case where the language described as text is Japanese will be described as an example, but the language described as text may be another language, and the text contains a mixture of multiple languages. May be good.

同図に示すように、音声合成システム1は、音声コーパス50、音声コーパス50に基づき統計モデル60を生成する統計モデル生成部100、及び、入力テキスト700に対応する音響特徴量を有する系列を生成し、生成した系列に基づき音声波形を合成して合成音声800を生成(出力)する音声合成部200、を含む。 As shown in the figure, the speech synthesis system 1 generates a speech corpus 50, a statistical model generation unit 100 that generates a statistical model 60 based on the speech corpus 50, and a sequence having acoustic features corresponding to the input text 700. A voice synthesis unit 200, which synthesizes voice waveforms based on the generated sequence and generates (outputs) a synthetic voice 800, is included.

音声コーパス50は、発話テキスト51と、発話テキスト51と対応づけられた音声データ52(音声波形データ、符号化された音声データ等)とを含む。音声コーパス50は、統計モデル生成部100が統計モデル60を生成する際の学習データとして用いられる。 The voice corpus 50 includes the utterance text 51 and voice data 52 (voice waveform data, encoded voice data, etc.) associated with the utterance text 51. The voice corpus 50 is used as learning data when the statistical model generation unit 100 generates the statistical model 60.

音声合成部200は、統計モデル60を用い、入力テキスト700について指定された発音や発話スタイル(例えば、会話調である、感情がこもっている等の発声上の特徴や、声の抑揚、大きさ、リズム、速さ、間の長さといった要素によって特徴付けられる発声上の特徴等)等に従った音声を合成する。 The speech synthesizer 200 uses the statistical model 60 to describe the pronunciation and utterance styles (for example, conversational tone, emotional muffled, etc.), voice intonation, and loudness specified for the input text 700. , Vocalization characteristics characterized by factors such as rhythm, speed, and length of interval), etc.) are synthesized.

図2は音声合成システム1の実現に用いるハードウェアの一例として示す情報処理装置10(コンピュータ、計算機リソース)のブロック図である。同図に示すように、情報処理装置10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、及び通信装置16を備える。これらは図示しないバス等の通信手段を介して互いに通信可能に接続されている。 FIG. 2 is a block diagram of an information processing device 10 (computer, computer resource) shown as an example of hardware used for realizing the speech synthesis system 1. As shown in the figure, the information processing device 10 includes a processor 11, a main storage device 12, an auxiliary storage device 13, an input device 14, an output device 15, and a communication device 16. These are communicably connected to each other via a communication means such as a bus (not shown).

尚、情報処理装置10は、その全ての構成が必ずしもハードウェアで実現されている必要はなく、例えば、構成の一部又は全部がクラウドシステムのクラウドサーバのような仮想的な資源によって実現されていてもよい。 It should be noted that the information processing apparatus 10 does not necessarily have all the configurations realized by hardware, and for example, a part or all of the configurations are realized by virtual resources such as a cloud server of a cloud system. You may.

プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)等を用いて構成される。プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行することにより、音声合成システム1の様々な機能が実現される。 The processor 11 is configured by using, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a DSP (Digital Signal Processor), an FPGA (Field Programmable Gate Array), or the like. When the processor 11 reads and executes the program stored in the main storage device 12, various functions of the speech synthesis system 1 are realized.

主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性半導体メモリ(NVRAM(Non Volatile RAM))等である。 The main storage device 12 is a device that stores programs and data, and is, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a non-volatile semiconductor memory (NVRAM (Non Volatile RAM)), and the like.

補助記憶装置13は、例えば、ハードディスクドライブ、SSD(Solid State Drive)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDメモリカード、FD(フレキシブルディスク)等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置13に格納されているプログラムやデータは主記憶装置12に随時読み込まれる。音声コーパス50等の音声合成システム1が管理するデータは、例えば、補助記憶装置13をデータの格納領域として利用するDBMS(DataBase Management System)のデータベースに管理される。 The auxiliary storage device 13 includes, for example, a hard disk drive, SSD (Solid State Drive), optical storage device (CD (Compact Disc), DVD (Digital Versatile Disc), etc.), storage system, IC card, SD memory card, FD ( A reading / writing device for a recording medium such as a flexible disk, a storage area for a cloud server, and the like. Programs and data stored in the auxiliary storage device 13 are read into the main storage device 12 at any time. The data managed by the voice synthesis system 1 such as the voice corpus 50 is managed in, for example, a database of a DBMS (DataBase Management System) that uses the auxiliary storage device 13 as a data storage area.

入力装置14は、音声コーパス50や入力テキスト700を入力するためのインタフェース(又はユーザインタフェース)であり、例えば、キーボード、マウス、タッチパネル、カードリーダ、マイクロフォン、アンプ等である。尚、情報処理装置10が、通信装置16を介して他の装置との間で情報の入力を受け付ける構成としてもよい。 The input device 14 is an interface (or user interface) for inputting the voice corpus 50 and the input text 700, and is, for example, a keyboard, a mouse, a touch panel, a card reader, a microphone, an amplifier, and the like. The information processing device 10 may be configured to accept input of information from another device via the communication device 16.

出力装置15は、各種の情報を出力するインタフェース(又はユーザインタフェース)であり、合成音声を出力する音声出力装置(スピーカ、アンプ等)を含む。尚、情報処理装置10は、ユーザに処理経過や処理結果等の各種情報を提供するインタフェース(例えば、音声出力装置(スピーカ等)、画面表示装置(液晶モニタ、LCD(Liquid Crystal Display)、グラフィックカード等)、印字装置等)を出力装置15として更に備えていてもよい。また情報処理装置10が、通信装置16を介して他の装置との間で情報の出力を行う構成としてもよい。 The output device 15 is an interface (or user interface) that outputs various types of information, and includes an audio output device (speaker, amplifier, etc.) that outputs synthetic speech. The information processing device 10 includes an interface (for example, an audio output device (speaker, etc.)), a screen display device (liquid crystal monitor, LCD (Liquid Crystal Display), graphic card) that provides the user with various information such as processing progress and processing results. Etc.), a printing device, etc.) may be further provided as the output device 15. Further, the information processing device 10 may be configured to output information to and from another device via the communication device 16.

通信装置16は、LANやインターネット等の通信手段を介した他の装置との間の通信を実現する有線方式又は無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、各種無線通信モジュール、USB(Universal Serial Interface)モジュール、シリアル通信モジュール、モデム等である。 The communication device 16 is a wired or wireless communication interface that realizes communication with another device via a communication means such as LAN or the Internet. For example, a NIC (Network Interface Card) and various wireless communication modules. , USB (Universal Serial Interface) module, serial communication module, modem, etc.

尚、統計モデル生成部100、音声合成部200、音声コーパス50、及び統計モデル60は、これらの全てが共通のハードウェアで実現されていなくてもよく、通信可能に接続された複数のハードウェアに分散して配置されていてもよい。例えば、音声コーパス50及び統計モデル生成部100と、統計モデル60及び音声合成部200とを、独立した資源により構成してもよい。統計モデル60及び音声合成部200は、例えば、カーナビゲーション装置、スマートフォン、携帯電話機、パーソナルコンピュータ等のデバイスに組み込まれる。 The statistical model generation unit 100, the voice synthesis unit 200, the voice corpus 50, and the statistical model 60 do not have to be realized by common hardware, and a plurality of hardware connected so as to be communicable. It may be distributed and arranged in. For example, the voice corpus 50 and the statistical model generation unit 100, and the statistical model 60 and the voice synthesis unit 200 may be configured by independent resources. The statistical model 60 and the voice synthesizer 200 are incorporated into devices such as car navigation devices, smartphones, mobile phones, and personal computers.

また統計モデル生成部100の後述する構成要素は、必ずしも共通のハードウェアで実現されていなくてもよく、通信可能に接続された複数のハードウェアに分散して配置されていてもよい。また音声合成部200の後述する構成要素は、必ずしも共通のハードウェアで実現されていなくてもよく、通信可能に接続された複数のハードウェアに分散して配置されていてもよい。 Further, the components described later of the statistical model generation unit 100 do not necessarily have to be realized by common hardware, and may be distributed and arranged in a plurality of communicably connected hardware. Further, the components described later of the voice synthesis unit 200 do not necessarily have to be realized by common hardware, and may be distributed and arranged in a plurality of hardware connected so as to be communicable.

また音声コーパス50や統計モデル60をクラウドサーバ等の通信ネットワーク上の資源に配置し、統計モデル生成部100や音声合成部200が有線方式又は無線方式の通信ネットワークを通じて音声コーパス50や統計モデル60にアクセスするようにしてもよい。 Further, the voice corpus 50 and the statistical model 60 are arranged in resources on a communication network such as a cloud server, and the statistical model generation unit 100 and the voice synthesis unit 200 are used in the voice corpus 50 and the statistical model 60 through a wired or wireless communication network. You may want to access it.

また統計モデル生成部100と音声合成部200とを独立したハードウェアに配置し、統計モデル生成部100によって生成された統計モデル60を、物理的な記録媒体(光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ハードディスクドライブ、SSD、ICカード、SDメモリカード等)や有線方式又は無線方式の通信ネットワークを介して音声合成部200に提供するようにしてもよい。 Further, the statistical model generation unit 100 and the speech synthesis unit 200 are arranged on independent hardware, and the statistical model 60 generated by the statistical model generation unit 100 is stored on a physical recording medium (optical storage device (CD (Compact Disc)). ), DVD (Digital Versatile Disc), etc.), hard disk drive, SSD, IC card, SD memory card, etc.), or may be provided to the speech synthesizer 200 via a wired or wireless communication network.

図3は、図1に示した音声合成システム1の構成を詳細に説明する図である。同図に示すように、統計モデル生成部100は、テキスト置換部110、及びモデル学習部120の各機能を有する。 FIG. 3 is a diagram for explaining the configuration of the speech synthesis system 1 shown in FIG. 1 in detail. As shown in the figure, the statistical model generation unit 100 has the functions of the text replacement unit 110 and the model learning unit 120.

テキスト置換部110は、音声コーパス50の発話テキスト51の一部又は全部をテキストデータ形式の発音記号列で置き換える。より詳細には、テキスト置換部110は、発話テキスト51の一部又は全部をテキストデータ形式の発音記号列で置き換える。 The text replacement unit 110 replaces a part or all of the utterance text 51 of the voice corpus 50 with a phonetic symbol string in the text data format. More specifically, the text replacement unit 110 replaces a part or all of the utterance text 51 with a phonetic symbol string in the text data format.

図4は図3のテキスト置換部110の詳細を説明する図である。同図に示すように、テキスト置換部110は、置換単語抽出部111、音声特徴量抽出部112、発音記号列生成部113、及びテキスト置換処理部115を含む。 FIG. 4 is a diagram illustrating details of the text replacement unit 110 of FIG. As shown in the figure, the text replacement unit 110 includes a replacement word extraction unit 111, a voice feature amount extraction unit 112, a phonetic symbol string generation unit 113, and a text replacement processing unit 115.

置換単語抽出部111は、音声コーパス50の発話テキスト51のうち、発音記号列への置き換えの対象とする単語(例えば、固有名詞等)を抽出する。尚、以下の説明において、「単語」という場合、1文字、1単語、複数の単語の塊、句、節、文等、後述するユーザ辞書212への登録対象となりうる全ての態様を含むものとする。 The replacement word extraction unit 111 extracts a word (for example, a proper noun) to be replaced with a phonetic symbol string from the utterance text 51 of the voice corpus 50. In the following description, the term "word" includes all aspects that can be registered in the user dictionary 212, which will be described later, such as one character, one word, a block of a plurality of words, a phrase, a clause, and a sentence.

ここでこのように発話テキスト51から置き換えの対象とする単語を抽出するのは、音声コーパス50の全ての発話テキスト51の全ての単語を発音記号列に置き換えてしまうと、音声合成部200による音声合成に際し発音記号列の入っていないテキスト(以下、ノーマルテキストと称する。)に基づく音声合成ができなくなってしまうからである。そこで例えば、ユーザ辞書の機能を実現することが目的である場合、置換単語抽出部111は、例えば、ユーザ辞書に登録される可能性のある単語を置き換えの対象となる単語として抽出する。 Here, the words to be replaced are extracted from the utterance text 51 in this way. When all the words in all the utterance text 51 of the voice corpus 50 are replaced with the pronunciation symbol strings, the voice by the voice synthesis unit 200 is used. This is because speech synthesis based on text that does not contain a phonetic symbol string (hereinafter referred to as normal text) cannot be performed during synthesis. Therefore, for example, when the purpose is to realize the function of the user dictionary, the replacement word extraction unit 111 extracts, for example, a word that may be registered in the user dictionary as a word to be replaced.

図5は、図4に示した置換単語抽出部111の詳細を説明する図である。同図に示すように、置換単語抽出部111は、形態素解析部1111及び単語抽出部1112の各機能を有する。 FIG. 5 is a diagram for explaining the details of the replacement word extraction unit 111 shown in FIG. As shown in the figure, the replacement word extraction unit 111 has the functions of the morphological analysis unit 1111 and the word extraction unit 1112.

また置換単語抽出部111は、単語抽出用データ106を記憶する。単語抽出用データ106には、単語抽出部1112が発音記号列への置き換えの対象となる単語として抽出するか否かの判定の基準となる情報が含まれる。単語抽出用データ106の内容は、例えば、ユーザが設定する。尚、置換単語抽出部111が、例えば、統計的手法(機械学習等)を用いて自動的に単語を抽出するようにしてもよい。 Further, the replacement word extraction unit 111 stores the word extraction data 106. The word extraction data 106 includes information that serves as a reference for determining whether or not the word extraction unit 1112 extracts as a word to be replaced with a phonetic symbol string. The content of the word extraction data 106 is set by the user, for example. The replacement word extraction unit 111 may automatically extract words by using, for example, a statistical method (machine learning or the like).

形態素解析部1111は、形態素解析を行って発話テキスト51を言語の最小単位(日本語の場合は形態素)に分割する。例えば、発話テキスト51が「外国人参政権」である場合、形態素解析部1111は、これを「外国」、「人」、「参政」、「権」という4つの単語に分割する。 The morphological analysis unit 1111 performs morphological analysis and divides the utterance text 51 into the smallest unit of the language (morpheme in the case of Japanese). For example, when the utterance text 51 is "foreigner's suffrage", the morphological analysis unit 1111 divides it into four words "foreign", "person", "suffrage", and "right".

単語抽出部1112は、形態素解析部2101によって分割されることにより得られた単語から、発音記号列への置き換えの対象となる単語を抽出する。ここで上記抽出の方法は必ずしも限定されないが、例えば、ルールベース手法や統計ベース手法を用いて行うことができる。例えば、鉄道放送向けの音声合成システム1を構築する場合、後述するユーザ辞書212に駅名が登録されることを想定し、置換単語抽出部111は発話テキスト51から駅名を抽出する。具体的には、例えば、入力テキスト700が「新宿さんが新宿で電車を降りました。」であり、単語抽出用データ106が「表記=新宿、読み=しんじゅく、属性=駅名」である場合、単語抽出部2102は、「駅名」として「新宿」が使われている単語のみを抽出する。但しこのように駅名のみを置換するようにした場合には、アクセント型に偏りが生じる可能性がある。そこでユーザ辞書に登録される可能性のある単語を全体的に高品質に読み上げることができるように、例えば、置換単語抽出部111が、単語の音韻のバランス(選択した単語の音素つながりが偏っていないこと)や韻律のバランス(アクセント型、文中における位置などが偏っていないこと)を考慮して音声コーパス50全体の発話テキスト51から単語を適宜選択する(必要であれば駅名以外の単語も抽出対象とする)ようにしてもよい。 The word extraction unit 1112 extracts a word to be replaced with a phonetic symbol string from the words obtained by being divided by the morphological analysis unit 2101. Here, the above extraction method is not necessarily limited, but for example, a rule-based method or a statistics-based method can be used. For example, when constructing a speech synthesis system 1 for railway broadcasting, it is assumed that the station name is registered in the user dictionary 212 described later, and the replacement word extraction unit 111 extracts the station name from the utterance text 51. Specifically, for example, the input text 700 is "Mr. Shinjuku got off the train in Shinjuku", and the word extraction data 106 is "notation = Shinjuku, reading = Shinjuku, attribute = station name". In this case, the word extraction unit 2102 extracts only words in which "Shinjuku" is used as the "station name". However, if only the station name is replaced in this way, the accent type may be biased. Therefore, for example, the replacement word extraction unit 111 uses the prosodic balance of the word (the phoneme connection of the selected word is biased) so that the words that may be registered in the user dictionary can be read out with high quality as a whole. Select words from the spoken text 51 of the entire voice corpus 50 in consideration of the balance of prosody (accent type, position in the sentence, etc.) (extract words other than the station name if necessary). It may be targeted).

図6は、図4に示した音声特徴量抽出部112の詳細を説明する図である。音声特徴量抽出部112は、音声コーパス50の音声データ52から、例えば、発音(音素)、発話スタイル、韻律等を音声特徴量として抽出する。 FIG. 6 is a diagram for explaining the details of the voice feature amount extraction unit 112 shown in FIG. The voice feature amount extraction unit 112 extracts, for example, pronunciation (phonemes), utterance style, prosody, etc. from the voice data 52 of the voice corpus 50 as voice feature amounts.

同図に示すように、音声特徴量抽出部112は、発音(音素)抽出部1121、発話スタイル抽出部1122、及び韻律特徴抽出部1123を有する。発音(音素)抽出部1121は、音声コーパス50の音声データ52から発音(音素)情報を抽出する。発話スタイル抽出部1122は、音声コーパス50の音声データ52から発話スタイル情報を抽出する。韻律特徴抽出部1123は、音声コーパス50の音声データ52から韻律特徴情報を抽出する。このように発音(音素)のみならず発話スタイルや韻律に関する情報を抽出して発音記号列に組み込むことで、合成音声の発話スタイルや抑揚をチューニングすることが可能になる。音声特徴量抽出部112は、更に別の情報を音声特徴量104として抽出してもよい。音声特徴量抽出部112が行う処理は、例えば、音声認識技術やテキスト解析技術等を用いて情報処理装置により自動的に行うことができる。尚、上記処理の一部又は全部を手動で行ってもよい。 As shown in the figure, the voice feature extraction unit 112 has a pronunciation (phoneme) extraction unit 1121, an utterance style extraction unit 1122, and a prosodic feature extraction unit 1123. The pronunciation (phoneme) extraction unit 1121 extracts pronunciation (phoneme) information from the voice data 52 of the voice corpus 50. The utterance style extraction unit 1122 extracts utterance style information from the voice data 52 of the voice corpus 50. The prosodic feature extraction unit 1123 extracts prosodic feature information from the voice data 52 of the voice corpus 50. By extracting information on not only pronunciation (phonemes) but also speech style and prosody and incorporating them into phonetic symbol strings in this way, it is possible to tune the speech style and intonation of synthetic speech. The voice feature amount extraction unit 112 may extract still another information as the voice feature amount 104. The processing performed by the voice feature amount extraction unit 112 can be automatically performed by the information processing device using, for example, voice recognition technology or text analysis technology. In addition, a part or all of the above-mentioned processing may be performed manually.

尚、発音(音素)情報は、例えば、発話テキスト51から言語処理技術によって抽出することができるが、例えば「明日」という単語が「あした」又は「あす」のうちのいずれで発音されるのか等、言語処理技術では発音を一意に決定することができないことがあるが、その場合は例えば音声認識技術を用いて音声データ52に基づき正確な発音を抽出するようにしてもよい。例えば、ある音声データ52に対応する発話テキスト51が「明日は晴れです。」である場合、音声特徴量抽出部112は音声データ52について音声認識技術を適用することにより「アスワハレデス」という発音(音素)情報を抽出する。 The pronunciation (phoneme) information can be extracted from the spoken text 51 by a language processing technique, for example. For example, whether the word "tomorrow" is pronounced as "tomorrow" or "tomorrow", etc. In some cases, the pronunciation may not be uniquely determined by the language processing technique. In that case, for example, a speech recognition technique may be used to extract an accurate pronunciation based on the speech data 52. For example, when the utterance text 51 corresponding to a certain voice data 52 is "Tomorrow is sunny", the voice feature amount extraction unit 112 pronounces "Aswahaledes" (phoneme) by applying the voice recognition technology to the voice data 52. ) Extract information.

図4に戻り、発音記号列生成部113は、音声特徴量抽出部112が抽出した音声特徴量104に基づき発音記号列105を生成(音声特徴量104を発音記号列で表現)する。発音記号列105の記述方法は必ずしも限定されないが、例えば、日本語の場合、発音記号列生成部113は、音声特徴量抽出部112が抽出した音声特徴量104に基づき、JIETA(一般社団法人電子情報技術産業協会)が規定する日本語テキスト音声合成用記号(JEITA IT-4006)を生成する。 Returning to FIG. 4, the phonetic symbol string generation unit 113 generates the phonetic symbol string 105 based on the phonetic feature amount 104 extracted by the voice feature amount extraction unit 112 (the phonetic feature amount 104 is expressed by the phonetic symbol string). The description method of the phonetic symbol string 105 is not necessarily limited, but in the case of Japanese, for example, in the case of Japanese, the phonetic symbol string generation unit 113 is based on the voice feature quantity 104 extracted by the voice feature quantity extraction unit 112, and is JIETA (general corporation electronic). Generates Japanese text-speech synthesis symbols (JEITA IT-4006) specified by the Japan Electronics and Information Technology Industries Association.

尚、一般的なテキストに用いる文字コードに含まれていないコード(記号コードや特殊コード等)を用いることで、読み(発音)指定の精度を高めることができる。例えば、発音記号列生成部113は、音声特徴量抽出部112が抽出した発音「アスワハレデス」を、「アス'ワ ハレ'テ゛ス%.」という一般的なテキストに用いる文字コードに含まれていないコードを含む発音記号列に変換する。尚、発音(音素)情報以外に、更にアクセント情報や韻律境界情報、ポーズ情報等の情報を付加して読み指定の品質を高めるようにしてもよい。 By using a code (symbol code, special code, etc.) that is not included in the character code used for general text, the accuracy of reading (pronunciation) designation can be improved. For example, the phonetic symbol string generation unit 113 uses the pronunciation "Aswahalledes" extracted by the voice feature extraction unit 112 as a code that is not included in the character code used in the general text "Aswahalle'des%." Convert to a phonetic symbol string containing. In addition to the pronunciation (phoneme) information, information such as accent information, prosodic boundary information, and pose information may be added to improve the quality of reading designation.

テキスト置換処理部115は、発話テキスト51について、置換単語抽出部111が抽出した単語(同図における、抽出した単語103)を、これに対応する発音記号列生成部113が生成した発音記号列で置き換えた発話テキスト(以下、発音記号列を含む発話テキスト102と称する。)を生成する。 The text replacement processing unit 115 uses the phonetic symbol strings generated by the phonetic symbol string generation unit 113 corresponding to the words extracted by the replacement word extraction unit 111 (extracted words 103 in the figure) of the utterance text 51. The replaced utterance text (hereinafter, referred to as the utterance text 102 including the phonetic symbol string) is generated.

図3に戻り、テキスト置換処理部115は、テキスト置換部110が生成した、発音記号列を含む発話テキスト102を、これに対応する音声データ52と組み合わせて新たな学習データとして音声コーパス50に追加する。これによりテキスト置換部110が発音記号列を含む発話テキスト102を生成する度に音声コーパス50に学習データが追加されていくことになる。 Returning to FIG. 3, the text replacement processing unit 115 adds the utterance text 102 including the phonetic symbol string generated by the text replacement unit 110 to the voice corpus 50 as new learning data in combination with the corresponding voice data 52. To do. As a result, learning data is added to the voice corpus 50 each time the text replacement unit 110 generates the utterance text 102 including the phonetic symbol string.

具体例を示すと、例えば、発話テキスト51が「次の停車駅は新宿です。」であり、置換単語抽出部111が、この発話テキスト51から「新宿」という単語(抽出した単語103)を抽出した場合、テキスト置換処理部115は、「次の停車駅はシンシ゛ュクです。」という、発音記号列を含む発話テキスト102を生成する。テキスト置換処理部115は、生成した発音記号列を含む発話テキスト102を、対応する音声データ52と組み合わせて音声コーパス50に追加する。 To give a specific example, for example, the utterance text 51 is "The next stop is Shinjuku.", And the replacement word extraction unit 111 extracts the word "Shinjuku" (extracted word 103) from the utterance text 51. If so, the text replacement processing unit 115 generates the utterance text 102 including the pronunciation symbol string, which says "The next stop is Shinjuku." The text replacement processing unit 115 adds the utterance text 102 including the generated phonetic symbol string to the voice corpus 50 in combination with the corresponding voice data 52.

尚、テキスト置換処理部115は、テキスト置換部110が生成した、発音記号列を含む発話テキスト102とこれに対応する音声データ52との組合せを、上記のように新たに音声コーパス50に追加してもよいし、音声コーパス50の、発音記号列に置換する前の発話テキスト51と音声データ52の組合せにおける発話テキスト51を、発音記号列を含む発話テキスト102に置換するようにしてもよい(即ち、音声コーパス50の既存の組合せを更新する)。 In addition, the text replacement processing unit 115 newly adds a combination of the utterance text 102 including the pronunciation symbol string generated by the text replacement unit 110 and the corresponding voice data 52 to the voice corpus 50 as described above. Alternatively, the utterance text 51 in the combination of the utterance text 51 and the voice data 52 before being replaced with the utterance symbol string of the voice corpus 50 may be replaced with the utterance text 102 including the utterance symbol string (. That is, it updates the existing combination of voice corpora 50).

図3に示すモデル学習部120は、音声コーパス50に含まれている、全ての発話テキスト51と音声データ52との組合せ(テキスト置換処理部115により新たに追加された組合せを含む)を学習データとして学習(機械学習等)を行い、統計モデル60を生成する。尚、このように学習データには発音記号列を含む発話テキスト102が含まれているため、生成された統計モデル60を用いることで、ノーマルテキストのみならず発音記号列を含むテキストについても音声合成を行うことができる。 The model learning unit 120 shown in FIG. 3 learns the combinations of all the utterance texts 51 and the voice data 52 (including the combinations newly added by the text replacement processing unit 115) included in the voice corpus 50. (Machine learning, etc.) is performed as a result, and a statistical model 60 is generated. Since the training data includes the utterance text 102 including the phonetic symbol string in this way, by using the generated statistical model 60, not only the normal text but also the text including the phonetic symbol string is voice-synthesized. It can be performed.

続いて、図3に示した音声合成部200について説明する。同図に示すように、音声合成部200は、ユーザ辞書適用部210、及び音声合成処理部220の各機能を有する。 Subsequently, the voice synthesis unit 200 shown in FIG. 3 will be described. As shown in the figure, the voice synthesis unit 200 has the functions of the user dictionary application unit 210 and the voice synthesis processing unit 220.

ユーザ辞書適用部210は、入力テキスト700に基づく音声合成の際、入力テキスト700中にユーザ辞書に登録されている単語を検出すると、検出した単語を当該単語についてユーザ辞書212で指定されている発音記号列に置き換え、発音記号列を含むテキスト203を生成する。尚、ユーザ辞書適用部210の機能は、単純な文字列置換のアルゴリズムによって実現することもできるが、入力テキスト700が日本語のように単語の間に明確な分割文字が存在しない言語で記述されている場合、単純な文字列置換のアルゴリズムでは上記の置き換えを正しく行うことができないことがある。例えば、ユーザ辞書212に「表記=人参、読み(発音記号列)=ニンシ゛ン」というデータが含まれている場合、単純な文字列置換のアルゴリズムでは「外国人参政権」が「外国ニンシ゛ン政権」に置き換えられてしまうとことがある。そこで本実施形態のユーザ辞書適用部210は、以下のようにして発音記号列を含むテキスト203を生成する。 When the user dictionary application unit 210 detects a word registered in the user dictionary in the input text 700 during speech synthesis based on the input text 700, the detected word is pronounced as specified in the user dictionary 212 for the word. Replace with the symbol string and generate the text 203 including the phonetic symbol string. The function of the user dictionary application unit 210 can be realized by a simple character string replacement algorithm, but the input text 700 is described in a language such as Japanese in which there is no clear split character between words. If so, a simple string replacement algorithm may not be able to perform the above replacement correctly. For example, if the user dictionary 212 contains the data "notation = carrot, reading (phonetic symbol string) = carrot", the simple character string replacement algorithm replaces "foreign carrot government" with "foreign carrot government". It may be done. Therefore, the user dictionary application unit 210 of the present embodiment generates the text 203 including the phonetic symbol string as follows.

図7は、ユーザ辞書適用部210の詳細を説明する図である。同図に示すように、ユーザ辞書適用部210は、形態素解析部2101、単語抽出部2102、及び発音記号列置換部2103を有する。 FIG. 7 is a diagram illustrating details of the user dictionary application unit 210. As shown in the figure, the user dictionary application unit 210 includes a morphological analysis unit 2101, a word extraction unit 2102, and a phonetic symbol string replacement unit 2103.

またユーザ辞書適用部210は、単語抽出用データ211及びユーザ辞書212を記憶する。単語抽出用データ211には、単語抽出部2102が置き換えの対象となる単語として抽出するか否かの判定の基準となる情報が含まれる。ユーザ辞書212は、単語(表記)と読み(発音記号列)とを対応づけた情報が含まれる。 Further, the user dictionary application unit 210 stores the word extraction data 211 and the user dictionary 212. The word extraction data 211 includes information that serves as a reference for determining whether or not the word extraction unit 2102 extracts as a word to be replaced. The user dictionary 212 includes information in which a word (notation) and a reading (phonetic symbol string) are associated with each other.

形態素解析部2101は、形態素解析を行って入力テキスト700を言語の最小単位(日本語の場合は形態素)に分割する。例えば、入力テキスト700として「外国人参政権」が入力された場合、形態素解析部2101は、これを「外国」、「人」、「参政」、「権」という4つの単語に分割する。このため、例えば、ユーザ辞書212に「表記=人参、読み(発音記号列)=ニンシ゛ン」といった内容が登録されていた場合でも誤って置き換えてしまうことはない。 The morphological analysis unit 2101 performs morphological analysis and divides the input text 700 into the smallest unit of the language (morpheme in the case of Japanese). For example, when "foreign suffrage" is input as the input text 700, the morphological analysis unit 2101 divides it into four words "foreign", "person", "suffrage", and "right". Therefore, for example, even if the content such as "notation = carrot, reading (phonetic symbol string) = carrot" is registered in the user dictionary 212, it will not be replaced by mistake.

単語抽出部2102は、形態素解析部2101によって分割された単語から、発音記号列への置き換え対象とする単語(例えば、固有名詞等)を抽出する。この抽出の方法は必ずしも限定されないが、例えば、ルールベース手法や統計ベース手法を用いて行う。前述した単語抽出部1112と同様であるが、例えば、入力テキスト700が「新宿さんが新宿で電車を降りました。」であり、単語抽出用データ211に「表記=新宿、読み=しんじゅく、属性=駅名」が登録されている場合、単語抽出部2102は、「駅名」として「新宿」が使われている単語を抽出する。 The word extraction unit 2102 extracts a word (for example, a proper noun) to be replaced with a phonetic symbol string from the words divided by the morphological analysis unit 2101. The extraction method is not necessarily limited, but for example, a rule-based method or a statistics-based method is used. It is the same as the word extraction unit 1112 described above, but for example, the input text 700 is "Mr. Shinjuku got off the train in Shinjuku", and the word extraction data 211 contains "Notation = Shinjuku, Reading = Shinjuku". When ", attribute = station name" is registered, the word extraction unit 2102 extracts a word in which "Shinjuku" is used as the "station name".

発音記号列置換部2103は、単語抽出部2102が抽出した単語のうち、ユーザ辞書212に登録されている単語を当該単語についてユーザ辞書212に登録されている読み(発音記号列)で置き換える。上記の例において、例えば、ユーザ辞書212に「表記=新宿、読み(発音記号列)=シンシ゛ュク」が登録されていた場合、発音記号列置換部2103は、「新宿さんが新宿で電車を降りました。」という入力テキスト700を「新宿さんがシンシ゛ュクで電車を降りました。」というテキストに置換する。 The phonetic symbol string replacement unit 2103 replaces the words registered in the user dictionary 212 among the words extracted by the word extraction unit 2102 with the readings (phonetic symbol strings) registered in the user dictionary 212 for the words. In the above example, for example, when "notation = Shinjuku, reading (phonetic symbol string) = syndicate" is registered in the user dictionary 212, the phonetic symbol string replacement unit 2103 says "Mr. Shinjuku got off the train in Shinjuku. Replace the input text 700 with the text "Shinjuku-san got off the train at the dictionary."

尚、形態素解析部2101及び単語抽出部2102としては、前述した統計モデル生成部100の置換単語抽出部111における、形態素解析部1111及び単語抽出部1112と同じもの(アルゴリズムが共通するもの)を用いることが好ましい。また発音記号列置換部2103としては、前述したテキスト置換部110のテキスト置換処理部115と同じもの(アルゴリズムが共通するもの)を用いることが好ましい。このように統計モデル生成部100と音声合成部200とで共通のアルゴリズムを用いることで合成音声の品質を高めることができる。 As the morphological analysis unit 2101 and the word extraction unit 2102, the same ones as the morphological analysis unit 1111 and the word extraction unit 1112 in the replacement word extraction unit 111 of the statistical model generation unit 100 described above (those having a common algorithm) are used. Is preferable. Further, as the phonetic symbol string replacement unit 2103, it is preferable to use the same one as the text replacement processing unit 115 of the text replacement unit 110 described above (one having a common algorithm). In this way, the quality of the synthesized voice can be improved by using a common algorithm between the statistical model generation unit 100 and the voice synthesis unit 200.

図3に戻り、音声合成処理部220は、統計モデル60を用い、入力テキスト700から合成音声800を生成する。音声合成処理部220は、例えば、非特許文献1のように直接音声波形を生成する方法、非特許文献2のようにフレームごとに音声パラメータを生成した後に音声を生成する手法、非特許文献3のようなDNNで選択した音声素片をつなぎ合わせることで音声合成する手法等により、合成音声800を生成する。 Returning to FIG. 3, the speech synthesis processing unit 220 uses the statistical model 60 to generate the synthetic speech 800 from the input text 700. The voice synthesis processing unit 220, for example, has a method of directly generating a voice waveform as in Non-Patent Document 1, a method of generating voice parameters for each frame as in Non-Patent Document 2, and a method of generating voice in Non-Patent Document 3. The synthesized voice 800 is generated by a method of synthesizing voice by connecting voice elements selected by DNN as described above.

尚、例えば、音声コーパス50に入力テキスト700に対応する発話テキスト51が含まれていない場合にモデル学習部120統計的手法(機械学習等)により類推して統計モデル60を生成するようにしてもよい。例えば、発音記号列を含む発話テキスト102として「シンジュク」を含むものが音声コーパス50に含まれていない場合に、モデル学習部120が、統計的手法により類推して「シンジュク」と音声データ52との対応を含む統計モデル60を生成するようにする。 For example, when the voice corpus 50 does not include the utterance text 51 corresponding to the input text 700, the statistical model 60 may be generated by analogy with the model learning unit 120 statistical method (machine learning or the like). Good. For example, when the voice corpus 50 does not include the utterance text 102 including the phonetic symbol string including "Shinjuk", the model learning unit 120 analogizes with "Shinjuk" and the voice data 52 by a statistical method. A statistical model 60 including the correspondence of is generated.

以上詳細に説明したように、本実施形態の音声合成システム1は、発話テキスト51の一部の単語を発音記号列で置き換えた発話テキスト51と音声データ52とを対応づけた学習データを含んだ音声コーパス50により統計モデル60を予め学習しておき、入力テキスト700について、当該入力テキスト700に含まれている単語のうちユーザ辞書212に含まれている単語をユーザ辞書212における当該単語に対応づけられている発音記号列で置き換え、置き換え後の入力テキスト700について統計モデル60に基づく音声合成処理を行うことにより合成音声を生成する。そのため、統計モデル60を再学習させることなく、ユーザが指定した読み(発音)での音声合成を行うことが可能できる。このように本実施形態によれば、ユーザが指定した読み(発音)での音声合成を行うことが可能なETE型の音声合成方式による実用的な音声合成システムを実現することができる。 As described in detail above, the speech synthesis system 1 of the present embodiment includes learning data in which the speech text 51 in which some words of the speech text 51 are replaced with a pronunciation symbol string and the speech data 52 are associated with each other. The statistical model 60 is learned in advance by the voice corpus 50, and for the input text 700, the words included in the user dictionary 212 among the words included in the input text 700 are associated with the words in the user dictionary 212. A synthesized voice is generated by replacing the replaced input text 700 with the utterance symbol string and performing a voice synthesis process based on the statistical model 60. Therefore, it is possible to perform speech synthesis with the reading (pronunciation) specified by the user without re-learning the statistical model 60. As described above, according to the present embodiment, it is possible to realize a practical speech synthesis system by the ET type speech synthesis method capable of performing speech synthesis in the reading (pronunciation) specified by the user.

以上、本発明について実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加・削除・置換をすることができる。 Although the present invention has been specifically described above based on the embodiments, the present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the gist thereof. For example, the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. Further, it is possible to add / delete / replace a part of the configuration of the above embodiment with another configuration.

また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサが夫々の機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、またはICカード、SDカード、DVD等の記録媒体に置くことができる。 Further, each of the above configurations, functional units, processing units, processing means and the like may be realized by hardware by designing a part or all of them by, for example, an integrated circuit. Further, each of the above configurations, functions, and the like may be realized by software by the processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files that realize each function can be placed in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.

また各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。例えば、実際にはほとんど全ての構成が相互に接続されていると考えてもよい。 Further, in each figure, control lines and information lines are shown as necessary for explanation, and not all control lines and information lines in mounting are necessarily shown. For example, in practice almost all configurations may be considered interconnected.

また以上に説明した情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、各情報処理装置がハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。 Further, the arrangement form of various functional units, various processing units, and various databases of the information processing apparatus described above is only an example. The arrangement form of various function units, various processing units, and various databases can be changed to the optimum arrangement form for each information processing device from the viewpoints of hardware and software performance, processing efficiency, communication efficiency, and the like.

1 音声合成システム、10 情報処理装置、50 音声コーパス、51 発話テキスト、52 音声データ、60 統計モデル、100 統計モデル生成部、102 発音記号列を含むテキスト、103 抽出した単語、104 音声特徴量、105 発音記号列、106 単語抽出用データ、110 テキスト置換部、111 置換単語抽出部、1111 形態素解析部、1112 単語抽出部、112 音声特徴量抽出部、1121 発音(音素)抽出部、1122 発話スタイル抽出部、1123 韻律特徴抽出部、113 発音記号列生成部、115 テキスト置換処理部、120 モデル学習部、200 音声合成部、203 発音記号列を含むテキスト、202 発音記号列を含むテキスト、210 ユーザ辞書適用部、211 単語抽出用データ、212 ユーザ辞書、2101 形態素解析部、2102 単語抽出部、2103 発音記号列置換部、700 入力テキスト、800 合成音声 1 Speech synthesis system, 10 Information processing device, 50 Speech corpus, 51 Speech text, 52 Speech data, 60 Statistical model, 100 Statistical model generator, 102 Text including pronunciation symbol string, 103 Extracted words, 104 Speech features, 105 pronunciation symbol string, 106 word extraction data, 110 text replacement unit, 111 replacement word extraction unit, 1111 morphological analysis unit, 1112 word extraction unit, 112 speech feature extraction unit, 1121 pronunciation (sound element) extraction unit, 1122 speech style Extraction unit, 1123 Prosodic feature extraction unit, 113 pronunciation symbol string generation unit, 115 text replacement processing unit, 120 model learning unit, 200 speech synthesis unit, 203 text including pronunciation symbol string, 202 text including pronunciation symbol string, 210 users Dictionary application unit, 211 word extraction data, 212 user dictionary, 2101 morphological analysis unit, 2102 word extraction unit, 2103 pronunciation symbol string replacement unit, 700 input text, 800 synthetic speech

Claims (15)

発話テキストと音声データとを対応づけた学習データに基づき、音声合成に用いる統計モデルを生成するモデル学習部と、
前記発話テキストの一部の単語を発音記号列で置き換えた発話テキストと音声データとを対応づけたデータを前記学習データとして生成するテキスト置換部と、
単語と当該単語についての発音記号列とを対応づけた情報を含むデータであるユーザ辞書を記憶する記憶部と、
を有する統計モデル生成装置と、
音声合成の対象となるテキストである対象テキストについて、当該対象テキストに含まれている単語のうち前記ユーザ辞書に含まれている単語を前記ユーザ辞書における当該単語に対応づけられている前記発音記号列で置き換えるユーザ辞書適用部と、
前記置き換え後の前記対象テキストについて前記統計モデルに基づく音声合成処理を行うことにより合成音声を生成する音声合成処理部と、
を有する音声合成装置と、
を備えた音声合成システム。
A model learning unit that generates a statistical model used for speech synthesis based on learning data that associates utterance text with speech data.
A text replacement unit that generates data in which the utterance text in which some words of the utterance text are replaced with phonetic symbol strings and the voice data are associated with the learning data
A storage unit that stores a user dictionary, which is data containing information corresponding to a word and a phonetic symbol string for the word, and a storage unit.
Statistical model generator with
Regarding the target text, which is the text to be voice-synthesized, the phonetic symbol string in which the word included in the user dictionary among the words included in the target text is associated with the word in the user dictionary. User dictionary application part to be replaced with
A speech synthesis processing unit that generates synthetic speech by performing speech synthesis processing based on the statistical model for the target text after the replacement,
With a voice synthesizer
Speech synthesis system equipped with.
請求項1に記載の音声合成システムであって、
前記テキスト置換部は、前記音声データから音声特徴量を抽出し、抽出した音声特徴量に基づき発音記号列を生成し、前記発話テキストの一部の単語を前記発音記号列で置き換えた発話テキストと音声データとを対応づけたデータを前記学習データとして生成する、
音声合成システム。
The voice synthesis system according to claim 1.
The text replacement unit extracts a voice feature amount from the voice data, generates a pronunciation symbol string based on the extracted voice feature amount, and replaces a part of the words in the speech text with the speech symbol string. The data associated with the voice data is generated as the training data.
Speech synthesis system.
請求項2に記載の音声合成システムであって、
前記テキスト置換部は、前記音声データについて音声認識を行うことにより前記発音記号列を生成する、
音声合成システム。
The voice synthesis system according to claim 2.
The text replacement unit generates the phonetic symbol string by performing voice recognition on the voice data.
Speech synthesis system.
請求項2に記載の音声合成システムであって、
前記音声特徴量は、発音(音素)、発話スタイル、及び韻律のうちの少なくともいずれかである、
音声合成システム。
The voice synthesis system according to claim 2.
The speech feature is at least one of pronunciation (phoneme), speech style, and prosody.
Speech synthesis system.
請求項1に記載の音声合成システムであって、
前記テキスト置換部は、形態素解析のアルゴリズムにより前記発話テキストを複数の単語に分割し、
前記ユーザ辞書適用部は、前記形態素解析のアルゴリズムと共通のアルゴリズムにより前記対象テキストを複数の単語に分割する、
音声合成システム。
The voice synthesis system according to claim 1.
The text replacement unit divides the utterance text into a plurality of words by an algorithm of morphological analysis.
The user dictionary application unit divides the target text into a plurality of words by an algorithm common to the algorithm of the morphological analysis.
Speech synthesis system.
請求項1に記載の音声合成システムであって、
前記テキスト置換部は、発音記号列への置き換え対象とする単語を単語抽出アルゴリズムにより前記発話テキストから抽出し、
前記ユーザ辞書適用部は、発音記号列への置き換え対象とする単語を前記単語抽出アルゴリズムと共通のアルゴリズムにより前記対象テキストから抽出する、
音声合成システム。
The voice synthesis system according to claim 1.
The text replacement unit extracts a word to be replaced with a phonetic symbol string from the utterance text by a word extraction algorithm.
The user dictionary application unit extracts a word to be replaced with a phonetic symbol string from the target text by an algorithm common to the word extraction algorithm.
Speech synthesis system.
請求項1に記載の音声合成システムであって、
前記学習データは音声コーパスである、
音声合成システム。
The voice synthesis system according to claim 1.
The learning data is a voice corpus,
Speech synthesis system.
請求項7に記載の音声合成システムであって、
前記テキスト置換部は、発音記号列への置き換え対象とする単語を、抽出した単語の音韻又は韻律のバランスを考慮した単語抽出アルゴリズムにより、前記音声コーパスの発話テキストから抽出する、
音声合成システム。
The voice synthesis system according to claim 7.
The text replacement unit extracts a word to be replaced with a phonetic symbol string from the spoken text of the voice corpus by a word extraction algorithm considering the phonological or prosodic balance of the extracted word.
Speech synthesis system.
請求項1に記載の音声合成システムであって、
前記モデル学習部は、DNN(Deep Neural Network)により前記統計モデルを生成する、
音声合成システム。
The voice synthesis system according to claim 1.
The model learning unit generates the statistical model by DNN (Deep Neural Network).
Speech synthesis system.
請求項1に記載の音声合成システムであって、
ETE(End-To-End)型音声合成システムである、
音声合成システム。
The voice synthesis system according to claim 1.
ETE (End-To-End) type speech synthesis system,
Speech synthesis system.
請求項1に記載の音声合成システムにおける前記統計モデル生成装置であって、
発話テキストと音声データとを対応づけた学習データに基づき、音声合成に用いる統計モデルを生成する前記モデル学習部と、
前記発話テキストの一部の単語を発音記号列で置き換えた発話テキストと音声データとを対応づけたデータを前記学習データとして生成する前記テキスト置換部と、
を備える、統計モデル生成装置。
The statistical model generator in the speech synthesis system according to claim 1.
The model learning unit that generates a statistical model used for speech synthesis based on the learning data that associates the utterance text with the speech data.
The text replacement unit that generates data in which the utterance text in which some words of the utterance text are replaced with phonetic symbol strings and the voice data are associated with each other as the learning data.
A statistical model generator equipped with.
請求項11に記載の統計モデル生成装置であって、
前記学習データは音声コーパスである、
統計モデル生成装置。
The statistical model generator according to claim 11.
The learning data is a voice corpus,
Statistical model generator.
請求項11に記載の統計モデル生成装置であって、
前記モデル学習部は、DNN(Deep Neural Network)により前記統計モデルを生成する、
統計モデル生成装置。
The statistical model generator according to claim 11.
The model learning unit generates the statistical model by DNN (Deep Neural Network).
Statistical model generator.
請求項1に記載の音声合成システムにおける前記音声合成装置であって、
単語と当該単語についての発音記号列とを対応づけた情報を含むデータであるユーザ辞書を記憶する前記記憶部と、
音声合成の対象となるテキストである対象テキストについて、当該対象テキストに含まれている単語のうち前記ユーザ辞書に含まれている単語を前記ユーザ辞書における当該単語に対応づけられている前記発音記号列で置き換える前記ユーザ辞書適用部と、
前記置き換え後の前記対象テキストについて前記統計モデルに基づく音声合成処理を行うことにより合成音声を生成する前記音声合成処理部と、
を備える、音声合成装置。
The voice synthesizer in the voice synthesis system according to claim 1.
The storage unit that stores a user dictionary, which is data including information corresponding to a word and a phonetic symbol string for the word,
Regarding the target text, which is the text to be voice-synthesized, the phonetic symbol string in which the word included in the user dictionary among the words included in the target text is associated with the word in the user dictionary. The user dictionary application part to be replaced with
The speech synthesis processing unit that generates synthetic speech by performing speech synthesis processing based on the statistical model for the target text after the replacement,
A voice synthesizer equipped with.
情報処理装置が、
発話テキストと音声データとを対応づけた学習データに基づき、音声合成に用いる統計モデルを生成するステップ、
前記発話テキストの一部の単語を発音記号列で置き換えた発話テキストと音声データとを対応づけたデータを前記学習データとして生成するステップ、
単語と当該単語についての発音記号列とを対応づけた情報を含むデータであるユーザ辞書を記憶するステップ、
音声合成の対象となるテキストである対象テキストについて、当該対象テキストに含まれている単語のうち前記ユーザ辞書に含まれている単語を前記ユーザ辞書における当該単語に対応づけられている前記発音記号列で置き換えるステップ、及び、
前記置き換え後の前記対象テキストについて前記統計モデルに基づく音声合成処理を行うことにより合成音声を生成するステップ、
を実行する、音声合成方法。
Information processing device
Steps to generate a statistical model used for speech synthesis based on learning data that associates spoken text with speech data,
A step of generating as the training data data in which the utterance text in which some words of the utterance text are replaced with phonetic symbol strings and the voice data are associated with each other.
A step of storing a user dictionary, which is data containing information corresponding to a word and a phonetic symbol string for the word.
Regarding the target text, which is the text to be voice-synthesized, the phonetic symbol string in which the word included in the user dictionary among the words included in the target text is associated with the word in the user dictionary. Steps to replace with, and
A step of generating a synthesized voice by performing a voice synthesis process based on the statistical model on the target text after the replacement.
A speech synthesis method that executes.
JP2017240349A 2017-12-15 2017-12-15 Speech synthesis system, statistical model generator, speech synthesizer, speech synthesis method Active JP6806662B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017240349A JP6806662B2 (en) 2017-12-15 2017-12-15 Speech synthesis system, statistical model generator, speech synthesizer, speech synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017240349A JP6806662B2 (en) 2017-12-15 2017-12-15 Speech synthesis system, statistical model generator, speech synthesizer, speech synthesis method

Publications (2)

Publication Number Publication Date
JP2019109278A JP2019109278A (en) 2019-07-04
JP6806662B2 true JP6806662B2 (en) 2021-01-06

Family

ID=67179602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017240349A Active JP6806662B2 (en) 2017-12-15 2017-12-15 Speech synthesis system, statistical model generator, speech synthesizer, speech synthesis method

Country Status (1)

Country Link
JP (1) JP6806662B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7228998B2 (en) * 2018-08-27 2023-02-27 日本放送協会 speech synthesizer and program
CN112289303B (en) * 2019-07-09 2024-04-16 北京京东振世信息技术有限公司 Method and device for synthesizing voice data
CN114787913A (en) * 2019-12-13 2022-07-22 谷歌有限责任公司 Training speech synthesis to generate different speech sounds
CN112667865A (en) * 2020-12-29 2021-04-16 西安掌上盛唐网络信息有限公司 Method and system for applying Chinese-English mixed speech synthesis technology to Chinese language teaching
JP7432000B2 (en) 2021-05-25 2024-02-15 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Audio reproduction system, tone composition method and device for audio reproduction, electronic equipment, storage medium, and computer program

Also Published As

Publication number Publication date
JP2019109278A (en) 2019-07-04

Similar Documents

Publication Publication Date Title
JP6806662B2 (en) Speech synthesis system, statistical model generator, speech synthesizer, speech synthesis method
US8990089B2 (en) Text to speech synthesis for texts with foreign language inclusions
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
US9761219B2 (en) System and method for distributed text-to-speech synthesis and intelligibility
CN110797006B (en) End-to-end speech synthesis method, device and storage medium
CN104899192B (en) For the apparatus and method interpreted automatically
El Ouahabi et al. Toward an automatic speech recognition system for amazigh-tarifit language
JP7110055B2 (en) Speech synthesis system and speech synthesizer
JP2024514064A (en) Phonemes and Graphemes for Neural Text-to-Speech
Dagba et al. A Text To Speech system for Fon language using Multisyn algorithm
Raghavendra et al. A multilingual screen reader in Indian languages
Alam et al. Development of annotated Bangla speech corpora
CN111968619A (en) Method and device for controlling voice synthesis pronunciation
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
CN111489742A (en) Acoustic model training method, voice recognition method, device and electronic equipment
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
Carson-Berndsen Multilingual time maps: portable phonotactic models for speech technology
Le et al. First steps in building a large vocabulary continuous speech recognition system for Vietnamese
Nair et al. Indian text to speech systems: A short survey
Dika et al. The principles of designing of algorithm for speech synthesis from texts written in Albanian language
Thangthai et al. A learning method for Thai phonetization of English words
Mutawa Machine Learning for Arabic Text To Speech Synthesis: a Tacotron Approach
Koşaner et al. Improving Turkish language training materials: Grapheme-to-phoneme conversion for adding phonemic transcription into dictionary entries and course books
Hassana et al. Text to Speech Synthesis System in Yoruba Language
He et al. Automatic Stress Annotation and Prediction for Expressive Mandarin TTS

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201204

R150 Certificate of patent or registration of utility model

Ref document number: 6806662

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250