JP6821728B2 - Text data voice playback device and text data voice playback program - Google Patents
Text data voice playback device and text data voice playback program Download PDFInfo
- Publication number
- JP6821728B2 JP6821728B2 JP2019033454A JP2019033454A JP6821728B2 JP 6821728 B2 JP6821728 B2 JP 6821728B2 JP 2019033454 A JP2019033454 A JP 2019033454A JP 2019033454 A JP2019033454 A JP 2019033454A JP 6821728 B2 JP6821728 B2 JP 6821728B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- text data
- conversation
- type characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 claims description 33
- 230000008859 change Effects 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 7
- 239000007858 starting material Substances 0.000 claims 3
- 230000006870 function Effects 0.000 description 57
- 238000000034 method Methods 0.000 description 36
- PKHSKYFMULMNOC-UHFFFAOYSA-N 1-(1,2,3-benzothiadiazol-6-yl)-3-phenacylurea Chemical compound C=1C=C2N=NSC2=CC=1NC(=O)NCC(=O)C1=CC=CC=C1 PKHSKYFMULMNOC-UHFFFAOYSA-N 0.000 description 32
- 230000008569 process Effects 0.000 description 30
- 238000012545 processing Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 11
- 238000013075 data extraction Methods 0.000 description 7
- 241000894007 species Species 0.000 description 6
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 210000001072 colon Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000006481 Colocasia esculenta Nutrition 0.000 description 1
- 240000004270 Colocasia esculenta var. antiquorum Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明はテキストデータ音声再生装置およびテキストデータ音声再生プログラムに関する。 The present invention relates to a text data voice reproduction device and a text data voice reproduction program.
あらかじめ記憶部に記憶されているデジタルコンテンツを音声出力する装置としては、例えば特許文献1(特開2008−268684号公報)で開示されているような構成のものが知られている。 As a device that outputs digital contents stored in a storage unit in advance by voice, for example, a device having a configuration as disclosed in Patent Document 1 (Japanese Unexamined Patent Publication No. 2008-268648) is known.
また、近年においては、学習用に開発されたデジタルコンテンツを利用することにより、児童生徒の学習支援を行うための装置としての構成も提案されている。このような学習支援用テキストデータ音声再生装置の一例としては、例えば特許文献2(特開2016−212168号公報)で開示されているような構成が知られている。 Further, in recent years, a configuration as a device for supporting learning of children and students by using digital contents developed for learning has been proposed. As an example of such a text data voice reproduction device for learning support, for example, a configuration as disclosed in Patent Document 2 (Japanese Unexamined Patent Publication No. 2016-212168) is known.
特許文献1および特許文献2において開示されている構成どうしを組み合わせることで、例えば、教科書のテキストデータを音声データとして出力させることが可能である。しかしながら、単に特許文献1および特許文献2の構成を組み合わせただけでは、スピーカーから出力された音声データの中に会話文が含まれている場合において、会話部分と非会話部分の音声データが同一声種の音声データであると、会話内容の把握が困難になってしまう。これでは学習支援が必要とする児童生徒にとって、音声データで出力された文章の内容を十分に理解させることが困難になり、児童生徒に対する十分な学習支援をすることができないといった課題がある。
By combining the configurations disclosed in
そこで本発明は、学習支援が必要な児童生徒が通常の文章と会話文とが混在する文章の学習をする際において、会話部分における音声データの生成に用いる声種特性データを適宜変更させることで音声データを聞いた児童生徒による文章内容の理解度を向上させることが可能なテキストデータ音声再生装置およびテキストデータ音声再生プログラムの提供を主な目的としている。 Therefore, according to the present invention, when a child student who needs learning support learns a sentence in which normal sentences and conversational sentences are mixed, the voice type characteristic data used for generating voice data in the conversational part is appropriately changed. The main purpose is to provide a text data voice playback device and a text data voice playback program that can improve the comprehension of text contents by children and students who listen to voice data.
すなわち本発明は、テキストデータと複数の声種特性データを含む声種特性データベースが少なくとも記憶されている記憶部と、前記記憶部から前記テキストデータを取得するテキストデータ取得部と、前記テキストデータを構成する文字データの各々について前記文字データの種類を判別する文字判別部と、前記テキストデータを構成する前記文字データにおいて、前記文字データの種類が開始側引用符と終了側引用符である前記文字データにより区切られた範囲を会話部分として抽出する会話部分抽出部と、前記声種特性データベースから抽出した基本声種特性データによる音声データを前記テキストデータから生成する音声データ生成部と、前記テキストデータに含まれている前記会話部分には、前記声種特性データベースから抽出された会話部分用声種特性データを前記基本声種特性データに代えて前記音声データ生成部に適用する会話声種変更部と、前記音声データ生成部により生成された前記音声データを出力する出力部と、を具備し、前記会話部分抽出部は、前記開始側引用符と前記終了側引用符の間に他の前記開始側引用符および他の前記終了側引用符がある場合には、他の前記開始側引用符と他の前記終了側引用符とで区切られた部分を会話内会話部分として抽出し、前記会話声種変更部は、前記会話内会話部分に前記声種特性データベースから抽出された会話内会話部分用声種特性データを前記会話部分用声種特性データに代えて前記音声データ生成部に適用すること特徴とするテキストデータ音声再生装置である。 That is, the present invention stores at least a storage unit in which a voice type characteristic database including text data and a plurality of voice type characteristic data is stored, a text data acquisition unit that acquires the text data from the storage unit, and the text data. In the character discriminating unit that discriminates the type of the character data for each of the constituent character data, and in the character data constituting the text data, the character whose type of character data is a start-side quote and an end-side quote. A conversation part extraction unit that extracts a range separated by data as a conversation part, a voice data generation unit that generates voice data based on basic voice type characteristic data extracted from the voice type characteristic database from the text data, and the text data. In the conversation part included in the voice type characteristic data, the voice type characteristic data for the conversation part extracted from the voice type characteristic database is applied to the voice data generation unit in place of the basic voice type characteristic data. And an output unit that outputs the voice data generated by the voice data generation unit, and the conversation part extraction unit has another start between the start side quote and the end side quote. If there are side quotes and other ending quotes, the part separated by the other starting quotes and the other ending quotes is extracted as the conversational part in the conversation, and the conversation voice. The species change unit applies the voice type characteristic data for the conversation part extracted from the voice type characteristic database to the conversation part in the conversation to the voice data generation unit in place of the voice type characteristic data for the conversation part. It is a characteristic text data audio reproduction device.
これにより、通常の文章と会話文とが混在する文章の学習を行う際において、会話部分における音声データの生成に用いる声種特性データを適宜変更させることができる。すなわち、基本部分と基本部分の中途位置や冒頭位置等に挿入された会話部分における音声データの声種を変更させることで児童生徒による音声データに基づいた文章内容の理解度を向上させることが可能になる。また、会話部分の中にさらに別の会話部分である会話内会話部分が含まれている場合においても、音声データの声種特性データを会話部分および基本部分における声種特性データとは異なる声種特性データを適用することで、音声データを聞き取った児童生徒による文章内容の聞き分けを容易にすることができる。 As a result, when learning a sentence in which a normal sentence and a conversational sentence are mixed, the voice type characteristic data used for generating the voice data in the conversational part can be appropriately changed. That is, it is possible to improve the comprehension of the text content based on the voice data by the students by changing the voice type of the voice data in the basic part and the conversation part inserted in the middle position or the beginning position of the basic part. become. Further, even when the conversation part includes an in-conversation conversation part which is another conversation part, the voice type characteristic data of the voice data is different from the voice type characteristic data in the conversation part and the basic part. By applying the characteristic data, it is possible to facilitate the distinction of the text content by the students who have heard the voice data.
また、前記声種特性データベースには、人物名と前記人物名に対応する前記声種特性データが紐付けされていて、前記テキストデータに前記人物名が含まれている場合、前記会話声種変更部は、前記人物名に紐付けられた前記声種特性データを前記音声データ生成部に適用することが好ましい。 Further, when the person name and the voice type characteristic data corresponding to the person name are associated with the voice type characteristic database and the person name is included in the text data, the conversation voice type is changed. It is preferable that the unit applies the voice type characteristic data associated with the person's name to the voice data generation unit .
これにより、テキストデータの内容に対して、より自然な声種特性データを用いた音声データの生成を自動的に行うことができる。 As a result, it is possible to automatically generate voice data using more natural voice type characteristic data for the content of the text data.
また、前記音声データ生成部は、前記テキストデータにおいて前記人物名の部分を除いた部分に基づいて前記音声データを生成可能であることが好ましい。 Also, the audio data generation unit, the generatable der Rukoto the audio data on the basis of the text data portion excluding a portion of the person's name is preferred.
これにより、台本形式のテキストデータの音声データから文章の内容を理解するうえで重要ではない部分(セリフ以外の部分)が音声データの生成対象から外れるため、文章の内容の理解度を高めることができる。 Rukoto Accordingly, since the text data is not part important to understand the contents of the text from the voice data script format (a portion other than speech) is out of the product object of speech data, enhance the understanding of the contents of the text Can be done.
また、テキストデータと複数の声種特性データを含む声種特性データベースが少なくとも記憶されている記憶部と、前記記憶部から前記テキストデータを取得するテキストデータ取得部と、前記テキストデータを構成する文字データの各々について前記文字データの種類を判別する文字判別部と、前記テキストデータを構成する前記文字データにおいて、前記文字データの種類が開始側引用符と終了側引用符である前記文字データにより区切られた範囲を会話部分として抽出する会話部分抽出部と、前記声種特性データベースから抽出した基本声種特性データによる音声データを前記テキストデータから生成する音声データ生成部と、前記テキストデータに含まれている前記会話部分には、前記声種特性データベースから抽出された会話部分用声種特性データを前記基本声種特性データに代えて前記音声データ生成部に適用する会話声種変更部と、前記音声データ生成部により生成された前記音声データを出力する出力部と、を具備し、前記声種特性データベースには、人物名と前記人物名に対応する前記声種特性データが紐付けされていて、前記テキストデータに前記人物名が含まれている場合、前記会話声種変更部は、前記人物名に紐付けられた前記声種特性データを前記音声データ生成部に適用し、前記音声データ生成部は、前記テキストデータにおいて前記人物名の部分を除いた部分に基づいて前記音声データを生成可能であることを特徴とするテキストデータ音声再生装置とすることもできる。 In addition, a storage unit in which at least a voice type characteristic database containing text data and a plurality of voice type characteristic data is stored, a text data acquisition unit that acquires the text data from the storage unit, and characters constituting the text data. In the character discriminating unit that discriminates the type of the character data for each of the data and the character data constituting the text data, the character data types are separated by the character data in which the type of the character data is a start side quote and an end side quote. The text data includes a conversation part extraction unit that extracts the specified range as a conversation part, a voice data generation unit that generates voice data based on the basic voice type characteristic data extracted from the voice type characteristic database from the text data, and the text data. The conversation part includes a conversation voice type changing unit that applies voice type characteristic data for the conversation part extracted from the voice type characteristic database to the voice data generation unit in place of the basic voice type characteristic data, and the conversation voice type changing unit. It includes an output unit that outputs the voice data generated by the voice data generation unit, and the voice type characteristic database is associated with the person name and the voice type characteristic data corresponding to the person name. When the text data includes the person's name, the conversation voice type changing unit applies the voice type characteristic data associated with the person's name to the voice data generation unit to generate the voice data. The unit may also be a text data audio reproduction device characterized in that the audio data can be generated based on the portion of the text data excluding the portion of the person's name .
これにより、通常の文章と会話文とが混在する文章の学習を行う際において、会話部分における音声データの生成に用いる声種特性データを適宜変更させることができる。すなわち、基本部分と基本部分の中途位置や冒頭位置等に挿入された会話部分における音声データの声種を変更させることで児童生徒による音声データに基づいた文章内容の理解度を向上させることが可能になる。また、テキストデータの内容に対して、より自然な声種特性データを用いた音声データの生成を自動的に行うことができる。そして、台本形式のテキストデータの音声データから文章の内容を理解するうえで重要ではない部分(セリフ以外の部分)が音声データの生成対象から外れるため、文章の内容の理解度を高めることができる。 As a result, when learning a sentence in which a normal sentence and a conversational sentence are mixed, the voice type characteristic data used for generating the voice data in the conversational part can be appropriately changed. That is, it is possible to improve the comprehension of the text content based on the voice data by the students by changing the voice type of the voice data in the basic part and the conversation part inserted in the middle position or the beginning position of the basic part. become. In addition, it is possible to automatically generate voice data using more natural voice type characteristic data for the content of the text data. Then, since the parts (parts other than the dialogue) that are not important for understanding the content of the text from the voice data of the script-format text data are excluded from the generation target of the voice data, the degree of understanding of the content of the text can be improved. ..
また、前記文字判別部は、前記文字データに付与されている文字コードを判別することにより前記文字データの種類を判別することが好ましい。 Also, the character discrimination unit Rukoto to determine the type of the character data by discriminating a character code that is given to the character data is preferable.
これにより、テキストデータを構成する文字データが開始側引用符であるか、終了側引用符であるか(引用符であるか否か)の判別を容易に行うことができる。 Thereby, it is possible to easily determine whether the character data constituting the text data is a start side quotation mark or an end side quotation mark (whether or not it is a quotation mark) .
また、他の発明として、テキストデータと複数の声種特性データを含む声種特性データベースが少なくとも記憶されている記憶部と、前記テキストデータに基づいた音声データを出力する出力部と、動作制御部を少なくとも具備するコンピュータに読み取り可能であって、前記動作制御部に、前記記憶部から前記テキストデータを取得させるテキストデータ取得機能と、前記テキストデータを構成する文字データの各々について前記文字データの種類を判別させる文字判別機能と、前記テキストデータを構成する前記文字データにおいて、前記文字データの種類が開始側引用符と終了側引用符である前記文字データにより区切られた範囲を会話部分として抽出させる会話部分抽出機能と、前記声種特性データベースから抽出した基本声種特性データによる音声データを前記テキストデータから生成する音声データ生成機能と、前記テキストデータに含まれている前記会話部分には、前記声種特性データベースから抽出された会話部分用声種特性データを前記基本声種特性データに代えて前記音声データ生成機能に適用させる会話声種変更機能と、前記音声データ生成機能により生成された前記音声データを前記出力部に出力させる出力機能と、をそれぞれ実行させ、前記会話部分抽出機能は、前記開始側引用符と前記終了側引用符の間に他の前記開始側引用符および他の前記終了側引用符がある場合には、他の前記開始側引用符と他の前記終了側引用符とで区切られた部分を会話内会話部分として抽出し、前記会話声種変更機能は、前記会話内会話部分に前記声種特性データベースから抽出された会話内会話部分用声種特性データを前記会話部分用声種特性データに代えて前記音声データ生成機能に適用させること特徴とするテキストデータ音声再生プログラムがある。 Further, as another invention, a storage unit in which at least a voice type characteristic database including text data and a plurality of voice type characteristic data is stored, an output unit for outputting voice data based on the text data, and an operation control unit. a readable to the computer at least comprises, the operation control unit, and text data acquisition function to acquire the text data from the storage unit, the character data types for each of the character data constituting said text data In the character discrimination function for discriminating the text data and the character data constituting the text data, a range separated by the character data in which the type of the character data is the start side quote and the end side quote is extracted as a conversation part. The conversation part extraction function, the voice data generation function for generating voice data based on the basic voice type characteristic data extracted from the voice type characteristic database from the text data, and the conversation part included in the text data include the above. The conversation voice type change function that applies the voice type characteristic data for the conversation part extracted from the voice type characteristic database to the voice data generation function in place of the basic voice type characteristic data, and the voice data generation function generated by the voice data generation function. An output function for outputting voice data to the output unit and an output function for outputting audio data to the output unit are executed, and the conversation part extraction function performs the other start side quote and the other start side quote between the start side quote and the end side quote. If there is an end-side quote, the part separated by the other start-side quote and the other end-side quote is extracted as the conversation part in the conversation, and the conversation voice type change function is the conversation. text data voice and Rukoto characterized by applying to the audio data generating function instead a conversation in the conversation part for voice species characteristic data extracted from the voice species characteristic database in an inner talking part in voice type characteristics data for the talking part There is a playback program.
これにより、通常の文章と会話文とが混在する文章の学習を行う際において、会話部分における音声データの生成に用いる声種特性データを適宜変更させることができる。すなわち、基本部分と基本部分の中途位置や冒頭位置等に挿入された会話部分における音声データの声種を変更させることで児童生徒による音声データに基づいた文章内容の理解度を向上させることが可能になる。また、会話部分の中にさらに別の会話部分である会話内会話部分が含まれている場合においても、音声データの声種特性データを会話部分および基本部分における声種特性データとは異なる声種特性データを適用することで、音声データを聞き取った児童生徒による文章内容の聞き分けを容易にすることができる。 As a result, when learning a sentence in which a normal sentence and a conversational sentence are mixed, the voice type characteristic data used for generating the voice data in the conversational part can be appropriately changed. That is, it is possible to improve the comprehension of the text content based on the voice data by the students by changing the voice type of the voice data in the basic part and the conversation part inserted in the middle position or the beginning position of the basic part. become. Further, even when the conversation part includes an in-conversation conversation part which is another conversation part, the voice type characteristic data of the voice data is different from the voice type characteristic data in the conversation part and the basic part. By applying the characteristic data, it is possible to facilitate the distinction of the text content by the students who have heard the voice data.
また、前記声種特性データベースには、人物名と前記人物名に対応する前記声種特性データが紐付けされていて、前記テキストデータに前記人物名が含まれている場合、前記会話声種変更機能は、前記人物名に紐付けられた前記声種特性データを前記音声データ生成機能に適用させることが好ましい。 Further, when the person name and the voice type characteristic data corresponding to the person name are associated with the voice type characteristic database and the person name is included in the text data, the conversation voice type is changed. feature Rukoto to apply the voice type characteristics data bundled with the person's name in the voice data generating function is preferable.
これにより、テキストデータの内容に対して、より自然な声種特性データを用いて音声データの生成を自動的に行うことができる。 As a result, it is possible to automatically generate voice data using more natural voice type characteristic data for the content of the text data.
また、前記音声データ生成機能に、前記テキストデータにおいて前記人物名の部分を除いた部分に基づいて前記音声データを生成させることが可能であることが好ましい。 Furthermore, the to the sound data generating function, the can der Rukoto be based on the portion excluding the portion of the person's name in the text data to generate the audio data is preferred.
これにより、台本形式のテキストデータの音声データから文章の内容を理解するうえで重要ではない部分(セリフ以外の部分)が音声データの生成対象から外れるため、文章の内容の理解度を高めることができる。 Rukoto Accordingly, since the text data is not part important to understand the contents of the text from the voice data script format (a portion other than speech) is out of the product object of speech data, enhance the understanding of the contents of the text Can be done.
また、他の発明としてテキストデータと複数の声種特性データを含む声種特性データベースが少なくとも記憶されている記憶部と、前記テキストデータに基づいた音声データを出力する出力部と、動作制御部を少なくとも具備するコンピュータに読み取り可能であって、前記動作制御部に、前記記憶部から前記テキストデータを取得させるテキストデータ取得機能と、前記テキストデータを構成する文字データの各々について前記文字データの種類を判別させる文字判別機能と、前記テキストデータを構成する前記文字データにおいて、前記文字データの種類が開始側引用符と終了側引用符である前記文字データにより区切られた範囲を会話部分として抽出させる会話部分抽出機能と、前記声種特性データベースから抽出した基本声種特性データによる音声データを前記テキストデータから生成する音声データ生成機能と、前記テキストデータに含まれている前記会話部分には、前記声種特性データベースから抽出された会話部分用声種特性データを前記基本声種特性データに代えて前記音声データ生成機能に適用させる会話声種変更機能と、前記音声データ生成機能により生成された前記音声データを前記出力部に出力させる出力機能と、をそれぞれ実行させ、前記声種特性データベースには、人物名と前記人物名に対応する前記声種特性データが紐付けされていて、前記テキストデータに前記人物名が含まれている場合、前記会話声種変更機能は、前記人物名に紐付けられた前記声種特性データを前記音声データ生成機能に適用させ、前記音声データ生成機能に、前記テキストデータにおいて前記人物名の部分を除いた部分に基づいて前記音声データを生成させることが可能であることを特徴とするテキストデータ音声再生プログラムがある。 Further, as another invention, a storage unit in which at least a voice type characteristic database including text data and a plurality of voice type characteristic data is stored, an output unit for outputting voice data based on the text data, and an operation control unit are provided. A text data acquisition function that is readable by at least a computer and causes the operation control unit to acquire the text data from the storage unit, and a type of the character data for each of the character data constituting the text data. In the character discrimination function for discriminating and the character data constituting the text data, a conversation in which the range separated by the character data whose type of character data is the start side quote and the end side quote is extracted as a conversation part. The partial extraction function, the voice data generation function for generating voice data based on the basic voice type characteristic data extracted from the voice type characteristic database from the text data, and the conversation portion included in the text data include the voice. The conversation voice type change function that applies the voice type characteristic data for the conversation part extracted from the species characteristic database to the voice data generation function instead of the basic voice type characteristic data, and the voice generated by the voice data generation function. An output function for outputting data to the output unit is executed, and the voice type characteristic database is associated with the person name and the voice type characteristic data corresponding to the person name, and is linked to the text data. When the person name is included, the conversation voice type change function applies the voice type characteristic data associated with the person name to the voice data generation function, and applies the text to the voice data generation function. There is a text data audio reproduction program characterized in that it is possible to generate the audio data based on a portion of the data excluding the portion of the person's name .
これにより、通常の文章と会話文とが混在する文章の学習を行う際において、会話部分における音声データの生成に用いる声種特性データを適宜変更させることができる。すなわち、基本部分と基本部分の中途位置や冒頭位置等に挿入された会話部分における音声データの声種を変更させることで児童生徒による音声データに基づいた文章内容の理解度を向上させることが可能になる。また、テキストデータの内容に対して、より自然な声種特性データを用いて音声データの生成を自動的に行うことで、台本形式のテキストデータの音声データから文章の内容を理解するうえで重要ではない部分(セリフ以外の部分)が音声データの生成対象から外れるため、文章の内容の理解度を高めることができる。 As a result, when learning a sentence in which a normal sentence and a conversational sentence are mixed, the voice type characteristic data used for generating the voice data in the conversational part can be appropriately changed. That is, it is possible to improve the comprehension of the text content based on the voice data by the students by changing the voice type of the voice data in the basic part and the conversation part inserted in the middle position or the beginning position of the basic part. become. In addition, it is important to understand the content of sentences from the voice data of script-format text data by automatically generating voice data using more natural voice type characteristic data for the content of text data. Since the non-speech parts (parts other than the dialogue) are excluded from the voice data generation target, it is possible to improve the understanding of the content of the text .
また、前記文字判別機能は、前記文字データに付与されている文字コードを判別することにより前記文字データの種類を判別することが好ましい。 Also, the character determination function, Rukoto to determine the type of the character data by discriminating a character code that is given to the character data is preferable.
これにより、テキストデータを構成する文字データが開始側引用符であるか、終了側引用符であるか(引用符であるか否か)の判別を容易に行うことができる。 Thereby, it is possible to easily determine whether the character data constituting the text data is a start side quotation mark or an end side quotation mark (whether or not it is a quotation mark) .
本発明におけるテキストデータ音声再生装置とテキストデータ音声再生プログラムの構成によれば、学習支援が必要な児童生徒が通常の文章と会話文とが混在する文章の学習を行う際において、会話部分における音声データの生成に用いる声種特性データを適宜変更させることができる。すなわち、基本部分と基本部分の中途位置や冒頭位置等に挿入された会話部分における音声データの声種を適宜変更させることで、基本部分と会話部分との差を直感的に明確に区別することができる。ひいては児童生徒による音声データに基づいた文章内容の理解度の向上が可能になる。また、会話部分の中にさらに別の会話部分である会話内会話部分が含まれている場合においても、音声データの声種特性データを会話部分および基本部分における声種特性データとは異なる声種特性データを適用することで、音声データを聞き取った児童生徒による文章内容の聞き分けを容易にすることができる。もしくは、テキストデータの内容に対して、より自然な声種特性データを用いて音声データの生成を自動的に行うことで、台本形式のテキストデータの音声データから文章の内容を理解するうえで重要ではない部分(セリフ以外の部分)が音声データの生成対象から外れるため、文章の内容の理解度を高めることができる。 According to the configuration of the text data voice reproduction device and the text data voice reproduction program in the present invention, when a child student who needs learning support learns a sentence in which ordinary sentences and conversation sentences are mixed, the voice in the conversation part The voice type characteristic data used for data generation can be changed as appropriate. That is, the difference between the basic part and the conversation part can be intuitively and clearly distinguished by appropriately changing the voice type of the voice data in the conversation part inserted in the middle position or the beginning position of the basic part and the basic part. Can be done. As a result, it becomes possible for students to improve their understanding of text content based on voice data. Further, even when the conversation part includes an in-conversation conversation part which is another conversation part, the voice type characteristic data of the voice data is different from the voice type characteristic data in the conversation part and the basic part. By applying the characteristic data, it is possible to facilitate the distinction of the text content by the students who have heard the voice data. Alternatively, it is important to understand the content of the text from the voice data of the script format text data by automatically generating the voice data using the more natural voice type characteristic data for the content of the text data. Since the non-speech parts (parts other than the dialogue) are excluded from the voice data generation target, it is possible to improve the understanding of the content of the text .
本実施形態におけるテキストデータ音声再生装置100について説明する。図1に示すように、本実施形態におけるテキストデータ音声再生装置100は、記憶部10と、動作制御部20と、出力部30を具備している。このようなテキストデータ音声再生装置100は、タブレットコンピュータ等により実現することができる。
The text data
記憶部10には少なくともテキストデータTDと、テキストデータTDを区分するための区分条件KJと、文字コード情報MCJと、複数の声種特性データを含む声種特性データベースKDBと、が記憶されている。このような記憶部10としてはフラッシュメモリに代表される不揮発性メモリが好適に用いられる。また、タブレットコンピュータがテキストデータ音声再生装置100の専用品でない場合には、タブレットコンピュータの記憶部10にテキストデータ音声再生プログラムPGMをインストールすれば、テキストデータ音声再生装置100として使用することができる。
At least the text data TD, the classification condition KJ for classifying the text data TD, the character code information MCJ, and the voice type characteristic database KDB including a plurality of voice type characteristic data are stored in the
本実施形態におけるテキストデータTDは、英語の教科書データ等に代表されるような、日本語と非日本語(英語)が混在するいわゆるプレーンテキストデータであるが、この形態に限定されるものではない。例えば、日本語とドイツ語等のプレーンテキストデータであっても良いし、日本語と英語のタグ区切りテキストデータ等を採用することができる。すなわち本明細書におけるテキストデータTDとは、日本語と非日本語のプレーンテキストデータ、日本語と非日本語のタグ区切りテキストデータ、その他のテキストデータのいずれをも含む概念を指しているのである。 The text data TD in this embodiment is so-called plain text data in which Japanese and non-Japanese (English) are mixed, as typified by English textbook data, but is not limited to this form. .. For example, plain text data such as Japanese and German may be used, or tag-delimited text data between Japanese and English may be adopted. That is, the text data TD in the present specification refers to a concept including any of Japanese and non-Japanese plain text data, Japanese and non-Japanese tag-delimited text data, and other text data. ..
本実施形態における区分条件KJは、テキストデータ取得部21としての動作制御部20により記憶部10から取得されたテキストデータTDを予め設定された条件で区分するためのものである。本実施形態におけるテキストデータTDは、日本語と英語のプレーンテキストデータ形式である。プレーンテキストデータ形式のテキストデータTDに対する区分条件KJは、テキストデータTD内における句読点、記号、括弧、改行、スペース等の位置で区切られた範囲を区分テキストデータKTDとして抽出することができるように設定されている。
The classification condition KJ in the present embodiment is for classifying the text data TD acquired from the
具体的には、図2(A)に示すように、記憶部10から取得されたテキストデータTDは、区分テキストデータ抽出部22としての動作制御部20が区分条件KJに則って、テキストデータTDを句読点、記号、括弧、改行、スペース等の位置で区切る処理を行う。このようにして得られた区分テキストデータKTDは、図2(B)に示すように複数のブロックに区分された状態になる。
Specifically, as shown in FIG. 2A, the text data TD acquired from the
なお、図3(A)に示すように、テキストデータTDがタグ区切りテキストデータ形式である場合の区分条件KJは、タグによって区切られた範囲をそれぞれの区分テキストデータKTDとして抽出することができるように設定されている。したがって、図3(A)に示すテキストデータTDは、区分テキストデータ抽出部22としての動作制御部20が区分条件KJに則って、図3(B)に示すような複数の区分テキストデータKTDに区分することになる。
As shown in FIG. 3A, the division condition KJ when the text data TD is in the tag-delimited text data format can extract the range delimited by the tag as each division text data KTD. Is set to. Therefore, the text data TD shown in FIG. 3 (A) is converted into a plurality of divided text data KTDs as shown in FIG. 3 (B) by the
図2および図3に示した区分テキストデータKTDに対しては、抽出番号付与部23としての動作制御部20によって、抽出された順番に通し番号の抽出番号を付与する処理を実行するようにしても良い。以上のようにして得られた区分テキストデータKTDは動作制御部20によって抽出番号と紐付けした状態で記憶部10に区分テキストデータKTD(x:xは自然数)として記憶される。以下、本明細書においては、区分テキストデータKTDのうち抽出番号が付与されたものについては、区分テキストデータKTD(x)と記載する。
For the divided text data KTD shown in FIGS. 2 and 3, the
また、本実施形態においては、図2および図3からも明らかなとおり、プレーンテキストデータを区分して得た区分テキストデータKTD(x)の数と、タグ区切りテキストデータの区分テキストデータKTD(x)の数は一致している。なお、同一内容の文章であっても、タグ区切りテキストデータの構成によっては、プレーンテキストデータとタグ区切りテキストデータを区分して得た区分テキストデータKTD(x)の内容に相違が生じることもある。しかしながら本実施形態においては、後述する処理を行うことにより区分テキストデータKTD(x)の相違が問題になることはない。 Further, in the present embodiment, as is clear from FIGS. 2 and 3, the number of the divided text data KTD (x) obtained by dividing the plain text data and the divided text data KTD (x) of the tag-delimited text data are obtained. ) Are in agreement. Even if the sentences have the same content, the content of the divided text data KTD (x) obtained by dividing the plain text data and the tag delimited text data may differ depending on the structure of the tag delimited text data. .. However, in the present embodiment, the difference in the division text data KTD (x) does not become a problem by performing the processing described later.
このようにして区分テキストデータ抽出部22により得られた区分テキストデータKTD(x)は、単数または複数の文字データにより構成されている。これに続いて文字判別部24としての動作制御部20は、各々の区分テキストデータKTD(x)に対し、区分テキストデータKTD(x)の中における文字データにそれぞれ付与されている文字コードを記憶部10に記憶されている文字コード情報MCJに参照し、その文字データが日本語文字コードであるか非日本語文字コードであるかの判別処理を実行する。
The division text data KTD (x) obtained by the division text
また、文字判別部24は、各々の区分テキストデータKTD(x)を構成するそれぞれの文字データに対し、或る文字データの文字コードが日本語文字コードであると判別したときには日本語判別カウンタNHCに1を加算する。これと同様に、或る文字データの文字コードが非日本語文字コードであると判別したときには非日本語判別カウンタHHCに1を加算する。なお、日本語判別カウンタNHCと非日本語判別カウンタHHCの初期値はいずれも0である。そして或る区分テキストデータKTD(x)の中における日本語判別カウンタNHCと非日本語判別カウンタHHCのそれぞれの値は、動作制御部20によって各々の区分テキストデータKTD(x)に紐付けされた状態で記憶部10に記憶された後、それぞれの値を初期値の0にリセットする処理を実行する。
Further, when the
このことを図2のテキストデータTDに基づいて説明する。図2に示す区分テキストデータKTD(1)においては、日本語判別カウンタNHC=6、非日本語判別カウンタHHC=0となり、これらの値がKTD(1)に紐付けされて記憶部10に記憶されたのちカウンタ値を0にリセットする。また、区分テキストデータKTD(2)においては、日本語判別カウンタNHC=14、非日本語判別カウンタHHC=4となり、これらの値がKTD(2)に紐付けされて記憶部10に記憶されたのちカウンタ値を初期値の0にリセットする。
This will be described based on the text data TD of FIG. In the divided text data KTD (1) shown in FIG. 2, the Japanese discrimination counter NHC = 6 and the non-Japanese discrimination counter HHC = 0, and these values are associated with the KTD (1) and stored in the
そして、文字データ種割合算出部25としての動作制御部20は、テキストデータTDを構成する単数または複数の区分テキストデータKTD(x)のすべての文字数に対する日本語判別カウンタNHCの合計値の割合RTを算出する処理を実行する。本実施形態における割合RTは、(日本語判別カウンタNHCのカウント合計値/(日本語判別カウンタNHCのカウント合計値+非日本語判別カウンタHHCのカウント合計値))で算出している。このようにして算出されたテキストデータTDにおけるすべての文字数のカウント値の合計に対する日本語判別カウンタNHCのカウント値の割合RTは、動作制御部20によってテキストデータTDに紐付けされた状態で記憶部10に記憶される。
Then, the
このことを図2のテキストデータTDに基づいて説明する。テキストデータTDは区分テキストデータKTD(1)と区分テキストデータKTD(2)により構成されているので、テキストデータTDを構成する文字データの総数は、日本語判別カウンタNHCのカウント合計値+非日本語判別カウンタHHCのカウント合計値で算出され、24となる。このうち日本語判別カウンタNHCの合計値は20であるから、テキストデータTDのすべての文字数に対する日本語判別カウンタの合計値の割合RTは(20/24)×100となり、83.33%となる。 This will be described based on the text data TD of FIG. Since the text data TD is composed of the divided text data KTD (1) and the divided text data KTD (2), the total number of character data constituting the text data TD is the total count value of the Japanese discrimination counter NHC + non-Japan. It is calculated by the total count value of the word discrimination counter HHC, and is 24. Of these, the total value of the Japanese discrimination counter NHC is 20, so the ratio RT of the total value of the Japanese discrimination counter to the total number of characters in the text data TD is (20/24) × 100, which is 83.33%. ..
もし、テキストデータTDがプレーンテキストデータ形式の場合とタグ区切りデータ形式の場合で区分テキストデータKTD(x)の数が互いに異なる場合であっても、テキストデータTDにおける日本語判別カウンタNHCの合計値と非日本語判別カウンタHHCの合計値は同一値になるので、テキストデータTDのすべての文字数に対する日本語判別カウンタの合計値の割合RTは(20/24)×100で算出され83.33%となり、テキストデータTDのデータ形式の相違は本発明においては問題にならないことが諒解される。 Even if the number of divided text data KTD (x) differs between the plain text data format and the tag-delimited data format, the total value of the Japanese discrimination counter NHC in the text data TD. Since the total value of the non-Japanese discrimination counter HHC is the same as that of the non-Japanese discrimination counter HHC, the ratio RT of the total value of the Japanese discrimination counter to the total number of characters in the text data TD is calculated by (20/24) × 100 and is 83.33%. Therefore, it is understood that the difference in the data format of the text data TD does not matter in the present invention.
なお、記憶部10にはテキストデータTDに対して、日本語音声データ生成エンジンNOEと非日本語音声データ生成エンジンHOEのどちらを適用すべきかを決定する際の判断基準となる所定割合SRTも予め記憶されている。この所定割合SRTは、図示しないデータ入力手段により入力された数値に変更可能であることが好ましい。
In addition, the
なお、日本語音声データ生成エンジンNOEとは、テキストデータ取得部21により記憶部10から取得されたテキストデータTDを区分条件KJに則って区分して得た区分テキストデータKTDと声種特性データベースKDBから抽出した声種特性データ(デフォルト設定は基本声種特性データBKP)に基づいて日本語音声データNODを生成するためのものである。このような日本語音声データ生成エンジンNOEとしては、いわゆる日本語TTS(Text To Speech)と称されるものが好適に用いられる。これと同様に、非日本語音声データ生成エンジンHOEとは、区分テキストデータKTDと声種特性データベースKDBから抽出した声種特性データ(デフォルト設定は基本声種特性データBKP)に基づいて非日本語音声データHODを生成するためのものであり、非日本語TTSと称されるものが好適に用いられる。
The Japanese voice data generation engine NOE is a division text data KTD obtained by dividing the text data TD acquired from the
ここで、声種特性データベースKDBについて説明する。声種特性データベースKDBを構成する複数種類の声種特性データとは、性別要素、年代(世代)要素、話速要素等に代表される複数の音声データの特性を定めるための要素を適宜組み合わせてなるものである。具体的には、出力部30に出力する際の音声データの周波数や話速等を特定したものである。より詳細には、幼年男子、少年男子、成年男子、壮年男子、熟年男子、老年男子、幼年女子、少年女子、成年女子、壮年女子、熟年女子、老年女子等を列挙することができる。また、これらの声種特性データの各々に対し、高めの声、標準の声、低めの声、クリアな声、ハスキーな声等の付加的特性要素を設定することも可能である。
Here, the voice type characteristic database KDB will be described. The multiple types of voice type characteristic data constituting the voice type characteristic database KDB are appropriately combined with elements for determining the characteristics of a plurality of voice data represented by a gender element, an age (generation) element, a speaking speed element, and the like. It will be. Specifically, the frequency, speaking speed, and the like of the voice data when being output to the
次に音声データ生成エンジン選択部26としての動作制御部20は、記憶部10に記憶されているテキストデータTDに紐付けされている割合RTと、所定割合SRTとの比較を行う。そして、或るテキストデータTDに紐付けされている割合RTが所定割合SRT以上である場合には、或るテキストデータTDにおけるすべての文字データに日本語音声データ生成エンジンNOEおよび声種特性データベースKDBから抽出した基本声種特性データBKPをそれぞれ適用する処理を実行する。また、或るテキストデータTDにおける割合RTが所定割合SRT未満である場合には、或るテキストデータTDにおいて、日本語文字コードが付与されている文字データに対しては日本語音声データ生成エンジンNOEおよび声種特性データベースKDBから抽出した基本声種特性データBKPをそれぞれ適用し、非日本語文字コードが付与されている文字データに対しては非日本語音声データ生成エンジンHOEおよび基本声種特性データBKPをそれぞれ適用する処理を実行する。
Next, the
すなわち、テキストデータTDの中における文字データにおいて日本語である割合が高い場合には、非日本語の文字データであっても日本語音声データ生成エンジンNOEおよび基本声種特性データBKPをそれぞれ適用し、テキストデータTDの全体を基本声種特性データBKPによって日本語発音の音声データの生成を可能にしている。このような音声データ生成エンジンの適用は、例えば英語の教科書で、日本人名(日本に関する固有名詞)のみが英語表記されている日本語訳の文章を音声出力する際において、日本人名のみが英語発音されることが解消できる点において好適である。 That is, when the ratio of Japanese character data in the text data TD is high, the Japanese voice data generation engine NOE and the basic voice type characteristic data BKP are applied even for non-Japanese character data. , The entire text data TD is made possible to generate voice data of Japanese pronunciation by the basic voice type characteristic data BKP. The application of such a voice data generation engine is, for example, in an English textbook, when a Japanese translation of a sentence in which only Japanese names (proprietary nouns related to Japan) are written in English is output by voice, only Japanese names are pronounced in English. It is preferable in that it can be solved.
また、図4に示すようなテキストデータTDのように、テキストデータTDの中における文字データにおいて非日本語(英語)である割合が高い場合(割合RTが所定割合SRT未満である場合)には、非日本語の文字データに対しては非日本語音声データ生成エンジンHOEおよび基本声種特性データBKPをそれぞれ適用し、日本語の文字データに対しては日本語音声データ生成エンジンNOEおよび基本声種特性データBKPをそれぞれ適用する。図4に示すテキストデータTDおいては、冒頭の[例1]のみが日本語音声データ生成エンジンNOEおよび基本声種特性データBKPによって音声データが生成され、その後の部分はすべて非日本語音声データ生成エンジンHOEおよび基本声種特性データBKPによって音声データが生成されることになる。 Further, when the ratio of non-Japanese (English) in the character data in the text data TD is high (when the ratio RT is less than the predetermined ratio SRT) as in the text data TD as shown in FIG. , Non-Japanese voice data generation engine HOE and basic voice type characteristic data BKP are applied to non-Japanese character data, respectively, and Japanese voice data generation engine NOE and basic voice are applied to Japanese character data. Species characteristic data BKP is applied respectively. In the text data TD shown in FIG. 4, only the first [Example 1] is generated by the Japanese voice data generation engine NOE and the basic voice type characteristic data BKP, and all the subsequent parts are non-Japanese voice data. Voice data will be generated by the generation engine HOE and the basic voice type characteristic data BKP.
このようにしてテキストデータTDを構成する各々の文字データにおける日本語の割合に応じた音声生成エンジンを適宜選択することができる。これによりテキストデータTDの音声データを生成させる際には日本語音声データ生成エンジンNOEの適用が優先され、日本人の児童生徒が聞き取りやすく、文章の内容の理解度を向上させることができる点において好都合である。 In this way, it is possible to appropriately select a voice generation engine according to the ratio of Japanese in each character data constituting the text data TD. As a result, when generating the voice data of the text data TD, the application of the Japanese voice data generation engine NOE is prioritized, and it is easy for Japanese students to hear and the understanding of the content of the sentence can be improved. It is convenient.
次に、会話部分抽出部27としての動作制御部20は、文字判別部24により判別されたテキストデータTDを構成するすべての文字データの文字コード情報に基づき、文字データの種類が開始側引用符である文字データと終了側引用符である文字データを検出する処理を実行する。続けて会話部分抽出部27は、抽出した開始側引用符と終了側引用符により区切られた範囲(開始側引用符と終了側引用符の間にある文字データ)を会話部分KBとして抽出する処理を実行する。
Next, the
次に、会話声種変更部28としての動作制御部20は、会話部分KBとして抽出された部分に対し、記憶部10の声種特性データベースKDBから抽出した会話部分用声種特性データCKPを基本声種特性データBKPに代えて適用する処理を実行する。なお、このとき、テキストデータTDを構成する文字データにおける日本語の割合に応じた音声生成エンジンの適用状態に対する変更処理は行わない。このようにすることで、テキストデータTDの中にいわゆる会話部分が含まれている場合には、メインストリームにおける基本声種特性データBKPとは異なる音声特性を有する会話部分用声種特性データCKPを会話部分に適用することで、メインストリームと会話部分KBの音声データを明確に区別することができる。
Next, the
ところで、会話部分抽出部27としての動作制御部20が、開始側引用符と終了側引用符の間に他の開始側引用符と他の終了側引用符があることを抽出した場合、他の開始側引用符と他の終了側引用符とで区切られた部分を会話内会話部分KKBとして抽出する。そして会話内会話部分KKBが抽出された場合、会話声種変更部28としての動作制御部20は、会話内会話部分KKBに対し会話部分用声種特性データCKPに代えて、会話内会話部分用声種特性データIKPを適用する処理を実行する。なお、会話内会話部分用声種特性データIKPは、基本声種特性データBKPと会話部分用声種特性データCKPとは異なる声種特性データであり、声種特性データベースKDBを構成する声種特性データのうちの一つである。
By the way, when the
また、会話内会話部分KKBが終了すると再び会話部分KBに戻るため、会話声種変更部28としての動作制御部20は、会話内会話部分用声種特性データIKPの適用に代えて会話部分用声種特性データCKPの適用に戻す処理を実行する。そして、会話部分KBが終了すると、再びメインストリーム部分に戻るため、会話声種変更部28としての動作制御部20は、会話部分用声種特性データCKPの適用に代えて基本声種特性データBKPの適用に戻す処理を実行する。
Further, since the conversation part KB returns to the conversation part KB again when the conversation part KKB in the conversation ends, the
このようにして、テキストデータTDに対して、使用する音声データ生成エンジンおよび声種特性データを紐付けした状態にした後、音声データ生成部29としての動作制御部20は、最終的に適用された声種特性データとテキストデータTDに基づいて音声データの生成を実行する。このようにして生成された音声データは音声データ生成部29によって記憶部10に記憶される。
In this way, after the voice data generation engine to be used and the voice type characteristic data are associated with the text data TD, the
なお、上述した本実施形態においては、割合RTの算出をテキストデータTDの全体に対して行っているが、各々の区分テキストデータKTD(x)に対して割合RTを算出するようにしてもよい。この場合の割合RTは、区分テキストデータKTD(x)を構成するすべての文字データの数に対する日本語文字データの数の百分率(区分テキストデータKTD(x)における日本語判別カウンタNHCのカウント合計値/(区分テキストデータKTD(x)における日本語判別カウンタNHCのカウント合計値+区分テキストデータKTD(x)における非日本語判別カウンタHHCのカウント合計値))×100で算出することができる。割合RTを算出した後のデータ処理については、上述した本実施形態と同様にして行うことができるため、ここでの詳細な説明は省略する。 In the above-described embodiment, the ratio RT is calculated for the entire text data TD, but the ratio RT may be calculated for each division text data KTD (x). .. In this case, the ratio RT is the percentage of the number of Japanese character data to the number of all character data constituting the divided text data KTD (x) (the total count value of the Japanese discrimination counter NHC in the divided text data KTD (x)). / (Total count value of the Japanese discrimination counter NHC in the classified text data KTD (x) + total count value of the non-Japanese discrimination counter HHC in the classified text data KTD (x))) × 100 can be calculated. Since the data processing after calculating the ratio RT can be performed in the same manner as in the present embodiment described above, detailed description here will be omitted.
このようにすることで、区分テキストデータKTD(x)を構成する文字データにおける日本語の割合に応じた音声生成エンジンが適宜選択され、区分テキストデータKTD(x)に対応する音声データの生成を実行することができる。そして区分テキストデータKTD(x)に対応させて生成した音声データ(日本語音声データNOD、非日本語音声データHODの少なくとも1つ)は上述した本実施形態と同様に動作制御部20によって記憶部10に記憶される。
By doing so, a voice generation engine corresponding to the ratio of Japanese in the character data constituting the divided text data KTD (x) is appropriately selected, and the voice data corresponding to the divided text data KTD (x) is generated. Can be executed. Then, the voice data (at least one of Japanese voice data NOD and non-Japanese voice data HOD) generated in correspondence with the divided text data KTD (x) is stored by the
音声データ生成部29がテキストデータTDに対応する音声データの生成を完了すると、音声データ再生制御部としての動作制御部20が記憶部10に記憶されている音声データをスピーカー等の出力部30に出力する処理を実行する。このようにしてテキストデータTDにおける文章本文と会話部分の区別と、日本語部分と英語部分の区別を明確にした音声データをスピーカーから出力することで、学習支援が必要な児童生徒であっても外国語学習の学習効率を大幅に向上させることができる点で好都合である。
When the voice
次に、図5を参照しながら本実施形態におけるテキストデータ音声再生プログラムPGMおよびテキストデータ音声再生方法について説明する。本実施形態におけるテキストデータ音声再生プログラムPGMは、図1に示すように予め記憶部10にコンピュータにより読み取り可能な状態で記憶されている。使用者が、タブレットコンピュータの画面上に表示されている所定のアイコンをタップすると、テキストデータ音声再生プログラムPGMが起動する(処理開始)。テキストデータ音声再生プログラムPGMが起動すると、画面上には、記憶部10に記憶されている複数のテキストデータTDのタイトルが表示され、動作制御部20は使用者に対して処理対象となるテキストデータTDの選択を要求する。なお、テキストデータTDの冒頭部分等にはテキストデータTDの本文とは別にタイトル名の記載部分を設けておけばよい。使用者が画面に表示されたテキストデータTDのうち、音声データの再生を行う対象のタイトルを選択すると、テキストデータ音声再生プログラムPGMは、動作制御部20にテキストデータ取得機能を発揮させるよう作動させ、記憶部10から指定したタイトルのテキストデータTDを取得させる(テキストデータ取得ステップ:S1)。
Next, the text data voice reproduction program PGM and the text data voice reproduction method in the present embodiment will be described with reference to FIG. As shown in FIG. 1, the text data voice reproduction program PGM in the present embodiment is stored in the
次にテキストデータ音声再生プログラムPGMは、動作制御部20に区分テキストデータ抽出機能を発揮するよう作動させ、テキストデータ取得ステップ:S1で取得したテキストデータTDに対して、区分条件KJに基づき区分テキストデータKTDを抽出させる(区分テキストデータ抽出ステップ:S2)。このとき、テキストデータ音声再生プログラムPGMは、動作制御部20に抽出番号付与機能を発揮させるよう作動させて、区分テキストデータ抽出ステップ:S2で抽出した区分テキストデータKTDの各々に抽出番号を付与させる(抽出番号付与ステップ:S3)ようにしても良い。
Next, the text data voice reproduction program PGM operates the
次にテキストデータ音声再生プログラムPGMは、動作制御部20に文字判別機能を発揮させるよう作動させ、各々の区分テキストデータKTD(x)を構成する文字に付与されている文字コードを記憶部10の文字コード情報MCJに参照してそれぞれの文字コードが日本語文字コードであるか非日本語文字コードであるかを判別させる(文字判別ステップ:S4)。このとき文字判別機能としての動作制御部20は、文字コードが日本語文字コードであった場合には、日本語判別カウンタNHCに1をカウントし、文字コードが非日本語文字コードであった場合には、非日本語判別カウンタHHCに1をカウントする。なお、日本語判別カウンタNHCと非日本語判別カウンタHHCの初期値は0である。
Next, the text data voice reproduction program PGM operates the
区分テキストデータKTD(x)のすべての文字データについての文字コード(文字データの種類)の判別が終わると、文字判別機能としての動作制御部20は、それぞれの区分テキストデータKTD(x)に対して日本語判別カウンタNHCと非日本語判別カウンタHHCのカウント値を紐付けして記憶部10に記憶させる。また、文字判別機能としての動作制御部20は、記憶部10に日本語判別カウンタNHCと非日本語判別カウンタHHCを記憶させた後、それぞれの数値を初期値の0にリセットする処理を実行する。
When the determination of the character code (type of character data) for all the character data of the divided text data KTD (x) is completed, the
次にテキストデータ音声再生プログラムPGMは、動作制御部20に文字データ種割合算出機能を発揮させるよう作動させて、テキストデータTDにおける日本語文字データ種の割合RTを算出させる(文字データ種割合算出ステップ:S5)。本実施形態における日本語文字データ種の割合RTは、テキストデータTDを構成するすべての区分テキストデータKTD(x)の文字数(日本語判別カウンタNHCの合計値+非日本語判別カウンタHHCの合計値)に対する日本語文字コードが付与された文字数(日本語判別カウンタNHCの合計値)の百分率としている。
Next, the text data voice reproduction program PGM operates the
次にテキストデータ音声再生プログラムPGMは、動作制御部20に音声データ生成エンジン選択機能を発揮させるよう作動させ、テキストデータTDの文字(テキストデータ)をどの音声データ生成エンジンを適用して音声データを生成させるについての判断を行う(音声データ生成エンジン選択ステップ:S6)。
Next, the text data voice reproduction program PGM operates the
具体的には動作制御部20は、文字データ種割合算出ステップ:S5で算出した日本語文字データ種の割合RTと記憶部10に予め記憶されている判断材料としての所定割合SRTとの比較を行い、日本語文字データ種の割合RTが所定割合SRT以上であるか否かの判断を行う。より詳細に説明すると、音声データ生成エンジン選択機能としての動作制御部20は、テキストデータTDの日本語文字データ種の割合RTが所定割合SRT以上である場合には、そのテキストデータTDに対して日本語音声データ生成エンジンNOEおよび声種特性データベースKDBから抽出した基本声種特性データBKPをそれぞれ適用させる。これとは反対に、或るテキストデータTDの日本語文字データ種の割合RTが所定割合SRT未満である場合には、そのテキストデータTDに対して非日本語音声データ生成エンジンHOEおよび声種特性データベースKDBから抽出した基本声種特性データBKPをそれぞれ適用させる。
Specifically, the
また、文字データ種割合算出ステップ:S5と音声データ生成エンジン選択ステップ:S6は、各々の区分テキストデータKTD(x)の文字数に対する区分テキストデータKTD(x)における日本語文字コードが付与された文字数の百分率に基づき、各々の区分テキストデータKTD(x)に対する音声データ生成エンジンの適用の判断をする処理を実行するようにしても良い。 Further, in the character data type ratio calculation step: S5 and the voice data generation engine selection step: S6, the number of characters to which the Japanese character code in the division text data KTD (x) is assigned to the number of characters in each division text data KTD (x). The process of determining the application of the voice data generation engine to each section text data KTD (x) may be executed based on the percentage of.
具体的には、文字データ種割合算出ステップ:S5は、(区分テキストデータKTD(x)における日本語判別カウンタNHCの合計値)/(区分テキストデータKTD(x)における日本語判別カウンタNHCの合計値+区分テキストデータKTD(x)における非日本語判別カウンタHHCの合計値)×100(%)で割合RTを算出する処理を行う。次に、音声データ生成エンジン選択ステップ:S6は、各々の区分テキストデータKTD(x)の割合RTに対して所定割合SRTとの比較を行い、各々の区分テキストデータKTD(x)に対して、日本語音声データ生成エンジンNOEまたは非日本語音声データ生成エンジンHOEの適用を決定する処理を行うようにしても良い。 Specifically, the character data type ratio calculation step: S5 is (total value of the Japanese discrimination counter NHC in the classified text data KTD (x)) / (total of the Japanese discrimination counter NHC in the classified text data KTD (x)). A process of calculating the ratio RT is performed by multiplying the value + the total value of the non-Japanese discrimination counter HHC in the division text data KTD (x) × 100 (%). Next, the voice data generation engine selection step: S6 compares the ratio RT of each division text data KTD (x) with the predetermined ratio SRT, and with respect to each division text data KTD (x). The process of determining the application of the Japanese voice data generation engine NOE or the non-Japanese voice data generation engine HOE may be performed.
次に、テキストデータ音声再生プログラムPGMは、動作制御部20に会話部分抽出機能を発揮させるよう作動させ、テキストデータTDを構成する文字データの中から開始側引用符と終了側引用符を検出し、開始側引用符と終了側引用符である文字データにより区切られた範囲を会話部分KBとして抽出させる(会話部分抽出ステップ:S7)。
Next, the text data voice reproduction program PGM operates the
次に、テキストデータ音声再生プログラムPGMは、動作制御部20に会話声種変更機能を発揮させるよう作動させ、会話部分KBとして抽出された部分の文字データに対し、記憶部10の声種特性データベースKDBから抽出した会話部分用声種特性データCKPを基本声種特性データBKPに代えて適用する処理を実行する(会話声種変更ステップ:S8)。なお、このとき、テキストデータTDを構成する文字データにおける日本語の割合に応じた音声生成エンジンの適用状態に対する変更処理は行わない。このようにすることで、テキストデータTDの中にいわゆる会話部分が含まれている場合には、メインストリームにおける基本声種特性データBKPとは異なる音声特性を有する会話部分用声種特性データCKPを会話部分に適用することで、メインストリームと会話部分の音声データを明確に区別することができる。
Next, the text data voice reproduction program PGM operates the
ところで、テキストデータ音声再生プログラムPGMは、会話部分抽出機能としての動作制御部20が開始側引用符と終了側引用符の間に他の開始側引用符と他の終了側引用符があることを抽出した場合、他の開始側引用符と他の終了側引用符とで区切られた部分を会話内会話部分KKBとして抽出させる。そして会話内会話部分KKBが抽出された場合、テキストデータ音声再生プログラムPGMは、動作制御部20に会話声種変更機能を発揮させるよう動作させ、会話内会話部分KKBに対し会話部分用声種特性データCKPに代えて、会話内会話部分用声種特性データIKPを適用する処理を実行させる(会話内会話声種変更ステップ:S9)。なお、会話内会話部分用声種特性データIKPは、基本声種特性データBKPと会話部分用声種特性データCKPとは異なる声種特性データであることは先述のとおりである。
By the way, in the text data voice reproduction program PGM, the
会話内会話部分KKBが終了すると再び会話部分KBに戻るため、テキストデータ音声再生プログラムPGMは、動作制御部20に会話声種変更機能としての機能を発揮させるべく、会話内会話部分用声種特性データIKPの適用に代えて会話部分用声種特性データCKPの適用に戻す処理を実行させる。そして、会話部分KBが終了すると、再びメインストリーム部分に戻るため、テキストデータ音声再生プログラムPGMは、動作制御部20に会話声種変更機能としての機能を発揮させるべく、会話部分用声種特性データCKPの適用に代えて基本声種特性データBKPの適用に戻す処理を実行させる。
When the conversation part KKB in the conversation ends, the text data voice reproduction program PGM returns to the conversation part KB again. Therefore, the text data voice reproduction program PGM has the voice type characteristics for the conversation part in the conversation so that the
このようにして、テキストデータTDに対して、使用する音声データ生成エンジンおよび声種特性データを紐付けした状態にした後、テキストデータ音声再生プログラムPGMは、動作制御部20に音声データ生成機能を発揮させるよう作動させ、最終的に適用された声種特性データおよび音声データ生成エンジンを用い、テキストデータTDに基づいた音声データの生成を実行する(音声データ生成ステップ:S10)。このようにして生成された音声データは動作制御部20によって記憶部10に記憶される。
In this way, after associating the text data TD with the voice data generation engine to be used and the voice type characteristic data, the text data voice reproduction program PGM provides the
テキストデータTDに対応する音声データの生成が完了すると、テキストデータ音声再生プログラムPGMは、動作制御部20に音声データ出力機能を発揮させるように作動させ、記憶部10に記憶されている音声データをスピーカー等の出力部30に出力させる処理を実行する(音声データ出力ステップ:S11)。このとき、テキストデータ音声再生プログラムPGMは、動作制御部20に記憶部10に記憶されているテキストデータTDの文字をスピーカーからの音声データの出力タイミングに同期させた状態で画面に表示させる処理を実行させることもできる。このようにしてテキストデータTDにおける文章本文と会話部分の区別と、日本語部分と英語部分の区別を明確にした音声データをスピーカーから出力することで、児童生徒の外国語学習の学習効率を大幅に向上させることができる点で好都合である。
When the generation of the voice data corresponding to the text data TD is completed, the text data voice reproduction program PGM operates the
処理開始時に選択したタイトルのテキストデータTDにおける音声データのスピーカーへの出力処理が完了すると、動作制御部20は画面に処理終了の表示や次のタイトルの選択を要求する画面表示を行う(処理終了)。ここでは処理開始時に選択したテキストデータTDが1つである場合について説明しているが、処理開始時に複数のテキストデータTDを選択すれば、複数のテキストデータTDにおける音声データのスピーカーへの出力処理を行うこともできる。
When the output processing of the voice data in the text data TD of the title selected at the start of processing to the speaker is completed, the
以上に本実施形態におけるテキストデータ音声再生装置100およびテキストデータ音声再生プログラムPGMとテキストデータ音声再生方法についてそれぞれ説明したが、本発明におけるテキストデータ音声再生装置100およびテキストデータ音声再生プログラムPGMは本実施形態に限定されるものではない。
The text data
例えば、本実施形態においては、テキストデータTDから区分テキストデータKTDを抽出した際に、それぞれの区分テキストデータKTDに対してテキストデータTDから抽出した順に抽出番号を付与する抽出番号付与処理を行っているが、区分テキストデータKTDへの抽出番号の付与は必須ではなく省略することもできる。 For example, in the present embodiment, when the division text data KTD is extracted from the text data TD, an extraction number assignment process is performed in which the extraction numbers are assigned to each division text data KTD in the order of extraction from the text data TD. However, the assignment of the extraction number to the division text data KTD is not essential and can be omitted.
また、テキストデータTDを区分テキストデータKTD(x)に区分することなく、テキストデータTDを構成する文字データのそれぞれに付与されている文字コードを文字コード情報MCJに参照し、テキストデータTDを構成するすべての文字データにおける日本語判別カウンタNHCのカウント値と非日本語判別カウンタHHCのカウント値を直接算出して割合RTを算出する形態を採用することもできる。 Further, the text data TD is constructed by referring to the character code assigned to each of the character data constituting the text data TD to the character code information MCJ without dividing the text data TD into the classified text data KTD (x). It is also possible to adopt a form in which the count value of the Japanese discrimination counter NHC and the count value of the non-Japanese discrimination counter HHC are directly calculated for all the character data to be performed to calculate the ratio RT.
また、本実施形態における文字判別部24は、テキストデータTDを構成する文字データに付与されている文字コードを文字コード情報MCJに参照させることで、文字データの種類を判別しているが、文字データの種類が開始側引用符または終了側引用符であるか否かのみを判断するようにしても良い。
Further, the
また、以上の実施形態においては、文字データ種割合算出部25としての動作制御部20が、テキストデータTDまたは区分テキストデータKTDを構成する文字データの中における日本語文字データ種の割合RTを算出し、音声データ生成エンジン選択部26としての動作制御部20が、算出した割合RTと予め記憶部10に記憶されている所定割合SRTとの比較を行い、比較結果に応じて日本語音声データ生成エンジンNOEまたは非日本語音声データ生成エンジンHOEの適用を決定する処理を採用しているが、この形態に限定されるものではない。
Further, in the above embodiment, the
例えば、文字データ種割合算出部25に代えて、日本語文字コード有無判断部としての動作制御部20が区分テキストデータKTD(x)またはテキストデータTDを構成する文字データに日本語文字コードが付与されているか否かを判断し、日本語文字コードを1つでも有している場合には、音声データ生成エンジン選択部26としての動作制御部20が、区分テキストデータKTD(x)またはテキストデータTDのすべての文字データに日本語音声データ生成エンジンNOEを適用し、その他の場合には区分テキストデータKTD(x)またはテキストデータTDにおけるすべての文字データに非日本語音声データ生成エンジンHOEを適用する処理を実行することもできる。
For example, instead of the character data type
なお、以上の変形例は、テキストデータ音声再生プログラムPGMにおける文字コード割合算出機能や音声データ生成エンジン選択機能においても、テキストデータ音声再生方法における文字コード割合算出ステップや音声データ生成エンジン選択ステップにおいても同様に適用することができる。このような変形例を採用することで、日本語文字が1つでも含まれている場合には日本語音声データNODが生成され、日本語文字が1つも含まれていない場合にのみ非日本語音声データHODが生成されるようにすることができる。 In addition, the above modification is also applied to the character code ratio calculation function and the voice data generation engine selection function in the text data voice reproduction program PGM, and the character code ratio calculation step and the voice data generation engine selection step in the text data voice reproduction method. It can be applied in the same way. By adopting such a modification, Japanese voice data NOD is generated when even one Japanese character is included, and non-Japanese only when no Japanese character is included. The voice data HOD can be generated.
また、本実施形態においては、テキストデータTDに基づく日本語音声データの生成と非日本語音声データの生成をひととおり行った後に出力部30に出力する処理を行っているが、音声データ生成エンジン選択部26に選択されたいずれかの音声データ生成エンジンにより生成された音声データを順次出力部30に出力させる処理を行うようにしても良い。この構成によれば、音声データを記憶部10に記憶させる処理の省略や音声データ再生制御部の構成を省略することができる。
Further, in the present embodiment, a process of generating Japanese voice data based on the text data TD and generating non-Japanese voice data and then outputting the data to the
そして本実施形態においては、テキストデータTDには日本語部分と非日本語部分としての英語部分が混在する形態について説明しているが、単一言語の文章のみで構成されるテキストデータTDを用いる場合には、日本語であるか非日本語であるかについての判断および処理については省略することができる。 In the present embodiment, the text data TD describes a form in which the Japanese part and the English part as the non-Japanese part are mixed, but the text data TD composed of only sentences in a single language is used. In that case, the determination and processing as to whether it is Japanese or non-Japanese can be omitted.
また、本実施形態においては、音声データの元データとなるテキストデータTDの文字データを出力部30への音声データの出力に同期させてディスプレーに出力させる処理を行っているが、この処理は省略しても良い。
Further, in the present embodiment, a process of synchronizing the character data of the text data TD, which is the original data of the voice data, with the output of the voice data to the
また、以上の実施形態においては、詳細な説明の中にいくつかの変形例が列挙されているが、テキストデータ音声再生装置100またはテキストデータ音声再生プログラムPGMは、起動時に、使用者に対してどのような処理を行うかについて選択させるよう画面表示を行うようにしてもよい。このような処理メニュー選択機能を持たせることで、児童生徒の状況に応じた学習支援を適切に行うことができる点において好都合である。
Further, in the above embodiments, some modifications are listed in the detailed description, but the text data
また、使用するテキストデータTDがいわゆる台本形式である場合、声種特性データベースKDBには予め台本の役名(人物名)に対応する声種特性データである人物名対応声種特性データJKPを紐付けさせておくこともできる。このとき動作制御部20は会話声種変更部28として(会話声種変更機能として)、テキストデータTDの中から人物名を検出した場合、次の人物名または開始側引用符と終了側引用符を検出するまでの文字データに対しては、抽出した人物名に紐付けられた人物名対応声種特性データJKPを適用して音声データ生成部29(音声データ生成機能)により日本語音声データNODまたは非日本語音声データHODを生成させるようにしても良い。
When the text data TD to be used is in the so-called script format, the voice type characteristic database KDB is associated with the voice type characteristic data JKP corresponding to the person name, which is the voice type characteristic data corresponding to the role name (person name) of the script in advance. You can also let it. At this time, when the
このことを図6に示す台本形式のテキストデータTDを用いて説明する。本実施形態と同様の処理を行うことにより、図6(A)に示すテキストデータTDは図6(B)に示す区分テキストデータKTD(x)に区分され、各々の区分テキストデータKTD(x)を構成する文字データにおける日本語の割合に応じた音声生成エンジンの適用が決定される。そして、会話声種変更部28(会話声種変更機能として)の動作制御部20が(テキストデータ音声再生プログラムPGMの指示により)区分テキストデータKTD(x)に人物名が含まれていることを検出した場合、声種特性データベースKDBから検出された人物名に紐付けされている人物名対応声種特性データJKPを抽出して音声データ生成部29(音声データ生成機能)に適用する。台本形式の区分テキストデータKTD(x)における人物名の検出方法の一例としては、コロン(:)の位置を基準にしてコロンの直前位置の文字列を人物名として検出する方法を採用することができる。
This will be described using the script-format text data TD shown in FIG. By performing the same processing as in the present embodiment, the text data TD shown in FIG. 6 (A) is divided into the divided text data KTD (x) shown in FIG. 6 (B), and each divided text data KTD (x). The application of the voice generation engine is determined according to the proportion of Japanese in the character data that composes. Then, the
例えば、KTD(1)において検出された人物名は、Taroなので、人物名対応声種特性データJKPとしての『男性その1』の声種特性データが適用される。次の区分テキストデータKTD(2)において検出された人物名は、Jackなので、人物名対応声種特性データJKPとしての『男性その2』の声種特性データが適用される。次の区分テキストデータKTD(3)において検出された人物名は、Jillなので、人物名対応声種特性データJKPとしての『女性その1』の声種特性データが適用される。以降同様にして区分テキストデータKTD(x)の各々から検出された人物名に紐付けされた人物名対応声種特性データJKPを声種特性データベースKDBから抽出して音声データ生成部29(音声データ生成機能)に適用する処理が繰り返し実行される。なお、図6に示すような台本形式のテキストデータTDにおいては、人物名部分についての音声データの生成または出力の有無についても使用者により選択可能な設定にすることもできる。これにより、台本形式のテキストデータTDにおいて所謂セリフ部分のみの音声データを出力部30から出力させることができ、文章の内容の理解がしやすくなる点で好都合である。
For example, since the person name detected in KTD (1) is Taro, the voice type characteristic data of "
ここでは記憶部10の声種特性データベースKDBには、予め人物名と人物名対応声種特性データJKPが紐付けされた状態になっているが、この形態に限定されるものではない。男性または女性の声種特性データをそれぞれ複数種類記憶部10に人物名対応声種特性データJKPとして記憶させておき、会話声種変更部28(会話声種変更機能として)の動作制御部20が(テキストデータ音声再生プログラムPGMの指示により)区分テキストデータKTD(x)における登場順に、人物名の性別に応じて(予め記憶部10に人物名の性別データが記憶されていて、性別データに参照することで判断する)人物名対応声種特性データJKPから男性の声種特性データまたは女性の声種特性データを順次選択して音声データ生成部29(音声データ生成機能)に適用する処理を実行する形態を採用することもできる。
Here, the voice type characteristic database KDB of the
また、本実施形態においては台本形式のテキストデータTDにおいて、人物名として固有名詞を用いた形態について説明しているが、人物名は男その1、女その1、子供その1等のような固有名詞ではない人物名を用いる形態を採用することもできる。
Further, in the present embodiment, in the script-format text data TD, a form in which a proper noun is used as a person's name is described, but the person's name is unique such as
以上の他にも本実施形態に対して明細書中に記載されている各種変形例や、他の公知の構成を適宜組み合わせた形態を採用することもできる。 In addition to the above, various modifications described in the specification for this embodiment and other known configurations can be appropriately combined.
10 記憶部,
20 動作制御部,
21 テキストデータ取得部,22 区分テキストデータ抽出部,
23 抽出番号付与部,24 文字判別部,25 文字データ種割合算出部,
26 音声データ生成エンジン選択部,27 会話部分抽出部,28 会話声種変更部,
29 音声データ生成部,
30 出力部,
100 テキストデータ音声再生装置,
TD テキストデータ,
KJ 区分条件,
KTD 区分テキストデータ,
KTD(x) 区分テキストデータ,
MCJ 文字コード情報,
NHC 日本語判別カウンタ,
HHC 非日本語判別カウンタ,
RT 割合,
SRT 所定割合,
NOE 日本語音声データ生成エンジン,
HOE 非日本語音声データ生成エンジン,
KDB 声種特性データベース,
BKP 基本声種特性データ,
CKP 会話部分用声種特性データ,
IKP 会話内会話部分用声種特性データ,
KB 会話部分,
KKB 会話内会話部分,
NOD 日本語音声データ,
HOD 非日本語音声データ,
JKP 人物名対応声種特性データ,
PGM テキストデータ音声再生プログラム
10 Memory unit,
20 Motion control unit,
21 text data acquisition unit, 22 division text data extraction unit,
23 Extraction number assignment unit, 24 character discrimination unit, 25 character data type ratio calculation unit,
26 Voice data generation engine selection part, 27 Conversation part extraction part, 28 Conversation voice type change part,
29 Voice data generator,
30 Output section,
100 Text data audio playback device,
TD text data,
KJ classification conditions,
KTD division text data,
KTD (x) Category text data,
MCJ character code information,
NHC Japanese discrimination counter,
HHC non-Japanese discrimination counter,
RT rate,
SRT predetermined ratio,
NOE Japanese voice data generation engine,
HOE non-Japanese voice data generation engine,
KDB Voice Species Database,
BKP basic voice characteristic data,
CKP Voice type characteristic data for conversation part,
IKP Voice type characteristic data for conversation part in conversation,
KB conversation part,
KKB In-conversation conversation part,
NOD Japanese voice data,
HOD non-Japanese voice data,
JKP person name correspondence voice type characteristic data,
PGM text data audio playback program
Claims (10)
前記記憶部から前記テキストデータを取得するテキストデータ取得部と、
前記テキストデータを構成する文字データの各々について前記文字データの種類を判別する文字判別部と、
前記テキストデータを構成する前記文字データにおいて、前記文字データの種類が開始側引用符と終了側引用符である前記文字データにより区切られた範囲を会話部分として抽出する会話部分抽出部と、
前記声種特性データベースから抽出した基本声種特性データによる音声データを前記テキストデータから生成する音声データ生成部と、
前記テキストデータに含まれている前記会話部分には、前記声種特性データベースから抽出された会話部分用声種特性データを前記基本声種特性データに代えて前記音声データ生成部に適用する会話声種変更部と、
前記音声データ生成部により生成された前記音声データを出力する出力部と、を具備し、
前記会話部分抽出部は、前記開始側引用符と前記終了側引用符の間に他の前記開始側引用符および他の前記終了側引用符がある場合には、他の前記開始側引用符と他の前記終了側引用符とで区切られた部分を会話内会話部分として抽出し、
前記会話声種変更部は、前記会話内会話部分に前記声種特性データベースから抽出された会話内会話部分用声種特性データを前記会話部分用声種特性データに代えて前記音声データ生成部に適用すること特徴とするテキストデータ音声再生装置。 A storage unit that at least stores a voice type characteristic database containing text data and multiple voice type characteristic data,
A text data acquisition unit that acquires the text data from the storage unit,
A character discriminating unit that discriminates the type of the character data for each of the character data constituting the text data,
In the character data constituting the text data, a conversation part extraction unit that extracts a range separated by the character data whose types of character data are start-side quotation marks and end-side quotation marks as conversation parts, and
A voice data generation unit that generates voice data based on the basic voice type characteristic data extracted from the voice type characteristic database from the text data, and a voice data generation unit.
For the conversation part included in the text data, a conversation voice in which the voice type characteristic data for the conversation part extracted from the voice type characteristic database is applied to the voice data generation unit in place of the basic voice type characteristic data. Seed change department and
An output unit for outputting the voice data generated by the voice data generation unit is provided .
The conversational part extractor, if there is another starter quote and another end quote between the starter quote and the end quote, and the other starter quote. The part separated by the other end quotation marks is extracted as the conversation part in the conversation.
The conversation voice type changing unit substitutes the voice type characteristic data for the conversation part extracted from the voice type characteristic database in the conversation part in the conversation into the voice data generation unit in place of the voice type characteristic data for the conversation part. A text data audio player that is characterized by its application .
前記テキストデータに前記人物名が含まれている場合、前記会話声種変更部は、前記人物名に紐付けられた前記声種特性データを前記音声データ生成部に適用することを特徴とする請求項1記載のテキストデータ音声再生装置。 In the voice type characteristic database, the person name and the voice type characteristic data corresponding to the person name are associated with each other.
When the text data includes the person's name, the conversation voice type changing unit applies the voice type characteristic data associated with the person's name to the voice data generation unit. Item 1. The text data voice reproduction device according to Item 1.
前記記憶部から前記テキストデータを取得するテキストデータ取得部と、
前記テキストデータを構成する文字データの各々について前記文字データの種類を判別する文字判別部と、
前記テキストデータを構成する前記文字データにおいて、前記文字データの種類が開始側引用符と終了側引用符である前記文字データにより区切られた範囲を会話部分として抽出する会話部分抽出部と、
前記声種特性データベースから抽出した基本声種特性データによる音声データを前記テキストデータから生成する音声データ生成部と、
前記テキストデータに含まれている前記会話部分には、前記声種特性データベースから抽出された会話部分用声種特性データを前記基本声種特性データに代えて前記音声データ生成部に適用する会話声種変更部と、
前記音声データ生成部により生成された前記音声データを出力する出力部と、を具備し、
前記声種特性データベースには、人物名と前記人物名に対応する前記声種特性データが紐付けされていて、
前記テキストデータに前記人物名が含まれている場合、前記会話声種変更部は、前記人物名に紐付けられた前記声種特性データを前記音声データ生成部に適用し、
前記音声データ生成部は、前記テキストデータにおいて前記人物名の部分を除いた部分に基づいて前記音声データを生成可能であることを特徴とするテキストデータ音声再生装置。 A storage unit that at least stores a voice type characteristic database containing text data and multiple voice type characteristic data,
A text data acquisition unit that acquires the text data from the storage unit,
A character discriminating unit that discriminates the type of the character data for each of the character data constituting the text data,
In the character data constituting the text data, a conversation part extraction unit that extracts a range separated by the character data whose types of character data are start-side quotation marks and end-side quotation marks as conversation parts, and
A voice data generation unit that generates voice data based on the basic voice type characteristic data extracted from the voice type characteristic database from the text data, and a voice data generation unit.
For the conversation part included in the text data, a conversation voice in which the voice type characteristic data for the conversation part extracted from the voice type characteristic database is applied to the voice data generation unit in place of the basic voice type characteristic data. Seed change department and
An output unit for outputting the voice data generated by the voice data generation unit is provided.
In the voice type characteristic database, the person name and the voice type characteristic data corresponding to the person name are associated with each other.
When the text data includes the person name, the conversation voice type changing unit applies the voice type characteristic data associated with the person name to the voice data generation unit.
The voice data generation unit is a text data voice reproduction device capable of generating the voice data based on a portion of the text data excluding the portion of the person's name .
前記動作制御部に、
前記記憶部から前記テキストデータを取得させるテキストデータ取得機能と、
前記テキストデータを構成する文字データの各々について前記文字データの種類を判別させる文字判別機能と、
前記テキストデータを構成する前記文字データにおいて、前記文字データの種類が開始側引用符と終了側引用符である前記文字データにより区切られた範囲を会話部分として抽出させる会話部分抽出機能と、
前記声種特性データベースから抽出した基本声種特性データによる音声データを前記テキストデータから生成する音声データ生成機能と、
前記テキストデータに含まれている前記会話部分には、前記声種特性データベースから抽出された会話部分用声種特性データを前記基本声種特性データに代えて前記音声データ生成機能に適用させる会話声種変更機能と、
前記音声データ生成機能により生成された前記音声データを前記出力部に出力させる出力機能と、をそれぞれ実行させ、
前記会話部分抽出機能は、前記開始側引用符と前記終了側引用符の間に他の前記開始側引用符および他の前記終了側引用符がある場合には、他の前記開始側引用符と他の前記終了側引用符とで区切られた部分を会話内会話部分として抽出し、
前記会話声種変更機能は、前記会話内会話部分に前記声種特性データベースから抽出された会話内会話部分用声種特性データを前記会話部分用声種特性データに代えて前記音声データ生成機能に適用させること特徴とするテキストデータ音声再生プログラム。 Read by a computer that has at least a storage unit that stores at least a voice type characteristic database containing text data and a plurality of voice type characteristic data, an output unit that outputs voice data based on the text data, and an operation control unit. It's possible,
The operation control unit,
A text data acquisition function for acquiring the text data from the storage unit,
A character discrimination function that discriminates the type of the character data for each of the character data constituting the text data, and
In the character data constituting the text data, a conversation part extraction function for extracting a range separated by the character data whose type of character data is a start side quotation mark and an end side quotation mark as a conversation part, and
A voice data generation function that generates voice data based on the basic voice type characteristic data extracted from the voice type characteristic database from the text data, and
For the conversation part included in the text data, a conversation voice in which the voice type characteristic data for the conversation part extracted from the voice type characteristic database is applied to the voice data generation function in place of the basic voice type characteristic data. Seed change function and
An output function for outputting the voice data generated by the voice data generation function to the output unit is executed.
The conversation part extraction function may be used with other start-side quotes, if there are other start-side quotes and other end-side quotes between the start-side quotes and the end-side quotes. The part separated by the other end quotation marks is extracted as the conversation part in the conversation.
The conversation voice type change function replaces the voice type characteristic data for the conversation part extracted from the voice type characteristic database in the conversation part in the conversation with the voice type characteristic data for the conversation part to the voice data generation function. It applied to text data audio playback program to Rukoto features.
前記テキストデータに前記人物名が含まれている場合、前記会話声種変更機能は、前記人物名に紐付けられた前記声種特性データを前記音声データ生成機能に適用させることを特徴とする請求項6記載のテキストデータ音声再生プログラム。 In the voice type characteristic database, the person name and the voice type characteristic data corresponding to the person name are associated with each other.
If it contains the person's name into the text data, the conversation voice species changing function, characterized Rukoto to apply the voice type characteristics data bundled with the person's name in the voice data generation function The text data voice reproduction program according to claim 6.
前記動作制御部に、
前記記憶部から前記テキストデータを取得させるテキストデータ取得機能と、
前記テキストデータを構成する文字データの各々について前記文字データの種類を判別させる文字判別機能と、
前記テキストデータを構成する前記文字データにおいて、前記文字データの種類が開始側引用符と終了側引用符である前記文字データにより区切られた範囲を会話部分として抽出させる会話部分抽出機能と、
前記声種特性データベースから抽出した基本声種特性データによる音声データを前記テキストデータから生成する音声データ生成機能と、
前記テキストデータに含まれている前記会話部分には、前記声種特性データベースから抽出された会話部分用声種特性データを前記基本声種特性データに代えて前記音声データ生成機能に適用させる会話声種変更機能と、
前記音声データ生成機能により生成された前記音声データを前記出力部に出力させる出力機能と、をそれぞれ実行させ、
前記声種特性データベースには、人物名と前記人物名に対応する前記声種特性データが紐付けされていて、
前記テキストデータに前記人物名が含まれている場合、前記会話声種変更機能は、前記人物名に紐付けられた前記声種特性データを前記音声データ生成機能に適用させ、
前記音声データ生成機能に、前記テキストデータにおいて前記人物名の部分を除いた部分に基づいて前記音声データを生成させることが可能であることを特徴とするテキストデータ音声再生プログラム。 Read by a computer that has at least a storage unit that stores at least a voice type characteristic database containing text data and a plurality of voice type characteristic data, an output unit that outputs voice data based on the text data, and an operation control unit. It's possible,
The operation control unit,
A text data acquisition function for acquiring the text data from the storage unit,
A character discrimination function that discriminates the type of the character data for each of the character data constituting the text data, and
In the character data constituting the text data, a conversation part extraction function for extracting a range separated by the character data whose type of character data is a start side quotation mark and an end side quotation mark as a conversation part, and
A voice data generation function that generates voice data based on the basic voice type characteristic data extracted from the voice type characteristic database from the text data, and
For the conversation part included in the text data, a conversation voice in which the voice type characteristic data for the conversation part extracted from the voice type characteristic database is applied to the voice data generation function in place of the basic voice type characteristic data. Seed change function and
An output function for outputting the voice data generated by the voice data generation function to the output unit is executed.
In the voice type characteristic database, the person name and the voice type characteristic data corresponding to the person name are associated with each other.
When the text data includes the person's name, the conversation voice type changing function applies the voice type characteristic data associated with the person's name to the voice data generation function.
A text data voice reproduction program characterized in that the voice data generation function can generate the voice data based on a portion of the text data excluding the part of the person's name .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019033454A JP6821728B2 (en) | 2019-02-27 | 2019-02-27 | Text data voice playback device and text data voice playback program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019033454A JP6821728B2 (en) | 2019-02-27 | 2019-02-27 | Text data voice playback device and text data voice playback program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020139994A JP2020139994A (en) | 2020-09-03 |
JP6821728B2 true JP6821728B2 (en) | 2021-01-27 |
Family
ID=72264792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019033454A Active JP6821728B2 (en) | 2019-02-27 | 2019-02-27 | Text data voice playback device and text data voice playback program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6821728B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03249800A (en) * | 1990-02-28 | 1991-11-07 | Nec Corp | Text voice synthesizer |
JP2002358091A (en) * | 2001-06-01 | 2002-12-13 | Matsushita Electric Ind Co Ltd | Method and device for synthesizing voice |
JP5689782B2 (en) * | 2011-11-24 | 2015-03-25 | 日本電信電話株式会社 | Target speaker learning method, apparatus and program thereof |
-
2019
- 2019-02-27 JP JP2019033454A patent/JP6821728B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020139994A (en) | 2020-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190196666A1 (en) | Systems and Methods Document Narration | |
US8498866B2 (en) | Systems and methods for multiple language document narration | |
US8793133B2 (en) | Systems and methods document narration | |
KR101143034B1 (en) | Centralized method and system for clarifying voice commands | |
US8903723B2 (en) | Audio synchronization for document narration with user-selected playback | |
CN106716466B (en) | Conference information storage device and method | |
KR20160111294A (en) | Foreign language learning system and foreign language learning method | |
JP2004347786A (en) | Speech display output controller, image display controller, and speech display output control processing program, image display control processing program | |
TWI554984B (en) | Electronic device | |
TW200809706A (en) | Method of learning the second language through picture guiding | |
KR102060229B1 (en) | Method for assisting consecutive interpretation self study and computer readable medium for performing the method | |
US20140278428A1 (en) | Tracking spoken language using a dynamic active vocabulary | |
US20210134177A1 (en) | System and method for displaying voice-animated multimedia content | |
JP6821728B2 (en) | Text data voice playback device and text data voice playback program | |
JP7135372B2 (en) | LEARNING SUPPORT DEVICE, LEARNING SUPPORT METHOD AND PROGRAM | |
JP6821727B2 (en) | Text data voice playback device and text data voice playback program | |
JP2012098753A (en) | Audio display output control device, image display control device, audio display output control process program and image display control process program | |
JP4858285B2 (en) | Information display device and information display processing program | |
JP7522028B2 (en) | Karaoke equipment | |
KR102656262B1 (en) | Method and apparatus for providing associative chinese learning contents using images | |
JP2017194546A (en) | Electronic equipment, and control method and control program thereof | |
JP6373294B2 (en) | Data reproducing apparatus and data reproducing method | |
CN115082267A (en) | Language learning method and device with role playing function, computer equipment and storage medium | |
KR20220134248A (en) | Method and device for providing korean language self-directed learning contents | |
JP6620437B2 (en) | Learning support apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210106 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6821728 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |