JP6507867B2 - Voice generation device, voice generation method, and program - Google Patents
Voice generation device, voice generation method, and program Download PDFInfo
- Publication number
- JP6507867B2 JP6507867B2 JP2015117697A JP2015117697A JP6507867B2 JP 6507867 B2 JP6507867 B2 JP 6507867B2 JP 2015117697 A JP2015117697 A JP 2015117697A JP 2015117697 A JP2015117697 A JP 2015117697A JP 6507867 B2 JP6507867 B2 JP 6507867B2
- Authority
- JP
- Japan
- Prior art keywords
- morphing
- voice
- morphing rate
- unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
本発明は、音声生成装置、音声生成方法、及びプログラムに関する。 The present invention relates to an audio generation device, an audio generation method, and a program.
音声生成装置には、所定の入力値の変化に応じてリアルタイムで声質等を変化させるものがある。所定の入力値としては、例えば、声質等の調節に用いるスライダーの位置や、装置周辺の騒音レベル等が挙げられる。 Some voice generation devices change voice quality or the like in real time according to a change in a predetermined input value. Examples of the predetermined input value include the position of a slider used to adjust voice quality and the like, and the noise level around the device.
この種の音声生成装置は、1つの出力対象(メッセージ)の音声データを生成するために、声質等の組み合わせが異なる複数の音声データを保持しており、入力値に応じて複数の音声データのいずれかを選択して再生する。そして、音声データの再生中に入力値が変化すると、変化後の入力値に応じた音声データに切り替える(例えば、特許文献1を参照)。このような音声生成装置は、生成する音声の声質等を周囲の騒音をスペクトルに応じて選択する方法(例えば、特許文献2を参照)に比べて音声生成時の処理負荷が軽い。 This type of voice generation device holds a plurality of voice data having different combinations of voice quality etc. in order to generate voice data of one output target (message), and a plurality of voice data are generated according to the input value. Select one to play. Then, when the input value changes during reproduction of the audio data, the audio data is switched to the audio data according to the changed input value (see, for example, Patent Document 1). Such a voice generation device has a lighter processing load at the time of voice generation as compared to a method (for example, refer to Patent Document 2) of selecting the voice quality and the like of the voice to be generated according to the spectrum.
上記の音声生成装置が保持する複数の音声データはモーフィングにより作成される。モーフィングは、声質等が異なる2つの音声データを所望の比率(モーフィング率)で混合することにより中間的な声質を有する合成音声を生成する方法である。2つの音声データをモーフィングする場合、音声データ全体を一定のモーフィング率でモーフィングするだけでなく、音素や音節を単位としてモーフィング率を指定してモーフィングすることも可能である(例えば、特許文献3を参照)。 A plurality of audio data held by the above-described audio generation device is created by morphing. Morphing is a method of generating a synthetic voice having an intermediate voice quality by mixing two voice data having different voice quality etc. at a desired ratio (morphing rate). When morphing two voice data, it is possible to not only morph the entire voice data at a constant morphing rate, but also to designate the morphing rate in units of phonemes and syllables (for example, Patent Document 3) reference).
上記の音声生成装置は、工場における設備の操作の指示や設備の稼働状況を作業員に報知する等、騒音レベルが一定ではない環境下での音声案内に適用することができる。 The above-described voice generation device can be applied to voice guidance in an environment where the noise level is not constant, such as notifying a worker of an instruction on facility operation in a factory and the operation status of the facility.
上記の音声生成装置を騒音レベルが一定ではない環境下に適用する場合、所定の入力値として設備周辺の騒音レベルを用いる。また、1つのメッセージに対する複数の音声データは、騒音レベルが低いときに聞き取りやすい条件で作成された第1の音声データと、騒音レベルが高いときに聞き取りやすい条件で作成された第2の音声データとのモーフィングにより作成する。そして、騒音レベルに応じた音声データを選択する際には、騒音レベルとモーフィング率との対応関係を表す変換テーブルに基づき、装置周辺の騒音レベルと対応するモーフィング率の音声データを選択する。これにより、音声データ(メッセージ)の再生中に設備周辺の騒音レベルが上昇した場合にメッセージが聞き取りにくくなることを防げ、メッセージの聞き漏らし等を防ぐことができる。 When the above-described voice generation device is applied to an environment where the noise level is not constant, the noise level around the facility is used as a predetermined input value. Also, a plurality of voice data for one message are a first voice data created under conditions that are easy to hear when the noise level is low, and a second voice data created under conditions that are easy to hear when the noise level is high. Create by morphing with. Then, when selecting voice data according to the noise level, voice data of the morphing rate corresponding to the noise level around the device is selected based on a conversion table representing the correspondence between the noise level and the morphing rate. This prevents the message from being difficult to hear when the noise level in the vicinity of the facility rises during the reproduction of voice data (message), thereby preventing the message from being missed.
また、音声データ(メッセージ)の再生中に設備周辺の騒音レベルが低いときには、騒音レベルが低いときに聞き取りやすい条件で作成された音声データが出力される。そのため、騒音レベルが高いときに聞き取りやすい音声を騒音レベルが低い環境下で聞くことによる聞き疲れ等を防ぐこともできる。 Further, when the noise level around the facility is low during the reproduction of the voice data (message), the voice data created under the condition easy to hear when the noise level is low is output. Therefore, it is possible to prevent tiredness and the like by listening to a voice that is easy to hear when the noise level is high in an environment where the noise level is low.
しかしながら、第1の音声データ及び第2の音声データをモーフィングして作成した複数の音声データは、アクセントと相関のある基本周波数も異なる。そのため、音声データにおける1つのアクセント句の再生中に、騒音レベルの変化に応じてモーフィング率の異なる音声データに切り替えた場合、基本周波数が変化してアクセントが変わってしまう。このようにアクセント句のアクセントが変わってしまうと、作業員は間違ったアクセントでメッセージを聞くこととなる。そのため、作業員が違和感を覚えメッセージの内容を理解しづらくなる可能性がある。 However, the plurality of voice data generated by morphing the first voice data and the second voice data also differ in the fundamental frequency that is correlated with the accent. Therefore, when switching to audio data having a different morphing rate according to a change in noise level during reproduction of one accent phrase in audio data, the fundamental frequency is changed and the accent is changed. If the accent phrase changes in this way, workers will hear the message with the wrong accent. Therefore, there is a possibility that the worker feels uncomfortable and it is difficult to understand the contents of the message.
一つの側面において、本発明は、入力値の変化に応じてモーフィング率が異なる音声データに切り替えても再生された音声が聞き取りやすく、かつアクセントが変わらないようにすることを目的とする。 In one aspect, it is an object of the present invention to make it easy to hear reproduced voice even if it is switched to voice data having a different morphing rate according to a change in input value, and to prevent accent change.
本発明の1つの態様である音声生成装置は、モーフィング率決定部と、音声再生部と、を備える。モーフィング率決定部は、入力装置からの入力値に基づいて声質のモーフィング率及び基本周波数のモーフィング率を含む2以上のモーフィング率を決定する。音声再生部は、モーフィング率に基づいて音声データを選択して再生する。ここで、モーフィング率決定部は、第1のモーフィング率決定部と、第2のモーフィング率決定部とを含む。第1のモーフィング率決定部は、音声データの再生位置おける入力値に基づいて声質のモーフィング率を決定する。第2のモーフィング率決定部は、再生位置を含むアクセント句の先頭を再生したときの入力値に基づいて基本周波数のモーフィング率を決定する。 An audio generation apparatus according to an aspect of the present invention includes a morphing rate determination unit and an audio reproduction unit. The morphing rate determining unit determines two or more morphing rates including a voice quality morphing rate and a fundamental frequency morphing rate based on input values from the input device. The audio reproduction unit selects and reproduces audio data based on the morphing rate. Here, the morphing rate determining unit includes a first morphing rate determining unit and a second morphing rate determining unit. The first morphing rate determination unit determines the voice quality morphing rate based on the input value at the reproduction position of the voice data. The second morphing rate determination unit determines the morphing rate of the fundamental frequency based on the input value when the beginning of the accent phrase including the reproduction position is reproduced.
上述の態様によれば、入力値の変化に応じてモーフィング率が異なる音声データに切り替えても再生された音声が聞き取りやすく、かつアクセントが変わらない。 According to the above-described aspect, even when switching to audio data having different morphing rates in accordance with a change in input value, the reproduced audio is easy to hear and the accent does not change.
[第1の実施形態]
本実施形態では、工場における設備の操作の指示や設備の稼働状況を作業員に報知する音声生成装置に本発明を適用した場合の、音声生成装置の構成や音声生成方法等を説明する。
First Embodiment
In the present embodiment, the configuration of the voice generation device, the voice generation method, and the like will be described in the case where the present invention is applied to a voice generation device for notifying a worker of an instruction of operation of facilities in the factory and the operating status of the facilities.
図1は、第1の実施形態に係る音声生成装置の機能ブロック図である。
図1に示すように、本実施形態に係る音声生成装置1は、入力値処理部100と、モーフィング率決定部101と、変換テーブル102と、音声再生部103と、音声データベース104とを備える。また、音声再生部103は、音声データ選択部103aと、再生制御部103bとを含む。音声生成装置1は、一定間隔で騒音レベルを取得し、これに応じた音声をフレーム単位で生成し再生する動作を繰り返すことにより、周辺の騒音レベルに応じた音声を再生する。
FIG. 1 is a functional block diagram of the voice generation device according to the first embodiment.
As shown in FIG. 1, the
入力値処理部100は、マイク2から入力される音声信号(入力値)に基づいて、設備3の周辺の騒音レベルを算出する。この入力値処理部100は、設備3の制御部300からの音声データの再生を指示する制御信号を受信すると、音声信号の取得を開始する。また、入力値処理部100は、再生制御部103bからの音声データの再生が終了したことを示す信号を受信すると、マイク2からの音声信号の取得及び騒音レベルの算出を終了する。
The input
モーフィング率決定部101は、入力値処理部100で算出した騒音レベルと、変換テーブル102と、再生制御部103bからのアクセント句境界を示す情報に基づいて、モーフィング率を決定する。変換テーブル102は、騒音レベルとモーフィング率との対応関係を示すテーブルである。また、アクセント句境界を示す情報は、現在処理対象となっているフレームがアクセント句境界であるかを示す情報である。
The morphing
音声再生部103は、設備3の制御部300からの出力対象の音声データを指定する情報と、モーフィング率決定部101で決定したモーフィング率とに基づいて、音声データベース104から音声データを読み出し、スピーカ4に出力する。音声データベース104には、予め様々なモーフィング率でモーフィングした音声データを格納してある。音声データを指定する情報及びモーフィング率は、音声データ選択部103aが受信する。音声データ選択部103aは、音声データを指定する情報及びモーフィング率をキー情報として音声データベース104を検索し、該当する音声データを特定する。また、音声データ選択部103aは、音声データを特定すると、特定した音声データのID情報を再生制御部103bに通知する。再生制御部103bは、通知されたID情報に基づいて音声データベース104から音声データを読み出し、再生するフレームを決定して、スピーカ4に出力する。また、再生制御部103bは、アクセント句境界を示す情報をモーフィング率決定部101に送信する。更に、再生制御部103bは、音声データの出力(再生)が終了すると、再生が終了したことを入力値処理部100に通知する。
The
図2は、第1の実施形態におけるモーフィング率決定部の機能ブロック図である。
図2に示すように、本実施形態におけるモーフィング率決定部101は、瞬時モーフィング率決定部101aと、アクセント句モーフィング率決定部101bとを含む。更に、モーフィング率決定部101は、声質モーフィング率決定部101cと、基本周波数モーフィング率決定部101dと、継続長モーフィング率決定部101eとを含む。
FIG. 2 is a functional block diagram of the morphing rate determination unit in the first embodiment.
As shown in FIG. 2, the morphing
瞬時モーフィング率決定部101aは、入力値処理部100で算出した騒音レベルと、変換テーブル102とに基づいて、現在の騒音レベルに応じたモーフィング率を決定する。
Based on the noise level calculated by the input
アクセント句モーフィング率決定部101bは、現在処理対象となっているフレームを含むアクセント句の先頭のフレームを再生したときの騒音レベルと、変換テーブル102とに基づいてモーフィング率を決定する。以下、アクセント句の先頭のフレームを再生したときの騒音レベルのことをアクセント句先頭の騒音レベルともいう。現在処理対象となっているフレームを含むアクセント句先頭の騒音レベルは、入力値処理部100から受信した騒音レベルと、再生制御部103bから受信したアクセント句境界を示す情報に基づいて、アクセント句境界における騒音レベルを保持することにより求める。そして、入力値処理部100から騒音レベルを受信する毎に、現在処理対象となっているフレームを含むアクセント句先頭の騒音レベルと、変換テーブル102とに基づいてモーフィング率を決定する。
The accent phrase morphing rate determination unit 101 b determines the morphing rate based on the noise level when the first frame of the accent phrase including the frame currently being processed is reproduced and the conversion table 102. Hereinafter, the noise level when the first frame of the accent phrase is reproduced is also referred to as the noise level at the beginning of the accent phrase. The noise level at the beginning of the accent phrase including the frame currently being processed is based on the noise level received from the input
声質モーフィング率決定部101cは、再生する音声データにおける声質のモーフィング率を決定する。ここで、音声データの声質は、メルケプストラム、メル一般化ケプストラム、又はスペクトルによって表されるパラメータである。本実施形態における声質モーフィング率決定部101cは、瞬時モーフィング率決定部101aで決定したモーフィング率を声質のモーフィング率とする。
The voice quality morphing
基本周波数モーフィング率決定部101dは、再生する音声データにおける基本周波数のモーフィング率を決定する。ここで、基本周波数は、F0とも呼ばれ、声の高さを表すパラメータである。本実施形態における基本周波数モーフィング率決定部101dは、アクセント句モーフィング率決定部101bで決定したモーフィング率を基本周波数のモーフィング率とする。 The fundamental frequency morphing rate determination unit 101d determines the morphing rate of the fundamental frequency in the audio data to be reproduced. Here, the fundamental frequency is also called F0, and is a parameter that represents the height of the voice. The fundamental frequency morphing rate determination unit 101d in the present embodiment sets the morphing rate determined by the accent phrase morphing rate determination unit 101b as the morphing rate of the fundamental frequency.
継続長モーフィング率決定部101eは、再生する音声データにおける継続長のモーフィング率を決定する。ここで、継続長は、音素の長さを表すパラメータである。本実施形態における継続長モーフィング率決定部101eは、アクセント句モーフィング率決定部101bで決定したモーフィング率を継続長のモーフィング率とする。なお、継続長モーフィング率101eは、瞬時モーフィング率決定部101aで決定したモーフィング率を継続長のモーフィング率にしてもよい。
The continuous length morphing
図3Aは、音声データベースの構成を示す図である。図3Bは、再生位置の対応関係を示す図である。図3Cは、1つの音声データセットの構成例を示す図である。 FIG. 3A is a diagram showing the configuration of a speech database. FIG. 3B is a view showing the correspondence between reproduction positions. FIG. 3C is a diagram showing an example of the configuration of one audio data set.
図3Aに示すように、本実施形態に係る音声生成装置1の音声データベース104は、第1の音声データセット104−1及び第2の音声データセット104−2を含む複数の音声データセットからなる。ここで、1つの音声データセットは、ある1つのメッセージについての声質のモーフィング率と、基本周波数(及び継続長)のモーフィング率との組み合わせが異なる複数の音声データの集合である。例えば、第1の音声データセット104−1に含まれる複数の音声データは、全て「ハンドルを右に回してください」というメッセージの音声データであるが、それぞれ、声質のモーフィング率と、基本周波数のモーフィング率との組み合わせが異なる。また、各音声データは、予め、アクセント句境界の情報を保持する。例えば、「ハンドルを右に回してください」を発声した音声データであれば、「|ハンドルを|右に|回してください」の「|」に相当する音声データ上の位置がアクセント句境界であるという情報を保持する。ただし、テキスト情報はなくてもよく、少なくとも音声データ上の各位置がアクセント句境界であるかどうかという情報を保持する。更に、各音声データは、再生位置の対応が取れるように、予め、例えば、図3Bに示すように、1モーラあたり、1.0進むような基準時刻を保持する。
As shown in FIG. 3A, the
また、本実施形態では、図3Cに示した第1の音声データセット104−1のように、1つの音声データセットにおける声質のモーフィング率MP及び基本周波数のモーフィング率MAを、それぞれ0から1まで0.1ずつ変化させている。なお、モーフィング率MP,MAは、騒音レベルが低いときに聞き取りやすい条件で作成された第1の音声データと、騒音レベルが高いときに聞き取りやすい条件で作成された第2の音声データとをモーフィングしたときの第1の音声データの比率を表している。 Further, in the present embodiment, as in the first voice data set 104-1 shown in FIG. 3C, the morphing rate MP of the voice quality and the morphing rate MA of the fundamental frequency in one voice data set are each from 0 to 1. It is changed by 0.1. The morphing rates MP and MA are morphing the first voice data created under conditions that are easy to hear when the noise level is low and the second voice data created under conditions that are easy to hear when the noise level is high. Represents the ratio of the first audio data at the time of
また、図3Cにおいて、音声データMD(MP,MA){MP=0〜1、MA=0〜1}は、それぞれ、声質のモーフィング率がMP、基本周波数のモーフィング率がMAの音声データを表している。また、図3Cにおいて、MDGn{n=0〜10}は、基本周波数のモーフィング率MAが同じ値で声質のモーフィング率MPが異なる音声データMD(MP,MA){MP=0〜1}のグループを表している。 Further, in FIG. 3C, speech data MD (MP, MA) {MP = 0 to 1, MA = 0 to 1} represent speech data in which the voice quality morphing rate is MP and the fundamental frequency morphing rate is MA, respectively. ing. Further, in FIG. 3C, MDGn {n = 0 to 10} is a group of voice data MD (MP, MA) {MP = 0 to 1} in which the morphing rate MA of the fundamental frequency is the same value and the morphing rate MP of voice quality is different. Represents
また、音声データセットの作成に用いる第1の音声データ及び第2の音声データは、音声合成処理によりテキストデータから変換した音声データでもよいし、人が発した音声を録音して得た音声データでもよい。 Further, the first voice data and the second voice data used to create a voice data set may be voice data converted from text data by voice synthesis processing, or voice data obtained by recording voice uttered by a person May be.
次に、本実施形態の音声生成装置1における音声生成処理について説明する。
図4Aは、第1の実施形態に係る音声生成処理を示すフローチャート(その1)である。図4Bは、第1の実施形態に係る音声生成処理を示すフローチャート(その2)である。
Next, the sound generation processing in the
FIG. 4A is a flowchart (part 1) illustrating a voice generation process according to the first embodiment. FIG. 4B is a flowchart (part 2) showing the sound generation process according to the first embodiment.
本実施形態に係る音声生成装置1は、設備3の制御部300から音声(メッセージ)の出力を要求する制御信号を受信したときに、設備3の周囲の騒音レベルに応じたモーフィング率の音声データをフレーム単位で生成し出力する。このとき、音声生成装置1は、図4Aに示すように、まず、再生位置を含むアクセント句の先頭を再生したときの騒音レベルを初期化する(ステップS1)。ステップS1は、アクセント句モーフィング率決定部101bが行う。
The
次に、音声生成装置1は、マイク2からの音声信号(入力値)を取得し、現時点の騒音レベルを算出する(ステップS2)。ステップS2は、入力値処理部100が行う。入力値処理部100は、例えば、予め用意された音声信号の入力パワーと騒音レベルとの対応テーブルに基づいて騒音レベルを算出する。また、入力値処理部100は、算出した騒音レベルをモーフィング率決定部101の瞬時モーフィング率決定部101a及びアクセント句モーフィング率決定部101bに渡す。
Next, the
瞬時モーフィング率決定部101aは、入力値処理部100から現時点の騒音レベルを受け取ると、図4Aに示すように、現時点の騒音レベル、及び変換テーブル102に基づいて瞬時モーフィング率を求める(ステップS3a)。その後、瞬時モーフィング率決定部101aは、求めた瞬時モーフィング率を声質モーフィング率決定部101cに渡す。すると、声質モーフィング率決定部101cは、受け取った瞬時モーフィング率を声質のモーフィング率MPに設定する(ステップS3b)。
Upon receiving the noise level at the present time from the input
一方、アクセント句モーフィング率決定部101bは、入力値処理部100から現時点の騒音レベルを受け取ると、図4Aに示すように、現時点の騒音レベルを保持する(ステップS4a)。続けて、アクセント句モーフィング率決定部101bは、アクセント句先頭の騒音レベル、すなわち再生位置を含むアクセント句の先頭を再生したときの騒音レベルが設定済みであるか否かを確認する(ステップS4b)。騒音レベルが未設定の場合(ステップS4b;No)、アクセント句モーフィング率決定部101bは、現時点の騒音レベルを、再生位置を含むアクセント句の先頭を再生したときの騒音レベルに設定する(ステップS4c)。その後、アクセント句モーフィング率決定部101bは、アクセント句の先頭を再生したときの騒音レベルと変換テーブル102とに基づいてアクセント句モーフィング率を求める(ステップS4d)。また、騒音レベルが設定済みの場合(ステップS4b;Yes)、アクセント句モーフィング率決定部101bは、ステップS4cの処理をスキップして、アクセント句モーフィング率を求める処理(ステップS4d)を行う。ステップS4dの後、アクセント句モーフィング率決定部101bは、求めたアクセント句モーフィング率を基本周波数モーフィング率決定部101d及び継続長モーフィング率決定部101eに渡す。すると、基本周波数モーフィング率決定部101dは、受け取ったアクセント句モーフィング率を基本周波数のモーフィング率MAに設定する(ステップS4e)。同様に、継続長モーフィング率決定部101eは、受け取ったアクセント句モーフィング率を継続長のモーフィング率に設定する(ステップS4e)。
On the other hand, upon receiving the noise level at the present time from the input
こうして声質、基本周波数、及び継続長のモーフィング率が決定すると、モーフィング率決定部101は、決定した声質、基本周波数、及び継続長のモーフィング率MP,MAを音声再生部103の音声データ選択部103aに渡す。図4Bに示すように、音声データ選択部103aは、設備3の制御部300からの出力対象の音声データを指定する情報、声質のモーフィング率MP、及び基本周波数のモーフィング率MAに基づいて、音声データベース104から出力用の音声データを決定する(ステップS5)。このとき、音声データ選択部103aは、音声データを指定する情報に基づいて音声データベース104から音声データセットを特定する。また、音声データ選択部103aは、声質のモーフィング率MP、及び基本周波数のモーフィング率MAに基づいて、特定した音声データセットにおける音声データMD(MP,MA)を決定する。その後、音声データ選択部103aは、音声データMD(MP,MA)に関する情報を再生制御部103bに渡す。
Thus, when the voice quality, the fundamental frequency, and the morphing rate of the duration are determined, the morphing
再生制御部103bは、音声データMD(MP,MA)に関する情報を受け取ると、音声データベース104から音声データMD(MP,MA)を読み出し、現時点の基準時刻に基づく再生位置からスピーカ4に出力する(ステップS6)。
When the
また、再生制御部103bは、音声データをスピーカ4に出力すると、再生位置が音声データの終了位置に到達しているか否かを確認する(ステップS7)。再生位置が音声データの終了位置に到達していない場合(ステップS7;No)、再生制御部103bは、次に、再生位置がアクセント句境界と一致するか否かを確認する(ステップS8)。再生位置がアクセント句境界と一致する場合(ステップS8;Yes)、再生制御部103bは、アクセント句モーフィング率決定部101bと協働して、アクセント句の先頭を再生したときの騒音レベルを現時点での騒音レベルに更新する(ステップS9)。その後、再生制御部103bは、再生位置を次のフレーム先頭に変更し(ステップS10)、入力値処理部100にステップS2の処理を行わせる。以後、音声生成装置1は、再生位置が音声データの終了位置に到達するまでステップS2〜S10を繰り返す。
Further, when the audio data is output to the
そして、再生位置が音声データの終了位置に到達した場合(ステップS7;Yes)、再生制御部103bは終了位置の出力をもって出力処理を終了する。これにより、音声生成装置1は待機状態となる。待機状態の音声生成装置1は、設備3の制御部300からの新たな制御信号を受信すると、当該制御信号に応じた音声データの生成及び出力処理を行う。
When the reproduction position reaches the end position of the audio data (step S7; Yes), the
図5は、音声データの再生位置とモーフィング率との関係を説明するグラフを表す図である。なお、図5には、音声データの各再生位置における騒音レベルLをプロットしたグラフ、声質モーフィング率MPをプロットしたグラフ、及び基本周波数モーフィング率MAをプロットしたグラフを上下方向に並べて示している。 FIG. 5 is a graph showing the relationship between the reproduction position of audio data and the morphing rate. FIG. 5 shows a graph in which the noise level L at each reproduction position of voice data is plotted, a graph in which the voice quality morphing rate MP is plotted, and a graph in which the fundamental frequency morphing rate MA is plotted vertically arranged.
ある音声データを再生しているときの騒音レベルLは、例えば、図5に示したように、L1≦L≦L2の範囲で変動する。図5に示した例において、n番目のアクセント句を再生しているときの騒音レベルLは、アクセント句の先頭となる再生位置P1(アクセント句境界Bn)ではL=L1であるが、途中で上昇してL=L2に変化する。 For example, as shown in FIG. 5, the noise level L when reproducing certain audio data fluctuates in the range of L1 ≦ L ≦ L2. In the example shown in FIG. 5, the noise level L when the n-th accent phrase is reproduced is L = L1 at the reproduction position P1 (accent phrase boundary Bn) at the beginning of the accent phrase. It rises and changes to L = L2.
本実施形態に係る音声生成処理では、現時点の騒音レベルLに基づいて声質モーフィング率MPを決定する。そのため、n番目のアクセント句に含まれる再生位置P4を再生する時点の騒音レベルLがL=L2である場合、再生位置P4に対する声質モーフィング率MPは騒音レベルL2に応じた値MP(L2)となる。 In the voice generation process according to the present embodiment, the voice quality morphing rate MP is determined based on the current noise level L. Therefore, when the noise level L at the time of reproducing the reproduction position P4 included in the n-th accent phrase is L = L2, the voice quality morphing ratio MP with respect to the reproduction position P4 has a value MP (L2) corresponding to the noise level L2. Become.
一方、本実施形態に係る音声生成処理では、再生位置を含むアクセント句の先頭を再生したときの騒音レベルに基づいて基本周波数及び継続長のモーフィング率MAを決定する。そのため、再生位置P4を再生する時点の騒音レベルLがL=L2であっても、再生位置P4に対する基本周波数及び継続長のモーフィング率MAは、n番目のアクセント句の先頭を再生する時点の騒音レベルL1に応じた値MA(L1)となる。 On the other hand, in the voice generation process according to the present embodiment, the morphing rate MA of the fundamental frequency and the duration is determined based on the noise level when the head of the accent phrase including the playback position is played back. Therefore, even if the noise level L at the time of reproducing the reproduction position P4 is L = L2, the morphing rate MA of the fundamental frequency and the continuation length with respect to the reproduction position P4 is the noise at the time of reproducing the beginning of the n-th accent phrase. The value MA (L1) corresponds to the level L1.
このように、本実施形態に係る音声生成処理では、1つのアクセント句の再生中に騒音レベルLが大きく変化した場合、声質モーフィング率のみが騒音レベルに応じて変化し、基本周波数及び継続長のモーフィング率は変化しない。すなわち、1つのアクセント句を再生している間、騒音レベルに応じて変化するのは聞き取りやすさとの相関がある声質モーフィング率のみであり、アクセントとの相関がある基本周波数モーフィング率は変化しない。よって、音声データの再生中にアクセント句のアクセントが変わってしまうことを防止できる。 As described above, in the voice generation process according to the present embodiment, when the noise level L largely changes during reproduction of one accent phrase, only the voice quality morphing rate changes according to the noise level, and the fundamental frequency and the duration length are changed. The morphing rate does not change. That is, while playing back one accent phrase, it is only the voice quality morphing rate that has a correlation with audibleness that changes according to the noise level, and the fundamental frequency morphing rate that has a correlation with the accent does not change. Therefore, it is possible to prevent the accent phrase from changing while the audio data is being reproduced.
図6は、アクセント句の再生中に騒音レベルが変化したときのアクセントを説明するグラフを表す図である。なお、図6には、「ハンドルを」というアクセント句を再生したときの騒音レベル及び周波数と、再生した音声のアクセントとを示している。 FIG. 6 is a graph showing an accent when the noise level changes during the reproduction of the accent phrase. Note that FIG. 6 shows the noise level and frequency when the accent phrase “handle the wheel” is reproduced, and the accent of the reproduced sound.
図6において、曲線F(L1)は、騒音レベルLがL=L1のときに聞き取りやすい条件で作成した音声データにおける再生位置と基本周波数との関係を示している。また、曲線F(L2)は、騒音レベルLがL=L2のときに聞き取りやすい条件で作成した音声データにおける再生位置と基本周波数との関係を示している。そして、曲線Foutは、騒音レベルLに基づいて決定した基本周波数のモーフィング率に従って音声データを生成したときの再生位置と基本周波数との関係を示している。 In FIG. 6, a curve F (L1) shows the relationship between the reproduction position and the fundamental frequency in the audio data created under the condition that the noise level L is L = L1. Further, a curve F (L2) indicates the relationship between the reproduction position and the fundamental frequency in the audio data created under the condition that the noise level L is L = L2 so as to be easily audible. A curve Fout indicates the relationship between the reproduction position and the fundamental frequency when the audio data is generated according to the morphing rate of the fundamental frequency determined based on the noise level L.
従来の音声生成処理においては、アクセント句の再生中に騒音レベルLが変化すると基本周波数のモーフィング率も変化する。このとき、図6の上段のグラフに示すように、再生位置が0(アクセント句の先頭)からP1(「ン」と「ド」との間)までの騒音レベルL2の区間の音声は、曲線F(L2)の基本周波数で再生される。同様に、再生位置がP2(「ド」と「ル」との間)からP3(アクセント句の終了位置)までの騒音レベルL1の区間の音声は、曲線F(L1)の基本周波数で再生される。また、再生位置がP1からP2までの区間のように騒音レベルLがL=L2からL=L1へと徐々に減少している場合の音声は、騒音レベルに応じた基本周波数のモーフィング率MAで周波数を変化させながら再生する。 In the conventional voice generation process, when the noise level L changes during playback of the accent phrase, the morphing rate of the fundamental frequency also changes. At this time, as shown in the graph at the top of FIG. 6, the sound of the section of the noise level L2 from the playback position 0 (the beginning of the accent phrase) to P1 (between “n” and “d”) is a curve It is reproduced at the fundamental frequency of F (L2). Similarly, the sound in the section of the noise level L1 from the playback position P2 (between “D” and “L”) to P3 (end position of the accent phrase) is played at the fundamental frequency of the curve F (L1) Ru. Also, in the case where the noise level L gradually decreases from L = L2 to L = L1 as in the section from the playback position P1 to P2, the speech with the fundamental frequency morphing rate MA according to the noise level is Play while changing the frequency.
したがって、従来の音声生成処理により「ハンドルを」というアクセント句を再生した場合の基本周波数は、図6の上段のグラフに示した曲線Foutのようになる。すなわち、騒音レベルLが低下する再生位置P1以降は、再生開始時の音声データにおける基本周波数F(L2)よりも低い周波数で再生される。よって、再生された「ハンドルを」というアクセント句は、図6の上段に示したように「ン」の部分だけ強くなって聞こえる。しかしながら、「ハンドルを」というアクセント句を標準的なアクセントで発音した場合、図6の下段のグラフに示したように、「ンドルを」の4音が「ハ」よりも強く、かつほぼ同じ強さで聞こえる。よって、従来の音声生成処理のように騒音レベルの変化に応じてアクセント句内で基本周波数のモーフィング率が変化した場合、アクセントが変わってしまい、作業員に違和感を与えてしまうことがある。また、アクセントの異なる同音異義語があるアクセント句を含むメッセージの場合、メッセージの内容を理解しづらくなることがある。 Therefore, the fundamental frequency in the case where the accent phrase “handle” is reproduced by the conventional voice generation processing is as shown by a curve Fout shown in the graph at the top of FIG. That is, after the reproduction position P1 at which the noise level L decreases, reproduction is performed at a frequency lower than the basic frequency F (L2) of the audio data at the time of start of reproduction. Thus, the reproduced accent phrase “handle” sounds stronger only at the “n” portion as shown in the upper part of FIG. However, when the accent phrase "handle" is pronounced with a standard accent, as shown in the lower graph of FIG. 6, the four sounds of "noodle" are stronger than "ha" and almost the same I hear it. Therefore, when the morphing rate of the fundamental frequency changes in the accent phrase according to the change of the noise level as in the conventional voice generation processing, the accent may change, which may make the worker feel uncomfortable. In addition, in the case of a message including an accent phrase having homonyms having different accents, the content of the message may be difficult to understand.
これに対し、本発明(本実施形態)に係る音声生成処理では、上記のように、1つのアクセント句の再生中における基本周波数のモーフィング率MAは、途中で騒音レベルが大きく変化しても、アクセント句の先頭を再生したときのモーフィング率のままである。すなわち、図6の中段及び下段のグラフに示したように、アクセント句の先頭を再生したときの騒音レベルLがL=L2であれば、騒音レベルLが変化する再生位置P1以降の基本周波数も騒音レベルL2のときのままである。そのため、再生された「ハンドルを」というアクセント句の周波数を表す曲線Foutは曲線F(L2)と一致する。したがって、再生された「ハンドルを」というアクセント句は、図6の下段のグラフに示したように「ンドルを」の4音が「ハ」よりも強く、かつほぼ同じ強さで聞こえる。よって、騒音レベルが途中で変化しても標準的なアクセントで聞き取ることができ、作業員が違和感を覚えることや、内容を理解しづらくなることを防止できる。 On the other hand, in the voice generation process according to the present invention (the present embodiment), as described above, the morphing rate MA of the fundamental frequency during reproduction of one accent phrase has a large change in noise level in the middle, It remains the morphing rate when playing the beginning of the accent phrase. That is, as shown in the middle and lower graphs of FIG. 6, if the noise level L when reproducing the beginning of the accent phrase is L = L2, the fundamental frequency after the reproduction position P1 at which the noise level L changes is also It remains at the time of the noise level L2. Therefore, the curve Fout representing the frequency of the reproduced "handle" accent phrase coincides with the curve F (L2). Therefore, as shown in the lower graph of FIG. 6, the four accents of "Noodle" sound stronger and almost equal in strength to "ha" as shown in the lower graph of FIG. Therefore, even if the noise level changes in the middle, it can be heard with a standard accent, and it is possible to prevent the worker from feeling uncomfortable or becoming difficult to understand the contents.
このように、第1の実施形態によれば、現時点(現在の再生位置)における騒音レベルに基づいて声質のモーフィング率を決定することで、騒音レベルの変化により音声が聞き取りにくくなることを防止できる。しかも、現在の再生位置を含むアクセント句の先頭を再生したときの騒音レベルに基づいて現在の再生位置における基本周波数のモーフィング率を決定することで、アクセントが変わって内容を理解しづらくなることも防止できる。 As described above, according to the first embodiment, by determining the morphing rate of voice quality based on the noise level at the current time (the current reproduction position), it is possible to prevent the voice from being difficult to hear due to the change in the noise level. . Furthermore, by determining the morphing rate of the fundamental frequency at the current playback position based on the noise level when the beginning of the accent phrase including the current playback position is played back, the accent may change and it may be difficult to understand the content. It can prevent.
工場等の施設においては、作業員が設備を安全かつ正しく操作できるよう、設備の稼働状況や操作案内をリアルタイムで正確に報知することが望まれる。本実施形態の音声生成装置1は、上記のように、設備3の周囲の騒音レベルに応じて声質をリアルタイムで変化させる一方で、基本周波数はアクセント句単位で変化させる。そのため、騒音レベルが一定ではない環境下においても、音声によるメッセージを聞き取りやすく、アクセントの間違いにより内容を理解しづらくなることもない。よって、本実施形態の音声生成装置1は、工場等の施設における安全かつ正確な作業の支援に最適といえる。
In a facility such as a factory, it is desirable to accurately notify in real time the operating status and operation guidance of a facility so that workers can operate the facility safely and correctly. As described above, the
なお、第1の実施形態に係る音声生成装置1では、図2に示した瞬時モーフィング率決定部101aと声質モーフィング率決定部101cとが1つの決定部に統合されたものであってもよい。同様に、図2に示したアクセント句モーフィング率決定部101b、基本周波数モーフィング率決定部101d、及び継続長モーフィング率決定部101eは、1つの統合された決定部であってもよい。また、継続長モーフィング率決定部101eは、瞬時モーフィング率決定部101aで決定したモーフィング率を継続長のモーフィング率にしてもよい。
In the
また、第1の実施形態に係る音声生成装置1は、例えば、コンピュータと、図4A及び図4Bに示した処理をコンピュータに実行させるプログラムとにより実現可能である。このコンピュータとプログラムにより実現される音声生成装置1について、図7を参照しながら説明する。
Also, the
図7は、コンピュータのハードウェア構成図である。
図7に示すように、音声生成装置として動作させるコンピュータ5は、プロセッサ50と、主記憶装置51と、補助記憶装置52と、入力装置53と、出力装置54と、通信インタフェース装置55と、を備える。コンピュータ5におけるこれらの要素50〜55は、バス59により相互に接続されており、要素間でのデータの受け渡しが可能になっている。
FIG. 7 is a hardware configuration diagram of a computer.
As shown in FIG. 7, the computer 5 operated as an audio generation device includes a
プロセッサ50は、Central Processing Unit(CPU)又はMicro Processing Unit(MPU)等の演算処理装置であり、オペレーティングシステムを含む各種のプログラムを実行することによりコンピュータ5の全体の動作を制御する。
The
主記憶装置51は、Read Only Memory(ROM)51a及びRandom Access Memory(RAM)51bを含む。ROM 51aには、例えばコンピュータ5の起動時にプロセッサ50が読み出す所定の基本制御プログラム等が予め記録されている。また、RAM 51bは、プロセッサ50が各種のプログラムを実行する際に、必要に応じて作業用記憶領域として使用する。本実施形態においては、例えば、アクセント句の先頭を再生したときの騒音レベルや、再生する音声データを含む音声データセットを示す情報等の一時的な保持にRAM 51bを用いることができる。
The main storage device 51 includes a read only memory (ROM) 51 a and a random access memory (RAM) 51 b. For example, a predetermined basic control program or the like read out by the
補助記憶装置52は、Hard Disk Drive(HDD)やSolid State Drive(SSD)等の主記憶装置51に比べて大容量の記憶装置である。補助記憶装置52には、プロセッサ50によって実行される各種のプログラムや、変換テーブル102及び音声データベース104を含む各種のデータを記憶させることができる。
The
入力装置53は、例えば、各種のボタンやスイッチ、及びマイク2である。ボタンやスイッチは、コンピュータ5(音声生成装置1)の動作設定等に用いる。コンピュータ5のオペレータが各種のボタンやスイッチを操作すると、その操作内容に対応付けられている入力情報がプロセッサ50に送信される。また、マイク2は、設備3の周囲の騒音レベルを求める際に用いる。
The
出力装置54は、例えば液晶ディスプレイやスピーカ4である。液晶ディスプレイは、プロセッサ50等から送信される表示データに従って操作案内や設定値等を表示する。また、スピーカ4は、プロセッサ50等から送信される音声データを出力する。
The
通信インタフェース装置55は、コンピュータ5と設備3の制御部300とを通信可能に接続するための装置である。コンピュータ5は、通信インタフェース装置55により設備3の制御部300からの制御信号を受信すると、制御信号に応じたメッセージ(音声データ)を生成して出力する。
The
このコンピュータ5は、プロセッサ50が補助記憶装置52から上述した音声生成処理についてのプログラムを読み出して実行する。プロセッサ50は、プログラムの実行中、通信インタフェース装置55を介して設備3の制御部300からの制御信号を受信すると、マイク2を利用して設備3の周囲の騒音レベルを求める。また、プロセッサ50は、現時点の騒音レベル、アクセント句の先頭を再生したときの騒音レベル、補助記憶装置52あるいはRAM 51bに記憶させた変換テーブル102等に基づいて、瞬時モーフィング率MP及びアクセント句モーフィング率MAを決定する。そして、プロセッサ50は、声質のモーフィング率を瞬時モーフィング率MPに設定するとともに、基本周波数及び継続長のモーフィング率をアクセント句モーフィング率MAに設定する。更に、プロセッサ50は、設定した声質、基本周波数、及び継続長のモーフィング率の組み合わせに基づいて補助記憶装置52の音声データベース104から再生する音声データを読み出し、スピーカ4に出力する。
In the computer 5, the
[音声生成装置1の適用例]
本実施形態に係る音声生成装置1の適用例として、図1には、音声生成装置1を設備3とは別個に設けた例を挙げている。しかしながら、本実施形態に係る音声生成装置1は、これに限らず、設備3に音声生成部として内蔵させたものであってもよい。更に、複数の設備の稼働状況を1つの管理サーバで一元管理している施設に適用する場合、設備3からではなく、管理サーバからの制御信号に基づいて音声を出力することも可能である。
[Application Example of Voice Generation Device 1]
As an application example of the
図8Aは、第1の実施形態に係る音声生成装置の別の適用例を示す図である。
本実施形態に係る音声生成装置1を適用可能な工場等の施設は、図8Aに示すように、複数の設備3(3A,3B)があり、それらの稼働状況を1つの管理サーバ6で一元管理している場合が多い。管理サーバ6は、各設備3と通信可能に接続されており、例えば、各設備3に設けた各種のセンサから設備3内の温度、圧力、設備3から作業員までの距離、作業員の有無等の情報を取得する。そして、管理サーバ6は、各設備3から取得した情報に基づいて各設備3の稼働状況を監視し、各設備3が正常に稼動するよう管理する。このように管理サーバ6で複数の設備3の稼働状況を一元管理している場合、各設備3に個別に適用された複数の音声生成装置1(1A,1B)の動作も管理サーバ6で制御、管理することが可能である。複数の音声生成装置1の動作を管理サーバ6で一元管理すると、例えば、設備3Aに何らかの異常が発生したことを伝える音声データを、設備3Bの周囲に向けて出力することができる。そのため、設備3Aの周囲に向けて異常を伝える音声データを出力したにも係わらず一定期間異常への対処がなされない場合に、他の設備3Bの周囲にいる作業員等に設備3Aの異常を報知することができる。したがって、設備3Aの異常への対処が遅れることによる設備3Aの故障等を防止することができる。また、複数の設備3A,3Bが連動(協働)している場合、例えば、1つの設備で発生した異常を他の設備の周囲にいる作業員に早期に報知でき、連鎖的な設備の異常の発生を防止することができる。
FIG. 8A is a diagram showing another application example of the voice generation device according to the first embodiment.
Facilities, such as a factory to which the
図8Bは、第1の実施形態に係る音声生成装置の更に別の適用例を示す図である。
複数の設備3(3A,3B)の稼働状況を1つの管理サーバ6で一元管理している施設に音声生成装置1を適用する場合、例えば、図8Bに示すように、音声生成装置1に相当する音声生成部600を管理サーバ6に設けてもよい。このようにすることで、複数の設備3のそれぞれに音声生成装置1を適用する場合に比べ、音声生成装置の導入コストやメンテナンス費用を低減することができる。
FIG. 8B is a diagram showing still another application example of the voice generation device according to the first embodiment.
When the
なお、本実施形態に係る音声生成装置1は、工場に限らず、例えば、駅構内や繁華街等で音声案内を行う装置に適用することも可能であることはもちろんである。
In addition, it is needless to say that the
[第2の実施形態]
本実施形態では、eラーニングシステムに本発明を適用した場合の音声生成装置の構成や音声生成方法等を説明する。
Second Embodiment
In the present embodiment, a configuration of a voice generation apparatus, a voice generation method, and the like when the present invention is applied to an e-learning system will be described.
図9は、第2の実施形態に係るeラーニングシステムの構成例を示す図である。
図9に示すように、本実施形態に係るeラーニングシステムでは、ホストコンピュータ8と、複数の端末(クライアント)9とがインターネット等の通信ネットワーク10で接続されている。ホストコンピュータ8は、教材の作成や提供等を行うコンピュータである。一方、複数の端末9は、それぞれ、学習者が教材を利用して学習する際に用いるコンピュータである。
FIG. 9 is a view showing a configuration example of an e-learning system according to the second embodiment.
As shown in FIG. 9, in the e-learning system according to the present embodiment, a host computer 8 and a plurality of terminals (clients) 9 are connected by a
ホストコンピュータ8は、教材としての音声データを作成するときや再生するときに音声生成装置として動作する。このホストコンピュータ8は、コンピュータ本体80と、キーボード81と、マウス82と、表示装置83と、スピーカ84とを備える。コンピュータ本体80は、図7に示したコンピュータのハードウェア構成におけるプロセッサ50、主記憶装置51、補助記憶装置52、通信インタフェース装置55等を備える。また、キーボード81及びマウス82は、図7に示したコンピュータのハードウェア構成における入力装置53に該当する。また、表示装置83及びスピーカ84は、図7に示したコンピュータのハードウェア構成における出力装置54に該当する。
The host computer 8 operates as a voice generation device when creating or reproducing voice data as teaching material. The host computer 8 includes a computer
ホストコンピュータ8を音声生成装置1として動作させるときには、コンピュータ本体80に音声データ作成プログラムを実行させる。音声データ作成プログラムは、オペレータがキーボード81等を操作して入力した文字情報(テキストデータ)から音声データを作成するプログラムである。音声データ作成プログラムの実行中、表示装置83には、例えば、図9及び図10に示したような作業ウインド85が表示される。
When the host computer 8 is operated as the
図10は、表示装置に表示される作業ウインドの構成例を示す図である。
音声データ作成時に表示装置83に表示される作業ウインド85には、例えば、図10に示したように、入力領域85aと、再生ボタン85bと、保存ボタン85cと、スライダー85dと、溝85eとが設けられている。
FIG. 10 is a view showing a configuration example of a work window displayed on the display device.
For example, as shown in FIG. 10, an
入力領域85aは、図9に示したキーボード81等を操作して入力した文字情報を音声データ作成用の文字情報として受け付け、表示する領域である。
The
再生ボタン85bは、入力領域85aに表示された文字情報を音声データに変換して再生するときに使用する。また、保存ボタン85cは、入力領域に表示された文字情報を音声データに変換して保存、すなわち電子ファイルとして記憶装置に記憶させるときに使用する。
The
スライダー85dは、入力領域85aに表示された文字情報を音声データに変換して再生する際の音声の強調度合いの指定に用いる。このスライダー85dは、溝85eに沿って左右に動かすことが可能であり、図10に示した例では、スライダー85dを溝85eの左端(平静)に移動させたときの強調度合いが最も低く、溝85eの右端(強調)に近づくほど強調度合いが高くなる。スライダー85dを溝85eに沿って移動させると、溝85eの左端からの距離に応じてスライダー値が変化する。コンピュータ本体80が音声データを作成する際には、スライダー85dの位置に応じた強調度合いになるよう、スライダー値に基づいて平静時の音声パラメータと強調時の音声パラメータとをモーフィングする。
The
次に、コンピュータ本体80を音声生成装置1として動作させた場合の機能ブロックの構成例を、図11及び図12を参照して説明する。
Next, a configuration example of functional blocks when the computer
図11は、第2の実施形態に係る音声生成装置の機能ブロック図である。図12は、第2の実施形態における合成音声作成部の機能ブロック図である。 FIG. 11 is a functional block diagram of the voice generation device according to the second embodiment. FIG. 12 is a functional block diagram of a synthetic speech generation unit in the second embodiment.
図11に示すように、第2の実施形態に係る音声生成装置1(コンピュータ本体80)は、入力データ処理部120と、モーフィング率決定部121と、変換テーブル122と、合成音声作成部123と、音声データベース124と、を備える。また、音声生成装置1は、表示制御部125と、テキストデータベース126と、を更に備える。
As shown in FIG. 11, the voice generation apparatus 1 (computer main body 80) according to the second embodiment includes an input
入力データ処理部120は、入力装置(キーボード)81から入力されるテキストデータの受け付け処理、及び入力装置(マウス)82から入力されるスライダー85dの位置情報の受け付け処理を行う。入力データ処理部120は、入力されたテキストデータを表示制御部125渡すとともに、テキストデータベース126に記憶させる。また、入力データ処理部120は、入力されたスライダー85dの位置情報(スライダー値)を表示制御部125に渡す。更に、入力データ処理部120は、マウス82等からの再生ボタン85b又は保存ボタン85cを押下する操作と対応した信号を受け付けると、スライダー値をモーフィング率決定部121に渡すとともに、テキストデータを合成音声作成部123に渡す。
The input
表示制御部125は、表示装置83の表示を制御する。表示制御部125は、例えば、入力データ処理部120から受け取ったテキストデータ及びスライダー値に基づいて、表示装置83に表示させた作業ウインド85における入力領域85a内の表示やスライダー85dの位置を変更する。
The
モーフィング率決定部121は、入力データ処理部120から受け取ったスライダー値と、変換テーブル122と、合成音声作成部123からのアクセント句境界を示す情報とに基づいて、モーフィング率を決定する。変換テーブル122は、スライダー値とモーフィング率との対応関係を示すテーブルである。また、アクセント句境界を示す情報は、現在スピーカ84に出力した音声データの再生位置がアクセント句境界であるかを示す情報である。
The morphing
合成音声作成部123は、入力データ処理部120から受け取ったテキストデータと、モーフィング率決定部121で決定したモーフィング率とに基づいて合成音声を作成する。また、合成音声作成部123は、作成した合成音声をスピーカ84に出力する。更に、保存ボタン85cを押下する操作に応じて合成音声を作成した場合、合成音声作成部123は、作成した合成音声を音声データベース124に記憶させる。なお、合成音声を音声データベース124に記憶させる場合、合成音声作成部123は、合成音声のデータをテキストデータベース126に記憶させたテキストデータと対応付けて記憶させる。
The synthetic
本実施形態の音声生成装置1におけるモーフィング率決定部121は、第1の実施形態と同様の方法で声質、基本周波数、及び継続長のモーフィング率を決定する。すなわち、モーフィング率決定部121は、図2に示したモーフィング率決定部101と同様、瞬時モーフィング率決定部と、アクセント句モーフィング率決定部と、声質モーフィング率決定部と、基本周波数モーフィング率決定部と、継続長モーフィング率決定部とを含む。
The morphing
一方、本実施形態の音声生成装置1における合成音声作成部123は、テキストデータとモーフィング率とに基づいて合成音声の音声データを作成する。本実施形態の合成音声作成部123は、既知の音声合成方法の1つである、隠れマルコフモデル(HMM)に基づいた合成方法により音声データを作成する。この合成音声作成部123は、図12に示すように、言語処理部123aと、平静音声パラメータ作成部123bと、強調音声パラメータ作成部123cと、モーフィング処理部123dと、分析合成部123eと、を含む。また、合成音声作成部123は、平静音声HMMパラメータ123fと、強調音声HMMパラメータ123gと、を更に含む。
On the other hand, the synthetic
言語処理部123aは、テキストデータを読み・アクセントを表す表音テキストに変換する。
The
平静音声パラメータ作成部123bは、表音テキストと平静音声HMMパラメータ123fとに基づいて、平静時の音声についての音声パラメータを作成する。また、強調音声パラメータ作成部123cは、表音テキストと強調音声HMMパラメータ123gとに基づいて、強調時の音声についての音声パラメータを作成する。
The silent speech
モーフィング処理部123dは、平静時の音声についての音声パラメータと強調時の音声についての音声パラメータとをモーフィング率決定部121で決定したモーフィング率でモーフィングし、現在のフレームに対する音声パラメータを作成する。
The morphing processing unit 123d morphs the speech parameter of the speech at the time of silence and the speech parameter of the speech at the emphasis at the morphing rate determined by the morphing
分析合成部123eは、現在のフレームに対する音声パラメータを分析合成して音声波形に変換する。また、分析合成部123eは、現在のフレームにアクセント句の先頭が含まれる場合、アクセント句の先頭が含まれることを示す情報をモーフィング率決定部121に通知する。
The analysis and
次に、本実施形態の音声生成装置1(ホストコンピュータ8)における音声生成処理について説明する。 Next, the voice generation processing in the voice generation device 1 (host computer 8) of the present embodiment will be described.
図13Aは、第2の実施形態に係る音声生成処理を示すフローチャート(その1)である。図13Bは、第2の実施形態に係る音声生成処理を示すフローチャート(その2)である。 FIG. 13A is a flowchart (part 1) illustrating an audio generation process according to the second embodiment. FIG. 13B is a flowchart (part 2) illustrating the sound generation process according to the second embodiment.
本実施形態に係る音声生成装置1は、図10に示したような作業ウインド85の再生ボタン85b又は保存ボタン85cを押下する操作がなされたときに、入力領域85aに表示されたテキストを音声データに変換して再生する。このとき、音声生成装置1は、図13Aに示すように、まず、テキストデータの再生位置、及びスライダー値と再生位置との対応付けを初期化する(ステップS21)。ステップS21は、モーフィング率決定部121のアクセント句モーフィング率決定部(図示せず)が行う。
The
次に、音声生成装置1は、現時点のスライダー値を取得してモーフィング率決定部121に渡すとともに、テキストデータを合成音声作成部123に渡す(ステップS22)。ステップS22は、入力データ処理部120が行う。入力データ処理部120は、取得したスライダー値をモーフィング率決定部121の瞬時モーフィング率決定部及びアクセント句モーフィング率決定部(図示せず)に渡す。また、入力データ処理部120は、テキストデータを合成音声作成部123の言語処理部123aに渡す。
Next, the
ステップS22の後、音声生成装置1は、モーフィング率決定処理(ステップS23)、及び音声パラメータの作成処理を行う。モーフィング率決定処理(ステップS23)は、モーフィング率決定部121が行う。モーフィング率決定部121は、図4Aに示したステップS3a,S3b及びステップS4a〜S4eと同様の処理により、声質、基本周波数、及び継続長のモーフィング率を決定する。なお、本実施形態で行うステップS23の処理では、騒音レベルの代わりにスライダー値を用いる。また、モーフィング率決定部121は、決定した声質、基本周波数、及び継続長のモーフィング率を合成音声作成部123のモーフィング処理部123dに渡す。
After step S22, the
一方、音声パラメータの作成処理は、合成音声作成部123が行う。合成音声作成部123は、まず、モーフィング率決定処理S23と並行して、テキストデータを読み・アクセントを表す表音テキストに変換する処理(ステップS24a)と、平静音声及び強調音声についての音声パラメータを作成する処理(ステップS24b)とを行う。
On the other hand, the synthetic
ステップS24aは、言語処理部123aが行う。言語処理部123aでは、既知の変換方法のいずれかによりテキストデータを表音テキストに変換する。
The
また、ステップS24bは、平静音声パラメータ作成部123b及び強調音声パラメータ作成部123cが行う。平静音声パラメータ作成部123bは、表音テキストと平静音声HMMパラメータ123fとに基づいて、強調度が最も低い平静時の音声についての音声パラメータを作成する。強調音声パラメータ作成部123cは、表音テキストと強調音声HMMパラメータ123gとに基づいて、強調度が最も高い強調時の音声についての音声パラメータを作成する。このステップS24bの処理は、隠れマルコフモデルに基づく既知の音声パラメータの作成方法のいずれかにより行う。平静音声パラメータ作成部123bは、作成した音声パラメータをモーフィング処理部123dに渡す。同様に、強調音声パラメータ作成部123cは、作成した音声パラメータをモーフィング処理部123dに渡す。
Step S24b is performed by the quiet speech
モーフィング処理部123dは、音声パラメータ及びモーフィング率を受け取ると、図13Bに示すように、受け取った音声パラメータとモーフィング率とに基づいてフレームに対する音声パラメータを作成する(ステップS25)。モーフィング処理部123dは、既知の音声合成処理におけるモーフィング処理のいずれかによりフレームに対する音声パラメータを作成する。また、モーフィング処理部123dは、作成した音声パラメータを分析合成部123eに渡す。
When receiving the speech parameter and the morphing rate, the morphing processing unit 123d creates a speech parameter for the frame based on the received speech parameter and the morphing rate, as shown in FIG. 13B (step S25). The morphing processing unit 123d creates speech parameters for the frame by any of the morphing processes in the known speech synthesis process. In addition, the morphing processing unit 123d passes the created speech parameter to the analysis and
分析合成部123eは、フレームに対する音声パラメータを分析合成してフレームの音声データ(音声波形)に変換する(ステップS26)。分析合成部123eは、既知の音声合成処理における変換方法のいずれかにより、フレームの音声パラメータを音声データに変換する。
The analysis and
また、分析合成部123eは、得られた音声データを出力する(ステップS27)。分析合成部123eは、得られた音声データをスピーカ84に出力する。また、作業ウインド85の保存ボタン85cを押下する操作に応じた音声合成処理の場合、音声データを音声データベース124に記憶させる。
Further, the analysis and
更に、分析合成部123eは、音声データを出力した後、フレームがテキストデータの終了位置に到達しているかを確認する(ステップS28)。フレームがテキストデータの終了位置に到達していない場合(ステップS28;No)、分析合成部123eは、次に、フレームにアクセント句境界が含まれるかを確認する(ステップS29)。アクセント句境界が含まれる場合(ステップS29;Yes)、分析合成部123eは、モーフィング率決定部121と協働して、再生位置を含むアクセント句の先頭を再生した時刻のスライダー値を現時点でのスライダー値に更新する(ステップS30)。その後、分析合成部123eは、フレームを次のフレームに変更し(ステップS31)、入力データ処理部120にステップS22の処理を行わせる。以後、音声生成装置1は、フレームがテキストデータの終了位置に到達するまでステップS22〜S31を繰り返す。
Furthermore, after outputting the voice data, the analysis and
そして、フレームがテキストデータの終了位置に到達した場合(ステップS28;Yes)、分析合成部123eは最後のフレームの音声データを出力して処理を終了する。これにより、音声生成装置1は待機状態となる。待機状態の音声生成装置1は、作業ウインド85の再生ボタン85b又は保存ボタン85cを押下する操作と対応した信号を受信すると、再びテキストデータの生成及び出力処理を行う。
Then, when the frame has reached the end position of the text data (step S28; Yes), the analysis and
このように、本実施形態の音声生成処理では、テキストデータを音声データ(音声波形)に変換する際、声の張り方等の音声の強調度合いと相関がある声質のモーフィング率を現時点のスライダー値に基づいて決定する。そのため、音声データの所望の区間を容易に強調させることができる。例えば、図10に示したように、作業ウインド85の入力領域85aに「C言語ではポインタが重要です。」と入力して再生する場合、スピーカ84からスライダー85dの位置に応じた強調度の音声で「C言語ではポインタが重要です。」と出力される。この際、「ポインタが」というアクセント句の先頭でスライダー85dを右側に移動させ、終了位置でスライダー85dを左側に戻すと、「ポインタが」という部分を強調することができる。
As described above, in the voice generation process of the present embodiment, when text data is converted into voice data (voice waveform), the morphing rate of voice quality that has a correlation with the degree of voice emphasis such as how to stretch voice Make a decision based on Therefore, the desired section of the voice data can be easily emphasized. For example, as shown in FIG. 10, when reproducing by inputting "The pointer is important in C language" in the
また、本実施形態の音声生成処理では、アクセントとの相関がある基本周波数のモーフィング率をアクセント句の先頭を再生したときのスライダー値に基づいて決定する。そのため、アクセント句の再生中にスライダー値を変えてもアクセントは変わらない。よって、アクセント句のアクセントが変わってしまい再生音の内容を理解しづらくなることを防止できる。例えば、「C言語ではポインタが重要です。」というテキストデータを「ポインタが」というアクセント句が強調されるよう再生した場合、「ポインタが」の再生中にスライダー85bの位置が変わってもアクセントは変わらない。
Further, in the voice generation process of the present embodiment, the morphing rate of the fundamental frequency having a correlation with the accent is determined based on the slider value when the head of the accent phrase is reproduced. Therefore, changing the slider value while playing the accent phrase does not change the accent. Therefore, it is possible to prevent that the accent of the accent phrase changes and it becomes difficult to understand the contents of the reproduced sound. For example, when the text data "The pointer is important in C language" is reproduced so that the accent phrase "the pointer is" is emphasized, the accent is displayed even if the position of the
なお、本実施形態では隠れマルコフモデルに基づいて平静時及び強調時の音声パラメータを作成する場合を例に挙げたが、モーフィングに使用する2つの音声パラメータは、これに限らず、他の方法で作成してもよい。 In the present embodiment, the case of creating speech parameters at the time of calmness and emphasis based on the Hidden Markov Model has been described as an example, but the two speech parameters used for morphing are not limited to this, and other methods may be used. You may create it.
以上記載した各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
入力装置からの入力値に基づいて声質のモーフィング率及び基本周波数のモーフィング率を含む2以上のモーフィング率を決定するモーフィング率決定部と、
前記モーフィング率に基づく音声データを再生する音声再生部と、を備え、
前記モーフィング率決定部は、
前記音声データの各フレームを再生する時点における前記入力値に基づいて前記声質のモーフィング率を決定する第1のモーフィング率決定部と、
前記音声データのうち前記フレームを含むアクセント句の先頭のフレームを再生したときの前記入力値に基づいて前記基本周波数のモーフィング率を決定する第2のモーフィング率決定部と、を含む
ことを特徴とする音声生成装置。
(付記2)
前記モーフィング率決定部は、
前記第2のモーフィング率決定部で決定した前記基本周波数のモーフィング率を継続長のモーフィング率に決定する、
ことを特徴とする付記1に記載の音声生成装置。
(付記3)
前記モーフィング率決定部は、
前記第1のモーフィング率決定部で決定した前記声質のモーフィング率を継続長のモーフィング率に決定する、
ことを特徴とする付記1に記載の音声生成装置。
(付記4)
前記入力値は、装置外部の所定の区域における騒音レベルの値を含む、
ことを特徴とする付記1に記載の音声生成装置。
(付記5)
前記入力値は、予め定めた範囲内を移動可能なスライダーの前記範囲内における位置を示す値である、
ことを特徴とする付記1に記載の音声生成装置。
(付記6)
前記モーフィング率の組み合わせが異なる複数の音声データを記憶させた記憶部、を更に備え、
前記音声再生部は、
前記音声データの再生位置毎に、前記モーフィング率決定部で決定した前記モーフィング率の組み合わせに基づいて、前記記憶部から音声データを読み出して前記再生位置から出力する再生制御部を含む、
ことを特徴とする付記1に記載の音声生成装置。
(付記7)
前記音声生成装置は、所定の言語に基づくテキストデータに基づいて合成音声を作成する合成音声作成部、を備え、
前記合成音声作成部は、
所定の言語に基づくテキストデータを表音テキストに変換する言語処理部と、
声種の異なる2以上の変換パラメータに基づいて、前記表音テキストについての2以上の音声パラメータを作成する音声パラメータ作成部と、
前記2以上の音声パラメータを前記モーフィング率に基づいてモーフィングして前記合成位置に対する音声パラメータを作成するモーフィング処理部と、
モーフィング処理部で作成した音声パラメータを音声データに変換して出力する出力部と、
を含むことを特徴とする付記1に記載の音声合成装置。
(付記8)
コンピュータが、
出力対象の音声データにおける現時点の再生位置と、当該再生位置と対応した入力値とに基づいて声質のモーフィング率を決定し、
前記音声データのうちの前記再生位置を含むアクセント句の先頭を再生したときの入力値に基づいて基本周波数のモーフィング率を決定し、
決定した前記モーフィング率を含む2以上のモーフィング率に基づいて音声データを生成する、
処理を実行することを特徴とする音声生成方法。
(付記9)
継続長のモーフィング率を前記基本周波数のモーフィング率と同じモーフィング率に決定し、
前記声質、前記基本周波数、及び前記継続長のモーフィング率に基づいて前記音声データを生成する、
ことを特徴とする付記8に記載の音声生成方法。
(付記10)
継続長のモーフィング率を前記声質のモーフィング率と同じモーフィング率に決定し、
前記声質、前記基本周波数、及び前記継続長のモーフィング率に基づいて前記音声データを生成する、
ことを特徴とする付記8に記載の音声生成方法。
(付記11)
前記音声データの前記再生位置毎に、前記声質及び基本周波数のモーフィング率に基づいて、予め用意された前記声質及び基本周波数のモーフィング率の組み合わせが異なる複数の音声データのいずれかを選択して前記音声データを生成する、
ことを特徴とする付記8に記載の音声生成方法。
(付記12)
出力対象の音声データにおける現時点の再生位置と、当該再生位置に対応した入力値とに基づいて声質のモーフィング率を決定し、
前記音声データのうちの前記再生位置を含むアクセント句の先頭を再生したときの入力値に基づいて基本周波数のモーフィング率を決定し、
決定した前記モーフィング率を含む2以上のモーフィング率に基づいて音声データを生成する、
処理をコンピュータに実行させるためのプログラム。
The following appendices will be further disclosed regarding the embodiment including each example described above.
(Supplementary Note 1)
A morphing rate determining unit that determines two or more morphing rates including a voice quality morphing rate and a fundamental frequency morphing rate based on input values from an input device;
An audio reproduction unit that reproduces audio data based on the morphing rate,
The morphing rate determining unit
A first morphing rate determining unit that determines a morphing rate of the voice quality based on the input value at the time of reproducing each frame of the voice data;
And a second morphing rate determining unit that determines the morphing rate of the fundamental frequency based on the input value when the first frame of the accent phrase including the frame in the audio data is reproduced. Voice generation device.
(Supplementary Note 2)
The morphing rate determining unit
The morphing rate of the fundamental frequency determined by the second morphing rate determining unit is determined as a morphing rate of a continuous length.
The voice generation device according to
(Supplementary Note 3)
The morphing rate determining unit
The morphing rate of the voice quality determined by the first morphing rate determination unit is determined as the morphing rate of the continuous length,
The voice generation device according to
(Supplementary Note 4)
The input value includes the value of the noise level in a predetermined area outside the device,
The voice generation device according to
(Supplementary Note 5)
The input value is a value indicating a position within the range of a slider movable within a predetermined range.
The voice generation device according to
(Supplementary Note 6)
A storage unit storing a plurality of audio data different in combination of the morphing rates;
The voice reproduction unit
A reproduction control unit for reading out audio data from the storage unit and outputting the audio data from the reproduction position based on a combination of the morphing rates determined by the morphing rate determination unit for each reproduction position of the audio data;
The voice generation device according to
(Appendix 7)
The speech generation device includes a synthetic speech creation unit that creates synthetic speech based on text data based on a predetermined language,
The synthetic speech generation unit
A language processing unit for converting text data based on a predetermined language into phonetic text;
A speech parameter creation unit that creates two or more speech parameters for the phonetic text based on two or more conversion parameters different in voice type;
A morphing processing unit that morphs the two or more speech parameters based on the morphing rate to create speech parameters for the synthesis position;
An output unit that converts voice parameters generated by the morphing processing unit into voice data and outputs the converted data;
The speech synthesizer according to
(Supplementary Note 8)
The computer is
The morphing rate of voice quality is determined based on the current reproduction position in the audio data to be output and the input value corresponding to the reproduction position,
The morphing rate of the fundamental frequency is determined based on the input value when the head of the accent phrase including the reproduction position in the audio data is reproduced.
Generating voice data based on two or more morphing rates including the determined morphing rate,
A voice generation method characterized by performing processing.
(Appendix 9)
Determine the duration morphing rate to be the same morphing rate as the fundamental frequency morphing rate,
Generating the audio data based on the voice quality, the fundamental frequency, and the morphing rate of the duration;
The speech generation method according to appendix 8, characterized in that
(Supplementary Note 10)
Determine the morphing rate of the duration length to be the same as the morphing rate of the voice quality,
Generating the audio data based on the voice quality, the fundamental frequency, and the morphing rate of the duration;
The speech generation method according to appendix 8, characterized in that
(Supplementary Note 11)
For each of the reproduction positions of the voice data, one of a plurality of voice data having different combinations of the voice quality and the morphing rate of the fundamental frequency prepared in advance is selected based on the voice quality and the morphing rate of the fundamental frequency. Generate voice data,
The speech generation method according to appendix 8, characterized in that
(Supplementary Note 12)
The morphing rate of voice quality is determined based on the current playback position in the audio data to be output and the input value corresponding to the playback position,
The morphing rate of the fundamental frequency is determined based on the input value when the head of the accent phrase including the reproduction position in the audio data is reproduced.
Generating voice data based on two or more morphing rates including the determined morphing rate,
A program that causes a computer to execute a process.
1 音声合成装置
100 入力値処理部
101,121 モーフィング率決定部
102,122 変換テーブル
103 音声再生部
123 合成音声作成部
104,124 音声データベース
120 入力データ処理部
125 表示制御部
126 テキストデータベース
101a 瞬時モーフィング率決定部
101b アクセント句モーフィング率決定部
101c 声質モーフィング率決定部
101d 基本周波数モーフィング率決定部
101e 継続長モーフィング率決定部
103a 音声データ選択部
103b 再生制御部
123a 言語処理部
123b 平静音声パラメータ作成部
123c 強調音声パラメータ作成部
123d モーフィング処理部
123e 分析合成部
123f 平静音声HMMパラメータ
123g 強調音声HMMパラメータ
2 マイク
3,3A,3B 設備
4,84 スピーカ
5 コンピュータ
50 プロセッサ
51 主記憶装置
52 補助記憶装置
53 入力装置
54 出力装置
55 通信インタフェース装置
6 管理サーバ
8 ホストコンピュータ
80 コンピュータ本体
81 キーボード
82 マウス
83 表示装置
85 作業ウインド
85a 入力領域
85b 再生ボタン
85c 保存ボタン
85d スライダー
85e 溝
9 クライアント
10 通信ネットワーク
DESCRIPTION OF
Claims (8)
前記モーフィング率に基づく音声データを再生する音声再生部と、を備え、
前記モーフィング率決定部は、
前記音声データの各フレームを再生する時点における前記入力値に基づいて前記声質のモーフィング率を決定する第1のモーフィング率決定部と、
前記音声データのうち前記フレームを含むアクセント句の先頭のフレームを再生したときの前記入力値に基づいて前記基本周波数のモーフィング率を決定する第2のモーフィング率決定部と、を含む
ことを特徴とする音声生成装置。 A morphing rate determining unit that determines two or more morphing rates including a voice quality morphing rate and a fundamental frequency morphing rate based on input values from an input device;
An audio reproduction unit that reproduces audio data based on the morphing rate,
The morphing rate determining unit
A first morphing rate determining unit that determines a morphing rate of the voice quality based on the input value at the time of reproducing each frame of the voice data;
And a second morphing rate determining unit that determines the morphing rate of the fundamental frequency based on the input value when the first frame of the accent phrase including the frame in the audio data is reproduced. Voice generation device.
前記第2のモーフィング率決定部で決定した前記基本周波数のモーフィング率を継続長のモーフィング率に決定する、
ことを特徴とする請求項1に記載の音声生成装置。 The morphing rate determining unit
The morphing rate of the fundamental frequency determined by the second morphing rate determining unit is determined as a morphing rate of a continuous length.
The voice generation device according to claim 1, characterized in that:
前記第1のモーフィング率決定部で決定した前記声質のモーフィング率を継続長のモーフィング率に決定する、
ことを特徴とする請求項1に記載の音声生成装置。 The morphing rate determining unit
The morphing rate of the voice quality determined by the first morphing rate determination unit is determined as the morphing rate of the continuous length,
The voice generation device according to claim 1, characterized in that:
ことを特徴とする請求項1に記載の音声生成装置。 The input value includes the value of the noise level in a predetermined area outside the device,
The voice generation device according to claim 1, characterized in that:
前記音声再生部は、
前記音声データの再生位置毎に、前記モーフィング率決定部で決定した前記モーフィング率の組み合わせに基づいて、前記記憶部から音声データを読み出して前記再生位置から出力する再生制御部を有する、
ことを特徴とする請求項1に記載の音声生成装置。 A storage unit storing a plurality of audio data different in combination of the morphing rates;
The voice reproduction unit
A reproduction control unit for reading out audio data from the storage unit and outputting the audio data from the reproduction position based on a combination of the morphing rates determined by the morphing rate determination unit for each reproduction position of the audio data;
The voice generation device according to claim 1, characterized in that:
前記合成音声作成部は、
所定の言語に基づくテキストデータを表音テキストに変換する言語処理部と、
声種の異なる2以上の変換パラメータに基づいて、前記表音テキストについての2以上の音声パラメータを作成する音声パラメータ作成部と、
前記2以上の音声パラメータを前記モーフィング率に基づいてモーフィングして前記合成位置に対する音声パラメータを作成するモーフィング処理部と、
モーフィング処理部で作成した音声パラメータを音声データに変換して出力する出力部と、
を含むことを特徴とする請求項1に記載の音声合成装置。 The speech generation device includes a synthetic speech creation unit that creates synthetic speech based on text data based on a predetermined language,
The synthetic speech generation unit
A language processing unit for converting text data based on a predetermined language into phonetic text;
A speech parameter creation unit that creates two or more speech parameters for the phonetic text based on two or more conversion parameters different in voice type;
A morphing processing unit that morphs the two or more speech parameters based on the morphing rate to create speech parameters for the synthesis position;
An output unit that converts voice parameters generated by the morphing processing unit into voice data and outputs the converted data;
The speech synthesis apparatus according to claim 1, further comprising:
出力対象の音声データにおける現時点の再生位置と、当該再生位置と対応した入力値とに基づいて声質のモーフィング率を決定し、
前記音声データのうちの前記再生位置を含むアクセント句の先頭を再生したときの入力値に基づいて基本周波数のモーフィング率を決定し、
決定した前記モーフィング率を含む2以上のモーフィング率に基づいて音声データを生成する、
処理を実行することを特徴とする音声生成方法。 The computer is
The morphing rate of voice quality is determined based on the current reproduction position in the audio data to be output and the input value corresponding to the reproduction position,
The morphing rate of the fundamental frequency is determined based on the input value when the head of the accent phrase including the reproduction position in the audio data is reproduced.
Generating voice data based on two or more morphing rates including the determined morphing rate,
A voice generation method characterized by performing processing.
前記音声データのうちの前記再生位置を含むアクセント句の先頭を再生したときの入力値に基づいて基本周波数のモーフィング率を決定し、
決定した前記モーフィング率を含む2以上のモーフィング率に基づいて音声データを生成する、
処理をコンピュータに実行させるためのプログラム。 The morphing rate of voice quality is determined based on the current reproduction position in the audio data to be output and the input value corresponding to the reproduction position,
The morphing rate of the fundamental frequency is determined based on the input value when the head of the accent phrase including the reproduction position in the audio data is reproduced.
Generating voice data based on two or more morphing rates including the determined morphing rate,
A program that causes a computer to execute a process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015117697A JP6507867B2 (en) | 2015-06-10 | 2015-06-10 | Voice generation device, voice generation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015117697A JP6507867B2 (en) | 2015-06-10 | 2015-06-10 | Voice generation device, voice generation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017003774A JP2017003774A (en) | 2017-01-05 |
JP6507867B2 true JP6507867B2 (en) | 2019-05-08 |
Family
ID=57753993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015117697A Active JP6507867B2 (en) | 2015-06-10 | 2015-06-10 | Voice generation device, voice generation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6507867B2 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2839192B2 (en) * | 1989-02-10 | 1998-12-16 | 株式会社リコー | Speech synthesizer |
JPH02293900A (en) * | 1989-05-09 | 1990-12-05 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
JPH05307395A (en) * | 1992-04-30 | 1993-11-19 | Sony Corp | Voice synthesizer |
JP4953767B2 (en) * | 2006-11-02 | 2012-06-13 | アルパイン株式会社 | Speech generator |
GB2520048B (en) * | 2013-11-07 | 2018-07-11 | Toshiba Res Europe Limited | Speech processing system |
-
2015
- 2015-06-10 JP JP2015117697A patent/JP6507867B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017003774A (en) | 2017-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4539537B2 (en) | Speech synthesis apparatus, speech synthesis method, and computer program | |
JP4296231B2 (en) | Voice quality editing apparatus and voice quality editing method | |
JP4878538B2 (en) | Speech synthesizer | |
JP5949607B2 (en) | Speech synthesizer | |
JP4797597B2 (en) | Language learning device | |
JPH10153998A (en) | Auxiliary information utilizing type voice synthesizing method, recording medium recording procedure performing this method, and device performing this method | |
JP2007140200A (en) | Language learning device and program | |
JP2001282278A (en) | Voice information processor, and its method and storage medium | |
JP2011186143A (en) | Speech synthesizer, speech synthesis method for learning user's behavior, and program | |
JP2003337592A (en) | Method and equipment for synthesizing voice, and program for synthesizing voice | |
JP2005345699A (en) | Device, method, and program for speech editing | |
JP6507867B2 (en) | Voice generation device, voice generation method, and program | |
JP2008185911A (en) | Voice synthesizer | |
JP3728173B2 (en) | Speech synthesis method, apparatus and storage medium | |
JP4564416B2 (en) | Speech synthesis apparatus and speech synthesis program | |
RU2510954C2 (en) | Method of re-sounding audio materials and apparatus for realising said method | |
JP6314879B2 (en) | Reading aloud evaluation device, reading aloud evaluation method, and program | |
JP2007139868A (en) | Language learning device | |
JP7339151B2 (en) | Speech synthesizer, speech synthesis program and speech synthesis method | |
JP6256379B2 (en) | Display control apparatus, display control method, and program | |
JP3785892B2 (en) | Speech synthesizer and recording medium | |
JP2013033103A (en) | Voice quality conversion device and voice quality conversion method | |
JP2004309724A (en) | Text speech synthesizer, and text speech synthesizing method and program therefor | |
JP5605731B2 (en) | Voice feature amount calculation device | |
JP2006349787A (en) | Method and device for synthesizing voices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6507867 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |