JP6436806B2 - 音声合成用データ作成方法、及び音声合成用データ作成装置 - Google Patents

音声合成用データ作成方法、及び音声合成用データ作成装置 Download PDF

Info

Publication number
JP6436806B2
JP6436806B2 JP2015019009A JP2015019009A JP6436806B2 JP 6436806 B2 JP6436806 B2 JP 6436806B2 JP 2015019009 A JP2015019009 A JP 2015019009A JP 2015019009 A JP2015019009 A JP 2015019009A JP 6436806 B2 JP6436806 B2 JP 6436806B2
Authority
JP
Japan
Prior art keywords
data
speech
colloquial
text
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015019009A
Other languages
English (en)
Other versions
JP2016142936A (ja
JP2016142936A5 (ja
Inventor
慶華 孫
慶華 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Technology Ltd
Original Assignee
Hitachi ULSI Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi ULSI Systems Co Ltd filed Critical Hitachi ULSI Systems Co Ltd
Priority to JP2015019009A priority Critical patent/JP6436806B2/ja
Publication of JP2016142936A publication Critical patent/JP2016142936A/ja
Publication of JP2016142936A5 publication Critical patent/JP2016142936A5/ja
Application granted granted Critical
Publication of JP6436806B2 publication Critical patent/JP6436806B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声合成用データ作成方法、及び音声合成用データ作成装置に関し、例えば、収録した口語調音声から、読み上げ調との差異(口語調度)を自動的に測定する技術に関するものである。
テキストを音声に変換して読み上げるテキスト音声合成技術、およびそれを利用したテキスト音声合成システムがある。このような技術、システムの応用先として、例えば、カーナビゲーションでのガイド音声、携帯電話・スマートフォンでのメール読み上げや音声対話インタフェース、視覚障碍者向けのスクリーンリーダー、電子書籍の読み上げ機能などが存在する。
近年、音声合成技術はその重要性が増大している。例えば、カーナビゲーションや携帯電話・スマートフォンの普及に加えて障碍者や高齢者を対象としたユニバーサルデザインの志向によって音声を使ったユーザインターフェースが今まで以上に使われるようになってきている。また、近年では、電子書籍端末の普及が始まり、音声読上げに必須な音声合成技術のニーズも拡大している。
最近、音声合成技術は、カーナビや携帯電話などの音声対話処理で多く用いられるようになってきている。加えて、そのような応用例では、ユーザが会話を自然に進められるように、話し言葉(以降、口語調)での音声を合成したいというニーズが増えてきている。
従来の音声合成技術であっても、合成音声の韻律(抑揚やリズム、強さなど)を工夫することで口語調の音声を生成できるものは存在している。例えば、標準的な発話特性を有する韻律特徴(読み上げ調韻律)に、感情や個性、発話スタイルなどの発話特性の違いに応じて補正するため修正韻律(口語調韻律)を重畳することで、口語調を含む多様な韻律を実現する手法が提案されている(特許文献1参照)。
また、入力されたテキストについて、口語調音声の特徴を担う部分(口語表現部分)とそれ以外の部分を分けて、前者に関しては口語調音声コーパスから得られた韻律や音声を用いて合成し、後者に関しては従来読み上げ調音声合成手法で合成するという技術も考案されている(特許文献2参照)。このような手法では、従来培ってきた読み上げ音声合成技術を最大限に生かしたうえ、自然性が高く、安定した口語調音声合成が実現できると考えられる。
特開2003−337592号公報 特開2014−062970号公報
しかし、特許文献1の技術では、音声合成時に大きく韻律を制御する(変形させる)ため、合成音声の品質が劣化するという課題が指摘されている。
また、特許文献1及び2に開示の何れの手法においても、口語調での音声合成を実現するために、収録した口語調音声コーパスから、口語調音声データの作成が必須となる。例えば、特許文献2では、収録した口語音声から、熟練したラベリング作業者の経験に基づいて、手作業で口語調表現を抽出していた。しかし、この作業は、非常に時間がかかるうえ、作業者ごとに判定基準が異なり、抽出した口語調表現の一貫性を保つことが難しい(例えば、同じ音声に対しても、作業者ごとに、抽出された口語調表現が異なる。)。さらに、特許文献1の音声合成方法を用いる場合、音声のセグメントごとに、口語調表現らしさをより正確に定量的に評価することが望まれる。しかし、作業者の手作業ではこのような定量的な評価はほぼ不可能である。
本発明はこのような状況に鑑みてなされたものであり、口語調音声のように、読み上げ音声(平静音声)の特徴とは異なる韻律や声質の特徴を持つ音声に対して、その特徴部分のデータを自動的に抽出する技術を提供するものである。
上記課題を解決するために、本発明では、まず、予め用意されている第2種音声の韻律モデルをコーパスデータに含まれるテキストに対して適用し、テキストに対応する第2韻律を予測し、当該コーパスに含まれる音声データから抽出された第1韻律と第2韻律の差分値を算出する。次に、コーパスデータのテキストに含まれる文字のうち、差分値が所定の閾値よりも大きい文字を判定する。そして、この判定結果に基づいて、第1韻律と第2韻律との違いに起因する特徴テキスト部分に対応するデータを抽出する。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
本発明によれば、口語調音声のように、読み上げ音声(平静音声)の特徴とは異なる韻律や声質の特徴を持つ音声に対して、その特徴部分のデータを自動的に抽出することができるようになる。
本発明の実施形態による音声合成システムのハードウェア構成例を示す図である。 本発明の第1の実施形態による音声合成システムの機能ブロックを示す図である。 本発明の実施形態による読み上げ調韻律・音韻予測部によって予測された韻律特徴量の例を示す図である。 本発明の実施形態による韻律・音韻特徴抽出部によって抽出された韻律特徴量の例を示す図である。 本発明の実施形態による口語調度算出部によって算出された韻律差分値の例を示す図である。 本発明の第1の実施形態による口語調表現部分の自動抽出部によって計算された音節(モーラ)レベルでの口語調度の例を示す図である。 本発明の第1の実施形態による口語調表現部分の自動抽出部によって計算された形態素レベルでの口語調度の例を示す図である。 本発明の第1の実施形態による口語調表現部分の自動抽出部によって計算されたアクセント句レベルでの口語調度の例を示す図である。 本発明の第1の実施形態による口語調表現部分の自動抽出部によって抽出された口語調音声データの例を示す図である。 本発明の第1の実施形態による口語調表現部分の自動抽出部によって抽出された口語調韻律データの例を示す図である。 本発明の第1の実施形態による口語調表現部分の自動抽出部によって抽出された口語調テキストデータの例を示す図である。 本発明の第1の実施形態による口語調表現抽出ルール作成部で用いられるデータの例を示す図である。 本発明の第1の実施形態による口語調表現抽出ルール作成部で生成されたルールの例を示す図である。 本発明の第1の実施形態による、英語F0パターンによる口語調度の計算を説明する図である。 本発明の第1の実施形態による、英語単語レベルで計算した口語調度の例を示す図である。 本発明の第1お実施形態による口語調データ作成処理を説明するためのフローチャートである。 本発明の第2の実施形態による音声合成システムの機能ブロックを示す図である。 本発明の第1の実施形態による口語調表現抽出ルール作成部で用いられるデータ(口語調度が連続値)の例を示す図である。 本発明の第2の実施形態による口語調度予測&韻律混合比決定部で生成した口語調度および口語調混合比の例を示す図である。 本発明の第2の実施形態による韻律混合部で生成した韻律の例を示す図である。 本発明の第2の実施形態による韻律混合処理の概念を示す図である。 本発明の第2の実施形態による口語調データ作成処理を説明するためのフローチャートである。
本発明は、従来手作業で行っていた口語調データ(口語調表現抽出ルール又は口語調度モデル、口語調韻律・音韻モデル、及び口語調音声DB)の作成を、収録口語調音声コーパスと読み上げ韻律・音韻予測モデルを用いて自動化するものである。具体的には、本発明は、収録した口語調音声から抽出した特徴量と、収録した音声のテキストデータを読み上げモデルで読み上げた場合の特徴量とを比較して口語調表現部分を抽出する。口語の言い回しで特徴ある部分(例えば、「今日は雨かなぁ」の「かなぁ」の部分)以外は、収録音声と読み上げ音声とでは差がないが、特徴部分に関しては特徴量に差異が生じるという性質を利用したものである。この特徴ある部分の情報から口語調表現抽出ルール等、口語調韻律・音韻モデル、口語調音声が作成され、口語調データとして登録される。音声合成装置では、この口語調データを用いて、例えば特許文献2で示された方法で口語調の音声合成データを出力する。
以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これらの情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
以下では「プロセッサ」を主語(動作主体)として本発明の実施形態における各処理について説明を行うが、プロセッサはプログラムを実行することで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、「プログラム」を主語とした説明としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。
(1)第1の実施形態
<ハードウェア構成>
図1は、本発明の実施形態による音声合成システムのハードウェア構成例を示す図である。音声合成システム1は、各種プログラムを実行するプロセッサ(CPU:Central Processing Unit)101と、各種プログラムを格納するメモリ102と、各種データを格納する記憶装置103と、出力装置104と、入力装置105と、必要に応じて通信デバイス106と、を有している。
メモリ102は、少なくとも口語調データ(口語調表現抽出ルール、口語調韻律・音韻モデル、及び口語調音声DBを含む)を作成する口語調データ作成プログラム1021と、読み上げ調データ(読み上げ韻律・音韻予測モデル、及び読み上げ調音声DBを含む)を作成する読み上げ調データ作成プログラム1022と、音声合成処理を実行する音声合成プログラム1023と、を格納する。
記憶装置103は、読み上げ調データを作成するために用いられる、収録した読み上げ調音声データ1031と、収録した読み上げ調音声データから抽出された特徴量を学習して得られる読み上げ韻律・音韻予測モデル1032と、収録した読み上げ調音声データ1031から生成された読み上げ調音声DB1033と、を格納する。また、記憶装置103は、口語調データを作成する元データである収録した口語調音声コーパスデータ1034と、口語調音声コーパスデータ1034から抽出された口語調抽出データ1035と、口語調抽出データ1035に基づいて生成された口語調表現抽出ルール1036と、口語調抽出データ1035の特徴を学習して得られる口語調韻律・音韻モデル1037と、口語調抽出データ1035から生成される口語調音声DB1038と、を格納している。
出力装置104は、音声合成処理して得られる音声を出力するデバイスである。例えば、スピーカが該当する。また、出力装置104は、口語調データ作成処理によって生成されるデータを画面上に表示したりしても良い。
入力装置105は、テキストや音声を入力するためのデバイスである。例えば、テキスト入力であればキーボード、マウス、入力すべきテキストデータを取り込んで自動的に入力するソフトウェア等が該当し、音声入力であれば、マイクや入力すべき音声データを取り込んで自動的に入力するソフトウェア等が該当する。
通信デバイス106は、必要に応じて設けられるデバイスであり、処理に必要なデータを受信したり、処理済のデータを他の装置に送信したりする場合に用いられる。
なお、図1に示される音声合成システム1は、読み上げ調データ作成処理10と、口語調データ作成処理11と、音声合成処理12と、を実行するシステムとして構成されているが、本発明の特徴である口語調データ作成処理11のみを実行する口語調データ作成装置として構成しても良い。この場合、メモリ102に格納されるプログラムは口語調データ作成プロプログラムのみということになる。また、各処理を別のコンピュータで実行させるようなシステムを音声合成システムとして構成しても良い。この場合、読み上げ調データ作成処理10を実行するコンピュータ(読み上げデータ作成装置)、口語調データ作成処理11を実行するコンピュータ(口語調データ作成装置)、音声合成処理12を実行するコンピュータ(音声合成装置)がそれぞれ独立に存在していても良い(それぞれがネットワークに接続され、遠隔的に設置されていても良い)。
コンピュータが口語調データ作成装置を構成する場合には、メモリ102は、口語調データ作成プログラム1021を格納する。また、この場合、記憶装置103は、収録した口語調音声コーパスデータ1034、口語調抽出データ1035、口語調表現抽出ルール1036、口語調韻律・音韻モデル1037、及び口語調音声DB1038を格納することとなる。
<機能ブロックと処理内容>
図2は、本発明の第1の実施形態による音声合成システム1の機能ブロック図である。音声合成システム1は、読み上げ調データ作成処理10と、口語調データ作成処理(口語調の音声合成用データを作成する処理)11と、口語調データを用いた音声合成処理12を実行する。
読み上げ調データ作成処理10は、韻律・音韻抽出部、音声DB作成部、韻律・音韻特徴自動学習部などで構成されるが、これらによる処理は一般的な音声合成データ作成に用いられる処理であり、本発明の特徴となるものではないので、以降、その説明は原則省略する。
(i)口語調データ作成処理
口語調データ作成処理11は、収録した口語調音声と、読み上げ韻律・音韻予測モデルを入力すると、口語調音声から口語調表現部分を自動抽出し、口語調音声合成に必要な口語調表現抽出ルール、口語調韻律・音韻モデル、口語調音声DB(データベースの略)を生成する処理である。この口語調データ作成処理11を実現するために、韻律・音韻特徴抽出部202、韻律・音韻自動学習部206、音声DB作成部207という通常の音声データ作成装置が持つ処理単位を備える。これに加えて、本発明に特徴的な、読み上げ調韻律・音韻予測部201、口語調度算出部203、口語調表現部分の自動抽出部204が設けられ、さらに、入力テキストから口語調テキスト表現を自動検出できる口語調表現抽出ルールを生成する口語調表現抽出ルール作成部205が設けられる。
音声合成処理12は、口語調データ作成処理によって生成された口語調表現抽出ルール1036、口語調韻律・音韻モデル1037、及び口語調音声DB1038を用いて、入力されたテキストデータを処理し、合成音声を生成する処理である。当該音声合成処理は、特許文献2に開示された内容と同様であるので、以降、詳細な説明は原則省略する。
以上のように、読み上げ調データ作成処理10と音声合成処理12は、通常の音声合成システムにも存在する処理単位であり、口語調データ作成処理11が本発明の特徴となる処理に相当する。従って、以下では口語調データ作成処理11を中心に説明することとする。
なお、以降の説明において、収録した音声として「お願いします」や「今日は雨かなぁ」などの単文を用いているが、複数の文を結合した長い文書の収録も可能である。また、図2では入力テキストを漢字かな文としているが、もちろん、英語や中国語などの外国語でも構わない。その場合は、内部処理もその外国語に対応したプログラム・データ(たとえば、収録した口語調音声、収録した読み上げ調音声)を用いなければならないことは言うまでもない。
読み上げ調韻律・音韻予測部201は、収録した口語調音声コーパスデータ1034から、収録した口語調音声の発話テキストを読み出し、それに対して読み上げ韻律・音韻予測モデル1032を適用し、読み上げ調の韻律特徴量および音韻特徴量を予測する。つまり、ここでは、発話者がこのテキストに対して、読み上げ調スタイルで発話した場合は、韻律・音韻特徴がどのようなものであるかが分かる。ただし、韻律特徴量は、発話速度を表す特徴量(例えば、音素継続長、音節継続長など)、声の高さを表す特徴量(例えば、基本周波数の時間変化パターン(F0パターン)など)、音の大きさを表す特徴量(例えば、短時間平均パワーなど)等である。音韻特徴量は、声道形状を表す特徴量(例えば、ケプストラム、LPC係数など)が考えられる。また、これらの情報をすべて用いる必要がないが、口語調の特徴に最も寄与する基本周波数を用いることが好ましい。ただし、以降、本明細書では、音韻特徴量についての説明を省略し、単に韻律特徴量と記載した場合でも、韻律特徴量と音韻特徴量と両方を意味するものとする。また、韻律特徴量についても、理解しやすいF0パターンを中心に説明を行うこととする。例えば、収録した口語調音声「今日は雨かなぁ」のテキストに対して予測された韻律特徴は図3に示されるようなものとなる。なお、読み上げ韻律・音韻予測モデル1032は、口語調音声と同じ話者の読み上げ調音声から学習したものを用いることが望ましいが、別の話者から学習したモデルを口語調音声話者に適用したものでも良い。
韻律・音韻特徴抽出部202は、収録した収録した口語調音声コーパスデータ1034から収録音声データを読み出し、その音声の韻律・音韻特徴量を抽出する。つまり、発話者がこのテキストに対して、実際に口語調スタイルで発話した場合の韻律・音韻特徴がどのようなものであるかが分かる。だたし、収録した口語調音声には、事前に音素セグメンテーション情報が、自動および手動で付与されているものとする。なお、抽出する特徴量は、読み上げ調韻律・音韻予測部で予測された特徴量と同じである。例えば、収録した口語調音声「今日は雨かなぁ」の音声波形に対して、抽出した韻律特徴量は、図4に示されるようなものとなる。
口語調度算出部203は、読み上げ調韻律・音韻予測部201で予測された特徴量と、韻律・音韻特徴抽出部202で抽出した収録口語調音声の特徴量とを比較し、口語調への寄与度(口語調度)を計算する。例えば、口語調算出部203は、単純に音素ごとに韻律特徴量の差分を取り、下記式1を用いて音素ごとの口語調度を計算する。図5は、継続長係数=0.3;高さ係数=0.5;強さ係数=0.2の場合、計算された口語調度を示している。
口語調度=|継続長係数*継続長差分|+|高さ係数*高さ差分|
+|強さ係数*強さ差分| ・・・・・ (式1)
ここで、“|A|”は“A”の絶対値を示すものとする。
口語調表現部分の自動抽出部204は、口語調度算出部203で計算された口語調度を用いて、音声を構成する各セグメントについて、セグメントの口語調度を計算し、口語調度が所定の閾値以上を示すセグメントを口語調表現部分として自動抽出する。抽出された口語調表現部分は、口語調抽出データ1035に格納される。口語調表現のセグメント単位は、合成時に用いる韻律モデルにも依存するが、日本語であれば音節単位、形態素単位、アクセント句単位などが適切だと考えられる。例えば、セグメント単位が音節(モーラ)の場合、口語調特徴が母音のみに現れることを仮定すると、音節口語調度は式2のようになる。つまり、音節に含まれる母音の口語調度が音節口語調度として与えられる。式2に従うと、音節口語調度は、図6のようになる。閾値が“20”の場合は、7番目の“ナ”と8番目の“ァ”が抽出される。閾値が“10”の場合には、6番目の“カ”も口語調データとして、抽出されることになる。なお、例えば、閾値は経験値で定められる値であり、予め決めておく。
音節口語調度 = 母音口語調度 ・・・・・ (式2)
また、例えば、セグメント単位が形態素であるとする場合、口語調度は式3のように表される。つまり、音節に含まれる音節の口語調度の平均値が形態素口語調度として与えられる。式3に従うと、形態素口語調度は、図7のようになる。閾値が“25”の場合は、4番目の“かなぁ”が口語調データとして、抽出される。
形態素口語調度 = 音節平均口語調度 ・・・・・ (式3)
さらに、セグメント単位がアクセント句の場合、口語調度は式4のように表される。つまり、アクセント句に含まれる形態素の形態素口語調度のうち、最大値が口語調度として与えられる。式4に従うと、アクセント句口語調度は図8のようになる。閾値が“20”の場合は、2番目の“雨かなぁ”が口語調データとして、抽出される。
アクセント句口語調度 = 形態素最大口語調度 ・・・・・ (式4)
音声DB作成部207は、口語調表現部分の自動抽出部204によって抽出された口語調抽出データの音声波形を蓄積し、音声合成に用いる口語調音声DB1038を作成する。口語調音声DB1038は、音声合成装置による音声合成処理に適合する所定のフォーマットで作成される。例えば、「今日は雨かなぁ」から抽出した口語調表現部分の音声波形は、図9のようになる。
韻律音韻特徴自動学習部206は、口語調表現部分の自動抽出部204から抽出された口語調抽出データの韻律・音韻情報(図10参照)を用いて、音声合成に用いる口語調韻律・音韻モデル1037を作成する。口語調韻律・音韻モデル1037は、音声合成装置による音声合成処理に適合する所定のフォーマットで作成される。口語調韻律・音韻モデル1037は、コンテキストから韻律・音韻情報を推定する統計モデルでも良いし、口語調のデータとして抽出され肉声の韻律・音韻情報をそのまま蓄積したモデルでも良い。例えば、「今日は雨かなぁ」から抽出した口語調表現部分の韻律(F0パターン)は、図10のようになる。
口語調表現抽出ルール作成部205は、口語調表現部分の自動抽出部204によって抽出された口語調抽出データのテキスト(図11)を用いて、口語調表現抽出ルールを作成する。最も簡単な口語調表現抽出ルールは、「“かなぁ”という文字列がマッチした場合、その部分を口語調表現とする。」のように、文字列表現のみを用いた文字列マッチングルールである。ただし、このようなルール作成手法では、例えば「お願いします」の口語調音声に対して、“します”の部分を口語調表現として抽出されたとすると、「します”という文字列がマッチした場合、その部分を口語調表現とする。」というルールを作成されてしまう。このルールは明らかに不適切である。従って、作成したルールには、前後のコンテキスト情報を考慮した方が良いと考えられる。例えば、「お願いします」「今日は雨かなぁ」の文に対して、口語調テキストを形態素単位(アクセント句単位など、形態素より大きい言語単位でも良い)に分解し、それぞれコンテキストと口語調度(“Yes”と“No”の2値)を付与すると、図12のようになる。このデータに対して、機械学習手法を用いて、口語調表現抽出ルールを自動作成することができる。例えば、2分岐決定木を自動構築した場合、図13のようになる。もちろん、ニューラルネットワーク、スーパーベクトルマシンなどのカテゴリを推測する手法を用いても良い。図13は、「お願いします」「今日は雨かなぁ」の文に対して、口語調テキストを形態素単位(アクセント句単位など、形態素より大きい言語単位でも良い)に分解し、それぞれコンテキストと口語調度(口語調表現部分抽出部で口語調抽出に用いる口語調度の連続値)を付与した場合の2分岐決定木(図12を基に学習したツリー)を示している。このデータに対して、機械学習手法を用いて、口語調表現度予測モデルを自動作成することができる。例えば、重回帰解析などの連続値を推測する統計手法を用いることができる。そして、合成時に文を構成する各形態素について、口語調度を予測し、ある閾値を超えた形態素を「口語調表現」とし、一方、予測した口語調度がその閾値より小さい形態素を「口語調表現でない」とする。
以上のように、読み上げ調韻律・音韻予測部201、韻律・音韻特徴抽出部202、口語調度算出部203、及び口語調表現部分の自動抽出部204については、日本語「今日は雨かなぁ」を適用した場合を例に説明したが、英語や中国語などの外国語でも構わない。例えば、口語調音声が英語「Oh, It's raining.」である場合、図14で示すように、F0観測値(収録した口語調音声からのF0値)とF0予測値(読み上げ調音声からのF0値)が得られたとする。英語の場合は、口語調表現のセグメント単位は、音素や音節より、単語や韻律語を用いたほうが良い。例えば、セグメント単位が単語の場合、口語調度は式5のようになる。ただし、この式は一例であり、上記式1を用いても構わない。式5に従うと、各単語の口語調度が図15のようになる。閾値を50と設定した場合、一番最初の“Oh”が、口語調表現として抽出される。
単語口語調度=|予測した単語最大F0値 − 観測した単語最大F0値| ・・・ (式5)
ここで、“|A|”は“A”の絶対値を示している。
(ii)音声合成処理
音声合成処理では、まずテキスト入力部に音声合成すべきテキスト(例えば、かな漢字文)がユーザによって入力され、テキスト解析部で解析される。
口語調表現自動抽出部は、テキスト解析部で解析されたコンテキスト情報と口語調データ作成処理11の口語調表現抽出ルール作成部205で作成された口語調表現抽出ルール1036を用いて、入力テキストを「口語調表現」部分と「口語調表現でない」部分に分割する。「口語調表現」部分は、口語調部分の韻律・音韻作成部に出力し、「口語調表現でない」部分は、読み上げ部分の韻律・音韻予測部に出力する。ただし、入力テキストに必ず「口語調表現」部分と「口語調表現でない」部分と両方存在すると限らないので、入力テキストが必ず分割されると限らない。
例えば、テキスト「今日は晴れかなぁ」が入力された場合、図13で示した口語調表現抽出ルールに従い、口語調表現が抽出される。この例では、形態素「かなぁ」が「口語調表現」として抽出され、残りの形態素が「口語調表現でない」と判断される。そのため、入力テキスト「今日は晴れかなぁ」は、口語調表現でない部分の「今日は晴れ」と口語調表現部分の「かなぁ」と分割される。また、例えば、テキスト「掃除します」が入力された場合、図13で示した口語調表現抽出ルールには「掃除」「します」の両方とも口語調表現として登録されていないため、口語調表現は抽出されず、文分割は行われない。
韻律生成部は、口語調部分の韻律・音韻作成部で生成された韻律・音韻特徴量と読み上げ部分の韻律・音韻予測部で生成された韻律・音韻特徴量を合併し、文全体の韻律・音韻特徴量ターゲットを生成する。
そして、波形生成部は、読み上げ調音声DB1033を参照して、口語調ではない部分のテキストについて声質を考慮した処理を実行し、読み上げ調部分のテキストについて音声波形を生成する。また、口語調音声生成部は、口語調音声DB1038を参照して、口語調部分のテキストについて音声波形を生成する。
波形接続部は、口語調部分の音声波形と口語調ではない部分(読み上げ調部分)の音声波形を接続し、音声出力部は、最終的な合成音声を出力する。
<口語調データ作成処理のフローチャート>
図16は、本発明の第1の実施形態による口語調データ作成処理を説明するためのフローチャートである。
(i)ステップ1601
プロセッサ101は、収録した口語調音声コーパスデータ1034の入力を受け付ける。当該データには、収録音声データとそれに対応するテキストデータ(発話テキスト)がセットとなっている。
(ii)ステップ1602
プロセッサ101は、収録した収録した口語調音声コーパスデータ1034の収録音声データから、その音声の韻律・音韻特徴量を抽出する。詳細については上述した通りである。
(iii)ステップ1603
プロセッサ101は、収録した口語調音声コーパスデータ1034の発話テキストに対して読み上げ韻律・音韻予測モデル1032を適用し、読み上げ調の韻律特徴量および音韻特徴量を予測する。つまり、ここでは、発話者がこのテキストに対して、読み上げ調スタイルで発話した場合は、韻律・音韻特徴がどのようなものであるかが分かる。詳細は上述した通りである。
(iv)ステップ1604
プロセッサ101は、ステップ1602で抽出した収録口語調音声の特徴量と、ステップ1603で予測した韻律・音韻特徴量とを比較し、口語調への寄与度(口語調度)を計算する。
(v)ステップ1605
プロセッサ101は、ステップ1604で得られた口語調度を用いて、音声を構成する各セグメントについて、セグメントの口語調度を計算し、口語調度が所定の閾値以上を示すセグメントを口語調表現部分として自動抽出する。抽出された口語調表現部分は、口語調抽出データ1035に格納される。詳細は上述した通りである。
(vi)ステップ1606
プロセッサ101は、ステップ1605で得られた口語調抽出データの音声波形を蓄積し、音声合成に用いる口語調音声DB1038を作成する
(vii)ステップ1607
プロセッサ101は、口語調抽出データの韻律・音韻情報(図10参照)を用いて、音声合成に用いる口語調韻律・音韻モデル1037を作成する。詳細は上述した通りである。
(viii)ステップ1608
プロセッサ101は、ステップ1605で得られた口語調抽出データのテキスト(図11)を用いて、口語調表現抽出ルール1036を作成する。詳細は上述した通りである。
(2)第2の実施形態
第2の実施形態は、特許文献1のような音声合成装置に用いる口語調音声合成用データを作成することを想定したものである。ハードウェア構成は第1の実施形態と同様であるので、説明は省略する。ただし、記憶装置103は、口語調抽出データ1035の代わりに口語調度付き口語調音声データ1702、口語調表現抽出ルール1036の代わりに口語調度予測モデル1704を格納する。
<機能ブロックと処理内容>
図17は、本発明の第2の実施形態による音声合成システムの機能ブロックを示す図である。第2の実施形態では、従来手作業による音声の口語調度ラベリングに代わって、収録した口語調音声にセグメントごとに、口語調度の定量的な評価を実現し、入力テキストの各セグメントに対する口語調度を予測する。この予測した口語調度によって、口語調音声から学習した韻律・音韻モデルと読み上げ調音声から学習した読み上げ調韻律・音韻モデルと、セグメント毎の混合割合を計算し、文全体の韻律・音韻特徴の予測を行う。第1の実施形態とは異なり、入力テキストを分割することがないので、分割された口語調表現部分と口語調表現でない部分と接続するときの不連続感を低減できると考えられる。
以下では、第1の実施形態とは異なる部分のみ説明することとする。
(i)口語調データ作成処理
口語調度付与部1701は、口語調度算出部203で算出された韻律特徴の差分情報を用いて、収録した口語調音声の各セグメントに口語調度を付与し、口語調度付き口語調音声データ1702を生成する。ここで、セグメントの単位は、音素、音節、形態素、アクセント句、フレーズ、文などが考えられるが、口語調音声の特徴を担う最小単位として、形態素を用いたことが好ましい。各セグメントの口語調度の計算については、口語調度算出部203で算出された韻律特徴の差分情報から求められるが、その具体例については、第1の実施形態で説明したので、ここでは詳細については省略する。「お願いします」「今日は雨かなぁ」の文に対して、口語調テキストを形態素単位に分解し、それぞれコンテキストと口語調度を付与すると、図18のようになる。
口語調度予測モデル学習部1703は、口語調度付与部1701が生成した口語調度付き口語調音声データ1702を用いて、口語調度を予測する統計モデル(口語調度予測モデル)1704を生成する。第1の実施形態では、入力文(テキスト)を「口語調」の部分と「口語調でない」の部分と分割するためのルールを作成しているが、第2の実施形態では、入力文を構成するすべてのセグメントについて、口語調度を予測するための統計モデルを作成することになる。
(ii)音声合成処理
第2の実施形態では、テキスト解析部が入力テキストを解析した後、口語調度予測&韻律混合比決定部が、口語調度予測モデル1704を用いて、テキスト文を構成する各セグメントについて、口語調度を予測する。さらに、口語調度予測&韻律混合比決定部は、この予測した口語調度に基づいて、口語調韻律と読み上げ調韻律の混合比率を計算する。例えば、「今日は晴れかなぁ」というテキスト文が入力された場合、すべての形態素について口語調を予測した結果は、図19のようになる。ここで、口語調混合比を式6のように定義した場合(口語調下限値=0,口語調上限値=50とする)、口語調混合比は、図19に示される値となる。
口語調混合比=MIN(100%,(口語調度−口語調下限値)/(口語調上限値−口語調下限値))
・・・・・ (式6)
ここで、MIN(A,B)は、AとBとの間で小さい方の値を選ぶことを意味するものとする。
読み上げ調韻律・音韻予測部201は、読み上げ韻律・音韻予測モデル1032を参照し、入力テキストの読み上げ調の音声データを予測する。口語調韻律・音韻作成部は、口語調韻律・音韻モデル1037を参照し、入力テキストの口語調の音声データを作成する。
韻律混合部は、口語調度予測&韻律混合比決定部で生成された口語調混合比を用いて、口語調の音声データと読み上げ調の音声データの韻律混合処理を実施する。例えば、入力テキスト「今日は晴れかなぁ」に対して、図20に示されるように口語調韻律と読み上げ韻律が予測された場合、式7を用いて、韻律生成を行う。
韻律=口語調韻律*口語調混合比+読み上げ調韻律*(1-口語調混合比) ・・・・・ (式7)
図21は、当該韻律混合処理の概念を示す図である。図21に示されるように、「今日」については読み上げ調音声データが90%、口語調音声データが10%用いられる。「は」についてはそれぞれ84%、16%用いられ、「晴れ」についてはそれぞれ66%、34%用いられる。そして、「かな」については読み上げ調音声データが4%、口語調音声データが96%用いられて、混合韻律が生成される。
最後に、音声生成部は、韻律混合部で生成した韻律をターゲットとして音声を生成し、音声出力部がこれを出力する。
<口語調データ作成処理のフローチャート>
図22は、本発明の第2の実施形態による口語調データ作成処理を説明するためのフローチャートである。
(i)ステップ2201
プロセッサ101は、収録した口語調音声コーパスデータ1034の入力を受け付ける。当該データには、収録音声データとそれに対応するテキストデータ(発話テキスト)がセットとなっている。
(ii)ステップ2202
プロセッサ101は、収録した収録した口語調音声コーパスデータ1034の収録音声データから、その音声の韻律・音韻特徴量を抽出する。詳細については上述した通りである。
(iii)ステップ2203
プロセッサ101は、収録した口語調音声コーパスデータ1034の発話テキストに対して読み上げ韻律・音韻予測モデル1032を適用し、読み上げ調の韻律特徴量および音韻特徴量を予測する。つまり、ここでは、発話者がこのテキストに対して、読み上げ調スタイルで発話した場合は、韻律・音韻特徴がどのようなものであるかが分かる。詳細は上述した通りである。
(iv)ステップ2204
プロセッサ101は、ステップ2202で抽出した収録口語調音声の特徴量と、ステップ2203で予測した韻律・音韻特徴量とを比較し、口語調への寄与度(口語調度)を計算する。
(v)ステップ2205
プロセッサ101は、ステップ2204で算出された口語調度(韻律特徴の差分情報)を用いて、収録した口語調音声の各セグメントに口語調度を付与し、口語調度付き口語調音声データ1702を生成する。詳細は上述した通りである。
(vi)ステップ2206
プロセッサ101は、ステップ2205で得られた口語調度付き口語調音声データ1702の音声波形を蓄積し、音声合成に用いる口語調音声DB1038を作成する。
(vii)ステップ2207
プロセッサ101は、口語調度付き口語調音声データ1702の韻律・音韻情報(図10参照)を用いて、音声合成に用いる口語調韻律・音韻モデル1037を作成する。詳細は上述した通りである。
(viii)ステップ2208
プロセッサ101は、ステップ2204で得られた口語調度付き口語調音声データ1702を用いて、口語調予測モデル(口語調度予測モデル)1704を生成する。詳細は上述した通りである。
(3)まとめ
(i)第1の実施形態では、口語調音声データから韻律特徴量を抽出し、一方、当該口語調音声データに対応するテキストデータに対して読み上げ韻律・音韻予測モデルを適用して読み上げ調の韻律特徴量を予測する。次に、これらの韻律特徴量の差分を取り、差分値が所定の閾値(経験から設定される値)よりも大きい箇所を口語調の特徴部分(音声合成に用いる口語調データ)として抽出する。これらの処理は、収録した口語調音声コーパスと読み上げ韻律・音韻予測モデルを与えれば自動的に実行される。このように、口語調音声を始めとする韻律や声質の変化が大きい発話スタイルの合成音声から、その特徴を担う部分(口語調音声の場合は、口語調表現部分)を自動的に抽出するので、作業コストを抑えることができるうえ、異なった作業者による基準の不統一を改善できる。
第1の実施形態では、口語調表現抽出ルールが生成される。このルールは、口語調の特徴部分のテキストデータを用いて、与えられるテキストデータにおける口語調表現を抽出するためのルールとして生成される。この場合、特徴部分のテキストデータに加えて、当該テキストデータが含まれる口語調テキストの前後のコンテキスト情報を用いて当該ルールを生成するようにしても良い。このようなルールを作成することにより、このルールに従って生成された合成音声を、より自然で安定的な口語調音声とすることができるようになる。
第2の実施形態では、口語調韻律データと読み上げ調韻律データの差分値に基づいて、テキストのセグメントに対して、当該セグメントの口語調の程度を示す口語調度を算出し、これを口語調音声データに付与する。そして、この口語調度が付与された口語調音声データを用いて、音声合成用データが生成される。第2の実施形態による音声合成用データは、音声合成すべき入力テキストの口語調度を予測するための統計モデル(口語調度予測モデル)となっている。第2の実施形態によっても上述の第1の実施形態と同様の技術的効果を期待することができる。
(ii)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによっても実装できる。更に、汎用目的の多様なタイプのデバイスがここで記述内容に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのも有益である。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することもできる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点において限定の為ではなく説明のためである。本分野にスキルのある者であれば、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることを理解できるものと考えられる。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
1 音声合成システム
10 読み上げ調データ作成処理
11 口語調データ作成処理
12 音声合成処理
101 CPU
102 メモリ
103 記憶装置
104 出力装置
105 入力装置
106 通信デバイス

Claims (6)

  1. メモリから各種プログラムを読みだして実行し、音声合成処理で用いられる音声合成用データを作成するプロセッサが、第1種音声のコーパスデータの入力を受け付け、当該コーパスデータに含まれる音声データから第1韻律を抽出するステップと、
    前記プロセッサが、予め用意されている第2種音声の韻律モデルを前記コーパスデータに含まれるテキストに対して適用し、前記テキストに対応する第2韻律を予測するステップと、
    前記プロセッサが、前記第1韻律と前記第2韻律の差分値を算出するステップと、
    前記プロセッサが、前記テキストに含まれる文字のうち、前記差分値が所定の閾値よりも大きい文字を判定するステップと、
    前記プロセッサが、前記判定するステップの結果に基づいて、前記第1韻律と前記第2韻律との違いに起因する特徴テキスト部分に対応するデータを抽出するステップと、
    を含み、
    前記第1種音声は口語調音声であり、前記第2種音声は読み上げ調音声であり、
    前記第2種音声の韻律モデルは、読み上げ韻律・音韻予測モデルであり、
    前記抽出された特徴テキスト部分に対応するデータは、前記特徴テキスト部分の音声波形データ、韻律・音韻情報、及びテキストデータを含み、
    さらに、前記プロセッサが、前記特徴テキスト部分のテキストデータを用いて、与えられるテキストデータにおける口語調表現を抽出するためのルールを生成するステップを含むことを特徴とする音声合成用データ作成方法。
  2. 請求項において、
    前記プロセッサは、前記特徴テキスト部分のテキストデータに加えて、当該テキストデータが含まれる口語調テキストの前後のコンテキスト情報を用いて前記ルールを生成することを特徴とする音声合成用データ作成方法。
  3. メモリから各種プログラムを読みだして実行し、音声合成処理で用いられる音声合成用データを作成するプロセッサが、口語調音声のコーパスデータの入力を受け付け、当該コーパスデータに含まれる音声データから口語調韻律データを抽出するステップと、
    前記プロセッサが、予め用意されている読み上げ調の韻律モデルを前記コーパスデータに含まれるテキストに対して適用し、前記テキストに対応する読み上げ調韻律データを予測するステップと、
    前記プロセッサが、前記口語調韻律データと前記読み上げ調韻律データの差分値を算出するステップと、
    前記プロセッサが、前記差分値に基づいて、前記テキストのセグメントに対して、当該セグメントの口語調の程度を示す口語調度を算出し、前記口語調韻律データに付与するステップと、
    前記プロセッサが、前記口語調度が付与された前記口語調韻律データを用いて、前記音声合成用データを生成するステップと、
    を含むことを特徴とする音声合成用データ作成方法。
  4. 請求項において、
    前記音声合成用データを生成するステップは、前記プロセッサが、前記口語調度が付与された前記口語調韻律データを用いて、入力テキストの口語調度を予測するための統計モデルである口語調度予測モデルを生成することを含むことを特徴とする音声合成用データ作成方法。
  5. 各種プログラムを格納するメモリと、
    前記メモリから前記各種プログラムを読みだして実行し、音声合成処理で用いられる音声合成用データを作成するプロセッサと、を有し、
    前記プロセッサは、
    第1種音声のコーパスデータの入力を受け付け、当該コーパスデータに含まれる音声データから第1韻律を抽出する処理と、
    予め用意されている第2種音声の韻律モデルを前記コーパスデータに含まれるテキストに対して適用し、前記テキストに対応する第2韻律を予測する処理と、
    前記第1韻律と前記第2韻律の差分を算出する処理と、
    前記テキストに含まれる文字のうち、前記差分が所定の閾値よりも大きい文字を判定する処理と、
    前記第1韻律と前記第2韻律との違いに起因する特徴テキスト部分を抽出する処理と、
    を実行し、
    前記第1種音声は口語調音声であり、前記第2種音声は読み上げ調音声であり、
    前記第2種音声の韻律モデルは、読み上げ韻律・音韻予測モデルであり、
    前記抽出された特徴テキスト部分に対応するデータは、前記特徴テキスト部分の音声波形データ、韻律・音韻情報、及びテキストデータを含み、
    前記プロセッサは、さらに、前記特徴テキスト部分のテキストデータを用いて、与えられるテキストデータにおける口語調表現を抽出するためのルールを生成する処理を実行する音声合成用データ作成装置。
  6. 請求項において、
    前記プロセッサは、前記特徴テキスト部分のテキストデータに加えて、当該テキストデータが含まれる口語調テキストの前後のコンテキスト情報を用いて前記ルールを生成することを特徴とする音声合成用データ作成装置。
JP2015019009A 2015-02-03 2015-02-03 音声合成用データ作成方法、及び音声合成用データ作成装置 Active JP6436806B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015019009A JP6436806B2 (ja) 2015-02-03 2015-02-03 音声合成用データ作成方法、及び音声合成用データ作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015019009A JP6436806B2 (ja) 2015-02-03 2015-02-03 音声合成用データ作成方法、及び音声合成用データ作成装置

Publications (3)

Publication Number Publication Date
JP2016142936A JP2016142936A (ja) 2016-08-08
JP2016142936A5 JP2016142936A5 (ja) 2017-04-27
JP6436806B2 true JP6436806B2 (ja) 2018-12-12

Family

ID=56568702

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015019009A Active JP6436806B2 (ja) 2015-02-03 2015-02-03 音声合成用データ作成方法、及び音声合成用データ作成装置

Country Status (1)

Country Link
JP (1) JP6436806B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538313B (zh) * 2017-03-06 2021-01-15 中国移动通信有限公司研究院 一种语音质量测试方法、装置、主叫终端及语料播放设备
CN112331177B (zh) * 2020-11-05 2024-07-02 携程计算机技术(上海)有限公司 基于韵律的语音合成方法、模型训练方法及相关设备
CN113178188B (zh) * 2021-04-26 2024-05-28 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003302992A (ja) * 2002-04-11 2003-10-24 Canon Inc 音声合成方法及び装置
JP2003337592A (ja) * 2002-05-21 2003-11-28 Toshiba Corp 音声合成方法及び音声合成装置及び音声合成プログラム
JP2004226505A (ja) * 2003-01-20 2004-08-12 Toshiba Corp ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP5588932B2 (ja) * 2011-07-05 2014-09-10 日本電信電話株式会社 はなし言葉分析装置とその方法とプログラム
JP5967578B2 (ja) * 2012-04-27 2016-08-10 日本電信電話株式会社 局所韻律コンテキスト付与装置、局所韻律コンテキスト付与方法、およびプログラム
JP6013104B2 (ja) * 2012-09-20 2016-10-25 株式会社日立超エル・エス・アイ・システムズ 音声合成方法、装置、及びプログラム
JP6002598B2 (ja) * 2013-02-21 2016-10-05 日本電信電話株式会社 強調位置予測装置、その方法、およびプログラム

Also Published As

Publication number Publication date
JP2016142936A (ja) 2016-08-08

Similar Documents

Publication Publication Date Title
JP7500020B2 (ja) 多言語テキスト音声合成方法
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
US7809572B2 (en) Voice quality change portion locating apparatus
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
US8352270B2 (en) Interactive TTS optimization tool
US20070136062A1 (en) Method and apparatus for labelling speech
US20200365137A1 (en) Text-to-speech (tts) processing
JP2001282279A (ja) 音声情報処理方法及び装置及び記憶媒体
JPWO2006123539A1 (ja) 音声合成装置
JP2006293026A (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JPWO2016103652A1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
Kayte et al. A Marathi Hidden-Markov Model Based Speech Synthesis System
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
Janyoi et al. An Isarn dialect HMM-based text-to-speech system
JP3378547B2 (ja) 音声認識方法及び装置
Iyanda et al. Development of a Yorúbà Textto-Speech System Using Festival
Phan et al. An improvement of prosodic characteristics in vietnamese text to speech system
Kardava Georgian speech recognizer in famous searching systems and management of software package by voice commands in Georgian language
Ijima et al. Statistical model training technique based on speaker clustering approach for HMM-based speech synthesis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170322

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181113

R150 Certificate of patent or registration of utility model

Ref document number: 6436806

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250