JP2008268478A - アクセント調整可能な音声合成装置 - Google Patents

アクセント調整可能な音声合成装置 Download PDF

Info

Publication number
JP2008268478A
JP2008268478A JP2007110288A JP2007110288A JP2008268478A JP 2008268478 A JP2008268478 A JP 2008268478A JP 2007110288 A JP2007110288 A JP 2007110288A JP 2007110288 A JP2007110288 A JP 2007110288A JP 2008268478 A JP2008268478 A JP 2008268478A
Authority
JP
Japan
Prior art keywords
accent
data
speech
character string
analysis data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007110288A
Other languages
English (en)
Inventor
Mitsuaki Sato
光朗 佐藤
Makoto Takao
誠 高尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Create Ltd
Original Assignee
Hitachi Business Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Business Solutions Co Ltd filed Critical Hitachi Business Solutions Co Ltd
Priority to JP2007110288A priority Critical patent/JP2008268478A/ja
Publication of JP2008268478A publication Critical patent/JP2008268478A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ユーザビリティの高いアクセント調整用のGUIを備える音声合成装置を提供する。
【解決手段】音声合成装置は、入力されたテキストデータから形態素解析データを生成する形態素解析部24と、前記形態素解析データから合成波形データを生成する音声合成部25と、前記合成波形データを音声出力する音声出力部26と、前記形態素解析データのうちいずれか1つのアクセント句の文字列と、スライドバーと、前記スライドバー上を移動可能なスライダーとを表示し、前記スライダーの移動により前記文字列の中のアクセント位置の指定を受け付ける設定受付部22と、受け付けたアクセント位置に基づいて、前記形態素解析データに含まれるアクセント位置を変更し、前記音声合成部25に合成波形データ生成させ、前記音声出力部26に音声出力させる、アクセント調整部23と、を備える。
【選択図】図2

Description

本発明は、音声合成装置に関する。特に、音声合成時にアクセントを調整する技術に関する。
近年、テキストデータから合成音声を生成する音声合成装置において、高品質な合成音声を生成する方法として、自然音声から切り出した音声素片(音声波形の断片)の、ピッチを示す基本周波数、長さを示す継続時間長などの韻律パラメータや、音声波形を格納した音声コーパスを用い、テキストデータの読みやアクセントに対応する音素片を該音声コーパスから所定の基準を用いて選択して合成する技術が知られている。
一方、上記のような音声合成装置を用いても、自動生成された合成音声の発音はまだ完璧ではない。そこで、より自然な合成音声の発音を得るための効果的な方法の一つとして、アクセント調整がある。例えば、日本語において、アクセントは、発音文字列を構成する文字の音の高低の配置で表現される。具体的には、アクセント調整は、アクセント句と呼ばれる単位の文字列(アクセント文字を最大で1つ有する)の中で、アクセントの位置を変更する、若しくは、アクセントを無しにすることで行われる。
特許文献1には、音声合成装置が、テキストデータを読み・アクセントを含む言語に変換し、GUI(Graphical User Interface:グラフィカル・ユーザ・インタフェース)を用いて、該言語をアクセント句で区切って表示し、それらのアクセント句ごとに、読み・アクセントの変更候補を表示し、アクセント句と変更候補の選択を、ユーザによるマウスやキーボードの操作により受け付け、該言語を編集する技術が記載されている。
特開2006−30326号公報
従来のアクセント調整では、音声合成装置は、例えば、GUI機能により、図10(A)に示すような画面を表示する。該画面には、アクセント調整を行うことが可能な、例えば、一文「あめがふる。」が表示される。ユーザは、マウスなどを操作して、該画面上に表示されたポインタを移動させ、表示された文字列のうちアクセントを付与する文字上にポインタを移動させてクリックする。このようにして、ユーザはアクセント位置の変更を行う。
また、別の例の音声合成装置では、図10(B)に示すように、ユーザは、キーボードなどを操作して、アクセント付きの発音文字列「ア´メガ/フ´ル。」を入力する。
上記のようにアクセントの位置を変更した後、ユーザは、アクセント調整後の合成音声をテスト再生させるために、上記のような操作画面を非表示にし、別の画面(図示しない)において、テスト再生の指示を出す。アクセント調整を再度行うためには、再度、アクセント調整のための画面を表示させて、アクセント位置を変更する操作をする。
しかしながら、特に、発音や音声についての専門知識を有さない一般的なユーザは、アクセントの位置を指定することに慣れていない。そのため、上述したような従来のアクセント調整方法においては、一般的なユーザは、アクセント位置の調整を試行錯誤する必要があり、その上、上記のような煩わしい作業を繰り返す必要があった。このように、従来のアクセント調整方法は、一般的なユーザが利用するには不向きであった。
特許文献1は、対象のアクセント句の変更候補を選択させる技術であるため、アクセントの位置の変更を行うことはできない。また、変更候補が存在しなければアクセントの変更はできない。
本発明の目的は、アクセントの変更位置を簡便に指定することができる、ユーザフレンドリなGUIを備える音声合成装置を提供することである。
上記の課題を解決するため、第1の態様は、音声合成装置であって、入力されたテキストデータを形態素毎に分割してアクセント句及びアクセント位置の情報を含む形態素解析データを生成する形態素解析手段と、前記形態素解析データに基づいて音声合成を行って合成波形データを生成する音声合成手段と、前記合成波形データを音声として出力する音声出力手段と、前記形態素解析データのうちいずれか1つのアクセント句の文字列と、前記文字列の中のアクセント位置を示す指標画像とを表示し、前記指標画像の位置を変更する操作を受け付けてその操作後の前記指標画像を表示する設定受付手段と、前記操作後のアクセント位置を受け付けて、前記形態素解析データに含まれるアクセント位置を変更し、前記音声合成手段を用いて当該形態素解析データから合成波形データ生成し、前記音声出力手段を用いて前記合成波形データのうち前記アクセント句に対応する部分を音声出力する、アクセント調整手段と、を備える。また、前記アクセント調整手段は、前記合成波形データを音声出力している間に、前記操作を検知すると、当該音声出力を停止する構成とすることができる。
以下、本発明の第1の実施形態について、図面を参照して説明する。
図1は、本実施形態が適用される音声合成装置のハードウェアシステム構成を示すブロック図である。
本図に示すように、音声合成装置10は、プログラムが動作する一般的なコンピュータであり、例えば、パーソナルコンピュータや、ワークステーションである。すなわち、音声合成装置10は、コンピュータの主要部であって各装置を集中的に制御するCPU(Central Processing Unit)1と、各種データを書換え可能に記憶する主記憶装置2を備える。
さらに、音声合成装置10は、各種のプログラム、プログラムの生成するデータ等を格納する外部記憶装置3、各種操作指示を行うためのキーボードやマウスなどの入力装置4、画像データ等を表示する表示装置5、音声データ等を音声として出力する出力装置6を備える。これらの各装置はバスなどの信号線7を介してCPU1と接続される。もちろん、他に、外部の装置と通信を行うための通信装置を備えていてもよい。
CPU1は、例えば、外部記憶装置3上に格納されたプログラムを主記憶装置2上にロードして実行することにより、各種処理を実行する。外部記憶装置3は、HDDのみに限定されず、配布されたプログラムであるコンピュータソフトウェアを読み取るための機構として、CD−ROM、DVD−ROM等のドライブをさらに備えても良い。もちろん、プログラムは、例えば、通信装置を介してネットワークから外部記憶装置3にダウンロードされ、それから、主記憶装置2上にロードされてCPU1により実行されるようにしてもよい。
入力装置4は、テキストを入力するためのテキスト入力装置、また、GUI上の目的の動作を示すグラフィクスを操作するためのポインティングデバイスを含む。テキスト入力装置は、文字列が入力できる装置であれば、例えばキーボード、音声認識装置、または、文字列の読み込み装置等であってもよい。ポインティングデバイスは、例えばマウスや、画面に直接接触するようなタッチパネルであっても良い。
表示装置5のディスプレイは、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)等から選択される。
出力装置6は、CPUから送られる音声データを出力するものであれば、外部スピーカのような外部出力装置であっても良い。
図2は、上記のハードウェアで構成される音声合成装置10の機能構成を示すブロック図である。なお、本実施形態では、音声合成装置10は、基本的なGUI機能を備えているものとする。
本図に示すように、音声合成装置10上には、ソフトウェアとハードウェアが協働することにより、制御部20及び記憶部30が構築される。制御部20は、設定受付部22、アクセント調整部23、形態素解析部24、音声合成部25、及び、音声出力部26を備える。また、記憶部は、辞書データ32、音声コーパス33、及び、作業データ領域34を備える。
これらの機能は、例えば、CPU1が補助記憶装置3に予め記憶されている所定のプログラムを主記憶装置2にロードして実行することにより、または、ハードウェアを制御することにより、またはそれらの組合せにより実現される。記憶部30は、データを継続的に保持する場合は外部記憶装置3を、データを一時的に保持する場合は主記憶装置2を用いることにより実現される。
設定受付部22は、ユーザが音声合成の作業を行うためのGUI画面、例えば、テキスト入力画面やアクセント調整画面を、表示装置5に表示する。そして、GUI上のユーザの操作、例えば、テキストデータの入力、カーソル・ポインタの移動やクリック、などを、入力装置4を介して受け付ける。また、ユーザの操作による結果をGUI画面に反映して表示装置5に表示する。
アクセント調整部23は、設定受付部22を介して、テキストデータに含まれる各アクセント句について、アクセント調整(アクセント位置の変更)に係る操作を受け付ける。そして、変更されたアクセント位置を検出し、テキストデータについての合成音声を、音声合成部25に生成させる。また、生成された合成音声を、音声出力部26に出力させる。
形態素解析部24は、設定受付部22を介して、入力されたテキストデータを受け付ける。そして、受け付けたテキストデータを、辞書データ32等に基づいて、単語に分割して、それらの読み・アクセント情報や、アクセント句の情報を含む形態素解析データを生成するための形態素解析処理を行う。もちろん、形態素解析処理はこれに限られず、例えば、単語のアクセント型や品詞などの情報を形態素解析データに付加するようにしてもよい。
音声合成部25は、形態素解析部24が生成した形態素解析データに対して、韻律が類似するデータセットを音声コーパス33から検索して抽出する。そして、抽出したデータセットと形態素解析データに基づいて韻律パラメータを算出して中間言語データを生成する。また、中間言語データに基づいて出力音声波形を合成し、合成波形データを生成する。
音声出力部26は、生成された合成波形データを、出力装置6を介して、実際の音声データとして出力する。
辞書データ32は、単語の読み、アクセント情報と等を予め格納する。
音声コーパス33は、単語、アクセント句や文節単位の文字列と、その基本周波数や継続時間長等の韻律パラメータ、音声データ等を対応付けた情報を、予めデータベースとして複数格納する。具体的には、例えば、図3に示すように、複数のデータセット(331〜n)を備える。各データセットは、文字列表記データ3301、3301の発声音である音声波形データ3302、3302の基本周波数データ3303、3302の継続時間長データ3304、3301の形態素分割結果である形態素分割データ3305、3301の音素分割結果である音素分割データ3306から構成される。もちろん、各データセットの構成は上記に限定されず、パワーデータやケプストラムデータ等を含んでも良い。
作業データ領域34は、入力されたテキストデータや、形態素解析部24や音声合成部25が生成した中間データなどを一時的に格納するための領域である。具体的には、図4に示すように、テキストデータ340、形態素解析データ341、音素解析データ342、韻律パラメータ343、中間言語データ344、及び、合成波形データ345を格納する領域から構成される。なお、341a〜345aの基準データは、アクセント調整を行う基となる各種データを格納する領域であり、341b〜345bの更新データは、アクセント調整後の各種データを格納する領域である。
次に、上述した機能で構成される音声合成装置の動作を、フロー図を参照しながら具体的に説明する。
図5は、テキストデータの入力を受け付けてからアクセント調整を行うまでの処理の流れを示すフロー図である。以下、テキストデータ「雨が降る。」を例にとって説明する。
先ず、設定受付部22は、音声合成の対象のテキストデータを受け付ける(S1)。
具体的には、設定受付部22は、図8(A)に示すテキスト入力画面を表示装置5に表示する。
ここで、テキスト入力画面(図8(A))の構成を説明する。テキスト入力画面は、アクセント調整ボタン801と、入力テキスト設定欄802と、発音文字列表示欄803と、アクセント図形804と、カーソル805とを備える。
アクセント調整ボタン801は、アクセント調整を開始するためのボタンである。入力テキスト設定欄802は、音声合成の対象となるテキストデータを設定するための欄である。発音文字列表示欄803は、入力テキスト設定欄802に設定されたテキストデータの発音文字列を表示するための欄である。アクセント図形804は、発音文字列表示欄803に表示される発音文字列のアクセント位置を指し示すための図形画像である。カーソル805は、発音文字列の下辺に表示され、ユーザの操作により文字単位に左右に移動され、当該カーソル805の位置は、文字及びアクセント句が選択されていることを示す。
もちろん、上記のテキスト入力画面は一例であり、例えば、入力されたテキストデータの合成音声を再生するための再生ボタンなどを備えることができる。
図5に戻って、上記のテキスト入力画面を表示した後、設定受付部22は、テキスト入力画面上のユーザの操作を入力装置4を介して受け付ける。入力テキスト設定欄802にテキストデータが入力されると、設定受付部22は、該テキストデータを作業データ領域34上のテキストデータ340に格納する。すなわち、テキストデータ「雨が降る。」が、テキストデータ340に格納される。
なお、テキストデータの受付方法は上記に限られない。例えば、設定受付部22は、上記のテキスト入力画面の前段階に、複数の文で構成される文章のテキストデータの入力を受け付けるGUI画面を表示する。そして、入力された文章のテキストデータを該画面に表示し、ユーザに発音調整の対象の1文を選択させてから、上記のテキスト入力画面を表示し、選択された1文を表示させる構成とすることができる。
次に、形態素解析部24は、入力テキストデータが設定されると、該テキストデータをテキストデータ340から読み出し、形態素解析処理を実行する(S2)。
具体的には、形態素解析部24は、読み出したテキストデータを意味がわかる最小の単位(形態素)に分割した形態素列を生成する。そして、分割した形態素毎に、表記、読み、アクセント情報などを付加した形態素解析データを生成し、該データを作業データ領域34上の形態素解析データ341aに格納する。単語毎の読み及びアクセント情報は、予め辞書データ32に登録されている値を使用する。
テキストデータを単語(形態素)に分割する方法としては、清水らによる「隣接単語間の結合関係に着目したテキスト音声変換用形態素解析処理、日本音響学会誌、51巻、1号、pp.3−13、1995」に記載の処理を利用することができる。また、アクセント情報を求める方法としては、匂坂らによる「日本語単語連鎖のアクセント規則、電子情報通信学会論文誌、J66−D、No.7、pp.849−856、1983」を用いることができる。もちろん、これらの方法は一例であり、他の処理方法を用いても良い。
上記のようにして、形態素解析部24は、図9(A)のテキストデータ「雨が降る。」から、図9(B)に示すような形態素解析データを生成する。すなわち、単語毎のデータ「雨」「が」「降」「る」「。」に分割し、読み・アクセント情報「ア´メ」「カ゜」「フ´」「ル」「.」(「´」はアクセント、「゜」は鼻濁音を示す)をそれぞれ対応付ける。また、アクセント句の区切りを示す情報「/」を付加する。なお、「ア´メカ゜/フ´ル.」は、発音記号列に相当するものである。もちろん、形態素の構造は上記のものに限られない。
形態素解析データが生成されると、設定受付部22は、形態素解析データ341aに格納された基準形態素解析データに基づいて、テキスト入力画面の発音文字列表示欄803(図8(A))にアクセント句を含む発音文字列「あめが/ふる。」を表示する。また、アクセント図形804を、アクセントが付与されている「あ」及び「ふ」の上に表示する。また、カーソル805を、先頭の文字「あ」の下に表示する。
次に、音声合成部25は、入力テキストデータについて、音声合成処理を開始する(S3)。具体的には、図6に示す処理を実行する。
音声合成部25は、先ず、形態素解析データ341aに格納された基準形態素解析データを読み出し、該データに含まれる読みの情報を基に、意味の区別に用いられる最小の音の単位(音素)に分割し、得られた音素解析データを作業データ領域34上の音素解析データ342aに格納する(S301)。
音素分割の方法は、例えば、宮崎らによる方法「日本文音声出力のための言語処理方式、情報処理学会論文誌、Vol.27、No.11、pp.1053−1061、1986」を利用することができる。もちろん、該計算方法は一例であり、他の音素分割法を用いても良い。
上記の音素解析により、音声合成部25は、テキストデータ「雨が降る。」を、音素に分割し、「A/ME/NG/A/H/U/R/U/.」のような音素データを生成する。ここで、「A」「M」「E」等は音素を示す記号であるが、これらは一例であり、他の音素記号表現を用いてもよい。
次に、音声合成部25は、基準形態素解析データに対して、アクセント型、品詞等の情報が類似するデータセットを、音声コーパス33から検索する処理を行う(S302〜S304)。
音声合成部25は、先ず、音声コーパス33から、データセット331を読み出す(S302)。また、読み出したデータセット331から、形態素分割データ3305を読み出す(S303)。
そして、音声合成部25は、基準形態素解析データと、形態素分割データ3305それぞれに含まれる、読み・アクセント情報、アクセント型、品詞等のデータを比較し、予め定めた基準で類似度の計算を行う(S304)。
以降、同様に、音声合成部25は、全てのデータセット(331〜n)について、上記の類似度の計算を行う。その結果として、予め設定したしきい値(基準類似度)を満たすデータセットのうち、基準形態素解析データと最も類似するデータセット(以下、選択データセットと呼ぶ。)を1つ選択する。
次に、音声合成部25は、基準形態素解析データについて、韻律パラメータの算出を行う(S305)。
具体的には、音声合成部25は、基準形態素解析データと、選択データセットの形態素分割データ3305とを比較し、形態素毎に一致部と不一致部とに分離する。そして、一致部の形態素には、選択データセットの韻律パラメータ(基本周波数データ3303、継続時間長データ3304)を付与する。不一致部の形態素の基本周波数データは、形態素のモーラ数とアクセント型等に対して1つの基本周波数データを記憶している単語基本周波数パタンテーブルから検索して算出する。また、継続時間長は、匂坂らによる、「規則による音声合成のための音韻時間長制御、電子情報通信学会論文誌、Vol.J67−A、No.7、pp.629−636、1984」を利用して算出することができる。その後、音声合成部25は、一致部と不一致部の韻律パラメータを滑らかに接続するために、不一致部を変形統合する処理を行なう。
このようにして求めた韻律パラメータを、音声合成部25は、作業データ領域34上の韻律パラメータ343aに格納する。なお、韻律パラメータの算出方法は上記に限られない。音素ごとの継続時間長を求めるには、例えば、予めデータベースとして保持された、音素ごとの継続時間が記録されたテーブルや、付与対象となる音素の前後1音素までの環境要因を考慮した継続時間が記録されたテーブルを参照する方法を利用できる。また、音素ごと基本周波数を求めるには、二次臨界制動モデルと呼ばれる指数関数による曲線でモデル化する方法や矩形でモデル化する方法を利用できる。
次に、音声合成部25は、基準形態素解析データと、基準音素解析データと、基準韻律パラメータとを基に、基準中間言語データを生成し、作業データ領域34上の中間言語データ344aに格納する(S306)。
具体的には、音声合成部25は、図9(C)に示すような中間言語データを生成する。すなわち、基準形態素解析データに含まれる発音記号列を分割して、「ア」「メ」「カ゜」「/」「フ」「ル」「.」の発音文字から成るデータ列を生成する。そして、それぞれの発音文字に、音素毎の基本周波数及び継続時間長のデータを付与する。例えば、発音文字「メ」は、基本周波数「283」・継続時間長「51」の音素「M」と、基本周波数「252」・継続時間長「89」の音素「E」とから構成される。
最後に、音声合成部25は、基準中間言語データに基づいて、出力音声波形を合成して合成波形データを生成し、作業データ領域34上の合成波形データ345aに格納する(S307)。
以上のようにして、音声合成部25は、音声合成処理(S3)を終了する。
次に、設定受付部22は、テキスト入力画面(図8(A))上で、アクセント調整ボタン801のクリックを受け付ける(S4)。
すると、アクセント調整処理が開始される(S5)。具体的には、図7に示す処理が実行される。
先ず、設定受付部22は、図8(B)に示すアクセント調整画面を表示装置5に表示する(S501)。
ここで、アクセント調整画面(図8(B))の構成を説明する。アクセント調整画面は、
決定ボタン810と、閉じるボタン811と、アクセント句発音文字列表示欄812と、アクセント図形804と、目印815と、スライドバー816と、スライダー817とを備える。
決定ボタン810は、アクセント位置の変更後の更新データを保存して終了アクセント調整を終了するためのボタンである。閉じるボタン811は、アクセント位置の変更後の更新データを保存せずにアクセント調整を終了するためのボタンである。アクセント句発音文字列表示欄812は、アクセント調整の対象となるアクセント句の発音文字列を表示するための欄である。アクセント図形804は、アクセント句発音文字列表示欄812に表示される発音文字列のアクセント位置を指し示すための図形画像である。
目印815は、調整により指定可能なアクセント位置の候補を示すための図形画像であり、文字毎に表示される。なお、「アクセント無し」の候補を示すため、目印815は、発音文字列の先頭文字の一文字分左の位置にも表示される。スライドバー816は、スライダー817を移動可能な範囲を示す図形画像であり、アクセント句発音文字列表示欄812と平行に表示される。また、スライドバー816は、表示される発音文字列の文字数よりも大きい文字数分の長さであり、スライドバー816の右終端は、発音文字列の終端と合わせられて表示される。スライダー817は、ユーザの操作、例えば、マウスのドラッグ操作によりスライドバー816上を文字単位で左右に移動される。また、ドロップ操作により、移動後の位置が確定し、当該スライダー817の位置は、変更されたアクセント位置を指し示す。なお、上記の発音文字列の始端を超える位置に、スライダー817の位置が確定した場合、その位置は、「アクセント無し」であることを示す。なお、アクセント図形804は、スライダー817の移動と同期して移動されて表示される。
もちろん、上記のアクセント調整画面は一例であり、例えば、表示された発音文字列の合成音声を再生するための再生ボタンや、アクセント図形804やスライダー817をアクセント位置の変更前の表示位置に戻すためのリセットボタンなどを備えることができる。
また、アクセント位置を変更するためのインタフェースは、目印815、スライドバー816およびスライダー817に限られず、例えば、各アクセント位置および「アクセント無し」の候補に対応させたラジオボタンなどを表示して、ユーザに選択させてもよい。
図7に戻って、設定受付部22は、テキスト入力画面(図8(A))上の発音文字列表示欄803に表示されたカーソル805が指し示す発音文字を含むアクセント句の位置を検出する。そして、基準形態素解析データを基に、検出したアクセント句の発音文字列をアクセント句発音文字列表示欄812に表示する。また、基準形態素解析データに含まれる、該アクセント句のアクセント位置を取得し、アクセント図形804及びスライダー817をそのアクセント位置に表示する。これと同時に、アクセント調整部23は、処理対象のアクセント句の位置を検出する。
ここでは、発音文字列表示欄803のカーソル805がアクセント句「あめが」の中の発音文字「あ」を指しているため、設定受付部22は、アクセント句発音文字列表示欄812に発音文字列「あめが」を表示する。また、アクセントは「あ」に付与されているため、発音文字列「あ」の上にアクセント図形804を表示し、スライダー817を発音文字列「あ」の下の目印815に合わせて表示する。
以上のようにして、図8(B)に示すアクセント調整画面が表示される。
次に、アクセント調整部23は、決定ボタン810のクリック、閉じるボタン811のクリック、及び、スライダー817の移動、のいずれか1つの操作を受け付ける(S502)。
上記のいずれかの操作を受け付けると、アクセント調整部23は、音声出力部26が音声出力中(テスト再生中)であるか判定する(S503)。音声出力中の場合(YES)、S504を実行する。一方、音声出力中でない場合(NO)、S505を実行する。
音声出力中(S503でYES)、例えば、後述するアクセントの位置変更により合成音声が出力されている場合(S506〜S509)、アクセント調整部23は、音声出力部26に音声出力を停止させる(S504)。その後、S505を実行する。
S505では、アクセント調整部23は、受け付けた操作が、決定ボタン810又は閉じるボタン811のクリックであるか否か判定する(S505)。
決定ボタン810又は閉じるボタン811のクリックでない(S505でNO)、すなわち、スライダー817の移動の場合、アクセント調整部23は、変更後のアクセント位置(以下、更新アクセント位置と呼ぶ。)を取得する(S506)。ここで、例えば、図8(C)に示すように、更新アクセント位置が「め」であるものとして以下説明する。
更新アクセント位置を取得すると、アクセント調整部23は、基準形態素解析データを作業データ領域34の形態素解析データ341aから読み出す(S507)。
そして、アクセント調整部23は、取得した更新アクセント位置及びアクセント句の位置に基づいて、読み出した基準形態素解析データに含まれる発音記号列のアクセント位置を変更し、変更後の形態素解析データを更新データである形態素解析データ341bに格納する(S508)。ここで、基準となる発音記号列は「ア´メカ゜/フ´ル.」であるため、更新データの発音記号列は「アメ´カ゜/フ´ル.」となる。なお、更新アクセント位置が「アクセント無し」である場合、更新データの発音記号列は「アメカ゜/フ´ル.」となり、以降、この更新データに基づいて処理が進められる。
更新形態素解析データを生成すると、アクセント調整部23は、当該更新形態解析データに基づいた音声合成処理を音声合成部25に実行させる(S3)。
音声合成処理(S3)は、上述した図6(S301〜S307)の処理と同様である。異なるのは、音声合成部25は、各処理を、形態素解析データ341bに格納された更新形態素解析データに基づいて実行し、新たに生成した音素解析データ、韻律パラメータ、中間言語データ、及び、合成波形データを、それぞれ、作業データ領域34上の音素解析データ342b、韻律パラメータ343b、中間言語データ344b、及び、合成波形データ345bに格納する点である。なお、繰り返しアクセント位置の変更が行われる場合は、更新データを上書きすればよい。
図7に戻って、アクセント調整部23は、新たに生成された更新合成波形データ345bのうち、アクセント位置の変更が行われたアクセント句の部分について、音声出力部26に出力させる(S509)。すなわち、アクセント位置変更後のアクセント句「アメ´カ゜」が、音声出力される。
以上のようにして、アクセント位置変更後の合成音声が再生される。すなわち、スライダーがマウスのドラッグ操作により移動され、移動後のスライダーの位置でドロップ操作されるのと同時に(ほぼ同時に)、アクセント位置の変更後の合成音声が自動的に再生される(S502〜503、505、506〜509)。また、合成音声の再生中に、スライダーの移動によりアクセント位置が変更されると、再生中の合成音声の出力が停止するのと同時に(ほぼ同時に)、アクセント位置変更後の合成音声が再生される(S502〜505、506〜509)。
さて、一方、決定ボタン810又は閉じるボタン811のクリックである場合(S505でYES)、アクセント調整部23は、さらに、決定ボタン810のクリックであるか否か判定する(S510)。決定ボタン810のクリックである場合(YES)、S511を実行する。決定ボタン810のクリックでない場合(NO)、S512に進む。
決定ボタン810のクリックである場合(S510でYES)、アクセント調整部23は、
アクセント位置の変更が確定したものとして、更新データを保存する(S511)。
具体的には、アクセント調整部23は、作業用データ34上の更新データ341b〜345bを、基準データ341a〜345aに格納する。すなわち、アクセント調整処理が終了した後、再度アクセント調整処理が実行される場合、前回のアクセント調整処理において生成された更新データが基準データとなる。もちろん、最初の基準データを消去せずに、例えば、生成された更新データを第2の基準データ、第3の基準データなどとして、保存してもよい。更新データを保存すると、アクセント調整部23は、S512に進む。
S512では、アクセント調整部23は、設定受付部22に、アクセント調整画面(図8(C))を、消去(非表示に)させる(S512)。
以上のようにして、アクセント調整処理(S501〜S512)は終了する。これにより、テキスト入力画面(図8(A))に戻る(図5のS4の前)。設定受付部22は、上記の形態素解析データ(基準データ)を基に、テキスト入力画面の発音文字列表示欄803に、発音文字列「あめが/ふる。」を表示する。また、アクセント図形804を、アクセントが付与されている「め」及び「ふ」の上に表示する(図示しない)。カーソル805の位置は変更しない。例えば、次に、アクセント句「ふる。」のアクセント調整を行う場合、ユーザは、入力装置4を操作して、カーソル805を、発音文字列「ふる。」のいずれかの文字の下に移動させ、アクセント調整ボタン801をクリックすればよい。
以上、第1の実施形態について説明した。第1の実施形態によれば、アクセント位置と同期したスライダー、スライドバーの移動により、アクセント句のアクセント位置が変更され、同時に、その変更後のアクセント句の合成音声が自動再生される。これにより、ユーザは、アクセント調整とその確認作業を、直感的、かつ、連続的に(一連に)行うことができる。特に、発音や音声についての専門知識を有さない一般的なユーザであっても、自分の想定する発音を容易にまたは感覚的に見つけ出し、アクセント調整を行うことができる。逆に、専門知識を有するユーザは、指定すべきアクセントを直接指定することができ、操作が妨げられない。このように、本願発明は、ユーザビリティを向上することができる。
以上、本発明について、例示的な実施形態と関連させて記載した。多くの代替物、修正および変形例が当業者にとって明らかであることは明白である。したがって、上に記載の本発明の実施形態は、本発明の要旨と範囲を例示することを意図し、限定するものではない。
音声合成装置のハードウェアシステム構成を示すブロック図。 音声合成装置の機能構成を示すブロック図。 音声コーパスの構成を示す図。 作業データ領域の構成を示す図。 テキストデータの入力からアクセント調整までの処理の流れを示すフロー図。 音声合成処理の流れを示すフロー図。 アクセント調整処理の流れを示すフロー図。 テキスト入力画面及びアクセント調整画面の一例を説明するための図。 テキストデータ、形態素データ、中間言語データの一例を説明するための図。 従来のアクセント調整画面の一例を説明するための図。
符号の説明
10・・・音声合成装置、1・・・CPU、2・・・主記憶装置、3・・・外部記憶装置、4・・・入力装置、5・・・表示装置、6・・・出力装置、7・・・信号線、20・・・制御部、22・・・設定受付部、23・・・アクセント調整部、24・・・形態素解析部、25・・・音声合成部、26・・・音声出力部、30・・・記憶部、32・・・辞書データ、33・・・音声コーパス、331・・・データセット、3301・・・文字列表記データ、3302・・・音声波形データ、3303・・・基本周波数データ、3304・・・継続時間長データ、3305・・・形態素分割データ、3306・・・音素分割データ、34・・・作業データ領域、340・・・テキストデータ、341・・・形態素解析データ、342・・・音素解析データ、343・・・韻律パラメータ、344・・・中間言語データ、345・・・合成波形データ、801・・・アクセント調整ボタン、802・・・入力テキスト設定欄、803・・・発音文字列表示欄、804・・・アクセント図形、805・・・カーソル、810・・・決定ボタン、811・・・閉じるボタン、812・・・アクセント句発音文字列表示欄、815・・・目印、816・・・スライドバー、817・・・スライダー。

Claims (9)

  1. 音声合成装置であって、
    入力されたテキストデータを形態素毎に分割してアクセント句及びアクセント位置の情報を含む形態素解析データを生成する形態素解析手段と、
    前記形態素解析データに基づいて音声合成を行って合成波形データを生成する音声合成手段と、
    前記合成波形データを音声として出力する音声出力手段と、
    前記形態素解析データのうちいずれか1つのアクセント句の文字列と、前記文字列の中のアクセント位置を示す指標画像とを表示し、前記指標画像の位置を変更する操作を受け付けてその操作後の前記指標画像を表示する設定受付手段と、
    前記操作後のアクセント位置を受け付けて、前記形態素解析データに含まれるアクセント位置を変更し、前記音声合成手段を用いて当該形態素解析データから合成波形データ生成し、前記音声出力手段を用いて前記合成波形データのうち前記アクセント句に対応する部分を音声出力する、アクセント調整手段と、を備えること、
    を特徴とする音声合成装置。
  2. 請求項1に記載の音声合成装置であって、
    前記アクセント調整手段は、
    前記合成波形データを音声出力している間に、前記操作を検知すると、当該音声出力を停止すること、
    を特徴とする音声合成装置。
  3. 請求項2に記載の音声合成装置であって、
    前記設定受付手段は、
    前記指標画像の移動可能範囲である、少なくとも前記文字列の文字数の長さの範囲表示画像をさらに表示すること、
    を特徴とする音声合成装置。
  4. 請求項3に記載の音声合成装置であって、
    前記設定受付手段は、
    前記範囲表示画像を前記文字列の文字数を超える文字数の長さで、該範囲表示画像の終端と前記文字列の終端を対応させて表示し、
    前記アクセント調整手段は、
    前記操作後、前記指標画像が前記文字列の始端を超えた前記範囲表示画像上に位置する場合、前記文字列のアクセントはないものとして、前記形態素解析データに含まれるアクセントを削除すること、
    を特徴とする音声合成装置。
  5. 請求項4に記載の音声合成装置であって、
    前記設定受付手段は、
    範囲表示画像としてスライドバーを表示し、前記指標画像としてスライダーを表示すること、
    を特徴とする音声合成装置。
  6. コンピュータを音声合成装置として機能させるためのプログラムであって、
    前記コンピュータを、
    入力されたテキストデータを形態素毎に分割してアクセント句及びアクセント位置の情報を含む形態素解析データを生成する形態素解析手段と、
    前記形態素解析データに基づいて音声合成を行って合成波形データを生成する音声合成手段と、
    前記合成波形データを音声として出力する音声出力手段と、
    前記形態素解析データのうちいずれか1つのアクセント句の文字列と、前記文字列の中のアクセント位置を示す指標画像とを表示し、前記指標画像の位置を変更する操作を受け付けてその操作後の前記指標画像を表示する設定受付手段と、
    前記操作後のアクセント位置を受け付けて、前記形態素解析データに含まれるアクセント位置を変更し、前記音声合成手段を用いて当該形態素解析データから合成波形データ生成し、前記音声出力手段を用いて前記合成波形データのうち前記アクセント句に対応する部分を音声出力する、アクセント調整手段として、
    機能させることを特徴とするプログラム。
  7. 請求項6に記載のプログラムであって、
    前記アクセント調整手段は、
    前記合成波形データを音声出力している間に、前記操作を検知すると、当該音声出力を停止すること、
    を特徴とするプログラム。
  8. 音声合成装置における音声合成方法であって、
    前記音声合成装置は、
    入力されたテキストデータを形態素毎に分割してアクセント句及びアクセント位置の情報を含む形態素解析データを生成する形態素解析ステップと、
    前記形態素解析データに基づいて音声合成を行って合成波形データを生成する音声合成ステップと、
    前記合成波形データを音声として出力する音声出力ステップと、
    前記形態素解析データのうちいずれか1つのアクセント句の文字列と、前記文字列の中のアクセント位置を示す指標画像とを表示し、前記指標画像の位置を変更する操作を受け付けてその操作後の前記指標画像を表示する設定受付ステップと、
    前記操作後のアクセント位置を受け付けて、前記形態素解析データに含まれるアクセント位置を変更し、前記音声合成ステップにより当該形態素解析データから合成波形データ生成し、前記音声出力ステップにより前記合成波形データのうち前記アクセント句に対応する部分を音声出力する、アクセント調整ステップと、を行うこと、
    を特徴とする音声合成方法。
  9. 請求項8に記載の音声合成方法であって、
    前記アクセント調整ステップは、
    前記合成波形データを音声出力している間に、前記操作を検知すると、当該音声出力を停止すること、
    を特徴とする音声合成方法。
JP2007110288A 2007-04-19 2007-04-19 アクセント調整可能な音声合成装置 Pending JP2008268478A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007110288A JP2008268478A (ja) 2007-04-19 2007-04-19 アクセント調整可能な音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007110288A JP2008268478A (ja) 2007-04-19 2007-04-19 アクセント調整可能な音声合成装置

Publications (1)

Publication Number Publication Date
JP2008268478A true JP2008268478A (ja) 2008-11-06

Family

ID=40048080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007110288A Pending JP2008268478A (ja) 2007-04-19 2007-04-19 アクセント調整可能な音声合成装置

Country Status (1)

Country Link
JP (1) JP2008268478A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224419A (ja) * 2009-03-25 2010-10-07 Kddi Corp 音声合成装置、方法およびプログラム
JP2012194460A (ja) * 2011-03-17 2012-10-11 Toshiba Corp 音声合成編集装置および音声合成編集方法
JP2015022162A (ja) * 2013-07-19 2015-02-02 株式会社東芝 音声合成システムおよび音声変換支援装置
JP2015172657A (ja) * 2014-03-12 2015-10-01 株式会社東芝 音声合成システム、音声変換支援装置および音声変換支援方法
US9870769B2 (en) 2015-12-01 2018-01-16 International Business Machines Corporation Accent correction in speech recognition systems
US10395649B2 (en) 2017-12-15 2019-08-27 International Business Machines Corporation Pronunciation analysis and correction feedback

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07306851A (ja) * 1994-05-12 1995-11-21 Ricoh Co Ltd 発音記号編集装置
JPH09171392A (ja) * 1995-10-20 1997-06-30 Ricoh Co Ltd 発音情報作成方法およびその装置
JPH11109991A (ja) * 1997-10-08 1999-04-23 Mitsubishi Electric Corp マンマシンインターフェースシステム
JP2006126575A (ja) * 2004-10-29 2006-05-18 Canon Inc 音声合成辞書登録方法および装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07306851A (ja) * 1994-05-12 1995-11-21 Ricoh Co Ltd 発音記号編集装置
JPH09171392A (ja) * 1995-10-20 1997-06-30 Ricoh Co Ltd 発音情報作成方法およびその装置
JPH11109991A (ja) * 1997-10-08 1999-04-23 Mitsubishi Electric Corp マンマシンインターフェースシステム
JP2006126575A (ja) * 2004-10-29 2006-05-18 Canon Inc 音声合成辞書登録方法および装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224419A (ja) * 2009-03-25 2010-10-07 Kddi Corp 音声合成装置、方法およびプログラム
JP2012194460A (ja) * 2011-03-17 2012-10-11 Toshiba Corp 音声合成編集装置および音声合成編集方法
JP2015022162A (ja) * 2013-07-19 2015-02-02 株式会社東芝 音声合成システムおよび音声変換支援装置
JP2015172657A (ja) * 2014-03-12 2015-10-01 株式会社東芝 音声合成システム、音声変換支援装置および音声変換支援方法
US9870769B2 (en) 2015-12-01 2018-01-16 International Business Machines Corporation Accent correction in speech recognition systems
US10395649B2 (en) 2017-12-15 2019-08-27 International Business Machines Corporation Pronunciation analysis and correction feedback
US10832663B2 (en) 2017-12-15 2020-11-10 International Business Machines Corporation Pronunciation analysis and correction feedback

Similar Documents

Publication Publication Date Title
US8975500B2 (en) Music data display control apparatus and method
US9489938B2 (en) Sound synthesis method and sound synthesis apparatus
JP2008268477A (ja) 韻律調整可能な音声合成装置
JP6645063B2 (ja) ターゲット文字列の推定
JP2008268478A (ja) アクセント調整可能な音声合成装置
JP3795692B2 (ja) 文字処理装置および方法
JP6790959B2 (ja) 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
US8275614B2 (en) Support device, program and support method
JP4639932B2 (ja) 音声合成装置
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
JP2001306087A (ja) 音声データベース作成装置および音声データベース作成方法および記録媒体
JP4509361B2 (ja) 音声認識装置、認識結果修正方法及び記録媒体
JP4640063B2 (ja) 音声合成方法,音声合成装置,およびコンピュータプログラム
JP2006330484A (ja) 音声案内装置及び音声案内プログラム
JP6411015B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP2006031725A (ja) 文字処理装置
JP2004171174A (ja) 文章読み上げ装置、読み上げのためのプログラム及び記録媒体
JP4846548B2 (ja) 音声情報選択装置及び音声情報選択方法
JP2015176037A (ja) 発音表示装置、発音表示方法、及びプログラム
JP6727477B1 (ja) ピッチパターン補正装置、プログラム及びピッチパターン補正方法
JP7280055B2 (ja) 歌唱発音文字列自動補正プログラム及び歌唱発音文字列自動補正装置
JP2008158630A (ja) 画像出力装置及び画像出力方法
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110705