JP2003186489A - 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 - Google Patents

音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法

Info

Publication number
JP2003186489A
JP2003186489A JP2001382100A JP2001382100A JP2003186489A JP 2003186489 A JP2003186489 A JP 2003186489A JP 2001382100 A JP2001382100 A JP 2001382100A JP 2001382100 A JP2001382100 A JP 2001382100A JP 2003186489 A JP2003186489 A JP 2003186489A
Authority
JP
Japan
Prior art keywords
voice
information
character string
manuscript
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001382100A
Other languages
English (en)
Other versions
JP3846300B2 (ja
Inventor
Yuji Hirayama
裕司 平山
Yumi Tsutsumi
ゆみ 堤
Masaru Otani
賢 大谷
Kazuto Kojiya
和人 糀谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2001382100A priority Critical patent/JP3846300B2/ja
Publication of JP2003186489A publication Critical patent/JP2003186489A/ja
Application granted granted Critical
Publication of JP3846300B2 publication Critical patent/JP3846300B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 言語処理の専門家がいなくても,質の高い音
声情報データを作成する。 【構成】 音声情報データベース作成システムは,元原
稿中のすべての音声単位を含む録音原稿を作成する原稿
作成手段5,5Aと,発話された音声を音声波形データ
として音声波形データベース12に格納するとともに話者
に与えるべき指示情報を作成する録音管理手段6,6A
と,録音原稿と音声波形データとの対応づけにより,音
声単位を表わすラベルとその区切りを表わす時間情報と
を含むラベル情報を作成するとともに,作成されたラベ
ル情報における時間情報を修正または無効化するラベリ
ング手段8,8A,音声波形データから特徴量を生成
し,この特徴量とラベル情報とを含むインデックス情報
を作成し,音声波形データと対応づけて音声情報データ
ベース15に格納する特徴量抽出手段14を備えている。

Description

【発明の詳細な説明】
【0001】
【技術分野】この発明は,音声対話の分野における,主
に音声合成のための,音声情報データベース作成装置,
さらにこのシステムの一部として位置づけられる録音原
稿作成装置,録音管理装置,ラベリング装置,および方
法に関する。
【0002】従来,音声情報データベースの作成は,言
語処理,録音,音声波形のラベリングなどの各分野に関
する専門知識や技能を有した人間が手間と時間をかけて
行っていたため,音声情報データベースの作成は,各分
野の専門家を有する,または集めることのできる特定の
企業や機関だけが行うことができた。また,必要な技能
と時間の観点からも,音声情報データベース作成に必要
なコストは膨大なものであった。
【0003】この問題点はさらに,所望の音声で音声情
報データベースを作成しさえすれば,あたかもその人が
発話しているかのような自然な声質の合成音声が得られ
るという,波形接続型音声合成の特長が十分に活かされ
ず,音声合成が広く普及しない要因にもなっていた。
【0004】
【発明の開示】この発明は,音声合成により作成したい
すべての文字列を含む元原稿から,音声情報データベー
スに音声情報を格納すべき最小限の文字列を持つ録音原
稿を作成する装置および方法を提供するものである。
【0005】この発明はまた,上記録音原稿を話者が声
を出して発音することにより得られる音声波形に基づい
て作成された音声情報データベースが既に存在するとき
に,さらに追加すべき文字列を含む追加原稿について,
最小限の文字列を持つ追加録音原稿を作成する装置およ
び方法を提供するものである。
【0006】この発明はまた,録音原稿を話者が声を出
して読むことを支援する録音管理装置および方法を提供
するものである。
【0007】この発明はさらに,録音により得られる音
声波形とそれに対応する文字列とを用いて,音声波形に
ついてのラベル情報(音声単位のラベルとその時間情報
とからなる)を作成するとともに,作成したラベル情報
の信頼性を高めることのできるラベリング装置および方
法を提供するものである。
【0008】この発明は最終的には,専門的知識をもた
ない者であっても,比較的容易に音声情報データベース
を作成することができるシステムを提供するものであ
る。
【0009】この発明による録音原稿作成装置は,複数
の文字列を含む元原稿を設定する手段,元原稿に含まれ
る文字列を構成するすべての音声単位を抽出する元原稿
分析手段,および上記元原稿分析手段によって抽出され
たすべての音声単位を含むように元原稿から文字列を選
択して録音原稿を作成する第1の文字列選択手段を備え
ているものである。
【0010】上記元原稿設定手段とは,手入力される元
原稿を受付けるものでもよいし,FD等の記録媒体に格
納されたものを読取るリーダでもよい。文字列とは,単
語,句,節,文を含む概念である。いずれにしても元原
稿には複数の文字列がある。第1の文字列選択手段は元
原稿から選択する文字列の数が最小に(または,できる
だけ少なくなるように)選択するものである。
【0011】元原稿から選択して録音原稿に加えるべき
文字列を最小にするためのこの発明の実施態様において
は,上記元原稿分析手段は,元原稿に含まれる文字列を
構成するすべての音声単位について,その元原稿におけ
る出現回数を検出するものであり,上記文字列選択手段
は,出現回数の少ない音声単位を含む文字列から順に,
上記すべての音声単位を網羅するまで,文字列を選択す
るものである。
【0012】このようにして,この発明によると,音声
情報データベースを作成するにあたって話者が声を出し
て読むべき録音原稿を元原稿から,操作者が言語処理の
専門知識を有していなくても,作成することができる。
しかも,録音原稿には(できるだけ)最小限の文字列の
みが含まれることとなる。
【0013】一実施態様では,上記文字列選択手段は,
作成すべき音声情報データベースに関する所与の仕様を
満たす条件の下で文字列を選択するものである。
【0014】ここで,仕様とは,合成音声の品質レベ
ル,音声情報データベースの容量,録音作業を含む音声
情報データベースの作成時間等であり,これらの仕様に
基づく要求を満たすように,文字列選択手段の動作が制
御される。
【0015】この発明はさらに追加録音原稿作成装置を
提供している。この追加録音原稿作成装置は上記の録音
原稿作成装置に付随するものでもよいし,独立したもの
でもよい。
【0016】この追加録音原稿作成装置は,既存の音声
情報データベースに含まれるすべての第1の音声単位を
抽出する音声情報データベース分析手段,追加元原稿に
含まれる文字列を構成するすべての第2の音声単位を抽
出する追加元原稿分析手段,第2の音声単位について,
第1の音声単位に含まれていない音声単位を検出する比
較手段,および上記比較手段によって検出された音声単
位を含む文字列を追加元原稿から選択して追加録音原稿
を作成する第2の文字列選択手段を備えているものであ
る。
【0017】既に作成された音声情報データベースのデ
ータを有効に利用し,(できるだけ)最小限の文字列を
含む追加録音原稿で追加原稿の文字列を音声合成できる
音声情報データが作成できるようになる。
【0018】録音原稿作成装置(追加録音原稿作成装置
を含む)は,一般的には,音声情報データベース作成装
置の一部として位置づけられ,音声情報データベース作
成装置および録音原稿作成装置はコンピュータシステム
により実現される。このコンピュータシステムを制御す
る録音原稿作成のためのプログラムは,所与の元原稿に
含まれる文字列を構成するすべての音声単位を抽出し,
かつそれらの音声単位について,その元原稿における出
現回数を検出し,出現回数の少ない音声単位を含む文字
列から順に,上記の抽出したすべての音声単位を網羅す
るまで,元原稿から文字列を選択して録音原稿に加える
ようにコンピュータを制御するものである。
【0019】さらに,この発明による録音原稿作成方法
は,所与の元原稿に含まれる文字列を構成するすべての
音声単位を抽出し,かつそれらの音声単位について,そ
の元原稿における出現回数を検出し,出現回数の少ない
音声単位を含む文字列から順に,上記の抽出したすべて
の音声単位を網羅するまで,元原稿から文字列を選択し
て録音原稿に加えるものである。
【0020】この発明による追加録音原稿作成方法は,
既存の音声情報データベースに含まれるすべての第1の
音声単位を抽出し,追加元原稿に含まれる文字列を構成
するすべての第2の音声単位を抽出し,第2の音声単位
について,第1の音声単位に含まれていない音声単位を
検出し,検出された音声単位を含む文字列を追加元原稿
から選択して追加録音原稿を作成するものである。
【0021】この発明による録音管理装置は,録音原稿
に含まれる複数の文字列を,所与の表示トリガごとに順
次表示する表示装置,表示装置に表示された文字列につ
いて話者から入力された音声信号を一時的に記憶する録
音手段,上記音声信号を分析する音声信号分析手段,上
記音声分析手段の分析結果に基づいて音声採否を判定
し,採用と判定したときには上記録音手段に一時記憶さ
れた音声信号を音声波形データベースに格納するように
制御するとともに表示トリガを上記表示装置に与える音
声採否判定手段,および上記音声信号分析手段の分析結
果または上記音声採否判定手段の判定結果に基づいて,
話者に与えるべき指示情報を作成する話者管理手段を備
えているものである。
【0022】表示装置には,話者が声を出して読むべき
(発音すべき)文字列が表示されるから,話者はこの表
示にしたがって,発話していけばよい。話者に対して,
音声分析結果に基づく指示情報が与えられるから,話者
はこの指示にしたがって行動すればよい。指示情報に
は,音声分析結果(たとえば,声の高さ,音量,話速な
ど)や,これらについての注意,休息指示等が含まれ
る。さらに,話者の発話した音声についての採否が判定
され,採用と判定されたときのみ話者の音声がデータベ
ースに格納されるので,良質の音声波形データを確保す
ることができる。このようにして,音声の分析結果とそ
の履歴情報に基づいて,録音原稿を読上げた話者の音声
をデータベースに登録するか否かを判定したり,発話に
関する指示情報を話者に対してフィードバックするの
で,録音作業を管理するための録音ディレクタが付き添
わなくても,話者ひとりだけで,録音作業を進めること
ができ,かつ質の高い音声データを収録することができ
る。
【0023】好ましい実施態様では,上記表示装置に表
示される文字列を表わす合成音声信号を作成する音声合
成手段,および音声合成手段によって作成された合成音
声信号を出力する音声出力手段がさらに設けられる。
【0024】適切な読上げ方を手本として,標準音声を
出力することにより,話者が録音原稿の文字列を不適切
に読上げることを防ぎ,録音音声の品質を向上できる。
【0025】この発明による録音管理方法は,録音原稿
に含まれる複数の文字列を,所与の表示トリガごとに順
次表示し,表示された文字列について話者から入力され
た音声信号を一時的に記憶し,上記音声信号を分析し,
上記分析結果に基づいて音声採否を判定し,採用と判定
したときには一時記憶された音声信号を音声波形データ
ベースに格納するとともに表示トリガを発生し,上記音
声信号の分析結果または上記音声採否判定結果に基づい
て,話者に与えるべき指示情報を作成して出力するもの
である。
【0026】この発明による録音管理のためのプログラ
ムは,録音原稿に含まれる複数の文字列を,所与の表示
トリガごとに順次表示し,表示装置に表示された文字列
について話者から入力された音声信号を分析し,分析結
果に基づいて音声採否を判定し,採用と判定したときに
は,一時記憶された音声信号を音声波形データベースに
格納するとともに表示トリガを発生し,上記音声信号の
分析結果または上記音声採否判定結果に基づいて,話者
に与えるべき指示情報を作成するようにコンピュータを
制御するものである。
【0027】この発明によるラベリング装置は,録音原
稿中の文字列と,この文字列を発音することにより得ら
れる音声波形データとの対応づけにより,音声波形デー
タを音声単位ごとに区切り,音声単位を表わすラベルと
その区切りを表わす時間情報とを含む第1のラベル情報
を作成する第1のラベリング手段,および上記第1のラ
ベリング手段によって作成された第1のラベル情報にお
ける時間情報を修正または無効化するラベリングエラー
除去手段を備えているものである。
【0028】上記ラベリングエラー除去手段は,一実施
態様では,音声単位ごとに設けられた修正規則に基づい
て時間情報を修正するものである。
【0029】上記ラベリングエラー除去手段は,他の実
施態様では,上記第1のラベリング手段とは異別の第2
のラベリング手段によって上記録音原稿中の文字列につ
いて作成された第2のラベル情報に含まれる時間情報
と,上記第1のラベル情報の対応する時間情報との差を
算出し,この差が測定値を超えている場合に,その時間
情報について無効化情報を付与するものである。
【0030】上記ラベリングエラー除去手段は,さらに
他の実施態様では,既に作成されているラベル情報につ
いて統計的手法により,音声単位ごとに継続時間の信頼
区間を作成し,上記第1のラベル情報に含まれる時間情
報から生成される音声単位ごとの継続時間を対応する信
頼区間と比較し,継続時間が信頼区間外の場合に,その
継続時間を生成した時間情報に無効化情報を付与するも
のである。
【0031】この発明によると,作成されたラベル情報
の時間情報について,その時間情報が適切なものかどう
かのチェックが行われ,必要に応じて修正または無効化
されるので,最終的に得られるラベル情報は信頼性の高
いものとなる。
【0032】この発明によるラベリング方法は,録音原
稿中の文字列と,この文字列を発音することにより得ら
れる音声波形データとの対応づけにより,音声波形デー
タを音声単位ごとに区切り,音声単位を表わすラベルと
その区切りを表わす時間情報とを含むラベル情報を作成
し,ラベリング手段によって作成されたラベル情報にお
ける時間情報を修正または無効化するものである。
【0033】この発明によるラベリングのためのプログ
ラムは,録音原稿中の文字列と,この文字列を発音する
ことにより得られる音声波形データとの対応づけによ
り,音声波形データを音声単位ごとに区切り,音声単位
を表わすラベルとその区切りを表わす時間情報とを含む
ラベル情報を作成し,ラベリング手段によって作成され
たラベル情報における時間情報を修正または無効化する
ようにコンピュータを制御するものである。
【0034】この発明による音声情報データベース作成
システムは,音声合成により作成すべき文字列を含む元
原稿から,音声情報データベースに音声情報を格納すべ
き文字列を,元原稿に含まれる文字列の音声単位を分析
してできるだけ少ない文字列ですべての音声単位を含む
ように選択して録音原稿を作成する手段,上記録音原稿
作成手段により作成された録音原稿に含まれる複数の文
字列を,所与の表示トリガごとに順次表示する表示装
置,表示装置に表示された文字列について話者から入力
された音声信号を一時的に記憶する録音手段,上記音声
信号を分析し,この分析結果に基づいて音声採否を判定
し,採用と判定したときには上記録音手段に一時記憶さ
れた音声信号を音声波形データベースに格納するように
制御するとともに表示トリガを上記表示装置に与え,さ
らに上記分析結果または上記音声採否判定結果に基づい
て,話者に与えるべき指示情報を作成する録音管理装
置,上記録音原稿作成手段により作成された録音原稿中
の文字列と,上記音声波形データベースに格納された音
声波形データとの対応づけにより,音声波形データを音
声単位ごとに区切り,音声単位を表わすラベルとその区
切りを表わす時間情報とを含む第1のラベル情報を作成
するとともに,作成されたラベル情報における時間情報
を修正または無効化するラベリング装置,上記音声波形
データベースに格納された音声波形から特徴量を作成す
る特徴量作成手段,ならびに上記音声波形データベース
に格納された音声波形データと,上記ラベリング装置に
より作成されたラベル情報および上記特徴量作成手段に
より作成された特徴量を含むインデックス情報とを対応
づけて記憶する音声情報データベース作成手段を備えて
いるものである。
【0035】この発明による音声情報データベース作成
方法は,音声合成により作成すべき文字列を含む元原稿
から,音声情報データベースに音声情報を格納すべき文
字列を,元原稿に含まれる文字列の音声単位を分析して
できるだけ少ない文字列ですべての音声単位を含むよう
に選択して録音原稿を作成し,作成された録音原稿に含
まれる複数の文字列を,表示装置に,所与の表示トリガ
ごとに順次表示し,表示装置に表示された文字列につい
て話者から入力された音声信号を一時的に記憶し,上記
音声信号を分析し,この分析結果に基づいて音声採否を
判定し,採用と判定したときには一時記憶された音声信
号を音声波形データベースに格納するように制御すると
ともに表示トリガを上記表示装置に与え,さらに上記分
析結果または上記音声採否判定結果に基づいて,話者に
与えるべき指示情報を作成し,作成された録音原稿中の
文字列と,上記音声波形データベースに格納された音声
波形データとの対応づけにより,音声波形データを音声
単位ごとに区切り,音声単位を表わすラベルとその区切
りを表わす時間情報とを含むラベル情報を作成するとと
もに,作成されたラベル情報における時間情報を修正ま
たは無効化し,上記音声波形データベースに格納された
音声波形から特徴量を作成し,そして上記音声波形デー
タベースに格納された音声波形データと,作成されたラ
ベル情報および作成された特徴量を含むインデックス情
報とを対応づけて音声情報データベースに格納するもの
である。
【0036】この発明によると,専門的な知識を持たな
い一般的の利用者であっても,比較的容易に,比較的短
時間で,比較的高品質の音声情報データベースを作成で
きる。したがって,波形接続型音声合成において,一般
の利用者でも容易に所望の声で,自然な合成音声を作成
でき,波形接続型の音声合成が広く一般に普及するよう
になることが期待される。
【0037】この発明は,特に,波形接続型の音声合成
で用いられる音声情報データベースの作成を対象として
いるが,その他の合成方式(波形重畳型など)のための
データベースの作成にも適用することができる。さら
に,音声合成用途以外でもこの発明により作成した音声
データベースは,音声認識のための統計的音響モデル
(HMM)の学習データや音声分析のための試料データ
としても利用することができる。
【0038】
【実施例】(1)波形接続型音声合成 波形接続型音声合成は,多数(複数)の単語,句,節,
文についての音声波形データをあらかじめ用意してお
き,これらの音声波形データから必要な部分を切出し
(切出された音声波形を波形素片という),複数の波形
素片を組合せて接続することによって,新たな単語,
句,節または文を表わす合成音声の音声波形を作成する
ものである。あらかじめ用意する音声波形データを元波
形データという。元波形データには後述するようにイン
デックス情報が付随し,元波形データとインデックス情
報のセット(これを波形情報という)は音声情報データ
ベースに格納される。音声合成のために元波形データか
ら必要な部分を切出す単位が音声単位である。
【0039】この明細書において,音声単位は,単語,
音節,音素および分割音素を含む。単語とは意味の一つ
のまとまりを表し,文法上の働きをもつものとしての言
語の最小単位である。例えば,「ねこが寝る」という文
において,「ねこ(neko)」,「が(ga)」,「寝る
(neru)」はそれぞれ単語である。音節とは言語学上の
発音の単位である。例えば,「ね(ne)」,「こ(k
o)」などである。日本語ではかな文字の1つ1つが音
節に相当し,100〜300種類程度ある。音節は1つまたは
複数の音素で構成される。音素とは,音声の基本的な最
小単位である。例えば,「n」,「e」,「k」,
「o」などである。音素は,母音(Vowel ,記号Vで表
す)と子音(Consonant ,記号Cで表す)に分類され
る。日本語では,母音は5種類(a,i,u,e,
o),子音は約20種類(n,k,s,t,m,rなど)
がある。分割音素とは,音素をさらに分割したものであ
り,いくつに分割したものかは問わない。音素は,波形
接続型音声合成において最も一般的に用いられる音声単
位である。音節も,一般的に用いられる音声単位の1つ
である。
【0040】以上に基づいて,「音声単位」を次のよう
に定義する。すなわち,音声単位とは,母音または子音
である音素を分割した分割音素を1つまたは連続させた
ものである。換言すれば,すべての音声単位は,1つま
たは連続する複数の分割音素により構成される。
【0041】波形接続型の音声合成では,音声単位とし
て,音節や音素のほかに,VCV素片やCVC素片など
の音韻環境を考慮した音声単位も一般的に用いられる。
音韻環境を考慮した音声単位とは,ある音声単位につい
て,その前後(両方またはいずれか一方)の音声単位の
違いも含めて種類を区別したものである。上では連続す
る3つの音素からなる音声単位(VCV素片,CVC素
片)を2種類挙げているが,これ以外にも連続する1つ
以上の音節からなるものや,連続する1つ以上の分割音
素からなるものなど,音韻環境を考慮した音声単位には
様々なものが存在する。VCV素片とは,母音,子音,
母音の3つの連続する音素を1つの音声単位とみなした
ものである。例えば,「e-k-o」や「o-g-a」などで種類
は700〜800程度ある。CVC素片とは,子音,母音,子
音の3つの連続する音素を1つの音声単位とみなしたも
のである。例えば,「n-e-k」や「k-o-g」などで種類は
5000〜6000程度ある。
【0042】図1は音声波形において,音素,音節およ
び単語の区切りをつけて,音声波形と対応付けて示すも
のである。図2は,音韻環境を考慮した音声単位を音声
波形と対応付けて示すものである。
【0043】音声波形とは,空気の振動(音)により発
生する空気の粗密を時間変化として表したものである。
図1および図2のような音声波形の図において,横軸は
時間を,縦軸は空気の密度の高さをそれぞれ表してい
る。音声波形をコンピュータ上で扱うときには通常サン
プリング処理により標本化された時系列データを音声波
形ファイルとして取扱い,音声波形ファイルに録音(フ
ァイル保存),書込み,読出し等の処理を行う。音声波
形データの開始時点からの経過時間を用いて各音声単位
の始点,終点および継続時間を表すことができる。
【0044】図1において,音声波形の開始点から音の
始まりに相当する区間には,ポーズ(無音)を示すラベ
ル「pau 」が与えられ(「ラベル」については後に説明
する),「t」,「a」,「n」,「a」,「k」,
「a」の音声単位(音素)で音声波形が区切られてい
る。音声波形の下段には,音素の区切り,音節の区切り
および単語の区切りが音声波形に対応付けて示されてい
る。
【0045】図2は,子音「k」を中心として,前後の
母音「a」を音韻環境として考慮したVCV形式の音声
単位の音声波形を示すものである。この音声波形におい
て,上段には音素単位で音韻環境を考慮した音声単位が
示され,下段には分割音素単位で音韻環境を考慮した音
声単位が示されている(ここでは,分割音素は1音素を
2つに分割したものである)。図2の下段において,音
素「a」の前半の分割音素を「a|」で後半の分割音素
を「|a」で表している。
【0046】図3は音声波形とラベル情報との関係を示
す。
【0047】ラベル情報は,音声波形を音声単位で区切
ったときの音声単位(音声波形を構成する音声単位)ご
とに設けられ,その音声単位における符号(これをラベ
ルという)(たとえば,音声単位が音素の場合には,
n,e,k,o等のアルファベット,音声単位が音節の
場合にはne,koなどのかな文字)と,その音声単位
の音声波形における時間位置情報(単に,時間情報とい
う)とから構成される。時間情報は,音声単位の終りの
位置がどこであるのか(音声単位の終点)または音声単
位の始まりの位置がどこであるのか(音声単位の始点)
を示す情報である。
【0048】コンピュータ上では,ラベル情報を,各音
声単位を表すラベル(アルファベット記号で表記)とそ
の終点を表す時間情報の組を時系列順に記述したテキス
ト・ファイルとして扱う。この場合,各音声単位の始点
は,直前の音声単位の終点に等しく,各音声単位の継続
時間は,直前の音声単位の終点を示す時間情報とその音
声単位の終点を示す時間情報との差によって求めること
ができる。音声波形ファイルの開始時点から音の始まり
までに相当する区間には,ポーズ(無音)を示すラベル
「pau 」が与えられる。音声波形ファイルの録音時に,
正確に音の開始点と終了点で録音を開始,停止すること
が難しいため,通常は,音声波形の先頭や末尾にはポー
ズが含まれる。図3において,音声単位の終点(0.16
0,0.250など)を時間情報として保持するためには,音
の始点を示すために先頭のポーズの終点情報(0.120 )
が必要である(逆に音の終点は最後の音声単位の終点に
等しいため,末尾のポーズの終点を示す時間情報は必要
ない)。
【0049】上述したように,波形情報データベースに
は複数の音声波形についての波形情報が格納される。波
形情報は音声波形データとインデックス情報とから構成
される。インデックス情報とは,音声波形(元波形)ご
とに,その音声波形を構成する各音声単位について,ラ
ベル情報と音声波形の特徴量(音声単位ごと)とを記述
したものである。
【0050】特徴量には,音声波形(音声単位ごと)の
音韻的特徴と韻律的特徴がある。音韻的特徴には,ケプ
ストラムおよびベクトル量子化データが含まれる。ケプ
ストラムは,音声波形の短時間振幅スペクトルの対数を
逆フーリエ変換したものである。ベクトル量子化データ
は,音声波形の複数のパラメータ値のベクトルを代表ベ
クトルの符号で表したものである。また韻律的特徴には
基本周波数,パワーおよび上述した継続時間が含まれて
いる。基本周波数とは,音源である声帯が振動する周波
数であり,音声の「高さ」(ピッチ)を表す指数であ
る。基本周波数が高いほど声の高さは高くなる。パワー
とは,音声波形の振幅である。音の「大きさ」に対応す
る。継続時間は,換言すると音声単位に相当する音声波
形の時間長(「長さ」)である。音声単位の長さに対応
する音声の継続時間(一つの音声波形で考えると,継続
時間の平均値)が小さいことは話速が速いことを示す。
【0051】図4は波形情報(音声波形データとインデ
ックス情報のセット)を用いて波形接続型音声合成を行
う様子を示している。「さかた」と発音(発話)する合
成音声の音声波形を作成するために,「さとう」と発話
された音声波形(これを音声1とする)と「たなか」と
発話された音声波形(これを音声2とする)の2つの元
波形を用いる。これらの元波形を含む音声情報データベ
ースに格納されたインデックス情報が図4の左側に示さ
れている。音声(音声1,2を含む)のそれぞれについ
て,インデックス情報は,各音声波形を構成する音声単
位(ここでは音素)のラベルおよび始点(以下,ラベル
情報)と,長さ(時間長),高さ(周波数)および大き
さ(振幅)(以下,波形の特徴量)を含む。
【0052】作成すべき合成音声を表わす文字列「さか
た」が与えられると,インデックス情報を参照して,
「sakata」の音声波形を合成するのに必要な音声単位を
選択する。音声1から「s」および「a」,音声2から
「t」および「a」と「k」および「a」がそれぞれ選
択される。
【0053】選択された各音声単位に対応する波形素片
を,インデックス情報に記述された始点と長さに基づい
て,元波形からそれぞれ切出す。音声1の元波形から
「s」と「a」をそれぞれ表わす波形素片が,音声2の
元波形から「t」と「a」をそれぞれ表わす波形素片と
「k」と「a」をそれぞれ表わす波形素片がそれぞれ切
出される。これらの波形素片が「s」,「a」,
「k」,「a」,「t」,「a」の順序に接続(合成)
される。
【0054】このように,元波形から切り出した波形素
片に対して,信号処理を行うことなく,波形素片を所与
の順序で接続するので,音質を劣化させることなく合成
音声の音声波形を作成することができる。
【0055】図5は波形接続型音声合成処理の流れを示
すものである。
【0056】音声合成により作成すべき発音(発話)を
表わす文字列が与えられる。この入力文字列は,音声単
位のラベル列に変換される。例えば,日本語の場合に漢
字かな交じりの文の入力があったとすると,この文の単
語への分割,幾つかの単語をグループ化したうえでアク
セント位置の決定,単語グループ間に挿入するポーズ
(間)の長さの決定などの処理を行う。音声単位のラベ
ル列を直接入力するようにしてもよい。
【0057】韻律予測処理92では,音声単位ラベル列に
基づいて,各音声単位の韻律的特徴を予測する。具体的
には,音声情報作成における特徴量抽出の処理で,音声
単位ごとに音の高さ,強さ,長さのパターンを抽出した
結果を利用する。韻律的特徴を直接指定して入力しても
よい。
【0058】音声単位選択処理93では,音声情報データ
ベース97から音声単位ラベル列のラベルと一致する音声
単位を選択する。一致する音声単位が複数ある場合に
は,音声情報データベースのインデックス情報を参照し
て,韻律的特徴が最も一致する音声単位を選ぶようにす
る。
【0059】波形接続処理94では,選択された音声単位
のインデックス情報を参照して,元波形データからその
音声単位に相当する波形素片を切出し(信号処理せずそ
のまま),音声単位ラベル列の順に接続する。
【0060】音声出力処理95では,接続して出来上がっ
た合成音声の音声波形を音声デバイス(たとえばスピー
カ)96へ送り,音を出力する。
【0061】波形接続型音声合成は,音声波形データに
対して信号処理を行わないという特徴をもつため,以下
のような長所がある。 ・信号処理による音質の劣化がない。一般に音声波形に
対して信号処理を行うと,声が不自然になるなど音質の
劣化が発生する。 ・元の音声波形データの声の特徴をそのまま残した合成
音声が得られる。特定の人物たとえばアナウンサやタレ
ントなどと同じ声の特徴を持つ合成音声を作成できる。 ・音声情報データベースを交換することにより合成音声
の声を自由に変えられる。
【0062】また,予め用意した音声波形をもとにして
合成音声を作成するために以下の点を考慮しなければな
らない。 ・合成したい音の全てを含むような音声波形データ(元
波形データ)を用意し,かつ元波形データの量が大きく
なりすぎないようにする。すなわち元波形として用意さ
れていない音は合成できない。また,元波形のデータの
量が大きくなりすぎると音声情報データベースに入らな
い。 ・十分に良好な音質の元波形データを用意し,かつ元波
形データに音質のばらつきがないようにする。 ・元波形データから必要な部分を探し出して切り出すた
めに,元波形の内容を示す情報(インデックス情報)を
作成する必要がある。
【0063】(2)第1実施例 図6は音声情報データベース作成システムのハードウェ
ア構成を示すブロック図である。このシステムは最も典
型的には,いわゆるパーソナル・コンピュータまたはワ
ークステーションとその周辺機器により実現することが
できるが,もちろん,音声情報データベース作成システ
ム専用のハードウェア・アーキテクチャを持つものでよ
い。
【0064】音声情報データベース作成システムは,演
算装置(CPU)20,ワークメモリ(RAM)21,通信
I/F部22,入力I/F部23,出力I/F部24,データ
ベース25,画面データメモリ26,処理プログラムメモリ
27,入力装置28,出力装置29および合成音声出力装置30
を含んでいる。
【0065】演算装置20は,音声情報データベース作成
処理,その他のシステム管理処理のためのプログラムを
実行する。
【0066】ワークメモリ21は,音声情報データベース
作成処理における入出力データや中間処理データを格納
するためのメモリである。
【0067】通信I/F部22は,入出力装置等のハード
ウェアを接続する場合,または外部機器と直接またはネ
ットワークを介して通信するためのものであり,ノイズ
除去や同期処理などを実行する。ネットワークは用途に
応じて適切なものを使用すればよい。
【0068】データベース25は,音声情報データベース
作成システムにおいて作成された各種データベース(詳
細は後述する)を格納するためのものである。
【0069】画面データメモリ26は,出力装置に含まれ
る画面表示装置に出力される画面データを保持するメモ
リである。
【0070】処理プログラムメモリ27は,音声情報デー
タベース作成処理のための各種実行プログラム(OSを
含む)(このプログラムの詳細については後述する)を
格納するメモリである。上述した各種メモリは,半導体
メモリ,磁気ディスク,光ディスク,光磁気ディスク,
その他の記憶媒体により実現される。
【0071】入力装置28は,操作者が音声情報データベ
ース作成システムに情報を入力する為のものであり,例
えば,キーボード,マウス,マイクロフォン,FDドラ
イブ,表示画面等を含むものであり,入力I/F23を介
して演算装置20と接続される。
【0072】出力装置29は,音声情報データベース作成
システムの操作者に情報を出力するものであり,例え
ば,ディスプレイ(表示装置),スピーカ等の操作者に
情報を伝達するものであり,出力I/F24を介して演算
装置20と接続される。
【0073】この音声情報データベース作成システム
が,作成した音声情報データベースを用いて所望の音声
を合成する機能(図6に示す)を持つ場合には,合成し
た音声を表わす波形データは合成音声出力装置30により
記録媒体31に記録される。記録媒体は,CD−ROM,
フロッピー(登録商標)ディスク,DVD等を含む。
【0074】図7は上記の音声情報データベース作成シ
ステムにおいて,主に演算装置20が達成する諸機能を幾
つかにまとめて表す機能ブロック図である。
【0075】この音声情報データベース作成システムに
は4つのデータベース,すなわち原稿データベース11,
音声波形データベース12,ラベル情報データベース13,
および最終的に作成されるべき音声情報データベース15
が含まれる。これらのデータベースは基本的にこのシス
テムが運用される過程で作成されるもので,具体的には
図6に示すデータベース25に対応する。
【0076】仕様入力部(手段)4は,この音声情報デ
ータベース作成システムを運用する操作者OPが音声情
報データベースを作成するにあたって定める仕様(事
項)(音声情報データベース容量,音声情報データベー
ス品質,作成時間および元原稿ファイル名)を入力(コ
ンピュータに取込む)するもので,具体的には,図6に
示す入力装置28により実現され,詳細は図8に示されて
いる。
【0077】原稿作成部(手段)5は,仕様入力部4か
ら入力された仕様情報に応じて原稿データベース11内の
元原稿,または仕様入力部4から与えられる元原稿に基
づいて録音原稿を作成するものである。録音原稿とは,
話者SPが声に出して読む原稿(すなわち,録音される
べき原稿)をいう。話者SP(話し手,発話者)は録音
原稿を声に出して読む人である。システムの操作者OP
と話者SPとは同一人でも,異なる人でもよい。原稿作
成部(手段)5は,図6に示す処理プログラムメモリ27
に格納された原稿作成プログラム(図11参照)を実行す
る演算装置20により実現され,詳細については図8を参
照して後述する。
【0078】録音管理部(手段)6は,話者SPの発話
音声(または録音音声)の分析結果とその履歴情報に基
づいて,その音声を音声情報データベースに収録すべき
かどうかの判定,話者SPに対する発話の指示,長時間
にわたる録音作業の過程で不可欠な休息時間の設定等を
行うものである。これにより,録音ディレクタ(操作O
P)の付き添いがなくても,話者SPだけで録音作業を
進めることができ,かつ質の高い音声波形データを収録
することが可能になる。録音管理部(手段)6は,処理
プログラムメモリ27内の録音管理プログラム(図15,16
参照)とこれに従う動作を行う演算装置20とにより実現
され,その詳細は図9に示されている。
【0079】表示装置9は,原稿作成部(手段)5によ
って作成された原稿の表示,録音管理部(手段)6から
出力される休息指示,発話注意等の表示を行うもので,
図6の出力装置29に含まれる。
【0080】音声入力装置(手段)10は,話者が発生す
る音声(発話音声)を電気信号(音声波形)に変換する
もので,マイクロフォンにより実現される。図6の入力
装置28に含まれる。
【0081】録音部(手段)7は,音声入力装置10から
入力する音声波形に基づいて発話開始および終了を検出
するとともに,検出した発話開始と終了との間の音声波
形を記録媒体(磁気テープ,磁気ディスク,半導体メモ
リ等)に一時的に記録する。音声波形は好ましくはディ
ジタルデータに変換されるがアナログのまま一時的に保
持してもよい。録音部7の詳細は図9に示され,図6の
入力I/F23に対応する。
【0082】ラベリング部(手段)8は,録音原稿作成
部(手段)5で作成された録音原稿を記録した音声波形
データのラベル情報を作成する。さらに,作成したラベ
ル情報からラベリングエラーを検出し,ラベリングエラ
ー箇所の修正または除去を行う。これにより,熟練者の
技能を必要とせず熟練者と同じ水準でラベリング情報を
作成することができる。ラベリング部(手段)8は,図
6に示す処理プログラムメモリ27に格納されたラベリン
グエラー除去プログラム(図18参照)を実行する演算装
置20により実現され,詳細については図10を参照して後
述する。
【0083】特徴量抽出部(手段)4は,ラベル情報を
参照しながら,音声波形ごと,または音声単位ごとに音
律または音韻特徴を算出し,音声情報データベース15の
インデックス情報を作成する。特徴量抽出部14は,処理
プログラムメモリ27内の特徴量抽出プログラムとこれに
従う動作を行う演算装置20とにより実現される。
【0084】出力装置16は,音声情報データベース15に
記録された音声情報をCD−ROM,フロッピーディス
ク,DVD等の記録媒体17に記録するものである。
【0085】操作者OPは,作成すべき音声情報データ
ベースに関する仕様を仕様入力部4を用いて入力する。
仕様入力部4は,図8に示すように,FDドライブ(記
録媒体読取装置)41と入力装置42を含む。入力装置42
は,図12に示すような仕様入力画面を表示する表示装
置,表示画面上のボックス等に文字,数字等を入力する
ためのキーボード,各種操作用のマウス等を含む。
【0086】仕様の項目には,作成すべき音声情報デー
タベースの上限容量,同データベースの品質,同データ
ベースを作成するのに要する(許容できる)上限作成時
間,および元原稿ファイル名がある。上限容量は,一般
的に動作環境やアプリケーションのデータ領域の制限
上,音声情報データベースのために使用できるメモリ容
量が制限される場合に用いる。品質は,高いほど音声情
報データベース15の容量は大きくなるが合成音声の品質
も高くなる(詳細は後述する)。作成時間は主に話者S
Pが音声を入力作業を行う時間である。
【0087】音声情報データベースの作成時間が長けれ
ば,データベースの容量は増大する。したがって,上限
作成時間はデータベース容量を制限する。データベース
作成時間は作成されるデータベースの容量に比例すると
考えて良いので,入力された上限作成時間をデータベー
ス容量に次式を用いて変換することができる。
【0088】データベース容量=データベース作成時間
×変換係数
【0089】変換係数は,データベース作成時間とデー
タベース容量の比を示す値で,予め用意しておく,また
は実績値に基づいて調整することが可能である。すなわ
ち,実際の音声情報データベースの作成終了時点におい
て,完成した音声情報データベースの容量と作成に要し
た時間に基づいて次式を用いて変換係数を調整する。
【0090】調整後の変換係数=(1−調整重み)×調
整前変換係数+調整重み×(データベース容量/データ
ベース作成時間)
【0091】音声情報データベースの品質は整数値で表
されるレベルで表記される。品質レベルが高くなるほど
音声単位の種類は増え,その音声情報データベースを用
いて生成される合成音声の質も高くなる。この実施例で
は品質レベルは3レベルあり,例えば,元原稿中のすべ
ての音素が含まれているという品質が「レベル1」,す
べての音節が含まれているという品質が「レベル2」,
アクセントの有無を区別した音節が含まれているという
品質が「レベル3」である。例えば「すずき(suzuk
i)」という音声は,レベル1ではs,u,z,k,i
の5種類,レベル2では,su,zu,kiの3種類の単位に
それぞれ分類される。品質レベルが高くなれば,データ
ベース容量が増大し,作成時間が長くなる。元原稿ファ
イル名とは,テキスト・ファイル形式で作成された元原
稿のファイル名である。
【0092】操作者OPが音声情報データベースの仕様
を入力する場合に,音声情報データ作成システムの表示
装置に,図12に示す仕様入力画面が表示される。
【0093】この仕様入力画面の左端には,開始,仕様
入力,原稿作成,録音,ラベリング,特徴量抽出,終了
の順に音声情報データベース作成の工程が表示され,現
在行っている工程の表示に,周囲や他の工程とは異なる
色が付される。画面上段に表示された仕様入力領域に
は,音声情報データベースの容量(DB容量),同デー
タベースの品質(DB品質)レベル,作成時間の各希望
値を入力するボックスと,原稿ファイル名を入力するボ
ックスとがある。さらに,入力を確定する「設定」ボタ
ンが設けられている。画面下段に表示された完成時の音
声情報データベースの属性表示領域には,DB容量,D
B品質レベルおよび作成時間について,予め設定された
デフォルト値と,操作者OPが入力した設定仕様値が表
示される。
【0094】この仕様入力画面において入力されるDB
容量,DB品質および作成時間は仕様入力部42から原稿
作成部5の文字列選択処理53に与えられる。DB容量と
作成時間については少なくともいずれか一方が入力され
ていればよい。
【0095】仕様入力画面において元原稿ファイル名が
入力されていれば,その入力ファイル名は入力装置42か
らFDドライブ41に与えられる。FDドライブ41は装着
されたFDに格納されているファイルのうち,入力され
た元原稿ファイル名の元原稿ファイルを読出し,原稿作
成部5の元原稿設定処理51に与える。
【0096】図8において原稿作成部5は,元原稿設定
処理(手段)51,元原稿分析処理(手段)52および文字
列選択処理(手段)53を含んでいる。これらの各処理の
動作を図11を参照して説明する。
【0097】原稿作成部5は仕様入力部4から仕様デー
タが与えられると,原稿作成処理を開始する(ステップ
S1)。
【0098】元原稿設定処理51はFDドライブ41から元
原稿ファイルが与えられているかどうかを判断する(ス
テップS2)。元原稿ファイルが与えられていればその
元原稿ファイルをワークエリアに取込む(ステップS
3)。元原稿ファイルが与えられていない場合には,元
原稿設定処理51は原稿データベース11から既存の元原稿
ファイルを読出し,読出した元原稿ファイルをワークエ
リアに設定する(ステップS4)。
【0099】原稿データベース11に複数の元原稿ファイ
ル(既に作成されて格納されているもの)が存在する場
合には,仕様情報に含まれるDB容量およびDB品質に
基づいて適切なものを選択するようにしてもよい。ま
た,FD等の記録媒体から読出した元原稿ファイルと原
稿データベース11から読出した元原稿ファイルとを組合
わせたものを元原稿として設定してもよい。元原稿(元
原稿ファイル)とは録音原稿の元(源)になる単語,
句,節,文等を格納したもので,この元原稿から所要の
単語,句,節,文を取出して後述するように録音原稿が
作成される。
【0100】元原稿分析処理52はワークエリアに設定さ
れた元原稿に含まれる文字列を分析して,文字列を構成
する各音声単位が元原稿に出現する回数を計測する(ス
テップS5)。
【0101】図13(A) は元原稿の一例を示すものであ
る。この元原稿は日本人の多くの苗字を列挙したもので
ある(図では一部のみが示されている)。この元原稿は
各苗字を表わす文字列のリストである。
【0102】このような元原稿が分析される。分析と
は,品質レベルに応じて元原稿に記述された単語,句,
節,文などを音声単位に分解することである。この実施
例では,品質レベル1の音声単位は音素,品質レベル2
の音声単位は音節,品質レベル3の音声単位はアクセン
トを含む音節である。設定されている品質レベル以下の
品質レベルのすべてについて,それぞれに応じた音声単
位への分析が行なわれる。品質レベル3が設定されてい
るとすると,品質レベル1における音素への分解,品質
レベル2における音節への分解および品質レベル3にお
けるアクセントを含む音節への分解のすべてが行なわれ
る。
【0103】このように分解された音声単位のすべてに
ついて,品質レベル別に各音声単位が元原稿中に出現す
る回数を計測し,元原稿分析結果として音声単位リスト
を作成する。図7(B) は元原稿分析結果を示すものであ
る。元原稿分析結果は品質レベル別の音声単位リストと
して記述され,このリストでは出現回数の小さい順に配
列され,出現回数が同じものについてはアルファベット
順に並べられる。母音だけからなる音節は音素であり,
品質レベル1のものとしてリストアップされているか
ら,品質レベル2および品質レベル3のリストには含ま
れていない。
【0104】原稿作成部5における文字列選択処理53
は,元原稿に含まれる単語,句,節,文章(これらを文
字列という)に基づいて,先に作成した元原稿分析結果
を参照して,できるだけ少ない文字列で,できるだけ多
くの音声単位を含むような録音原稿を作成するものであ
る。このために,録音原稿に加えるべき文字列を元原稿
から次のように選択する。すなわち,まず最も低い品質
レベルについての元原稿分析結果リストを参照して,最
も出現回数の少ない音声単位を含む文字列(苗字)を元
原稿から選択し,録音原稿に移す(追加する)(ステッ
プS8)。録音原稿に追加した文字列に含まれるすべて
の音声単位を元原稿分析結果リストから削除する(ステ
ップS9)。さらに選択した文字列を元原稿から削除す
る(ステップS10)。元原稿分析結果リストにおいて出
現回数が少ない音声単位の順に元原稿分析結果リストに
残っている音声単位が無くなるまで,上記の処理を繰返
す(ステップS7)。
【0105】最も低い品質レベルについて,終了すれ
ば,次の品質レベルの元原稿分析結果リストを参照し
て,録音原稿に追加すべき(移すべき)文字列(苗字)
を元原稿において選択する。この処理は設定された品質
レベルに達するまで繰返される。
【0106】図14(A) は品質レベル1について作成され
た録音原稿の例を示している。この録音原稿では,4つ
の苗字が列挙されている。この4つの苗字は,図13(B)
に示す品質レベル1についての元原稿分析結果リストの
すべての音声単位を含んでいる。
【0107】図14(B) は品質レベル2についての処理が
終了した時点で得られる録音原稿の例を示している。図
14(A) の録音原稿と比較すると2つの苗字(しみず,み
やもと)が追加されている。これは,図13(B) に示す品
質レベル2についての元原稿分析結果リストに挙げられ
た音声単位(音節)のすべてを含むように苗字を追加的
に選択したことによる。
【0108】品質レベル3が設定されている場合には,
さらに品質レベル3の要求を満たす文字列の選択と追加
が行なわれ,図14(C) に示すような録音原稿が得られ
る。これは図13(B) に示す品質レベル3についての元原
稿分析結果リストに挙げられているアクセントを含む音
節のすべてを含むように,元原稿から苗字を抽出したこ
とによる。
【0109】仕様入力部4において,上述したように音
声情報DB容量,DB品質および作成時間が入力され
る。このうち,要求されたDB品質(品質レベル1〜
3)を満たすように上述の処理が行なわれる。すなわ
ち,要求されたDB品質が品質レベル2であれば,図14
(B) の録音原稿が得られた時点で処理が終了し,品質レ
ベル3が要求されている場合には図14(C) の録音原稿が
得られるまで処理が続けられる。
【0110】他方,要求されたDB容量および作成時間
もステップS8〜S10の処理の繰返しを制御するために
用いられる。作成時間は上述したようにDB容量に換算
できる。仕様入力部4において入力されたDB容量,ま
たは入力された作成時間から換算されたDB容量のうち
のいずれか小さい方がワークエリアに設定される(ステ
ップS6)。元原稿から文字列(苗字)が選択され,録
音原稿にその選択された文字列が移される(加えられ
る)たびに,加えられた文字列(苗字)についての音声
情報容量(音声情報データベース15に格納される波形デ
ータ等を含むデータ容量)がワークエリアのDB容量か
ら減算される。この減算結果を残りDB容量という。残
りDB容量が零になると録音原稿作成処理は,たとえ途
中であっても,終了する(ステップS7)。
【0111】図7において,原稿作成部5において上述
のように作成された録音原稿は録音管理部6に与えられ
る。録音管理部6では,後述するように録音原稿に含ま
れる文字列(苗字)を順次表示装置9に表示させるとと
もに,必要に応じて休息指示および発話注意を生成して
表示させる。
【0112】話者SPは,表示装置9に表示された文字
列を表示の順序にしたがって声を出して読む(発話す
る)。
【0113】話者SPにより発話された音声が音声入力
装置10に入力され,電気信号に変換される。
【0114】音声入力装置10から出力される音声を表わ
す電気信号は音声波形信号として録音部7および録音管
理部6に入力される。録音部7に入力された音声波形信
号は音声波形データとして録音(保存)される。録音管
理部6は,後述するように入力された音声波形を分析す
る。分析の結果,良品質の音声波形であると判定した場
合には,録音管理部6は,録音部7に音声波形データを
音声波形データベース12に保存させる指令を与える。
【0115】録音管理部6は,機能の観点から大きく分
けると,話者管理処理(手段)6a,音声分析処理(手
段)6b,音声採否判定処理(手段)6cおよび録音管
理処理(手段)6dを備えている。話者管理処理(手
段)6aは発話注意生成処理(手段)61,休息指示生成
処理(手段)62,音声分析結果保持処理(手段)63を備
えている。音声分析処理(手段)6bは,基本周波数検
出処理(手段)64,音量検出処理(手段)65,話速検出
処理(手段)66を備えている。音声採否判定処理(手
段)6cは音声分析結果比較処理(手段)67および音声
採否判定処理(手段)68を備えている。
【0116】録音部7は,発話開始,終了検出処理(手
段)71および録音処理(手段)72を含んでいる。
【0117】話者は表示装置9の表示にしたがって,録
音原稿内の文字列(苗字)を一つずつ声を出して読む。
一つの文字列についての音声信号が音声入力装置10から
録音管理部6および録音部7に与えられる。
【0118】音声分析処理6bは,音声入力装置10から
入力された一つの文字列の音声信号について,その基本
周波数(高さ),音量(パワー)および話速をそれぞれ
処理64,65,66において検出し,これらの検出結果を音
声波形分析結果として音声採否判定処理6cの音声分析
結果比較処理67と話者管理処理6aの音声分析結果保持
処理63に与える。
【0119】音声採否判定処理6cの音声分析結果比較
処理67は,予め設定して音声波形データベース12に記憶
しておいた音声採否判定基準を読出し,与えられる音声
波形分析結果と読出した音声採否判定基準とを比較し
て,音声入力装置10から録音部7に入力された音声を音
声波形データベース12に音声波形データとして登録する
か否かの判定を行う。音声波形分析結果の各属性(基本
周波数,音量,話速)の全てが音声採否判定基準の範囲
内に収まっている場合には,録音部7に保存された音声
波形データを音声波形データベース12に保存させ(採用
と決定),それ以外の場合には,録音部7に音声波形デ
ータを消去(不採用と決定)させる。この動作は各文字
列を表わす音声信号について順次行なわれる。
【0120】音声分析結果保持処理63は,音声分析処理
6bから出力された音声波形分析結果の履歴情報を保存
しておく。また,音声分析結果保持処理63は音声採否判
定処理68による採否判定結果を受取る。採否判定結果が
不採用であったときには,音声分析結果保持処理63は録
音管理処理6dに繰返し指令を与え,不採用となった音
声に対応する文字列を再度表示装置9に表示させる。
【0121】発話注意生成処理61または休息指示生成処
理62は,音声分析結果保持処理63に保持された音声波形
分析結果の履歴情報または,採否判定結果についての情
報に基づいて,次のようにして,必要に応じて,発話注
意または休息指示を生成して,録音管理処理6dに与え
る。
【0122】発話注意生成処理61は,波形分析結果(周
波数,音量,話速)について平均値を常時算出してい
る。そして,今回の波形分析結果とこの平均値を比較
し,比較結果に応じて,発話注意を生成する。たとえ
ば,今回の音量と音量の平均値とを比較し,今回の音量
が音量の平均値を大きく下廻っていれば(差が所定の閾
値以上であれば),「声が小さくなっています」という
発話注意を生成する。
【0123】休息指示生成処理62は音声採否判定処理68
が不採用と判定した頻度に基づいて休息指示を発生す
る。たとえば,今回の不採用判定が前回の不採用判定に
近ければ,話者の疲れが原因で不採用が頻発していると
考えられるので,休息指示を発生する。
【0124】録音管理処理6dは,原稿作成部5から与
えられる録音原稿を保持し,順次表示装置9に発話すべ
き文字列を表示する。表示装置9に表示される画面の一
例が図17に示されている。この画面では31番目の文字列
(苗字)として「佐藤」が表示されている。
【0125】音声採否判定処理68の採否判定結果は音声
分析結果保持処理63を介して録音管理処理6dに与えら
れるので,録音管理処理6dは採用判定であれば次の文
字列(苗字)を表示装置9に表示させ,不採用であれば
前回と同じ文字列(苗字)を表示させるように表示装置
9を制御する。
【0126】録音管理処理6dはまた,発話注意生成処
理61から与えられる発話注意や休息指示生成処理62から
与えられる休息指示を表示装置9に表示させるように制
御する。図17の表示画面では,アドバイスとして,「10
分間の休憩をとってください」という休息指示と,「声
が小さくなっています」という発話注意とが表示されて
いる。
【0127】表示装置9にはまた,発話注意処理61が算
出した音声分析結果の平均値(ハッチングで示す)と今
回の音声分析結果が音声の属性ごとに(音量,話速,高
さ,発話内容)グラフで表示されている。発話内容は,
音声認識による信頼度を示すスコアである。
【0128】休息指示生成処理62は休息指示を出力した
後,指示した休息時間が経過したときに再開指示を録音
管理処理6dに与える。録音管理処理6dはこれに応答
して,発話すべき文字列の表示を続ける。
【0129】なお,図17において,「録音」ボタンは話
者が発話の開始を明示的に入力する場合に用いるもの
で,発話開始検出機能が備えられている場合には不要で
ある。「再生」ボタンは話者が録音音声を再生して確認
するときに用いるものである。
【0130】録音部7には音声入力装置10からの音声信
号が入力している。発話開始・終了検出処理71は入力す
る音声信号の開始時点と終了時点を検出するもので,こ
れらの開始時点から終了時点までの間の音声信号が録音
装置72に与えられて録音される。
【0131】図15および図16は,録音管理部6による録
音管理処理を示すフローチャートである。
【0132】録音管理処理6dは,原稿作成部5によっ
て作成された録音原稿を読込む(ステップS21)。この
とき,録音済みの文字列(苗字)の数(録音済件数)
(変数またはカウンタ)を0にリセットし,録音原稿の
文字列数(録音原稿に含まれる文字列(苗字)の総数)
を,録音全件数(変数またはカウンタ)としてセットす
る(ステップS22)。
【0133】録音管理部6dは,録音済件数が録音全件
数よりも小さいか否かの判定を行う(ステップS23)。
録音済件数が録音全件数以上になった場合には,録音処
理を終了する(ステップS23でNo)。
【0134】録音済件数が録音全件数よりも小さい場合
には,録音管理処理6dは,録音原稿の文字列リストの
中から(録音済件数+1)番目の文字列を読上げ文字列
として設定し(たとえばバッファに格納し)(ステップ
S24),これを表示装置7に出力する(ステップS2
5)。
【0135】表示装置7には,図17に示すような録音表
示画面が表示される。上述した仕様入力画面と同様に画
面左側に音声単位データベース作成工程が表示されてい
る。この段階では「録音」が明示されている。画面上段
には録音原稿文字列表示領域があり,この領域には話者
が読上げるべき文字列(「佐藤(さとう)」)が表示さ
れる。画面中段には,上述したように音声波形分析結果
領域がある。
【0136】話者SPが読上げる文字列を発話する(声
を出して読む)と,その音声が音声入力装置10に入力さ
れ,音声は入力装置10から音声波形として録音部7と音
声管理部6の音声分析処理6bに入力する(ステップS
26でYES)。録音部7に入力された音声波形は音声波
形データとして録音される。
【0137】音声分析処理6bは上述のように入力され
た音声波形を,高さ(基本周波数),大きさ(パワ
ー),速さ(継続時間)について分析して(ステップS
27),その音声波形分析結果を音声採否判定処理6cお
よび話者管理処理6aに出力する。
【0138】音声採否判定処理6cでは,上述したよう
に予め設定して音声波形データベース12に保存しておい
た音声採否判定基準を読出し,読出した音声採否判定基
準を用いて,音声波形分析結果が示す高さ(基本周波
数),大きさ(パワー),速さ(継続時間)のいずれも
が音声採否判定基準内に収まっている(採用)か否(不
採用)かの判定を行う(ステップS28)。
【0139】高さ(基本周波数),大きさ(パワー),
速さ(継続時間)のいずれもが音声採否判定基準内に収
まっている場合(ステップS28でYES)には,音声採
用判定処理6cは,録音部7および話者管理処理6a
(さらに録音管理処理6dに)に採用信号を出力する。
録音部7では,採用信号を入力すると,先に録音してお
いた音声波形データを音声波形データベース12に登録す
る。また,録音管理処理6dでは,採用信号が入力され
ると,そのときの音声波形データが音声波形データベー
ス12に登録されたのであるから,録音済件数に1を加え
る。すなわち,(録音済件数+1)を録音済件数として
設定する(ステップS29)。
【0140】高さ(基本周波数),大きさ(パワー),
速さ(継続時間)のいずれかが音声採否判定基準内の範
囲に収まっていない場合(ステップS28でNO)には,
その音声を不採用(録音失敗)として扱われ,音声採否
判定処理6cは,不採用信号を話者管理処理6aおよび
録音部7に出力する。
【0141】話者管理処理6aは,不採用信号が入力さ
れると,前回不採用の文字列が何番目であったかを示す
前回失敗番号と今回の発話の文字列が何番目であるもの
かを示す(録音済件数+1)とを読取り,読取った前回
失敗番号と(録音済件数+1)との差が予め設定された
休息要否判定値未満であるかどうかの判定を行う(ステ
ップS30)。
【0142】話者管理処理6aは,(録音済件数+1)
と前回失敗番号との差が休息要否判定値以上の場合に
は,休息は不要で単に録音をやり直せばよい。このとき
には,前回失敗番号として(録音済件数+1)を設定す
るとともに,録音のやり直しのために(録音済件数+
1)を録音件数として録音管理処理6dに出力する。録
音管理処理6dは,(録音済件数+1)番目の文字列を
表示装置9に表示させ,もう一度(録音済件数+1)番
目の文字列の録音をやりなおす(ステップS34からステ
ップS25に戻る)。
【0143】話者管理処理6aは,(録音済件数+1)
と前回失敗番号との差が休息要否判定値未満の場合に
は,頻繁に不採用判定があったのであり,休息が必要で
あるとして休息指示を生成し,録音管理処理6dに出力
する(ステップS31)。録音管理処理6dは出力された
休息指示を表示装置9に表示する。話者SPは表示装置
9に表示された休息指示を見て,休息する。
【0144】話者管理処理6aの休息指示生成処理62
は,休息指示を表示した時点から経過時間の計測を開始
して,既定の休息時間が経過するまで待ち状態となる
(ステップS32)。経過時間を計測(ステップS33)し
て,休息時間が経過すると(ステップS32でYES)ス
テップS34へ進み,(録音済件数+1)番目の文字列を
再度読上げ文字列とする。
【0145】以上のように録音済件数が録音全件数に等
しくなるまで繰返し録音処理が行われる(ステップS2
3)。
【0146】ラベリング部8には,原稿作成部5で作成
された録音原稿と音声波形データベース12に保存された
音声波形データとが与えられる。ラベリング部8は,音
声波形データにおいて,その波形に対応する文字列を構
成する各音声単位の境界を定め,各音声単位を表わすラ
ベルと,境界を示す時間情報からなるラベル情報を作成
する。ラベリング部8はまた,作成したラベル情報につ
いてのラベリング・エラー除去(時間情報の修正と時間
情報の無効化)を行う。ラベリング部8は,ラベル情報
をラベル情報データベース13に保存する。
【0147】一例として原稿作成部5で作成された録音
原稿の中の「さとう(satoo )」という文字列(苗字)
を取上げる。音声波形データベース12にはこの文字列を
話者が発話したときの音声波形データが既に格納されて
いる。音声単位が音素の場合には,上記文字列は,音素
を単位としたラベル列s,a,t,o,oで表わされ
る。音声単位が音節の場合には,ラベルはsa,to,o と
なる。ラベリングとは,これらのラベル列の各音声単位
と音声波形データとを対応させることであり,音声波形
データを,音声単位ごとに区切ることである。音声単位
が音素の場合について図3を再度参照のこと。
【0148】図10はラベリング部8の機能ブロック図で
ある。ラベリング部8は,ラベリング処理(手段)8a
と,ラベリングエラー除去処理(手段)8bとから構成
されている。ラベリング処理8aには,統計モデル作成
処理(手段)81,音声単位境界決定処理(手段)82およ
びラベル情報生成処理(手段)83が含まれている。ラベ
リングエラー除去処理8bには,時間情報エラー修正処
理(手段)84,時間情報比較処理(手段)85およびラベ
ル情報無効化処理(手段)86が含まれている。
【0149】ラベリング処理8aの音声単位境界決定処
理82は,原稿作成部5から与えられる録音原稿および音
声波形データベース12に保存された音声波形データを読
込む。録音原稿は統計モデル作成処理81にも与えられ
る。録音原稿に含まれる一つ一つの文字列(たとえば
「satoo 」)について次の処理が行なわれる。
【0150】統計モデル作成処理81は,予め用意した統
計モデル(音声単位ごとに音響的特徴を統計的にモデル
化したもの;たとえばHidden Markov Model )を利用し
て,入力された録音原稿中の特定の一つの文字列に対応
するラベル列にしたがって,そのラベル列を表わす音声
波形に相当する音響的特徴量の系列を作成する。音声単
位境界決定処理82はこの作成された系列と,上記文字列
に対応して実際に録音された音声波形の音響的特徴量の
系列とのマッチングをとることによって,実際に録音さ
れた(音声波形データベース12からの)音声波形におい
て音声単位の境界を抽出する。
【0151】抽出された音声単位の境界情報(時間情
報)は,音声単位を示すラベルと対にされ,ラベル情報
生成処理83からラベル情報データベース13に与えられ
る。ラベル情報は,音声単位を表わすラベルとその音声
単位の終了時点(時間情報)(音声波形データの開始時
点を0とする)との対を,文字列の順序(時間の順序)
で記述したものである。
【0152】なお,ラベリングの詳細については,特開
平10−49193 号公報などに開示されている。また,HM
Mを用いた自動ラベリングのほか,DPマッチングによ
る自動ラベリングの方式を利用してもよい。
【0153】ラベリングエラー除去処理8bは,生成し
たラベル情報において,ラベリングエラーの可能性が高
い音声単位について,その時間情報(終了時点)を修正
したり(時間情報エラー修正),その音声単位自体をデ
ータベースにおいて無効化するための情報を付与したり
する(ラベル情報無効化処理)ものである。すなわちエ
ラー除去の処理内容は,修正規則に基づく時間情報エラ
ー修正と,別個に作成された複数のラベル情報の差異に
基づくラベル情報無効化の2つに大きく,分けられる。
【0154】時間情報エラー修正処理84では,予め用意
した修正規則により,ラベル情報の時間情報を修正す
る。
【0155】ラベル情報無効化のために,時間情報比較
処理85では,先の統計モデル(たとえばHMMモデル)
を用いて生成したラベル情報(第1のラベル情報とい
う)(データベース13に格納したもの)と,これとは別
の統計モデルを用いて作成した第2のラベル情報との差
異を比較する。そして,ラベル情報無効化処理86におい
て,時間情報の差異が予め設定した閾値を超える場合
に,それに対応する第1のラベル情報の該当する部分に
無効化情報を付与する(無効化情報が付与されたラベル
情報は,続く特徴量抽出処理の対象外とされるので,ラ
ベリングエラーが存在したとしても音声単位データベー
スの品質に悪い影響を与えないようになっている)。
【0156】図18はラベリング部8におけるラベリング
エラーの除去処理8bの動作を示すフローチャートであ
る。
【0157】ラベリングエラー除去処理8bはラベリン
グ処理8aによって作成され,保存された一文字列(一
苗字)についてのラベル情報をラベル情報データベース
13から読込む(ステップS41)。このラベル情報を第1
のラベル情報とする。
【0158】第1のラベル情報に含まれるラベル数をカ
ウントし,このカウント値を変数「全ラベル数」にセッ
トし,ラベル修正規則の数を変数「全規則数」にセット
し,変数「処理済ラベル数」を0にリセットする(ステ
ップS42)。ラベル修正規則については後述する。変数
「処理済修正規則数」を0にリセットする(ステップS
44)。ラベル修正規則については,後述する。変数「処
理済修正規則数」を0にセットする(ステップS44)。
【0159】(処理済ラベル数+1)番目のラベル情報
に対して修正規則を順に適用する(ステップS46)。修
正規則の条件に適合しない場合は,ラベル情報は更新し
ない。適合する場合は,修正規則の実行部の記述にした
がって,ラベル情報を更新する(ステップS47)。
【0160】図19(A) は,ラベル情報の一例を示すもの
である。ラベル情報はs,a,t,oおよびoの音声単
位(音素)とこれらの音素に対応する境界情報が列記さ
れている。境界情報は,「satoo 」の音声波形データの
開始時点を零として各音声単位の終了時点の時間情報で
ある。
【0161】図19(B) は,修正規則の例を示すものであ
る。修正規則は各音声単位について設定されている。修
正規則は,「if(条件部),then(実行部)」という形
式で表現されており,条件部に記述された条件を満足す
る場合に限って実行部に記述された処理が実行される。
【0162】図19(A) に示すラベル情報について図19
(B) に示す修正規則を具体的に適用してみる。
【0163】図19(A) の第3番目のラベル「a」の持続
時間は0.076 (秒)(0.101−0.025=0.076 )である。
図19(B) のラベル「a」についての修正規則の条件部は
「if(持続時間<30)」であるから(30は0.030 秒の意
味),ラベル「a」の持続時間は条件部を満たさない
(ステップS46でNO)。したがって,修正規則の実行
部は実行されない。
【0164】ラベル情報の5番目のラベル「o」の持続
時間は0.028 (0.191−0.163)であるから,音声単位
「o」についての修正規則の条件部(if(持続時間<4
0))を満たす(ステップS46でYES)。したがっ
て,その実行部「修正持続時間=持続時間×1.5 」が実
行される。持続時間の値=0.028 であるから,修正持続
時間=0.042(=0.028×1.5)となる。5番目のラベル
の「o」の終了時点は0.205(=直前の音声単位の終了
時点0.163+0.042)と修正される。図19(C) は,修正し
た後のラベル情報を示す。
【0165】処理済修正規則数に1を加えながら(ステ
ップS48),(処理済ラベル数+1)番目のラベル情報
に対してすべての修正規則を適用する(ステップS45に
よる繰返し)。
【0166】一つのラベル情報に対してすべての修正規
則を適用し終えれば,処理済ラベル数に1を加え(ステ
ップS49),ステップS43に戻る。一つの文字列の全ラ
ベルについてステップS44〜S49の処理を終えれば(ス
テップS43でNO),時間情報のエラー修正処理を終え
る。
【0167】次にラベル情報無効化処理に移る。
【0168】第1のラベル情報を作成したときに用いた
統計モデルとは異なる統計モデルを用いて,第1のラベ
ル情報の作成と同じやり方で自動ラベリングを実行し,
第2のラベル情報を作成する(ステップS50)。作成さ
れた第2のラベル情報の例が図20(A) に示されている。
【0169】処理済ラベル数を0に戻し,ラベル無効化
の閾値を設定する(ステップS51)。ラベル無効化閾値
の例が図20(C) に示されている。
【0170】修正された第1のラベル情報(図19(C) )
と第2のラベル情報(図20(A) )とにおいて,対応する
ラベルの時間情報の差をそれぞれ算出し(ステップS5
3),この差がラベル無効化閾値を超えているかどうか
を判定する(ステップS54)。各ラベルについての差の
一例が図20(B) に示されている。これらの差のうち閾値
を超えているものがあれば(ステップS54でYES),
対応する第1のラベル情報に無効化情報を付与する(ス
テップS55)。例えば,図20(B) において,2番目のラ
ベル「a」の時間情報の差は, 0.014(s)であり,ラ
ベル無効化閾値である 0.050(s)の範囲に収まってい
るので,無効化情報を付する必要はない。これに対して
5番目のラベル「o」の時間情報の差は, 0.051(s)
であり,ラベル無効化閾値を超えているため,5番目の
「o」のラベルに無効化情報を付与する。その直後のラ
ベル(6番目のラベル「o」)のラベルにも自動的に無
効化情報を付与する。図20(D) では,第5番目と第6番
目のラベル「o」に無効化情報×が付けられている。処
理済ラベル数に1を加えながらすべてのラベルについて
上記の処理を繰返す(ステップS56,S52)。無効化処
理を終えた第1のラベル情報はデータベース13に再び格
納される。
【0171】図21は,音声情報データベース15に含まれ
るインデックス情報(図21(A) )と,これに対応する音
声波形データ(図21(B) )の一例を示したものである。
【0172】特徴量抽出部14は,ラベル情報データベー
ス13に保存されたラベル情報を読出し,対応する音声波
形データを音声波形データベース12から読出す。特徴量
抽出部14は,読出した対応するラベル情報と音声波形に
ついて,音声単位ごとに,特徴量(長さ,高さ,大きさ
など)を算出して,算出した特徴量をラベル情報ととも
に列記してインデックス情報を作成する。このとき上述
した無効化情報が付与された音声単位については特徴量
の算出は行わない。さらに特徴量抽出部14はインデック
ス情報と音声波形データとを対にして音声情報データと
して,音声情報データベース15に保存する。
【0173】(3)第2実施例 図22は,音声情報データ作成システムの第2実施例の全
体構成を示す機能ブロック図である。この図において,
図7に示すものと同一物には同一符号を付し重複説明を
避ける。録音原稿を話者SPが声を出して読むにあたっ
て適切な読み方を話者SPに示すための標準音声を作成
する機能を録音管理部6Aが持つ。標準音声はスピーカ
18から出力される。原稿作成部5Aは,元原稿を追加し
たときに,既に作成されている録音原稿に追加すべき追
加録音原稿を作成する機能を持つ。この追加録音原稿は
最小限で足りる。追加録音原稿の作成のために音声情報
データベース15から音声情報(インデックス情報)が原
稿作成部5Aに与えられる。ラベリング部8Aは第1の
実施例とは異なり,作成したラベル情報(特に時間情
報)について,ラベル情報の統計的分析結果に基づいて
エラー除去を行う機能を持つ。
【0174】図23は原稿作成部5Aの機能的構成を示す
ブロック図である。図24は原稿作成部5Aの追加録音原
稿を作成する動作を示すフローチャートである。以下
に,追加録音原稿を作成する処理について説明する。録
音原稿作成処理は第1実施例において説明した通りであ
り,追加録音原稿作成処理はこれに付加される機能であ
ると理解されたい。
【0175】以下の説明では,第1実施例において既に
作成された苗字についての追加録音原稿の存在を前提と
する。
【0176】音声情報データベース15には苗字について
の録音原稿を話者SPが読上げて,これを録音して得ら
れる音声情報が既に格納されているものとする。音声情
報データベース分析処理(手段)54は,データベース15
から苗字についての音声情報中のインデックス情報を読
出し,このインデックス情報を分析してインデックス情
報に含まれる音声単位のリストを,品質レベルごとに作
成する(図24,ステップS61)。音声情報データベース
の分析結果の一例が図25(A) に示されている。これは図
13(B) に示す元原稿分析結果と全く同じである(音声単
位のリストにおける配列順序が異なっているが)。
【0177】仕様入力部4において,現在の音声情報デ
ータベース15を前提として,新たに追加的に合成により
得たい文字列(単語,句,節,文などを含む)を列挙し
た原稿(追加元原稿という)の入力を操作者OPから受
け付ける(ステップS62)。入力が終了するまでは,待
ち状態にある(ステップS63)。追加元原稿に対応する
テキストファイル名だけを入力装置42において入力させ
て,追加元原稿の内容は,そのファイルをFDドライブ
41により読み込むようにしてもよい。もちろん追加元原
稿をキーボードから入力してもよいし,原稿データベー
ス11に格納されているものを用いてもよい。
【0178】追加元原稿の一例が図25(B) に示されてい
る。この追加元原稿は地名リストである。
【0179】追加元原稿が元原稿設定処理51Aに設定さ
れると,元原稿分析処理52Aは,追加元原稿に含まれる
すべての文字列について,それらを品質レベル別に,ラ
ベル(音声単位)に分解し,それらの出現回数を計数し
て,音声単位リストを作成する(ステップS64)。これ
が追加元原稿分析結果であり,図25(B) に示す追加元原
稿について,具体例が図25(C) に示されている。
【0180】分析結果比較処理55A は,元原稿分析処理
52Aによる追加元原稿分析結果と音声情報データベース
分析処理54による音声情報データベース分析結果とを比
較し,追加元原稿分析結果(図25(B) )に存在するが,
音声情報データベース分析結果(図25(A) )には存在し
ない音声単位を,品質レベル別に抽出する。この差分抽
出結果の一例が図25(D) に示されている。
【0181】文字列選択処理(手段)53Aは,差分抽出
結果に含まれている音声単位について,その音声単位を
含む文字列を,録音原稿に追加していく,という処理を
品質レベル別に品質レベルの低い方から高い方に向って
順に行う。追加録音原稿が,その品質レベルの全音声単
位を網羅した時点で,その品質レベルの処理を終え,次
の品質レベルの処理に移る。図25(D) に示す例では,品
質レベル1には差分として抽出された音声単位がないの
で,品質レベル2から処理を行うことになる。品質レベ
ル2における処理では「きょうと」が追加され,品質レ
ベル3における処理ではさらに「なら」が追加され,最
終的には,追加録音原稿には,「きょうと」と「なら」
の2つの文字列が追加される。音声情報データベースに
この2つの文字列の音声を追加するだけで,図25(A) の
地名リスト中のすべての地名を,高い品質で合成するこ
とができるようになる。
【0182】このようにして,追加原稿の分析結果とイ
ンデックス情報分析結果とを比較して,追加元原稿にあ
ってインデックス情報にない音声単位(不足音声単位)
を抽出し,不足している音声単位を含む文字列を録音原
稿に追加していくので,最初から録音原稿を作り直す必
要はない。
【0183】図24において,分析結果比較処理55と文字
列選択処理53Aの動作の流れは次の通りである。
【0184】音声情報データベース分析結果と追加元原
稿分析結果を参照し,追加元原稿に存在して,音声情報
データベースには存在しないような音声単位をすべて列
挙し,音声単位リストとする。また,追加元原稿に含ま
れるすべての文字列を,文字列リストに加える(ステッ
プS65)。
【0185】音声単位リストに音声単位が残っている場
合(ステップS66でYES),音声単位リストから出現
回数が最小の音声単位1つを選択し,さらに,文字列リ
ストからその音声単位を含む文字列を1つだけ選択し
て,追加録音原稿にその文字列を追加する(ステップS
67)。
【0186】追加録音原稿に追加した文字列に含まれる
音声単位のうち,音声単位リストに残っているものをす
べて音声単位リストから削除する(ステップS68)。ま
た,追加録音原稿に追加した文字列を文字列リストから
削除する(ステップS69)。
【0187】音声単位リストが空になるまでステップS
67〜S69を繰り返す。これにより,追加録音原稿作成が
終了する。
【0188】この追加録音原稿作成処理においても,デ
ータベース容量やデータベース作成時間の要求がある場
合は,この要求による制限が考慮されるのはいうまでも
ない。
【0189】図26は録音管理部6Aの構成を示すブロッ
ク図である。
【0190】録音管理部6Aは,上述した第1実施例の
録音管理部6に音声合成処理(手段)6eがさらに設け
られたものである。
【0191】音声合成処理6eは,原稿作成部3Aから
録音管理処理6dを介して読込んだ録音原稿中の文字列
を音で表わす合成音声を作成する。すなわち,音声合成
処理6eは録音原稿の各文字列について,正しい読み上
げ方(アクセント位置,間の取り方,抑揚などの点
で),または(話者管理手段6cが保持する録音音声分
析結果の履歴情報に基づいて)その話者に適切な声の大
きさ,高さ,速さで,録音原稿の文字列を読み上げる合
成音声を作成する。音声合成手段6eで作成された合成
音声(予め用意した録音音声でもよい)は標準音声とし
てスピーカなどの音声出力装置18から出力される。これ
により,話者SPは,発話すべき文字列の合成音声を聞
き,発話すべき音声の高さ,大きさ,速さを参考にする
ことができるため,文字列を不適切に読むことを防ぎ,
録音音声(音声情報データ)の質を向上させることがで
きる。
【0192】図27は,録音管理部6Aによる録音管理処
理を示すフローチャートである。図15に示すものと同一
処理には同一符号を付し重複説明を避ける。また,図16
はそのまま適用することができる。
【0193】音声合成手段6eは,録音管理処理6dか
ら入力された(録音済件数+1)番目の文字列に対する
適切な声の高さ,大きさ,速さ,抑揚等の目標値,また
はこれまでの録音音声の分析結果に基づき,韻律的特徴
のパラメータを設定する(ステップS36)。音声合成手
段6eは,設定したパラメータを用いて(録音件数+
1)番目の読上げ文字列の合成音声を作成し,作成した
合成音声を標準音声として音声出力装置(スピーカ)18
に出力する(ステップS37)。したがって,表示画面に
文字列が表示される(ステップS25)だけでなく,その
標準音声も出力される。
【0194】図28はラベリング部8Aの機能的構成を示
すブロック図である。図10と比較すると,ラベリングエ
ラー除去処理8bに代えて,ラベリングエラー除去処理
(手段)8cおよびラベル情報統計分析処理(手段)8
dが設けられている。ラベリングエラー除去処理8c
は,ラベル情報信頼性確認処理(手段)87およびラベル
情報無効化処理(手段)86を含む。ラベル情報統計分析
処理8dは,信頼区間算出処理(手段)88および統計分
析処理(手段)89を含む。
【0195】ラベリング情報統計分析処理8dは,既存
のラベル情報(ラベル情報データベース13内のラベル情
報)を統計的に分析して,音声単位ごとに継続時間の平
均値と標準偏差から信頼区間(継続時間に関する信頼区
間)を算出し,信頼区間情報を作成する。分析対象とな
る既存のラベル情報は,話者により音声の特徴が異な
り,継続時間の信頼区間が変わることが多いために,こ
れからラベリングエラー除去の処理をしようとするラベ
ル情報と同じ話者のラベル情報を使用することが望まし
い。
【0196】ラベリングエラー除去処理8cは,ラベル
情報統計分析処理8dで得られた各音声単位の信頼区間
情報を参照して,エラー除去対象のラベル情報に含まれ
る各音声単位の継続時間が対応するラベルの信頼区間内
に収まっているか否かをチェックする。ラベリングエラ
ー除去処理8cは,信頼区間に収まっていないラベル情
報に無効化情報を付与する,さらに信頼区間内に収まる
ようにラベル時間情報を修正してもよい。ラベリングエ
ラー除去処理8cは,ラベリング処理8aにより生成さ
れたラベル情報に含まれる各音声単位について,その音
声単位の継続時間が,ラベル情報統計分析処理8dによ
り算出された,その音声単位に対応する継続時間の信頼
区間の範囲外にある場合,その箇所を(ラベリングの信
頼性が低い,すなわち,ラベリングエラーの可能性が高
いと判定して),無効化する。これにより,統計的に信
頼性が低いと判断されたラベル情報を自動的に無効化で
き,結果として,ラベリング結果の品質を高めることが
できる。
【0197】図29は,ラベリング部8Aのラベル情報統
計分析処理8dおよびラベリングエラー除去処理8cに
よるラベリングエラー除去処理の手順を示すフローチャ
ートである。
【0198】ラベル情報統計分析処理8dの統計分析処
理89はラベリング処理8aによって作成され,ラベル情
報データベース13に保存されたラベル情報,好ましくは
同じ話者SPによって録音された音声波形から得られた
一群のラベル情報を読込む(ステップS71)。
【0199】統計分析処理89は,音声単位別に継続時間
の平均値と標準偏差を算出し,ラベル情報の中にその音
声単位が出現する個数を計数する(ラベル情報の統計分
析)(ステップS72)。
【0200】図30(A) は統計分析処理89に読込まれたラ
ベル情報の一例を示すものである。図30(B) は統計分析
処理89による統計分析の結果の一例を示すものである。
【0201】信頼区間算出処理88は,統計分析処理89に
よる統計分析結果に基づき音声単位ごとの継続時間の信
頼区間を以下の算出式により算出する(ステップS7
3)。
【0202】 信頼区間=平均値±Z[(標準偏差)2/(出現回数)]1/2 ‥‥(式1)
【0203】ここで,Zは正規分布に基づく定数であ
る。
【0204】図30(C) は上記の算出式より算出した音声
単位ごとの継続時間の信頼区間の一例を示している。
【0205】このようにして得られた信頼区間に関する
データはラベル情報信頼性確認処理87に与えられる。ラ
ベル情報信頼性確認処理87はまた,統計分析処理89が取
得したものと同じラベル情報(これをエラー除去対象ラ
ベル情報という)をラベル情報データベース13から読込
む。
【0206】ラベル情報信頼性確認処理87は,エラー除
去対象ラベル情報に含まれるラベル数をカウントし,変
数「全ラベル数」に設定する。また,「処理済ラベル
数」を0に設定する(ステップS74)。
【0207】(処理済ラベル数+1)番目のラベルに対
応する音声単位の継続時間を算出する(継続時間は,そ
の音声単位の終点を示す時間情報と,直前の音声単位の
終点を示す時間情報との差で求められる)(ステップS
76)。
【0208】(処理済ラベル数+1)番目のラベルに対
応する音声単位の継続時間が,その音声単位の信頼区間
の範囲内におさまっていない場合は,ラベル情報無効化
処理86は,(処理済ラベル数+1)番目のラベルに無効
化情報を付与する(ステップS78)。図30(D) は無効化
情報付与後のラベル情報の一例を示すものである。音声
単位「o」の継続時間の信頼区間は,図30(C) による
と,46.8〜115.2 (ms)である。図30(D) において第5
番目および第6番目の音声単位(ラベル)「o」の継続
時間はそれぞれ0.191(s)および0.312(s)であり,
信頼区間の範囲内に入っていない。したがってラベル
「o」は2つとも無効化情報(×印で示す)が付され
る。他のラベルs,a,tの継続時間は対応する信頼区
間の範囲内にあるので無効化情報は付与されない。
【0209】処理済ラベル数の値に1を加え,ステップ
S75を経てステップS76に戻り(ステップS79),ステ
ップS76〜S78の処理を,処理済ラベル数が全ラベル数
に等しくなるまで繰返す(ステップS75)。
【0210】以上のようにして,ラベリングエラー除去
処理が終了すると,処理後のラベル情報は再びラベル情
報データベース13に格納される。
【図面の簡単な説明】
【図1】音声波形における音素,音節および単語の区切
りを付け,音声波形と対応付けて示す。
【図2】音韻環境を考慮して音声単位を音声波形と対応
付けて示す。
【図3】音声波形とラベル情報との関係を示す。
【図4】波形情報を用いて波形接続型音声合成を行う様
子を示す。
【図5】波形接続型音声合成処理の流れを示すものであ
る。
【図6】音声情報データベース作成システムのハードウ
ェア構成を示すブロック図である。
【図7】第1実施例における音声単位データ作成システ
ムの全体構成を示すブロック図である。
【図8】原稿作成部の機能的構成を示すブロック図であ
る。
【図9】録音管理部の機能的構成を示すブロック図であ
る。
【図10】ラベリング部の機能的構成を示すブロック図
である。
【図11】原稿作成部による録音原稿作成処理を示すフ
ローチャートである。
【図12】仕様入力表示画面を示す。
【図13】(A) は,元原稿の一例を示す。(B) は,元原
稿分析結果の一例を示す。
【図14】(A) は,レベル1処理後の録音原稿の一例を
示す。(B) は,レベル2処理後の録音原稿の一例を示
す。(C) は,レベル3処理後の録音原稿の一例を示す。
【図15】録音管理部による録音処理を示すフローチャ
ートである。
【図16】録音管理部による録音処理を示すフローチャ
ートである。
【図17】録音画面を示す。
【図18】ラベリング部によるラベリングエラー除去処
理を示すフローチャートである。
【図19】(A) は,第1のラベル情報を示す。(B) は,
修正規則を示す。(C) は,修正後の第1のラベル情報を
示す。
【図20】(A) は,第2のラベル情報を示す。(B) は,
ラベルの差異情報を示す。(C) は,無効化閾値を示す。
(D) は,無効化情報付与後の第1のラベル情報を示す。
【図21】(A) は,インデックス情報を示す。(B) は,
音声波形データを示す。
【図22】第2実施例における音声単位データ作成シス
テムの全体構成を示すブロック図である。
【図23】第2実施例における原稿作成部の機能的構成
を示すブロック図である。
【図24】第2実施例における原稿作成部による追加録
音原稿作成処理を示すフローチャートである。
【図25】(A) は,音声情報データベース分析結果の一
例を示す。(B) は,追加元原稿の一例を示す。(C) は,
追加元原稿分析結果の一例を示す。(D) は,差分抽出結
果の一例を示す。(E) は,品質レベル2処理後の追加元
原稿の一例を示す。(F) は,品質レベル3処理後の追加
元原稿の一例を示す。
【図26】第2実施例における録音管理部の機能的構成
を示すブロック図である。
【図27】第2実施例における録音管理部による録音処
理を示すフローチャートである。
【図28】第2実施例におけるラベリング部の機能的構
成を示すブロック図である。
【図29】第2実施例におけるラベリング部によるラベ
リングエラー除去処理を示すフローチャートである。
【図30】(A) は,ラベル情報の一例を示す。(B) は,
統計分析結果の一例を示す。(C)は,信頼区間情報の一
例を示す。(D) は,無効化情報付与後のラベル情報の一
例を示す。
【符号の説明】
4 仕様入力部 5,5A 原稿作成部 5a 原稿作成処理 5b 音声情報データベース分析処理 6,6A 録音管理部 6a 話者管理処理 6b 音声分析処理 6c 音声採否判定処理 6d 録音管理処理 6e 音声合成処理 7 録音部 8,8A ラベリング部 8a ラベリング処理 8b,8c ラベリングエラー除去処理 8d ラベル情報統計分析処理 9 表示装置 10 音声入力装置 11 原稿データベース 12 音声波形データベース 13 ラベル情報データベース 14 特徴量抽出部 15 音声情報データベース 16 出力装置 17 記録媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 大谷 賢 京都市下京区塩小路通堀川東入南不動堂町 801番地 オムロン株式会社内 (72)発明者 糀谷 和人 京都市下京区塩小路通堀川東入南不動堂町 801番地 オムロン株式会社内 Fターム(参考) 5B075 ND14 UU40 5D015 FF07 5D045 AA04

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 複数の文字列を含む元原稿を設定する手
    段,元原稿に含まれる文字列を構成するすべての音声単
    位を抽出する元原稿分析手段,および上記元原稿分析手
    段によって抽出されたすべての音声単位を含むように元
    原稿から文字列を選択して録音原稿を作成する第1の文
    字列選択手段,を備えた録音原稿作成装置。
  2. 【請求項2】 上記元原稿分析手段は,元原稿に含まれ
    る文字列を構成するすべての音声単位について,その元
    原稿における出現回数を検出するものであり,上記文字
    列選択手段は,出現回数の少ない音声単位を含む文字列
    から順に,上記すべての音声単位を網羅するまで,文字
    列を選択するものである,請求項1に記載の録音原稿作
    成装置。
  3. 【請求項3】 上記文字列選択手段は,作成すべき音声
    情報データベースに関する所与の仕様を満たす条件の下
    で文字列を選択するものである,請求項1または2に記
    載の録音原稿作成装置。
  4. 【請求項4】 既存の音声情報データベースに含まれる
    すべての第1の音声単位を抽出する音声情報データベー
    ス分析手段,追加元原稿に含まれる文字列を構成するす
    べての第2の音声単位を抽出する追加元原稿分析手段,
    第2の音声単位について,第1の音声単位に含まれてい
    ない音声単位を検出する比較手段,および上記比較手段
    によって検出された音声単位を含む文字列を追加元原稿
    から選択して追加録音原稿を作成する第2の文字列選択
    手段,を備えた追加録音原稿作成装置。
  5. 【請求項5】 所与の元原稿に含まれる文字列を構成す
    るすべての音声単位を抽出し,かつそれらの音声単位に
    ついて,その元原稿における出現回数を検出し,出現回
    数の少ない音声単位を含む文字列から順に,上記の抽出
    したすべての音声単位を網羅するまで,元原稿から文字
    列を選択して録音原稿に加える,録音原稿作成方法。
  6. 【請求項6】 既存の音声情報データベースに含まれる
    すべての第1の音声単位を抽出し,追加元原稿に含まれ
    る文字列を構成するすべての第2の音声単位を抽出し,
    第2の音声単位について,第1の音声単位に含まれてい
    ない音声単位を検出し,検出された音声単位を含む文字
    列を追加元原稿から選択して追加録音原稿を作成する,
    請求項5に記載の録音原稿作成方法。
  7. 【請求項7】 所与の元原稿に含まれる文字列を構成す
    るすべての音声単位を抽出し,かつそれらの音声単位に
    ついて,その元原稿における出現回数を検出し,出現回
    数の少ない音声単位を含む文字列から順に,上記の抽出
    したすべての音声単位を網羅するまで,元原稿から文字
    列を選択して録音原稿に加えるようにコンピュータを制
    御するプログラム。
  8. 【請求項8】 録音原稿に含まれる複数の文字列を,所
    与の表示トリガごとに順次表示する表示装置,表示装置
    に表示された文字列について話者から入力された音声信
    号を一時的に記憶する録音手段,上記音声信号を分析す
    る音声信号分析手段,上記音声分析手段の分析結果に基
    づいて音声採否を判定し,採用と判定したときには上記
    録音手段に一時記憶された音声信号を音声波形データベ
    ースに格納するように制御するとともに表示トリガを上
    記表示装置に与える音声採否判定手段,および上記音声
    信号分析手段の分析結果または上記音声採否判定手段の
    判定結果に基づいて,話者に与えるべき指示情報を作成
    する話者管理手段,を備えた録音管理装置。
  9. 【請求項9】 上記話者管理手段は,指示情報として話
    者への注意,または休息指示を作成するものである,請
    求項8に記載の録音管理装置。
  10. 【請求項10】 上記表示装置は,上記音声信号分析手
    段による分析結果,または上記話者管理手段によって作
    成された指示情報を表示するものである,請求項8に記
    載の録音管理装置。
  11. 【請求項11】 上記表示装置に表示される文字列を表
    わす合成音声信号を作成する音声合成手段,および音声
    合成手段によって作成された合成音声信号を出力する音
    声出力手段をさらに備えた,請求項8に記載の録音管理
    装置。
  12. 【請求項12】 録音原稿に含まれる複数の文字列を,
    所与の表示トリガごとに順次表示し,表示された文字列
    について話者から入力された音声信号を一時的に記憶
    し,上記音声信号を分析し,上記分析結果に基づいて音
    声採否を判定し,採用と判定したときには一時記憶され
    た音声信号を音声波形データベースに格納するとともに
    表示トリガを発生し,上記音声信号の分析結果または上
    記音声採否判定結果に基づいて,話者に与えるべき指示
    情報を作成して出力する,録音管理方法。
  13. 【請求項13】 録音原稿に含まれる複数の文字列を,
    所与の表示トリガごとに順次表示し,表示装置に表示さ
    れた文字列について話者から入力された音声信号を分析
    し,分析結果に基づいて音声採否を判定し,採用と判定
    したときには,一時記憶された音声信号を音声波形デー
    タベースに格納するとともに表示トリガを発生し,上記
    音声信号の分析結果または上記音声採否判定結果に基づ
    いて,話者に与えるべき指示情報を作成するようにコン
    ピュータを制御するプログラム。
  14. 【請求項14】 録音原稿中の文字列と,この文字列を
    発音することにより得られる音声波形データとの対応づ
    けにより,音声波形データを音声単位ごとに区切り,音
    声単位を表わすラベルとその区切りを表わす時間情報と
    を含む第1のラベル情報を作成する第1のラベリング手
    段,および上記第1のラベリング手段によって作成され
    た第1のラベル情報における時間情報を修正または無効
    化するラベリングエラー除去手段,を備えたラベリング
    装置。
  15. 【請求項15】 上記ラベリングエラー除去手段が,音
    声単位ごとに設けられた修正規則に基づいて時間情報を
    修正するものである,請求項14に記載のラベリング装
    置。
  16. 【請求項16】 上記ラベリングエラー除去手段が,上
    記第1のラベリング手段とは異別の第2のラベリング手
    段によって上記録音原稿中の文字列について作成された
    第2のラベル情報に含まれる時間情報と,上記第1のラ
    ベル情報の対応する時間情報との差を算出し,この差が
    測定値を超えている場合に,その時間情報について無効
    化情報を付与するものである,請求項14に記載のラベ
    リング装置。
  17. 【請求項17】 上記ラベリングエラー除去手段は,既
    に作成されているラベル情報について統計的手法によ
    り,音声単位ごとに継続時間の信頼区間を作成し,上記
    第1のラベル情報に含まれる時間情報から生成される音
    声単位ごとの継続時間を対応する信頼区間と比較し,継
    続時間が信頼区間外の場合に,その継続時間を生成した
    時間情報に無効化情報を付与するものである,請求項1
    4に記載のラベリング装置。
  18. 【請求項18】 録音原稿中の文字列と,この文字列を
    発音することにより得られる音声波形データとの対応づ
    けにより,音声波形データを音声単位ごとに区切り,音
    声単位を表わすラベルとその区切りを表わす時間情報と
    を含むラベル情報を作成し,ラベリング手段によって作
    成されたラベル情報における時間情報を修正または無効
    化する,ラベリング方法。
  19. 【請求項19】 録音原稿中の文字列と,この文字列を
    発音することにより得られる音声波形データとの対応づ
    けにより,音声波形データを音声単位ごとに区切り,音
    声単位を表わすラベルとその区切りを表わす時間情報と
    を含むラベル情報を作成し,ラベリング手段によって作
    成されたラベル情報における時間情報を修正または無効
    化するようにコンピュータを制御するプログラム。
  20. 【請求項20】 音声合成により作成すべき文字列を含
    む元原稿から,音声情報データベースに音声情報を格納
    すべき文字列を,元原稿に含まれる文字列の音声単位を
    分析してできるだけ少ない文字列ですべての音声単位を
    含むように選択して録音原稿を作成する手段,上記録音
    原稿作成手段により作成された録音原稿に含まれる複数
    の文字列を,所与の表示トリガごとに順次表示する表示
    装置,表示装置に表示された文字列について話者から入
    力された音声信号を一時的に記憶する録音手段,上記音
    声信号を分析し,この分析結果に基づいて音声採否を判
    定し,採用と判定したときには上記録音手段に一時記憶
    された音声信号を音声波形データベースに格納するよう
    に制御するとともに表示トリガを上記表示装置に与え,
    さらに上記分析結果または上記音声採否判定結果に基づ
    いて,話者に与えるべき指示情報を作成する録音管理装
    置,上記録音原稿作成手段により作成された録音原稿中
    の文字列と,上記音声波形データベースに格納された音
    声波形データとの対応づけにより,音声波形データを音
    声単位ごとに区切り,音声単位を表わすラベルとその区
    切りを表わす時間情報とを含むラベル情報を作成すると
    ともに,作成されたラベル情報における時間情報を修正
    または無効化するラベリング装置,上記音声波形データ
    ベースに格納された音声波形から特徴量を作成する特徴
    量作成手段,ならびに上記音声波形データベースに格納
    された音声波形データと,上記ラベリング装置により作
    成されたラベル情報および上記特徴量作成手段により作
    成された特徴量を含むインデックス情報とを対応づけて
    記憶する音声情報データベース作成手段,を備えた音声
    情報データベース作成装置。
JP2001382100A 2001-12-14 2001-12-14 録音原稿作成装置および方法 Expired - Fee Related JP3846300B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001382100A JP3846300B2 (ja) 2001-12-14 2001-12-14 録音原稿作成装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001382100A JP3846300B2 (ja) 2001-12-14 2001-12-14 録音原稿作成装置および方法

Publications (2)

Publication Number Publication Date
JP2003186489A true JP2003186489A (ja) 2003-07-04
JP3846300B2 JP3846300B2 (ja) 2006-11-15

Family

ID=27592580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001382100A Expired - Fee Related JP3846300B2 (ja) 2001-12-14 2001-12-14 録音原稿作成装置および方法

Country Status (1)

Country Link
JP (1) JP3846300B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005093713A1 (ja) * 2004-03-29 2005-10-06 Ai, Inc. 音声合成装置
JP2007322835A (ja) * 2006-06-01 2007-12-13 Oki Electric Ind Co Ltd 音声データベースおよび音声合成装置
JP2008180750A (ja) * 2007-01-23 2008-08-07 Oki Electric Ind Co Ltd 音声ラベリング支援システム
JP2008233542A (ja) * 2007-03-20 2008-10-02 Fujitsu Ltd 韻律修正装置、韻律修正方法、および、韻律修正プログラム
JP2012063542A (ja) * 2010-09-15 2012-03-29 Toshiba Corp 文章提示装置、文章提示方法及びプログラム
JP2013114191A (ja) * 2011-11-30 2013-06-10 Brother Ind Ltd パラメータ抽出装置、音声合成システム
JP2013210501A (ja) * 2012-03-30 2013-10-10 Brother Ind Ltd 素片登録装置,音声合成装置,及びプログラム
US9530431B2 (en) 2013-06-03 2016-12-27 Kabushiki Kaisha Toshiba Device method, and computer program product for calculating score representing correctness of voice
JP2022088682A (ja) * 2021-08-11 2022-06-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声パッケージの生成方法、装置、電子機器及び記憶媒体

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2005093713A1 (ja) * 2004-03-29 2008-07-31 株式会社エーアイ 音声合成装置
JP4884212B2 (ja) * 2004-03-29 2012-02-29 株式会社エーアイ 音声合成装置
WO2005093713A1 (ja) * 2004-03-29 2005-10-06 Ai, Inc. 音声合成装置
JP2007322835A (ja) * 2006-06-01 2007-12-13 Oki Electric Ind Co Ltd 音声データベースおよび音声合成装置
JP2008180750A (ja) * 2007-01-23 2008-08-07 Oki Electric Ind Co Ltd 音声ラベリング支援システム
US8433573B2 (en) 2007-03-20 2013-04-30 Fujitsu Limited Prosody modification device, prosody modification method, and recording medium storing prosody modification program
JP2008233542A (ja) * 2007-03-20 2008-10-02 Fujitsu Ltd 韻律修正装置、韻律修正方法、および、韻律修正プログラム
JP2012063542A (ja) * 2010-09-15 2012-03-29 Toshiba Corp 文章提示装置、文章提示方法及びプログラム
US8655664B2 (en) 2010-09-15 2014-02-18 Kabushiki Kaisha Toshiba Text presentation apparatus, text presentation method, and computer program product
JP2013114191A (ja) * 2011-11-30 2013-06-10 Brother Ind Ltd パラメータ抽出装置、音声合成システム
JP2013210501A (ja) * 2012-03-30 2013-10-10 Brother Ind Ltd 素片登録装置,音声合成装置,及びプログラム
US9530431B2 (en) 2013-06-03 2016-12-27 Kabushiki Kaisha Toshiba Device method, and computer program product for calculating score representing correctness of voice
JP2022088682A (ja) * 2021-08-11 2022-06-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声パッケージの生成方法、装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
JP3846300B2 (ja) 2006-11-15

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
US8886538B2 (en) Systems and methods for text-to-speech synthesis using spoken example
US7603278B2 (en) Segment set creating method and apparatus
US7962341B2 (en) Method and apparatus for labelling speech
US5636325A (en) Speech synthesis and analysis of dialects
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP5148026B1 (ja) 音声合成装置および音声合成方法
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
US9129596B2 (en) Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality
JP3846300B2 (ja) 録音原稿作成装置および方法
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP3050832B2 (ja) 自然発話音声波形信号接続型音声合成装置
JP5062178B2 (ja) 音声収録システム、音声収録方法、および収録処理プログラム
Lobanov et al. Language-and speaker specific implementation of intonation contours in multilingual TTS synthesis
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
van Rijnsoever A multilingual text-to-speech system
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5028599B2 (ja) 音声処理装置、およびプログラム
JP3091426B2 (ja) 自然発話音声波形信号接続型音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040519

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060814

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees