JP2000132179A - 録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体 - Google Patents

録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体

Info

Publication number
JP2000132179A
JP2000132179A JP10306020A JP30602098A JP2000132179A JP 2000132179 A JP2000132179 A JP 2000132179A JP 10306020 A JP10306020 A JP 10306020A JP 30602098 A JP30602098 A JP 30602098A JP 2000132179 A JP2000132179 A JP 2000132179A
Authority
JP
Japan
Prior art keywords
voice
speed
speech speed
record
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10306020A
Other languages
English (en)
Other versions
JP3374767B2 (ja
Inventor
Noriko Mizusawa
紀子 水澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP30602098A priority Critical patent/JP3374767B2/ja
Publication of JP2000132179A publication Critical patent/JP2000132179A/ja
Application granted granted Critical
Publication of JP3374767B2 publication Critical patent/JP3374767B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 大規模な録音音声データベースにおいては必
ず生じる音声データの話速のばらつきを、各音声データ
を人間が一件ずつ検聴することなく、自動的に解消する
ことが可能な録音音声データベース話速均一化方法及び
装置及び話速均一化プログラムを格納した記憶媒体を提
供する。 【解決手段】 本発明は、各音声レコードの話速を計算
し、該音声レコードのインデックスと共に、各音声レコ
ードの音声データの話速を当該音声レコードとして、録
音音声データベース内の全音声レコードの話速を各音声
レコードのインデックスと共に格納する話速テーブルに
格納し、予め与えられる話速均一化処理後の音声レコー
ドの話速が入るべき目標話速範囲を取得する、または、
予め決められた手順で目標話速範囲を計算により決定
し、話速テーブルに格納された話速と、目標話速範囲を
比較して、該話速範囲に入らない話速を持つ音声レコー
ドを抽出し、録音音声データベースの全音声レコードの
話速が目標話速範囲に入るように抽出された音声レコー
ドの話速を変換する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、録音音声データベ
ース話速均一化方法及び装置及び話速均一化プログラム
を格納した記憶媒体に係り、特に、大規模な録音音声デ
ータベースにおいてすべての音声データが同じ速さに聞
こえるよう各音声データの話速を自動的に調整するため
の録音音声データベース話速均一化方法及び装置及び話
速均一化プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】各種の自動音声応答装置などに用いられ
る、単語音声を蓄積する録音音声データベースは、それ
に含まれる各音声データの話速がよく揃っていることが
望まれる。従って、録音音声データベースを作成する際
には、音声データの発声者であるナレータとして良く訓
練された者を選出し、全ての音声データの話速が同じに
なるよう発声させる。
【0003】一方、放送などの分野では、音声の速度が
速過ぎて聞き取れない高齢者などのために話速変換装置
が開発されており、装置の使用者は装置の出力音声を検
聴しながら自分が聴き取り易い話速になるよう装置の話
速変換率を調整して利用する。
【0004】
【発明が解決しようとする課題】しかしながら、大規模
な録音音声データベースを作成する場合には、音声デー
タの録音に要する日数が多くなり、ナレータがよく訓練
されていても常に同じ話速で発声することは非常に難し
い。その結果、録音音声データベース中の各音声データ
の話速にはかなりのばらつきが生じ、例えば、音声応答
装置に使用したときに一応答文中に速い部分と遅い部分
が混在し、装置の利用者に不自然な印象を与える。
【0005】録音音声データベース内の各音声データの
話速を等しくするために、例えば、放送分野で用いられ
る話速変換装置を利用すると、音声データを人間が検聴
しながら、全てのデータが同じ話速になるよう一件一件
話速変換率を調整することになる。音声データの件数が
膨大な場合は、この方法で話速の均一化を行うのは膨大
な日時を要する。しかも、話速の感じ方は話速変換作業
者の感覚に依存し、個人によって、また作業者の体調や
気分などによって基準が異なるため、均一化の効果は上
がり難い。
【0006】また、前述の手続きを自動で行う方法とし
て、何らかの方法で話速を計算し、ある基準の話速に全
ての音声データの話速を合わせるよう各音声データの話
速変換率を計算する方法が考えられる。しかし、話速変
換は音声データの音質が劣化するというリスクを伴うた
め、話速のばらつきが大きい大規模なデータベースで
は、極端に話速の遅いデータや速いデータは話速変換に
よって音質が劣化し、聞きにくくなることがある。
【0007】本発明は、上記の点に鑑みなされたもの
で、大規模な録音音声データベースにおいては必ず生じ
る音声データの話速のばらつきを、各音声データを人間
が一件ずつ検聴することなく、自動的に解消することが
可能な録音音声データベース話速均一化方法及び装置及
び話速均一化プログラムを格納した記憶媒体を提供する
ことを目的とする。
【0008】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、人間
が単語を発声した音声をディジタル信号として保存した
音声データとその発声内容である単語の読みを記したラ
ベルとインデックスから成る音声レコードを格納した録
音音声データベース話速均一化方法において、各音声レ
コードの話速を計算し(ステップ1)、各音声レコード
の音声データの話速を当該音声レコードとして、録音音
声データベース内の全音声レコードの話速を各音声レコ
ードのインデックスと共に格納する話速テーブルに格納
し(ステップ2)、予め与えられる話速均一化処理後の
音声レコードの話速が入るべき話速の目標話速範囲を取
得する、または、予め決められた手順で目標話速範囲を
計算により決定し(ステップ3)、話速テーブルに格納
された話速と、目標話速範囲を比較して(ステップ
4)、該話速範囲に入らない話速を持つ音声レコードを
抽出し(ステップ5)、録音音声データベースの全音声
レコードの話速が目標話速範囲に入るように抽出された
音声レコードの話速を変換する(ステップ6)。
【0009】本発明(請求項2)は、音声レコードのラ
ベルに記された発声内容を表す文字列を先頭から一文字
ずつ読み込み、読み込んだ文字が拗音を表す文字(ゃ、
ゅ、ょ)以外の場合にのみ内部のカウンタを一つ進める
ことにより、該文字列を構成する文字のうち、拗音を表
す文字以外の文字数を数え、音声レコードの音声データ
のサイズを読み取り、拗音を表す文字以外の文字数を音
声データのサイズで除した値を、音声レコードの話速と
する。
【0010】図2は、本発明の原理構成図である。本発
明(請求項3)は、人間が単語を発声した音声をディジ
タル信号として保存した音声データとその発声内容であ
る単語の読みを記したラベルとインデックスから成る音
声レコードを格納した録音音声データベース話速均一化
装置であって、録音音声データベースの音声レコードを
入力する音声レコード入力手段2と、音声レコード入力
手段2により入力された各音声レコードの話速を計算す
る話速計算手段3と、話速計算手段3で計算された音声
データの話速を当該音声レコードとして、音声レコード
のインデックスと共に格納する話速テーブル4と、予め
与えられる話速均一化処理後の音声レコードの話速が入
るべき目標話速範囲を取得する、または、予め決められ
た手順で目標話速範囲を計算により決定する目標話速範
囲決定手段6と、話速テーブルに格納された話速と、目
標話速範囲を比較して、該話速範囲に入らない話速を持
つ音声レコードを抽出する音声レコード抽出手段8と、
録音音声データベース1の全音声レコードの話速が目標
話速範囲に入るように音声レコード抽出手段8で抽出さ
れた音声レコードの話速を変換する話速変換手段7とを
有する。
【0011】本発明(請求項4)は、話速計算手段3に
おいて、音声レコードのラベルに記された発声内容を表
す文字列を先頭から一文字ずつ読み込み、読み込んだ文
字が拗音を表す文字(ゃ、ゅ、ょ)以外の場合にのみ内
部のカウンタを一つ進めることにより、該文字列を構成
する文字のうち、拗音を表す文字以外の文字数を数える
手段と、音声レコードの音声データのサイズを読み取る
手段と、拗音を表す文字以外の文字数を音声データのサ
イズで除した値を、音声レコードの話速とする手段とを
含む。
【0012】本発明(請求項5)は、人間が単語を発声
した音声をディジタル信号として保存した音声データと
その発声内容である単語の読みを記したラベルとインデ
ックスから成る音声レコードを格納した録音音声データ
ベース話速均一化プログラムを格納した記憶媒体であっ
て、録音音声データベースの音声レコードを入力させる
音声レコード入力プロセスと、音声レコード入力プロセ
スにより入力された各音声レコードの話速を計算し、該
音声データの話速を当該音声レコードとして、音声レコ
ードのインデックスと共に格納する話速テーブルに格納
する話速計算プロセスと、予め与えられる話速均一化処
理後の音声レコードの話速が入るべき目標話速範囲を取
得する、または、予め決められた手順で目標話速範囲を
計算により決定する目標話速範囲決定プロセスと、話速
テーブルに格納された話速と、目標話速範囲を比較し
て、該話速範囲に入らない話速を持つ音声レコードを抽
出する音声レコード抽出プロセスと、録音音声データベ
ースの全音声レコードの話速が目標話速範囲に入るよう
に音声レコード抽出プロセスで抽出された音声レコード
の話速を変換する話速変換プロセスとを有する。
【0013】本発明(請求項6)は、話速計算プロセス
において、音声レコードのラベルに記された発声内容を
表す文字列を先頭から一文字ずつ読み込み、読み込んだ
文字が拗音を表す文字(ゃ、ゅ、ょ)以外の場合にのみ
内部のカウンタを一つ進めることにより、該文字列を構
成する文字のうち、拗音を表す文字以外の文字数を数え
るプロセスと、音声レコードの音声データのサイズを読
み取るプロセスと、拗音を表す文字以外の文字数を音声
データのサイズで除した値を、音声レコードの話速とす
るプロセスとを含む。
【0014】本発明によれば、大規模な録音音声データ
ベースにおいては必ず生じる音声データの話速のばらつ
きを、各音声データを人間が一件一件検聴することな
く、自動で解消することが可能となる。また、話速均一
化処理後の音声データの話速を一定の値とせず、一定の
範囲とするため、話速のばらつきが大きなデータベース
においても音質劣化のリスクを抑えつつ話速のばらつき
による聞きにくさを改善することが可能となる。
【0015】
【発明の実施の形態】図3は、本発明の話速均一化装置
の構成を示す。同図に示す話速均一化装置は、音声レコ
ード入力部2、話速計算部3、話速テーブル4、最大等
速度話速比入力部5、目標話速範囲決定部6、話速変換
部7、話速取得部8、及び話速変換後レコード出力部9
から構成され、音声レコード入力部2には、原録音音声
データベース1が接続され、話速変換後レコード出力部
9には、話速が均一化された録音音声データベース10
が接続される。
【0016】音声レコード入力部2は、原録音音声デー
タベース1の音声レコードを入力する。話速計算部3
は、音声レコード入力部2から入力された音声レコード
の話速を計算する。話速テーブル4は、話速計算部3で
計算された原録音音声データベース1内の全音声レコー
ドの話速を各音声レコードのインデックスと共に格納す
る。
【0017】最大等速度話速比入力部5は、外部から最
大等速度話速比を取得し、目標話速範囲決定部6に転送
する。目標話速範囲決定部6は、話速テーブル4を読み
出して、原録音音声データベース1内の話速代表値を計
算し、最大等速話速比を用いて音声データの話速が入る
べき話速範囲(目標話速範囲)を決定する。
【0018】話速取得部8は、音声レコード入力部2か
ら送られた音声レコードのインデックスに対応する話速
を話速テーブル4から取得し、当該音声レコードと共に
話速変換部7に送る。話速変換部7は、話速取得部8か
ら送られた話速テーブル4に格納された話速と、目標話
速範囲決定部6で求められた目標話速範囲を比較して、
目標話速範囲に入らない話速を持つ音声レコードを抽出
し、目標話速範囲に入るように、抽出された音声レコー
ドの話速を変換する。
【0019】話速変換後レコード出力部9は、話速変換
部7で変換された音声レコードを話速が均一化された録
音音声データベース10に出力する。
【0020】
【実施例】以下、図面と共に本発明の実施例を説明す
る。以下の実施例では、図3の構成に基づいて説明する
が、話速均一化処理後の全音声レコードの話速が入るべ
き目標話速範囲を計算により決定しているが、代わりに
他の方法で目標話速範囲を決定して外部から入力するよ
うにしてもよい。
【0021】図4は、本発明の一実施例の話速均一化処
理の対象となる原録音音声データベースの例を示す。同
図に示す原録音音声データベース1には、インデックス
11と単語の読みを記したラベル12とナレータがラベ
ルに記された単語を読み上げた音声をディジタル信号と
して保存した音声データ13と当該音声データのデータ
長14からなる音声レコードが格納されている。この図
の例では、180,103 件の音声レコードを持つ原録音音声
データベース1が話速均一化処理の対象となる。
【0022】データ長14は、音声データ13の発声時
間(秒など)でも良いが、音声データの形式がデータベ
ース中の全ての音声データで同じになっていれば、音声
データのサイズ(バイトなど)でも良い。例えば、音声
データの形式がサンプリング周波数16kHz 、1サンプ
ルのビット数2バイトの場合、「東京都(とうきょう
と)」という単語を読み上げた音声データのサイズが40
720 バイトであるとき、40720/(2×16000)=1.2725よ
り、この音声データの長さは、1.2725秒となる。実際の
音声データには発声の前後に無音区間が含まれるが、そ
の区間長は発声時間に対して非常に短いので、音声デー
タのサイズと発声時間が1対1に対応するとしても良
い。以下の例では、データ長14の例として、音声デー
タのサイズ(バイト)を用いている。
【0023】図5は、本発明の一実施例の話速均一化装
置の動作を示すフローチャートである。以下、図3の構
成図と図5のフローチャートに基づいて話速均一化装置
の動作を説明する。話速均一化装置は、CPUやメモリ
から構成され、機能的には音声レコード入力部2、話速
計算部3、話速テーブル4、最大等速度話速比入力部
5、目標話速範囲決定部6、話速変換部7、話速取得部
8、話速変換後レコード出力部9から構成されている。
【0024】ここで、最大等速度話速比入力部5、目標
話速範囲決定部6は、目標話速範囲を計算により決定す
るものであり、これらの代わりに目標話速範囲を外部か
ら取得するブロックを置いて他の方法で決定した目標話
速範囲を指定してもよい。 ステップ110) まず、音声レコード入力部2におい
て、原録音音声データベース1から音声レコードを一
つ、例えば、インデックス「000001」「東京都(とうき
ょうと)」の音声レコードを取り出し、話速計算部3に
送る。
【0025】ステップ120) 話速計算部3では、音
声レコード入力部2から送られた音声レコードの話速を
計算する。話速は通常、1秒あたりの拗音を除いた発声
文字数を示す“モーラ/sec ”という単位を使うことが
多いが、前述のようにデータ長14が発声に要した時間
と1対1に対応するため、発声内容、即ち、ラベル12
に記された読み仮名の拗音を表す文字以外の文字数をデ
ータ長14で除したものを話速とする。
【0026】図6は、本発明の一実施例の話速計算部の
詳細な構成を示す。話速計算部3は、入力分割部31、
文字数カウント部32、話速算出部34、出力組立部3
5から構成される。図7は、本発明の一実施例の話速計
算部の動作を説明するためのフローチャートである。以
下に、図6、図7を用いて「東京都(とうきょうと)」
の音声レコードの話速を計算する例を示す。
【0027】ステップ121) 入力分割部31では、
音声レコード入力部2から送られた音声レコードを分割
し、インデックス「000001」11を出力組立部35に、
ラベル「とうきょうと」12を文字数カウント部32
に、データ長「40720 (バイト)」14を話速算出部3
4に送る。 ステップ122) 文字数カウント部32では、ラベル
に記された発声内容を表す文字列を一文字ずつ読み込
み、読み込んだ文字が拗音を表す文字(ゃ、ゅ、ょ)以
外の場合にのみ内部のカウンタを一つ進める。文字列の
終わりまで読み込んだらカウンタの値(n)を話速算出
部34に送り、カウンタの値を0に戻す(。この場合
は、「ょ」は拗音を表す文字なのでカウンタの値が更新
されず、話速算出部34に送られるカウンタの値(n)
は、「と」「う」「き」「う」「と」の5つである。
【0028】ステップ123) 話速算出部34では、
文字数カウント部32から送られた拗音を表す文字以外
の文字数(n)と入力分割部31から送られたデータ長
(s)14からn/sを計算する。 ステップ124) その計算結果を話速(sp)として
出力組立部35に送る。「東京都(とうきょうと)」の
音声レコードの話速(sp)は、5 /40720 =1.228 e
-4となる。
【0029】ステップ125) 出力組立部35では、
話速算出部34から送られた話速(sp)、即ち、5 /
40720 =1.228 e -4に入力分割部31から送られたイン
デックス「000001」11を付与する。 ステップ130) 計算した話速に音声レコードから取
り出したインデックスを付与が付与された話速を話速テ
ーブル4へ格納する。
【0030】ステップ140) 原音音声データベース
1のすべての音声レコードについて話速の計算及び話速
テーブルへの格納を行ったかを判断する。 ステップ150) まだ話速の計算などの処理が行われ
ていない音声レコードがあれば、音声レコード入力部2
はそれを取り出して話速計算部3へ送り、同様の話速の
計算(ステップ120)、話速テーブルへの格納(ステ
ップ130)を行う。ここでは、原音音声データベース
1のすべての音声レコードについて、即ちこの場合は、
インデックス“180103”が付与された「飯田橋(いいだ
ばし)」の音声レコードまで、音声レコードの取り出し
を行い、話速の計算、話速テーブル4への格納を繰り返
し、話速テーブル4を完成させる。
【0031】図8は、本発明の一実施例の話速テーブル
の例を示す。話速テーブル4は、原録音音声データベー
ス1内の全ての音声レコードのインデックス11と当該
音声レコードの話速41が格納されている。この例にお
ける各音声データの話速は、インデックス“000002”が
付与された「千代田区(ちよだく)」の音声レコード
は、4文字24808 バイトなので、4/24808 =1.612
e -4、インデックス“000003”が付与された「内幸町
(うちさいわいちょう)」の音声レコードは「ょ」を除
いた8文字49920 バイトなので8/49920 =0.801 e -4
インデックス“000004”が付与された「岩本町(いわも
とちょう)」の音声レコードは「ょ」を除いた6文字48
718 バイトなので6/48718 =1.232 e -4、インデックス
“180103”が付与された「飯田橋(いいだばし)」の音
声レコードは、5文字29880 バイトなので5/29880 =1.
673 e -4となる。
【0032】原録音音声データベース1のすべての音声
レコードについて話速計算処理が終了したら話速均一化
処理後の全音声レコードの話速が入るべき話速の範囲
(目標話速範囲)を決定する。前述のように、この例で
は、最大等速度話速比入力部5、目標話速範囲決定部6
を設けて目標話速範囲を計算により決定しているが、こ
れらの代わりに目標話速範囲を外部から取得するブロッ
クを置いて予め他の方法で求められた目標話速範囲を直
接指定してもよい。
【0033】ステップ160) 最大等速度話速比入力
部5において、最大等速度話速比を取得し、目標話速範
囲決定部6に送る。最大等速度話速比とは、ある音声レ
コードの話速を1としてその音声レコードと同じ速さに
聞こえる話速比の最大値であり、予め実験などにより求
めておく。例えば、最大等速度話速比が1.3 であれば、
話速1.0 e -4の音声レコードと話速が1.3 e -4(=1.0
e -4×1.3 )以下、0.77e -4(=1.0 e -4/1.3 )以上
の音声レコードは同じ速さに聞こえる。
【0034】ステップ170) 次に、目標話速範囲決
定部6において、話速テーブル4を読み出して原録音音
声データベース1内の話速代表値を計算する。話速代表
値としては、中央値、最頻値、算術平均値などが考えら
れる。 ステップ180) ステップ160で最大等速度話速比
入力部5から送られた最大等速度話速比とステップ17
0で得られた音声レコードの話速代表値から話速均一化
処理後のデータベース内の音声データの話速が入るべき
話速範囲(以下、目標話速範囲と記す)を決定する。
【0035】話速が目標話速範囲内に入っている音声レ
コードならどの音声レコードも同じ速さに聞こえるよう
に、つまり、目標話速範囲の上限/下限が最大等速度話
速比となるように目標話速範囲の上限、下限を定める。
また、話速変換は音質の劣化というリスクを伴うため、
なるべく話速変換を行う音声レコード数が少ない方が良
い。従って、目標話速範囲を話速代表値付近に設定す
る。すなわち、目標話速範囲の上限と下限の算術平均値
や幾何平均値が話速代表値になる。
【0036】ここでは例えば、話速の代表値として幾何
平均値を用い、上限と下限の幾何平均値が話速代表値と
なるようにする。図9は、本発明の一実施例の目標話速
範囲決定部の詳細な構成を示す。同図に示す目標話速範
囲決定部6は、話速取出部61、件数カウント部62、
話速加工部63、総和算出部64、平均値算出部65、
下限計算部66、上限計算部67、目標話速範囲出力部
68から構成される。
【0037】図10は、本発明の一実施例の目標話速範
囲決定部の動作を説明するためのフローチャートであ
る。以下では、例えば図8の話速テーブルから目標話速
範囲を決定する方法について説明する。話速の幾何平均
値を算出する場合、各値の対数を取り、その算術平均値
xを求めて10x を求めれば幾何平均値を求めることが
できる。
【0038】ステップ171) まず、話速取出部61
において、話速テーブル4から話速(sp)を1件、例
えば、インデックス「000001」の話速1.228 e -4を取り
出して話速加工部63に送り、同時に件数カウント部6
2にカウント用信号を送る。 ステップ172) 件数カウント部62では、カウント
用信号を受け取ったら内部のカウンタを一つ進める。こ
の場合カウンタの値(m)は1となる。
【0039】ステップ173) 話速加工部63では、
話速取出部61から送られた話速(sp)の対数(log
(1.228 e -4)=0.0891−4が総和算出部64に送られ
る。 ステップ174) 総和算出部64では、話速加工部6
3から受け取った話速の対数(log (sp))を総和値(su
m )に加算する。 ステップ175) 話速テーブル4に格納された全ての
話速を取り出したかどうか判断する。
【0040】ステップ176) この場合は、次のイン
デックス「000002」の話速1.612 e -4を取り出して話速
加工部63へ送る。当該処理の後ステップ172に戻
る。件数カウント部62のカウンタの値(m)は1増え
て2になり、話速加工部63からは、log(1.612 e -4)
=0.2074−4が総和算出部64に送られて、総和値(su
m) は、0.0891+0.2074−4 × 2となる。
【0041】以降、全ての話速が取り出されるまでステ
ップ172〜176が繰り返えされ、この場合はインデ
ックス「180103」の話速1.673 e -4が取り出されるまで
続く。 ステップ177) 全ての話速が取り出されると、話速
取出部61は、終了信号を件数カウント部62と話速加
工部63に送る。件数カウント部62は、終了信号を受
け取るとカウンタの値(m)を平均値算出部65に送
る。この場合は、m=180103が送られる。
【0042】話速加工部63は、終了信号を受け取ると
それを総和計算部64に送り、総和計算部64は、総和
値(sum) を平均値算出部65に送る。この場合、sum =
0.0891+0.2074+…−4 × 180103 の計算結果が送られ
る。この値を仮に、18386.8099−4 ×180103とする。 ステップ178) 平均値算出部65では、件数カウン
ト部62から送られた件数(m)で総和算出部64から
送られた総和値(sum )を除し、その値から話速の幾何
平均値(ave =10sum/m )を計算して下限計算部66
に送る。この場合、幾何平均値は、 sum /m =(18386.8099−4 × 180103)/180103=0.10
21−4 より、ave =100.1021-4=1.265 e -4となる。
【0043】ところで、目標話速範囲の下限をb、上限
をhとすると、上限と下限の幾何平均値が話速の幾何平
均値ave と等しく、上限/下限が最大等速度話速比rに
等しい場合、h×b=ave2,h/b=rの関係から、
【0044】
【数1】
【0045】が導ける。この関係を用いて目標話速範囲
の上限、下限を求める。 ステップ181) 下限計算部66では、最大等速度話
速比入力部5から送られた最大等速度話速比(r)と平
均値算出部65から送られた話速の幾何平均値(ave )
から目標話速範囲の下限
【0046】
【数2】
【0047】を計算し、最大等速度話速比(r)と共に
上限計算部67に送る。この場合、下限は、
【0048】
【数3】
【0049】となる。 ステップ182) 上限計算部67では、下限計算部6
6から送られた下限(b)と最大等速度話速比(r)か
ら目標話速範囲の上限(h=r×b)を計算して下限値
(b)と共に目標話速範囲出力部68に送る。この場合
は、上限(h)は、1.109 e -4×1.3 =1.442 e -4とな
る。
【0050】ステップ183) 目標話速範囲出力部6
8は、上限計算部67から送られた目標話速範囲の下限
(b=1.109 e -4)と上限(h=1.442 e -4)を話速変
換部7に送る。この過程では、最大等速度話速比(r)
と話速の幾何平均値(ave )から、h/b=r,b×h
=ave2の関係を満たすようにbとhを決定したが、他の
方法で計算してもよい。例えば、ave を幾何平均値とせ
ず、算術平均値や最頻値を用いてもよいし、b×h=av
e 2 の代わりに(b+h)/2=ave という関係を用い
てもよい。また、話速の分散σを求め、b=ave −σ、
h=ave +σと目標話速範囲を決定しても良いし、話速
の分布x(sp)を調べ、話速変換処理を行う件数
(N)を決定しておいて、
【0051】
【数4】
【0052】という条件を満たすようにbとhを求めて
もよい。 ステップ190) 次に、音声レコード入力部2におい
て、原録音音声データベース1から音声レコードを1レ
コードずつ取り出し、話速取得部8に送る。 ステップ200) 話速取得部8では、音声レコード入
力部2から送られた音声レコードのインデックスに対応
する話速を話速テーブル4から取得し、当該音声レコー
ド共に、話速変換部7に送る。例えば、話速テーブル4
からインデックス「000001」に対応する話速、即ち1.22
8 e -4を取り出して、音声レコード入力部2から送られ
た音声レコードと共に話速変換部7へ送る。
【0053】ステップ210) 話速変換部7では、話
速取得部8から送られた話速41が目標話速範囲決定部
6から送られた目標話速範囲内であるか否か判断する。 ステップ220) 目標話速範囲内であれば、音声レコ
ードをそのまま、目標話速範囲外であれば話速が目標話
速範囲内に入るように音声データの話速を変換し、話速
変換後の音声レコードを話速変換後レコード出力部9に
送る。
【0054】ステップ230) 話速変換後レコード出
力部9では、話速変換部7から送られた話速変換後音声
レコードを話速均一化処理後の録音音声データベース1
0に格納する。次に、話速変換部7と話速変換後レコー
ド出力部9について詳細に説明する。図11は、本発明
の一実施例の話速変換部と話速変換後レコード出力部の
詳細な構成を示す。
【0055】話速変換部7は、話速範囲入力部71、入
力分割部72、話速変換率計算部73、音声データ話速
変換部74、出力組立部75から構成される。図12
は、本発明の一実施例の話速変換部、話速変換後レコー
ド出力部の動作のフローチャートである。図11に示す
話速変換部7と話速変換後レコード出力部9の動作を図
12に示すフローチャートに従って説明する。
【0056】話速範囲入力部71は、目標話速範囲決定
部6から送られた目標話速範囲の下限(b)と上限
(h)を取得し、話速変換率計算部73におくる。 ステップ211) 入力分割部72では、話速取得部8
から送られた音声レコードと話速を分割し、話速(s
p)41は、話速変換率計算部73へ、音声データ13
は、音声データ話速変換部74へ、インデックス11と
ラベル12は出力組立部75に送る。
【0057】ステップ212) 話速変換率計算部73
では、話速範囲入力部71から送られた目標話速範囲の
下限(b)、上限(h)と入力分割部72から送られた
話速(sp)41の値を比較する。 ステップ221) その結果により話速変換率Rを、s
p<bの場合は、R=b/spとし、音声データ話速変
換部74に送り、ステップ224に移行する。
【0058】ステップ222) その結果により話速変
換率Rを、sp>hの場合は、R=h/spとし、音声
データ話速変換部74に送り、ステップ224に移行す
る。 ステップ223) その結果により話速変換率Rを、b
≦sp≦hの場合は、R=1とし、音声データ話速変換
部74に送り、ステップ224に移行する。例えば、イ
ンデックス「000001」「東京都(とうきょう
と)」の音声レコードの場合、入力分割部72から話速
変換率計算部73に送られた話速(sp)は、1.228 e
-4であり、これは、目標話速範囲の下限(b)1.109 e
-4より大きく(ステップ212)、上限(h)1.442 e
-4より小さい(ステップ213)。従って、話速変換率
(R)はR=1と決定され、音声データ話速変換部74
に送られる。
【0059】ステップ224) 音声データ話速変換部
74では、入力分割部72から送られた音声データの話
速をR倍にして出力組立部75に送る。この場合は、R
=1なので、何の処理も行わず、音声データを出力組立
部75に送る。 ステップ231) 出力組立部75では、音声データ話
速変換部74から送られた音声データに入力分割部72
から送られたインデックス“000001”とラベル「とうき
ょうと」を付与して話速変換後音声レコードを組み立
て、話速変換後レコード出力部9へ送る。話速均一化処
理がなされた後の音声レコードには、データ長の情報は
必要ないので、話速変換後音声レコードは、インデック
ス11、ラベル12、話速変換処理を施した音声データ
13’からなる。
【0060】ステップ232) 話速変換後レコード出
力部9では、話速変換部7から送られた話速変換後音声
レコードを話速均一化処理後の録音音声データベース1
0に格納する。原録音音声データベース1のすべての音
声レコードについてインデックスと音声レコードの出力
が済んだかを判断し(ステップ240)、この場合は、
次のインデックス“000002”が付与された「千代田区
(ちよだく)」の音声レコードを取り出し(ステップ2
50)、音声レコード“000001”と同様に話速が目標話
速範囲内に入っているかの判断を行い(ステップ21
0)、必要ならば話速の変換(ステップ220)、イン
デックスと音声レコードの出力(ステップ230)を行
う。
【0061】「千代田区(ちよだく)」の音声レコード
の場合は、入力分割部72から話速変換率計算部73に
送られた話速(sp)は、1.612 e -4であり、これは、
目標話速範囲の下限(b)1.109 e -4より大きく(ステ
ップ212)、上限(h)1.442 e -4より大きい(ステ
ップ213)。従って、話速変換率(R)は、R=h/
sp=0.89と決定され、音声データ話速変換部74に送
られる(ステップ222)。
【0062】音声データ話速変換部74では、入力分割
部72から送られた音声データの話速をR=0.89倍に変
換して音声データを出力組立部75に送る(ステップ2
24)。出力組立部75では、音声データ話速変換部7
4から送られた音声データ13’に入力分割部72から
送られたインデックス“000002”とラベル「ちよだく」
を付与して話速変換後音声レコードを組み立て、話速変
換後レコード出力部9に送る(ステップ231)。
【0063】話速変換後レコード出力部9では、話速変
換部7から送られた話速変換後音声レコードを話速均一
化後の録音音声データベース10に格納する(ステップ
232)。原録音音声データベース1の全ての音声レコ
ードについて、すなわち、この場合は、インデックス
“180103”が付与された「飯田橋(いいだばし)」の音
声レコードまで、音声レコードの取り出し(ステップ2
50)、話速変換(ステップ210、ステップ22
0)、話速変換後音声レコードの出力(ステップ23
0)を繰り返す。
【0064】全ての音声レコードについて出力が済んだ
ら処理は終了する。また、本発明は、上記の実施例にお
いて図3に示す話速均一化装置の構成に基づいて説明し
ているが、この例に限定されることなく、特許請求の範
囲内で種々変更・応用が可能である。なお、本発明は、
上記の実施例に限定されることなく、特許請求の範囲内
で種々、変更・応用が可能である。
【0065】
【発明の効果】上述のように、本発明によれば、大規模
な録音音声データベースにおいて必ず生じる音声データ
の話速のばらつきを、各音声データを人間が1件1件検
聴することなく、自動で解消することができる。これに
より、人間が検聴しながら行う方法に比べて話速均一化
処理を短時間で行うことができ、作業者の感覚に依ると
ころがないので、高精度の均一化が期待できる。
【0066】また、話速均一化処理後の音声データの話
速を一定の値とせず、一定の範囲とすることにより、話
速のばらつきが大きなデータベースにおいても音質劣化
のリスクを抑えつつ話速のばらつきによる聞きにくさを
改善することができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の話速均一化装置の構成図である。
【図4】本発明の一実施例の原録音音声データベースの
一例を示す図である。
【図5】本発明の一実施例の話速均一化装置の動作を説
明するためのフローチャートである。
【図6】本発明の一実施例の話速計算部の詳細な構成例
である。
【図7】本発明の一実施例の話速計算部の動作を説明す
るためのフローチャートである。
【図8】本発明の一実施例の話速テーブルの一例を示す
図である。
【図9】本発明の一実施例の目標話速範囲決定部の詳細
な構成図である。
【図10】本発明の一実施例の目標話速範囲決定部の動
作を説明するためのフローチャートである。
【図11】本発明の一実施例の話速変換部、話速変換後
レコード出力部の詳細な構成図である。
【図12】本発明の一実施例の話速変換部、話速変換後
レコード出力部の動作を説明するためのフローチャート
である。
【符号の説明】
1 録音音声データベース、原録音音声データベース 2 音声レコード入力手段、音声レコード入力部 3 話速計算手段、話速計算部 4 話速テーブル 5 最大等速度話速比入力部 6 目標話速範囲決定手段、目標話速範囲決定部 7 話速変換手段、話速変換部 8 音声レコード抽出手段、話速取得部 9 話速変換後レコード出力部 10 話速が均一化された録音音声データベース 11 インデックス 12 ラベル 13 音声データ 14 データ長 31 入力分割部 32 文字数カウント部 34 話速算出部 35 出力組立部 41 話速 61 話速取出部 62 件数カウント部 63 話速加工部 64 総和算出部 65 平均値算出部 66 下限計算部 67 上限計算部 68 目標話速範囲出力部 71 話速範囲入力部 72 入力分割部 73 話速変換率計算部 74 音声データ話速変換部 75 出力組立部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 人間が単語を発声した音声をディジタル
    信号として保存した音声データとその発声内容である単
    語の読みを記したラベルとインデックスから成る音声レ
    コードを格納した録音音声データベース話速均一化方法
    において、 各音声レコードの話速を計算し、該音声レコードのイン
    デックスと共に、各音声レコードの音声データの話速を
    当該音声レコードとして、前記録音音声データベース内
    の全音声レコードの話速を各音声レコードのインデック
    スと共に格納する話速テーブルに格納し、 予め与えられる話速均一化処理後の音声レコードの話速
    が入るべき話速の範囲(以下、目標話速範囲と記す)を
    取得する、または、予め決められた手順で目標話速範囲
    を計算により決定し、 前記話速テーブルに格納された話速と、前記目標話速範
    囲を比較して、該話速範囲に入らない話速を持つ音声レ
    コードを抽出し、 前記録音音声データベースの全音声レコードの話速が前
    記目標話速範囲に入るように抽出された前記音声レコー
    ドの話速を変換することを特徴とする録音音声データベ
    ース話速均一化方法。
  2. 【請求項2】 前記音声レコードのラベルに記された発
    声内容を表す文字列を先頭から一文字ずつ読み込み、読
    み込んだ文字が拗音を表す文字(ゃ、ゅ、ょ)以外の場
    合にのみ内部のカウンタを一つ進めることにより、該文
    字列を構成する文字のうち、拗音を表す文字以外の文字
    数を数え、 前記音声レコードの音声データのサイズを読み取り、 前記拗音を表す文字以外の文字数を前記音声データのサ
    イズで除した値を、前記音声レコードの話速とする請求
    項1記載の録音音声データベース話速均一化方法。
  3. 【請求項3】 人間が単語を発声した音声をディジタル
    信号として保存した音声データとその発声内容である単
    語の読みを記したラベルとインデックスから成る音声レ
    コードを格納した録音音声データベース話速均一化装置
    であって、 録音音声データベースの音声レコードを入力する音声レ
    コード入力手段と、 前記音声レコード入力手段により入力された各前記音声
    レコードの話速を計算する話速計算手段と、 前記話速計算手段で計算された前記音声データの話速を
    当該音声レコードとして、前記音声レコードのインデッ
    クスと共に格納する話速テーブルと、 予め与えられる話速均一化処理後の音声レコードの話速
    が入るべき話速の範囲(以下、目標話速範囲と記す)を
    取得する、または、予め決められた手順で目標話速範囲
    を計算により決定する目標話速範囲決定手段と、 前記話速テーブルに格納された話速と、前記目標話速範
    囲を比較して、該話速範囲に入らない話速を持つ音声レ
    コードを抽出する音声レコード抽出手段と、 前記録音音声データベースの全音声レコードの話速が前
    記目標話速範囲に入るように前記音声レコード抽出手段
    で抽出された前記音声レコードの話速を変換する話速変
    換手段とを有することを特徴とする録音音声データベー
    ス話速均一化装置。
  4. 【請求項4】 前記話速計算手段は、 前記音声レコードのラベルに記された発声内容を表す文
    字列を先頭から一文字ずつ読み込み、読み込んだ文字が
    拗音を表す文字(ゃ、ゅ、ょ)以外の場合にのみ内部の
    カウンタを一つ進めることにより、該文字列を構成する
    文字のうち、拗音を表す文字以外の文字数を数える手段
    と、 前記音声レコードの音声データのサイズを読み取る手段
    と、 前記拗音を表す文字以外の文字数を前記音声データのサ
    イズで除した値を、前記音声レコードの話速とする手段
    とを含む請求項3記載の録音音声データベース話速均一
    化装置。
  5. 【請求項5】 人間が単語を発声した音声をディジタル
    信号として保存した音声データとその発声内容である単
    語の読みを記したラベルとインデックスから成る音声レ
    コードを格納した録音音声データベース話速均一化プロ
    グラムを格納した記憶媒体であって、 録音音声データベースの音声レコードを入力させる音声
    レコード入力プロセスと、 前記音声レコード入力プロセスにより入力された各前記
    音声レコードの話速を計算し、該音声データの話速を当
    該音声レコードとして、前記音声レコードのインデック
    スと共に格納する話速テーブルに格納する話速計算プロ
    セスと、 予め与えられる話速均一化処理後の音声レコードの話速
    が入るべき話速の範囲(以下、目標話速範囲と記す)を
    取得する、または、予め決められた手順で目標話速範囲
    を計算により決定する目標話速範囲決定プロセスと、 前記話速テーブルに格納された話速と、前記目標話速範
    囲を比較して、該話速範囲に入らない話速を持つ音声レ
    コードを抽出する音声レコード抽出プロセスと、 前記録音音声データベースの全音声レコードの話速が前
    記目標話速範囲に入るように前記音声レコード抽出プロ
    セスで抽出された前記音声レコードの話速を変換する話
    速変換プロセスとを有することを特徴とする録音音声デ
    ータベース話速均一化プログラムを格納した記憶媒体。
  6. 【請求項6】 前記話速計算プロセスは、 前記音声レコードのラベルに記された発声内容を表す文
    字列を先頭から一文字ずつ読み込み、読み込んだ文字が
    拗音を表す文字(ゃ、ゅ、ょ)以外の場合にのみ内部の
    カウンタを一つ進めることにより、該文字列を構成する
    文字のうち、拗音を表す文字以外の文字数を数えるプロ
    セスと、 前記音声レコードの音声データのサイズを読み取るプロ
    セスと、 前記拗音を表す文字以外の文字数を前記音声データのサ
    イズで除した値を、前記音声レコードの話速とするプロ
    セスとを含む請求項5記載の録音音声データベース話速
    均一化プログラムを格納した記憶媒体。
JP30602098A 1998-10-27 1998-10-27 録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体 Expired - Lifetime JP3374767B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30602098A JP3374767B2 (ja) 1998-10-27 1998-10-27 録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30602098A JP3374767B2 (ja) 1998-10-27 1998-10-27 録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2000132179A true JP2000132179A (ja) 2000-05-12
JP3374767B2 JP3374767B2 (ja) 2003-02-10

Family

ID=17952118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30602098A Expired - Lifetime JP3374767B2 (ja) 1998-10-27 1998-10-27 録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP3374767B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006313274A (ja) * 2005-05-09 2006-11-16 Nhk Computer Service:Kk 番組音声制作装置および番組音声制作プログラム
JP2008107381A (ja) * 2006-10-23 2008-05-08 Mitsubishi Electric Corp 話速変換装置及び話速変換制御方法
JP2012078755A (ja) * 2010-10-06 2012-04-19 Nippon Hoso Kyokai <Nhk> 話速調整装置、音声合成システム、およびプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62231998A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
JPH01201699A (ja) * 1988-02-08 1989-08-14 Nec Corp 音韻継続時間長決定装置
JPH04199421A (ja) * 1990-11-29 1992-07-20 Toshiba Corp 文書読上げ装置
JPH04280298A (ja) * 1991-03-08 1992-10-06 Nec Corp 継続時間長決定方法
JPH0990971A (ja) * 1995-09-25 1997-04-04 N T T Data Tsushin Kk 音声合成方法
JPH1070790A (ja) * 1996-05-22 1998-03-10 Yamaha Corp 話速検出方法、話速変換方法および話速変換機能付補聴器
JPH10260694A (ja) * 1997-03-19 1998-09-29 Fujitsu Ltd 話速変換装置、話速変換方法及び記録媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62231998A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
JPH01201699A (ja) * 1988-02-08 1989-08-14 Nec Corp 音韻継続時間長決定装置
JPH04199421A (ja) * 1990-11-29 1992-07-20 Toshiba Corp 文書読上げ装置
JPH04280298A (ja) * 1991-03-08 1992-10-06 Nec Corp 継続時間長決定方法
JPH0990971A (ja) * 1995-09-25 1997-04-04 N T T Data Tsushin Kk 音声合成方法
JPH1070790A (ja) * 1996-05-22 1998-03-10 Yamaha Corp 話速検出方法、話速変換方法および話速変換機能付補聴器
JPH10260694A (ja) * 1997-03-19 1998-09-29 Fujitsu Ltd 話速変換装置、話速変換方法及び記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006313274A (ja) * 2005-05-09 2006-11-16 Nhk Computer Service:Kk 番組音声制作装置および番組音声制作プログラム
JP4537886B2 (ja) * 2005-05-09 2010-09-08 株式会社エヌエイチケイメディアテクノロジー 番組音声制作装置および番組音声制作プログラム
JP2008107381A (ja) * 2006-10-23 2008-05-08 Mitsubishi Electric Corp 話速変換装置及び話速変換制御方法
JP2012078755A (ja) * 2010-10-06 2012-04-19 Nippon Hoso Kyokai <Nhk> 話速調整装置、音声合成システム、およびプログラム

Also Published As

Publication number Publication date
JP3374767B2 (ja) 2003-02-10

Similar Documents

Publication Publication Date Title
Elberling et al. DANTALE: A new Danish speech material
CN110136687B (zh) 一种基于语音训练克隆口音及声韵方法
CN108847215A (zh) 基于用户音色进行语音合成的方法及装置
JPWO2006011405A1 (ja) デジタルフィルタリング方法、デジタルフィルタ装置、デジタルフィルタプログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
US7308407B2 (en) Method and system for generating natural sounding concatenative synthetic speech
JP6373621B2 (ja) 話し方評価装置、話し方評価方法、プログラム
JP2897701B2 (ja) 効果音検索装置
JP3374767B2 (ja) 録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体
JP2001184100A (ja) 話速変換装置
JP4778402B2 (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP4150645B2 (ja) 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
JP4130927B2 (ja) 音響再生装置
US20040054524A1 (en) Speech transformation system and apparatus
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
Deshmukh et al. Human speech recognition performance on the 1995 CSR Hub-3 corpus
JP3393532B2 (ja) 録音音声の音量正規化方法およびこの方法を実施する装置
JP7296214B2 (ja) 音声認識システム
JP7110057B2 (ja) 音声認識システム
JP3241582B2 (ja) 韻律制御装置及び方法
JPH0235994B2 (ja)
JPH05204388A (ja) メッセージ出力装置
US5899974A (en) Compressing speech into a digital format
CN116704082A (zh) 虚拟对象驱动方法、装置、电子设备和存储介质
JP2596143B2 (ja) 音声符号化方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071129

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081129

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091129

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101129

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101129

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111129

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111129

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121129

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121129

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131129

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term