JPH10254493A - 録音音声の音量正規化方法およびこの方法を実施する装置 - Google Patents

録音音声の音量正規化方法およびこの方法を実施する装置

Info

Publication number
JPH10254493A
JPH10254493A JP9060391A JP6039197A JPH10254493A JP H10254493 A JPH10254493 A JP H10254493A JP 9060391 A JP9060391 A JP 9060391A JP 6039197 A JP6039197 A JP 6039197A JP H10254493 A JPH10254493 A JP H10254493A
Authority
JP
Japan
Prior art keywords
volume
vowel
frame
normalization
recorded voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9060391A
Other languages
English (en)
Other versions
JP3393532B2 (ja
Inventor
Jinichi Murakami
仁一 村上
Hirokazu Suzuki
博和 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP06039197A priority Critical patent/JP3393532B2/ja
Publication of JPH10254493A publication Critical patent/JPH10254493A/ja
Application granted granted Critical
Publication of JP3393532B2 publication Critical patent/JP3393532B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 人手によらず録音音量を一定にする録音音声
の音量正規化方法およびこの方法を実施する装置を提供
する。 【解決手段】 被調整録音音声の音量調整の基準となる
各母音の音量標準値を設定する母音音量標準値設定部
1、被調整録音音声の母音フレーム毎に音量標準値に基
づいて音量正規化数を算出する母音フレーム音量正規化
数算出部2、被調整録音音声の音声ファイル毎に音量正
規化数の平均値を算出する正規化数平均算出部4、音量
正規化数の平均値をファイル音量正規化数として記憶格
納するファイル音量正規化数格納部5、ファイル音量正
規化数に基づいて音声ファイル毎の被調整録音音声の音
量正規化を行う音量正規化制御部6を具備する録音音声
の音量正規化方法およびこの方法を実施する装置。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は録音音声の音量正
規化方法およびこの方法を実施する装置に関し、特に、
被調整録音音声の各母音の音量基準となる音量標準値を
設定して被調整録音音声の各音声ファイル毎に各母音フ
レームの音量の平均値を音量標準値に等しくする制御を
実施する録音音声の音量正規化方法およびこの方法を実
施する装置に関する。
【0002】
【従来の技術】音声を使用して電話利用者に各種の電話
サービスを提供するには、大量の音声を録音蓄積してお
く必要がある。この場合、録音蓄積されている録音音声
の音量は常に一定であることを要請される。ところが、
これらの音声を録音蓄積するに際して、話者の発声の条
件状況、録音環境を常に一定に設定することはできない
ので、録音を常に一定のレベルで実施することは困難で
あり、実際に録音される音声の音量は相違するに到る。
即ち、録音単位である音声ファイルが異なると、録音音
声の音量が相違することが多く発生する。例えば、「ご
利用有り難うございます。」と録音した音声ファイル
と、「有り難うございました。」と録音した音声ファイ
ルとは、録音音声の音量は相違するに到る。
【0003】従来、録音音声の音量を一定にするに、録
音音声の音声波形を観察しながら人手により音量レベル
の調節をし、この一定レベルの音量を録音していた。
【0004】
【発明が解決しようとする課題】以上の通りに録音音声
の音声波形を観察しながら人手により音量レベルの調節
をしてこの一定レベルの音量を録音するという音声波形
録音処理は、大変な労力および時間を必要とするもので
あり、録音処理能率の観点から大量の音声を録音処理す
るには不適切である。その上に、人手による音声波形録
音処理であるところから、録音音声の音量を常に一定に
することは困難であり、録音される音声の音量が不揃い
になる恐れがある。
【0005】この発明は、被調整録音音声の各母音の音
量基準となる音量標準値を設定して被調整録音音声の各
音声ファイル毎に各母音フレームの音量の平均値を音量
標準値に等しくする制御を実施して人手によらず録音音
量を一定にする録音音声の音量正規化方法およびこの方
法を実施する装置を提供するものである。
【0006】
【課題を解決するための手段】
請求項1:被調整録音音声の音量調整の基準となる各母
音の音量標準値を設定し、録音音量を調整されるべき被
調整録音音声の各母音の音量をそれぞれの音量標準値に
等しくする制御を実施する録音音声の音量正規化方法を
構成した。 そして、請求項2:請求項1に記載される録音音声音量
正規化方法において、被調整録音音声の各母音の音量を
それぞれの音量標準値に等しくする制御は録音単位であ
る音声ファイル毎に実施する録音音声の音量正規化方法
を構成した。
【0007】また、請求項3:請求項2に記載される録
音音声の音量正規化方法において、被調整録音音声の母
音フレーム毎に音量標準値に基づいて、音量正規化数を
算出し、被調整録音音声の各音声ファイル毎に音量正規
化数の平均値を算出し、音量正規化数の平均値をファイ
ル音量正規化数として記憶格納し、ファイル音量正規化
数に基づいて音声ファイル毎の被調整録音音声の音量正
規化を行う録音音声の音量正規化方法を構成した。
【0008】更に、請求項4:請求項1ないし請求項3
の内の何れかに記載される録音音声の音量正規化方法に
おいて、予め音素ラベリングされた録音音声サンプルを
フレームに区分し、各フレーム毎に音素認識を行い、母
音フレームの音量を検出し、各母音毎に母音フレームの
音量の平均値を算出し、この各母音毎の音量の平均値を
音量標準値として設定する録音音声の音量正規化方法を
構成した。
【0009】また、請求項5:請求項1ないし請求項3
の内の何れかに記載される録音音声の音量正規化方法に
おいて、被調整録音音声をフレームに区分し、各フレー
ム毎に音素認識を行い、各母音フレームの音量を検出し
て記憶格納し、各母音毎に母音フレームの音量の平均値
を算出し、この各母音毎の平均値を音量標準値として設
定する録音音声の音量正規化方法を構成した。
【0010】そして、請求項6:請求項1ないし請求項
3の内の何れかに記載される録音音声の音量正規化方法
において、音量標準値を設定するに際して各母音の既知
の音量標準値を入力する録音音声の音量正規化方法を構
成した。 また、請求項7:請求項3に記載される録音音声の音量
正規化方法において、被調整録音音声をフレームに区分
し、各フレーム毎に音素認識を行い、各母音フレームの
音量を検出し、母音フレームと音量標準値に基づいて母
音フレーム毎の音量正規化数を算出する録音音声の音量
正規化方法を構成した。
【0011】更に、請求項8:請求項3ないし請求項5
の内の何れかに記載される録音音声の音量正規化方法に
おいて、各母音フレームの正規化数の内から所定範囲内
の正規化数を抽出してこれらの平均値をファイル音量正
規化数として設定する録音音声の音量正規化方法を構成
した。 ここで、請求項9:被調整録音音声の音量調整の基準と
なる各母音の音量標準値を設定する母音音量標準値設定
部1を具備し、被調整録音音声の母音フレーム毎に音量
標準値に基づいて音量正規化数を算出する母音フレーム
音量正規化数算出部2を具備し、被調整録音音声の音声
ファイル毎に音量正規化数の平均値を算出する正規化数
平均算出部4を具備し、音量正規化数の平均値をファイ
ル音量正規化数として記憶格納するファイル音量正規化
数格納部5を具備し、ファイル音量正規化数に基づいて
音声ファイル毎の被調整録音音声の音量正規化を行う音
量正規化制御部6を具備する録音音声の音量正規化装置
を構成した。
【0012】そして、請求項10:請求項9に記載され
る録音音声の音量正規化装置において、所定範囲内のフ
レーム音量正規化数を抽出する閾値内正規化数抽出部3
を具備し、抽出結果を正規化数平均算出部4に出力する
録音音声の音量正規化装置を構成した。 また、請求項11:請求項9および請求項10の内の何
れかに記載される録音音声の音量正規化装置において、
母音音量標準値設定部1は予め音素ラベリングされた録
音音声サンプルをフレームに区分し、各フレーム毎に音
素認識を行い、母音フレームの音量を検出するサンプル
音声分析部1aおよび各母音毎に母音フレームの音量の
平均値を算出する音量標準値算出部1bより成り、母音
フレーム音量正規化数算出部2は、被調整録音音声をフ
レームに区分し、各フレーム毎に音素認識を行い、各母
音フレームの音量を検出する録音音声分析部2aおよび
母音フレームの音量と音量標準値に基づいて母音フレー
ム毎の音量正規化数を算出する正規化数算出部2bより
成る録音音声の音量正規化装置を構成した。
【0013】更に、請求項12:請求項9および請求項
10の内の何れかに記載される録音音声の音量正規化装
置において、母音音量標準値設定部11は、被調整録音
音声をフレームに区分し、各フレーム毎に音素認識を行
い、各母音フレームの音量を検出する録音音声分析部1
1cと、各母音フレームの音量を記憶格納する母音フレ
ーム音量格納部11dと、各母音毎に母音フレームの音
量の平均値を算出する音量標準値算出部11eより成る
録音音声の音量正規化装置を構成した。
【0014】また、請求項13:請求項9および請求項
10の内の何れかに記載される録音音声の音量正規化装
置において、母音音量標準値設定部11は、各母音の既
知の音量標準値を入力する入力部を有するものである録
音音声の音量正規化装置を構成した。
【0015】
【発明の実施の形態】この発明は、録音音声の音量を決
定する要因である「a」、「i」、「u」、「e」、
「o」の各母音に着目し、これら母音それぞれの音量の
音量標準値を予め設定しておき、録音音量を調整される
べき被調整録音音声の各母音の音量を、それぞれの音量
標準値に等しくする制御を実施するものである。これを
録音単位である音声ファイル毎に実施する。ここにおけ
る音声ファイルとは、録音音声の収録単位をいう。一般
に、音声ファイルを一区切りとして録音音声の音量が不
揃いとなっており、この発明は、この音声ファイル毎に
音量調整を実施して被調整録音音声全体の音量の調整を
行うものである。
【0016】この発明の録音音声の音量正規化方法は、
先ず、被調整録音音声の音量調整の基準となる各母音の
音量標準値を設定し、被調整録音音声の母音フレーム毎
に音量標準値に基づいて音量正規化数を算出し、被調整
録音音声の各音声ファイル毎に音量正規化数の平均値を
算出し、平均値をファイル音量正規化数として記憶格納
し、ファイル音量正規化数に基づいて音声ファイル毎の
録音音声の音量正規化を行うものである。
【0017】そして、この発明による録音音声の音量正
規化装置は、録音音声の音量を決定する要因となる
「a」、「i」、「u」、「e」、「o」の各母音の音
量の標準値である音量標準値を母音音量標準値設定部に
おいて設定する。次に、音量正規化数算出部において、
音量調整されるべき被調整録音音声の各母音フレーム毎
に、音量を一定にする音量正規化数を算出する。
【0018】正規化数平均算出部において、録音単位で
ある音声ファイル毎に、音量正規化数の平均値を算出
し、これをファイル音量正規化数としてファイル音量正
規化数格納部に記憶格納する。最後に、音量正規化制御
部は、音声ファイル毎のファイル音量正規化数に基づい
て音声ファイル毎に被調整録音音声の音量を調整して音
量正規化を行う。
【0019】
【実施例】この発明の実施の形態を図1の実施例を参照
して具体的に説明する。図1はこの発明の録音音声の音
量正規化方法を説明する図である。この発明の録音音声
の音量正規化方法は、 (ステップ1)被調整録音音声の音量調整の基準となる
各母音の音量標準値を設定し、 (ステップ2)被調整録音音声の母音フレーム毎に音量
標準値に基づいて音量正規化数を算出し、 (ステップ3)被調整録音音声の各音声ファイル毎に音
量正規化数の平均値を算出し、 (ステップ4)平均値をファイル音量正規化数として記
憶格納し、 (ステップ5)ファイル音量正規化数に基づいて音声フ
ァイル毎の録音音声の音量正規化を行うものである。
【0020】この発明の第1の実施例を図3を参照して
更に具体的に説明する。図3において、この発明の録音
音声の音量正規化装置の第1の実施例はサンプル音声分
析部1aと音量標準値算出部1bより成る母音音量標準
値設定部1と、録音音声分析部2aと正規化数算出部2
bより成る母音フレーム音量正規化数算出部2と、閾値
内正規化数抽出部3と、正規化数平均算出部4と、ファ
イル音量正規化数格納部5と、音量正規化制御部6とに
より構成されている。
【0021】母音音量標準値設定部1は、音量調整しよ
うとする被調整録音音声の母音音量の基準となる音量標
準値を母音毎に設定する。この母音音量標準値設定部1
のサンプル音声分析部1aは、音素の並びが予め明確に
音素ラベリングされた録音音声サンプルを時間フレーム
に区分して、母音音素が含まれている母音フレームを抽
出する。
【0022】母音音量標準値設定部1の音量標準値算出
部1bは、録音音声サンプルから抽出された母音フレー
ムの音量に基づいて各母音「a」、「i」、「u」、
「e」および「o」毎に母音フレームの音量の平均値を
算出する。そして、これら各母音の母音フレームの音量
の平均値を、各母音の音量標準値として設定する。母音
フレーム音量正規化数算出部2は、母音音量標準値設定
部1から出力される各母音の音量標準値に基づいて、被
調整録音音声の録音単位である音声ファイル毎に各母音
フレームの音量を正規化する正規化数を算出する。
【0023】先ず、母音フレーム音量正規化数算出部2
の録音音声分析部2aは、被調整録音音声の録音単位で
ある音声ファイル毎に、一定時間毎のフレームに区分
し、各フレームに含まれる音素を認識し、母音音素を含
むフレームである母音フレームの音量を検出する。次
に、正規化数算出部2bは、各母音フレームの音量で当
該母音の音量標準値を割ることにより各母音フレームの
正規化数を算出する。即ち、母音フレームの正規化数は
下記の通りである。
【0024】母音フレームの正規化数=(母音の音量標
準値)/(母音フレームの音量) ここで、母音音量標準値設定部1において、母音「a」
の音量標準値P(a)を8.0、母音「i」の音量標準
値P(i)を4.0、母音「u」の音量標準値P(u)
を6.0、母音「e」の音量標準値P(e)を10.
0、母音「o」の音量標準値P(o)を6.0と設定さ
れたものとする。そして、録音音声分析部2aにおい
て、「かき」と録音されている音声ファイルがフレーム
に区分され、次いで、音素認識され、更に、各母音フレ
ームの音量が検出されて、以下の結果が得られたものと
する。 フレームNo.1 2 3 4 5 6 7 8 音素 | k | a | a | a | k | k | i | i | 音量 10.0 20.0 15.0 4.6 1.5 この場合、 フレーム No.2の音素(a)の母音フレームの正規化
数:P(a)/10.0 = 8.0 /10.0 = 0.8 フレーム No.3の音素(a)の母音フレームの正規化
数:P(a)/20.0 = 8.0 /20.0 = 0.4 フレーム No.4の音素(a)の母音フレームの正規化
数:P(a)/15.0 = 8.0 /15.0 = 0.53 フレーム No.7の音素(i)の母音フレームの正規化
数:P(i)/10.0 = 4.0 / 4.6 = 0.87 フレーム No.8の音素(i)の母音フレームの正規化
数:P(i)/10.0 = 4.0 / 1.6 = 2.5 という結果が得られる。
【0025】閾値内正規化数抽出部3は、母音フレーム
音量正規化数算出部2において算出された各母音フレー
ムの正規化数の内から所定範囲内の正規化数のみ抽出す
る。というのは、所定範囲以下の正規化数の場合は、母
音フレームの音量が大きすぎて録音対象ではない騒音が
録音されたものと考えられ、これとは逆に、所定範囲以
上の正規化数の場合は、母音フレームの音量が小さすぎ
て、これは雑音が録音されたものと考えられるからであ
る。
【0026】正規化数の範囲を0.5以上、2.0以下
とすると、先の例においては、フレームNO.3の正規
化数:0.4およびNO.8の正規化数:2.5は排除
され、フレームNO.2の各正規化数:0.8、NO.4
の正規化数:0.53、およびNO.7の正規化数:
0.87が抽出される。正規化数平均算出部4は、所定
範囲内の正規化数の平均値を算出する。先の例におい
て、正規化数0.8、0.53、0.87の平均値は、
0.73となる。
【0027】ファイル音量正規化数格納部5は、所定範
囲内の正規化数の平均値を、音声ファイルの音量を調整
するファイル音量正規化数として設定し、これを記憶格
納する。先の例においては、0.73を「かき」と録音
されている音声ファイルのファイル音量正規化数として
設定し、記憶格納する。母音フレーム音量正規化数算出
部2と、閾値内正規化数抽出部3と、正規化数平均算出
部4と、ファイル音量正規化数格納部5は、被調整録音
音声の音声ファイル毎に、繰り返して処理を実施し、フ
ァイル音量正規化数格納部5には、音声ファイル毎に音
量を調整するファイル音量正規化数が記憶格納される。
【0028】音量正規化制御部6は、ファイル音量正規
化数格納部5に格納されている音声ファイル毎のファイ
ル音量正規化数に基づいて音声ファイル毎に音量の制御
を実施する。ここで、録音音声の音量正規化装置の第1
の実施例の動作を図4を参照して説明する。
【0029】(ステップ100)被調整録音音声の音量
調整の基準となる各母音の音量標準値を設定する録音音
声サンプルを準備する。 (ステップ101)母音音量標準値設定部1のサンプル
音声分析部1aにおいて、録音音声サンプルを一定時間
毎のフレームに区分し、各フレームに含まれる音素を認
識する。
【0030】(ステップ102)母音音量標準値設定部
1のサンプル音声分析部1aにおいて、母音音素を含む
フレームである母音フレームを抽出し、抽出された母音
フレームの音量を測定する。 (ステップ103)母音音量標準値設定部1の音量標準
値算出部1bにおいて、各母音毎の母音フレームの音量
の平均値を算出し、各母音の音量標準値を、母音a=P
(a)、母音i=P(i)、母音u=P(u)、母音e
=P(e)、母音o=P(o)とする。
【0031】(ステップ104)音量調整すべき被調整
録音音声を準備する。 (ステップ105)母音フレーム音量正規化数算出部2
において、被調整録音音声の録音単位である音声ファイ
ルの最初のものを選択する。図2において、最初の音声
ファイルは「東京」である。
【0032】以降のステップ106からステップ111
までの処理は、各音声ファイルについて行う。 (ステップ106)母音フレーム音量正規化数算出部2
の録音音声分析部2aにおいて、音声ファイルをフレー
ムに区分し、各フレームの音素を認識する。
【0033】(ステップ107)更に、録音音声分析部
2aにおいて母音フレームを抽出し、それぞれの音量を
測定する。 (ステップ108)正規化数算出部2bにおいて、各母
音フレームの音量と母音の音量標準値に基づいて、各母
音フレームの音量を調整する各母音フレーム毎に正規化
数を算出する。
【0034】母音フレームの正規化数=(母音の音量標
準値)/(母音フレームの音量) (ステップ109)閾値内正規化数抽出部3において、
ステップ108において算出した母音フレームの正規化
数が所定範囲内にあるものを抽出する。正規化数平均算
出部4において、所定範囲内にある正規化数の平均値を
求め、この平均値を音声ファイルの音量を調整するファ
イル音量正規化数として設定する。
【0035】(ステップ110)ファイル音量正規化数
格納部5において、音声ファイル毎のファイル音量正規
化数を記憶格納する。 (ステップ111)被調整録音音声の全ての音声ファイ
ルについて、ステップ106からステップ110に到る
処理が終了したか否かを判断し、YESであればステッ
プ113へ進み、NOであればステップ112へ進む。
【0036】(ステップ112)次の音声ファイルを選
択し、ステップ106へ戻る。 (ステップ113)全ての音声ファイルについてのファ
イル音量正規化数が求められ、記憶格納されたので、最
初の音声ファイルを選択して被調整録音音声の音声調整
を最初の音声ファイルから実施する状態に進む。
【0037】(ステップ114)音量正規化制御部6に
おいて、音声ファイル毎に記憶格納されているファイル
音量正規化数に基づいて音声ファイルの音量を制御す
る。即ち、もとの音声ファイルの音量のファイル音量正
規化数倍して音量を調整する。 (ステップ115)被調整録音音声の全ての音声ファイ
ルについて、ステップ114の処理が終了したか否かを
判断し、YESであればステップ117へ進み、NOで
あればステップ116へ進む。
【0038】(ステップ116)次の音声ファイルを選
択して、ステップ114へ戻る。 (ステップ117)被調整録音音声の全ての音声ファイ
ルについての音量調整が終了する。以上の第1の実施例
によれば、音声ファイル毎に音量を一定にするファイル
音量正規化数が算出され、このファイル音量正規化数に
基づいて音声ファイル毎に音量の調整が自動的に行われ
るので、人手による音量調整よりも遥かに容易、かつ、
正確に音量の調整を行うことができる。
【0039】この発明の第2の実施例を図5を参照して
説明する。図5において、図3における参照符号と共通
する参照符号は同一の部材を意味するものとし、その詳
細な説明は省略する。図5において、録音音声の音量正
規化装置の第2の実施例は、母音音量標準値設定部11
と、音量正規化数算出部12と、閾値内正規化数抽出部
3と、正規化数平均算出部4と、ファイル音量正規化数
格納部5と音量正規化制御部6とを具備し、ここで、母
音音量標準値設定部11は録音音声分析部11cと、母
音フレーム音量格納部11dと、音量標準値算出部11
eより成る。
【0040】この第2の実施例において、第1の実施例
と異なるところは、音量調整の基準となる音量標準値を
設定するに際して、第1の実施例は、音素ラベリングさ
れた録音音声サンプルから抽出された母音フレームの音
量の平均値を基準に設定したが、この第2の実施例は、
調整されるべき録音音声そのものから抽出された母音フ
レームの音量の平均値を基準に設定している。
【0041】母音音量標準値設定部11は、録音音声サ
ンプルから各母音の音量標準値を設定する。即ち、母音
音量標準値設定部11の録音音声分析部11cは、音量
調整する被調整録音音声を一定時間毎にフレームに区分
し、各フレーム毎の音素を認識し、母音音素を有するフ
レームである母音フレームを抽出し、各母音フレームの
音量を測定する。
【0042】母音フレーム音量格納部11dは、各母音
フレームの音量を記憶格納する。これは、音量正規化数
算出部12において、各母音フレームの正規化数を算出
するに際して、再び各母音フレームの音量を利用するか
らである。これについては後で説明する音量標準値算出
部11eは、各母音フレームの音量に基づいて各母音毎
の母音フレームの音量の平均値を算出し、これを各母音
の音量調整基準となる音量標準値とする。
【0043】音量正規化数算出部12は、各母音の音量
標準値と各母音フレームの音量から各母音フレームの正
規化数を第1の実施例と同様にして算出する。即ち、算
出式は下記の通りである。 母音フレームの正規化数=(母音の音量標準値)/(母
音フレームの音量) そして、各母音フレームの正規化数に基づいて音声ファ
イル毎にファイル音量正規化数を求め、ファイル音量正
規化数を設定記憶し、音声ファイル毎のファイル音量正
規化数に基づいて音声ファイル毎に音量を制御すること
は、第1の実施例の場合と同様に実施される。
【0044】第2の実施例の場合、音量調整する被調整
録音音声そのものから各母音の音量平均値を音量標準値
として設定し、被調整録音音声の音声ファイル毎にこの
音量標準値に等しくする音量の調整制御を実施する。第
2の実施例は、音量標準値を設定するのに録音音声サン
プルを必要とせず、被調整録音音声の各母音フレームの
音量を格納する母音フレーム音量格納部11dを準備す
ることにより、音量調整に人手を要しないことその他、
第1の実施例と同様の効果が得られる。ただ、多数の被
調整録音音声を調整録音処理する場合は、音量基準とな
る録音音声サンプルを使用する方が、全ての被調整録音
音声に対して統一された音量に調整することができて好
適である。
【0045】この発明は、以上の実施例の他に、様々な
実施の態様をとることができる。先の実施例において
は、音量標準値を録音音声サンプル、或は被調整録音音
声から求めたが、各母音毎の音量標準値が既知の場合
は、これら各母音の音量標準値を所定の入力部より音量
正規化装置に入力して被調整録音音声の各母音をこれら
の音量標準値に等しくする音量制御を実施することがで
きる。
【0046】また、先の各実施例においては、被調整録
音音声の音量を各音声ファイル毎に音量を調整して音量
標準値に等しくする音量制御を音声ファイル毎のファイ
ル音量正規化数を設定して実施したが、母音フレームの
正規化数に基づいて各母音フレーム毎に音量の調整制御
を実施することができる。
【0047】
【発明の効果】以上の通りであって、この発明によれ
ば、被調整録音音声の各母音の音量基準となる音量標準
値を設定して、被調整録音音声の各音声ファイル毎に各
母音フレームの音量の平均値が音量標準値に等しくする
制御を人手に依らずして自動的に実施するので、手間が
かからず、正確に音量調整を実施することができる。
【0048】そして、音量基準となる録音音声サンプル
を使用することにより、多数の被調整録音音声を調整録
音処理する場合に、全ての被調整録音音声に対して統一
された音量に調整することができて好適である。また、
被調整録音音声の各母音フレームの音量を格納する母音
フレーム音量格納部を準備することにより、音量標準値
を設定するのに録音音声サンプルを必要とせず、録音音
声の音量正規化装置を簡略化することができる。
【0049】更に、音量標準値を設定するに際して各母
音の既知の音量標準値を入力する構成を採用することに
より、録音音声の音量正規化装置を更に簡略化すること
ができる。また、母音フレーム音量正規化数算出部にお
いて算出された各母音フレームの正規化数の内から所定
範囲内の正規化数のみ抽出して使用することにより、録
音対象ではない大音量の騒音および小音量の雑音を母音
フレーム音量正規化数の算出から排除することができ、
適正な母音フレーム音量正規化数を求めることができ
る。
【図面の簡単な説明】
【図1】実施例を説明する図。
【図2】音声ファイルを説明する図。
【図3】他の実施例を説明する図。
【図4】実施例の動作を説明する図。
【図5】更に、他の実施例を説明する図。
【符号の説明】
1、11 母音音量標準値設定部 1a サンプル音声分析部 1b、11e 音量標準値算出部 2 母音フレーム音量正規化数算出部 2a、11c 録音音声分析部 2b 正規化数算出部 3 閾値内正規化数抽出部 4 正規化数平均算出部 5 ファイル音量正規化数格納部 6 音量正規化制御部 11d 母音フレーム音量格納部

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 被調整録音音声の音量調整の基準となる
    各母音の音量標準値を設定しておき、 録音音量を調整されるべき被調整録音音声の各母音の音
    量をそれぞれの音量標準値に等しくする制御を実施する
    録音音声の音量正規化方法。
  2. 【請求項2】 請求項1に記載される録音音声の音量正
    規化方法において、 被調整録音音声の各母音の音量をそれぞれの音量標準値
    に等しくする制御は録音単位である音声ファイル毎に実
    施することを特徴とする録音音声の音量正規化方法。
  3. 【請求項3】 請求項2に記載される録音音声の音量正
    規化方法において、 被調整録音音声の母音フレーム毎に音量標準値に基づい
    て音量正規化数を算出し、 被調整録音音声の各音声ファイル毎に音量正規化数の平
    均値を算出し、 音量正規化数の平均値をファイル音量正規化数として記
    憶格納し、 ファイル音量正規化数に基づいて音声ファイル毎の被調
    整録音音声の音量正規化を行うことを特徴とする録音音
    声の音量正規化方法。
  4. 【請求項4】 請求項1ないし請求項3の内の何れかに
    記載される録音音声の音量正規化方法において、 予め音素ラベリングされた録音音声サンプルをフレーム
    に区分し、各フレーム毎に音素認識を行い、母音フレー
    ムの音量を検出し、各母音毎に母音フレームの音量の平
    均値を算出し、この各母音毎の音量の平均値を音量標準
    値として設定することを特徴とする録音音声の音量正規
    化方法。
  5. 【請求項5】 請求項1ないし請求項3の内の何れかに
    記載される録音音声の音量正規化方法において、 被調整録音音声をフレームに区分し、各フレーム毎に音
    素認識を行い、各母音フレームの音量を検出して記憶格
    納し、各母音毎に母音フレームの音量の平均値を算出
    し、この各母音毎の平均値を音量標準値として設定する
    ことを特徴とする録音音声の音量正規化方法。
  6. 【請求項6】 請求項1ないし請求項3の内の何れかに
    記載される録音音声の音量正規化方法において、 音量標準値を設定するに際して各母音の既知の音量標準
    値を入力することを特徴とする録音音声の音量正規化方
    法。
  7. 【請求項7】 請求項3に記載される録音音声の音量正
    規化方法において、 被調整録音音声をフレームに区分し、各フレーム毎に音
    素認識を行い、各母音フレームの音量を検出し、母音フ
    レームと音量標準値に基づいて母音フレーム毎の音量正
    規化数を算出することを特徴とする録音音声の音量正規
    化方法。
  8. 【請求項8】 請求項3ないし請求項5の内の何れかに
    記載される録音音声の音量正規化方法において、 各母音フレームの正規化数の内から所定範囲内の正規化
    数を抽出してこれらの平均値をファイル音量正規化数と
    して設定することを特徴とする録音音声の音量正規化方
    法。
  9. 【請求項9】 被調整録音音声の音量調整の基準となる
    各母音の音量標準値を設定する母音音量標準値設定部を
    具備し、 被調整録音音声の母音フレーム毎に音量標準値に基づい
    て音量正規化数を算出する母音フレーム音量正規化数算
    出部を具備し、 被調整録音音声の音声ファイル毎に音量正規化数の平均
    値を算出する正規化数平均算出部を具備し、 音量正規化数の平均値をファイル音量正規化数として記
    憶格納するファイル音量正規化数格納部を具備し、 ファイル音量正規化数に基づいて音声ファイル毎の被調
    整録音音声の音量正規化を行う音量正規化制御部を具備
    する、 ことを特徴とする録音音声の音量正規化装置。
  10. 【請求項10】 請求項9に記載される録音音声の音
    量正規化装置において、 所定範囲内のフレーム音量正規化数を抽出する閾値内正
    規化数抽出部を具備して、抽出結果を正規化数平均算出
    部4に出力する、 ことを特徴とする録音音声の音量正規化装置。
  11. 【請求項11】 請求項9および請求項10の内の何
    れかに記載される録音音声の音量正規化装置において、 母音音量標準値設定部は、予め音素ラベリングされた録
    音音声サンプルをフレームに区分し、各フレーム毎に音
    素認識を行い、母音フレームの音量を検出するサンプル
    音声分析部および各母音毎に母音フレームの音量の平均
    値を算出する音量標準値算出部より成り、 母音フレーム音量正規化数算出部は、被調整録音音声を
    フレームに区分し、各フレーム毎に音素認識を行い、各
    母音フレームの音量を検出する録音音声分析部2aおよ
    び母音フレームの音量と音量標準値に基づいて母音フレ
    ーム毎の音量正規化数を算出する正規化数算出部より成
    る、 ことを特徴とする録音音声の音量正規化装置。
  12. 【請求項12】 請求項9および請求項10の内の何
    れかに記載される録音音声の音量正規化装置において、 母音音量標準値設定部は、被調整録音音声をフレームに
    区分し、各フレーム毎に音素認識を行い、各母音フレー
    ムの音量を検出する録音音声分析部と、各母音フレーム
    の音量を記憶格納する母音フレーム音量格納部と、各母
    音毎に母音フレームの音量の平均値を算出する音量標準
    値算出部より成る、 ことを特徴とする録音音声の音量正規化装置。
  13. 【請求項13】 請求項9および請求項10の内の何
    れかに記載される録音音声の音量正規化装置において、 母音音量標準値設定部は、各母音の既知の音量標準値を
    入力する入力部を有するものであることを特徴とする録
    音音声の音量正規化装置。
JP06039197A 1997-03-14 1997-03-14 録音音声の音量正規化方法およびこの方法を実施する装置 Expired - Lifetime JP3393532B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06039197A JP3393532B2 (ja) 1997-03-14 1997-03-14 録音音声の音量正規化方法およびこの方法を実施する装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06039197A JP3393532B2 (ja) 1997-03-14 1997-03-14 録音音声の音量正規化方法およびこの方法を実施する装置

Publications (2)

Publication Number Publication Date
JPH10254493A true JPH10254493A (ja) 1998-09-25
JP3393532B2 JP3393532B2 (ja) 2003-04-07

Family

ID=13140817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06039197A Expired - Lifetime JP3393532B2 (ja) 1997-03-14 1997-03-14 録音音声の音量正規化方法およびこの方法を実施する装置

Country Status (1)

Country Link
JP (1) JP3393532B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040026264A (ko) * 2002-09-23 2004-03-31 삼성전자주식회사 음악 파일 볼륨 조절 시스템 및 방법
US8401844B2 (en) 2006-06-02 2013-03-19 Nec Corporation Gain control system, gain control method, and gain control program
JP2020067531A (ja) * 2018-10-23 2020-04-30 株式会社コーエーテクモゲームス プログラム、情報処理方法、及び情報処理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2992324B2 (ja) 1990-10-26 1999-12-20 株式会社リコー 音声区間検出方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040026264A (ko) * 2002-09-23 2004-03-31 삼성전자주식회사 음악 파일 볼륨 조절 시스템 및 방법
US8401844B2 (en) 2006-06-02 2013-03-19 Nec Corporation Gain control system, gain control method, and gain control program
JP5262713B2 (ja) * 2006-06-02 2013-08-14 日本電気株式会社 ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
JP2020067531A (ja) * 2018-10-23 2020-04-30 株式会社コーエーテクモゲームス プログラム、情報処理方法、及び情報処理装置

Also Published As

Publication number Publication date
JP3393532B2 (ja) 2003-04-07

Similar Documents

Publication Publication Date Title
US10388279B2 (en) Voice interaction apparatus and voice interaction method
CN108630202B (zh) 语音识别装置、语音识别方法以及记录介质
US8005677B2 (en) Source-dependent text-to-speech system
US7490038B2 (en) Speech recognition optimization tool
US20080147411A1 (en) Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment
US10573294B2 (en) Speech recognition method based on artificial intelligence and terminal
US5684924A (en) User adaptable speech recognition system
JPH0792993A (ja) 音声認識装置
JPH08110793A (ja) 特性ベクトルの前端正規化による音声認識の改良方法及びシステム
EP2011234A1 (en) Audio gain control using specific-loudness-based auditory event detection
CN102214464B (zh) 音频信号的瞬态检测方法以及基于该方法的时长调整方法
EP2083417A2 (en) Sound processing device and program
US6826528B1 (en) Weighted frequency-channel background noise suppressor
WO2022134781A1 (zh) 拖音的检测方法、装置、设备及存储介质
JPH10254493A (ja) 録音音声の音量正規化方法およびこの方法を実施する装置
WO2023185004A1 (zh) 一种音色切换方法及装置
JPS6257040B2 (ja)
JPS63502304A (ja) 高雑音環境における言語認識のためのフレ−ム比較法
JP2966452B2 (ja) 音声認識装置の雑音除去システム
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Narain et al. Impact of emotions to analyze gender through speech
JPH08250944A (ja) 自動音量制御方法およびこの方法を実施する装置
JP3374767B2 (ja) 録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体
JP4208312B2 (ja) 音声処理装置
JP2001228890A (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090131

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090131

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100131

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110131

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110131

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120131

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130131

Year of fee payment: 10

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term