JPH05241596A - 音声の基本周波数抽出システム - Google Patents

音声の基本周波数抽出システム

Info

Publication number
JPH05241596A
JPH05241596A JP4042679A JP4267992A JPH05241596A JP H05241596 A JPH05241596 A JP H05241596A JP 4042679 A JP4042679 A JP 4042679A JP 4267992 A JP4267992 A JP 4267992A JP H05241596 A JPH05241596 A JP H05241596A
Authority
JP
Japan
Prior art keywords
fundamental frequency
peak position
local peak
value
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4042679A
Other languages
English (en)
Inventor
Takao Koyama
貴夫 小山
Noriya Murakami
憲也 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP4042679A priority Critical patent/JPH05241596A/ja
Publication of JPH05241596A publication Critical patent/JPH05241596A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音声の基本的な特徴量を示す基本周波数の抽
出を高速に、かつ、高精度に行ない、音声認識処理性能
や、音声合成処理性能などを向上させる。 【構成】 入力された音声から二種類の分析条件で抽出
したそれぞれのパワー波形を用いてローカルピーク位置
を抽出し、抽出したローカルピーク位置の出現周期か
ら、入力された音声の基本周波数を抽出する音声の基本
周波数抽出システムにおいて、ローカルピーク位置に基
づき抽出する基本周波数の値と、ローカルピーク位置の
出現周期から直線近似して得られる基本周波数の予測値
との誤差を算出し、この誤差に基づきローカルピーク位
置を補正して、基本周波数を補正する基本周波数補正部
を設けることを特徴とする音声の基本周波数抽出システ
ム。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声の基本的な特徴量
を示す基本周波数を抽出する音声の基本周波数抽出シス
テムに係わり、特に、基本周波数を、高速かつ高精度に
抽出し、音声の合成や認識処理性能を向上させるのに好
適な音声の基本周波数抽出システムに関するものであ
る。
【0002】
【従来の技術】音声の基本周波数の高さは、音声の自然
さや、話者の個人性、感情などを表し、音声の合成や認
識システムなどにおいては、音声の基本周波数を、正
確、かつ、高速に抽出することが重要である。従来、音
声から基本周波数を抽出する技術として、ケプストラム
(音声信号のピッチ抽出などに有効)を用いるものや、
SIFT(Simplified Inverse F
ilter Tracking)法などが、一般に良く
用いられている。しかし、これらの技術では、分析にか
かる時間が長いという欠点がある。
【0003】これに対して、例えば、本発明の提案者ら
による「音声波形のローカルピーク抽出とピッチ制御へ
の応用」(平成3年10月、音響学会講演論文集2−6
−1)に記載されているように、音声のパワー波形を用
いて、音声波形から、ローカルピークを抽出し、このロ
ーカルピークの出現周期から、音声の基本周波数を、高
速かつ高精度に抽出する技術がある。このローカルピー
ク位置抽出技術では、入力音声の有声音区間検出を行な
い、二種類の分析条件で音声波形と同期して計算された
パワー波形を比較することにより、ローカルピーク位置
の存在区間を決定し、この音声区間内から、振幅の最大
値を探索し、ローカルピーク位置を抽出する。そして、
抽出したそれぞれのローカルピーク位置からなるピーク
位置列の一周期の時間情報から、周波数変換を行ない、
入力音声の基本周波数を抽出する。
【0004】しかし、このような従来技術では、語尾な
どの音声のパワーが小さい部分においては、ローカルピ
ークの誤抽出が多く見られる。また、音声波形中の急激
なパワー変動によるパワー抽出誤りも指摘される。これ
は、平滑化されたパワー波形が、急激なパワー変化に追
従できない場合があるためと考えられる。
【0005】
【発明が解決しようとする課題】解決しようとする問題
点は、従来の技術では、音声のパワーが小さい部分にお
けるローカルピークの誤抽出や、急激なパワー変動によ
るローカルピークの誤抽出があり、音声波形中のローカ
ルピーク位置を高精度に抽出することができない点であ
る。本発明の目的は、これら従来技術の課題を解決し、
ローカルピーク位置の抽出に基づく音声の基本周波数の
抽出を高速に、かつ、高精度に行ない、音声認識処理性
能や、音声合成処理性能などを向上させることを可能と
する音声の基本周波数抽出システムを提供することであ
る。
【0006】
【課題を解決するための手段】上記目的を達成するた
め、本発明の音声の基本周波数抽出システムは、(1)
入力された音声から、二種類の分析条件で抽出したそれ
ぞれのパワー波形を用いてローカルピーク位置を抽出
し、抽出したローカルピーク位置の出現周期から、入力
された音声の基本周波数を抽出する音声の基本周波数抽
出システムにおいて、ローカルピーク位置に基づき抽出
する基本周波数の値と、ローカルピーク位置の出現周期
から直線近似して得られる基本周波数の予測値との誤差
を算出し、この誤差に基づきローカルピーク位置を補正
して、基本周波数の抽出を行なう基本周波数補正部を設
けることを特徴とする。また、(2)上記(1)に記載
の音声の基本周波数抽出システムにおいて、基本周波数
補正部は、ローカルピーク位置の出現周期に基づき、基
本周波数に対する線形モデルによる回帰分析を行なう線
形回帰分析部と、この線形回帰分析部の回帰分析の対象
となる基本周波数の区間を決定する分析区間決定部と、
線形回帰分析部による回帰分析結果から、基本周波数の
予測値を計算し、この予測値と、ローカルピーク位置に
基づき抽出した基本周波数の値との誤差を算出する予測
誤差算出部と、予め設定されたしきい値に基づき、この
予測誤差算出部で算出した誤差値を評価するローカルピ
ーク位置評価部と、しきい値を超える誤差値のローカル
ピーク位置を、線形モデルによる予測値に基づき補正す
るローカルピーク位置補正部とを具備することを特徴と
する。また、(3)上記(2)に記載の音声の基本周波
数抽出システムにおいて、誤差値が過剰抽出によるもの
とのローカルピーク位置評価部による評価に基づくこの
誤差値の原因となったローカルピーク位置の除外処理
と、誤差値が抽出漏れによるものとのローカルピーク位
置評価部による評価に基づくこの誤差値の原因となった
ローカルピーク位置の挿入処理とを行なうローカルピー
ク位置補正部を設けることを特徴とする。また、(4)
上記(1)から(3)のいずれかに記載の音声の基本周
波数抽出システムにおいて、入力された音声の有声音の
連続区間を検出する有声音区間検出部と、直線近似の対
象となる区間内の基本周波数で、正極性のサンプル値の
みを用いて計算したパワー値と、負極性のサンプル値の
みを用いて計算したパワー値のそれぞれを保持し、有声
音区間検出部で検出した有声音区間毎に、両極性の平均
パワーを算出する短区間パワー計算部と、この短区間パ
ワー計算部で計算した平均パワーの大きい極性を優勢極
性として判定する優勢極性判定部と、この優勢極性判定
部で優勢極性として判定した極性側における短区間パワ
ーの移動平均値に基づき、しきい値パワーを算出するし
きい値パワー計算部とを設け、しきい値パワーと短区間
パワーから、ローカルピーク位置の存在区間を決定する
ことを特徴とする。
【0007】
【作用】本発明においては、パワー波形の計算におい
て、連続する有声音区間毎に、正負それぞれの極性で、
別個に短区間パワーを計算し、その結果により、パワー
の優勢な極性を判断し、優勢な極性側の短区間パワーを
元に、しきい値パワーの計算を行なう。このことによ
り、ローカルピーク位置探索区間を、より狭くし、ま
た、極性統一による探索処理の簡素化が図れる。次に、
抽出されたローカルピーク位置から、基本周波数への変
換がなされ、基本周波数パターンの適当なフレーム長で
の線形回帰分析の結果を元に、ローカルピーク抽出の妥
当性を判断し、抽出したローカルピーク位置が間違いと
判断した場合は、線形回帰分析による予測値を、ローカ
ルピーク抽出処理にフィードバックし、ローカルピーク
の抽出位置の補正を行なう。このようにして、ローカル
ピーク位置を補正することで、より高精度のローカルピ
ーク抽出を行ない、信頼性の高い基本周波数を得ること
ができる。また、処理的には連続有声音区間内に閉じた
処理形態であり、入力音声が長時間に渡る場合でも、検
出した有声音区間単位で、パイプライン処理を行なうこ
とで、入力終了の見極めを必要とせず、処理を高速に行
なうことができる。
【0008】
【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明の音声の基本周波数抽出シス
テムの本発明に係わる構成の一実施例を示すブロック図
である。本実施例の音声の基本周波数抽出システムは、
それぞれ図示していない、音声を入力する入力装置と、
音声から抽出されたローカルピーク位置列の情報などを
格納する外部記憶装置と、基本周波数パターンを表示す
るディスプレイとに接続され、そして、入力端子101
から入力された音声信号に対して、低域通過フィルター
を通し、アナログ/ディジタル変換する前処理部102
と、本発明に係わる入力音声のパワー波形の計算を行な
うパワー計算部103と、このパワー波形を元に、ロー
カルピーク位置を抽出するローカルピーク抽出部104
と、抽出したローカルピーク位置列に基づき、周波数へ
の変換を行なう基本周波数計算部105と、この基本周
波数計算部105からの基本周波数に対して、本発明に
係わるローカルピーク位置の補正を行ない、基本周波数
を補正する基本周波数補正部106と、基本周波数パタ
ーンの表示、および、ローカルピーク位置列情報の出力
端子108への出力を行なう基本周波数パターン出力部
107とにより構成されている。
【0009】以下、この音声の基本周波数抽出システム
の動作を説明する。まず、入力端子101から音声信号
が入力され、前処理部102に入力される。この前処理
部102では、入力された音声信号に対して、低域通過
フィルターを通し、アナログ/ディジタル変換を行な
い、パワー計算部103へ送出する。パワー計算部10
3では、入力音声の有声音区間を検出し、この有声音区
間において、正負それぞれの極性に注目し、短区間パワ
ーの計算を行なう。この時、各フレーム毎のパワー計算
と同時に、連続する有声音区間内での正と負の両極の平
均パワー値を計算し、この平均パワー値が大きい方を、
パワーの値が優勢な極性として、ローカルピーク抽出の
対象とする。また、ここで得た優勢な極の短区間パワー
値を用いて、しきい値パワーの計算を行なう。ここで計
算する二つのパワー波形と音声波形などの関係を、後述
の図4に示す。また、パワー計算式は、以下に示すよう
に、RMS(Root Mean Square)パワ
ーの計算を元にしている。すなわち、正の極性の短区間
パワーP(+)、および、負の極性の短区間パワーP
(−)は、それぞれ、次のようにして得られる。 P(+)=√((Σ(xi)2)/(N1)) 但し、xi>0で、N1は、分析フレーム内で、xi>
0を満たすサンプル数 P(−)=√((Σ(xi)2)/(N2)) 但し、xi<0で、N2は、分析フレーム内で、xi<
0を満たすサンプル数
【0010】パワー計算部103は、以上の処理で得た
パワー情報を、ローカルピーク抽出部104へ送出す
る。このローカルピーク抽出部104では、このように
して入力されたパワー波形を元に、ローカルピーク位置
を抽出し、基本周波数計算部105へ送出する。基本周
波数計算部105では、入力されたローカルピーク位置
列から、注目するローカルピーク位置と、時系列的に後
ろで隣合うローカルピーク位置までの時間を周期とし
て、基本周波数への変換を行なう。尚、この基本周波数
を表すサンプルの位置は、後述の図5に示すように、周
期とみなしたピークとピークの中間をその位置とする。
基本周波数計算部105は、このようにして得た基本周
波数パターンを、基本周波数補正部106へ送出する。
【0011】本発明に係わる基本周波数補正部106で
は、線形回帰モデルを、基本周波数計算部105から送
出された基本周波数パターンに適用し、適当な分析区間
内で、基本周波数のモデル化を図る。そして、モデル化
した基本周波数パターンを用いて、分析区間内の基本周
波数サンプル値を評価することで、ローカルピーク抽出
の正誤を評価する。この評価処理において、ローカルピ
ーク抽出が不当(エラー)とされた場合は、抽出したロ
ーカルピーク位置の補正を行ない、補正を行なったロー
カルピーク位置から計算される基本周波数値を、エラー
を検出した同一区間で、ローカルピーク抽出位置の妥当
性を、再度、評価する。そして、この評価、および、抽
出位置補正処理を、入力音声全体で行ない、補正後のロ
ーカルピーク位置の情報と、基本周波数パターンを、基
本周波数パターン出力部107へ送出する。基本周波数
パターン出力部107では、音声波形と同期して、後述
の図10に示すように、基本周波数パターンの表示を行
ない、かつ、ローカルピーク位置列の情報を、出力端子
108へ出力する。
【0012】このように、本実施例の音声の基本周波数
抽出システムは、基本周波数補正部106を設け、ロー
カルピーク位置に基づき抽出する基本周波数の値と、ロ
ーカルピーク位置の出現周期から直線近似して得られる
基本周波数の予測値との誤差を算出し、この誤差に基づ
き、ローカルピーク位置を補正することができので、ロ
ーカルピーク抽出を、より高精度に行なうことができ
る。次に、パワー計算部103、および、ローカルピー
ク抽出部104の詳細な説明を、図3を用いて行なう。
【0013】図3は、図1におけるパワー計算部および
ローカルピーク抽出部の本発明に係わる構成の一実施例
を示すブロック図である。パワー計算部103は、入力
された音声の有声音の連続区間を検出する有声音区間検
出部301と、この有声音区間検出部301で検出した
有声音区間毎に、正負の両極性の平均パワーを算出する
短区間パワー計算部302と、この短区間パワー計算部
302で計算した平均パワーの大きい極性を優勢極性と
して判定する優勢極性判定部303と、この優勢極性判
定部303で優勢極性として判定した極性側における短
区間パワーの移動平均値に基づき、しきい値パワーを算
出するしきい値パワー計算部304とにより構成されて
いる。また、ローカルピーク抽出部104は、パワー計
算部103のしきい値パワー計算部304から送出され
たしきい値パワーと短区間パワーから、ローカルピーク
位置の存在区間を決定するピーク位置探索区間抽出部3
05、および、音声波形ピーク位置抽出部306により
構成されている。
【0014】以下、このような構成のパワー計算部10
3、および、ローカルピーク抽出部104の動作を説明
する。有声音区間検出部301は、前処理部102か
ら、入力端子101からの音声信号に基づく音声のディ
ジタルデータを得ると、適当なフレーム長で、RMSパ
ワーを計算する。このパワー値、および、継続時間がし
きい値を超えた場合、有声音区間とし、短区間パワー計
算部302へ、入力データを渡す。ここで、「か」など
の破裂音部分については、なるべく除外する処理を加え
る。また、連続している有声音区間の終了の判定は、短
区間パワー計算部302の情報を参照することにより行
なう。短区間パワー計算部302では、例えば、男性の
場合は「4ms」、また、女性の場合は「2ms」程度
のフレーム長で、フレームシフトは「0.5ms」によ
り、パワー分析を行なう。この時、フレーク内の正、お
よび、負のそれぞれの極性でパワーを計算し、また、連
続する有声音区間内で、それぞれの極性のサンプルの二
乗平均値を計算する。ここで、有声音区間が終了した場
合、優勢極性判定部303で、それぞれの極性での平均
値を判定し、優勢な極性の領域の短区間パワーを、ロー
カルピークを抽出するための短区間パワーとして採用す
る。この優勢極性の情報は、ローカルピーク抽出部10
4へも送出する。しきい値パワー計算部304では、優
勢極性判定部303で判定した優勢な極性側の短区間パ
ワー値の移動平均値を求め、しきい値パワーとする。そ
して、パワー計算部103は、このしきい値パワー計算
部304で求めたしきい値パワーと、優勢な極性側の短
区間パワーの二種類のパワー波形を、ローカルピーク抽
出部104へ送出する。
【0015】ローカルピーク抽出部104は、ピーク位
置探索区間抽出部305において、パワー計算部103
から送出された二種類のパワー波形を比較し、ローカル
ピーク位置探索区間を決定し、その情報を、音声波形ピ
ーク位置抽出部306へ送出する。音声波形ピーク位置
抽出部306では、先の短区間パワー計算部302で得
た優勢極性の情報と、ピーク位置探索区間抽出部305
からの探索区間の情報を元に、振幅の大きさに基づき、
ローカルピーク位置を判定し、ローカルピーク位置の抽
出を行ない、図1における基本周波数計算部105へ送
出する。
【0016】図4は、図3におけるパワー計算部および
ローカルピーク抽出部による本発明に係わるパワー値の
抽出動作を示す説明図である。図4(a)において、4
03は、ローカルピーク位置の探索範囲としてのピーク
探索区間であり、404は、ピーク探索区間403にお
けるローカルピーク位置である。また、図4(b)にお
いて、401は、しきい値パワー波形であり、402
は、短区間パワー波形である。図1におけるパワー計算
部103では、図4(a)に示すピーク探索区間403
におけるローカルピーク位置404などに基づき、短区
間パワー402の計算を行なう。この時、有声音区間内
での正と負の両極の平均パワー値の計算し、この平均パ
ワー値が大きい方を、パワーの値が優勢な極性として、
ローカルピーク抽出の対象とする。このことにより、ロ
ーカル位置の探索区間を狭くする。そして、このように
して得た優勢な極性側の短区間パワー値402を用い
て、しきい値パワー401の計算が行なわれる。
【0017】図5は、図1の基本周波数計算部の動作の
一実施例を示す説明図である。本図においては、図1の
基本周波数計算部105は、図5(a)におけるローカ
ルピーク位置501、502から、図5(b)における
基本周波数503を決定している。すなわち、ローカル
ピーク位置に当たる時間情報の列が入力されと、例え
ば、隣合う時間t1と時間t2のローカルピーク位置50
1、502と対応する基本周波数503は、「1/T
i」(=1/(t2−t1))として表され、その位置
を、ピークとピークの中心位置に代表させるものとす
る。この位置は、「(t1+t2)/2」で計算される。
【0018】次に、図1における基本周波数補正部10
6に関する詳細な説明を、図2を用いて説明する。図2
は、図1における基本周波数補正部の本発明に係わる構
成の一実施例を示すブロック図である。本実施例の基本
周波数補正部106は、基本周波数計算部105で得た
基本周波数パターンに基づき、基本周波数に対する線形
モデルによる回帰分析を行なう線形回帰分析部202
と、この線形回帰分析部202による分析区間の決定を
行なう分析区間決定部201と、線形回帰分析部202
による回帰分析結果から、基本周波数の予測値を計算
し、この予測値と、ローカルピーク位置に基づき抽出し
た基本周波数の値との誤差を算出する予測誤差算出部2
03と、予め設定されたしきい値に基づき、予測誤差算
出部203で算出した誤差値を評価するローカルピーク
位置評価部204と、しきい値を超える誤差値のローカ
ルピーク位置を、線形モデルによる予測値に基づき補正
するピーク位置補正部205とにより構成されている。
【0019】このような構成により、基本周波数補正部
106は、基本周波数計算部105で得た基本周波数パ
ターンを入力として、分析区間決定部201で、分析区
間の決定を行なう。分析区間は、例えば、後述の図6に
示すように、基本周波数計算部105で決定した10ピ
ッチとして、この10ピッチのフレーム長をシフトし、
有声音の連続区間単位で、ローカルピーク位置の補正を
行なっていく。すなわち、線形回帰分析部202では、
決定した10ピッチのフレーム内で、時間と周波数の軸
で、線形回帰分析により、基本周波数の線形モデルを導
出し、この結果を、予測誤差計算部203へ送出する。
予測誤差計算部203では、このようにして得たモデル
の直線と、実際の基本周波数サンプル値とから、それら
の誤差を算出して、ローカルピーク位置評価部204へ
送出する。この誤差の計算は、以下の式で定義する。 誤差値=(基本周波数値)−(線形回帰モデルによる予
測値) ローカルピーク位置評価部204では、予測誤差計算部
203で算出した誤差値が、予め設定したしきい値を超
えていれば、ピーク位置補正部205へ処理を移し、ま
た、誤差値がしきい値以内の場合は、フレームのシフト
を行なう。このフレームシフト以降の同様の処理によ
り、有声音の連続区間が終了した場合には、次の有声音
区間の先頭へ、処理対象を移動する。
【0020】図6は、図2における線形回帰分析部の本
発明に係わる動作の一実施例を示す説明図である。本図
では、基本周波数パターンに対し、10個のサンプルを
1フレームとして、時間軸対基本周波数軸の線形回帰分
析を行なう様子を示しており、601は、対象分析範囲
で、602は、この対象分析範囲601の各サンプル値
に基づき算出される回帰直線、603は、ローカルピー
ク抽出エラーの基本周波数サンプル値であり、604
は、ローカルピーク抽出エラーの基本周波数サンプル値
603の時間位置(t1)において、回帰直線602に
より算出される予測値である。図1、図2における基本
周波数補正部106は、この予測値604と、実際の周
波数サンプル値との誤差(予測誤差Pe)を評価し、ロ
ーカルピーク抽出の正誤判断を行なう。そして、誤差値
が、予め設定したしきい値以内の場合は、図中の矢印で
示すように、フレームのシフトを行ない、分析対象範囲
の移動を行なう。また、誤差値がしきい値を超えていれ
ば、ローカルピーク抽出を誤りと判断し、回帰直線60
2からの予測値604、および、相互相関値などを用い
て、再度、ローカルピーク抽出処理を行ない、再度ロー
カルピーク位置抽出の妥当性評価を行なう。
【0021】ここで、しきい値は、正と負の二つがあ
り、それぞれ、ローカルピーク位置の除外と挿入による
図2のピーク位置補正部205のローカルピーク位置補
正のタイミング決定要素となる。例えば、線形回帰モデ
ルによる予測値に、0.5〜0.8程度の係数を乗じた
ものを、誤差が正の場合のしきい値とする。また、負の
誤差の評価予測値の二分の一の値に、正の誤差のしきい
値に乗じた値と同様の値を乗じて負の場合のしきい値と
する。そして、例えば、正の誤差の大きさがしきい値を
超えた場合や、負の誤差の大きさがしきい値を超えた場
合に、ローカルピーク位置の除外処理や挿入処理を行な
う。これらのしきい値の設定は、抽出誤りによる倍ピッ
チ、および、半ピッチに対応することを考慮している。
このような誤差に基づく、図2におけるピーク位置補正
部205の除外処理、および、挿入処理についての詳細
な説明を、以下の図7〜図10を用いて説明する。
【0022】図7は、ローカルピーク誤抽出が基本周波
数へ与える影響の第1の実施例を示す説明図である。図
7(a)において、701は、過剰抽出されたローカル
ピーク位置であり、この誤抽出により、図7(b)にお
ける基本周波数エラー702、703が生じている。こ
のように、一つの誤抽出(過剰抽出)が、正確な抽出位
置にも影響を与えており、図1における基本周波数補正
部106は、この誤抽出した点を、近傍、例えば、直前
のピッチとの相互相関値から、除外するローカルピーク
位置を決定し、ローカルピーク位置からの除外を行な
う。すなわち、基本周波数エラー702、703が生じ
た場合は、予測値との誤差が正のしきい値を超えてお
り、半ピッチ周期となっている可能性があり、図2の基
本周波数補正部106におけるピーク位置補正部205
は、次の図8で示すように、ローカルピーク位置除外処
理を行なう。
【0023】図8は、図2におけるピーク位置補正部に
よるローカルピーク位置除外動作の一実施例を示す説明
図である。図8(a)において、801a、bは、それ
ぞれ、ローカルピーク誤抽出による誤った基本周波数サ
ンプル値である。基本周波数サンプル値801bは、過
剰に抽出された基本周波数サンプル値801aの影響を
受けて誤った基本周波数サンプル値となったものであ
り、回帰直線800の予測値802との誤差、すなわ
ち、予測誤差Pe(1)が、正のしきい値を超えている
ものである。この場合、周期的に半ピッチになっている
可能性があり、図2におけるピーク位置補正部205
は、予測値802の基本周波数サンプル位置804と、
基本周波数サンプル位置803との相互相関値から、除
外するローカルピーク位置を決定し、基本周波数サンプ
ル値801aに対する除外処理を行なう。図8(b)に
おいて、805は、除外されたローカルピーク位置より
計算される基本周波数サンプル値であり、806は、ロ
ーカルピーク位置除外処理により、再度、基本周波数を
計算した場合の基本周波数サンプル値である。このよう
に、基本周波数を計算する場合に、誤った基本周波数サ
ンプル値801aが除外され、他のローカルピークへの
悪影響が排除される。
【0024】図9は、ローカルピーク誤抽出が基本周波
数へ与える影響の第2の実施例を示す説明図である。図
9(a)において、901は、抽出漏れのローカルピー
ク位置であり、この誤抽出(ローカルピーク抽出漏れ)
により、図9(b)における基本周波数エラー902が
生じている。この基本周波数エラー902は、倍ピッチ
周期となっている。このような基本周波数エラー902
が生じる場合は、予測値との誤差が負のしきい値を超え
ており、図2におけるピーク位置補正部205は、ロー
カルピーク位置挿入処理を行なう。
【0025】図10は、図2におけるピーク位置補正部
によるローカルピーク位置挿入動作の一実施例を示す説
明図である。図10(a)において、1001は、時間
txでのローカルピーク抽出漏れによる誤った基本周波
数サンプル値であり、回帰直線1000の予測値との誤
差、すなわち、予測誤差Pe(2)が、負のしきい値を
超えているものである。この場合、周期的に倍ピッチに
なっている可能性があり、図2におけるピーク位置補正
部205は、回帰直線1000を用いた予測値1002
に対応するローカルピーク位置の挿入を行なう。挿入す
る位置1004は、線形回帰モデルとローカルピークの
間隔から、次の式により求められる。 atx+b=1/(tx−tp) 但し、a、および、bは、回帰係数で、txは、求める
位置、tpは、一つ前のローカルピーク位置1003で
ある。この式で求められる位置txを用いて、音声波形
中で、位置txの基本周波数変換に伴う誤差修正処理を
した位置の近傍で、振幅の最大値を探索し、ローカルピ
ーク位置の挿入する位置1004を決定する。そして、
図10(b)に示すように、挿入されたローカルピーク
位置より計算された基本周波数サンプル値1005と、
ローカルピーク位置挿入処理により、再度、基本周波数
を計算した場合の基本周波数サンプル値1006を得
る。この処理により、ローカルピークの挿入と同様に、
他のローカルピークへの悪影響を排除することができ
る。また、ローカルピークの挿入位置に関しても、近傍
の1ピッチとの相互相関値を計算して、挿入位置の確認
を行なうことが可能である。
【0026】図11は、図1における基本周波数抽出シ
ステムによる基本周波数変換動作の一実施例を示す説明
図である。図11(a)において、「o」印は、抽出さ
れるローカルピーク位置を示し、これらのローカルピー
ク位置に基づき、図11(b)の「o」印で示すよう
に、精度の高い基本周波数値が得られる。
【0027】以上、図1〜図11を用いて説明したよう
に、本実施例の音声の基本周波数抽出システムでは、基
本周波数補正部を設け、ローカルピークの誤抽出を補正
し、高精度な基本周波数を抽出することができる。ま
た、ローカルピーク抽出の精度向上により、ローカルピ
ーク位置を用いたピッチ制御や、時間長制御方式への適
用により、さらに、正確なピッチ制御や時間長制御が可
能となる。尚、本発明は、図1〜図11を用いて説明し
た実施例に限定されるものではない。
【0028】
【発明の効果】本発明によれば、誤抽出したローカルピ
ーク位置を補正することにより、音声の基本的な特徴量
を示す基本周波数の抽出を高精度に行なうことができ、
音声認識処理性能や、音声合成処理性能などを向上させ
ることが可能である。
【0029】
【図面の簡単な説明】
【図1】本発明の音声の基本周波数抽出システムの本発
明に係わる構成の一実施例を示すブロック図である。
【図2】図1における基本周波数補正部の本発明に係わ
る構成の一実施例を示すブロック図である。
【図3】図1におけるパワー計算部およびローカルピー
ク抽出部の本発明に係わる構成の一実施例を示すブロッ
ク図である。
【図4】図1におけるパワー計算部およびローカルピー
ク抽出部によるパワー値の抽出動作を示す説明図であ
る。
【図5】図1における基本周波数計算部の動作の一実施
例を示す説明図である。
【図6】図2における線形回帰分析部の本発明に係わる
動作の一実施例を示す説明図である。
【図7】ローカルピーク誤抽出が基本周波数へ与える影
響の第1の実施例を示す説明図である。
【図8】図2におけるピーク位置補正部によるローカル
ピーク位置除外動作の一実施例を示す説明図である。
【図9】ローカルピーク誤抽出が基本周波数へ与える影
響の第2の実施例を示す説明図である。
【図10】図2におけるピーク位置補正部によるローカ
ルピーク位置挿入動作の一実施例を示す説明図である。
【図11】図1における基本周波数抽出システムによる
基本周波数変換動作の一実施例を示す説明図である。
【符号の説明】
101 入力端子 102 前処理部 103 パワー計算部 104 ローカルピーク抽出部 105 基本周波数計算部 106 基本周波数補正部 107 基本周波数パターン出力部 108 出力端子 201 分析区間決定部 202 線形回帰分析部 203 予測誤差算出部 204 ピーク位置評価部 205 ピーク位置補正部 301 有声音区間検出部 302 短区間パワー計算部 303 優勢極性判定部 304 しきい値パワー計算部 305 ピーク位置探索区間抽出部 306 音声波形ピーク位置抽出部 401 しきい値パワー波形 402 短区間パワー波形 403 ピーク探索区間 404 ローカルピーク位置 501、502 ローカルピーク位置 503 基本周波数 601 対象分析範囲 602 回帰直線 603 基本周波数サンプル値 604 予測値 701 過剰抽出されたピーク位置 702、703 基本周波数エラー 801a、b 基本周波数サンプル値 800 回帰直線 802 予測値 803、804 基本周波数サンプル位置 805、806 基本周波数サンプル値 901 抽出漏れのピーク位置 902 基本周波数エラー 1000 回帰直線 1001 基本周波数サンプル値 1002 予測値 1003 一つ前のローカルピーク位置 1004 挿入する位置 1005、1006 基本周波数サンプル値 Pe、Pe(1)、Pe(2) 予測誤差

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声から、二種類の分析条件
    で抽出したそれぞれのパワー波形を用いてローカルピー
    ク位置を抽出し、該抽出したローカルピーク位置の出現
    周期から、上記入力された音声の基本周波数を抽出する
    音声の基本周波数抽出システムにおいて、上記ローカル
    ピーク位置に基づき抽出する基本周波数の値と、上記ロ
    ーカルピーク位置の出現周期から直線近似して得られる
    基本周波数の予測値との誤差を算出し、該誤差に基づき
    上記ローカルピーク位置を補正して、上記基本周波数を
    補正する基本周波数補正手段を設けることを特徴とする
    音声の基本周波数抽出システム。
  2. 【請求項2】 請求項1に記載の音声の基本周波数抽出
    システムにおいて、上記基本周波数補正手段は、上記ロ
    ーカルピーク位置の出現周期に基づき、上記基本周波数
    に対する線形モデルによる回帰分析を行なう線形回帰分
    析手段と、該線形回帰分析手段の回帰分析の対象となる
    上記基本周波数の区間を決定する分析区間決定手段と、
    上記線形回帰分析手段による回帰分析結果から、上記基
    本周波数の予測値を計算し、該予測値と、上記ローカル
    ピーク位置に基づき抽出した基本周波数の値との誤差を
    算出する予測誤差算出手段と、予め設定されたしきい値
    に基づき、該予測誤差算出手段で算出した誤差値を評価
    するピーク位置評価手段と、上記しきい値を超える誤差
    値のローカルピーク位置を、上記線形モデルによる予測
    値に基づき補正するピーク位置補正手段とを具備するこ
    とを特徴とする音声の基本周波数抽出システム。
  3. 【請求項3】 請求項2に記載の音声の基本周波数抽出
    システムにおいて、上記誤差値が過剰抽出によるものと
    の上記ピーク位置評価手段による評価に基づく該誤差値
    の原因となったローカルピーク位置の除外処理と、上記
    誤差値が抽出漏れによるものとの上記ピーク位置評価手
    段による評価に基づく該誤差値の原因となったローカル
    ピーク位置の挿入処理とを行なう上記ピーク位置補正手
    段を設けることを特徴とする音声の基本周波数抽出シス
    テム。
  4. 【請求項4】 請求項1から請求項3のいずれかに記載
    の音声の基本周波数抽出システムにおいて、上記入力さ
    れた音声の有声音の連続区間を検出する有声音区間検出
    手段と、上記直線近似の対象となる区間内の上記基本周
    波数で、正極性のサンプル値のみを用いて計算したパワ
    ー値と、負極性のサンプル値のみを用いて計算したパワ
    ー値のそれぞれを保持し、上記有声音区間検出手段で検
    出した有声音区間毎に、両極性の平均パワーを算出する
    短区間パワー計算手段と、該短区間パワー計算手段で計
    算した平均パワーの大きい極性を優勢極性として判定す
    る優勢極性判定手段と、該優勢極性判定手段で優勢極性
    として判定した極性側における短区間パワーの移動平均
    値に基づき、しきい値パワーを算出するしきい値パワー
    計算手段とを設け、上記しきい値パワーと上記短区間パ
    ワーから、上記ローカルピーク位置の存在区間を決定す
    ることを特徴とする音声の基本周波数抽出システム。
JP4042679A 1992-02-28 1992-02-28 音声の基本周波数抽出システム Pending JPH05241596A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4042679A JPH05241596A (ja) 1992-02-28 1992-02-28 音声の基本周波数抽出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4042679A JPH05241596A (ja) 1992-02-28 1992-02-28 音声の基本周波数抽出システム

Publications (1)

Publication Number Publication Date
JPH05241596A true JPH05241596A (ja) 1993-09-21

Family

ID=12642719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4042679A Pending JPH05241596A (ja) 1992-02-28 1992-02-28 音声の基本周波数抽出システム

Country Status (1)

Country Link
JP (1) JPH05241596A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5226867B2 (ja) * 2009-05-28 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5226867B2 (ja) * 2009-05-28 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
US8744853B2 (en) 2009-05-28 2014-06-03 International Business Machines Corporation Speaker-adaptive synthesized voice

Similar Documents

Publication Publication Date Title
US4038503A (en) Speech recognition apparatus
CN106653056B (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN103886871B (zh) 语音端点的检测方法和装置
JPS597120B2 (ja) 音声分析装置
CN1151490C (zh) 用于语音识别的高精度高分辨率基频提取方法
JPS58134698A (ja) 音声認識方法および装置
CN105825852A (zh) 一种英语口语朗读考试评分方法
JPS6254297A (ja) 音声認識装置
JPH05241596A (ja) 音声の基本周波数抽出システム
JP3011421B2 (ja) 音声認識装置
KR0128851B1 (ko) 극성이 다른 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출 방법
JP3233543B2 (ja) インパルス駆動点抽出方法およびピッチ波形抽出方法とその装置
KR19980037190A (ko) 유성음 구간에서 프레임별 피치 검출 방법
EP0245252A1 (en) System and method for sound recognition with feature selection synchronized to voice pitch
JPS63281199A (ja) 音声セグメンテ−ション装置
JP2583854B2 (ja) 有声無声判定方法
JP3454711B2 (ja) 音声認識方法および音声認識プログラムを格納した記録媒体
JPH01310400A (ja) 音声ピッチ抽出装置
JPS63259596A (ja) 音声区間検出方式
JPS62194299A (ja) 有声無声判定方式
KR100212453B1 (ko) 양자화 오차를 이용한 음성 신호의 피치 검출 방법
JPS62194298A (ja) ピツチ抽出方式
Fushikida A formant extraction method using autocorrelation domain inverse filtering and focusing method.
JP2643202B2 (ja) 入力音声の定常部、過渡部、不確定部の検出装置
JPS61124998A (ja) 音声分析装置