JPH01158496A - 音声の特徴抽出方式 - Google Patents

音声の特徴抽出方式

Info

Publication number
JPH01158496A
JPH01158496A JP63130784A JP13078488A JPH01158496A JP H01158496 A JPH01158496 A JP H01158496A JP 63130784 A JP63130784 A JP 63130784A JP 13078488 A JP13078488 A JP 13078488A JP H01158496 A JPH01158496 A JP H01158496A
Authority
JP
Japan
Prior art keywords
pattern
feature extraction
extraction method
blurring
grid point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63130784A
Other languages
English (en)
Other versions
JPH0558559B2 (ja
Inventor
Ryuichi Oka
隆一 岡
Hiroshi Matsumura
松村 博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Sanyo Electric Co Ltd
Original Assignee
Agency of Industrial Science and Technology
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology, Sanyo Electric Co Ltd filed Critical Agency of Industrial Science and Technology
Priority to JP63130784A priority Critical patent/JPH01158496A/ja
Publication of JPH01158496A publication Critical patent/JPH01158496A/ja
Publication of JPH0558559B2 publication Critical patent/JPH0558559B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声認識等に利用する音声の特徴抽出方式に関
し、更に詳述すればベクトル場のパターンを利用し、ま
たその方向別にボヵシ処理(ボケ処理ともいう)を施し
て、音声認識に利用する場合は高い認識率を得ることが
できる新規な方式を提供するものである。
〔従来技術〕
音声認識は、一般に、認識させるべき単語がら特徴を抽
出して得た音声の標準パターンを単語夫々に用意してお
き、認識対象として入力された音声から同様にして抽出
した特徴パターンと複数の標準パターンとを整合し、最
も類似性が高い標準パターンを求め、この標準パターン
に係る単語が入力されたものと判定する方式をとってい
る。そして、従来は上記特徴パターンとして、音声信号
を分析して得られる、時間軸を横軸、空間軸を縦軸とす
るスカラー場の時空間パターンそのものを用いていた。
このようなスカラー場の時空間パターンとしては、周波
数を空間軸とするスペクトルが代表的なものであり、こ
の他、ケフレンシーを空間軸とするケプストラム、PA
RCOR係数、LSP係数、声道断面積関数等積々の時
空間パターンが用いられていた。
また、音声認識の分野において解決すべき課題の1つと
して多数話者又は不特定話者への対応があり、これには
1つの単語に多数の標準パターンを用意することで認識
率の向上を図っていた。更に、話者が同一であっても発
音速度が異なることがあり、このような場合にも対応で
きるように時間軸変動を吸収し得るDPマツチング法が
開発されていた。
〔発明が解決しようとする課題〕
スカラー場の時空間パターンそのものを特徴として用い
る従来の方式では、大語党又は不特定話者を対象とした
場合、必ずしも十分な認識率が得られておらず、たとえ
、上述の如く1つの単語に多数の標準パターンを用意し
たり、あるいはDPマツチング法を用いても、これらは
本格的な解決にはならなかった。
従って、大語党又は不特定話者を対象とした音声認識シ
ステムの実用化が停滞しているのである。
そこで、本発明者の1人は、特開昭60−59394号
公報及び「スペクトルベクトル場とスペクトルの音声認
識における有効性比較について」電子通信学会論文誌(
D) Vol、 J69−D、flhl P1704(
1986)において、時間−周波数の時空間パターンで
あるスカラー場のスペクトルを空間微分してスペクトル
ベクトル場パターンを得、このパターンを音声の特徴と
して用いる手法を提案した。
過去スペクトルの時空点の偏微分を特徴として用いた研
究はT、B、Martinによって為され、“Prac
ticalapplications of voic
e 1nput to machines” Proc
IEEE、64−4(1976)に開示されている。し
かしながら、T、BoMartinは時空間パターンf
(t、x)からaf (t、x)/9t、Jf(t、x
)/ ;lxを算出し、これによって各フレームについ
ての32種類の音韻性を識別する関数を構成し、その結
果を32個の2値で表現したものを単語単位の線形整合
に用いており、上述のスペクトルスカラー場からスペク
トルベクトル場を作成する手法とは異なっていた。
本発明は上述の手法を工学的観点から更に一歩進めて実
用化に適した改良を施した音声の特徴抽出方式を提供す
ることを主な目的とする。
また本発明は人語量を対象とする音声認識、不特定話者
を対象とする音声認識においても高い認識率が得られる
音声の特徴抽出方式を提供することを他の目的としてい
る。
〔課題を解決するための手段〕
本発明の基本的特徴は、音声信号を分析して時間軸と空
間軸とで規定されるスカラー場の時空間パターンを得、
該時空間パターンを用いて音声の特徴を抽出する音声の
特徴抽出方式において、前記時空間パターンを空間微分
することにより空間の各格子点で大きさ及び方向をもつ
ベクトル場パターンに変換し、該ベクトル場パターンの
ベクトルについて、その方向パラメータをN値(N:整
数)に量子化し、この量子化値を同じくするベクトル毎
に各々分離して、そのベクトルの大きさを各格子点の値
とじたN個の方向別2次元パターンを作成し、該方向別
2次元パターンの方向別に、時間軸及び/又は空間軸に
関してボカシ処理を施してなるパターンを音声の特徴と
して抽出するにある。
このボカシ処理は、男9女一方の性のみの音声の特徴を
抽出する場合は時間軸に関してのみ行えばよい。
男女両性の音声の特徴を抽出する場合は空間軸について
もボカシ処理を行うが、時間軸に関するボカシ処理を空
間軸に関するボカシ処理よりも積極的に行う。
〔作用〕
入力された音声信号は時間軸と空間軸とで規定されるス
カラー場の時空間パターンからベクトルの方向パラメー
タが量子化され、量子化された方向毎に分離された複数
の方向別2次元パターンに変換される。そしてこの方向
別2次元パターンはボカシ処理を施され方向性パターン
特徴の集積化が行われる。これによって音声の特徴の強
調と安定化が得られる。
この集積化は時空点(t、x)の一種の構造化を行うも
のである。すなわち、この構造化とはN枚の方向性パタ
ーンを統合して考えるとき、時空点(t、x)・には最
大N個のベクトルを付加することである(第6図参照)
。このことによる音声認識における効果は音韻性をより
よく表す特徴の形成とその安定な表現にあり、また音韻
性の特徴がある時空間区間のスペクトルの変化に対応し
ているとする。
この特徴は、まず微視的にスペクトルベクトル場で抽出
され、次に異なった方向区間にあるベクトルが独立した
特徴としてみなされた後にそれらが独立して各時空点に
集積される。方向ごとに独立し、ボカシのマスクパター
ン内で積分するとき、特徴の構造性が保たれたままでよ
り巨視的な特徴(広い時空間領域がつくる音声特徴)が
捉えられる。また、この特徴の集積が時空点(t、x)
ごとに行われるとすると、この音声特徴は特定の時空間
点のみに巨視的な特徴が形成されるのではな(、少しづ
つは異なるが広い(特に時間)領域にわたって安定に形
成されることとなる。
従ってこのボカシ処理による強調、安定化によって音韻
の区別化1話者の正規化が従来よりも高精度で行える。
〔実施例〕
以下本発明をその実施例を示す図面に基づいて詳述する
第1図は本発明方式を実施するための装置の構成を示す
ブロック図である。
この実施例では分析部2で音声信号をスペクトル分析し
てスカラー場の時空間パターンとして空間軸を周波数軸
とするスペクトルを用いる。
標準パターン作成のための音声の入力又はLy2elt
対象の音声の入力はマイクロホン等の音声検出器及びA
/D変換器からなる音声入力部1によって行われ、これ
によって得られた音声信号は通過周波数帯域を夫々に異
にする複数チャネル(例えば10〜30)のバンドパス
フィルタを並列的に接続してなる分析部2に入力される
。分析部では、分析の結果、時空間パターンが得られ、
このパターンが単語区間切出部3によって認識単位の単
語ごとに区分されて特徴抽出部4へ与えられる。単語区
間切出部3としては従来から知られているものを用いれ
ばよい。
なお周波数帯域ごとに音声信号を分割する分析部2とし
て、以後の説明においては、上記した如くバンドパスフ
ィルタ群を用いることとするが、高速フーリエ変換器を
用いてもよい。
さて本発明方式は次に説明する特徴抽出部によって特徴
づけられる。特徴抽出部4への入カバターンは横軸を時
間軸、縦軸を周波数とする時空間パターンであり、単語
区間切出部3によって切出された第2図に示す時空間パ
ターンをf (t、x)(但しtはサンプリングの時刻
を示す番号、Xはバンドパスフィルタのチャネル番号又
は周波数帯域を特定する番号。1≦t≦T、1≦X≦L
但しT、Lは夫々t、xの最大値)と表す。
単語区間切出部3出力は特徴抽出部4の正規化部41へ
入力され、正規化部41は時間軸の線形正規化をする。
これは単語の長短、入力音声の長短等をある程度吸収す
るためであり、時間軸をTフレームからMフレーム(例
えば16〜32フレ一ム程度)にする。具体的にはM≦
Tの場合は、正規化した時空間パターンF(t、x)は
下記(11式で求められる。
但し1≦t≦M そして、MATである場合は F (t、x) = f (j、x)   ・=(21
但しj= ((T/M)  ・t〕 但し〔〕はガウス記号を表す。
として1=1〜Mまで計算すればよい。
第3図はこのようにして正規化した時空間パターンF(
t、x)を示す。
なお上記実施例は線形正規化の場合であるが、非線形正
規化を行う場合は例えばf(t、x)のスペクトルベク
トル場を次に説明するのと同様の方法で求め、このベク
トル場密度を一定とするベクトル場密度イコライゼイシ
ョン等を用いればよい。
正規化した時空間パターンはスペクトルベクトル場抽出
部42において下記のようにしてスペクトルベクトル場
の抽出が行われる。このスペクトルベクトル場は第1表
に示す如き正規化された時空間パターンの各格子点(t
、 x)の8近傍の値を用いて算出される。
第1表 X = F (t+1.x+1) +2F(t+1.x
) + F (t+1.x−1)−F (t−1,x+
1) −2P(t−1,x) −F (t−1,x−1
) −(3)Y = F (t−1,x+1) +2F
(t、x+1) + F (t+1.x+1)−F(t
−1,x−1) −2F(t、x−1) −F(t+1
.x−1) ・・・(4)r=7X+Y  ・・・(5
) θ=  jan−’  □     ・・・(6)とし
てS(r、  θ)で示されるのがスペクトルベクトル
場パターンである。
(3)〜(6)式について少し説明を加えるとXは対象
データの時間軸方向の増分を周波数軸方向に重み付けを
して求めた値であり、時間軸方向の微分値、つまり時間
軸方向の変化指標と言うことができる。
Yは同様に周波数軸方向の微分値、つまり周波数軸方向
の変化指標と言うことができる。
これらの2つの指標を直交座標とするベクトル場におい
て、rはベクトルの大きさ、θはベクトルの方向を表す
次にこのスペクトルベクトル場パターンS (r。
θ)から方向別2次元パターン作成部43において方向
別2次元パターンが作成される。即ち、先ず、ベクトル
場パターンの全ての格子点のベクトルについて、その方
向パラメータθをN値に量子化する。ここでスペクトル
ベクトル場の方向性パターンを作成する場合の最適な量
子化方向数Nの決定を考える。文献く“ベクトル場モデ
ルに基づく連続音声のセグメンテーションおよび音韻特
徴の抽出”音響学会音研資、 583−10(1983
−5)岡 隆−〉に示されているようにスペクトルベク
トル場がスペクトルパワーの時空間的な定常、増加、減
少の様相を示すことから、これを考慮してNを第7図(
al、 (bl、 (C1に示すような3つの場合、4
.8.12にとり認識実験により最適なNを選ぶことと
する。この図についての説明は後述する。男性10人を
使用して9人で標準パターンを作り、残り1名を認識す
る実験を10回繰り返すという話者に関するオープンの
認識実験を行う。特徴パラメータとして方向性パターン
を用いることになるが、それについてのボカシ処理は行
わない。この認識実験でNが4.8.12と異なる場合
の認識結果を表5に示す。表2の認識結果から、この認
識条件(男性10人の発声した53単語による話者オー
プンによる認識)ではNを8程度に決めてよいことがわ
かる。
(以下余白) 第2表 第4図はN=8の場合の量子化例を説明するための図で
あり、第3表のようにθとNは対応する。
第3表 次に全ての格子点のベクトルから、方向の量子化値であ
るN値を同じくするベクトルを、N値毎に分離して各々
取り出し、そのベクトルの大きさを各格子点の値とした
N個の方向別2次元パターンH(j+X+ θ)を作成
する。第5図がこの方向別2次元パターンの模式図であ
って、Nの値が該当する位置にのみrが存在し、他の位
置は0となっている。(31,(41式から理解される
ようにX、Yの算出には8近傍が必要であるので、算出
されるS(r、  θ)は第3図におけるt=1.t=
Mの列、及びx=l、x=Lの行については算出されな
い。
従ってこの方向別2次元パターンH(t、x、θ)では
時間軸方向はM−2列、周波数軸方向はL−2行となる
もちろん、Nの値は8に限るものではない。
このようにして得た方向別2次元パターンH(L + 
X + θ)を音声認識におけるマツチングパターン情
報として用いてもよいが、本発明方式ではこの方向別2
次元パターンH(t、x、θ)をボカシ処理部5に与え
てボカシ処理を施すことでより高い認識率が得られる。
ボカシ処理は、処理対象のパターンを、その位置に応じ
て重みづけした9近傍のマスクパターンを乗することに
より行われ、ボカシ処理後の方向別2次元パターンを H(t、x、  e)とすると ・・・(7) として表すことができる。
ここにおいてωJ (j・θ〜8)はボカシ処理のマス
クパターンであり、例えば下記(8) (91の如き値
を有し、中心のω。が処理対象データの位置に、またω
、〜ω、が8近傍位置のデータに対応する。
“時間 時間 また(αj、βj)j・0〜8は第4表のとおりである
第4表 この(α4.β4)は、ω。を対応させる対象データの
位置、01〜0日を、対応させる8近傍のデータの位置
を各特定するものである。
(8)、 (9)式の意味する処は時間軸方向のボカシ
処理を周波数軸方向のボカシ処理に比して積極的に行う
にある。
そして男性又は女性の一方の性のみの音声の特徴抽出を
行うのに用いる場合には(8)式のように周波数軸方向
のボカシ処理は行わず、男性1女性の両方の性の音声の
特徴抽出を行う場合は(9)式のように周波数軸方向の
ボカシ処理も少し行う。
ボカシ処理をすることで抽出した特徴はその抽出に用い
た音声固有の特徴の変動が小さくなったものとなる。つ
まり、話者が異なることや、発生速度の異なりによって
生ずる特徴の時空間的変動の安定化が図れるのである。
従ってこれを標準パターンとし、或いは未認識パターン
とする場合には音声認識率の向上が図れるのである。
然るところ方向性特徴は時間区間にわたって集積される
のが基本で、空間区間にわたっての集積は極めて小さい
ものとしなければ音韻性をよく表す特徴を形成しない。
これは、音声の発音器官のもつ生理的な拘束の強さと、
音声の発音における音韻性による動的変化自体の拘束の
強さとの相異に基因する。つまり、前者が後者より強い
ため、同性の間では空間軸内での方向性特徴の伝搬の力
は0に近く、異性間でもそれが0ではないが極めて小さ
いものとなっているからである。
従って、同性の場合は時間軸方向のボカシ処理のみによ
り、また、両性の場合は、時間軸方向のボカシ処理に加
え、周波数軸方向のボカシ処理をわずかに行うのである
なおボカシ処理は(7)式に従い複数回反復するのがよ
いが、一方の性のみの場合は(8)式に示されるように
時間軸のみのボカシ効果をもつボカシ処理を4〜8回程
度、両方の性の場合は(9)式に示されるように時間軸
へのボカシの重みの174〜1710程度の空間軸の重
みを同時にもつ時空間のボカシ処理を、それぞれ、4回
程度繰り返し行うことが適当である。
さて(8)式のマスクパターンを用いて1回ボカシ処理
を行うと、時空間平面の格子点(t、x)には格子点(
t−1,x)及び(t+1.x)の情報が入ることにな
る。同様に格子点(t−1,x)には(t−2,x)、
(t、x)の情報が、また格子点(t + Lx)には
(t、x) 、(t+2.χ)の情報が入ることになる
。第8図はこの様子を模式的に示している。
従って2回目のボカシ処理には格子点(t、x)には格
子点(t−2,x)の元の情報を含む格子点(t−1,
x)の情報及び格子点(t+2.x)の元の情報を含む
格子点(t+1.x)の情報がはいってくることになる
。このため4回のボカシ処理を行うと格子点(t−4,
x)〜(t+4.x)の情報が(t、x)に入ってくる
ことになる。この場合、勿論、各情報には重み付けの係
数が乗算される。
次に示すのは1回のボカシ処理を施すことにより、以上
の如き複数回のボカシ処理と略等価の結果が得られるマ
スクパターンである。このマスクパターンを第9図に示
す。そして前記パターン同様、各格子点の数値とマスク
パターンの数値との積の総和をマスクの数値の総和で除
した値をポカシ処理対象の格子点とするのである。即ち
先の説明のように時間軸についてだけボカシ処理を行う
場合、即ち同性のみを抽出対象とする場合はm=0とし
、例えばn=4とした第10図の如き重み付けされたマ
スクパターンを用いる。この方式では1回のボカシ処理
を行うことでボカシ処理対象の格子点に左右4格子点の
情報が一度に入り先の方式の4回分のボカシ処理に相当
する効果が得られる。従って演算の高速化又はハードウ
ェアの節減が図れる。更に近似して第11図の如き重み
付けしない、つまり重み値が総て1のマスクパターンを
用いても略同様の効果が得られ演算が一層簡素化される
。(9)式のように空間軸についてのボカシ処理も行う
場合、つまり男女両性を抽出対象とする場合はm≠0、
例えばmwl、n=4と゛ し第12図のような重み付
けされたマスクパターンを用いればよい。この場合も、
近似した第13図の如き重み付けしない、つまり重み値
が総て1のマスクパターンを用いて、略同様の効果を得
ることができる。更に、空間軸方向においてのみ重み付
けを行った第14図の如きマスクパターンを用いること
もできる。このマスクパターンでは時間軸方向重み値を
総て1とし、空間軸方向をそれより小さいα、、 =0
.25としている。
第15図は本発明方式を利用した線形マツチングに基づ
いた単語の音声認識装置のブロック図を示し、第1図と
対応する部分は同符号を付している。
分析部2は20チヤネルのバンドパスフィルタからなり
、正規化部41は時間軸に関して32フレーム(フレー
ム間隔8m秒)に線形正規化する。またNの値は8とす
る。
予め各種単語について抽出した特徴は標準パターンとし
てこれを特定するデータと共に標準パターン格納部6へ
格納される。そして認識の際にはボカシ処理部5出力と
、標準パターン格納部6内の標準パターンの夫々とにつ
き計算部7において相関計算(距離計算でもよい)を行
い、相関値最大(又は距離最小)の標準パターンを特定
するデータを認識結果として出力する。
標準パターンを決定する場合には1つの単語について複
数回の入力を行って前述した如き処理を反復し、その平
均化したものを標準パターン格納部6へ格納する。
いま標準パターンを1 ! (LL θ)とする。ここ
に1は単語を特定する番号である。
而して入力音声の認識の際はボカシ処理部5出力H(t
+x+ e)を計算部7に与え、これとll(LL θ
)との相関ρ(1−H)を(JD、(転)式に従って計
算する。
そうして最も大きな相関値ρを示したll(j+X+ 
θ)に対応する単語をCRTデイスプレィ等の出力部8
から出力させる。
なお計算部7においては、標準パターンIi (Lx、
 θ)を計算しても良い。この計算は下記0階式による
D (1,8) そして、この距離が最も小さい標準パターンに相当する
単語が入力単語として出力部8から出力される。
なお、上述の実施例では線形整合を行うこととしている
が、本発明方式はDPマツチングにも適用できる。
次に本発明の効果について説明する。ベクトル場の方向
別パターンによる認識を行う本発明についてボカシ処理
有と無との場合の夫々につき、線形マツチングによる方
法と、DPマツチングによる方法との合計4とおりの方
法によって音声認識を行い、これを従来のスペクトラム
で認識する場合(線形、 DPマツチングの両方)の結
果と比較した。
なおボカシ処理は(8)、 (9)のパターンによって
いる。
このような認識条件下で以下に記す話者条件でのオープ
ン実験を行った。なお、標準パターンは1単語につき1
つとした。
(a)  男性10名を使用し、9名で標準パターンを
作り、残り1名を認識する方法を10名分繰返す。(男
性10名×53単語の話者オープン認識実験) (′b)女性10名を使用し、9名で標準パターンを作
り、残り1名を認識する方法を10名分繰返す。(女性
10名×53単語の話者オープン認識実験) (C)  男女10名を使用し、19名で標準パターン
を作り、残り1名を認識する方法を20名分繰返す。(
男女20名X53単語の話者オープン認識実験) 第4表はその結果を示している。
(以 下 余 白) 第4表 (以 下 余 白) 以上の結果からみると本発明による場合はボカシ処理無
しでは従来方法と同等の効果が得られ、またボカシ有の
場合では線形マツチングでも、スペクトラム+DPマツ
チングの場合と比較して認識率に差がなく、計算時間(
CPUタイム)については本発明が短く、本発明による
場合はハードウェア化の面で極めて有利である。
〔効果〕
以上のように本発明による場合は不特定男女話者を対象
とする場合の単語認識においてスペクトラムの場合と比
較して高い認識率を示すことが明らかになった。また長
い計算時間を必要とするDPマツチングを使用しなくて
も、線形マツチングにより短い時間で同程度の高い認識
率が得られる。
これはハードウェア化の面で極めて有効である等、本発
明は優れた効果を奏する。
【図面の簡単な説明】
第1図は本発明方式を実施するための装置の構成を示す
ブロック図、第2図は時空間パターンの模式図、第3図
は正規化された時空間パターンを示す模式図、第4図は
ベクトル方向量子化の説明図、第5図は方向別2次元パ
ターンの模式図、第6図は時空点表現の説明図、第7図
はベクトル方向量子化の説明図、第8.9図はボカシ処
理の説明図、第10〜14図はマスクパターン図、第1
5図は本発明方式を利用した音声認識装置のブロック図
である。 4・・・特徴抽出部 5・・・ボカシ処理部 41・・
・正規化部 42・・・スペクトルベクトル場抽出部 
43・・・方向別2次元パターン作成部 特 許 出願人 工業技術院長 飯塚 幸三 外1名復
代理人並びに代理人 弁理士  河 野 登 夫l  
           t             
T時口 第  2  図 1        t       7時− 第  3  図 第  4  図 時開 第  5  図 第6図 第7図 第10図 第11図 第12図 第13図 第14図

Claims (1)

  1. 【特許請求の範囲】 1、音声信号を分析して時間軸と空間軸とで規定される
    スカラー場の時空間パターンを得、該時空間パターンを
    用いて音声の特徴を抽出する音声の特徴抽出方式におい
    て、前記時空間パターンを空間微分することにより空間
    の各格子点で大きさ及び方向をもつベクトル場パターン
    に変換し、該ベクトル場パターンのベクトルについて、
    その方向パラメータをN値(N:整数)に量子化し、こ
    の量子化値を同じくするベクトル毎に各々分離して、そ
    のベクトルの大きさを各格子点の値としたN個の方向別
    2次元パターンを作成し、該方向別2次元パターンの方
    向別に、時間軸及び/又は空間軸に関してボカシ処理を
    施してなるパターンを音声の特徴として抽出することを
    特徴とする音声の特徴抽出方式。 2、前記空間軸は周波数軸である請求項1記載の音声の
    特徴抽出方式。 3、前記ボカシ処理は、男、女一方の性のみの音声の特
    徴抽出の場合、時間軸に関するボカシ処理のみを行う請
    求項1記載の音声の特徴抽出方式。 4、前記ボカシ処理は、時間軸に関するボカシ処理を空
    間軸に関するボカシ処理よりも積極的に行う請求項1記
    載の音声の特徴抽出方式。 5、前記空間軸方向のボカシ処理は、男、女両性の音声
    の特徴抽出の場合に、一方の性のみの音声の特徴抽出の
    場合に比してより積極的に行う請求項4記載の音声の特
    徴抽出方式。 6、前記ボカシ処理は、各方向別2次元パターンの各格
    子点に対し、当該格子点に対応する中心点及びその8近
    傍より成る3×3の予め定められた重み値を有するマス
    クパターンをマスク演算する処理である請求項1記載の
    音声の特徴抽出方式。 7、前記マスク演算を複数回繰り返す請求項6記載の音
    声の特徴抽出方式。 8、前記ボカシ処理は、各方向別2次元パターンの各格
    子点に対し、当該格子点に対応する中心点を有すると共
    に当該中心点より時間軸の両方向に各々2格子点分以上
    の広がりをもち、予め定められた重み値を有するマスク
    パターンをマスク演算する処理である請求項1記載の音
    声の特徴抽出方式。 9、前記重み値が総て“1”である請求項8記載の音声
    の特徴抽出方式。 10、前記ボカシ処理は、各方向別2次元パターンの各
    格子点に対し、当該格子点に対応する中心点を有すると
    共に当該中心点より時間軸の両方向に各々2格子点分以
    上の広がりをもち、且つ当該中心点より空間軸の両方向
    に各々1格子分以上の広がりをもち、さらに予め定めら
    れた重み値を有するマスクパターンをマスク演算する処
    理である請求項1記載の音声の特徴抽出方式。 11、前記マスクパターンの時間軸方向の広がりの方が
    空間軸方向の広がりより大きい請求項10記載の音声の
    特徴抽出方式。 12、前記マスクパターンの中心点及び時間軸方向の前
    記重み値は総て“1”であり空間軸方向の重み値が“1
    ”より小さい請求項10記載の音声の特徴抽出方式。
JP63130784A 1987-09-30 1988-05-27 音声の特徴抽出方式 Granted JPH01158496A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63130784A JPH01158496A (ja) 1987-09-30 1988-05-27 音声の特徴抽出方式

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP24891587 1987-09-30
JP62-248915 1987-09-30
JP63130784A JPH01158496A (ja) 1987-09-30 1988-05-27 音声の特徴抽出方式

Publications (2)

Publication Number Publication Date
JPH01158496A true JPH01158496A (ja) 1989-06-21
JPH0558559B2 JPH0558559B2 (ja) 1993-08-26

Family

ID=17185316

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63130784A Granted JPH01158496A (ja) 1987-09-30 1988-05-27 音声の特徴抽出方式

Country Status (1)

Country Link
JP (1) JPH01158496A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03111900A (ja) * 1989-09-27 1991-05-13 Agency Of Ind Science & Technol 音声認識方法
US6157544A (en) * 1997-07-11 2000-12-05 Alcatel Electrical circuit configuration arranged in a casing
JP2010152381A (ja) * 2010-02-05 2010-07-08 Victor Co Of Japan Ltd 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0330159A (ja) * 1989-06-27 1991-02-08 Alps Electric Co Ltd 磁気ディスク装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0330159A (ja) * 1989-06-27 1991-02-08 Alps Electric Co Ltd 磁気ディスク装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03111900A (ja) * 1989-09-27 1991-05-13 Agency Of Ind Science & Technol 音声認識方法
US6157544A (en) * 1997-07-11 2000-12-05 Alcatel Electrical circuit configuration arranged in a casing
JP2010152381A (ja) * 2010-02-05 2010-07-08 Victor Co Of Japan Ltd 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム

Also Published As

Publication number Publication date
JPH0558559B2 (ja) 1993-08-26

Similar Documents

Publication Publication Date Title
JP6783001B2 (ja) 逆離散コサイン変換のケプストラム係数の動的分割に基づく音声特徴抽出アルゴリズム
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
JP6371516B2 (ja) 音響信号処理装置および方法
Do et al. Speech source separation using variational autoencoder and bandpass filter
US4989249A (en) Method of feature determination and extraction and recognition of voice and apparatus therefore
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
Hemavathi et al. Voice conversion spoofing detection by exploring artifacts estimates
Leinonen et al. Self‐organized acoustic feature map in detection of fricative‐vowel coarticulation
Dusan et al. Recovering vocal tract shapes from MFCC parameters.
JPH01158496A (ja) 音声の特徴抽出方式
Dinkel et al. Small-footprint convolutional neural network for spoofing detection
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
US20240155290A1 (en) Signal processing apparatus, signal processing method, and program
MY An improved feature extraction method for Malay vowel recognition based on spectrum delta
JP2613108B2 (ja) 音声認識方法
Irino et al. An auditory model of speaker size perception for voiced speech sounds
Wang et al. Speech enhancement based on noise classification and deep neural network
Muhsina et al. Signal enhancement of source separation techniques
Deng et al. Vision-Guided Speaker Embedding Based Speech Separation
Magrin-Chagnolleau et al. Time-frequency principal components of speech: application to speaker identification
CN112951264B (zh) 一种基于混合式概率模型的多通道声源分离方法
KR102365220B1 (ko) 음성 정보를 기반으로 감정 정보를 결정하는 방법 및 이러한 방법을 수행하는 장치
CN115547362B (zh) 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法
JPS63300296A (ja) 音声認識方式及び装置
Rodrigues et al. Source separation via spectral masking for speech recognition systems

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080826

Year of fee payment: 15