JPH0594197A - 音声パターン作成方法 - Google Patents

音声パターン作成方法

Info

Publication number
JPH0594197A
JPH0594197A JP3253865A JP25386591A JPH0594197A JP H0594197 A JPH0594197 A JP H0594197A JP 3253865 A JP3253865 A JP 3253865A JP 25386591 A JP25386591 A JP 25386591A JP H0594197 A JPH0594197 A JP H0594197A
Authority
JP
Japan
Prior art keywords
voice
point
candidate
candidate points
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3253865A
Other languages
English (en)
Other versions
JP3091537B2 (ja
Inventor
Masanori Miyatake
正典 宮武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP03253865A priority Critical patent/JP3091537B2/ja
Publication of JPH0594197A publication Critical patent/JPH0594197A/ja
Application granted granted Critical
Publication of JP3091537B2 publication Critical patent/JP3091537B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【構成】 本発明の音声パターン作成方法は、入力され
た音声を含む信号から所望の単位の音声区間の始端を判
定する始端判定部(15)で判定結果の始端候補点の数
Nsを始端候補点カウンターが係数し、音声区間の終端
を判定する終端判定部(16)での判定結果である終端
候補点の数NeをNs以下に制限することによって成立
する音声区間候補の音声パターンを作成する。 【効果】 音声区間の始端に対する候補点の数Nsが終
端に対する候補点の数Neとが、Ns≧Neであるの
で、終端より始端を重視した音声区間候補の音声パター
ンを見いだすことができるので、これら音声パターンを
用いた音声認識の認識性能の向上が望める。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声パターンの作成に関
し、特に音声認識の性能向上に適した音声パターンを作
成する方法に関する。
【0002】
【従来の技術】図3は一般的な音声認識装置の一例を示
したものである。図中、(1)は分析部で、入力された
音声を分析し特徴量を算出する。(2)は特徴量蓄積部
で、分析部(1)で分析された特徴量を蓄積する。
(3)は端点検出部で、特徴量蓄積部(2)に蓄積され
た特徴量を用いて所望の単位の音声区間の始端および終
端位置を検出する。(4)はパターン作成部で、端点検
出部(3)で検出された始端および終端位置で示される
音声区間に対する音声パターンを特徴量蓄積部(2)に
蓄積された特徴量を基に作成する。(5)は認識部で、
パターン作成部(4)で作成された音声パターンを用い
て入力された音声を判定し、判定結果を図示しない外部
機器へ出力する。
【0003】以下、この装置の動作を説明する。なお音
声の単位としては、単語、音節、音素など種々考えられ
るが、以下では単語を例にする。
【0004】まず分析部(1)では入力信号に対して常
時分析が行われており、単語音声が入力されると、その
特徴量が一定時間、例えば10ミリ秒毎に抽出される。
抽出された特徴量は順次特徴量蓄積部(2)にて蓄積さ
れる。ここで特徴量としては、周波数スペクトル、音声
パワー、自己相関値、ケプストラムあるいはそれらの時
間的な変化量など種々のものが考えられ、端点検出部
(3)での端点検出の方法や認識部(5)での音声認識
の手法に応じて決められる。これらの特徴量について
は、多くの文献によって解説されている(例えば、古井
著「ディジタル音声処理」東海大学出版会、1985年
発行)。以下では、端点検出部(3)では周波数スペク
トル変化量と音声パワーを用い、パターン作成部(4)
では周波数スペクトルを用いるものとして説明する。
【0005】端点検出部(3)では、特徴量蓄積部
(2)にて蓄積された特徴量のうち、音声パワーと周波
数スペクトル変化量とを用いて入力信号中の単語音声区
間の始端および終端の位置を検出し、その結果をパター
ン作成部(4)に送る。パターン作成部(4)では、端
点検出部(3)にて検出された始端および終端の位置情
報を用い、対応する単語音声区間の周波数スペクトルを
特徴量蓄積部(2)から取り出し、所定の手続きにより
音声パターンを作成する。ここで、音声パターンとは、
例えば周波数スペクトルを100Hzの低域から600
0Hzの高域までを16に、単語音声区間を8にそれぞ
れ分割し、16×8の特徴量で表現されるものである。
ここでの分割数はあくまでも一例に過ぎず、また、必ず
しも分割数が常に一定値である必要もない。
【0006】認識部(5)では、パターン作成部(4)
で作成された音声パターンを用い、所定の手法により入
力された単語音声を認識し、認識結果を出力する。ここ
で、単語音声を認識する手法としては種々のものが考え
られるが、従来より広く用いられているDPマッチング
のほかにも、確率的な手法や、近年ではニューラルネッ
トを用いる手法などもあり、これらの手法については多
くの文献で詳しく解説されている(例えば前述の文献、
あるいは中川著「確率モデルによる音声認識」電子情報
通信学会、1988年、など)。
【0007】図2は、前述の端点検出部(3)の構成の
一例を説明するためのものであり、図中、(10)は音
声パワー判定部、(11)は音声パワー微分演算部、
(12)は周波数スペクトル変化判定部で、それぞれ音
声パワー、音声パワーの増減、周波数スペクトル変化量
による単語音声区間判定を試み、その結果を出力する。
(13)は始端候補演算部である。(14)は終端候補
演算部で、音声パワー判定部(10)、音声パワー微分
演算部(11)、周波数スペクトル変化変化判定部(1
2)の出力を用いてそれぞれ単語音声区間の始端および
終端の候補点を選択するための規準値(以下このことを
始端尤度、終端尤度と呼ぶことにする)を算出する。
(14)は始端判定部、(15)は終端判定部で、始端
尤度、終端尤度を用いてそれぞれ始端候補点および終端
候補点を決定する。
【0008】ここで、図4の信号波形図を用いて、図2
の端点検出部(3)の動作を具体的に解説する。同図
は、図2に観測点を設けて観測した波形であり、それぞ
れの波形の横軸はすべて時間を表しており、(20)は
単語音声区間を含む入力信号、(21)は音声パワー、
(22)は周波数スペクトル変化量、(23)は始端尤
度、(24)は終端尤度、をそれぞれ表す波形である。
(21)〜(24)については、図2の対応する観測点
に同じ番号を付している。また、(25)(26)はそ
れぞれ第1および第2の始端候補点、(27)(28)
はそれぞれ第1および第2の終端候補点である。
【0009】まず、音声パワー判定部(10)では、入
力信号(20)に対する音声パワー(21)を分析し、
音声パワーが所定のしきい値を超えているか否かを判定
し、判定結果を出力する。ここで所定のしきい値とは、
単語音声区間外すなわち雑音区間のパワーとの比較のた
めに用いられるもので、雑音パワーが時間とともに変化
する場合にはしきい値もこれに応じて変更される。また
音声パワー微分演算部(11)では、音声パワー(2
1)の増減傾向を調べるために、その傾きすなわち微分
値を算出する。一方、周波数スペクトル変化判定部(1
2)では、周波数スペクトル変化量(22)を分析し、
周波数スペクトル変化量が所定のしきい値を超えている
か否かを判定し、判定結果を出力する。ここで所定のし
きい値は、単語音声区間外すなわち雑音区間の周波数ス
ペクトル変化量に応じて変化させることも可能である。
【0010】次に、始端候補演算部(13)、終端候補
演算部(14)では、音声パワー判定部(10)、音声
パワー微分演算部(11)、周波数スペクトル変化判定
部(12)の出力をもとに、それぞれ始端尤度(2
3)、終端尤度(24)を算出する。算出には種々の計
算式が考えられるが、通常は、音声パワーが小さく、お
おむね音声パワーの傾きが大きくかつ始端に対しては増
加、終端に対しては減少方向であり、周波数スペクトル
変化量が大きい点に対して尤度が大きくなるように、そ
れぞれの出力を加重平均して算出する。始端判定部(1
5)では始端尤度(23)を用い、また終端判定部(1
6)では終端尤度(24)を用い、入力された単語音声
の始端および終端の位置を決定する。
【0011】このように音声区間の始端、終端の位置を
正確に検出することは、音声認識の性能を高めるために
重要な技術であるが、発声者の個人差、雑音の混入、複
数の音声区間の結合による変形(いわゆる調音結合)、
その他様々な原因で、音声区間の始端および終端を正確
に判定することはかなり困難である。
【0012】そこで通常は、始端および終端の候補点を
1つ以上選択し、始端と終端の組み合わせによって音声
パターンを作ることが行われている。図4においては、
始端尤度(23)終端尤度(24)それぞれにおいて、
極大点のうち、値の大きいほうから順に候補点を定めた
結果、第1の始端候補点(25)、第2の始端候補点
(26)、第1の終端候補点(27)、第2の終端候補
点(28)が決定される。尚、ここでは極大点の値の大
きい順に所定の個数(始端、終端ともそれぞれ2個)だ
け選んだが、尤度にしきい値を設け、その値を超えたも
のをすべて候補点とするなどの方法もある。また、以上
のようにして判定された候補点を基準にして、所定の時
間離れた点を1つ以上選び、基準の候補点と合わせて候
補点にする方法も考えられる。
【0013】このようにして端点検出部(3)で検出さ
れた単語音声区間の始端、終端の候補点のうち、少なく
とも一方の候補点が複数存在する場合、始端と終端との
組み合わせが複数組でき、従って入力された単語音声に
対する音声区間の候補も複数できる。パターン作成部
(4)では、これらの複数の音声区間候補に対しそれぞ
れ音声パターンを作成し、認識部(5)では、これらの
音声パターンに対してそれぞれ認識処理を行う。例えば
パターンマッチングによる認識処理ならば、これらの音
声パターンそれぞれについて予め登録された複数の標準
パターンとマッチングさせて距離を求め、距離が最も小
さくなるときの標準パターンに対応した認識結果を出力
する事になる。
【0014】以上に述べたように、始端、終端の位置を
正確に検出することは容易でないので、入力された単語
音声に対し、必要に応じて複数の単語区間候補を求め、
それぞれの区間毎の音声パターンを作ることで、音声認
識での認識精度の向上を図っているのが現状である。
【0015】上述の如き従来の音声パターン作成方法に
於ては、音声区間の始端に対する候補点と終端に対する
候補点の検出において、音声パワーの微分値の正負の違
いなどはあるにしても、本質的な選択基準に差はなく、
始端と終端それぞれに対する候補点はほぼ同じ程度の精
度で検出されていた。この様子をニューラルネットを用
いた単語音声認識における音声区間の始端、終端の位置
の検出誤差を認識率で検証したものが図6と図7に示さ
れている。
【0016】これらの図は、単語音声の始端および終端
を人の目で判定したものを基準にしており、図6は始端
位置だけをずらせた場合、図7は終端位置だけをずらせ
た場合であって、いずれも横軸はずらせた時間、立て軸
はずらせた後の始端、終端を用いて作成した音声パター
ンによる認識実験の結果を認識率で示している。これら
の図から明らかなように、特に始端の位置検出の誤差の
方が終端と比べて認識性能に及ぼす影響が大きいことが
わかり、従来のように、始端と終端を同じ基準で選択し
ていては、認識性能の大幅な改善は望めない。
【0017】
【発明が解決しようとする課題】本発明の音声パターン
作成方法は、音声区間の始端の位置検出の誤差の方が終
端と比べて認識性能に及ぼす影響が大きいことに鑑みて
なされたものであり、音声区間の始端の位置精度を音声
区間の始端のそれより高めた音声区間の検出処理によっ
て、認識性能の優れた音声パターンを作成する事を目的
としている。
【0018】
【課題を解決するための手段】本発明の音声パターン作
成方法は、入力された音声を含む信号から所望の単位の
音声区間の始端および終端に対する候補点をそれぞれ1
つ以上検出し、検出された始端および終端に対する候補
点の組み合わせにより得られる1つ以上の区間候補に対
してそれぞれ特徴量を算出して音声パターンを作成する
ものであって、始端に対する候補点の数を終端に対する
候補点の数より大きく設定したものである。
【0019】
【作用】本発明の音声パターン作成方法によれば、音声
区間の始端に対する候補点の数Nsが終端に対する候補
点の数Neとが、Ns≧Neであるので、終端より始端
を重視した音声区間の候補を見いだすことができる。
【0020】
【実施例】本発明の音声パターン作成方法は、一般的に
図3の如き音声認識装置に用いられるものであって、分
析部(1)、特徴量蓄積部(2)、パターン作成部
(4)並びに認識部(5)の構成動作は、前述の従来装
置の場合と基本的に同じであり、従来装置と異なるとこ
ろは端点検出部(3)にある。
【0021】このような本発明方法を実現するための端
点検出部(3)の構成の一例を図1に示す。
【0022】同図において、(10)〜(15)は前述
した図2で同一符号を付したと同様の「音声パワー判定
部」〜「始端判定部」を示しており、基本的動作もこれ
らと同様である。
【0023】同図の端点検出部(3)の特徴とするとこ
ろは始端候補点カウンター(17)にあり、該カウンタ
ー(17)は、始端判定部(15)で検出された入力音
声の単語音声区間の始端候補点の数を計数するのであ
る。そして、このカウンター(17)での計数結果は、
終端判定部(16)に入力される。従って、終端判定部
(16)は単語の音声区間の終端候補点を検出する際、
始端候補点カウンター(17)で計数された始端候補点
の数が終端候補点の数より大きくなる(等しくても良
い)ように設定するのである。
【0024】具体的には、図4の信号波形図において、
始端尤度(23)の極大点の値の大きいものから順に
(25)と(26)が始端の候補点として検出された場
合、始端候補点カウンター(17)の出力は「2」とな
り、終端判定部(16)では、終端尤度(24)の極大
点の値の大きいものから順に(27)と(28)の2点
が終端の候補点として検出された時点で処理が打ち切ら
れる。勿論、終端尤度(24)の極大点が1つしかなけ
れば、その点が終端候補となる。
【0025】本発明の音声パターン作成方法を実現する
ための端点検出部(3)の他の実施例の構成を図5に示
す。尚、図2と同一動作をするものには、図2と同一符
号を付している。
【0026】図5の端点検出部(3)が図2のそれと異
なるところは、始端候補演算部(13)で算出された始
端尤度(23)に1より大きい所定の係数を掛けるため
の始端尤度加重係数(18)を設定した点にある。この
ように、始端尤度を実際より大きく設定することで、始
端尤度の極大点の値が所定のしきい値を超えるものを始
端候補点として検出する始端判定部(15)に於ては、
必然的に始端候補点の数が従来より多く設定される可能
性が高くなるのである。
【0027】以上の説明に於ては、音声認識のための音
声パターンの作成を例にしたが、例えばニューラルネッ
トにおける音声パターンの学習に、ひとつの音声に対し
複数の音声区間を用いることで、認識時の端点検出の誤
差に強くなり、高い認識性能を実現することができる。
【0028】
【発明の効果】以上で述べたように、本発明の音声パタ
ーン作成方法に於ては、終端よりも始端を重視して音声
区間の候補点を検出するので、精度の高い音声認識が実
現できる。
【図面の簡単な説明】
【図1】本発明の音声パターン作成方法に採用される音
声区間の始端検出部の一実施例の構成を示す構成図、
【図2】従来の音声パターン作成方法に採用される音声
区間の始端検出部の一実施例の構成を示す構成図、
【図3】音声認識装置の一般的な概略構成を示す構成
図、
【図4】信号波形図、
【図5】本発明の音声パターン作成方法に採用される音
声区間の始端検出部の他の実施例の構成を示す構成図、
【図6】ニューラルネットを用いた単語音声認識におけ
る音声区間の始端の位置の検出誤差を認識率で検証した
図、
【図7】ニューラルネットを用いた単語音声認識におけ
る音声区間の終端の位置の検出誤差を認識率で検証した
図、
【符号の説明】
(13) 始端候補演算部 (14) 終端候補演算部 (15) 始端判定部 (16) 終端判定部 (17) 始端候補点カウンター (18) 始端尤度加重係数

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を含む信号から所望の単
    位の音声区間の始端および終端に対する候補点をそれぞ
    れ1つ以上検出し、検出された始端および終端に対する
    候補点の組み合わせにより得られる1つ以上の区間候補
    に対してそれぞれ特徴量を算出して音声パターンを作成
    するものであって、始端に対する候補点の数が終端に対
    する候補点の数を下回らないようにしたことを特徴とす
    る音声パターン作成方法。
  2. 【請求項2】 上記始端および終端に対する候補点の検
    出にあたっては、端点である度合いを所定の方法で算出
    し、それぞれ度合いの大きいものから順に所定の個数だ
    け始端および終端に対する候補点とすることを特徴とす
    る請求項1記載の音声パターン作成方法。
  3. 【請求項3】 上記始端および終端に対する候補点の検
    出にあたっては、所定の方法で始端および終端に対する
    第1の候補点を検出し、第1の候補点から所定時間離れ
    た第2の候補点を少なくとも始端に対して1つ以上定
    め、これら第1および第2の候補点をもって始端および
    終端に対する候補点とすることを特徴とする請求項1記
    載の音声パターン作成方法。
  4. 【請求項4】 入力された音声を含む信号から所望の単
    位の音声区間の始端および終端に対する候補点をそれぞ
    れ1つ以上検出し、検出された始端および終端に対する
    候補点の組み合わせにより得られる1つ以上の区間候補
    に対してそれぞれ特徴量を算出して音声パターンを作成
    するものであって、 上記始端および終端に対する候補点の検出にあたって
    は、所定の方法で算出した端点である度合いを用いて決
    定し、かつ、始端に対する度合いに対しては終端よりも
    重みをかけることを特徴とする音声パターン作成方法。
  5. 【請求項5】 入力された音声を含む信号から所望の単
    位の音声区間の始端および終端に対する候補点をそれぞ
    れ1つ以上検出し、検出された始端および終端に対する
    候補点の組み合わせにより得られる1つ以上の区間候補
    に対してそれぞれ特徴量を算出して音声パターンを作成
    するものであって、 上記始端および終端に対する候補点の検出にあたって
    は、所定の方法で始端および終端に対する第1の候補点
    を検出し、第1の候補点から所定の時間間隔で第2の候
    補点を始端、終端に対しそれぞれ少なくとも1つ以上定
    め、なおかつ前記所定の時間間隔は、終端より始端に対
    する方が短くなるようにし、これら第1および第2の候
    補点をもって始端および終端に対する候補点とすること
    を特徴とする音声パターン作成方法。
JP03253865A 1991-10-01 1991-10-01 音声パターン作成方法 Expired - Fee Related JP3091537B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03253865A JP3091537B2 (ja) 1991-10-01 1991-10-01 音声パターン作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03253865A JP3091537B2 (ja) 1991-10-01 1991-10-01 音声パターン作成方法

Publications (2)

Publication Number Publication Date
JPH0594197A true JPH0594197A (ja) 1993-04-16
JP3091537B2 JP3091537B2 (ja) 2000-09-25

Family

ID=17257209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03253865A Expired - Fee Related JP3091537B2 (ja) 1991-10-01 1991-10-01 音声パターン作成方法

Country Status (1)

Country Link
JP (1) JP3091537B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111697A (ja) * 1996-10-04 1998-04-28 Matsushita Electric Ind Co Ltd 音声反応装置と音声認識装置
JP2003529106A (ja) * 2000-03-24 2003-09-30 スピーチワークス・インターナショナル・インコーポレーテッド 音声認識システムのための分割アプローチ
JP2010039059A (ja) * 2008-08-01 2010-02-18 Yamaha Motor Co Ltd 発話区間検出装置
US8244533B2 (en) 2002-12-12 2012-08-14 Alpine Electronics, Inc. Speech recognition performance improvement method and speech recognition device
JP2017067813A (ja) * 2015-09-28 2017-04-06 本田技研工業株式会社 音声処理装置及び音声処理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111697A (ja) * 1996-10-04 1998-04-28 Matsushita Electric Ind Co Ltd 音声反応装置と音声認識装置
JP2003529106A (ja) * 2000-03-24 2003-09-30 スピーチワークス・インターナショナル・インコーポレーテッド 音声認識システムのための分割アプローチ
US8244533B2 (en) 2002-12-12 2012-08-14 Alpine Electronics, Inc. Speech recognition performance improvement method and speech recognition device
JP2010039059A (ja) * 2008-08-01 2010-02-18 Yamaha Motor Co Ltd 発話区間検出装置
JP2017067813A (ja) * 2015-09-28 2017-04-06 本田技研工業株式会社 音声処理装置及び音声処理方法

Also Published As

Publication number Publication date
JP3091537B2 (ja) 2000-09-25

Similar Documents

Publication Publication Date Title
US5195167A (en) Apparatus and method of grouping utterances of a phoneme into context-dependent categories based on sound-similarity for automatic speech recognition
CN110599987A (zh) 基于卷积神经网络的钢琴音符识别算法
JPS62217295A (ja) 音声認識方式
CN112530407A (zh) 一种语种识别方法及系统
Smolenski et al. Usable speech processing: A filterless approach in the presence of interference
JPH0594197A (ja) 音声パターン作成方法
WO2011077924A1 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JP3428058B2 (ja) 音声認識装置
JPH05119792A (ja) 音声認識装置
EP0109140B1 (en) Recognition of continuous speech
JPH06504383A (ja) 会話の中の項目別表現を識別するあるいは数えるためのシステム
JP2853418B2 (ja) 音声認識方法
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム
JP2502880B2 (ja) 音声認識方法
KR100449912B1 (ko) 음성인식시스템의 핵심어 검출을 위한 후처리방법
KR100304665B1 (ko) 피치 웨이브 특성을 이용한 음성 인식 장치 및 그 방법
EP0856835A2 (en) Speaker recognition device
Narayanaswamy et al. Voting for two speaker segmentation
KR101195742B1 (ko) 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법
JP3049711B2 (ja) 音声処理装置
JPS59149400A (ja) 音声入力装置
JPH01185599A (ja) 音声認識装置
EP0245252A1 (en) System and method for sound recognition with feature selection synchronized to voice pitch
JPH08146996A (ja) 音声認識装置
KR950002704B1 (ko) 음성인식 시스템의 유사음성 구분장치 및 구분방법

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees