JPH0567036B2

JPH0567036B2 -

Info

Publication number: JPH0567036B2
Application number: JP60218630A
Authority: JP
Inventors: Tooru Ueda; Mitsuhiro Toya
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1985-09-30
Filing date: 1985-09-30
Publication date: 1993-09-24
Also published as: JPS6275700A

Description

【発明の詳細な説明】＜技術分野＞本発明は入力音声を音節単位に認識する音声認
識方式の改良に関し、特にパターンマツチングに
より得られた音素系列から音節中に含まれない遷
移状態を判定して音節境界を決定することによ
り、より正確な音節区間の抽出を行うようにした
ものである。

＜従来技術＞従来の音声波形から音節区間を抽出する方法と
しては、パワー変化やスペクトル変化などの境界
を示す情報と、平均的な母音長などの時間的な情
報を用いていることが多い（特願昭59−44265
号）。

しかしながら、このような平均的な母音長を用
いると、次のような場合に不都合が生じる。

例えば、１音節“にや”と２音節“あい”は長
さの情報だけでは区別出来ない。なぜならば、１
音節“にや”と２音節“あい”は発声速度のばら
つきによつて同じ長さになることもある。これを
従来の平均母音長から判定すると、“にや”が２
音節と判定されるか、“あい”が１音節と判定さ
れるかのどちらかであり、いずれにしても切り出
す音節数を誤るという結果になる。

＜目的＞本発明はかかる従来の欠点を補うために成され
たものであり、一定区間（フレームとよぶ8ms程
度ごとの区間）毎にあらかじめ登録されている音
素標準パターンとのマツチングを行い、その結果
出力された音素系列を判定することで音節の境界
を求め、最終的な音節区間の抽出を行うようにし
た音声認識方式を提供せんとするものである。
（なお、ここで音素とは、フレームごとの音響的
性質を表す記号のことで、あらかじめ登録されて
いる特徴量とマツチングを行うことによつて出力
されるものである。これは、日本語の音節中には
有り得ない音素の遷移の情報を考慮するためであ
る。）＜実施例＞以下に説明する実施例では、マツチング対象の
音素を“aiueons”の７個に限つた例について述
べる。（ただし、“aiueo”は５母音の音素、“ｎ”
は「な」「ま」などの鼻音性音節の子音部分の音
素、“ｓ”は「さ」「す」などの摩擦性音節の子音
部分の音素を示す）また日本語の音節内での音素の遷移の条件には
次のようなものがある。

音素“ａ”は音節内では終端にしか生じな
い。

音素“ｓ”，“ｎ”は、音節内では始端にしか
生じない。

よつて、ａ−＞＊（＊は、先行音素以外の音素すべて）＊−＞ｓ（＊は、後続音素以外の音素すべて）＊−＞ｎ（＊は、後続音素以外の音素すべて）の変化が生じる地点は音節境界である。

これは、２音素の場合にも拡張できる。

例えば、拗音では、一般に ie□（□は、auoの内の１つの音素）と遷移する。しかしｅ段の拗音は存在しないため
に、 ie という組み合わせだけで音節を構成することはな
い。よつて、“ie”の連鎖が発生し、音素“ｉ”
の区間だけで１音節として切り出せないほどの短
さであれば、その次の音素も含めて“ie□”とい
う区間を抽出することで正確な区間が得られる。

以下図にもとづいて本発明方式を説明する。

第１図は本発明方式を実施した音声認識装置の
全体の構成を示すブロツク図である。

図において、１は音声を入力するためのマイ
ク、２はマイク１を介して入力された音声信号を
増幅するアンプ、３は上記アンプ２によつて増幅
された音声信号によりマツチングに用いる特徴量
及び切出しに用いるパワー、自己相関係数等の特
徴量を抽出する特徴抽出部から成る分析部であ
り、特に特徴抽出部は例えば24帯域フイルタバン
クより構成された周波数分析部と、該周波数分析
部の出力を一定時間保持するサンプルホールド部
と、該サンプルホールド部の出力をデジタル信号
に変換するＡ／Ｄ変換部及び入力音声のパワー、
ゼロクロス、自己相関係数等の特徴量（パラメー
タ）を抽出するパラメータ抽出部とから構成され
ている。

４は本発明に係るアルゴリズムを実現するため
の音声区間抽出部、５はフレームごとにその区間
の特徴量を標準パターンとマツチングして音素記
号を出力する音素マツチング部、６は音素の標準
パターンを蓄えておくパターンメモリ、７は切り
出された区間のパターンを音節標準パターンとマ
ツチングする音節マツチング部、８は音節標準パ
ターンを蓄えておくパターンメモリである。

第２図は上記した音声認識装置の全体の動作を
示す動作フロー図である。

今、認識すべき音声がマイク１を介して入力さ
れると、この入力された音声データはアンプ２で
増幅されたのち、分析部３に入力される。ここで
は、まず同一音素区間の抽出が行われる（n1）。
たとえば同一の音素が５フレーム続くとその音素
を代表音素とし、代表音素以外の音素が３フレー
ム続くとそこまでを１つの音素区間としている。
その区間の代表音素は第３図イに示すようなスタ
ツク構造のバツフアに記憶される。この例の状態
では、音素“ｎ”，“ｏ”の区間がすでに入力され
ていて、まだこの区間が切り出されていないこと
を示している。

ステツプn1で同一音素区間が抽出されると、
次に抽出された音素区間の始端（ここでは、音素
“ｉ”の始端＝フレーム番号21）が音節境界と成
り得るかの検定を行う（n2）。第３図ロは同図イ
の状態から代表音素“ｉ”の区間が抽出されスタ
ツクに加わつたことを示している。スタツク内の
音素は始端表と比較され、後方部分一致で検索が
行われる。第４図イは上記始端表の例であり、こ
の例ではスタツク内の音素“oi”が後方部分一致
で検索される。これは、音素列“oi”が日本語の
音節の中には存在せず、必ず“ｏ”と“ｉ”に分
離されることを示している。検索の結果、始端表
に該当項目が存在すると（n3）、ステツプn4に進
み、先のスタツク内の音素のうち、現区間（音素
“ｉ”の区間）の始端までの区間を１音節として
切り出し、その切り出した区間は音素スタツクか
ら抹消する。このときの音素スタツクの状態は第
３図ハに示す通りである。

一方、始端表に該当項目が存在しない場合は、
終端表を検索し同様に後方部分一致をとる
（n5）。第３図ニはここでのスタツク状態を示し、
これは第３図ハの状態から音素“ｅ”と音素
“ｏ”の区間が入力された状態を表わしている。
また、第４図ロは終端表の例であり、この例では
スタツク内の音素“ieo”が後方部分一致で検索
される。これは、音素列“ieo”が発生したとき
には必ずその後で音節境界を生じることを示して
いる。上記終端表に該当項目が存在するとステツ
プn6，n7と進み、スタツク内の全音素区間をま
とめて１音節として切り出す。そして先のスタツ
クを空にし第３図ホの状態にする。スタツクが空
になることで、残つている切り出し区間がないこ
とを示している。

第５図は、“あい”と発声したときの具体的な
例であり、図中イは音素のマツチング結果（音素
系列）、ロは本発明方式による音節抽出区間、ハ
は従来方式による音節抽出区間を示している。こ
の音声は全体で25フレームあり、平均母音長が18
フレームである。ここで、全フレーム長＞平均母音長×1.5 の時に２音節と判定するといつた従来の判定方法
を用いると、この区間は図示の如く１音節と判定
される。これに対し、本発明方式によれば、この
区間には音素“ａ”が含まれており、しかも音素
“ａ”の後は必ず音節境界であることから、ここ
で音節を２分割して正しく２音節切り出すことが
出来る。

このように、音節内の音素の遷移の情報を使う
ことによつて、音節のセグメンテーシヨンを正確
に行うことができる。

なお、本発明方式に、先のパワー変化やスペク
トル変化などの境界を示す情報と、平均的な母音
長などの時間的な情報を用いて音節区間を抽出す
る方式を併用することにより、総ての音節をより
正確に切り出すことができる。

＜効果＞本発明に係る音声認識方式は、入力音声を音節
単位で認識する音声認識方式において、入力音声
を予め登録された音素標準パターンとマツチング
を行い音素記号系列を求めるステツプと、音節の
始端と終端を音素記号系列で表した音節境界テー
ブルを求めるステツプと、前記音素記号系列を求
めるステツプで求められた前記入力音声の前記音
素記号系列を、前記音節境界テーブル中の前記音
節の始端と終端を表す前記音素記号系列と比較す
ることにより音節区間を抽出するステツプとから
成るようにしたから、音素記号列に変換して音素
記号系列で表した音節境界テーブルを求めている
ため、これを１個の記号として取り扱えるので、
記憶、比較等の処理時に取り扱いが容易になると
いう効果があり、従来方式に比較してより正確に
音節のセグメンテーシヨンを行うことが出来る。

【図面の簡単な説明】

第１図は本発明方式を実施した音声認識装置の
全体の構成を示すブロツク図、第２図は本発明を
実施した装置の動作を説明するための動作フロー
図、第３図イ乃至ホは音素スタツクの状態を示す
図、第４図イ，ロは音素の始端・終端表を示す
図、第５図イ，ロ，ハは具体的発声例に対する本
発明と従来の両方式による音節抽出区間の相違を
示す図である。１はマイク、２はアンプ、３は分析部、４は音
声区間抽出部、５は音素マツチング部、６は音素
標準パターンメモリ、７は音節マツチング部、８
は音節標準パターンマツチング部。

Claims

【特許請求の範囲】１入力音声を音節単位で認識する音声認識方式
において、入力音声を予め登録された音素標準パターンと
マツチングを行い音素記号系列を求めるステツプ
と、音節の始端と終端を音素記号系列で表した音節
境界テーブルを求めるステツプと、前記音素記号系列を求めるステツプで求められ
た前記入力音声の前記音素記号系列を、前記音節
境界テーブル中の前記音節の始端と終端を表す前
記音素記号系列と比較することにより音節区間を
抽出するステツプとから成ることを特徴とする音声認識方式。