JPH0567036B2 - - Google Patents

Info

Publication number
JPH0567036B2
JPH0567036B2 JP60218630A JP21863085A JPH0567036B2 JP H0567036 B2 JPH0567036 B2 JP H0567036B2 JP 60218630 A JP60218630 A JP 60218630A JP 21863085 A JP21863085 A JP 21863085A JP H0567036 B2 JPH0567036 B2 JP H0567036B2
Authority
JP
Japan
Prior art keywords
phoneme
syllable
section
interval
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60218630A
Other languages
English (en)
Other versions
JPS6275700A (ja
Inventor
Tooru Ueda
Mitsuhiro Toya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP60218630A priority Critical patent/JPS6275700A/ja
Publication of JPS6275700A publication Critical patent/JPS6275700A/ja
Publication of JPH0567036B2 publication Critical patent/JPH0567036B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 <技術分野> 本発明は入力音声を音節単位に認識する音声認
識方式の改良に関し、特にパターンマツチングに
より得られた音素系列から音節中に含まれない遷
移状態を判定して音節境界を決定することによ
り、より正確な音節区間の抽出を行うようにした
ものである。
<従来技術> 従来の音声波形から音節区間を抽出する方法と
しては、パワー変化やスペクトル変化などの境界
を示す情報と、平均的な母音長などの時間的な情
報を用いていることが多い(特願昭59−44265
号)。
しかしながら、このような平均的な母音長を用
いると、次のような場合に不都合が生じる。
例えば、1音節“にや”と2音節“あい”は長
さの情報だけでは区別出来ない。なぜならば、1
音節“にや”と2音節“あい”は発声速度のばら
つきによつて同じ長さになることもある。これを
従来の平均母音長から判定すると、“にや”が2
音節と判定されるか、“あい”が1音節と判定さ
れるかのどちらかであり、いずれにしても切り出
す音節数を誤るという結果になる。
<目的> 本発明はかかる従来の欠点を補うために成され
たものであり、一定区間(フレームとよぶ8ms程
度ごとの区間)毎にあらかじめ登録されている音
素標準パターンとのマツチングを行い、その結果
出力された音素系列を判定することで音節の境界
を求め、最終的な音節区間の抽出を行うようにし
た音声認識方式を提供せんとするものである。
(なお、ここで音素とは、フレームごとの音響的
性質を表す記号のことで、あらかじめ登録されて
いる特徴量とマツチングを行うことによつて出力
されるものである。これは、日本語の音節中には
有り得ない音素の遷移の情報を考慮するためであ
る。) <実施例> 以下に説明する実施例では、マツチング対象の
音素を“aiueons”の7個に限つた例について述
べる。(ただし、“aiueo”は5母音の音素、“n”
は「な」「ま」などの鼻音性音節の子音部分の音
素、“s”は「さ」「す」などの摩擦性音節の子音
部分の音素を示す) また日本語の音節内での音素の遷移の条件には
次のようなものがある。
音素“a”は音節内では終端にしか生じな
い。
音素“s”,“n”は、音節内では始端にしか
生じない。
よつて、 a−>*(*は、先行音素以外の音素すべて) *−>s(*は、後続音素以外の音素すべて) *−>n(*は、後続音素以外の音素すべて) の変化が生じる地点は音節境界である。
これは、2音素の場合にも拡張できる。
例えば、拗音では、一般に ie□(□は、auoの内の1つの音素) と遷移する。しかしe段の拗音は存在しないため
に、 ie という組み合わせだけで音節を構成することはな
い。よつて、“ie”の連鎖が発生し、音素“i”
の区間だけで1音節として切り出せないほどの短
さであれば、その次の音素も含めて“ie□”とい
う区間を抽出することで正確な区間が得られる。
以下図にもとづいて本発明方式を説明する。
第1図は本発明方式を実施した音声認識装置の
全体の構成を示すブロツク図である。
図において、1は音声を入力するためのマイ
ク、2はマイク1を介して入力された音声信号を
増幅するアンプ、3は上記アンプ2によつて増幅
された音声信号によりマツチングに用いる特徴量
及び切出しに用いるパワー、自己相関係数等の特
徴量を抽出する特徴抽出部から成る分析部であ
り、特に特徴抽出部は例えば24帯域フイルタバン
クより構成された周波数分析部と、該周波数分析
部の出力を一定時間保持するサンプルホールド部
と、該サンプルホールド部の出力をデジタル信号
に変換するA/D変換部及び入力音声のパワー、
ゼロクロス、自己相関係数等の特徴量(パラメー
タ)を抽出するパラメータ抽出部とから構成され
ている。
4は本発明に係るアルゴリズムを実現するため
の音声区間抽出部、5はフレームごとにその区間
の特徴量を標準パターンとマツチングして音素記
号を出力する音素マツチング部、6は音素の標準
パターンを蓄えておくパターンメモリ、7は切り
出された区間のパターンを音節標準パターンとマ
ツチングする音節マツチング部、8は音節標準パ
ターンを蓄えておくパターンメモリである。
第2図は上記した音声認識装置の全体の動作を
示す動作フロー図である。
今、認識すべき音声がマイク1を介して入力さ
れると、この入力された音声データはアンプ2で
増幅されたのち、分析部3に入力される。ここで
は、まず同一音素区間の抽出が行われる(n1)。
たとえば同一の音素が5フレーム続くとその音素
を代表音素とし、代表音素以外の音素が3フレー
ム続くとそこまでを1つの音素区間としている。
その区間の代表音素は第3図イに示すようなスタ
ツク構造のバツフアに記憶される。この例の状態
では、音素“n”,“o”の区間がすでに入力され
ていて、まだこの区間が切り出されていないこと
を示している。
ステツプn1で同一音素区間が抽出されると、
次に抽出された音素区間の始端(ここでは、音素
“i”の始端=フレーム番号21)が音節境界と成
り得るかの検定を行う(n2)。第3図ロは同図イ
の状態から代表音素“i”の区間が抽出されスタ
ツクに加わつたことを示している。スタツク内の
音素は始端表と比較され、後方部分一致で検索が
行われる。第4図イは上記始端表の例であり、こ
の例ではスタツク内の音素“oi”が後方部分一致
で検索される。これは、音素列“oi”が日本語の
音節の中には存在せず、必ず“o”と“i”に分
離されることを示している。検索の結果、始端表
に該当項目が存在すると(n3)、ステツプn4に進
み、先のスタツク内の音素のうち、現区間(音素
“i”の区間)の始端までの区間を1音節として
切り出し、その切り出した区間は音素スタツクか
ら抹消する。このときの音素スタツクの状態は第
3図ハに示す通りである。
一方、始端表に該当項目が存在しない場合は、
終端表を検索し同様に後方部分一致をとる
(n5)。第3図ニはここでのスタツク状態を示し、
これは第3図ハの状態から音素“e”と音素
“o”の区間が入力された状態を表わしている。
また、第4図ロは終端表の例であり、この例では
スタツク内の音素“ieo”が後方部分一致で検索
される。これは、音素列“ieo”が発生したとき
には必ずその後で音節境界を生じることを示して
いる。上記終端表に該当項目が存在するとステツ
プn6,n7と進み、スタツク内の全音素区間をま
とめて1音節として切り出す。そして先のスタツ
クを空にし第3図ホの状態にする。スタツクが空
になることで、残つている切り出し区間がないこ
とを示している。
第5図は、“あい”と発声したときの具体的な
例であり、図中イは音素のマツチング結果(音素
系列)、ロは本発明方式による音節抽出区間、ハ
は従来方式による音節抽出区間を示している。こ
の音声は全体で25フレームあり、平均母音長が18
フレームである。ここで、 全フレーム長>平均母音長×1.5 の時に2音節と判定するといつた従来の判定方法
を用いると、この区間は図示の如く1音節と判定
される。これに対し、本発明方式によれば、この
区間には音素“a”が含まれており、しかも音素
“a”の後は必ず音節境界であることから、ここ
で音節を2分割して正しく2音節切り出すことが
出来る。
このように、音節内の音素の遷移の情報を使う
ことによつて、音節のセグメンテーシヨンを正確
に行うことができる。
なお、本発明方式に、先のパワー変化やスペク
トル変化などの境界を示す情報と、平均的な母音
長などの時間的な情報を用いて音節区間を抽出す
る方式を併用することにより、総ての音節をより
正確に切り出すことができる。
<効果> 本発明に係る音声認識方式は、入力音声を音節
単位で認識する音声認識方式において、入力音声
を予め登録された音素標準パターンとマツチング
を行い音素記号系列を求めるステツプと、音節の
始端と終端を音素記号系列で表した音節境界テー
ブルを求めるステツプと、前記音素記号系列を求
めるステツプで求められた前記入力音声の前記音
素記号系列を、前記音節境界テーブル中の前記音
節の始端と終端を表す前記音素記号系列と比較す
ることにより音節区間を抽出するステツプとから
成るようにしたから、音素記号列に変換して音素
記号系列で表した音節境界テーブルを求めている
ため、これを1個の記号として取り扱えるので、
記憶、比較等の処理時に取り扱いが容易になると
いう効果があり、従来方式に比較してより正確に
音節のセグメンテーシヨンを行うことが出来る。
【図面の簡単な説明】
第1図は本発明方式を実施した音声認識装置の
全体の構成を示すブロツク図、第2図は本発明を
実施した装置の動作を説明するための動作フロー
図、第3図イ乃至ホは音素スタツクの状態を示す
図、第4図イ,ロは音素の始端・終端表を示す
図、第5図イ,ロ,ハは具体的発声例に対する本
発明と従来の両方式による音節抽出区間の相違を
示す図である。 1はマイク、2はアンプ、3は分析部、4は音
声区間抽出部、5は音素マツチング部、6は音素
標準パターンメモリ、7は音節マツチング部、8
は音節標準パターンマツチング部。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を音節単位で認識する音声認識方式
    において、 入力音声を予め登録された音素標準パターンと
    マツチングを行い音素記号系列を求めるステツプ
    と、 音節の始端と終端を音素記号系列で表した音節
    境界テーブルを求めるステツプと、 前記音素記号系列を求めるステツプで求められ
    た前記入力音声の前記音素記号系列を、前記音節
    境界テーブル中の前記音節の始端と終端を表す前
    記音素記号系列と比較することにより音節区間を
    抽出するステツプと から成ることを特徴とする音声認識方式。
JP60218630A 1985-09-30 1985-09-30 音声認識方式 Granted JPS6275700A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60218630A JPS6275700A (ja) 1985-09-30 1985-09-30 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60218630A JPS6275700A (ja) 1985-09-30 1985-09-30 音声認識方式

Publications (2)

Publication Number Publication Date
JPS6275700A JPS6275700A (ja) 1987-04-07
JPH0567036B2 true JPH0567036B2 (ja) 1993-09-24

Family

ID=16722960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60218630A Granted JPS6275700A (ja) 1985-09-30 1985-09-30 音声認識方式

Country Status (1)

Country Link
JP (1) JPS6275700A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6148896A (ja) * 1984-08-16 1986-03-10 松下電器産業株式会社 音声のセグメンテ−シヨン方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6148896A (ja) * 1984-08-16 1986-03-10 松下電器産業株式会社 音声のセグメンテ−シヨン方法

Also Published As

Publication number Publication date
JPS6275700A (ja) 1987-04-07

Similar Documents

Publication Publication Date Title
JPS6147440B2 (ja)
JPS58130393A (ja) 音声認識装置
JP3069531B2 (ja) 音声認識方法
JPS6138479B2 (ja)
JPH0567036B2 (ja)
JPS58108590A (ja) 音声認識装置
JP2891259B2 (ja) 音声区間検出装置
JP2760096B2 (ja) 音声認識方式
JPH05303391A (ja) 音声認識装置
JP2615649B2 (ja) 単語音声認識装置
JPS6344699A (ja) 音声認識装置
JPH0457098A (ja) 連続音声の音韻認識装置
JPS61238099A (ja) 単語音声認識装置
JPH06266389A (ja) 音素ラベリング装置
JPS6346499A (ja) 大語▲い▼単語音声認識方式
JPS63223696A (ja) 音声パタ−ン作成方式
JPH07104675B2 (ja) 音声認識方法
JPH0558556B2 (ja)
JPS6310437B2 (ja)
JPH0458635B2 (ja)
JPS63104098A (ja) 音声認識装置
JPS6027000A (ja) パタンマツチング方法
JPS5972499A (ja) 音声認識方式
JPS6270900A (ja) 音節認識方式
JPS61252595A (ja) 音声認識処理方式