JPS6039699A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPS6039699A JPS6039699A JP58147307A JP14730783A JPS6039699A JP S6039699 A JPS6039699 A JP S6039699A JP 58147307 A JP58147307 A JP 58147307A JP 14730783 A JP14730783 A JP 14730783A JP S6039699 A JPS6039699 A JP S6039699A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- section
- voiceless
- distance
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、入力音声の音素認識を行ない、その結果を用
いて音節、単語、文章等を認識する音声認識方法、特に
無声破擦音、無声破裂音の認識方法に関するものである
。
いて音節、単語、文章等を認識する音声認識方法、特に
無声破擦音、無声破裂音の認識方法に関するものである
。
従来例の構成とその問題点
第1図は、従来の無声破擦音及び無声破裂音(以下/U
C/と略記する)の認識方法を実施する装置を示してい
る。以下にこの従来例の構成について第1図と共に説明
する。第1図において1は音声分析部であシ、この音声
分析部1の出力を利用してS/UV/V判別部2で無音
/無声/有声判別(以下S/UV/Vと略記する)を行
ないさらに無音区間検出部3で破裂時点直前の無音区間
を検出し次に/UC/の後端をセグメンテーション部4
で検出する。最後にセグメンテーションされた区間を音
素の標準/4’タンとの距離を使って音素の判定を行な
う。
C/と略記する)の認識方法を実施する装置を示してい
る。以下にこの従来例の構成について第1図と共に説明
する。第1図において1は音声分析部であシ、この音声
分析部1の出力を利用してS/UV/V判別部2で無音
/無声/有声判別(以下S/UV/Vと略記する)を行
ないさらに無音区間検出部3で破裂時点直前の無音区間
を検出し次に/UC/の後端をセグメンテーション部4
で検出する。最後にセグメンテーションされた区間を音
素の標準/4’タンとの距離を使って音素の判定を行な
う。
次に上記従来例の動作について第2図と共に説明する。
第2図は” 1 (ici 7”と発声した時の無声破
擦音/C/付近の音声パワー、S/Uv/v判別結果及
び音素標準バタンが最も近い音素の各々の時間変化を表
わしている。音声分析部1において入力した音声を1フ
レーム(10m5ec )毎に分析し特徴パラメータを
抽出する。このパラメータを使ってS/UV/V判別部
2においてS/Uv/■判別を行ナイ、さらに無音区間
検出部3において音声・やワーを利用して無音区間を検
出する。次にセグメンテーション部4で音声パワーのデ
ィップを使ってセグメンテーションを行ない、/C/の
後端を決める。最後にセグメントされた区間内で、特徴
i+ラメータを使って、音素標準バタンとの距離計算を
行ない、最も距離が近い音素をフレーム毎に識別し、こ
の区間において最もフレーム数々;多い音素を認識音素
と判定する。第2図において/C/区間のフレーム毎の
音素判定は全て/C/であるので/ici/の/C/は
正しく認識された。しかしながら上記従来例においては
、セグメントされた区間の音素を判定する時、/C/と
識別された音素のフレーム数が多い場合はよいが、第3
図に示すように/T/や/に/等のフレーム数が多い場
合は/C/区間を他の音素に誤認識する欠点があった。
擦音/C/付近の音声パワー、S/Uv/v判別結果及
び音素標準バタンが最も近い音素の各々の時間変化を表
わしている。音声分析部1において入力した音声を1フ
レーム(10m5ec )毎に分析し特徴パラメータを
抽出する。このパラメータを使ってS/UV/V判別部
2においてS/Uv/■判別を行ナイ、さらに無音区間
検出部3において音声・やワーを利用して無音区間を検
出する。次にセグメンテーション部4で音声パワーのデ
ィップを使ってセグメンテーションを行ない、/C/の
後端を決める。最後にセグメントされた区間内で、特徴
i+ラメータを使って、音素標準バタンとの距離計算を
行ない、最も距離が近い音素をフレーム毎に識別し、こ
の区間において最もフレーム数々;多い音素を認識音素
と判定する。第2図において/C/区間のフレーム毎の
音素判定は全て/C/であるので/ici/の/C/は
正しく認識された。しかしながら上記従来例においては
、セグメントされた区間の音素を判定する時、/C/と
識別された音素のフレーム数が多い場合はよいが、第3
図に示すように/T/や/に/等のフレーム数が多い場
合は/C/区間を他の音素に誤認識する欠点があった。
破裂音(/UC/)を精度よく認識することを目的とす
るものである。
るものである。
発明の構成
本発明は、上記目的を達成するために、/UC/区間に
おけるケプストラム係数の各次数毎の隣接フレーム簡距
離をめ、その時間変化バタンの特徴を検出することによ
シ、/UC/の認識を精度よく行なうものである。
おけるケプストラム係数の各次数毎の隣接フレーム簡距
離をめ、その時間変化バタンの特徴を検出することによ
シ、/UC/の認識を精度よく行なうものである。
実施例の説明
以下に本発明の一実施例の構成について図面と共に説明
する。第1図の音素判定部5における/UC/区間の音
素の判定に際し次式に示す、ケプストラム係数の次数毎
の隣接フレーム間圧11#(以下CDと略記する)の時
間変化を利用する。
する。第1図の音素判定部5における/UC/区間の音
素の判定に際し次式に示す、ケプストラム係数の次数毎
の隣接フレーム間圧11#(以下CDと略記する)の時
間変化を利用する。
CD (I、J)=2(CP(I、J)−CP(I−1
、J))2■ :フレーム番号 J :ケグストラム分析の第5次の次数J=1〜NP、
NPは分析次数 CD(1,J) 第1フレームめの第5次の隣接フレー
ム間のケシストラム距離 cp(工、J) 第1フレームめの第5次のケプストラ
ム係数 第4図は1 (ici )と発声した時の/C/付近の
第1次と2次または3次の距離、音声ノヤワー、S/U
V/V判別結果及び音素標準ノやタンとの距離に最も近
い音素の各々の時間変化を表わしている。
、J))2■ :フレーム番号 J :ケグストラム分析の第5次の次数J=1〜NP、
NPは分析次数 CD(1,J) 第1フレームめの第5次の隣接フレー
ム間のケシストラム距離 cp(工、J) 第1フレームめの第5次のケプストラ
ム係数 第4図は1 (ici )と発声した時の/C/付近の
第1次と2次または3次の距離、音声ノヤワー、S/U
V/V判別結果及び音素標準ノやタンとの距離に最も近
い音素の各々の時間変化を表わしている。
今、/C/区間の1次と2次または3次の距離の時間変
化パタンに着目すると1次の距離は谷形であり2次また
は3次の距離は山形をしている。たとえ標準バタンとの
距離に最も近い音素が/に/であっても次数によるCD
の時間変化/fメタン利用してこの区間を/C/と認識
できる。
化パタンに着目すると1次の距離は谷形であり2次また
は3次の距離は山形をしている。たとえ標準バタンとの
距離に最も近い音素が/に/であっても次数によるCD
の時間変化/fメタン利用してこの区間を/C/と認識
できる。
発明の効果
次表は従来方法と本発明方法による/C/の認識率を示
したものである。複数の話者を入力データとした認識実
験において従来方法では/C/の認識が73%であった
ものが本発明の方法を用いるこ上記に一例を示すように
、本発明によれば無声破擦音、無声破裂音(/ UC/
)の検出に次数にょるCDの時間変化パタンの特徴を
利用することにょシ、従来方法に比べ精度よ</UC/
を検出できる利点を有する。
したものである。複数の話者を入力データとした認識実
験において従来方法では/C/の認識が73%であった
ものが本発明の方法を用いるこ上記に一例を示すように
、本発明によれば無声破擦音、無声破裂音(/ UC/
)の検出に次数にょるCDの時間変化パタンの特徴を
利用することにょシ、従来方法に比べ精度よ</UC/
を検出できる利点を有する。
第1図は従来の無声破擦音、無声破裂音を認識する装置
のブロック図、第2図、第3図は同認識方法の説明図、
第4図は本発明の一実施例における音声認識装置の説明
図である。 1・・・音声分析部、2・・・無音/無声/有声判別部
(S/UV/V判別部)、3・・・無音区間検出部、4
・・・セグメンテーション部、5・・・音素判定部。 第3図 フ vv vv s ss s suvuvuvwvv v
lllI TTCKCIIII −1ぐフI S/UV/V刺別純泉 考(懺1′18釆
のブロック図、第2図、第3図は同認識方法の説明図、
第4図は本発明の一実施例における音声認識装置の説明
図である。 1・・・音声分析部、2・・・無音/無声/有声判別部
(S/UV/V判別部)、3・・・無音区間検出部、4
・・・セグメンテーション部、5・・・音素判定部。 第3図 フ vv vv s ss s suvuvuvwvv v
lllI TTCKCIIII −1ぐフI S/UV/V刺別純泉 考(懺1′18釆
Claims (1)
- 入力音声に対し単位時間毎に音素認識を有なって認識音
素系列を得る際に、各無声破擦音および無声破裂音区間
内のケシストラム係数の各次数毎の隣接フレーム間距離
をめ、その時間変化の・やタンの特徴を検出することに
よシ無声破擦音および無声破裂音の認識を行なうことを
特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58147307A JPS6039699A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58147307A JPS6039699A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6039699A true JPS6039699A (ja) | 1985-03-01 |
Family
ID=15427232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58147307A Pending JPS6039699A (ja) | 1983-08-13 | 1983-08-13 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6039699A (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58147306A (ja) * | 1982-02-25 | 1983-09-02 | 研器工業株式会社 | 鉉及びその製造方法 |
-
1983
- 1983-08-13 JP JP58147307A patent/JPS6039699A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58147306A (ja) * | 1982-02-25 | 1983-09-02 | 研器工業株式会社 | 鉉及びその製造方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | On the use of variable frame rate analysis in speech recognition | |
Ruinskiy et al. | An effective algorithm for automatic detection and exact demarcation of breath sounds in speech and song signals | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
JP3069531B2 (ja) | 音声認識方法 | |
Kaur et al. | Analysis of feature extraction methods for speaker dependent speech recognition | |
JPS60200300A (ja) | 音声の始端・終端検出装置 | |
JPS6138479B2 (ja) | ||
JPS60114900A (ja) | 有音・無音判定法 | |
Lertwongkhanakool et al. | An automatic real-time synchronization of live speech with its transcription approach | |
JPS6039699A (ja) | 音声認識方法 | |
Jijomon et al. | An offline signal processing technique for accurate localisation of stop release bursts in vowel-consonant-vowel utterances | |
JPH07295588A (ja) | 発話速度推定方法 | |
JP2006010739A (ja) | 音声認識装置 | |
Seman et al. | Evaluating endpoint detection algorithms for isolated word from Malay parliamentary speech | |
Gulzar et al. | An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words | |
JP2798919B2 (ja) | 音声区間検出方式 | |
JPH034918B2 (ja) | ||
Waardenburg et al. | The automatic recognition of stop consonants using hidden Markov models | |
Sahu et al. | Odia isolated word recognition using DTW | |
JPH0640274B2 (ja) | 音声認識装置 | |
Ruinskiy et al. | A multistage algorithm for fricative spotting | |
JPH0413719B2 (ja) | ||
JPS5925240B2 (ja) | 音声区間の語頭検出方式 | |
JPS59170894A (ja) | 音声区間の切り出し方式 | |
Ruinskiy et al. | An algorithm for accurate breath detection in speech and song signals |