JPH02239291A - 文節音声認識装置 - Google Patents

文節音声認識装置

Info

Publication number
JPH02239291A
JPH02239291A JP1060066A JP6006689A JPH02239291A JP H02239291 A JPH02239291 A JP H02239291A JP 1060066 A JP1060066 A JP 1060066A JP 6006689 A JP6006689 A JP 6006689A JP H02239291 A JPH02239291 A JP H02239291A
Authority
JP
Japan
Prior art keywords
clause
recognition
feature quantity
likelihood
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1060066A
Other languages
English (en)
Inventor
Shoichi Matsunaga
昭一 松永
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1060066A priority Critical patent/JPH02239291A/ja
Publication of JPH02239291A publication Critical patent/JPH02239291A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は、隠れマルコフモデル(例えば、中川聖一「
確率モデルによる音声認識」電子情報通信学会&lH(
1988))を用いた音素単位の認識に基づく日本語文
節音声認識装置に関するものである。
「従来の技術」 従来、この種の隠れマルコフモデルを用いた音素単位の
認識に基づく日本語文節音声認識装置においては、文節
の尤度の計算において入力音声の全ての時点、あるいは
処理を行っている時点の近傍の全ての時点での計算を行
っていた。(例えば、北他rHMMf韻認識とLRパー
ザを用いた文節認識」日本音響学会昭和63年度秋季研
究発表会講演論文集、2−p−29 (1988−10
);「発明が解決しようとする課題」 したがって、これらの方式では全ての時点を考慮して処
理を行うために、処理量が多いという間題点があった.
特に、文節音声の認識では単語認識と比較してこの処理
量の問題は重大であった。
[謀題を解決するための手段」 この発明によれば、入力音声の特徴パラメータ時系列か
ら、音声の動的な特徴量(嵯峨山他「音声の動的尺度に
含まれる個人性情報」日本音響学会昭和54年度春季研
究発表会講演論文集、3一2−7 (1979−6);
)を予め抽出する。
この動的な特徴量が多い時点は或は極大点は音素の区切
り目に対応し、特徴量の少ない時点は音素の定常区間に
対応する.即ち、音素単位の認識に基づく隠れマルコフ
モデル(ヴイタヴイアルゴリズム)においては音素の区
切り目のみを考慮すれば良く、この動的な特徴量により
区切り目を検出し、これを用いて、文節の構文及び単語
辞書をたどる時に音声の始端と終端の2方向から文w5
候補の先度を計算すれば、処理量は従来技術に対して削
減できる。
「実施例」 第1図は、この発明の実施例を示すブロック図である。
入力端子1から入力された音声は、特徴抽出部2におい
てディジタル信号に変換され、更にLPCケブストラム
分析された後、1フレーム(1時点、例えば10ミリ秒
)ごとに特徴パラメータに変換される。この特徴パラメ
ータは音声のベクトルコードなどである。また一方で動
的な特徴量の検出部3では特徴抽出部1で得たケブスド
ラム係数を用いて、特徴量の大きなフレームと特徴量が
極大となるフレームを検出する。文節認識部4では文節
認識用単語辞書5、文節認識用構文規則6を用いて各文
節候補に対して尤度の計算を、音声の始端と終端から双
方向に行う。この際、動的な特徴量の検出部3で検出し
たフレームのみを音素の区切り目として計算するため、
従来の方式より高速に処理が行える.最後に、求める先
度の最も高い文節候補を認識結果として、認識結果出力
部7から出力する。
第2図は、「科学者が」と発声した文節音声である.1
0ミリ秒毎にディジタル化されたものである。Aは音声
波形であり、Bは動的な特@量である.Cは縦軸が周波
数軸、横軸は時間軸を表すソナグラムである。Dは音声
の音素の発声区間を示したラベルである.Eは動的な特
徴量を用いて検出した音素の区切り目とならないフレー
ムである.例えばFを従来法で尤度の計算を行う区間と
すれば25フレーム計算を行う必要があるが、本発明に
より計算を行わなくてよいフレームが8フレームあるた
め、17フレームに対して計算を行えば良くなり認識性
能を落とさないで処理量は削減できる. [発明の効果j 以上説明したように、この発明によれば、動的な特徴量
を検出し、特徴量の大きいフレームや特徴量の極大点に
対して候補の尤度計算を行うため、文節認識に要する処
理量の割合は少なくなる。
例えば、音声データがNフレームあり、その中でm個の
フレームを動的な特徴量の検出部で検出したとき、文節
認識に要する処理量の従来の方式に対する割合は(m/
N)の2乗の割合となる。
例えば、ヴイタヴイアルゴリズムを用いた隠れマルコフ
文節音声認識システム(松永他rHMM音素認識に基づ
く各辞書構造での処理量の比較」日本音響学会昭和63
年度秋季研究発表会講演論文集、2−p−27 (19
88−10);)を文節認識部4に用いた場合において
、3名の話者が発声した100文節の音声データに対し
て、認識性能を劣下させずに、従来技術に対して、フレ
ーム数が平均72%になる。処理量はフレーム数の2乗
に比例するため、処理量はOo 72の2乗すなわち0
.5184となる。言い替えれば、平均50%程度に削
減できた。
なお上述において各部は一般には専用または兼用のマイ
クロプロセッサにより処理される,
【図面の簡単な説明】
第1図は、この発明による文節音声認識装置の一例を示
すブロック図であり、第2図は文節音声の例である。 1コ音声信号人力端子、2:特徴抽出部、3:動的な特
徴量の検出部、4:文節P2織部、F : 文V認識用単語辞書、 文節認識用構文規則、7:認識結果出力部音声波形、B
:動的な特徴量、 ソナグラム、 音声の音素の発声区間を示したラベル、動的な特徴量を
用いて検出した音素の区切り目とならないフレーム、 計算区間. 代 理人 手続補正書(方式) 2.発明の名称 文節音声認識装置 3.補正をする者 事件との関係 特許出願人 東京都千代田区内幸町一丁目1番6号 (4 2 2)  日本電信電話株式会社代表者 山口
 開生 4.代理人   東京都武蔵野市緑町三丁目9番1l号
5,補正命令の日付 平成1年 6月12日 7、補正の内容 (1)願書に最初に添付した図面第1図を別紙のとおり
浄書したく内容に変更なし)。 (2)願書に最初に添付した図面第2図を別紙のとおり
浄書するとともに図中Cの濃淡表示が適正となるように
補正した。

Claims (1)

  1. 【特許請求の範囲】 入力音声を特徴パラメータの時系列とし、その特徴パラ
    メータ時系列と、音素記号の系列で表現した単語と文節
    の構文を記述した文法を用いて、文節に対する尤度を隠
    れマルコフモデルを用いて文節認識部で求め、尤度の高
    い文節を認識結果とする文節認識装置において、 上記入力音声について、音声の動的な変化量がある閾値
    (スレッシュホルド)以上に大きい時点と極大となる時
    点を検出する手段とを持ち、その文節の尤度を計算する
    際に、文節の構文及び単語辞書をたどる時に処理時間短
    縮のため音声の始端と終端の2方向から尤度を計算する
    手段と、その検出した時点のみの値を用いて、この文節
    の尤度の計算を行うことを特徴とする文節音声認識装置
JP1060066A 1989-03-13 1989-03-13 文節音声認識装置 Pending JPH02239291A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1060066A JPH02239291A (ja) 1989-03-13 1989-03-13 文節音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1060066A JPH02239291A (ja) 1989-03-13 1989-03-13 文節音声認識装置

Publications (1)

Publication Number Publication Date
JPH02239291A true JPH02239291A (ja) 1990-09-21

Family

ID=13131341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1060066A Pending JPH02239291A (ja) 1989-03-13 1989-03-13 文節音声認識装置

Country Status (1)

Country Link
JP (1) JPH02239291A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59171999A (ja) * 1983-03-18 1984-09-28 ソニー株式会社 音声認識方法
JPS614119A (ja) * 1984-06-07 1986-01-10 ベー・ベー・ツエー・アクチエンゲゼルシヤフト・ブラウン・ボベリ・ウント・コンパニー 圧縮ガス遮断器
JPS62144200A (ja) * 1985-12-18 1987-06-27 富士通株式会社 連続音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59171999A (ja) * 1983-03-18 1984-09-28 ソニー株式会社 音声認識方法
JPS614119A (ja) * 1984-06-07 1986-01-10 ベー・ベー・ツエー・アクチエンゲゼルシヤフト・ブラウン・ボベリ・ウント・コンパニー 圧縮ガス遮断器
JPS62144200A (ja) * 1985-12-18 1987-06-27 富士通株式会社 連続音声認識装置

Similar Documents

Publication Publication Date Title
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
JPH02239291A (ja) 文節音声認識装置
JP3277579B2 (ja) 音声認識方法および装置
KR20020063665A (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
Likitsupin et al. Acoustic-phonetic approaches for improving segment-based speech recognition for large vocabulary continuous speech
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
Qian et al. A Multi-Space Distribution (MSD) and two-stream tone modeling approach to Mandarin speech recognition
JP2664136B2 (ja) 音声認識装置
JPH07295588A (ja) 発話速度推定方法
JP3110025B2 (ja) 発声変形検出装置
JP2578771B2 (ja) 音声認識装置
JPH0736481A (ja) 補完音声認識装置
JPH0997095A (ja) 音声認識装置
KR19980065481A (ko) 운율 분석 결과에 근거한 음소 분리 방법
Hoshimi et al. Speaker independent speech recognition method using training speech from a small number of speakers
Brink et al. An acoustic comparison of the vowels and diphthongs of first and second language South African English
KR19980013825A (ko) 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법
JPS61180300A (ja) 音声認識装置
JPH07104782A (ja) 音声認識装置
JPH08171396A (ja) 音声認識装置
Sugamura Continuous speech recognition using large vocabulary word spotting and CV syllable spotting
Likitsupin et al. Improving segment-based speech recognition by recovering missing segments in segment graphs-A Thai case study
JPH01154199A (ja) 発声用パターン登録方式