JPH04121798A - 単語認識方式 - Google Patents
単語認識方式Info
- Publication number
- JPH04121798A JPH04121798A JP2243410A JP24341090A JPH04121798A JP H04121798 A JPH04121798 A JP H04121798A JP 2243410 A JP2243410 A JP 2243410A JP 24341090 A JP24341090 A JP 24341090A JP H04121798 A JPH04121798 A JP H04121798A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- word
- recognition
- main
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、電気錠、ICカード笠のオンライン端末等で
入力音声からその単語を認識するに好適な単語認識方式
に関する。
入力音声からその単語を認識するに好適な単語認識方式
に関する。
[従来の技術]
本出願人は、特願平1−98376号により、[ニュー
ラルネットワークを用いて入力音声から′その単語を認
識する単語認識方式であワて、ニューラルネットワーク
への入力として、音声の周波数特性の時間的変化を用い
る単語認識方式」を提案している。
ラルネットワークを用いて入力音声から′その単語を認
識する単語認識方式であワて、ニューラルネットワーク
への入力として、音声の周波数特性の時間的変化を用い
る単語認識方式」を提案している。
[発明が解決しようとする課題]
然しながら、従来技術では、類似単語(例えば、/ニジ
ムラ/と/イチムラ/)を誤認識する場合があった。
ムラ/と/イチムラ/)を誤認識する場合があった。
本発明は、ニューラルネットワークを用いて単語認識す
るに際し、類似単語についても誤認識することなく、認
識率の向上を図ることを目的とする。
るに際し、類似単語についても誤認識することなく、認
識率の向上を図ることを目的とする。
[課題を解決するための手段]
本発明は、ニューラルネットワークを用いてタカ音声か
らその単語を認識するに際し、入力音声を時間軸上で等
分割した各区間での平均的な周ま数特性の時系列なニュ
ーラルネットワークへのツカパターンとする単語認識方
式であつて、全認刺単語を対象とする主ニューラルネッ
トワークと、全認識単語のうちの類似単語のある特定区
間の2を対象とする副ニューラルネットワークとをm1
し、今回の入力音声について、主ニューラルネットワー
クにより認識を行ない、当該主ニューラルネットワーク
の認識結果が予め特定した類似単Mのいずれかであると
き、当該類似単語に対応ず2副ニユーラルネツトワーク
により認識を行ない、それら主ニューラルネットワーク
と副ニューラルネットワークの認識結果により今回の入
力単語を判定するようにしたものである。
らその単語を認識するに際し、入力音声を時間軸上で等
分割した各区間での平均的な周ま数特性の時系列なニュ
ーラルネットワークへのツカパターンとする単語認識方
式であつて、全認刺単語を対象とする主ニューラルネッ
トワークと、全認識単語のうちの類似単語のある特定区
間の2を対象とする副ニューラルネットワークとをm1
し、今回の入力音声について、主ニューラルネットワー
クにより認識を行ない、当該主ニューラルネットワーク
の認識結果が予め特定した類似単Mのいずれかであると
き、当該類似単語に対応ず2副ニユーラルネツトワーク
により認識を行ない、それら主ニューラルネットワーク
と副ニューラルネットワークの認識結果により今回の入
力単語を判定するようにしたものである。
[作用]
本発明にあっては、認識対象単語の中で、互いに類似し
ている単語のグループを定め、且つその類似単語間て差
異かあると思われる区間(特定区間)を定める。そして
、全認識単語を対象とした主ニューラルネットワークと
、類似単語の特定区間のみを対象とした副ニューラルネ
ットワークを併用することにより、類似単語に対する誤
認識か減少し認ii*が向上する。
ている単語のグループを定め、且つその類似単語間て差
異かあると思われる区間(特定区間)を定める。そして
、全認識単語を対象とした主ニューラルネットワークと
、類似単語の特定区間のみを対象とした副ニューラルネ
ットワークを併用することにより、類似単語に対する誤
認識か減少し認ii*が向上する。
[実施例コ
第1図は本発明か適用された単語認識システムの一例を
示す模式図、第2図は学習手順を示す流れ図、第3図は
認識手順を示す流れ図、第4図は入力音声を示す模式図
である。
示す模式図、第2図は学習手順を示す流れ図、第3図は
認識手順を示す流れ図、第4図は入力音声を示す模式図
である。
単語認識システム1は、第1図に示す如く、音声入力部
11、前処理部12、主ニューラルネットワーク13、
主判定部14、グループ記憶部15、ニューラルネット
ワーク選択部16、区間選択部17、複数の副ニューラ
ルネットワーク18、副判定部19を有して構成される
。
11、前処理部12、主ニューラルネットワーク13、
主判定部14、グループ記憶部15、ニューラルネット
ワーク選択部16、区間選択部17、複数の副ニューラ
ルネットワーク18、副判定部19を有して構成される
。
このとき、主ニューラルネットワーク13は、全認識単
語を対象とし、各副ニューラルネットワーク18は、全
認識単語のうちの類似単語のある特定区間のみを対象と
する。
語を対象とし、各副ニューラルネットワーク18は、全
認識単語のうちの類似単語のある特定区間のみを対象と
する。
以下、単語認識システム1を用いた学習手順、認識手順
について説明する。
について説明する。
(A)音声入力部11にて、音声試料を取入れる。この
とき、人名 100語(/ニジムラ/と/イチムラ/等
を含む)を話者1名が10回発声した1000サンプル
を音声試料とする。
とき、人名 100語(/ニジムラ/と/イチムラ/等
を含む)を話者1名が10回発声した1000サンプル
を音声試料とする。
(B)前処理
■前処環部12において、入力音声を、第4図に示す如
く、時間釉上で4つのブロックに等分割する。
く、時間釉上で4つのブロックに等分割する。
■各ブロックの音声波形を、複数(この実施例では16
個)チャンネルのバンドパスフィルタに通し、各ブロッ
ク即ち各一定時間毎に周波数特性を得る。このとき、バ
ンドパスフィルタの出力は、各ブロック即ち一定時間毎
に平均化回路で平均化される。これにより、一つのサン
プル(音声試料)について、4 X 16= 64次元
の特徴ベクトルを得る。
個)チャンネルのバンドパスフィルタに通し、各ブロッ
ク即ち各一定時間毎に周波数特性を得る。このとき、バ
ンドパスフィルタの出力は、各ブロック即ち一定時間毎
に平均化回路で平均化される。これにより、一つのサン
プル(音声試料)について、4 X 16= 64次元
の特徴ベクトルを得る。
(C)ニューラルネットワークの学習(第2図参照)
上記(A)、(B) (7)1000サンプル(音声試
料)の前処理結果により、主ニューラルネットワーク1
3、各副ニューラルネットワーク18の学習を行なう。
料)の前処理結果により、主ニューラルネットワーク1
3、各副ニューラルネットワーク18の学習を行なう。
■全認識対象単語の中で、類似している単語とその類似
単語間で差異かあると思われる区間(以下、特定区間と
呼ぶ)を指定する。例えは、類似単語として、/ニジム
ラ/と/イチムラ/を指定し、それらの類似単語の特定
区間として第1区間を指定する。
単語間で差異かあると思われる区間(以下、特定区間と
呼ぶ)を指定する。例えは、類似単語として、/ニジム
ラ/と/イチムラ/を指定し、それらの類似単語の特定
区間として第1区間を指定する。
■学習用の音声試料全てにより、全認識単語を対象とし
だ主ニューラルネットワーク13の学習を行ない、主ニ
ューラルネットワーク13を構築する。
だ主ニューラルネットワーク13の学習を行ない、主ニ
ューラルネットワーク13を構築する。
■学習用の音声試料のうち、類似単語として指定された
単語の特定区間により、類似単語のある区間のみを対象
とした副ニューラルネットワーク18の学習を行ない、
副ニューラルネットワーク18を構築する。尚、副ニュ
ーラルネットワーク18は、類似単語として指定された
グループ毎に必要となる。
単語の特定区間により、類似単語のある区間のみを対象
とした副ニューラルネットワーク18の学習を行ない、
副ニューラルネットワーク18を構築する。尚、副ニュ
ーラルネットワーク18は、類似単語として指定された
グループ毎に必要となる。
(D)ニューラルネットワークによる認識(第3図参照
) 前述の話者が別の時期に発声した人名 100語(各1
0回発声)を評価用試料とし、認識実験を行なった。
) 前述の話者が別の時期に発声した人名 100語(各1
0回発声)を評価用試料とし、認識実験を行なった。
■入力された音声に前処理を施し、ニューラルネットワ
ーク13.18への入力パターンを得る。
ーク13.18への入力パターンを得る。
■主ニューラルネットワーク13により認識を行なう。
■主判定部14により、主ニューラルネ、ットワーク1
3の認識による認識候補か類似単語に指定されている単
語か否か判定する。
3の認識による認識候補か類似単語に指定されている単
語か否か判定する。
■上記■の判定により、主ニューラルネットワーク13
による認識単語が類似単語として指定されていないもの
てあれば、主判定部14は主ニューラルネットワーク1
3の認識結果から、今回入力音声の単語を判定する。
による認識単語が類似単語として指定されていないもの
てあれば、主判定部14は主ニューラルネットワーク1
3の認識結果から、今回入力音声の単語を判定する。
■上記■の判定により、主ニューラルネットワーク13
による認識単語が類似単語として指定されているもので
あれば、副ニューラルネットワーク18による認識を行
なう。
による認識単語が類似単語として指定されているもので
あれば、副ニューラルネットワーク18による認識を行
なう。
このとき、グループ記憶部15は、主判定部14の判定
結果に基づき、今回の類似単語に対応する副ニューラル
ネットワーク18をニューラルネットワーク選択部16
により選択し、且つ前処理部12の前処理結果から抽出
すべき当該類似単語の特定区間データを区間選択部17
により選択する。
結果に基づき、今回の類似単語に対応する副ニューラル
ネットワーク18をニューラルネットワーク選択部16
により選択し、且つ前処理部12の前処理結果から抽出
すべき当該類似単語の特定区間データを区間選択部17
により選択する。
■態判定部19により、副ニューラルネットワーク18
の認識結果から、今回入力音声の単語を判定する。
の認識結果から、今回入力音声の単語を判定する。
上記(D)の認識の結果、従来の手法(主ニューラルネ
ットワーク13のみによる認識)に比べ、誤り率におい
て30%の改善かみられた。
ットワーク13のみによる認識)に比べ、誤り率におい
て30%の改善かみられた。
即ち、上記実施例によれば、以下の如くの作用かある。
全認識単語を対象としだ主ニューラルネットワーク13
と、類似単語の特定区間のみを対象とした副ニューラル
ネットワーク18を併用することにより、類似単語に対
する誤認識か減少し認識率が向上する。
と、類似単語の特定区間のみを対象とした副ニューラル
ネットワーク18を併用することにより、類似単語に対
する誤認識か減少し認識率が向上する。
[発明の効果]
以上のように本発明によれば、ニューラルネットワーク
を用いて単語認識するに際し、類似単語についても誤認
識することなく、認識率の向上を図ることができる。
を用いて単語認識するに際し、類似単語についても誤認
識することなく、認識率の向上を図ることができる。
第1図は本発明が適用された単語認識システムの一例を
示す模式図、第2図は学習手順を示す流れ図、第3図は
認識手順を示す流れ図、第4図は入力音声を示す模式図
である。 1・・・単語認識システム、 13−・・主ニューラルネットワーク、15・・・グル
ープ記憶部、 16・・・ニューラルネットワーク選択部、17・・・
区間選択部、 18・・・副ニューラルネットワーク。 第2図
示す模式図、第2図は学習手順を示す流れ図、第3図は
認識手順を示す流れ図、第4図は入力音声を示す模式図
である。 1・・・単語認識システム、 13−・・主ニューラルネットワーク、15・・・グル
ープ記憶部、 16・・・ニューラルネットワーク選択部、17・・・
区間選択部、 18・・・副ニューラルネットワーク。 第2図
Claims (1)
- (1)ニューラルネットワークを用いて入力音声からそ
の単語を認識するに際し、入力音声を時間軸上で等分割
した各区間での平均的な周波数特性の時系列をニューラ
ルネットワークへの入力パターンとする単語認識方式で
あって、全認識単語を対象とする主ニューラルネットワ
ークと、全認識単語のうちの類似単語のある特定区間の
みを対象とする副ニューラルネットワークとを用意し、
今回の入力音声について、主ニューラルネットワークに
より認識を行ない、当該主ニューラルネットワークの認
識結果が予め特定した類似単語のいずれかであるとき、
当該類似単語に対応する副ニューラルネットワークによ
り認識を行ない、それら主ニューラルネットワークと副
ニューラルネットワークの認識結果により今回の入力単
語を判定する単語認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2243410A JPH04121798A (ja) | 1990-09-12 | 1990-09-12 | 単語認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2243410A JPH04121798A (ja) | 1990-09-12 | 1990-09-12 | 単語認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04121798A true JPH04121798A (ja) | 1992-04-22 |
Family
ID=17103451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2243410A Pending JPH04121798A (ja) | 1990-09-12 | 1990-09-12 | 単語認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04121798A (ja) |
-
1990
- 1990-09-12 JP JP2243410A patent/JPH04121798A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7620547B2 (en) | Spoken man-machine interface with speaker identification | |
CN110610709A (zh) | 基于声纹识别的身份辨别方法 | |
JPH02238495A (ja) | 時系列信号認識装置 | |
CN109065051A (zh) | 一种语音识别处理方法及装置 | |
CN110910902B (zh) | 一种基于集成学习的混合模型语音情感识别方法及系统 | |
Kaur et al. | An efficient speaker recognition using quantum neural network | |
KR20220047080A (ko) | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 | |
JPH04121798A (ja) | 単語認識方式 | |
CN110875044A (zh) | 一种基于字相关得分计算的说话人识别方法 | |
US20030050774A1 (en) | Method and system for phonetic recognition | |
CN108242239A (zh) | 一种声纹识别方法 | |
JPH01159697A (ja) | 音声認識装置 | |
WO2004012184A1 (en) | Spoken man-machine interface with speaker identification | |
JPH08146996A (ja) | 音声認識装置 | |
JPH0651792A (ja) | 音声認識装置 | |
Thienpondt et al. | Speaker Embeddings With Weakly Supervised Voice Activity Detection For Efficient Speaker Diarization | |
JPH04163600A (ja) | 話者認識方法 | |
WO2002067245A1 (en) | Speaker verification | |
JPH08146986A (ja) | 音声認識装置 | |
JPH02135500A (ja) | 話者認識方式 | |
CN118366432A (zh) | 语音处理方法、装置、设备、介质及车辆 | |
JPH04151200A (ja) | 話者適応化装置 | |
JP2602271B2 (ja) | 連続音声中の子音識別方式 | |
JPH05257493A (ja) | 音声認識装置 | |
JPS62111292A (ja) | 音声認識装置 |