JP3065691B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3065691B2
JP3065691B2 JP3061157A JP6115791A JP3065691B2 JP 3065691 B2 JP3065691 B2 JP 3065691B2 JP 3061157 A JP3061157 A JP 3061157A JP 6115791 A JP6115791 A JP 6115791A JP 3065691 B2 JP3065691 B2 JP 3065691B2
Authority
JP
Japan
Prior art keywords
voice
section
background noise
noise level
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3061157A
Other languages
English (en)
Other versions
JPH04275599A (ja
Inventor
晴剛 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3061157A priority Critical patent/JP3065691B2/ja
Publication of JPH04275599A publication Critical patent/JPH04275599A/ja
Application granted granted Critical
Publication of JP3065691B2 publication Critical patent/JP3065691B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識装置に係り、詳
細には、暗騒音を除去して音声の認識を行う音声認識装
置に関する。
【0002】
【従来の技術】人間と機械との対話を実現し各種OA機
器や工作機械の操作を容易にするものとして、操作者の
音声を認識してその音声による指示に従った動作や処理
を行わせる音声認識技術の開発が活発に行われ、商品化
されるようになっている。この音声認識を行う音声認識
装置は、複数の音声を予め周波数分析してその特徴量を
標準パタンとして登録しておく。そして、入力された任
意の音声を同様に周波数分析して特徴量を抽出すると共
に、入力された信号から音声の範囲に相当する音声区間
を決定する。決定された音声区間の特徴量から入力され
た音声の音声パタンを作成し、この音声パタンを予め登
録されている複数の標準パタンのそれぞれと比較するこ
とにより、入力された音声が決定される。
【0003】
【発明が解決しようとする課題】ところで、標準パタン
を作成したり、入力された音声の音声パタンを作成する
場合、入力音声に雑音がなければ、音声区間の決定や特
徴量の抽出等を正確に行うことは容易である。しかし、
一般に音声認識装置の特徴量抽出部には2つのノイズ成
分が存在するため、ノイズの処理が必要となる。第1の
ノイズ成分は、マイクアンプやA/D(アナログ/ディ
ジタル)コンバータ等で発声する回路系のノイズであ
る。特に、マイクロフォンワイヤ(一般にはヘッドセッ
ト等は1〜2m程度である場合が多い。)を接続した場
合、外来ノイズ等が混入し易く、マイクアンプで増幅さ
れSN比(信号対雑音比)を悪化させるだけでなく、周
波数解析部でパワースペクトルに残留ノイズとして加わ
り、音声パターン上にそれが現れて音声の誤認識を生じ
る可能性もある。第2のノイズ成分は、マイクロフォン
1から入ってくる環境ノイズである。実際に音声認識装
置を使用する場合、環境ノイズの混入は避けられず、逆
にこれをとるには何らかの方法でこれを検知し、同様に
パワースペクトル上で差し引く方法が必要となる。
【0004】従来行われていたノイズの処理は、音声区
間を決定する場合であれば、閥値を設定し、信号レベル
が閥値を越えた範囲を音声区間として決定している。こ
の閥値は、固定された一定値とする場合や、閥値もノイ
ズレベルに同期して更新させる場合がある。後者の例と
して、特開昭60−216400に示された技術があ
り、これは、音声の終端から300ms程度経過した時
点をサンプリングして、このときのレベルを閥値として
更新している。しかし、閥値を固定した場合には、音声
認識装置が使用される状況によってノイズレベルは変動
するため、必ずしもノイズを正確に除去しない場合があ
った。また、音声の終端から一定時間経過時点のサンプ
リングを閥値とする場合、音声の終端か否かを正確に認
定することが困難であった。
【0005】また、音声認識装置では、前処理部内のマ
イクアンプの前後にアナログスイッチ等を設けることに
よりマイクをオフにした状態で、前処理部の回路系のノ
イズレベルを検出する場合がある。しかし、この場合、
マイクアンプ後でオフする場合などがあり、実際のマイ
クロフォンのケーブルの影響などがあった。次に、マイ
クをオンした場合の周囲環境のノイズレベルは、予め閥
値で音声を切り出し、音声終了時点での暗騒音レベルで
その閥値を更新する方法などがとられているが、実際の
音声との切り分けが困難であった。
【0006】一方、音声の特徴量をノイズレベルに応じ
て補正する場合、音声またはノイズが入っていない入力
を検知することが難しく、これらのノイズを混入させた
まま音声のパタンを作成し、このパタンにより認識処理
を行っている場合が多いため、認識精度が低下してい
た。また、従来においてはスペクトルサブトラクション
法や適応フィルタを用いてノイズを消去する方法なども
あるが、高騒音下における雑音ノイズが消去対象であ
り、低騒音下の暗騒音ノイズレベル消去することはでき
なかった。
【0007】そこで本発明は、装置の回路系に起因する
ノイズや、周囲環境の暗騒音ノイズの影響を極力小さく
し、より正確な音声パタンや標準パタンを作成すること
のできる音声認識装置を提供することを目的とする。
【0008】
【課題を解決するための手段】請求項1記載の発明で
は、休止区間を有する特定単語を入力する特定単語入力
手段と、入力された特定単語の休止区間から暗騒音レベ
ルを求める暗騒音レベル算出手段と、音声を入力する音
声入力手段と、入力された音声を分析して周波数毎の音
声レベルを得る周波数分析手段と、得られた各周波数毎
の音声レベルから音声の特徴量を得る特徴量抽出手段
と、前記周波数毎の音声レベルと前記算出された暗騒音
レベルとから音声の区間を決定する音声区間決定手段
と、決定された音声区間と前記特徴量とから音声パタン
を作成する音声パタン作成手段とを音声認識装置に具備
させる。請求項2記載の発明では、休止区間を有する特
定単語を入力する特定単語入力手段と、入力された特定
単語の休止区間から暗騒音レベルを各周波数毎に求める
暗騒音レベル算出手段と、音声を入力する音声入力手段
と、入力された音声を分析して周波数毎の音声レベルを
得る周波数分析手段と、得られた各周波数毎の音声レベ
ルから対応する前記暗騒音レベルを差し引いて音声の特
徴量を得る特徴量抽出手段と、前記周波数毎の音声レベ
ルと前記算出された暗騒音レベルとから音声の区間を決
定する音声区間決定手段と、決定された音声区間と前記
特徴量とから音声パタンを作成する音声パタン作成手段
とを音声認識装置に具備させる。請求項3記載の発明で
は、休止区間を有する特定単語として促音を含む単語を
用いる。請求項4記載の発明では、休止区間を有する特
定単語を複数回入力し、それぞれの休止区間の暗騒音の
平均値を暗騒音レベルとする。
【0009】
【作用】本発明では、予め定められた音声の休止区間を
有する特定単語を入力し、その休止区間内に存在するノ
イズレベルから、音声区間を決定する場合の閥値を決定
し、またノイズレベルを認識すべき音声のパワースペク
トルから差し引いて補正する。
【0010】
【実施例】以下、本発明の音声認識装置における一実施
例を図1ないし図4を参照して詳細に説明する。図1は
この音声認識装置が使用されるシステム構成を表したた
ものである。図1において、音声認識装置1はパーソナ
ルコンピュータ2に接続され、音声認識装置1には、特
定単語入力手段および音声入力手段としてのマイクロフ
ォン3が接続されている。マイクロフォン3はヘッドホ
ンとセットになっており、パーソナルコンピュータ2か
らキャリブレーションモードが指定されると、話者に特
定単語の発声が指示されるようになっている。図2は、
音声中に休止区間を有する特定単語の例として、「スト
ップ」という単語を発声した場合の音声パワーを表した
ものである。この単語は、2つの無音区間を有し、特
に、「ト」と「プ」の間の無音区間は比較的無音長が長
い。本実施例ではこの無音区間部が雑音レベルとして検
出され利用される。
【0011】図3は、このような音声認識装置の構成の
一部について示したものである。図3において、4はマ
イクロフォン3から入力される音声を増幅するマイクア
ンプ、5はアナログの音声信号をディジタル信号に変換
するA/Dコンバータ、6はディジタル信号に変換され
た音声信号を分析して各周波数毎のパワースペクトル信
号を得る周波数分析手段としての周波数分析部である。
この周波数分析部6は、nチャネルに帯域分割されたB
PF(バンド・パス・フィルタ)群7を通して周波数解
析が行われ、更に、ABS8、およびLPF9で構成さ
れている。本実施例ではBPF7は15チャネルに帯域
分割されている。10は音声区間を決定する音声区間検
出部、11は特徴量抽出部、12は単語パターン生成部
である。図4は特徴量抽出部11とその周辺を表したも
のである。特徴量抽出部11は、特定単語「ストップ」
の無音区間における各周波数毎のパワースペクトルをn
チャネル格納するキャリブレーションレジスタ13と、
特徴量抽出回路14とを備えている。
【0012】このように構成された音声認識装置の動作
について次に説明する。図1のパーソナルコンピュータ
2からキャリブレーションモードが指定されると、話者
に特定単語の発声が指示される。話者がこの指示に従っ
て「ストップ」と発声すると、音声認識装置2では発声
された単語の無音区間のノイズから2つのキャリブレー
ションを行う。すなわち、1つは音声区間検出部の閥値
の更新であり、もう1つは単語パターンを生成するため
の特徴量に用いるパワースペクトラムの更新である。
【0013】まず、マイクロフォン3から入力された特
定音声は、マイクアンプ4で増幅された後、コンバータ
5でアナログ信号からディジタル信号に変換される。こ
のA/Dコンバータ3でディジタル化された特定音声は
周波数分析部6から音声区間検出部10に供給される。
音声区間検出部10では、特定単語の「ト」および
「プ」の間の無音区間からノイズレベルを求め、この値
が音声区間検出の新たな閥値として更新され図示しない
記憶部に格納される。一方、周波数分析部6では、特定
音声の無音区間のノイズを周波数分析して、そのパワー
スペクトルを特徴量抽出部11のキャリブレーションレ
ジスタ13に供給する。キャリブレーションレジスタ1
3では、供給された各チャネルのパワースペクトルに更
新される。
【0014】以上の動作が終了するとキャリブレーショ
ンモードが解除され、特定音声以外の音声の入力を受け
付ける音声入力モードになる。このモードで、音声がマ
イクロフォン3から入力されると、この音声はマイクア
ンプ4で増幅され、A/Dコンバータ5でディジタル信
号に変換された後に、周波数分析部6に供給される。そ
して、周波数分析部6で分析されて各周波数毎のパワー
スペクトルが求められ、音声区間検出部10と特徴量抽
出部11に供給される。音声区間検出部10では、図示
しない記憶部に格納れれた更新後のノイズレベルから音
声区間を検出する。
【0015】一方、特徴量抽出部11では、周波数分析
部6から供給される各チャネルのパワースペクトルの値
から、キャリブレーションレジスタ13に格納したノイ
ズ部分のパワースペクトルの値を差し引いて補正を行
う。この補正後の各パワースペクトルから特徴量抽出回
路14で音声の認識に必要な特徴量が抽出される。そし
て、単語パターン生成部12では、この音声区間検出部
10で決定された音声区間と、特徴量抽出部11で抽出
された特徴量から、単語や音節などの切り出を行い、必
要な単語や音節などの音声パターンを生成する。単語パ
ターン生成部12で生成された音声パターンは、図示し
ない標準パターン登録部に予め作成され複数登録された
標準パタンと、おなじく図示しないパターンマッチング
部でマッチング処理されて入力さた音声の単語が認識さ
れる。このように本実施例によれば、マイクラインから
混入するノイズおよび比較的低騒音の周囲ノイズが、無
音区間を有するある特定単語「ストップ」を用いてその
影響を取り除くことが可能となる。
【0016】以上説明した実施例では、休止区間単語と
して「ストップ」を使用したが、本発明はこれに限定さ
れるものではなく、例えば「アップ」、「トップ」等の
促音を含む単語を用い、これから無音区間を求めるよう
にしてもよい。また以上説明した実施例では、一回の休
止区間単語からノイズレベルをもとめることとしたが、
本発明では更に、これらの単語を話者に複数回発声さ
せ、それらの平均値からノイズレベルを求めるようにし
てもよい。さらに、以上説明した実施例では、音声認識
のための音声パタンを作成する場合について説明した
が、本発明では、同様にして標準パタンを作成すること
も可能である。
【0017】
【発明の効果】本発明により、マイクラインから混入す
るノイズや、マイクアンプ等の回路系に起因するノイズ
レベルによる影響および周囲の暗騒音ノイズの影響を極
力小さくして認識精度の向上を図ることが可能である。
【図面の簡単な説明】
【図1】本発明の一実施例のシステムを示したシステム
構成図である。
【図2】本発明の一実施例で用いる特定単語のパワース
ペクトルを示した図である。
【図3】本発明の一実施例の音声認識装置の構成を示し
たブロック図である。
【図4】本発明の一実施例の特徴量抽出部とその周辺を
示したブロック図である。
【符号の説明】
3 マイクロフォン 6 周波数分析部 10 音声区間検出部 11 特徴量抽出部 12 単語パターン生成部 13 キャリブレーションレジスタ
フロントページの続き (56)参考文献 特開 昭60−216400(JP,A) 特開 平4−204898(JP,A) 特開 平4−152396(JP,A) 特開 平2−304492(JP,A) 特開 昭60−499(JP,A) 特開 平2−93697(JP,A) 特許2745562(JP,B2) 特許2798919(JP,B2) 特公 平3−7119(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 休止区間を有する特定単語を入力する特
    定単語入力手段と、この特定単語入力手段に入力された
    特定単語の休止区間から暗騒音レベルを求める暗騒音レ
    ベル算出手段と、音声を入力する音声入力手段と、この
    音声入力手段から入力された音声を分析して周波数毎の
    音声レベルを得る周波数分析手段と、この周波数分析手
    段で得られた各周波数毎の音声レベルから音声の特徴量
    を得る特徴量抽出手段と、前記周波数分析手段で得られ
    た音声レベルと前記暗騒音レベル算出手段で算出された
    暗騒音レベルとから音声の区間を決定する音声区間決定
    手段と、この音声区間決定手段で決定された音声区間と
    前記特徴量抽出手段で抽出された特徴量とから音声パタ
    ンを作成する音声パタン作成手段とを具備することを特
    徴とする音声認識装置。
  2. 【請求項2】 休止区間を有する特定単語を入力する特
    定単語入力手段と、この特定単語入力手段に入力された
    特定単語の休止区間から暗騒音レベルを各周波数毎に求
    める暗騒音レベル算出手段と、音声を入力する音声入力
    手段と、この音声入力手段から入力された音声を分析し
    て周波数毎の音声レベルを得る周波数分析手段と、この
    周波数分析手段で得られた各周波数毎の音声レベルから
    対応する前記暗騒音レベル算出手段で求めた周波数成分
    の暗騒音レベルを差し引いて音声の特徴量を得る特徴量
    抽出手段と、前記周波数分析手段で得られた音声レベル
    と前記暗騒音レベル算出手段で算出された暗騒音レベル
    とから音声の区間を決定する音声区間決定手段と、この
    音声区間決定手段で決定された音声区間と前記特徴量抽
    出手段で抽出された特徴量とから音声パタンを作成する
    音声パタン作成手段とを具備することを特徴とする音声
    認識装置。
  3. 【請求項3】 休止区間を有する特定単語は促音を含む
    単語であることを特徴とする請求項1または請求項2記
    載の音声認識装置。
  4. 【請求項4】 休止区間を有する特定単語を複数回入力
    し、それぞれの休止区間の暗騒音の平均値を暗騒音レベ
    ルとすることを特徴する請求項1から請求項3のいずれ
    かに記載された音声認識装置。
JP3061157A 1991-03-01 1991-03-01 音声認識装置 Expired - Fee Related JP3065691B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3061157A JP3065691B2 (ja) 1991-03-01 1991-03-01 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3061157A JP3065691B2 (ja) 1991-03-01 1991-03-01 音声認識装置

Publications (2)

Publication Number Publication Date
JPH04275599A JPH04275599A (ja) 1992-10-01
JP3065691B2 true JP3065691B2 (ja) 2000-07-17

Family

ID=13163024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3061157A Expired - Fee Related JP3065691B2 (ja) 1991-03-01 1991-03-01 音声認識装置

Country Status (1)

Country Link
JP (1) JP3065691B2 (ja)

Also Published As

Publication number Publication date
JPH04275599A (ja) 1992-10-01

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
GB2196460A (en) Voice recognition
JP2010102129A (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP3065691B2 (ja) 音声認識装置
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP2701431B2 (ja) 音声認識装置
JP3106543B2 (ja) 音声信号処理装置
JP2882791B2 (ja) パターン比較方式
JP3588929B2 (ja) 音声認識装置
JP2666296B2 (ja) 音声認識装置
JPH03114100A (ja) 音声区間検出装置
JP2882792B2 (ja) 標準パターン作成方式
JPS5999497A (ja) 音声認識装置
JPS63278100A (ja) 音声認識装置
JP2966452B2 (ja) 音声認識装置の雑音除去システム
KR910007530B1 (ko) 음성인식장치 및 그 방법
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
JP3020999B2 (ja) パターン登録方法
JPH06110492A (ja) 音声認識装置
JP2000155600A (ja) 音声認識システムおよび入力音声レベル警告方法
JPH06208393A (ja) 音声認識装置
JPH03138698A (ja) 車載用音声認識装置の入力方式
KR100501919B1 (ko) 2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법
JPS6227798A (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080512

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090512

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100512

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees