JPH0573090A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH0573090A JPH0573090A JP3236695A JP23669591A JPH0573090A JP H0573090 A JPH0573090 A JP H0573090A JP 3236695 A JP3236695 A JP 3236695A JP 23669591 A JP23669591 A JP 23669591A JP H0573090 A JPH0573090 A JP H0573090A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- noise
- ratio
- signal
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 本発明は、音声を認識する音声認識方法に関
し、音声の各チャネルにSN比を考慮した重み付けを行
って照合を行い、雑音を多く含む音声の認識率を向上さ
せることを目的とする。 【構成】 音声信号を分析してパワースペクトルを生成
する音声分析部2と、雑音信号を分析してパワースペク
トルを生成する雑音分析部5と、これら音声分析部2お
よび雑音分析部5によって分析したパワースペクトルを
もとに、各チャネルのSN比を計算するSN比計算部6
とを備え、このSN比計算部6によって求めた各チャネ
ル毎のSN比によって、音声分析部2によって分析した
パワースペクトルの各チャネルに重みづけを行った後、
辞書4から取り出した単語の標準パターンとマッチング
して距離を求め、距離が最小の単語を認識結果として出
力するように構成する。
し、音声の各チャネルにSN比を考慮した重み付けを行
って照合を行い、雑音を多く含む音声の認識率を向上さ
せることを目的とする。 【構成】 音声信号を分析してパワースペクトルを生成
する音声分析部2と、雑音信号を分析してパワースペク
トルを生成する雑音分析部5と、これら音声分析部2お
よび雑音分析部5によって分析したパワースペクトルを
もとに、各チャネルのSN比を計算するSN比計算部6
とを備え、このSN比計算部6によって求めた各チャネ
ル毎のSN比によって、音声分析部2によって分析した
パワースペクトルの各チャネルに重みづけを行った後、
辞書4から取り出した単語の標準パターンとマッチング
して距離を求め、距離が最小の単語を認識結果として出
力するように構成する。
Description
【0001】
【産業上の利用分野】本発明は、音声を認識する音声認
識方法であって、雑音を含む音声を認識する音声認識方
法に関するものである。
識方法であって、雑音を含む音声を認識する音声認識方
法に関するものである。
【0002】
【従来の技術】従来、音声認識は、図11に示すような
構成によって行っていた。音声入力部41に音声が入力
されると音声をディジタル信号に変換し、音声分析部4
2が各周波数(あるいは各周波数帯域(チャネル))に
音声を分析し、照合部43を構成するチャネル距離計算
部431が辞書44から取り出した各単語パターンと各
チャネルと一律の重みでマッチングを行って距離を計算
し、単語距離計算部432が単語の距離を求め、最も距
離の小さい単語を認識結果として出力するようにしてい
た。
構成によって行っていた。音声入力部41に音声が入力
されると音声をディジタル信号に変換し、音声分析部4
2が各周波数(あるいは各周波数帯域(チャネル))に
音声を分析し、照合部43を構成するチャネル距離計算
部431が辞書44から取り出した各単語パターンと各
チャネルと一律の重みでマッチングを行って距離を計算
し、単語距離計算部432が単語の距離を求め、最も距
離の小さい単語を認識結果として出力するようにしてい
た。
【0003】
【発明が解決しようとする課題】従来は、上述した図1
1の構成によって音声のマッチする単語を認識結果とし
て出力していたため、例えば図12に示すように、音声
に高レベルの雑音が含まれていると、SN比が小さいチ
ャネルの音声情報の信頼性が低いにも係わらず、一律の
重みで類似度を計算して距離を求めることとなり、音声
の認識率が低下してしまうという問題があった。図12
の音声、雑音のパワースペクトルとSN比との関係を説
明する。
1の構成によって音声のマッチする単語を認識結果とし
て出力していたため、例えば図12に示すように、音声
に高レベルの雑音が含まれていると、SN比が小さいチ
ャネルの音声情報の信頼性が低いにも係わらず、一律の
重みで類似度を計算して距離を求めることとなり、音声
の認識率が低下してしまうという問題があった。図12
の音声、雑音のパワースペクトルとSN比との関係を説
明する。
【0004】図12の(a)は、音声のパワースペクト
ルの例を示す。横軸はチャネル(周波数をある範囲に順
次分割したもの)であり、縦軸は各チャネルの音声の対
数パワーである。これは、実際には、音声をマイクで音
声信号に変換したときのパワースペクトルであって、音
声に雑音が加わったパワースペクトルである。
ルの例を示す。横軸はチャネル(周波数をある範囲に順
次分割したもの)であり、縦軸は各チャネルの音声の対
数パワーである。これは、実際には、音声をマイクで音
声信号に変換したときのパワースペクトルであって、音
声に雑音が加わったパワースペクトルである。
【0005】図12の(b)は、図12の(a)の同一
時刻における雑音のパワースペクトルの例を示す。ここ
で、雑音は均一でなく、あるチャネルでピークを持って
いる。
時刻における雑音のパワースペクトルの例を示す。ここ
で、雑音は均一でなく、あるチャネルでピークを持って
いる。
【0006】図12の(c)は、SN比の例を示す。こ
れは、図12の(a)の音声パワースペクトルと図12
の(b)の雑音パワースペクトルの各チャネルについて
SN比を求めたものであって、雑音パワースペクトルが
高いチャネルはSN比が小さくなっている。従来は、こ
のSN比を考慮しなく、SN比が均一とみなして辞書4
4から取り出した単語のパワースペクトルとマッチング
して距離計算し、距離が最小の単語を認識結果として出
力するようにしていたため、雑音レベルが高くなると音
声の認識率が低下していた。
れは、図12の(a)の音声パワースペクトルと図12
の(b)の雑音パワースペクトルの各チャネルについて
SN比を求めたものであって、雑音パワースペクトルが
高いチャネルはSN比が小さくなっている。従来は、こ
のSN比を考慮しなく、SN比が均一とみなして辞書4
4から取り出した単語のパワースペクトルとマッチング
して距離計算し、距離が最小の単語を認識結果として出
力するようにしていたため、雑音レベルが高くなると音
声の認識率が低下していた。
【0007】本発明は、音声の各チャネルにSN比を考
慮した重み付けを行って照合を行い、雑音を多く含む音
声の認識率を向上させることを目的としている。
慮した重み付けを行って照合を行い、雑音を多く含む音
声の認識率を向上させることを目的としている。
【0008】
【課題を解決するための手段】図1は、本発明の原理構
成図を示す。図1において、音声分析部2は、雑音を含
む音声信号を分析してパワースペクトルを生成するもの
である。
成図を示す。図1において、音声分析部2は、雑音を含
む音声信号を分析してパワースペクトルを生成するもの
である。
【0009】雑音分析部5は、雑音信号を分析してパワ
ースペクトルを生成するものである。SN比計算部6
は、音声分析部2および雑音分析部5によって分析した
パワースペクトルをもとに、各チャネルのSN比を計算
するものである。
ースペクトルを生成するものである。SN比計算部6
は、音声分析部2および雑音分析部5によって分析した
パワースペクトルをもとに、各チャネルのSN比を計算
するものである。
【0010】照合部3は、SN比計算部6によって計算
した各チャネルの重みをもとに、音声のパワースペクト
ル(音声パターン)と、辞書4から取り出した単語の標
準パターンとをマッチングして距離を求め、距離が最小
の単語を認識結果として出力するものである。
した各チャネルの重みをもとに、音声のパワースペクト
ル(音声パターン)と、辞書4から取り出した単語の標
準パターンとをマッチングして距離を求め、距離が最小
の単語を認識結果として出力するものである。
【0011】
【作用】本発明は、図1に示すように、音声分析部2が
雑音を含む音声信号を分析してパワースペクトルを生成
し、雑音分析部5が雑音信号を分析してパワースペクト
ルを生成し、SN比計算部6が音声分析部2および雑音
分析部5によって分析したパワースペクトルをもとに各
チャネルのSN比を計算し、照合部3がSN比計算部6
によって計算した各チャネルの重みをもとに、音声のパ
ワースペクトルと、辞書4から取り出した単語の標準パ
ターンとをマッチングして距離を求め、距離が最小の単
語を認識結果として出力するようにしている。
雑音を含む音声信号を分析してパワースペクトルを生成
し、雑音分析部5が雑音信号を分析してパワースペクト
ルを生成し、SN比計算部6が音声分析部2および雑音
分析部5によって分析したパワースペクトルをもとに各
チャネルのSN比を計算し、照合部3がSN比計算部6
によって計算した各チャネルの重みをもとに、音声のパ
ワースペクトルと、辞書4から取り出した単語の標準パ
ターンとをマッチングして距離を求め、距離が最小の単
語を認識結果として出力するようにしている。
【0012】この際、マイクを2組設けて雑音を含む音
声の音声信号と雑音のみの雑音信号とを同時に取り出し
たり、あるいはマイクを1組設けて雑音を含む音声の音
声信号とこの音声信号の前あるいは後から雑音信号を取
り出すようにしている。また、各チャネル毎のSN比に
対応して重みづけを連続的に変化させたり、あるいは各
チャネル毎のSN比を複数に分割してこれら分割した各
SN比区間に所定の重みを付与したりするようにしてい
る。
声の音声信号と雑音のみの雑音信号とを同時に取り出し
たり、あるいはマイクを1組設けて雑音を含む音声の音
声信号とこの音声信号の前あるいは後から雑音信号を取
り出すようにしている。また、各チャネル毎のSN比に
対応して重みづけを連続的に変化させたり、あるいは各
チャネル毎のSN比を複数に分割してこれら分割した各
SN比区間に所定の重みを付与したりするようにしてい
る。
【0013】従って、音声の各チャネルにSN比を考慮
した重み付けを行って辞書から取り出した単語の標準パ
ターンとマッチングを行って距離最小の単語を認識結果
とすることにより、雑音を多く含む音声の認識率を向上
させることが可能となる。
した重み付けを行って辞書から取り出した単語の標準パ
ターンとマッチングを行って距離最小の単語を認識結果
とすることにより、雑音を多く含む音声の認識率を向上
させることが可能となる。
【0014】
【実施例】次に、図1から図10を用いて本発明の実施
例の構成および動作を順次詳細に説明する。
例の構成および動作を順次詳細に説明する。
【0015】図1は、本発明の原理構成図を示す。図1
において、音声・雑音入力部1は、マイクロホンによっ
て音声や雑音を電気信号に変換したものをディジタルの
音声信号や雑音信号に変換するものである(図2、図3
を用いて詳述する)。
において、音声・雑音入力部1は、マイクロホンによっ
て音声や雑音を電気信号に変換したものをディジタルの
音声信号や雑音信号に変換するものである(図2、図3
を用いて詳述する)。
【0016】音声分析部2は、音声信号をフレーム単位
に周波数分析してパワースペクトル(チャネル毎のパワ
ースペクトル)を求めるものである(図9を用いて後述
する)。
に周波数分析してパワースペクトル(チャネル毎のパワ
ースペクトル)を求めるものである(図9を用いて後述
する)。
【0017】照合部3は、辞書4から取り出した標準パ
ターンと、音声分析部2によって求めた音声スペクトル
(パワースペクトル)とをマッチングして距離を求め、
距離が最小の単語を認識結果として出力するものであっ
て、チャネル計算部31、単語距離計算部32、および
重み付け部33から構成されるものである。
ターンと、音声分析部2によって求めた音声スペクトル
(パワースペクトル)とをマッチングして距離を求め、
距離が最小の単語を認識結果として出力するものであっ
て、チャネル計算部31、単語距離計算部32、および
重み付け部33から構成されるものである。
【0018】チャネル距離計算部31は、辞書4から取
り出した単語の標準パターンと、音声スペクトルとをマ
ッチングして各チャネルの距離を計算するものである
(図6、図7を用いて後述する)。
り出した単語の標準パターンと、音声スペクトルとをマ
ッチングして各チャネルの距離を計算するものである
(図6、図7を用いて後述する)。
【0019】単語距離計算部32は、チャネル距離計算
部31によって計算されたチャネル毎の距離から単語単
位の距離を計算するものである(図6、図7を用いて後
述する)。
部31によって計算されたチャネル毎の距離から単語単
位の距離を計算するものである(図6、図7を用いて後
述する)。
【0020】重み付け部33は、重み係数算出部7によ
って算出されたSN比に対応する重み係数を、音声スペ
クトルに乗算などして反映するものである。辞書4は、
単語を認識するための標準パターンを予め登録したもの
である。
って算出されたSN比に対応する重み係数を、音声スペ
クトルに乗算などして反映するものである。辞書4は、
単語を認識するための標準パターンを予め登録したもの
である。
【0021】雑音分析部5は、雑音信号を周波数分析し
てパワースペクトルを求めるものである。SN比計算部
6は、音声分析部2からの音声スペクトルおよび雑音分
析部5からの雑音スペクトルをもとに各チャネルのSN
比を計算するものである。
てパワースペクトルを求めるものである。SN比計算部
6は、音声分析部2からの音声スペクトルおよび雑音分
析部5からの雑音スペクトルをもとに各チャネルのSN
比を計算するものである。
【0022】重み係数算出部7は、SN比計算部6から
の音声スペクトルのSN比をもとに予め設定したテーブ
ルを参照して音声スペクトルに雑音を考慮した重み係数
を算出するものである(図4、図5を用いて後述す
る)。
の音声スペクトルのSN比をもとに予め設定したテーブ
ルを参照して音声スペクトルに雑音を考慮した重み係数
を算出するものである(図4、図5を用いて後述す
る)。
【0023】次に、図1の構成の動作を説明する。 (1) マイクロホンによって音声を電気信号にして音
声・雑音入力部1に入力し、ディジタルの音声信号や雑
音信号に変換して音声分析部2および雑音分析部5に入
力する。
声・雑音入力部1に入力し、ディジタルの音声信号や雑
音信号に変換して音声分析部2および雑音分析部5に入
力する。
【0024】(2) 音声分析部2は入力された音声信
号をフレーム単位に周波数分析してパワースペクトル
(音声スペクトル)を生成し、SN比計算部6および照
合部3に入力する。
号をフレーム単位に周波数分析してパワースペクトル
(音声スペクトル)を生成し、SN比計算部6および照
合部3に入力する。
【0025】(3) 雑音分析部5は入力された音声信
号を周波数分析してパワースペクトル(雑音スペクト
ル)を生成し、SN比計算部6に入力する。 (4) SN比計算部6は、入力された音声スペクトル
および雑音スペクトルをもとに、チャネル毎のSN比を
計算し、重み係数算出部7に入力する。
号を周波数分析してパワースペクトル(雑音スペクト
ル)を生成し、SN比計算部6に入力する。 (4) SN比計算部6は、入力された音声スペクトル
および雑音スペクトルをもとに、チャネル毎のSN比を
計算し、重み係数算出部7に入力する。
【0026】(5) 重み係数算出部7は、入力された
音声スペクトルのチャネル毎のSN比をもとに、予め設
定したテーブルを参照して重み係数を計算して照合部3
に入力する。
音声スペクトルのチャネル毎のSN比をもとに、予め設
定したテーブルを参照して重み係数を計算して照合部3
に入力する。
【0027】(6) 照合部3は、辞書4から取り出し
た単語の標準パターンと、音声スペクトルとの照合を、
重み係数算出部7からの各チャネル毎の重み係数を考慮
し、距離を計算して距離が最も小さい単語を認識結果と
して出力する。
た単語の標準パターンと、音声スペクトルとの照合を、
重み係数算出部7からの各チャネル毎の重み係数を考慮
し、距離を計算して距離が最も小さい単語を認識結果と
して出力する。
【0028】以上によって、辞書4から取り出した単語
の標準パターンと、チャネル毎の重み係数を考慮した音
声スペクトルとのマッチングを行って単語の距離を求
め、距離が最も小さい単語を認識結果として出力するこ
とにより、雑音を含むSN比の悪い音声信号であっても
認識率高く音声認識することが可能となる。以下順次具
体的に説明する。
の標準パターンと、チャネル毎の重み係数を考慮した音
声スペクトルとのマッチングを行って単語の距離を求
め、距離が最も小さい単語を認識結果として出力するこ
とにより、雑音を含むSN比の悪い音声信号であっても
認識率高く音声認識することが可能となる。以下順次具
体的に説明する。
【0029】図2は、本発明の音声・雑音入力部の構成
図(その1)を示す。これは、マイクロホン(1)およ
びマイクロホン(2)の2本を音声収録と雑音収録に用
いた場合の構成図である。
図(その1)を示す。これは、マイクロホン(1)およ
びマイクロホン(2)の2本を音声収録と雑音収録に用
いた場合の構成図である。
【0030】図2において、A/D変換部11は、マイ
クロホン(1)で音声を電気信号に変換した当該電気信
号をディジタルの音声信号にアナログ・ディジタル変換
するものである。
クロホン(1)で音声を電気信号に変換した当該電気信
号をディジタルの音声信号にアナログ・ディジタル変換
するものである。
【0031】音声区間検出部12は、A/D変換部11
によってディジタルに変換された音声信号について、対
数パワーを求め、予め設定した閾値よりも当該対数パワ
ーが大きい区間を音声区間として検出するものである。
次の音声分析部2には、この検出した音声区間の、ディ
ジタルに変換した音声信号を送出する。
によってディジタルに変換された音声信号について、対
数パワーを求め、予め設定した閾値よりも当該対数パワ
ーが大きい区間を音声区間として検出するものである。
次の音声分析部2には、この検出した音声区間の、ディ
ジタルに変換した音声信号を送出する。
【0032】A/D変換部13は、マイクロホン(2)
で雑音を電気信号に変換した当該電気信号をディジタル
の雑音信号にアナログ・ディジタル変換するものであ
る。以上の構成によって、音声収録専用のマイクロホン
(1)によって検出してディジタル信号にした音声信号
を音声分析部2に送出すると共に、雑音収録専用のマイ
クロホン(2)によって検出してディジタル信号にした
雑音信号を雑音分析部5に送出する。
で雑音を電気信号に変換した当該電気信号をディジタル
の雑音信号にアナログ・ディジタル変換するものであ
る。以上の構成によって、音声収録専用のマイクロホン
(1)によって検出してディジタル信号にした音声信号
を音声分析部2に送出すると共に、雑音収録専用のマイ
クロホン(2)によって検出してディジタル信号にした
雑音信号を雑音分析部5に送出する。
【0033】図3は、本発明の音声・雑音入力部の構成
図(その2)を示す。これは、マイクロホン1本を音声
収録と雑音収録の両者に共用した場合の構成図である。
図3において、A/D変換部11は、1本のマイクロホ
ンで音声および雑音を電気信号に変換した当該電気信号
をディジタルの音声信号および雑音信号にアナログ・デ
ィジタル変換するものである。
図(その2)を示す。これは、マイクロホン1本を音声
収録と雑音収録の両者に共用した場合の構成図である。
図3において、A/D変換部11は、1本のマイクロホ
ンで音声および雑音を電気信号に変換した当該電気信号
をディジタルの音声信号および雑音信号にアナログ・デ
ィジタル変換するものである。
【0034】音声区間検出部12は、A/D変換部11
によってディジタルに変換された音声信号および雑音信
号について、対数パワーを求め、予め設定した閾値より
も当該対数パワーが大きい区間を音声区間として検出す
るものである。次の音声分析部2には、この検出した音
声区間の、ディジタルに変換した音声信号を送出する。
一方、この音声区間を雑音区間決定部14に通知し、雑
音信号を抽出する。
によってディジタルに変換された音声信号および雑音信
号について、対数パワーを求め、予め設定した閾値より
も当該対数パワーが大きい区間を音声区間として検出す
るものである。次の音声分析部2には、この検出した音
声区間の、ディジタルに変換した音声信号を送出する。
一方、この音声区間を雑音区間決定部14に通知し、雑
音信号を抽出する。
【0035】雑音区間決定部14は、音声区間検出部1
2から通知された音声区間の前(例えば50msから1
00ms前)、あるいは音声区間の後(例えば50ms
から100ms後)を雑音区間と決定し、この雑音区間
について、A/D変換部11によってアナログ・ディジ
タル変換された信号を雑音信号とみなして次の雑音分析
部5に送出するものである(図8を用いて後述する)。
2から通知された音声区間の前(例えば50msから1
00ms前)、あるいは音声区間の後(例えば50ms
から100ms後)を雑音区間と決定し、この雑音区間
について、A/D変換部11によってアナログ・ディジ
タル変換された信号を雑音信号とみなして次の雑音分析
部5に送出するものである(図8を用いて後述する)。
【0036】以上の構成によって、1本のマイクロホン
によって検出してディジタルにした信号のうち、対数パ
ワーが所定閾値よりも大の音声区間の信号を音声信号と
して音声分析部2に送出すると共に、この音声区間の所
定前あるいは所定後を雑音区間としてこの雑音区間の信
号を雑音信号として雑音分析部5に送出する。
によって検出してディジタルにした信号のうち、対数パ
ワーが所定閾値よりも大の音声区間の信号を音声信号と
して音声分析部2に送出すると共に、この音声区間の所
定前あるいは所定後を雑音区間としてこの雑音区間の信
号を雑音信号として雑音分析部5に送出する。
【0037】図4は、本発明の重み係数算出部の構成図
(その1)を示す。これは、音声信号と雑音信号をもと
に、フレーム単位にチャネル毎にSN比を計算するもの
であって、補間式を求めて重み係数を算出する場合の構
成図である。
(その1)を示す。これは、音声信号と雑音信号をもと
に、フレーム単位にチャネル毎にSN比を計算するもの
であって、補間式を求めて重み係数を算出する場合の構
成図である。
【0038】図4において、補間式導出部71は、テー
ブル72から取り出したSN比に対数する重み値をもと
に、入力された音声信号と雑音信号の比(雑音信号/音
声信号)の補正係数を与える補間式を導出するものであ
る(図10の(イ)参照)。図10の(イ)で黒丸
“●”がテーブルに予め設定されたSN比に対する重み
係数を示し、これらを例えば直線に結んだものがここで
いう補間式である。直線によって結ぶ他に2次、3次の
高次の回帰式の補間式を求めてもよい。
ブル72から取り出したSN比に対数する重み値をもと
に、入力された音声信号と雑音信号の比(雑音信号/音
声信号)の補正係数を与える補間式を導出するものであ
る(図10の(イ)参照)。図10の(イ)で黒丸
“●”がテーブルに予め設定されたSN比に対する重み
係数を示し、これらを例えば直線に結んだものがここで
いう補間式である。直線によって結ぶ他に2次、3次の
高次の回帰式の補間式を求めてもよい。
【0039】テーブル72は、SN比(dB)に対する
重み係数を予め設定したものである。例え下記のように
設定する。 重み係数計算部73は、入力されたSN比(雑音信号/
音声信号)に対して、補間式導出部71で導出した補間
式を適用して重み係数を計算するものである。
重み係数を予め設定したものである。例え下記のように
設定する。 重み係数計算部73は、入力されたSN比(雑音信号/
音声信号)に対して、補間式導出部71で導出した補間
式を適用して重み係数を計算するものである。
【0040】以上によって、SN比に対応し、照合部3
によって辞書4から取り出した標準パターンと、音声ス
ペクトルとの照合を行う際に雑音の影響による重み付け
する重み係数を求めるようにしている。
によって辞書4から取り出した標準パターンと、音声ス
ペクトルとの照合を行う際に雑音の影響による重み付け
する重み係数を求めるようにしている。
【0041】図5は、本発明の重み係数算出部の構成図
(その2)を示す。これは、音声信号と雑音信号をもと
に、フレーム単位にチャネル毎にSN比を計算するもの
であって、SN比区間を決定して重み係数を算出する場
合の構成図である。
(その2)を示す。これは、音声信号と雑音信号をもと
に、フレーム単位にチャネル毎にSN比を計算するもの
であって、SN比区間を決定して重み係数を算出する場
合の構成図である。
【0042】図5において、SN比区間決定部74は、
テーブル72から取り出したSN比に対する重み値をも
とに、入力された音声信号と雑音信号の比(雑音信号/
音声信号)に補正係数を与える段階状のSN比区間を決
定するものである(図10の(ロ)参照)。図10の
(ロ)で黒丸“●”がテーブルに予め設定されたSN比
に対する重み係数を示し、これらを図示のように段階状
に直線で結び、これらの各SN比の区間に同一の重み係
数を与えるものである。これにより、上述した図4の構
成の補間式を導出して重み係数を求める場合に比し、計
算量を少なくできる。
テーブル72から取り出したSN比に対する重み値をも
とに、入力された音声信号と雑音信号の比(雑音信号/
音声信号)に補正係数を与える段階状のSN比区間を決
定するものである(図10の(ロ)参照)。図10の
(ロ)で黒丸“●”がテーブルに予め設定されたSN比
に対する重み係数を示し、これらを図示のように段階状
に直線で結び、これらの各SN比の区間に同一の重み係
数を与えるものである。これにより、上述した図4の構
成の補間式を導出して重み係数を求める場合に比し、計
算量を少なくできる。
【0043】テーブル72は、SN比(dB)に対する
重み係数を予め設定したものである。重み係数設定部7
5は、入力されたSN比(雑音信号/音声信号)に対し
て、SN比区間決定部74で決定したSN比区間毎に同
じ重み係数として設定するものである。
重み係数を予め設定したものである。重み係数設定部7
5は、入力されたSN比(雑音信号/音声信号)に対し
て、SN比区間決定部74で決定したSN比区間毎に同
じ重み係数として設定するものである。
【0044】以上によって、SN比をもとにテーブル7
2に設定されていたSN比と重み係数をもとにSN比区
間に同一の重み係数を与え、少ない計算量で迅速にSN
比から重み係数を計算するようにしている。
2に設定されていたSN比と重み係数をもとにSN比区
間に同一の重み係数を与え、少ない計算量で迅速にSN
比から重み係数を計算するようにしている。
【0045】図6は、本発明の照合部の構成図(その
1)を示す。これは、辞書4から取り出した標準パター
ンと、音声信号から生成した入力音声パターン(音声ス
ペクトル)とからチャネル毎の距離を計算し、これに重
み係数を演算処理してSN比に対応して距離に与える影
響度を補正し、その後に距離計算して最小の単語を音声
認識結果として出力するようにしたものである。
1)を示す。これは、辞書4から取り出した標準パター
ンと、音声信号から生成した入力音声パターン(音声ス
ペクトル)とからチャネル毎の距離を計算し、これに重
み係数を演算処理してSN比に対応して距離に与える影
響度を補正し、その後に距離計算して最小の単語を音声
認識結果として出力するようにしたものである。
【0046】図6において、チャネル距離計算部31
は、辞書4から取り出した標準パターンと、音声信号を
分析して生成した入力音声パターン(音声スペクトル)
とについて、フレームの各チャネル毎に両者の間の距離
を計算するものである。
は、辞書4から取り出した標準パターンと、音声信号を
分析して生成した入力音声パターン(音声スペクトル)
とについて、フレームの各チャネル毎に両者の間の距離
を計算するものである。
【0047】チャネル距離重み付け部331は、チャネ
ル距離計算部31で計算したフレームのチャネル毎の距
離に対して、チャネル毎の重み係数を演算処理(例えば
乗算処理)して重み付けを行うものである。
ル距離計算部31で計算したフレームのチャネル毎の距
離に対して、チャネル毎の重み係数を演算処理(例えば
乗算処理)して重み付けを行うものである。
【0048】単語距離計算部32は、チャネル距離重み
付け部331で重み付けした後、マッチング(例えばD
Pマッチングなど)によって標準パターンとの距離を計
算するものである。
付け部331で重み付けした後、マッチング(例えばD
Pマッチングなど)によって標準パターンとの距離を計
算するものである。
【0049】距離ソート部321は、単語距離計算部3
2によって計算した距離について、距離をソートして一
番距離が近いものを音声の認識結果として出力するもの
である。
2によって計算した距離について、距離をソートして一
番距離が近いものを音声の認識結果として出力するもの
である。
【0050】以上によって、辞書4から取り出した標準
パターンと、入力音声パターンとをフレームの各チャネ
ル毎に両者の距離を求め、これにチャネル毎の重み係数
を乗算などした後、単語の距離を求めて最小の単語を認
識結果として出力する。これにより、SN比を考慮して
音声認識を行うことができ、雑音が音声に含まれていて
も良好に音声認識を行うことが可能となる。
パターンと、入力音声パターンとをフレームの各チャネ
ル毎に両者の距離を求め、これにチャネル毎の重み係数
を乗算などした後、単語の距離を求めて最小の単語を認
識結果として出力する。これにより、SN比を考慮して
音声認識を行うことができ、雑音が音声に含まれていて
も良好に音声認識を行うことが可能となる。
【0051】図7は、本発明の照合部の構成図(その
2)を示す。これは、辞書4から取り出した標準パター
ンに重み係数を演算処理(例えば乗算)したものと、音
声信号に重み係数を演算処理(例えば乗算)したものと
から、チャネル毎の距離を計算し、次に単語毎の距離計
算して最小の単語を音声認識結果として出力するように
したものである。
2)を示す。これは、辞書4から取り出した標準パター
ンに重み係数を演算処理(例えば乗算)したものと、音
声信号に重み係数を演算処理(例えば乗算)したものと
から、チャネル毎の距離を計算し、次に単語毎の距離計
算して最小の単語を音声認識結果として出力するように
したものである。
【0052】図7において、入力重み付け部332は、
入力音声パターンに重み係数を演算処理(例えば乗算)
するものである。辞書重み付け部333は、辞書4から
取り出した標準パターンに重み係数を演算処理(例えば
乗算)するものである。
入力音声パターンに重み係数を演算処理(例えば乗算)
するものである。辞書重み付け部333は、辞書4から
取り出した標準パターンに重み係数を演算処理(例えば
乗算)するものである。
【0053】チャネル距離計算部31は、入力重み付け
部332によって重み係数を演算処理した入力音声パタ
ーンと、入力重み付け部333によって重み係数を演算
処理した標準パターンとについて、フレームの各チャネ
ル毎に両者の間の距離を計算するものである。
部332によって重み係数を演算処理した入力音声パタ
ーンと、入力重み付け部333によって重み係数を演算
処理した標準パターンとについて、フレームの各チャネ
ル毎に両者の間の距離を計算するものである。
【0054】単語距離計算部32は、チャネル距離計算
部31によって計算した後のフレームのチャネル毎の距
離をもとに、マッチング(例えばDPマッチングなど)
によって標準パターンとの距離を計算するものである。
部31によって計算した後のフレームのチャネル毎の距
離をもとに、マッチング(例えばDPマッチングなど)
によって標準パターンとの距離を計算するものである。
【0055】距離ソート部321は、単語距離計算部3
2によって計算した距離について、距離をソートして一
番距離が近いものを音声の認識結果として出力するもの
である。
2によって計算した距離について、距離をソートして一
番距離が近いものを音声の認識結果として出力するもの
である。
【0056】以上によって、辞書4から取り出した標準
パターンに重み係数を演算処理、入力音声パターンに重
み係数を演算処理した後に、フレームの各チャネル毎に
両者の距離を求め、次に単語の距離を求めて最小の単語
を認識結果として出力する。これにより、SN比を考慮
して音声認識を行うことができ、雑音が音声に含まれて
いても良好に音声認識を行うことが可能となる。
パターンに重み係数を演算処理、入力音声パターンに重
み係数を演算処理した後に、フレームの各チャネル毎に
両者の距離を求め、次に単語の距離を求めて最小の単語
を認識結果として出力する。これにより、SN比を考慮
して音声認識を行うことができ、雑音が音声に含まれて
いても良好に音声認識を行うことが可能となる。
【0057】図8は、本発明の入力信号の音声区間と雑
音区間の説明図を示す。これは、図2および図3の音声
区間および雑音区間の説明図である。図8の(a)は、
音声信号の時間対振幅の様子を模式的に示す。横軸が時
間、縦軸が音の振幅である。
音区間の説明図を示す。これは、図2および図3の音声
区間および雑音区間の説明図である。図8の(a)は、
音声信号の時間対振幅の様子を模式的に示す。横軸が時
間、縦軸が音の振幅である。
【0058】図8の(b)は、音声信号の対数パワーを
示す。横軸が時間、縦軸が対数パワーである。ここで、
対数パワーが予め設定した所定の閾値以上のときに図示
音声区間として検出する(図2、図3の音声区間検出部
12が検出する)。
示す。横軸が時間、縦軸が対数パワーである。ここで、
対数パワーが予め設定した所定の閾値以上のときに図示
音声区間として検出する(図2、図3の音声区間検出部
12が検出する)。
【0059】図8の(c)は、音声信号の対数パワーと
雑音区間を示す。これは、雑音区間として、図8の
(b)で決定した音声区間(閾値よりも対数パワーが大
の部分)の前方向に例えば50msの位置から所定時間
前の区間を雑音区間、あるいは音声区間の後方向に例え
ば50msの位置から処理時間の区間を雑音区間と決定
する(図3の雑音区間決定部14が決定する)。この図
8の(c)のように音声区間の前あるいは後で雑音区間
を決定することにより、図3のようにマイクロホンを1
本で音声信号および雑音信号の両者を検出することがで
きる。
雑音区間を示す。これは、雑音区間として、図8の
(b)で決定した音声区間(閾値よりも対数パワーが大
の部分)の前方向に例えば50msの位置から所定時間
前の区間を雑音区間、あるいは音声区間の後方向に例え
ば50msの位置から処理時間の区間を雑音区間と決定
する(図3の雑音区間決定部14が決定する)。この図
8の(c)のように音声区間の前あるいは後で雑音区間
を決定することにより、図3のようにマイクロホンを1
本で音声信号および雑音信号の両者を検出することがで
きる。
【0060】図9は、本発明の音声分析部/雑音分析部
の構成例を示す。これは、図1、音声分析部2および雑
音分析部5の構成例であって、音声や雑音からチャネル
毎のスペクトルを生成するものである。
の構成例を示す。これは、図1、音声分析部2および雑
音分析部5の構成例であって、音声や雑音からチャネル
毎のスペクトルを生成するものである。
【0061】BPF(1)ないしBPF(N)は、バン
ドパスフィルタであって、各帯域内の信号のみを抽出す
るものであって、ここではNチャネルのバンドパスフィ
ルタである。
ドパスフィルタであって、各帯域内の信号のみを抽出す
るものであって、ここではNチャネルのバンドパスフィ
ルタである。
【0062】DET(1)ないしDET(N)は、デタ
ミネートであって、BPF(1)ないしBPF(N)に
よって抽出された各チャネルの信号の絶対値を生成する
ものである。
ミネートであって、BPF(1)ないしBPF(N)に
よって抽出された各チャネルの信号の絶対値を生成する
ものである。
【0063】LPF(1)ないしLPF(N)は、ロー
パスフィルタであって、DET(1)ないしDET
(N)によって生成した絶対値の信号を整流するもので
ある。マルチプレクサは、選択回路であって、LPF
(1)ないしLPF(N)からのチャネル毎のスペクト
ルを順次シリアルに送出するためのものである。
パスフィルタであって、DET(1)ないしDET
(N)によって生成した絶対値の信号を整流するもので
ある。マルチプレクサは、選択回路であって、LPF
(1)ないしLPF(N)からのチャネル毎のスペクト
ルを順次シリアルに送出するためのものである。
【0064】この図9の構成によって、音声信号(ある
いは雑音信号)からチャネル毎の音声スペクトル(ある
いは雑音スペクトル)を生成する。図10は、本発明の
重み係数決定説明図を示す。ここで、黒丸“●”は、図
4および図5のテーブルに設定されているSN比と重み
係数の対応値を示す。
いは雑音信号)からチャネル毎の音声スペクトル(ある
いは雑音スペクトル)を生成する。図10は、本発明の
重み係数決定説明図を示す。ここで、黒丸“●”は、図
4および図5のテーブルに設定されているSN比と重み
係数の対応値を示す。
【0065】図10の(イ)は、図4で補完式を求める
ときの説明図を示す。これは、図4の補完式導出部71
が当該図10の(イ)の黒丸“●”の値(SN比と重み
係数との対応値)をテーブル72から読み出し、図示直
線に示すような補完式を求める。この補完式によって、
黒丸“●”以外の任意のSN比に対する重み係数を求め
ることが可能となる。
ときの説明図を示す。これは、図4の補完式導出部71
が当該図10の(イ)の黒丸“●”の値(SN比と重み
係数との対応値)をテーブル72から読み出し、図示直
線に示すような補完式を求める。この補完式によって、
黒丸“●”以外の任意のSN比に対する重み係数を求め
ることが可能となる。
【0066】図10の(ロ)は、図5でSN比区間を決
定するときの説明図を示す。これは、図5のSN比区間
決定部74が当該図10の(イ)の黒丸“●”の値(S
N比と重み係数との対応値)をテーブル72から読み出
し、図示実線の線分に示すように、各実線のSN比の区
間では同一の重み係数を与える。SN比区間を決定して
重み係数を決定することにより、SN比から重み係数を
簡単に算出することが可能となる。
定するときの説明図を示す。これは、図5のSN比区間
決定部74が当該図10の(イ)の黒丸“●”の値(S
N比と重み係数との対応値)をテーブル72から読み出
し、図示実線の線分に示すように、各実線のSN比の区
間では同一の重み係数を与える。SN比区間を決定して
重み係数を決定することにより、SN比から重み係数を
簡単に算出することが可能となる。
【0067】
【発明の効果】以上説明したように、本発明によれば、
雑音を含む音の音声信号および雑音信号をもとに各チャ
ネルのSN比を求め、辞書4から取り出した標準パター
ンと、音声パターンとの距離を求める際にこのSN比に
対応する重み係数を乗算などして雑音の度合を反映して
距離を計算し、距離が最も小さい単語を音声認識結果と
して出力する構成を採用しているため、雑音を多く含む
SN比の悪い音声でも良好に認識することができる。こ
れにより、各音声フレームの各チャネルにおいて、SN
比が悪く、類似度として信頼できないチャネルについて
最終的な入力音声と辞書との類似度として反映しにくく
なるので、SN比が悪い環境であっても正しく認識する
ことが可能となる。
雑音を含む音の音声信号および雑音信号をもとに各チャ
ネルのSN比を求め、辞書4から取り出した標準パター
ンと、音声パターンとの距離を求める際にこのSN比に
対応する重み係数を乗算などして雑音の度合を反映して
距離を計算し、距離が最も小さい単語を音声認識結果と
して出力する構成を採用しているため、雑音を多く含む
SN比の悪い音声でも良好に認識することができる。こ
れにより、各音声フレームの各チャネルにおいて、SN
比が悪く、類似度として信頼できないチャネルについて
最終的な入力音声と辞書との類似度として反映しにくく
なるので、SN比が悪い環境であっても正しく認識する
ことが可能となる。
【図1】本発明の原理構成図である。
【図2】本発明の音声・雑音入力部の構成図(その1)
である。
である。
【図3】本発明の本発明の音声・雑音入力部の構成図
(その2)である。
(その2)である。
【図4】本発明の重み係数算出部の構成図(その1)で
ある。
ある。
【図5】本発明の重み係数算出部の構成図(その2)で
ある。
ある。
【図6】本発明の照合部の構成図(その1)である。
【図7】本発明の照合部の構成図(その2)である。
【図8】本発明の入力信号の音声区間と雑音区間の説明
図である。
図である。
【図9】本発明の音声分析部/雑音分析部の構成例であ
る。
る。
【図10】本発明の重み係数設定説明図である。
【図11】従来技術の構成図である。
【図12】音声・雑音のパワースペクトルとSN比との
関係図である。
関係図である。
1:音声・雑音入力部 11、13:A/D変換部 12:音声区間検出部 14:雑音区間決定部 2:音声分析部 3:照合部 31:チャネル距離計算部 32:単語距離計算部 321:距離ソート部 33:重み付け部 331:チャネル距離重み付け部 332:入力重み付け部 333:辞書重み付け部 4:辞書 5:雑音分析部 6:SN比計算部 7:重み係数算出部 71:補間式導出部 72:テーブル 73:重み係数計算部 74:SN比区間決定部 75:重み係数設定部
Claims (5)
- 【請求項1】 音声を認識する音声認識方法において、 雑音を含む音声信号を分析してパワースペクトルを生成
する音声分析部(2)と、 雑音信号を分析してパワースペクトルを生成する雑音分
析部(5)と、 これら音声分析部(2)および雑音分析部(5)によっ
て分析したパワースペクトルをもとに、各チャネルのS
N比を計算するSN比計算部(6)とを備え、 このSN比計算部(6)によって求めた各チャネル毎の
SN比によって、上記音声分析部(2)によって分析し
たパワースペクトルの各チャネルに重みづけを行った
後、辞書(4)から取り出した単語の標準パターンとマ
ッチングして距離を求め、距離が最小の単語を認識結果
として出力するように構成したことを特徴とする音声認
識方法。 - 【請求項2】 マイクを2組設けて雑音を含む音声の音
声信号と雑音のみの雑音信号とを同時に取り出し、マッ
チングして距離を求めるように構成したことを特徴とす
る請求項第1項記載の音声認識方法。 - 【請求項3】 マイクを1組設けて雑音を含む音声の音
声信号とこの音声信号の前あるいは後から雑音信号を取
り出し、マッチングして距離を求めるように構成したこ
とを特徴とする請求項第1項記載の音声認識方法。 - 【請求項4】 上記各チャネル毎のSN比に対応して重
みづけを連続的に変化させるように構成したことを特徴
とする請求項第1項、第2項および第3項記載の音声認
識方法。 - 【請求項5】 上記各チャネル毎のSN比を複数に分割
してこれら分割した各SN比区間に所定の重みを付与す
るように構成したことを特徴とする請求項第1項、第2
項および第3項記載の音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3236695A JPH0573090A (ja) | 1991-09-18 | 1991-09-18 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3236695A JPH0573090A (ja) | 1991-09-18 | 1991-09-18 | 音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0573090A true JPH0573090A (ja) | 1993-03-26 |
Family
ID=17004402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3236695A Pending JPH0573090A (ja) | 1991-09-18 | 1991-09-18 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0573090A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007010897A (ja) * | 2005-06-29 | 2007-01-18 | Toshiba Corp | 音響信号処理方法、装置及びプログラム |
JP4764995B2 (ja) * | 1999-08-16 | 2011-09-07 | キューエヌエックス ソフトウェア システムズ コーポレイション | 雑音を含む音響信号の高品質化 |
WO2023182016A1 (ja) * | 2022-03-22 | 2023-09-28 | パナソニックIpマネジメント株式会社 | 音声認証装置および音声認証方法 |
-
1991
- 1991-09-18 JP JP3236695A patent/JPH0573090A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4764995B2 (ja) * | 1999-08-16 | 2011-09-07 | キューエヌエックス ソフトウェア システムズ コーポレイション | 雑音を含む音響信号の高品質化 |
JP2007010897A (ja) * | 2005-06-29 | 2007-01-18 | Toshiba Corp | 音響信号処理方法、装置及びプログラム |
WO2023182016A1 (ja) * | 2022-03-22 | 2023-09-28 | パナソニックIpマネジメント株式会社 | 音声認証装置および音声認証方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4100370A (en) | Voice verification system based on word pronunciation | |
CA1227286A (en) | Speech recognition method and apparatus thereof | |
EP0237934B1 (en) | Speech recognition system | |
EP0077194B1 (en) | Speech recognition system | |
EP1159737B1 (en) | Speaker recognition | |
JP4816711B2 (ja) | 通話音声処理装置および通話音声処理方法 | |
US6032115A (en) | Apparatus and method for correcting the difference in frequency characteristics between microphones for analyzing speech and for creating a recognition dictionary | |
US8155327B2 (en) | Tone detector and method used in a robot for detecting a tone | |
JPH0573090A (ja) | 音声認識方法 | |
JP2992324B2 (ja) | 音声区間検出方法 | |
JPH04324499A (ja) | 音声認識装置 | |
JPH0556520B2 (ja) | ||
JP2989231B2 (ja) | 音声認識装置 | |
JPS63278100A (ja) | 音声認識装置 | |
JP3027389B2 (ja) | 2値化パターン生成方式 | |
KR940005047B1 (ko) | 음성전이구간 검출기 | |
JPH02178699A (ja) | 音声認識装置 | |
JPS63266497A (ja) | 音声認識装置 | |
JP3450972B2 (ja) | パターン認識装置 | |
JPS62113197A (ja) | 音声認識装置 | |
JP3065691B2 (ja) | 音声認識装置 | |
JPH04343399A (ja) | 音声特徴量抽出方式及び音声認識装置 | |
JPH04362700A (ja) | 音声認識装置 | |
JPS6258516B2 (ja) | ||
JPH0448400B2 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20001003 |