JPH0194398A

JPH0194398A - 音声標準パターンの作成方法

Info

Publication number: JPH0194398A
Application number: JP62252143A
Authority: JP
Inventors: Toshiyuki Morii; 利幸森井; Katsuyuki Futayada; 二矢田　勝行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1987-10-06
Filing date: 1987-10-06
Publication date: 1989-04-13

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声データを認識する装置に用いられる音声標
準パターンの作成方法に関するものである。

従来の技術現在の音声認識システムの機能ブロック図は第３図に示
す通りである。まず、マイク入力された音声信号１１に
ＬＰＣ分析、フィルタ分析などの音響分析を音響分析部
１２でほどこし、特徴パラメータを含む数々の情報を抽
出する。次にセグメンテーション部１３において子音の
セグメンテーションを行なった後、音素判別部１４にお
いて、標準パターン格納部３１に格納された各音素の標
準パターンとマツチングを行ない、音素を判別して音素
系列を作る。そして音素系列作成部１５において、前影
規則格納部３３に格納された奇形規則と照しあわせて修
正を加え、最終的な音素系列を作成し、この音素系列と
単語辞書部３２内の単語辞書の各々とのマツチングを単
語マツチング部１６で行なって、類似度の一番大きいも
のを認識結果１７とする。

ここで、音素判別のマツチングに用いられる標準パター
ンは、従来第４図に示すような方法で作られていた。ま
ず防音室内でマイク入力１８された音声をＡ／Ｄ変換部
１９でＡ／Ｄ変換したものを多人数分収録して音声デー
タベース２０を作る。

次に音響分析部２１で音響分析を行ない、特徴パラメー
タを抽出する。一方音響分析部２１により得られた情報
をもとに人が目視によってそれぞれのデータに対して音
素のラベリング２２を行ない、ラベリングデータベース
２３を作成し、標準パターン作成部２４において特徴パ
ラメータから抽出されたデータとあわせて標準パターン
２５を作成する。

発明が解決しようとする問題点音声認識システムの実用化に際しては、その音声データ
が認識装置に入るまでの環境の問題が不可避である。今
までの標準パターン作成システムでは、標準パターンは
防音室でマイク入力された音声データをもとに作られて
おり１．この標準パターンを用いた場合にはたして環境
によって歪を生じた音声を認識できるかという問題があ
る。特に、電話音声に関しては、フィルタによる帯域制
限、回線歪による影響が大きい。実際に、今までの標準
パターンで電話回線を通した音声データを評価してみる
と、かなり認識率が悪くなった。このために、その環境
に適合した標準パターンを作る必要がある。しかし、そ
の標準パターンを作るためには、再び、膨大な量のその
環境下における音声データを発声し、加えて、多大な労
働力を用いてラベリングを行なわなくてはならない。

本発明は、上記のような環境に適した標準パターンを能
率的に作り、その音声認識率向上を目的とするものであ
る。

問題点を解決するための手段本発明は、上記目的を達成するもので、その技術的な手
段は人間が発声するかわりに、図４の２０の音声データ
ベースを例えば人工口（人が発声したのと同じ状態を作
り出すための特性を備えたスピーカシステム）のような
擬似的な回路系を通してその環境下に発声し、再びとり
込んだデータをその環境情報を含んだ音声データベース
として標準パターンを作ることにより、環境に適合した
音声認識を行なうことが出来るようにしたものである。

作用本発明は上記構成により、環境に適合した音声認識を行
なうための標準パターンを従来の音声データベースから
作ることが出来、しかもラベリングデータベースも従来
のものをそのまま適用出来ることから、多大な労働力の
節約にもつながる。

実施例第１図は、本発明の一実施例における音声標準パターン
の作成方法を具現化する電話用標準パターン作成システ
ムの機能ブロック図である。各ブロックの説明を以下に
述べる。

音声源としては、従来の標準作成システムにおける、２
４ＫＨｚサンプリングの音声データベースを使用する。

まず、その音声データを、ミニコンピータ１からＤ／Ａ
変換器２に送る。Ｄ／Ａ変換器２では、Ｄ／Ａ変換を行
ない、音声データをアナログ信号に変換する。Ｄ／Ａ変
換された音声信号を８０〜１２ＫＨ２の帯域フィルタ３
に通して、Ｄ／Ａ変換によって生ずる高域歪を取り除く
。人工口４（人が発声したのと同じ状態を作り出すため
の特性を清えたスピーカーシステム）から音声信号を出
力させる。あらかじめ、送話器は人工口４との距離と角
度をはかつて固定しておき、人が送話器を握って発声し
た状態と同じ環境下で発声させる。人工口４から発声さ
れた音声は、送話器から構内回線に入り、構内回線交換
機５（利用者の構内または建物内に利用者自身によって
設置される交換設備）を経て、回線インタフェース５′
に入る。この時、音声信号に、回線歪やノイズなどの環
境情報が入り込む。次に上記信号を２００〜３．４ＫＨ
ｚ　　の電話帯域フィルタ６に通して、受話器に送られ
る信号と同じものを作る。更にＡ／Ｄ変換器によりＡ／
Ｄ変換を行ない、アナログ信号をデジタル信号に変換す
る。Ａ／Ｄ変換された信号をミニコンピユータ１に入力
して、８ＫＨｚ　　サンプリングの新・音声データベー
スを作る。新・音声データに対して、音響分析部９にて
ＬＰＯケプヌトラム分析、フィルタ分析などの音響分析
を行ない、特徴パラメータなどの情報を抽出する。

従来の方法では、人が目視によってラベリングを行なっ
てデータベースを作る必要があったが、発声音が同じも
のであるから、回線や装置による遅延時間を補正するこ
とにより、従来のラベリングデータベースがそのまま適
用できる。そこで、音響分析によって抽出されたデータ
とラベリングデータから新・標準パターンを標準パター
ン作成部１０で作成する。この新・標準パターンを、音
声認識システムにおける音素判別に用いることにより、
電話回線という環境に適合した音声認識を行なうことが
出来る。

次に、音素判別結果の一例として、母音の評価の例を上
げる。第２図は男女６人ずつに対して、音素／ａ、０、
ｕ　ｓ　　Ｉ　ｓ　　ｅ　／の識別を行なった結果であ
る。１２人それぞれの音声データに対して従来の標準パ
ターンによる認識率と新・標準パターンによる認識率と
を比べてみると、第２図のように、最大で８チ平均３．
５チ認識率が向上した。

また、鼻音と母音をまぜた音素の判別では、平均６チの
向上、また子音の認識においては平均１０チも改善され
ている（鼻音・母音と子音に関しては、男女１０人ずつ
の認識結果をもとにした数値である）。

また、第１図の構内回線交換機５を他の環境に置き換え
ることにより、さまざまな環境下における音声認識を行
なうための標準パターンを作ることが出来る。

発明の効果以上のように本発明は、種々の環境に適合した標準パタ
ーンを音素ラベルが付された原音声データから作成でき
るため従来、新しい環境に適合した標準パターン作成時
に行なっていた、人による発声と収録ならびに人の目視
によるラベリングに要する多大な労働力が不要となり、
本発明の効果は大きい。

【図面の簡単な説明】

第１図は本発明の一実施例における音声標準パターンの
作成方法を具現化する電話用標準パターン作成システム
の機能ブロック図、第２図は本実施例の母音認識結果を
示す図、第３図は現在の音声認識システムの機能ブロッ
ク図、第４図は従来の音声標準パターン作成システムの
機能ブロック図である。１・・・ミニコンピユータ、２・・・Ｄ／Ａ　ｆｆｉ換
器、３・・・フィルタ、４・・・人工口、５・・・構内
回線交換機、５′・・・回線インターフェース、６・・
・フィルタ、７・・・Ａ／Ｄ変換器、９・・・音響分析
部、１０・・・標準パターン作成部。代理人の氏名　弁理士　中　尾　敏　男　ほか１名Ｍｌ
　　図ＭＡＮ　　Ｎｏ。第３Ｗ１１／　　入力音声／７　　慄３眸晴果

Claims

【特許請求の範囲】

（１）あらかじめ音素ラベルが付してある、第一の音声
データを擬似的な回線系に通したものを収録して第二の
音声データを作成し、第二の音声データと前記音素ラベ
ルを用いて擬似的に環境に適合した音声標準パターンを
作成することを特徴とする音声標準パターンの作成方法
。
（２）擬似的な回線系が、人間の発声条件を模擬したス
ピーカーシステム、電話の送話器、電話回線、交換機を
含むことを特徴とする特許請求の範囲第１項記載の音声
標準パターンの作成方法。