JPH0194398A - 音声標準パターンの作成方法 - Google Patents

音声標準パターンの作成方法

Info

Publication number
JPH0194398A
JPH0194398A JP62252143A JP25214387A JPH0194398A JP H0194398 A JPH0194398 A JP H0194398A JP 62252143 A JP62252143 A JP 62252143A JP 25214387 A JP25214387 A JP 25214387A JP H0194398 A JPH0194398 A JP H0194398A
Authority
JP
Japan
Prior art keywords
standard pattern
environment
speech
data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62252143A
Other languages
English (en)
Inventor
Toshiyuki Morii
利幸 森井
Katsuyuki Futayada
二矢田 勝行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP62252143A priority Critical patent/JPH0194398A/ja
Publication of JPH0194398A publication Critical patent/JPH0194398A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声データを認識する装置に用いられる音声標
準パターンの作成方法に関するものである。
従来の技術 現在の音声認識システムの機能ブロック図は第3図に示
す通りである。まず、マイク入力された音声信号11に
LPC分析、フィルタ分析などの音響分析を音響分析部
12でほどこし、特徴パラメータを含む数々の情報を抽
出する。次にセグメンテーション部13において子音の
セグメンテーションを行なった後、音素判別部14にお
いて、標準パターン格納部31に格納された各音素の標
準パターンとマツチングを行ない、音素を判別して音素
系列を作る。そして音素系列作成部15において、前影
規則格納部33に格納された奇形規則と照しあわせて修
正を加え、最終的な音素系列を作成し、この音素系列と
単語辞書部32内の単語辞書の各々とのマツチングを単
語マツチング部16で行なって、類似度の一番大きいも
のを認識結果17とする。
ここで、音素判別のマツチングに用いられる標準パター
ンは、従来第4図に示すような方法で作られていた。ま
ず防音室内でマイク入力18された音声をA/D変換部
19でA/D変換したものを多人数分収録して音声デー
タベース20を作る。
次に音響分析部21で音響分析を行ない、特徴パラメー
タを抽出する。一方音響分析部21により得られた情報
をもとに人が目視によってそれぞれのデータに対して音
素のラベリング22を行ない、ラベリングデータベース
23を作成し、標準パターン作成部24において特徴パ
ラメータから抽出されたデータとあわせて標準パターン
25を作成する。
発明が解決しようとする問題点 音声認識システムの実用化に際しては、その音声データ
が認識装置に入るまでの環境の問題が不可避である。今
までの標準パターン作成システムでは、標準パターンは
防音室でマイク入力された音声データをもとに作られて
おり1.この標準パターンを用いた場合にはたして環境
によって歪を生じた音声を認識できるかという問題があ
る。特に、電話音声に関しては、フィルタによる帯域制
限、回線歪による影響が大きい。実際に、今までの標準
パターンで電話回線を通した音声データを評価してみる
と、かなり認識率が悪くなった。このために、その環境
に適合した標準パターンを作る必要がある。しかし、そ
の標準パターンを作るためには、再び、膨大な量のその
環境下における音声データを発声し、加えて、多大な労
働力を用いてラベリングを行なわなくてはならない。
本発明は、上記のような環境に適した標準パターンを能
率的に作り、その音声認識率向上を目的とするものであ
る。
問題点を解決するための手段 本発明は、上記目的を達成するもので、その技術的な手
段は人間が発声するかわりに、図4の20の音声データ
ベースを例えば人工口(人が発声したのと同じ状態を作
り出すための特性を備えたスピーカシステム)のような
擬似的な回路系を通してその環境下に発声し、再びとり
込んだデータをその環境情報を含んだ音声データベース
として標準パターンを作ることにより、環境に適合した
音声認識を行なうことが出来るようにしたものである。
作用 本発明は上記構成により、環境に適合した音声認識を行
なうための標準パターンを従来の音声データベースから
作ることが出来、しかもラベリングデータベースも従来
のものをそのまま適用出来ることから、多大な労働力の
節約にもつながる。
実施例 第1図は、本発明の一実施例における音声標準パターン
の作成方法を具現化する電話用標準パターン作成システ
ムの機能ブロック図である。各ブロックの説明を以下に
述べる。
音声源としては、従来の標準作成システムにおける、2
4KHzサンプリングの音声データベースを使用する。
まず、その音声データを、ミニコンピータ1からD/A
変換器2に送る。D/A変換器2では、D/A変換を行
ない、音声データをアナログ信号に変換する。D/A変
換された音声信号を80〜12KH2の帯域フィルタ3
に通して、D/A変換によって生ずる高域歪を取り除く
。人工口4(人が発声したのと同じ状態を作り出すため
の特性を清えたスピーカーシステム)から音声信号を出
力させる。あらかじめ、送話器は人工口4との距離と角
度をはかつて固定しておき、人が送話器を握って発声し
た状態と同じ環境下で発声させる。人工口4から発声さ
れた音声は、送話器から構内回線に入り、構内回線交換
機5(利用者の構内または建物内に利用者自身によって
設置される交換設備)を経て、回線インタフェース5′
に入る。この時、音声信号に、回線歪やノイズなどの環
境情報が入り込む。次に上記信号を200〜3.4KH
z  の電話帯域フィルタ6に通して、受話器に送られ
る信号と同じものを作る。更にA/D変換器によりA/
D変換を行ない、アナログ信号をデジタル信号に変換す
る。A/D変換された信号をミニコンピユータ1に入力
して、8KHz  サンプリングの新・音声データベー
スを作る。新・音声データに対して、音響分析部9にて
LPOケプヌトラム分析、フィルタ分析などの音響分析
を行ない、特徴パラメータなどの情報を抽出する。
従来の方法では、人が目視によってラベリングを行なっ
てデータベースを作る必要があったが、発声音が同じも
のであるから、回線や装置による遅延時間を補正するこ
とにより、従来のラベリングデータベースがそのまま適
用できる。そこで、音響分析によって抽出されたデータ
とラベリングデータから新・標準パターンを標準パター
ン作成部10で作成する。この新・標準パターンを、音
声認識システムにおける音素判別に用いることにより、
電話回線という環境に適合した音声認識を行なうことが
出来る。
次に、音素判別結果の一例として、母音の評価の例を上
げる。第2図は男女6人ずつに対して、音素/a、0、
u s  I s  e /の識別を行なった結果であ
る。12人それぞれの音声データに対して従来の標準パ
ターンによる認識率と新・標準パターンによる認識率と
を比べてみると、第2図のように、最大で8チ平均3.
5チ認識率が向上した。
また、鼻音と母音をまぜた音素の判別では、平均6チの
向上、また子音の認識においては平均10チも改善され
ている(鼻音・母音と子音に関しては、男女10人ずつ
の認識結果をもとにした数値である)。
また、第1図の構内回線交換機5を他の環境に置き換え
ることにより、さまざまな環境下における音声認識を行
なうための標準パターンを作ることが出来る。
発明の効果 以上のように本発明は、種々の環境に適合した標準パタ
ーンを音素ラベルが付された原音声データから作成でき
るため従来、新しい環境に適合した標準パターン作成時
に行なっていた、人による発声と収録ならびに人の目視
によるラベリングに要する多大な労働力が不要となり、
本発明の効果は大きい。
【図面の簡単な説明】
第1図は本発明の一実施例における音声標準パターンの
作成方法を具現化する電話用標準パターン作成システム
の機能ブロック図、第2図は本実施例の母音認識結果を
示す図、第3図は現在の音声認識システムの機能ブロッ
ク図、第4図は従来の音声標準パターン作成システムの
機能ブロック図である。 1・・・ミニコンピユータ、2・・・D/A ffi換
器、3・・・フィルタ、4・・・人工口、5・・・構内
回線交換機、5′・・・回線インターフェース、6・・
・フィルタ、7・・・A/D変換器、9・・・音響分析
部、10・・・標準パターン作成部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名Ml
  図 MAN  No。 第3W1 1/  入力音声 /7  慄3眸晴果

Claims (2)

    【特許請求の範囲】
  1. (1)あらかじめ音素ラベルが付してある、第一の音声
    データを擬似的な回線系に通したものを収録して第二の
    音声データを作成し、第二の音声データと前記音素ラベ
    ルを用いて擬似的に環境に適合した音声標準パターンを
    作成することを特徴とする音声標準パターンの作成方法
  2. (2)擬似的な回線系が、人間の発声条件を模擬したス
    ピーカーシステム、電話の送話器、電話回線、交換機を
    含むことを特徴とする特許請求の範囲第1項記載の音声
    標準パターンの作成方法。
JP62252143A 1987-10-06 1987-10-06 音声標準パターンの作成方法 Pending JPH0194398A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62252143A JPH0194398A (ja) 1987-10-06 1987-10-06 音声標準パターンの作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62252143A JPH0194398A (ja) 1987-10-06 1987-10-06 音声標準パターンの作成方法

Publications (1)

Publication Number Publication Date
JPH0194398A true JPH0194398A (ja) 1989-04-13

Family

ID=17233075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62252143A Pending JPH0194398A (ja) 1987-10-06 1987-10-06 音声標準パターンの作成方法

Country Status (1)

Country Link
JP (1) JPH0194398A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05100693A (ja) * 1991-04-11 1993-04-23 Internatl Business Mach Corp <Ibm> 音声認識用コンピユータ・システム
JP2002278590A (ja) * 2001-03-15 2002-09-27 Ricoh Co Ltd 音声認識モデル作成装置、音声認識モデル作成方法、音声認識装置、音声認識方法、音声認識システム及び記録媒体
JP2003099082A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体
US7487084B2 (en) * 2001-10-30 2009-02-03 International Business Machines Corporation Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05100693A (ja) * 1991-04-11 1993-04-23 Internatl Business Mach Corp <Ibm> 音声認識用コンピユータ・システム
JPH0743599B2 (ja) * 1991-04-11 1995-05-15 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識用コンピュータ・システム
JP2002278590A (ja) * 2001-03-15 2002-09-27 Ricoh Co Ltd 音声認識モデル作成装置、音声認識モデル作成方法、音声認識装置、音声認識方法、音声認識システム及び記録媒体
JP2003099082A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体
US7487084B2 (en) * 2001-10-30 2009-02-03 International Business Machines Corporation Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle

Similar Documents

Publication Publication Date Title
JPS6147440B2 (ja)
JPH10507536A (ja) 言語認識
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
JPH07509077A (ja) スピーチを変換する方法
Mishra et al. An Overview of Hindi Speech Recognition
JPH0194398A (ja) 音声標準パターンの作成方法
JPH0340177A (ja) 音声認識装置
JP3277579B2 (ja) 音声認識方法および装置
JPH09198085A (ja) 電話をベースとする音声認識用時変特徴スペース処理手順
JPH10116093A (ja) 音声認識装置
JPH10133678A (ja) 音声再生装置
JPH08110790A (ja) 音声認識装置
Blomberg et al. Word recognition using synthesized reference templates
KR100304788B1 (ko) 연속 음성 인식을 이용한 전화번호 안내 방법
Waardenburg et al. The automatic recognition of stop consonants using hidden Markov models
Iwamida et al. Discrimination of stop consonants using a data‐driven analysis
Udagawa et al. Automatic speech recognition based on findings of the human processes of speech perception
Tillmann et al. The difference between acoustic and auditory parameter signals as a cue for phonetic segmentation and categorization
Tarasiev et al. Development of a method and software system for dialogue in real time.
Akintola et al. Speech Processing Algorithm for Automatic Speaker Recognition-Based Telephone Voice Dialing in Yorùbá
Sahu et al. Odia isolated word recognition using DTW
JP2002287791A (ja) 専門家システムを用いた音声認識基盤の知能型対話装置及びその方法
JPH11175087A (ja) 単語音声認識の文字列マッチング法
JP2003323191A (ja) 音声対応インターネットホームページのアクセスシステム