JPH0792990A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH0792990A
JPH0792990A JP5239494A JP23949493A JPH0792990A JP H0792990 A JPH0792990 A JP H0792990A JP 5239494 A JP5239494 A JP 5239494A JP 23949493 A JP23949493 A JP 23949493A JP H0792990 A JPH0792990 A JP H0792990A
Authority
JP
Japan
Prior art keywords
voice
speech
telephone
signal
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5239494A
Other languages
English (en)
Inventor
Junichi Takahashi
淳一 高橋
Mizuhiro Hida
瑞広 飛田
Hiromi Nagashima
広海 長島
Noboru Kanmura
昇 管村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5239494A priority Critical patent/JPH0792990A/ja
Publication of JPH0792990A publication Critical patent/JPH0792990A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 実際のシステムまたはサービスに適用されて
いる音声信号の認識を利用者を煩わすことなく確実に行
う。 【構成】 電話音声に適用した例を述べる。音声信号の
品質劣化要因として、周波数帯域の制限、伝送路の周波
数特性、回線ノイズ、背景ノイズ、各ひな形となる特性
を示すテンプレートを作成し(S2 )、これらテンプレ
ートを網羅する組合せを作り(S4 )、その組合せの特
性を、既存の音声認識の学習音声データベースの高品質
音声データに分析処理の過程で作用させて模擬音声を作
り(S5 )、その模擬音声を用いて隠れマルコフモデル
を作り(S6 )、そのモデルを用いて未知の電話音声を
認識する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音声信号の入力手段
や伝送手段における周波数帯域制限や周波数特性、発声
環境の背景雑音や音声信号伝送路の雑音などの、種々の
特性の影響を受けた音声信号に対する音声認識方法に関
する。
【0002】
【従来の技術】従来の音声認識方式では、周波数帯域幅
が広く、S/N比の高い、すなわち、何の外的な信号の
変形の影響を受けていない、高品質の音声信号に対する
認識方法の研究・開発が中心に進められてきた。現在最
もよく用いられているのは、音声信号を確率・統計理論
に基づいてモデル化する、隠れマルコフモデル法(Hidd
en Markov Model,以後HMM法と呼ぶ)である。このH
MM法の詳細は、例えば、社団法人電子情報通信学会
編、中川聖一著『確率モデルによる音声認識』に開示さ
れている。
【0003】HMM法による音声認識処理のフローを図
4に示す。HMM法の処理には、大別して2つのフェー
ズがある。1つは“学習”であり、もう1つは“探索”
である。“学習”のフェーズでは、図4中のスイッチ1
0,11は、それぞれA側を選択する。そして、色々な
音韻/音素/音節/単語などに対する音声信号が蓄積さ
れた音声データベースのデータを用いて、各音韻/音素
/音節/単語などの音響的な性質を表現するモデルをH
MM法の学習アルゴリズムに基づいて求める。このモデ
ルを求める過程において用いられる信号は、分析処理に
よって音声信号から抽出された特徴パラメータの時系列
である。この過程は、図4ではスイッチ10,11を共
にA側に接続して、音声データベース12から分析処理
部13へ音声信号データを入力し、分析処理部13の出
力結果、すなわち音声データベース12の音声信号デー
タの特徴パラメータデータを学習処理部14へ入力す
る。図4において、学習によって最終的に得られるすべ
てのモデルを蓄積するHMMセット15から学習処理部
14への矢印は、学習すべきHMMのモデル構造(状態
数、状態間の遷移形式など)とモデルパラメータ(状態
遷移確率、シンボル出力確率、初期状態確率)の初期値
を学習処理の実行時に設定することを示している。分析
処理部13における信号処理としてよく用いられるの
は、線形予測分析(Linear Predictive Coding, LPC
と呼ばれる)であり、特徴パラメータとしては、LPC
ケプストラム、メルケプストラム、対数パワーなどがあ
る。このような学習処理によって求められた各音韻/音
素/音節などのモデルはHMMセット15の要素として
蓄積され、このHMMセット15が音声データベース1
2で現れるすべての音響現象を表現する。
【0004】“探索”のフェーズでは、図4中のスイッ
チ10,11はそれぞれB側を選択する。そして、入力
される未知の音声信号は、分析処理部13によって特徴
パラメータの時系列に変換され、その特徴パラメータデ
ータの時系列がHMMセット15のどのモデル(モデル
が音韻/音素/音節の場合はそれらの組合せ)に最も類
似しているかをHMM法の探索処理のアルゴリズムに基
づいて探索処理部16で求め、その結果を認識結果とす
る。
【0005】
【発明が解決しようとする課題】従って、HMM法を用
いた音声認識では、認識対象とする音声信号に対する情
報として、モデルの学習用の音声データを収集する必要
がある。これまでにも、色々な音声データベースが存在
するが、そのほとんどが高品質音声のデータベースであ
る。
【0006】音声認識の実際面での応用を想定すると、
実環境下での音声の使用が自然であることから、実使用
環境で発声された音声の認識技術が切に望まれている。
実環境下では、音声信号は様々な雑音、様々な周波数帯
域制限、様々な伝送損失特性並びに周波数特性をもった
音声信号伝送路(例えば、電話網)の影響を受けて変形
されるだけでなく、音声以外の音響信号(伝送路の雑
音、背景雑音など)が重畳されて、その音声品質が著し
く劣化するため、音声認識率が大きく低下するという問
題がある。また、先に説明したように認識の基本的アル
ゴリズムの前提により、学習用として必要となる音声デ
ータが高品質のものがほとんどである現状から、実環境
下での認識を実現するためには、その使用環境下での音
声信号を収集し、データベース化しなければならない。
しかし、複雑かつ多種の音声品質を劣化させる要因をす
べて含んだような音声データを収集、編集するのは困難
なばかりでなく、多大の時間と労力を必要とするという
問題がある。
【0007】このような問題に対処する方法として、従
来、高品質な音声データを用いて学習した認識対象の音
声信号に対するモデルを、実使用環境の様々な要因によ
って品質劣化した音声信号を表現できるように、合わせ
込んでいくという『適応化』という手法がある。この方
法は、実使用環境での大量の音声データの収集を必要と
しないという利点がある。しかし、あらかじめ用意して
おいた認識対象となる音声信号のモデルを、実使用環境
の音声信号に合わせ込むために、認識を行う直前に、そ
の音声認識処理が行われる系における実使用環境の影響
を受けた音声信号データを獲得して、獲得した音声信号
データを用いた学習により、あらかじめ用意されている
高品質音声データから学習して求められたモデルに対し
て、適応化のためのモデルのパラメータの調整が必要で
ある。
【0008】実際のシステムやサービスなどへこのよう
な従来の方法を適用すると、モデルの適応化を行うため
の学習に必要となる音声信号データの発声をユーザ(利
用者)に要求することが不可欠であり、ユーザはシステ
ムの音声認識機能を利用するに当たって、余分な発声を
強いられることになる。従って、システムとユーザとの
マン−マシン・インタフェースの悪化をまねく。また、
適応化のための音声信号データが獲得できても、それを
用いて適応化のための学習によりモデルを合わせ込むた
めのパラメータ計算という前処理が必要である。音声信
号を劣化させる諸要因が複数の場合は、その影響を適応
化の学習に反映するためにかなりの量の音声データが必
要となり、その結果、この前処理に要する処理時間のオ
ーバヘッドが生じ、音声認識処理に必要不可欠な実時間
処理の実現を妨げる原因になるという問題がある。ま
た、この適応化のための学習に要する音声データ量も定
量的に決めることは困難であるため、多くの音声データ
を必要とすれば、ユーザへのこれらの音声データの発声
の負荷は一層重いものとなるといった問題も生じる可能
性がある。
【0009】この発明の目的は、実際面でのシステムや
サービスへの音声認識技術の応用を実現する場合に、シ
ステムやサービスのユーザに余分な発声を強いるといっ
た煩わしさを与えることなく、実使用環境で音声信号に
色々な変形の影響を及ぼす、音声信号の入力や伝送にお
ける周波数帯域制限や周波数特性、発声環境での背景雑
音や音声信号伝送路の雑音などの諸要因による音声認識
率劣化の問題を克服して、高い認識性能を得ることがで
きる実用的な音声認識方法を提供することにある。
【0010】
【課題を解決するための手段】この発明の方法は2種類
の手続きから構成される。1つは、図1の上半分に示さ
れる手続きで、この過程では対象とするシステム(また
は系)における音声品質の劣化要因をすべて抽出し(S
1 ),これら抽出した各劣化要因ごとにどのような特性
が存在しうるかを特定してそのテンプレートを作成する
(S2 )。各要因のテンプレートは現われうる特性をす
べて表現するものであるので、その中に互いに異なる特
性が存在する場合は、テンプレートの個数は複数とな
り、すべての要因の抽出を行う(S3 )。対象とするシ
ステムの実使用環境においては、各要因は互いに独立に
音声信号に同時に影響を及ぼすと想定されるので、音声
信号に対してすべての要因が同時に作用した場合の品質
劣化の特性は、各要因のテンプレートを網羅する形式
で、すべての要因に対するすべてのテンプレートの組合
せを作成することによって表現される。このため抽出し
た諸要因のすべてのテンプレートのすべての組合せを作
成する(S4 )。
【0011】もう1つの手続きは、図1の下半分に示さ
れる手続きである。この過程では、前述の手続きで得ら
れた各テンプレートの組合せが表わす品質劣化の特性
を、高品質音声信号に作用させて、その特性の影響をう
けた音声信号を模擬的に作成する(S5 )。この模擬音
声信号は、すべてのテンプレートの組合せに対して各々
作成する。各模擬音声は、音声信号処理の手法を用い
て、高品質音声信号データに各テンプレートの組合せに
対応する特性を作用させて作成する。得られたすべての
模擬音声は、対象とするシステム(または系)における
実使用環境で出現する可能性のある品質劣化の影響を受
けた音声信号のすべての場合をつくしているので、これ
が対象とするシステム(または系)の音声信号に対する
音声信号データベースとみなすことができる。従って、
得られたすべての模擬音声信号データを用いて認識対象
となる音声信号に対するモデルを学習し(S6 ),その
モデルの学習を終了した後(S7 ),その学習により得
られたすべてのモデルからなるモデルセットをそのシス
テム(または系)における音声信号のモデルとして用い
て、未知の音声信号を認識することができる(S8 )。
こゝで高品質音声信号データとは周波数成分に対する制
限がなされず、かつS/Nが非常に高いもので、例えば
帯域100Hz〜7(または8)KHzであり、かつ周波数
特性が平坦で歪みがなく、S/Nが30〜40dB以上の
条件で収録されたものである。
【0012】
【作用】この発明は、対象とするシステム(または系)
における音声品質劣化の各要因に対して、生じうるすべ
ての特性をいくつかのひな形の特性に分類してそれをテ
ンプレートとし、すべての品質劣化要因が重畳した特性
を要因ごとに作成したテンプレートの組合せで表し、各
組合せに対応する特性を信号処理を用いて高品質音声信
号データに作用させて、品質劣化要因が重畳した音声信
号を模擬することによって、対象とするシステムの実使
用環境での音声信号データを事前に作成することによ
り、システム使用時の大量の音声データを収集・編集す
る多大の時間と労力を削減し、現在ほゞ整備されてきた
高品質音声データベースを有効利用し、マン−マシン・
インタフェースの向上が図れる。
【0013】
【実施例】現在音声認識のアルゴリズムとして最もよく
用いられているHMM法を用いた電話音声の認識に対す
るこの発明の方法の適用例を説明する。電話音声の認識
に対してこの発明の方法を適用した場合のHMMの学習
と探索処理のフローを図2に示し、図3と対応する部分
に同一符号を示し、また図3に対し、この実施例では付
加された部分に破線で囲まれた部分22であって、この
例では電話音声に対する音声品質劣化の要因をテンプレ
ート化した例を示している。
【0014】この発明の方法を用いた電話音声の品質劣
化要因の抽出とそのテンプレートの作成について、図1
に示したこの発明の方法のフローに対応付けて説明す
る。まず、図1の第1段階の手続きに従って、電話音声
における品質劣化要因を抽出する(S1 )。劣化要因と
しては、図2に示すように主として、音声信号の入力装
置としての役割を果たす電話機の送話器の周波数帯域制
限や周波数特性、音声信号の伝送手段である電話伝送路
の周波数帯域制限や周波数特性、電話回線上のノイズ
(雑音)、話者の発声環境における背景ノイズ、が揚げ
られる。これらの各要因について、ひな形となる特性を
表すテンプレートの作成例を以下に示す。
【0015】まず、周波数帯域制限について説明する。
電話機及び電話伝送路にはそれぞれの周波数帯域制限が
存在するものの、電話機は電話伝送路が接続された形態
で使用されるのが常であるので、電話網における周波数
帯域制限は電話伝送路の帯域制限で決められる。国内の
電話網では、その通信規格として保証される周波数帯域
幅は300Hz〜3.4KHzであるので、これが電話音声に
対する帯域制限のテンプレートである。
【0016】次に、電話機の送話器の周波数特性と電話
伝送路の周波数特性に対するテンプレート化について説
明する。電話機の送話の周波数特性に関しては,通信機
械工業会規格という自主規格が存在するが、その規格は
許容の上限値、下限値により範囲を規定しているだけで
あり、周波数特性としては色々なものが存在しうる。事
実、電話機の自由化が浸透した現在、各メーカから色々
な電話機が市販されており、それらの送話の周波数特性
も様々である。つまり品質を劣化させる1つの要因中に
互いに異なる複数の特性がある場合である。一方、電話
伝送路の周波数特性に関しては、電話網の伝送品質基準
として伝送線路の長さに対して信号の伝送損失が決めら
れているだけである。電話機と電話伝送路が接続された
形態が使用の常であることから、これらの周波数特性を
1つにまとめて異なる特性の種類を整理すると、図3に
示すように15種類の特性に分類できる。図3に示す周
波数特性のテンプレートは、市販されている30種類の
電話機について電話伝送路を含めて測定した周波数特性
から分類したものである。図3に示す周波数特性は、大
別して5種類(図3では、a,b,c,d,eの名称で
示している)あり、このうちa,b,cの3種類は周波
数1KHz以上の周波数特性での上昇傾度がそれぞれ4種
類、4種類、5種類の組合せがある。周波数傾度がフラ
ットである最も単純な特性(aにおいて1KHz以上の傾
度が0の特性)の他に、周波数軸に対して右上がりの傾
度特性をもつものや1KHz付近でレベルの谷が存在する
双山形状の特性などがある。
【0017】次に電話回線上のノイズ、話者の発声環境
の背景ノイズに対するテンプレート化について説明す
る。電話回線上のノイズとしては、電話伝送路の近隣を
通る高圧電線などの電磁誘導から生ずるものが考えら
れ、これはホワイトノイズやピンクノイズで模擬される
ものである。また、話者の発声環境での背景ノイズは、
定常的なものは、ホスノイズで模擬可能である。従っ
て、定常的なノイズについては、ホワイトノイズ、ピン
クノイズ、ホスノイズをノイズのテンプレートとする。
また、ノイズのレベルは10〜30dBの範囲のS/N比
が好ましい。
【0018】これらのテンプレートからの各要因のテン
プレートの組合せは、周波数帯域制限、周波数特性、回
線ノイズ、背景ノイズの各要因は互いに独立かつ同時に
音声信号に影響しえることを考慮して、これらの4種類
の要因を表すテンプレートから1つずつ選択してできる
組合せを網羅する形式で作成する。例えば、その組合せ
の一例を示すと、周波数帯域制限が300Hz〜3.4KH
z、周波数特性が図3のdで示される特性、電話回線の
ノイズについてはホワイトノイズ、発声環境のノイズに
ついてはホスノイズの組合せがある。このようにして得
られたすべての組合せが実使用環境での電話音声におい
て出現しうる種々の劣化要因の特性を表現している。
【0019】次に、図1の第2段階の手続きに従って、
第1段階のステップS4 で得られたテンプレートの組合
せに対する特性を高品質音声データに作用させて電話音
声を模擬する音声信号を作成する。図2において、破線
で囲まれた部分の各要因のテンプレートから分析処理部
13に至る矢印は各組合せが表す特性を、分析処理の過
程で、音声データベース12から入力される高品質音声
データに作用させることを表している。この分析処理部
では、線形予測分析などのデジタル信号処理を用いて、
各テンプレートの組合せに対応する特性を高品質音声信
号データに作用させて模擬音声を作成している。
【0020】このようにして作成した複数の模擬音声を
用いてHMM法に基づき、電話音声に対するモデルを学
習して求めることができる。すべての模擬音声から得ら
れたモデルを電話音声のモデルセット15として用いる
ことで、未知の電話音声の認識が実現できる。
【0021】
【発明の効果】以上説明したように、この発明の方法を
用いて音声品質を劣化させる諸要因の特性のテンプレー
ト化と、テンプレート化された特性を高品質音声データ
に作用させて実使用環境での音声信号を模擬することに
より、次のような効果がある。・対象とするシステムご
とに、そのシステム使用時の大量の音声データを収集・
編集する多大の時間と労力を節約でき、かつ、現状にお
いてほゞ整備されてきた高品質音声データベースを用い
て、様々な実使用環境の音声信号を模擬できる。・対象
とするシステムの実使用環境での音声信号をすべて模擬
したモデルをあらかじめ用意することができるので、ユ
ーザがシステムを使う場合に、従来の適応化手法で必要
であった実使用環境の音声信号をその都度ユーザの発声
から獲得するといった煩わしさからユーザを解放でき、
より自然なマン−マシン・インタフェースが実現でき
る。
【図面の簡単な説明】
【図1】この発明の方法における処理手続きを示す流れ
図。
【図2】電話の音声信号に対して、この発明の方法を適
用した場合の音声認識処理の流れを示すブロック図。
【図3】電話の音声信号に対して、この発明の方法を適
用した場合の、電話機の周波数特性と電話伝送路の周波
数特性とを組合せた周波数特性の各種変化パターンのテ
ンプレート例を示す図。
【図4】現在音声認識のアルゴリズムとして最もよく用
いられている、HMM法に基づく音声認識処理の流れを
示すブロック図。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 管村 昇 東京都千代田区内幸町1丁目1番6号 日 本電信電話株式会社内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 あらかじめ蓄積された音声信号データを
    用いて認識対象とする音声信号のモデルを学習して求
    め、前記学習によって求められた音声信号のモデルに対
    する類似度を比較することによって未知の音声信号を認
    識する方法において、 音声信号の品質を劣化させる各々の要因を抽出し、 前記各要因ごとに当該各要因の1つの特性または互いに
    異なる複数の特性に対するひな形となるテンプレートを
    作成し、 前記各要因の各々の特性に対するテンプレートを網羅す
    る形式で組合せを作成し、 前記のすべての組合せで与えられる互いに異なる特性を
    信号処理によってあらかじめ蓄積された音声信号データ
    に作用させて模擬音声信号データを得、これら模擬音声
    信号データごとに前記モデルを学習し、 この学習によって得られたすべてのモデルを用いて未知
    の音声信号を認識することを特徴とする音声認識方法。
JP5239494A 1993-09-27 1993-09-27 音声認識方法 Pending JPH0792990A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5239494A JPH0792990A (ja) 1993-09-27 1993-09-27 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5239494A JPH0792990A (ja) 1993-09-27 1993-09-27 音声認識方法

Publications (1)

Publication Number Publication Date
JPH0792990A true JPH0792990A (ja) 1995-04-07

Family

ID=17045619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5239494A Pending JPH0792990A (ja) 1993-09-27 1993-09-27 音声認識方法

Country Status (1)

Country Link
JP (1) JPH0792990A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278590A (ja) * 2001-03-15 2002-09-27 Ricoh Co Ltd 音声認識モデル作成装置、音声認識モデル作成方法、音声認識装置、音声認識方法、音声認識システム及び記録媒体
JP2003099082A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278590A (ja) * 2001-03-15 2002-09-27 Ricoh Co Ltd 音声認識モデル作成装置、音声認識モデル作成方法、音声認識装置、音声認識方法、音声認識システム及び記録媒体
JP2003099082A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法

Similar Documents

Publication Publication Date Title
CN1121680C (zh) 语音识别
CN101221759B (zh) 使用隐含语者自适应的语音识别系统
US5165008A (en) Speech synthesis using perceptual linear prediction parameters
JP4202124B2 (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
CN105788592A (zh) 一种音频分类方法及装置
KR20030035522A (ko) 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
JP3189598B2 (ja) 信号合成方法および信号合成装置
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
US5659658A (en) Method for converting speech using lossless tube models of vocals tracts
JP3130524B2 (ja) 音声信号認識方法およびその方法を実施する装置
WO2009107211A1 (ja) 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
CN113192535A (zh) 一种语音关键词检索方法、系统和电子装置
JP6993376B2 (ja) 音声合成装置、方法及びプログラム
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
JPH0792990A (ja) 音声認識方法
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
CN111402887A (zh) 一种语音转义文字的方法及装置
Aso et al. Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法
JPH07160285A (ja) 音声認識方法
KR100206799B1 (ko) 화자 인식형 캠코더

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees