JPH07160285A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH07160285A
JPH07160285A JP5305373A JP30537393A JPH07160285A JP H07160285 A JPH07160285 A JP H07160285A JP 5305373 A JP5305373 A JP 5305373A JP 30537393 A JP30537393 A JP 30537393A JP H07160285 A JPH07160285 A JP H07160285A
Authority
JP
Japan
Prior art keywords
noise
voice
signal
voice signal
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5305373A
Other languages
English (en)
Inventor
Junichi Takahashi
淳一 高橋
Mizuhiro Hida
瑞広 飛田
Hiromi Nagashima
広海 長島
Noboru Kanmura
昇 管村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5305373A priority Critical patent/JPH07160285A/ja
Publication of JPH07160285A publication Critical patent/JPH07160285A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 実環境音声信号に近い模擬音声信号を作る。 【構成】 発声環境31の室内雑音37を表すホスノイ
ズを高品質音声信号に対し付加し、その雑音付加された
信号に送話器34と電話回線35との綜合周波数特性の
代表的なものと、300Hz〜3.4kHz の帯域制限を与
え、その後、回線雑音39を模擬するホワイトノイズを
付与して模擬音声信号を得、これを用いてHMM法によ
り音声モデルを学習し、そのモデルを用いて未知の電話
音声の認識を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音声信号の入力手段
や伝送手段における周波数帯域制限や周波数特性、発声
環境の背景雑音や音声信号伝送路の雑音などの、音声品
質を低下させる様々な要因の影響を受けた音声信号に対
する音声認識方法に関する。
【0002】
【従来の技術】音声認識方式技術の分野では、これま
で、周波数帯域幅が広く、S/N比の高い、すなわち、
何の外的な信号の変形の影響を受けていないと見なせる
高品質の音声信号に対する認識方式の研究・開発が中心
に進められてきた。現在最もよく用いられているのは、
音声信号を確率・統計理論に基づいてモデル化する、隠
れマルコフモデル法(Hidden Markov M
odel,以後HMM法と呼ぶ)であり、その詳細は、
例えば、社団法人電子情報通信学会編、中川聖一著『確
率モデルによる音声認識』に開示されている。
【0003】HMM法による音声認識処理の手順を図3
に示す。HMM法の処理には、大別して、2つのフェー
ズがある、1つは“学習”であり、もう1つは“探索”
である。“学習”のフェーズでは、図3中のスイッチ1
0,11は、それぞれ、A側を選択する。そして、色々
な音韻/音素/音節/単語などに対する音声信号が蓄積
された音声データベース12のデータを用いて、各音韻
/音素/音節/単語などの音響的な性質を表現するモデ
ルを、HMM法の学習アルゴリズムに基づいて求める。
このモデルを求める過程において用いられる信号は、分
析処理部13の分析処理によって音声信号から抽出され
た特徴パラメータの時系列である。音声データベース1
2から分析処理部13へ音声信号データを入力し、音声
信号データを分析処理し、その出力結果、すなわち音声
データベース12の音声信号データの特徴パラメータデ
ータを学習処理部14へ入力する。学習によって最終的
に得られるすべてのモデルを蓄積するHMMセット15
から学習処理部14への矢印は、学習すべきHMMのモ
デル構造(状態数、状態間の遷移形式など)とモデルパ
ラメータ(状態遷移確率、シンボル出力確率、初期状態
確率)の初期値を、学習処理の実行時に設定することを
示している。分析処理部13における信号処理として、
よく用いられるのは、線形予測分析(Linear P
redictive Coding,LPCと呼ばれ
る)であり、特徴パラメータとしては、LPCケプスト
ラム、メルケプストラム、対数パワーなどがある。この
ような学習処理によって求められた各音韻/音素/音節
などのモデルはHMMセット15の要素として蓄積さ
れ、このHMMセット15が音声データベース12で現
れるすべての音響現象を表現する。
【0004】“探索”のフェーズでは、スイッチ10,
11は、それぞれ、B側を選択する。そして、入力され
る未知の音声信号は、分析処理部13によって特徴パラ
メータの時系列に変換され、その特徴パラメータデータ
の時系列がHMMセット15のどのモデル(モデルが音
韻/音素/音節の場合はそれらの組合せ)に最も類似し
ているかを探索処理部16でHMM法の探索処理のアル
ゴリズムに基づいて求め、その結果を認識結果とする。
【0005】従って、HMM法を用いた音声認識では、
認識対象とする音声信号に対する情報として、モデルの
学習用の音声データを収集する必要がある。これまでに
も、色々な音声データベースが存在するが、そのほとん
どが高品質音声のデータベースである。電話による情報
案内や予約サービス、自動券売機などの代表的なサービ
スへの音声認識の応用を想定すると、実環境下での音声
の使用が自然であることから、実使用環境で発声された
音声の認識技術が切に望まれている。例えば、上記の例
では、電話を用いたサービスでは電話網での音声、自動
券売機であれば駅構内の雑踏の騒音を伴った音声に対す
る認識技術が必要になる。この例からわかるように、実
環境下では、音声信号は、様々な雑音、様々な周波数帯
域制限、様々な伝送損失特性並びに周波数特性をもった
音声信号伝送路(例えば、電話網)の影響を受けて変形
されるだけでなく、音声以外の音響信号(伝送路の雑
音、背景雑音など)が重畳されて、その音声品質が著し
く劣化するため、音声認識率が著しく低下するという問
題がある。また、先に説明したように、認識の基本的ア
ルゴリズムの前提により、学習用として必要となる音声
データが高品質のものがほとんどである現状から、実環
境下での認識を実現するためには、対象とする使用環境
下での音声信号を収集し、データベース化しなければな
らない。しかし、複雑かつ多種の音声品質を劣化させる
要因をすべて含んだような音声データを収集し、編集し
てデータベース化することは、多大の時間と労力を必要
とし、現実的には困難である。
【0006】このため、従来、整備されつつあり、か
つ、これまでの音声認識技術の発展に重要な役割を果た
してきている高品質な音声データベース−代表的なデー
タベースとしては、(株)国際電気通信基礎技術研究所
(ATR)の音声データベース、日本音響学会研究用連
続音声データベース、(社)日本電子工業振興協会(電
子協)日本語共通音声データベースなどがある−を活用
し、様々な音声品質劣化要因の混在した実環境下の音声
信号に対する音声認識を実現しようとする方法が、特願
平5−239494“音声認識方法”で提案されてい
る。また、実環境を電話とし、劣化要因として電話伝送
系の周波数特性に対してこの従来方法を用いた例が、高
橋、他:“サブワード音声認識における電話伝送系の影
響”、日本音響学会平成5年度秋季研究発表会講演論文
集2−4−10で報告されている。この方法は、高品質
音声信号と様々な品質劣化要因の混在した実環境下の音
声信号(以後、実環境音声信号と呼ぶ)との品質差を生
じさせる各劣化要因(音声信号の入力系や伝送系の周波
数特性、雑音など)を分析して定量的にテンプレート化
し、これらのテンプレートが表す特性を、音声信号処理
により高品質音声信号に作用させて実環境音声信号を模
擬し、その模擬によって得られた音声信号から音響的な
モデルを学習し、これを用いて実環境音声信号を認識し
ようとするものである。しかし、この従来方法では、周
波数特性に関する模擬方法は具体的に示されているが、
雑音に関しては模擬時のS/N比の目安が示されている
だけで、これと周波数特性の模擬方法との関係について
は明示されていないという問題がある。
【0007】
【発明が解決しようとする課題】そこで、この発明は、
様々な音声品質劣化要因が混在した実環境音声信号を、
定量的にテンプレート化された諸要因の特性を高品質音
声データに作用させて作成した模擬的な実環境音声信号
から学習したモデルによって音声認識しようとする方法
において、周波数特性の模擬を考慮した雑音特性の模擬
方法を明らかにすることにより、実環境音声信号に対す
る実用的な模擬方法を提供し、音声品質劣化問題を克服
できる音声認識方法を実現することを目的とする。
【0008】この発明の方法の説明をわかりやすくする
ために、先ず、実環境音声信号の模擬という観点から、
雑音に対する基本的な考え方を説明する。単語発声の音
声を例に説明する。図4A,Bに、それぞれ、札幌
(『さっぽろ』)、横手(『よこて』)と発声した場合
の時間軸上での音声波形を示す。音声の構成要素を表す
音素記号での記述例としては、それぞれ、P
P,P
Pがある。ここで、アンダースコア 音素記号
の区切りを表す記号であり、P,Q,q以外(例えば
s,y,oなど)の音素記号は母音または子音に属する
音素に対する音素記号である。Pは音声を発声していな
い発声休止区間を表し、Qは上記のひらがな表記の
『っ』の発声にかかわる促音の無音区間を表し、qは子
音k,tなど破裂性の子音の発声に伴う短い無音区間を
表す音素記号である。ここで、無音とは音声発声のない
部分という意味である。図4A,Bにおいては、それぞ
れの音素と音声波形との対応が示されている。これらの
音声は、発声内容の点から見れば、共に、『札幌』や
『横手』であるが、音声信号という点からみれば、これ
らは無音+『札幌』+無音や無音+『横手』+無音であ
り、無音区間の存在が意味をもつ。このような音声信号
を認識しようとする場合、音声信号から音声の発声区間
だけを判別して認識する方法が考えられる。認識対象と
する音声信号が高品質音声であれば、S/N比が非常に
高く、発声区間と無音区間との境界は例えば信号のパワ
ー値の大小で判別できるので、このような方法も有効で
ある可能性が大きいが、この発明で対象としているよう
な雑音が重畳した音声信号の場合は、S/N比が低い可
能性が高く、発声区間と無音区間との区別は難しいと考
えられる。従って、発声区間の判別に基づいて音声信号
を認識するのは困難であり、無音区間も含んだ音声信号
を認識することが重要となる。このような理由から、以
下の説明では、認識対象とする音声信号は無音区間を含
む、すなわち、無音+発声した音声+無音の形式の音声
信号を対象とする。
【0009】発声した音声と実環境の特性(雑音、周波
数特性)とは、対象としているシステムにおいて、その
発生の所在が異なるため、周波数特性や雑音の模擬を行
なう場合には注意を要する。例えば、対象としているシ
ステムにおいて、音声信号は入力系・伝送系を介して実
環境音声信号になると想定し、入力系と伝送系には固有
の周波数特性を有し、雑音は伝送系から発声するものと
する。この場合、この実環境音声信号における実環境特
性の影響のあらわれ方は、次のように見なすことができ
る。 ・発声した音声の前後の無音区間は、伝送系からの雑音
そのものである。 ・発声した音声の区間(ただし、音声区間内の無音区間
は除く)は、入力された音声信号に対して入力系と伝送
系の周波数特性が付与され、それに伝送系から発生する
雑音が重畳している区間である。 ・発生した音声の区間内に、先に説明したような無音区
間が存在する場合は、その無音区間は、伝送系からの雑
音そのものである。
【0010】従って、このような実環境音声信号を高品
質音声信号から模擬する場合には、発声した音声の前後
の区間、及び、発声した音声区間内の無音区間は、雑音
の重畳のみの処理を行ない、発声した音声の区間(この
区間内の無音区間は除く)には周波数特性を付与し、そ
れに雑音を重畳するといった処理を行なわなければなら
ない。また、高品質音声信号の無音区間の信号は、発声
した音声の区間の信号と比較してほとんど影響がないと
見なせるのであり、重畳する雑音とのS/N比の観点か
ら見た場合にはそのS/N比の値によってその無音区間
の信号の影響の有無を判断する必要がある。すなわち、
高品質音声信号の無音区間の信号が、重畳する雑音に対
して影響を与えるほどのものであれば、上述のように単
に無音区間に雑音を重畳するのではなく、高品質音声の
無音区間の信号を差し引いた上で雑音を重畳するような
処理を行なう必要がある。
【0011】
【課題を解決するための手段】この発明の方法は、上記
のような考え方に基づいた、高品質音声信号からの実環
境音声信号の模擬における高品質音声への周波数特性の
付与と雑音の重畳方法を備えることを特徴とした音声認
識方法であって、この発明によれば、被認識音声の発声
から認識装置に至るまでのシステムにおける、音声信号
伝送路や音声信号入力装置の周波数帯域制限や周波数特
性並びに発声環境における背景雑音や反響音などに代表
される音声品質を劣化させる1つまたは複数の要因を抽
出して、その各要因の特性のひな形となるテンプレート
を作成し、前記システムにおける前記各要因の発生所在
に応じてその要因の前記テンプレートを高品質音声信号
データに順次作用させて、各要因間の前記システムにお
ける相互の影響状況を模擬した模擬音声信号データを作
成し、その模擬音声信号データを用いて音声信号のモデ
ルを学習して求める。
【0012】
【実施例】この発明の方法の要部である模擬音声信号作
成の処理手順の例を図1に示す。この処理は、4種類の
手続きから構成され、2重の枠で囲まれた部分は処理の
内容を、1重の枠で囲まれた部分は処理対象となる信号
または処理結果として得られる信号を表している。第1
の手続き(20)は、高品質音声信号、つまり周波数成
分に対する制限がなされず、かつS/Nが非常に高いも
ので、例えば帯域100Hz〜7(又は8)kHz で、周波
数特性が平坦で歪みがなく、S/Nが30〜40dB以上
の音声信号における雑音レベルに対する処理である。先
にも説明したように、高品質音声信号では、雑音レベル
は音声信号レベルに対して無視できる程小さいが、この
高品質音声信号に新たに雑音を付与することを考慮する
と、高品質音声信号に元から含まれている雑音と、付与
する雑音との信号レベルの比が問題となってくる。も
し、元から含まれる雑音が付与する雑音に対して影響を
及ぼすほどの信号であるとすると、元から含まれる雑音
の除去が必要である。また、逆に影響がないのであれば
元から含まれる雑音の除去は行なわなくてもよい。この
第1の手続き(20)では、このような条件判断を、双
方の雑音のレベルの比(元から含まれる雑音のレベルに
対する付与する雑音のレベル)で判定している。条件判
断のしきい値をαとし、レベル比がα以上であれば元か
ら含まれる雑音の影響はないものとし、次の手続き(2
1)に進む。一方、比がα未満であれば、レベル比がα
以上になるように信号処理により雑音を除去する(2
2)。ここで、しきい値αの値は、実験により求められ
るものである。
【0013】次に、第2の手続き(21)について説明
する。第2の手続き(21)は、第4の手続き(24)
と同様に実環境音声信号を模擬するための雑音の付与の
処理である。ただし、この第2の手続きでは、第3の手
続き(23)で付与する実環境音声信号を模擬するため
の周波数特性の影響を受ける雑音(雑音NA)の付与で
ある。この処理は、第1の手続き(20)を経た高品質
音声信号に対して信号処理を用いて行なう。第3の手続
き(23)では、模擬すべき周波数特性を信号処理を用
いて付与する過程である。この手続きでは、第2の手続
き(21)を経た音声信号に対して、所望の周波数特性
が付与されるので、高品質音声信号及び第2の手続き
(21)で付与した雑音NAの両方に周波数特性が付与
されたことになる。第4の手続き(24)では、模擬し
たい実環境音声信号のうち、第3の手続き(23)で用
いたような模擬すべき周波数特性の影響を受けていない
雑音NBの付与を行なう。以上のような処理過程を経て
模擬の音声信号を得ることができる。
【0014】このようにして、作成した模擬の音声信号
を用いて、その音響的な特徴を表すモデルを学習し、そ
れにより得られたモデルのセットを用いて、模擬の対象
としてきた実環境における発話内容が未知の音声信号を
認識することができる。つまり、この発明の方法は、対
象とするシステム(または系)の実環境を表す雑音の特
性、周波数特性を高品質音声信号に付与して、その模擬
の音声信号を作成する場合に、付与する雑音の特性の対
象とするシステム(または系)における発生の所在か
ら、付与する雑音の特性に付与する周波数特性の影響の
有無を切り分け、その影響の有無の判定に基づいて高品
質音声信号データへの雑音の付与の処理と周波数特性の
付与の処理の順序を制御することによって、所望の雑音
の特性、周波数特性を高品質音声信号データに付与し、
対象とする実環境音声信号に対する模擬の音声信号を作
成する。
【0015】現在音声認識のアルゴリズムとして最もよ
く用いられているHMM法を用いた、電話音声の認識に
対するこの発明の方法の適用例を説明する。図2に、こ
の実施例で対象とする音声認識系の構成を示す。この系
では、室内雑音のある環境31で話者32が発声した音
声は、電話機33の送話器34及び電話回線35を介し
て伝送され、その伝送路の出力端に設置された音声認識
装置36により認識される。送話器34には、話者32
の発声環境31の雑音を表す室内雑音37と話者の発声
した音声38とが同時に入力される。入力された音声信
号38は、電話回線35を介して音声認識装置36に伝
送される間に、電話回線35で発生する回線雑音39及
び電話網の周波数特性41が付与される。ここで、電話
網の周波数特性41は、電話機33の送話器34と電話
回線35とを合わせて1つの系と見なした場合の周波数
特性である。この例では、話者32が電話機33の送話
器34に対し発声する環境31に起因する室内雑音37
は、ホスノイズでモデル化されるようなオフィスなどの
定常的な室内騒音であり、伝送路から発生する回線雑音
39は、伝送路間のクロストークや電磁誘導に起因する
ホワイトノイズやピンクノイズでモデル化される定常的
雑音であるとする。
【0016】このような系における実環境音声信号(音
声認識装置36に入力される音声信号)を、図1に示し
たこの発明の方法を用いて模擬する過程を説明する。こ
の系の実環境音声信号に対する実環境を構成する要素
は、周波数特性の影響としては電話網の周波数特性41
であり、雑音としては2種類存在し、それぞれ話者の発
声環境31の室内雑音37と回線雑音39とである。従
って、高品質音声信号データを用いてこの系の実環境音
声信号を模擬する場合は、上記の周波数特性及び2種類
の雑音が模擬の対象となる。室内雑音37及び回線雑音
39の信号レベルが、高品質音声信号データの雑音レベ
ルに比べて20〜30dBのS/N比をもつ(すなわちα
が20〜30dB)と仮定すると、模擬音声信号作成過程
の第1の手続き(20)では、高品質音声信号データに
対して、これに元から含まれる雑音除去といった前処理
を行なう必要はない。模擬対象となる室内雑音37は、
送話器34と電話回線35を介して音声認識装置36に
入力される要素であるので、この雑音は電話網の周波数
特性41の影響を受ける。一方、回線雑音39は、電話
回線35から発生される雑音であり、入力系の周波数特
性である、電話機送話系の音響−電気変換にかかわる感
度周波数特性の影響を受けない。すなわち、室内雑音3
7は、図1に示した模擬音声信号作成の処理過程におけ
る雑音NAに相当する雑音であり、回線雑音39は雑音
NBに相当する雑音である。
【0017】従って、第2の手続き(21)では、室内
雑音37を表すホスノイズを第1の手続き(20)で得
られた高品質音声信号に信号処理を用いて付与する。第
3の手続き(23)では、電話網の周波数特性41を、
室内雑音を模擬する雑音が付与された高品質音声信号に
信号処理を用いて付与する。電話網に対する周波数特性
としては、電話回線における周波数帯域制限300Hz〜
3.4kHz や特願平5−239494に開示されている
ような複数の代表的周波数特性の1つを選択して用い
る。これにより、高品質音声信号及び室内雑音共に電話
網の周波数特性を付与することになる。第4の手続き
(24)では、第3の手続きにより処理された音声信号
に、回線雑音39を模擬するホワイトノイズまたはピン
クノイズを付与する。
【0018】このような一連の手続きを経て得られた模
擬音声信号は、発声環境の室内雑音が重畳した話者の発
声音声が電話網の周波数特性の影響を受け、さらに回線
雑音が重畳した音声信号を表していることになる。この
ようにして得られた模擬音声信号を用いて、その音響的
な特徴を表す音素モデルを先に説明した音声認識アルゴ
リズムであるHMM法を用いて学習し、その音素モデル
セットをこの電話伝送系のモデルセットとして用いるこ
とで、この系の未知の電話音声の認識が実現できる。
【0019】
【発明の効果】以上説明したように、この発明の方法を
用いて、音声品質を劣化させる周波数特性や雑音の特性
を高品質音声データに作用させて実環境での音声信号を
忠実に模擬することにより、次のような効果がある。 ・対象とするシステムにおける周波数特性や雑音の発生
の所在に応じた模擬音声信号の作成処理が実現できるの
で、対象としているシステムにおいて出現する実環境音
声信号をより忠実に模擬できるので、この実環境音声信
号に対する音響モデルを学習するために必要とされる大
量の実環境音声データを収集・編集する多大の時間と労
力を節約できる。
【図面の簡単な説明】
【図1】この発明の方法における模擬音声信号を作成す
る手順を示す流れ図。
【図2】電話音声信号の生成過程に着目した電話伝送系
の構成とこの系において音声信号に影響を与える諸要因
の所在を説明する図。
【図3】HMM法に基づく音声認識処理の流れを示すブ
ロック図。
【図4】時間軸上での音声信号の波形と音素記号との対
応を説明する図。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 管村 昇 東京都千代田区内幸町1丁目1番6号 日 本電信電話株式会社内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 あらかじめ蓄積された音声信号データを
    用いて認識対象とする音声信号のモデルを学習して求
    め、前記学習によって求められた音声信号のモデルに対
    する類似度を比較することによって未知の音声信号を認
    識する方法において、 被認識音声の発声から認識装置へ達するまでのシステム
    における音声信号の品質を劣化させる各々の要因を抽出
    してその各要因の特性のひな形となるテンプレートを作
    成し、 前記システムにおける前記各要因の発生所在に応じてそ
    の要因の前記テンプレートを高品質音声信号データに順
    次作用させて、 前記各要因間の前記システムにおける相互の影響状況を
    模擬した模擬音声信号データを作成し、 得られた前記模擬音声信号データにより前記モデルを学
    習し、前記学習によって得られたすべてのモデルを用い
    て未知の音声信号を認識することを特徴とする音声認識
    方法。
JP5305373A 1993-12-06 1993-12-06 音声認識方法 Pending JPH07160285A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5305373A JPH07160285A (ja) 1993-12-06 1993-12-06 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5305373A JPH07160285A (ja) 1993-12-06 1993-12-06 音声認識方法

Publications (1)

Publication Number Publication Date
JPH07160285A true JPH07160285A (ja) 1995-06-23

Family

ID=17944338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5305373A Pending JPH07160285A (ja) 1993-12-06 1993-12-06 音声認識方法

Country Status (1)

Country Link
JP (1) JPH07160285A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278590A (ja) * 2001-03-15 2002-09-27 Ricoh Co Ltd 音声認識モデル作成装置、音声認識モデル作成方法、音声認識装置、音声認識方法、音声認識システム及び記録媒体
JP2003099082A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278590A (ja) * 2001-03-15 2002-09-27 Ricoh Co Ltd 音声認識モデル作成装置、音声認識モデル作成方法、音声認識装置、音声認識方法、音声認識システム及び記録媒体
JP2003099082A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体

Similar Documents

Publication Publication Date Title
US7536303B2 (en) Audio restoration apparatus and audio restoration method
Womack et al. N-channel hidden Markov models for combined stressed speech classification and recognition
CN112767958A (zh) 一种基于零次学习的跨语种音色转换系统及方法
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JPH10507536A (ja) 言語認識
CN101548313A (zh) 话音活动检测系统和方法
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
JP2017223930A (ja) 音声処理システムおよび音声処理方法
JPH08335091A (ja) 音声認識装置、および音声合成装置、並びに音声認識合成装置
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
JPH07160285A (ja) 音声認識方法
Gray et al. An integrated approach to the detection and classification of accents/dialects for a spoken document retrieval system
Aso et al. Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre
Atal et al. Speech research directions
EP1589524B1 (en) Method and device for speech synthesis
Martens et al. Word Segmentation in the Spoken Dutch Corpus.
JPH07230293A (ja) 音声認識装置
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
Furui Toward the ultimate synthesis/recognition system
Athanaselis et al. Recognising verbal content of emotionally coloured speech
Furui Toward the ultimate synthesis/recognition system.
EP1640968A1 (en) Method and device for speech synthesis
KR20080039072A (ko) 홈 네트워크 제어를 위한 음성인식시스템
Khan et al. Speech recognition using neural networks