JP2000284792A - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法

Info

Publication number
JP2000284792A
JP2000284792A JP11093489A JP9348999A JP2000284792A JP 2000284792 A JP2000284792 A JP 2000284792A JP 11093489 A JP11093489 A JP 11093489A JP 9348999 A JP9348999 A JP 9348999A JP 2000284792 A JP2000284792 A JP 2000284792A
Authority
JP
Japan
Prior art keywords
recognition
speech recognition
voice
acoustic
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11093489A
Other languages
English (en)
Inventor
Tetsuo Kosaka
哲夫 小坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP11093489A priority Critical patent/JP2000284792A/ja
Publication of JP2000284792A publication Critical patent/JP2000284792A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

(57)【要約】 【課題】 音声認識において電話や回線種別の違いに基
づく認識率の低下を防ぐためには、複数種類の音響モデ
ルを用いて複数の認識系を動作させねばならず、大量の
メモリ及び処理時間が必要であった。 【解決手段】 入力された音響信号から音声区間及びそ
の前後の非音声区間を検出し(S202)、該非音声区
間に基づいて、予め用意されたHMMパラメータを参照
して電話種別を判別し(S204)、該判別結果に応じ
て音響モデルを選択して音声認識を行なう(S205,
S206)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識装置及び方
法に関し、例えば電話音声を対象として音声認識を行な
う音声認識装置及び方法に関する。
【0002】
【従来の技術】電話音声を対象として音声認識を行な
う、所謂電話音声認識を行う場合、一般の電話やPHS
(Personal Handy phone System)、または携帯電話等、
様々な種類の電話からかかってくる音声を認識する必要
がある。
【0003】例えば、構内交換機(PBX)システムを
利用した内線電話機の場合、内線からかかってくる場合
と、外線つまり公衆回線を介してかかってくる場合等、
複数種類の電話からの通話が考えられる。このようなP
BXシステムにおいては、一般的にはどの種類の電話か
らの着信があるかは、事前には分からない場合が多い。
【0004】このように、様々な種類の電話や回線から
かかってくる電話音声を認識する場合、電話の種類や回
線の違いによって認識性能の劣化が発生する可能性があ
る。例えば内線と外線の両形態による通話がある場合、
一般に外線からの電話音声は300〜3400Hzに帯
域制限されたものになるが、内線の場合、より広い帯域
をとれる場合が多い。また携帯電話の場合、現状では国
内においてはデジタル携帯電話が大多数を占めるが、音
声情報が符号化により圧縮されているため、一般電話よ
りも通話品質が低下する。
【0005】以上のような問題の解決法として、複数種
類の音響モデルにより音声認識を行なう方法が提案され
ている。この方法では、例えば外線用の音響モデルと内
線用の音響モデル、または一般電話用の音響モデルとデ
ジタル携帯電話用の音響モデルというように、電話種別
に応じた音響モデルを別個に用意する。そして、これら
複数の音響モデルを用いて、同一入力に対し複数の認識
系を動作させ、より尤度の高い結果を、最終的な認識結
果として出力することにより、認識率の低下を避けるこ
とができる。
【0006】
【発明が解決しようとする課題】上述したように従来の
音声認識装置においては、複数種類の音響モデルを用い
て複数の認識系を動作させることにより、電話や回線の
違いなどに対処した音声認識が可能となる。
【0007】しかしながらこの方法では、認識のための
メモリを多く必要とし、また認識時間も増大してしまう
という問題点があった。
【0008】本発明は上記問題点を解決するためになさ
れたものであり、電話音声認識を簡単な構成で短時間に
可能とする音声認識装置及び方法を提供することを目的
とする。
【0009】
【課題を解決するための手段】上記目的を達成するため
の一手段として、本発明の音声認識装置は以下の構成を
備える。
【0010】即ち、音響信号を入力する入力手段と、該
音響信号から音声区間を検出する検出手段と、前記音響
信号の種類を判別する判別手段と、前記判別手段におけ
る判別結果に応じて音響モデルセットを決定する決定手
段と、該決定された音響モデルセットを用いて前記音声
区間の音声認識を行なう認識手段と、前記認識手段によ
る認識結果を出力する出力手段と、を有することを特徴
とする。
【0011】例えば、前記検出手段は、前記音響信号か
ら前記音声区間とその前後の非音声区間を検出し、前記
判別手段は、該非音声区間の音響信号に基づいて、該音
響信号の種類を判別することを特徴とする。
【0012】また、上記目的を達成するための一手法と
して、本発明の音声認識方法は以下の工程を備える。
【0013】即ち、音響信号を入力する入力工程と、該
音響信号から音声区間を検出する検出工程と、前記音響
信号の種類を判別する判別工程と、前記判別手段におけ
る判別結果に応じて音響モデルセットを決定する決定工
程と、該決定された音響モデルセットを用いて前記音声
区間の音声認識を行なう認識工程と、前記認識工程にお
ける認識結果を出力する出力工程と、を有することを特
徴とする。
【0014】
【発明の実施の形態】以下、添付図面に従って本発明に
係る一実施形態について詳細に説明する。
【0015】図1は、本実施形態における音声認識装置
の構成を示すブロック図である。同図において、100
は音声を入力するためのマイクロフォン、101は取り
込んだ音声をデジタル信号に変換するためのA/D変換
部である。102は認識結果をアプリケーションに渡す
ためのインタフェース(I/F)であり、RS232C
等によって接続される。103は認識結果を表示するた
めのディスプレイである。104はCPUであり、RO
M105に格納されていたプログラムをRAM106に
読み出し、該読み出したプログラムに基づいて本実施形
態における認識処理を実行する。ROM105には、C
PU104が各種処理を実行するための各種プログラム
を格納している。また、音素モデル等のデータも格納し
ている。RAM106は、各種プログラムの作業領域を
提供する。また、外部記憶装置107は、ハードディス
クやフロッピイディスク等であり、これらにもCPU1
04によって実行されるプログラムを格納することが可
能である。
【0016】次に、本実施形態における音声認識処理を
図2のフローチャートに従って説明する。まずステップ
S201において、マイク100から取り込んだ音声を
A/D変換部101でデジタル信号に変換する。尚、マ
イク100の代わりに、電話回線を介して入力された電
話音声を取り込み、それをA/D変換部101に入力し
てもよい。
【0017】以下に示す、ステップS202〜S207
の処理は、CPU104が、ROM105または外部記
憶装置107から読み込んだプログラムに基づいて、R
AM106を作業領域として使用しながら実行するもの
である。
【0018】まずステップS202において、音声波形
からパワー情報等を用いて音声区間を検出する。本実施
形態において音声区間の検出を行う場合、検出した音声
区間のみではなく、その前後に数十フレーム程度の非音
声区間も付加して出力する。そして、該非音声区間が付
加された音響データを対象として、以下に示す認識処理
が行われる。尚、以下に示す認識処理は、該認識結果出
力の高速化のために、ステップS202の音声区間検出
処理と並行して行われるのが一般的である。
【0019】次にステップS203においては、検出さ
れた音声区間内においてデジタル化された音響信号の分
析を行い、ケプストラム時系列等の音響特徴パラメータ
を出力する。
【0020】そしてステップS204においては、本実
施形態の特徴であるところの、電話又は回線種別を判別
する。この際に、ステップS202において検出された
音声区間の前後の非音声区間のうち、音声区間前の非音
声区間の分析データを用いて判別を行なうことを特徴と
する。
【0021】以下、ステップS204における電話種別
判別方法について詳細に説明する。ここでは、デジタル
携帯電話と、その他の電話の2種を判別する場合につい
て説明するが、もちろんこのような判別のみに限らず、
外線と内線等、様々な電話種又は回線種の判別が可能で
ある。また、デジタル携帯電話における圧縮方式として
は、フルレートとハーフレートの2種類があるが、ここ
では両者を混在して扱うとする。
【0022】本実施形態における判別方式としては、H
MM(隠れマルコフモデル)を例として説明する。尚、
判別方式として判別関数を設計する等、他のパタン識別
法を適用することももちろん可能である。
【0023】本実施形態の電話種別判定はその前処理と
して、電話種毎の非音声用HMMパラメータを予め作成
しておく。以下、その作成方法について、図3のフロー
チャートを参照して説明する。
【0024】まずステップS301において、様々な環
境、たとえばオフィス内,自動車内,雑踏,展示会場等
において発生する雑音を予め収録することにより、雑音
データベースを作成する。そしてステップS302にお
いて、これら雑音の振幅を変化させることにより、様々
なレベルの雑音を用意する。次にステップS303にお
いて、以上のようにして作成された様々な環境の様々な
レベルの雑音データを、さらに携帯電話、またはその他
の電話を介して収録することによって、携帯電話の雑音
データベース、及びその他の電話の雑音データベースを
作成する。
【0025】そしてステップS304において、ステッ
プS303で作成された雑音データベースを用いて、そ
れぞれ携帯電話用およびその他の電話用のHMMの学習
を行ない、得られたHMMパラメータをステップS30
5でROM105に格納する。このHMMパラメータが
即ち、携帯/その他の電話用の2種類の非音声用のHM
Mパラメータとなる。
【0026】尚、図3に示したHMMパラメータの作成
処理は、音声認識動作に先だって行っておく必要があ
る。尚、実際の認識動作時には、HMMパラメータをR
OM105に格納したまま用いても、又はRAM106
にコピーして用いてもよい。
【0027】図2に戻り、ステップS204において
は、図3に示す方法によって作成された携帯/その他の
2種類の非音声用のHMMパラメータを用いて、音声区
間前の非音声区間の分析データに対して一般的な尤度計
算を行なうことにより、該音響データが携帯電話からの
音声であるのか、又はその他の電話からの音声であるか
の判別を行う。
【0028】ステップS204における判別の結果、携
帯電話からの音響データであると判別された場合はステ
ップS205へ、その他の電話からの音響データである
と判別された場合はステップS206へ進む。
【0029】ステップS205においては、携帯電話用
音響モデルを用いて音声区間部分の認識を行なう。尚、
ここで使用される音響モデルは通常のものとは異なる
が、認識アルゴリズムはHMMによるビタービ探索など
の一般的な方法を用いることができる。
【0030】尚、本実施形態における携帯電話用音響モ
デルは、まず多人数の話者の様々な音声を携帯電話を介
して収録し、該データを用いて、一般的に用いられるア
ルゴリズムによってHMM等の音響モデルの学習を行な
うことにより、作成される。また、ステップS206で
用いられるその他の電話用の音響モデルも、携帯電話以
外の電話を用いて音声を収録する以外は同様の方法で作
成することができる。尚、これらの音響モデルの作成は
認識処理に先だって行っておき、得られたパラメータを
ROM105に予め格納しておく。尚、実際の認識動作
時には、これら音響モデルをROM105に格納したま
ま用いても、又はRAM106にコピーして用いてもよ
い。
【0031】一方、ステップS206においては、その
他の電話用音響モデルを用いて、音声区間部分の認識を
行なう。この認識方法は、音響モデルが異なる以外はス
テップS205と同様である。
【0032】ステップS205又はS206における認
識結果は、それぞれステップS207又はS208に
て、ディスプレイ103やI/F102に対して出力さ
れる。
【0033】尚、本実施形態においては携帯電話とその
他の電話の2種類の判別を行なう例について説明した
が、もちろん複数種類を判別し、それぞれに適したモデ
ルを使用して音声認識を行なうことも可能である。例え
ば、携帯電話とPHS、及びその他の電話のそれぞれに
ついて、内線からかかってきた場合と外線からかかって
きた場合の計6種類の判別を行なうこともできる。
【0034】また、本実施形態において音響データが携
帯電話からのものであるか否かを判別する例について説
明したが、一般にデジタル携帯電話における圧縮方式と
して、フルレートとハーフレートの2種類がある。従っ
て、該電話種類が携帯電話であると判別された際には、
更にその圧縮方式をも判別し、該圧縮方式に応じた音響
モデルを使用することも有効である。
【0035】また、本実施形態では、音声認識結果をデ
ィスプレイ103やI/F102に出力する例について
説明したが、I/F102に不図示の音声合成装置を接
続し、該音声合成装置によって作成された応答音声を、
電話回線を介して出力する構成も有効である。また、文
字や記号として出力される認識結果を、何らかのアプリ
ケーションに対して入力し、該アプリケーションを音声
認識結果によって制御することも可能である。
【0036】また、本実施形態における音声認識は、そ
の対象を日本語に限定されず、音声認識に用いられる音
声モデルや文法を外国語用に変更することにより、その
対象を外国語まで広げることも可能である。
【0037】以上説明したように本実施形態によれば、
電話又は回線種毎の非音声用HMMパラメータを予め作
成しておくことにより、非音声区間の音響データに基づ
いて電話又は回線種別を判定することができる。従っ
て、該判定結果に基づいて単一の音響モデルのみを使用
した認識処理を行なえば良く、音声認識のための処理時
間や使用メモリ量の増大を最小限に抑制しつつ、認識率
を向上させることができる。
【0038】
【他の実施形態】なお、本発明は、複数の機器(例えば
ホストコンピュータ、インタフェイス機器、リーダ、プ
リンタなど)から構成されるシステムに適用しても、一
つの機器からなる装置(例えば、複写機、ファクシミリ
装置など)に適用してもよい。
【0039】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体(または記録媒体)を、システムあるい
は装置に供給し、そのシステムあるいは装置のコンピュ
ータ(またはCPUやMPU)が記憶媒体に格納されたプログ
ラムコードを読み出し実行することによっても、達成さ
れることは言うまでもない。この場合、記憶媒体から読
み出されたプログラムコード自体が前述した実施形態の
機能を実現することになり、そのプログラムコードを記
憶した記憶媒体は本発明を構成することになる。また、
コンピュータが読み出したプログラムコードを実行する
ことにより、前述した実施形態の機能が実現されるだけ
でなく、そのプログラムコードの指示に基づき、コンピ
ュータ上で稼働しているオペレーティングシステム(OS)
などが実際の処理の一部または全部を行い、その処理に
よって前述した実施形態の機能が実現される場合も含ま
れることは言うまでもない。
【0040】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0041】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明した図2に示すフローチャー
トに対応するプログラムコードが格納されることにな
る。
【0042】
【発明の効果】以上説明したように本発明によれば、電
話音声認識を簡単な構成で短時間に行なうことが可能と
なる。
【図面の簡単な説明】
【図1】本発明に係る一実施形態における音声認識装置
の構成を示すブロック図、
【図2】本実施形態における音声認識処理のフローチャ
ート、
【図3】本実施形態における非音声用HMMパラメータ
の作成方法を示すフローチャート、である。
【符号の説明】
100 マイクロフォン 101 A/D変換部 102 インタフェース 103 ディスプレイ 104 CPU 105 ROM 106 RAM 107 外部記憶装置
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04B 7/26 H04B 7/26 Q H04M 3/42 Fターム(参考) 5D015 AA02 BB02 GG01 HH06 KK02 KK04 5K024 AA15 BB01 CC01 CC11 DD01 EE09 GG00 GG01 5K067 AA42 BB02 DD54 EE04 9A001 BB06 EE04 EE05 HH15 HH17 JJ01

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 音響信号を入力する入力手段と、 該音響信号から音声区間を検出する検出手段と、 前記音響信号の種類を判別する判別手段と、 前記判別手段における判別結果に応じて音響モデルセッ
    トを決定する決定手段と、 該決定された音響モデルセットを用いて前記音声区間の
    音声認識を行なう認識手段と、 前記認識手段による認識結果を出力する出力手段と、を
    有することを特徴とする音声認識装置。
  2. 【請求項2】 前記検出手段は、前記音響信号から前記
    音声区間とその前後の非音声区間を検出し、 前記判別手段は、該非音声区間の音響信号に基づいて、
    該音響信号の種類を判別することを特徴とする請求項1
    記載の音声認識装置。
  3. 【請求項3】 更に、音響信号の種類に応じた複数の音
    響モデルセットを保持する保持手段を備え、 前記決定手段は、該保持手段に保持された複数の音響モ
    デルセットから一つを選択することを特徴とする請求項
    1記載の音声認識装置。
  4. 【請求項4】 前記判別手段は、前記音響信号の電話種
    別を判別することを特徴とする請求項1記載の音声認識
    装置。
  5. 【請求項5】 前記判別手段は、前記音響信号が携帯電
    話による音響信号であるか否かを判別することを特徴と
    する請求項4記載の音声認識装置。
  6. 【請求項6】 前記判別手段は、前記音響信号が携帯電
    話によるものである場合、更にその圧縮方式を判別する
    ことを特徴とする請求項5記載の音声認識装置。
  7. 【請求項7】 前記判別手段は、前記音響信号がPHS
    による音響信号であるか否かを判別することを特徴とす
    る請求項4記載の音声認識装置。
  8. 【請求項8】 前記判別手段は、前記音響信号が一般電
    話による音響信号であるか否かを判別することを特徴と
    する請求項4記載の音声認識装置。
  9. 【請求項9】 前記判別手段は、前記音響信号の回線種
    別を判別することを特徴とする請求項1記載の音声認識
    装置。
  10. 【請求項10】 前記判別手段は、前記音響信号が構内
    回線による音響信号であるか否かを判別することを特徴
    とする請求項9記載の音声認識装置。
  11. 【請求項11】 前記判別手段は、前記音響信号が一般
    公衆回線による音響信号であるか否かを判別することを
    特徴とする請求項9記載の音声認識装置。
  12. 【請求項12】 前記判別手段は、隠れマルコフモデル
    を用いて前記音響信号の種類を判別することを特徴とす
    る請求項4乃至11のいずれかに記載の音声認識装置。
  13. 【請求項13】 前記出力手段は、電話回線への接続イ
    ンタフェースであることを特徴とする請求項1記載の音
    声認識装置。
  14. 【請求項14】 音響信号を入力する入力工程と、 該音響信号から音声区間を検出する検出工程と、 前記音響信号の種類を判別する判別工程と、 前記判別手段における判別結果に応じて音響モデルセッ
    トを決定する決定工程と、 該決定された音響モデルセットを用いて前記音声区間の
    音声認識を行なう認識工程と、 前記認識工程における認識結果を出力する出力工程と、
    を有することを特徴とする音声認識方法。
  15. 【請求項15】 音声認識処理のプログラムコードが記
    録された記録媒体であって、該プログラムコードは少な
    くとも、 音響信号を入力する入力工程のコードと、 該音響信号から音声区間を検出する検出工程のコード
    と、 前記音響信号の種類を判別する判別工程のコードと、 前記判別手段における判別結果に応じて音響モデルセッ
    トを決定する決定工程のコードと、 該決定された音響モデルセットを用いて前記音声区間の
    音声認識を行なう認識工程のコードと、 前記認識工程における認識結果を出力する出力工程のコ
    ードと、を有することを特徴とする記録媒体。
JP11093489A 1999-03-31 1999-03-31 音声認識装置及び方法 Withdrawn JP2000284792A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11093489A JP2000284792A (ja) 1999-03-31 1999-03-31 音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11093489A JP2000284792A (ja) 1999-03-31 1999-03-31 音声認識装置及び方法

Publications (1)

Publication Number Publication Date
JP2000284792A true JP2000284792A (ja) 2000-10-13

Family

ID=14083767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11093489A Withdrawn JP2000284792A (ja) 1999-03-31 1999-03-31 音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JP2000284792A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002091358A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method and apparatus for rejection of speech recognition results in accordance with confidence level
JP2005084071A (ja) * 2003-09-04 2005-03-31 Kddi Corp 音声認識装置
US20140129223A1 (en) * 2012-11-06 2014-05-08 Samsung Electronics Co., Ltd. Method and apparatus for voice recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002091358A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method and apparatus for rejection of speech recognition results in accordance with confidence level
JP2005084071A (ja) * 2003-09-04 2005-03-31 Kddi Corp 音声認識装置
US20140129223A1 (en) * 2012-11-06 2014-05-08 Samsung Electronics Co., Ltd. Method and apparatus for voice recognition

Similar Documents

Publication Publication Date Title
RU2200369C2 (ru) Телефонный аппарат для сотовой связи с функцией речевого набора номера
EP0887788B1 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
US7630878B2 (en) Speech recognition with language-dependent model vectors
JP5613335B2 (ja) 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
EP1525577B1 (en) Method for automatic speech recognition
JP2009527024A (ja) 話者非依存的音声認識を有する通信装置
CN113571053A (zh) 语音唤醒方法和设备
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
JP3969908B2 (ja) 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
CN101354886A (zh) 语音识别装置
CN113271386A (zh) 啸叫检测方法及装置、存储介质、电子设备
CN102708857A (zh) 基于运动的语音活动检测
US7593853B2 (en) Baseband modem for speech recognition and mobile communication terminal using the same
JP5988077B2 (ja) 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
JP2019204112A (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
JP2011170087A (ja) 音声認識装置
JP2000284792A (ja) 音声認識装置及び方法
CN111710341B (zh) 语音切割点检测方法及其装置、介质和电子设备
KR20040008990A (ko) 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체
JP2006023773A (ja) 音声処理システム
KR100433550B1 (ko) 스피드 음성 다이얼 장치와 방법
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JPH11175096A (ja) 音声信号処理装置
JP2003241787A (ja) 音声認識装置および方法、並びにプログラム
JP2004219918A (ja) 音声認識環境判定方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060606