JP2000284792A

JP2000284792A - 音声認識装置及び方法

Info

Publication number: JP2000284792A
Application number: JP11093489A
Authority: JP
Inventors: Tetsuo Kosaka; 哲夫小坂
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-03-31
Filing date: 1999-03-31
Publication date: 2000-10-13

Abstract

(57)【要約】【課題】音声認識において電話や回線種別の違いに基
づく認識率の低下を防ぐためには、複数種類の音響モデ
ルを用いて複数の認識系を動作させねばならず、大量の
メモリ及び処理時間が必要であった。【解決手段】入力された音響信号から音声区間及びそ
の前後の非音声区間を検出し（Ｓ２０２）、該非音声区
間に基づいて、予め用意されたＨＭＭパラメータを参照
して電話種別を判別し（Ｓ２０４）、該判別結果に応じ
て音響モデルを選択して音声認識を行なう（Ｓ２０５，
Ｓ２０６）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識装置及び方
法に関し、例えば電話音声を対象として音声認識を行な
う音声認識装置及び方法に関する。

【０００２】

【従来の技術】電話音声を対象として音声認識を行な
う、所謂電話音声認識を行う場合、一般の電話やＰＨＳ
(Personal Handy phone System)、または携帯電話等、
様々な種類の電話からかかってくる音声を認識する必要
がある。

【０００３】例えば、構内交換機（ＰＢＸ）システムを
利用した内線電話機の場合、内線からかかってくる場合
と、外線つまり公衆回線を介してかかってくる場合等、
複数種類の電話からの通話が考えられる。このようなＰ
ＢＸシステムにおいては、一般的にはどの種類の電話か
らの着信があるかは、事前には分からない場合が多い。

【０００４】このように、様々な種類の電話や回線から
かかってくる電話音声を認識する場合、電話の種類や回
線の違いによって認識性能の劣化が発生する可能性があ
る。例えば内線と外線の両形態による通話がある場合、
一般に外線からの電話音声は３００〜３４００Ｈｚに帯
域制限されたものになるが、内線の場合、より広い帯域
をとれる場合が多い。また携帯電話の場合、現状では国
内においてはデジタル携帯電話が大多数を占めるが、音
声情報が符号化により圧縮されているため、一般電話よ
りも通話品質が低下する。

【０００５】以上のような問題の解決法として、複数種
類の音響モデルにより音声認識を行なう方法が提案され
ている。この方法では、例えば外線用の音響モデルと内
線用の音響モデル、または一般電話用の音響モデルとデ
ジタル携帯電話用の音響モデルというように、電話種別
に応じた音響モデルを別個に用意する。そして、これら
複数の音響モデルを用いて、同一入力に対し複数の認識
系を動作させ、より尤度の高い結果を、最終的な認識結
果として出力することにより、認識率の低下を避けるこ
とができる。

【０００６】

【発明が解決しようとする課題】上述したように従来の
音声認識装置においては、複数種類の音響モデルを用い
て複数の認識系を動作させることにより、電話や回線の
違いなどに対処した音声認識が可能となる。

【０００７】しかしながらこの方法では、認識のための
メモリを多く必要とし、また認識時間も増大してしまう
という問題点があった。

【０００８】本発明は上記問題点を解決するためになさ
れたものであり、電話音声認識を簡単な構成で短時間に
可能とする音声認識装置及び方法を提供することを目的
とする。

【０００９】

【課題を解決するための手段】上記目的を達成するため
の一手段として、本発明の音声認識装置は以下の構成を
備える。

【００１０】即ち、音響信号を入力する入力手段と、該
音響信号から音声区間を検出する検出手段と、前記音響
信号の種類を判別する判別手段と、前記判別手段におけ
る判別結果に応じて音響モデルセットを決定する決定手
段と、該決定された音響モデルセットを用いて前記音声
区間の音声認識を行なう認識手段と、前記認識手段によ
る認識結果を出力する出力手段と、を有することを特徴
とする。

【００１１】例えば、前記検出手段は、前記音響信号か
ら前記音声区間とその前後の非音声区間を検出し、前記
判別手段は、該非音声区間の音響信号に基づいて、該音
響信号の種類を判別することを特徴とする。

【００１２】また、上記目的を達成するための一手法と
して、本発明の音声認識方法は以下の工程を備える。

【００１３】即ち、音響信号を入力する入力工程と、該
音響信号から音声区間を検出する検出工程と、前記音響
信号の種類を判別する判別工程と、前記判別手段におけ
る判別結果に応じて音響モデルセットを決定する決定工
程と、該決定された音響モデルセットを用いて前記音声
区間の音声認識を行なう認識工程と、前記認識工程にお
ける認識結果を出力する出力工程と、を有することを特
徴とする。

【００１４】

【発明の実施の形態】以下、添付図面に従って本発明に
係る一実施形態について詳細に説明する。

【００１５】図１は、本実施形態における音声認識装置
の構成を示すブロック図である。同図において、１００
は音声を入力するためのマイクロフォン、１０１は取り
込んだ音声をデジタル信号に変換するためのＡ／Ｄ変換
部である。１０２は認識結果をアプリケーションに渡す
ためのインタフェース（Ｉ／Ｆ）であり、ＲＳ２３２Ｃ
等によって接続される。１０３は認識結果を表示するた
めのディスプレイである。１０４はＣＰＵであり、ＲＯ
Ｍ１０５に格納されていたプログラムをＲＡＭ１０６に
読み出し、該読み出したプログラムに基づいて本実施形
態における認識処理を実行する。ＲＯＭ１０５には、Ｃ
ＰＵ１０４が各種処理を実行するための各種プログラム
を格納している。また、音素モデル等のデータも格納し
ている。ＲＡＭ１０６は、各種プログラムの作業領域を
提供する。また、外部記憶装置１０７は、ハードディス
クやフロッピイディスク等であり、これらにもＣＰＵ１
０４によって実行されるプログラムを格納することが可
能である。

【００１６】次に、本実施形態における音声認識処理を
図２のフローチャートに従って説明する。まずステップ
Ｓ２０１において、マイク１００から取り込んだ音声を
Ａ／Ｄ変換部１０１でデジタル信号に変換する。尚、マ
イク１００の代わりに、電話回線を介して入力された電
話音声を取り込み、それをＡ／Ｄ変換部１０１に入力し
てもよい。

【００１７】以下に示す、ステップＳ２０２〜Ｓ２０７
の処理は、ＣＰＵ１０４が、ＲＯＭ１０５または外部記
憶装置１０７から読み込んだプログラムに基づいて、Ｒ
ＡＭ１０６を作業領域として使用しながら実行するもの
である。

【００１８】まずステップＳ２０２において、音声波形
からパワー情報等を用いて音声区間を検出する。本実施
形態において音声区間の検出を行う場合、検出した音声
区間のみではなく、その前後に数十フレーム程度の非音
声区間も付加して出力する。そして、該非音声区間が付
加された音響データを対象として、以下に示す認識処理
が行われる。尚、以下に示す認識処理は、該認識結果出
力の高速化のために、ステップＳ２０２の音声区間検出
処理と並行して行われるのが一般的である。

【００１９】次にステップＳ２０３においては、検出さ
れた音声区間内においてデジタル化された音響信号の分
析を行い、ケプストラム時系列等の音響特徴パラメータ
を出力する。

【００２０】そしてステップＳ２０４においては、本実
施形態の特徴であるところの、電話又は回線種別を判別
する。この際に、ステップＳ２０２において検出された
音声区間の前後の非音声区間のうち、音声区間前の非音
声区間の分析データを用いて判別を行なうことを特徴と
する。

【００２１】以下、ステップＳ２０４における電話種別
判別方法について詳細に説明する。ここでは、デジタル
携帯電話と、その他の電話の２種を判別する場合につい
て説明するが、もちろんこのような判別のみに限らず、
外線と内線等、様々な電話種又は回線種の判別が可能で
ある。また、デジタル携帯電話における圧縮方式として
は、フルレートとハーフレートの２種類があるが、ここ
では両者を混在して扱うとする。

【００２２】本実施形態における判別方式としては、Ｈ
ＭＭ（隠れマルコフモデル）を例として説明する。尚、
判別方式として判別関数を設計する等、他のパタン識別
法を適用することももちろん可能である。

【００２３】本実施形態の電話種別判定はその前処理と
して、電話種毎の非音声用ＨＭＭパラメータを予め作成
しておく。以下、その作成方法について、図３のフロー
チャートを参照して説明する。

【００２４】まずステップＳ３０１において、様々な環
境、たとえばオフィス内，自動車内，雑踏，展示会場等
において発生する雑音を予め収録することにより、雑音
データベースを作成する。そしてステップＳ３０２にお
いて、これら雑音の振幅を変化させることにより、様々
なレベルの雑音を用意する。次にステップＳ３０３にお
いて、以上のようにして作成された様々な環境の様々な
レベルの雑音データを、さらに携帯電話、またはその他
の電話を介して収録することによって、携帯電話の雑音
データベース、及びその他の電話の雑音データベースを
作成する。

【００２５】そしてステップＳ３０４において、ステッ
プＳ３０３で作成された雑音データベースを用いて、そ
れぞれ携帯電話用およびその他の電話用のＨＭＭの学習
を行ない、得られたＨＭＭパラメータをステップＳ３０
５でＲＯＭ１０５に格納する。このＨＭＭパラメータが
即ち、携帯／その他の電話用の２種類の非音声用のＨＭ
Ｍパラメータとなる。

【００２６】尚、図３に示したＨＭＭパラメータの作成
処理は、音声認識動作に先だって行っておく必要があ
る。尚、実際の認識動作時には、ＨＭＭパラメータをＲ
ＯＭ１０５に格納したまま用いても、又はＲＡＭ１０６
にコピーして用いてもよい。

【００２７】図２に戻り、ステップＳ２０４において
は、図３に示す方法によって作成された携帯／その他の
２種類の非音声用のＨＭＭパラメータを用いて、音声区
間前の非音声区間の分析データに対して一般的な尤度計
算を行なうことにより、該音響データが携帯電話からの
音声であるのか、又はその他の電話からの音声であるか
の判別を行う。

【００２８】ステップＳ２０４における判別の結果、携
帯電話からの音響データであると判別された場合はステ
ップＳ２０５へ、その他の電話からの音響データである
と判別された場合はステップＳ２０６へ進む。

【００２９】ステップＳ２０５においては、携帯電話用
音響モデルを用いて音声区間部分の認識を行なう。尚、
ここで使用される音響モデルは通常のものとは異なる
が、認識アルゴリズムはＨＭＭによるビタービ探索など
の一般的な方法を用いることができる。

【００３０】尚、本実施形態における携帯電話用音響モ
デルは、まず多人数の話者の様々な音声を携帯電話を介
して収録し、該データを用いて、一般的に用いられるア
ルゴリズムによってＨＭＭ等の音響モデルの学習を行な
うことにより、作成される。また、ステップＳ２０６で
用いられるその他の電話用の音響モデルも、携帯電話以
外の電話を用いて音声を収録する以外は同様の方法で作
成することができる。尚、これらの音響モデルの作成は
認識処理に先だって行っておき、得られたパラメータを
ＲＯＭ１０５に予め格納しておく。尚、実際の認識動作
時には、これら音響モデルをＲＯＭ１０５に格納したま
ま用いても、又はＲＡＭ１０６にコピーして用いてもよ
い。

【００３１】一方、ステップＳ２０６においては、その
他の電話用音響モデルを用いて、音声区間部分の認識を
行なう。この認識方法は、音響モデルが異なる以外はス
テップＳ２０５と同様である。

【００３２】ステップＳ２０５又はＳ２０６における認
識結果は、それぞれステップＳ２０７又はＳ２０８に
て、ディスプレイ１０３やＩ／Ｆ１０２に対して出力さ
れる。

【００３３】尚、本実施形態においては携帯電話とその
他の電話の２種類の判別を行なう例について説明した
が、もちろん複数種類を判別し、それぞれに適したモデ
ルを使用して音声認識を行なうことも可能である。例え
ば、携帯電話とＰＨＳ、及びその他の電話のそれぞれに
ついて、内線からかかってきた場合と外線からかかって
きた場合の計６種類の判別を行なうこともできる。

【００３４】また、本実施形態において音響データが携
帯電話からのものであるか否かを判別する例について説
明したが、一般にデジタル携帯電話における圧縮方式と
して、フルレートとハーフレートの２種類がある。従っ
て、該電話種類が携帯電話であると判別された際には、
更にその圧縮方式をも判別し、該圧縮方式に応じた音響
モデルを使用することも有効である。

【００３５】また、本実施形態では、音声認識結果をデ
ィスプレイ１０３やＩ／Ｆ１０２に出力する例について
説明したが、Ｉ／Ｆ１０２に不図示の音声合成装置を接
続し、該音声合成装置によって作成された応答音声を、
電話回線を介して出力する構成も有効である。また、文
字や記号として出力される認識結果を、何らかのアプリ
ケーションに対して入力し、該アプリケーションを音声
認識結果によって制御することも可能である。

【００３６】また、本実施形態における音声認識は、そ
の対象を日本語に限定されず、音声認識に用いられる音
声モデルや文法を外国語用に変更することにより、その
対象を外国語まで広げることも可能である。

【００３７】以上説明したように本実施形態によれば、
電話又は回線種毎の非音声用ＨＭＭパラメータを予め作
成しておくことにより、非音声区間の音響データに基づ
いて電話又は回線種別を判定することができる。従っ
て、該判定結果に基づいて単一の音響モデルのみを使用
した認識処理を行なえば良く、音声認識のための処理時
間や使用メモリ量の増大を最小限に抑制しつつ、認識率
を向上させることができる。

【００３８】

【他の実施形態】なお、本発明は、複数の機器（例えば
ホストコンピュータ、インタフェイス機器、リーダ、プ
リンタなど）から構成されるシステムに適用しても、一
つの機器からなる装置（例えば、複写機、ファクシミリ
装置など）に適用してもよい。

【００３９】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体（または記録媒体）を、システムあるい
は装置に供給し、そのシステムあるいは装置のコンピュ
ータ（またはCPUやMPU）が記憶媒体に格納されたプログ
ラムコードを読み出し実行することによっても、達成さ
れることは言うまでもない。この場合、記憶媒体から読
み出されたプログラムコード自体が前述した実施形態の
機能を実現することになり、そのプログラムコードを記
憶した記憶媒体は本発明を構成することになる。また、
コンピュータが読み出したプログラムコードを実行する
ことにより、前述した実施形態の機能が実現されるだけ
でなく、そのプログラムコードの指示に基づき、コンピ
ュータ上で稼働しているオペレーティングシステム(OS)
などが実際の処理の一部または全部を行い、その処理に
よって前述した実施形態の機能が実現される場合も含ま
れることは言うまでもない。

【００４０】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。

【００４１】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明した図２に示すフローチャー
トに対応するプログラムコードが格納されることにな
る。

【００４２】

【発明の効果】以上説明したように本発明によれば、電
話音声認識を簡単な構成で短時間に行なうことが可能と
なる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態における音声認識装置
の構成を示すブロック図、

【図２】本実施形態における音声認識処理のフローチャ
ート、

【図３】本実施形態における非音声用ＨＭＭパラメータ
の作成方法を示すフローチャート、である。

【符号の説明】

１００マイクロフォン１０１Ａ／Ｄ変換部１０２インタフェース１０３ディスプレイ１０４ＣＰＵ１０５ＲＯＭ１０６ＲＡＭ１０７外部記憶装置

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｂ 7/26 Ｈ０４Ｂ 7/26 ＱＨ０４Ｍ 3/42 Ｆターム(参考） 5D015 AA02 BB02 GG01 HH06 KK02 KK04 5K024 AA15 BB01 CC01 CC11 DD01 EE09 GG00 GG01 5K067 AA42 BB02 DD54 EE04 9A001 BB06 EE04 EE05 HH15 HH17 JJ01

Claims

【特許請求の範囲】

【請求項１】音響信号を入力する入力手段と、該音響信号から音声区間を検出する検出手段と、前記音響信号の種類を判別する判別手段と、前記判別手段における判別結果に応じて音響モデルセッ
トを決定する決定手段と、該決定された音響モデルセットを用いて前記音声区間の
音声認識を行なう認識手段と、前記認識手段による認識結果を出力する出力手段と、を
有することを特徴とする音声認識装置。
【請求項２】前記検出手段は、前記音響信号から前記
音声区間とその前後の非音声区間を検出し、前記判別手段は、該非音声区間の音響信号に基づいて、
該音響信号の種類を判別することを特徴とする請求項１
記載の音声認識装置。
【請求項３】更に、音響信号の種類に応じた複数の音
響モデルセットを保持する保持手段を備え、前記決定手段は、該保持手段に保持された複数の音響モ
デルセットから一つを選択することを特徴とする請求項
１記載の音声認識装置。
【請求項４】前記判別手段は、前記音響信号の電話種
別を判別することを特徴とする請求項１記載の音声認識
装置。
【請求項５】前記判別手段は、前記音響信号が携帯電
話による音響信号であるか否かを判別することを特徴と
する請求項４記載の音声認識装置。
【請求項６】前記判別手段は、前記音響信号が携帯電
話によるものである場合、更にその圧縮方式を判別する
ことを特徴とする請求項５記載の音声認識装置。
【請求項７】前記判別手段は、前記音響信号がＰＨＳ
による音響信号であるか否かを判別することを特徴とす
る請求項４記載の音声認識装置。
【請求項８】前記判別手段は、前記音響信号が一般電
話による音響信号であるか否かを判別することを特徴と
する請求項４記載の音声認識装置。
【請求項９】前記判別手段は、前記音響信号の回線種
別を判別することを特徴とする請求項１記載の音声認識
装置。
【請求項１０】前記判別手段は、前記音響信号が構内
回線による音響信号であるか否かを判別することを特徴
とする請求項９記載の音声認識装置。
【請求項１１】前記判別手段は、前記音響信号が一般
公衆回線による音響信号であるか否かを判別することを
特徴とする請求項９記載の音声認識装置。
【請求項１２】前記判別手段は、隠れマルコフモデル
を用いて前記音響信号の種類を判別することを特徴とす
る請求項４乃至１１のいずれかに記載の音声認識装置。
【請求項１３】前記出力手段は、電話回線への接続イ
ンタフェースであることを特徴とする請求項１記載の音
声認識装置。
【請求項１４】音響信号を入力する入力工程と、該音響信号から音声区間を検出する検出工程と、前記音響信号の種類を判別する判別工程と、前記判別手段における判別結果に応じて音響モデルセッ
トを決定する決定工程と、該決定された音響モデルセットを用いて前記音声区間の
音声認識を行なう認識工程と、前記認識工程における認識結果を出力する出力工程と、
を有することを特徴とする音声認識方法。
【請求項１５】音声認識処理のプログラムコードが記
録された記録媒体であって、該プログラムコードは少な
くとも、音響信号を入力する入力工程のコードと、該音響信号から音声区間を検出する検出工程のコード
と、前記音響信号の種類を判別する判別工程のコードと、前記判別手段における判別結果に応じて音響モデルセッ
トを決定する決定工程のコードと、該決定された音響モデルセットを用いて前記音声区間の
音声認識を行なう認識工程のコードと、前記認識工程における認識結果を出力する出力工程のコ
ードと、を有することを特徴とする記録媒体。