JP2005049436A

JP2005049436A - 音声認識方法、装置及びプログラム

Info

Publication number: JP2005049436A
Application number: JP2003203660A
Authority: JP
Inventors: Koichi Yamamoto; 幸一山本; Yasuyuki Masai; 康之正井; Masato Yajima; 真人矢島; Kohei Momozaki; 浩平桃崎; Kazuhiko Abe; 一彦阿部; Munehiko Sasajima; 宗彦笹島
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-07-30
Filing date: 2003-07-30
Publication date: 2005-02-24
Anticipated expiration: 2023-07-30
Also published as: US20050027522A1; US20080091422A1; JP4000095B2

Abstract

【課題】入力されるオーディオ信号中の所望の音声信号に対して、非音声信号や他の音声信号の影響を最小限に抑えた高精度の音声認識を行う。
【解決手段】オーディオ信号入力部１１により音声信号と非音声信号を含むオーディオ信号１２を入力してオーディオ信号１２の音声種別を判別部１４により判別し、音声信号抽出部１６によって音声種別の判別結果１５に従った信号処理を行うことによりオーディオ信号１２から音声信号１７を抽出し、抽出した音声信号１７を音声認識部１８に渡して音声認識を行う。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声信号と非音声信号を含むオーディオ信号に適用される音声認識の方法と装置及びプログラムに関する。
【０００２】
【従来の技術】
テレビジョン放送媒体、通信媒体または記憶媒体から入力される音声信号を含むオーディオ信号に対して音声認識を行う場合、入力されるオーディオ信号が単一チャネルの信号であれば、そのオーディオ信号がそのまま認識エンジンに渡される。一方、入力されるオーディオ信号が例えば主音声と副音声を含む二カ国語放送信号であれば主音声信号、ステレオ放送信号であれば左右いずれかのチャネルの信号が認識エンジンに渡される。
【０００３】
このように入力されるオーディオ信号をそのまま音声認識にかけると、オーディオ信号に音楽・雑音などの非音声信号や認識辞書とは異なる言語の音声信号が含まれていた場合、認識精度が大きく劣化してしまう。
【０００４】
一方、非特許文献１にはチャネル間の位相差を利用して目的音の音声信号を抽出する記述である適応マイクロホンアレイーが開示されている。適応マイクロホンアレーを用いると、所望の音声信号のみを認識エンジンに渡すことができ、上述した問題は解決される。
【０００５】
【非特許文献１】
永田仁史、安部正人著「話者追尾２チャネルマイクロホンアレーに関する検討」、電子情報通信学会論文誌ＡＶｏｌ．Ｊ８２−Ａ，Ｎｏ．６，ｐｐ．８６０−８６６，１９９９年６月
【０００６】
【発明が解決しようとする課題】
従来の音声認識技術では、入力されるオーディオ信号をそのまま音声認識にかけるため、オーディオ信号に音楽・雑音などの非音声信号や認識辞書とは異なる言語の音声信号が含まれていた場合、認識精度が大きく劣化してしまうという問題がある。
【０００７】
一方、適応マイクロホンアレーを用いると、原理的には雑音などを含まない音声信号のみを音声認識エンジンに渡すことができる。しかし、この方法ではマイクロホンによる集音と信号処理により不要な成分を除去して所望の音声信号を抽出するため、例えば放送媒体、通信媒体または記憶媒体から入力されるオーディオ信号のように、既に音声信号と非音声信号が混在しているオーディオ信号から音声信号のみを抽出することは難しい。
【０００８】
本発明は、入力されるオーディオ信号中の所望の音声信号に対して非音声信号や他の音声信号の影響を最小限に抑えて高精度に音声認識を行うことができる音声認識方法、装置及びプログラムを提供することを目的とする。
【０００９】
【課題を解決するための手段】
上記の課題を解決するため、本発明の一つの態様では音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号を入力し、オーディオ信号の音声種別を判別する。入力されるオーディオ信号に対して音声種別の判別結果に従った信号処理を行うことより、オーディオ信号から音声信号を抽出し、抽出した音声信号に対して音声認識を行う。
【００１０】
本発明の他の態様によると、音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号を入力し、該オーディオ信号の音声種別を判別すると共に、各チャネルのオーディオ信号に対して個別に音声認識を行って複数の認識結果を生成した後、各々の認識結果を比較し、一致する区間の認識結果を削除することにより最終認識結果を得る。
【００１１】
このような音声認識処理によって、入力されるオーディオ信号に含まれる非音声信号や所望以外の音声信号の影響を抑えて、所望の音声信号のみに対する精度の高い認識結果を得ることができる。
【００１２】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。
（第１の実施形態）
図１に、本発明の第１の実施の形態に係る音声認識装置を示す。オーディオ信号入力部１１によって、例えばテレビジョン放送媒体、通信媒体または記憶媒体などの媒体から、音声信号と非音声信号を含むオーディオ信号が入力される。音声信号とは人間が発する音声の信号であり、非音声信号とは音楽信号や雑音などの音声信号以外の信号である。
【００１３】
オーディオ信号入力部１１は、具体的には例えばテレビジョン受信機やラジオ受信機などの受信装置、ＶＴＲやＤＶＤプレーヤなどのビデオ再生装置、あるいはパーソナルコンピュータのオーディオ信号処理部である。オーディオ信号入力部１１がテレビジョン受信機やラジオ受信機のような受信装置内のオーディオ信号処理部である場合、オーディオ信号処理部１１からはオーディオ信号１２と後述する制御信号１３が出力される。
【００１４】
オーディオ信号入力部１１からの制御信号１３は、音声種別判別部１４に入力される。音声種別判別部１４では、制御信号１３に基づいてオーディオ信号１２の音声種別が判別される。ここで音声種別とは、例えばオーディオ信号１２がモノラル信号、ステレオ信号、マルチチャネル信号、二カ国語信号または多言語信号のいずれの種別であるかを表す。
【００１５】
オーディオ信号入力部１１からのオーディオ信号１２と音声種別判別部１４の判別結果１５は、音声信号抽出部１６に入力される。音声信号抽出部１６では、オーディオ信号１２に含まれる楽音信号や雑音などの非音声信号が除去され、音声信号１７のみが抽出される。音声信号抽出部１６によって抽出された音声信号１７に対して音声認識部（認識エンジン）１８により音声認識が行われ、認識結果１９が出力される。
【００１６】
このように本実施形態によると、オーディオ信号１２中の音声信号１７のみを対象として音声認識を行うことができるため、オーディオ信号１２中に含まれる音楽信号や雑音などの非音声信号の影響を受けることなく、精度の高い認識結果を得ることが可能となる。
【００１７】
次に、本実施形態に係る音声認識装置についてさらに具体的に説明する。
図２には、テレビジョン受信機の要部の構成を示す。アンテナ２０によって受信されるテレビジョン放送信号はチューナ部２１に入力され、所望チャネルの信号が受信される。チューナ部２１からは、映像搬送波成分と音声搬送波成分が分離されて出力される。映像搬送波成分は映像系回路２２に導かれ、映像信号が復調再生される。
【００１８】
一方、音声搬送波成分は音声ＩＦ増幅／音声ＦＭ検波回路２３により音声ＩＦ周波数に変換され、さらに増幅及びＦＭ検波が行われることにより、音声多重信号が出力される。音声多重信号は音声多重復調回路２４によって復調され、主音声チャネル信号及び副音声チャネル信号が生成される。
【００１９】
図３には、音声多重信号の周波数スペクトルを示す。周波数の低い側から主音声チャネル信号３１、副音声チャネル信号３２及び制御チャネル信号３３が順次配置されている。ここで、音声多重信号がステレオ信号であれば、主音声チャネル信号３１は左（Ｌ）チャネル信号と右（Ｒ）チャネル信号の和信号Ｌ＋Ｒであり、副音声チャネル信号３２は差信号Ｌ−Ｒである。音声多重信号が二カ国語信号であれば、主音声チャネル信号３１は例えば日本語音声、副音声チャネル信号３２は外国語（例えば英語）音声の音声信号である。
【００２０】
さらに、音声多重信号はステレオ信号や二カ国語信号以外に、３チャネル以上のいわゆるマルチチャネル信号あるいは多言語信号である場合もある。制御チャネル信号３３は、音声多重信号がここで例示した信号のうちのどの種別（音声種別という）かを示す信号であり、通常はＡＭ信号として送信される。
【００２１】
図２に説明を戻すと、音声多重復調回路２４からは、主音声チャネル信号及び副音声チャネル信号のみでなく、制御チャネル信号３３から検出した音声種別を示す制御信号２５も出力される。音声多重復調回路２４から出力される主音声チャネル信号及び副音声チャネル信号と制御信号２５は、マトリクス回路２６及び必要に応じて設けられるマルチチャネルデコーダ２７に入力される。
【００２２】
マトリクス回路２６は、音声多重信号の音声種別が二カ国語信号の場合は、制御信号２５に従って音声多重信号が二カ国語信号であることを認識し、主音声チャネル信号である例えば日本語音声信号と副音声チャネル信号である外国語音声信号を分離して取り出す。音声多重信号の音声種別がステレオ信号の場合は、マトリクス回路２６は制御信号２５に従って音声多重信号がステレオ信号であることを認識し、主音声チャネル信号であるＬ＋Ｒ信号と副音声チャネル信号であるＬ−Ｒ信号の和（Ｌ＋Ｒ）＋（Ｌ−Ｒ）＝２Ｌと、差（Ｌ＋Ｒ）−（Ｌ−Ｒ）＝２Ｒを演算することにより、Ｌチャネル信号とＲチャネル信号を分離して出力する。このようにマトリクス回路２６からは、二カ国語信号またはステレオ信号である２チャネル信号２８が出力される。
【００２３】
一方、マルチチャネルデコーダ２７では、音声多重信号の音声種別が５．１チャネル信号のようなマルチチャネル信号である場合は、制御信号２５から音声多重信号がマルチチャネル信号であることを認識してデコード処理を行い、５．１チャネル信号などの各チャネルの信号を分離して、マルチチャネル信号２９として出力する。
【００２４】
こうしてマトリクス回路２６から出力される２チャネル信号（二カ国語信号またはステレオ信号）２８、またはマルチチャネルデコーダ２７から出力されるマルチチャネル信号２９は、図示しないオーディオ増幅回路を経てスピーカに供給され、音響信号として出力される。
【００２５】
図１中に示したオーディオ信号入力部１１は、例えば図２における音声ＩＦ増幅／音声ＦＭ検波回路２３、音声多重復調回路２４、マトリクス回路２６及びマルチチャネルデコーダ２７の部分に相当する。この場合、マトリクス回路２６からの２チャネル信号２８またはマルチチャネルデコーダ２７からのマルチチャネル信号２９がオーディオ信号入力部１１からのオーディオ信号１２であり、音声多重復調回路２４から出力される制御信号２５がオーディオ信号入力部１１から出力される制御信号１３に相当する。
【００２６】
図１における音声種別判別部１４では、オーディオ信号入力部１１からの制御信号１３に従って、オーディオ信号１２がモノラル信号、ステレオ信号、マルチチャネル信号、二カ国語信号、多言語信号のいずれかであるかを判別する。オーディオ信号１２がＷＡＶＥファイルである場合は、オーディオ信号入力部１１から制御信号１３としてＷＡＶＥファイルのヘッダ情報を取り出し、これを音声種別判別部１４で読み取ることによって、音声種別すなわちチャネル数等を判別することができる。
【００２７】
音声信号抽出部１６では、音声種別判別部１４においてオーディ信号１２がステレオ信号であると判別された場合、Ｌチャネル信号及びＲチャネル信号の情報を利用してオーディオ信号１２から音声信号１７を抽出し、音声認識部１８に渡す。音声抽出部１６において利用するＬチャネル信号及びＲチャネル信号の情報として、例えば位相情報が挙げられる。すなわち、ステレオ信号においては一般的に、音声信号の成分についてはＬチャネルとＲチャネル間での位相差はほとんど無いのに対して、音楽信号や雑音信号等の非音声信号の成分はＬチャネルとＲチャネル間での位相差が大きいため、位相差を利用して音声信号のみを抽出することができる。
【００２８】
チャネル間の位相差を利用する音声抽出技術は、例えば先に挙げた非特許文献１に記載されている。非特許文献１によると、二つのマイクロホンを目的音の到来方向に向けて配置した場合、目的音は各マイクロホンに同時に到達し、各マイクロホンから同位相の信号として出力されるため、各マイクロホンからの出力の差をとることにより目的音の成分が除去され、目的音と異なる方向から到来する妨害音の成分だけが残る。このため、二つのマイクロホンからの出力の和から差を差し引くことによって妨害音の成分は除去され、目的音の成分のみを抽出できる。
【００２９】
このような非特許文献１に記載の原理を利用して、音声信号抽出部１６では例えばＬチャネル信号とＲチャネル信号との差をとることで、両チャネル間で位相差のほとんどない音声信号を除去して、位相差の大きな非音声信号のみを抽出した後、Ｌチャネル信号及びＲチャネル信号あるいはから非音声信号を差し引くことにより、音声信号１７のみを抽出することができる。
【００３０】
音声信号抽出部１６では、さらにバンドパスフィルタ、ローパスフィルタあるいはハイパスフィルタを用いて入力のオーディオ信号１２に対して帯域制限を行うことによって、音声信号を強調して抽出することも可能である。
【００３１】
音声種別判別部１４によりオーディオ信号１２が５．１チャネル信号などのマルチチャネル信号であると判別された場合も、同様に各チャネルの位相差やスペクトルの帯域制限等を利用することで、音声信号１７を抽出して音声認識部１８に渡すことが可能である。
【００３２】
音声種別判別部１４によりオーディオ信号１２が二カ国語信号であると判別された場合、主音声チャネル信号と副音声チャネル信号には日本語と英語というように異なる言語の音声信号が入っている。ここで、もし主音声チャネル信号及び副音声チャネル信号に共通の信号が存在しているとすれば、その共通の信号は音楽信号や雑音信号等の非音声信号、もしくは同一言語区間の信号である。
【００３３】
従って、音声信号抽出部１６では主音声チャネル信号及び副音声チャネル信号に共通の信号を主音声チャネル信号又は副音声チャネル信号から差し引くことによって、音声認識に不要な非音声成分や、認識辞書とは異なる言語区間の信号を除去し、主音声チャネル信号または副音声チャネル信号から音声信号１７のみを抽出することができる。音声種別判別部１４によりオーディオ信号１２が３カ国以上の多言語信号であると判別された場合も同様である。
【００３４】
このように本実施形態によると、音声信号抽出部１６において音声種別判別部１４の判別結果１５に従ってオーディオ信号１２から音声認識に不必要な非音声信号を取り除くことができる。従って、音声信号抽出部１６から非音声信号を除去された後の音声信号１７のみを音声認識部１８に渡すことにより、認識精度が飛躍的に向上する。
【００３５】
次に、本実施形態に係る音声認識処理をソフトウェアにより実行する場合の処理手順を図４に示すフローチャートにより説明する。
オーディオ信号を入力すると（ステップＳ４１）、まず音声種別を判別する（ステップＳ４２）。次に、音声種別の判別結果に従って複数チャネルのオーディオ信号から、前述のように例えば各チャネルの信号の位相情報、各チャネルに共通の信号成分などを利用して非音声信号を除去し、音声信号のみを抽出する（ステップＳ４３）。最後に、抽出された音声信号を認識エンジンにかけて音声認識を行う（ステップＳ４４）。
【００３６】
（第２の実施形態）
次に、本発明の第２の実施形態について説明する。図５には、第２の実施形態に係る音声認識装置の構成を示す。図５において図１と同一部分に同一符号を付して第１の実施形態との相違点を説明すると、本実施形態ではオーディオ信号入力部１１により入力されるオーディオ信号は音声認識部１８に直接入力される。オーディオ信号入力部１２により入力されたオーディオ信号は、音声種別判別部１４にも入力され、音声種別が判別される。ここで、音声種別が例えば二カ国語信号であると判別されると、入力されたオーディオ信号である主音声チャネル信号１２Ａ及び副音声チャネル信号１２Ｂに対して、音声認識部１８により個別に音声認識が行われる。
【００３７】
すなわち、音声認識部１８においては主音声チャネル信号１２Ａ及び副音声チャネル信号１２Ｂの認識に、音響及び言語辞書としてそれぞれ同一の辞書を使用しており、音声認識部１８からは主音声チャネル信号１２Ａ及び副音声チャネル信号１２Ｂに対する認識結果１９Ａ及び１９Ｂが取り出される。認識結果１９Ａ及び１９Ｂは、認識結果比較部５１に入力される。認識結果比較部５１では、認識結果１９Ａ及び１９Ｂに対して以下のような比較処理が行われ、最終的な認識結果５２が出力される。
【００３８】
通常、テレビジョンの音声多重放送などで提供される二カ国語信号では、日本語と英語というように主音声チャネル信号１２Ａと副音声チャネル信号１２Ｂとで異なった言語が用いられている。従って、主音声チャネル信号１２Ａ及び副音声チャネル信号１２Ｂに対するそれぞれの認識結果１９Ａ及び１９Ｂが一致する区間は、同一言語区間もしくは音楽信号または雑音信号などの非音声区間といった同一信号区間であると考えることができる。
【００３９】
認識結果比較部５１では、音声認識部１８から出力される、主音声チャネル信号１２Ａ及び副音声チャネル信号１２Ｂに対する認識結果１９Ａ及び１９Ｂを比較することによって、同一言語区間または非音声区間などの同一信号区間の判別を行う。認識結果１９Ａまたは１９Ｂから、同一信号区間の部分認識結果を削除すれば、所望言語の音声信号以外の認識結果を排除し、所望言語の音声信号に対する正しい最終認識結果５２を得ることができる。
【００４０】
例えば、主音声チャネル信号１２Ａが日本語の音声信号、副音声チャネル信号１２Ｂが英語の音声信号である場合、音声認識部１８が認識辞書として日本語辞書を使用していれば、音声認識部１８から出される認識結果１９Ａ及び１９Ｂが一致する区間では、主音声チャネル信号１２Ａ及び副音声チャネル信号１２Ｂが共に英語の音声信号か、もしくは音楽信号、雑音信号などの非音声信号であると考えることができる。従って、主音声チャネル信号１２Ａに対する認識結果１９Ａから、副音声チャネル信号１２Ｂに対する認識結果１９Ｂと一致する区間の部分認識結果を削除することによって、より正確な最終認識結果５２を提供することができる。
【００４１】
同様に、音声種別判別部１４においてオーディオ信号入力部１１により入力されたオーディオ信号が多言語信号であると判別された場合も、各言語の音声信号に対する認識結果が一致する区間は、同一言語信号や非音声信号などの同一信号区間であると言える。従って、所望言語のチャネル信号に対する認識結果から同一信号区間の部分認識結果を削除することにより、所望言語の音声信号に対する最終認識結果５２を正しく得ることが可能である。
【００４２】
次に、本実施形態に係る音声認識処理をソフトウェアにより実行する場合の処理手順を図６に示すフローチャートにより説明する。
オーディオ信号が入力すると（ステップＳ６１）、音声種別の判別（ステップＳ６２）と各チャネルの音声信号に対する音声認識（ステップＳ６３）を行う。次に、ステップＳ５３で生成された複数の認識結果を比較し、音声種別の判別結果が例えば二カ国語信号または多言語信号の場合、前述のように各認識結果から同一信号区間の部分認識結果を差し引くことにより、所望言語の音声信号のみに対する最終認識結果を出力する（ステップＳ６４）。
【００４３】
上述した各実施形態では、主として入力されるオーディオ信号がテレビジョンなどの放送信号に含まれる音声多重信号であって、音声多重信号によってステレオ信号、二カ国語信号、多言語信号またはマルチチャネル信号などの複数の音声チャネル信号が提供される例について述べたが、これら複数の音声チャネル信号が独立したチャネルによって提供される場合についても同様に実施ができる。
【００４４】
また、上述した各実施形態の音声認識処理の一部または全部をソフトウェアにより実行することも可能である。従って、本発明によると以下のようなコンピュータプログラムを提供することができる。
【００４５】
（１）音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号の音声種別を判別する処理と、前記オーディオ信号に対して前記音声種別の判別結果に従った処理を行うことより、前記オーディオ信号から前記音声信号を抽出する処理と、抽出された音声信号を認識する処理とを含む音声認識処理をコンピュータに行わせるためのプログラム。
【００４６】
（２）音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号の音声種別を判別する処理と、前記複数チャネルのオーディオ信号に対して個別に音声認識を行って複数の認識結果を得る処理と、前記複数の認識結果を比較し、一致する区間の認識結果を削除することにより最終認識結果を得る処理とを含む音声認識処理をコンピュータに行わせるためのプログラム。
【００４７】
その他、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【００４８】
【発明の効果】
以上述べたように、本発明によれば入力されるオーディオ信号に含まれる非音声信号の影響を受けることなく、音声信号に対して精度の高い認識結果を得ることができる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態に係る音声認識装置の構成を示すブロック図
【図２】同実施形態におけるオーディオ信号入力部の具体例を説明するためのブロック図
【図３】テレビジョン放送における音声多重信号の周波数スペクトルを示す図
【図４】同実施形態における音声認識の手順を示すフローチャート
【図５】本発明の第２の実施形態に係る音声認識装置の構成を示すブロック図
【図６】同実施形態における音声認識の手順を示すフローチャート
【符号の説明】
１１：オーディオ信号入力部
１２：オーディオ信号
１２Ａ：主音声チャネル信号
１２Ｂ：副音声チャネル信号
１３：制御信号
１４：音声種別判別部
１５：判別結果
１６：音声信号抽出部
１７：音声信号
１８：音声認識部
１９：認識結果
１９Ａ，１９Ｂ：個別認識結果
５１：認識結果比較部
５２：最終認識結果

Claims

音声信号と非音声信号を含むオーディオ信号を入力するステップと、
前記オーディオ信号の音声種別を判別するステップと、
前記オーディオ信号に対して前記音声種別の判別結果に従った処理を行うことより、前記オーディオ信号から前記音声信号を抽出するステップと、
抽出された音声信号を認識するステップとを具備する音声認識方法。
音声信号と非音声信号を含むオーディオ信号を入力する入力部と、
前記オーディオ信号の音声種別を判別する判別部と、
前記オーディオ信号に対して前記音声種別の判別結果に従った信号処理を行うことより、前記オーディオ信号から前記音声信号を抽出する抽出部と、
前記抽出部により抽出された音声信号を認識する音声認識部とを具備する音声認識装置。
前記判別部は、前記音声種別がモノラル信号、ステレオ信号、マルチチャネル信号、二カ国語信号及び多言語信号のいずれかであるかを判別する請求項２記載の音声認識装置。
前記判別部は、前記音声種別が左チャネル信号と右チャネル信号を含むステレオ信号であるか否かを判別し、
前記抽出部は、前記判別部により前記音声種別がステレオ信号と判別された場合に、前記左チャネル信号及び右チャネル信号の位相差を利用した信号処理により前記音声信号の抽出を行う請求項２記載の音声認識装置。
前記抽出部は、前記左チャネル信号及び右チャネル信号の差をとって前記非音声信号を抽出し、前記左チャネル信号または右チャネル信号から前記非音声信号を差し引くことにより前記音声信号の抽出を行う請求項４記載の音声認識装置。
前記判別部は、前記音声種別がマルチチャネル信号であるか否かを判別し、
前記抽出部は、前記判別部により前記音声種別がマルチチャネル信号と判別された場合に、前記マルチチャネル信号の位相差を利用した信号処理により前記音声信号の抽出を行う請求項２記載の音声認識装置。
前記判別部は、前記音声種別が主音声チャネル信号と副音声チャネル信号を含む音声多重信号であるか否かを判別し、
前記抽出部は、前記判別部により前記音声種別が前記音声多重信号と判別された場合に、前記主音声チャネル信号及び副音声チャネル信号に共通の信号を前記主音声チャネル信号または副音声チャネル信号から差し引く信号処理によって前記音声信号の抽出を行う請求項２記載の音声認識装置。
前記判別部は、前記音声種別が第１言語の第１音声チャネル信号と第２言語の第２音声チャネル信号を含む二カ国語信号であるか否かを判別し、
前記抽出部は、前記判別部により前記音声種別が前記二カ国語信号と判別された場合に、前記第１音声チャネル信号及び第２音声チャネル信号に共通の信号を前記第１音声チャネル信号または第２音声チャネル信号から差し引く信号処理によって前記音声信号の抽出を行う請求項２記載の音声認識装置。
複数の音声チャネル信号を含むオーディオ信号を入力するステップと、
前記オーディオ信号の音声種別を判別するステップと、
前記複数チャネルの音声信号に対し個別に音声認識を行って複数の認識結果を生成するステップと、
前記複数の認識結果を比較し、一致する区間の部分認識結果を削除して最終認識結果を得るステップとを具備する音声認識方法。
複数の音声チャネル信号を含むオーディオ信号を入力する入力部と、
前記オーディオ信号の音声種別を判別する判別部と、
前記複数の音声チャネル信号に対し個別に音声認識を行って複数の認識結果を生成する音声認識部と、
前記複数の認識結果を比較し、一致する区間の部分認識結果を削除して最終認識結果を得る認識結果比較部とを具備する音声認識装置。
前記判別部は、前記音声種別が第１言語の第１音声チャネル信号と第２言語の第２音声チャネル信号を含む二カ国語信号であるか否かを判別し、
前記音声認識部は、前記第１音声チャネル信号及び第２音声チャネル信号に対して個別に音声認識を行って第１の認識結果及び第２の認識結果を生成し、
前記認識結果比較部は、前記第１の認識結果及び第２の認識結果が一致する区間の部分認識結果を前記第１の認識結果及び第２の認識結果の少なくとも一方から削除して前記最終認識結果を得る請求項９記載の音声認識装置。
前記判別部は、前記音声種別が言語の異なる複数の音声チャネル信号を含む多言語信号であるか否かを判別し、
前記音声認識部は、前記複数の音声チャネル信号に対して個別に音声認識を行って複数の認識結果を生成し、
前記認識結果比較部は、前記複数の認識結果が一致する区間の部分認識結果を前記複数の認識結果の少なくとも一つから削除して前記最終認識結果を得る請求項９記載の音声認識装置。
前記判別部は、前記音声種別が主音声チャネル信号と副音声チャネル信号を含む音声多重信号であるか否かを判別し、
前記音声認識部は、前記主音声チャネル信号及び副音声チャネル信号に対して個別に音声認識を行って第１の認識結果及び第２の認識結果を生成し、
前記認識結果比較部は、前記第１の認識結果及び第２の認識結果が一致する区間の部分認識結果を前記第１の認識結果及び第２の認識結果の少なくとも一方から削除して前記最終認識結果を得る請求項９記載の音声認識装置。
音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号の音声種別を判別する処理と、
前記オーディオ信号に対して前記音声種別の判別結果に従った信号処理を行うことより、前記オーディオ信号から前記音声信号を抽出する処理と、
抽出された音声信号を認識する処理とを含む音声認識処理をコンピュータに行わせるためのプログラム。
音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号の音声種別を判別する処理と、
前記複数チャネルのオーディオ信号に対して個別に音声認識を行って複数の認識結果を得る処理と、
前記複数の認識結果を比較し、一致する区間の認識結果を削除することにより最終認識結果を得る処理とを含む音声認識処理をコンピュータに行わせるためのプログラム。